Mathematische und statistische Methoden II

Werbung
Statistik &
Methodenlehre
Prof. Dr. G.
Meinhardt
6. Stock, Wallstr. 3
(Raum 06-206)
Sprechstunde
jederzeit nach
Vereinbarung und
nach der
Vorlesung.
Mathematische und
statistische Methoden II
Dr. Malte Persike
 [email protected]
 http://psymet03.sowi.uni-mainz.de/
SoSe 2011
Fachbereich Sozialwissenschaften
Psychologisches Institut
Johannes Gutenberg Universität Mainz
Folie 1
Statistik &
Methodenlehre
Diskrete Verteilungen
Inferenzstatistik
Inhalte
dieser Sitzung
 Tabellarische Darstellung von
Wahrscheinlichkeitsverteilungen
 Eine Zahl für Alles: Kennwerte
 Bilder sagen mehr als Worte: Grafische Darstellung
 Was ist eine große Zahl – Einführung in das
statistische Testen
 Binomial- und Poisson-Test
Folie 2
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Recap
Kennwerte
Grafiken
 Die Binomial- und Poissonverteilung beschreiben
die Auftretenswahrscheinlichkeiten einer 0/1kodierten Zufallsvariablen bei n Trials
 Es wird immer angenommen, dass der
Stichprobenraum eines Trials definiert ist als
 = {Misserfolg, Erfolg}  X() = {0,1}
 Ein Elementarereignis des gesamten BernoulliExperimentes mit n Trials ist so immer eine Folge
von n Nullen bzw. Einsen.
Folie 3
 Die Anzahl von Erfolgen ist einfach die Summe der
Trialrealisationen.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: univariate Kreuztabellen
Kennwerte
Grafiken
 Die vollständige numerische Darstellung der
Wahrscheinlichkeitsverteilung oder
Verteilungsfunktion wird über so genannte
Kreuztabellen (oder Kontingenztabellen)
vorgenommen.
Wert von X
x1
x2
…
xi
…
xk
Folie 4
f(X = xi)
h(x1)
h(x2)
…
h(xi)
…
h(xk)
F(X = xi)
f(x1)
f(x2)
…
f(xi)
…
f(xk)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
Grafiken
 Oft betrachtet man Wahrscheinlichkeiten für das
gemeinsame Auftreten zweier Merkmale
(bivariat)
 Beispiel: Frauen/Männer, die unter-/normal/übergewichtig sind
 In diesem Fall werden 2 Variablen betrachtet:
X: Geschlecht (x1, x2)
Y: Gewichtsstatus (y1, y2, y3)
 Die Wahrscheinlichkeiten sind Verbundwahrscheinlichkeiten, die das Vorkommen jeder
möglichen Kombination aus x und y beschreiben
Folie 5
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
 Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(x1,y1)
f(x2,y1)
Gewicht Normal (y2)
f(x1,y2)
f(x2,y2)
Über (y3)
f(x1,y3)
f(x2,y3)
Σ
f(x1,●)
f(x2,●)
Folie 6
Randhäufigkeiten
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
 Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
 Varianten: Kreuztabellen der unbedingten
Verbundwahrscheinlichkeiten oder Kreuztabellen der
bedingten Wahrscheinlichkeiten.
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(x1 | y1)
f(x2 | y1)
Gewicht Normal (y2)
f(x1 | y2)
f(x2 | y2)
Über (y3)
f(x1 | y3)
f(x2 | y3)
Σ
f(x1,●)
f(x2,●)
Folie 7
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: multivariate Kreuztabellen
Kennwerte
 Tabellarische Darstellung über bivariate
Kreuztabellen
Grafiken
 Varianten: Kreuztabellen der unbedingten
Verbundwahrscheinlichkeiten oder Kreuztabellen der
bedingten Wahrscheinlichkeiten.
Geschlecht
Männlich (x1) Weiblich (x2)
Unter (y1)
f(y1 | x1)
f(y1 | x2)
Gewicht Normal (y2)
f(y2 | x1)
f(y2 | x2)
Über (y3)
f(y3 | x1)
f(y3 | x2)
Σ
f(x1,●)
f(x2,●)
Folie 8
Σ
f(●,y1)
f(●,y2)
f(●,y3)
f(●,●)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Kennwerte
Kennwerte
Grafiken
 Als Kennwert bezeichnet man ein statistisches
Maß, das eine Wahrscheinlichkeitsverteilung über
zumeist nur eine Zahl beschreibt
 Kennwerte dienen der Informationsreduktion,
um die Eigenschaften einer Verteilung möglichst
sparsam zu beschreiben
 Kennwerte charakterisieren immer nur bestimmte
Eigenschaften der gegebenen Verteilung, sie
bedeuten also einen Informationsverlust
Folie 9
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Erwartungswert
Kennwerte
Grafiken
 Die Lage der Wahrscheinlichkeitsverteilung einer
Zufallsvariablen X wird durch den Erwartungswert von
X, geschrieben als E(X), charakterisiert.
 Oft wird E(X) alternativ als  („mü“) bezeichnet
 Der Erwartungswert kann als Maß verstanden werden,
das den Schwerpunkt einer Verteilung kennzeichnet.
 Der Erwartungswert ist für die theoretische
Wahrscheinlichkeitsverteilung das, was der Mittelwert
für die empirische Häufigkeitsverteilung ist.
Folie 10
 Der Erwartungswert einer Zufallsvariablen erfordert
keine Beobachtungen, sondern bezieht sich auf die
theoretische Wahrscheinlichkeitsverteilung.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Erwartungswert
Kennwerte
Grafiken
 Für eine diskrete Zufallsvariable X mit endlich vielen
Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi)
ergibt sich der Erwartungswert über
k
E ( X )     pi xi
i 1
  kann als gewichtetes Mittel der möglichen Realisationen
einer Zufallsvariablen aufgefasst werden, wobei die
Wahrscheinlichkeiten die Gewichte darstellen.
 Dabei gilt:
Folie 11
E ( a  X  b)  a  E  X   b
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Varianz
Kennwerte
Grafiken
 Die Breite der Wahrscheinlichkeitsverteilung einer
Zufallsvariablen X wird durch die Varianz von X,
geschrieben ²(X), charakterisiert.
 Oft wird ²(X) abgekürzt zu ² („sigma Quadrat“).
 Die Varianz kann als Maß verstanden werden, die die
Ausdehnung der Wahrscheinlichkeitsverteilung um den
Erwartungswert herum beschreibt.
 Die Varianz einer Zufallsvariablen erfordert keine
Beobachtungen, sondern bezieht sich auf die
theoretische Wahrscheinlichkeitsverteilung.
Folie 12
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Varianz
Kennwerte
Grafiken
 Für eine diskrete Zufallsvariable X mit endlich vielen
Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi)
ergibt sich die Varianz über
E  X  E  X   
2
k
2
 X    pi  xi   
2
i 1
 ²(X) kann als gewichtetes Mittel der quadrierten
Abweichungen der möglichen Realisationen einer
Zufallsvariablen zum Erwartungswert aufgefasst werden,
wobei die Wahrscheinlichkeiten die Gewichte darstellen.
Folie 13
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Numerische Beschreibung: Standardabweichung
Kennwerte
Grafiken
 Die Varianz erfüllt nicht die Forderung der Proportionalität
bei der Multiplikation der Zufallsvariablen mit einem festen
Wert a.
 ²(a  X )  a   2  X 
 Es gilt also nicht
sondern statt dessen
 ²(a  X )  a 2   2  X 
 Dieses Problem wird durch Wurzelziehen beseitigt. Man
erhält so die Standardabweichung (X), abgekürzt
einfach  („sigma“).
 X   2X 
Folie 14
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Einfache Rechenregeln für Kennwerte
Kennwerte
Grafiken
Für eine binomialverteilte Zufallsvariable X mit der
Wahrscheinlichkeitsverteilung f(m, n, p) gilt
1.  = n · p
Erwartungswert
2. ² = n · p · q
Varianz
3.  =
Standardabweichung
n·p·q
Nur für X()={0,1}
Folie 15
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Einfache Rechenregeln für Kennwerte
Kennwerte
Grafiken
Für eine poisssonverteilte Zufallsvariable X mit der
Wahrscheinlichkeitsverteilung f(, n) gilt
1.  = 
Erwartungswert
2. ² =  · (1-/n)  
Varianz
3.  = 
Standardabw.
für große
n (siehe 2.)
Nur für X()={0,1}
Folie 16
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
Folie 17
 Frage: Wie berechnet sich der Erwartungswert für
eine binomialverteilte, aber nicht 0/1-kodierte
Zufallsvariable?
 Beispiel: Die Wahrscheinlichkeit, ohne
Mammografie an Brustkrebs zu erkanken, betrage
p=0.1. Eine Brustkrebspatientin verursacht Krankheitskosten von etwa 28.500€. Die regelmäßige
Brustkrebsvorsorge durch Mammografie kostet
9.000€, senkt aber das Brustkrebsrisiko auf
p=0.05. Eine Krankenversicherung beauftragt einen
Gesundheitspsychologen zu berechnen, ob sie
billiger wegkommt, wenn sie ihren weiblichen
Mitglieder kostenlose Mammografien verordnet.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
 Man hat hier zwei Zufallsvariablen mit eigentlich
folgenden Eigenschaften:
X = {0, 1}
Y = {0, 1}
p(X) = {0.9, 0.1}
p(Y) = {0.95, 0.05}
mit 0 = kein Brustkrebs, 1 = Brustkrebs.
 Man geht nun davon aus, dass die neue
Zufallsvariable „Kosten“ nur eine mathematische
Transformation der Zufallsvariable „Häufigkeit“ ist.
 Die neue Zufallsvariable erbt wieder die Wahrscheinlichkeitsverteilung der alten Zufallsvariablen.
Folie 18
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
 Es gilt also für die neue Zufallsvariable „Kosten“:
X‘ = {0, 28.500}
Y‘ = {9.000, 28.500}
p(X‘) = {0.9, 0.1}
p(Y‘) = {0.95, 0.05}
 Daraus lässt sich nun wie üblich der
Erwartungswert  bestimmen als p‘ix‘i.
 Und die Varianz ist dementsprechend
 Man kann nun mathematische Beziehungen für die
Veränderung von Erwartungswert und Varianz bei
der Transformation von Zufallsvariablen herleiten
Folie 19
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
 Voraussetzung: Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X mit beliebig
vielen Ausprägungen sei bekannt.
 x1
x
 2
X 

 xk
Folie 20
 p1
p
 2
p( X )  

 pk
k
 X   pi  xi
i 1
k
   pi   xi   X 
2
X
2
i 1
Oder x und ² sind direkt
berechenbar (z.B. bei der
Binomialverteilung mit 0/1)
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
 Variante 1: Die neue Zufallsvariable X‘ ist eine
einfache mathematische Transformation (Multiplikation und Addition) der alten Zufallsvariablen X.
X '  a X b
 Dann gilt
Folie 21
X '  a  b  X
 X2 '  a 2   X2
 Der Erwartungswert verändert sich also genau so
wie die Zufallsvariable, die Varianz wächst mit dem
Quadrat des Multiplikators.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Transformation der Zufallsvariablen
Kennwerte
Grafiken
 Variante 2: Die neue Zufallsvariable X‘ ist eine
beliebige Transformation der alten Zufallsvariablen X.
 x '1
x '
 2
X '
 
 x 'k
 p1
p
 2
p ( X ')  

 pk
k
 Dann muss neu
gerechnet werden:
Folie 22
 X '   pi  x 'i
i 1
k
 X2 '   pi   x 'i   X ' 
i 1
2
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Kreisdiagramm
Kennwerte
Grafiken
 Das Kreis- oder Tortendiagramm stellt die
Wahrscheinlichkeiten von Ausprägungen einer
Zufallsvariablen als Kreissegmente eines Vollkreises
(„Tortenstücke“) dar.
 Der Öffnungswinkel α eines Segmentes ist dabei durch
die Wahrscheinlichkeit der Ausprägung p(xi) definiert
  360  p( xi )
 Die Summe der Öffnungswinkel aller Kreissegmente
sollte wieder 360° ergeben
Folie 23
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Kreisdiagramm
Kennwerte
Grafiken
Folie 24
Beispiel: Die Wahrscheinlichkeit, in einem Experiment zur
visuellen Wahrnehmung einen epileptischen Anfall zu
bekommen, betrage p=0.0017. An einem konkreten
Experiment sollen n=200 Personen teilnehmen.
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Grafiken
 Das Säulen- oder Balkendiagramm stellt die
Wahrscheinlichkeiten von Ausprägungen einer
Zufallsvariablen als Balken (waagerecht) oder
Säulen (senkrecht) dar.
 Der Länge der Säulen bzw. Balken ist dabei
durch die Wahrscheinlichkeit p(xi) bestimmt.
 Die Breite der Säulen bzw. Balken variiert i.d.R.
nicht innerhalb eines Diagramms
 Zur Darstellung den Wahrscheinlichkeitsverteilung
bzw. Verteilungsfunktion wird zwischen den
Säulen bzw. Balken zumeist kein Raum gelassen
Folie 25
Statistik &
Methodenlehre
Kreuztabellen
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Grafiken
Beispiel: Das Neuroleptikum Tavor führt bei längerer
Einnahme mit einer Wahrscheinlichkeit von p=0.73 zu
Abhängigkeit. In einer Langzeittherapiestudie soll das
Medikament an n=10 Personen eingesetzt werden.
Verteilungsfunktion F(x, 10, 0.73)
Punktwahrscheinlichkeit p(x)
Intervallwahrscheinlichkeit P(x)
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Anzahl Abhängigkeitsfälle x
Folie 26
Anzahl Abhängigkeitsfälle x
Statistik &
Methodenlehre
Diskrete Verteilungen
Inferenzstatistik
Diskrete Wk-Verteilungen
Kreuztabellen
Grafische Beschreibung: Säulendiagramm
Kennwerte
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Wahrscheinlichkeitsverteilung f(x, 10, 0.73)
Punktwahrscheinlichkeit p(x)
Punktwahrscheinlichkeit p(x)
Grafiken
Warum gleiche Säulenbreiten?
Anzahl Abhängigkeitsfälle x
Anzahl Abhängigkeitsfälle x
Menschen neigen zur Größenbewertung anhand der Fläche.
Folie 27
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
Gustav Fechner, Urvater der Experimentellen Psychologie,
entwickelte zentrale Methoden der modernen Psychophysik
mit genau einem Ziel: den Beweis zu führen, dass Pflanzen
eine Seele haben.
Er perfektionierte eine Methode der Mikrostimulation, auf die
hin er eine biologische Reaktion und bei Pflanzen nachweisen
wollte. Eine solche Reaktion wäre der Beleg, dass Pflanzen
fühlen können. Damit wäre es zum Denken und schließlich
zur Seele nicht mehr weit.
Fechner führte insgesamt n=24576 Messungen von ReizReaktionsmusters bei Pflanzen durch.
Folie 28
Angenommen, Pflanzen zeigen die gewünschte Reaktion
auch ohne Stimulation (d.h. zufällig) mit einer
Wahrscheinlichkeit von p=.25. Fechner möge eine Reaktion in
x=6306 Fällen finden. Haben Pflanzen eine Seele?
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Das Ziel Fechners war die Beantwortung der Frage, ob
Pflanzen eine Seele haben
 Die Beantwortung sollte sich nach Möglichkeit auf die Population aller Pflanzen
beziehen, nicht nur auf die Stichprobe
der Pflanzen in Fechners Labor
 Es sind also Methoden erforderlich, welche
die Verallgemeinerung von Beobachtungen
in einer Stichprobe auf die zugrunde
liegende Population erlauben
 Diese Methoden stellt die Inferenzstatistik („schließende Statistik“) zur
Verfügung
Folie 29
Population
?
Daten
(beobachtet)
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Es existieren eine Vielzahl inferenzstatistischer Tests für
nahezu beliebige Arten von Hypothesen, z.B.
Binomialtest
 Gehört ein Messwert (und damit sein Merkmalsträger) zu
einer bestimmten Population?
Poissontest
 Sind Häufigkeiten verschieden?
 Sind die Mittelwerte von Messwerten zwischen Gruppen
unterschiedlich?
 Sind die Varianzen von Messwerten zwischen Gruppen
unterschiedlich?
 Hängt die Ausprägung eines Merkmals mit einer
bestimmten Intervention zusammen?
Folie 30
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
 Wenn die Wahrscheinlichkeitsfunktion eines
Zufallsexperimentes theoretisch bekannt ist, können die
bei einer Durchführung erwarteten empirischen
Häufigkeiten bestimmt werden.
Poissontest
 Beobachtete absolute oder relative Häufigkeiten können
dann mit den erwarteten Häufigkeiten verglichen werden.
 Wenn eine beobachtete Häufigkeit zu stark von der
theoretischen Wahrscheinlichkeit abweicht, kann die
Wahrscheinlichkeitsfunktion als nicht zutreffend
betrachtet werden.
 Entweder sind dann ihre Parameter falsch definiert oder
die Funktion selbst ist nicht zutreffend.
Folie 31
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
 Grundgedanke: Eine beobachtete Häufigkeit x einer
Zufallsvariablen X in einem Bernoulli Experiment sollte
im Bereich „typischer“ erwarteter Häufigkeiten liegen.
Binomialtest
 Diese erwarteten Häufigkeiten hängen von der Anzahl
der Versuche n und der Erfolgswahrscheinlichkeit p ab,
z.B. bei der Binomialverteilung
Poissontest
 n  x n x
f ( x , n, p )    p q
 x
 Weicht eine beobachtete Häufigkeit stark von der
erwarteten Häufigkeit ab, ist die Abweichung vermutlich
nicht zufällig, sondern systematisch.
Folie 32
 Die Beobachtung ist dann statistisch signifikant.
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
 Problem I: Ist es sinnvoll, die Punktwahrscheinlichkeit
f(X = x) zur Bewertung heranzuziehen?
p(X=10) = 0.144
p(X≤10) ≈ 0.5
Poissontest
p(X=100) = 0.046
p(X≤100) ≈ 0.5
Folie 33
 Beim statistischen Testen ist also immer nach einer
Intervallwahrscheinlichkeit gefragt.
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
Binomialtest
Poissontest
 Aus einer inhaltlichen Hypothese wie
Wenn Pflanzen mikrostimuliert werden, zeigen sie
eine bestimmte biologische Reaktion
ist zunächst eine statistische Hypothese zu
formulieren
 Jede statistische Hypothese ist im Grunde nicht mehr als
die Annahme, dass eine bestimmte Wahrscheinlichkeitsverteilung auf eine gegebene Zufallsvariable zutrifft
 Im ersten Schritt der Hypothesenbildung muss also die
Wahrscheinlichkeitsverteilung festgelegt werden, aus der
die Beobachtungen vermutlich kommen
Folie 34
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
 Die Festlegung der Wahrscheinlichkeitsverteilung der
beobachteten Zufallsvariablen wird als Verteilungsannahme bezeichnet
Binomialtest
 Die Verteilungsannahme umfasst die Festlegung der
Form der Wahrscheinlichkeitsverteilung (z.B. Binomial,
Poisson) sowie die Festlegung ihrer Parameter
(z.B. n und p bei der Binomialverteilung)
Poissontest
 Für eine gegebene Beobachtung x aus einer Zufallsvariablen X gibt es nun grundsätzlich zwei Hypothesen:
Nullhypothese: x stammt aus der angenommenen
H0
Wahrscheinlichkeitsverteilung
Folie 35
Alternativhypothese:
H1
x stammt nicht aus der
angenommenen Verteilung
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen
Hypothesen
Binomialtest
Poissontest
 Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
 Frage: Ist dieses x vereinbar mit der angenommenen
Wahrscheinlichkeitsverteilung (H0 = „ja“, H1 = „nein“)?
 Im Grunde handelt es sich bei der Antwort auf diese
Frage um eine bedingte Wahrscheinlichkeit, nämlich
p (Beobachtung x | Hypothese)
also die Wahrscheinlichkeit, dass die Beobachtung x
zustande kommt, gegeben, dass die H0 oder H1 gilt.
Folie 36
 p(Beobachtung | H0/1) wird auch als Likelihood bezeichnet
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Statistische Hypothesen und ihre Interpretation
Hypothesen
Die bedingte Wahrscheinlichkeit p(Beobachtung | H0/1) ist nicht
Binomialtest
 die Wahrscheinlichkeit p(Ergebnis).
Dies ist einfach die Grundwahrscheinlichkeit für die
Beobachtung (bei stetigen ZV immer 0).
Poissontest
 die Wahrscheinlichkeit p(H0) bzw. p(H1) = 1 – p(H0).
Die „wahre“ H0 und H1 haben keine Wahrscheinlichkeit.
Entweder trifft die eine oder die andere zu
 die Wahrscheinlichkeit p(H0/1 | Ergebnis).
Dies ist eine so genannte a-Posteriori Wahrscheinlichkeit,
die beschreibt, mit welcher Wahrscheinlichkeit die H0
anzunehmen ist, wenn das beobachtete Ergebnis
gemessen wurde (siehe Satz von Bayes)
Folie 37
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Beim statistischen Testen von Hypothesen fragen wir wie
gesehen immer nach Intervallwahrscheinlichkeiten
 Man unterscheidet zwei verschiedene Varianten

H 0 : p ( X  xi )  Verwerfen der Verteilungsannahme

H1 : p ( X  xi )  bei einer zu großen Beobachtung
H 0 : p ( X  xi )  Verwerfen der Verteilungsannahme

H1 : p ( X  xi )  bei einer zu kleinen Beobachtung
„Einseitige“ oder „gerichtete“ Hypothese

Folie 38
H 0 : p ( xi  X  x j )  Verwerfen der Verteilungsannahme

H1 : p ( xi  X  x j )  bei einer zu extremen Beobachtung
„Zweiseitige“ oder „ungerichtete“ Hypothese
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Beim statistischen Testen von Hypothesen fragen wir wie
gesehen immer nach Intervallwahrscheinlichkeiten
 Man unterscheidet zwei verschiedene Varianten

H 0 : p ( X  xi )  Verwerfen der Verteilungsannahme

H1 : p( X  xi )  bei einem noch größeren Wert
H 0 : p ( X  xi )  Verwerfen der Verteilungsannahme

H1 : p( X  xi )  bei einem noch kleineren Wert
„Einseitige“ oder „gerichtete“ Hypothese

Folie 39
HWird
( xi einigen
X  x jTests,
)  vor
Verwerfen
derasymmetrischer
Verteilungsannahme
allem mit
Wahr0 : pbei

H
einem
noch extremeren
Wert
scheinlichkeitsverteilung
(z.B.
Binomial)
kaum verwendet
1 : 1  p ( xi  X  x j )  bei
„Zweiseitige“ oder „ungerichtete“ Hypothese
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Problem: Aufgrund der zufälligen Ziehung wird das
beobachtete x schwanken (Stichprobenfehler)
 Frage: Wie extrem muss das beobachtete x sein, damit
wir begründet annehmen können, dass diese
Beobachtung nicht passt  „Wie wahrscheinlich ist zu
unwahrscheinlich?“
 Hier haben sich in der Praxis zwei Cut-Off Werte
eingebürgert, die als α–Niveaus oder
Signifikanzniveaus bezeichnet werden.
 Es gilt:
Folie 40
p  0.05
 statistisch nicht signifikant
p  0.05
p  0.01
 statistisch signifikant
 statistisch hochsignifikant
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Problem: Aufgrund der zufälligen Ziehung wird das
beobachtete x schwanken (Stichprobenfehler)
 Frage: Wie extrem muss das beobachtete x sein, damit
wir begründet annehmen können, dass diese
Beobachtung nicht passt Schreibe:
„Wie wahrscheinlich
ist zu auf
„Es wird getestet
unwahrscheinlich?“
einem Signifikanzniveau von …“
α = .05 oder
 Hier haben sich in der Praxis zwei Cut-Off Werte
α = .01
eingebürgert, die als α–Niveaus oder
Signifikanzniveaus bezeichnet werden.
 Es gilt:
Folie 41
p  0.05
 statistisch nicht signifikant
p  0.05
p  0.01
 statistisch signifikant
 statistisch hochsignifikant
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Die Aussage, ein x sei statistisch signifikant, ist eine
Wahrscheinlichkeitsaussage bei der immer ein
Restirrtum verbleibt, die Irrtumswahrscheinlichkeit.
 Diese Irrtumswahrscheinlichkeit hängt nicht von der
konkret erhaltenen Wahrscheinlichkeit p ab, sondern vom
gewählten Signifikanzniveau α.
 Bei α=0.05 beträgt die Irrtumswahrscheinlichkeit also
5%, bei α=0.01 ist sie 1%.
 In der Praxis wird das α-Niveau deshalb oft auch als
Irrtumswahrscheinlichkeit oder α-Fehler bezeichnet.
Folie 42
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
 Bei der Entscheidung für die H0 oder H1 können je zwei
Arten richtiger/falscher Entscheidungen getroffen werden
In der Population gilt
Binomialtest
Poissontest
H0
H0
H1
Correct
Rejection
Miss
Entscheidung für
H1
Folie 43
False Alarm
(-Fehler,
Fehler 1. Art)
(-Fehler,
Fehler 2. Art)
Hit
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Binomialtest
Poissontest
 Die Hypothesenrichtung muss vor dem Experiment
festgelegt werden
 Ebenso muss das Signifikanzniveau vor dem
Experiment festgelegt werden
 Finden diese Festlegungen erst nach Ansehen der Daten
statt, kann nicht mehr von der bedingten Wahrscheinlichkeit p(Daten|Hypothese) ausgegangen werden
 Das Forschungsergebnis wird dann an die Daten
angepasst  Data Snooping
Folie 44
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens
Hypothesen
Beobachtung im Experiment: X=x
Frage: Kann x aus einer bestimmten Verteilung stammen?
Binomialtest
Poissontest
Geht die Höhe der Häufigkeit auf einen Stichprobenfehler zurück?
(1) Bestimmung der Verteilung der Zufallsvariablen X
(2) Festlegung eines Signifikanzniveaus α
(3) Berechnung der Wahrscheinlichkeit für dieses x unter
Annahme der H0, z. B. p(X≤x)
(4) Vergleich von p mit α und
Treffen der Signifikanzaussage
Folie 45
Aber: Bei dieser
Aussage irrt man
sich mit einer
Wahrscheinlichkeit
von α·100%
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Binomialtest
Hypothesen
 Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
Binomialtest
1. Verteilungsannahme treffen: Binomial mit den
gegebenen n und p
Poissontest
2. Hypothesenrichtung festlegen und statistische
Hypothesen formulieren
3. Signifikanzniveau festlegen
4. Wahrscheinlichkeit für die beobachtete Realisation
bestimmen und mit dem Signifkanzniveau vergleichen
Folie 46
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Binomialtest
Hypothesen
Binomialtest
Poissontest
 Am Fechner Beispiel: Im Experiment mit einer
angenommenen Binomialverteilung f(x, n=24576, p=0.25)
beobachte man ein x=6306.
 Man berechnet die Auftretenswahrscheinlichkeit p(x|H0)
unter der Annahme, dass die angenommene
Häufigkeitsverteilung gilt.
 Man erhalte p(X ≤ x)=0.992 und damit p(X > x)=0.008.
 Per Konvention würden wir auf jedem α-Niveau sagen,
dass x eine signifikant abweichende Beobachtung ist.
 Aber Achtung: Das x=6306 hat eine
Auftretenswahrscheinlichkeit von p(X>x)=0.008.
Mit diesem p kann es also auch dann vorkommen, wenn
die angenommene Binomialverteilung zutrifft.
Folie 47
Statistik &
Methodenlehre
Einführung
Diskrete Verteilungen
Inferenzstatistik
Inferenzstatistik – Primer
Das Prinzip des statistischen Testens – Poissontest
Hypothesen
Binomialtest
Poissontest
 Dieselbe Testlogik wie beim Binomialtest kann auch für
die Poissonverteilung angenommen werden.
 Beispiel: Die Wahrscheinlichkeit, als Patient während
einer Höhenangstexposition einen Kreislaufkollaps zu
erleiden, betrage deutschlandweit p=0.0003. Bei jährlich
1093 Patienten in der Mainzer Psychotherapieambulanz
hat es keinen solchen Fall gegeben.
1. Verteilungsannahme treffen: Poisson mit gegebenem λ
2. Hypothesenrichtung festlegen und statistische
Hypothesen formulieren
3. Signifikanzniveau festlegen
Folie 48
4. Wahrscheinlichkeit für die beobachtete Realisation
bestimmen und mit dem Signifkanzniveau vergleichen
Statistik &
Methodenlehre
Relevante Excel Funktionen
 Diskrete Wahrscheinlichkeitsverteilungen
• BINOM.VERT()
• POISSON.VERT()
oder EXP() und POTENZ() bzw. ^ („hoch“)
• SUMME(), PRODUKT()
Folie 49
Herunterladen