Elementarstatistik für Umweltwissenschaftler Skript zur Vorlesung Wintersemester 2010/2011 von Dr. Dominik Faas Institut für Mathematik Fachbereich 7: Natur- und Umweltwissenschaften Universität Koblenz-Landau Ein besonderer Dank geht an Dr. Martin Becker und Dr. Stefan Klößner. Literatur zur Vorlesung Hartung Statistik, Lehr und Handbuch der angewandten Statistik Fahrmeir, Künstler, Pigeot, Tutz Statistik Fahrmeir, Künstler, Pigeot, Tutz Arbeitsbuch Statistik Crawley The R Book 1 Parameterschätzungen und Konfidenzintervalle Binomialverteilungen 1.) Einführung der Verteilung Bei einem Vorgang kann eine bestimmte Möglichkeit eintreten oder nicht (kurz: Treffer oder kein Treffer). Die Wahrscheinlichkeit für einen Treffer ist p ∈ [0, 1], entsprechend ist die Wahrscheinlichkeit für keinen Treffer 1 − p. Der Vorgang wird n-mal wiederholt (man sagt: n Versuche werden durchgeführt). Die einzelnen Versuche sind unabhängig voneinander (d.h. ein Treffer bei einem Versuch hat keinen Einfluss auf die Wahrscheinlichkeit, dass beim nächsten Versuch wieder ein Treffer eintritt) und finden alle unter den gleichen Bedingungen statt. Die Anzahl der Treffer ist k ∈ {0, . . . , n}. Falls p bekannt ist, wie groß ist dann die Wahrscheinlichkeit für genau k Treffer bei n Versuchen? Die Wahrscheinlichkeit beträgt n W (k Treffer) = B(n, p, k) = ( )pk ⋅ (1 − p)n−k k (Man sagt: Die Anzahl der Treffer ist binomialverteilt.) n=40, p=0.8 n=1000, p=0.06 ● 0.15 ● ● ● ● ● ● 0.05 0.25 n=10, p=0.4 ● ● ●● ● 0.04 0.03 W(k Treffer) ● 0.01 ● 2 4 6 8 10 ●●●●●●●●●●●●●●●●●●●●●●●●● ● 0 10 k 20 ● ● ●● 30 40 0.00 ● 0.00 0.00 0 ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.02 ● 0.05 0.10 ● ● ● ● 0.10 W(k Treffer) 0.15 ● ● 0.05 W(k Treffer) 0.20 ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 k 600 800 k In R berechnet man (nk)pk ⋅ (1 − p)n−k mit: dbinom(k, n, p). Man kann daraus auch die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl in einem bestimmten Bereich liegt: Es gilt k n n,p Fbinom (k) = W (höchstens k Treffer) = ∑ ( )pj ⋅ (1 − p)n−j j=0 j n,p Man nennt F = Fbinom die Verteilungsfunktion der Binomialverteilung: 3 1000 1 Parameterschätzungen und Konfidenzintervalle n=1000, p=0.06 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.8 ● 0.8 ●●●● 0.8 ● 0.6 ● 0.4 ● ● 1.0 n=40, p=0.8 ● 1.0 1.0 n=10, p=0.4 ● ● ● 0.6 ● ● ● F(k) F(k) ● 0.4 0.4 F(k) 0.6 ● ● ● ● ● ● 0.2 0.2 0.2 ● ● ● ● 0 2 4 6 8 10 ●●●●●●●●●●●●●●●●●●●●●●●●●● 0 10 k 20 ● ● 0.0 0.0 0.0 ● ● 30 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 k 600 800 k n,p Man kann Fbinom (k) in R mit pbinom(k, n, p) berechnen. Es gilt n n n,p W (mindestens k Treffer) = ∑ ( )pj ⋅ (1 − p)n−j = 1 − Fbinom (k − 1) j j=k Es gilt m n n,p n,p W (Trefferzahl zwischen k und m) = ∑ ( )pj ⋅(1−p)n−j = Fbinom (m)−Fbinom (k−1) j j=k 2.) Schäzung für p Bisher können wir die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl in einem bestimmten Bereich liegt, wenn wir die Trefferwahrscheinlichkeit p kennen. In der Realität ist man häufig aber mit folgender Situation konfrontiert: Es sind n und k bekannt, aber nicht p. Wie kann man p sinnvoll schätzen? Genauer kann man unterscheiden: n feststehend und bekannt, k zufällig und bekannt, p feststehend aber unbekannt System mit Parameter p zufällig Ð→ Daten k methodisch Ð→ Schätzung für p Maximum-Likelihood-Methode: Die Wahrscheinlichkeit p wird so geschätzt, dass das die Wahrscheinlichkeit für das beobachtete Ergebnis (k Treffer) maximal ist. Die Funktion, die jedem p ∈ [0, 1] diese Wahrscheinlichkeit zuordnet ist hier: n L = Lk,n ∶ [0, 1] → [0, 1], L(p) = ( )pk ⋅ (1 − p)n−k k 4 1000 (L steht für Likelihood-Funktion) Wir suchen also die globale Maximumstelle der Funktion L. Es ergibt sich p = k n (vergleiche Graphen). Eine Schätzung für die unbekannte Wahrscheinlichkeit p nach der ML-Methode entspricht also der Anzahl der Treffer geteilt durch die Anzahl der Versuche. n = 50, k = 10 n = 400, n=400,k=250 0.02 W(k Treffer) 0.08 0.06 0.00 0.00 0.02 0.01 0.04 W(k Treffer) 0.10 0.03 0.12 0.04 0.14 n=50,k=10 k = 250 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 p 0.6 0.8 1.0 p Dabei bleiben aber zunächst offen, wie man die Qualität dieser Schätzung beurteilen kann. Wie sicher ist es, dass der ’wahre Wert’ von p in der Nähe des geschätzten Werts k n liegt. Kann man diese Sicherheit erhöhen, indem man die Versuchszahl n erhöht? Um diese Fragen zu beantworten, muss zunächst das Ergebnis der Schätzung umformuliert werden: Die Aussage: Es gilt exakt p = k . n ist offenbar nicht realistisch. Stattdessen lässt man eine (kleine) Ungenauigkeit zu und trifft eine Aussage der Form: Der unbekannte Wert p liegt in einem Intervall der Form [pU , pO ]. Dabei gibt es zunächst verschiedene Möglichkeiten, pU und pO aus den bekannten Gegebenheiten (hier die Trefferzahl k) zu schätzen. Symmetrisch um den Schätzwert: pU = k n Unsymmetrisch um den Schätzwert: pU = Nach oben offen: pU = k n − ε und pO = k n k n + ε. − ε1 und pO = k n + ε2 . − ε und pO = 1. Nach unten offen: pU = 0 und pO = k n + ε. Die Schätzung soll dabei ein gewisses Maß an Sicherheit bieten, d.h. falls p der (wahre) unbekannte Parameter ist, so soll die (Intervall-)Schätzung [pU , pO ] 5 1 Parameterschätzungen und Konfidenzintervalle diesen Wert p mit einer Wahrscheinlichkeit von mindestens δ enthalten. Die Zahl δ nennt man Vertrauensniveau oder Konfidenzniveau, übliche Werte für δ sind δ = 0.9 oder δ = 0.95. Ziel: Gib eine Methode an, mit der man aus k ein Intervall [pU , pO ] bestimmen kann, so dass die Wahrscheinlichkeit, dass p zu einem Intervall [pU , pO ] führt, das p enthält, auf jeden Fall (also für jeden denkbaren Wert von p) größer als δ ist. System mit Parameter p zufällig Ð→ Daten k methodisch Ð→ (Intervall-)Schätzung für p Für jeden möglichen Wert von p: W (k führt zu einer Schätzung, die p enthält) ≥ δ Eine sinnvolle Möglichkeit ist die Intervallschätzung nach Clopper-Pearson: Bei k Treffern aus n Versuchen bestimmt man pU und pO aus den Gleichungen n n 1−δ j n−j = ∑ ( )pU ⋅ (1 − pU ) j 2 j=k k n 1−δ j n−j = ∑ ( )pO ⋅ (1 − pO ) 2 j=0 j Äquivalente Gleichungen sind k−1 1+δ n j n−j = ∑ ( )pU ⋅ (1 − pU ) 2 j j=0 und n 1+δ n j n−j = ∑ ( )pO ⋅ (1 − pO ) j 2 j=k+1 (Sonderfall: Für k = 0 setze pU = 0, für k = n setze pO = 1.) k Der Ausdruck ∑ (nj)pO j ⋅ (1 − pO )n−j gibt die Wahrscheinlichkeit für höchstens j=0 k Treffer an, wenn die Trefferwahrscheinlichkeit pO ist. Man berechnet ihn in R mit: pbinom(k, n, pO ) n Der Ausdruck ∑ (nj)pU j ⋅(1−pU )n−j gibt die Wahrscheinlichkeit für mindestens j=k k Treffer an, wenn die Trefferwahrscheinlichkeit pU ist. Man berechnet ihn in R mit: 1 − pbinom(k − 1, n, pU ) Die Grenzen pU und pO des geschätzten Intervalls sind bei dieser Methode so gewählt, dass die Wahrscheinlichkeiten für eine Unterschätzung und eine Überschätzung von p durch dieselbe Grenze beschränkt sind. Genauer gilt W (p ist größer als pO ) ≤ 1−δ 2 und W (p ist kleiner als pU ) ≤ 1−δ 2 Zusammen ergibt sich damit W (p liegt außerhalb von [pU , pO ]) ≤ 1−δ 6 und folglich W (p liegt innerhalb von [pU , pO ]) ≥ δ Die Bestimmungsgleichungen für pU und pO sind nicht einfach lösbar. Beispiel: Wir führen eine Intervallschätzungen nach Clopper-Pearson zu den Konfidenzniveaus δ = 0.8 und δ = 0.6 mit der Versuchszahl n = 5 durch und erhalten in Abhängigkeit von k die folgenden Intervallschätzungen: k 0 1 2 3 4 5 ML-Schätzer p ≈ 0 0.2 0.4 0.6 0.8 1 δ = 0.8, p∈ [0, 0.370] [0.020, 0.584] [0.112, 0.754] [0.246, 0.888] [0.416, 0.980] [0.630, 1] δ = 0.6, p∈ [0, 0.275] [0.043, 0.491] [0.168, 0.674] [0.326, 0.832] [0.509, 0.957] [0.724, 1] Wir berechnen für verschiedene denkbare Werte von p, die Wahrscheinlichkeit für die ’Korrektheit’ unserer Schätzung. δ = 0.8 und p = 0.7 ⇒ Schätzung korrekt für k = 2, 3, 4, 5. Wahrscheinlich- keit: 10(0.7)2 (1−0, 7)3 +10(0.7)3 (1−0, 7)2 +5(0.7)4 (1−0, 7)1 +(0.7)5 ≈ 0.969 ≥ 0.8 δ = 0.8 und p = 0.4 ⇒ Schätzung korrekt für k = 1, 2, 3. Wahrscheinlichkeit: 5(0.4)(1 − 0.4)4 + 10(0.4)2 (1 − 0.4)3 + 10(0.4)3 (1 − 0.4)2 ≈ 0.835 ≥ 0.8 δ = 0.6 und p = 0.7 ⇒ Schätzung korrekt für k = 3, 4. Wahrscheinlichkeit: 10(0.7)3 (1 − 0, 7)2 + 5(0.7)4 (1 − 0, 7)1 ≈ 0.669 ≥ 0.6 δ = 0.6 und p = 0.4 ⇒ Schätzung korrekt für k = 1, 2, 3. Wahrscheinlichkeit: 5(0.4)(1 − 0.4)4 + 10(0.4)2 (1 − 0.4)3 + 10(0.4)3 (1 − 0.4)2 ≈ 0.835 ≥ 0.6 Das mathematische Modell garantiert, dass die Schätzung bei beliebigem p immer mindestens mit der Wahrscheinlichkeit δ korrekt ist. Schon an diesem Beispiel merkt man, dass die Berechnung der Intervallgrenzen sehr aufwändig und ohne technische Hilfsmittel kaum durchführbar ist. Bei hohen Werten von n und k ist eine exakte Berechnung völlig unmöglich. Beispiel: Für n = 100 und k = 71 ergeben sich die Intervallgrenzen als Lösungen der Gleichung 1 − δ 100 100 = ∑ ( )pU j ⋅ (1 − pU )100−j 2 j j=71 und 1 − δ 71 100 = ∑ ( )pO j ⋅ (1 − pO )100−j 2 j j=0 Hierbei wären also Polynome vom Grad n = 100 aufzulösen. 7 1 Parameterschätzungen und Konfidenzintervalle Ist n groß genug, so kann man die auftretenden Terme aber sehr gut mit Hilfe der sogenannten Standardnormalverteilung x 1 2 1 Φ(x) = √ ∫ e− 2 t dt 2π −∞ (x ∈ R) approximieren. Es gilt: k n j n−j ∑ ( )p ⋅ (1 − p) j j=0 ⎛ k + 0.5 − np ⎞ ≈ Φ √ ⎝ np(1 − p) ⎠ n n j n−j ∑ ( )p ⋅ (1 − p) j=k j ⎛ k − 0.5 − np ⎞ ≈ 1−Φ √ ⎝ np(1 − p) ⎠ Das Integral ist nicht geschlossen lösbar, die Werte Φ(x) sind aber bekannt. In R berechnet man Φ(x) mit: pnorm(x). (Wir werden uns im Zusammenhang mit normalverteilten Größen eingehender mit dieser Funktion befassen.) In obigem Beispiel (n = 100 und k = 71) ergibt sich also für δ = 0.95: 100 ⎛ 71 − 0.5 − 100pU ⎞ 100 0.025 = ∑ ( )pU j ⋅ (1 − pU )100−j ≈ 1 − Φ √ j ⎝ 100pU (1 − pU ) ⎠ j=71 In R findet man die Zahl x mit Φ(x) = y durch: qnorm(y). Damit erhält man: ⎛ 71 − 0.5 − 100pU ⎞ 0.975 ≈ Φ √ ⎝ 100pU (1 − pU ) ⎠ ⇒ 71 − 0.5 − 100pU √ ≈ 1.96 100pU (1 − pU ) ⇒ pU ≈ 0.609 Weiter ist: 71 0.025 = ∑ ( j=0 ⎛ 71 + 0.5 − 100pO ⎞ 100 )pO j ⋅ (1 − pO )100−j ≈ Φ √ j ⎝ 100pO (1 − pO ) ⎠ Damit ergibt sich: 71 + 0.5 − 100pO √ ≈ −1.96 100pO (1 − pO ) ⇒ pO ≈ 0.795 Damit ergibt sich das Konfidenzintervall [0.609, 0.795] zum Vertrauensniveau 0.95 bei 71 Treffern unter 100 Versuchen nach der Methode von ClopperPearson. Konfidenzintervalle können auch in R direkt berechnet werden. Der Befehl binom.test(k, n, conf.level = δ)$conf.int[1:2] ergibt eine nach obiger Methode berechnetes Konfidenzintervall zum Vertrauensniveau δ bei k von n Treffern. 8 Konfidenzintervalle im Vergleich k/n 3/10 30/100 300/1000 3000/10000 30000/100000 0.6 [0.157, 0.484] [0.258, 0.346] [0.287, 0.313] [0.296, 0.304] [0.298, 0.302] 0.8 [0.115, 0.552] [0.239, 0.367] [0.281, 0.320] [0.294, 0.306] [0.298, 0.302] 0.9 [0.087, 0.607] [0.224, 0.385] [0.276, 0.325] [0.292, 0.308] [0.297, 0.303] 0.95 [0.066, 0.653] [0.212, 0.400] [0.271, 0.330] [0.291, 0.310] [0.297, 0.303] 0.99 [0.037, 0.735] [0.189, 0.431] [0.263, 0.339] [0.288, 0.312] [0.296, 0.304] δ Die Intervalle werden bei wachsender Versuchszahl kleiner und bei höherem Konfidenzniveau größer. Man beachte die Größenordnungen dieser Veränderungen. Modifikation der Methode: einseitig begrenzte Konfidenzintervalle Bei k Treffern aus n Versuchen bestimmt man das linksseitig begrenzte Konfidenzintervall [pU , 1] zum Vertrauensniveau δ durch n n j n−j =1−δ ∑ ( )pU ⋅ (1 − pU ) j=k j (Sonderfall: Für k = 0 setze pU = 0.) Bei k Treffern aus n Versuchen bestimmt man das rechtsseitig begrenz- te Konfidenzintervall [0, pO ] zum Vertrauensniveau δ durch k n j n−j =1−δ ∑ ( )pO ⋅ (1 − pO ) j=0 j (Sonderfall: Für k = n setze pO = 1.) Linksseitig begrenzte Konfidenzintervalle dürfen den Wert von p mit einer Wahrscheinlichkeit von bis zu 1 − δ überschätzen (statt 1−δ 2 wie bei den zweisei- tigen Intervallschätzungen). Um dies auszugleichen, unterschätzen sie den Wert von p nie (die obere Grenze ist 1). Die untere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (größer) gewählt werden. 9 1 Parameterschätzungen und Konfidenzintervalle Rechtsseitig begrenzte Konfidenzintervalle dürfen den Wert von p mit einer Wahrscheinlichkeit von bis zu 1−δ unterschätzen (statt 1−δ 2 wie bei den zweisei- tigen Intervallschätzungen). Um dies auszugleichen, überschätzen sie den Wert von p nie (die untere Grenze ist 0). Die obere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (kleiner) gewählt werden. In R berechnet man einseitige Konfidenzintervalle nach Clopper-Pearson mit binom.test(k, n, conf.level = δ, alternative=“greater“)$conf.int[1:2] binom.test(k, n, conf.level = δ, alternative=“less “)$conf.int[1:2] (linksseitig begrenzt) (rechtsseitig begrenzt) Konfidenzintervalle im Vergleich k = 112, δ n = 200 0.8 beidseitig begrenzt 0.9 0.95 [0.512, 0.607] [0.499, 0.620] [0.488, 0.630] linksseitig begrenzt [0.527, 1] [0.512, 1] [0.499, 1] rechtsseitig begrenzt [0, 0.591] [0, 0.607] [0, 0.620] Allgemein bestimmt man aus den Gleichungen n n j n−j = αU ∑ ( )pU ⋅ (1 − pU ) j j=k k n j n−j = αO ∑ ( )pO ⋅ (1 − pO ) j j=0 die Grenzen einer Intervallschätzung [pU , pO ], die den Wert von p mit einer Wahrscheinlichkeit von höchstens αU überschätzt und mit einer Wahrscheinlichkeit von höchstens αO unterschätzt. Das heißt, es gilt W (p liegt unterhalb von pU ) ≤ αU und W (p liegt oberhalb von pO ) ≤ αO Man kann also αU und αO in beliebiger Weise so festlegen, dass αU + αO = 1 − δ gilt und dann pU und PO daraus bestimmen. Für δ = 0.9 hat man zum Beispiel folgende Möglichkeiten: αU = 0.05 10 , αO = 0.05 W (p < pU ) W (p > pO ) W (p ∉ [pU , pO ]) W (p ∈ [pU , pO ]) zweiseitig, αU = αO ≤ 0.05 ≤ 0.05 ≤ 0.1 ≥ 0.9 αU = 0.1 , αO = 0 linksseitig begrenzt ≤ 0.1 0 ≤ 0.1 ≥ 0.9 αU = 0 , αO = 0.1 rechtsseitig begrenzt 0 ≤ 0.1 ≤ 0.1 ≥ 0.9 αU = 0.08 , αO = 0.02 zweiseitig, αU =/ αO ≤ 0.08 ≤ 0.02 ≤ 0.1 ≥ 0.9 αU = 0.03 , αO = 0.07 zweiseitig, αU =/ αO ≤ 0.03 ≤ 0.07 ≤ 0.1 ≥ 0.9 Hypergeometrische Verteilung 1.) Einführung der Verteilung Allgemeine Formulierung: Von N Objekten sind K Objekte durch eine bestimmte Eigenschaft ausgezeichnet, dann wählt man zufällig n Objekte aus den N Objekten und bestimmt die Anzahl k der ausgezeichneten Objekte unter den Gezogenen. Die Zahlen n, K sind feststehend und bekannt. Die Zahl N ist feststehend aber unbekannt und k ist zufällig aber (nach der Durchführung) bekannt. Situtation: N, K, n bekannt Wie hoch ist die Wahrscheinlichkeit dafür, das sich genau k ausgezeichnete Objekte unter den Gezogenen befinden. Die Antwort ist: W (k ausgezeichnete Objekte unter den Gezogenen) = −K (K ) ⋅ (Nn−k ) k (N ) n Man sagt: Die Anzahl der ausgezeichneten Objekte unter den Gezogenen ist hypergeometrisch verteilt. ● ● ● ● ● ● ● 0.12 0.30 N=1000,K=900,n=100 0.14 N=500,K=100,n=50 0.15 0.35 N=100,K=20,n=8 ● ● ● ● ● 2 4 6 ● 0.00 0.00 0 ● ● 8 ●●● 0 k ● 10 0.10 0.08 ● 0.00 ● ● ● ● ● 0.02 ● ● ● ● ● ● 0.06 ● ● 0.04 W(k ausgezeichnete Objekte) 0.10 ● 0.05 W(k ausgezeichnete Objekte) 0.25 0.20 ● 0.10 0.15 ● 0.05 W(k ausgezeichnete Objekte) ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● 20 30 40 50 ● 0 20 40 60 k In R bestimmt man obige Wahrscheinlichkeit ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● 80 100 k −K (K )⋅(N ) k n−k (N ) n durch dhyper(k, K, N − K, n) Die Wahrscheinlichkeit für mindestens k ausgezeichnete Objekte k −K ) (Kj ) ⋅ (Nn−j j=0 (N ) n N,K,n Fhyper (k) = W (mindestens k ausgezeichnete Objekte unter den Gezogenen) = ∑ N,K,n berechnet man mit der Verteilungsfunktion Fhyper der hypergeometrischen Verteilung. Damit ergibt sich: n −K ) (Kj ) ⋅ (Nn−j j=k (N ) n W (höchstens k ausgezeichnete Objekte unter den Gezogenen) = ∑ N,K,n = 1−Fhyper (k−1) und m −K (Kj ) ⋅ (Nn−j ) j=k (N ) n W (zwischen k und m ausgez. Objekte unter den Gez.) = ∑ N,K,n N,K,n = Fhyper (m)−Fhyper (k−1) 11 1 Parameterschätzungen und Konfidenzintervalle N,K,n Den Wert Fhyper (k) berechnet man in R durch phyper(k, K, N − K, n) 2.) Schätzung von K Beispiel: Von N = 1000 Glübirnen einer Lieferung sind eine unbekannte Anzahl K defekt. Man testet n = 15 zufällig ausgewählte Birnen und stellt fest, dass k = 2 davon defekt sind. Wie kann man daraus auf die Zahl K schließen? System mit Parameter K zufällig Ð→ methodisch Ð→ Daten k Schätzung für K Situation: N, n feststehend und bekannt, k zufällig aber bekannt, K feststehend aber unbekannt Lk (K) = Likelihood-Funktion ● ●● 2 ● ● ● 6 8 10 ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●● 0 20 ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●● 40 60 0.15 0.20 ● ● ● 0.10 ● ● K W(k ausgezeichnete Objekte) 0.15 0.10 ● 0.00 ● ● ● 0.00 0.0 ● 4 ● ● ● 0 ● ● ● ● ● ● ● 0.05 W(k ausgezeichnete Objekte) 0.4 0.3 0.2 ● 0.1 W(k ausgezeichnete Objekte) 0.5 ● ● ● ● N=1000,n=25,k=3 0.25 N=80,n=30,k=15 ● ● (N ) n 0.05 N=10,n=5,k=4 −K (K ) ⋅ (Nn−k ) k 80 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 K Man stellt fest: Lk (K) wird für K ≈ 600 800 1000 K k⋅(N +1) n maximal. Genau genommen wird Lk (N ) maximal für ⎧ k⋅(N +1) ⎪ − 1 und K = k⋅(Nn+1) ⎪ K= n ⎨ k⋅(N +1) ⎪ ⎪ ⎩ K = ⌊ n ⌋ (die größte natürliche Zahl, die kleiner als k⋅(N +1) n ist) , falls , falls k⋅(N +1) n k⋅(N +1) n ⎫ ∈ N ist. ⎪ ⎪ ⎬ ⎪ ∉ N ist. ⎪ ⎭ Schätzung für K mit der Maximum-Likelihood-Methode: K ≈ ⌊ k⋅(Nn+1) ⌋ ⌋ = 133) (also in obigem Beispiel K ≈ ⌊ 2⋅(1000+1) 15 Nun wollen wir ausgehend von k ein Intervall [KU , KO ] schätzen, dass den wahren Wert von K stets mit einer Wahrscheinlicheit von mindestens δ enthält. System mit Parameter K 12 zufällig Ð→ Daten k methodisch Ð→ (Intervall-)Schätzung für K Für jeden möglichen Wert von K: W (k führt zu einer Schätzung, die K enthält) ≥ δ Eine sinnvolle Möglichkeit ist die folgende: Man bestimmt KU als die kleinstmögliche Zahl mit k−1 −KU (KjU ) ⋅ (Nn−j ) j=0 (N ) n phyper(k − 1, KU , N − KU , n) = ∑ < 1+δ 2 ist und KO als die größtmögliche Zahl, für die k −KO (KjO ) ⋅ (Nn−j ) j=0 (N ) n phyper(k, KO , N − KO , n) = ∑ > 1−δ 2 ist. Dann ist die zu erreichende Bedingung W (K ∈ [KU , KO ]) ≥ δ garantiert. In obigem Beispiel (n = 1000, n = 15, k = 2) führen wir eine Intervallschätzung zum Niveau δ = 0.95 durch. Wir suchen also zunächst die kleinstmögliche Zahl KU mit phyper(1, KU , 1000 − KU , 15) < 0.975 Um KU zu bestimmen plotten wir phyper(1 − 1, KU , 1000 − KU , 15) gegen KU 0 200 400 600 800 1000 Ku ● 1.00 0.980 ● ● ● 0.98 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.94 ● ● ● ● ● ● ● ● ● 0.975 phyper(1, Ku, 1000 − Ku, 15) ● ● ● 0.970 0.96 ● 0.92 phyper(1, Ku, 1000 − Ku, 15) ● ● ● 0.90 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.88 0.6 0.4 0.0 0.2 phyper(1, Ku, 1000 − Ku, 15) 0.8 1.0 und erhalten: ● 0 10 20 30 40 Ku ● 15 16 17 18 19 Ku Damit ergibt sich KU = 17. Analog suchen wir die größtmögliche Zahl, für die phyper(2, KO , 1000 − KO , 15) > 0.025 gilt. Mithilfe der Plots 13 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 200 400 600 800 ● ● 0.0260 0.030 ● ● ● ● ● ● 0.026 ● ● ● ● ● ● ● 0.0245 ● 0.0255 ● 0.0250 phyper(2, Ko, 1000 − Ko, 15) 0.028 ● 0.024 phyper(2, Ko, 1000 − Ko, 15) ● ● ● ● ● ● 1000 0.0240 ● 0.022 0.6 0.4 0.0 0.2 phyper(2, Ko, 1000 − Ko, 15) 0.8 1.0 1 Parameterschätzungen und Konfidenzintervalle ● 390 395 400 Ko 405 410 ● 400 401 402 Ko 403 404 Ko erkennt man, dass K0 = 402 ist. Damit ist [17, 402] ein Konfidenzintervall für die Anzahl defekter Glübirnen zum Vertrauensniveau 0.95. Es ist natürlich leicht möglich, in R eine Funktion zu schreiben, die auf diese Art und Weise Konfidenzintervalle berechnet (siehe Übungen). Um die Bedeutung der Konfidenzintervalle nochmals klarzumachen, betrachten wir das Beispiel N = 10 und n = 4 (von 10 Objekten werden 4 untersucht). Für k kommen die Werte 0, . . . , 4 in Frage. Es ergeben sich die folgenden Konfidenzintervalle zum Vertrauensniveau δ = 0.7. k 0 1 2 3 4 [KU , KO ] [0, 3] [1, 5] [3, 7] [5, 9] [7, 10] Angenommen die wahre (unbekannte) Zahl der ausgezeichneten Objekte sei K = 4. Dann ist unsere Intervallschätzung korrekt, falls k ∈ {1, 2} ist. Die Wahrscheinlichkeit dafür können wir berechnen, es gilt W (k = 1 oder k = 2) = (41) ⋅ (63) (10 ) 4 + (42) ⋅ (62) (10 ) 4 ≈ 0.810 Angenommen die wahre (unbekannte) Zahl der ausgezeichneten Objekte sei K = 7. Dann ist unsere Intervallschätzung korrekt, falls k ∈ {2, 3, 4} ist. Die Wahrscheinlichkeit dafür können wir berechnen, es gilt W (k liegt in {2, 3, 4}) = (72) ⋅ (32) (10 ) 4 + (73) ⋅ (31) (10 ) 4 + (74) ⋅ (30) (10 ) 4 ≈ 0.967 Unsere Methode garantiert, dass die Wahrscheinlichkeit einer korrekten Schätzung auf jeden Fall (also bei jedem denkbaren Wert von K) mindestens 0.7 beträgt. Anmerkung: Ist N sehr groß (im Vergleich zu n) , so stimmt die hypergeometrische Verteilung mit den Parametern N, K, n näherungsweise mit der Binomialverteilung mit den Parametern n, p = K N überein. Das liegt daran, dass in diesem Fall, die Ziehung der k Objekte als k (näherungsweise unabhängige) Ziehungen eines Objektes aufgefasst werden kann mit der jeweiligen Trefferwahrscheinlichkeit (Treffer = Ziehen eines ausgezeichneten Objekts) p ≈ 14 K . N 405 Folglich gilt für das Konfidenzintervall [KU , KO ] für die Zahl der ausgezeichneten Objekte K (bei k ausgezeichneten Objekten in einer Ziehung von n aus insgesamt N Objekten) und das Konfidenzintervall [pU , pO ] für die Trefferwahrscheinlichkeit p (bei k Treffern in n Versuchen) zum gleichen Vertrauensniveau die Näherung pU ≈ KU N und pO ≈ KO N (falls N sehr groß ist) Beispielsweise betrachten wir k = 170 und n = 450 mit dem Konfidenzniveau δ = 0.8. Das Konfidenzintervall für die Trefferwahrscheinlichkeit einer Binomial- verteilung ergibt [pU , pO ] = [0.34782, 0.40853] Die Konfidenzintervalle für die Zahl der ausgezeichneten Objekte einer hypergeometrischen Verteilung ergeben sich für verschiedene Werte von N wie folgt: N 1000 3000 10000 30000 100000 [KU , KO ] [356, 400] [1051, 1218] [3485, 4078] [10442, 12249] [34789, 40847] [ KNU , KNO ] [0.356, 0.4] [0.350, 0.406] [0.3485, 0.4078] [0.3481, 0.4083] [0.34789, 0.40847] Man sieht: Ist N größer als n, so kann man KU und KO auch mit Hilfe der (einfacheren) Binomialverteilung ermitteln, für kleinere Werte von N erzielt man jedoch mit der hypergeometrischen Verteilung deutlich bessere Resultate. 3.) Schätzung von N Beispiel (Capture-Recapture): In einem See befindet sich eine unbekannte Anzahl N von Fischen einer Art. Man möchte wissen, wie groß N in etwa ist. Dazu fängt man eine (kleinere) Anzahl K von Fischen und markiert sie. Dann setzt man sie wieder aus und wartet einen angemessenen Zeitraum. Dann fängt man in einem zweiten Fischzug n Fische und bestimmt die Anzahl k der markierten Fische unter ihnen. Beispielsweise hat man K = 100 Fische markiert und unter n = 50 gefangenen Fischen k = 14 markierte Fische wiedergefunden. Wie kann man daraus eine sinnvolle Schätzung für N abgeben ? System mit Parameter N zufällig Ð→ Daten k methodisch Ð→ Schätzung für N Schätzung für N mit der Maximum-Likelihood-Methode: K, n, k gege- 15 1 Parameterschätzungen und Konfidenzintervalle ben: Bestimme N , so dass WN (k) maximal wird. Likelihood-Funktion n = 12, k=7 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100 150 k=3 0.20 0.15 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.05 0.10 L(N) n = 12, ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.00 0.20 0.15 L(N) 0.10 0.05 0.00 (N ) n K = 30, ● 50 −K (K ) ⋅ (Nn−k ) k 0.25 0.25 K = 30, Lk (N ) (= WN (k)) = 200 50 100 150 k 200 k Man stellt fest: Lk (N ) wird für N ≈ K⋅n k maximal. Genau genommen wird Lk (N ) maximal für ⎧ K⋅n ⎪ und N = K⋅n −1 ⎪ N= k k ⎨ K⋅n ⎪ ⎪ ⎩ N = ⌊ k ⌋ (die größte natürliche Zahl, die kleiner als K⋅n k ist) , falls , falls K⋅n k K⋅n k ⎫ ⎪ ∈ N ist. ⎪ ⎬ ∉ N ist. ⎪ ⎪ ⎭ ⌋ Schätzung für N mit der Maximum-Likelihood-Methode: N = ⌊ K⋅n k In obigem Beispiel erhält man als ML-Schätzung für N : N ≈⌊ 100 ⋅ 50 ⌋ = 357 14 Nun wollen wir ausgehend von k ein Intervall [NU , NO ] schätzen, das den wahren Wert von N stets mit einer Wahrscheinlicheit von mindestens δ enthält. System mit Parameter N zufällig Ð→ Daten k methodisch Ð→ (Intervall-)Schätzung für N Für jeden möglichen Wert von N : W (k führt zu einer Schätzung, die N enthält) ≥ δ Eine sinnvolle Möglichkeit ist die folgende: Man bestimmt NU als die kleinstmögliche Zahl, für die k U −K (Kj ) ⋅ (Nn−j ) j=0 (NnU ) phyper(k, K, NU − K, n) = ∑ > 1−δ 2 ist und NO als die größtmögliche Zahl, für die k−1 O −K (Kj ) ⋅ (Nn−j ) j=0 (NnO ) phyper(k − 1, K, NO − K, n) = ∑ 16 < 1+δ 2 ist. Dann ist die zu erreichende Bedingung W (N liegt in [NU , NO ]) ≥ δ garantiert. In obigem Beispiel (K = 100, n = 50, k = 14) führen wir eine Intervallschätzung zum Niveau δ = 0.8 durch. Wir suchen also zunächst die kleinstmögliche Zahl NU mit phyper(14, 100, NU − 100, 50) > 0.1 Um NU zu bestimmen plotten wir phyper(14, 100, NU − 100, 50) gegen NU und 200 400 600 800 0.115 0.14 ● ● ● ● 0.12 ● ● 1000 ●● ●● 220 ●● ●● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● phyper(14, 100, NU − 100, 50) ● ● ● ● ● ● ● ● ● ● 0.095 ●●● ●● ● ● 0.105 0.10 0.08 0.06 0.04 phyper(14, 100, NU − 100, 50) ● ● ● ● ● ● ● ● ● 230 240 ● 0.100 ● ● ● ● ● ● ● 0.110 ● 0.02 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.00 0.6 0.4 0.0 0.2 phyper(14, 100, NU − 100, 50) 0.8 1.0 erhalten: 250 NU 260 270 280 ● 270 271 272 NU 273 274 275 NU Damit ergibt sich NU = 272. Analog suchen wir die größtmögliche Zahl, für die phyper(13, 100, NO − 100, 50) < 0.9 200 400 600 800 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.904 ● ● ● 0.902 ● ● ● ● 0.900 ● ● ● ● phyper(13, 100, NO − 100, 50) 0.90 0.92 1000 0.88 ● ● ● ● ● ● 0.898 phyper(13, 100, NO − 100, 50) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.86 0.6 0.4 0.0 0.2 phyper(13, 100, NO − 100, 50) 0.8 1.0 gilt. Mithilfe der Plots ● ● ● ● ● ● 470 ● 480 490 NO 500 NO 510 520 530 497 498 499 500 501 NO erkennt man, dass N0 = 499 ist. Wir werden in den Übungen eine Funktion in R schreiben, die auf diese Art und Weise Konfidenzintervalle berechnet. Anmerkung: Kann man davon ausgehen, dass N (im Vergleich zu n) sehr groß ist, so kann man wiederum die Näherung durch die Binomialverteilung benutzen. Man berechnet dann ein Konfidenzintervall [pU , pO ] zur Trefferwahr- 17 502 503 1 Parameterschätzungen und Konfidenzintervalle scheinlichkeit p einer Binomialverteilung bei k Treffern aus n Versuchen und berechnet NU und NO aus den Approximationen pO ≈ 18 K NU und pU ≈ K NO Diskrete und Stetige Verteilungen Bis zu diesem Zeitpunkt haben wir diskrete Verteilungen untersucht, das heißt, es kamen nur endlich viele Möglichkeiten für die betrachtete zufällige Größe in Frage. (Bei der Binomialverteilung können bei n Durchführungen die Trefferzahlen k = 0, . . . , n auftreten. Bei der hypergeometrischen Verteilung (mit den Parametern N, K, n) kann k = 0, . . . , min(n, K) gelten.) Ist X eine zufällige Größe, die nur die Werte aus einer endlichen Menge A annehmen kann, so muss offenbar gelten: ∑ W (X = a) = 1 a∈A Man definiert nun µ = µX = ∑ a ⋅ W (X = a) Erwartungswert von X a∈A σ 2 = σX 2 = 2 ∑ (a − µ) ⋅ W (X = a) Varianz von X a∈A Man bezeichnet die Wurzel aus der Varianz als Standardabweichung σ. Wir betrachten die folgenden Beispiele, wobei an den mit (∗) versehenen Stellen eine (längliche) Rechnung notwendig wäre, die wir hier nicht in allgemeinem Rahmen durchführen wollen. X binomialverteilt bei n Versuchen und Trefferwahrscheinlichkeit p: n n n (∗) µ = ∑ k ⋅ W (k Treffer) = ∑ k ⋅ ( )pk (1 − p)n−k = n ⋅ p k k=0 k=0 und n n n (∗) σ 2 = ∑ (k − µ)2 ⋅ W (k Treffer) = ∑ (k − np)2 ⋅ ( )pk (1 − p)n−k = n ⋅ p ⋅ (1 − p) k k=0 k=0 X hypergeometrisch verteilt bei N Objekten, K Ausgezeichneten und n Ge- zogenen: n n −K (K )(Nn−k ) k k=0 (N ) n µ = ∑ k ⋅ W (k ausgez. Gezogene) = ∑ k ⋅ k=0 (∗) = n⋅ K N und N −K n ⋅ K 2 ( k )( n−k ) (∗) K K N −n σ = ∑ (k−µ) ⋅W (k Treffer) = ∑ (k − ) ⋅ = n⋅ ⋅(1 − )⋅ N N N N N −1 (n) k=0 k=0 2 n 2 n K Um zufällige Größen zu beschreiben, bei denen beliebige reelle Zahlen als Werte auftreten können sind, benötigt man sogenannte stetige Verteilungen. Sie können mit Hilfe ihrer sogenannten Dichtefunktion (oder Wahrscheinlichkeitsdichte) 19 1 Parameterschätzungen und Konfidenzintervalle beschrieben werden: Eine (Wahrscheinlichkeits-)Dichtefunktion f ∶ R → [0, ∞) ist eine (stetige) Funktion ∞ mit ∫ f (t)dt = 1. Eine zufällige Größe X, deren Werte beliebige reelle Zahlen sein −∞ können, hat die Dichtefunktion f , falls b W (a ≤ X ≤ b) = ∫ f (t)dt für a, b ∈ R mit a < b a gilt. (Die Wahrscheinlichkeit entspricht also der Fläche unter dem Graphen von f auf dem Intervall [a, b].) In einem solchen Fall ist die Verteilungsfunktion ein nützliches Hilfsmittel. Sie ist definiert durch x F (x) = ∫ f (t)dt für x ∈ R −∞ und hat immer folgende Eigenschaften: F ist monoton wachsend Es gilt lim F (x) = 0 und lim F (x) = 1. x→−∞ x→∞ F ist differenzierbar und es gilt F ′ (x) = f (x). Mithilfe der Verteilungsfunktion können Wahrscheinlichkeiten dafür berechnet werden, dass die Größe X in einen bestimmten Bereich fällt. Es gilt: x W (X ≤ b) = F (b) = ∫ f (t)dt −∞ ∞ W (a ≤ X) = 1 − F (a) = ∫ f (t)dt a b W (a ≤ X ≤ b) = F (b) − F (a) = ∫ f (t)dt a Die Wahrscheinlichkeit, dass X in einen Bereich [a, b] fällt ist also größer, wenn die Dichtefunktion f in diesem Bereich größere Werte annimmt. Man beachte, dass für stetige Größen gilt: W (X = a) = 0 für alle a ∈ R Ist X eine zufällige Größe mit Dichtefunktion f , so nennt man ∞ µ = µX = ∫ t ⋅ f (t)dt Erwartungswert von X −∞ ∞ σ 2 = σX 2 2 = ∫ (t − µ) ⋅ f (t)dt −∞ 20 Varianz von X Man bezeichnet die Wurzel aus der Varianz als Standardabweichung σ. Verteilungen, die bei in der Umwelt vorkommenden zufälligen Größen als Modelle verwendet werden können, sind zum Beispiel Normalverteilungen und die Exponentialverteilungen, die wir im Folgenden behandeln wollen. Zuvor geben wir (Punkt-)Schätzungen für µ und σ ab, die im allgemeinen Fall (das heißt bei völlig unbekannter Verteilungsart) möglich sind. Punktschätzungen für µ und σ 2 Gegeben ist eine unbekannte Größe X mit Erwartungswert µ und Standardabweichung σ. Beide Werte µ, σ sind fest, aber unbekannt. Zur Verfügung steht eine Stichprobe von n unabhängigen, unter gleichen Bedingungen erhaltenen Werten X1 , . . . , Xn der Größe X. System mit unbekannter Verteilung zufällig Ð→ methodisch Ð→ Daten X1 , . . . , Xn Schätzung für Parameter µ, σ 2 der Verteilung Folgende Schätzungen für µ und σ 2 sind sinnvoll: Der Erwartungswert µ wird geschätzt durch X= 1 n ⋅ ∑ Xj n j=1 (empirischer Mittelwert) Die Varianz σ 2 wird geschätzt durch 2 n ⎞ ⎞ 2 1⎛n 1 1 ⎛n ⎜ ∑ Xj 2 − s = ⋅ ∑ (Xj − X) = ∑ Xj ⎟ n − 1 j=1 n − 1 ⎝j=1 n ⎝j=1 ⎠ ⎠ 2 (empirische Varianz oder korrigierte Stichprobenvarianz) Diese beiden Schätzungen sind erwartungstreu: Das Ergebnis der Schätzung (also X bzw. s2 ) ist zwar vom Zufall abhängig, ’im Durchschnitt’ wird dabei aber der wahre Wert (also µ bzw. σ 2 ) geschätzt. Präziser gesagt gilt µ(X) = µ und µ(s2 ) = σ 2 konsistent: Ist n sehr groß, so ist die Schätzung nahezu sicher sehr nahe am wahren Wert. Also n sehr groß ⇒ X ≈ µ und s2 ≈ σ 2 21 1 Parameterschätzungen und Konfidenzintervalle In R berechnet man X mit: mean(x) und s2 mit: var(x) oder (sd(x))2 Die Frage nach Konfidenzintervallen kann in dieser allgemeinen Situation nicht beantwortet werden. Falls vollkommen unbekannt ist, nach welchen Gesetzmässigkeiten die zufällige Größe X zustande kommt, so kann man die Genauigkeit der Schätzungen für µ und σ nicht beurteilen. Im den nächsten Abschnitten machen wir daher zunächst eine Annahme von welcher Art die Verteilung von X ist (z.B. normalverteilt oder exponentialverteilt) und erhalten dann genauere Aussagen. Normalverteilte Größen 1.) Einführung der Verteilung Gegeben seien µ ∈ R und σ > 0. Eine Größe heißt normalverteilt mit EW µ und SA σ (kurz (µ, σ 2 )-normalverteilt), wenn ihre Dichtefunktion, die GaußFunktion (oder Gaußsche Glockenkurve) ist, die wie folgt definiert ist. 1 t−µ 2 1 ) ) fµ,σ (t) = √ ⋅ exp (− ( 2 σ σ 2π (t ∈ R) In R berechnet man fµ,σ (t) durch dnorm(t,µ, σ). Viele in Natur und Umwelt vorkommenden zufälligen Größen besitzen (zumindest näherungsweise) normalverteilt. Der sogenannte Zentrale Grenzwertsatz besagt, dass jede Größe, die sich als Summe vieler unabhängiger Einflüsse ergibt (unter gewissen (zumeist erfüllten) Bedingungen) stets annähernd normalverteilt ist. Wir geben dazu einige Beispiele: Jede binomialverteilte Größe (n Versuche, Trefferwahrscheinlicheit p) ist annnähernd (np, np(1 − p))-normalverteilt). Die Summe der Augenzahlen beim Werfen vieler Würfel ist annähernd normalverteilt. Zeitspannen, die sich aus vielen (unabhängigen) kleinen Einheiten beste- hen, können als normalverteilt angenommen werden. (Beispiel: Die Zeit, die ein Kundenberater für 20 telefonische Beratungsgespräche braucht.) Zufällig zustandegekommene Messfehler sind oft normalverteilt mit Er- wartungswert µ = 0 (im Gegensatz zu systematischen Messfehlern). Der Ertrag einer Ernte ist abhängig von vielen Einflüssen. Nimmt man an, dass diese Faktoren unabhängig voneinander einen gewissen Beitrag zum Ertrag liefern, so kommt man zur Normalverteilungsannahme für den Ernteertrag. 22 Wir werden später auch Verfahren kennenlernen, mit denen man prüfen kann, ob eine Normalverteilung vorliegt. Für den Moment nehmen wir aber an, dass die behandelten Gröën (annähernd) normalverteilt sind. Man kann nachrechnen, dass µ tatsächlich der Erwartungswert und σ die Standardabweichung einer (µ, σ 2 )-normalverteilten Größe ist, denn es gilt ∞ ∞ ∫ t ⋅ fµ,σ (t)dt = µ und −∞ 2 2 ∫ (t − µ) ⋅ fµ,σ (t)dt = σ −∞ Der EW µ entspricht der Maximumstelle von fµ,σ . Daher fallen die Werte von X eher in einen Bereich in der Nähe des EW, als dass sie in einen (gleich großen) Bereich fallen, der weit vom EW entfernt ist. fµ,σ ist symmetrisch bezüglich des EW µ. Ist σ groß, so ist die Kurve fµ,σ breiter, d.h. die Werte von X verteilen sich weiter um den EW herum. Ist σ klein, so liegen die Werte von X mit höherer Wahrscheinlichkeit in der Nähe des EW. Dichte der Normalverteilung mit EW 0 und SA 4 f(t) 0.0 0.02 0.1 0.04 f(t) 0.2 0.06 0.3 0.08 0.4 0.10 Dichte der Normalverteilung mit EW 0 und SA 1 −5 0 5 10 −10 0 5 t Dichte der Normalverteilung mit EW −5 und SA 1 Dichte der Normalverteilung mit EW 3 und SA 0.5 10 f(t) 0.2 0.4 0.6 0.4 0.3 0.2 0.0 0.0 0.1 f(t) −5 t 0.8 −10 −10 −5 0 5 10 −10 −5 t 0 5 10 t Die Verteilungsfunktion kann nicht ohne weiteres direkt berechnet werden. Man kann sie aber mit Hilfe der Standardnormalverteilung Φ ausdrücken: Eine (µ, σ 2 )-normalverteilte Größe hat die Verteilungsfunktion x Fµ,σ (x) = ∫ fµ,σ (t)dt = Φ ( −∞ x−µ ) σ (x ∈ R) 23 1 Parameterschätzungen und Konfidenzintervalle Folglich gilt W (X ≤ b) = Φ ( b−µ ), σ W (a ≤ X) = 1−Φ ( a−µ ), σ W (a ≤ X ≤ b) = Φ ( b−µ a−µ )−Φ ( ) σ σ Insbesondere gilt F0,1 = Φ, das heißt, die Standardnormalverteilung Φ ist die Verteilungsfunktion einer (0, 12 )-normalverteilten Größe. Sie hat den Graphen 0.0 0.2 0.4 0.6 0.8 1.0 Standardnormalverteilung −6 −4 −2 0 2 4 6 t und erfüllt die Bedingung Φ(−x) = 1 − Φ(x) für x ∈ R Damit folgt für jede (µ, σ 2 )-normalverteilte Größe c, d ∈ [0, ∞] mit c < d W (µ − d ≤ X ≤ µ − c) = W (µ + c ≤ X ≤ µ + d) d.h. X fällt mit gleicher Wahrscheinlichkeit in einen Bereich auf einer Seite des Erwartungswertes wie in den entsprechenden am Erwartungswert gespiegelten Bereich. Insbesondere gilt: W (X ≤ µ) = W (X ≥ µ) = 1 2 In R berechnet man Φ(x) durch pnorm(x)=pnorm(x,0,1). Allgemeiner berechnet man Fµ,σ (x) mit pnorm(x,µ, σ). Für eine normalverteilte Größe X kann man die Wahrscheinlichkeit dafür, dass X in das Intervall [µ − c, µ + c] fällt, wie folgt mit der Standardnormalverteilung berechnen: c W (X liegt in [µ − c, µ + c]) = 2 ⋅ Φ ( ) − 1 σ Für c = k ⋅ σ ergeben sich die σ-Regeln: W (X ∈ [µ − σ, µ + σ]) ≈ 0.6827 d.h. ca. 68,27% der Werte von X liegen näher als σ beim EW W (X ∈ [µ − 2σ, µ + 2σ]) ≈ 0.9545 d.h. ca. 95,45% der Werte von X liegen näher als 2σ beim EW 24 W (X ∈ [µ − 3σ, µ + 3σ]) ≈ 0.9973 d.h. ca. 99,73% der Werte von X liegen näher als 3σ beim EW 2.) Formulierung des Schätzproblems Situation: Von einer unbekannten Größe X wird angenommen, dass sie normalverteilt ist. Allerdings sind µ und σ nicht bekannt. Man führt daher n unabhängige Messungen (Stichprobe) für X durch und erhält die Werte X1 , . . . , Xn . Wie kann man nun µ und σ aus diesen Daten schätzen? System mit Parametern µ, σ zufällig Ð→ Daten X1 , . . . , Xn methodisch Ð→ Schätzung für µ, σ In dieser Situation sind also: X1 , . . . , Xn zufällig und bekannt, µ, σ feststehend aber unbekannt Aus den allgemeinen Überlegungen erhalten wir die folgenden (erwartungstreuen und konsistenten) Punktschätzungen: Schätzung für µ: µ≈X = 1 n n ⋅ ∑ Xi Schätzung für σ: i=1 σ 2 ≈ s2 = 1 n−1 n ⋅ ∑ (Xi − X) i=1 Man beachte, dass auch diese Größen X und s zufällig und bekannt sind (da sie aus den zufälligen Größen X1 , . . . , Xk berechnet wurden). 3.) Schätzung für µ Nun stellt sich erneut die Frage nach der Sicherheit dieser Schätzungen. Wir präzisieren daher das Ziel unser Schätzung und konzentrieren uns dabei zunächst auf den Mittelwert µ. Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine Intervallschätzung [µU , µO ] vornehmen kann, so dass für jedes denkbare µ gilt W (µ liegt in [µU , µO ]) = δ (Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst kleines Intervall.) Die Schätzung soll dabei symmetrisch sein, d.h. von der Form [X − c, X + c]. Aufgrund der Symmetrie der Normalverteilung sind dann die Wahrscheinlichkeiten für eine Überschätzung (X − c > µ) und eine Überschätzung (X + c < µ) gleich groß (jeweils 1−δ ). 2 Wir müssen also lediglich c bestimmen. Es stellt sich heraus, dass c nur von σ, n und δ abhängt. 1. Fall: bekannte Standardabweichung Wir nehmen an, dass σ bekannt ist. Es ist µ liegt in [X − c, X + c] 25 2 1 Parameterschätzungen und Konfidenzintervalle gleichbedeutend mit X liegt in [µ − c, µ + c] . Da X normalverteilt mit EW µ und Standardabweichung √σ n ist, können wir die Wahrscheinlichkeit dafür mit der Standardnormalverteilung berechnen. Es gilt: W (µ liegt in [X − c, X + c]) = W (X liegt in [µ − c, µ + c]) = 2 ⋅ Φ ( Folglich: W (µ liegt in [X − c, X + c]) = δ ⇔ ⇔ Also ist c = λδ ⋅ √σ , n √ c n )−1 σ √ c n )−1=δ σ √ c n 1+δ Φ( )= σ 2 2 ⋅ Φ( wobei λδ die Zahl mit Φ (λδ ) = 1+δ 2 ist. Die Werte für λδ können direkt berechnet werden, zum Beispiel: δ 0.8 0.9 0.95 0.99 λδ 1.282 1.645 1.960 2.576 Man erhält also das Konfidenzintervall zum Vertrauensniveau δ durch: [X − c, X + c] mit c = λδ ⋅ √σ n 2. Fall: unbekannte Standardabweichung Normalerweise ist σ (wenn µ zu schätzen ist) nicht bekannt. Man hat nun mehrere Möglichkeiten, die Methode aus dem 1.Fall zu variieren. (a) Ersetze σ durch s Man erhält das Konfidenzintervall zum Vertrauensniveau δ dann durch: [X − c, X + c] √ (wobei s = 1 n−1 n mit c = λδ ⋅ √s n 2 ⋅ ∑ (Xi − X) die empirische Standardabweichung (s.o) ist ) i=1 Dies ist allerdings mathematisch nicht exakt. Durch die zusätzliche Ungewissheit, die entsteht, wenn man die ’wahre’ Standardabweichung durch die empirische ersetzt, kann nicht garantiert werden, dass das Konfidenzniveau eingehalten wird. Aber: Falls n groß ist, so kann man erwarten, dass die Annäherung σ ≈ s mit hoher Wahrscheinlichkeit sehr genau ist und dass sich dass Konfidenzintervall nicht wesentlich ändert, wenn man σ durch s ersetzt. Für praktische Zwecke ist dies ausreichend genau, wenn n groß genug ist (wir versuchen dies unten zu quantifizieren). 26 (b) Benutze die t-Verteilung: Die Bedingung µ liegt in [X − c, X + c] ist gleichbedeutend mit √ √ √ X −µ c n c n n⋅ liegt in [− , ] s s s Im ersten Fall hatten wir analog dazu die Bedingung √ n⋅ √ √ X −µ c n c n liegt in [− , ] σ σ σ und konnten ausnutzen, dass die Größe √ Die Größe n ⋅ X−µ s √ n⋅ X−µ σ standardnormalverteilt ist. ist hingegen nicht normalverteilt, sondern nach der soge- nannten t-Verteilung mit n − 1 Freiheitsgraden verteilt. Wir können hier nicht auf Details eingehen, sondern betrachten lediglich den Graphen der Dichte dieser Verteilung im Vergleich zur Gauß-Funktion und der Verteilungsfunktion im Vergleich zur Standardnormalverteilung. Gauß-Funktion f0,1 (rot) und die Dichtefunktion der t-Verteilung (blau) zum Freiheitsgrad n − 1 −4 −2 0 2 4 0.3 0.0 0.1 0.2 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 n = 101 0.4 n = 11 0.4 n=5 −4 −2 0 2 4 −4 −2 0 2 4 Standardnormalverteilung Φ (rot) und die t-Verteilung Tn−1 (blau) zum Freiheitsgrad n − 1 −4 −2 0 2 4 0.8 0.0 0.2 0.4 0.6 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 n = 101 1.0 n = 11 1.0 n=5 −4 −2 0 2 4 −4 −2 0 Man sieht, dass die t-Verteilung sich mit wachsendem n immer mehr der Standardnormalverteilung annähert. 27 2 4 1 Parameterschätzungen und Konfidenzintervalle Die gesuchte Wahrscheinlichkeit wird nun nicht mit der Verteilung Φ berechnet, sondern mit Tn−1 . Analog zum ersten Fall ergibt sich √ √ √ X −µ c n c n W (µ liegt in [X − c, X + c]) = W ( n ⋅ liegt in [− , ]) s s s √ c n = 2Tn−1 ( )−1 s Diese Wahrscheinlichkeit hat den Wert δ für: s c = λn−1,δ ⋅ √ n wobei λ(n−1,δ) die Zahl mit Tn−1 (λ(n−1,δ) ) = 1+δ ist 2 Man erhält das Konfidenzintervall zum Vertrauensniveau δ also durch: [X − c, X + c] mit c = λ(n−1,δ) ⋅ √s n In R berechnet man Tk (x) mit pt(x, k) und die Zahl x mit Tk (x) = y mit , n − 1). qt(y, k). Also erhält man λ(n−1,δ) durch qt( 1+δ 2 Werte der λn−1,δ im Vergleich mit λδ δ 0.8 0.9 0.95 0.99 n=4 λ(4−1,δ) 1.638 2.354 3.183 5.841 n=8 λ(8−1,δ) 1.415 1.895 2.365 3.500 n = 15 λ(15−1,δ) 1.346 1.762 2.145 2.977 n = 30 λ(30−1,δ) 1.312 1.700 2.046 2.757 n = 100 λ(100−1,δ) 1.291 1.661 1.985 2.627 n = 500 λ(500−1,δ) 1.284 1.648 1.965 2.586 normalverteilt λδ 1.282 1.645 1.960 2.576 Man sieht: Es gilt immer λ(n−1,δ) > λδ . Damit werden die Konfidenzintervalle etwas größer, wenn man zur Berechnung die empirische Standardabweichung s und die t-Verteilung (anstatt der wahren Standardabweichung σ und der Normalverteilung) benutzt. Die Unterschiede zwischen beiden Werten werden geringer, je größer n ist. Die Unterschiede zwischen beiden Werten werden größer, je größer δ ist. Konfidenzintervalle für µ können in R direkt (unter Benutzung der t-Verteilung) berechnet werden. Der Befehl t.test(x, conf.level = δ)$conf.int[1:2] ergibt eine nach obiger Methode berechnetes Konfidenzintervall zum Vertrauensniveau δ zum Datenvektor x. 28 4.) Schätzung für σ Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine Intervallschätzung [σU , σO ] vornehmen kann, so dass für jedes denkbare σ gilt W (σ liegt in [σU , σO ]) = δ (Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst kleines Intervall.) Wir betrachten dazu die empirische Standardabweichung: ¿ n Á 1 2 À ⋅ ∑ (Xi − X) s=Á n − 1 i=1 Es gilt σ liegt in [σU , σO ] ⇔ σU ≤ σ ≤ σO (n − 1)s2 (n − 1)s2 (n − 1)s2 ≥ ≥ ⇔ σU 2 σ2 σO 2 2 (n − 1)s (n − 1)s2 (n − 1)s2 ⇔ liegt in [ , ] 2 σ σO 2 σU 2 Die (Prüf-)Größe (n−1)s2 σ2 ist nach der sogenannten χ2 -Verteilung mit n − 1 Frei- heitsgraden verteilt. Auch hier verzichten wir auf die Details und betrachten lediglich die Graphen der Dichte dieser Verteilung und ihrer Verteilungsfunktion. Chi−Quadrat−Verteilungsfunktionen 0.0 0.0 0.1 0.2 0.2 0.4 0.3 0.6 0.4 0.8 0.5 1.0 Dichten der Chi−Quadrat−Verteilung 0 5 10 15 20 Freiheitsgrade n−1= 2(blau),4(rot),10(gelb),20(grün) 0 5 10 15 20 Freiheitsgrade n−1= 2(blau),4(rot),10(gelb),20(grün) Wir bezeichnen die Verteilungsfunktion der χ2 -Verteilung zum Freiheitsgrad k mit Sk . Damit hat also (n−1)S 2 σ2 die Verteilungsfunktion Sn−1 und es folgt 29 1 Parameterschätzungen und Konfidenzintervalle W (σ liegt in [σU , σO ]) = W( (n − 1)s2 (n − 1)s2 (n − 1)s2 liegt in [ , ]) 2 σ σO 2 σU 2 = Sn−1 ( (n − 1)s2 (n − 1)s2 ) − S ( ) n−1 σU 2 σO 2 Man bestimmt nun σU und σO , so dass Sn−1 ( (n − 1)s2 1+δ )= σU 2 2 und Sn−1 ( (n − 1)s2 1−δ )= σO 2 2 ist. Dann ergibt sich (wie gewünscht) W (σ liegt in [σU , σO ]) = 1+δ 1−δ − =δ 2 2 In R berechnet man Sk (x) mit pchisq(x, k) und die Zahl x mit Sk (x) = y mit qchisq(y, k). 30 Exponentialverteilung 1.) Einführung der Verteilung Gegeben sei λ > 0. Eine Größe heißt exponentialverteilt zum Parameter λ (kurz: λ-exponentialverteilt), wenn sie die Dichtefunktion ⎧ ⎪ ⎪ λ ⋅ exp (−λ ⋅ t) , falls t ≥ 0 fλ (t) = ⎨ ⎪ 0 , falls t < 0 ⎪ ⎩ hat. Eine solche Größe kann also nur positive Werte annehmen. 0.5 1.0 1.5 2.0 Dichte der Exponentialverteilung zu LAMBDA=2 0.0 0.0 0.5 1.0 1.5 2.0 Dichte der Exponentialverteilung zu LAMBDA=1 −5 0 5 10 −5 0 5 10 Dichte der Exponentialverteilung zu LAMBDA=2/3 Dichte der Exponentialverteilung zu LAMBDA=1/3 1.5 1.0 0.5 0.0 0.0 0.5 1.0 1.5 2.0 t 2.0 t −5 0 5 10 −5 t 0 5 10 t In R berechnet man fλ (t) durch dexp(t,λ). Exponentialverteilte Größen X werden als Modell vorrangig bei der Beantwortung der Frage nach der Dauer von zufälligen Zeiträumen benutzt, wenn folgende Bedingung gilt: Die Wahrscheinlichkeit, dass X im Bereich [0, t] liegt ist genausogroß, wie die Wahrscheinlichkeit, dass X im Bereich [t0 , t0 + t] liegt, wenn schon bekannt ist, dass X ≥ t0 ist. W (X liegt in [0, t]) = W (X liegt in [t0 , t0 + t]) W (X ≥ t0 ) = W (X liegt in [t0 , t0 + t] ∣ X ≥ t0 ) Dies ist zum Beispiel der Fall, wenn X die Zeit angibt, bis ein bestimmtes 31 1 Parameterschätzungen und Konfidenzintervalle zufälliges Ereignis eintritt und sich die Wahrscheinlichkeit für ein zukünftiges Eintreten nicht ändert, wenn das Ereignis eine Zeitlang nicht eingetreten ist. Der Parameter λ gibt dabei die Rate an, mit der das Ereignis eintritt, man nennt λ zum Beispiel Ausfallrate, wenn das betreffende Ereignis, der Ausfall eines Objekts ist. Die durchschnittliche Zeit bis zum Eintreten des Ereignisses (= Erwartungswert von X) ergibt sich dabei als 1 , λ das heißt je kleiner λ ist, desto wahrscheinlicher ist ein größerer Wert für X. Genauer gesagt gilt µX = ∫ ∞ −∞ t ⋅ fλ (t)dt = ∫ ∞ 0 (∗) t ⋅ λ ⋅ exp (−λ ⋅ t) = 1 λ und σX 2 = ∫ ∞ −∞ ∞ 1 2 1 2 (∗) 1 (t − ) ⋅ λ ⋅ exp (−λ ⋅ t) = ) ⋅ fλ (t)dt = ∫ λ λ λ 0 (t − (An den mit (∗) versehenen Stellen ist eine kleine Rechnung notwendig.) Beispiele für exponentialverteilte Größen sind: Zeit zwischen zwei Anrufen ’Lebensdauer’ von Atomen bei radioaktiven Zerfall Lebensdauer von Bauteilen, wenn Alterungserscheinungen nicht betrachtet werden Die Verteilungsfunktion Fλ einer λ-exponentialverteilten Größe kann durch Integration berechnet werden: x ⎧ ⎪ ⎪ 1 − exp(−λx) Fλ (x) = ∫ λ ⋅ exp (−λ ⋅ t) dt = ⎨ ⎪ 0 ⎪ ⎩ −∞ , falls t ≥ 0 , falls t < 0 0.0 0.2 0.4 F(x) 0.6 0.8 1.0 Verteilungsfunktion der Exponentialverteilung −2 −1 0 1 2 3 x LAMBDA= 1(rot), 2 (grün), 2/3 (blau), 1/3 (gelb) 32 4 In R berechnet man Fλ (x) durch pexp(x,λ). Man erhält also für 0 ≤ a < b: W (X ≤ b) = 1−exp(−λb), W (a ≤ X) = exp(−λa), W (a ≤ X ≤ b) = exp(−λa)−exp(−λb) 2.) Schätzung für λ Situation: Von einer unbekannten Größe X wird angenommen, dass sie exponentialverteilt ist. Allerdings ist λ nicht bekannt. Man führt daher n unabhängige Messungen (Stichprobe) für X durch und erhält die Werte X1 , . . . , Xn . Wie kann man nun λ aus diesen Daten schätzen? System mit Parametern λ zufällig Ð→ Daten X1 , . . . , Xn methodisch Ð→ Schätzung für λ In dieser Situation sind also: X1 , . . . , Xn zufällig und bekannt, Da der Erwartungswert von X gleich X= 1 n n λ feststehend aber unbekannt 1 λ ist und durch den empirischen EW ( ∑ Xi ) geschätzt werden kann, hat man i=1 Schätzung für λ: λ≈ 1 X = n n ∑ Xi i=1 Ziel: Gib eine Methode an, wie man ausgehend von den Daten X1 , . . . , Xn eine Intervallschätzung [λU , λO ] vornehmen kann, so dass für jedes denkbare λ gilt W (λ liegt in [λU , λO ]) = δ (Dabei ist δ das Konfidenzniveau. Es würde auch W (. . .) ≥ δ genügen, um das Konfidenzniveau einzuhalten, man erhält mit W (. . .) = δ aber zu gegebenem δ ein möglichst kleines Intervall.) Als Prüfgröße betrachten wir Z = 2nλX. Es gilt: Z ist χ2 -verteilt mit 2n Freiheitsgraden, hat also die Verteilungsfunktion S2n (siehe oben). Dies können wir hier nicht begründen. Es gilt λ liegt in [λU , λO ] ⇔ Z liegt in [2nλU X, 2nλO X] Daher ist W (λ liegt in [λU , λO ]) = W (Z liegt in [2nλU X, 2nλO X]) = S2n (2nλO X)−S2n (2nλU X) Man bestimmt nun λU und λO , so dass 1+δ 1−δ und S2n (2nλU X) = 2 2 ist. Dann ergibt sich (wie gewünscht) S2n (2nλO X) = W (σ liegt in [λU , λO ]) = 1+δ 1−δ − =δ 2 2 33 2 Hypothesentests Allgemeines über Tests Bestimmte Fragestellungen können einem Hypothesentest unterzogen werden. Beispiele: Die Trefferwahrscheinlichkeit p eines wiederholbaren Vorgangs ist größer als 0.9 (bzw. kleiner als 0.6, bzw. genau gleich 0.5). Der Erwartungswert µ einer normalverteilen Größe ist größer (bzw. kleiner, bzw. gleich) einem gegebenen Wert µ0 . Eine zufällige Größe ist nach einer Exponentialverteilung zum Parameter λ = 1 4 verteilt. Eine bestimmte zufällige Größe ist normalverteilt (d.h. nach irgendeiner Nor- malverteilung verteilt). Zwei verschiedene zufällige Größen sind unabhängig voneinander. Zwei verschiedene zufällige Größen haben die gleiche Verteilung. Für viele Probleme gibt es viele verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung daher nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentest. Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nulhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer zufälligen Größe oder einen Parameter, die durch die erhobenen Daten entweder (mit einer gewissen vorgegebenen Sicherheit) falsifiziert werden kann oder nicht. Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen. Wir bezeichnen die Nullhypothese mit H0 . Die Gegenaussage (“H0 gilt nicht.“) nennt man dann Gegenhypothese, sie wird mit H1 bezeichnet. Beispielsweise: H0 ∶ p ≥ 0.3 H1 ∶ p < 0.3 (dabei ist p die Trefferwahrscheinlichkeit einer Binomialverteilung) H0 ∶ Das Gewicht von Hühnereiern ist normalverteilt. H1 ∶ Das Gewicht von Hühnereiern ist nicht normalverteilt. H0 ∶ Männer und Frauen wählen bei der Bundestagswahl gleich. H1 ∶ Männer und Frauen wählen bei der Bundestagswahl verschieden. 35 2 Hypothesentests Man unterscheidet: Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung usw.). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa p bzw. µ und/oder σ). Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate. Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegt. Beispielsweise betrachten wir die Nullhypothese H0 ∶ p ≥ 0.7 zur Trefferwahrscheinlichkeit p einer Binomialverteilung. Man führt n = 10 Versuche durch und erhält dabei k Treffer. Es ist sinnvoll, die Nullhypothese abzulehnen, wenn k klein ist, also zum Beispiel für k = 0, 1, 2, 3. Sollte man H0 auch für k = 4 oder k = 5 ablehnen? Vor der Durchführung eines Tests wird ein Signifikanzniveau α (z.B. α = 0.05) und ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der beiden folgenden Entscheidungen: Die Nullhypothese ist (mit dem Signifikanzniveau α) abzulehnen. Die Nullhypothese kann nicht (mit dem Signifikanzniveau α) abgelehnt wer- den. Dabei ist folgende zentrale Bedingung unbedingt einzuhalten: Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit α abgelehnt. Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall: Die Nullhypothese wird nicht abgelehnt. oder Die Nullhypothese ist mit den Daten vereinbar. Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis. In obigem Beispiel ist die Wahrscheinlichkeit (H0 ∶ p ≥ 0.7, n = 10) legt man das Signifikanzniveau α = 0.1 fest. Falls die Nullhypothese tatsächlich gilt, folgt: 3 3 j=0 j=0 )pj (1 − p)n−j ≤ ∑ (10 )(0.7)j (0.3)n−j ≈ 0.011 ≤ α W (k ≤ 3) = ∑ (10 j j Man kann also die Nullhypothese für k = 0, 1, 2, 3 ablehnen und dabei das Signifikanzniveau einhalten. 36 4 4 j=0 j=0 )pj (1 − p)n−j ≤ ∑ (10 )(0.7)j (0.3)n−j ≈ 0.047 ≤ α W (k ≤ 4) = ∑ (10 j j Man kann also die Nullhypothese für k = 0, 1, 2, 3, 4 ablehnen und dabei das Signifikanzniveau einhalten. 5 5 j=0 j=0 )(0.7)j (0.3)n−j ≈ 0.150 > α )pj (1 − p)n−j ≤ ∑ (10 W (k ≤ 5) = ∑ (10 j j Lehnt man die Nullhypothese für k = 0, 1, 2, 3, 4, 5 ab, so wäre das Signifikanzniveau nicht eingehalten. Da die erhobenen Daten zufällig sind, sind falsche Entscheidungen denkbar. Man unterscheidet folgende Fälle: Nullhypothese trifft zu Nullhypothese wird abgelehnt Nullhypothese wird nicht abgelehnt Fehler erster Art (α-Fehler) kein Fehler kein Fehler Fehler zweiter Art (β-Fehler) Nullhypothese trifft nicht zu Der β-Fehler ist kein eigentlicher ’Fehler’, da der Test in diesem Fall keine Aussage macht. Trotzdem möchte man ihn natürlich vermeiden. Falls die Nullhypothese zutrifft, ist die Wahrscheinlichkeit einen Fehler 1.Art zu machen, keinesfalls größer als α. Eine oft genutzte Möglichkeit zu einer Entscheidung zu kommen, besteht darin, eine sogenannte Testfunktion (oder Teststatistik) aufzustellen. Diese erzeugt aus den Daten D (mit einer festgelegten, möglichst plausiblen) Methode eine Zahl T (D). Die Hypothese wird dann abgelehnt, wenn T (D) bestimmte (vorher festgelegte) Werte annimmt, die (wenn die Nullhypothese gilt) sehr unwahrscheinlich sind. Diese Werte werden im sogenannten Ablehnungsbereich A zusammengefasst, es gilt also H0 wird abgelehnt ⇔ T (D) ∈ A Bei vielen Tests ist der Ablehnungsbereich von der Form A = [c, ∞[ oder A =]−∞, c] (mit einer Zahl c ∈ R). In obigem Beispiel ist die Teststatistik T (k) = k identisch mit der Trefferzahl k und der Ablehnungsbereich von der Form A = {0, 1, 2, 3, 4}. Die Gütefunktion: Bei parametrischen Tests bietet die sogenannte Gütefunktion die Möglichkeit, verschiedene Testverfahren zu vergleichen. Diese Funktion g ordnet jedem möglichen Parameterwert die Wahrscheinlichkeit dafür zu, dass die Nullhypothese abgelehnt wird. Dabei ist zu beachten: Für Parameter P , die die Nullhypothese erfüllen, muss g(P ) ≤ α gelten. Für Parameter P , die die Nullhypothese nicht erfüllen, ist es wünschens- wert, dass g(P ) groß ist. 37 2 Hypothesentests In obigem Beispiel (H0 ∶ p ≥ 0.7, n = 10, α = 0.1) vergleichen wir verschiedene Testverfahren: 1.) Ein Testverfahren verwirft die Nullhypothese für k ∈ A = {0, 1, 2, 3, 4}. Theoretisch kann p jeden Wert in [0, 1] haben. In Abhängigkeit von p kann die Wahrscheinlichkeit dafür berechnet werden, dass die Trefferzahl im Ablehnungsbereich liegt. Es gilt 4 Wp (k ∈ A) = Wp (k = 0) + Wp (k = 1) + . . . + Wp (k = 4) = ∑ ( j=0 10 j )p (1 − p)10−j j Die Gütefunktion ist also gegeben durch: 4 g(p) = Wp (k ∈ A) = ∑ ( j=0 10 j )p (1 − p)10−j j Wir setzen einige Werte für p ein: g(0.8) = 0.0064 ≤ α, g(0.7) = 0.0473 ≤ α , g(0.65) = 0.0949, g(0.6) = 0.1662, g(0.2) = 0.9672 Der Test garantiert, dass g(p) ≤ α ist, wenn die Nullhypothese gilt (siehe Kasten). Falls aber beispielsweise p = 0.6 gilt, so wird die Nullhypothese hier nur mit einer Wahrscheinlichkeit von etwa 16.6% abgelehnt (obwohl sie nicht gilt). In diesem Fall ist also die Wahrscheinlichkeit für einen β-Fehler recht hoch. Die Gütefunktion sieht hier wie folgt aus 0.0 0.2 0.4 g(p) 0.6 0.8 1.0 Graph der Gütefunktion 0.0 0.2 0.4 0.6 0.8 1.0 p 2.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {0, 1, 2, 3, 4, 5}. Die Gütefunktion ist dann gegeben durch: 5 g(p) = Wp (k ∈ A) = ∑ ( j=0 38 10 j )p (1 − p)10−j j 0.0 0.2 0.4 g(p) 0.6 0.8 1.0 Graph der Gütefunktion 0.0 0.2 0.4 0.6 0.8 1.0 p Man sieht, dass das Signifikanzniveau nicht eingehalten wird. Dieser Test scheidet also aus. 3.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {0, 1, 2, 3}. Die Gütefunktion ist dann gegeben durch: 3 10 g(p) = Wp (k ∈ A) = ∑ ( )pj (1 − p)10−j j j=0 0.0 0.2 0.4 g(p) 0.6 0.8 1.0 Graph der Gütefunktion 0.0 0.2 0.4 0.6 0.8 1.0 p Man sieht, dass das Signifikanzniveau hier eingehalten wird. Der Test hat aber im Vergleich zum ersten Test ’eine schlechtere Güte’ (-funktion), d.h. die Wahrscheinlichkeit eines β-Fehlers ist höher. 4.) Ein anderes Testverfahren verwirft die Nullhypothese für k ∈ {3, 4}. Die Gütefunktion ist dann gegeben durch: 4 10 g(p) = Wp (k ∈ A) = ∑ ( )pj (1 − p)10−j j j=3 39 2 Hypothesentests 0.0 0.2 0.4 g(p) 0.6 0.8 1.0 Graph der Gütefunktion 0.0 0.2 0.4 0.6 0.8 1.0 p Man sieht, dass das Signifikanzniveau hier eingehalten wird. Der Test hat aber im Vergleich zum ersten Test ebenfalls eine schlechtere Güte. Mithilfe der Gütefunktionen können verschiedene Testverfahren miteinander verglichen werden. Man kommt dabei aber nicht immer zu einer eindeutigen Erkenntnis. Wenn man beispielsweise die Gütefunktionen der letzten beiden Tests (3. und 4.) in obigem Beispiel vergleicht, so sieht man, dass die eine in einem Bereich und die andere in einem anderen Bereich der möglichen Parameterwerte ’besser’ (d.h. größer) ist. Eine ’ideale’ Gütefunktion zu obigem Beispiel sähe wie folgt aus: 0.0 0.2 0.4 g(p) 0.6 0.8 1.0 Graph der Gütefunktion 0.0 0.2 0.4 0.6 0.8 1.0 p Natürlich existiert kein Test zur Nullhypothese p ≥ 0.7 mit dieser Gütefunktion. Der p-Wert: Bei vielen Testverfahren kann man den sogenannten p-Wert zur Einschätzung des Testergebnisses heranziehen. Dies ist der minimale Wert für das Signifikanzniveau α, zu dem die Nullhypothese gerade noch abgelehnt wird. (Dies setzt voraus, dass man ein Testverfahren benutzt, dass für beliebige Werte von α durchgeführt werden kann.) 40 Der p-Wert ist ein Wert zwischen Null und Eins, bestimmt durch die erhaltenen Daten, der andeutet, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist, und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist. Der p-Wert ist eine obere Schranke für die Wahrscheinlichkeit, unter Gültigkeit der Nullhypothese die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren p-Wert) zu erhalten. Mit dem p-Wert wird also angedeutet, wie extrem das Ergebnis ist, wenn die Nullhypothese gilt: je kleiner der p-Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese. Im Zusammenhang mit der Teststatistik kann (in manchen Fällen) auch zuerst der p-Wert bestimmt werden und dann über die Ablehnung der Nullhypothese entschieden werden. Dabei kann man wie folgt vorgehen Hat man eine Teststatistik T gewählt, so dass ein niedriger Wert von T gegen die Nullhypothese spricht, so kann man wie folgt vorgehen: 1.) Man bestimmt den p-Wert konkret erhaltener Daten D0 (deren Teststatistik T (D0 ) = T0 ist) als die (unter Gültigkeit der Nullhypothese maximale) Wahrscheinlichkeit dafür, dass die Teststatistik zufälliger Daten den Wert T0 oder einen kleineren Wert hat. 2.) Man lehnt die Nullhypothese zum Signifikanzniveau α genau dann ab, wenn p ≤ α ist. Hat man eine Teststatistik T gewählt, so dass ein hoher Wert von T gegen die Nullhypothese spricht, so kann man wie folgt vorgehen: 1.) Man bestimmt den p-Wert konkret erhaltener Daten D0 (deren Teststatistik T (D0 ) = T0 ist) als die (unter Gültigkeit der Nullhypothese maximale) Wahrscheinlichkeit dafür, dass die Teststatistik zufälliger Daten den Wert T0 oder einen größeren Wert hat. 2.) Man lehnt die Nullhypothese zum Signifikanzniveau α genau dann ab, wenn p ≤ α ist. Zu gegebenem Signifikanzniveau α ist eine Nullhypothese genau dann abzulehnen, wenn p ≤ α gilt. Zu einer korrekten Vorgehensweise gehört es, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der p-Wert festgesetzt werden). Allerdings liefert der p-Wert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen. (Für α = 0.05 und p = 0.07 kann man zwar nicht ablehnen, das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch ziemlich unwahrscheinlich). In vielen Situationen stehen mehrere Testverfahren (zum Überprüfen ein und derselben Nullhypothese) zur Verfügung. Diese liefern dann auch verschiedene p-Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Date- 41 2 Hypothesentests nerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen p-Wert auszuwählen). Wir betrachten erneut obiges Beispiel (H0 ∶ p ≥ 0.7, n = 10, Teststatistik T (k) = k, niedriger Wert von k spricht gegen H0 ) Der kleinste Wert der Teststatistik (und damit der ’am wenigsten plausible’ Wert, falls H0 gilt) ist k = T (k) = 0. Die Wahrscheinlichkeit, dass dies eintritt, beträgt )p0 (1 − p)10−0 und wird (falls H0 wahr ist) maximal für p = 0.7, hat W (k = 0) = (10 0 dann also den Wert 10 W (k = 0) = ( )(0.7)0 (1 − 0.7)10−0 ≈ 0.0000059 0 Der p-Wert der Trefferzahl k = 0 ist also 0.0000059. Der nächstkleinste Wert der Teststatistik ist k = T (k) = 1. Die Wahrscheinlichkeit, dass dieser oder der zuvor behandelte (unter H0 noch ungewöhnlichere Fall) 1 )pj (1 − p)10−j und wird (falls H0 T (k) = k = 0 eintritt, beträgt W (k ≤ 1) = ∑ (10 j j=0 wahr ist) maximal für p = 0.7, hat dann also den Wert 1 W (k ≤ 0) = ∑ ( j=0 10 )(0.7)j (1 − 0.7)10−j ≈ 0.000144 j Der p-Wert der Trefferzahl k = 1 ist also 0.000144. Der nächstkleinste Wert der Teststatistik ist k = T (k) = 2. Die Wahrscheinlichkeit, dass dieser oder einer der zuvor behandelten (unter H0 noch ungewöhnlicheren) 2 )pj (1 − p)10−j Fälle T (k) = k = 0 oder T (k) = k = 1 eintritt, beträgt W (k ≤ 2) = ∑ (10 j j=0 und wird (falls H0 wahr ist) maximal für p = 0.7, hat dann also den Wert 2 W (k ≤ 0) = ∑ ( j=0 10 )(0.7)j (1 − 0.7)10−j ≈ 0.00159 j Der p-Wert der Trefferzahl k = 2 ist also 0.00159. und so weiter k Man sieht, dass sich der p-Wert einer Trefferzahl k direkt durch ∑ (nj)(p0 )j (1 − p0 )n−j j=0 berechnen lässt. Für k = 4 liegt dieser p-Wert noch unter dem Signifikanzniveau α = 0.1. Daher kann man H0 bei 4 Treffern noch ablehnen. Für k = 5 überschreitet der p-Wert das Signifikanzniveau. Daher kann man H0 bei 5 Treffern nicht mehr ablehnen. Tests für die Trefferwahrscheinlichkeit einer Binomialverteilung Bei einem wiederholbaren Vorgang tritt eine bestimmte Möglichkeit mit der Trefferwahrscheinlichkeit p ein. Wir untersuchen Methoden zum Testen bestimmter Nullhypothesen. 42 1.) Nullhypothese: p ≥ p0 Erzielt man bei n Durchführungen k Treffer, so ist die Nullhypothese (mit dem Signifikanzniveau α) abzulehnen, wenn k n j n−j ≤α ∑ ( )p0 (1 − p0 ) j=0 j gilt. Beispiel: Die Nullhypothese besagt, dass ein Medikament in mindestens 70% aller Fälle eine bestimmte Wirkung erzielt. Nullhypothese: p ≥ p0 = 0.7 Um die Nullhypothese zu testen, legt man ein Signifikanzniveau α = 0.05 fest und beobachtet 100 Patienten, die das Medikament einnehmen. Die Wirkung tritt in 64 Fällen ein. Reicht dies aus, um die Nullhypothese abzulehnen? p0 = 0.7, n = 100, k = 64 ⇒ k 64 n 100 j n−j = ∑( )(0.7)j (0.3)100−j ≈ 0.116 > α ∑ ( )p0 (1−p0 ) j j j=0 j=0 Folglich kann die Nullhypothese nicht abgelehnt werden. Sie könnte allerdings trotzdem falsch sein, allerdings rechtfertigen die Daten keine Ablehnung zum gegebenen Signifikanzniveau. Angenommen die Wirkung wäre bei nur 59 Patienten eingetreten. In diesem Fall p0 = 0.7, n = 100, k = 59 ⇒ 59 k 100 n j n−j = ∑( )(0.7)j (0.3)100−j ≈ 0.012 ≤ α ∑ ( )p0 (1−p0 ) j j j=0 j=0 Die Nullhypothese kann nun also abgelehnt werden. Sie könnte immer noch gelten, aber wenn dies der Fall ist, ist das beobachtete Ergebnis sehr unwahrscheinlich (in jedem Fall nicht wahrscheinlicher als α = 0.05). Man stellt fest, dass die Nullhypothese hier abzulehnen ist, wenn die Wirkung bei 61 oder weniger Patienten eintritt. Hätte man 1000 (10000) Patienten getestet, so wäre die Nullhypothese abzulehnen, wenn die Wirkung bei höchstens 675 (6924) Patienten eintritt. Erklärung zur Vorgehensweise: Der Ablehnbereich der Nullhypothese p ≥ p0 ist von der Form {0, . . . , kmax }, k0 wobei kmax die größte Zahl ist, für die noch ∑ (nj)p0 j (1 − p0 )n−j ≤ α gilt. j=0 Angenommen die Nullhypothese gilt tatsächlich, wie groß ist dann die Wahrscheinlichkeit, dennoch ein Ergebnis aus dem Ablehnbereich zu beobachten ? Diese Wahrscheinlichkeit ist gegeben durch k0 n W (höchstens kmax Treffer) = ∑ ( )pj (1 − p)n−j j=0 j Falls p = p0 ist dieser Ausdruck ≤ α (siehe oben). 43 2 Hypothesentests Falls p > p0 gilt k0 k0 n j n n−j < ∑ ( )p0 j (1 − p0 )n−j ≤ α ∑ ( )p (1 − p) j=0 j j=0 j Falls also die Nullhypothese gilt, ist die Wahrscheinlichkeit in den Ablehnbereich zu geraten, in jedem Fall nicht größer als α. Dies rechtfertigt die Vorgehensweise. Der p-Wert: Beobachtet man k Treffer bei n Versuchen, so ist der größte Wert für das Signifikanzniveau α, zu dem man die Nullhypothese p ≥ p0 noch ablehnen kann, offenbar gerade k n j n−j ∑ ( )p0 (1 − p0 ) j=0 j Dies ist also der p-Wert des Testergebnisses bei diesem Testverfahren. (Grundsätzlich sind andere Verfahren denkbar, bei denen man dann auch einen anderen p-Wert erhalten könnte.) In obigem Beispiel (p0 = 0.7, n = 100) ist der p-Wert bei 64 Treffern 0.116 und bei 59 Treffern 0.012. In R kann man diesen p-Wert direkt berechnen. Dies geht mit: binom.test(k, n, p0 , alt=“less“)$p.value 2.) Nullhypothese: p ≤ p0 Erzielt man bei n Durchführungen k Treffer, so ist die Nullhypothese (mit dem Signifikanzniveau α) abzulehnen, wenn n n j n−j ≤α ∑ ( )p0 (1 − p0 ) j=k j gilt. Äquivalent dazu ist die Bedingung k−1 n j n−j ≥1−α ∑ ( )p0 (1 − p0 ) j=0 j Beispiel: Die Nullhypothese besagt, dass nach Kalkeinsatz mit einer Wahrscheinlichkeit von höchstens 80% eine bestimmte Vebesserung des Waldbodens eintritt. Nullhypothese: p ≤ p0 = 0.8 Um die Nullhypothese zu testen, legt man ein Signifikanzniveau α = 0.1 fest und führt 20 Kalkeinsätze durch. Die Wirkung tritt in k = 18 Fällen ein. Es gilt: k−1 p0 = 0.8, n = 20, k = 18 ⇒ 17 n n j n−j = ∑ ( )(0.8)j (1−0.8)20−j ≈ 0.794 < 1−α ∑ ( )p0 (1−p0 ) j j=0 j=0 j Folglich kann die Nullhypothese nicht abgelehnt werden. 44 Für k = 19 oder k = 20 hätte man die Nullhypothese ablehnen können und damit einen empirischen Nachweis (mit einer Irrtumswahrscheinlichkeit von nicht mehr als 10%) dafür erbracht, dass der Kalkeinsatz mit mindestens 80% Wahrscheinlichkeit hilft. Hätte man das Signifikanzniveau auf 0.01 festgelegt, so hätte dieser Nachweis selbst bei 20 (von 20) Treffern nicht gelingen können, denn es gilt 19 n n j n−j = ∑ ( )(0.8)j (1−0.8)20−j ≈ 0.988 < 1−0.01 ∑ ( )p0 (1−p0 ) j=0 j j=0 j k−1 p0 = 0.8, n = 20, k = 20 ⇒ Man kann das Problem auch anders angehen und die folgende Nullhypothese formulieren: Nullhypothese: p ≥ p0 = 0.8 (Einsatz hilft mit Wahrsch. von mindestens 0.8) Signifikanzniveau α = 0.1, Anzahl der Durchführungen n = 20 14 k = 14 ∶ ∑( j=0 20 )(0.8)j (1 − 0.8)20−j ≈ 0.196 > α j Die Nullhypothese kann also zum Niveau 0.1 nicht abgelehnt werden. 13 k = 13 ∶ ∑( j=0 20 )(0.8)j (1 − 0.8)20−j ≈ 0.087 ≤ α j Die Nullhypothese kann also zum Niveau 0.1 abgelehnt werden. Bei bis zu 13 Treffern kann man die Nullhypothese also ablehnen. Wir haben festgestellt: Liegt die Trefferzahl zwischen 14 und 18, so kann man weder die Nullhypothese p ≤ 0.8 noch die Nullhypothese p ≥ 0.8 (zum Niveau α = 0.1) ablehnen. In diesem Fall reichen die Daten (Trefferzahl) nicht aus, um (mit einer Irrtumswahrscheinlichkeit von nicht mehr als 0.1) zu entscheiden, ob p ≥ 0.8 oder p ≤ 0.8 ist. 3.) Nullhypothese: p = p0 Wir versuchen an diesem Fall klarzumachen, dass es oftmals mehrere sinnvolle Testverfahren gibt, die unterschiedliche Ergebnisse liefern. Klar ist: Die Nullhypothese sollte sowohl für zu kleine und auch für zu große beobachtete Trefferzahlen abgelehnt werden. (a) Wir benutzen als Teststatistik T (k) zur Trefferzahl k die Abweichung der Trefferzahl vom Erwartungswert, also T (k) = ∣k − n ⋅ p0 ∣ (k = 0, . . . , n) Offenbar spricht ein hoher Wert von T (k) gegen die Nullhypothese. Der p-Wert einer beobachteten Trefferzahl k0 berechnet sich also als Wahrscheinlichkeit W (T (k) ≥ T (k0 )) , falls p = p0 ist 45 2 Hypothesentests (Man lehnt dann H0 ab, wenn der p-Wert ≤ α ist.) Wir führen dies am Beispiel n = 36, p0 = 0.85, α = 0.05 durch. Die verschiedenen Werte k = 0, . . . , 36 haben die folgenden Teststatistiken: k 0 1 2 ... 29 30 31 32 ... 35 36 T (k) = ∣k − 36 ⋅ 0.85∣ 30.6 29.6 28.6 ... 1.6 0.6 0.4 1.4 ... 4.4 5.4 Damit erhält man (exemplarisch) die folgenden p-Werte: Angenommen es ergibt sich die Trefferzahl k0 = 0. Dann ist T (k0 ) = 30.6. Der p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich p = 0.85 gilt) als Wahrscheinlichkeit: W (T (k) ≥ 30.6) = W (k = 0) = ( 36 )(0.85)0 (0.15)36−0 ≈ 2 ⋅ 10−30 0 Angenommen es ergibt sich die Trefferzahl k0 = 25. Dann ist T (k0 ) = 5.6. Der p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich p = 0.85 gilt) als Wahrscheinlichkeit: 25 W (T (k) ≥ 5.6) = W (k ∈ {0, . . . , 25}) = ∑ ( j=0 36 )(0.85)j (0.15)36−j ≈ 0.014 j Angenommen es ergibt sich die Trefferzahl k0 = 28. Dann ist T (k0 ) = 2.6. Der p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich p = 0.85 gilt) als Wahrscheinlichkeit: W (T (k) ≥ 2.6) = W (k ∈ {0, . . . , 28 , 34, . . . , 36}) = 28 36 36 36 j 36−j + ∑ ( )(0.85)j (0.15)36−j ∑ ( )(0.85) (0.15) j j j=0 j=34 ≈ 0.240 Angenommen es ergibt sich die Trefferzahl k0 = 31. Dann ist T (k0 ) = 0.4. Der p-Wert berechnet sich (mit der Annahme, dass H0 wahr ist, also tatsächlich p = 0.85 gilt) als Wahrscheinlichkeit: 36 W (T (k) ≥ 0.4) = W (k ∈ {0, . . . , 36}) = ∑ ( j=0 36 )(0.85)j (0.15)36−j = 1 j Mit dieser Methode kann zu jeder Zahl der p-Wert bestimmt werden. Die Nullhypothese wird genau dann abgelehnt, wenn der p-Wert ≤ α = 0.05 ist, man stellt (mit Einsatz eines Rechners) fest, dass dies genau für k ∈ {0, . . . , 26 , 36} der Fall ist. (b) Erzielt man bei n Durchführungen k Treffer, so lehnt man die Nullhypothese (zum Signifikanzniveau α) genau dann ab, wenn k n j α n−j ≤ ∑ ( )p0 (1 − p0 ) j 2 j=0 46 oder n n j α n−j ≤ ∑ ( )p0 (1 − p0 ) j 2 j=k Dies ist genau dann der Fall, wenn k ∈ {0, . . . , kU } ∪ {kO , . . . , n} kU wobei kU die größte Zahl mit ∑ (nj)p0 j (1−p0 )n−j ≤ j=0 n Zahl mit ∑ (nj)p0 j (1 − p0 )n−j ≤ j=kO α 2 α 2 ist und kO die größte ist. Falls die Nullhypothese erfüllt ist (also tatsächlich p = p0 gilt), so ist die Wahrscheinlichkeit für eine Ablehnung kU n n n α α W (k im Ablehnbereich) = ∑ ( )p0 j (1−p0 )n−j + ∑ ( )p0 j (1−p0 )n−j ≤ + = α j j 2 2 j=0 j=kO Dies rechtfertigt die Vorgehensweise. p-Wert: Bei k beobachteten Treffern wird die Nullhypothese abgelehnt, wenn k n j α n−j ≤ ∑ ( )p0 (1 − p0 ) 2 j=0 j oder n n j α n−j ≤ ∑ ( )p0 (1 − p0 ) 2 j=k j ⇔ n ⎛k n ⎞ α n min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j ≤ ⎝j=0 j ⎠ 2 j=k j ⇔ n ⎛k n ⎞ n 2 ⋅ min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j ≤ α ⎝j=0 j ⎠ j=k j Damit ist der p-Wert (der kleinste Wert von α, der noch zu einer Ablehnung führt) bei diesem Verfahren: n ⎛k n ⎞ n 2 ⋅ min ∑ ( )p0 j (1 − p0 )n−j , ∑ ( )p0 j (1 − p0 )n−j ⎝j=0 j ⎠ j=k j Wir betrachten erneut das Beispiel n = 36, p0 = 0.85, α = 0.05. Prüft man für k = 0, . . . , 36 die Ablehnbedingung k 36 j 36−j ≤ 0.025 ∑ ( )(0.85) (0.15) j j=0 oder 36 36 j 36−j ≤ 0.025 ∑ ( )(0.85) (0.15) j j=k so stellt man fest, dass diese genau für k ∈ {0, . . . , 25, 35, 36} erfüllt ist. In diesem Beispiel lehnt das Testverfahren aus (b) die Nullhypothese in anderen Fällen ab, wie das Verfahren aus (a). Wir werden darauf später wieder eingehen. (c) Ein letztes Testverfahren für p = p0 . Die Idee ist: Der Ablehnbereich besteht aus den Ergebnissen (Trefferzahlen), die — unter der Bedingung, dass die Nullhypothese gilt — am unwahrscheinlichsten sind. 47 2 Hypothesentests Genauer: Nimm an, dass die Nullhypothese gilt und berechne die Wahrscheinlichkeiten aller möglichen Ergebnisse (Trefferzahlen), also n W (genau k Treffer) = ( )p0 k (1 − p0 )n−k für k = 0, . . . , n k Das unwahrscheinlichste Ergebnis führt zu einer Ablehnung. Das nächstunwahrscheinliche Ergebnis führt ebenfalls zu einer Ablehnung, falls dadurch nicht eine Gesamtwahrscheinlichkeit von α überschritten würde. Und so weiter (bis die Gesamtwahrscheinlichkeit von α überschritten wird). Beispiele: n = 10, Nullhypothese p = p0 = 0.7 Wir berechnen die Wahrscheinlichkeiten aller möglichen Trefferzahlen unter der Bedingung, dass die Nullhypothese gilt: k 0 1 2 3 4 5 6 7 8 9 10 W (genau k Treffer) 0.000006 0.0001 0.001 0.009 0.037 0.103 0.200 0.267 0.233 0.121 0.028 )(0.7)k (0.3)10−k = (10 k Wir betrachten das Signifikanzniveau α = 0.2: Wir ’sammeln’ nun unwahrscheinliche Trefferzahlen, solange ihre Gesamtwahrscheinlichkeit (unter der Annahme der Nullhypothese) α nicht überschreitet. mögliche Werte für k Gesamtwahrsch. 0 0,1 0,1,2 0,1,2,3 0,1,2,3,10 0,1,2,3,10,4 0,1,2,3,10,4,5 0,1,2,3,10,4,5,9 <0.001 <0.001 0.002 0.011 0.038 0.076 0.179 0.300 Der Ablehnbereich der Nullhypothese ist also: k ∈ {0, 1, 2, 3, 4, 5, 10} Der p-Wert einer beobachteten Trefferzahl k berechnet sich einfach als die Summe der Wahrscheinlichkeiten W (genau j Treffer) = (nj)p0 j (1 − p0 )n−j , wobei j alle Werte annimmt, für die diese Wahrscheinlichkeit kleiner gleich als die für k ist. Im obigen Beispiel ist der p-Wert von 4 die Summe W (0 Treffer)+W (1 Treffer)+W (2 Treffer)+W (3 Treffer)+W (10 Treffer)+W (4 Treffer) ≈ 0.076 Betrachtet man wieder das Beispiel von oben (also n = 36, p0 = 0.85 und α = 0.05), so kommt man mit diesem neuen Verfahren zu einer Ablehnung, falls k ∈ {0, . . . , 25 , 35, 36} ist. Man sieht an dem letzten Beispiel, dass die Verfahren (a) und (c) unterschiedliche Ablehnbereiche besitzen können, von denen keiner den jeweils anderen enthält. Damit haben sie auch verschiedene Gütefunktionen, die wir uns anschauen wollen: Das Verfahren aus (a) lehnt H0 ∶ p = 0.85 ab, wenn k ∈ {0, . . . , 26 , 36} ist. Die Wahrscheinlichkeit, dass das passiert ist (abhängig von p): 26 ga (p) = W (k ∈ {0, . . . , 26 , , 36}) = ∑ ( k=0 48 36 36 k 36 )p (1−p)36−k + ∑ ( )pk (1−p)36−k k k=36 k Das Verfahren aus (c) lehnt H0 ∶ p = 0.85 ab, wenn k ∈ {0, . . . , 25 , , 35, 36} ist. Die Wahrscheinlichkeit, dass das passiert ist (abhängig von p): 25 gc (p) = W (k ∈ {0, . . . , 25 , , 35, 36}) = ∑ ( k=0 36 36 k 36 )p (1−p)36−k + ∑ ( )pk (1−p)36−k k k=35 k Das Verfahren aus (b) hat denselben Ablehnbereich wie das Verfahren aus (c). In vielen Situationen (andere Werte für n, p0 und α) hat (b) aber einen (echt) kleineren Ablehnbereich als (a) und (c) und damit eine schlechtere Gütefunktion. Wir konzentrieren wir uns nun auf einen Vergleich der Verfahren (a) und (c) und betrachten die Gütefunktionen ga und gc im Spezialfall des Beispiels: 0.6 0.2 0.4 ga(p),gc(p) 0.8 1.0 Gütefunktionen der Verfahren (a) (rot) und (c) (blau) 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 p n=36,p0=0.85, alpha=0.05 Beide Funktionen müssen für p = 0.85 (H0 gilt) unterhalb von α = 0.05 liegen. Für andere p wäre es wünschenswert, wenn sie hohe Funktionswerte hätten. Man sieht, dass (c) im Bereich p > 0.85 besser abschneidet (d.h. mit höherer Wahrscheinlichkeit H0 ablehnt) und (a) im Bereich p < 0.85 bessere Werte hat. (Dies gilt nur für dieses eine Beispiel.) Dies zeigt, dass ein objektiver Vergleich verschiedener Testverfahren schwierig ist. In R kann den nach dem Verfahren (c) berechneten p-Wert direkt berechnen. Dies geht mit: binom.test(k, n, p0 )$p.value Ist der p-Wert ≤ α, so ist die Nullhypothese p = p0 abzulehnen. 49 2 Hypothesentests Tests für die Parameter normalverteilter Größen Wir beginnen mit sogenannten Einstichprobentests, d.h. es werden Hypothesen über die Parameter einer normalverteilten Größe mit Hilfe einer Stichprobe (der Länge n) getestet. Es sei bekannt, dass eine Größe X normalverteilt ist. Allerdings sind die Parameter µ und σ nicht bekannt. Man beobachtet eine Stichprobe von n (unabhängigen) Ausprägungen X1 , . . . , Xn der Größe X. 1.) Hypothesen über den Erwartungswert µ Wir wollen nun zunächst (für einen gegebenen Wert µ0 ) die Nullhypothesen µ ≥ µ0 µ ≤ µ0 µ = µ0 zu einem gegebenen Signifikanzniveau α testen. Für die hier vorgestellten Tests benutzen wir den empirischen √ Erwartungswert n n 2 1 X = n1 ⋅ ∑ Xi und die korrigierte Stichprobenvarianz s = sX = ⋅ (Xi − X) , n−1 ∑ i=1 i=1 sowie die daraus abgeleitete zufällige Größe Y = √ n⋅ X −µ , s die (wie wir wissen) t-verteilt mit n − 1 Freiheitsgraden ist (d.h. sie hat die Verteilungsfunktion Tn−1 , vergleiche Kapitel 1). Bei der Nullhypothese H0 ∶ µ ≥ µ0 betrachten wir die Teststatistik T (X1 , . . . , Xn ) = √ n⋅ X − µ0 s Offenbar spricht ein niedriger Wert der Teststatistik gegen H0 . Hat man nun (konkrete) Daten X1∗ , . . . , Xn∗ einer Stichprobe vorliegen, so ist deren p-Wert eine Oberschranke (bzw. die kleinste Oberschranke) für die Wahrscheinlichkeit, diese oder im Hinblick auf die Nullhypothese noch extremere Daten (hier also Daten mit einer niedrigeren Teststatistik) zu erhalten, wenn H0 gilt. Wegen W ( T (X1 , . . . , Xn ) ≤ T (X1∗ , . . . , Xn∗ ) ∣ H0 gilt ) √ X − µ0 √ X ∗ − µ0 ∣ µ ≥ µ0 ) ≤ n⋅ = W ( n⋅ sX sX ∗ ≤ W (Y ≤ √ n⋅ X ∗ − µ0 ) sX ∗ √ X ∗ − µ0 = Tn−1 ( n ⋅ ) sX ∗ √ kann der p-Wert zu den Daten X1∗ , . . . , Xn∗ durch Tn−1 ( n ⋅ rechnet werden. 50 X ∗ −µ0 ) sX ∗ be- √ Entsprechend ist der p-Wert von Daten X1 , . . . , Xn durch Tn−1 ( n ⋅ X−µ0 ) s gegeben und folglich ist H0 genau dann abzulehnen, wenn √ X − µ0 Tn−1 ( n ⋅ )≤α s gilt. Man berechnet diesen p-Wert in R mit: t.test(x, mu = µ0 , alt=“less“)$p.value (Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .) Man spricht hierbei von einem linksseitigen t-Test und bezieht sich dabei auf die Form der Alternativhypothese H1 ∶ µ < µ0 und die Benutzung der t-Verteilung. Beispiel: Beim Testen der Nullhypothese H0 ∶ µ ≥ 16 erhält man die folgende Stichprobe X1 , . . . , X20 einer (normalverteilten) Größe X: 17.49, 14.22, 13.56, 14.48, 13.14, 16.44, 11.66, 17.02, 13.39, 14.66, 14.79, 15.99, 15.50, 16.66, 14.02, 15.60, 13.62, 14.42, 16.10, 18.48 Man berechnet X = 15.062 und s ≈ 1.677. Es ergibt sich der p-Wert ≈ 0.011. H0 kann also (z.B.) zu den Signifikanzniveaus 0.1 und 0.05 abgelehnt werden, nicht jedoch zum Signifikanzniveau 0.01. Wir testen nun die Nullhypothese H0 ∶ µ ≤ µ0 mit Hilfe einer Stichprobe X1 , . . . , Xn . Dann ist H0 abzulehnen, wenn √ X − µ0 1 − Tn−1 ( n ⋅ )≤α s √ gilt. (Äquivalent dazu ist die Bedingung Tn−1 ( n ⋅ X−µ0 ) s ≥ 1 − α) Der p-Wert dieses Tests (zu den Daten X1 , . . . , Xn ) ergibt sich folglich als √ 0 ). (Man kann dies analog zum ersten Fall begründen.) 1 − Tn−1 ( n ⋅ X−µ s Man berechnet ihn in R mit: t.test(x, mu = µ0 , alt=“greater“)$p.value (Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .) Man spricht hierbei von einem rechtsseitigen t-Test. Beispiel: Beim Testen der Nullhypothese H0 ∶ µ ≤ 170 erhält man die folgende Stichprobe X1 , . . . , X10 einer (normalverteilten) Größe X: 160.0, 154.7, 182.8, 181.4, 165.3, 181.0, 176.5, 182.9, 187.1, 168.4 Man berechnet X = 174.1 und s ≈ 11.12. Es ergibt sich der p-Wert ≈ 0.142. H0 kann also (z.B.) zu den Signifikanzniveaus 0.1, 0.05 und 0.01 nicht abgelehnt werden. 51 2 Hypothesentests Die Nullhypothese H0 ∶ µ = µ0 ist (bei gegebener Stichprobe X1 , . . . , Xn ) genau dann abzulehnen, wenn √ X − µ0 α Tn−1 ( n ⋅ )≤ s 2 √ X − µ0 α oder Tn−1 ( n ⋅ )≥1− s 2 Wegen der Symmetrie der t-Verteilung ist das genau dann der Fall, wenn ⎛ ⎛√ ∣X − µ0 ∣ ⎞⎞ 2 ⋅ 1 − Tn−1 n⋅ ≤α s ⎝ ⎝ ⎠⎠ √ (Äquivalent ist die Bedingung Tn−1 ( n ⋅ ∣X−µ0 ∣ ) s ≥ 1 − α2 ) Der p-Wert dieses Tests (zu den Daten X1 , . . . , Xn ) ergibt sich folglich als √ ∣X−µ ∣ 2 ⋅ (1 − Tn−1 ( n ⋅ s 0 )). Man berechnet ihn in R mit: t.test(x, mu = µ0 , )$p.value (Dabei ist x ein Vektor mit den Daten X1 , . . . , Xn .) Noch einige Anmerkungen zu den t-Tests: Kennt man die Standardabweichung σ, so kann man s durch σ ersetzen und statt der t-Verteilung Tn−1 die Standardnormverteilung Φ benutzen. √ (Die Größe n ⋅ X−µ ist standardnormalverteilt.) Dies könnte man näheσ rungsweise auch dann tun, wenn n groß ist, da sich dann die t-Verteilung der Standardnormalverteilung annähert. Benutzt man Φ statt Tn−1 , so spricht man von einem Gauß-Test. Grundsätzlich ist zu einer Stichprobe X1 , . . . , Xn einer beliebigen zufälli- gen Größe X (mit beliebiger unbekannter Verteilungsfunktion), die nicht √ unbedingt normalverteilt ist, die Testgröße Y = n ⋅ X−µ nicht mehr ts verteilt. Falls aber n groß genug ist (eine Faustregel besagt n > 30, im allgemeinen hängt dies aber von der unbekannten vorliegenden Verteilung ab), so ist Y immer noch annähernd t-verteilt (und damit auch annähernd standardnormalverteilt) und der t-Test (wie auch der Gauß-Test) liefert gute Ergebnisse. Daher sind diese Tests im allgemeinen ’robust gegenüber Verletzungen der Normalverteilungsannahme’. 2.) Hypothesen über die Standardabweichung σ Wir testen nun (für einen gegebenen Wert σ0 ) die Nullhypothesen σ ≥ σ0 σ ≤ σ0 σ = σ0 zu einem gegebenen Signifikanzniveau α. Wir verzichten dabei auf die Rechtfertigungen der genannten Testmethoden mit dem Hinweis, dass diese ähnlich zu denen in 1.) verlaufen, wobei hier nun die Teststatistik 52 T (X1 , . . . , Xn ) = (n − 1) ⋅ sX 2 σ0 2 und (n − 1) ⋅ sX 2 σ2 benutzt werden. Da Y (wie wir in Kapitel 1) gesehen haben) χ2 -verteilt (mit Y = die zufällige Größe n − 1 Freiheitsgraden) ist, spielt nun die χ2 -Verteilung Sn−1 eine zentrale Rolle. Zur Nullhypothese H0 ∶ σ ≥ σ0 berechnet man bei vorliegenden Daten X1 , . . . , Xn den p-Wert als Sn−1 ( (n − 1) ⋅ s2 ) σ0 2 und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn Sn−1 ( (n − 1) ⋅ s2 )≤α σ0 2 Zur Nullhypothese H0 ∶ σ ≤ σ0 berechnet man bei vorliegenden Daten X1 , . . . , Xn den p-Wert als 1 − Sn−1 ( (n − 1) ⋅ s2 ) σ0 2 und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn 1 − Sn−1 ( (n − 1) ⋅ s2 )≤α σ0 2 ) ≥ 1 − α) (Äquivalent dazu ist die Bedingung Sn−1 ( (n−1)⋅s σ0 2 2 Zur Nullhypothese H0 ∶ σ = σ0 berechnet man bei vorliegenden Daten X1 , . . . , Xn den p-Wert als 2 ⋅ min ( Sn−1 ( (n − 1) ⋅ s2 (n − 1) ⋅ s2 ) , 1 − S ( )) n−1 σ0 2 σ0 2 und lehnt H0 zum Signifikanzniveau α folglich genau dann ab, wenn 2 ⋅ min ( Sn−1 ( (n − 1) ⋅ s2 (n − 1) ⋅ s2 ) , 1 − S ( ) )≤α n−1 σ0 2 σ0 2 ( Äquivalent dazu ist, dass eine der Ungleichungen Sn−1 ( (n − 1) ⋅ s2 α )≤ 2 σ0 2 oder Sn−1 ( (n − 1) ⋅ s2 α )≤1− 2 σ0 2 erfüllt ist.) 3.) Hypothesen über die Mittelwerte µX , µY zweier unabhängiger (normalverteilter) Größen Wir untersuchen nun erstmals den Fall, dass zwei zufällige Größen X, Y vorliegen, deren Erwartungswerte µX , µY wir vergleichen wollen. Dazu werden zwei 53 2 Hypothesentests (jeweils zufällige und unabhängige) Stichproben X1 , . . . , Xn und Y1 , . . . , Ym erhoben, anhand derer man nun Hypothesentests durchführen kann. Beispiel: Das Gewicht von Afrikanischen (Größe X) und Indischen Elefantenkühen (Größe Y ) wird untersucht. Es ergeben sich folgende Stichproben (Werte in kg): Stichprobe für X (n = 18) ∶ 2835, 3979, 3012, 2548, 2213, 3094, 2225, 2006, 2554, 2921, 2876, 2855, 3294, 3481, 3186, 2280, 3755, 2432 Stichprobe für Y (n = 15) ∶ 2567, 2833, 2425, 2754, 2499, 2529, 2438, 2863, 2850, 2574 2665, 2771, 2829, 2161, 2919 Möchte man einen ’empirischen Nachweis’ erbringen, dass Afrikanische Elefantenkühe (im Schnitt) schwerer sind als Indische, so kann man die Nullhypothese H0 ∶ µX ≤ µY einem Test unterziehen. Bei einem signifikanten Ergebnis wäre H0 widerlegt und folglich die Gegenhypothese H1 ∶ µX > µY bestätigt (mit einer Irrtumswahrscheinlich- keit, die nicht höher als das Signifikanzniveau ist). Man spricht dabei von Zweistichprobentests, d.h. es werden Hypothesen über die Parameter zweier Größe mit Hilfe zweier Stichprobe (der Längen n und m) getestet. Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass X und Y normalverteilt sind (mit unbekannten Erwartungswerten µX , µY und unbekannten Standardabweichungen σX , σY ). Allerdings erzielt man mit den hier vorgestellten t-Tests (für genügend große Stichprobenumfänge, Faustregel: n, m > 30) auch dann gute Resultate, wenn X und Y nicht normalverteilt sind. Wir betrachten die Nullhypothesen H0 ∶ µX − µY ≤ d H0 ∶ µX − µY ≥ d H0 ∶ µX − µY = d mit einer festen Zahl d ∈ R (man beachte insbesondere den Fall d = 0). Benutzt wird die Teststatistik X −Y −d T (X1 , . . . , Xn , Y1 , . . . , Ym ) = √ , sX 2 sY 2 + n m die im Fall µX − µY = d (und normalverteilter X und Y ) t-verteilt ist, wobei die Zahl k der Freiheitsgrade durch 2 k = k(X1 , . . . , Xn , Y1 , . . . , Ym ) = ( sXn + 1 n−1 2 2 ( sXn ) + 2 sY 2 ) m 1 m−1 2 2 Y ( sm ) gegeben ist und damit nicht unbedingt eine natürliche Zahl sein muss. (Dazu beachte man, dass die t-Verteilung auch für beliebige positive reelle Freiheitsgrade definiert werden kann.) Liegen nun Daten X1 , . . . , Xn und Y1 , . . . , Ym vor, so berechnet man zunächst T = T (X1 , . . . , Xn , Y1 , . . . , Ym ) 54 und k = k (X1 , . . . , Xn , Y1 , . . . , Ym ) und bestimmt dann (i) zur Nullhypothese H0 ∶ µX − µY ≤ d den p-Wert als 1 − Tk (T ). (ii) zur Nullhypothese H0 ∶ µX − µY ≥ d den p-Wert als Tk (T ). (iii) zur Nullhypothese H0 ∶ µX − µY = d den p-Wert als 2 ⋅ (1 − Tk (∣T ∣)). (man bezeichnet diese Testverfahren als Welch-Tests) Beispiel: In obigem Beispiel (Gewicht der Elefanten) testen wir die Nullhypothese H0 ∶ µX ≤ µY . Dies entspricht Fall (i) mit d = 0. Mit den oben angegebenen Daten berechnet man X ≈ 2863.7, sX ≈ 546.5, T ≈ 1.5606, Y ≈ 2645.1, k ≈ 22.826, sY ≈ 212.7 p-Wert ∶ 0.0662 Der kleine p-Wert spricht gegen H0 und damit für die Gegenhypothese H1 , die besagt, dass Afrikansiche Elefantenkühe im Schnitt schwerer sind als Indische. Ob man dies als (empirischen) Nachweis von H1 akzeptiert, hängt von der Wahl des Signifikanzniveaus ab (für α = 0.1 kann H0 abgelehnt werden, nicht jedoch für α = 0.05). Man kann dies variieren, indem man (z.B.) die Nullhypothese H0 ∶ µX − µY ≤ 100 betrachtet, die besagt, dass Afrikanische Elefantenkühe im Schnitt nicht mehr als 100kg schwerer sind als Indische. Dies entspricht Fall (i) mit d = 100. Man berechnet zu obigen Daten einen p-Wert von ≈ 0.2030. Damit kann H0 also (zu üblichen Signifikanzniveaus) nicht abgelehnt werden. Mithilfe der Funktion In R können die p-Werte der Tests in (i)-(iii) direkt mit der Funktion t.test berechnet werden. Sind die Stichprobenergebnisse X1 , . . . , Xn und Y1 , . . . , Ym in den Vektoren x und y eingetragen, so bestimmt man den pWert durch (i) t.test(x, y,mu=d,alt=“greater“)$p.value (ii) t.test(x, y,mu=d,alt=“less“)$p.value (iii) t.test(x, y,mu=d,alt=“two.sided“)$p.value oder t.test(x, y,mu=d)$p.value 55 2 Hypothesentests 4.) Hypothesen über die Mittelwerte µX , µY zweier normalverteilter Größen anhand verbundener Stichproben Eine sogenannte verbundene Stichprobe für zwei zufällige Größen X und Y erhält man, wenn man die einzelnen Werte von X und Y einander eindeutig zuordnen kann. Dies ist meist dann der Fall, wenn man die Stichproben für X und Y an den gleichen ’Untersuchungseinheiten’ erhebt. Beispiele sind: Schadstoffkonzentration an n verschiedenen Orten zu zwei Zeitpunkten tX und tY Blutwerte von n Personen vor und nach Einnahme eines Medikaments Temperatur an zwei Orten X und Y zu n verschiedenen Zeitpunkten Leistung einer Gruppe von n Schülern in Mathematik und Physik Die Daten liegen dabei in Form von Paaren (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) vor (dabei können Xj und Yj jeweils einander zugeordnet werden), die beiden einzelnen Stichproben X1 , . . . , Xn und Y1 , . . . , Yn haben die gleiche Länge n und müssen nicht unabhängig voneinander sein. Falls X und Y Größen bezeichnen, die in derselben Einheit angegeben werden können, so kann man die Differenz Z = X − Y bilden. Für Z liegt dann die Stichprobe Z1 , . . . , Zn mit Z1 = X1 − Y1 , Z2 = X2 − Y2 , . . . , Zn = Xn − Yn vor. Man beachte außerdem, dass Erwartungswert und empirischer Mittelwert sogeannte ’lineare’ Größen sind. Folglich gilt: µZ = µX − µY und Z = X − Y Man wollen nun anhand dieser Stichprobe für Z die folgenden Nullhypothesen untersuchen (dabei ist d stets eine feste reelle Zahl): (i) H0 ∶ µX ≥ µY + d ist äquivalent zu H0 ∶ µZ ≥ d . Falls Z als normalverteilt angenommen werden kann (oder falls n > 30 ist), kann man folglich einen (linksseitigen) Einstichproben-t-Test auf Z √ anwenden und berechnet den p-Wert mittels Tn−1 ( n ⋅ Z−d ). sZ (ii) H0 ∶ µX ≤ µY + d ist äquivalent zu H0 ∶ µZ ≤ d . Falls Z als normalverteilt angenommen werden kann (oder falls n > 30 ist), kann man folglich einen (rechtsseitigen) Einstichproben-t-Test auf Z √ anwenden und berechnet den p-Wert mittels 1 − Tn−1 ( n ⋅ Z−d ). sZ (iii) H0 ∶ µX = µY + d ist äquivalent zu H0 ∶ µZ ≥ d . Falls Z als normalverteilt angenommen werden kann (oder falls n > 30 56 ist), kann man folglich einen (zweiseitigen) Einstichproben-t-Test auf Z √ ∣Z−d∣ anwenden und berechnet den p-Wert mittels 2 ⋅ (1 − Tn−1 ( n ⋅ sZ )). (zum den p-Werten der t-Tests vergleiche Seiten 51-52) Man beachte, dass man aus der Normalverteilungsannahme für X und Y nicht auf die Normalverteilung von Z schließen kann. Außerdem lassen sich die Standardabweichung σZ bzw. die korrigierte Stichprobenvarianz sZ für Z im allgemeinen nicht aus σX und σY bzw. aus sX und sY bestimmen, wenn X und Y nicht unabhängig sind. Beispiel: Man bestimmt an 40 zufällig über mehrere Jahre verteilten Tagen die Tageshöchsttemperatur X und Y an zwei Orten und erhält folgende Werte: Tag j Temperatur Xj Temperatur Yj 1 2 29.9 20.8 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20.7 32.7 15.0 16.0 24.4 29.3 23.7 1.7 20.7 13.8 -4.7 28.5 15.6 13.3 -1.4 32.3 22.7 12.7 11.2 9.5 22.2 25.5 16.2 12.0 20.4 25.9 24.4 -3.6 -5.9 30.3 12.1 16.0 -2.0 33.1 17.4 Differenz Zj = Xj − Yj 1.0 3.4 -2.0 -1.5 7.2 -1.2 4.0 4.0 3.4 -0.7 5.3 8.0 2.6 1.2 -1.8 3.5 -2.7 0.6 -0.8 Tag j 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 Temperatur Xj Temperatur Yj 4.9 12.8 14.7 -1.1 4.1 2.0 -5.2 7.9 11.1 27.6 15.5 11.7 17.5 21.5 17.0 13.5 24.6 0.8 2.2 12.8 10.7 -4.7 -2.7 -1.9 7.7 13.8 -7.5 0.0 10.3 25.3 14.2 3.6 6.8 3.9 3.1 -0.9 2.3 7.9 Differenz Zj = Xj − Yj 28.9 17.4 3 7.5 2.7 0.0 4.0 10.8 12.9 0.8 2.3 1.3 5.8 5.9 10.3 17.5 17.8 7.2 Zum Testen der Nullhypothese H0 ∶ µX ≥ µY + 4 (’die erwarteten Tageshöchsttemperaturen X am ersten Ort sind um mindestens 4 Grad höher als die erwarteten Tageshöchsttemperaturen Y am zweiten Ort’) kann man nun einfach die Differenz Z = X − Y bilden (siehe Tabelle) und die äquivalente Nullhypothese H0 ∶ µZ ≥ 4 einem t-Test unterziehen, vergleiche dazu Fall (i) auf Seite 51. (Dieses Vorgehen ist wegen n > 30 auf jeden Fall gerechtfertigt, für kleine n müsste man zunächst prüfen, ob die Temperaturdifferenzen Z normalverteilt sind.) Man erhält mit ≈ 0.00555 eine sehr geringen p-Wert und kann daher die Nullhypothese ablehnen. Für mit verbundenen Stichproben untersuchte Größen X und Y ist oft die Frage nach der Unabhängigkeit von X und Y von Interesse. Wir werden im nächsten Abschnitt einen Test kennenlernen, mit der man diese Frage statistisch prüfen kann. 57 4.0 -0.8 5.3 40 4.2 20.5 -1.0 9.3 4.1 1.8 2 Hypothesentests Verschiedene χ2 -Tests Vom χ2 -Test existieren verschiedene Varianten, mit denen man die folgenden Nullhypothesen untersuchen kann: 1.) H0 : Für eine zufällige Größe liegt eine bestimmte (angegebene) Verteilung vor. (Anpassungstest bzw. Test auf Verteilung) 2.) H0 : Zwei (oder mehr) unabhängige zufällige Größen haben dieselbe Verteilung. (Homogenitätstest) 3.) H0 : Zwei (verbundene) zufällige Größen sind unabhängig voneinander. (Unabhängigkeitstest) 1.) χ2 -Anpassungstests Wir betrachten zunächst eine diskrete zufällige Größe X, die nur die Werte a1 , . . . , am annehmen kann. Außerdem seien (vermutete) Wahrscheinlichkeiten p1 , . . . , pm für a1 , . . . , am gegeben, dabei muss (natürlich) p1 +. . .+pm = 1 gelten. Wir untersuchen nun die Nullhypothese H0 ∶ W (X = a1 ) = p1 , W (X = a2 ) = p2 , . . . , W (X = am ) = pm Man ermittelt nun aus einer Stichprobe X1 , . . . , Xn der Länge n die absoluten Häufigkeiten hk = Anzahl der j mit Xj = ak (k = 1, . . . , m) und vergleicht sie mit den (anhand der Nullhypothese) erwarteten absoluten Häufigkeiten n ⋅ pk . Als Teststatistik betrachtet man die (zufällige) Größe: (hk − n ⋅ pk ) n ⋅ pk k=1 m 2 T=∑ Falls H0 gilt, so erwartet man, dass hk ungefähr n ⋅ pk ist und dass somit T klein ist. Folglich spricht ein niedriger Wert von T für H0 und ein hoher Wert von T gegen H0 . Man kann nun H0 (zu einem gegebenen Signifikanzniveau α) ablehnen, wenn Sm−1 (T ) ≥ 1 − α ist. (Dabei bezeichnet Sm−1 die χ2 -Verteilung mit m − 1 Freiheitsgraden.) Also wird H0 genau dann abgelehnt, wenn 1 − Sm−1 (T ) ≤ α ist und damit ergibt sich der p-Wert des Tests als 1 − Sm−1 (T ). Beispiel: Ein Würfel wird n = 600-mal geworfen. Es ergeben sich die folgenden (absoluten) Häufigkeiten der Augenzahlen: Augenzahl 58 1 2 absolute Häufigkeit 91 122 unter H0 erwartete absolute Häufigkeit 100 100 3 4 5 6 97 95 107 88 100 100 100 100 Kann man anhand dieser Beobachtungen davon ausgehen, dass bei diesem Würfel alle Augenzahlen mit der gleichen Wahrscheinlichkeit 1 6 auftreten? Die zufällige Größe ’Augenzahl’ X kann nur die Werte a1 = 1, . . . , a6 = 6 annehmen. Zu prüfen ist, ob diesen Werten die Wahrscheinlichkeiten p1 = 1 , . . . , p6 6 = 1 6 zugeordnet sind. Wir testen dazu die Nullhypothese H0 ∶ W (X = 1) = 16 , W (X = 2) = 16 , . . . , W (X = 6) = 1 6 Mit den oben angebenen absoluten Häufigkeiten berechnen wir die Teststatistik = (hk − n ⋅ pk )2 n ⋅ pk k=1 = (91 − 100)2 (122 − 100)2 (97 − 100)2 (95 − 100)2 (107 − 100)2 (88 − 100)2 + + + + + 100 100 100 100 100 100 7.92 6 T = ∑ und daraus den p-Wert 1 − S6−1 (7.92) ≈ 0.1607. Anmerkungen: Mit R kann man den Test mit chisq.test(h, p = c(p1 , . . . , pm )) durchführen, wenn die beobachteten absoluten Häufigkeiten in einem Vektor h zusammengefasst sind. Der χ2 -Test ist kein exakter Test. Das bedeutet, dass gewisse Mindest- größen für die erwarteten Häufigkeiten vorliegen müssen, damit der Test angewendet werden kann. Als Faustregel findet man (unter anderem), dass alle n ⋅ pk größer oder gleich 1 und mindestens 80% der n ⋅ pk größer oder gleich 5 sein müssen. Die Funktion chisq.test gibt eine Warnung aus, wenn nicht alle n ⋅ pk größer oder gleich 5 sind. In diesem Fall sollte man also dem Testergebnis nicht zu sehr vertrauen (selbst bei einem signifikanten Ergebnis). Es bieten sich folgende Möglichkeiten: – n erhöhen und damit erreichen, dass n ⋅ pk ≥ 5 für alle k = 1, . . . , m ist – mehrere Werte von k zusammenfassen, dies entspricht der Bildung von ’Klassen’ (s.u.), dabei gehen allerdings Teile der Informationen verloren – ein anderes (exaktes) Testverfahren benutzen Varianten für stetige Größen: (a) Hat man eine zufällige Größe vorliegen, bei der beliebige reelle Zahlen als Werte möglich sind, so kann man einen χ2 -Test durchführen, wenn man den Bereich der möglichen Werte in verschiedene Klassen A1 , . . . , Am unterteilt. Getestet wird dann eine Nullhypothese, die besagt, dass eine bestimmte Verteilung vorliegt, beispielsweise eine (µ0 , σ0 2 )-Normalverteilung (mit gegebenen µ0 , σ0 ) oder eine λ0 -Exponentialverteilung (mit gegebenem λ0 ). 59 2 Hypothesentests Gegeben seien nun die Werte X1 , . . . , Xn einer Stichprobe. Man betrachtet dazu die absoluten (Klassen-)Häufigkeiten hk = Anzahl der j mit Xj ∈ Ak (k = 1, . . . , m) und die unter H0 erwarteten absoluten (Klassen-)Häufigkeiten n ⋅ pk mit pk = W (X ∈ Ak ∣H0 gilt) (k = 1, . . . , m) und geht dann wie oben vor, d.h. man bildet die Teststatistik (hk − n ⋅ pk ) n ⋅ pk k=1 m 2 T=∑ und berechnet daraus den p-Wert 1 − Sm−1 (T ) mit der χ2 -Verteilung. Beispiel: Man möchte testen, ob eine zufällige Größe normalverteilt mit µ = 100 und σ = 20 ist. Der Bereich der möglichen Werte (also hier ] − ∞, ∞[) wird nun wie folgt in Klassen eingeteilt: A1 =]−∞, 70[, A2 = [70, 90[, A3 = [90, 100[, A4 = [100, 110[, A5 = [110, 130[, A6 = [130, ∞[ Danach wird die folgende Stichprobe ermittelt (n = 80): 104.0 , 98.6, 125.4, 127.1 , 125.4 , 70.9 , 96.1 , 80.6 , 92.3 , 97.3 , 73.4 , 102.7 , 134.5 , 87.4 , 120.1 , 95.0 , 89.7 , 116.1 , 119.1 , 107.6 , 103.8 , 99.3 , 138.7 , 60.8 , 77.5 , 93.3 , 95.9 , 89.3 , 146.2 , 73.5 , 100.5 , 104.7 , 47.7 , 93.1 , 113.6 , 89.0 , 122.5 , 51.0 , 88.0 , 99.6 , 98.3 , 98.2 , 86.1 , 115.1 , 103.4 , 73.8 , 77.2 , 118.2 , 78.9 , 130.7 , 112.5 , 88.5 , 115.8 , 116.3 , 107.7 , 118.3 , 128.7 , 114.9 , 95.7 , 131.1 , 111.0 , 72.1 , 113.3 , 84.4 , 82.6 , 86.6 , 106.2 , 148.0 , 110.3 , 108.5 , 96.7 , 125.6 , 71.1 , 97.0 , 114.9 , 56.8 , 74.3 , 98.9 , 104.9 , 122.0 Man ermittelt nun die Klassenhäufigkeiten und erwarteten Klassenhäufigkeiten: Klasse Ak ] − ∞, 70[ [70, 90[ [90, 100[ [100, 110[ [110, 130[ [130, ∞[ Klassenhäuf. hk 4 21 16 11 22 6 Klassenwahrsch. pk (unter H0 ) 0.0668 0.2417 0.1915 0.1915 0.2417 0.0668 erw. Klassenhäuf. n ⋅ pk 5.344 19.336 15.320 15.320 19.336 5.344 Die Klassenwahrscheinlichkeiten berechnen sich dabei wie folgt (vergleiche Seite 24 oben zur Berechnung der Wahrscheinlichkeiten bei normalverteilten Größen): 70 − 100 ) ≈ 0.0668 20 90 − 100 70 − 100 ∈ A2 ∣H0 ) = Φ ( ) − Φ( ) ≈ 0.2417 20 20 100 − 100 90 − 100 ∈ A3 ∣H0 ) = Φ ( ) − Φ( ) ≈ 0.1915 20 20 110 − 100 100 − 100 ∈ A4 ∣H0 ) = Φ ( ) − Φ( ) ≈ 0.1915 20 20 130 − 100 110 − 100 ∈ A5 ∣H0 ) = Φ ( ) − Φ( ) ≈ 0.2417 20 20 130 − 100 ) ≈ 0.0668 ∈ A6 ∣H0 ) = 1 − Φ ( 20 p1 = W (X ∈ A1 ∣H0 ) = Φ ( p2 = W (X p3 = W (X p4 = W (X p5 = W (X p6 = W (X Daraus berechnen sich nun die Teststatistik = (hk − n ⋅ pk )2 n ⋅ pk k=1 = (4 − 5.344)2 (21 − 19.336)2 (16 − 15.320)2 (11 − 15.320)2 (22 − 19.336)2 (6 − 5.344)2 + + + + + 5.344 19.336 15.320 15.320 19.336 5.344 2.1771 6 T ≈ 60 ∑ und daraus den p-Wert 1 − S6−1 (2.1771) ≈ 0.8221. Die Daten sind also mit der Nullhypothese vereinbar. (Es liegt aber kein signifikantes Ergebnis vor. Es ist somit denkbar, dass die Nullhypothese trotz des hohen p-Werts falsch ist.) Anmerkungen: Die Wahl der Klassen kann das Testergebnis beeinflussen. Daher müssen die Klassen schon vor der Datenerhebung festgelegt werden. Darüber hinaus gibt es keine festen Regeln für die Einteilung der Klassen. Es macht meist Sinn, die Klassen als Intervalle zu wählen und darauf zu achten, dass die unter H0 erwarteten Klassenhäufigkeiten in etwa gleich groß und allesamt größer oder gleich 5 sind. Auf jeden Fall sollte man vor der Durchführung eines Tests sorgfältig über die Wahl der Klassen nachdenken. Bei dem angegebenen Verfahren wird das Testergebnis durch die exak- ten Werte der Stichprobe nicht beeinflusst, lediglich die Klassenhäufigkeiten sind von Bedeutung (Teile der vorhanden Informationen werden nicht genutzt). Genau genommen entspricht dies nicht einem Test der Nullhypothese (V bezeichne eine bestimmte Verteilung) H0 ∶ X ist nach V verteilt sondern H0 ∶ W (X ∈ Ak ) = W (eine nach V verteilte Größe liegt in Ak ) für alle k = 1, . . . , m Damit kann der Test Abweichungen von der hypothetischen Verteilung V, die die Klassenwahrscheinlichkeiten nicht beeinflussen, nicht aufdecken. (b) Will man lediglich testen, dass eine bestimmte Verteilungsart vorliegt, so kann man die unbekannten Parameter schätzen und dann einen Test wie oben durchführen. In diesem Fall verringert sich die Zahl der Freiheitsgrade um die Anzahl der geschätzten Parameter, man benutzt also die χ2 -Verteilung Sm−g−1 , wobei m die Zahl der Klassen und g die Zahl der geschätzten Parameter ist. Bespiel: Es soll überprüft werden, ob die ’Lebensdauer’ von Seifenblasen (zufällige Größe X) exponentialverteilt ist (und damit von ’Alterungserscheinungen’ nicht beeinflusst wird), man formuliert dazu die Nullhypothese H0 ∶ X ist exponentialverteilt (mit irgendeinem Parameter λ) Man testet n = 40 Seifenblasen und bestimmt die folgenden Zeiten bis zum Zerplatzen (in Sekunden): 16.2 , 7.5 , 13.0 , 7.4, 13.8 , 6.0 , 52.8 , 6.7, 35.1 , 6.5 , 3.5 , 8.1, 15.2 , 14.0 , 47.0, 2.7 , 10.4 , 11.5 , 24.8 , 5.6 , 34.1, 17.2 , 19.3 , 13.6, 12.9 , 12.7, 25.6, 24.3 , 0.4 , 10.8, 28.1, 25.2 , 11.6, 5.2 , 4.5 , 3.7, 4.2 , 7.9, 6.9 , 25.8 61 2 Hypothesentests Die Klassen wurden wie folgt festgelegt: A1 = [0, 6[, A2 = [6, 10[, A3 = [10, 15[, A4 = [15, ∞[ Damit ergeben sich (durch ’Nachzählen’) die absoluten Klassenhäufigkeiten: h1 = 8, h2 = 8, h3 = 10, h4 = 14 Zur Berechnung der Klassenwahrscheinlichkeiten unter H0 (und damit der erwarteten Klassenhäufigkeiten) muss der Parameter λ geschätzt werden: 1 ≈ 0.06647 X Damit ergibt sich nun (vergleiche Seite 33 oben zur Berechnung der Wahrscheinλ≈ lichkeiten bei exponentialverteilten Größen): p1 = W (X ∈ A1 ∣H0 gilt mit dem geschätzten λ) = 1 − exp(−λ ⋅ 6) ≈ 0.3289 p2 = W (X ∈ A2 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 6) − exp(−λ ⋅ 10) ≈ 0.1567 p3 = W (X ∈ A3 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 10) − exp(−λ ⋅ 15) ≈ 0.1455 p4 = W (X ∈ A4 ∣H0 gilt mit dem geschätzten λ) = exp(−λ ⋅ 15) ≈ 0.3690 und folglich n ⋅ p1 ≈ 13.156, n ⋅ p2 ≈ 6.268, n ⋅ p3 ≈ 5.820, n ⋅ p4 ≈ 14.760 Man berechnet nun die Teststatistik: (hk − n ⋅ pk )2 (8 − 13.156)2 (8 − 6.268)2 (10 − 5.820)2 (14 − 14.760)2 = + + + ≈ 5.541 n ⋅ pk 13.156 6.268 5.820 14.760 k=1 4 T=∑ Die Zahl der Freiheitsgrade für die χ2 -Verteilung ergibt sich als Zahl der Klassen − Zahl der geschätzten Parameter − 1 = 4 − 1 − 1 = 2 und somit ergibt sich der p-Wert als 1 − S2 (5.541) ≈ 0.0626. 2.) χ2 -Homogenitätstests Gegeben seien zwei zufällige Größen X und Y . Die folgende sogenannte Homogenitätshypothese soll geprüft werden: H0 ∶ X und Y haben dieselbe Verteilung (Man beachte, dass nichts über die Verteilung oder die Art der Verteilung gesagt wird.) Die Beurteilung von H0 erfolgt anhand von unabhängigen Stichproben X1 , . . . , X(nX ) von X und Y1 , . . . , Y(nY ) von Y Wir betrachten zunächst wieder den Fall, dass X und Y diskrete Größen sind, die die Werte a1 , . . . , am annehmen können. Man ermittelt nun aus den vorhandenen Stichproben die absoluten Häufigkeiten X hX k = Anzahl der j ∈ {1, . . . , n } mit Xj = ak und hYk = Anzahl der j ∈ {1, . . . , nY } mit Yj = ak für k = 1, . . . , m. Oft fasst man diese in einer sogenannten Kontingenztabelle zusammen: 62 mögliche Werte a1 a2 ... am gesamt X hX 1 hX 2 ... hX m nX Y hY1 hY2 ... hYm nY gesamt Y h1 = hX 1 + h1 Y h2 = hX 2 + h2 ... Y hm = hX m + hm n = nX + nY Man betrachtet dazu nun die folgende Teststatistik: 2 m X hk (hX ) k −n n k=1 nX hnk T=∑ (hYk − nY m + ∑ nY k=1 hk 2 ) n hk n Die Idee dabei ist, dass man im Falle der Gültigkeit von H0 annehmen kann, dass die relativen Häufigkeiten von ak bei X und Y in etwa gleich der gesamten relativen Häufigkeit von ak sind, das heißt dass hX hk k ≈ nX n hYk hk ≈ nY n und zu erwarten ist, wenn H0 gilt. Dies hätte dann zur Folge, dass die bei der Berechnung von T auftretenden Quadrate (und damit auch T selbst) eher kleine Werte annimmt, wenn H0 gilt. Also spricht ein hoher Wert von T gegen H0 . Da T (approximativ) χ2 -verteilt (mit m − 1 Freiheitsgraden ist), kann man H0 zu einem gegebenen Signifikanzniveau α anlehnen, wenn Sm−1 (T ) ≥ 1 − α gilt. Der p-Wert des Tests ergibt sich damit als 1 − Sm−1 (T ). Beispiel: Es soll untersucht werden, ob Frauen und Männer das gleiche Wahlverhalten zeigen. Zu den 5 zur Auswahl stehenden Parteien wurden 120 Frauen und 100 Männer befragt. Es ergab sich folgende Kontingentabelle: Partei 1 Partei 2 Partei 3 Partei 4 Partei 5 gesamt Frauen 50 34 9 18 9 120 Männer 31 26 21 12 10 100 gesamt 81 60 30 30 19 220 Man berechnet nun die Teststatistik m T = ∑ 2 X hk (hX ) k −n n nX hnk k=1 81 2 ) 220 81 220 120 ⋅ (31 + ≈ hk n 60 2 ) − 120 ⋅ 220 60 120 ⋅ 220 k=1 (50 − 120 ⋅ = (hYk − nY m + ∑ (34 + 81 2 ) − 100 ⋅ 220 81 100 ⋅ 220 (26 + hk 2 ) n nY 30 2 ) 220 30 220 (9 − 120 ⋅ + 60 2 ) − 100 ⋅ 220 60 100 ⋅ 220 120 ⋅ (21 + 30 2 ) 220 30 220 (18 − 120 ⋅ + 30 2 ) − 100 ⋅ 220 30 100 ⋅ 220 120 ⋅ (12 + 19 2 ) 220 19 220 (9 − 120 ⋅ + 30 2 ) − 100 ⋅ 220 30 100 ⋅ 220 120 ⋅ 19 2 ) 220 19 220 (10 − 100 ⋅ + 9.839 und den p-Wert 1 − S5−1 (9.839) ≈ 0.0432. Dies ist also ein signifikantes Ergebnis (zum Signifikanzniveau α = 0.05) und damit ist die Gegenhypothese H1 : Männer und Frauen wählen unterschiedlich. empirisch belegt. 63 100 ⋅ 2 Hypothesentests Anmerkungen: Man kann diesen Test in R mit chisq.test(h) durchführen. Dabei muss h eine Matrix (mit 2 Zeilen und m Spalten) sein, deren Einträge mit denen der Kontingenztabelle übereinstimmen (d.h. in der ersten Zeile von h befinden X Y Y sich die Werte hX 1 , . . . , hm und in der zweiten Zeile die Werte h1 , . . . , hm .) Man erreicht dies zum Beispiel mit: X Y Y h < -matrix(c(hX 1 , . . . , hm , h1 , . . . , hm ),nrow=2,ncol=m,byrow=TRUE) Falls X und Y stetige Größen sind, kann man den χ2 -Anpassungstest im- mer noch durchführen, wenn man die Menge der möglichen Werte der beiden Größen vor der Datenerhebung in Klassen A1 , . . . , Am aufteilt und dann die absoluten Klassenhäufigkeiten X hX k = Anzahl der j ∈ {1, . . . , n } mit Xj ∈ Ak und hYk = Anzahl der j ∈ {1, . . . , nY } mit Yj ∈ Ak für k = 1, . . . , m in die Kontingenztabelle einträgt. Man beachte dabei, dass die Wahl der Klassen das Testergebnis beeinflussen kann und dass der Test bestimmte Unterschiede in den Verteilungen von X und Y nicht mehr aufdecken kann, genau genommen untersucht man nun statt der Nullhypothese H0 ∶ X und Y haben dieselbe Verteilung die veränderte Nullhypothese H0 ∶ W (X ∈ Ak ) = W (Y ∈ Ak ) für alle k = 1, . . . , m Beispiel: Zwei Maschinen X und Y sollen Kaffee in Päckchen mit je 500 g abfüllen. Es soll festgestellt werden, ob beide Maschinen gleich arbeiten, dazu sollen 60 Päckchen von X und 40 Päckchen von Y untersucht werden. Man bildet (zum Beispiel) die folgenden Klassen A1 = [0, 496[, A2 = [496, 498[, A3 = [498, 499[, A4 = [499, 500[, A5 = [500, 501[, A6 = [501, 502[, A7 = [502, 504[, A8 = [504, ∞[ und betrachtet dann die Stichproben. Es ergeben sich die folgenden Werte für die Gewichte der einzelnen Päckchen: Für X ∶ 502.16 , 498.67 , 499.66 , 499.71 , 497.53, 499.28 , 499.47 , 499.42 , 499.72, 502.77 , 501.59 , 501.65 , 502.12, 496.87 , 501.37 , 499.03 , 494.84 , 500.33 , 497.19 , 498.35, 500.44, 499.73 , 501.73 , 499.16 , 498.91 , 498.66 , 502.23, 499.31 , 500.63 , 501.31, 502.06, Für Y ∶ 495.90, 502.10, 502.77 , 501.12, 498.20, 497.78 , 497.09, 501.85, 500.91, 499.94, 499.81, 491.33 , 491.67 , 493.52 , 494.81, 495.42 , 499.19 , 499.21 , 499.33, 499.36 , 499.38, 500.43, 503.02 , 500.90, 500.92, 503.07 , 500.99 , 503.56, 503.84, 498.44 , 498.80, 503.25 , 504.43, 501.17, 495.76 , 499.40 , 499.45 , 496.44, 503.97 , 496.43 , 499.61, 502.89, 498.50 , 499.63 , 501.28 , 501.49 , 501.50, 501.78 , 504.00, 504.19, 504.82 , 505.12, 500.02, 501.90, 500.84 , 496.67 , Damit ergeben sich die folgenden absoluten Klassenhäufigkeiten: 64 501.14 , 500.25, 498.39, 504.07, 499.67 497.88 , 500.21, 502.41, 505.21, 498.72, 500.30, 502.65, 507.54 Klasse Ak hk = (X) hk (Y ) hk (X) hk + (Y ) hk A1 A2 A3 A4 A5 A6 A7 A8 gesamt 2 6 9 14 7 10 10 2 n(X) = 60 6 3 1 8 6 4 6 6 8 9 10 22 13 14 16 18 n(X) = 40 (X) n=n + n(Y ) = 100 Nun verläuft alles analog zu oben, man berechnet T ≈ 13.213 und p-Wert: 1 − S8−1 (T ) ≈ 0.0671 Die Nullhypothese H0 : Beide Größen sind identisch verteilt. kann also zum Signifikanzniveau α = 0.1 abgelehnt werden, nicht jedoch zum Signifikanzniveau α = 0.05. Anmerkung: Ein zweiseitiger Zwei-Stichproben-t-Test (Welch-Test) zur Nullhypothese H0 ∶ µX = µY liefert einen p-Wert von 0.9411. (Die empirischen Mittelwerte X ≈ 500.1165 und Y ≈ 500.1637 unterscheiden sich auch nicht sehr stark.) Der Unterschied zwischen den beiden Verteilungen scheint also eher nicht an ihren Erwartungswerten zu liegen. Da die Teststatistik nur approximativ χ2 -verteilt ist, kann der Test nur angewendet werden, wenn die unter H0 erwarteten absoluten Häufigkeiten nX ⋅ hk n und nY ⋅ hk n groß genug sind (Regel: alle ≥ 1 und mindestens 80% davon ≥ 5). Sind sie nicht alle ≥ 5, so erhält man bei Anwendung der Funktion chisq.test eine Warnung. Das Verfahren lässt sich leicht für drei oder mehr zufällige Größe verallge- meinern. Sind X (1) , . . . , X (l) zufällige Größen und liegen Stichproben vor, anhand derer man eine Kontingentabelle mögliche Werte X (1) X (2) ⋮ X (l) gesamt a1 a2 (1) h1 (2) h1 (1) h2 (2) h2 ... ... ... am gesamt (1) hm (2) hm n(1) ⋮ ⋮ ⋱ ⋮ (l) h1 (l) h2 ... (l) hm h1 h2 ... hm n(2) ⋮ n (l) n aufstellen kann, so testet man die Nullhypothese H0 : Die Größen X (1) , . . . X (l) haben alle die gleiche Verteilung. mit der Statistik l m T =∑∑ i=1 k=1 (i) (hk − n(i) ⋅ n(i) ⋅ hk ) n 2 hk n testen, diese ist χ2 -verteilt mit (m − 1) ⋅ (l − 1) Freiheitsgraden, man berechnet den p-Wert durch 1 − S(m−1)⋅(l−1) (T ). Man kann dies in R (wie im Fall l = 2, siehe oben) mit chisq.test(h) tun, wobei die Matrix h, die 65 2 Hypothesentests der Kontingenztabelle entspricht, diesmal eine Matrix mit l Zeilen und m Spalten ist. 3.) χ2 -Unabhängigkeitstests Gegeben seien nun zwei zufällige Größen X und Y und eine verbundene Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ). Getestet werden soll die Nullhypothese H0 ∶ X und Y sind unabhängig voneinander (Mathematisch unterscheidet sich diese Variante nicht von der zuvor untersuchten Homogenitätshypothese für zwei oder mehr unabhängige zufällige Größen. In Bezug auf Anwendungsbezug, Formulierung und Interpretation bestehen aber Unterschiede, auf die wir hier aufmerksam machen wollen. Wir betrachten wiederum zunächst den Fall, dass X und Y diskrete zufällige Größen sind, mit den möglichen Werten a1 , . . . , am für X und b1 , . . . , bl für Y Man bestimmt nun die absoluten Häufigkeiten h(k, i) = Anzahl der j mit (Xj = ak und Yj = bi ) (k = 1, . . . , m, i = 1, . . . , l) und trägt sie in eine Kontingenztabelle ein: a1 a2 ... am gesamt h(1,1) h(2,1) ... h(m,1) h(●,1) = ∑ h(k,1) b2 h(1,2) h(2,2) ... h(m,2) h(●,2) = ∑ h(k,2) ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ bl h(1,l) h(2,l) ... h(m,l) h(●,l) = ∑ h(k,l) m b1 k=1 m k=1 m l gesamt h(1,●) = ∑ h(1,i) i=1 l h(2,●) = ∑ h(2,i) ... i=1 h(m,●) = ∑ h(m,i) i=1 Falls H0 gilt, erwartet man das die entsprechende Tabelle der relativen Häufigkeiten (mit hoher Wahrscheinlichkeit annäherungsweise) eine Multiplikationstabelle ist, d.h. dass h(k, i) h(k, ●) h(●, i) ≈ ⋅ n n n ⇔ h(k, i) ≈ h(k, ●) ⋅ h(●, i) n für alle auftretenden Paare (k, i) gilt. (Dabei entspricht h(k,●)⋅h(●,i) n der unter H0 erwarteten absoluten Häufigkeit.) Man berechnet daher die Teststatistik l m T =∑∑ i=1 k=1 66 2 h(k,●)⋅h(●,i) ) n h(k,●)⋅h(●,i) n (h(k, i) − k=1 l n (hohe Werte von T sprechen gegen H0 , niedrige Werte von T sind mit H0 vereinbar) T ist χ2 -verteilt mit (m − 1) ⋅ (l − 1) Freiheitsgraden und der p-Wert berechnet sich durch 1 − S(m−1)⋅(l−1) (T ). In R geht dies völlig analog zum Fall der Homogenitätshypothese (siehe oben) mit chisq.test(h), falls h die Matrix entsprechend der Kontingenztabelle (l Zeilen, m Spalten) ist. Für stetige Größen X und Y bildet man Klassen A1 , . . . , Am für die Werte von X und B1 , . . . , Bl für die Werte von Y und rechnet analog mit den absoluten Klassenhäufigkeiten h(k, i) = Anzahl der j mit (Xj ∈ Ak und Yj ∈ Bl ) (k = 1, . . . , m, i = 1, . . . , l) Beispiel: In einem Leichtathletikverein werden die Leistungen im Kugelstoßen und im 100 Meter-Lauf untersucht. Man teilt die möglichen Zeiten und Weiten in Klassen ein, erfasst die Leistungen von n = 100 Sportlern und stellt die absoluten Klassenhäufigkeiten in der Kontingenzabelle zusammen: Kugelstoßen 100m-Lauf A1 = [0, 8[ A2 = [8, 12[ A3 = [12, ∞[ gesamt B1 = [0, 11[ h(1,1) = 3 h(2,1) = 6 h(3,1) = 1 h(●,1) = 10 B2 = [11, 11.5[ h(1,2) = 4 h(2,2) = 8 h(3,2) = 7 h(●,2) = 19 B3 = [11.5, 12.5[ h(1,3) = 15 h(2,3) = 22 h(3,3) = 12 h(●,3) = 49 B4 = [12.5, ∞[ h(1,4) = 6 h(2,4) = 11 h(3,4) = 5 h(●,4) = 22 gesamt h(1,●) = 28 h(2,●) = 47 h(3,●) = 25 n = 100 Nun berechnen sich die erwarteten absoluten Häufigkeiten als h(1,●)⋅h(●,1) = 28⋅10 = 2.8 n 100 h(1,●)⋅h(●,2) 28⋅19 h̃(1,2) = = 100 = 5.32 n 28⋅49 = = 13.72 h̃(1,3) = h(1,●)⋅h(●,3) n 100 h(1,●)⋅h(●,4) 28⋅22 h̃(1,4) = = 100 = 6.16 n h̃(1,1) = h(2,●)⋅h(●,1) = 47⋅10 = 4.7 n 100 h(2,●)⋅h(●,2) 47⋅19 h̃(2,2) = = 100 = 8.93 n 47⋅49 = = 23.03 h̃(2,3) = h(2,●)⋅h(●,3) n 100 h(2,●)⋅h(●,4) 47⋅22 h̃(2,4) = = 100 = 10.34 n h̃(2,1) = h(3,●)⋅h(●,1) = 25⋅10 = 2.5 n 100 h(3,●)⋅h(●,2) 25⋅19 h̃(3,2) = = 100 = 4.75 n 25⋅49 = = 12.25 h̃(3,3) = h(3,●)⋅h(●,3) n 100 h(3,●)⋅h(●,4) 25⋅22 h̃(3,4) = = 100 = 5.5 n h̃(3,1) = Damit berechnen sich die Teststatistik T = = ≈ (h(k,i) −h̃(k,i) ) 2 ∑ h̃(k,i) alle (k,i) (3−2.8)2 + 2.8 (4−5.32)2 + + 5.32 2 + (15−13.72) + 13.72 (6−6.16)2 + + 6.16 (6−4.7)2 4.7 (8−8.93)2 8.93 (11−23.03)2 23.03 (11−10.34)2 10.34 + + + + (1−2.5)2 2.5 (7−4.75)2 4.75 (5−12.25)2 12.25 (5−5.5)2 5.5 3.026 und die Zahl der Freiheitsgrade (Zahl der Klassen Aj − 1 ) ⋅ (Zahl der KlassenBi − 1 ) = (3 − 1) ⋅ (4 − 1) = 6 Also ergibt sich der p-Wert zur Unabhängigkeitshypothese als 1 − S6 (3.026) ≈ 0.8055 und damit kann sie nicht abgelehnt werden. Allerdings sind hier einige (3 von 12) erwartete 67 2 Hypothesentests absolute Häufigkeiten kleiner als 5 und damit ist die Approximation der Verteilung von T durch die χ2 -Verteilung möglicherweise zu ungenau. Zum Abschluss dieses Abschnitts noch einige Anmerkungen zu Vor- und Nachteilen von χ2 -Tests. Vorteile: Die Tests sind vielseitig einsetzbar (viele verschiedenartige Nullhypothesen können damit getestet werden). Die Idee ist (relativ) leicht verständlich. Die Tests sind verteilungsfrei, d.h. es muss nicht vorausgesetzt werden, dass eine bestimmte Verteilungsart vorliegt. R (und andere Statistik-Software-Pakete) haben die Tests implementiert. Nachteile: Bei stetigen Größen beeinflusst die (willkürliche) Bildung der Klassen das Testergebnis. Diese kann auch dazu führen, dass bestimmte Abweichungen von der Nullhypothese vom Test nicht mehr aufgedeckt werden können. Für zu kleine Stichproben (genauer: für zu kleine erwartete absolute Häufigkei- ten) können die Tests nicht angewendet werden. Man sollte dann auf ’exakte’ Tests zurückgreifen (z.B. Fisher-Test auf Unabhängigkeit). Ein direkter Vergleich mehrerer Testverfahren bezüglich der Güte liefert meist kein eindeutiges Ergebnis, da verschiedene Abweichungen von der Nullhypothese denkbar sind und mit bestimmten Tests manche davon ’besser’ und andere ’schlechter’ vom Test angezeigt werden, d.h. die Wahrscheinlichkeit eines signifikanten Ergebnisses ist je nach Test in manchen Situationen (in denen H1 vorliegt) größer in anderen kleiner. Es gibt jedoch (für verschiedene Nullhypothesen) sinnvolle Alternativen zum χ2 -Test, die bei bestimmten Abweichungen von H0 mit höherer Wahrscheinlichkeit ein signifikantes Ergebnis liefern (also eine bessere Güte haben). 68 Kurzvorstellung einiger komplizierterer Tests 1.) Der Kolmogoroff-Smirnov-Test (a) Einstichprobenfall: gegeben: beliebige stetige zufällige Größe X, hypothetische stetige Ver- teilung V mit Verteilungsfunktion F = FV Nullhypothese: H0 ∶ X ist nach V verteilt (Anpassungstest) benötigte Daten: Stichprobe X1 , . . . , Xn Teststatistik: Man bestimmt zunächst (in Abhängigkeit von b ∈ R) die relative Häufigkeit der Xj , die ≤ b sind, also F̂ (b) = Anzahl der j mit Xj ≤ b n (F̂ heißt empirische Verteilungsfunktion der Stichprobe X1 , . . . , Xn ) und die Wahrscheinlichkeit (unter H0 ), dass X ≤ b ist, also W (X ≤ b∣H0 gilt) = F (b) Die Teststatistik berechnet sich als die maximale Abweichung zwischen beiden Werten, also T = T (X1 , . . . , Xn ) = max ∣F̂ (b) − F (b)∣ b∈R (also: T ∈]0, 1[) Falls H0 gilt, erwartet man nur eine geringe Abweichung zwischen den relativen Häufigkeiten und den entsprechenden Wahrscheinlichkeiten. Damit spricht ein hoher Wert von T gegen H0 . p-Wert: Der p-Wert zur Stichprobe X1 , . . . , Xn ergibt sich als W (eine zufällige Teststatistik T ist ≥ T (X1 , . . . , Xn )∣X ist nach V verteilt) Die Verteilung von T ist kompliziert, hängt aber nicht von V ab. Man kann den p-Wert mit Hilfe von Tabellen (für kleine n) oder Näherungsformeln (für große n) bestimmen. Wir wollen hier aber nicht näher auf die Berechnung eingehen. Durchführung in R: mit dem Befehl ks.test: Einlesen der Stichprobe in einen Vektor x und dann beispielsweise – ks.test(x,pnorm,µ0 , σ0 ) falls V eine Normalverteilung (mit gegebenem EW µ0 und gegebener SA σ0 ) ist – ks.test(x,pnorm,λ0 ) falls V eine Exponentialverteilung mit (gegebenem Parameter λ0 ) ist 69 2 Hypothesentests – ks.test(x,punif,a0 , b0 ) falls V eine Gleichverteilung auf [a0 , b0 ] ist (a0 und b0 gegeben) Varianten: – Man kann in manchen Fällen den KS-Test auch als Test auf eine bestimmte Verteilungsart einsetzen (z.B. Test auf Normalverteilung oder Test auf Exponentialverteilung), wobei man vor Berechnung der Teststatistik die unbekannten Parameter aus der Stichprobe schätzen muss. In diesem Fall ändert sich allerdings die Verteilung der Teststatistik. Die Berechnung des p-Werts ist dann abhängig von der hypothetischen Verteilungsart und kann sehr aufwändig werden.Für bestimmte hypothetische Verteilungsarten existieren Variationen des KS-Tests, z.B. der Lilliefors-Test zum Testen auf Normalverteilung. – Die Nullhypothese H0 ∶ FX = FV (FX : wahre Verteilungsfunktion von X, FV : hypothetische Verteilungsfunktion) kann ersetzt werden durch H0 ∶ FX ≤ FV in R: mit ks.test und der Option alternative=“greater“ H0 ∶ FX ≥ FV in R: mit ks.test und der Option alternative=“less“ (b) Zweistichprobenfall: gegeben: zwei beliebige stetige zufällige Größen X, Y Nullhypothese: H0 ∶ X und Y sind identisch verteilt (Homogenitätstest) benötigte Daten: Stichproben X1 , . . . , X(nX ) und Y1 , . . . , Y(nY ) Teststatistik: Man bestimmt zunächst (in Abhängigkeit von b ∈ R) für X und Y die relative Häufigkeit der Stichprobenwerte, die ≤ b sind, also F̂X (b) = Anzahl der j mit Xj ≤ b nX und F̂Y (b) = Anzahl der j mit Yj ≤ b nY (empirische Verteilungsfunktionen der beiden Stichproben) Die Teststatistik berechnet sich als die maximale Abweichung zwischen beiden Werten, also T = T (X1 , . . . , X(nX ) , Y1 , . . . , Y(nY ) ) = max ∣F̂X (b) − F̂Y (b)∣ b∈R (also: T ∈ [0, 1[) Falls H0 gilt, erwartet man nur eine geringe Abweichung. Damit spricht ein hoher Wert von T gegen H0 . p-Wert: Die Verteilung von T ist kompliziert. Man kann den p-Wert mit Hilfe von Tabellen (für kleine n) oder Näherungsformeln (für große n) bestimmen. Wir wollen hier aber nicht näher auf die Berechnung eingehen. 70 Durchführung in R: mit dem Befehl ks.test: Einlesen der Stichproben in Vektoren x, y und dann ks.test(x, y) Variante: Die Nullhypothese H0 ∶ FX = FY (FX bzw. FY : wahre Ver- teilungsfunktion von X bzw. Y ) kann ersetzt werden durch H0 ∶ FX ≤ FY in R: mit ks.test und der Option alternative=“greater“ H0 ∶ FX ≥ FY in R: mit ks.test und der Option alternative=“less“ Vorteile: Der KS-Test ist auch für kleine Stichproben geeignet. verteilungsfrei (es muss keine Verteilungsart vorausgesetzt werden). in R implementiert. Nachteile: Der KS-Test ist recht aufwendig. anfällig gegenüber sogenannten ’Bindungen’, d.h.: Treten innerhalb der Stichprobe(n) mehrfach dieselben Werte auf (dies kann z.B. künstlich durch Runden der Stichprobenwerte zustande kommen), so liefert der KS-Test keine korrekten Resultate (p-Werte) mehr. für diskrete verteilte Größen nur noch bedingt einsetzbar: Die Berechnung des p-Werts wird möglicherweise ungenau, die Güte des Tests wird geringer und es treten häufig Probleme mit oben erwähnten Bindungen auf. 2.) Der Shapiro-Wilks-Test gegeben: beliebige stetige zufällige Größe X Nullhypothese: H0 ∶ X ist normalverteilt (Normalitätstest) benötigte Daten: Stichprobe X1 , . . . , Xn Teststatistik und p-Wert: kompliziert und aufwendig, wir wollen hier nicht näher darauf eingehen Durchführung in R: Einlesen der Stichprobe in einen Vektor x und dann shapiro.test(x) Vorteile: Der SW-Test ist auch für kleine Stichproben gut geeignet (man erzielt insbesondere dann 71 2 Hypothesentests schon eine hohe Güte). verteilungsfrei (es muss keine Verteilungsart vorausgesetzt werden). in R implementiert. Nachteile: Der SW-Test ist sehr speziell (nur für die Normalverteilungshypothese einsetzbar). anfällig gegenüber ’Ausreißern’ (bei einigen extrem großen oder extrem kleinen Werten in der Stichprobe kann die Nullhypothese fälschlicherweise abgelehnt werden). anfällig gegenüber Bindungen. recht aufwendig (insbesondere für große n) und schwer verständlich. 72 Einfaktorielle Varianzanalyse mit Hilfe des F -Tests Gegeben sind m verwandte zufällige Größen X (1) , . . . , X (m) , typischerweise wird eine bestimmte Größe X unter m verschiedenen Voraussetzungen betrachtet. Für das folgende Testverfahren (F-Test auf Lokationsunterschiede) wird vorausgesetzt: Normalverteilung: Die Größen X (1) , . . . , X (m) sind normalverteilt. def Gleichheit der Varianzen: Es gilt σ1 = σ2 = . . . = σm ( = σ). Unabhängigkeit: Zu den verschiedenen Größen X (1) , . . . , X (m) können un- abhängige Stichproben erhoben werden. Es soll nun untersucht werden, ob sich X (1) , . . . , X (m) hinsichtlich Ihrer Erwartungswerte unterscheiden. Man testet also die Nullhypothese: H0 ∶ µ1 = µ2 = . . . = µm Eine (unter obigen Annahmen) äquivalente Nullhypothese ist: H0 ∶ X (1) , . . . , X (m) sind identisch verteilt. Der Test basiert wird mit Hilfe von m unabhängigen Stichproben (1) (1) (1) (2) (2) (2) X1 , X2 , . . . , X(n1 ) X1 , X2 , . . . , X(n2 ) von X (1) (Länge: n1 ) von X (2) (Länge: n2 ) ⋮ (m) X1 (m) , X2 (m) , . . . , X(nm ) ⋮ ⋮ von X (m) (Länge: nm ) durchgeführt, die man zu einer Stichprobe (1) (1) (1) X1 , X2 , . . . , X(n1 ) , (2) (2) (2) X1 , X2 , . . . , X(n2 ) , ..., (m) X1 (m) , X2 (m) , . . . , X(nm ) der Länge n = n1 + n2 + . . . + nm einer ’übergeordneten’ Größe X zusammenfasst. Man berechnet nun zunächst die empirischen Mittelwerte X (k) = 1 nk (k) ⋅∑X nk i=1 i (k = 1, . . . , m) von X (1) , . . . , X (m) sowie den Gesamtmittelwert (’grand mean’) X= 1 m nk (k) ⋅ ∑ ∑X n k=1 i=1 i Anmerkung: Man kann sich leicht klarmachen, dass X= 1 m ⋅ ∑ nk ⋅ X (k) n k=1 73 2 Hypothesentests gilt. (k) Die Summe der quadratischen Abweichungen aller Stichprobenwerte Xi vom Ge- samtmittelwert X m nk (k) SSG = ∑ ∑ (Xi 2 − X) (grand sum of squares) k=1 i=1 lässt sich zerlegen in SSG = SST + SSE Dabei ist SST die Summe der quadratischen Abweichungen der ’Behandlungen’ m nk m 2 2 SST = ∑ ∑ (X (k) − X) = ∑ nk ⋅(X (k) − X) k=1 i=1 (sum of squares of treatments) k=1 und SSE die Summe der Summe der quadratischen Abweichungen der ’Fehler’ m nk (k) SSE = ∑ ∑ (Xi 2 − X (k) ) (sum of squares of errors) k=1 i=1 SSE drückt die Unterschiede der Werte in den einzelnen Stichproben und SST die Unterschiede zwischen den verschiedenen Stichproben aus. SST und SSE können natürlich auch wieder als zufällige Größen aufgefasst werden (sie wurden ja aus der zufällig erhaltenen Stichprobe berechnet). Falls H0 gilt, ist SST χ2 -verteilt mit m − 1 Freiheitsgraden SSE χ2 -verteilt mit n − m Freiheitsgraden SSG χ2 -verteilt mit n − 1 Freiheitsgraden Teilt man diese Größen durch die Zahl der jeweiligen Freiheitsgrade, so erhält man die sogenannten ’mittleren quadratischen Abweichungen’ SST m−1 SSE M SE = n−m SSE M SG = n−1 M ST = ∶ (mittlere quadratische Abweichung der ’Behandlungen’) ∶ (mittlere quadratische Abweichung der ’Fehler’) ∶ (gesamte mittlere quadratische Abweichung) Falls H0 gilt, sind dabei sowohl MSE als auch MSG erwartungstreue Schätzer für die unbekannte Varianz σ 2 der Größen X (1) , . . . , X (m) . MSE stellt eine Schätzung für die Streuung innerhalb der einzelnen Stichproben dar. Im Gegensatz dazu schätzt MST die Streuung der verschiedenen Stichprobenmittelwerte um den Gesamtmittelwert. Nimmt man an, dass H0 gilt, sollte MST (im Vergleich zu MSE) klein sein, folglich ist T= MST n − m SST = ⋅ MSE m − 1 SSE eine Teststatistik, bei der man eher kleine Werte erwartet, falls H0 gilt. Also schließt man umgekehrt: 74 Kleine Werte von T sprechen (eher) für H0 . Große Werte von T sprechen gegen H0 . Die Teststatistik ist nach der sogenannten F-Verteilung (bzw. Fisher-Verteilung) Fm−1,n−m mit den ’Freiheitsgraden’ m − 1 und n − m verteilt. Daher berechnet sich der p-Wert des Tests als: 1 − Fm−1,n−m (T ) Dies geht in R mit 1 − pf(T, m − 1, n − m). Beispiel: Verschiedene Drahtsorten (m = 4) werden auf Zugfestigkeit untersucht. Dabei soll geprüft werden, ob die verschiedenen Drahtsorten (oder einige der Sorten) unterschiedliche Zugfestigkeiten aufweisen. Dazu nimmt man an, dass die Größen X (1) , X (2) , X (3) , X (4) normalverteilt mit gleicher Varianz sind und formuliert die Nullhypothese H0 ∶ µ1 = µ2 = µ3 = µ4 N ): mm2 Man erhält folgende Daten (in Sorte (1) = 11.78 X 1 (2) = 3.43 X 1 (3) = 12.50 X 1 (4) = 13.81 X 1 X (1) X (2) X (3) X (4) (1) 2 (2) X 2 (3) X 2 (4) X 2 X Daten (1) (1) (1) (1) = 11.27 X = 11.04 X = 10.64 X = 6.07 X = 11.02 3 4 5 6 (2) (2) (2) (2) (2) (2) = 10.54 X = 5.12 X = 7.42 X = 7.94 X = 11.46 X = 13.11 X = 14.91 3 4 5 6 7 8 (3) (3) (3) (3) (3) (3) = 11.88 X = 8.71 X = 9.81 X = 15.66 X = 1.70 X = 11.80 X = 14.13 3 4 5 6 7 8 (4) (4) (4) = 10.82 X = 11.71 X = 11.53 X = 5.51 3 4 5 gesamt Anzahl Mittelwert n1 = 6 X (1) ≈ 10.30 n2 = 8 X (3) ≈ 10.77 n4 = 5 n = 27 X ≈ 10.20 Nun berechnet man: SST 2 2 2 n1 ⋅ (X (1) − X) + n2 ⋅ (X (2) − X) + n3 ⋅ (X (3) − X) + n4 ⋅ (X (4) − X) = 6 ⋅ (10.30 − 10.20)2 + 8 ⋅ (9.24 − 10.20)2 + 8 ⋅ (10.77 − 10.20)2 + 5 ⋅ (9.68 − 10.20)2 ≈ 11.384 und damit MST = 6 SSE 2 = = SST m−1 (1) ∑ (Xi ≈ 11.384 4−1 22.2 = 297.9 8 2 i=1 ≈ ≈ 3.728. Weiterhin: (2) − X (1) ) + ∑ (Xi 2 i=1 + und damit MSE = 109.5 SSE n−m ≈ 297.9 27−4 + 8 i=1 127.9 (3) − X (2) ) + ∑ (Xi + 2 5 (4) − X (3) ) + ∑ (Xi 2 − X (4) ) i=1 38.3 ≈ 12.953. Man berechnet damit nun Teststatistik und p-Wert: T= MST 3.728 ≈ ≈ 0.2878 MSE 12.953 und p-Wert: 1 − F3,23 (T ) ≈ 1 − F3,23 (0.2878) ≈ 0.8337 Folglich zeigen die Daten keine siginifikanten Unterschiede zwischen den Zugfestigkeiten der verschiedenen Drahtsorten. Die Nullhypothese ist mit den Daten vereinbar. Man kann obige Rechnungen auch in R durchführen lassen. Dies geht nach: sorte <- c(“1“,“1“,“1“,“1“,“1“,“1“,“2“,“2“,“2“,“2“,“2“,“2“,“2“,“2“,“3“,“3“,“3“,“3“,“3“,“3“,“3“,“3“,“4“,“4“,“4“,“4“,“4“) x <- c( 11.78,11.27,11.04,10.64,6.07,11.02,3.43,10.54 ,5.12,7.42,7.94,11.46,13.11,14.91,12.50,11.88,8.71, 9.81,15.66,1.70, 11.80,14.13,13.81,10.82,11.71,11.53,5.51) mit anova(lm(x∼sorte)). 75 X (2) ≈ 9.24 n3 = 8 X (4) ≈ 10.68 2 Hypothesentests Anmerkungen: Die auf Seite 73 genannten Voraussetzungen für den F-Test können (und soll- ten) mit Hilfe von Vortests empirisch geprüft werden. Die Normalverteilungsannahme kann (zum Beispiel) mit Shapiro-Wilks-Tests (siehe Seite 71-72) für jede der Größen X (1) , . . . , X (m) getestet werden. Die Annahme der Varianzgleichheit kann man (zum Beispiel) mit einem sogenannten Bartlett-Test prüfen. Liefert einer der Test ein signifikantes Ergebnis (bzw. einen kleinen p-Wert), so kann der F-Test nicht verwendet werden. Man muss dann auf andere Testverfahren zurückgreifen. Beispielsweise kann der Test von Kruskal und Wallis auch dann verwendet werden, wenn die X (i) nicht normalverteilt sind. Falls der F-Test auf Lokationsunterschiede ein signifikantes Ergebnis liefert, wird dadurch lediglich angezeigt, dass nicht alle µi gleich sind. Zur Klärung der Frage, welche der µ1 , . . . , µn signifikant als verschieden angesehen werden können, stehen weitere Testverfahren zur Verfügung, bespielsweise der Scheffé-Test oder der Tukey-Test. 76 Wir wollen einige der obigen Test hier kurz vorstellen: (i) Der Bartlett-Test gegeben: (verwandte) normalverteilte Größen X (1) , . . . , X (m) Nullhypothese: H0 ∶ σ1 = σ2 = . . . = σm (’Dispersionsvergleich’) benötigte Daten: m unabhängige Stichproben (1) (1) (1) (2) (2) (2) X1 , X2 , . . . , X(n1 ) X1 , X2 , . . . , X(n2 ) ⋮ (m) X1 (m) , X2 (m) , . . . , X(nm ) von X (1) (Länge: n1 ) von X (2) (Länge: n2 ) ⋮ von ⋮ X (m) (Länge: nm ) mit nk ≥ 5 für k = 1, . . . , m (Faustregel) Teststatistik: Man berechnet zunächst die korrigierten Stichprobenvari- anzen der X (k) (sk )2 = nk 2 1 (k) ⋅ ∑ (Xi − X (k) ) nk − 1 i=1 (k = 1, . . . , m) und die mittlere quadratische Abweichung der Fehler MSE = = m nk 2 1 (k) ⋅ ∑ ∑ (Xi − X (k) ) n − m k=1 i=1 m 1 ⋅ ∑ (nk − 1)s2k n − m k=1 Daraus berechnet sich mit c= m 1 1 1 ⋅ (∑ − )+1 3(m − 1) k=1 nk − 1 n − m die Teststatistik als T= m 1 ⋅ ((n − m) ln (MSE) − ∑ (nk − 1) ln ((sk )2 )) c k=1 Falls H0 gilt, ist T (approximativ) χ2 -verteilt mit m − 1 Freiheitsgraden. p-Wert: gegeben durch 1 − Sm−1 (T ) Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek- tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: bartlett.test(x ∼ g) 77 2 Hypothesentests Alternativ: Einlesen der einzelnen Stichproben in Vektoren, etwa x1,x2,. . .,xm und dann: bartlett.test(list(x1,x2,. . .,xm)) Hinweis: Der Bartlett-Test ist anfällig gegenüber Verletzungen der Nor- malverteilungsannahme. Sind die Größen X (1) , . . . , X (m) nicht normalverteilt, so liefert der Test keine korrekten Resultate (p-Werte). Beispiel: Wir betrachten die Stichproben zum Versuch zur Zugfestigkeit verschiedener Drahtsorten (siehe Seite 75). Wir testen die Nullhypothese: H0 ∶ σ1 = σ2 = σ3 = σ4 Es ist m = 4 und wir haben bereits berechnet: n1 = 6, n2 = 8, n3 = 8, n4 = 5 und n = 27 sowie X (1) ≈ 10.30, X (2) ≈ 9.24, X (3) ≈ 10.77, X (4) ≈ 10.68 und MSE ≈ 12.953. Die korrigierten Stichprobenvarianzen ergeben sich zu: (s1 )2 ≈ 4.44, (s2 )2 ≈ 15.64, (s3 )2 ≈ 18.27, (s4 )2 ≈ 9.58 Weiterhin ist c= 1 1 1 1 1 1 ⋅( + + + − ) + 1 ≈ 1.077 3 ⋅ (4 − 1) 6 − 1 8 − 1 8 − 1 5 − 1 27 − 4 und damit T ≈ ≈ (27 − 4) ⋅ ln(12.953) − ( (6 − 1) ⋅ ln(4.44) + (8 − 1) ⋅ ln(15.64) + (8 − 1) ⋅ ln(18.27) + (5 − 1) ⋅ ln(9.58) ) 1.077 2.6273 Damit berechnet sich der p-Wert als 1−S3 (T ) ≈ 0.4527, es liegt also kein signifikantes Ergebnis vor. (ii) Der Tukey-Test (bzw. Tukey-Methode) gegeben: (verwandte) normalverteilte Größen X (1) , . . . , X (m) mit glei- chen Varianzen σ1 = σ2 = . . . = σm Siginifikanzniveau: α (k,l) Nullhypothesen: H0 ∶ µk = µl für k, l = 1, . . . , m mit k =/ l (i,j) Alle diese Nullhypothesen werden gemeinsam getestet. Falls alle H0 wahr sind, erhält man höchstens mit Wahrscheinlichkeit α mindestens ein signifikantes Ergebnis. benötigte Daten: m unabhängige Stichproben gleicher Länge (k) (k) X1 , X2 , . . . , Xn(k) 0 von X (k) (k = 1, . . . , m) Die Gesamtlänge n ergibt sich dann offenbar als n = m ⋅ n0 . 78 Teststatistik: Man berechnet zunächst paarweise die (betragsmäßigen) Differenzen der empirischen Mittelwerte, also ∣X (k) − X (l) ∣ (k =/ l) und die mittlere quadratische Abweichung der Fehler MSE = = m n0 2 1 (k) ∑ ∑ (Xi − X (k) ) n − m k=1 i=1 Daraus berechnen sich die Teststatistiken als √ n0 ⋅ ∣X (k) − X (l) ∣ T (k,l) = MSE (k =/ l) (k,l) Offenbar sprechen hohe Werte dieser Statistik gegen H0 (k,l) Falls alle H0 . gelten, ist max T (k,l) (approximativ) nach der sogenannk/ =l ten studentisierten Spannweite Qm,n−m mit m und n − m Freiheitsgraden verteilt. In R berechnet sich ein Wert Qm,n−m (x) dieser Verteilungsfunktion mit ptukey(x,m,n-m). (k,l) p-Werte: für H0 ist der p-Wert gegeben durch 1 − Qm,n−m (T (k,l) ) Für die Paare (k, l), deren p-Wert kleiner oder gleich α sind, kann also die (k,l) entsprechende Nullhypothese H0 verworfen werden. Man hat dann ein oder mehrere signifikante Ergebnisse zum gemeinsamen Niveau α, d.h. es wurde berücksichtigt, dass man mehrere Nullhypothesen getestet hat. Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek- tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: TukeyHSD(aov(lm(x ∼ g)),conf.level=1 − α) Zur Ausgabe gehören neben den p-Werten der einzelnen Nullhypothesen auch Konfidenzintervalle zum (gemeinsamen) Niveau 1 − α für die Differenzen der wahren Erwartungswerte µk − µl . (k,l) Das bedeutet, dass — im Falle der Gültigkeit aller H0 — die Wahrschein- lichkeit, dass alle berechneten Konfidenzintervalle die entsprechende wahre Erwartungswertdifferenz enthalten, mindestens 1 − α ist. Diese Intervalle lassen sich mit plot(TukeyHSD(aov(lm(x ∼ g)),conf.level=1 − α)) auch graphisch darstellen. Variante: Für unterschiedliche Stichprobenlänge n1 , . . . , nm von X (1) , . . . , X (m) berechnet man die Teststatistiken wie folgt (Tukey-Kramer-Methode): T (k,l) = √ ∣X (k) − X (l) ∣ MSE 2 ⋅ ( n1k − (k =/ l) 1 ) nl 79 2 Hypothesentests Beispiel: Wir betrachten die folgenden Stichproben (m = 5, n0 = 6) Sorte X (1) X (2) X (3) X (4) X (5) (1) X = 89.4 1 (2) X = 129.0 1 (3) X = 127.4 1 (4) X = 117.5 1 (5) X = 168.2 1 Daten (1) (1) (1) X = 110.9 X = 95.0 X 2 3 4 (2) (2) (2) X = 115.3 X = 54.9 X 2 3 4 (3) (3) (3) X = 138.9 X = 116.7 X 2 3 4 (4) (4) (4) X = 90.8 X = 121.2 X 2 3 4 (5) (5) (5) X = 143.8 X = 113.7 X 2 3 4 = 120.8 = 131.6 = 133.4 = 115.9 = 159.3 (1) X = 94.2 5 (2) X = 119.9 5 (3) X = 145.0 5 (4) X = 145.3 5 (5) X = 146.3 5 (1) = 91.8 6 (2) X = 76.3 6 (3) X = 112.5 6 (4) X = 147.0 6 (5) X = 115.1 6 X Mittelwert X (1) = 100.35 X (2) = 104.5 X (3) ≈ 128.98 X (4) = 122.95 X (5) ≈ 141.07 Man berechnet MSE ≈ 450.12 und MST ≈ 1737.98. Damit ergibt sich der p-Wert eines F -Tests zur Nullhypothese H0 ∶ µ1 = µ2 = µ3 = µ4 = µ5 als ≈ 0.01412. Man kann also davon ausgehen, dass sich Erwartungswerte einiger der Größen unterscheiden. Man möcht nun genauer wissen, welche der Erwartungswerte sich im einzelnen unterscheiden. Dazu führt man einen Tukey-Test durch. Insgesamt werden dabei 10 Vergleiche durchgeführt: Nullhypothese Abstand der empirischen Mittelwerte Teststatistik µ1 = µ2 ∣X (1) − X (2) ∣ ≈ 4.15 T (1,2) = µ1 = µ3 ∣X (1) − X (3) ∣ ≈ 28.63 T (1,3) = µ1 = µ4 ∣X (1) − X (4) ∣ ≈ 22.6 T (1,4) = µ1 = µ5 ∣X (1) − X (5) ∣ ≈ 40.72 T (1,5) = µ2 = µ3 ∣X (2) − X (3) ∣ ≈ 24.48 T (2,3) = µ2 = µ4 ∣X (2) − X (4) ∣ ≈ 18.45 T (2,4) = µ2 = µ5 ∣X (2) − X (5) ∣ ≈ 36.57 T (2,5) = µ3 = µ4 ∣X (3) − X (4) ∣ ≈ 6.03 T (3,4) = µ3 = µ5 ∣X (3) − X (5) ∣ ≈ 12.08 T (3,5) = µ4 = µ5 ∣X (4) − X (5) ∣ ≈ 18.11 T (4,5) = √ √ √ √ √ √ √ √ √ √ p-Wert 6 ⋅ ∣X (1) − X (2) ∣ ≈ 0.479 1 − Q5,25 (T (1,2) ) ≈ 0.997 450.12 6 ⋅ ∣X (1) − X (3) ∣ ≈ 3.306 1 − Q5,25 (T (1,3) ) ≈ 0.167 450.12 6 ⋅ ∣X (1) − X (4) ∣ ≈ 2.609 1 − Q5,25 (T (1,4) ) ≈ 0.372 450.12 6 ⋅ ∣X (1) − X (5) ∣ ≈ 4.701 1 − Q5,25 (T (1,5) ) ≈ 0.021 450.12 SIGNIFIKANT 6 ⋅ ∣X (2) − X (3) ∣ ≈ 2.827 1 − Q5,25 (T (2,3) ) ≈ 0.296 450.12 6 ⋅ ∣X (2) − X (4) ∣ ≈ 2.130 1 − Q5,25 (T (2,4) ) ≈ 0.568 450.12 6 ⋅ ∣X (2) − X (5) ∣ ≈ 4.222 1 − Q5,25 (T (2,5) ) ≈ 0.045 450.12 SIGNIFIKANT 6 ⋅ ∣X (3) − X (4) ∣ ≈ 0.696 1 − Q5,25 (T (3,4) ) ≈ 0.987 450.12 6 ⋅ ∣X (3) − X (5) ∣ ≈ 1.395 1 − Q5,25 (T (3,5) ) ≈ 0.859 450.12 6 ⋅ ∣X (4) − X (5) ∣ ≈ 2.092 1 − Q5,25 (T (4,5) ) ≈ 0.585 450.12 Damit wird also signifikant angezeigt, dass sich die Großen X (1) und X (5) und auch die Großen X (2) und X (5) hinsichtlich ihrer Erwartungswerte unterscheiden. Legt man ein Siginfikanzniveau α z.B = 0.05 fest, so kann man mit TukeyHSD eine Graphik erzeugen, die Konfi- denzintervalle zum gemeinsamen Vertrauensniveau 1 − α = 0.95 zeigt: 80 5−4 5−3 4−3 5−2 4−2 3−2 5−1 4−1 3−1 2−1 95% family−wise confidence level −40 −20 0 20 40 60 80 Differences in mean levels of sorte (iii) Der Kruskal-Wallis-Rangsummen-Test gegeben: beliebige (verwandte) Größen X (1) , . . . , X (m) Nullhypothese: H0 ∶ X (1) , . . . , X (m) sind identisch verteilt (’Homogenitätstest’) benötigte Daten: m unabhängige Stichproben zu X (1) , . . . , X (m) Teststatistik und p-Wert: siehe Aufgabe 33 in Übungsblatt 13 Zur Durchführung des Tests werden nur die ’Ränge’ der Stichprobenwerte verwendet. Die Differenzen zwischen den Werten beeinflussen das Testergebnis nicht. Durchführung in R: Einlesen der Stichproben in einen gemeinsamen Vek- tor x zusammen mit einem Faktor g (gleicher Länge), der angibt zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: kruskal.test(x,g) Alternativ: Einlesen der einzelnen Stichproben in Vektoren, etwa x1,x2,. . .,xm und dann: kruskal.test(list(x1,x2,. . .,xm)) 81 2 Hypothesentests Zweifaktorielle Varianzanalyse mit Hilfe eines F -Tests Es soll untersucht werden, ob eine zufällige Größe X (Zielvariable) durch zwei vorliegende Faktoren A und B beeinflusst wird. Die Faktoren A und B nehmen dabei nur endlich viele Werte (bzw. Ausprägungen) an (m Möglichkeiten für A und s Möglichkeiten für B). Man unterscheidet nun die Größen X (1,1) , X (2,1) , ... , X (m,1) X (1,2) , X (2,2) , ... , X (m,2) ⋮ , ⋮ , ⋱ , X (1,s) , X (2,s) , ... , ⋮ X (m,s) wobei X (k,r) die Größe X für die k-te Ausprägung von A und die r-te Ausprägung von B ist (k = 1, . . . , m, r = 1, . . . , s). Vorausgesetzt für den folgenden Test wird, dass alle X (k,r) normalverteilt mit gleicher Varianz sind. Man untersucht dabei die Nullhypothesen H0 : Faktor A hat keine Wirkung auf X H0 : Faktor B hat keine Wirkung auf X H0 : Es gibt keine Wechselwirkungen zwischen A und B im Hinblick auf X. Zu jeder der m ⋅ s vielen Größen benötigt man nun eine Stichprobe (k,r) X1 , . . . , Xn(k,r) 0 der Länge n0 (Wir gehen der Einfachheit halber davon aus, dass alle Stichproben die gleiche Länge haben. Für ungleiche Stichprobenlängen wird es nochmals erheblich komplizierter.) Daraus berechnet man nun die folgenden Mittelwerte und Stichprobenlängen: Einzelne Stichprobe (k = 1, . . . , m, r = 1, . . . , s fest): Länge ∶ n0 Mittelwert ∶ X (k,r) = 1 n0 (k,r) ⋅∑X n0 i=1 i Mit festem Wert für B zusammengefasste Stichprobe (r = 1, . . . , s fest): Länge Mittelwert ∶ n0 ⋅ m ∶ X (●,r) = m n0 1 1 m (k,r) (k,r) ⋅ ∑ ∑ Xi = ⋅∑X n0 ⋅ m k=1 i=1 m k=1 Mit festem Wert für A zusammengefasste Stichprobe (k = 1, . . . , m fest): Länge ∶ n0 ⋅ s ∶ X (k,●) (k,r) Mittelwert 82 s n 1 1 s (k,r) = ⋅ ∑ ∑ Xi = ⋅ ∑ X (k,r) n0 ⋅ s r=1 i=1 s r=1 Gesamte Stichprobe: Länge ∶ n0 ⋅ m ⋅ s ∶ X (●,●) (k,r) Mittelwert m s n 1 (k,r) = ⋅ ∑ ∑ ∑ Xi n0 ⋅ m ⋅ s k=1 r=1 i=1 m s 1 m (k,●) 1 s (●,r) 1 ⋅ ∑ ∑ X (k,r) = ⋅∑X = ⋅∑X m ⋅ s k=1 r=1 m k=1 s r=1 = Es gilt die folgende Quadratsummenzerlegung: SSG = SSA + SSB + SS(AB) + SSE Dabei ist: quadratische Abweichung “bewirkt“ FG mittlere durch m Abw. 2 SSA = n0 ⋅ s ⋅ ∑ (X (k,●) − X (●,●) ) Faktor A m−1 MSA = SSA m−1 Faktor B s−1 MSB = SSB s−1 Wechsel- (m − 1) ⋅ (s − 1) MS(AB) = m ⋅ s ⋅ (n0 − 1) MSE = k=1 s 2 SSB = n0 ⋅ m ⋅ ∑ (X (●,r) − X (●,●) ) r=1 m s 2 SS(AB) = n0 ⋅ ∑ ∑ (X (k,r) − X (k,●) − X (●,r) + X (●,●) ) k=1 r=1 SS(AB) (m−1)⋅(s−1) wirkungen m s n0 (k,r) SSE = ∑ ∑ ∑ (Xi k=1 r=1 i=1 − X (k,r) ) 2 zufällige SSE m⋅s⋅(n0 −1) Fehler m s n0 (k,r) SSG = ∑ ∑ ∑ (Xi k=1 r=1 i=1 2 − X (●,●) ) gesamt m ⋅ s ⋅ n0 − 1 Zu den oben angegebenen Nullhypothesen berechnet man nun Teststatistik und p-Wert wie folgt: Nullhypothese Teststatistik X von A unabhängig TA = X von B unabhängig TB = keine Wechselwirkungen T(AB) = MSA MSE MSB MSE MS(AB) MSE p-Wert 1 − Fm−1,m⋅s⋅(n0 −1) (TA ) 1 − Fs−1,m⋅s⋅(n0 −1) (TB ) 1 − F(m−1)⋅(s−1),m⋅s⋅(n0 −1) (T(AB) ) 83 MSG = SSE m⋅s⋅n0 −1 2 Hypothesentests Man kann diese auch mit R durchführen. Man trägt dazu in einen Vektor x die Daten ein und in zwei Faktoren a und b (beide haben die gleiche Länge wie x) die Information, zu welcher Ausprägung von A bzw. B die Daten gehören. Dann erhält man mit: anova(lm(x∼a∗b)). die benötigten Werte (Freiheitsgrade, Quadratsummen, mittlere Quadratsummen, Teststatistiken, p-Werte). 84