Schätzen und Testen c M. Gruber, FHM Version vom 18. Juni 2007 1 1 STICHPROBEN UND DEREN VERWENDUNG 2 1 Stichproben und deren Verwendung Die Vorlesung verzweigt nun in zwei Richtungen, die unabhängig voneinander studiert werden können. Jeder Zweig führt in ein Spezialgebiet der inferentiellen Statistik ein, in die Schätztheorie einerseits, in die Testtheorie andrerseits. 1.1 Stichproben Eine Stichprobe ist eine endliche und echte Teilmenge einer statistischen Grundgesamtheit, die Aufschluss über die Grundgesamtheit liefern soll. Die Anzahl n der Stichprobenelemente heißt Stichprobenumfang. Stichproben werden zur Beurteilung der Grundgesamtheit herangezogen, wenn eine Vollerhebung zu teuer, zu zeitaufwendig, nicht sinnvoll, zu keiner Zeit durchführbar, oder wegen der unendlichen Größe der Grundgesamtheit nicht möglich ist. Die wesentliche Eigenschaft einer Stichprobe ist ihre Zufälligkeit. 1.2 Schätzen Mit Hilfe von Stichproben ist man in der Lage, den Typ oder Parameter (z.B. Mittelwert, Streuung, Anteilswert) von Merkmalsverteilungen zu schätzen. Die Schätzung kann in der Angabe einer bestimmten Zahl für den unbekannten Parameter bestehen (Punktschätzung) oder in der Angabe eines Intervalls, das den unbekannten Parameter überdeckt (Intervallschätzung). In beiden Fällen sind die Schätzungen mit Unsicherheit behaftet, die man mit Hilfe der Wahrscheinlichkeitsrechnung abschätzt und möglichst klein hält. 1.3 Testen Bei statistischen Testverfahren werden Hypothesen über den Typ oder über Parameter der Merkmalsverteilung einer Grundgesamtheit durch Stichproben überprüft. Ein solches Testverfahren kann dazu führen, daß die vor dem Test aufgestellte Hypothese verworfen (andernfalls beibehalten) wird. Eine derartige Entscheidung ist mit Unsicherheit behaftet, da sie aufgrund eines Zufallsexperiments, nämlich der Stichprobe, gefällt wird. Diese Unsicherheit wird mit Hilfe der Wahrscheinlichkeitsrechnung abgeschätzt und möglichst klein gehalten. 2 ELEMENTE DER SCHÄTZTHEORIE 3 2 Elemente der Schätztheorie 2.1 Ein Beispiel 2.1.1 Schätzung eines Fehleranteils Der p eines Serienproduktes soll geschätzt werden. Dazu werden n zufällige Stichproben gezogen, d.h. es werden B(1, p)-verteilte Zufallsvariablen X1 , . . . , Xn “realisiert”: xi = 1, wenn das i-te gezogene Stück fehlerhaft ist, andernfalls xi = 0. Man beachte, dass wir Zufallsvariablen groß schreiben, deren Realisierungen dagegen klein. Aus den beobachteten Werten soll nun das unbekannte p möglichst gut durch einen Schätzwert p̂ geschätzt werden. Wir schätzen p̂ = U (X1 , . . . , Xn ) mit der Schätzfunktion U (x1 , . . . , xn ) = 1 X xi , n 1≤i≤n d.h.: Ist bei den n Stichproben N -mal ein fehlerhaftes Stück gezogen worden, schätzen wir N p̂ = . n 2.1.2 Eigenschaften der Schätzfunktion p̂ 1. p̂ ist erwartungstreu (auch unverzerrt, engl. unbiased), d.h. Ep̂ = p. 2. p̂ ist konsistent (sehr wünschenswert!), d.h. P p̂ −→ p für n −→ ∞. Dies folgt unmittelbar aus dem schwachen Gesetz der großen Zahlen. Es bedeudet, dass eine Abweichung der Schätzfunktion vom wahren Wert p mit wachsendem Stichprobenumfang n immer unwahrscheinlicher wird. 3. Unter allen erwartungstreuen Schätzfunktionen ist p̂ diejenige mit der kleinsten Varianz (ohne Beweis). Es ist σ 2 (p̂) = 1 1 p(1 − p) ≤ . n 4n 2.1.3 Konfidenzintervalle für p Für den wahren Parameter p und jede Realisierung u = U (x1 , . . . , xn ) von p̂ ist (p, u) ∈ Q = [0, 1] × [0, 1]. 2 ELEMENTE DER SCHÄTZTHEORIE 4 Wir geben B ⊂ Q an, sodass (p, p̂) ∈ B mit statistischer Sicherheit 1 − 2β gilt (β vorgegeben, z.B. β = 0.025). Zu p ∈ [0, 1] sei Ip das Intervall mit Mittelpunkt p, für das Pp (p̂ ∈ Ip ) = 1 − 2β (möglichst genau!) gilt. Der Index p bei P bedeutet, dass p der Parameterwert zur Berechnung der Wahrscheinlichkeit ist. Für [ B =Q∩ {p} × Ip p∈[0,1] gilt dann P ((p, p̂) ∈ B)) = 1 − 2β. (1) Durch die Funktionen f1 und f2 sei der linke bzw. rechte Rand der Menge B parametrisiert. Dann kann die Beziehung (1) auch geschrieben werden als P (f1 (p̂)) ≤ p ≤ f2 (p̂)) = 1 − 2β. Interpretation: Mit statistischer Sicherheit (Konfidenzwahrscheinlichkeit) 1 − 2β wird für eine Realisierung u = U (x1 , . . . , xn ) von p̂ der wahre Parameter p zwischen f1 (u) und f2 (u) eingeschlossen. Das Intervall [f1 (u), f2 (u)] heißt Konfidenzintervall (auch Mutungsintervall), f1 (u) und f2 (u) heißen Vertrauensgrenzen, die Zahl 2β Fehlerwahrscheinlichkeit. 2.1.4 Approximative Konfidenzintervalle Wir betrachten den Fall, dass n und p eine Approximation durch die Normalverteilung erlauben. Mit Φ(−h) = β gilt dann ! np̂ + 21 − np ≤h ≈ Φ(h) − Φ(−h) P −h ≤ p np(1 − p) = 1 − 2β. Daraus erhält man h2 p(1 − p) 1 ≈ 1 − 2β. − p)2 ≤ P (p̂ + 2n n Die Gleichung der Randkurve von B lautet daher näherungsweise (u + woraus man herleiten kann. 1 h2 p(1 − p) − p)2 = , 2n n h p 1 u(1 − u) + O( ) f1,2 (u) = u ± √ n n 2 ELEMENTE DER SCHÄTZTHEORIE 5 2.2 Konfidenzintervalle Als Beispiel für die Vorgehensweise haben wir Konfidenzintervalle für den Anteil an einer Grundgesamtheit konstruiert. Wir werden nun angeben, wie man für andere Größen (z.B. für den Mittelwert einer N (µ, σ)verteilten Grundgesamtheit) Konfidenzintervalle bestimmt. Generell gilt (wie im Speziallfall 2.1.3): • Erhöhung der Konfidenzwahrscheinlichkeit vergrößert die Konfidenzintervalle: Sichere Aussagen sind unscharf und scharfe Aussagen sind unsicher. • Erhöhung des Stichprobenumfangs verkleinert die Konfidenzintervalle. 2.2.1 K.-I. für p (Normalverteilungsapproximation) Seien x1 , . . . , xn die Stichprobenergebnisse einer B(1, p)-verteilten Grundgesamtheit. Für die Schätzgröße p̂ = 1 X xi n 1≤i≤n gelte min{np̂, n(1 − p̂)} > 5 (somit ist eine Approximation durch die Normalverteilung vertretbar). Mit Konfidenzwahrscheinlichkeit 1−2β überdeckt dann das Konfidenzintervall # " r r p̂(1 − p̂) p̂(1 − p̂) 1 1 −z , p̂ + +z p̂ − 2n n 2n n den wahren Parameter p (dabei ist z das rechte β-Quantil der N (0, 1)Verteilung). Beispiel 1 Bei einer Blitzumfrage waren 45 von 225 befragten wahlberechtigten Personen der Überzeugung, daß die gegenwärtige Regierung vor Ablauf der Legislaturperiode abgelöst wird. Zwischen welchen Grenzen wird der Anteil p der Wahlberechtigten, die diese Überzeugung haben, mit 90% Konfidenzwahrscheinlichkeit liegen? p̂ = 45 = 0.2 . 225 Wegen np̂ = 45 > 5 und n(1 − p̂) = 180 > 5 kann man die Normalverteilung zur Approximation heranziehen und erhält als Grenzen des Konfidenzintervalls ! r 0.16 1 + 1.64 0.2 ∓ 450 225 und damit das Konfidenzintervall [0.154 , 0.246] . Also liegt mit statistischer Sicherheit von 90% der Anteil zwischen 15.4% und 24.6%. 2 ELEMENTE DER SCHÄTZTHEORIE 6 2.2.2 K.-I. für p (exakt) Exakte Vertrauensgrenzen,Pauch falls sich np̂ ≤ 5 oder n(1 − p̂) ≤ 5 n für den Schätzwert p̂ = n1 i=1 xi ergibt, erhält man mit Hilfe der F Verteilung. Mit Konfidenzwahrscheinlichkeit 1 − 2β ist np̂ (np̂ + 1)F2 , np̂ + (n − np̂ + 1)F1 n − np̂ + (np̂ + 1)F2 ein Konfidenzintervall, das p enthält. Dabei sind F1 und F2 rechte β-Quantile der F -Verteilung mit Freiheitsgraden ν1 und ν2 : F1 F2 = Fν1 ;ν2 ;β = Fν1 ;ν2 ;β mit ν1 = 2(n − np̂ + 1) und ν2 = 2np̂, mit ν1 = 2(np̂ + 1) und ν2 = 2(n − np̂). Beispiel 2 Bei einer Blitzumfrage waren 45 von 225 befragten wahlberechtigten Personen der Überzeugung, daß die gegenwärtige Regierung vor Ablauf der Legislaturperiode abgelöst wird. Zwischen welchen Grenzen wird der Anteil p der Wahlberechtigten, die diese Überzeugung haben, mit 90% Konfidenzwahrscheinlichkeit liegen? Man berechne die Vertrauensgrenzen exakt. Mit ν1 = 2 · (225 − 45 + 1) = 362 und ν2 = 2 · 45 ist F1 = F362 ; 90 ; 0.05 = 1.3. Mit ν1 = 2 · (45 + 1) = 92 und ν2 = 2 · (225 − 45) = 360 45 46·1.22 ist F2 = F92 ; 360 ; 0.05 = 1.22. Die Werte 45+181·1.3 = 0.161 und 180+46·1.22 = 0.237 sind die exakten Grenzen des Konfidenzintervalls. Also liegt mit statistischer Sicherheit von 90% der Anteil zwischen 16.1% und 23.7%. 2.2.3 K.-I. für µ einer N (µ, σ)-Verteilung (σ bekannt) Mit Konfidenzwahrscheinlichkeit 1 − 2β ist – » σ σ µ̂ − z √ , µ̂ + z √ n n P n mit der Schätzfunktion µ̂ = n1 i=1 xi ein Konfidenzintervall zur Stichprobe x1 , . . . , xn einer N (µ, σ)-verteilten Grundgesamtheit, das µ überdeckt. Dabei ist z das rechte β-Quantil der N (0, 1)-Verteilung. Beispiel 3 Aus einer N (µ, 12)-verteilten Grundgesamtheit wird eine Stichprobe mit Umfang n = 36 gezogen, die für µ̂ den Wert 26 liefert. Für 1 − 2β = 0.95 erhält man das Konfidenzintervall » – 12 12 26 − 1.96 √ , 26 + 1.96 √ . 36 36 2.2.4 K.-I. für µ einer N (µ, σ)-Verteilung (σ unbekannt) Mit Konfidenzwahrscheinlichkeit 1 − 2β ist σ̂ σ̂ µ̂ − t √ , µ̂ + t √ n n 2 ELEMENTE DER SCHÄTZTHEORIE 7 mit den Schätzfunktionen µ̂ = 1 X xi n 1≤i≤n und σ̂ = sP 1≤i≤n (xi n−1 − µ̂)2 ein Konfidenzintervall zur Stichprobe x1 , . . . , xn einer N (µ, σ)-verteilten Grundgesamtheit, das µ überdeckt. Dabei ist t das rechte β-Quantil der t-Verteilung (Student-Verteilung) mit n − 1 Freiheitsgraden. Beispiel 4 Eine aus einer normalverteiltenPGrundgesamtheit gezogene Stichprobe vom Umfang 17 ergibt µ̂ = 5 und 1≤i≤17 (xi − µ̂)2 = 25. Welche Vertrauensgrenzen ergeben sich für den Mittelwert µ bei einer geforderten Konfidenzwahrscheinlichkeit von 99%? Der benötigte Wert der t-Verteilung ist in der Tabelle der zweiseitigen 1%-Schranken (oder einseitigen 0.5%-Schranken) der t-Verteilung mit 16 Freiheitsgraden nachzuschlagen. Man findet den Wert 2.921. Damit ergeben sich die Grenzen r 25 , 5 ∓ 2.921 · 16 · 17 also 4.11 und 5.89. 2.2.5 K.-I. für den Median µ̃ (Stichprobenumfang n ≥ 9) Bei nicht normalverteilten Grundgesamtheiten gibt man meist einen Vetrauensbereich für den Median anstatt für den Mittelwert an (a heißt Median, wenn P (x ≤ a) ≥ 21 und P (x ≥ a) ≥ 21 gilt). Ordnet man die Werte x1 , . . . , xn einer Stichprobe aufsteigend an, so erhält man eine neue Folge x(1) , . . . , x(n) . Mit diesen Werten ist (falls n ≥ 9) x(h+1) , x(n−h) ein Konfidenzintervall, das mit Konfidenzwahrscheinlichkeit 1 − 2β den Median µ̃ überdeckt. Dabei ist √ n−1−z n c h=b 2 (mit der floor-Funktion bxc = max {m ∈ Z|m ≤ x}) und z das rechte βQuantil der N (0, 1)-Verteilung. Beispiel 5 Ausgehend von den Werten einer Stichprobe vom Umfang n = 50 soll ein Konfidenzintervall angegeben werden, das mit statistischer Sicherheit von 95% den Median der Grundgesamtheit überdeckt. Als 2.5%-Quantil der Normalverteilung erhält man den Wert 1.96. Damit ergibt sich √ 50 − 1 − 1.96 50 h=b c = b17.570c = 17 . 2 3 ELEMENTE DER TESTTHEORIE 8 Die Vertrauensgrenzen sind auf der Grundlage der geordneten Werte x(1) , . . . , x(50) der Stichprobe zu bilden. Man erhält als linke Grenze x(17+1) = x(18) und als rechte Grenze x(50−17) = x(33) . 3 Elemente der Testtheorie 3.1 Ein Beispiel 3.1.1 Testen der Hypothese “die Münze ist fair” Von einer Münze mit den Seiten A und Z wird angenommen, dass sie “fair” ist in dem Sinne, dass nach zufälligem Werfen die A-Seite mit Wahrscheinlichkeit 0.5 oben liegt. Wir nehmen uns folgenden Test der Hypothese H0 “die Münze ist fair” vor: Wir werfen die Münze fünfmal. Wenn dabei das Ereignis AAAAA oder ZZZZZ eintritt, verwerfen wir H0 , ansonsten nehmen wir H0 an. Kurz: Über die B(1, p)-verteilten Zufallsvariablen X1 , . . . , X5 wird die Hypothese H0 : p = 0.5 aufgestellt. Zur Testvariablen U (X1 , . . . , X5 ) = 5 X Xi i=1 geben wir uns die Entscheidungsvorschrift: Verwirf H0 , wenn die Realisierung von U den Wert 0 oder 5 ergibt. 3.1.2 α-Fehler und β-Fehler Mögliche Entscheidungsverläufe dieses Tests: 1. (Berechtigte) Ablehnung von H0 , wenn H0 nicht zutrifft. 2. (Unberechtigte) Ablehnung von H0 , wenn H0 zutrifft (α-Fehler oder 5 Fehler 1. Art); Wahrscheinlichkeit hierfür: 2 · 21 = 0.0625. 3. (Berechtigte) Annahme von H0 , wenn H0 zutrifft. 4. (Unberechtigte) Annahme von H0 , wenn H0 nicht zutrifft (β-Fehler oder Fehler 2. Art); Wahrscheinlichkeit hierfür: 1 − p5 − (1 − p)5 mit dem (wahren) Parameter p 6= 21 . 3.1.3 Gütefunktion des Tests Die Gütefunktion G(p) = p5 + (1 − p)5 (Abbildung 1) des Tests zeigt die Ablehnwahrscheinlichkeit von H0 als Funktion von p. An ihr kann man die Wahrscheinlichkeit für den αFehler (G(p), p = 21 ) und für den β-Fehler (1 − G(p), p 6= 12 ) ablesen. Man erkennt: die Ablehnwahrscheinlichkeit von H0 wird erst groß, wenn p stark von 21 abweicht. 3 ELEMENTE DER TESTTHEORIE 9 1.00 r r r r r 0.75 r r r r r r r r r r 0.50 r r r r r r r r r r 0.25 0.00 0.00 r rr rr rr rr 0.25 rr rrr rrrrrr rrrrrrrrr 0.50 rrr r r rr rr r 0.75 1.00 p Abbildung 1: Gütefunktion des Tests “die Münze ist fair” 3.1.4 Kritische Bereich und Annahmebereich Unser Test unterscheidet zwei Teilmengen des Wertebereichs der Testfunktion U : • Führt die Realisierung von U zu den Werten 0 oder 5, so verwerfen wir H0 : Die Menge {0, 5} heißt kritischer Bereich des Tests. • Führt die Realisierung von U zu einem Wert der Menge {1, 2, 3, 4}, so behalten wir H0 (bis auf weiteres) bei. Die Menge {1, 2, 3, 4} heißt Annahmebereich des Tests. 3.1.5 Vergrößerung des kritischen Bereichs Durch Vergrößerung des kritischen Bereichs wird der β-Fehler kleiner, der α-Fehler dagegen größer. Abbildung 2 zeigt die Gütefunktionen des Münzwurftests für Stichprobenumfang n = 10 und die kritischen Bereiche K1 = {0, 1, 9, 10}, K2 = {0, 1, 2, 8, 9, 10}, K3 = {0, 1, 2, 3, 7, 8, 9, 10}. 3.1.6 Erhöhung des Stichprobenumfangs Durch Erhöhung des Stichprobenumfangs wird der α-Fehler kleiner, der β-Fehler dagegen größer. Abbildung 3 zeigt die Gütefunktionen Gn des Münzwurftests zum kritischem Bereich K = {0, 1, 2, 3, n − 3, n − 2, n − 1, n} und Stichprobenumfang n = 10, 13, 16. 3 ELEMENTE DER TESTTHEORIE rb r r r s s s s 1.00 rbsssss b r s b 0.75 0.50 0.25 0.00 0.00 10 r r rb rb s s ssr ssss s ss r r r b b s K1 b r ss b b ss r r s b r r ss b K2 r s r s s b b r r K3 s s s r r s s b b r r s s b b s s r r s s b b r r s s r r b b ss ss r r b b s s r r s s b b ss s r r s s ss s s s b b r r b b r r b b rr rr b b rr r bb b r rrr r bb bb rrrrrrrr bbb bb b b bbbbb b bbbbbbbbbb rr ss 0.25 0.50 0.75 1.00 p Abbildung 2: Gütefunktion für verschiedene kritische Bereiche rb rb rb rbs rbs rb br b b 1.00 sss s r b 0.75 0.50 0.25 0.00 0.00 rb rb rb b b rb srb srb sss s r bb b b br r rs s b s r b s b r G10 b s r bb b b r r ss s r b G13 r b r b s rr bb G16 s b r s s r s b b b rr s s r bb b b b s r r s b b r s s r bb b r s rr bb bb r ss bb bb s r b r s bbbbbb s r r s r r s r s rr r ss s r ss r r r s r ss r r r r r r r r r ss s s ss s s ss sss s s s s 0.25 0.50 0.75 p Abbildung 3: Gütefunktion für verschiedene Stichprobenumfänge 1.00 3 ELEMENTE DER TESTTHEORIE 11 rb rb rb r s s 1.00 sssss r s 0.50 0.05 r r rb rb s s sssss ss r r b b b r ss s r r b b b G9 s s b rr s s r b G12 r b r s s rr b G17 s b b r s s b r s s rr b b r s s r b b s s r b r b s r bb b r ss s r r b b s r b b r s b r s s r b b r s s rrbb b r s s bbr s s r b b rb r s s r rb b b s s r rb bbr s b rb rb sr s s srb srb rb rb b s s b rb rb srb ss s r b rb rb rb rb 0.00 0.25 0.50 0.75 1.00 p Abbildung 4: Gütefunktionen zum Signifikanzniveau α = 0.05 3.1.7 Kontrolle des α-Fehlers α-Fehler wiegen schwerer als β-Fehler. Deshalb gestaltet man Tests so, dass die Wahrscheinlichkeit für einen α-Fehler unterhalb eines vorgebenen Signifikanzniveaus α bleibt (übliche Werte: α = 0.05, 0.01, 0.001). Abbildung 4 zeigt die Gütefunktionen Gn der Tests zum Niveau α = 0.05 mit Stichprobenumfang n = 9, 12, 17 und kritischen Bereichen K9 = {0, 1, 9, 10}, K12 = {0, 1, 2, 10, 11, 12} bzw. K17 = {0, 1, 2, 3, 4, 13, 14, 15, 16, 17}. 3.1.8 Trennschärfe Eine wünschenswerte Eigenschaft eines Tests ist die Trennschärfe. Darunter versteht man die Eigenschaft, dass ein Test (neben der Einhaltung der α-Schranke für den Fehler 1. Art) möglichst kleine Werte für die Wahrscheinlichkeit des Fehlers 2. Art aufweist. Damit “trennt” der Test die Hypothese H0 möglichst “scharf” von den Alternativen zu H0 . Im Fall des Münzwurfs heißt dies, dass die Gütefunktion des Tests für p 6= 21 möglichst große Werte annehmen soll. Man kann zeigen, dass man “beliebig trennscharfe” Tests erhält, wenn der Stichprobenumfang entsprechend erhöht werden kann. 3.1.9 Einseitige Alternative H1 Der soeben betrachtete Münzwurftest war symmetrisch in dem Sinn, dass als Alternative zur Nullhypothese H0 : p = 21 (stillschweigend) die Hypothese H1 : p 6= 12 betrachtet wurde. Es kann jedoch in manchen Situationen sinnvoll sein, die Alternative H1 einseitig zu formulieren. 3 ELEMENTE DER TESTTHEORIE 12 1.00 s s s s s s s s 0.50 s s s s s ss 0.05 sssssssssssssssssssss ssss ss ss 0.00 ss s ss s s s s s 0.25 0.50 ss s s s ss ss s 0.75 1.00 p Abbildung 5: Gütefunktion für den einseitigen Test (n = 5) Beispiel 6 S1 fordert S2 zu einer Wette auf. S1 setzt auf A einen gewissen Betrag, S2 soll auf Z einen ebenso großen Betrag setzen. Die Münze gehört S1 . S2 hat Zweifel, ob die Münze fair ist und vermutet, dass A öfter fällt als Z. S2 erhält Gelegenheit für einen Test. S2 nimmt sich vor, die Münze fünfmal zu werfen und sie zu beanstanden, wenn AAAAA eintritt. Formale Beschreibung des einseitigen Tests • H0 : p ≤ 21 , H1 : p > 21 , • Testvariable U (X1 , . . . , X5 ) = • kritischer Bereich K = {5}. P 1≤i≤5 Xi , • Signifikanzniveau α = 0.05 • Gütefunktion: Abbildung 5 Steigerung der Trennschärfe • H0 : p ≤ 12 , H1 : p > 21 , • Testvariable U (X1 , . . . , X16 ) = P 1≤i≤16 Xi , • kritischer Bereich K = {12, 13, 14, 15, 16}. • Signifikanzniveau α = 0.05 • Gütefunktion: Abbildung 6 3 ELEMENTE DER TESTTHEORIE 13 1.00 ss s ss ss ssss s s s s s s s 0.50 s s s s s s s 0.05 ss s sssssssssssssssssssssssss ss ss s s 0.00 0.25 ss s ss 0.50 0.75 1.00 p Abbildung 6: Gütefunktion für den einseitigen Test (n = 16) Beispiel 7 (Einseitiger Zeichentest) Zwei Lehrmethoden, A und B, sollen verglichen werden (angeblich ist B besser als A). Von 16 Zwillingspaaren soll dazu jeweils eine Person mit A, die andere mit B geschult und dann der Lehrerfolg anhand eines einheitlichen Tests festgestellt werden. Ist B besser als A, dann ist der Anteil p der Zwillingspaare, bei denen mit B ein besseres Resultat als mit A erzielt worden ist, größer als 12 . Man testet H0 : p ≤ 12 einseitig gegen H1 : p > 21 zum Niveau α = 0.05. Die Durchführung ergibt: 13 mal hat B zu einem besseren Resultat geführt als A. Man kann damit H0 auf dem 5%-Niveau ablehnen und sagen, dass B besser als A ist. 3.2 Grundsätzliches zum statistischen Test 3.2.1 Hat ein statistischer Test Beweiskraft? Eine möglicherweise wahre Hypothese über eine statistische Grundgesamtheit wird als H1 -Hypothese, die Gegenhypothese als H0 -Hypothese formuliert. Mit statistischen Tests kann aber eine Hypothese H 1 , auch wenn sie zutrifft, nicht bewiesen und eine Hypothese H0 , auch wenn sie falsch ist, nicht einwandfrei widerlegt werden. Ähnlich wie indirekte mathematische Beweise zielen statistische Tests darauf ab, die möglicherweise falsche Hypothese H0 zugunsten der Hypothese H1 zu verwerfen, und zwar auf der Grundlage von Testresultaten, die der Hypothese H0 widersprechen. Anstatt auf absolute Beweiskraft kann man sich aber nur auf eine kontrollierbar kleine (aber positive) Irrtumswahrscheinlichkeit (Signifikanzniveau) berufen. 3 ELEMENTE DER TESTTHEORIE 14 3.2.2 Asymmetrie zwischen α- und β-Fehler Statistische Test können versagen, sowohl wenn H0 wirklich falsch ist und H0 dennoch nicht abgelehnt wird (β-Fehler), als auch wenn H0 zutrifft und trotzdem abgelehnt wird (α-Fehler). Die Tatsache, dass grundsätzlich bei keinem Test die Wahrscheinlichkeit für beide Fehler gleichzeitig minimimal sein kann, ist der Grund für die ungleichen Rollen des durch ein vorgegebenes Signifikanzniveau kontrollierten α-Fehlers und des β-Fehlers, der nur in Teilbereichen durch Steigerung der Trennschärfe noch verringert werden kann. 3.2.3 Struktur eines statistischen Tests Über die (teilweise) unbekannte Verteilung einer statistischen Grundgesamtheit sind alternative Hypothesen H0 (möglicherweise falsch) und H1 (möglicherweise wahr) formuliert. Stichprobenvariablen X1 , . . . , Xn zur Grundgesamtheit bilden eine Testgröße Tn (X1 , . . . , Xn ), deren theoretische Verteilungseigenschaften in Abhängigkeit von den Hypothesen bekannt sind. Stichprobenumfang und kritischer Bereich für die Ablehnung von H0 sind so festgelegt, dass eine vorgegebene Irrtumswahrscheinlichkeit für eine fälschliche Ablehnung von H0 nicht überschritten wird. Liegt der Wert von Tn bei Realisierung der Stichprobe im kritischen Bereich, wird H0 zugunsten H1 verworfen, sonst angenommen. 3.2.4 Korrektes statistisches Testen Das zu untersuchende Testproblem ist stets vor der Durchführung des Tests zu formulieren und darf keinesfalls nachträglich zu Stichprobendaten gewählt werden. Gelingt es anhand eines geeigneten Tests mit vorgegebener Irrtumswahrscheinlichkeit α nicht, H0 abzulehnen, ist es unzulässig • andere Tests auszuprobieren, • α nachträglich zu erhöhen, • so lange Stichproben zu ziehen, “bis H0 schließlich doch noch abgelehnt wird”. 3.3 Einige statistische Tests 3.3.1 Test auf den Anteilswert p (zweiseitig, exakt) Hypothesen: Testgröße: H0 : p = p0 , H1 : p 6= p0 . Tn (X1 , . . . , Xn ) = X 1≤i≤n (mit B(1, p)-verteilten Zufallsvariablen Xi ). Xi 3 ELEMENTE DER TESTTHEORIE 15 Untere und obere Grenzen Au , Ao des Annahmebereichs für die B(n, p)verteilte Testgröße Tn bei Test auf dem Niveau α: n αo Au = min k ∈ N Pp0 (Tn ≤ k) > , 2 n αo . Ao = min k ∈ N Pp0 (Tn ≤ k) ≥ 1 − 2 3.3.2 Test auf den Anteilswert p (einseitig, exakt) Hypothesen: Testgröße: H0 : p ≤ p 0 , H 1 : p > p 0 . Tn (X1 , . . . , Xn ) = X Xi 1≤i≤n (mit B(1, p)-verteilten Zufallsvariablen Xi ). Untere und obere Grenzen Au , Ao des Annahmebereichs für die B(n, p)verteilte Testgröße Tn bei Test auf dem Niveau α: Au = 0 , Ao = min {k ∈ N |Pp0 (Tn ≤ k) ≥ 1 − α} . 3.3.3 Test auf den Anteilswert p (zweiseitig, approximativ) Die Normalverteilungs-Approximation ist anwendbar, wenn np0 > 5 und n(1 − p0 ) > 5 ist. H0 : p = p0 , H1 : p 6= p0 . Tn (X1 , . . . , Xn ) = 1 X Xi n 1≤i≤n (mit B(1, p)-verteilten Zufallsvariablen Xi ). Untere und Grenzen Au , Ao des Annahmebereichs für die an obere q 0) nähernd N p0 , p0 (1−p -verteilte Testgröße Tn bei Test auf dem Nin veau α: 1 Au = p 0 − −z 2n r p0 (1 − p0 ) , n r p0 (1 − p0 ) 1 +z . Ao = p 0 + 2n n Hierbei ist z das obere α2 -Quantil der N (0, 1)-Verteilung. 3 ELEMENTE DER TESTTHEORIE 16 3.3.4 Test auf den Anteilswert p (einseitig, approximativ) Die Normalverteilungs-Approximation ist anwendbar, wenn np0 > 5 und n(1 − p0 ) > 5ist. H0 : p ≤ p 0 , H 1 : p > p 0 . Tn (X1 , . . . , Xn ) = 1 X Xi n 1≤i≤n (mit B(1, p)-verteilten Zufallsvariablen Xi ). Untere und Grenzen Au , Ao des Annahmebereichs für die an obere q 0) nähernd N p0 , p0 (1−p -verteilte Testgröße Tn bei Test auf dem Nin veau α: Au = 0 , r 1 p0 (1 − p0 ) +z . Ao = p 0 + 2n n Hierbei ist z das obere α-Quantil der N (0, 1)-Verteilung. Beispiel 8 Eine studentische Organisation behauptet, bei den kommenden Senatswahlen seien ihr mindestens 30% der Stimmen sicher (ein historisches Beispiel, wie man sieht). Diese Behauptung soll statistisch widerlegt werden (α = 0.05), und zwar auf der Basis einer Wählerumfrage bei 65 Wählern. Wegen 65 · 0.3 > 5 und 65 · 0.7 > 5 ist eine Normalverteilungs-Approximation vertretbar. H0 : p ≥ 0.3 , H1 : p < 0.3 . 1 P Der Annahmebereich für die Testgröße Tn = 65 1≤i≤65 Xi hat die Grenzen r 0.3 · 0.7 1 Au = 0.3 − − 1.64 · = 0.199 , 130 65 Ao = 1 . Umfrageergebnis: Nur 12 Wähler wollen für die Organisation stimmen. 12 = 0.185 liegt im kritischen Bereich, H0 wird Der Wert der Testgröße 65 verworfen. 3.3.5 Überprüfen einer Hypothese über p1 , . . . , pn Die Zufallsvariable X besitze die Ausprägungen 1, . . . , m mit unbekannten Wahrscheinlichkeiten pi = P (X = i). H0 : pi = p0i für alle i, H1 : pi 6= p0i für mindestens ein i. n unabhängigen Wiederholungen X1 , . . . , Xn der Zufallsvariablen X liefern absolute Häufigkeiten ni für die i-te Merkmalsausprägung. Damit bildet man die Testgröße 2 X 1 ni −n. Tn = n p0i 1≤i≤m 3 ELEMENTE DER TESTTHEORIE 17 Annahmebereich für Tn : 0 bis oberes α-Quantil der χ2 -Verteilung mit m − 1 Freiheitsgraden. Der Test ist anwendbar, wenn np0i > 1 für alle i und np0i > 5 für mindestens 80% der i gilt. Beispiel 9 Ein Würfel soll daraufhin geprüft werden, ob alle Augenzahlen gleich wahrscheinlich sind (p0i = 16 ). Es wird 300 mal gewürfelt. Es soll auf dem Niveau α = 0.05 getestet werden. Obergrenze des Annahmebereichs (α-Quantil der χ2 -Verteilung mit 5 Freiheitsgraden): 11.07. Die Würfelserie bringt die Ergebnisse n1 = 45, n2 = 60, n3 = 55, n4 = 40, n5 = 40, n6 = 60. Der χ2 -Anpassungstest ist anwendbar. 1 T300 = 50 (452 + 2 · 602 + 552 + 2 · 402 ) − 300 = 9 ≤ 11.07. Die Nullhypothese kann nicht verworfen werden und ist beizubehalten. 3.3.6 Test auf Poissonverteilung Die Zufallsvariable X besitze die Ausprägungen 0, 1, 2, . . .. Frage: Ist X poissonverteilt? H0 : X ist poissonverteilt, d.h. es gibt ein λ > 0 mit P (X = i) = λi i! · e−λ für i ∈ N0 , H1 : X ist nicht poissonverteilt. Mit den absoluten Häufigkeiten n0 , . . . , nm−1 für die i-te Merkmalsausprägung P bei n unabhängigen Wiederholungen von X bildet man λ̂ = n1 0≤i≤m−1 i· ni und damit die Testgröße λ̂ X n2 · i! e i −n. Tn = n λ̂i 0≤i≤m−1 Annahmebereich für Tn : 0 bis oberes α-Quantil der χ2 -Verteilung mit m − 2 Freiheitsgraden. λ̂m−1 ·e−λ̂ > 1; ggf. fasse man die oberen Klassen (Anwendbar, falls n· (m−1)! zusammen.) 3.3.7 Test auf Normalverteilung Die n-fache unabhängige Wiederholung einer Zufallsvariablen X liefere Werte in den Klassen Ki =]ei−1 , ei ], i = 1, . . . , m. Frage: Ist X normalverteilt? H0 : x ist N (µ, σ)-verteilt mit bestimmten Parametern (µ, σ), H1 : X ist nicht normalverteilt. 3 ELEMENTE DER TESTTHEORIE Mit µ̂ = 1 n P 1≤j≤n Xj und σ̂ = q 18 1 n−1 · P 1≤j≤n (Xj − µ̂)2 und den Besetzungs- zahlen n1 , . . . , nm der Klassen Ki bildet man die Größen p̂i = Φ( eiσ̂−µ̂ ) − Φ( ei−1σ̂−µ̂ ) für i = 1 . . . , m und die Testgröße X n2 1 i Tn = −n. n p̂i 1≤i≤m Annahmebereich für Tn : 0 bis oberes α-Quantil der χ2 -Verteilung mit m − 3 Freiheitsgraden. (Anwendbar, falls n · p̂i > 1 für alle i und n · p̂i > 5 für mindestens 80% aller i gilt.) 3.3.8 Test auf Unabhängigkeit zweier Merkmale Zwei Merkmale (Zufallsvariablen) X und Y einer Grundgesamtheit haben die Ausprägungen {1, . . . , r} bzw. {1, . . . , s}. Hypothesen: H0 : X und Y sind unabhängig. H1 : X und Y sind nicht unabhängig. Nach N unabhängigen Wiederholungen des Zufallsexperiments (X, Y ) sei nij die jeweilige Anzahl des Auftretens des Ausprägungspaares (i, j), P P sowie n.j = 1≤i≤r nij und ni. = 1≤j≤s nij die entsprechenden Marginalhäufigkeiten. Darstellung der gezählten Häufigkeiten in einer Kontingenztafel: X=1 X=2 .. . X=r Y =1 n11 n21 .. . Y =2 n12 n22 .. . ... ... ... .. . Y =s n1s n2s .. . n1. n2. .. . nr1 n.1 nr2 n.2 ... ... nrs n.s nr. n.. = N Mit diesen Häufigkeiten bildet man die Testgröße X 1 X n2ij − 1 TN = N · ni. n.j 1≤i≤r 1≤j≤s Der Annahmebereich für TN erstreckt sich von 0 bis zum oberes αQuantil der χ2 -Verteilung mit (r − 1)(s − 1) Freiheitsgraden (bei vorgegebenem Signifikanzniveau α). (Anwendbar, falls ni. n.j > N für alle i, j und ni. n.j > 5N für mindestens 80% aller i, j gilt). Beispiel 10 Es ist zu untersuchen, ob die Religionszugehörigkeit irgendeinen Einfluß auf die Wahl des Ehepartners hat (α = 0.05). Eine Stichprobenerhebung über die Religionszugehörigkeit der Partner ergibt (mit den Abkürzungen rk: röm.-kath., ev: evangelisch, so: sonstige Bekenntnisse, bl: bekenntnislos, m: männlich, f: weiblich): 3 ELEMENTE DER TESTTHEORIE m/rk m/ev m/so m/bl f/rk 9919 782 248 812 11761 f/ev 693 344 27 108 1172 19 f/so 97 22 134 31 284 f/bl 293 44 22 197 556 11002 1192 431 1148 13773 Der Annahmebereich ist [0, 16.92] (0 bis oberes 5%-Quantil der χ2 -Verteilung mit 9 Freiheitsgraden). Da der Wert für TN im kritischen Bereich (Ablehnungsbereich) liegt, ist H0 (“Unabhängigkeit”) zu verwerfen. 3.3.9 Vorzeichentest (Mediantest) Es soll (ohne Annahme über den Verteilungstyp) die relative Lage der Mediane µ̃x , µ̃y zweier Zufallsvariablen X, Y geprüft werden (“verteilungsfreies” oder “nichtparametrisches” Testverfahren). Dazu werden Stichproben (Xi , Yi ) vom Umfang n gezogen (Stichproben mit Xi = Yi läßt man unberücksichtigt und reduziert n entsprechend). Man setzt Di = 1, falls Xi > Yi ist und Di = 0, falls Xi < Yi ist. Damit bildet man die B(n, p)-verteilte Testgröße X Di . Tn = 1≤i≤n Je nach Testproblem werden für Tn geeignete Hypothesen formuliert (z.B. H0 : p ≤ 21 stellvertretend für H0 : µ̃x ≤ µ̃y beim entsprechenden einseitigen Problem). Beispiel 11 Es ist statistisch abzusichern (α = 0.05), dass man bei Verwendung eines Düngemittels A unter gleichen Bedingungen einen besseren Ertrag erzielt als mit einem Düngemittel B. Dazu werden n = 20 Kontrollflächen gebildet, die je zur Hälfte mit A und mit B gedüngt werden. Die Erträge (ai , bi ) der i-ten Kontrollfläche bewertet man mit P Di = 1 für ai > bi und mit Di = 0 für ai < bi . Für die Testgröße T20 = 1≤i≤20 Di erhält man den Annahmebereich {0, . . . , 14} bei H0 : p ≤ 12 . Die Durchführung des Tests liefere für (ai , bi ) die Werte (46, 48), (58, 49), (50, 49), (50, 48), (52, 45), (46, 47), (46, 42), (58, 56), (55, 56), (45, 50), (48, 40), (60, 55), (52, 49), (40, 38), (44, 47), (50, 45), (50, 49), (56, 54), (44, 42), (60, 50). Wegen T20 = 15 ist damit auf dem Niveau α = 0.05 die Überlegenheit von A statistisch nachgewiesen. 3.3.10 Erwartungswert einer normalverteilten Größe Von der Zufallsvariablen X sei bekannt, dass sie (näherungsweise) N (µ, σ)verteilt ist (mit unbekannten µ und σ). Es sollen Nullhypothesen der Form µ = µ0 (bzw. µ ≥ µ0 oder µ ≤ µ0 ) anhand einer Stichprobe x1 , . . . , xn geprüft werden. Hierzu ist die Testgröße √ (µ̂ − µ0 ) n Tn = σ̂ 3 ELEMENTE DER TESTTHEORIE 20 q P 1 P 2 mit µ̂ = n1 1≤j≤n Xj und σ̂ = 1≤j≤n (Xj − µ̂) zu bilden. Tn ist n−1 t-verteilt mit n − 1 Freiheitsgraden (für n > 30 näherungsweise auch N (0, 1)-verteilt). Je nach Testproblem (einseitig, zweiseitig) ist ein entsprechender Annahmebereich zum vorgegebenen Signifikanzniveau zu konstruieren. Beispiel 12 Das Nettoeinkommmen von Studenten sei annähernd normalverteilt. Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Behauptung widerlegt werden kann, das durchschnittliche monatliche Nettoeinkommen von Studenten betrage mindestens 1625 DM (auch dies also ein historisches Beispiel). Dazu soll eine Stichprobe mit Umfang n = 20 herangezogen werden. √ 20 Testproblem: H0 : µ ≥ 1625, H1 : µ < 1625. Testgröße: T20 = (µ̂−1625) . σ̂ Das untere 5%-Quantil der t-Verteilung mit 19 Freiheitsgraden ist −1.729. Der Annahmebereich für T20 ist daher [−1.729, ∞[. √ 20 = Die Stichprobe ergebe µ̂ = 1600 und σ̂ = 42. T20 = (1600−1625) 42 −2.662 ist damit im Ablehnungsbereich und H0 wird zugunsten von H1 verworfen. 3.3.11 Varianz einer normalverteilten Größe Von der Zufallsvariablen X sei bekannt, dass sie (näherungsweise) N (µ, σ)verteilt ist (mit unbekannten µ und σ). Es sollen Nullhypothesen der Form σ 2 = σ02 (bzw. σ 2 ≥ σ02 oder σ ≤ σ02 ) anhand einer Stichprobe X1 , . . . , Xn geprüft werden. Hierzu ist die Testgröße Tn = (n − 1) · mit µ̂ = 1 n P 1≤j≤n Xj und σ̂ = q 1 n−1 P σ̂ 2 σ02 1≤j≤n (Xj − µ̂)2 zu bilden. Tn ist χ2 -verteilt mit n − 1 Freiheitsgraden. Je nach Testproblem (einseitig, zweiseitig) ist ein entsprechender Annahmebereich zum vorgegebenen Signifikanzniveau zu konstruieren. Beispiel 13 In der Massenproduktion eines Industrieprodukts sei das Merkmal X annähernd normalverteilt (z.B. Wandstärke von Glasröhren). Wenn im Produktionsprozeß größere Störungen (z.B. Verschleiß von Maschinen) auftreten, wird sich zusätzlich zum Mittelwert µ von X auch die Varianz σ 2 ändern. Neben µ wird daher meist auch σ 2 als Maß für die Homogenität der Produktion überprüft. Da sich σ 2 durch Verschleiß meist vergrößert, testet man die Hypothese H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 in regelmäßigen Abständen, um rechtzeitig auf Verschleiß der Werkzeuge aufmerksam zu werden. 3 ELEMENTE DER TESTTHEORIE 21 3.4 Korrelationsanalyse Bei der Korrelationsanalyse betrachtet man einen zweidimensionalen Zufallsvektor (X, Y ), der aus normalverteilten Zufallsvariablen X und Y besteht. Dabei geht man von folgenden Annahmen aus: 1. X ist N (µ1 , σ1 )-verteilt, Y ist N (µ2 , σ2 )-verteilt. µ1 , µ2 und σ1 , σ2 seien fest, aber unbekannt. 2. Unter der Bedingung X = x ist die Zufallsvariable Y normalverteilt mit Erwartungswert µ(x) = µ2 + ρ · σσ21 · (x − µ1 ) und Varianz σ 2 = (1 − ρ2 )ρ22 . Die Konstante ρ heißt Korrelationskoeffizient von X und Y . Durch die Angabe von µ1 , µ2 , σ1 , σ2 , ρ ist die gemeinsame zweidimensionale Normalverteilung von X und Y eindeutig bestimmt. 3.4.1 Bedeutung des Korrelationskoeffizienten Fall ρ = 0 Die Zufallsvariablen X und Y sind unabhängig. Fall 0 < ρ < 1 Die Zufallsvariablen X und Y sind positiv korreliert, d.h. große X-Werte treten im Mittel mit großen Y -Werten auf. Die Regressionsgerade ist fallend. Fall −1 < ρ < 0 Die Zufallsvariablen X und Y sind negativ korreliert, d.h. große X-Werte treten im Mittel mit kleinen Y -Werten auf. Die Regressionsgerade ist fallend. Fall ρ = 1 oder ρ = −1 Die Werte von (X, Y ) liegen auf einer Geraden, die mit der Regressionsgeraden identisch ist. In diesem Fall bestimmt der Wert der Variablen X = x vollständig den Wert von Y , nämlich Y (x) = µ(x). Y ist in diesem Fall keine “echte” Zufallsvariable. 3.4.2 Zwei Testprobleme der Korrelationsanalyse Die bei der Korrelationsanalyse verwendeten Größen sind zu denen der Regressionsanalyse ähnlich. Bei der Korrelationsanalyse kann man allerings nicht davon ausgehen, dass zu festen x-Werten mehrere y-Werte gemessen werden, da die Ausprägungen von X zufällig sind. Man geht deshalb einfach von einer Stichprobe (x1 , y1 ), . . . , (xn , yn ) aus und bildet die Größen • n Stichprobenumfang P P 1 • s2x = n−1 ( ni=1 x2i − n1 ( ni=1 xi )2 ), Pn Pn 1 ( i=1 yi2 − n1 ( i=1 yi )2 ), • s2y = n−1 Pn Pn Pn 1 ( i=1 xi yi − n1 ( i=1 xi ) · ( i=1 yi )), • sxy = n−1 3 ELEMENTE DER TESTTHEORIE • r= sxy sx sy • byx = sxy s2x 22 (Stichprobenkorrelationskoeffizient), und ayx = 1 n Pn i=1 xi − byx · 1 n Test auf Unabhängigkeit von X und Y Pn i=1 . • Testproblem: H0 : ρ = 0, H1 : ρ 6= 0. • Testgröße: Tn = (n − 2) · s2xy 2 sx s2y −s2xy • Verteilung: F1,n−2 Test für den Korrelationskoeffizienten • Testprobleme: – H 0 : ρ ≤ ρ 0 , H1 : ρ > ρ 0 – H 0 : ρ ≥ ρ 0 , H1 : ρ < ρ 0 – H0 : ρ = ρ0 , H1 : ρ 6= ρ0 q q √ 1+ρ0 • Testgröße: Tn = n − 3 ln 1+r 1−r − ln 1−ρ0 • Verteilung: N (0, 1) für n > 30. 3.5 Nichtparametrische Tests Bei den bisher besprochenen Tests wurden fast immer Annahmen über die Verteilung der Grundgesamtheit getroffen, wie z.B. die, dass eine normalverteilte Grundgesamtheit vorliegt. In der Praxis kann es vorkommen, dass solche Annahmen nicht nachgeprüft werden können und zweifelhaft sind. Für solche Fälle gibt es nichtparametrische Tests, die unabhängig von Verteilungsannahmen sind. Wir stellen exemplarisch zwei solche Tests vor. 3.5.1 Vorzeichentest Der Vorzeichentest ist ein einfacher Test für eine quantitative Messgröße bei zwei verbundenen Beobachtungen. Es seien X und Y zwei Merkmale einer Grundgesamtheit, die gemeinsam die zweidimensionale Zufallsvariable (X, Y ) bilden. Sei S die daraus konstruierte eindi−X mensionale Zufallsvariable S = |YY −X| (“Vorzeichen von Y −X”). Die i-ten Realisierungen der Zufallsvariablen seien xi , yi bzw. si . Realisierungen mit yi − xi = 0 lässt man weg (der Stichprobenumfang reduziert sich dadurch ggf.). • Testgröße: S • Verteilung: B(n, p) mit p = P (S = 1) • Idee: X und Y sind genau dann gleich verteilt, wenn p = • Testproblem: H0 : p = 12 , H1 : p 6= 1 2 1 2 ist. 3 ELEMENTE DER TESTTHEORIE 23 3.5.2 U-Test nach Mann-Whitney-Wilcoxon Der U-Test nach Mann-Whitney-Wilcoxon ist ein nichtparametrischer Test für zwei unverbundene Stichproben. Es seien X und Y unverbundene Zufallsvariablen und x1 , . . . , xN1 bzw. y1 , . . . , yN2 die zugehörigen Stichprobenwerte, wobei N1 ≤ N2 sei. Die beiden Stichproben werden gemeinsam zur aufsteigenden Folge z1 , . . . , zN geordnet (N = N1 + N2 ) und folgendermaßen mit Rangzahlen r1 , . . . , rN versehen: Falls zi−1 < zi < zi+1 ist, sei ri = i. Falls zi−k < zi−k+1 = . . . = zi = . . . = zi+l−1 < zi+l ist, sei ri = 2i−k+l . Dadurch erhält man für jedes P xi eine Rangzahl 2 r(xi ) und für jedes y eine Rangzahl r(y ). Seien R = i i 1 1≤i≤N1 r(xi ) und P R2 = 1≤i≤N2 r(yi ). • Testgröße: U = N1 N2 + N1 (N21 +1) −R1 mit Erwartungswert µU = (N +1) 2 . und Varianz σU = N1 N212 N1 N2 2 • Verteilung: N (µU , σU )(näherungsweise, falls N1 ≥ 8 und N2 ≥ 8) • Idee: X und Y sind genau dann gleich verteilt, wenn U nahe bei µU liegt. • Testproblem: H0 : U −µU σU = 0, H1 : U −µU σU 6= 0. LITERATUR 24 Literatur [1] http://wiwi.uni-giessen.de/home/rinne/statwas [2] NIST/SEMATECH e-Handbook of Statistical http://www.itl.nist.gov/div898/handbook Methods Inhaltsverzeichnis 1 Stichproben und deren Verwendung 1.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Schätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 2 Elemente der Schätztheorie 2.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Schätzung eines Fehleranteils . . . . . . . . . . . . 2.1.2 Eigenschaften der Schätzfunktion p̂ . . . . . . . . . 2.1.3 Konfidenzintervalle für p . . . . . . . . . . . . . . . 2.1.4 Approximative Konfidenzintervalle . . . . . . . . . . 2.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . 2.2.1 K.-I. für p (Normalverteilungsapproximation) . . . . 2.2.2 K.-I. für p (exakt) . . . . . . . . . . . . . . . . . . . . 2.2.3 K.-I. für µ einer N (µ, σ)-Verteilung (σ bekannt) . . . 2.2.4 K.-I. für µ einer N (µ, σ)-Verteilung (σ unbekannt) . 2.2.5 K.-I. für den Median µ̃ (Stichprobenumfang n ≥ 9) . . . . . . . . . . . 3 3 3 3 3 4 5 5 6 6 6 7 3 Elemente der Testtheorie 3.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Testen der Hypothese “die Münze ist fair” . . . . . . 3.1.2 α-Fehler und β-Fehler . . . . . . . . . . . . . . . . . . 3.1.3 Gütefunktion des Tests . . . . . . . . . . . . . . . . . 3.1.4 Kritische Bereich und Annahmebereich . . . . . . . 3.1.5 Vergrößerung des kritischen Bereichs . . . . . . . . . 3.1.6 Erhöhung des Stichprobenumfangs . . . . . . . . . . 3.1.7 Kontrolle des α-Fehlers . . . . . . . . . . . . . . . . . 3.1.8 Trennschärfe . . . . . . . . . . . . . . . . . . . . . . . 3.1.9 Einseitige Alternative H1 . . . . . . . . . . . . . . . . 3.2 Grundsätzliches zum statistischen Test . . . . . . . . . . . 3.2.1 Hat ein statistischer Test Beweiskraft? . . . . . . . . 3.2.2 Asymmetrie zwischen α- und β-Fehler . . . . . . . . 3.2.3 Struktur eines statistischen Tests . . . . . . . . . . . 3.2.4 Korrektes statistisches Testen . . . . . . . . . . . . . 3.3 Einige statistische Tests . . . . . . . . . . . . . . . . . . . . 3.3.1 Test auf den Anteilswert p (zweiseitig, exakt) . . . . . 3.3.2 Test auf den Anteilswert p (einseitig, exakt) . . . . . 3.3.3 Test auf den Anteilswert p (zweiseitig, approximativ) 3.3.4 Test auf den Anteilswert p (einseitig, approximativ) . 3.3.5 Überprüfen einer Hypothese über p1 , . . . , pn . . . . . 8 8 8 8 8 9 9 9 11 11 11 13 13 14 14 14 14 14 15 15 16 16 ABBILDUNGSVERZEICHNIS 3.3.6 Test auf Poissonverteilung . . . . . . . . . . . 3.3.7 Test auf Normalverteilung . . . . . . . . . . . 3.3.8 Test auf Unabhängigkeit zweier Merkmale . . 3.3.9 Vorzeichentest (Mediantest) . . . . . . . . . . . 3.3.10Erwartungswert einer normalverteilten Größe 3.3.11Varianz einer normalverteilten Größe . . . . . 3.4 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . 3.4.1 Bedeutung des Korrelationskoeffizienten . . . 3.4.2 Zwei Testprobleme der Korrelationsanalyse . 3.5 Nichtparametrische Tests . . . . . . . . . . . . . . . . 3.5.1 Vorzeichentest . . . . . . . . . . . . . . . . . . 3.5.2 U-Test nach Mann-Whitney-Wilcoxon . . . . . 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 19 19 20 21 21 21 22 22 23 . . . . . . . . . . . . . . . . . . . . . . . . 9 10 10 11 12 13 Abbildungsverzeichnis 1 2 3 4 5 6 Gütefunktion des Tests “die Münze ist fair” . . . . . Gütefunktion für verschiedene kritische Bereiche . Gütefunktion für verschiedene Stichprobenumfänge Gütefunktionen zum Signifikanzniveau α = 0.05 . . . Gütefunktion für den einseitigen Test (n = 5) . . . . Gütefunktion für den einseitigen Test (n = 16) . . . . Index F -Verteilung, 6 H0 -Hypothese, 13 H1 -Hypothese, 13 α-Fehler, 8 β-Quantil der N (0, 1)-Verteilung, 5 β-Fehler, 8 β-Quantil der F -Verteilung, 6 β-Quantil der t-Verteilung, 7 t-Verteilung, 7 Nullhypothese, 11 Punktschätzung, 2 Realisierung, 3 schätzen, 2 Schätzfunktion, 3 Schätztheorie, 2 Schätzung, 2 Schätzwert, 3 Signifikanzniveau, 11 statistische Sicherheit, 4 statistischer Test, 2 Stichprobe, 2 Stichprobenumfang, 2 Student-Verteilung, 7 Ablehnwahrscheinlichkeit, 8 Annahmebereich, 9 einseitig, 11 einseitiger Test, 12 Entscheidungsvorschrift, 8 erwartungstreu, 3 Testgrose, 14 Testtheorie, 2 Testvariable, 8 Trennschärfe, 11 Fehler 1. Art, 8 Fehler 2. Art, 8 Fehleranteil, 3 Fehlerwahrscheinlichkeit, 4 floor-Funktion, 7 unbiased, 3 unverzerrt, 3 Gütefunktion, 8 verteilungsfreie Tests, 19 Vertrauensgrenzen, 4 verwerfen, 2 Hypothese, 2 Hypothese H0 annehmen, 8 Hypothese H0 testen, 8 Hypothese H0 verwerfen, 8 Zufälligkeit, 2 Intervallschätzung, 2 Irrtumswahrscheinlichkeit, 14 Konfidenzintervall, 4 Konfidenzwahrscheinlichkeit, 4 konsistent, 3 Korrelationsanalyse, 21 Korrelationskoeffizient, 21 korreliert, negativ, 21 korreliert, positiv, 21 kritischer Bereich, 9 Median, 7 Mutungsintervall, 4 nichtparametrische Tests, 19 26