Kapitel 13 Grundbegriffe statistischer Tests Oft hat man eine Vermutung über die Verteilung einer Zufallsvariablen X. Diese Vermutung formuliert man als Hypothese H0 . So könnte man daran interessiert sein zu überprüfen, ob ein Parameter θ einen speziellen Wert θ0 annimmt. Diese Hypothese lautet: H 0 : θ = θ0 (13.1) Zu jeder Hypothese H0 formuliert man eine sogenannte Gegenhypothese H1 . Eine Gegenhypothese zur Hypothese in Gleichung (13.1) ist H1 : θ = θ0 (13.2) Beispiel 111 Es soll überprüft werden, ob eine Münze fair ist. Ist die Münze fair, so beträgt die Wahrscheinlichkeit 0.5, dass KOPF fällt. Wir bezeichnen die Wahrscheinlichkeit für KOPF mit p und erhalten folgendes Hypothesenpaar. H0 : p = 0.5 gegen H1 : p = 0.5. Um mit statistischen Verfahren zu überprüfen, ob die Hypothese oder Gegenhypothese zutrifft, beobachtet man den Zufallsvorgang mehrmals. Dies kann auch bedeuten, dass man eine Stichprobe zieht. Beispiel 111 (fortgesetzt) Die Münze wird 5-mal geworfen. Wir bezeichnen KOPF mit K und ZAHL mit Z. Es ergibt sich folgende Stichprobe: K K K Z K 311 312 KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS Spricht diese Stichprobe für H0 oder für H1 ? Es gibt Stichproben, die für die Hypothese H0 und Stichproben, die für die Gegenhypothese H1 sprechen. Um entscheiden zu können, ob die Hypothese oder die Gegenhypothese zutrifft, verdichten wir die Information in der Stichprobe. Wir bestimmen eine Stichprobenfunktion S = g(X1 , . . . , Xn ). Diese Stichprobenfinktion S = g(X1 , . . . , Xn ) nennen wir Teststatistik oder Prüfgröße. Beispiel 111 (fortgesetzt) Die Stichproben KKKKK und ZZZZZ sprechen dafür, dass die Münze nicht fair ist, während eine Stichprobe wie ZKKZK eher für die Hypothese spricht. Als Teststatistik S wählen wir die Anzahl K bei den 5 Würfen. Für die Stichprobe KKKKK gilt S = 5, für die Stichprobe ZZZZZ gilt S = 0 und für die Stichprobe ZKKZK gilt S = 3. Wir formulieren auf Basis der Teststatistik eine Entscheidungsregel. Diese gibt an, bei welchen Werten von S wir uns für H0 und bei welchen Werten von S wir uns für H1 entscheiden. Man nennt die Menge der Werte von S, für die man sich für H1 entscheidet, auch den kritischen Bereich oder Ablehnbereich C. Beispiel 111 (fortgesetzt) Wir sind nicht bereit zu akzeptieren, dass die Münze fair ist, wenn bei allen 5 Würfen immer K oder immer Z auftritt. Wir erhalten also folgende Entscheidungsregel: Entscheidung für H1 , wenn S = 0 oder S = 5 gilt. Entscheidung für H0 , wenn 1 ≤ S ≤ 4 gilt. Der kritische Bereich ist also C = {0, 5}. Wir werden im Folgenden bei der Formulierung der Entscheidungsregeln immer nur den kritischen Bereich eines Tests angeben. Beispiel 111 (fortgesetzt) Auch wenn die Münze fair ist, kann es passieren, dass bei 5 Würfen 5-mal oder 0-mal K beobachtet wird. Auf Grund der Entscheidungsregel entscheiden wir uns in diesen Fällen für die Gegenhypothese. Wir entscheiden uns also dafür, dass die Münze nicht fair ist, obwohl sie fair ist. Wie das Beispiel zeigt, ist die Entscheidung bei einem Test fehlerbehaftet. Den im Beispiel begangenen Fehler bezeichnen wir als Fehler 1. Art. Ein Fehler 1. Art wird begangen, wenn man sich für H1 entscheidet, obwohl H0 zutrifft. Man kann noch einen weiteren Fehler begehen. Der Fehler 2. 313 Art wird begangen, wenn man sich für H0 entscheidet, obwohl H1 zutrifft. Tabelle 13.1 stellt die Situation dar. Tabelle 13.1: Die Fehler beim statistischen Test Realität H0 trifft zu H1 trifft zu für H0 richtige Entscheidung Fehler 2.Art für H1 Fehler 1.Art richtige Entscheidung Entscheidung Beispiel 112 Ein Statistiker muss sich an Tagen, an denen morgens die Sonne scheint, entscheiden, ob er einen Schirm mitnimmt. Er formuliert also folgende Hypothesen: H0 : H1 : Es wird am Nachmittag regnen Es wird am Nachmittag nicht regnen Bei seiner Entscheidungsregel orientiert er sich am Wetterbericht. Wird gutes Wetter vorhergesagt, so nimmt er keinen Schirm mit. Wird Regen prognostiziert, so nimmt er einen Schirm mit. Wenn er am Morgen keinen Schirm mitgenommen hat, es aber am Nachmittag aber regnet, so begeht er einen Fehler 1. Art. Wenn er am Morgen einen Schirm mitgenommen hat, es am Nachmittag aber nicht regnet, so begeht er einen Fehler 2. Art. Die Wahrscheinlichkeit des Fehlers 1. Art ist α = P (Entscheidung für H1 |H0 trifft zu) Die Wahrscheinlichkeit des Fehlers 2. Art ist β = P (Entscheidung für H0 |H1 trifft zu) Um die Wahrscheinlichkeiten der beiden Fehler bestimmen zu können, benötigt man die Verteilung der Teststatistik, wenn H0 zutrifft und wenn H1 zutrifft. Beispiel 111 (fortgesetzt) Beim fünfmaligen Münzwurf handelt es sich um einen Bernoulliprozess der Länge n = 5. Es gilt p = P (K). Die Teststatistik S ist die Anzahl K. Sie ist KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS 314 binomialverteilt mit den Parametern n = 5 und p. Es gilt 5 s P (S = s) = p (1 − p)5−s s Trifft H0 zu, so ist die Münze fair und es gilt p = 0.5. Tabelle 13.2 enthält die Verteilung von S für diesen Fall. Tabelle 13.2: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n = 5 und p = 0.5 s 0 P (S = s) 0.03125 1 2 3 4 5 0.15625 0.31250 0.31250 0.15625 0.03125 Es gilt α = P (S = 0) + P (S = 5) = 0.0625 . Die Wahrscheinlichkeit des Fehlers 2. Art können wir nicht so einfach angeben, da p unendlich viele Werte annehmen kann, wenn H1 zutrifft. Und wir wissen natürlich nicht, welcher der wahre Wert ist. Nehmen wir aber einmal an, dass die Münze mit Wahrscheinlichkeit 0.8 KOPF zeigt. Tabelle 13.3 enthält die Verteilung von S für diesen Fall. Tabelle 13.3: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n = 5 und p = 0.8 s 0 P (S = s) 0.00032 1 2 3 4 5 0.0064 0.0512 0.2048 0.4096 0.32768 Es gilt β = P (S = 1) + P (S = 2) + P (S = 3) + P (S = 4) = 0.672 . Man will natürlich beide Fehler vermeiden. Dies ist aber nicht möglich, da die Wahrscheinlichkeiten der beiden Fehler voneinander abhängen. 315 Beispiel 111 (fortgesetzt) Wir ändern die Entscheidungsregel und entscheiden uns für H1 , wenn S ≤ 1 oder S ≥ 4 gilt. Der kritische Bereich ist also C = {0, 1, 4, 5}. Mit den Zahlen aus Tabelle 13.2 auf Seite 314 erhalten wir α = P (S = 0) + P (S = 1) + P (S = 4) + P (S = 5) = 0.375 Die Wahrscheinlichkeit für den Fehler 1. Art ist größer, während die Wahrscheinlichkeit des Fehlers 2. Art sinkt. Mit den Zahlen aus Tabelle 13.3 auf Seite 314 erhalten wir nämlich β = P (S = 2) + P (S = 3) = 0.256 . In Tabelle 13.4 sind die Wahrscheinlichkeiten der Fehler und die kritischen Bereiche zusammengstellt. Tabelle 13.4: Zusammenhang zwischen den Fehlern beim statistischen Test C α β {0, 5} {0, 1, 4, 5} 0.0625 0.6720 0.375 0.256 Vergrößern wir also die Wahrscheinlichkeit α für den Fehler 1. Art, so werden wir uns häufiger für H1 und damit seltener für H0 entscheiden. Also werden wir auch seltener einen Fehler 2. Art begehen. Vergrößern wir hingegen die Wahrscheinlichkeit β für den Fehler 2. Art, so werden wir die uns häufiger für H0 und damit seltener für H1 entscheiden. Also werden wir auch seltener einen Fehler 1. Art begehen. Wie soll man nun den kritischen Bereich wählen? Man will die Wahrscheinlichkeit eines Fehlers kontrollieren. Dies ist beim statistischen Test die Wahrscheinlichkeit des Fehlers 1. Art. Man gibt diese vor. Man nennt sie auch das Signifikanzniveau α. In der Regel wählt man α = 0.05 oder α = 0.01. Man wählt den größtmöglichen kritischen Bereich, für den α ≤ 0.05 bzw. α ≤ 0.01 gilt. Um den kritischen Bereich in Abhängigkeit vom Signifikanzniveau festlegen zu können, benötigt man die Verteilung der Teststatistik, wenn die Hypothese H0 zutrifft. Man spricht auch von der Verteilung der Teststatistik unter H0 . Dadurch, dass man für die Wahrscheinlichkeit des Fehler 1. Art einen kleinen Wert wählt, kann man sich ziemlich sicher sein, eine richtige Entscheidung 316 KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS zu treffen, wenn man sich für H1 entscheidet. Die Wahrscheinlichkeit, einen Fehler begangen zu haben, beträgt ja nur α. Entscheidet man sich hingegen für H0 , so kann man in der Regel nichts über die Fehlerwahrscheinlichkeit sagen. Es ist deshalb üblich davon zu sprechen, dass man H0 ablehnt, wenn man sich für H1 entscheidet, und dass man H0 nicht ablehnt, wenn man sich für H0 entscheidet. Deshalb sollte man das, was man zeigen will als Alternativhypothese formulieren. Entscheidet man sich beim Test dann für die Alternativhypothese, so kann man sich ziemlich sicher sein, dass die Entscheidung richtig ist. Die Wahrscheinlichkeit einer Fehlentscheidung beträgt nur α. In vielen Programmpaketen wird bei einem statistischen Test die sogenannte Überschreitungswahrscheinlichkeit ausgegeben. Man spricht auch vom p-Wert. Diese ist das kleinste Signifikanzniveau, zu dem die Hypothese H0 für den Datensatz abgelehnt wird. Beispiel 111 (fortgesetzt) Wir haben den Wert S = 4 beobachtet. Wie groß ist die Überschreitungswahrscheinlichkeit? Wir suchen unter allen kritischen Bereichen, in denen der Wert 4 liegt, den mit dem kleinsten Signifikanzniveau. Wir lehnen H0 ab, wenn S zu groß oder zu klein ist. Der kleinste kritische Bereich ist also C = {0, 5}. Bei diesem ist das Signifikanzniveau gleich 0.03125 + 0.03125 = 0.0625, wie wir Tabelle 13.2 auf Seite 314 entnehmen können. Da 4 aber nicht im kritischen Bereich liegt, lehnen wir zu diesem Signifikanzniveau nicht ab. Wir vergrößern den kritischen Bereich, indem wir 1 und 4 in den kritischen Bereich nehmen. Es gilt also C = {0, 1, 4, 5}. Bei diesem ist das Signifikanzniveau gleich 0.03125 + 0.15625 + 0.15625 + 0.03125 = 0.375 . Da 4 in diesem kritischen Bereich liegt, ist die Überschreitungswahrscheinlichkeit gleich 0.375. Vergrößern wir nämlich den kritischen Bereich, so lehnen wir H0 zwar für S = 4 ab, das Signifikanzniveau wird aber auch größer. In der Regel gibt es mehrere Tests für dasselbe Testproblem. Diese kann man an Hand der Gütefunktion vergleichen. Die Gütefunktion G(θ1 ) an der Stelle θ1 ist gleich der Wahrscheinlichkeit, die Hypothese H0 abzulehnen, wenn θ1 der Wert von θ ist. Die Gütefunktion G(θ) sollte mit wachsendem Abstand von θ0 immer größer werden. Beispiel 111 (fortgesetzt) Wir betrachten den Test mit kritischem Bereich {0, 5}. Wir bestimmen G(0.8) und G(0.9). Mit den Wahrscheinlichkeiten in Tabelle 13.3 auf Seite 314 gilt: G(0.8) = P (S = 0) + P (S = 5) = 0.00032 + 0.32768 = 0.328 . 317 In Tabelle 13.5 ist die Verteilung von S für p = 0.9 zu finden. Tabelle 13.5: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den Parametern n = 5 und p = 0.9 s 0 P (S = s) 0.00001 1 2 3 4 5 0.00045 0.0081 0.0729 0.32805 0.59049 Also gilt G(0.9) = P (S = 0) + P (S = 5) = 0.00001 + 0.59049 = 0.5905 Wir sehen, dass die Wahrscheinlichkeit, uns für H1 zu entscheiden, für p = 0.9 größer ist als für p = 0.8. Wir haben bisher Hypothesen der Form H 0 : θ = θ0 gegen H1 : θ = θ0 . betrachtet. Bei diesen kann der Parameter θ Werte annehmen, die kleiner oder größer als θ0 sind, wenn H1 zutrifft. Man spricht von einem zweiseitigen Testproblem. Einseitige Testprobleme sind von der Form H 0 : θ = θ0 gegen H1 : θ > θ0 H 0 : θ = θ0 gegen H1 : θ < θ0 . oder Beispiel 112 Eine Partei will überprüfen, ob ihr Wähleranteil mehr als 40 Prozent beträgt. Hierzu befragt sie 10 Personen, von denen 8 die Partei wählen würden. H0 : p = 0.4 gegen H1 : p > 0.4 . Wir wählen als Teststatistik S die Anzahl der Wähler der Partei in der Stichprobe. Diese ist binomialverteilt mit den Parametern n = 10 und p = 0.4, wenn H0 zutrifft. In Tabelle 13.6 ist die Verteilung von S unter H0 zu finden. 318 KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS Tabelle 13.6: Verteilung von S unter H0 s P (S = s) 0 1 2 3 4 5 6 7 8 9 10 0.0060 0.0403 0.1209 0.2150 0.2508 0.2007 0.1115 0.0425 0.0106 0.0016 0.0001 Wir lehnen H0 ab, wenn S zu groß ist. Schauen wir uns an, wie die Wahrscheinlichkeit α des Fehlers 1. Art vom kritischen Bereich C abhängt. Tabelle 13.7 zeigt dies. Tabelle 13.7: α in Abhängigkeit von C C C C C C α = {10} = {9, 10} = {8, 9, 10} = {7, 8, 9, 10} 0.0001 0.0017 0.0123 0.0548 Wollen wir zum Signifikanzniveau α = 0.05 testen, so ist der kritische Bereich C = {8, 9, 10}. Dies ist nämlich der größte kritische Bereich, bei dem die Wahrscheinlichkeit des Fehlers 1. Art kleiner gleich 0.05 ist. Der kritische Bereich C = {7, 8, 9, 10} enthält zwar auch den Wert 8. Aber bei diesem ist die Wahrscheinlichkeit des Fehlers 1. Art größer als 0.05. Aus Tabelle 13.7 können wir auch die Überschreitungswahrscheinlichkeit bestimmen. Sie beträgt 0.0123. Dies ist nämlich das kleinste Signifikanzniveau, bei dem wir H0 für den Wert S = 8 ablehnen. Der kritische Bereich C = {7, 8, 9, 10} enthält zwar auch den Wert 8, aber das Signifikanzniveau 319 0.0548 ist hier größer. Den im Beispiel betrachteten Test nennt man Test auf p. Schauen wir uns an Hand des zweiseitigen Tests auf p noch einmal die Bestandteile eines Tests an. 1. Die Annahmen. Beim Test auf p gehen wir davon aus, dass wir n Realisationen eines Bernoulliprozesses beobachten, bei dem an einem Ereignis A mit p = P (A) interessiert sind. 2. Die Hypothesen H0 und H1 . Beim zweiseitigen Test auf p testen wir H 0 : p = p0 gegen H1 : p = p0 . 3. Das Signifikanzniveau α, das vom Anwender vorgegeben wird. 4. Die Teststatistik. Beim Test auf p bestimmen wir die absolute Häufigkeit S von A bei den n Realisationen des Bernoulliprozesses. 5. Die Entscheidungsregel. Beim Test auf p lehnen wir H0 ab, wenn gilt S ≤ sα/2 oder S ≥ s1−α/2 . Dabei wählen wir sα/2 , so dass gilt P (S ≤ sα/2 ) ≤ α/2 und P (S ≤ 1 + sα/2 ) > α/2. Für s1−α/2 gilt P (S ≥ s1−α/2 ) ≤ α/2 und P (S ≤ s1−α/2 − 1) > α/2. Dabei ist S eine mit den Parametern nund p0 binomialverteilte Zufallsvariable.