Kapitel 13 Grundbegriffe statistischer Tests

Werbung
Kapitel 13
Grundbegriffe statistischer
Tests
Oft hat man eine Vermutung über die Verteilung einer Zufallsvariablen X.
Diese Vermutung formuliert man als Hypothese H0 . So könnte man daran
interessiert sein zu überprüfen, ob ein Parameter θ einen speziellen Wert θ0
annimmt. Diese Hypothese lautet:
H 0 : θ = θ0
(13.1)
Zu jeder Hypothese H0 formuliert man eine sogenannte Gegenhypothese
H1 . Eine Gegenhypothese zur Hypothese in Gleichung (13.1) ist
H1 : θ = θ0
(13.2)
Beispiel 111
Es soll überprüft werden, ob eine Münze fair ist. Ist die Münze fair, so beträgt
die Wahrscheinlichkeit 0.5, dass KOPF fällt. Wir bezeichnen die Wahrscheinlichkeit für KOPF mit p und erhalten folgendes Hypothesenpaar.
H0 : p = 0.5 gegen H1 : p = 0.5.
Um mit statistischen Verfahren zu überprüfen, ob die Hypothese oder Gegenhypothese zutrifft, beobachtet man den Zufallsvorgang mehrmals. Dies
kann auch bedeuten, dass man eine Stichprobe zieht.
Beispiel 111 (fortgesetzt)
Die Münze wird 5-mal geworfen. Wir bezeichnen KOPF mit K und ZAHL
mit Z. Es ergibt sich folgende Stichprobe:
K K K Z K
311
312
KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS
Spricht diese Stichprobe für H0 oder für H1 ?
Es gibt Stichproben, die für die Hypothese H0 und Stichproben, die für die
Gegenhypothese H1 sprechen. Um entscheiden zu können, ob die Hypothese oder die Gegenhypothese zutrifft, verdichten wir die Information in der
Stichprobe. Wir bestimmen eine Stichprobenfunktion S = g(X1 , . . . , Xn ).
Diese Stichprobenfinktion S = g(X1 , . . . , Xn ) nennen wir Teststatistik oder
Prüfgröße.
Beispiel 111 (fortgesetzt)
Die Stichproben KKKKK und ZZZZZ sprechen dafür, dass die Münze nicht fair
ist, während eine Stichprobe wie ZKKZK eher für die Hypothese spricht. Als
Teststatistik S wählen wir die Anzahl K bei den 5 Würfen. Für die Stichprobe
KKKKK gilt S = 5, für die Stichprobe ZZZZZ gilt S = 0 und für die Stichprobe
ZKKZK gilt S = 3.
Wir formulieren auf Basis der Teststatistik eine Entscheidungsregel. Diese
gibt an, bei welchen Werten von S wir uns für H0 und bei welchen Werten
von S wir uns für H1 entscheiden. Man nennt die Menge der Werte von
S, für die man sich für H1 entscheidet, auch den kritischen Bereich oder
Ablehnbereich C.
Beispiel 111 (fortgesetzt)
Wir sind nicht bereit zu akzeptieren, dass die Münze fair ist, wenn bei allen 5 Würfen immer K oder immer Z auftritt. Wir erhalten also folgende
Entscheidungsregel:
Entscheidung für H1 , wenn S = 0 oder S = 5 gilt.
Entscheidung für H0 , wenn 1 ≤ S ≤ 4 gilt.
Der kritische Bereich ist also C = {0, 5}.
Wir werden im Folgenden bei der Formulierung der Entscheidungsregeln immer nur den kritischen Bereich eines Tests angeben.
Beispiel 111 (fortgesetzt)
Auch wenn die Münze fair ist, kann es passieren, dass bei 5 Würfen 5-mal
oder 0-mal K beobachtet wird. Auf Grund der Entscheidungsregel entscheiden
wir uns in diesen Fällen für die Gegenhypothese. Wir entscheiden uns also
dafür, dass die Münze nicht fair ist, obwohl sie fair ist.
Wie das Beispiel zeigt, ist die Entscheidung bei einem Test fehlerbehaftet.
Den im Beispiel begangenen Fehler bezeichnen wir als Fehler 1. Art. Ein
Fehler 1. Art wird begangen, wenn man sich für H1 entscheidet, obwohl
H0 zutrifft. Man kann noch einen weiteren Fehler begehen. Der Fehler 2.
313
Art wird begangen, wenn man sich für H0 entscheidet, obwohl H1 zutrifft.
Tabelle 13.1 stellt die Situation dar.
Tabelle 13.1: Die Fehler beim statistischen Test
Realität
H0 trifft zu
H1 trifft zu
für H0
richtige Entscheidung
Fehler 2.Art
für H1
Fehler 1.Art
richtige Entscheidung
Entscheidung
Beispiel 112
Ein Statistiker muss sich an Tagen, an denen morgens die Sonne scheint,
entscheiden, ob er einen Schirm mitnimmt. Er formuliert also folgende Hypothesen:
H0 :
H1 :
Es wird am Nachmittag regnen
Es wird am Nachmittag nicht regnen
Bei seiner Entscheidungsregel orientiert er sich am Wetterbericht. Wird gutes
Wetter vorhergesagt, so nimmt er keinen Schirm mit. Wird Regen prognostiziert, so nimmt er einen Schirm mit.
Wenn er am Morgen keinen Schirm mitgenommen hat, es aber am Nachmittag aber regnet, so begeht er einen Fehler 1. Art. Wenn er am Morgen einen
Schirm mitgenommen hat, es am Nachmittag aber nicht regnet, so begeht er
einen Fehler 2. Art.
Die Wahrscheinlichkeit des Fehlers 1. Art ist
α = P (Entscheidung für H1 |H0 trifft zu)
Die Wahrscheinlichkeit des Fehlers 2. Art ist
β = P (Entscheidung für H0 |H1 trifft zu)
Um die Wahrscheinlichkeiten der beiden Fehler bestimmen zu können, benötigt man die Verteilung der Teststatistik, wenn H0 zutrifft und wenn H1
zutrifft.
Beispiel 111 (fortgesetzt)
Beim fünfmaligen Münzwurf handelt es sich um einen Bernoulliprozess der
Länge n = 5. Es gilt p = P (K). Die Teststatistik S ist die Anzahl K. Sie ist
KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS
314
binomialverteilt mit den Parametern n = 5 und p. Es gilt
5 s
P (S = s) =
p (1 − p)5−s
s
Trifft H0 zu, so ist die Münze fair und es gilt p = 0.5. Tabelle 13.2 enthält
die Verteilung von S für diesen Fall.
Tabelle 13.2: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den
Parametern n = 5 und p = 0.5
s
0
P (S = s) 0.03125
1
2
3
4
5
0.15625
0.31250
0.31250
0.15625
0.03125
Es gilt
α = P (S = 0) + P (S = 5) = 0.0625 .
Die Wahrscheinlichkeit des Fehlers 2. Art können wir nicht so einfach angeben, da p unendlich viele Werte annehmen kann, wenn H1 zutrifft. Und wir
wissen natürlich nicht, welcher der wahre Wert ist. Nehmen wir aber einmal an, dass die Münze mit Wahrscheinlichkeit 0.8 KOPF zeigt. Tabelle 13.3
enthält die Verteilung von S für diesen Fall.
Tabelle 13.3: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den
Parametern n = 5 und p = 0.8
s
0
P (S = s) 0.00032
1
2
3
4
5
0.0064
0.0512
0.2048
0.4096
0.32768
Es gilt
β = P (S = 1) + P (S = 2) + P (S = 3) + P (S = 4) = 0.672 .
Man will natürlich beide Fehler vermeiden. Dies ist aber nicht möglich, da
die Wahrscheinlichkeiten der beiden Fehler voneinander abhängen.
315
Beispiel 111 (fortgesetzt)
Wir ändern die Entscheidungsregel und entscheiden uns für H1 , wenn S ≤ 1
oder S ≥ 4 gilt. Der kritische Bereich ist also C = {0, 1, 4, 5}. Mit den Zahlen
aus Tabelle 13.2 auf Seite 314 erhalten wir
α = P (S = 0) + P (S = 1) + P (S = 4) + P (S = 5) = 0.375
Die Wahrscheinlichkeit für den Fehler 1. Art ist größer, während die Wahrscheinlichkeit des Fehlers 2. Art sinkt. Mit den Zahlen aus Tabelle 13.3 auf
Seite 314 erhalten wir nämlich
β = P (S = 2) + P (S = 3) = 0.256 .
In Tabelle 13.4 sind die Wahrscheinlichkeiten der Fehler und die kritischen
Bereiche zusammengstellt.
Tabelle 13.4: Zusammenhang zwischen den Fehlern beim statistischen Test
C
α
β
{0, 5}
{0, 1, 4, 5}
0.0625
0.6720
0.375
0.256
Vergrößern wir also die Wahrscheinlichkeit α für den Fehler 1. Art, so werden
wir uns häufiger für H1 und damit seltener für H0 entscheiden. Also werden
wir auch seltener einen Fehler 2. Art begehen. Vergrößern wir hingegen die
Wahrscheinlichkeit β für den Fehler 2. Art, so werden wir die uns häufiger
für H0 und damit seltener für H1 entscheiden. Also werden wir auch seltener
einen Fehler 1. Art begehen.
Wie soll man nun den kritischen Bereich wählen? Man will die Wahrscheinlichkeit eines Fehlers kontrollieren. Dies ist beim statistischen Test die Wahrscheinlichkeit des Fehlers 1. Art. Man gibt diese vor. Man nennt sie auch
das Signifikanzniveau α. In der Regel wählt man α = 0.05 oder α = 0.01.
Man wählt den größtmöglichen kritischen Bereich, für den α ≤ 0.05 bzw.
α ≤ 0.01 gilt. Um den kritischen Bereich in Abhängigkeit vom Signifikanzniveau festlegen zu können, benötigt man die Verteilung der Teststatistik,
wenn die Hypothese H0 zutrifft. Man spricht auch von der Verteilung der
Teststatistik unter H0 .
Dadurch, dass man für die Wahrscheinlichkeit des Fehler 1. Art einen kleinen
Wert wählt, kann man sich ziemlich sicher sein, eine richtige Entscheidung
316
KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS
zu treffen, wenn man sich für H1 entscheidet. Die Wahrscheinlichkeit, einen
Fehler begangen zu haben, beträgt ja nur α. Entscheidet man sich hingegen
für H0 , so kann man in der Regel nichts über die Fehlerwahrscheinlichkeit
sagen. Es ist deshalb üblich davon zu sprechen, dass man H0 ablehnt, wenn
man sich für H1 entscheidet, und dass man H0 nicht ablehnt, wenn man sich
für H0 entscheidet. Deshalb sollte man das, was man zeigen will als Alternativhypothese formulieren. Entscheidet man sich beim Test dann für die
Alternativhypothese, so kann man sich ziemlich sicher sein, dass die Entscheidung richtig ist. Die Wahrscheinlichkeit einer Fehlentscheidung beträgt
nur α.
In vielen Programmpaketen wird bei einem statistischen Test die sogenannte
Überschreitungswahrscheinlichkeit ausgegeben. Man spricht auch vom
p-Wert. Diese ist das kleinste Signifikanzniveau, zu dem die Hypothese H0
für den Datensatz abgelehnt wird.
Beispiel 111 (fortgesetzt)
Wir haben den Wert S = 4 beobachtet. Wie groß ist die Überschreitungswahrscheinlichkeit? Wir suchen unter allen kritischen Bereichen, in denen der
Wert 4 liegt, den mit dem kleinsten Signifikanzniveau.
Wir lehnen H0 ab, wenn S zu groß oder zu klein ist. Der kleinste kritische Bereich ist also C = {0, 5}. Bei diesem ist das Signifikanzniveau gleich
0.03125 + 0.03125 = 0.0625, wie wir Tabelle 13.2 auf Seite 314 entnehmen
können. Da 4 aber nicht im kritischen Bereich liegt, lehnen wir zu diesem
Signifikanzniveau nicht ab. Wir vergrößern den kritischen Bereich, indem wir
1 und 4 in den kritischen Bereich nehmen. Es gilt also C = {0, 1, 4, 5}. Bei
diesem ist das Signifikanzniveau gleich
0.03125 + 0.15625 + 0.15625 + 0.03125 = 0.375 .
Da 4 in diesem kritischen Bereich liegt, ist die Überschreitungswahrscheinlichkeit gleich 0.375. Vergrößern wir nämlich den kritischen Bereich, so lehnen
wir H0 zwar für S = 4 ab, das Signifikanzniveau wird aber auch größer.
In der Regel gibt es mehrere Tests für dasselbe Testproblem. Diese kann man
an Hand der Gütefunktion vergleichen. Die Gütefunktion G(θ1 ) an der Stelle
θ1 ist gleich der Wahrscheinlichkeit, die Hypothese H0 abzulehnen, wenn θ1
der Wert von θ ist. Die Gütefunktion G(θ) sollte mit wachsendem Abstand
von θ0 immer größer werden.
Beispiel 111 (fortgesetzt)
Wir betrachten den Test mit kritischem Bereich {0, 5}. Wir bestimmen G(0.8)
und G(0.9). Mit den Wahrscheinlichkeiten in Tabelle 13.3 auf Seite 314 gilt:
G(0.8) = P (S = 0) + P (S = 5) = 0.00032 + 0.32768 = 0.328 .
317
In Tabelle 13.5 ist die Verteilung von S für p = 0.9 zu finden.
Tabelle 13.5: Wahrscheinlichkeitsfunktion der Binomialverteilung mit den
Parametern n = 5 und p = 0.9
s
0
P (S = s) 0.00001
1
2
3
4
5
0.00045
0.0081
0.0729
0.32805
0.59049
Also gilt
G(0.9) = P (S = 0) + P (S = 5) = 0.00001 + 0.59049 = 0.5905
Wir sehen, dass die Wahrscheinlichkeit, uns für H1 zu entscheiden, für p = 0.9
größer ist als für p = 0.8.
Wir haben bisher Hypothesen der Form
H 0 : θ = θ0
gegen H1 : θ = θ0 .
betrachtet. Bei diesen kann der Parameter θ Werte annehmen, die kleiner
oder größer als θ0 sind, wenn H1 zutrifft. Man spricht von einem zweiseitigen
Testproblem. Einseitige Testprobleme sind von der Form
H 0 : θ = θ0
gegen H1 : θ > θ0
H 0 : θ = θ0
gegen H1 : θ < θ0 .
oder
Beispiel 112
Eine Partei will überprüfen, ob ihr Wähleranteil mehr als 40 Prozent beträgt.
Hierzu befragt sie 10 Personen, von denen 8 die Partei wählen würden.
H0 : p = 0.4 gegen H1 : p > 0.4 .
Wir wählen als Teststatistik S die Anzahl der Wähler der Partei in der
Stichprobe. Diese ist binomialverteilt mit den Parametern n = 10 und p =
0.4, wenn H0 zutrifft. In Tabelle 13.6 ist die Verteilung von S unter H0 zu
finden.
318
KAPITEL 13. GRUNDBEGRIFFE STATISTISCHER TESTS
Tabelle 13.6: Verteilung von S unter H0
s
P (S = s)
0
1
2
3
4
5
6
7
8
9
10
0.0060
0.0403
0.1209
0.2150
0.2508
0.2007
0.1115
0.0425
0.0106
0.0016
0.0001
Wir lehnen H0 ab, wenn S zu groß ist. Schauen wir uns an, wie die Wahrscheinlichkeit α des Fehlers 1. Art vom kritischen Bereich C abhängt. Tabelle 13.7 zeigt dies.
Tabelle 13.7: α in Abhängigkeit von C
C
C
C
C
C
α
= {10}
= {9, 10}
= {8, 9, 10}
= {7, 8, 9, 10}
0.0001
0.0017
0.0123
0.0548
Wollen wir zum Signifikanzniveau α = 0.05 testen, so ist der kritische Bereich
C = {8, 9, 10}. Dies ist nämlich der größte kritische Bereich, bei dem die
Wahrscheinlichkeit des Fehlers 1. Art kleiner gleich 0.05 ist. Der kritische
Bereich C = {7, 8, 9, 10} enthält zwar auch den Wert 8. Aber bei diesem ist
die Wahrscheinlichkeit des Fehlers 1. Art größer als 0.05.
Aus Tabelle 13.7 können wir auch die Überschreitungswahrscheinlichkeit bestimmen. Sie beträgt 0.0123. Dies ist nämlich das kleinste Signifikanzniveau, bei dem wir H0 für den Wert S = 8 ablehnen. Der kritische Bereich
C = {7, 8, 9, 10} enthält zwar auch den Wert 8, aber das Signifikanzniveau
319
0.0548 ist hier größer.
Den im Beispiel betrachteten Test nennt man Test auf p. Schauen wir uns an
Hand des zweiseitigen Tests auf p noch einmal die Bestandteile eines Tests
an.
1. Die Annahmen.
Beim Test auf p gehen wir davon aus, dass wir n Realisationen eines
Bernoulliprozesses beobachten, bei dem an einem Ereignis A mit p =
P (A) interessiert sind.
2. Die Hypothesen H0 und H1 .
Beim zweiseitigen Test auf p testen wir
H 0 : p = p0
gegen H1 : p = p0 .
3. Das Signifikanzniveau α, das vom Anwender vorgegeben wird.
4. Die Teststatistik.
Beim Test auf p bestimmen wir die absolute Häufigkeit S von A bei
den n Realisationen des Bernoulliprozesses.
5. Die Entscheidungsregel.
Beim Test auf p lehnen wir H0 ab, wenn gilt S ≤ sα/2 oder S ≥
s1−α/2 . Dabei wählen wir sα/2 , so dass gilt P (S ≤ sα/2 ) ≤ α/2 und
P (S ≤ 1 + sα/2 ) > α/2. Für s1−α/2 gilt P (S ≥ s1−α/2 ) ≤ α/2 und
P (S ≤ s1−α/2 − 1) > α/2. Dabei ist S eine mit den Parametern nund
p0 binomialverteilte Zufallsvariable.
Herunterladen