Hypothesentests

Werbung
TESTEN VON HYPOTHESEN
1. Grundlagen
Oft hat man Vermutungen zu Sachverhalten und möchte diese gerne durch Experimente bestätigen. Dabei kann es sich in der Praxis zum Beispiel um Verteilungen
von gewissen Zufallsgrößen im Allgemeinen oder um konkrete Parameterwerte wie
Erwartungswert , Varianz, etc. im Speziellen handeln. Hierfür hat man sogenannte
Hypothesentests zur Verfügung, mit denen wir uns im Folgenden beschäftigen werden. In diesem ersten Abschnitt wollen wir dafür erst einmal festlegen worüber wir
dabei genau sprechen.
Definition Eine Hypothese (hier: Nullhypothese H0 ) ist eine Behauptung über
eine Zufallsvariable X, die aufgrund einer Beobachtung/Stichprobe abgelehnt oder
angenommen werden soll. Hierfür wird der Wertebereich von X in zwei Bereich
unterteilt, den Annahme- und den Ablehnungsbereich. Eine Hypothese wird an nur
einer Stichprobe getestet, daher spricht man auch von Einstichproben-Tests.
Bemerkung Meistens will man die zu testende Hypothese H0 zugunsten der
eigenen Vermutung (Alternativhypothese H1 ) widerlegen, d.h. man geht vor wie
beim indirekten Beweis (vgl. Beispiel 1 der Vorlesung).
Natürlich kann man bei den Urteilen durch Hypothesentests auch falsch liegen.
Besonders bei Einstichproben-Tests muss man die Irrtumswahrscheinlichkeit gut
kontrollieren. Generell sind folgende Fehler bei Hypothesentests möglich:
• Eine wahre Hypothese wird abgelehnt (Fehler 1. Art/α-Fehler )
• Eine falsche Hypothese wird angenommen (Fehler 2. Art/β-Fehler )
Für das Vorgehen bei solchen Test kann man sich an dem folgenden Ablaufschema orientieren.
Ablaufschema
1. Schritt: Formulierung der Nullhypothese H0 und einer Alternativhypothese
H1 , die genau dann eintritt, wenn H0 abgelehnt wird.
2. Schritt: Festlegen einer Irrtumswahrscheinlichkeit/eines Signifikanzniveaus α
des Tests.
3. Schritt: Angabe einer Annahmeregion A des Tests derart, dass PH0 (X ∈ Ā) ≤
α, wobei Ā = R \ A dementsprechend den Ablehnungsbereich bezeichnet, d.h. die
Annahmeregion wird so bestimmt, dass der Fehler 1. Art höchstens so groß ist wie
das vorher festgelegte Signifikanzniveau α.
Bemerkungen
(1) Beachten Sie, dass PH0 (X ∈ Ā), also die Wahrscheinlichkeit dafür, dass
unter der Annahme von H0 die Zufallsvariable X einen Wert außerhalb
des Annahmebereiches annimmt, gerade das Risiko eines Fehlers 1. Art
beschreibt.
(2) Falls es möglich ist die Schranken genau zu bestimmen, wählt man den Annahmebereich derart, dass PH0 (X ∈ Ā) = α gilt (z.B. bei EinstichprobenGauß-Test).
(3) Bei Unklarheit bei der Festlegung der Nullhypothese, ist H0 so zu wählen,
dass der Fehler 1. Art der schlimmere ist (vgl. Bsp. 2 der Vorlesung).
(4) Üblicherweise werden in der Wissenschaft Signifikanzniveaus von α = 5%
oder α = 1% gewählt.
Beispiel Eine Populationsgröße von N > 50 Tieren einer bestimmten Art sei
für das Überleben einer Polulation notwendig. Mithilfe der Rückfangmethode (vgl.
Übung 5) soll N durch eine Stichprobe von n = 20 Tieren untersucht werden, wobei
wir annehmen, dass M = 20 Tiere bereits markiert worden sind. Wir haben hier
zwei, auf den ersten Blick gleichberechtigte, Möglichkeiten für die Nullhypothese,
nämlich(
N > 50
H0 :
N ≤ 50.
Anders als in den bisherigen Beispielen der Vorlesung gibt es hier keine zugrundeliegende Vermutung oder bestehende Hypothese; hier entscheidet der Fehler 1. Art
über die Festlegung der Nullhypothese. Wie in der vorherigen Bemerkung beschrieben, müssen wir H0 unter den beiden Möglichkeiten so wählen, dass der Fehler
der 1. Art bei dieser Wahl der schlimmere ist. Lehnen wir die Hypothese N > 50
fälschlicherweise ab, hat das lediglich zur Folge, dass wir unnötigerweise Maßnahmen zur Erhaltung der Population ergreifen, wohingegen ein fälschliches Ablehnen
der Hypothese N ≤ 50 dazu führen würde, dass die Population, entgegen unserer
Annahme, aussterben würde. Orientieren wir uns also an der Schwere des Fehlers
1. Art, müssen wir als Nullhypothese H0 : N ≤ 50 festlegen.
Ist nun N klein, so ist der Anteil der markierten Tiere in unserer Stichprobe wahrscheinlich groß, d.h. der Wert von X = Anzahl der markierten Tiere in der Stich”
probe“ ist relativ groß. Als Entscheidungsregel für unseren Test legen wir daher
fest, dass wir H0 ablehnen, falls X = k ≤ k0 gilt, wobei wir noch überlegen müssen
wie groß die Schranke k0 gewählt werden sollte. Diese Entscheidungsregel drückt
aus, dass wir H0 ablehnen, wenn die Anzahl der markierten Tiere in der Stichprobe
zu klein ist (wir erwarten ja eine hohen Anteil), um mit angemessener Wahrscheinlichkeit mit der Nullhypothese verträglich zu sein. Was genau diese angemessene
”
Wahrscheinlichkeit“ bedeutet, wird durch die Wahl der Schranke k0 bzw. durch
das Signifikanzniveau α des Test bestimmt, denn das Risiko für einen Fehler 1. Art
ist gerade gegeben durch PN (X ≤ k0 ) für N ≤ 50. Dementsprechend ist k0 bei
gegebenem Signifikanzniveau α bestimmt durch die Forderung PN (X ≤ k0 ) < α
für alle N ≤ 50, bzw. durch P50 (X ≤ 50) < α, da PN1 (X ≤ k0 ) < PN2 (X ≤ k0 ) für
N1 < N2 .
Für die Bestimmung von k0 bei α = 0.01 entnehmen wir der Wertetabelle (X ist
nach Annahme hypergeometrisch verteilt nach H50,20,20 )
k
0
P50 (X ≤ k) 0
1
0.000023
2
3
0.000372 0.003269
4
5
0.018219 0.069248
Wir nehmen nun das größte k, so dass P50 (X ≤ k) < α, d.h. k0 = 3. Wir
nehmen das größte solche k, da dann das Risiko eines Fehlers 2. Art, PN (X > k0 )
für N > 50, am kleinsten ist. Hier ist also ein Interessenausgleich notwendig, denn
eine Verkleinerung des Fehlers 1. Art, d.h. eine kleinere Wahl von k0 , entspricht
einer Vergrösserung des Fehlers 2. Art. Der Annahmebereich für unseren Test ist
nach unserer Wahl von k0 also N≥4 und der Ablehnungsbereich ist demnach N≤3 =
{0, 1, 2, 3}. Das Risiko eines Fehlers 1. Art ist PN (X ∈ N≤3 ) ≤ P50 (X ∈ N≤3 ) =
P50 (X ≤ 3) < α.
2. Testen von Hypothesen über den Erwartungswert
In den Übungen wurde bereits der Einstichproben-Gauß-Test eingeführt.
Hierbei betrachten wir eine Messreihe x1 , . . . , xn mit X ∼ N (µ, σ 2 ) und bekannter Varianz σ 2 . Getestet werden hierbei Hypothesen über den Erwartungswert µ,
beispielsweise die Nullhypothese H0 : E(X) = µ0 mit entsprechender Alternativ√ 0 , die unter Annahme der
hypothese H1 : E(X) 6= µ0 mithilfe der Testgröße X̄−µ
σ/ n
Nullhypothese standardnormalverteilt ist. In diesem Fall erhalten wir
P (−z1−α/2 ≤
X̄ − µ0
X̄ − µ0
X̄ − µ0
√ ≤ z1−α/2 ) = P (
√ ≤ z1−α/2 ) − P (
√ ≤ −z1−α/2 )
σ/ n
σ/ n
σ/ n
= Φ(z1−α/2 ) − Φ(−z1−α/2 )
= Φ(z1−α/2 ) − (1 − Φ(z1−α/2 ))
= 1 − α/2 − (1 − (1 − α/2)) = 1 − α
bzw.
σ
σ
P (µ0 − √ z1−α/2 ≤ X̄ ≤ µ0 + √ z1−α/2 ) = 1 − α.
n
n
h
i
Wir nehmen daher H0 an, falls x̄ ∈ µ0 − √σn z1−α/2 , µ0 + √σn z1−α/2 und α
ist das Niveau des Tests. Neben dieser Nullhypothese gibt es noch die einseitigen
Alternativen für den Erwartungswert. Deren Annahmebereiche berechnet man ganz
analog. Wir halten die Ergebnisse in der folgenden Tabelle fest.
Gauß-Test
(1)
(1)
H0 : E(X) = µ0 , H1 : E(X) 6= µ0
(2)
: E(X) ≥ µ0 , H1
(3)
: E(X) ≤ µ0 , H1
H0
H0
H0 wird angenommen, falls
µ0 − √σn z1−α/2 ≤ x̄ ≤ µ0 + √σn z1−α/2
(2)
: E(X) < µ0
µ0 −
(3)
: E(X) > µ0
x̄ ≤
√σ z1−α ≤ x̄
n
µ0 + √σn z1−α
t-Test: Ist
Situation die Varianz nicht bekannt, so muss sie mittels
Pnin der obigen
1
2
s2n = n−1
i=1 (xi − x̄) geschätzt werden. Wie bei der Berechnung der Konfidenzp
intervalle müssen in diesem Fall in der obigen Tabelle lediglich σ durch sn = s2n
und die Quantile z1−γ der Standardnormalverteilung durch die der entsprechenden
t-Verteilung tn−1,1−γ ersetzt werden.
t-Test
(1)
(1)
H0 : E(X) = µ0 , H1 : E(X) 6= µ0
(2)
H0
(3)
H0
: E(X) ≥
: E(X) ≤
(2)
µ0 , H1
(3)
µ0 , H1
: E(X) < µ0
: E(X) > µ0
µ0 −
H0 wird angenommen, falls
sn
sn
√
t
≤ x̄ ≤ µ0 + √
t
n n−1,1−α/2
n n−1,1−α/2
sn
√
µ0 − n tn−1,1−α ≤ x̄
sn
x̄ ≤ µ0 + √
t
n n−1,1−α
Binomialtest: Tests über den Erwartungswert bei Bernoulli-Experimenten nennt
man Binomialtests. Hierbei ist also X ∼ B1,p , d.h. X(Ω) = {0, 1} mit Erwartungswert E(X) = p und Varianz V (X) = p(1 − p). Für hinreichend umfangreiche
Messreihen ist auch hier die standardisierte Variable wieder annähernd normalverteilt und wir erhalten, wie oben, folgende Ergebnisse
Test
(1)
H0
(2)
H0
(3)
H0
: E(X) =
(1)
p0 , H1
: E(X) 6= p0
: E(X) ≥
(2)
p0 , H1
: E(X) < p0
: E(X) ≤
(3)
p0 , H1
: E(X) > p0
p0 −
q
H0 wird angenommen,q
falls
p0 (1−p0 )
0)
z1−α/2 ≤ x̄ ≤ p0 + p0 (1−p
z1−α/2
n
n
q
p0 (1−p0 )
p0 −
z1−α ≤ x̄
n
x̄ ≤ p0 +
q
p0 (1−p0 )
z1−α
n
Da X jedoch nicht normalverteilt ist, muss n groß sein, damit man hier den Zentralen Grenzwertsatz anwenden kann. Als Faustregel verwendet man hier die Bedingung np0 (1 − p0 ) ≥ 9. Diese Bedigung muss also jeweils vor Anwendung des
Binomialtests überprüft werden.
Beispiel Ein Unternehmen der Pharmaindustrie behauptet, dass bei einem bestimmten Medikament bei nicht mehr als 2% der Patienten Nebenwirkungen auftreten. Um diese Aussage zu überprüfen, betrachten wir die B1,p -verteilte Zufallsvariable
(
1, bei Nebenwirkungen
X=
0, sonst.
und testen die Nullhypothese H0 : p ≤ 0.02 zum Niveau α = 5%. Hierzu führen wir
eine Versuch mit n = 800 Teilnehmern durch, bei dem wir bei 2.9% der Probanden
Nebenwirkungen feststellen. Da die Bedingung np0 (1 − p0 ) = 800 · 0.02 · 0.98 =
15.68 ≥ 9 erfüllt ist, können wir den Binomialtest in diesem Fall verwenden. Wir
nehmen also nach obigen Überlegungen H0 an, falls
r
r
p0 (1 − p0 )
0.02 · 0.98
0.029 = x̄ ≤ p0 +
· z1−α = 0.02 +
· 1.65 = 0.028
n
800
wobei wir das Ergebnis auf drei Stellen hinter dem Komma gerundet haben. Aufgrund unseres Tests müssen wir daher H0 (zum Niveau α = 5%) ablehnen.
3. Chi-Quadrat-Test
Definition Ein Anpassungstest (auch Goodness-of-fit-Test) ist ein Hypothesentest, der die Übereinstimmung einer hypothetischen Wahrscheinlichkeitsverteilung
einer Zufallsvariablen mit einer vorliegenden Stichprobe untersucht, d.h. es wird
die Hypothese überprüft, dass eine vorliegende Stichprobe aus einer Verteilung mit
einer bestimmten (vermuteten) Verteilungsfunktion stammt.
Der χ2 -Anpassungstest untersucht diese Art von Hypothese mittels einer χ2 -verteilten
Testprüfgröße (vgl. hierzu auch χ2 -Unabhängigkeits- und Homogenitätstest).
Gegeben seien Messwerte x1 , . . . , xn eines Merkmals X, dessen Wahrscheinlichkeitsverteilung unbekannt sei. Das folgende Ablaufschema beschreibt die Vorgehensweise bei der Aufstellung und Überprüfung einer Hypothese H0 über den (vermuteten) konkreten Verteilungstyp von X.
Ablaufschema
1. Schritt: Überlegungen zum stochastischen Modell z.B. durch grafische Darstellung oder theoretische Herleitung.
2. Schritt: Bestimmung der Parameter des Verteilungstyps durch geeignete Punktschätzungen, z.B. für
• Binomialverteilung: Schätzung von p durch das arithmetische Mittel der
Stichprobe, d.h. bei k Erfolgen durch p̂ = k/n.
• Poisson-Verteilung: Schätzung von λ durch das arithmetische Mittel der
Stichprobe.
• Normalverteilung: Schätzung von µ durch das arithmetische Mittel und
von σ durch Standardabweichung der Stichprobe.
Pn
An dieser Stelle sei daran erinnert, dass das arithmetische Mittel 1/n i=1 xi der
Stichprobe gerade dem Erwartungswert der empirischen Verteilung entspricht.
3. Schritt: Anpassungstest: χ2 -Test.
Es seien x1 , . . . , xn Messungen des Merkmals X, die in k disjunkte Klassen Ki mit
Pk
Klassenhäufigkeiten ni , i ∈ {1, . . . , k}, fallen, d.h. insbesondere ist n = i=1 ni .
Aufgrund unserer Vorüberlegungen können wir dann die theoretischen Wahrscheinlichkeiten pi = Wahrscheinlichkeit, dass X eine Realisation in Ki annimmt“ ange”
ben. Die Testgröße
T
χ2
=
k
X
(ni − n · pi )2
i=1
n · pi
ist dann ein Maß für die Abweichung der theoretischen Klassenhäufigkeiten n · pi ,
die unser vermutetes Modell vorgibt von den tatsächlichen Klassenhäufigkeiten ni ,
d.h. Tχ2 misst, in gewisser Hinsicht, wie gut die Daten zur vermuteten Verteilung
passen.
Man kann zeigen, dass für hinreichend große ni die Testgröße Tχ2 annähernd χ2 verteilt mit k − 1 − r Freiheitsgraden ist, wobei r die Anzahl der Parameter ist, die
im zweiten Schritt geschätzt werden müssen, d.h. z.B. bei
• Gleichverteilung: r = 0, also Tχ2 ∼ χ2k−1 ,
• Poisson-Verteilung/Binomialverteilung: r = 1, also Tχ2 ∼ χ2k−2 ,
• Normalverteilung: r = 2, also Tχ2 ∼ χ2k−3 .
Ist nun H0 wahr, so ist Tχ2 sehr wahrscheinlich klein, d.h. wir lehnen H0 bei zu
großem Prüfwert ab. Ausgehend von einer χ2 -Verteilung der Testgröße Tχ2 bedeutet
das konkret, dass wir bei einem Signifikanzniveau α die Nullhypothese H0 ablehnen, falls Tχ2 > χ2k−1−r;1−α , wobei wir mit χ2k−1−r;1−α wieder das (1 − α)-Quantil
der χ2k−1−r -Verteilung bezeichnen. Der Annahmebereich ist daher bei diesem Test
gegeben durch das Intervall (−∞, χ2k−1−r;1−α ].
Beispiel Bei einem Kreuzungsversuch mit Fruchtfliegen wurden normalfarbige
und normalflügelige Fliegen mit schwarzfarbigen und stummelflügeligen Fliegen gekreuzt. In der F2-Generation ergab der Versuch 385 Fruchtfliegen,

205 normalfarbig und normalflügelig



65
normalfarbig und stummelflügelig
wovon

68
schwarzfarbig
und normalflügelig



20
schwarzfarbig und stummelflügelig
waren. Nach Mendels Theorie müsste das Verhältnis 9 : 3 : 3 : 1 sein. Wir stellen
uns daher die Frage, ob man Mendels Theorie mithilfe des χ2 -Tests bei einem
Signifikanzniveau von α = 1% auf Grundlage dieses Versuchs annehmen kann.
Hierzu teilen wir die F2-Generation wie folgt in vier Klassen Ki ein

K1 : normalfarbig und normalflügelig,



K
normalfarbig und stummelflügelig,
2

K3
schwarzfarbig und normalflügelig,



K4
schwarzfarbig und stummelflügelig.
Die theoretischen Klassenwahrscheinlichkeiten pi erhalten wir aus Mendels Theorie
durch p1 = 9/16, p2 = 3/16, p3 = 3/16, p4 = 1/16 und somit
(65 − 358 · 3/16)2
(68 − 358 · 3/16)2
(20 − 358 · 1/16)2
(205 − 358 · 9/16)2
+
+
+
358 · 9/16
358 · 3/16
358 · 3/16
358 · 1/16
≈ 0.396
Tχ2 =
Da hier im Vorhinein keine Parameter geschätzt werden, entnehmen wir aus der
Tabelle der χ2 -Verteilung das Quantil χ23;0.99 = 11.35 als Grenze des Annahmebereichs. Da Tχ2 < χ23;0.99 gilt, bestätigt somit dieser Versuch Mendels Theorie bei
einem Signifikanzniveau von 1%.
Herunterladen