6. Statistische Hypothesentests Ausgangssituation erneut: • ZV X repräsentiere einen Zufallsvorgang • X habe die unbekannte VF FX (x) • Interessieren uns für einen unbekannten Parameter θ der Verteilung von X Jetzt: • Testen von Hypothesen über unbekanntes θ anhand einer Stichprobe X1, . . . , Xn • Demonstration am eindimensionalen Fall 267 Beispiel 1: • In einer Studentenkneipe sollen geeichte Biergläser im Ausschank 0.4 Liter Bier enthalten. Wir haben die Vermutung, dass der Wirt häufig ’zu wenig’ ausschenkt. • X repräsentiere den Zufallsvorgang ’Füllen eines 0.4-Liter Bierglases durch den Wirt’ • Es bezeichne θ = E(X) die erwartete Füllmenge eines Glases • Durch eine Stichprobe X1, . . . , Xn soll getestet werden θ = 0.4 gegen θ < 0.4 268 Beispiel 2: • Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie (die Standardabweichung der Aktienrenditen) bei 25 % lag. Im Unternehmen wird nun das Management ausgetauscht. Verändert sich dadurch das Risiko der Aktie? • X sei die Aktienrendite q • θ = Var(X) = SD(X) sei die Standardabweichung der Renditen • Durch eine Stichprobe X1, . . . , Xn soll getestet werden θ = 0.25 gegen θ 6= 0.25 269 6.1 Grundbegriffe des Testens Definition 6.1: (Parametertest) Es sei X eine Zufallsvariable und θ ein unbekannter Parameter der Verteilung von X. Ein Parametertest ist ein statistisches Verfahren, mit dem eine Hypothese über den unbekannten Parameter θ anhand einer einfachen Zufallsstichprobe X1, . . . , Xn aus X überprüft wird. Formulierung eines statistischen Testproblems: • Es sei Θ die Menge aller möglichen Parameterwerte (d.h. θ ∈ Θ) • Es sei Θ0 ⊂ Θ eine Teilmenge der Parametermenge 270 • Betrachte folgende Aussagen: H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ/Θ0 = Θ1 • H0 heißt Nullhypothese, H1 Gegenhypothese oder Alternative Arten von Hypothesen: • Sind |Θ0| = 1 (d.h. Θ0 = {θ0}) und H0 : θ = θ0, so nennt man H0 einfach • Andernfalls bezeichnet man H0 als zusammengesetzt • Analoge Bezeichnungen gelten für H1 271 Arten von Testproblemen: • Es sei θ0 ∈ Θ eine feste reelle Zahl. Dann heißt gegen 6 θ0 H1 : θ = H0 : θ ≤ θ 0 gegen H1 : θ > θ0 H0 : θ ≥ θ 0 gegen H1 : θ < θ0 H0 : θ = θ 0 zweiseitiges Testproblem • Die Testprobleme bzw. heißen einseitig (rechts- bzw. linksseitig) 272 Jetzt: • Betrachte das allgemeine Testproblem H 0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0 Allgemeine Vorgehensweise: • Entscheide anhand einer Stichprobe X1, . . . , Xn aus X, ob H0 zugunsten von H1 abgelehnt wird oder nicht Explizites Vorgehen: • Wähle ’geeignete’ Teststatistik T (X1, . . . , Xn) und bestimme einen ’geeigneten’ kritischen Bereich K ⊂ R • Testentscheidung: T (X1, . . . , Xn) ∈ K =⇒ H0 wird abgelehnt T (X1, . . . , Xn) ∈ / K =⇒ H0 wird nicht abgelehnt 273 Man beachte: • T (X1, . . . , Xn) ist eine ZV (Stichprobenfunktion) −→ Die Testentscheidung ist zufällig −→ Fehlentscheidungen sind möglich • Mögliche Fehlentscheidungen: Realität H0 richtig H0 falsch Testergebnis H0 ablehnen H0 nicht ablehnen kein Fehler Fehler 1. Art kein Fehler Fehler 2. Art Fazit: • Fehler 1. Art: Test lehnt H0 ab, obwohl H0 richtig • Fehler 2. Art: Test lehnt H0 nicht ab, obwohl H0 falsch 274 Wann treten die Fehlentscheidungen auf? • Der Fehler 1. Art tritt auf, falls T (X1, . . . , Xn) ∈ K, obwohl für den wahren Parameter gilt θ ∈ Θ0 • Der Fehler 2. Art tritt auf, falls T (X1, . . . , Xn) ∈ / K, obwohl für den wahren Parameter gilt θ ∈ Θ1 275 Frage: • Wann besitzt ein statistischer Test für das Problem H0 : θ ∈ Θ 0 gegen H1 : θ ∈ Θ1 = Θ/Θ0 ’gute’ Eigenschaften? Intuitive Vorstellung: • Test ist ’gut’, wenn er möglichst geringe Wahrscheinlichkeiten für die Fehler 1. und 2. Art aufweist Jetzt: • Formales Instrument zur Messung der Fehlerwahrscheinlichkeiten 1. und 2. Art 276 Definition 6.2: (Gütefunktion eines Tests) Man betrachte einen statistischen Test für das obige Testproblem mit der Teststatistik T (X1, . . . , Xn) und einem ’geeignet gewählten’ kritischen Bereich K. Unter der Gütefunktion des Tests versteht man die Funktion G, die, in Abhängigkeit des wahren Parameters θ ∈ Θ, die Wahrscheinlichkeit dafür angibt, dass der Test H0 ablehnt: G : Θ −→ [0, 1] mit G(θ) = P (T (X1, . . . , Xn) ∈ K). 277 Bemerkung: • Mit der Gütefunktion sind die Wahrscheinlichkeiten für den Fehler 1. Art gegeben durch G(θ) für alle θ ∈ Θ0 sowie für den Fehler 2. Art durch 1 − G(θ) für alle θ ∈ Θ1 Frage: • Wie sieht ein idealer Test aus? Intuition: • Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und 2. Art stets (konstant) gleich Null sind −→ Test trifft mit Wskt. 1 die richtige Entscheidung 278 Beispiel: • Es sei θ0 ∈ Θ. Betrachte das Testproblem H 0 : θ ≤ θ0 gegen H1 : θ > θ 0 Grafik idealer Test 279 Leider: • Es kann mathematisch gezeigt werden, dass ein solcher idealer Test im allgemeinen nicht existiert Deshalb Ausweg: • Betrachte zunächst rein theoretisch für eine geeignete Teststatistik T (X1, . . . , Xn) die maximale Fehlerwahrscheinlichkeit 1. Art α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)} θ∈Θ0 θ∈Θ0 • Lege den kritischen Bereich K dann so fest, dass α einen vorgegebenen kleinen Wert annimmt 280 −→ Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α begrenzt (d.h. kleiner oder gleich α) • Häufig benutzte α-Werte sind α = 0.01, α = 0.05, α = 0.1 Definition 6.3: (Signifikanzniveau eines Tests) Man betrachte einen statistischen Test für das Testproblem auf Folie 276 mit der Teststatistik T (X1, . . . , Xn) und einem geeignet gewählten kritischen Bereich K. Dann bezeichnet man die maximale Fehlerwahrscheinlichkeit 1. Art α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)} θ∈Θ0 θ∈Θ0 als das Signifikanzniveau des Tests. 281 Konsequenzen dieser Testkonstruktion: • Die Wskt., H0 aufgrund des Tests abzulehmen, obwohl H0 richtig ist (d.h. die Wskt. des Fehlers 1. Art) ist höchstens α −→ Wird H0 aufgrund einer Testrealisation abgelehnt, so kann man ziemlich sicher davon ausgehen, dass H0 tatsächlich falsch ist (Man sagt auch: H1 ist statistisch gesichert) • Die Wskt. für den Fehler 2. Art (d.h. H0 nicht abzulehnen, obwohl H0 falsch ist), kann man dagegen nicht kontrollieren −→ Wird H0 aufgrund einer Testrealisation nicht abgelehnt, so hat man keinerlei Wahrscheinlichkeitsaussage über eine mögliche Fehlentscheidung (Nichtablehung von H0 heißt nur: Die Daten sind nicht unvereinbar mit H0) 282 Wichtig deshalb: • Es ist entscheidend, wie man H0 und H1 formuliert • Das, was man zu zeigen hofft, formuliert man in H1 (in der Hoffnung, H0 anhand des konkreten Tests ablehnen zu können) Beispiel: • Betrachte Beispiel 1 auf Folie 268 • Kann man anhand eines konkreten Tests H0 verwerfen, so kann man ziemlich sicher sein, dass der Wirt in der Regel zu wenig ausschenkt • Kann man H0 nicht verwerfen, so kann man nichts explizites über die Ausschankgewohnheiten des Wirtes sagen. (Die Daten stehen lediglich nicht im Widerspruch zu H0) 283 6.2 Klassische Testverfahren Jetzt: • 3 allgemeine klassische Testkonstruktionen, die alle auf der Loglikelihoodfunktion der Stichprobe aufbauen Ausgangssituation: • Es sei X1, . . . , Xn eine einfache Stichprobe aus X • θ ∈ R sei der unbekannte Parameter • L(θ) = L(θ; x1, . . . , xn) sei die Likelihoodfunktion 284 • ln[L(θ)] sei die Loglikelihoodfunktion • g : R −→ R sei eine beliebige, stetige Funktion • Statistisches Testproblem: H0 : g(θ) = q gegen H1 : g(θ) 6= q Grundlage aller Tests: • Maximum-Likelihood-Schätzer θ̂M L für θ 285 6.2.1 Der Wald-Test Historie: • Vorgeschlagen von A. Wald (1902-1950) Idee des Tests: • Wenn H0 : g(θ) = q wahr ist, dann sollte die ZV’e g(θ̂M L) − q nicht signifikant von Null verschieden sein 286 Vorwissen: • Äquivarianz des ML-Schätzers (Folie 265) −→ g(θ̂M L) ist ML-Schätzer für g(θ) • Asymptotische Normalität (Folie 266) −→ d g(θ̂M L) − g(θ) → U ∼ N (0, Var(g(θ̂M L))) • Die asymptotische Varianz Var(g(θ̂M L)) muss anhand der Daten geschätzt werden Teststatistik des Wald-Tests: W = h g θ̂M L − q h d g θ̂ Var ML i2 i d (unter H0 ) −→ 2 U ∼ χ1 287 Testentscheidung: • Lehne H0 zum Signifikanzniveau α ab, wenn W > χ2 1;1−α Bemerkungen: • Der Wald-Test ist ein reiner Test gegen H0 (es ist nicht notwendig, eine bestimmte Alternativhypothese zu spezifizieren) • Das Prinzip des Wald-Tests kann auf jeden konsistenten, asymptotisch normalverteilten Schätzer angewendet werden 288 Wald-Teststatistik für H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0 g( θ ) ≈W θˆML θ ln[ L(θ )] 289 6.2.2 Der Likelihood-Ratio-Test (LR-Test) Idee des Tests: • Betrachte die Likelihood Funktion L(θ) an 2 Stellen: (= L(θ̂H0 )) max L(θ) {θ:g(θ)=q} max L(θ) θ∈Θ (= L(θ̂M L)) • Betrachte die Größe λ= L(θ̂H0 ) L(θ̂M L) • Für λ gilt: 0≤λ≤1 Wenn H0 wahr ist, dann sollte λ in der Nähe von eins liegen 290 Teststatistik des LR-Tests: n h i h LR = −2 ln(λ) = 2 ln L(θ̂M L) − ln L(θ̂H0 ) (ohne Beweis) d io (unter H ) 0 −→ U ∼ χ2 1 Für die LR-Teststatistik gilt: • 0 ≤ LR < ∞ • Wenn H0 wahr ist, dann sollte LR in der Nähe von Null liegen Testentscheidung: • Lehne H0 zum Signifikanzniveau α ab, wenn LR > χ2 1;1−α 291 Bemerkungen: • Der LR-Test testet, ob der Abstand der Loglikelihoodfunktionen, ln[L(θ̂M L)] − ln[L(θ̂H0 )], signifikant größer als 0 ist • Der LR-Test benötigt keine asymptotische Varianz 292 LR-Teststatistik für H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0 ∧ ln[ L(θ ML )] ∧ g(θ ) ≈LR ln[ L(θ H 0 )] θ θˆH 0 θˆML ln[L(θ )] 293 6.2.3 Der Lagrange-Multiplier-Test (LM-Test) Historie: • Der Test geht zurück auf J.L. Lagrange (1736-1813) Idee des Tests: • Für den ML-Schätzer θ̂M L gilt: ∂ ln[L(θ)] =0 ∂θ θ=θ̂M L • Wenn H0 : g(θ) = q wahr ist, dann sollte die Steigung der Loglikelihood-Funktion an der Stelle θ̂H0 nicht signifikant von Null verschieden sein 294 Teststatistik des LM-Tests: ∂ ln[L(θ)] LM = ∂θ (ohne Beweis) θ̂H0 2 d h i−1 (unter H ) 0 2 d θ̂ U ∼ χ1 −→ / Var H0 Testentscheidung: • Lehne H0 zum Signifikanzniveau α ab, wenn LR > χ2 1;1−α 295 LM-Teststatistik für H0 : g(θ) = 0 gegen H1 : g(θ) 6= 0 ∂ ln[L(θ )] ∂θ g(θ) ≈ LM θ ∧ θ H0 θˆML ln[ L(θ )] 296 Bemerkungen: • Sowohl beim Wald-Test als auch beim LM-Test tauchen in den Teststatistiken die geschätzten Varianzen des Schätzers θ̂H0 auf • Diese unbekannten Varianzen werden konsistent durch die Fisher-Information geschätzt • Viele ökonometrische Tests beruhen auf diesen 3 Konstruktionsprinzipien • Die 3 Test sind asymptotisch äquivalent, d.h. sie liefern für große Stichprobenumfänge dieselben Testergebnisse • Es gibt Verallgemeinerungen aller 3 Testprinzipien für das Testen von Hypothesen bzgl. eines Parametervektors θ • Ist θ ∈ Rm, dann sind alle 3 Teststatistiken unter H0 χ2 mverteilt 297 Zusammenfassung der 3 Tests ∂ ln L(θ ) ∂θ ∧ ln[( θ ML )] ∧ ln[( θ H 0 )] ≈ LR g(θ ) ≈ LM ≈W θ θˆH 0 θˆML ln L(θ ) 298