Die Stochastischen Eigenschaften von OLS Das Bivariate Modell Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht–Karls Universität Heidelberg Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Wiederholung In der letzten Veranstaltung wurden die algebraischen Eigenschaften des OLS Schätzers im bivariaten Modell yi = a + bxi + i (1) hergeleitet Diese Eigenschaften gelten immer, unabhängig von den Annahmen über i Nun wollen wir die statistischen Eigenschaften des Schätzers untersuchen Konzentration auf b̂, für â ergibt sich alles analog 2 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Wiederholung Wir beginnen mit zwei Annahmen 1 2 E (i ) = 0 E (xi i ) = 0 Was ergibt sich aus diesen Annahmen für b̂? 3 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der Schätzer b̂ Wir haben für b̂ berechnet: P (xi − x̄)(yi − ȳ ) b̂ = i P 2 i (xi − x̄) (2) 4 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Umformungen Durch Umformungen kann man b̂ auch schreiben als b̂ = b + 1 X di i , SSTx (3) i mit SSTx = P i (xi − x̄)2 und di = (xi − x̄) 5 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Erwartungstreue Ist der OLS Schätzer erwartungstreu? E (b̂) = b? Wenn man den Erwartungsnutzenoperator of Gl. 3 anwendet, erhält man 1 X E (di i ), (4) E (b̂) = b + SSTx i Da di = (xi − x̄) und E (xi i ) = 0 und E (i ) = 0, ergibt sich E (b̂) = b → Erwartungstreu (5) 6 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Varianz Was ist die Varianz des OLS Schätzers? Um die Frage zu beantworten, treffen wir eine weitere Annahme über i Var (i ) = σ 2 ∀i (6) Wenn diese Annahme getroffen wird, kann man zeigen, dass OLS in der Klasse der unverzerrten linearen Schätzer die kleinste Varianz besitzt (Gauss-Markov) Im folgenden berechnen wir die Varianz 7 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Varianz Var (b̂) = = ! 1 SSTx 2 1 SSTx 2 X X Var di i i di2 Var (i ) i 2 X 1 = di2 σ 2 SSTx i 2 1 =σ 2 SSTx SSTx Also folgt : Var (b̂) = σ2 SSTx (7) 8 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Tests Weshalb benötigen wir die Varianz von b̂? Wenn wir einen Parameter schätzen, wollen wir wissen wie präzise wir ihn schätzen Je präziser ein Parameter geschätzt wird, mit desto größerer Sicherheit können wir Hypothesen über das Modell annehmen oder ablehnen Es gibt verschiedene Hypothesentests, die beliebtesten sind der t-Test und der F-Test 9 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Outline 1 Einführung 2 Repräsentationen von b̂ 3 Erwartungstreue und Varianz 4 Hypothesentests Der t-Test Der F-Test 10 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Der t-Test Beim t-Test wird getestet, ob der wahre Parameter einen bestimmten Wert annimmt oder nicht Die wohl beliebtesten Hypothesen (anhand derer das Verfahren illustriert werden soll): H0 : b = 0 H1 : |b| > 0 (8) Also ein zweiseitiger Test, ob der wahre Parameter von 0 verschieden ist Wie können diese Hypothesen getestet werden? 11 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Idee und Voraussetzungen des t-Tests Man fragt, ob |b̂| (genügend) Anhaltspunkte dafür liefert, dass b = 0 ist Allerdings ist b̂ eine Zufallsvariable und kann eine ganze Reihe von Werten annehmen Jede Aussage, die wir auf der Basis von |b̂| treffen, ist daher mit Unsicherheit behaftet Es geht darum, zwischen Type I und Type II Fehler abzuwägen Um das zu tun, müssen wir zunächst die Dichtefunktion von b̂ herausfinden 12 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Dichtefunktion von b̂ Wir machen eine letzte Annahme i ∼ N(0, σ 2 ) Dann ist b̂ ∼ N(b, σ2 ) SSTx (9) (10) Weil E (b̂) = b σ2 Var (b̂) = SST x Und die Summe normalverteilter und unabhängiger P ZV auch 1 normalverteilt ist (Zur Erinnerung: b̂ = b + SST i di i ) x 13 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test z-Teststatistik Also gilt b̂ − b q ∼ N(0, 1) 1 σ · SST x (11) und unter H0 : b = 0 gilt z= σ· b̂ q 1 SSTx ∼ N(0, 1) (12) H0 wird abgelehnt, wenn |z| > zα (zα ist der kritische Wert) 14 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Ein Problem Unglücklicherweise kann die z−Statistik nicht berechnet werden, da man σ 2 nicht kennt Also muss man zunächst σ 2 schätzen, ein konsistenter Schätzer ist s 1 X 2 σ̂ = ei N −2 i P Wobei i ei2 die Summe der Residuuen ist (13) Die Frage ist jetzt, wie die folgende Statistik verteilt ist t= σ̂ · b̂ q 1 SSTx ∼? (14) 15 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Verteilung der t-Statistik Man kann zeigen, dass die Zufallsvariable P 2 e E = i 2 i ∼ χ2 (n − 2) σ (15) Hauptsächlich, weil das quadrat einer normalverteilten Variablen χ2 -verteilt ist 16 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Verteilung der t-Statistik Jetzt konstruieren wir mit Hilfe von E eine neue Zufallsvariable sP r 2 1 1√ 2 1 i ei = = D= E σ̂ N −2 σ N −2 σ mit σ̂ 2 = (16) 2 i ei N−2 P Diese ZV ist also die Wurzel einer mit (N-2) Freiheitsgraden verteilten χ2 ZV, die durch (N-2) geteilt wird 17 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Verteilung der t-Statistik Wenn wir nun z durch D teilen, erhalten wir σ· z/D = qb̂ 1 SSTx √ 1 σ σ̂ 2 b̂ = q =t 1 σ̂ SST x (17) Also ist die t-Statistik eine ZV, die sich als der Quotient einer standarnormalverteilten ZV und einer ZV, die sich als Wurzel einer χ2 − verteilten ZV mit (N-2) Freiheitsgraden, die wiederum durch N − 2 geteilt wird, ergibt. 18 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Verteilung der t-Statistik Eine solche ZV ist aber qua Definition t− verteilt mit (N-2) Freiheitsgraden, also gilt σ̂ b̂ q 1 SSTx ∼ t(N − 2) (18) Und H0 wird abgelehnt, wenn |t| > tα 19 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Outline 1 Einführung 2 Repräsentationen von b̂ 3 Erwartungstreue und Varianz 4 Hypothesentests Der t-Test Der F-Test 20 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Goodness of Fit Der F-test Test versucht die Signifikanz des gesamten Modells zu bestimmen Enger Zusammenhang zu R 2 Im bivariaten Modell sind F-Test und t-Test äquivalent 21 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test F-Statistik Die F-Statistik ist definiert als ESS/(k − 1) RSS/(N − k) (19) TSS = ESS + RSS (20) F = mit und k = Anzahl der Parameter im Modell und N = Anzahl der Beobachtungen 22 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test F-Statistik Die F-Statistik kann in Termini von R 2 angegeben werden, wenn Zähler und Nennen in Gl. 19 durch TSS geteilt wird F = (ESS/TSS)/(k − 1) R 2 /(k − 1) = (RSS/TSS)/(N − k) (1 − R 2 )/(N − k) (21) Und im bivariaten Modell gilt F = R2 (1 − R 2 )/(N − 2) (22) 23 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Die Verteilung der F-Statistik Die F-Statistik ergibt sich als Quotient zweier χ2 - verteilter ZV mit (k − 1) und (N − k) Freiheitsgraden, die durch die entsprechenden Freiheitsgrade geteilt werden Eine solche Zufallsvariable besitzt eine F-Verteilung F ∼ F (k − 1, N − k) (23) H0 wird abgelehnt, wenn F > Fα 24 / 25 Einführung Repräsentationen von b̂ Erwartungstreue und Varianz Hypothesentests Der t-Test Der F-Test Äquivalenz zwischen F- und t-Statistik Im bivariaten Modell ist die F-Statistik das Quadrat der t-Statistik P (ŷi − ȳ )2 ESS = P i2 (24) F = RSS/(N − 2) i ei /(N − 2) P ((â + b̂xi ) − (â + b̂x̄))2 = i (25) σ̂ 2 1 X 2 b̂ 2 = 2 b̂ (xi − x̄) = 2 P (26) σ̂ σ̂ / i (xi − x̄)2 i =t 2 (27) 25 / 25