Statistik II III. Multiples lineares Regressionsmodell Martin Huber 1 / 18 Übersicht Erwartungswert (Wooldridge 3.3) Überspezifikation (Wooldridge 3.3) Unterspezifikation (Wooldridge 3.3) Varianz (Wooldridge 3.4) Gauss-Markov Theorem Anpassungsgüte 2 / 18 Erwartungswert Unter den Annahmen MLR.1-MLR.4 ist der OLS-Schätzer ein unverzerrter Schätzer für den Populationsparameter: E (β̂j ) = βj , j = 0, ..., k Unterschied zum univariaten/simplen linearen Regressionsmodell: 1 Überspezifikation (irrelevante Kontrollvariablen) 2 Unterspezifikation (“Omitted”, d.h. unberücksichtigte Kontrollvariablen) 3 / 18 Überspezifikation: Irrelevante Kontrollvariablen Eine oder mehrere Kontrollvariablen sind im Modell enthalten welche keinen partiellen Effekt auf y haben. y = β0 + β1 x1 + β2 x2 + u wobei β2 = 0 Schätzung: ŷ = βˆ0 + β̂1 x1 + βˆ2 x2 ⇒ Unverzerrte Schätzer: E (β̂1 ) = β1 ⇒ Achtung: Varianz kann durch irrelevante Kontrollvariablen ansteigen. 4 / 18 Unterspezifikation: unberücksichtigte Kontrollvariablen Modell in der Population: y = β0 + β1 x1 + β2 x2 + u Problem mit x2 : nicht messbar, unbeobachtet, vergessen,... Schätzung: y̌ = β̌0 + β̌1 x1 Verzerrung (bias): β̌1 = β̂1 + β̂2 δ̂1 wobei δ̂1 der Koeffizient von x2 in einer Regression von x1 auf x2 ist. → E (β̌1 ) = β1 + β2 δ1 , wobei x1 = δ0 + δ1 x2 + v (v =Fehlerterm in der Regression von x1 auf x2 ). β2 δ1 = Verzerrung aufgrund unberücksichtigter Kontrollvariablen (omitted variable bias) Achtung: Die einfache lineare Regression entspricht der multivariaten linearen Regression, falls β2 = 0 oder δ1 = 0, d.h. falls x2 und y unkorreliert sind oder x1 und x2 unkorreliert sind. 5 / 18 Verzerrung aufgrund unberücksichtigter β2 > 0 cov (y , x2 ) > 0 δ2 > 0 E (β̂j ) > βj cov (x1 , x2 ) > 0 pos. Verzer. (upward bias) δ2 < 0 E (β̂j ) < βj cov (x1 , x2 ) < 0 neg. Verzer. (downward bias) Variablen β2 < 0 cov (y , x2 ) < 0 E (β̂j ) < βj neg. Verzerrung E (β̂j ) > βj pos. Verzerrung 6 / 18 Beispiel 7 / 18 Allgemeiner Fall mit mehreren Kontrollvariablen (k = 3): Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + u wobei cov (x1 , x3 ) 6= 0 und cov (x2 , x3 ) = 0 Schätzung: ŷ = β̂0 + β̂1 x1 + βˆ2 x2 ⇒ E (β̂1 ) 6= β1 and E (β̂2 ) 6= β2 falls cov (x1 , x2 ) 6= 0 Aber: Richtung der Verzerrung ist nicht einfach zu beurteilen, da oft nicht nur x1 und x3 korreliert sind, sondern auch x1 und x2 . 8 / 18 Varianz Annahme 5 (MLR 5): Homoskedastizität Var (u|x1 , x2 , ..., xk ) = σ 2 Die Varianz des Fehlerterms ist für alle Kombinationen der möglichen Werte der Regressoren konstant. Varianz der geschätzten OLS-Koeffizienten unter den Annahmen MLR.1-MLR.5 (sogenannte Gauss-Markov Annahmen): Var (β̂j ) = SSTj = Pn i=1 (xij σ2 , SSTj (1 − Rj2 ) j = 1, ..., k − x̄j )2 Rj2 = R 2 der Regression von xj auf alle anderen Regressoren und Konstante 9 / 18 Komponenten der Varianz: Var (β̂j ) = σ2 , SSTj (1 − Rj2 ) j = 1, ..., k σ 2 : je höher die Fehlertermvarianz, umso höher die Varianz des Schätzers (evtl. weitere Regressoren) SSTj : je höher die Varianz in der erklärenden Variable, umso niedriger die Varianz des Schätzers (erhöhe die Stichprobengrösse). Achtung: MLR.4: SSTj 6= 0 Rj2 : je höher das Bestimmtheitsmass aus der Regression von xj auf alle anderen Regressoren und Konstante, umso höher die Varianz des Schätzers I I Rj2 = 0: kleinst mögliche Varianz (xj unkorreliert) Rj2 → 1: Multikollinearität (MLR.4: Rj2 6= 1) 10 / 18 11 / 18 Beispiel 12 / 18 Beispiel 13 / 18 Misspezifikation: Verzerrung versus Effizienz Wahres Modell: y = β0 + β1 x1 + β2 x2 + u Schätzer 1: ŷ = β̂0 + β̂1 x1 + β̂2 x2 Schätzer 2: y̌ = β̌0 + β̌1 x1 Kriterium für Verzerrung: E (β̂1 ) = β1 und E (β̌1 ) 6= β1 ⇒ β̂1 bevorzugt gegenüber β̌1 Kriterium für Effizienz: Var (β̂j ) = σ2 σ2 > Var ( β̌ ) = j SST1 SSTj (1 − Rj2 ) ⇒ falls cov (x1 , x2 ) 6= 0 β̌1 bevorzugt gegenüber β̂1 Irrelevante Variable: Unverzerrt aber möglicherweise ineffizient Unberücksichtigte relevante Variable: Verzerrung 14 / 18 Schätzer für die Fehlervarianz Population: σ 2 = E (u 2 ) Stichprobe: σ̂ 2 = 1 N PN 2 i=1 ui Problem: u ist unbeobachtbar Schätzer: ûi = yi − β̂0 − β̂1 xi1 − ... − β̂k xik Korrektur für Freiheitsgrade (N − (k + 1)): σ̂ 2 = PN 2 i=1 ûi N −k −1 = SSR N −k −1 15 / 18 Unverzerrter Schätzer der Fehlertermvarianz: PN 2 ! i=1 ûi E (σ̂ 2 ) = E = σ2 N −k −1 Varianz des Schätzers: var (β̂j ) = σ̂ 2 SSTj (1 − Rj2 ) Standardfehler des Schätzers: σ̂ se(β̂j ) = q SSTj (1 − Rj2 ) 16 / 18 Gauss-Markov Theorem Unter Annahmen MLR.1-MLR.5 ist der OLS Schätzer BLUE = best linear unbiased estimator (bester unverzerrter linearer Schätzer) Best: var (β̂j ) ≤ var (β̌j ) Linear: β̂j = N X wij yi mit wij = f (xij , ..., xik ) i=1 Unbiased: E (β̂j ) = βj , j = 0, ..., k 17 / 18 Anpassungsgüte Definition: 2 R = PN | PN û 2 = 1 − PN i=1 i − ȳ )2 (yi − ȳ )2 {z } } | i=1 {z (ŷi Pi=1 N i=1 (yi − ȳ )2 SSE /SST SSR/SST Achtung: In einem Modell ohne Konstante kann das R 2 negativ sein und β̂j ∀j = 1, ..., k verzerrt sein wenn β0 6= 0. Achtung: R 2 kann nie fallen wenn zusätzliche Variablen mit ins Modell aufgenommen werden. Der Grund ist, dass wenn immer der Koeffizient einer zusätzlichen Variable ungleich Null ist, die Residuen der Minimierung automatisch kleiner werden. Adjustiertes R̄ 2 : R̄ 2 = 1 − σ̂u2 σ̂y2 =1− SSR N−k−1 SST N−1 18 / 18 Statistik II IV. Hypothesentests Martin Huber 1 / 22 Übersicht Weitere Hypothesentests in der Statistik I I I I I Mittelwert-Tests Varianz-Tests 2-Stichproben-Tests Kolmogorov-Smirnov-Test für Gleichverteilung Varianzanalyse 2 / 22 Mittelwerttest unter Normalverteilung, bekannter Varianz Auch hier gilt: Asymptotisch, d.h. in sehr grossen Stichproben wird die Normalverteilungsannahme aufgrund des Zentralen Grenzwertsatzes nicht benötigt. 3 / 22 Beispiel 4 / 22 Mittelwerttest unter Normalverteilung, unbekannter Var. 5 / 22 Beispiel 6 / 22 Varianztest unter Normalverteilung 7 / 22 Illustration 8 / 22 9 / 22 Beispiel 10 / 22 2-Stichproben-Test: Mittelwert-Vergleich 11 / 22 Mittelwert-Vergleich mit gleicher Varianz 12 / 22 Mittelwert-Vergleich mit unterschiedlicher Varianz 13 / 22 Mittelwert-Vergleich durch Mann-Whitney U-Test Verteilung von Y und X unterscheiden sich nur in der Lage (und deshalb im Mittelwert): FY (x) = FX (x − a). Mann-Whitney U-Test (oder auch Wilcoxon-Mann-Whitney-Test) testet H0 : a = 0 vs. H1 : a 6= 0 14 / 22 2-Stichproben-Test: Varianz-Vergleich 15 / 22 16 / 22 Beispiel 17 / 22 Kolmogorov-Smirnov Test für Gleichverteilung 18 / 22 Varianzanalyse (1) Test für Null-Effekt aller Faktoren (Mittelwert der abhängigen Variable (µ) hängt nicht von den Faktoren ab): 19 / 22 Varianzanalyse (2) Test für Differenz in µ zwischen einzelnen Faktoren: 20 / 22 Beispiel 21 / 22 Beispiel 22 / 22 Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-Test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur eines Hypothesentests 1 Formuliere die Forschungshypothese und bestimme die zu testenden Parameter. Basierend hierauf kann die Nullhypothese H0 bestimmt werden. 2 Art der Verteilung (z.B. t-Verteilung, Normalverteilung) 3 Auswahl der Teststatistik 4 Bestimme das Signifikanzniveau (= Irrtumswahrscheinlichkeit, mit der eine korrekte Nullhypothese irrtümlicherweise abgelehnt wird) 5 Einseitiger oder zweiseitiger Test 6 Verwerfe die Nullhypothese (falls Testergebnis signifikant) oder behalte sie bei (falls insignifikant) 3 / 41 Stichprobenverteilung Annahme MLR.6: Normalität u ∼ N(0, σ 2 ) Der Fehlerterm ist unabhängig von den Kontrollvariablen und ist normalverteilt mit Mittelwert 0 und Varianz σ 2 . Annahme MLR.6 impliziert die Annahmen MLR.3 und MLR.5. Zusammenfassung der Annahmen MLR.1-MLR.6 (= Annahmen des klassischen linearen Modells) y |(x1 , x2 , ..., xk ) ∼ N(β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2 ) 4 / 41 Annahme MLR.6: Normalität u ∼ N(0, σ 2 ) Zugrundeliegende Annahmen: Normalverteilung des Fehlerterms ist nicht unproblematisch, weil viele Faktoren keiner Normalverteilung folgen (z.B. Löhne sind nicht normalverteilt ⇒ logarithmische Transformation). Weitere (potenziell problematische) Annahme: Unbeobachtete Faktoren im Fehlerterm beeinflussen y in additiver Form. Nicht-normal verteilte Fehlerterme unproblematisch sind, wenn die Stichprobe gross genug ist, weil dann der Zentrale Grenzwertsatz anwendbar ist. Zentraler Grenzwertsatz: Die Summe/der Mittelwert einer grossen Zahl von unabhängigen Zufallsvariablen mit endlicher und positiver Varianz ist asymptotisch annähernd normalverteilt (sogar wenn die Variable selbst nicht normalverteilt ist!). 5 / 41 6 / 41 Konsequenz aus MLR.6: β̂j ∼ N βj , var (β̂j ) Standardisierung führt zu folgendem Ergebnis: β̂j − βj sd(β̂j ) ∼ N (0, 1) (Asymptotisch, d.h. in sehr grossen Stichproben wird MLR.6 aufgrund des Zentralen Grenzwertsatzes allerdings nicht benötigt!) 7 / 41 t-Test: Einzelner-Parameter-Test 1 Populationsmodell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u 2 Nullhypothese: H0 : βj = 0 3 t-Verteilung für standardisierter Schätzer: β̂j − βj se(β̂j ) ∼ tN−k−1 wobei N = Stichprobengrösse und k + 1 = Anzahl Parameter 4 Test Statistik = t-Statistik: tβ̂j ≡ β̂j /se(β̂j ) Beachte: I tβ̂j hat dasselbe Vorzeichen wie β̂j I gegeben se(β̂j ), tβ̂j steigt mit β̂j Interpretation: tβ̂j kann interpretiert werden als “wieviele Standardabweichungen liegt β̂j von null enfernt” 8 / 41 Einseitiger Hypothesentest: 1 Nullhypothese: H0 : βj ≤ 0 Alternativhypothese: H1 : βj > 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: tβ̂j > c, wobei c dem 95sten Perzentil der t-Verteilung mit N − k − 1 Freiheitsgraden entspricht, auch kritischer Wert genannt Intuition: Verwerfe wenn tβ̂j “gross genug” ist, d.h. wenn tβ̂j nicht im 95sten Perzentil der t-Verteilung liegt. 9 / 41 10 / 41 11 / 41 Beispiel 12 / 41 Einseitiger Hypothesentest: 1 Nullhypothese: H0 : βj ≥ 0 Alternativhypothese: H1 : βj < 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: tβ̂j < −c, wobei c dem 95sten Perzentil der t-Verteilung mit N − k − 1 Freiheitsgraden entspricht, auch kritischer Wert genannt 13 / 41 Beispiel: df = 18 (z.B. N = 20, k = 1) 14 / 41 Beispiel 15 / 41 Zweiseitiger Hypothesentest: 1 Nullhypothese: H0 : βj = 0 Alternativhypothese: H1 : βj 6= 0 2 Signifikanzniveau: α = 5% (alternativ α = 1%; 10%) 3 Verwerfungsregel: |tβ̂j | > c, wobei c dem (100% − α2 Perzentil der t-Verteilung mit N − k − 1 Freiheitsgraden entspricht I |tβ̂j | > c: β̂j ist statistisch signifikant bei einem Signifikanzniveau von α I |tβ̂j | < c: β̂j ist statistisch insignifikant 16 / 41 17 / 41 18 / 41 Beispiel 19 / 41 Weitere Hypothesen: H0 : βj = θj Zweiseitiger Hypothesentest H0 : βj = θj , H1 : βj 6= θj Test-Statistik: tβ̂j = β̂j − θj se(β̂j ) Signifikanzniveau: α = 5% Kritischer Wert: c = 1.96 (vorausgesetzt N ist gross genug) 20 / 41 Beispiel 21 / 41 22 / 41 p-Wert/p-value Der p-Wert entspricht dem niedrigsten Signifikanzniveau bei welchem wir H0 für eine gegebene t-Statistik verwerfen würden. ⇒ Signifikanzniveau der Test-Statistik p-Wert/p-value = P(|T | > |t|) 23 / 41 24 / 41 Beispiel 25 / 41 Konfidenzintervall Das Konfidenzintervall: β j = β̂j − c · se(β̂j ), β̄j = β̂j + c · se(β̂j )CI = [β j ; β̄j ] Angenommen man würde eine sehr (unendlich) grosse Anzahl an Stichproben aus der Population ziehen und in jeder β j und β̄j berechnen, dann würde der wahre Wert βj mit einer Häufigkeit von 1 − α (bezogen auf die Anzahl der gezogenen Stichproben) innerhalb von [β j ; β̄j ] liegen. (α gibt wiederum das Signifikanzniveau an.) Anders formuliert: Das Konfidenzintervall ist jenes Intervall, das bei unendlicher Wiederholung des Stichprobenziehung mit einer Häufigkeit von 1 − α den wahren Wert βj inkludiert. Für α = 0.05 ist der wahre Wert von βj in 95% der Stichproben inkludiert (in 5% allerdings nicht). 26 / 41 Illustration Quelle: Wikipedia 27 / 41 Illustration 28 / 41 t-Test: Einzelner-Parameter-Kombination 1 Lineares Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u 2 Nullhypothese: H0 : β1 = β2 or H0 : β1 − β2 = 0 3 Test-Statistik: t= β̂1 − β̂2 se(β̂1 − β̂2 ) Ab hier gehen wir vor wie zuvor: Wähle das Signifikanzniveau und bestimme den entsprechenden kritischen Wert, oder berechne die t-Statistik und bestimme den entsprechenden p-Wert. Achtung: q q se(β̂1 − β̂2 ) = var (β̂1 − β̂2 ) = var (β̂1 ) + var (β̂2 ) − 2cov (β̂1 , β̂2 ) 29 / 41 Beispiel 30 / 41 F-Test: Multiple lineare Restriktionen Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u Nullhypothese: H0 : βk−q+1 = 0, βk−1+2 = 0, βk = 0 ⇒ Testen von Ausschlussrestriktionen (exclusion restrictions) Achtung: t-Test ist ungeeignet, da dieser die Parameter einzeln, unabhängig voneinander testet. Wir wollen die Parameter jedoch gemeinsam testen: Gemeinsamer Signifikanztest (“joint significance test”) Restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk−q xk−q + u 31 / 41 F-Statistik: F = I I I I (SSRr − SSRur )/q SSRur /(N − k − 1) SSRr =Summe der quadrierten Residuen (sum of squared residuals: SSR) der restringierten Schätzung SSRur =SSR der nicht restringierten Schätzung q = Freiheitsgrade des Zählers = dfr − dfur N − k − 1 = Freiheitsgrade des Nenners Intuition: F-Statistik entspricht dem prozentualen Anstieg des unerklärten Teils, gewichtet mit den Freiheitsgraden Verwerfen: F > c (wobei c abhängt von q, N − k − 1 und α, mindestens ein Koeffizient ist statistisch signifikant) Nicht verwerfen: F < c (Koeffizienten sind gemeinsam insignifikant) 32 / 41 33 / 41 34 / 41 F-Statistik: F = (SSRr − SSRur )/q SSRur /(N − k − 1) 2 ) können Gegeben, dass SSRr = SST (1 − Rr2 ) und SSRur = SST (1 − Rur wir die F-Statistik folgendermassen ausdrücken: F = 2 − R 2 )/q (Rur r 2 )/(N − k − 1) (1 − Rur Intuition: Die F-Statistik entspricht dem gewichteten Anstieg in R 2 wenn wir mehr Variablen mit ins Modell nehmen. 35 / 41 Beispiel (1) 36 / 41 Beispiel (2) 37 / 41 Beispiel (3) 38 / 41 F-Test: Test auf irgendwelche signifikanten Effekte (“overall significance test”) Besondere Form des Tests auf gemeinsame Signifikanz: ‘ Nullhypothese: H0 : β1 = 0, β2 = 0, ..., βk = 0 Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u Restringiertes Modell: y = β0 + u ⇒ Achtung: Rr2 = 0 Test-Statistik: F = R 2 /k (1 − R 2 )/(N − k − 1) 39 / 41 F-Test: Allgemeine lineare Restriktionen Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + u Nullhypothese: H0 : β1 = 1, β2 = 0, β3 = 0, β4 = 0 Restringiertes Modell: y − x1 = β0 + u Test-Statistik: F = (SSRr − SSRur )/4 SSRur /(N − 4 − 1) 40 / 41 F-Test: p-Werte p-value = P(F > F ) Niedrigstes Signifikanzniveau, bei welchem wir H0 für eine gegebene Statistik verwerfen würden: Signifikanzniveau der Test-Statistik Zusammenhang zwischen F- und t-Statistiken: y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + u H0 : β1 = 0; q = 1 Achtung: I 2 tN−k−1 = F1,N−k−1 41 / 41