Statistik II - III. Multiples lineares Regressionsmodell

Werbung
Statistik II
III. Multiples lineares Regressionsmodell
Martin Huber
1 / 18
Übersicht
Erwartungswert (Wooldridge 3.3)
Überspezifikation (Wooldridge 3.3)
Unterspezifikation (Wooldridge 3.3)
Varianz (Wooldridge 3.4)
Gauss-Markov Theorem
Anpassungsgüte
2 / 18
Erwartungswert
Unter den Annahmen MLR.1-MLR.4 ist der OLS-Schätzer ein unverzerrter
Schätzer für den Populationsparameter:
E (β̂j ) = βj ,
j = 0, ..., k
Unterschied zum univariaten/simplen linearen Regressionsmodell:
1
Überspezifikation (irrelevante Kontrollvariablen)
2
Unterspezifikation (“Omitted”, d.h. unberücksichtigte
Kontrollvariablen)
3 / 18
Überspezifikation: Irrelevante Kontrollvariablen
Eine oder mehrere Kontrollvariablen sind im Modell enthalten welche
keinen partiellen Effekt auf y haben.
y = β0 + β1 x1 + β2 x2 + u
wobei
β2 = 0
Schätzung:
ŷ = βˆ0 + β̂1 x1 + βˆ2 x2
⇒ Unverzerrte Schätzer: E (β̂1 ) = β1
⇒ Achtung: Varianz kann durch irrelevante Kontrollvariablen ansteigen.
4 / 18
Unterspezifikation: unberücksichtigte Kontrollvariablen
Modell in der Population: y = β0 + β1 x1 + β2 x2 + u
Problem mit x2 : nicht messbar, unbeobachtet, vergessen,...
Schätzung:
y̌ = β̌0 + β̌1 x1
Verzerrung (bias):
β̌1 = β̂1 + β̂2 δ̂1
wobei δ̂1 der Koeffizient von x2 in einer Regression von x1 auf x2 ist.
→ E (β̌1 ) = β1 + β2 δ1 ,
wobei x1 = δ0 + δ1 x2 + v (v =Fehlerterm in der Regression von x1 auf x2 ).
β2 δ1 = Verzerrung aufgrund unberücksichtigter Kontrollvariablen
(omitted variable bias)
Achtung: Die einfache lineare Regression entspricht der multivariaten
linearen Regression, falls β2 = 0 oder δ1 = 0, d.h. falls x2 und y
unkorreliert sind oder x1 und x2 unkorreliert sind.
5 / 18
Verzerrung aufgrund unberücksichtigter
β2 > 0
cov (y , x2 ) > 0
δ2 > 0
E (β̂j ) > βj
cov (x1 , x2 ) > 0
pos. Verzer. (upward bias)
δ2 < 0
E (β̂j ) < βj
cov (x1 , x2 ) < 0 neg. Verzer. (downward bias)
Variablen
β2 < 0
cov (y , x2 ) < 0
E (β̂j ) < βj
neg. Verzerrung
E (β̂j ) > βj
pos. Verzerrung
6 / 18
Beispiel
7 / 18
Allgemeiner Fall mit mehreren Kontrollvariablen (k = 3):
Modell:
y = β0 + β1 x1 + β2 x2 + β3 x3 + u
wobei cov (x1 , x3 ) 6= 0 und cov (x2 , x3 ) = 0
Schätzung:
ŷ = β̂0 + β̂1 x1 + βˆ2 x2
⇒ E (β̂1 ) 6= β1 and E (β̂2 ) 6= β2 falls cov (x1 , x2 ) 6= 0
Aber: Richtung der Verzerrung ist nicht einfach zu beurteilen, da oft nicht
nur x1 und x3 korreliert sind, sondern auch x1 und x2 .
8 / 18
Varianz
Annahme 5 (MLR 5): Homoskedastizität
Var (u|x1 , x2 , ..., xk ) = σ 2
Die Varianz des Fehlerterms ist für alle Kombinationen der möglichen
Werte der Regressoren konstant.
Varianz der geschätzten OLS-Koeffizienten unter den Annahmen
MLR.1-MLR.5 (sogenannte Gauss-Markov Annahmen):
Var (β̂j ) =
SSTj =
Pn
i=1 (xij
σ2
,
SSTj (1 − Rj2 )
j = 1, ..., k
− x̄j )2
Rj2 = R 2 der Regression von xj auf alle anderen Regressoren und
Konstante
9 / 18
Komponenten der Varianz:
Var (β̂j ) =
σ2
,
SSTj (1 − Rj2 )
j = 1, ..., k
σ 2 : je höher die Fehlertermvarianz, umso höher die Varianz des
Schätzers (evtl. weitere Regressoren)
SSTj : je höher die Varianz in der erklärenden Variable, umso niedriger
die Varianz des Schätzers (erhöhe die Stichprobengrösse). Achtung:
MLR.4: SSTj 6= 0
Rj2 : je höher das Bestimmtheitsmass aus der Regression von xj auf
alle anderen Regressoren und Konstante, umso höher die Varianz des
Schätzers
I
I
Rj2 = 0: kleinst mögliche Varianz (xj unkorreliert)
Rj2 → 1: Multikollinearität (MLR.4: Rj2 6= 1)
10 / 18
11 / 18
Beispiel
12 / 18
Beispiel
13 / 18
Misspezifikation: Verzerrung versus Effizienz
Wahres Modell: y = β0 + β1 x1 + β2 x2 + u
Schätzer 1: ŷ = β̂0 + β̂1 x1 + β̂2 x2
Schätzer 2: y̌ = β̌0 + β̌1 x1
Kriterium für Verzerrung:
E (β̂1 ) = β1 und E (β̌1 ) 6= β1
⇒
β̂1 bevorzugt gegenüber β̌1
Kriterium für Effizienz:
Var (β̂j ) =
σ2
σ2
>
Var
(
β̌
)
=
j
SST1
SSTj (1 − Rj2 )
⇒
falls cov (x1 , x2 ) 6= 0
β̌1 bevorzugt gegenüber β̂1
Irrelevante Variable: Unverzerrt aber möglicherweise ineffizient
Unberücksichtigte relevante Variable: Verzerrung
14 / 18
Schätzer für die Fehlervarianz
Population: σ 2 = E (u 2 )
Stichprobe: σ̂ 2 =
1
N
PN
2
i=1 ui
Problem: u ist unbeobachtbar
Schätzer: ûi = yi − β̂0 − β̂1 xi1 − ... − β̂k xik
Korrektur für Freiheitsgrade (N − (k + 1)):
σ̂ 2 =
PN
2
i=1 ûi
N −k −1
=
SSR
N −k −1
15 / 18
Unverzerrter Schätzer der Fehlertermvarianz:
PN 2 !
i=1 ûi
E (σ̂ 2 ) = E
= σ2
N −k −1
Varianz des Schätzers:
var (β̂j ) =
σ̂ 2
SSTj (1 − Rj2 )
Standardfehler des Schätzers:
σ̂
se(β̂j ) = q
SSTj (1 − Rj2 )
16 / 18
Gauss-Markov Theorem
Unter Annahmen MLR.1-MLR.5 ist der OLS Schätzer BLUE = best linear
unbiased estimator (bester unverzerrter linearer Schätzer)
Best:
var (β̂j ) ≤ var (β̌j )
Linear:
β̂j =
N
X
wij yi
mit wij = f (xij , ..., xik )
i=1
Unbiased:
E (β̂j ) = βj ,
j = 0, ..., k
17 / 18
Anpassungsgüte
Definition:
2
R =
PN
|
PN
û 2
= 1 − PN i=1 i
− ȳ )2
(yi − ȳ )2
{z
}
}
| i=1 {z
(ŷi
Pi=1
N
i=1 (yi
− ȳ )2
SSE /SST
SSR/SST
Achtung: In einem Modell ohne Konstante kann das R 2 negativ sein und
β̂j ∀j = 1, ..., k verzerrt sein wenn β0 6= 0.
Achtung: R 2 kann nie fallen wenn zusätzliche Variablen mit ins Modell
aufgenommen werden. Der Grund ist, dass wenn immer der Koeffizient
einer zusätzlichen Variable ungleich Null ist, die Residuen der Minimierung
automatisch kleiner werden.
Adjustiertes R̄ 2 : R̄ 2 = 1 −
σ̂u2
σ̂y2
=1−
SSR
N−k−1
SST
N−1
18 / 18
Statistik II
IV. Hypothesentests
Martin Huber
1 / 22
Übersicht
Weitere Hypothesentests in der Statistik
I
I
I
I
I
Mittelwert-Tests
Varianz-Tests
2-Stichproben-Tests
Kolmogorov-Smirnov-Test für Gleichverteilung
Varianzanalyse
2 / 22
Mittelwerttest unter Normalverteilung, bekannter Varianz
Auch hier gilt: Asymptotisch, d.h. in sehr grossen Stichproben wird die
Normalverteilungsannahme aufgrund des Zentralen Grenzwertsatzes nicht
benötigt.
3 / 22
Beispiel
4 / 22
Mittelwerttest unter Normalverteilung, unbekannter Var.
5 / 22
Beispiel
6 / 22
Varianztest unter Normalverteilung
7 / 22
Illustration
8 / 22
9 / 22
Beispiel
10 / 22
2-Stichproben-Test: Mittelwert-Vergleich
11 / 22
Mittelwert-Vergleich mit gleicher Varianz
12 / 22
Mittelwert-Vergleich mit unterschiedlicher Varianz
13 / 22
Mittelwert-Vergleich durch Mann-Whitney U-Test
Verteilung von Y und X unterscheiden sich nur in der Lage (und
deshalb im Mittelwert): FY (x) = FX (x − a).
Mann-Whitney U-Test (oder auch Wilcoxon-Mann-Whitney-Test)
testet H0 : a = 0 vs. H1 : a 6= 0
14 / 22
2-Stichproben-Test: Varianz-Vergleich
15 / 22
16 / 22
Beispiel
17 / 22
Kolmogorov-Smirnov Test für Gleichverteilung
18 / 22
Varianzanalyse (1)
Test für Null-Effekt aller Faktoren (Mittelwert der abhängigen
Variable (µ) hängt nicht von den Faktoren ab):
19 / 22
Varianzanalyse (2)
Test für Differenz in µ zwischen einzelnen Faktoren:
20 / 22
Beispiel
21 / 22
Beispiel
22 / 22
Statistik II
IV. Hypothesentests
Martin Huber
1 / 41
Übersicht
Struktur eines Hypothesentests
Stichprobenverteilung
t-Test: Einzelner-Parameter-Test
F-Test: Multiple lineare Restriktionen
2 / 41
Struktur eines Hypothesentests
1
Formuliere die Forschungshypothese und bestimme die zu testenden
Parameter. Basierend hierauf kann die Nullhypothese H0 bestimmt
werden.
2
Art der Verteilung (z.B. t-Verteilung, Normalverteilung)
3
Auswahl der Teststatistik
4
Bestimme das Signifikanzniveau (= Irrtumswahrscheinlichkeit, mit der
eine korrekte Nullhypothese irrtümlicherweise abgelehnt wird)
5
Einseitiger oder zweiseitiger Test
6
Verwerfe die Nullhypothese (falls Testergebnis signifikant) oder
behalte sie bei (falls insignifikant)
3 / 41
Stichprobenverteilung
Annahme MLR.6: Normalität
u ∼ N(0, σ 2 )
Der Fehlerterm ist unabhängig von den Kontrollvariablen und ist
normalverteilt mit Mittelwert 0 und Varianz σ 2 .
Annahme MLR.6 impliziert die Annahmen MLR.3 und MLR.5.
Zusammenfassung der Annahmen MLR.1-MLR.6 (= Annahmen des
klassischen linearen Modells)
y |(x1 , x2 , ..., xk ) ∼ N(β0 + β1 x1 + β2 x2 + ... + βk xk , σ 2 )
4 / 41
Annahme MLR.6: Normalität
u ∼ N(0, σ 2 )
Zugrundeliegende Annahmen:
Normalverteilung des Fehlerterms ist nicht unproblematisch, weil viele
Faktoren keiner Normalverteilung folgen (z.B. Löhne sind nicht
normalverteilt ⇒ logarithmische Transformation).
Weitere (potenziell problematische) Annahme: Unbeobachtete
Faktoren im Fehlerterm beeinflussen y in additiver Form.
Nicht-normal verteilte Fehlerterme unproblematisch sind, wenn die
Stichprobe gross genug ist, weil dann der Zentrale Grenzwertsatz
anwendbar ist.
Zentraler Grenzwertsatz: Die Summe/der Mittelwert einer grossen
Zahl von unabhängigen Zufallsvariablen mit endlicher und positiver
Varianz ist asymptotisch annähernd normalverteilt (sogar wenn die
Variable selbst nicht normalverteilt ist!).
5 / 41
6 / 41
Konsequenz aus MLR.6:
β̂j ∼ N βj , var (β̂j )
Standardisierung führt zu folgendem Ergebnis:
β̂j − βj
sd(β̂j )
∼ N (0, 1)
(Asymptotisch, d.h. in sehr grossen Stichproben wird MLR.6 aufgrund des
Zentralen Grenzwertsatzes allerdings nicht benötigt!)
7 / 41
t-Test: Einzelner-Parameter-Test
1
Populationsmodell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u
2
Nullhypothese: H0 : βj = 0
3
t-Verteilung für standardisierter Schätzer:
β̂j − βj
se(β̂j )
∼ tN−k−1
wobei N = Stichprobengrösse und k + 1 = Anzahl Parameter
4
Test Statistik = t-Statistik: tβ̂j ≡ β̂j /se(β̂j )
Beachte:
I
tβ̂j hat dasselbe Vorzeichen wie β̂j
I
gegeben se(β̂j ), tβ̂j steigt mit β̂j
Interpretation: tβ̂j kann interpretiert werden als “wieviele
Standardabweichungen liegt β̂j von null enfernt”
8 / 41
Einseitiger Hypothesentest:
1
Nullhypothese: H0 : βj ≤ 0 Alternativhypothese: H1 : βj > 0
2
Signifikanzniveau: α = 5% (alternativ α = 1%; 10%)
3
Verwerfungsregel: tβ̂j > c, wobei c dem 95sten Perzentil der
t-Verteilung mit N − k − 1 Freiheitsgraden entspricht, auch kritischer
Wert genannt
Intuition: Verwerfe wenn tβ̂j “gross genug” ist, d.h. wenn tβ̂j nicht im
95sten Perzentil der t-Verteilung liegt.
9 / 41
10 / 41
11 / 41
Beispiel
12 / 41
Einseitiger Hypothesentest:
1
Nullhypothese: H0 : βj ≥ 0 Alternativhypothese: H1 : βj < 0
2
Signifikanzniveau: α = 5% (alternativ α = 1%; 10%)
3
Verwerfungsregel: tβ̂j < −c, wobei c dem 95sten Perzentil der
t-Verteilung mit N − k − 1 Freiheitsgraden entspricht, auch kritischer
Wert genannt
13 / 41
Beispiel: df = 18 (z.B. N = 20, k = 1)
14 / 41
Beispiel
15 / 41
Zweiseitiger Hypothesentest:
1
Nullhypothese: H0 : βj = 0 Alternativhypothese: H1 : βj 6= 0
2
Signifikanzniveau: α = 5% (alternativ α = 1%; 10%)
3
Verwerfungsregel: |tβ̂j | > c, wobei c dem (100% − α2 Perzentil der
t-Verteilung mit N − k − 1 Freiheitsgraden entspricht
I
|tβ̂j | > c: β̂j ist statistisch signifikant bei einem Signifikanzniveau von α
I
|tβ̂j | < c: β̂j ist statistisch insignifikant
16 / 41
17 / 41
18 / 41
Beispiel
19 / 41
Weitere Hypothesen: H0 : βj = θj
Zweiseitiger Hypothesentest H0 : βj = θj , H1 : βj 6= θj
Test-Statistik:
tβ̂j =
β̂j − θj
se(β̂j )
Signifikanzniveau: α = 5%
Kritischer Wert: c = 1.96 (vorausgesetzt N ist gross genug)
20 / 41
Beispiel
21 / 41
22 / 41
p-Wert/p-value
Der p-Wert entspricht dem niedrigsten Signifikanzniveau bei welchem wir
H0 für eine gegebene t-Statistik verwerfen würden.
⇒ Signifikanzniveau der Test-Statistik
p-Wert/p-value = P(|T | > |t|)
23 / 41
24 / 41
Beispiel
25 / 41
Konfidenzintervall
Das Konfidenzintervall:
β j = β̂j − c · se(β̂j ),
β̄j = β̂j + c · se(β̂j )CI = [β j ; β̄j ]
Angenommen man würde eine sehr (unendlich) grosse Anzahl an
Stichproben aus der Population ziehen und in jeder β j und β̄j berechnen,
dann würde der wahre Wert βj mit einer Häufigkeit von 1 − α (bezogen
auf die Anzahl der gezogenen Stichproben) innerhalb von [β j ; β̄j ] liegen.
(α gibt wiederum das Signifikanzniveau an.)
Anders formuliert: Das Konfidenzintervall ist jenes Intervall, das bei
unendlicher Wiederholung des Stichprobenziehung mit einer Häufigkeit von
1 − α den wahren Wert βj inkludiert.
Für α = 0.05 ist der wahre Wert von βj in 95% der Stichproben inkludiert
(in 5% allerdings nicht).
26 / 41
Illustration
Quelle: Wikipedia
27 / 41
Illustration
28 / 41
t-Test: Einzelner-Parameter-Kombination
1
Lineares Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u
2
Nullhypothese: H0 : β1 = β2 or H0 : β1 − β2 = 0
3
Test-Statistik:
t=
β̂1 − β̂2
se(β̂1 − β̂2 )
Ab hier gehen wir vor wie zuvor: Wähle das Signifikanzniveau und
bestimme den entsprechenden kritischen Wert, oder berechne die
t-Statistik und bestimme den entsprechenden p-Wert.
Achtung:
q
q
se(β̂1 − β̂2 ) = var (β̂1 − β̂2 ) = var (β̂1 ) + var (β̂2 ) − 2cov (β̂1 , β̂2 )
29 / 41
Beispiel
30 / 41
F-Test: Multiple lineare Restriktionen
Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u
Nullhypothese: H0 : βk−q+1 = 0, βk−1+2 = 0, βk = 0
⇒ Testen von Ausschlussrestriktionen (exclusion restrictions)
Achtung: t-Test ist ungeeignet, da dieser die Parameter einzeln,
unabhängig voneinander testet. Wir wollen die Parameter jedoch
gemeinsam testen: Gemeinsamer Signifikanztest (“joint significance
test”)
Restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk−q xk−q + u
31 / 41
F-Statistik:
F =
I
I
I
I
(SSRr − SSRur )/q
SSRur /(N − k − 1)
SSRr =Summe der quadrierten Residuen (sum of squared residuals:
SSR) der restringierten Schätzung
SSRur =SSR der nicht restringierten Schätzung
q = Freiheitsgrade des Zählers = dfr − dfur
N − k − 1 = Freiheitsgrade des Nenners
Intuition: F-Statistik entspricht dem prozentualen Anstieg des unerklärten
Teils, gewichtet mit den Freiheitsgraden
Verwerfen: F > c
(wobei c abhängt von q, N − k − 1 und α, mindestens ein Koeffizient
ist statistisch signifikant)
Nicht verwerfen: F < c
(Koeffizienten sind gemeinsam insignifikant)
32 / 41
33 / 41
34 / 41
F-Statistik:
F =
(SSRr − SSRur )/q
SSRur /(N − k − 1)
2 ) können
Gegeben, dass SSRr = SST (1 − Rr2 ) und SSRur = SST (1 − Rur
wir die F-Statistik folgendermassen ausdrücken:
F =
2 − R 2 )/q
(Rur
r
2 )/(N − k − 1)
(1 − Rur
Intuition: Die F-Statistik entspricht dem gewichteten Anstieg in R 2 wenn
wir mehr Variablen mit ins Modell nehmen.
35 / 41
Beispiel (1)
36 / 41
Beispiel (2)
37 / 41
Beispiel (3)
38 / 41
F-Test: Test auf irgendwelche signifikanten Effekte
(“overall significance test”)
Besondere Form des Tests auf gemeinsame Signifikanz: ‘
Nullhypothese: H0 : β1 = 0, β2 = 0, ..., βk = 0
Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + ... + βk xk + u
Restringiertes Modell: y = β0 + u
⇒ Achtung: Rr2 = 0
Test-Statistik:
F =
R 2 /k
(1 − R 2 )/(N − k − 1)
39 / 41
F-Test: Allgemeine lineare Restriktionen
Nicht restringiertes Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + u
Nullhypothese: H0 : β1 = 1, β2 = 0, β3 = 0, β4 = 0
Restringiertes Modell: y − x1 = β0 + u
Test-Statistik:
F =
(SSRr − SSRur )/4
SSRur /(N − 4 − 1)
40 / 41
F-Test: p-Werte
p-value = P(F > F )
Niedrigstes Signifikanzniveau, bei welchem wir H0 für eine gegebene
Statistik verwerfen würden: Signifikanzniveau der Test-Statistik
Zusammenhang zwischen F- und t-Statistiken:
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + u
H0 : β1 = 0; q = 1
Achtung:
I
2
tN−k−1
= F1,N−k−1
41 / 41
Herunterladen