Lineare Regression mit einem Regressor: Einf ¨uhrung

Werbung
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Lineare Regression mit einem Regressor: Einführung
• Quantifizierung des linearen Zusammenhangs von zwei Variablen
• Beispiel Zusammenhang Klassengröße und Testergebnis
o Wie verändern sich Testergebnisse, wenn sich die Klassengröße um
eine bestimmte Anzahl an Schülern verändert
βKG
Änderung Testergebnisse
∆TE
=
=
∆KG
Änderung Klassengröße
o Interpretation βKG: Ändert sich KG um 1 Schüler (1 Einheit), verändert
sich TE um βKG Punkte
o ∆TE = βKG · ∆KG
βKG = −0.6, ∆KG = −2
⇒
∆TE = −0.6 · (−2) = 1.2
1
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Lineare Regression mit einem Regressor: Einführung
• Graphische Interpretation: βKG ist Steigung einer Geraden, die die
Beziehung zwischen TE und KG beschreibt:
o TE = β0 + βKG KG
o β0 ist Konstante (Achsenabschnitt) der Geraden
• Problem: alle anderen Faktoren, die (potentiellen) Einfluß auf TE haben,
sind unberücksichtigt
o Erweiterung: TE = β0 + βKG KG + andere Faktoren
2
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Formales Modell
• Yi = β0 + β1Xi + ui, i = 1, . . . , n
o Yi: Ø Testergebnisse im Schuldistrikt i (gemessen in Punkten)
o Xi: Ø Größe der Schulklassen in Distrikt i
= Anzahl der Schüler pro Lehrer im Distrikt i
o ui: Effekte aller anderen Faktoren im Distrikt i
o β0 ist Konstante und β1 ist Steigungsparameter der Geraden
o n = 420
3
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Lineares Regressionsmodell
• Yi = β0 + β1Xi + ui ist lineares Regressionsmodell mit einem Regressor
o Y : abhängige (zu erklärende) Variable
o X: Regressor bzw. unabhängige (erklärende) Variable
o Vorgabe der Erklärungsrichtung von X nach Y
• β0 + β1X ist Regressionsgerade bzw. Regressionsfunktion der
Grundgesamtheit
• Konstante β0 und Steigungsparameter β1 sind die Regressionskoeffizienten bzw. -paramter der GG
o ändert sich X um 1 Einheit, ändert sich Y um β1 Einheiten
o β0: Wert der Regressionslinie für X = 0 (nicht immer interpretierbar)
4
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Lineares Regressionsmodell
• ui: Fehlerterm
o Differenz zwischen tatsächlichem Yi (Testergebnis) und Wert gegeben
durch Regressionsgerade
o bestimmt durch alle ausgelassenen Faktoren
5
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Ziele
• Schätzung der Parameter β0 und β1 der Grundgesamtheit
Wie eine Gerade durch X, Y -Daten legen?
• Hypothesentests bzgl. β1 (β0)
• Konfidenzintervalle
6
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Schätzung der Regressionsparameter
• Wie β0 und β1 schätzen
• Kriterien:
o Minimiere Summe der Abweichungen von Punkten und Gerade
Problem: positive und negative Abweichungen heben sich auf
o Minimiere Summe der absoluten Abweichungen
Probleme : formal schwierig anzuwenden, oft keine eindeutigen
Lösungen
o Minimiere quadratische Abweichungen (KQ-Methode)
Vorteile: große Abweichungen werden stärker bestraft“, leicht zu
”
berechnen, in vielen Fällen gute bzw. sogar optimale Eigenschaften
⇒ Wir verwenden Methode der Kleinsten Quadrate (KQ)
7
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Herleitung des KQ-Schätzers
• Minimiere Summe der quadrierten Abweichungen der prognostizierten
Werte Ŷi = β̂0 + β̂1Xi von den tatsächlichen Werten Yi
• Yi − Ŷi = ûi ist Residuum
⇒ Minmiere sog. Residuenquadratsumme S(β̂0, β̂1) =
Pn ³
i=1
Yi − Ŷi
´2
´2
´2
Pn ³
Pn ³
• min i=1 Yi − Ŷi = min i=1 Yi − β̂0 − β̂1Xi
β̂0 ,β̂1
β̂0 ,β̂1
o setze 1. Ableitungen bzgl. β̂0 und β̂1 gleich Null
o löse nach β̂0 und β̂1 auf
8
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Herleitung des KQ-Schätzers
• KQ-Schätzer
¢¡
¢
Pn ¡
\
Yi − Y
Cov
(X, Y ) sXY
i=1 Xi − X
o β̂1 =
=
= 2
¢2
Pn ¡
sX
\
Var (X)
i=1 Xi − X
o β̂0 = Y − β̂1X
• KQ-Schätzer β̂0 und β̂1 sind Zufallsvariablen!
• Arithmetisches Mittel Y einer Stichprobe ist KQ-Schätzer!
9
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Terminologie
• KQ-Regressionsgerade: Gerade gegeben durch β̂0 + β̂1X
• Prognostizierter Wert (Prognosewert) von Yi gegeben Xi:
Ŷi = β̂0 + β̂1Xi
• Residuum für i-te Beobachtung: ûi = Yi − Ŷi
o Residuum ûi ist das KQ-Äquivalent zum Fehlerterm ui
10
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Beispiel: Klassengröße
• Schätzergebnisse: β̂0 = 698.9 und β̂1 = −2.28
• Interpretation β̂1: Schulbezirke mit einem Schüler mehr pro Lehrer,
erreichen durchschnittlich 2.28 Punkte weniger in den Tests
• Interpretation β̂0: ist nicht sinnvoll, Punkteanzahl bei Null Schülern pro
Lehrer
• Interpretation von Ŷi und ûi: siehe Illustration
11
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Gütemaße
• Wie gut beschreibt die Regressionsgerade die Daten?
• Zwei Maße: Bestimmtheitsmaß R2 und Standardfehler der Regression sû
12
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Bestimmtheitsmaß R2
• Bestimmtheitsmaß R2 beschreibt den Anteil der Varianz von Yi der durch
Xi bzw. die Regression erklärt wird
Yi = Ŷi + ûi
⇒
Stichprobenvarianz von Ŷi ESS
=
R =
Stichbrobenvarianz von Yi
TSS
2
• Erklärte Variation von Y (explained sum of squares)
´2
³
´
Pn ³
o ESS = i=1 Ŷi − Y ,
Ŷ = Y
• Gesamtvariation von Y (total sum of squares)
¢2
Pn ¡
o TSS = i=1 Yi − Y
• Residuenquadratsumme (sum of squared residuals): SSR =
SSR
2
⇒ R =1−
, da TSS = ESS + SSR
TSS
Pn
2
i=1 ûi
13
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Bestimmtheitsmaß R2
• 0 ≤ R2 ≤ 1
• R2 = 0
⇒
ESS = 0 (nichts wird erklärt)
• R2 = 1
⇒
ESS = TSS (alles wird erklärt)
14
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Standardfehler der Regression
• Schätzer für Standardabweichung der Fehlerterme ui
r
r
Pn
1 Pn
SSR
2
¯
• sû =
û =
(û = 1/n i=1 ûi = 0)
n − 2 i=1 i
n−2
o ”Standardabweichung der Residuen ûi”
• Wieso n − 2?
o Korrektur für Anzahl der geschätzten Parameter: Freiheitsgrade
Hier: β0 und β1
• Beispiel: Klassengröße
o R2 = 0.051 (sehr klein)
o sû = 18.6 (relativ große Streuung der Residuen im Streudiagramm)
o Interpretation: vermutlich viele (relevante) Faktoren ausgelassen
15
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Annahmen der KQ-Schätzung
• Annahmen notwendig um Eigenschaften des KQ-Schätzer abzuleiten,
nicht notwendig für Anwendung!
• Spezifikation von Annahmen, für die KQ-Schätzung gute“Ergebnisse
”
liefert
• Orientierung für Anpassung des Schätzer bei Verletzung der Annahmen
16
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Annahme # 1: Bedingter Erwartungswert von ui ist Null
• E [ui|Xi] = E [ui|Xi = x] = 0
o Xi ist stochastisch, d.h. ist eine Zufallsvariable
• Andere Faktoren in ui stehen in keinem systematischen (linearen)
Zusammenhang zu Xi
o E [ui|Xi] = 0
⇒
Cov (Xi, ui) = 0
o Merke: ui und Xi unabhängig ⇒ E [ui|Xi] = 0
o
X verhält sich so, als ob es im Rahmen eines randomisierten
”
Kontrollexperiment unabhängig von anderen Faktoren variiert wird “
17
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Annahme # 1: Bedingter Erwartungswert von ui ist Null
• ui ist im Mittel Null: E[ui] = E[E (ui|Xi)] = E[0] = 0
o Alle Faktoren in ui addieren sich im Mittel zu Null
• E [Yi|Xi] = β0 + β1Xi
o Regressionsgerade entspricht bedingtem Erwartungswert von Y
gegeben X
• Annahme relevant um E[β̂0] und E[β̂1] zu bestimmen
18
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Annahme # 2: (X, Y ) sind identisch, unabhängig verteilt
• (X, Y ) sind gemeinsam identisch und unabhängig (iid)
• Annahme garantiert, dass eine einfache Zufallsstichprobe aus einer
Grundgesamtheit vorliegt
• Regressor X ist auch stochastisch!
• Annahme relevant zur Bestimmung der Verteilung von β̂0 und β̂1:
Anwendung des ZGS für iid Variablen
19
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Annahme # 3:
Extreme Ausreißer bzgl. Xi und Yi sind unwahrscheinlich
• Ungewöhnlich große Werte (weit entfernt vom üblichen Wertebereich)
können KQ-Schätzung verzerren
• Eine mögliche formale Spezifikaton:
o E[Xi4] < ∞ und E[Yi4] < ∞
o endliche vierte Momente (Kurtosis)
o viele Ausreißer führen zu hohen Kurtosiswerten
• Wichtig um Konsistenz von Varianzschätzer zu zeigen
o Erinnerung: Gesetz der großen Zahlen für iid-Variablen Yi mit
4
2 p
E[Yi ] < ∞ ⇒ sY → σY2
20
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Zusätzliche Annahme # 4:
Bedingte Varianz der Fehlerterme ist konstant
• E[u2i |Xi] = σu2
∀i
• vereinfacht Ableitung und Interpretation der Eigenschaften (Varianz) der
KQ-Schätzer
• Folgen der Annahmenverletzung werden später diskutiert
21
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Eigenschaften des KQ-Schätzers
• Erinnerung: β̂0 und β̂1 sind Zufallsvariablen
• Man kann bei Gültigkeit der Annahmen 1-3 zeigen, dass gilt:
E[β̂0] = β0 und E[β̂1] = β1
o β̂0 und β̂0 sind erwartungstreu, d.h. unverzerrt
• Bei Gültigkeit der Annahmen 1-4 ergibt sich:
Var[β̂0] =
σβ̂2
0
E(Xi2)σu2
=
2
nσX
Var[β̂1] =
σβ̂2
1
σu2
=
2
nσX
22
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Eigenschaften der KQ-Schätzer
• Asymptotische Verteilung: Es gibt ZGS für iid Variablen, so dass
³
´
d
β̂0 → N β0, σβ̂2
und
0
d
³
β̂1 → N β1, σβ̂2
´
1
o Verteilungsapproximation für große n
o Durchführung von Hypothesentests bzgl. β̂0 und β̂1 und Bestimmung
von Intervallschätzern
• Beachte σβ̂2 und σβ̂2 gehen gegen Null für n → ∞, bevorzuge
0
0
β̂i − βi d
→ N (0, 1),
σβ̂i
i = 0, 1
23
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Implikationen der Eigenschaften der KQ-Schätzer
• β̂0 und β̂1 sind konsistente Schätzer für β0 und β1
o Wieso?
• Var(u2i ) = σu2 ⇑ ⇒
2
• Var(Xi2) = σX
⇑
⇒
Var(β̂0) ⇑ und Var(β̂1) ⇑
Var(β̂1) ⇓
24
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Homoskedastizität vs. Heteroskedastizität
• Annahme 4: E[u2i |Xi] = σu2 für alle i: Homoskedastizität
o Bedingte Varianz für alle i ist konstant
2
• Heteroskedastizität liegt vor, falls E[u2i |Xi] = σu,i
verschieden ist für
Einheiten i
• Beispiel: Lohnregression für Männer und Frauen
o Löhne der Frauen haben höhere Varianz
2
2
o Spiegelt sich in höherer Varianz der Fehlerterme wieder: σu,F
> σu,M
25
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Konsequenzen von Heteroskedastizität
• Varianzformeln für β̂0 und β̂1 gelten nicht mehr
• Komplexere Formeln z. B.
σβ̂2 =
1
1 Var[(Xi − µX )ui]
n
[Var(Xi)]2
• β̂0 und β̂1 bleiben aber weiterhin erwartungstreu (Annahmen 1-3 sind
hinreichend) und konsistent (σβ̂2 → 0, i = 0, 1, gilt weiterhin)
i
26
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Implikationen für empirische Arbeit
• Heteroskedastizität ist für viele Situationen realistisch
• Tests auf Heteroskedastizität
o oft nicht gute Eigenschaften
• Häufige Empfehlung: Anwendung der Varianzformel bzw. Varianzschätzer
für Heteroskedastizität
o sind auch bei Homoskedastizität gültig
o Aber: Trade-off von geringer Fehlerwahrscheinlichkeit vs. Effizienz
• Informelle Evidenz für Heteroskedastizität
o Deutlich abweichende Varianzschätzwerte bei Homoskedastitzität und
Heteroskedastizität
27
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Optimalität der KQ-Schätzer
• Wenn Annahmen # 4 erfüllt ist, kann man zeigen, dass die KQ-Schätzer
BLUE sind (gegeben X1, ..., Xn)
BLUE: Best Linear Unbiased Estimator
• KQ-Schätzer haben die kleinste Varianz gegeben X1, ..., Xn (bedingte
Varianz) aus der Klasse aller linearen unverzerrter Schätzer
• Linear: Lineare Funktion von Yi
• Gauss-Markov Theorem
• Optimalität gilt nicht, falls Annahme # 4 verletzt ist
28
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Hypothesentests
• Typische Fragestellung: Gibt es Evidenz dafür, dass eine Reduzierung der
Klassengröße zu besseren Schülerleistungen (Testergebnissen) führt?
• Beantwortung: einseitiger Hypothesentest bzgl. β1 mit
H0: β1 ≥ 0
vs.
β1 < 0
• Plan
o Zweiseitiger Hypothesentest bzgl. β1 (Hat die Klassengröße überhaupt
einen Effekt auf die Testergebnisse)
o Einseitiger Hypothesentest bzgl. β1
o Hypothesentest bzgl. β0
29
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Zweiseitiger Hypothesentest bzgl. β1
• ZGS:
d
β̂1 → N (β1, σβ̂2 )
1
o Verteilungsergebnis analog zu Y
⇒ Wende t-Test nun analog bzgl. β̂1 an
30
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Testanwendung: 5 Schritte
1.) Hypothesenspezifikation: H0 : β1 = β1,0
vs.
H1 : β1 6= β1,0
o β1,0 ist der Wert, der überprüft werden soll
o Beispiel: β1,0 = 0 ⇒ Hat die KG überhaupt einen Einfluss?
2.) Teststatistik aufstellen
β̂1 − β1,0 d
t=
→ N (0, 1)
σ̂β̂1
o Müssen σ̂β̂1 schätzen: Heteroskedastie oder HomoskedastieAnnahme treffen
31
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Testanwendung: 5 Schritte
3.) Teststatistik mit Hilfe der Schätzergebnisse berechnen ⇒ tact
4.) p-Wert mit Hilfe N (0, 1) Verteilung ermitteln
¡
act
p-Wert = P |t| > |t
¡ act ¢
= 2Φ −|t |
¢
|
32
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Testanwendung: 5 Schritte
5.) Testentscheidung
o Signifikanzniveau wählen, z. B. α = 0.05
o p-Wert < α ⇒ Lehne H0 ab
o p-Wert ≥ α ⇒ Lehne H0 nicht ab
o Alternative: Vergleich von tact und kritischen Wert zum
Signifikanzniveau α
Beispiel: α = 0.05 ⇒ kritischer Wert = 1.96
Lehne H0 ab, falls |tact| > 1.96
33
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Testanwendung: Beispiel
• KQ-Regressionsergebnisse für Schuldaten
c = 698.9 − 2.28 KG,
TE
(10.4) (0.52)
o σ̂β̂0 = 10.4
und
R2 = 0.051, su = 18.6
σ̂β̂1 = 0.52
o Standardabweichungen heteroskedastie-robust geschätzt
34
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Testanwendung: Beispiel
• H0 : β1 = 0
vs.
H1 : β1 6= 0
(β1,0 = 0)
o Signifikanzniveau α = 0.05
o kritischer Wert: 1.96
t=
β̂1 − 0
σ̂β̂1
⇒
tact =
o ⇒ p-Wert = 0.000012
2.28 − 0
= −4.38
0.52
oder
0.0012%
o p-Wert < α ⇒ Lehne H0 zum Signifikanzniveau 0.05 ab, d. h. KG
hat signifikanten Einfluss auf TE
o |tact| > 1.96 ⇒ Lehne H0 ab
35
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Einseitiger Test bzgl. β1
• Auf Basis des zweiseitigen Tests dürfen wir formal nur schlussfolgern,
dass β1 zum Niveau α = 0.05 signifikant von Null abweicht; nicht aber ob
die Abweichung signifikant positiv oder negativ ist
• Einseitiger Test für Entscheidung über Vorzeichen der Abweichung
o H0 : β1 ≥ β1,0
vs.
H1 : β1 < β1,0
o H0 : β1 ≤ β1,0
vs.
H1 : β1 > β1,0
• Beispiel: Positiver Einfluss der Reduzierung der KG auf TE
H0 : β1 ≥ 0
vs.
H1 : β1 < 0
o Beachte β1 < 0 unter H1, da wir KG reduzieren
36
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Einseitiger Test bzgl. β1
• Achtung: Aussage in S&W, dass H0 : β1 = β1,0 ist nicht korrekt! Formal
müssen H0 und H1 den gesamten Wertebereich von β1 abdecken.
• Praktisch ist β1 = β1,0 der Wert in H0, der am schwierigsten abzulehnen
ist.
• Deshalb wird β1 = β1,0 für die Testdurchführung verwendet
o β1 = β1,0 liegt am nächsten zu H1“
”
37
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Einseitiger Test bzgl. β1
• Nehme β1 = β1,0 als Wert aus H0 für Testdurchführung
o Teststatistik wie für zweiseitigen Test berechnen
o Ermittlung der Testentscheidung und Interpretation ändern sich ⇒
Betrachte nur noch eine Seite
38
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Einseitiger Test: Beispiel KG
• Effekt der Schulklassengröße
• H0 : β1 ≥ 0
vs.
H1 : β1 < 0
• Signifikanzniveau: α = 0.05
⇒
kritischer Wert = −1.6454
• tact = −4.38
• p-Wert= P (t < tact) = Φ(tact) = 0.000006
• Lehne H0 zum Signifikanzniveau α = 0.05 ab, d. h. Verringerung der KG
hat einen signifikant positiven Effekt auf TE bzw. KG hat einen signifikant
negativen Effekt auf TE
39
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Einseitiger Test mit H1 : β1 > β1,0
• Bei
H0 : β1 ≤ β1,0
vs.
H1 : β1 > β1,0
• p-Wert = P (t > tact) = 1 − Φ(tact)
40
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Bestimmung der Alternativhypothesen
• Standardwahl: zweiseitiger Test
• Einseitiger Test, nur wenn gute (ökonomische) Gründe vorliegen
o a priori oft nicht klar, ob β1 ≥ β1,0 oder β1 ≤ β1,0 sinnvollere Alternative
o Gefahr der Verfälschung der Testentscheidung
41
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Hypothesentests bzgl. β0
• Analog zu β1
• H0 : β0 = β0,0
vs.
β0 6= β0,0
• H0 : β0 ≤ β0,0
vs.
β0 > β0,0
• H0 : β0 ≥ β0,0
vs.
β0 < β0,0
• Teststatistik:
β̂0 − β0,0
t=
σ̂β̂0
42
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Konfidenzintervall für Regressionsparameter
• Ableitung und Schätzung analog zu µY
• (1 − α) − Konfidenzintervalle:
n
o
β̂1 ± zα/2 σ̂β̂1
β1 :
β0 :
n
o
β̂0 ± zα/2 σ̂β̂0
• Beispiel:
α = 0.05
⇒
zα/2 = 1.96
• Beispiel für Schulklassendaten: siehe Illustration
43
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Regression mit binären Variablen
• Bisher stetige Variablen als Regressor betrachtet z. B. ∅ Klassengröße
• In vielen Anwendungen werden sogenannte binäre Variablen benötigt
o Nehmen nur zwei Werte an, z. B. 0 und 1
½
X1 =
½
X2 =
1 falls Schülerin
0 falls Schüler
1
0
falls Schuldistrikt in der Stadt
falls Schuldistrikt in ländl. Region
o Binäre Variable werden auch als Indikatorvariablen oder
Dummyvariablen bezeichnet
44
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Regression mit binären Variablen: Anwendungsbeispiel
• KQ-Regression wie für stetige Variablen, aber Interpretation von β1
ändert sich
• Regressor Di mit
½
1 falls ∅ KG im Distrikt i < 20
Di =
0 falls ∅ KG im Distrikt i ≥ 20
• Regressionsmodell
Yi = β0 + β1Di + ui,
i = 1, ..., n
• Di kann nur zwei Werte annehmen
o Interpretation von β0 + β1Di als (Regressions-) Gerade und β1 als
Steigungsparameter ist nicht sinnvoll
45
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Binäre Variablen: Interpretation
• Di = 0
o Regressionsmodell vereinfacht sich zu Yi = β0 + ui
o E[Yi|Di = 0] = β0
o β0 ist Erwartungswert der GG, falls die ∅ KG hoch ist
• Di = 1
o E[Yi|Di = 1] = β0 + β1
o β0 + β1 ist Erwartungswert der GG, falls die ∅ KG klein ist
46
Empirische Volkswirtschaftslehre
2. Lineares Regressionsmodell
Binäre Variablen: Interpretation
• β1 beschreibt den Unterschied in den EWen der GG für den Fall von
großen und kleinen ∅ KG
o β̂1 misst den Unterschied in den Stichprobenmitteln für kleine und
große Klassen
• t-Test mit
H0 : β1 = 0
vs.
H1 : β1 6= 0
o Test auf Erwartungswert bzw. Mittelwertunterschiede zw. beiden
Untergruppen
• Anwendung auf Schulklassendaten (siehe Illustration)
c = 650.0 + 7.4 D,
TE
(1.3) (1.8)
R2 = 0.035, sû = 18.7
47
Zugehörige Unterlagen
Herunterladen