Ökonometrie

Werbung
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–1
Leitfragen und Lernziele Kapitel 1:
•
Womit beschäftigt sich die Ökonometrie, wie geht man bei empirischen Analysen vor?
•
Welche Datenstrukturen gibt es?
•
Wie unterscheiden sich Kausalität und Korrelation?
•
Welche Vorkenntnisse werden vorausgesetzt?
1–2
1.1 Technische Bemerkungen
1.1.1 Vorlesung
Termin:
Montag, 9:45-11:15 H4, ab 15.4.2013
nicht: 15.7. Ersatztermine: 26.4. 9:45-11:15 H4.
Sprechstunde:
Klausur:
(i)
Nach Vorlesung
(ii)
Nicht per E-Mail
Termin setzt Prüfungsamt
Dauer: 90 Minuten (ca. 50 Punkte offene Fragen,
ca. 40 Punkte w/f, MC)
1–3
Hilfsmittel:
- Nicht programmierbarer Taschenrechner
- Wörterbuch für ausländische Studierende
- Formelsammlung wird bereitgestellt
Folien:
Download unter: www.lsw.wiso.uni-erlangen.de
→ Studium → Bachelor → Praxis d. emp. W.
Praxisvorträge: Gegen Ende des Semesters bieten wir Ihnen im
Rahmen der Vorlesung Kurzvorträge zur Bedeutung empirischen Arbeitens in der Berufspraxis
an.
1–4
1.1.2 Übungen
Anmeldung über StudOn erforderlich
Teil 1:
PC Übungen
Teil 2:
Termine:
Hörsaal Übungen
siehe www.lsw.wiso.uni-erlangen.de
Tipp: - Suchen Sie sich eine Übung mit kleiner Studierendenzahl
- Parallelveranstaltungen, gleiches Programm
- Beginn: 17. Kalenderwoche (ab 23.4.)
- Lehrveranstaltungen im PC-Pool, siehe Aushang, Webseite
1–5
1.1.3 Tutorien
Ab Semestermitte werden parallele klausurvorbereitende Tutorien
angeboten. Bitte Aushang und Webseite beachten
1–6
1.1.4 Lehrbuch
Die Veranstaltung folgt dem Lehrbuch: Jeffrey M. Wooldridge,
Introductory Econometrics. A Modern Approach, 5. Auflage, 2013,
South-Western CENGAGE Learning
1–7
1.1.5 Hausarbeit
•
Durch das Erstellen einer freiwilligen empirischen Hausarbeit
können Sie Ihre SPSS Kenntnisse vertiefen und erste Erfahrungen im Arbeiten mit Daten sammeln. Bei Notenverbesserung wird die Note der Hausarbeit zu 20% auf Ihre Gesamtnote
(unabhängig vom Ausgang der Klausur) angerechnet.
•
Die Note wird angerechnet, wenn Sie die Klausur im laufenden
oder im folgenden Semester antreten. Anschließend verfällt die
Note; die Hausarbeit kann dann neu angefertigt werden.
1–8
•
Sie können sich in Gruppen von bis zu 3 Personen bis zum
8.5.2013 zur Hausarbeit anmelden. Die Themen werden ab
dem 13.5.2013 vergeben. Abgabetermin ist der 12.08.2013. (s.
Detailinformationen im Netz).
•
Die Bearbeitung der Hausarbeit erfordert, dass Sie selbständig
mit SPSS umgehen und sich diesbezügliche Problemlösungskompetenzen aneignen. Die Hausarbeiten setzen teilweise die Vorlesungsinhalte der letzten Semesterwochen voraus, so dass die sofortige Lösung nicht immer optimal ist.
•
Die Hausarbeiten umfassen im Normalfall 2 bis 3 Seiten. Die
Antworten sollten im Fließtext (keine Stichworte) verfasst sein.
1–9
1.1.6 Lerntipps
•
Lesen Sie voraus
•
Arbeiten Sie die Folien mehrfach durch
•
Arbeiten Sie in Kleingruppen
•
Wiederholen Sie den Stoff frühzeitig, um Lücken zu erkennen
•
Hilfsmittel: Leitfragen der Kapitel
Schlüsselbegriffe am Kapitelende
Fragen im Lehrbuch (mit Antworten im Anhang F)
1–10
1.1.7 Ziele der Veranstaltung
Ziel 1: Interesse am empirischen Arbeiten wecken (Gastvorträge,
Auswertung Ihrer Daten)
Ziel 2: Vermittlung von Grundkenntnissen zu
(1) Datenverarbeitung am PC
(2) Intuition und Vorgehensweise des Kleinstquadrateverfahrens
(3) Eigenschaften von Schätzverfahren und Anwendungen
(4) Fehlerquellen beim empirischen Arbeiten
1–11
Motivation:
(1) Empirisches Arbeiten macht Spaß
(2) Methode ist gängiges Instrumentarium in Wissenschaft und
Praxis
(3) Mit empirischen Verfahren lassen sich Fragen beantworten,
theoretisch abgeleitete Hypothesen testen (Stichwort: kritischer Rationalismus), Prognosen erstellen, Evaluationen
durchführen
1–12
1.1.8 Gliederung der Veranstaltung
1.
Einführung und Repetitorium
2.
Das einfache Regressionsmodell
3.
Multiple Regression: Schätzung
4.
Multiple Regression: Inferenz
5.
Asymptotische Eigenschaften des KQ Schätzers
6.
Anwendungen des KQ Schätzers
7.
Binäre Variablen
1–13
1.1.9 Anforderungen der Veranstaltung
•
Englischsprachiges Lehrbuch
•
Überblick über „Ökonometrie“ verschaffen (Fortsetzungsveranstaltung folgt im Wintersemester)
•
PC-Kompetenz erwerben, insbes. SPSS
•
Schlüsselbegriffe und Methoden verstehen
•
Grundverständnis für empirisches Arbeiten erwerben
•
Teilweise werden Konzepte aus der Veranstaltung "Statistik"
wiederholt und vertieft.
1–14
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–15
1.2 Einführung: Ökonometrie und Daten
1.2.1 Ökonometrie und empirische Analyse
•
Ökonometrie nutzt statistische Methoden, um ökonomische
oder soziale Zusammenhänge zu quantifizieren, Theorien zu
testen, Prognosen zu erstellen, Regierungs- und Geschäftspolitiken zu evaluieren.
•
Die Anwendungen finden sich in zahlreichen Gebieten.
•
Im Normalfall liegen Beobachtungsdaten vor, die vom Forscher gesammelt werden (Gegenteil: im Labor erhobene Experimentaldaten).
1–16
•
Vorgehensweise der „Empirischen“ Analyse
(1)
Präzise Frage formulieren
(2)
Ökonomisches Modell ableiten, um Verhalten zu erklären z.B.: y = f ( x1, x2, …, x7 ),
crime = f ( legaler Lohn, illegaler Lohn, … )
(3)
Ökonometrisches Modell aufstellen, d.h. Konkretisieren von f und allen Variablen. Nicht alle Faktoren sind
beobachtbar, eine Restgröße (u) bleibt immer.
1–17
Beispiel 1: crime = β0 + β1 legaler Lohn
+ β2 illegaler Lohn + … + u
u wird Störterm, Residuum oder Fehlerterm genannt.
β0, β1, β2 sind konstante Parameter des Modells, geben
Art und Ausmaß der Zusammenhänge zwischen crime
und Lohn an.
Beispiel 2: Konkretisierung einer allgemeinen Gleichung
für den Stundenlohn: wage = f ( educ, exper, female ):
wage = β0 + β1 educ + β2 exper + β3 female + u
1–18
Beispiel 3: Zusammenhang zwischen Einkommen der
Generationen einer Familie:
Einkommen_Kind = β0 + β1 Einkommen_Eltern + ... + u
Beispiel 4: Rolle von Korruption für nationales Wirtschaftswachstum:
Wachstum = β0 + β1 Korruptionsintensität + β2 Bildung +
... + u
1–19
(4)
Hypothesen formulieren
z.B.: Lohn der legalen Beschäftigung hat keinen Einfluss
auf kriminelle Aktivität: β1 = 0
z.B.: Die Löhne von Frauen und Männern sind im Mittel
gleich: β3 = 0
z.B.: Je höher das Einkommen der Eltern, umso höher das
ihrer Kinder: β1 > 0
z.B.: Korruption ist für das Wachstum schädlich: β1 < 0
(5) Daten sammeln
(6) Modell ökonometrisch schätzen und Hypothesen testen
1–20
(7) Gelegentlich: Ergebnisse für Prognosen nutzen
1–21
1.2.2 Datenstrukturen
1.2.2.1 Querschnittsdaten
•
Querschnittsdaten beschreiben eine Stichprobe von Beobachtungen zu einem Zeitpunkt.
•
Typische Annahme: Zufallsstichprobe aus der Grundgesamtheit.
•
Mikrodatenbeispiel für Querschnittsdaten:
1–22
1–23
1.2.2.2 Zeitreihendaten
•
Zeitreihendaten beschreiben die Entwicklung einzelner Variablen über die Zeit
•
Vergangenheit beeinflusst die Gegenwart, Zeit ist ein relevanter
Faktor, Reihenfolge der Beobachtungen bedeutsam
•
Messfrequenz kann sehr verschieden sein: minutengenaue Aktienpreise, wöchentliche Umsätze, Jahresinflation, …
•
Besonderheit: Saisonalität
•
Zeitreihendatenbeispiel
1–24
1–25
1.2.2.3 Gepoolte Querschnitte
•
Kombination von Querschnittserhebungen verschiedener Zeitpunkte
•
Erlaubt, Wirkung von Änderungen zu messen, z.B. Auswirkung
der Änderung der Grundsteuer auf die Immobilienpreise:
1–26
1–27
1.2.2.4 Paneldaten
•
Wiederholte Messungen für jede Beobachtungseinheit (z.B. Individuen, Firmen, Regionen)
•
Beispiel: 2-Jahres-Panel für 150 Städte (300 Beobachtungen),
je eine Beobachtung von 1986 und eine von 1990.
1–28
1–29
1.2.3 Kausalität und die ceteris paribus Interpretation
•
Häufig von zentralem Interesse: Kausaler Effekt der Variable
X auf Variable Y. Nicht jede Korrelation beschreibt einen kausalen Zusammenhang!
•
Die ceteris paribus Interpretation beschreibt den kausalen
Effekt einer Größe X auf Y unter der Annahme, dass alle anderen Einflussfaktoren konstant bleiben.
Beispiel: Effekt von PKW-Preisen auf die PKW-Nachfrage, bei
gegebenen Preisen für Benzin, Versicherung, andere PKWTypen
1–30
•
Wenn es gelingt, alle anderen relevanten Faktoren konstant zu
halten, lässt sich der ceteris paribus Effekt als kausale Wirkung
interpretieren.
Man kann sich aber selten sicher sein, dass alle relevanten
Faktoren erfasst wurden.
•
Hilfreich, um kausale Effekte zu etablieren: Experimente
•
Beispiel 1: Effekt von Düngung auf Sojabohnenernte
→ Experiment denkbar
•
Beispiel 2: Auswirkung von Schulbildung auf Löhne
→ Experiment schwierig
1–31
•
Problem bei nicht-experimentellen bzw. Beobachtungsdaten:
(a) Individuen wählen Schulbildung.
(b) Bei langer Bildung wenig Berufserfahrung, muss herausgerechnet werden.
(c) Hohe Fähigkeiten führen zu Bildung und hohen Löhnen.
•
Beispiel 3: Führt die Zahl der Streifenpolizisten zur Vermeidung von Kriminalität? – Simultanitätsproblem
•
Beispiel 4: Auswirkung von Mindestlöhnen auf die Arbeitslosigkeit? – Experiment in Verbindung mit Zeitreihendaten denkbar
1–32
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–33
APPENDIX
A Mathematische Grundlagen
A.1 Das Summenzeichen und deskriptive Statistiken
•
Die Summe einer Reihe von n Werten einer Variable X lässt
1
=
i
∑
xn
+
.
.
.
+
x2
+
x1
≡
xi
n
sich schreiben als
•
(A.1)
Für eine Konstante c ergibt sich
n
∑c = n ⋅c
(A.2)
i=1
1–34
•
n
Sowie
n
∑ c ⋅ xi = c ∑ xi
i=1
•
i=1
Für Zahlenpaare X und Y sowie Konstanten a und b gilt
n
∑ (a xi + b yi )
i =1
•
(A.3)
n
n
= a∑ x i + b∑ y i
i =1
(A.4)
i =1
Der Durchschnitt oder Mittelwert aus n Zahlen {xi: i =1,…,n}
berechnet sich als
1 n
x = ∑ xi
n i=1
•
(A.5)
Der Stichprobenmittelwert ist eine beschreibende Statistik für
eine bestimmte Variable.
1–35
•
Für Mittelwerte gilt
n
∑ (xi - x) = 0
,
(A.6)
i=1
da
n
n
n
n
n
i=1
i=1
i=1
i=1
i=1
∑ di = ∑ (xi - x) = ∑ xi - ∑ x = ∑ xi - nx = nx - nx = 0
n
⎛1 n ⎞ n
= ∑ xi - n ⎜ ∑ xi ⎟ = ∑ x i -∑ xi = 0
i=1
i=1
⎝ n i=1 ⎠ i=1
n
1–36
•
Eine häufig verwendete Umformung ist
n
n
∑ (xi - x) = ∑ xi2 - n(x)2 ,
2
i=1
(A.7)
i=1
was sich wie folgt ergibt:
n
n
2
∑ (xi - x) = ∑ (xi2 - 2xi x + x )
2
i=1
i=1
n
n
= ∑ xi - 2x ∑ xi + n(x)2
2
i=1
n
i=1
n
= ∑ xi - 2n(x) + n(x) =∑ xi2 - n(x)2
2
2
2
i=1
i=1
1–37
Ebenso lässt sich für 2 Variablen {(xi,yi): i =1,…,n} zeigen:
y
yi
xi
)
1
=
i
∑
y
×
x
n
yi
xi
︶
n
1
=
i
︵
∑
=
yi
x
xi
=
n
i=1
)=∑ (
1
=
i
∑ ( xi − x ) (
y
yi
n
n
•
(A.8)
1–38
A.2 Eigenschaften linearer Funktionen
•
Wenn der Zusammenhang zwischen Variablen x und y dargestellt werden kann als
y = β0 + β1 x,
(A.9)
ist y eine lineare Funktion von x und die Parameter β0 und β1
beschreiben die Beziehung zwischen x und y. β0 heißt Achsenabschnitt, β1 Steigungsparameter.
•
Eine Änderung von x ändert y um den Faktor β1:
∆y = β1 ∆ x1
(A.10)
β1 ist hier der konstante, marginale Effekt von x auf y.
1–39
• Beispiel: Zusammenhang Mietausgaben – Einkommen:
housing expenditure = 164 + 0,27 income,
(A.11)
von jedem zusätzlich verdienten Euro Einkommen geht im Mittel ein Betrag von 27 Cent in die Miete.
1–40
•
Lineare Beziehungen lassen sich auch für mehr als zwei Variablen darstellen:
y = β0 + β1 x1 + β2 x2
(A.12)
β0 ist der Achsenabschnitt, β1 und β2 sind Steigungsparameter.
β1 (β2) beschreibt, wie stark y auf Änderungen in x1 (x2) reay 1y x2
Δ x Δ Δ
Δ
=
=
β2
β1
giert.
, wenn ∆x2= 0
und
, wenn ∆x1= 0
1–41
•
Beispiel: Die Nachfrage nach CDs hängt ab von deren Preis
und dem individuellen Einkommen:
quantity = 120 – 9,8 price + 0,03 income,
wobei price in $ pro CD und income in $ gemessen ist. Bei gegebenem Einkommen reduziert ein Preisanstieg um einen $ die
Nachfrage nach CDs um 9,8 Stück. Bei einem um 100 $ höheren Einkommen steigt die Nachfrage - bei gegebenen Preisen um 3 Stück.
1–42
A.3 Anteile und Prozentgrößen
•
Anteilswerte lassen sich durch Multiplikation mit 100 als Prozentgrößen ausdrücken und umgekehrt.
Beispiel:
82
100
= 0,82 ist der Anteil der Erwachsenen mit Schul-
•
Relative Änderung über die Zeit:
x
Δ x0
=
x0
- x0
x1
abschluss, d.h. 0,82 · 100 = 82%
(A.14)
x
Δ
ist ein Anteilswert, der zu einer Prozentgröße umformuliert wer-
•
0
x
den kann: % ∆x = 100 ·
(A.15)
Beispiel: Einkommensanstieg von 30 000 auf 33 750 Euro pro
Jahr: 3750 / 30 000 = 0,125, d.h. 100 · 0,125 = 12,5%
1–43
•
Wichtig: Korrekte Ausdrucksweise, wenn die betrachtete Größe
selbst eine Prozentgröße ist:
Absolute Änderung: ∆x = x1 – x0, Änderung in Prozentpunkten,
Relative Änderung:
•
Δx
· 100, Änderung in Prozent.
x0
Beispiel: Anstieg der Mehrwertsteuer von 15 % auf 18 % um 3
(18 − 15 ) = 0,2 → um 20 Prozent
Prozentpunkte, bzw.
15
1–44
A.4 Eigenschaften wichtiger Funktionen
•
Um fallende Grenzerträge abbilden zu können, benötigt man
quadratische Funktionen
y = β0 + β1 x + β2 x2 .
(A.16)
Wenn β1 > 0, β2 < 0 ergibt sich eine umgekehrt U-förmige Parabel, mit einem Maximum an der Stelle
x=
•
β1
.
-2β2
(A.17)
In diesem Fall ist der marginale Effekt von x auf y davon abhängig, an welcher Ausprägung von x man sich befindet. Die
Steigung fällt mit wachsendem x, solange β2 < 0:
1–45
Steigung =
•
Δy
= β1 + 2 β2 x
Δx
(A.18)
Beispiel: wage = 5,25 + 0,48 exper – 0,008 exper2
Maximum der Lohnkurve bei: exper =
0,48
= 30
2 ⋅ 0,008
1–46
•
Wir verwenden im Regelfall den natürlichen Logarithmus,
hier geschrieben als
y = log(x)
(A.21)
und definiert für x > 0. Auch hier ergeben sich abnehmende
Grenzerträge von x bezüglich y, wobei der marginale Effekt von
x nie negativ wird.
Charakteristika: log(x) < 0, wenn 0 < x < 1
log(1) = 0
log(x) > 0, wenn x > 1
1–47
•
Rechenregeln: log(x1 · x2) = log(x1) + log(x2), x1,x2 > 0
log(x1 / x2) = log(x1) – log(x2), x1,x2 > 0
log(xc)
= c log(x),
x > 0, c beliebig
•
Approximation für kleine Werte x: log(1 + x) ≈ x
•
Beispiel:
log(1,02) = 0,01980
log(1,05) = 0,04879
log(1,20) = 0,18232
1–48
•
Für kleine Änderungen in x gilt:
Δ log ( x ) = log(x1 ) − log(x 0 ) ≈
(x1 − x 0 ) Δx
=
x0
x0
100 ⋅ Δ log( x ) ≈ %Δx
•
Beispiel 1:
x0 = 40
(A.22)
(A.23)
x1 = 41
Anstieg um
1
⋅ 100 = 2,5%
40
log(41) – log(40) = 0,0247, gute Approximation, ∆x klein
•
Beispiel 2:
x0 = 40
x1 = 60
Anstieg um
20
⋅ 100 = 50%
40
log(60) – log(40) ≅ 0,4055, schlechte Approximation, ∆x groß
1–49
Δy
•
Elastizität:
Δx
y
x
=
%Δy
%Δx
(A.24)
Wenn y = β0 + β1 x, dann ist die Elastizität
Δy x
x
x
⋅ = β1 ⋅ = β1 ⋅
Δx y
y
β0 + β1x
(A.25)
und somit abhängig vom jeweiligen Wert x.
•
Modell konstanter Elastizität: Wegen (A.23) lässt sich die
Δ log( y )
approximieren und als β1 schätzen
Elastizität durch
Δ log( x )
durch
log(y) = β0 + β1 log(x)
(A.26)
1–50
•
Es gibt zwei weitere Verwendungsarten des Logarithmus im linearen Modell.
•
Alternative 1:
log(y) = β0 + β1 x
(A.27)
In diesem Fall gilt
∆ log(y) = β1 ∆x,
so dass
100 · ∆ log(y) = (100 · β1) · ∆x
und
% ∆y = (100 · β1) · ∆x
(A.28)
β1 gibt die Semi-Elastizität an: Ändert sich x um eine Einheit,
so ändert sich y um β1· 100 Prozent.
1–51
•
Beispiel: log(wage) = 2,78 + 0,094 educ
Eine Änderung in educ (= Schuljahre) um 1 erhöht den Lohn
um 9,4% (Rendite auf Schulbildung).
•
Alternative 2: y = β0 + β1 log(x),
x>0
(A.29)
⎛ β ⎞
Hier gilt Δy = β1 Δlog(x) ⇔ Δy = ⎜ 1 ⎟ ⋅ [ Δlog(x) ⋅ 100]
⎝ 100 ⎠
so dass
Δy =
Ändert sich x um ein Prozent, so ändert sich y um
(A.30)
0
0
β11
β1
⋅ % Δx
100
Einhei-
ten.
1–52
•
Beispiel: hours = 33 + 45,1 log(wage)
Ein Prozent höhere Löhne erhöhen die Stundenzahl (das Arbeitsangebot) um 0,451 Stunden oder knapp 30 Minuten.
•
Exponentialfunktion: y = exp(x), wobei gilt:
-
exp(0) = 1 und exp(1) = 2,7183
-
log(y) = β0 + β1 x ⇔ y = exp(β0 + β1 x)
-
exp(x1 + x2) = exp(x1) · exp(x2)
-
exp[ c · log(x) ] = xc.
1–53
A.5 Differentialrechnung
Wenn y = f(x), dann gilt für kleine Änderungen in x
x
Δ
f x
d
d
≈
y
Δ
•
⋅
,
(A.31)
df
die am Ausgangspunkt x0 bewertete Ableitung von f
dx
dy
df
ist. Wir schreiben auch
statt
.
dx
dx
wobei
Verschiedene Ableitungen:
-
wenn y = log(x),
dann
dy
=
dx
Eingesetzt in (A.31) folgt: Δy ≈
1 x
•
1
⋅ Δx .
x0
1–54
Da hier Δy durch Δlog(x) ersetzt werden kann, gilt:
x
0
Δ x
=
g
o
l
Δ
(x)
.
-
wenn y = β0 + β1 x ,
dann
dy
= β1
dx
-
wenn y = xc ,
dann
dy
= c · xc-1
dx
-
d(f(x) + g(x)) df(x) dg(x)
=
+
dx
dx
dx
-
d(c ⋅ f(x))
⎛ df(x) ⎞
= c ⋅⎜
⎟
dx
⎝ dx ⎠
1–55
•
Partielle Ableitungen spielen eine Rolle, wenn y von 2 erklä-
renden Variablen abhängt:
Dann sind
∂y
∂x1 x
und
2 kons tan t
y = f (x1,x2) .
∂y
∂x 2
(A.32)
x1 kons tan t
die partiellen Ableitungen.
1–56
•
Beispiel: Lohn als Funktion von Schulbildung und Erfahrung
wage = 3,10 + 0,41 educ + 0,19 exper – 0,004 exper2
e
g
a
w
∂
+ 0,007 educ · exper
(A.35)
r
e
p
x
e
∂
= 0,19 – 0,008 exper + 0,007 educ
Die Lohnwirkung eines Jahres Arbeitsmarkterfahrung ist abhängig von Bildung und Arbeitsmarkterfahrung.
1–57
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–58
B Grundlagen der Wahrscheinlichkeitsrechnung
B.1 Zufallsvariablen und ihre Wahrscheinlichkeitsverteilung
•
Experiment: Charakterisiert durch unendlich oft wiederholbare
Vorgehensweise und klar definierte Ergebnisse.
•
Zufallsvariable: Eine Variable mit numerischen Werten, deren
Ausprägung durch ein Experiment bestimmt wird; hier beschrieben mit Großbuchstaben X, Y, Z; Realisationen werden
durch Kleinbuchstaben beschrieben x, y, z.
•
Wir betrachten binäre, diskrete und stetige Zufallsvariablen.
•
Bernoulli (Binäre) Zufallsvariable: Nimmt Werte von 0 oder 1
an. Notation für Bernoulli-Variablen: X ~ Bernoulli (θ)
1–59
•
Bernoulli Zufallsvariable kann durch Eintrittswahrscheinlichkeit θ von X = 1 vollständig beschrieben werden:
P(X=1) = θ
•
P(X=0) = 1 – θ
(B.1, B.2)
Diskrete Zufallsvariable: Zufallsvariable mit abzählbar vielen
Ausprägungen
•
Zuordnung aller möglichen Realisationen zu ihren Eintrittswahrscheinlichkeiten
beschreibt
diskrete
Zufallsvariablen.
X nimmt die Werte { x1, …, xk } mit Wahrscheinlichkeit p1, …, pk
an, wobei
pj = P(X = xj), j = 1,2, …, k
(B.3)
mit 0 ≤ pj ≤ 1 und p1 + p2 + … + pk = 1.
(B.4)
1–60
•
Wahrscheinlichkeitsdichtefunktion f beschreibt für jedes x
die Wahrscheinlichkeit, mit der die Zufallsvariable X den Wert x
annimmt:
f(xj) = pj , j = 1,2, …, k
•
(B.5)
Mithilfe von f lässt sich die Wahrscheinlichkeit von Ereignissen
berechnen.
•
Beispiel: Anzahl von Korbtreffern bei 2 Basketballfreiwürfen
wenn f(0) = 0,20,
f(1) = 0,44,
f(2) = 0,36.
(Summe = 1)
Wahrscheinlichkeit für mindestens einen Korb:
P(X ≥ 1) = P(X = 1) + P(X = 2) = 0,44 + 0,36 = 0,80
1–61
Grafisch:
•
Eine Variable X ist eine stetige Zufallsvariable, wenn sie jeden einzelnen Wert mit der Wahrscheinlichkeit 0 annimmt, da
es unendlich viele mögliche Realisationen gibt.
1–62
•
Die Wahrscheinlichkeitsdichtefunktion beschreibt für jedes X
die Wahrscheinlichkeit in einem Intervall [a, b] zu liegen.
P( a ≤ X ≤ b) beschreibt die Fläche unter der Funktion f:
1–63
•
Kumulative Verteilungsfunktion: F(x) ≡ P(X ≤ x)
(B.6)
- für diskrete Zufallsvariablen die Summe über f(xj), xj ≤ x
- für stetige Zufallsvariablen die Fläche unter f links von x.
•
•
Für jede Zahl c gilt:
P(X > c) = 1 – F(c).
(B.7)
Für alle Zahlen a < b:
P(a < X ≤ b) = F(b) – F(a).
(B.8)
Bei stetigen Zufallsvariablen gilt P(X ≥ c) = P(X > c) und (B.9)
P(a < X < b)= P(a ≤ X ≤ b)= P(a ≤ X < b)= P(a< X ≤ b)
(B.10)
1–64
B.2 Gemeinsame Verteilungen, bedingte Verteilungen und
Unabhängigkeit
•
Wenn X und Y diskrete Zufallsvariablen sind, lässt sich ihre
gemeinsame Verteilungsfunktion fx,y wie folgt schreiben
fx,y(x,y) = P(X = x, Y = y)
•
(B.11)
Die Wahrscheinlichkeitsdichtefunktionen fX und fY heißen auch
marginale Wahrscheinlichkeitsdichtefunktionen (Randver-
teilung).
1–65
•
Beispiel:
männlich
•
weiblich
Rechtshänder
0,40
0,30
0,70
Linkshänder
0,15
0,15
0,30
0,55
0,45
Zufallsvariablen sind unabhängig, wenn gilt:
fX,Y(x,y) = fX(x)⋅fY(y)
(B.12)
1–66
•
Im diskreten Fall gilt bei Unabhängigkeit:
P(X = x, Y = y) = P(X = x)⋅P(Y = y)
•
(B.13)
Beispiel: 2 Freiwürfe beim Basketball. Wenn die Trefferwahr-
scheinlichkeit 70% ist und 2 Würfe unabhängig voneinander
sind, ist die Wahrscheinlichkeit für 2 Treffer: P(X = 1, Y = 1) =
0,7 · 0,7 = 0,49. Wenn der Erfolg des zweiten Wurfs vom Erfolg
des ersten Wurfs abhängt, sind die Ereignisse nicht unabhängig und die Berechnung ist nicht zutreffend.
•
Wenn die Zufallsvariablen X und Y unabhängig voneinander
sind, dann sind auch die Zufallsvariablen g(X) und h(Y) unabhängig.
1–67
•
Gemeinsame Wahrscheinlichkeitsfunktionen werden auch für
mehr als zwei Zufallsvariablen, X1, X2, …, Xn betrachtet. Das
Konzept der Unabhängigkeit gilt hier genauso.
•
Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X,
fY X (y x) =
fX,Y (x,y)
fX (x)
(B.15)
bzw. bei diskreten X,Y:
fY X (y x) = P(Y = y X = x) ,
(B.16)
beschreibt die Wahrscheinlichkeit, dass Y den Wert y annimmt,
gegeben, dass X den Wert x annimmt.
1–68
•
Wenn X und Y unabhängig sind, heißt das, dass Kenntnis von
X nichts dazu beiträgt, etwas über Y zu lernen:
fY X (y x) =
•
fX,Y (x,y) fX (x)fY (y)
=
= fY (y)
fX (x)
fX (x)
Beispiel: 2 Basketballfreiwürfe
fY X (1 1) = 0,85
fY X (0 1) = 0,15
fY X (1 0) = 0,70
fY X (0 0) = 0,30
Die Wahrscheinlichkeit, den zweiten Wurf zu verwandeln, hängt
vom Ergebnis des ersten Wurfs ab, d.h. die Ereignisse sind
nicht unabhängig.
1–69
Was ist die gemeinsame Dichte für P(X = 1, Y = 1)?
Wenn
P(X = 1) = 0,80 ,
dann folgt
P(X = 1, Y = 1) = P(Y = 1│X = 1) · P(X = 1)
= 0,85 · 0,80 = 0,68.
1–70
B.3 Eigenschaften von Wahrscheinlichkeitsverteilungen
B.3.1 Erwartungswert
•
Wenn X eine Zufallsvariable ist, dann ist der Erwartungswert
von X, E(X), μx oder μ, der gewichtete Durchschnitt aller möglichen Werte von X. Die Gewichte ergeben sich aus der Dichtefunktion.
Diskrete Zufallsvariable: E(X) = x1 f(x1) + x2 f(x2) + … + xk f(xk)
k
≡ ∑ x j f(x j )
j=1
(B.17)
1–71
•
Beispiel: Werte -1, 0, 2 mit Wahrscheinlichkeit
E(X) = −1⋅
1
1
3 5
+ 0⋅ + 2⋅ =
8
2
8 8
∞
1 1
3
, und .
8 2
8
•
Stetige Zufallsvariable:
•
Wenn X eine Zufallsvariable ist, dann auch g(X) (z.B. X2 oder
E( X) =
∫
xf (x )dx
(B.18)
−∞
log(X)). Dann
k
E [ g(X)] = ∑ g(x j ) fX (x j )
x diskret
(B.19)
x stetig.
(B.20)
∞
j=1
-
∞
E [ g(X)] = ∫ g(x) fX (x)dx
1–72
•
Beispiel:
E ( X2 ) = ( −1) ⋅
2
1
1
3 1 12 13
+ 02 ⋅ + 22 ⋅ = +
=
8
2
8 8 8
8
⎛5⎞
Dies zeigt auch, dass E [g(X)] ≠ g [E(x)], hier = ⎜ ⎟
⎝8⎠
•
2
Ebenfalls gilt für diskrete Zufallsvariablen X, Y mit der gemeinsamen Dichte fX,Y :
k
m
E [ g(X,Y)] = ∑∑ g(xn ,y j ) ⋅ fX,Y (xn ,y j )
n=1 j=1
1–73
•
Eigenschaften von Erwartungswerten:
E1: Für eine Konstante c:
E(c) = c
E2: Für Konstanten a und b:
E(aX + b) = a E(X) + b
1–74
E3: Wenn { a1, a2, … an } Konstanten sind und { X1, X2, … Xn }
Zufallsvariablen, dann
E(a1X1+a2X2+… anXn)= a1E(X1)+ a2E(X2)+…+ anE(Xn)
⎛ n
⎞ n
E ⎜ ∑ ai Xi ⎟ = ∑ ai E(Xi )
bzw.
⎝ i=1
⎠ i=1
⎛ n
⎞ n
und (für ai =1): E ⎜ ∑ Xi ⎟ = ∑ E(Xi )
⎝ i=1 ⎠ i=1
(B.21)
(B.22)
1–75
•
Beispiel: X1, X2 und X3 sind die Anzahl der verkauften kleinen,
mittleren und großen Pizzen. Die Erwartungswerte sind
E(X1) = 25, E(X2) = 57, E(X3) = 40, die jeweiligen Preise sind
5,50, 7,60 und 9,15 €. Der erwartete Umsatz ist dann
E(5,50 · X1 + 7,60 · X2 + 9,15 · X3)
= 5,50 · E(X1) + 7,60 · E(X2) + 9,15 · E(X3)
= 5,50 · 25 + 7,60 · 57 + 9,15 · 40 = 936,70
1–76
B.3.2 Dispersionsmaße
•
Die Zufallsvariablen X und Y haben eine unterschiedliche
Streuung:
1–77
•
Bei einer Zufallsvariable X mit μ = E(X) interessiert, wie stark
sich X im Mittel von seinem Erwartungswert entfernt (X – μ)
(wenig = geringe Streuung, viel = hohe Streuung). Die Varianz
beschreibt die erwartete quadrierte Streuung:
Var(X) ≡ E [(X – μ)2] = σ2
(B.23)
Dabei gilt: σ2= E(x2–2x μ+ μ2)= E(X2)–2 μ2+ μ2= E(X2)–μ2 (B.24)
(vergleiche A.7)
•
Eigenschaften von Varianzen:
Var1: Die Varianz einer Konstanten ist 0.
Var2: Bei Konstanten a, b gilt Var(aX + b) = a2 Var(X)
1–78
2
σ
=
Eigenschaften von Standardabweichungen:
x
r
a
V
•
=
x
σ
=
Die Standardabweichung einer Zufallsvariable, sd(X), ist die
Wurzel der Varianz:
(x)
(x)
d
s
•
SD1: Die Standardabweichung einer Konstanten ist 0.
SD2: Bei Konstanten a und b gilt: sd(aX + b) = a sd(X)
Eine Zufallsvariable X mit Erwartungswert μ und Standardabweichung σ lässt sich standardisieren:
μ
- σ
X
=
Z
•
,
(B.25)
so dass E(Z) = 0 und Var(Z) = 1.
1–79
B.4 Merkmale von gemeinsamen u. bedingten Verteilungen
•
Die Kovarianz von zwei Zufallsvariablen ist definiert als
Cov(X,Y) ≡ E [(X – μx) (Y – μy)] = σXY
(B.26)
Wenn σXY>0, spricht man von positiver Kovarianz, wenn σXY< 0
von negativer.
•
Es lässt sich zeigen:
Cov(X,Y) = E [(X – μx) (Y – μy)] = E [(X – μy) Y ]
= E [ X (Y – μy)] = E(X Y) – μx μy
(B.27)
(vergleiche A.8)
•
Wenn E(X) = 0 oder E(Y) = 0, folgt Cov(X,Y) = E(XY).
1–80
•
Die Kovarianz misst den linearen Zusammenhang zwischen
Zufallsvariablen.
•
Eigenschaften der Kovarianz:
Cov1: Wenn Zufallsvariablen X und Y unabhängig sind, dann
Cov(X,Y) = 0. Der Umkehrschluss gilt nicht, da Kovarianz nur lineare Zusammenhänge misst. So haben X
und X2 eine Kovarianz von 0, obwohl sie nicht unabhängig sind.
Cov2: Für Konstanten a1, a2, b1 und b2 gilt:
Cov(a1X + b1, a2Y + b2) = a1a2 Cov(X Y),
(B.28)
Skalieren der Variable beeinflusst die Kovarianz.
1–81
Cov3: Cov(X,Y) ≤ sd(X) sd(Y)
Das Maß der Kovarianz kann auf Werte zwischen -1 und +1
standardisiert werden. Der Korrelationskoeffizient ist definiert
σ
Cov(X,Y)
= XY = ρ XY
Corr(X,Y) ≡
als:
(B.29)
sd(X)sd(Y) σ X σ Y
•
Bei Unabhängigkeit folgt aus Cov(X,Y)=0, dass Corr(X,Y)=0.
Auch der Korrelationskoeffizient beschreibt lineare Zusammenhänge.
1–82
•
Eigenschaften der Korrelationskoeffizienten:
Corr1: -1 ≤ Corr(X,Y) ≤ 1
Werte von +1 bzw. -1 implizieren perfekte positive bzw.
negative lineare Zusammenhänge
Corr2: Bei Konstanten a1, a2, b1, b2 mit a1⋅a2 > 0 gilt:
Corr(a1X + b1, a2Y + b2) = Corr(X,Y)
bzw. bei a1⋅a2 < 0:
Corr(a1X + b1, a2Y + b2) = -Corr(X,Y)
Skalieren beeinflusst den Korrelationskoeffizienten nicht.
1–83
•
Weitere Eigenschaften von Varianzen:
Var3: Bei Konstanten a, b gilt:
Var(aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X,Y)
Wenn X, Y unkorreliert, folgt Cov(X,Y) = 0 und
Var(X + Y) = Var(X) + Var(Y)
(B.30)
Var(X – Y) = Var(X) + Var(Y)
(B.31)
Zufallsvariablen
{
X1,
…
Xn
}
sind
paarweise
unkorreliert, wenn jede Variable mit jeder anderen
unkorreliert ist, d.h. Cov(Xi, Xj) = 0 für alle i ≠ j.
1–84
Var4: Wenn { X1, …, Xn } paarweise unkorrelierte Zufallsvariablen sind und ai eine Konstante, dann
Var(a1X1 + … + anXn) = a12 Var(X1) + … + an2 Var(Xn),
bzw.
⎛ n
⎞ n 2
Var ⎜ ∑ ai Xi ⎟ = ∑ ai Var(Xi )
⎝ i=1
⎠ i=1
(B.32)
und
⎛ n
⎞ n
Var ⎜ ∑ Xi ⎟ = ∑ Var(Xi )
⎝ i=1 ⎠ i=1
(B.33)
Sind die Zufallsvariablen nicht paarweise unkorreliert, so
müssen alle Kovarianzen berücksichtigt werden.
1–85
•
Will man die Variable Y mit Hilfe der Variable X erklären, so ist
das Konzept der bedingten Erwartungen von Interesse. Diese
x
Y
E
=
x
=
X
Y
E
beschreibt den Erwartungswert von Y gegeben, dass die Variable X den Wert X = x annimmt: (
) ( )
1–86
•
Ist Y diskret mit Werten { y1, …, ym }, dann
m
E(Y x) = ∑ yi fY X (yi x)
j=1
Ist Y stetig, dann
∞
E(Y x) =
∫ y fY X (y x)dy
−∞
Es handelt sich um den gewichteten Durchschnitt von y für gegebene Werte von X.
1–87
•
Beispiel: Y = Lohnsatz,
X = Jahre der Schulbildung
E(Y X = 12) = mittlerer Lohn der Personen mit 12 Jahren Schul-
bildung. Da X viele Werte annehmen kann, bietet sich eine verkürzte Darstellung an, die für beliebige Werte von X gilt:
E(Y X) = 1,05 + 0,45 X
1–88
•
Bedingte Erwartungen können auch nichtlinear sein.
CE1: E ⎡⎣c(X) X ⎤⎦ = c(X) für jede Funktion c(X).
Wenn X bekannt ist, ist hier auch c(X) bekannt und konstant, z.B. E x 2 x = x 2
(
)
CE2: Bei Funktionen a(X) und b(X):
E ⎡⎣a(X)Y + b(X) X ⎤⎦ = a(X)E(Y X) + b(X)
Beispiel: E ⎡⎣ XY + 2X2 X ⎤⎦ = X ⋅ E(Y X) + 2X2
1–89
CE3: Wenn X und Y unabhängig sind, dann E(Y X) = E(Y) ,
da X für Y keine Rolle spielt.
Wenn U und X unabhängig sind und E(U) = 0 , dann folgt
E(U X) = 0
CE4: Law of iterated expectations E X ⎡⎣E(Y X)⎤⎦ = E(Y)
Der Erwartungswert von y lässt sich berechnen, wenn man sowohl die Beziehung zwischen X und Y kennt als auch die Eigenschaften der Verteilung von X.
1–90
•
Beispiel 1: Angenommen, man sucht den durchschnittlichen IQ
der Bevölkerung, hat aber nur Durchschnittswerte für Männer
und Frauen getrennt. Dann lässt sich der Gesamtdurchschnitt
als gewichteter Durchschnitt zwischen Männern und Frauen
bestimmen:
E ⎡⎣E(IQ Geschlecht)⎤⎦
= E(IQ Männer) ⋅ P(Mann) + E(IQ Frau) ⋅ (1- P(Mann)) = E(IQ)
•
Beispiel 2: Y = Lohn, X = Bildung
Wir wissen E(Y X) = 4 + 0,6 · X und E(X) = 11,5
Dann: E(Y) = E(4 + 0,6 X) = 4 + 0,6 E(X) = 4 + 0,6·11,5 =
10,90
1–91
CE5: Wenn E(Y X) = E(Y) , dann gilt
Cov(X,Y) = 0 und Corr(X,Y) = 0,
und jede Funktion von X ist unkorreliert mit Y.
Wenn die Kenntnis von X den E(Y) nicht beeinflusst,
müssen die Größen unkorreliert sein. Wenn X und Y korreliert sind, muss E(Y X) mit X variieren.
•
Es folgt: Wenn U und X Zufallsvariablen sind und E(U X) = 0 ,
dann ist E(U) = 0 und U und X sind nicht korreliert.
•
Auch die Varianz von Y kann bedingt auf X beschrieben werden: Var(Y X = x) = E(Y 2 x) − [E(Y x)] 2 .
1–92
•
Eigenschaft CV1:
Wenn X und Y unabhängig sind, dann Var(Y X) = Var(Y).
1–93
B.5 Spezielle Verteilungsfunktionen
•
Einige Verteilungsfunktionen sind für die Ökonometrie besonders wichtig.
•
Normalverteilte Zufallsvariablen sind stetig mit der Dichte-
funktion
⎧ (x - μ)2 ⎫
f(x) =
exp ⎨,
2 ⎬
σ 2π
⎩ 2σ ⎭
1
−∞ < x < ∞ ,
(B.34)
wobei μ = E(X) und σ2 = Var(X). Man schreibt X~ Normal(μ,σ2)
Die Normalverteilung ist symmetrisch, daher ist μ auch der
Median. Die Verteilungsfunktion entspricht einer Glockenkurve:
1–94
•
Wenn Y = log(X) einer Normalverteilung folgt, sagen wir, dass
X lognormal verteilt ist.
1–95
•
Die Normalverteilung mit μ = 0 und σ2 = 1 heißt Standardnormalverteilung, mit der Dichtefunktion:
⎛ -z2 ⎞
φ(z) =
exp ⎜
⎟
2
2π
⎝
⎠
1
−∞ < z < ∞
(B.35)
Kumulative Verteilungsfunktion: Φ( z) , Fläche unter Φ( z) bis z
Φ( z ) = P(Z < z), in Verteilungstabellen aufgeführt, wobei
und
P(Z > z) = 1 – Φ( z)
(B.36)
P(Z < z) = Φ( z)
(B.37)
P(a ≤ Z ≤ b) = Φ(b) – Φ(a)
(B.38)
1–96
1–97
•
Eigenschaften der Normalverteilung:
•
Normal 1: Wenn X ∼ Normal (μ, σ2), dann (X - μ)/σ ∼ Normal
(0, 1)
•
Beispiel 1: X ~Normal (4,9) und wir suchen P(2 < X ≤ 6).
P(2 < X
≤
Schritt 1: Standardisieren
≤
⎛2-4 x-4 6-4⎞
6) = P ⎜
<
<
3
3 ⎟⎠
⎝ 3
2⎞
⎛ 2
= P⎜- < Z
3 ⎟⎠
⎝ 3
= Φ ( +0,67 ) - Φ ( -0,67 )
8
9
4
,
0
=
1
5
2
,
0
9
4
7
,
0
=
Schritt 2: aus Tabelle G1 ablesen:
1–98
•
Beispiel 2: Berechne
P( X > 2) = P(X > 2) + P(X < -2)
⎛ X-4 2-4⎞
⎛ X - 4 -2 - 4 ⎞
= P⎜
>
+
P
⎜ 3 < 3 ⎟
3 ⎟⎠
⎝ 3
⎝
⎠
⎡
⎛ −2 ⎞ ⎤
= ⎢1 − Φ ⎜ ⎟ ⎥ + Φ( −2) = 1 − 0,251 + 0,023 = 0,772
⎝ 3 ⎠⎦
⎣
•
Normal2: Wenn X ~ Normal(μ,σ2),
dann aX + b ~ Normal(aμ + b, a2 σ2)
•
Normal3: Wenn X und Y gemeinsam normalverteilt sind, sind
sie genau dann unabhängig, wenn Cov(X,Y) = 0.
Hier stellt die Normalverteilung eine Ausnahme dar.
1–99
•
Normal4: Eine lineare Kombination von unabhängigen, identisch verteilten normalen Zufallsvariablen hat eine Normalverteilung.
•
Dies impliziert, dass für den Mittelwert von n unabhängigen,
normalverteilten Zufallsvariablen Y1, Y2, … Yn, die jeweils
⎛ σ2 ⎞
2
~ Normal μ, σ ,gilt: Y ~ Normal ⎜ μ, ⎟
(B.40)
n
⎝
⎠
(
•
)
Wenn Z standardnormalverteilte Zufallsvariablen sind, dann
n
folgt X = ∑ Zi2 der Chi-Quadrat (χ2 ) Verteilung mit n Frein
heitsgraden: X ~ χ
2
i=1
(B.41)
1–100
•
Die Chi-Quadrat-Verteilung ist nicht negativ, nicht symmetrisch
und hat einen Erwartungswert = n und eine Varianz = 2n.
1–101
Die t-Verteilung ergibt sich aus der Standardnormal- und der
χ -Verteilung. Wenn Z ~ Normal (0,1) und X ~ χ und X und Z
2
2
•
n
=
T
•
tn
~
n
Z X
unabhängig sind, dann:
(B.42)
Die Dichtefunktion der t-Verteilung ähnelt der Normalverteilung
rianz ist
2
n n
mit etwas dickeren Rändern. Der Erwartungswert ist 0, die Vafür n > 2. Mit steigendem n konvergiert die t-
Verteilung gegen die Normalverteilung.
1–102
1–103
•
Die F-Verteilung ergibt sich aus zwei unabhängigen
2
︶
︶
k
,
1
︵
︵
Fk
~
k1k2
/ /
1
X X2
=
F
χ2 -verteilten Zufallsvariablen X1 ~ χk12 , X2 ~ χk2 2 mit:
(B.43)
Man unterscheidet Zähler- (k1) und Nennerfreiheitsgrade (k2).
•
Die F-Verteilung nimmt nur positive Werte an und ist nicht
symmetrisch.
1–104
1–105
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–106
C Statistische Grundlagen
C.1 Bevölkerung, Parameter und Zufallsstichprobe
•
Mit Hilfe der statistischen Inferenz (dem statistischen Schließen o. Schlussfolgern) lernt man auf Basis einer Stichprobe
etwas über die Eigenschaften der unterliegenden Bevölkerung
oder Grundgesamtheit.
1–107
•
Beispiel: Wie wirkt sich in Deutschland im Mittel ein Jahr
Schulbildung auf den Stundenlohn aus ("Bildungsrendite")?
Dies lässt sich auf Basis einer Stichprobe als Punktschätzung
punktgenau schätzen (z.B. plus 7,5% pro Jahr) oder in einem
Intervall als Intervallschätzer eingrenzen (z.B. zwischen 5,6 und
9,4 %).
•
Unter Parametern versteht man konstante Größen, die in der
Grundgesamtheit die interessierenden Zusammenhänge charakterisieren.
1–108
•
Y sei eine Zufallsvariable, die in der Grundgesamtheit gemäß
der Dichtefunktion f(y;θ) verteilt sei, wobei der unbekannte Parameter θ die sonst bekannte Dichtefunktion charakterisiert. Um
etwas über θ zu lernen, kann man verschiedene Stichproben
aus der Grundgesamtheit betrachten.
•
Wenn Y1, Y2, …, Yn unabhängige Zufallsvariablen mit einer
gemeinsamen Dichtefunktion f(y;θ) sind, dann ist {Y1, Y2, …,
Yn} eine Zufallsstichprobe der durch f(y;θ) charakterisierten
Grundgesamtheit.
•
Die Zufallsvariablen heißen i.i.d. verteilt (independent and
identically distributed, unabhängig und identisch), wenn sie zufällig gezogen und mit der gleichen Dichtefunktion verteilt sind.
1–109
•
Eine Stichprobe ist zufällig, wenn vor der Ziehung nicht feststeht, welche Elemente berücksichtigt werden, alle Bevölkerungselemente die gleiche Ziehungswahrscheinlichkeit haben
und jede Ziehung unabhängig von allen anderen stattfindet.
1–110
C.2 Eigenschaften von Schätzverfahren in kleinen Stichproben
•
Man unterscheidet Eigenschaften, die sogar in kleinen Stichproben (finite samples) gelten, von asymptotischen Eigenschaften, die nur gelten, wenn die Stichprobengröße gegen
unendlich konvergiert (large samples).
•
Ein Schätzverfahren (estimator) ist eine Regel, die auf Basis
von Stichprobendaten einen Schätzwert (estimate) für unbekannte Bevölkerungsparameter bestimmt. Das Verfahren kann
auf jede Stichprobe angewendet werden.
1–111
•
Beispiel: Zufallsstichprobe {Y1, Y2, …, Yn} aus der Bevölkerung
mit dem unbekannten Mittelwert μ. μ lässt sich als Stichprobenmittelwert schätzen.
Y=
1n
∑ Yi
n i =1
(C.1)
Der Schätzwert für konkrete Daten einer konkreten Stichprobe
1
ist dann y = ( y1 + y 2 + " + yn )
n
1–112
•
Allgemein lässt sich ein Schätzverfahren W für einen Parameter θ als Funktion h von Zufallsvariablen darstellen:
W = h (Y1, Y2, …, Yn)
(C.2)
Da W von der Zufallsstichprobe abhängt, ist es selbst eine Zufallsvariable. Für den konkreten Schätzwert schreiben wir
w = h (y1, y2, …, yn).
•
Um verschiedene Schätzverfahren vergleichen zu können, betrachten wir deren Eigenschaften.
1–113
C.2.1 Eigenschaft der Unverzerrtheit
•
Ein Schätzer W des Parameters θ heißt unverzerrt, wenn für
alle θ gilt
E (W) = θ
•
(C.3)
Bei unverzerrten Schätzern ist nicht jeder Schätzwert mit dem
wahren Wert identisch, aber über viele Zufallsstichproben hinweg entspricht der Mittelwert von W dem wahren θ.
•
Bei verzerrten Schätzern für θ beträgt die Verzerrung (Bias)
Bias (W) ≡ E (W) - θ
•
(C.4)
Beispiel für verzerrten und unverzerrten Schätzer:
1–114
1–
–115
•
Um Verzerrung zu vermeiden, muss man die Schätzfunktion h
angemessen wählen. Für manche Schätzverfahren lässt sich
die Unverzerrtheit leicht zeigen.
•
Beispiel: Schätzer Y für den Mittelwert der Grundgesamtheit,
µ:
⎛1 n
⎞ 1 ⎛ n ⎞ 1 n
E ( Y ) = E ⎜ ∑ Yi ⎟ = E ⎜ ∑ Yi ⎟ = ∑ E ( Yi )
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1
1⎛ n ⎞ 1
= ⎜ ∑ μ ⎟ = × ( nμ) = μ
n ⎝ i=1 ⎠ n
1–116
•
Die Stichprobenvarianz S2 ist ein unverzerrter Schätzer für die
unbekannte Varianz der Grundgesamtheit (σ2):
1 n
(Yi − Yi )2
S =
∑
n − 1 i =1
2
(C.5)
Man dividiert durch n-1 statt n, da der Mittelwert μ der Grundgesamtheit durch Y geschätzt wird. Wäre μ bekannt, könnte
man durch n teilen und berechnen
n
~2 1
2
S = ∑ (Yi − μ ) .
n i =1
•
Unverzerrtheit ist manchmal ein problematisches Kriterium, da
gute Schätzverfahren z.T. verzerrt sind und manche unverzerrten Schätzer schlechte Schätzverfahren darstellen.
1–117
•
Beispiel: Wählt man als Schätzer für μ: W ≡ Y1, also nur den
ersten Wert der Stichprobe, so gilt E(Y1) = μ.
1–118
C.2.2 Eigenschaft der Effizienz
•
Neben dem Erwartungswert eines Schätzverfahrens interessiert uns die Streuung, wobei unter den unverzerrten Schätzern
die mit kleiner Streuung präziser sind.
1–119
1–
–120
•
Die Streuung eines Schätzers wird durch seine Varianz beschrieben.
•
Beispiel:
⎛1 n ⎞ 1
⎛ n ⎞ 1
Var ( Y ) = Var ⎜ ∑ Yi ⎟ = 2 Var ⎜ ∑ Yi ⎟ = 2
⎝ n i=1 ⎠ n
⎝ i=1 ⎠ n
1 ⎛ n 2⎞ 1
1
= 2 ⎜ ∑ σ ⎟ = 2 n ⋅ σ2 = σ2
n
n ⎝ i=1 ⎠ n
n
∑ Var ( Yi )
i=1
(C.6)
1–121
Der Erwartungswert von Y als Schätzer für μ entspricht dem
Mittel der Grundgesamtheit, die Varianz ist die der Grundgesamtheit geteilt durch n (d.h. je größer n, umso kleiner Var(Y)).
•
Als Schätzer für μ sind sowohl Y als auch Y1 unverzerrt, aber Y
σ2
hat mit
eine kleinere Varianz als Y1 mit σ2. Daher ist Y als
n
Schätzer vorzuziehen.
•
Wenn W1 und W2 zwei unverzerrte Schätzer einer Gruppe von
Parametern θ sind, dann nennt man W1 im Vergleich zu W2 effizient, wenn Var (W1) ≤ Var (W2) für alle Werte von θ mit einer
strikten Ungleichheit für mindestens ein θ.
1–122
•
Im Beispiel ist Y effizient relativ zu Y1, da Var (Y) < Var (Y1)
sobald n >1.
•
Ein Vergleich der Varianz ist meist nur für unverzerrte Schätzer
relevant (jede Konstante hat eine Varianz von 0, kann aber völlig falsch sein).
1–123
Schlüsselbegriffe Kapitel 1 & Appendix:
Beobachtungsdaten
Diskrete Zufallsvariable
Ökonometrie
Empirische Analyse
Ökonomisches Modell
Ökonometrisches Modell
Querschnittsdaten
Zeitreihendaten
Gepoolter Querschnitt
Paneldaten
Kausaler Effekt
Ceteris paribus Interpretation
Mittelwert
Lineare Funktion
Achsenabschnitt
Effizient
Steigungsparameter
Marginaler Effekt
Prozentpunkt, Prozent
Experimentaldaten
Stetige Zufallsvariable
Bernoulli (binäre) Zufallsvariable
Eintrittswahrscheinlichkeit
Wahrscheinlichkeitsdichtefunktion
Kumulative Verteilungsfunktion
Gemeinsame Verteilungsfunktion
Unabhängige Zufallsvariablen
Marginale Wahrscheinlichkeitsdichtefunktion
Bedingte Wahrscheinlichkeitsdichtefunktion
Gemeinsame Dichte
Erwartungswert
Varianz
Standardabweichung
Standardisieren
Kovarianz
Skalieren der Variable
Korrelationskoeffizient
Paarweise unkorreliert
1–124
Natürlicher Logarithmus
Elastizität
Modell konstanter Elastizitäten
Semielastizität
Exponentialfunktion
Partielle Ableitung
Experiment
Zufallsvariable
Statistische Inferenz
Bevölkerung
Parameter
iid – verteilt
Normalverteilung
Asymptotische Eigenschaft
Schätzwert (estimate)
Verzerrung (Bias)
Bedingter Erwartungswert
Law of iterated expectations
Normalverteilte Zufallsvariable
Lognormalverteilte Zufallsvariable
Standardnormalverteilung
Chi-Quadrat-Verteilung
t-Verteilung
F-Verteilung
Stichprobe
Grundgesamtheit
Zufallsvariable
Bernoulliverteilung
Finite sample
Schätzverfahren (estimator)
Unverzerrt
Stichprobenvarianz
1–125
Literatur Kapitel 1:
•
Wooldridge, Kapitel 1, Appendix A, B, C
•
Von Auer, Kapitel 1, Kapitel 2
•
Hill/Griffiths/Judge, Kapitel 1, Kapitel 2
•
Gujarati,1999, Essentials of Econometrics, McGraw Hill, Singapur, Kapitel 1 – Kapitel 3
•
Stock/Watson, 2007, Introduction to Econometrics, 2. Auflage,
Pearson Education Inc., Kapitel 1 – Kapitel 3
1–126
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–1
Leitfragen und Lernziele Kapitel 2:
•
Wie lässt sich der Zusammenhang zwischen zwei Zufallsvariablen empirisch schätzen?
•
Wie funktioniert das Kleinstquadrate(KQ)-Verfahren?
•
Was sind die Eigenschaften des KQ-Verfahrens?
•
Welche Annahmen müssen getroffen werden?
2–2
2.1 Definitionen
•
Ziel: Beziehung zwischen zwei Variablen beschreiben, z.B.
Dünger und Erntemenge, Ausbildung und Lohn, Polizeibeamte
und Kriminalität.
•
Dabei zu klären:
(a) Können auch andere Faktoren Ernte, Lohn bzw. Kriminalität beeinflussen?
(b) In welchem funktionalen Verhältnis stehen die Variablen
zueinander?
(c) Wie kann man sicher sein, eine ceteris paribus Beziehung
zu beschreiben?
2–3
•
Einfachste Darstellung:
y = β0 + β1 x + u
(2.1)
Dies ist der Regressionszusammenhang, den wir für die
Grundgesamtheit unterstellen.
•
Begriffe für y: Abhängige Variable, erklärte Variable, endogene
Variable, Regressand
•
Begriffe für x: Unabhängige Variable, erklärende Variable, exogene Variable, Kovariate, Regressor
•
u: Der Fehler- oder Störterm umfasst alle Faktoren, die y beeinflussen, außer dem beobachteten x (unbeobachtete Faktoren).
2–4
•
Unterstellt: Linearer Zusammenhang zwischen y und x. Gegeben die Störgröße (d.h. ∆u = 0), ändert sich y bei Änderung
von x um ∆x um β1 · ∆x:
∆y = β1 · ∆x bei
•
∆u = 0
(2.2)
β1 = Steigungsparameter, β0 = Achsenabschnittsparameter,
Konstante.
•
Beispiel: Ernte = β0 + β1 · Dünger + u
(2.3)
β1 beschreibt, wie sich eine Änderung in der Düngermenge auf
die Ernte auswirkt.
2–5
•
Lineare Form impliziert, dass Änderung von x um eine Einheit
die gleiche Wirkung auf y hat, egal wie hoch x ist; manchmal
unrealistisch (z.B. bei fallenden Grenzerträgen).
•
β1 misst den Effekt von x auf y, aber es muss nicht der kausale
sein. Noch haben wir alle anderen Faktoren ignoriert. Um den
ceteris paribus Effekt zu beschreiben, sind Annahmen erforderlich.
•
Annahme 1:
E(u) = 0
(2.5)
Unterstellt, dass alle ausgelassenen Faktoren, die z.B. die Ernte beeinflussen, einen Mittelwert von Null in der Grundgesamtheit haben. Dies ist unproblematisch, solange eine Konstante
(β0) mitgeschätzt wird.
2–6
•
Eine weitere Annahme beschreibt den Zusammenhang zwischen x und u. Wenn die beiden Zufallsvariablen unkorreliert
sind, bedeutet dies nur, dass es zwischen ihnen keinen linearen Zusammenhang gibt.
• Für die Regressionsanalyse und um eine ceteris paribus Interpretation zu legitimieren, benötigen wir die stärkere Annahme,
dass der auf x bedingte Erwartungswert von u gleich Null ist.
Das heißt, dass der Durchschnitt von u nicht von x abhängt und
für alle Werte von x gleich ist (mittlere bedingte Unabhängigkeit).
Annahme 2:
E(u x) = E(u) = 0
(2.6)
2–7
•
Beispiel:
wage = β0 + β1 · educ + u
(2.4)
β1 beschreibt, um wie viel € sich der Stundenlohn ändert, wenn
sich die Anzahl der Ausbildungsjahre (educ) um eins erhöht.
Wir unterstellen, dass alle anderen relevanten Faktoren konstant gehalten werden. Dazu gehört z.B. die Fähigkeit einer
Person. Annahme 2 besagt, dass der Erwartungswert der Fähigkeit für Personen mit verschiedenen Werten für educ gleich
sein muss. Man würde das nicht unbedingt so erwarten.
•
Ebenso darf sich im Düngerbeispiel z.B. die unbeobachtete
Landqualität nicht nach Düngermenge unterscheiden.
2–8
•
Frage: Wenn die Klausurpunkte (score) von der Anwesenheit
in der Vorlesung (attend) und unbeobachteten Faktoren beeinflusst wird: score = β0 + β1 attend + u
(2.7)
Wann gilt Annahme 2?
• Bedeutung von Annahme 2: E ( u x ) = 0 :
a) An jedem einzelnen Wert von x ist E(u) = 0
b) Für alle x ist E(u) identisch
c) Bei E ( u x ) = 0 sind u und x unkorreliert, d.h. cov(x,u) = 0
d) u repräsentiert alle Faktoren w, die neben x das y beeinflussen. Es kann nur dann E ( u x ) = 0 , wenn cov(x,w) = 0.
2–9
• Trifft Annahme 2 nicht zu, so kann β1 nicht kausal interpretiert
werden.
• Unter Annahme 2 lautet der auf x bedingte Erwartungswert von
E(y x) = E(β0 + β1x + u x)
y:
= E(β0 x) + E(β1x x) + E(u x)
= β0 + β1x + 0
(2.8)
• Die Bevölkerungs-Regressionsfunktion, E(y x) , ist linear in
x. Eine Änderung von x um 1 verschiebt den Erwartungswert
von y um β1.
• Für jede Ausprägung von x ergibt sich so eine Verteilung von y,
die um E(y x) konzentriert ist:
2–10
2–11
• Die beobachteten Werte von y lassen sich in zwei Teile zerlegen:
y = β0 + β1x + u
= E(y x ) + u
• Der erste Teil ist systematisch durch x erklärbar. Unter Annahme 2 ist der zweite Teil, u, nicht durch x erklärbar.
2–12
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–13
2.2 Herleitung der Kleinstquadrate-Schätzung
•
Wir unterstellen eine Stichprobe der Größe n aus der Grundgesamtheit: {(xi,yi): i = 1,…,n}.
•
Für jede Beobachtung i gilt:
yi = β0 + β1 xi + ui
(2.9)
Dabei ist ui der Störterm für Beobachtung i, der alle für yi relevanten Faktoren - außer xi - abbildet.
•
Beispiel: n = 15 Beobachtungen zu Ersparnissen (y) und Jahreseinkommen (x).
2–14
2–15
•
Aus Annahme 2 folgt, dass x und u in der Grundgesamtheit
unkorreliert sind. Die Kovarianz von unkorrelierten Größen ist
Null (vgl. B.29).
•
•
Es gilt also:
E(u) = 0
(Ann.1)
(2.10)
und
Cov(x,u) = E(xu) = 0
(wg. Ann.2) (2.11)
da
Cov(x,u) = E(xu) – E(x) E(u)
Dies lässt sich auch wie folgt schreiben:
und
E(u) = E(y – β0 – β1 x) = 0
(2.12)
E(xu) = E[x (y – β0 – β1 x)] = 0
(2.13)
2–16
•
Mit diesen Bedingungen und den Rechenregeln aus Kapitel 1 –
Appendix A1 lassen sich Schätzwerte für β0 und β1 ableiten.
Dabei sucht man diejenigen β̂0 und β̂1 Werte, die die Gleichungen der Grundgesamtheit (2.12) und (2.13) für die Stichprobe
lösen:
•
1 n
(yi - βˆ 0 - βˆ 1 xi ) = 0
∑
n i=1
(2.14)
1 n
xi (y i - βˆ 0 - βˆ 1 xi ) = 0
∑
n i=1
(2.15)
Nach Anwendung des Berechnungsverfahrens verwendet man
die ^-Schreibweise.
2–17
0
=
xi
β1
n
∑ˆ
1
=
i
∑ˆ
1
=
i
1
=
i
1 n
β0
n
n
∑
1 n
yi
(2.14) lässt sich umformen:
1 n
•
y = βˆ 0 +βˆ 1 x ,
(2.16)
1 n
wobei y = ∑ yi
n i=1
1 n
x = ∑ xi
n i=1
und
Daraus folgt:
βˆ 0 = y - βˆ 1 x
(2.17)
2–18
•
(2.15) lässt sich umformen:
n
∑ xi (yi - (y - βˆ 1 x) - βˆ 1xi ) = 0
i=1
n
∑ xi (yi - y + βˆ 1(x - xi )) = 0
i=1
n
n
i=1
i=1
∑ xi (yi - y) = ∑ xiβˆ 1(xi - x)
n
Da
∑ xi (xi - x) = ∑ (xi2 - xi x) = ∑ (xi - x)2
i=1
und
n
n
i=1
i=1
∑ xi (yi - y) = ∑ (xi - x)(yi - y)
n
∑ (x i -x)2 > 0 :
gilt für β̂1, solange
(2.18)
i=1
2–19
n
β̂1 =
∑ (xi - x)(yi - y)
i=1
n
∑ (xi - x)2
.
(2.19)
i=1
• Dies ist das Verhältnis der Stichprobenkovarianz von x und y
zur Stichprobenvarianz von x. Wenn x und y positiv korreliert
sind, dann ist auch β̂1 positiv und umgekehrt.
•
Annahme (2.18) gilt nicht, wenn alle Beobachtungen für xi den
gleichen Wert annehmen, z.B. wenn Stundenlöhne nur für Personen mit gleichen Werten für „educ“ beobachtet werden.
•
Mit (2.17) und (2.19) werden die Kleinstquadrateschätzwerte
für β0 und β1 berechnet.
2–20
•
Der vorhergesagte Wert von y an der Stelle x = xi ist:
ŷi = βˆ 0 + βˆ 1xi
Das geschätzte Residuum für Beobachtung i ist:
xi
β1
β0
yi
=
yi
yi
=
ui
•
(2.20)
ˆ
ˆ
ˆ
ˆ
(2.21)
2–21
2–22
•
Man kann β̂0 und β̂1 so wählen, dass die Summe der quadrierten Residuen minimiert wird:
n
∑ ûi
2
i=1
n
= ∑ (yi − βˆ 0 − βˆ 1xi )2 = S
(2.22)
i=1
Leitet man diesen Ausdruck nach β̂0 und β̂1 ab, so ergeben sich
die Gleichungen (2.14) und (2.15) als Bedingungen erster Ordnung, die durch (2.17) und (2.19) gelöst werden:
n
∂S
= −2∑ (yi − βˆ 0 − βˆ 1 xi ) = 0
ˆ
∂β0
i=1
(2.22a)
n
∂S
= −2∑ xi (yi − βˆ 0 − βˆ 1 xi ) = 0
ˆ
∂β1
i=1
(2.22b)
2–23
•
KQ-Regressionsgleichung (Stichproben-Regressionsfunktion):
ŷ = βˆ 0 + βˆ 1 x ,
(2.23)
wobei ŷ den vorhergesagten Wert angibt; β̂0 ist der vorhergesagte Wert von y, wenn x = 0, was oft nicht sinnvoll ist.
•
Die Stichproben-Regressionsfunktion (2.23) ist die geschätzte Version der Bevölkerungs-Regressionsfunktion
(2.8) E(y x) = β0 + β1x , die unbekannt bleibt. Jede Stichprobe
generiert
mit
β̂0
und
β̂1
eine
andere
Stichproben-
Regressionsfunktion.
•
Mit β̂1 lässt sich für jede Änderung von x (∆x) die erwartete geschätzte Änderung von y (∆y) bestimmen.
2–24
• Beispiel 1: Gehalt des Vorstandsvorsitzenden (salary) als
Funktion der Rendite (ROE). Salary gemessen in 1000 $ (z.B.
856,3), ROE gemessen in Prozent (z.B. 10)
salary = β0 + β1 ROE + u
Auf Basis von Daten für 209 Vorstandsvorsitzende ergibt sich:
salary = 963,1 + 18,5 ROE
(2.26)
Gehalt bei Rendite von 0: 963.100 $
Gehalt bei Rendite von 1 Prozent: um 18,5 (Tausend $) höher.
Gehalt bei Rendite von 30 Prozent: 963,1 + 18,5 · 30 = 1518,2
Tausend $, d.h. 1.518.200 Dollar.
2–25
•
Beispiel 2: Stundenlohn (wage) als Funktion der Ausbildungs-
jahre (educ). Daten für 526 Personen ergeben:
wage = –0,90 + 0,54 educ
(2.27)
0 Jahre Ausbildung: Stundenlohn negativ: Nicht sinnvoll, aber
kommt in Daten auch nicht vor (out of sample prediction).
8 Jahre Ausbildung: wage = –0,90 + 0,54 · 8 = 3,42 $
Jedes Ausbildungsjahr erhöht den Lohn im Mittel um 54 Cent,
egal wie hoch die Bildung schon war.
•
Frage: Was ist die Konsequenz eines Anstiegs von educ = 8
auf educ = 10?
2–26
•
Sprachregelung: Man regressiert y auf x, also die abhängige
auf die unabhängige Variable.
2–27
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–28
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
•
Jeder vorhergesagte Wert von y, ŷ , liegt auf der Regressionsgerade, die tatsächlichen Datenpunkte im Normalfall nicht.
Wenn û positiv ist, wird y unterschätzt, wenn û negativ ist, wird
y überschätzt (vgl. Abb. 2.4).
•
Summe und Durchschnittswert der KQ-Residuen ist Null:
n
∑ ûi = 0
(2.30)
i=1
Dies folgt sowohl aus Annahme 1 (2.5) als auch aus der Bedinn
gung erster Ordnung für die Minimierung von
∑ ûi2 (2.22a).
i=1
2–29
•
Die Stichprobenkovarianz zwischen xi und û i ist Null:
n
∑ xiuˆ i = 0
(2.31)
i=1
Dies folgt aus Annahme 2 und der Bedingung (2.15).
•
Der Punkt ( x, y ) liegt auf der Regressionsgeraden, d.h. setzt
man x in die Regressionsgleichung ein, so ergibt sich y .
•
yi lässt sich als Summe von Vorhersage und Residuum abbilden:
y i = ŷ i + ûi
(2.32)
Da die ûi im Mittel Null sind, folgt ŷ = y .
2–30
• Man definiert die gesamte (totale, SST), erklärte (SSE) und re-
SST
∑ (yi - y)2
(2.33)
i=1
n
∑ (yˆ i - y)2
(2.34)
i=1
n
≡
SSR
n
≡
SSE
≡
siduale (SSR) Quadratsumme:
∑ uˆ i2
(2.35)
i=1
• SST beschreibt die gesamte Variation in y. Sie lässt sich auftei-
len:
R
S
S
+
E
S
S
=
T
S
S
(2.36)
2–31
•
Solange die Konstante β0 mit geschätzt wurde, kann man das
R T
S S
S S
1
=
E T
S S
S S
=
2
R
R2 als Maß der Schätzgüte verwenden:
, 0 ≤ R2 ≤ 1
(2.38)
Es gibt den Anteil der durch x erklärten Stichprobenvariation
von y an und wird meist als Prozentgröße beschrieben. Wenn
R2 = 1, liegen alle Punkte auf der Regressionsgeraden. In diesem Fall ist SSR = 0, es gibt keine Residuen.
•
Der Wert des R2 entspricht dem Quadrat des Stichprobenkorre2
lationskoeffizienten zwischen yi und ŷ i , R2 = ⎡⎣corr ( yi ,yˆ i ) ⎤⎦ .
2–32
•
Beispiel: salary = 963,1 +18,5 ROE, n=209 R2=0,0132 (2.39)
Hier wird nur ein Anteil von 1,32 Prozent der gesamten Streuung von salary durch ROE erklärt. Dennoch kann die Schätzung nützlich sein.
2–33
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–34
2.4 Erwartungswerte und Varianzen
2.4.1 Unverzerrtheit des KQ-Schätzers
•
Annahme SLR.1: Im Modell für die Grundgesamtheit sind y, x
und der Störterm u verbunden als: y = β0 + β1 x + u,
(2.47)
mit β0 und β1 als Achsenabschnitts- und Steigungsparameter.
•
y, x und u sind Zufallsvariablen.
•
Annahme SLR.2: Unsere Zufallsstichprobe der Größe n {(xi,yi):
i= 1,2,…,n} folgt Modell (2.47).
•
Für die Beobachtung i der Zufallsstichprobe lässt sich (2.47)
wie folgt schreiben:
yi = β0 + β1 xi + ui,
i=1,2,…,n
(2.48)
2–35
•
ui ist der Störterm für Beobachtung i und enthält alle unbeobachteten Größen, die yi beeinflussen.
•
Da β0 und β1 ohne Variation in x nicht definiert sind (vgl. 2.18),
unterstellen wir:
•
Annahme SLR.3: Die Realisationen von xi in der Stichprobe,
{xi, i= 1,…,n} sind nicht alle identisch.
•
Frage: Bei welchen Werten für die Varianz oder Standardab-
weichung von xi in der Stichprobe trifft die Annahme nicht zu?
•
Annahme SLR.4: Der Erwartungswert des Fehlers u ist für jeden Wert der erklärenden Variablen x gleich Null: E(u x) = 0
•
Für jedes Element i der Zufallsstichprobe gilt: E(ui xi ) = 0 .
2–36
•
Wir betrachten die KQ-Eigenschaften bedingt auf die konkreten
xi in unserer Stichprobe.
•
n
In (2.19) hatten wir gezeigt, dass β̂1 =
da
∑ (xi - x)(yi - y) = ∑ (xi - x)yi
∑ (xi - x)2
,
(vgl. A8), lässt sich ˆ
auch
i=1
schreiben als
n
β̂1 =
n
i=1
n
i=1
i=1
1
β
n
∑ (xi - x)(yi - y)
n
n
∑ (xi - x)yi ∑ (xi - x)yi ∑ (xi - x)(β0 + β1xi + ui )
i=1
n
∑ (xi - x)2
=
i=1
SSTx
=
i=1
SSTx
i=1
(2.49,50)
2–37
•
β̂1 ist eine Zufallsvariable, die je nach Stichprobe anders ausfallen kann.
•
Der Zähler lässt sich wie folgt umformen:
n
n
n
∑ (xi - x)β0 + ∑ (xi - x)β1xi + ∑ (xi - x)ui
i=1
i=1
(2.51)
i=1
n
n
n
i=1
i=1
i=1
= β0 ∑ (xi - x) + β1∑ (xi - x)xi + ∑ (xi - x)ui
n
= β1 ⋅ SSTx + ∑ (xi - x)ui ,
i=1
da der erste Term gleich Null ist. SSTx ist die Variation in x.
Einsetzen in 2.50:
2–38
ui
di
n
1
=
i
∑
,
(2.52)
x
xi
=
di
wobei
︶
Tx
1 S
S
+
β1
=
ui
1
=
i
ˆ
•
x Tx
- S
xi S
n
+
β1
=
β1
︵
∑
. Der Schätzer ergibt den Bevölkerungsparame-
ter plus eine lineare Kombination der Störterme {u1,u2,…,un}.
Wären alle Störterme gleich Null, ergäbe sich β1.
•
Theorem 2.1 (Unverzerrtheit von KQ):
Unter den Annahmen SLR.1 bis SLR.4 gilt:
E(βˆ ) = β
E(βˆ ) = β
und
0
0
1
(2.53)
1
für alle Werte von β0 und β1. Die KQ-Schätzer sind unverzerrt.
2–39
•
Beweis: Hier bedingt auf die tatsächlich beobachteten Werte x
(alternativ: Unter Annahme nicht-stochastischer x):
(a)
⎡ 1
E(βˆ 1 ) = β1 + E ⎢
⎣ SSTx
1
= β1 +
SSTx
⎤
1
∑ dui i ⎥ = β1 + SST
i=1
x
⎦
n
n
∑ E(dui i )
i=1
n
∑ dE(u
i
i ) = β1,
i=1
da E(u x) = 0 unter SLR.2 und SLR.4.
(b)
βˆ 0 = y - βˆ 1 x = ( β0 + β1 x + u ) - βˆ 1 x = β0 + (β1 - βˆ 1 )x + u
E(βˆ 0 ) = β0 + E[(β1 - βˆ 1 )x] + E(u) = β0 + E[(β1 - βˆ 1 )]x = β0 ,
da E(u) = u = 0 und E(βˆ 1 ) = β1.
2–40
•
Unverzerrtheit ist eine Eigenschaft des Schätzverfahrens, nicht
einzelner Schätzwerte. Ob eine konkrete Stichprobe zu zutreffenden Schätzergebnissen führt, weiß man nicht.
•
Alle 4 Annahmen müssen zutreffen, d.h. Linearität, Zufallsstichprobe, Varianz in x, mittlere bedingte Unabhängigkeit von
u und x, sonst sind die Schätzer verzerrt. Annahme 4 trifft gelegentlich nicht zu.
2–41
• Beispiel:
Regressiere
Mathenoten
auf
Schulmahlzeiten-
Förderung:
math = β0 + β1 lnchprg + u
(2.54)
n = 408 Schulen, lnchprg = Anteil der Schüler mit Subvention
(0 - 100), math = Anteil der Schüler, die Matheprüfung bestehen (0 - 100).
math = 32,14 – 0,319 lnchprg
R2 = 0,171
Je mehr gefördert wird, umso schlechter die Matheerfolge. Anteil lnchprg plus 10 Prozentpunkte, Anteil Matheerfolg minus 3,2
Prozentpunkte. Kausaler Effekt nicht glaubhaft.
2–42
•
Wenn u mit x korreliert, ist β1 verzerrt geschätzt. u könnte ausgelassene Variablen wie Armutsrate oder Schulqualität enthalten, die mit lnchprg korreliert sind. Dann ist β̂1 verzerrt.
•
Lösungen werden in der Veranstaltung Empirische Wirtschaftsforschung II besprochen.
2–43
2.4.2 Varianz der KQ-Schätzer
•
Wie stark streuen die Parameterschätzer um den Erwartungswert? Wie präzise sind die Schätzer?
•
Annahme SLR.5: Der Störterm u hat für jeden Wert der erkläVar(u x) = σ 2
renden
Variable
die
gleiche
Varianz:
(Homoskedastie).
•
Annahme SLR.5 ist für Beweis der Unverzerrtheit nicht erforderlich.
•
Die Annahmen SLR.4 und SLR.5 können auch in Bezug auf y
dargestellt werden (siehe Abb. 2.8):
E(y x) = β0 + β1x (linearer Erwartungswert)
(2.55)
2–44
Var(y x) = σ 2
(konstante Varianz)
(2.56)
2–45
•
Wenn
Var(u x )
von
x
abhängt,
spricht
man
von
Heteroskedastie, die sich wegen Var(u x ) = Var(y x ) auch
auf y überträgt.
2–46
2–47
•
Theorem 2.2 (Stichprobenvarianz der KQ-Schätzer):
Unter den Annahmen SLR.1 – SLR.5 gilt (bedingt auf die Stichprobenwerte x):
Var(βˆ 1 ) =
σ2
n
∑ (xi - x)2
σ2
=
SSTx
(2.57)
i=1
1 n 2
σ ∑ xi
n i=1
2
Var(βˆ 0 ) =
n
∑ (xi - x)2
(2.58)
i=1
2–48
•
Determinanten von Var(β̂1 ) :
- Je größer σ2, umso größer ist Var(β̂1 )
- Je größer die Streuung von x, umso kleiner ist Var(β̂1 )
- Je größer die Stichprobe, umso größer ist SSTx, umso klei-
ner Var(β̂1 )
•
Für Konfidenzintervalle und Teststatistiken benötigen wir die
Standardabweichungen von β̂ 0 und β̂1: sd(β̂ 0 ) und sd(β̂1), als
Wurzel der Varianzen.
•
Je kleiner Var(β̂1), umso präziser ist der Zusammenhang zwischen y und x beschreibbar.
2–49
2.4.3 Die Varianz des Fehlerterms
•
Zur Berechnung der Parametervarianzen benötigen wir σ2, das
mit Hilfe der Daten geschätzt werden kann.
•
Unterscheidung: Im Bevölkerungsmodell yi = β0 + β1 xi + ui stellen die ui Fehler für die Beobachtung i dar, die man aber nie
messen kann, da die wahren β0, β1 unbekannt sind.
•
Nach der Schätzung ergibt y i = β̂0 + β̂1x i + ûi die auf Basis der
Stichprobe bestimmten Residuen ûi .
2–50
•
Die Residuen lassen sich als Funktion der wahren unbeobachteten Fehler darstellen:
ûi = yi - βˆ 0 - βˆ 1xi = (β0 + β1xi + ui ) - βˆ 0 - βˆ 1xi
= ui - (βˆ 0 - β0 ) - (βˆ 1 - β1 )x i
(2.59)
Bei unverzerrten Parameterschätzern ist E(ûi ) = ui .
•
1 n 2
Da σ = E(u ), wäre ∑ ui ein geeignetes Schätzverfahren für
n i=1
2
2
σ 2 , allerdings sind die ui2 nicht beobachtbar. Wenn wir statt2
dessen ûi nutzen, ist der Schätzer bestimmbar, aber noch ver1 n 2 SSR
zerrt:
∑ ûi = n
n i=1
2–51
•
Die Verzerrung ergibt sich, da die û i selbst das Ergebnis der
Schätzung von 2 Parametern (β̂0 , β̂1 ) sind, die auf Basis der
vorliegenden Information bestimmt wurden. Dadurch verringert
sich die Zahl der Freiheitsgrade um 2, was bei einem unverzerrten Schätzer berücksichtigt werden muss (vgl. C.5):
1
σˆ =
(n - 2)
2
•
n
∑ uˆ i2 =
i=1
SSR
(n - 2)
Theorem 2.3 (Unverzerrte Schätzung von σ2):
Unter den Annahmen SLR.1 – SLR.5 gilt:
•
(2.61)
E(σ̂ 2 ) = σ 2
σ̂ 2 kann in (2.57) und (2.58) genutzt werden, um unverzerrte
Schätzer von Var(β̂0 ) und Var(β̂1 ) zu bestimmen.
2–52
•
Ein Schätzer der Standardabweichung von ui ist σ̂ = σ̂ 2 ,
genannt Standardfehler der Regression (SER). Es ist ein
Schätzer für die auf x bedingte Streuung von u und y.
•
Die Standardabweichung (standard deviation) der Parameσ
lässt sich auf Basis der Streuung in der
ter: sd(βˆ 1) =
SSTx
Stichprobe als Standardfehler von β̂1 schätzen:
se(βˆ 1) =
σˆ
=
SSTx
σˆ
n
∑ (xi − x)2
i=1
•
Da σ̂ von Stichprobe zu Stichprobe variiert, sind se(β̂1 ) und
se(β̂0 ) Zufallsvariablen.
2–53
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–54
2.5 Regression durch den Ursprung
•
Es gibt Fälle, in denen bei x = 0 auch der Wert von y null sein
soll (z.B. Steuereinnahmen als Funktion des Einkommens).
y = β 1x .
Hier lautet das Modell:
(2.63)
•
Da kein Achsenabschnittsparameter geschätzt wird, spricht
man von einer Regression „durch den Ursprung“, die Regressionslinie verläuft durch den Punkt (x,y) = (0,0).
2–55
•
Das Kleinstquadrateverfahren minimiert in diesem Fall (vgl.
2.22):
n
∑ (yi - βˆ 1xi )2 = 0
(2.64)
i=1
Bedingung erster Ordnung:
n
∑ xi (yi - βˆ 1xi ) = 0 ,
(2.65)
i=1
n
so dass
ˆ
β 1 =
∑ xi yi
i=1
n
∑ xi2
,
(2.66)
i=1
solange nicht alle xi den Wert 0 annehmen.
2–56
n
•
Vergleiche dies mit β̂1 =
∑ (xi - x)yi
i=1
n
∑ (xi - x)2
ˆ
. β1 und β̂1 sind nur dann
i=1
identisch, wenn x = 0 .
•
(2.49)
ˆ
ˆ
Schätzt man β1 obwohl β0 ≠ 0, so ist β1 verzerrt.
2–57
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–58
2.6 Regression mit logarithmierten Werten
•
Im linearen Modell beschreibt β1, um welchen absoluten Betrag
sich y bei Änderung von x um eine Einheit ändert. Um zu beschreiben, um wie viel Prozent sich y ändert, schätzt man das
Modell mit logarithmiertem y.
•
Hinweis: Auch wenn die Notation "log" verwendet wird, ist der
natürliche Logarithmus gemeint.
•
Hinweis: Die verwendeten Rechenregeln sind in Kapitel 1 –
Appendix A4 erläutert.
•
Beispiel:
log(wage) = β0 + β1 educ +u
(2.42)
% ∆wage ≅ (100 · β1) ∆educ
(2.43)
2–59
•
Jetzt gibt 100 · β1 an, um wie viel Prozent sich y (bzw. der
Lohn) ändert, wenn sich x (bzw. educ) um eine Einheit ändert
(Semi-Elastizität) (vgl. A.28). Nun ist die absolute Änderung
von y nicht mehr über alle Werte von educ konstant.
•
Ergebnis: log(wage) = 0,584 + 0,083 educ
(2.44)
Mit jedem zusätzlichen Ausbildungsjahr (educ) steigt der Lohn
um circa 8,3 Prozent.
•
Mit dem Schätzverfahren lassen sich auch konstante Elastizitäten schätzen (vgl. A.26).
2–60
•
Beispiel: log(salary) = β0 + β1 log(sales) + u
(2.45)
Hier ist β1 die Elastizität des Gehalts des CEO in Bezug auf den
Umsatz. Schätzung wie zuvor:
log(salary)= 4,822 + 0,257 log(sales)
(2.46)
n=209, R2= 0,211.
Ein Anstieg der Umsätze um 1 Prozent erhöht das Gehalt um
0,257 Prozent.
•
Schließlich lässt sich abschätzen, wie hoch der absolute Effekt
einer relativen Änderung ist.
2–61
•
Beispiel:
hours = β0 + β1 log(wage) + u
β1/100 beschreibt die absolute Änderung in hours bei einer Änderung von wage um ein Prozent.
hours = 33 + 45,1 log(wage)
∆hours ≈ (45,1 / 100) % ∆wage
Ein Anstieg der Löhne um ein Prozent erhöht die Stundenzahl
um 0,451, d.h. 0,451 · 60 = 27,06 Minuten.
2–62
•
Warum „lineares Regressionsmodell“? Die Regressionsgleichung y = β0 + β1 x + u ist linear in den Parametern β0 und β1.
Logarithmische Variablen sind ebenso zulässig wie Polynome
oder
x oder sin(x). Skalierungen beeinflussen nicht die
Schätzung, aber die Interpretation.
2–63
•
Modelle, die nicht-linear in Parametern sind, sind z.B.:
1
oder
y=
+u
y = β0 + xβ1 + u
β0 + β1x
Solche Modelle behandeln wir nicht.
2–64
Schlüsselbegriffe Kapitel 2:
Ceteris paribus Beziehung
Einfache Regression
Abhängige, erklärte, endogene Variable
Regressand
Fehlerterm, Störterm
Unabhängige, erkl., exogene Variable
Regressor
Linearer Zusammenhang
Steigungsparameter
Achsenabschnittsparameter
Konstante
Mittlere bedingte Unabhängigkeit
Ausgelassene Faktoren
Grundgesamtheit
Bedingter Erwartungswert
Bevölkerungs-Regressionsfunktion
Systematisch erklärbarer Teil
Stichprobe
Stichprobenkovarianz
Gesamte Quadratsumme
Erklärte Quadratsumme
Residuale Quadratsumme
Variation
R2
Schätzgüte
Stichprobenvariation
Stichprobenkorrelationskoeffizient
Skalieren
Semi-Elastizität
Lineares Regressionsmodell
Nicht-linear in Parametern
Unverzerrtheit
Nicht-stochastisch
Schätzverfahren vs. –wert
Homoskedastie
Heteroskedastie
Konfidenzintervall
2–65
Stichprobenvarianz
KQ-Schätzwert
Residuum
Stichproben-Regressionsfunktion
Regressionsgerade
Vorhersage
Teststatistik
Standardabweichung
Standardfehler der Regression
Standardfehler
Regression durch den Ursprung
Linear in Parametern
2–66
Literatur Kapitel 2:
•
Wooldridge, Kapitel 2
•
Von Auer, Kapitel 3, Kapitel 4
•
Hill/Griffiths/Judge, Kapitel 3, Kapitel 4
•
Stock/Watson, Kapitel 4
2–67
Kapitel 3: Multiple Regression: Schätzung
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–1
Leitfragen und Lernziele Kapitel 3:
•
Was spricht gegen die ceteris paribus Interpretation im einfachen Regressionsmodell?
•
Wie lässt sich das einfache Regressionsmodell auf viele erklärende Variablen hin erweitern?
•
Welche Eigenschaften hat das KQ-Verfahren und warum ist es
so verbreitet?
3–2
3.1 Motivation
•
Nachteil der einfachen Regressionsanalyse: Annahme SLR.4,
E(u X ) = 0 , ist unrealistisch. Daher ist die ceteris paribus Interpretation problematisch.
•
Multiple Regressionsanalyse berücksichtigt viele Kontrollvariablen, so dass kausale bzw. ceteris paribus Schlussfolgerungen plausibler werden.
•
Mit mehreren erklärenden Variablen lässt sich eine abhängige
Variable besser erklären und voraussagen.
3–3
•
Beispiel 1:
wage = β0 + β1 · educ + β2 · exper + u
(3.1)
Nun wird der Effekt der Arbeitsmarkterfahrung (exper) aus dem
Störterm herausgelöst und separat mit dem Koeffizienten β2 berücksichtigt. Jetzt kann β1 bei gegebenem Wert für die Arbeitsmarkterfahrung geschätzt werden.
•
Beispiel 2: avgscore = β0 + β1 · expend + β2 · avginc + u (3.2)
Gesucht ist β1, die Auswirkung von Ausgaben der Schulen pro
Schüler auf Testerfolge. Da beide Größen vom mittleren Familieneinkommen beeinflusst werden könnten, ist es sinnvoll, den
Effekt des Einkommens (avginc) herauszurechnen (β2).
3–4
• Allgemeines Modell mit zwei erklärenden Variablen:
y = β0 + β1 x1 + β2 x2 + u
(3.3)
Wieder misst β0 den Achsenabschnitt, β1 die Änderung in y
wenn sich x1 ändert (gegeben x2, d.h. Δx2 = 0 sowie gegeben u,
d.h. Δu = 0) und β2 die Änderung in y wenn sich x2 ändert (gegeben x1, d.h. Δx1 = 0 sowie gegeben u, d.h. Δu = 0).
3–5
•
Auf diese Weise lassen sich auch nicht-lineare Zusammenhänge abbilden, z.B. cons = β0 + β1 · inc + β2 · inc2 + u ,
(3.4)
cons = Konsumausgaben und inc = Einkommen.
Hier können β1 und β2 nicht getrennt voneinander interpretiert
werden. Man bestimmt den Gesamteffekt von inc auf cons
Δcons
durch die erste Ableitung:
≈ β1 + 2β2 inc
Δinc
Beide Parameter sowie das Einkommen spielen eine Rolle.
Obwohl cons in nicht-linearer Form von inc abhängt, ist (3.4)
ein (in den Parametern) lineares Regressionsmodell.
3–6
•
Zentrale Annahme im Modell mit zwei erklärenden Variablen:
E(u x1 ,x 2 ) = 0 ,
(3.5)
d.h. für jedes mögliche Wertepaar (x1, x2) soll der erwartete
Wert von u einheitlich Null sein und alle unbeobachteten Determinanten von y hängen nicht mit x1 und x2 zusammen. Diese
Annahme ist nicht immer realistisch. Im Beispiel 1 könnten unbeobachtete Fähigkeiten („ability“) sowohl mit dem Lohn als
auch mit educ zusammenhängen. Dann wäre der KQ-Schätzer
verzerrt.
•
Frage: Anzahl Kapitalverbrechen =
β0 + β1 · Verurteilungswahrscheinlichkeit + β2 · Haftdauer + u.
Was könnte in u enthalten sein? Hält Annahme (3.5)?
3–7
•
Allgemeines multiples Regressionsmodell:
y = β0 + β1 x1 + β2 x2 + β3 x3 + … + βk xk + u
(3.6)
Das Modell berücksichtigt k erklärende Variablen und enthält
k+1 unbekannte Parameter. Man unterscheidet Achsenabschnitts- (β0) und Steigungsparameter (β1 bis βk). u enthält alle
nicht berücksichtigten Determinanten von y.
•
Zentrale Annahme ist wieder:
E(u x1 ,x 2 ,...,xk ) = 0
(3.8)
d.h., dass der Störterm u mit allen erklärenden Variablen
unkorelliert ist. Nur dann ist KQ ein unverzerrter Schätzer für
die unbekannten Parameter.
3–8
Kapitel 3: Multiple Regression: Schätzung
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–9
3.2 Mechanik und Interpretation des KQ-Schätzers
3.2.1 Ableitung der KQ-Schätzer
•
Schreibweise für eine KQ-Schätzung mit 2 erklärenden Variabŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
(3.9)
len:
•
Ableitung des Kleinstquadrate-Schätzers durch Minimieren der
quadrierten Residuen. Bei n Beobachtungen werden die Werte
für β̂ 0 , β̂1 und β̂2 gesucht, die
n
∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 )2
(3.10)
i=1
minimieren. i ist der Index für die n Beobachtungen.
3–10
•
Im allgemeinen Fall sucht man die Parameter β̂ 0 , β̂1,…, β̂k für
ŷi = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk
(3.11)
durch Minimieren von (s. Appendix A.1):
n
∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 - ... - βˆ k xik )2 .
(3.12)
i=1
•
Es ergeben sich k+1 Bedingungen erster Ordnung:
n
∑ (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
i=1
n
∑ xi1(yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
i=1
n
∑ xi2 (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
i=1
n
∑ xik (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
(3.13)
i=1
3–11
•
Diese Bedingungen lassen sich auch über die Annahmen (3.8),
E(u)=0 und E(xju)=0 für j=1,2,…,k ableiten, wenn die Bedingungen in (3.13) durch n dividiert werden. In diesem Fall spricht
man von einem Momentenschätzer.
•
Momentenschätzer erhält man, wenn man unterstellt, dass Bedingungen, die in der Grundgesamtheit gelten (z.B. Ann. (3.5)
und (3.8)) auch in der Stichprobe zutreffen. Man spricht von
Momentenbedingungen.
•
Wir erhalten hier die Schätzer für β0,…, βk dadurch, dass wir
die k+1 Gleichungen in (3.13) nach den k+1 Parametern anhand der Stichprobendaten auflösen.
3–12
•
Gleichung (3.11) wird als KQ-Regressionsgerade oder Stichproben-Regressionsfunktion bezeichnet. Es ist Standard, einen Achsenabschnittsparameter, β0, mit zu schätzen.
3–13
3.2.2 Interpretation der KQ-Regressionsgleichung
•
Zwei erklärende Variablen:
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
(3.14)
β̂ 0 ergibt den y-Wert, wenn x1 = x2 = 0 (selten sinnvoll).
Die Steigungsparameter beschreiben
Δyˆ = βˆ 1 Δx1 + βˆ 2 Δx 2
d.h. wie stark sich y bei Änderungen von x1 und x2 ändert. Bei
gegebenem x2, d.h. Δx2 = 0, folgt Δy = βˆ 1 Δx1, bei gegebenem
x1, d.h. Δx1 = 0, folgt Δy = βˆ 2 Δx 2 als Partialeffekt von x1 bzw.
x2.
3–14
•
k erklärende Variablen:
ŷ = βˆ 0 + βˆ 1 x1 + ... + βˆ k xk
(3.16)
bzw.
Δyˆ = βˆ 1 Δx1 + ... + βˆ k Δxk
(3.17)
β̂1 beschreibt die Änderung in y, wenn x1 ceteris paribus um eine Einheit steigt oder fällt, Δy = βˆ 1 Δx1 ,
(3.18)
d.h. bei gegebenen Werten für x2, x3,…, xk.
3–15
•
Beispiel: log(wage) = 0.284 + 0.092 educ +
0.0041 exper + 0.022 tenure
(3.19)
educ = Ausbildungsjahre
exper = Jahre Arbeitsmarkterfahrung
tenure = Jahre Betriebszugehörigkeitsdauer
Da die abhängige Variable logarithmiert ist, (Hinweis: Gemeint
ist der natürliche Logarithmus) haben die Koeffizienten eine
(approximative) Prozentinterpretation. Bei gegebener exper
und tenure erhöht ein weiteres Ausbildungsjahr log(wage) um
0,092 bzw. den Lohn um 9,2 Prozent. Dies ist der mittlere
3–16
Lohnunterschied zweier Personen mit gleichem exper und
tenure und mit einem Bildungsunterschied von einem Jahr.
•
Auch der Effekt einer gleichzeitigen Änderung von zwei Variablen lässt sich bestimmen:
∆log(wage) = 0,0041 ∆exper + 0,022 ∆tenure
= 0,0041 + 0,022
= 0,0261
hier ca. 2,6 Prozent Lohnzuwachs, wenn sich exper und tenure
gleichzeitig um eins ändern.
3–17
3.2.3 Vorhersage
•
Für jede Beobachtung i ergibt sich nach der Schätzung der
vorhergesagte y-Wert wie folgt:
ŷi = βˆ 0 + βˆ 1 xi1 + βˆ 2 xi2 + ... + βˆ k xik
•
(3.20)
Dies weicht vom beobachteten Wert yi im Ausmaß des Vorhersagefehlers ab. Der KQ-Schätzer minimiert den durchschnittlichen Vorhersagefehler, das Residuum ûi :
uˆ i = yi - yˆ i
(3.21)
Wenn ûi > 0, wird yi unterschätzt, wenn ûi < 0, überschätzt.
3–18
•
Eigenschaften von KQ-Vorhersagen:
(1) Der Stichprobendurchschnitt der Residuen ist Null und
daher y = ŷ (siehe 3.13)
(2) Die Stichprobenkovarianz zwischen jeder unabhängigen
Variable und den KQ-Residuen ist Null, daher auch die
zwischen den vorhergesagten Werten und den KQ-Residuen (siehe 3.13)
(3) Der Punkt ( x 1, x 2,…, x k, y ) liegt immer auf der Regressionsgerade y = βˆ 0 + βˆ 1 x 1 +βˆ 2 x 2 +... + βˆ k x k (wegen (1)).
3–19
•
Frage: Eine Schätzung der Collegenote (colGPA) ergibt
colGPA = 1,29 + 0,453 hsGPA + 0,0094 ACT,
wobei hsGPA = Note Highschool
ACT = Testergebnis.
Wenn im Mittel hsGPA = 3,4 und ACT = 24,1, wie lautet die
mittlere Collegenote?
3–20
3.2.4 KQ-Koeffizienten als partielle Effekte
•
Eine häufig verwendete Darstellung der Steigungskoeffizienten
lautet z.B. für den Fall ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2
n
n
ˆβ1 = ⎜⎛ ∑ rˆi1yi ⎟⎞ / ⎜⎛ ∑ rˆi12 ⎞⎟ ,
⎝ i=1
⎠ ⎝ i=1 ⎠
(3.22)
wobei r̂i1 das Residuum einer Regression von x1 auf x2 ist.
•
(3.22) besagt, dass sich der Steigungsparameter β̂1 im multiplen Modell als Ergebnis einer Regression von yi auf dieses r̂i1
bestimmen lässt. Dabei beschreibt r̂i1 den Teil der x1 – Variable,
der nicht durch x2 abgebildet wird. β̂1 beschreibt die partielle
Korrelation von x1 mit y, nachdem x2 herausgerechnet wurde.
3–21
•
Auch im allgemeinen Fall mit k erklärenden Variablen gilt
(3.22), wobei hier dann r̂i1 das Residuum der Regression von x1
auf alle anderen x2, x3, …, xk bezeichnet.
3–22
3.2.5 Vergleich von einfacher und multipler Regression
•
Einfache Regression:
Multiple Regression :
•
~
Grundsätzlich unterscheiden sich β1 und β̂ 1 , wobei gilt
β 1 = βˆ 1 + βˆ 2 δ 1 .
(3.23)
~
δ1 ist der Steigungsparameter der einfachen Regression von xi2
auf xi1:
•
y = β 0 + β 1 x1
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
xi2 = δ0 + δ1 xi1 + ui
~
β1 und β̂1 sind identisch, wenn entweder β̂2 = 0 , d.h. x2 hat kei~
nen Einfluss auf ŷ oder wenn δ1 = 0 , d.h. x1 und x2 sind in der
Stichprobe unkorreliert.
3–23
•
Beispiel: Eine Schätzung der Beteiligung von Arbeitnehmern
im Pensionsplan eines Unternehmens ergibt
prate = 80,12 + 5,52 mrate + 0,243 age
n = 1534
prate = Anteil der Beschäftigten, die teilnehmen (0–100)
mrate = Rate der Kofinanzierung durch Arbeitgeber (0–1)
age
= Alter des Pensionsplans (Mittel 13,2)
Die Koeffizienten sind wie erwartet positiv. Schätzt man ohne
age:
prate = 83,08 + 5,86 mrate ,
ändert sich β̂mrate nur wenig, da die Korrelation zwischen mrate
und age klein ist.
3–24
•
Bei k erklärenden Variablen ist der Steigungsparameter β1 der
einfachen und der multiplen Regression gleich, wenn (a) entweder die Koeffizienten der anderen erklärenden Variablen alle
Null sind oder (b) wenn x1 mit keiner der anderen Variablen korreliert ist. Wenn die Koeffizienten oder Korrelationen klein aus~
fallen, kann der Unterschied zwischen β1 und β̂1 klein sein.
3–25
3.2.6 Schätzgüte
total sum of squares
SSR
∑ (yi - y)2
(3.24)
i=1
n
∑ (yˆ i - y)2
(3.25)
i=1
n
≡
residual sum of squares
SSE
n
≡
explained sum of squares
SST
≡
• Wie zuvor lässt sich definieren:
∑ uˆ i2
(3.26)
• Und es gilt
R
S
S
+
E
S
S
=
T
S
S
i=1
,
(3.27)
d.h. die gesamte Variation in yi ist die Summe der Variation in
ŷ i und in ûi .
3–26
Wie zuvor ist
R T
S S
S S
1
=
E T
S S
S S
≡
2
R
•
(3.28)
der Anteil der durch die KQ-Regression erklärten Variation von
y. R2 entspricht dem quadrierten Korrelationskoeffizient zwischen yi und ŷ i .
2
⎛ n
⎞
ˆ
ˆ
(y
y)(y
y)
⎜∑ i
⎟
i
i=1
⎝
⎠
2
R =
.
n
n
⎛
2⎞ ⎛
2⎞
ˆ
ˆ
(y
y)
(y
y)
∑
∑
⎜
⎟ ⎜
⎟
i
i
⎝ i=1
⎠ ⎝ i=1
⎠
(3.29)
3–27
•
Werden zusätzliche erklärende Variablen berücksichtigt, kann
R2 nie fallen, da der erklärte Anteil von SST nicht fallen kann.
Daher ist das R2 kein gutes Kriterium, um über die Aufnahme
zusätzlicher erklärender Variablen zu entscheiden. Stattdessen
prüft man, ob zusätzliche Variablen einen von Null verschiedenen Effekt haben (dazu Kapitel 4).
•
Beispiel: CollegeNote = 1,29 + 0,453 SchulNote + 0,0094 Test
n=141, R2=0,176. Das Modell erklärt 17,6 Prozent der beobachteten Streuung von Collegenoten.
•
Selbst bei kleinen R2 Werten kann KQ präzise und informative
ceteris paribus Effekte bestimmen.
3–28
3.2.7 Schätzung ohne Regressionskonstante
•
Wird das lineare Modell ohne Regressionskonstante geschätzt,
so spricht man von einer Regression durch den Ursprung. Implizit wird β0 gleich Null gesetzt.
•
Da für den Fall, dass x1 = 0, x2 = 0, …, xk = 0, nimmt ŷ dann den
Wert Null an.
•
Wenn keine Regressionskonstante geschätzt wird, ist nicht
mehr gewährleistet, dass der Mittelwert der Residuen Null ist.
•
R2 kann nun negativ werden, wenn es als Anteil 1−
SSR
defiSST
niert ist. Dies lässt sich durch Berechnung von R2 mittels (3.29)
vermeiden.
3–29
•
Lässt man β0 irrtümlich aus, können alle Steigungsparameter
verzerrt sein. Berücksichtigt man β0, obwohl es eigentlich Null
ist, so steigt die Streuung der geschätzten Steigungsparameter.
3–30
Kapitel 3: Multiple Regression: Schätzung
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–31
3.3 Erwartungswert des KQ-Schätzers
3.3.1 Annahmen und Theorem
•
Wir betrachten Eigenschaften des KQ-Schätzverfahrens (nicht:
von konkreten Schätzergebnissen), wenn mittels Stichprobendaten unbekannte Parameter der Grundgesamtheit geschätzt
werden.
u
+
xk
βk
+
.
.
.
+
x2
β2
+
x1
β1
+
β0
=
y
• Annahme MLR.1: Das Modell für die Grundgesamtheit lautet:
,
(3.31)
wobei β0, β1,…, βk konstante unbekannte Parameter und u ein
unbeobachtbarer Zufallsfehler oder Störterm ist.
3–32
• Das Modell ist linear in Parametern. y und die erklärenden Variablen können beliebige Funktionen der zugrundeliegenden
Variablen sein (z.B. y = log(wage), x2 = educ2).
• Annahme MLR.2: Die Zufallsstichprobe mit n Beobachtungen
{(xi1, xi2,…, xik, yi): i= 1,2,…,n} folgt dem Bevölkerungsmodell.
ui
+
k
xi
βk
+
.
.
.
+
2
xi
β2
+
1
xi
β1
+
β0
=
yi
• Für eine zufällige Beobachtung i gilt
(3.32)
• Annahme MLR.3: In Stichprobe und Grundgesamtheit ist keine
unabhängige Variable konstant und zwischen den erklärenden
Variablen gibt es keine exakten linearen Zusammenhänge (keine perfekte Kollinearität).
3–33
• Bei perfekter Kollinearität ist KQ-Schätzung nicht möglich. Bei
hoher (aber nichtperfekter) Korrelation ist der KQ-Schätzer
durchführbar, aber oft unpräzise.
• Perfekte Kollinearität ergibt sich beispielsweise, wenn die gleiche Variable in verschiedenen Einheiten verwendet wird.
3–34
• Beispiel:
- Eisumsatz = β0 + β1 Grad C + β2 Grad F + …
- Lohn
= β0 + β1 Jahre Studium + β2 Semester Studium +…
- PKW Umsatz = β0 + β1 Werbungskosten in € + β2 Werbungskosten in $ + …
• Quadratische Berücksichtigung von erklärenden Variablen (s.o.
x1 = income, x2 = income2) ist unproblematisch, da hier x2 keine
lineare Funktion von x1 ist.
• Perfekte Kollinearität ergibt sich auch, wenn mehrere Variablen
linear abhängig sind, z.B. wenn x1 + x2 = x3. Lösung: eine der
drei Variablen auslassen.
3–35
• Beispiel:
Lohn=β0 + β1 Alter + β2 Geburtsjahr + β3 Beobachtungsjahr + u
Da Beobachtungsjahr–Geburtsjahr = Alter, so nicht schätzbar.
• Ebenfalls nicht schätzbar, wenn n < k+1.
• MLR.3 kann auch zufällig, durch unglückliche Datenkonstellation nicht zutreffen.
• Annahme MLR.4: Der Fehlerterm u hat – bedingt auf alle erklärenden Variablen – einen Erwartungswert von 0.
E(u x1 ,x 2 ,...,xk ) = 0
(3.36)
3–36
• Annahme MLR.4 trifft nicht zu, wenn
(a) funktionale Form falsch spezifiziert ist und der Störterm z.B.
noch x12 enthält,
(b) log und lineare Form nicht angemessen berücksichtigt sind,
(c) wichtige erklärende Variablen ausgelassen werden, die mit
den berücksichtigten Variablen korreliert sind,
(d) Messfehler in einer erklärenden Variable vorliegen.
Trifft MLR.4 zu, so sprechen wir von exogenen erklärenden
Variablen. Ist xj mit u korreliert, so ist xj endogen.
3–37
• Theorem 3.1 (Unverzerrtheit des KQ-Schätzers):
Unter MLR.1 – MLR.4 gilt
E(β̂ j ) = β j ,
j= 0,1,…,k
(3.37)
für alle Werte des Bevölkerungsparameters βj, d.h. KQSchätzer sind unverzerrt.
• Wichtigste Annahme: MLR.4, aber nicht überprüfbar.
• Unverzerrtheit beschreibt das Verfahren, nicht konkrete Ergebnisse.
3–38
3.3.2 Auswirkungen von Fehlspezifikationen
• Berücksichtigung irrelevanter erklärender Variablen (mit Bevölkerungsparameter von 0):
geschätzt:
y = β0 + β1 x1 + β2 x 2 + β3 x3 + u ;
(3.38)
wenn β3 = 0,
dann E(y x1 , x 2 , x 3 ) = E(y x1,x 2 ) =β0 + β1 x1 + β2 x 2 .
• β0, β1 und β2 werden unverzerrt geschätzt, aber mit zu großen
Varianzen.
• Auslassen relevanter erklärender Variablen führt zu verzerrten KQ-Schätzern.
3–39
• Wahres Modell:
u
+
x2
β2
+
x1
β1
+
β0
=
y
erfüllt MLR.1-4
(3.40)
(3.41)
Geschätztes Modell: y = β 0 + β 1 x1
β 1 = βˆ 1 + βˆ 2 δ 1, wobei β̂1 und β̂2 geschätzte
Wir wissen
Steigungsparameter der multiplen Regression von yi auf xi1 und
xi2, i = 1, 2, …, n sind.
•
δ 1 ist der Steigungsparameter der Regression von xi2 auf xi1.
3–40
~
• Unter der Annahme, dass δ1 fix ist und KQ β̂1 und β̂2 unverzerrt
schätzt, folgt
E(β 1) = E(βˆ 1 + βˆ 2 δ 1 ) = E(βˆ 1 ) + E(βˆ 2 ) ⋅ δ 1 = β1 + β2 ⋅ δ 1
Bias(β ) = E(β ) - β = β ⋅ δ ,
so dass
1
1
1
2
1
(3.45)
(3.46)
was als „omitted variable bias“ bezeichnet wird.
~
• Nur wenn β2 = 0 oder δ1 = 0, d.h. wenn x2 nicht ins Modell gehört oder nicht mit x1 korreliert ist, führt Auslassen nicht zu Verzerrung.
• Die Richtung der Verzerrung ergibt sich aus Tabelle 3.2:
3–41
• Vorzeichen von β2 in der Regel unbekannt, aber ebenso ab~
schätzbar wie das von δ1.
•
Beispiel 1:
wage = β0 + β1 educ + β2 ability + u
Vermutung: β2>0 und corr(educ,ability)>0. β1 aus Schätzung:
wage = β0 + β1 educ + ν
sollte im Mittel über viele Stichproben überschätzt sein.
3–42
• Beispiel 2:
avgscore = β0 + β1 expend + β2 povertyrate + u:
geschätzt wurde: avgscore = β0 + β1 expend + ν
Vermutung: β2<0 und corr(expend,povrate)<0. Vermutlich β1
überschätzt (z.B. Effekt positiv, wenn eigentlich = 0).
• Multiples Regressionsmodell mit k>2: Korrelation zwischen erklärender Variable und Fehler führt im Normalfall zu Verzerrung
für alle KQ-Parameter:
• Beispiel:
Ann. wahres Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + u
Geschätztes Modell: y = β 0 + β 1 x1 + β 2 x 2
(3.49)
(3.50)
3–43
• Wenn x3 und x1 korreliert sind, ist β 1 verzerrt. Wenn x3 und x2
nicht korreliert sind, ist β 2 dann verzerrt, wenn lediglich x2 mit x1
korreliert ist.
• Bei k > 2 ist es schwierig, die Richtung der Verzerrung zu bestimmen.
3–44
Kapitel 3: Multiple Regression: Schätzung
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–45
3.4 Varianz des KQ-Schätzers
• Ziel: Aussagen zur Streuung der geschätzten Parameter β̂ j .
• Große
Varianz
impliziert
geringe
Präzision
und
breite
Konfidenzintervalle.
• Annahme MLR.5: Der Fehlerterm u hat für alle Werte der erklärenden Variablen die gleiche Varianz (Homoskedastie),
Var(u x1 ,..., xk ) = σ2 .
•
Variiert die Varianz von u mit einer der erklärenden Variablen,
spricht man von Heteroskedastie.
• Die Annahmen MLR.1–5 werden als Gauss-Markov Annahmen bezeichnet.
3–46
• Theorem 3.2 (Stichprobenvarianz des KQ-Steigungsparameters):
Unter MLR.1–5 und bedingt auf die Stichprobenwerte der erkläσ2
ˆ
,
renden Variablen gilt Var(β j ) =
2
SSTj (1- R j )
n
für j = 1,2,…k, wobei
SSTj = ∑ (xij - x j )2 die Stichprobenvai=1
riation von xj ist und Rj2 der R2-Wert einer Regression von xj
auf alle anderen unabhängigen Variablen (einschließlich eines
Achsenabschnittsparameters).
3–47
• Einflussfaktor σ 2 : Je größer die unbekannte Streuung von u in
der Grundgesamtheit, umso größer Var(β̂ j ) . Bei gegebenem y
lässt sich σ 2 nur reduzieren, indem weitere relevante erklärende Variablen ins Modell und damit aus dem Fehlerterm genommen werden.
• Einflussfaktor SSTj: Je größer die Streuung von xj, umso kleiner
Var(β̂ j ) . Die Variation von xj wächst mit steigendem Stichprobenumfang.
• Frage: Könnte SSTj = 0 sein?
3–48
• Einflussfaktor Rj2: Ein hoher Rj2-Wert zeigt an, dass ein großer
Teil der Variation in xj durch die anderen erklärenden Variablen
im Modell erklärt werden kann. Daher leistet xj dann nur einen
geringen zusätzlichen Beitrag zur Erklärung von y. βj hat die
kleinstmögliche Varianz und größtmögliche Präzision, wenn
Rj2 = 0, d.h. wenn xj nicht durch die anderen unabhängigen Variablen linear abgebildet werden kann. Rj2 = 1 ist nach Annahme
MLR.3 nicht zulässig (perfekte Multikollinearität), bei Rj2 „nahe
1“ spricht man von Multikollinearität, was zulässig ist.
• Bei Multikollinearität können die Parameter nicht präzise geschätzt werden, d.h. die Standardfehler sind groß.
3–49
• Multikollinearität kann durch größere Stichproben oder gekürzte
Modellspezifikationen behoben werden.
• Frage: Welchen Einfluss hat eine hohe Korrelation zwischen
den Variablen x2 und x3 auf die Varianz der Schätzung von β1?
• Berücksichtigung irrelevanter Variablen erhöht die Varianz der
~
geschätzten Parameter. Vorausgesetzt β1 und β̂1 sind unver~
zerrt, sagen wir β1 ist effizienter als β̂1, wenn gilt
(
)
(
)
Var β 1 |x < Var βˆ 1 |x .
3–50
• Schätzung von σ 2 : Für einen unverzerrten Schätzer von σ 2 auf
Basis der quadrierten Störterme ist eine Korrektur der Freiheitsgrade erforderlich, da nicht die Störterme der Bevölkerung,
1
R k
S S n
=
1
2i u
k
1n
=
i
n
=
2
σ
sondern die geschätzten Residuen einer Stichprobe vorliegen:
ˆ
∑ˆ
(3.56)
• Theorem 3.3 (Unverzerrte Schätzung von σ2):
Unter den Gauss-Markov Annahmen MLR.1–5 gilt: E(σˆ 2 ) = σ 2 .
•
σ̂ wird als Standardfehler der Regression bezeichnet (SER).
3–51
• Standardabweichung (standard deviation) von β̂ j :
σ
sd(βˆ j ) =
1
2
⎡SSTj (1- R j )⎤ 2
⎣
⎦
Standardfehler (standard error) von β̂ j :
σ̂
se(βˆ j ) =
1
2
⎡SSTj (1- R j )⎤ 2
⎣
⎦
(3.58)
Der Standardfehler von β̂ j ist (ebenso wie β̂ j selbst) eine Zufallsvariable mit Verteilungseigenschaften.
3–52
• (3.58) ist nicht gültig, wenn die Homoskedastieannahme MLR.5
verletzt
ist.
Unter
Heteroskedastie
sind
die
KQ-
Parameterschätzer unverzerrt, aber die nach (3.58) berechneten KQ-Standardfehler sind falsch.
3–53
Kapitel 3: Multiple Regression: Schätzung
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–54
3.5 Gauss-Markov Theorem
• Begründet Verwendung des KQ-Schätzers. Unter MLR.1–4 ist
KQ unverzerrt, aber es gibt viele Schätzverfahren mit dieser Eigenschaft.
• Theorem 3.4 (Gauss-Markov Theorem):
β̂0 , β̂1,…, β̂k benennen die KQ-Schätzer im Modell
y = β0 + β1 x1 + β2 x2 +…+ βk xk +u.
Unter den Annahmen MLR.1–5 sind β̂0 , β̂1,…, β̂k die besten linearen unverzerrten Schätzer für β0, β1,…, βk (BLUE).
3–55
• Unter den Annahmen MLR.1–5 ist KQ das beste, lineare, unverzerrte Schätzverfahren (best linear unbiased estimator =
BLUE), d.h. der lineare, unverzerrte Schätzer mit der kleinsten
Varianz.
• MLR.1–5 werden Gauss-Markov Annahmen (für Querschnittsanalysen) genannt.
3–56
Schlüsselbegriffe Kapitel 3:
Multiple Regression
Lineares Regressionsmodell
Bedingungen erster Ordnung
Momentenschätzer
Momentenbedingungen
Stichproben-Regressionsfunktion
Partialeffekt
Kontrollvariable
Vorhersagefehler
Residuum
SST, SSE, SSR
R2
Schätzgüte
Regression durch den Ursprung
Bevölkerungsparameter
Unverzerrtheit
Irrelevante erklärende Variable
Omitted variable bias
Präzision
Konfidenzintervall
Homoskedastie
Heteroskedastie
Gauss-Markov Theorem
Stichprobenvariation
(Perfekte) Multikollinearität
Effizient
Standardfehler der Regression
Standardabweichung von β̂ j
Bevölkerungsmodell
Perfekte Kollinearität
Lineare Abhängigkeit
Messfehler
Standardfehler von β̂ j
Gauss-Markov Theorem
Best linear unbiased estimator
BLUE
3–57
Exogene erklärende Variable
Endogende erklärende Variable
Linearer Schätzer
Partielle Effekte
3–58
Literatur Kapitel 3:
•
Wooldridge, Kapitel 3
•
Von Auer, Kapitel 8, Kapitel 9
•
Hill / Griffiths / Judge, Kapitel 7
•
Stock / Watson, Kapitel 6
3–59
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–1
Leitfragen und Lernziele Kapitel 4:
•
Wie kommt man auf Basis von KQ-Schätzungen zu weiterführenden Aussagen über die Grundgesamtheit?
•
Wie führt man Hypothesentests durch und welche Gestaltungsmöglichkeiten ergeben sich dafür?
•
Worin unterscheiden sich Punkt- und Intervallschätzer?
•
Was ist bei der Darstellung von Schätzergebnissen zu beachten?
4–2
4.1 Stichprobenverteilung des KQ-Schätzers
•
Kapitel 3 behandelte Erwartungswert (Stichwort: Verzerrung)
und Varianz (Stichwort: Präzision und Effizienz) von KQSchätzern, nicht die vollständige Verteilungsfunktion.
•
Die Stichprobenverteilung des KQ-Schätzers folgt der Verteilung der Störterme. Daher:
•
Annahme MLR.6: Der Störterm der Grundgesamtheit, u, ist
unabhängig von den erklärenden Variablen x1, x2,…, xk und
normalverteilt mit Erwartungswert Null und Varianz σ2:
u ~ Normal(0, σ2).
4–3
•
Die Annahme der Unabhängigkeit ist sehr stark und schließt die
Aussagen von
E(u x1 ,...,xk ) = E(u) = 0
MLR.4:
MLR.5:
•
Var(u x1 ,...,xk ) = Var(u) = σ 2
sowie
ein.
Wenn u von x1, x2,…, xk unabhängig ist, hat u an jeder Ausprägung von x1, x2,…, xk die gleiche Verteilung.
•
MLR.1–MLR.6 werden als Annahmen des klassischen linearen
Modells (CLM) bezeichnet, d.h. Gauss-Markov Annahmen plus
Normalverteilung.
4–4
•
Unter den CLM-Annahmen hat der KQ-Schätzer für β̂ 0 , β̂1,…,
β̂k die kleinste Varianz aller unverzerrten Schätzer, die Linearitätsrestriktion des Gauss-Markov Theorems kann entfallen.
•
Theorem 4.1 (Normalverteilung):
Unter den Annahmen MLR.1–MLR.6 und bedingt auf die tatsächlich beobachteten Werte der unabhängigen Variablen, ist
(4.1)
βˆ j ~ Normal(β j ,Var(βˆ j ))
Für standardisierte Schätzer gilt:
(βˆ j - β j ) sd(βˆ j ) ~ Normal(0,1),
wobei sd für Standardabweichung (standard deviation) steht.
4–5
•
Frage: Angenommen, u ist von den erklärenden Variablen unabhängig und nimmt mit gleicher Wahrscheinlichkeit 1/5 die
Werte -2, -1, 0, 1 und 2 an. Verletzt dies die Gauss-Markov Annahmen? Verletzt es die CLM-Annahmen?
4–6
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–7
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.2.1 Allgemeines
u
+
xk
βk
+
.
.
.
+
x1
β1
+
β0
=
y
•
Bevölkerungsmodell:
•
Ann.: CLM-Annahmen treffen zu. Dann erzeugt KQ unverzerrte
(4.2)
Schätzer für βj.
•
Um Hypothesen bezüglich der wahren, aber unbekannten Bevölkerungsparameter zu testen, benötigen wir:
4–8
•
Theorem 4.2 (t-Verteilung standardisierter Schätzer):
Unter den Annahmen MLR.1–MLR.6 gilt
(βˆ j - β j ) se(βˆ j ) ~ tn-k-1 ,
(4.3)
wobei k+1 die Anzahl der unbekannten Parameter im Bevölkerungsmodell sind (k Steigungs- und ein Achsenabschnittsparameter, β0).
• Theorem 4.2 unterscheidet sich von 4.1, da û und σ̂ 2 statt der
wahren Bevölkerungswerte u und σ2 verwendet werden. Die so
standardisierten Parameterschätzer folgen nicht der Normal-,
sondern der t-Verteilung.
4–9
•
Hypothesentests beginnen mit der Nullhypothese, z.B.:
H0: βj = 0
(4.4)
Sie besagt hier, dass ceteris paribus, d.h. nach Kontrolle der
anderen betrachteten erklärenden Variablen (x1, x2, …, xj-1, xj+1,
…, xk), xj keinen partiellen Effekt auf y hat.
•
Die Nullhypothese wird so formuliert, dass man etwas lernt, indem man sie verwirft. H0: „xj hat einen Effekt“ wäre nicht informativ.
•
Sie bezieht sich auf den wahren, unbekannten Bevölkerungsparameter.
4–10
•
Beispiel: log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u
Hier besagt H0: β2 = 0, dass ceteris paribus die Arbeitsmarkterfahrung keinen Einfluss auf den Lohn hat. Falls β2 > 0, wirkt
sich höhere Erfahrung bspw. durch höhere Produktivität auf
den Lohn aus.
•
Um die Nullhypothese (4.4) zu testen, benötigen wir eine Test-
≡
statistik. In diesem Fall nutzen wir die t-Statistik, den t-Wert
tβˆ βˆ j se(βˆ j )
(4.5)
von β̂j , der definiert ist als:
j
Die Berechnung ist einfach und wird meist schon von der Software vorgenommen.
4–11
•
Der Schätzwert von β̂ j wird nie genau Null sein, daher stellt
sich die Frage, ab wann β̂ j weit genug von Null entfernt ist, um
H0 zu verwerfen. Der t-Wert beschreibt, um wie viele Standardfehler von β̂ j der Schätzwert von Null entfernt ist. Je größer t,
umso unwahrscheinlicher wird, dass H0 gilt.
•
Um eine Ablehnungsregel für H0 festlegen zu können, müssen
wir das Signifikanzniveau, die Verteilung der Teststatistik und
die Alternativhypothese kennen.
•
Bei Hypothesentests kann man zwei Arten von Fehlern machen: Verwirft man H0, obwohl H0 zutrifft, spricht man vom Typ
1-Fehler. Verwirft man H0 nicht, obwohl H0 falsch ist, spricht
man vom Typ 2-Fehler.
4–12
•
Ob ein Fehler vorliegt, lässt sich mit Stichprobendaten nicht
feststellen. Die Wahrscheinlichkeit von Typ 1- und Typ 2Fehlern lässt sich jedoch beschreiben. Die Wahrscheinlichkeit
eines Typ 1-Fehlers nennt man Signifikanzniveau α:
α = P (reject H0 H0 true)
(C.30)
α wird vor einem Test auf Werte wie 0,10, 0,05 oder 0,01 festgelegt.
•
Wählt man α = 0,05, so ist man bereit, in 5% aller Fälle die H0
zu verwerfen, obgleich sie zutrifft.
4–13
•
Um die Ablehnungsregel für H0 formulieren zu können, müssen
wir wissen, wie der t-Wert in Stichproben verteilt ist, wenn H0
wahr ist. Theorem 4.2 besagt, dass der wie in (4.5) berechnete
t-Wert der tn-k-1-Verteilung folgt.
•
Die Ablehnungsregel hängt von der Alternativhypothese (H1)
ab, für die wir zwei Fälle unterscheiden, einseitige und zweiseitige Alternativhypothesen.
4–14
4.2.2 Tests gegen einseitige Alternativhypothesen
•
Eine einseitige Alternativhypothese ist z.B.:
H1: βj > 0
(4.6)
Man schließt aus, dass der wahre Wert βj < 0 sein könnte (oder
formuliert H0: βj ≤ 0).
•
Nun ist die Ablehnungsregel zu wählen. Unterstellen wir zunächst α = 0,05, d.h. mit einer Wahrscheinlichkeit von 5% begehen wir einen Typ 1-Fehler.
4–15
•
Unter H0: βj = 0 (bzw. H0: βj ≤ 0) folgt t β̂ j der t-Verteilung mit Erwartungswert Null. Unter H1: βj > 0 ist der Erwartungswert von
t β̂ j > 0. Ab einem bestimmten kritischen positiven Wert von t β̂ j
ist es sehr unwahrscheinlich, dass H0 zutrifft. Wir verwerfen H0
zugunsten von H1, wenn t β̂ j diesen positiven kritischen Wert
übersteigt. Ist t β̂ j negativ, stützt das nicht die Alternativhypothese.
•
Unter der Annahme von α = 0,05 liegt der kritische Wert, den
wir c nennen, am 95. Perzentil der tn-k-1-Verteilung.
•
Verteilung der t-Statistik unter H0: βj ≤ 0, H1: βj > 0 bei α = 0,05:
4–16
4–17
•
Die Ablehnungsregel lautet: Verwerfe H0 zugunsten von H1 am
5% Signifikanzniveau, wenn
t β̂ j > c.
(4.7)
Die Regel besagt, dass wir – selbst wenn H0 zutrifft – die Nullhypothese für 5 Prozent aller Stichproben verwerfen.
•
Um c zu berechnen, brauchen wir α und n-k-1.
•
Beispiel 1:
α = 0,05
n-k-1 = 28,
dann ergibt sich aus Tabelle G.2: cα=0,05;28 = 1.701
4–18
Tabelle G.2
Critical Values of the t Distribution
Significance Level
Degees of Freedom
1-Tailed:
2-Tailed:
.10
.20
.05
.10
.025
.05
.01
.02
.005
.01
1
2
3
4
5
6
7
8
9
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
26
27
28
29
30
40
60
90
120
∞
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.291
1.289
1.282
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.662
1.658
1.645
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.987
1.980
1.960
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.368
2.358
2.326
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.632
2.617
2.576
Wenn t β̂ j < 1,701, kann H0 am 5%-Niveau nicht zugunsten von
H1 verworfen werden (z.B. bei allen negativen Werten für t β̂ j ).
4–19
•
Graphische Darstellung der t-Verteilung mit kritischem Wert für
einseitigen Test, bei α = 0,05 und n – k – 1 = 28:
4–20
4–21
•
•
Beispiel 2:
α = 0,1
n-k-1 = 27
jetzt c = 1,314.
α = 0,01
n-k-1 = 27
jetzt c = 2,473.
Der kritische Wert c wird umso höher, je kleiner α (in Abbildung
4.2 verschiebt sich c nach rechts). Dadurch sinkt die Wahrscheinlichkeit, H0 (fälschlicherweise) zu verwerfen. Eine Nullhypothese, die am 10%-Niveau verworfen wurde, muss am 5%Niveau nicht verworfen werden. Aber eine H0, die bereits am
5%-Niveau verworfen wurde, wird immer auch am 10%-Niveau
verworfen.
•
Je höher n-k-1, umso ähnlicher wird die t-Verteilung der Normalverteilung.
4–22
•
Beispiel: Wir erhalten als Schätzergebnis (Standardfehler in
Klammern) (beachte: der natürliche Logarithmus ist gemeint)
log(wage) = 0,284 + 0,092 educ + 0,0041 exper + 0,022 tenure
(0,104) (0,007)
(0,0017)
(0,003)
n = 526, R2 = 0,316
H0: βexper ≤ 0
H1: βexper > 0
cα=0,05 = 1,645
n-k-1 = 526 – 3 – 1 = 522
texper =
0,0041
≈ 2,41
0,0017
cα=0,01 = 2,326
Da texper > cα=0,01, muss H0 verworfen werden. βexper ist am 1%Niveau größer als Null, auch wenn der Koeffizient nicht groß ist.
Ceteris paribus erhöht ein Jahr Erfahrung den log-Lohn um
0,0041 und den Lohn um 0,41 Prozent.
4–23
•
Einseitige Tests mit
H1: βj < 0
(4.8)
werden genauso durchgeführt. Die Ablehnungsregion der H0 ist
nun auf der linken Seite der t-Verteilung und die Ablehnungsre-
t β̂ < -c (statt t βˆ j > c ),
gel lautet
(4.9)
j
wobei c wieder der kritische Wert ist, den wir als positiven Wert
unterstellen.
•
Beispiel :
α = 0,05
n-k-1 = 18
H0: βj = 0 (bzw. H0: βj ≥ 0)
cα=0,05;18 = 1,734
H1: βj < 0
Ablehnungsregel: tβ̂ < -1,734
j
Wenn t positiv ist, kann H0 nicht verworfen werden.
4–24
•
Graphische Darstellung:
4–25
4.2.3 Tests gegen zweiseitige Alternativen
•
Wir prüfen, ob sich β̂j signifikant von Null unterscheidet, ohne
die Richtung der Abweichung festzulegen.
H0: βj = 0 gegen H1: βj ≠ 0
(4.10)
•
Ablehnungsregel jetzt:
•
Wählt man α = 0,05, so wird bei zweiseitigen Tests c so ge-
t β̂ > c
j
(4.11)
wählt, dass auf jeder Seite der t-Verteilung die Ablehnungsregion 2,5% umfasst. c hat den Wert des 97,5. Perzentils der tVerteilung.
•
Beispiel:
α = 0,05
n-k-1 = 25
cα=0,05;25 = 2,060
(vgl. oben, Tabelle G.2)
4–26
•
Graphische Darstellung:
4–27
•
Sprachregelung: Verwirft man die H0: βj = 0 am α-Signifikanzniveau im zweiseitigen Test, so sagt man: xj ist am α-Niveau
statistisch signifikant (von Null verschieden). Wird H0 nicht
verworfen, sagt man xj ist insignifikant (am α-Niveau).
4–28
•
Beispiel :
colGPA = 1,39 + 0,412 hsGPA + 0,015 ACT – 0,083 skipped
(0,33) (0,094)
(0,011)
(0,026)
n = 141, R2 = 0,234
colGPA = Notendurchschnitt College
hsGPA = Notendurchschnitt Highschool
ACT
= Ergebnis eines Uni-Zugangstests
skipped = Anzahl verpasster Vorlesungen
Welche erklärenden Variablen sind am 5% Niveau signifikant?
cα=0,05 ≅ 1,96
(cα=0,01 ≅ 2,576)
4–29
0,412
= 4,38 > c hochsignifikant auch am 1% Niveau,
0,094
0,015
=
= 1,36 < 1,96 insignifikant und kleiner Effekt.
0,011
0,0833
=
= 3,19 > 2,576 hochsignifikanter negativer Ef0,026
thsGPA =
tACT
t skipped
fekt. 10 verpasste Vorlesungen reduzieren – ceteris paribus –
den Notendurchschnitt um 0,83.
4–30
4.2.4 Andere Hypothesen zu βj
•
Gelegentlich interessiert nicht nur statistische Signifikanz, sondern, ob βj einen konkreten Wert aj annimmt, z.B. βj = 1.
H0: βj = aj
•
(4.12)
In diesem Fall lautet die t-Statistik, die wieder misst, um wie
viele Standardabweichungen β̂ j vom unterstellten Wert entfernt
(βˆ j - a j )
ist:
t β̂ =
j
se(βˆ j )
Unter H0 folgt t βˆ der t-Verteilung mit n-k-1 Freiheitsgraden.
j
4–31
•
Der Test wird genau wie zuvor durchgeführt, nur die Berechnung der t-Statistik ändert sich:
Einseitig z.B.:
H0: βj ≤ 1 gegen H1: βj > 1
(βˆ j − 1)
tβˆ =
.
j
ˆ
se(β j )
Wird H0 verworfen, sagt man β̂ j ist signifikant größer als 1.
H0: βj = -1 gegen H1: βj ≠ -1
1
j
+ β
e
βj s
=
j
tβ
Zweiseitig z.B.:
ˆ
(ˆ )
(ˆ ).
H0 verwerfen, wenn t > c, dann ist β̂ j signifikant von -1 verschieden.
4–32
• Beispiel: log(price) = 11,08 – 0,954 log(nox) – 0,134 log(dist)
(0,32) (0,117)
(0,043)
+ 0,255 rooms – 0,052 stratio
(0,019)
(0,006)
n = 506 (Stadtviertel in Boston), R2 = 0,581
price = Median Hauspreis im Stadtviertel
nox
= Ausmaß der Luftverschmutzung
dist
= mittlere Distanz zu 5 Arbeitgebern
rooms = mittlere Hausgröße
stratio = Schüler-Lehrer-Verhältnis der Schule
β1: Elastizität der Hauspreise bezüglich Luftverschmutzung
H0: β1 = -1 gegen H1: β1 ≠ -1, cα=0,05; 501 ≈ 1,96
4–33
t = (-0,954 + 1) / 0,117 = 0,393 < c
H0 kann nicht verworfen werden, die Elastizität ist nicht signifikant von -1 verschieden.
4–34
4.2.5 p-Werte
•
Bislang haben wir willkürlich α festgelegt und daraufhin c bestimmt. Die Wahl der α-Werte kann manipuliert sein. Will man
z.B. stützen, dass βj = 0 ist, so wählt man ein möglichst kleines
α (hohes Signifikanzniveau), da dann die Wahrscheinlichkeit
sinkt, H0: βj = 0 zu verwerfen.
•
Der p-Wert gibt an, was der kleinstmögliche α-Wert bzw. das
größtmögliche Signifikanzniveau wäre, zu dem H0: βj = 0 gerade noch verworfen würde. Wenn im Beispiel H0 bei α = 0,1 verworfen wird, bei α = 0,05 nicht, könnte der p-Wert 0,07 betragen.
4–35
•
Der p-Wert ist das Signifikanzniveau des Tests, bei dem der
berechnete tatsächliche t-Wert der kritische Wert ist.
•
Beispiel:
n-k-1 = 40
H0: βj = 0
H1: βj ≠ 0
tβ̂ = 1,85
j
Wenn α/2 = 0,025, dann cα=0,05;40 = 2,021; H0 nicht verworfen.
Wenn α/2 = 0,05, dann cα=0,1;40 = 1,684; H0 verworfen.
4–36
4–37
•
p-Werte werden in der Regel von der Software für H0: βj = 0
angegeben oder lassen sich berechnen.
Es gilt
p = P( T > t ),
(4.15)
d.h. p ist die Wahrscheinlichkeit, dass eine t-verteilte Zufallsvariable T betragsmäßig den empirischen t-Wert übersteigt.
•
Hinweis: Siehe Erläuterung der t-Verteilung in Kapitel 1 - Appendix B5.
•
Beispiel:
p-Wert = P( T > 1,85) = 2 · P(T > 1,85) = 2 · 0,0359 = 0,0718
Unter H0 beobachtet man einen t-Wert mit dem Betrag von
mindestens 1,85 in 7,18 Prozent aller Fälle.
4–38
•
Kleine p-Werte sind Evidenz gegen H0, große gegen H1.
•
p-Werte lassen sich auch für einseitige Hypothesentests berechnen.
•
Beispiel:
H0: βj ≤ 0 gegen H1: βj > 0
Wenn β̂ j < 0, muss p > 0,50 und H0 kann nicht verworfen werden. Wenn β̂ j > 0, dann t > 0 und p ist die Wahrscheinlichkeit,
eine Realisation der t-verteilten Zufallsvariable oberhalb dieses
Wertes zu finden.
4–39
•
Frage: Angenommen, β̂1 = 0,56 und der p-Wert für H0: β1 = 0
gegen H1: β1 ≠ 0 beträgt 0,086.
Wie lautet der p-Wert für H0: β1 = 0 (bzw. H0: β1 ≤ 0) gegen H1:
β1 > 0 ?
•
Sprachregelung: Nullhypothesen werden verworfen oder nicht
verworfen, nie akzeptiert. Begründung: Eine nicht verworfene
Nullhypothese muss nicht korrekt sein (Typ 2-Fehler), daher
sollte man sie nicht „akzeptieren“.
•
Im Beispiel der Hauspreise haben wir H0: β1 = -1 nicht verworfen. Aber genauso wenig könnten wir H0: β1 = -0,9 verwerfen.
Dann: t = (-0,954 + 0,9) / 0,117 = -0,462 < c.
4–40
4.2.6 Bedeutung von Signifikanz
•
Statistische Signifikanz ergibt sich, wenn der Koeffizient im
Verhältnis zu seinem Standardfehler ausreichend groß ist (entweder, weil β̂ j groß, oder se(β̂ j ) klein ist). Man spricht von
ökonomischer Signifikanz, wenn der Koeffizient groß ausfällt,
unabhängig davon, wie präzise er geschätzt wurde.
4–41
•
Die Größe der Standardfehler wird auch von der Stichprobengröße bestimmt. Große Stichproben führen in der Regel zu
präzisen Schätzern mit kleinen Standardfehlern und großen tStatistiken (vgl. 3-58). Das bedeutet nicht, dass alle Variablen
„wichtig“ sind. Um die Bedeutung eines xj für y zu beurteilen,
muss man βj, den marginalen Effekt, betrachten. Manche Wissenschaftler wählen bei steigenden Stichprobengrößen kleinere
α-Werte.
4–42
•
Beispiel: Bachelor-Jahreseinkommen (in 1000€)
= 22,3 + 13,7 BWL + 0,72 SoWi + 17,2 empWifo
(2,2) (10,1)
(0,01)
(1,4)
H1: βj ≠ 0
α = 0,05
n = 1200
c = 1,96
H0: βj = 0
tBWL = 13,7 = 1,356 nicht statistisch, aber ökonomisch signifikant
10,1
tSoWi = 0,72 = 72 statistisch, aber nicht ökonomisch signifikant
0,01
tempWifo = 17,2 = 12,29 statistisch und ökonomisch signifikant
1,4
4–43
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–44
4.3 Konfidenzintervalle
•
Konfidenzintervalle um die Punktschätzer für die Bevölkerungsparameter βj sind Intervallschätzer und lassen sich unter
den
Annahmen
MLR.1–MLR.6
wie
folgt
ableiten.
Am
Signifikanzniveau α erwarten wir, dass folgende Aussage mit
j
2
β̂ j - β j
se(βˆ )
tα
2
,n-k-1
≤
≤
-c
≤
≤
Wahrscheinlichkeit 1-α zutrifft:
β̂ j - β j
-t α
,n-k-1
se(βˆ )
c
j
≤
≤
βˆ j - c ⋅ se(βˆ j ) β j
βˆ j + c ⋅ se(βˆ j )
4–45
•
Konfidenzintervalle sind vorsichtig zu interpretieren: Würde
man die Berechnung der Intervallgrenzen für viele Stichproben
wiederholen, dann würde in 1-α Prozent aller Fälle der wahre
Bevölkerungsparameter βj innerhalb der Intervallgrenzen liegen. Für einzelne, konkret berechnete Konfidenzintervalle gilt
diese Aussage nicht.
•
Die Berechnung ist unkompliziert:
Wenn n-k-1 = 25, α = 0,05 ergibt sich cα=0,05;25 = 2,06, so dass
[β̂ j − 2,06 ⋅ se(β̂ j ), β̂ j + 2,06 ⋅ se(β̂ j )].
•
Je größer α, umso enger ist das Konfidenzintervall, d.h.
Konfidenzintervall bei α = 0,1 ist enger als bei α = 0,01.
4–46
•
Intervallschätzer sind nur informativ, wenn Folgendes beachtet
wird:
(a) ausgelassene erklärende Variablen verzerren β̂ j ,
(b) bei Heteroskedastie sind die se(β̂ j ) falsch,
(c) ohne Normalverteilung stimmen die Werte für c nicht.
4–47
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–48
4.4 Hypothesentests zu Linearkombinationen von Parametern
•
Gelegentlich beziehen sich einzelne Hypothesen auf mehr als
ein βj.
• Beispiel: Haben Junior-College (jc) und Universitätsabschlüsse
die gleiche Lohnwirkung?
log(wage) = β0 + β1 jc + β2 univ + β3 exper + u
jc
(4.17)
= Ausbildungsjahre am Junior-College
univ = Ausbildungsjahre an der Universität
exper = Monate Arbeitsmarkterfahrung
H0: β1 = β2 , (bzw. H0: β1 ≥ β2 )
(4.18)
H1: β1 < β2
(4.19)
Die t-Statistik lässt sich auch für 2 Parameter aufstellen:
4–49
βˆ 1 - βˆ 2
t=
se(βˆ 1 - βˆ 2 )
(4.20)
Der Zähler lässt sich mit den Schätzergebnissen leicht berechnen, problematisch ist der Nenner.
log(wage) = 1,472 + 0,0667 jc + 0,0769 univ + 0,0049 exper
(0,021) (0,0068)
(0,0023)
(0,0002)
(4.21)
n = 6763, R2 = 0,222
β̂1 – β̂2 = 0,0667 – 0,0769 = -0,0102,
d.h. ein Jahr Uni erhöht die Löhne im Mittel und ceteris paribus
um 1,02 Prozentpunkte mehr als ein Jahr Junior-College.
Den Standardfehler der Differenz müssen wir über ihre Varianz
berechnen:
4–50
Var(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 )
{
(4.22)
}
se(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 )
1
2
(4.23)
Das ist aufwändig, einfacher ist eine andere Vorgehensweise:
Teste
H0: θ1 = β1 – β2 = 0
gegen
H1: θ1 < 0
(4.24)
mittels eines t-Tests. Dazu benötigt man se( θ̂1), was sich durch
Umformulieren der Gleichung ergibt.
Da θ1 = β1 – β2
⇔
β1 = θ1 + β2
log(wage) = β0 + (θ1 + β2) jc + β2 univ + β3 exper + u
= β0 + θ1 jc + β2 (jc + univ) + β3 exper + u
Mit dem Koeffizienten für jc erhält man θ̂1 und se( θ̂1).
(4.25)
log(wage) = 1,472 – 0,0102 jc + 0,0769 totcoll + 0,0049 exper
4–51
(0,021) (0,0069)
n = 6763,
Im einseitigen t-Test: t =
(0,0023)
(0,0002)(4.27)
R2 = 0,222
−0,0102
= -1,48. Dies liegt zwischen
0,0069
den kritischen Werten am 5 (-1,645) und 10 (-1,282) Prozentniveau, mit p = 0,07. Die Evidenz gegen H0: β1 = β2 ist nicht stark.
4–52
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–53
4.5 F-Tests für mehrere lineare Restriktionen
4.5.1 Test auf die gemeinsame Signifikanz mehrerer Variablen
•
Hinweis: siehe Erläuterung der F-Verteilung
•
Beispiel:
log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
+ β4 hrunsyr + β5 rbisyr + u
salary
= Jahresgehalt 1993 von Baseballspielern
years
= Jahre in MLB (major league baseball)
(4.28)
gamesyr = durchschnittl. Zahl von Spielen pro Jahr
bavg
= batting average
hrunsyr = Anzahl home runs pro Jahr
rbisyr
= runs batted in pro Jahr
4–54
•
Spielen bavg, hrunsyr, rbisyr ceteris paribus eine Rolle?
H0: β3 = 0, β4 = 0, β5 = 0
„joint hypothesis“
(4.29).
Wir prüfen, ob drei Variablen vom Modell ausgeschlossen werden können, „Ausschlussrestriktionen“.
H1: H0 trifft nicht zu.
•
Die Schätzung ergibt:
log(salary) = 11,9 + 0,0689 years + 0,0126 gamesyr
(0,29) (0,0121)
(4.31)
(0,0026)
+ 0,00098 bavg + 0,0144 hrunsyr + 0,0108 rbisyr
(0,00110)
n = 353
(0,0161)
SSR = 183.186
(0,0072)
R2 = 0,6278
4–55
•
Einfache t-Tests würden H0 nicht ablehnen.
•
Der gemeinsame Test von H0 prüft, wie stark sich SSR (=
Summe quadrierter Residuen) erhöht, wenn die drei betrachteten Variablen aus dem Modell ausgeschlossen werden. Da KQ
SSR minimiert, muss SSR wachsen, wenn weniger Variablen
betrachtet werden.
•
•
Neues, restringiertes Modell ((4.28) war unrestringiert).
log(salary) = β0 + β1 years + β2 gamesyr + u
(4.32)
log(salary) = 11,22 + 0,0713 years + 0,0202 gamesyr
(4.33)
(0,11) (0,0125)
n = 353
(0,0013)
SSR = 198.311
R2 = 0,5971
4–56
•
R2 ist gefallen, SSR gestiegen. Der Test prüft, ob die Änderungen signifikant sind.
•
Allgemeine Schreibweise: Unrestringiertes Modell mit k+1 Parametern:
•
y = β0 + β1 x1 +... + βk xk + u
H0 benennt q Ausschlussrestriktionen:
H0: βk-q+1 = 0, …, βk = 0
•
H1: H0 falsch
(4.35)
Restringiertes Modell mit k+1-q Parametern:
y = β0 + β1 x1 + ... + βk-q xk-q + u
Teststatistik des F-Tests:
(SSRr - SSRu ) / q
,
F
SSRu / (n - k - 1)
≡
•
(4.34)
(4.36)
(4.37)
4–57
wobei SSR die Fehlerquadratsummen des restringierten (r) und
unrestringierten (u) Modells angeben. Da SSRr ≥ SSRu, ist F
nie negativ. Zähler- und Nennerfreiheitsgrade lauten im Beispiel: q = 3
•
n-k-1 = 353 – 5 – 1 = 347
Verteilung: Unter H0 und MLR.1–MLR.6 folgt F der F-Verteilung
F ~ Fq,n-k-1 .
Wenn F groß ist, unterscheiden sich SSRr und SSRu stark und
H0 trifft nicht zu. Der kritische F-Wert ist in der Tabelle G.3 abzulesen.
4–58
•
Beispiel:
q = 3, n-k-1 = 60, α = 0,05, dann cα=0,05;3;60 = 2,76 (G.3b)
α = 0,01, dann cα=0,01;3;60 = 4,13 (G.3c)
4–59
4–60
•
H0 wird verworfen, wenn F > c.
•
Wird H0 verworfen, so sagen wir xk-q+1, xk-q+2, …, xk sind ge-
(4.40)
meinsam statistisch signifikant, sonst insignifikant. Zwischen
den einzelnen Variablen können wir nicht unterscheiden.
•
Beispiel bei q = 3 und n-k-1 = 347 ergibt sich cα=0,01;3;347 = 3,78
und cα=0,05;3;347 = 2,60. Der empirische Wert beträgt
(198.311 − 183.186) / 3
≅ 9,55
F=
183.186 / 347
•
H0 wird also verworfen, obwohl die individuellen Koeffizienten
insignifikant
waren.
Das
kann
daran
liegen,
dass
Multikollinearität die Standardfehler erhöht hat. Für den F-Test
spielt das keine Rolle.
4–61
4.5.2 F- und t-Statistik und R2
•
Der F-Test kann auch verwendet werden, um Hypothesen bezüglich einzelner Parameter zu testen. In dem Fall gilt F1,n-k-1 =
t2n-k-1. Bei zweiseitigen Alternativen führen beide Tests zum
gleichen Ergebnis.
•
Es ist möglich, dass einzelne Variablen allein statistisch signifikant sind, aber in einer Gruppe nicht mehr oder umgekehrt einzelne statistisch signifikant sind, aber die ganze Gruppe gemeinsam nicht.
•
Exkurs: Für einen einzelnen Koeffizienten ist die Wahrscheinlichkeit eines Typ 2-Fehlers (H0 nicht ablehnen, obwohl falsch)
4–62
beim F-Test höher als beim t-Test. Man sagt, die Teststärke
(Power) des t-Tests ist für diese H0 größer als die des F-Tests.
Daher sollte für einzelne Hypothesen der t-Test gewählt werden.
•
Die F-Statistik kann sowohl mittels SSR als auch R2 berechnet
werden. Es lässt sich ersetzen: SSRr = SST (1 – Rr2 ), SSRu =
SST (1 – Ru2 ):
(Ru2 - Rr2 ) / q
F=
(1- Ru2 ) / (n - k - 1)
•
(4.41)
Da immer R2, aber selten SSR angegeben wird, ist diese Version besser handhabbar.
4–63
F=
(0,6278 − 0,5971) / 3
≅ 9,54
(1 − 0,6278) / 347
•
Beispiel:
•
Auch für die F-Statistik lassen sich p-Werte ausweisen, die die
Wahrscheinlichkeit angeben, unter der F-Verteilung bei gegebenen Freiheitsgraden einen größeren als den vorgefundenen
F-Wert zu beobachten. Wenn z.B. p = 0,016, wird H0 am 5%
Niveau verworfen, nicht jedoch am 1%-Niveau.
4–64
4.5.3 Gesamtsignifikanz einer Regression und allgemeine Anwendung
•
Standardtest: gemeinsame Signifikanz aller erklärenden Variablen
H0: β1 = β2 = … = βk = 0
(4.44)
H1 besagt, dass mindestens eine Variable einen von Null verschiedenen Koeffizienten hat. H0 kann auch formuliert werden
als: H0: E( y x 1, x2, …, xk) = E(y). Das restringierte Modell lautet
y = β0 + u
•
Der Rr2 -Wert ist nun 0, so dass die Teststatistik lautet:
R2 / k
F=
(1- R2 ) / (n - k -1)
(4.45)
(4.46)
4–65
•
Dieser Test beschreibt die Gesamtsignifikanz des Modells.
Auch kleine R2-Werte können hier zum Verwerfen von H0 führen.
•
Der F-Test lässt sich auch auf andere als Ausschlussrestriktionen anwenden.
4–66
•
Beispiel:
log(price) = β0 + β1 log(assess) + β2 log(lotsize) +
β3 log(sqrft) + β4 bedrooms + u (4.47)
price
= Hauspreis
assess
= offiziell geschätzter Hauspreis
lotsize
= Grundstücksgröße
sqrft
= Grundfläche des Hauses
bedrooms = Anzahl der Zimmer.
Wenn der Verkaufspreis rational zustande kommt, sollte die
Elastizität bzgl. des assess-Wertes 1 betragen und ceteris
paribus die anderen Faktoren keine Rolle mehr spielen:
H0: β1 = 1, β2 = 0, β3 = 0, β4 = 0
(4.48)
4–67
•
Das Modell wird zunächst ohne Restriktion geschätzt:
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x 4 + u ,
(4.49)
anschließend werden die Restriktionen eingefügt:
y = β0 + x1 + u,
was sich wie folgt schätzen lässt:
y – x1 = β0 + u
(4.50)
SSRr lässt sich berechnen, so dass
F=
(SSRr - SSRu ) / 4
SSRu / (n - 5)
Da sich in diesem Fall die abhängigen Variablen unterscheiden,
kann der F-Test nicht in seiner R2-Version genutzt werden.
4–68
•
Bei SSRu = 1.822
folgt
F=
SSRr = 1.880
q=4
(1.880 − 1.822) / 4
= 0,661
1.822 / 83
n = 88
n-k-1 = 83
Fα=0,05;4;83 = 2,5
H0 wird nicht verworfen. Über den geschätzten Preis hinaus
haben die Merkmale des Hauses keine Bedeutung.
4–69
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–70
4.6 Präsentation von Schätzergebnissen
•
KQ-Koeffizienten werden mit Standardfehlern angegeben und
für die zentralen Variablen interpretiert.
•
R2 und die Zahl der benutzten Beobachtungen werden angegeben.
•
Meist sieht man die Darstellung in Tabellen. Dabei werden die
abhängige Variable über der Tabelle und die erklärenden Variablen in der ersten Spalte angegeben. In Spalten findet man alternative Modellspezifikationen.
4–71
4–72
Schlüsselbegriffe Kapitel 4:
Verteilungsfunktion
Unabhängigkeit
CLM-Annahmen
Zentraler Grenzwertsatz
Nullhypothese
Teststatistik
Alternativhypothese
Signifikanzniveau
Typ 1-Fehler
Typ 2-Fehler
Ablehnungsregel
Einseitige H1
Zweiseitige H1
Kritischer Wert
Statistische Signifikanz
Insignifikant
p-Wert
Ökonomische Signifikanz
Konfidenzintervall
Intervallschätzer
t-Test
F-Test
Anschlussrestriktion
SSR
Restringiertes Modell
Unrestringiertes Modell
Fehlerquadratsumme
Zählerfreiheitsgrade
Nennerfreiheitsgrade
Gemeinsame Signifikanz
Teststärke (Power)
Gesamtsignifikanz
Alternative Modellspezifikation
4–73
Literatur Kapitel 4:
•
Wooldridge, Kapitel 4, Appendix C5, C6
•
Von Auer, Kapitel 10
•
Hill / Griffiths / Judge, Kapitel 7, Kapitel 8
•
Stock / Watson, Kapitel 7
4–74
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
5.2 Konsistenz
5.3 Asymptotische Normalverteilung und Inferenz
5.4 Asymptotische Effizienz
5–1
Leitfragen und Lernziele Kapitel 5:
•
Welche Eigenschaften können Schätzverfahren haben?
•
Unter welchen Annahmen hat KQ welche Eigenschaften?
•
Welche praktische Bedeutung hat die Annahme der Normalverteilung?
5–2
5.1 Einführung
•
Wir haben die Eigenschaften des KQ-Schätzers unter bestimmten Annahmen betrachtet.
- Unter MLR.1–MLR.4 ist der KQ-Schätzer unverzerrt.
- Unter MLR.1–MLR.5 gilt das Gauss-Markov Theorem
(BLUE).
- Unter MLR.1–MLR.6 hat der KQ-Schätzer unter allen unverzerrten Schätzern die kleinste Varianz und er folgt der
Normalverteilung (legitimiert t- und F-Tests).
•
Die Eigenschaften der Unverzerrtheit, Effizienz und exakten
Verteilung werden unabhängig von der Stichprobengröße abge5–3
leitet. Sie gelten – als Eigenschaften des Schätzverfahrens –
auch, wenn die Stichprobe klein ist. Deswegen werden sie als
finite sample properties bezeichnet.
•
Für manche, sehr brauchbare Schätzverfahren ist es schwierig
oder unmöglich, diese Eigenschaften „für kleine n“ nachzuweisen. In diesen Fällen prüft man die Eigenschaften für den hypothetischen Fall, dass die Stichprobengröße beliebig, d.h. unendlich groß wird.
5–4
•
Die Eigenschaften von Schätzverfahren, die für n → ∞ gezeigt
werden können, nennt man large sample properties oder
asymptotic properties, also asymptotische Eigenschaften,
(Konsistenz, asymptotische Normalverteilung und asymptotische Effizienz).
5–5
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
5.2 Konsistenz
5.3 Asymptotische Normalverteilung und Inferenz
5.4 Asymptotische Effizienz
5–6
5.2 Konsistenz
•
Die asymptotische Eigenschaft der Konsistenz betrachtet, wie
weit ein Schätzer bei unendlich großer Stichprobe vom wahren
Wert entfernt liegt. 2 zentrale Aspekte: Bei konsistenten
Schätzverfahren
(a) sinkt die Varianz des Schätzers, je größer n.
(b) liegt der Schätzer umso näher am wahren Wert (θ), je größer die Stichprobe.
5–7
5–8
•
Definition: Es sei Wn ein Schätzverfahren für den unbekannten
Parameter θ auf Basis der Stichprobe Y1, Y2, …, Yn mit n Beobachtungen. Wn ist ein konsistentes Schätzverfahren, wenn
für jedes (beliebig kleine) ε > 0 gilt
lim P( Wn − θ > ε) → 0
n→∞
•
(C.7)
Wenn ein Schätzer Wn nicht konsistent ist, nennen wir ihn inkonsistent. Konsistenz ist eine Mindestbedingung für Schätzer.
•
Andere
Darstellungsform:
Wahrscheinlichkeitsgrenzwert
(probability limit): Wenn Wn konsistent ist, ist sein Wahrscheinlichkeitsgrenzwert θ:
plim(Wn) = θ
5–9
•
Je größer n, umso enger ist die Verteilung eines konsistenten
Wn um θ konzentriert.
•
Es gibt verzerrte Schätzer, die konsistent sind (z.B. σ̂ ohne
Freiheitsgradkorrektur) und es gibt unverzerrte Schätzer, die
inkonsistent sind (z.B. die Varianz von Y1, der ersten Beobachtung in einer Stichprobe, als Schätzer für μ bleibt konstant σ2.
1
Die Varianz von Y hingegen geht mit n → ∞ gegen Null: σ 2 ).
n
•
Es gilt: Ein unverzerrter Schätzer Wn ist dann konsistent, wenn
Var(Wn) → 0 bei n → ∞ . Nur dann gilt plim(Wn) = θ.
5–10
•
β̂ j sei ein KQ-Schätzer für den Parameter βj. Bei jeder Stich-
probengröße n hat β̂ j eine Wahrscheinlichkeitsverteilung. Da β̂ j
unter den Annahmen MLR.1–MLR.4 unverzerrt ist, hat jede
dieser Verteilungen den Mittelwert βj.
Wenn β̂ j konsistent ist, wird die Verteilung um βj immer enger,
je größer n.
5–11
5–12
•
Theorem 5.1 (Konsistenz von KQ):
Unter den Annahmen MLR.1–MLR.4 ist der KQ-Schätzer β̂ j für
βj konsistent für alle j=0,1,…, k.
•
Es lässt sich zeigen, dass gilt
plimβˆ 1 = β1 + Cov(x1,u) / Var(x1 )
= β1 ,
(5.3)
da wegen MLR.4 x1 und u unkorreliert sind. Unterstellt wurde
0 < Var(x 1 ) < ∞ .
5–13
•
Die Annahme MLR.4 E(u x1,x 2 ,...,xk ) = 0 (mittlere bedingte
Unabhängigkeit) impliziert, dass Cov(xj,u) = 0, aber nicht umgekehrt. Kovarianz und Korrelation beschreiben ausschließlich
lineare Zusammenhänge, während MLR.4 auch jeden Zusammenhang zwischen u und einer nicht-linearen Funktion von xj
ausschließt. Eine abgeschwächte Form von MLR.4 ist also:
•
Annahme MLR.4′ : E(u) = 0 und Cov(xj,u) = 0 für alle j=1,2,…, k
•
Konsistenz von KQ erfordert lediglich MLR.4′ , Unverzerrtheit
erfordert MLR.4.
5–14
•
Auch wenn nur einer der k Regressoren mit u korreliert ist, sind
im Normalfall die KQ-Schätzer für alle k Parameter des Modells
verzerrt und inkonsistent.
•
Die Inkonsistenz für β̂1 beträgt
plim β̂1 − β1 = Cov(x1,u) / Var(x1 )
(5.4)
Dies erlaubt, Richtung und Ausmaß der Inkonsistenz einzuschätzen, da Var(x1) > 0.
5–15
Beispiel: Für den Fall ausgelassener, relevanter Variablen hatten wir in Kapitel 3 für das Modell
E(β ) = β + β δ ,
zeigt:
1
1
2
ν
+
x2
β2
+
x1
β1
+
β0
=
y
•
1
ge-
(3.45)
~
wobei β 1 ohne Kontrolle für x2 geschätzt war und δ1 der geschätzte Koeffizient einer Regression von x2 auf x1 war. Nun gilt
(wieder unter Annahme von MLR.1–MLR.4):
plim β 1 = β1 + β2 δ1,
(5.5)
wobei jetzt δ1 den Bevölkerungsparameter einer Regression
von x2 auf x1 darstellt. Sind x1 und x2 in der Bevölkerung
unkorreliert, ist β 1 konsistent. Ausmaß und Richtung der Inkonsistenz lassen sich also abschätzen.
5–16
•
Beispiel:
price
price = β0 + β1 distance + β2 quality + u
= Hauspreis
distance = Abstand Müllverbrennungsanlage (Erwartung: β1>0)
quality
= Qualität des Hauses (Erwartung: β2>0)
Wenn bessere Häuser weiter von Müllverbrennungsanlagen
entfernt sind, dann δ1 > 0. Dann führt Auslassen der Variable
quality zur Überschätzung des wahren β1, da β2 · δ1 > 0.
5–17
•
Im Fall von k erklärenden Variablen führt Cov(xj,u) ≠ 0 für nur
ein j zur Inkonsistenz aller k+1 Parameter. Einzige Ausnahme:
Ein anderer Steigungsparameter βm ist bei Inkonsistenz von βj
noch konsistent, wenn xm nicht mit xj korreliert ist und keine
weiteren erklärenden Variablen im Modell sind (vgl. die Situation bei ausgelassenen Variablen, Kapitel 3).
5–18
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
5.2 Konsistenz
5.3 Asymptotische Normalverteilung und Inferenz
5.4 Asymptotische Effizienz
5–19
5.3 Asymptotische Normalverteilung und Inferenz
•
Unter der Annahme MLR.6 konnten wir t- und F-Tests ableiten.
Sind u1, u2, …, un nicht normalverteilt, so sind t- und F-Tests
nicht gültig, aber Unverzerrtheit und BLUE-Eigenschaft gelten
nach wie vor.
•
Gegeben die erklärenden Variablen, überträgt sich die Normalverteilungsannahme von u auf die abhängige Variable und die
geschätzten Parameter. Allerdings kennen wir viele Situationen, in denen y nicht normalverteilt ist.
•
Beispiel: Anteil der Arbeitnehmer eines Unternehmens (prate),
die an einem Pensionssparplan teilnehmen:
5–20
5–21
•
Selbst wenn y nicht normalverteilt ist, ergibt sich aus dem Zentralen Grenzwertsatz, dass die KQ-Schätzer asymptotisch
normalverteilt sind und t- und F-Tests asymptotisch zutreffen.
Dazu benötigen wir:
•
Definition: Wenn {Zj : j = 1,2,…, n } eine Folge von Zufallsvariablen ist und für alle Zahlen z gilt
P(Zj ≤ z) → Φ (z)
wenn n → ∞ ,
(C.11)
dann ist Zj asymptotisch standardnormalverteilt. Φ (z) beschreibt die kumulative Standardnormalverteilung.
a
Man schreibt: Zj ~ Normal(0,1).
5–22
•
D.h. mit wachsender Stichprobengröße nähert sich die Verteilung der Standardnormalverteilung an. Der zentrale Grenzwertsatz besagt, dass der standardisierte Mittelwert jeder Zufallsstichprobe zur Standardnormalverteilung konvergiert:
•
Zentraler Grenzwertsatz: Es sei {Y1, Y2, …, Yn} eine Zufallsstichprobe mit Mittelwert μ und Varianz σ2. Dann folgt
Zn =
Yn - μ
σ
n
=
n (Yn - μ)
σ
(C.12)
asymptotisch der Standardnormalverteilung.
•
σ2
Zn ist der standardisierte Mittelwert von Y, wobei Var(Y) =
.
n
5–23
•
Die meisten Schätzverfahren können als Funktion von Stichprobenmittelwerten dargestellt werden, daher ist C.12 extrem
nützlich. Für KQ ergibt sich:
•
Theorem 5.2 (asymptotische Normalverteilung des KQ-
Schätzers)
Unter den Annahmen MLR.1–MLR.5 gilt:
(i) β̂ j ist asymptotisch normalverteilt, mit
a
⎛ σ2 ⎞
ˆ
n(β j - β j )~ Normal ⎜ 0, 2 ⎟ ,
⎜ a ⎟
j ⎠
⎝
σ2
wobei 2 > 0 die asymptotische Varianz von n(βˆ j - β j )
aj
5–24
ist. Für die Steigungsparameter gilt
a2j
-1
= plim(n
n
∑ rˆij2 ).
i=1
r̂ij sind die Residuen einer Regression von xj auf die
anderen erklärenden Variablen;
(ii) σ̂ 2 ist ein konsistenter Schätzer für σ 2 = Var(u);
(βˆ j - β j ) a
~ Normal(0,1)
(iii)
ˆ
se(β )
für alle j,
(5.7)
j
wobei se(β̂ j ) der KQ-Standardfehler von β̂ j ist.
•
Da die t-Verteilung für n-k-1 → ∞ gegen die Standardnormal(βˆ j - β j ) a
~ tn-k-1 . (5.8)
verteilung konvergiert, gilt ebenso:
ˆ
se(β )
j
5–25
•
Somit können auch ohne MLR.6 t-Tests durchgeführt und
Konfidenzintervalle berechnet werden. Sie gelten jetzt asymptotisch statt exakt. Je größer n, umso besser ist die Approximation.
•
Wenn MLR.6 nicht gilt, nennt man se(β̂ j ) den asymptotischen
Standardfehler von β̂ j und man spricht von der asymptotischen t-Verteilung. Auch F-Tests gelten approximativ.
5–26
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
5.2 Konsistenz
5.3 Asymptotische Normalverteilung und Inferenz
5.4 Asymptotische Effizienz
5–27
5.4 Asymptotische Effizienz
•
Unter zwei unverzerrten Schätzern für einen Parametervektor θ
heißt derjenige relativ effizient, dessen Varianz für alle Elemente des geschätzten Parametervektors nie größer ist als die
des anderen Schätzers und für mindestens ein Element aus θ
strikt kleiner ist.
•
Unter den Annahmen MLR.1–MLR.5 hat der KQ-Schätzer unter
allen linearen unverzerrten Schätzern die kleinste Varianz. Er
ist effizient.
5–28
•
Ein Schätzer ist asymptotisch effizient, wenn er unter allen
konsistenten, asymptotisch normalverteilten Schätzern die
kleinste asymptotische Varianz hat.
•
Theorem 5.3 (asymptotische Effizienz von KQ):
Unter den Gauss-Markov Annahmen (MLR.1–MLR.5) ist der
KQ-Schätzer asymptotisch effizient.
5–29
Schlüsselbegriffe Kapitel 5:
Finite sample property
Large sample property
Asymptotische Eigenschaft
Konsistenz, Inkonsistenz
Asymptotische Normalverteilung
Wahrscheinlichkeitsgrenzwert
Zentraler Grenzwertsatz
Asymptotischer Standardfehler
Asymptotische t-Verteiliung
Relativ effizient
Asymptotisch effizient
Score test
5–30
Literatur Kapitel 5:
•
Wooldridge, Kapitel 5 und C3
•
Von Auer, Kapitel 20.1
•
Hill / Griffiths / Judge, Kapitel 13.2
•
Stock / Watson, Kapitel 2.6, Kapitel 18.2
5–31
Kapitel 6: Anwendungen des KQ-Schätzers
6.1 Auswirkung von Skalierung
6.2 Alternative funktionale Formen
6.3 Schätzgüte und Auswahl der Regressoren
6.4 Vorhersage und Analyse der Residuen
6.5 Überblick
6–1
Leitfragen und Lernziele Kapitel 6:
•
Wie reagieren die Parameter auf geänderte Definitionen der
Variablen?
•
Welche Variablen sollten im Regressionsmodell berücksichtigt
werden?
•
Wie lassen sich Vorhersagen und ihre Streuung bestimmen?
•
Wann sind Schätzergebnisse intern und extern valide?
6–2
6.1 Auswirkung von Skalierung
•
Bei Umskalierung von Variablen passen sich Koeffizienten,
Standardfehler, Konfidenzintervalle, t- und F-Statistiken so an,
dass alle Effekte und Testergebnisse erhalten bleiben.
•
Eine Umskalierung wird oft verwendet, um die Darstellungsweise der Ergebnisse zu vereinheitlichen (z.B. β̂1 = 14.201,0 und
β̂ 2 = 0,3752; multipliziert man x1 mit 1000 erhält man β̂1 =
14,201).
6–3
•
Beispiel:
bwght = β̂0 + β̂1 cigs + β̂2 faminc
(6.1)
bwght
= Geburtsgewicht (in ounces = ca. 28,35 g)
cigs
= Anzahl der von der Mutter in der Schwangerschaft pro Tag gerauchten Zigaretten
faminc
= Jahreseinkommen der Familie (in 1000 $)
6–4
•
Schätzergebnisse in Spalte (1): Pro Zigarette sinkt das Gewicht
signifikant um 0,46 Unzen (= ounces).
6–5
•
Skalierung der abhängigen Variablen in pounds statt ounces,
wobei 1 pound (lbs.) = 16 ounces. Dadurch sinken alle geschätzten Parameter um den Faktor 16:
bwght β̂0 β̂1
β̂
=
+
cigs + 2 faminc .
16
16 16
16
•
Schätzergebnisse in Spalte (2): Jede Zigarette reduziert nun
das Gewicht um 0,0289 pounds, 0,0289 · 16 = 0,46 ounces,
was dem Effekt aus Spalte (1) entspricht.
•
Umskalieren führt auch zu geänderten Standardfehlern. Die
Standardfehler in Spalte (1) sind 16-mal größer als die in Spalte
(2), t-Werte und Signifikanzniveaus bleiben somit konstant.
6–6
•
Auch die Konfidenzintervalle für Parameter ändern sich um den
Faktor 16.
•
Da das Residuum in Spalte (1) 16-mal größer ist als das Residuum in Spalte (2), ist SSR von Spalte (1) 162 = 256-mal so
groß wie das in Spalte (2).
•
Das R2 ist durch die Skalierung nicht beeinflusst.
6–7
•
Bei Umskalierung der erklärenden Variable ändert sich lediglich
der zugehörige Koeffizient. So können je 20 Zigaretten als 1
Päckchen gezählt werden:
bwght = β̂0 + (20 β̂1) (cigs/20) + β̂ 2 faminc
= β̂0 + (20 β̂1) packs + β̂ 2 faminc
Vgl. Spalte (1) und (3): 20 · (-0,4634) = -9,268. Gleiches gilt für
die Standardfehler, so dass die t-Statistik gleich bleibt.
•
Betrachtet man cigs und packs gleichzeitig in einer Regression,
ergibt sich perfekte Multikollinearität.
•
Frage: Was passiert mit β̂ 2 , wenn man faminc in Dollar misst:
fincdol = 1000 · faminc? Welche Messweise ist vorzuziehen?
6–8
•
Ist die abhängige Variable logarithmiert (natürlicher Logarithmus), hat ihre Skalierung keinen Effekt auf die Steigungsparameter, lediglich der Achsenabschnittsparameter passt sich an,
da
log(c1· y) = log(c1) + log(y),
für c1 > 0
β̂neu
= β̂alt
0
0 + log(c1)
•
Gleiches gilt für logarithmierte erklärende Variablen:
log( x ) = log(x/100) = log(x) – log(100);
aus
ŷ = β̂0 + β̂1 log(x)
wird nach Umskalieren mit log ( x ) = log (100 ) + log ( x ) z.B.
ŷ = (β̂0 + β̂1 log(100)) + β̂1 log( x )
6–9
Kapitel 6: Anwendungen des KQ-Schätzers
6.1 Auswirkung von Skalierung
6.2 Alternative funktionale Formen
6.3 Schätzgüte und Auswahl der Regressoren
6.4 Vorhersage und Analyse der Residuen
6–10
6.2 Alternative funktionale Formen
6.2.1 Verwendung des Logarithmus
•
Beispiel: log(price) = 9,23 – 0,718 log (nox) + 0,306 rooms
(0,19) (0,066)
(0,019)
R2 = 0,514
n = 506
Der Koeffizient von log(nox) gibt eine Elastizität an. Steigt nox um
ein Prozent, so fällt der mittlere Hauspreis um 0,718 Prozent. Der
Koeffizient von rooms gibt eine Semielastizität an. Steigt die Anzahl der Zimmer um eins, so steigt der Hauspreis approximativ um
100 · 0,306 = 30,6 Prozent.
6–11
•
Je größer die Semielastizität, umso unpräziser ist die
Approximation
der
Prozentberechnung.
Zur
präzisen
Berechnung verwendet man:
%Δyˆ = 100 ⋅ [exp(βˆ j Δx j ) − 1]
(6.8)
bzw. wenn Δxj = 1
%Δyˆ = 100 ⋅ [exp(βˆ j ) − 1]
•
(6.9)
Beispiel: Wenn β̂2 = 0,306 ergibt sich eine Preisänderung von
[exp(0,306) – 1] · 100 = 35,8% für jedes zusätzliche Zimmer.
6–12
•
Vorteile logarithmierter Variablen:
(a) Interessante Interpretationen.
(b) Für y > 0 passt die logarithmierte Variable oft besser zu
CLM-Annahmen. Andernfalls häufig Heteroskedastie oder
schiefe Verteilung.
(c) Logarithmierte Werte sind weniger breit gestreut als nicht
logarithmierte, Ausreißer-Beobachtungen verlieren an Einfluss.
•
Wichtig, die Auswirkung auf die Interpretation zu beachten.
6–13
•
Beispiel:
log(wage) = 0,3 – 0,05 · unemployment rate + …
log(wage) = 0,3 – 0,05 · log(unemployment rate) + …
Wenn unemployment rate von 0-100 kodiert ist, sagt die erste
Gleichung, dass eine um einen Prozentpunkt höhere
Arbeitslosenrate (z.B. 9 statt 8 Prozent) die Löhne ceteris
paribus um approximativ 5 Prozent senkt. Die zweite Gleichung
besagt, dass eine Änderung der Arbeitslosenrate um ein
Prozent (z.B. 8,08 statt 8 Prozent) die Löhne ceteris paribus
um 0,05 Prozent senkt.
6–14
•
Variablen mit Ausprägungen ≤ 0 können nicht logarithmiert
werden. Gelegentlich wird dann statt der Variable selbst ihr
Wert plus 1 logarithmiert, d.h. für Ausprägungen y = 0 wird
log(y+1) statt log(y) genutzt.
•
Frage: Warum können die R2-Werte von Modellen mit der abhängigen Variable y nicht mit solchen der abhängigen Variable
log(y) verglichen werden?
6–15
6.2.2 Quadratische Spezifikationen
•
Mit quadratischen Spezifikationen lassen sich steigende oder
fallende marginale Effekte beschreiben.
•
Beispiel: Produktivitätsfortschritt (y = wage) durch Arbeitserfahrung (x = exper):
•
ŷ = βˆ 0 + βˆ 1 x + βˆ 2 x 2
Der marginale Effekt von x auf y variiert hier mit β̂1 , β̂2 und x
Δŷ ˆ
(6.11)
Δŷ ≈ (βˆ 1 + 2 βˆ 2 x) ⋅ Δx ⇔
≈ β1 + 2 βˆ 2 x
Δx
Typischerweise wird der marginale Effekt von x auf y am Mittelwert der Daten x berechnet.
•
Wenn β̂1 > 0 und β̂2 < 0, erhält man einen konkaven Verlauf.
6–16
•
Beispiel:
wage = 3,73 + 0,298 exper – 0,0061 exper2
(0,35) (0,041)
n = 526
(0,0009)
(6.12)
R2 = 0,093
Die Lohnsteigerung von exper = 0 auf exper = 1 beträgt
β̂1 + 2 β̂2 x = 0,298 – 2 · 0,0061 · 0 = 0,298, also 0,298 Dollar.
Beim Übergang von 10 auf 11 bleibt nur noch
0,298 – 2 · 0,0061 · 10 = 0,176. Bei konkavem Verlauf lässt
sich der Punkt berechnen, ab dem der Lohnzuwachs bei zusätzlicher Erfahrung negativ wird:
−βˆ
βˆ
∂y ˆ
= β1 + 2 βˆ 2 x* = 0 ⇔ x* = 1 = 1 .
∂x
2 βˆ 2 2 βˆ 2
(6.13)
Hier: x* = exper* = 0,298 / (2 · 0,0061) = 24,4 Jahre
6–17
6–18
•
Wenn β̂1 < 0 und β̂2 > 0, ist der Verlauf u-förmig (konvex) und
hat ein Minimum x*.
•
Beispiel: log(price) = 13,39 – 0,902 log(nox) – 0,087 log(dist)
(0,57) (0,115)
(0,043)
– 0,545 rooms + 0,062 rooms2 – 0,048 stratio
(0,165)
n = 506
(0,013)
(0,006)
R2 = 0,603
Der Koeffizient von rooms2 ist hochsignifikant. Bei kleiner Zahl
von Zimmern scheint ein weiteres Zimmer den Hauspreis zu
senken, bis das Minimum erreicht ist:
x* =
−βˆ 1
0,545
=
≈ 4,4
2 βˆ 2 2 ⋅ 0,062
6–19
6–20
Der negative Effekt für Häuser mit weniger als 4 Zimmern ist
unrealistisch. In der Stichprobe sind weniger als 1% der Beobachtungen davon betroffen.
Marginaler Effekt:
n ≈ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms
Δlog(price)
n
%Δ
price ≈ 100 ⋅ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms
≈ ( −54,5 + 12,4 ⋅ rooms) ⋅ Δrooms
Hat man bereits rooms = 5, so erhöht ein weiteres Zimmer den
Preis approximativ um -54,5 + 12,4 · 5 = 7,5%. Der Effekt
wächst bei größeren Häusern sehr stark. Bereits bei 6 ergibt
sich -54,5 + 12,4 · 6 = 19,9%.
6–21
•
Haben bei quadratischen Effekten beide Koeffizienten das gleiche Vorzeichen, so gibt es keine Richtungsänderung im Zusammenhang zwischen y und x.
•
Bei quadrierten logarithmierten erklärenden Variablen können
sich nicht-konstante Elastizitäten ergeben:
log(y) = β0 + β1 log(x) + β2 (log(x))2 + u
%Δy = [β1 + β2 2 ⋅ log(x)] %Δx
•
(6.16)
Gelegentlich wählt man eine flexiblere als die quadratische
Form, z.B. ein Polynom 3. (oder auch 4.) Ordnung:
y = β0 + β1 x + β2 x 2 + β3 x 3 + u
Wieder berechnet man zur Interpretation marginale Effekte.
6–22
6.2.3 Modelle mit Interaktionstermen
•
Gelegentlich hängt der partielle Effekt einer Variablen vom Wert
einer anderen ab. Dies modelliert man durch Interaktionsterme.
•
Beispiel 1: Der Produktivitätseffekt von Arbeitserfahrung kann
je nach Bildungstand unterschiedlich ausfallen.
Statt: wage = β0 + β1 educ + β2 exp er + u
nun:
wage = β0 + β1 educ + β2 exp er + β3 ( educ ⋅ exper ) + u
Jetzt
Δwage
= β2 + β3 ⋅ educ .
Δ exp er
6–23
•
Beispiel 2: price = β0 + β1 sqft + β2 bdrms + β3 sqft · bdrms
+ β4 bathrms + u
Δprice
= β2 + β3 sqft
Δbdrms
(6.17)
Wenn β3 > 0, ist der Preisaufschlag pro Zimmer (=bedroom) in
Häusern mit großer Wohnfläche (sqft) höher als in kleinen. β2
ergibt den Preisaufschlag für Häuser mit sqft = 0.
6–24
price
β 2 + β3 sqft1
sqft1 > sqft 0 ,
β2 > 0, β3 > 0
β 2 + β3 sqft 0
bedrooms
Wenn β3 = 0, spielt die Wohnfläche für den Preisaufschlag durch
die Zahl der Zimmer keine Rolle.
6–25
Kapitel 6: Anwendungen des KQ-Schätzers
6.1 Auswirkung von Skalierung
6.2 Alternative funktionale Formen
6.3 Schätzgüte und Auswahl der Regressoren
6.4 Vorhersage und Analyse der Residuen
6–26
6.3 Schätzgüte und Auswahl der Regressoren
6.3.1 R2 und R 2
•
R2 beschreibt den Anteil der Variation in y, der durch das Modell erklärt wird.
•
Auch bei kleinem R2 lassen sich präzise und unverzerrte Koeffizienten schätzen.
6–27
•
R2 kann nicht sinken, wenn zusätzliche erklärende Variablen im
Modell berücksichtigt werden. Es ist üblich, neben R2 ein angepasstes R2, R 2 , zu betrachten, welches mit der Zahl der
verwendeten Regressoren schwankt:
SSR
R2 = 1SST
SSR / (n - k -1)
σˆ 2
2
R = 1= 1SST / (n -1)
SST / (n -1)
•
(6.21)
Aufnahme eines Regressors reduziert SSR, aber auch n-k-1.
Daher kann das R 2 steigen, gleich bleiben oder auch fallen,
wenn eine zusätzliche erklärende Variable berücksichtigt wird.
Man verwendet das R 2 , um z.B. Modifikationen einer gegebenen Modellspezifikation zu bewerten.
6–28
•
Interessant: R 2 steigt, sobald der Betrag des t-Wertes einer zusätzlichen Variable ≥ 1 ist und wenn die F-Statistik für die Signifikanz einer Gruppe von Variablen ≥ 1 ist. Damit steigt der (korrigierte) Erklärungsgehalt auch ohne statistische Signifikanz.
•
Es gilt folgende Umrechnung:
R 2 = 1- (1- R 2 )
•
Beispiel:
R2 = 0,30
n -1
n - k -1
n = 51
(6.22)
k = 10
R2 = 1 – 0,70 · 50/40 = 0,125
6–29
•
R 2 kann negativ werden. R 2 hat nicht die gleiche Interpretation
wie R2 und kann nicht unmittelbar zur Berechnung des F-Tests
genutzt werden.
•
R 2 wird verwendet, um nicht genestete Modelle für eine gegebene abhängige Variable zu vergleichen, insbesondere wenn
sie unterschiedlich viele Parameter verwenden. Modelle sind
nicht genestet, wenn sie nicht durch lineare Restriktionen ineinander überführt werden können.
6–30
•
Beispiel 1 (Gehalt der Baseballspieler):
(a) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
+ β4 hrunsyr + u1
(b) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
+ β4 rbisyr + u2
Da die Variablen hrunsyr und rbisyr hochkorreliert sind, ist die
Frage, welche einen höheren Beitrag leistet. Die Modelle sind
nicht genestet. (a) ergibt R2 = 0,6211 und (b) R2 = 0,6226, ein
kleiner Vorteil für (b). Dies ließe sich auch mit R2 vergleichen,
da hier die gleiche Anzahl Parameter geschätzt wurde.
6–31
•
Beispiel 2: R&D-Intensität und Umsatz:
(a) rdintens = β0 + β1 log(sales) + u1
(6.23)
(b) rdintens = β0 + β1 sales + β2 sales2 + u2
(6.24)
Die Modelle sind nicht genestet. Da unterschiedlich viele erklärende Variablen verwendet werden, ist R2 für den Vergleich
nicht informativ.
Ra2 = 0,061
Rb2 = 0,148. Das angepasste R2 nimmt für den zu-
sätzlichen Parameter eine Korrektur vor (n = 32), Ra2 = 0,03 Rb2
= 0,09. Auch mit Korrektur ist Modell (b) überlegen.
•
Weder R2 noch R 2 kann verwendet werden, um zwischen Modellen mit unterschiedlichen abhängigen Variablen zu wählen,
da sich die SST unterscheiden.
6–32
•
Beispiel 3: CEO-Gehalt als Funktion von Umsatz und Rendite
n = 830,63 + 0,0163 sales + 19,63 roe
salary
(223,90) (0,0089)
n = 209
(11,08)
R2 = 0,029
(6.25)
R2 = 0,020
n = 4,36 + 0,275 lsales + 0,0179 roe lsalary
lsalary
= 4,36 + 0,275 lsales + 0,0179 roe
(0,24) (0,033)
n = 209
(0,0040)
R2 = 0,282
(6.26)
R2 = 0,275
Wenngleich Modell (6.26) besser zu den Daten zu passen
scheint als Modell (6.25), sind R2 und R2 keine relevanten Vergleichskriterien, da sie sich auf unterschiedliche abhängige Variablen beziehen.
6–33
6.3.2 Auswahl von Regressoren
•
Es ist möglich, durch Berücksichtigung von zu vielen Regressoren die beabsichtigte ceteris paribus Interpretation zu verfälschen. Plausibilität des „konstant Haltens“ muss im Einzelfall
geprüft werden.
6–34
• Beispiel 1: Reduziert eine höhere Biersteuer die Zahl der Verkehrstoten? Vermutung: Bei höherer Steuer weniger Bierkonsum, dadurch sicherere Fahrweise. Modell:
Unfalltote = β0 + β1 Steuersatz + β2 gefahrene Meilen + β3 Anteil männlich + β4 Bevölkerungsanteil 16-21 + …
Was, wenn zusätzlich noch Bierkonsum kontrolliert wird?
Unfalltote = β0 + β1 Steuersatz + β2 Bierkonsum …
Jetzt misst β1 den Steuereffekt auf Unfallopfer bei gegebenem
Bierkonsum, das ist nicht mehr sinnvoll zu interpretieren.
6–35
• Beispiel 2: Hauspreis als Funktion des geschätzten Wertes
und der Hausmerkmale.
Modell: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3
log(sqft) + β4 bdrms +…
Geeignet, um Rationalität der Preisfindung via H0: β1 = 1 zu testen. Kontrolle für geschätzten Preis nicht sinnvoll, wenn man
Preiswirkung der Hausmerkmale in einer hedonischen Preisfunktion bestimmen will. Dann geeignetes Modell:
log(price) = β0 + β1 log(lotsize) + β2 log(sqft) + β3 bdrms + …
Zweites Modell hat niedrigeres R2, aber gesuchte Interpretation.
6–36
• Einzelfallentscheidungen zwischen omitted variable bias und
over-controlling.
• Es kann sinnvoll sein, zusätzliche erklärende Variablen ins Modell aufzunehmen, die nicht mit den bereits berücksichtigten
korreliert sind und keine omitted variable bias abbauen: Je größer der erklärte Teil der Gesamtvariation der abhängigen Variable, umso kleiner ist die Fehlertermvarianz, umso kleiner die
Streuung der Parameter und umso präziser die Schätzung.
• Allerdings besteht immer das Risiko von Multikollinearität.
6–37
Kapitel 6: Anwendungen des KQ-Schätzers
6.1 Auswirkung von Skalierung
6.2 Alternative funktionale Formen
6.3 Schätzgüte und Auswahl der Regressoren
6.4 Vorhersage und Analyse der Residuen
6–38
6.4 Vorhersage und Analyse der Residuen
6.4.1 Konfidenzintervalle von Vorhersagen
•
Vorhersagen werden mittels KQ-Schätzer erzeugt. Da letztere
Zufallsvariablen sind, überträgt sich diese Eigenschaft auch auf
die vorhergesagten Werte.
•
Geschätzt:
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk
(6.27)
6–39
•
Setzt man Werte c1, …, ck für x1, …, xk ein, so lässt sich der Parameter θ0 als Schätzer des zugehörigen y bestimmen:
geschätzt:
θˆ 0 = βˆ 0 + βˆ 1 c1 + βˆ 2 c 2 + ... + βˆ k c k
2
(
ck
=
xk
,
.
.
.
,
c2
=
θ0 = β0 + β1 c1 + β2 c 2 + ... + βk c k
x
,
c1
=
x1
y
E
=
•
wahr:
)
(6.28)
(6.29)
Hat man θ̂0 , so lässt sich bei großer Zahl von Freiheitsgraden
ein 95%-Konfidenzintervall als: θ̂0 ± 1,96 se(θ̂0 ) bestimmen.
•
Frage: Was ist bei einer kleinen Zahl von Freiheitsgraden an-
ders?
6–40
• Wie lässt sich se( θ̂0 ) bestimmen? Trick:
Schritt 1:
β0 = θ0 - β1 c1 - β2 c 2 - ... - βk c k
Schritt 2: Einsetzen in y = β0 + β1 x1 + β2 x 2 + ... + βk xk + u
Schritt 3: ergibt
y = θ0 + β1 (x1 - c1 ) + β2 (x 2 - c 2 ) + ... + βk (xk - c k ) + u
(6.30)
Für jedes i wird xij ersetzt durch xij – cj. Dieses Modell lässt sich
schätzen. Nun sind der Achsenabschnitt und sein Standardfehler Schätzer für θ̂0 und se( θ̂0 ).
6–41
•
Die Varianz des vorhergesagten Wertes ( θ̂0 ) ist am kleinsten,
wenn alle erklärenden Variablen an ihrem Stichprobenmittelwert betrachtet werden, d.h. wenn cj = x j. Je weiter sich die cj
von x j entfernen, umso größer wird die Varianz der Vorhersage.
6–42
•
Alternativ zur fiktiven oder durchschnittlichen Beobachtung c
kann auch die Vorhersage mit Vorhersageintervall für eine tatsächliche Beobachtung interessieren. In diesem Fall ist auch
der Störterm relevant und muss bei der Bestimmung des
Konfidenzintervalls des vorhergesagten Wertes beachtet werden:
0
u
+
0k
x
βk
+
.
.
.
+
02
x
β2
+
01
x
β1
+
β0
=
0
y
Modell für Beobachtung 0:
(6.33)
Vorhersage:
ŷ 0 = βˆ 0 + βˆ 1 x10 + βˆ 2 x 02 + ... + βˆ k xk0
Vorhersagefehler:
eˆ 0 = y 0 − yˆ 0 = (β0 + β1 x10 + β2 x 02 + ... + βk xk0 ) + u0 − yˆ 0
(6.34)
6–43
•
Da β̂ j unverzerrt ist, folgt E(yˆ 0 ) = y 0 und E(eˆ 0 ) = 0 , gegeben die
beobachteten Daten.
•
Var(eˆ 0 ) = Var(y 0 − yˆ 0 ) = Var(u0 − yˆ 0 )
Von allen Bestandteilen von y0 ist nur u0 stochastisch, βj und x 0j
sind Konstante (vergleiche 6.33). Der wahre Fehler u0 ist mit
den Daten der Stichprobe unkorreliert, daher auch mit β̂ j und
x 0j und somit ŷ 0 .
Daher
Var(eˆ 0 ) = Var(u0 - yˆ 0 )
0
0
2
0
= Var(u ) + Var(yˆ ) = σ + Var(yˆ )
(6.35)
σ2 ist konstant und Var( ŷ 0 ) hängt z.B. von der Stichprobengrö6–44
ße ab, die die Varianz von β̂ j bestimmt.
Da σ2 und Var( ŷ 0 ) geschätzt werden können, ergibt sich
{
se(eˆ 0 ) = σˆ 2 + [se(yˆ 0 )]2
•
}
12
(6.36)
Wie im Fall von β̂ j gilt: ê 0 se( ê 0 ) ~ t n − k −1. Dadurch ergibt sich für
das Konfidenzintervall
P[ − t α /2
ê0
≤
≤ t α /2 ] = 1- α
se(eˆ 0 )
Einsetzen ergibt das Konfidenzintervall für y0:
y 0 − yˆ 0
P[ − t α /2 ≤
≤ t α /2 ] = 1- α
0
se(eˆ )
P[yˆ 0 − t α /2 ⋅ se(eˆ 0 ) ≤ y 0 ≤ yˆ 0 + t α /2 ⋅ se(eˆ 0 )] = 1- α
(6.37)
6–45
•
Beispiel: Schätzung der Streuung einer Vorhersage für eine
vorgegebene Merkmalskombination:
colGPA = 1,493 + 0,00149 sat – 0,01386 hsperc
(0,075) (0,00007)
(0,00056)
– 0,06088 hsize + 0,00546 hsizesq
(0,01650)
n = 4137,
R2 = 0,278,
(0,002277)
R2 = 0,277,
(6.32)
σ̂2 = 0,560
colGPA = College Note
sat
= Testpunkte
hsperc = High School Rang
hsize
= High School Größe (in 100 Schülern)
Vorhergesagter Wert, wenn sat = 1200, hsperc = 30, hsize = 5:
6–46
colGPA = 2,70.
Zur Bestimmung des Standardfehlers und Konfidenzintervalls
Variablen umkodieren (vgl. 6.30):
sat0 = sat -1200, hsperc0 = hsperc -30, hsize0 = hsize -5,
hsizesq0 = hsizesq -25.
Neuschätzung ergibt:
colGPA = 2,700 + 0,00149 sat0 – 0,01386 hsperc0
(0,020) (0,00007)
(0,00056)
– 0,06088 hsize0 + 0,00546 hsizesq0
(0,01650)
n = 4137,
R2 = 0,278,
(0,00227)
R2 = 0,277,
σ̂ = 0,560
6–47
Der Achsenabschnitt entspricht dem vorhergesagten Wert θ̂0
und 0,020 ist sein Standardfehler, se( θ̂0 ).
Konfidenzintervall: 2,70 ± 1,96 ⋅ (0,020), somit [2,66; 2,74], was
wegen der großen Stichprobengröße sehr eng ausfällt.
6–48
6.4.2 Analyse der Residuen und log(y) als abhängige Variable
•
Es kann informativ sein, die beobachtungsspezifischen Abweichungen vom vorhergesagten Wert anzuschauen, uˆ i = y i - yˆ i .
•
Dies kann über wichtige ausgelassene Faktoren informieren.
Wenn yi den Preis von Gut i angibt und ûi < 0 ist, erkennt man
preiswerte Güter.
Auch logarithmierte abhängige Variablen lassen sich vorhersagen:
•
xk
βk
+
.
.
.
x2
β2
+
x1
β1
+
β0
=
y
g
o
l
•
ˆ
ˆ
ˆ
ˆ
(6.39)
Allerdings ist es falsch, den Wert für y daraus durch einfaches
Exponentieren zu gewinnen: ŷ = exp(logy).
6–49
•
Es gilt: Wenn u ~ Normal(0,σ2), dann ist
E(exp(u)) = exp(σ2/2).
•
Unter CLM-Annahmen (MLR.1–MLR.6) gilt daher für 6.39:
E(y x ) = exp(σ 2 2)× exp(β0 + β1 x1 + β2 x 2 +... + βk xk ),
wobei x die unabhängigen Variablen beschreibt und σ2 die Varianz von u ist.
•
Zur Vorhersage von y nutzt man also
ŷ = exp(σˆ 2 2) ⋅ exp(logy) ,
(6.40)
wobei σ̂ 2 ein unverzerrter Schätzer von σ2 ist. Da σ̂ 2 > 0,
exp( σ̂ 2 /2) > 1.
•
Unter MLR.6 ergibt (6.40) konsistente Vorhersagen ŷ .
6–50
•
Ohne MLR.6 gilt
E(y x) = α0exp(β0 + β1 x1 + β2 x 2 +... + βk xk ) ,
(6.41)
wobei α0 = E(exp(u)). Hat man α̂ 0 , so lässt sich vorhersagen
ŷ = αˆ 0 exp(logy)
•
(6.42)
Vorgehensweise zur Vorhersage von y, wenn die abhängige
Variable log(y) ist:
(i)
Bestimme nach der KQ-Schätzung log yi
(ii) Berechne für jedes i m̂i = exp(logy i )
(iii) Regressiere y auf m̂ ohne Achsenabschnitt.
Der Koeffizient dieser Regression durch den Ursprung
ist ein Schätzer für α0.
(iv) Mit log yi und α̂ 0 lässt sich gemäß (6.42) ŷ bestimmen.
6–51
•
Ein Maß für die Schätzgüte der Regression von log(y) für y ist
das Quadrat der Stichprobenkorrelation von ŷi aus Schritt (iv)
mit dem tatsächlichen yi.
•
Beispiel:
log(salary) = β0 + β1 log(sales) + β2 log(mktval)
+ β3 ceoten +u
salary = Gehalt des CEO in Tausend $
sales = Umsatz in Mio $
mktval = Marktwert des Unternehmens
ceoten = Betriebszugehörigkeitsdauer des CEO (in Jahren)
lsalary = 4,504 + 0,163 lsales + 0,109 lmktval + 0,0117 ceoten
(0,257) (0,039)
n = 177,
R2 = 0,318
(0,0053)
(0,0053)
(6.45)
6–52
Eine Regression von salary auf m̂i
= exp(lsalaryi) ergibt
α̂0 ≈ 1,117 .
Für sales = 5000, mktval = 10 000 und ceoten = 10 ergibt sich:
4,504 + 0,163 log(5000) + 0,109 log(10 000) + 0,0117 · 10 ≈
7,013.
Somit ist der vorhergesagte Wert 1,117· exp(7,013) = 1240,967
bzw. 1,2 Mio $. Die Corr(salaryi, salaryi) = 0,493, so dass wir
einen quadrierten Wert von 0,243 erhalten. Dieser ist höher als
das R2 von 0,201 aus dem nicht-logarithmierten Modell. Insofern kann man das logarithmierte Modell wegen besserer
Schätzgüte, aber auch wegen leichter zu interpretierender Parameter vorziehen.
6–53
6.5. Überblick
•
Bei der Verwendung von Logarithmen zu beachten
1. Koeffizienten sind als relative, d.h. prozentuale Änderungen
zu interpretieren; andere Maßeinheiten spielen keine Rolle.
2. Typischerweise werden Geldbeträge oder Variablen mit hoher Streuung logarithmiert, seltener Jahres- oder Anteilsmaße.
3. Logarithmierte
abhängige
Variablen
ergeben
häufiger
homoskedastische und normalverteilte Störterme.
4. Logarithmieren der abhängigen Variable reduziert die Bedeutung von Ausreisserbeobachtungen. Bei y-Werten nahe
0 kann log(y) höhere Streuung haben als y.
6–54
5. Logarithmieren ist nicht möglich, wenn y=0 sein kann. Oft
wird hier log(1+y) genutzt.
6. Vorhersagen mit log(y) sind komplexer als mit y.
•
Bei Verwendung quadratischer Terme zu beachten:
1. Quadrierte erklärende Variablen erlauben steigende und fallende Effekte.
2. Maximal- und Minimalstellen sollten berechnet und überprüft
werden.
3. Bei quadrierten erklärenden Variablen können auch kleine
Koeffizienten einflussreich sein.
6–55
•
Bei Verwendung von Interaktionstermen zu beachten:
1. Hier kann der partielle Effekt einer Variable x1 vom Wert einer Variable x2 abhängen.
2. Es kann zur Interpretation hilfreich sein, vor der Schätzung
die Variablen um relevante Werte zu zentrieren; sonst misst
der Koeffizient der Haupteffekte den partiellen Effekt von x1
wenn die interagierte Variable x2 den Wert x2=0 annimmt.
3. Statistische Signifikanz von Interaktionstermen ergibt sich
aus t-Tests, ökonomische Signifikanz aus dem Vergleich
verschiedener vorhergesagter Werte.
6–56
Schlüsselbegriffe Kapitel 6:
Skalierung
Standardisierung
Semielastizität
Interaktionsterm
2
2
Angepasstes R , R
ability bias
over-controlling
Hedonische Preisfunktion
Genestetes Model
Vorhersage-Konfidenzintervall
6–57
Literatur Kapitel 6:
•
Wooldridge, Kapitel 6
•
Von Auer, Kapitel 11, 13, 14
•
Hill / Griffiths / Judge, Kapitel 6, 10
•
Stock / Watson, Kapitel 8, 9
6–58
Kapitel 7: Binäre Variablen
7.1 Qualitative Information und einfache Dummy-Variablen
7.2 Dummy-Variablen für Kategorien
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–1
Leitfragen und Lernziele Kapitel 7:
•
Welche Kontrollvariablen lassen sich als Dummy-Variablen repräsentieren?
•
Wie kann man Achsenabschnitts- und Steigungsparameter
gruppenspezifisch bestimmen?
•
Wie ist mit Dummy-Variablen als abhängigen Variablen zu verfahren?
7–2
7.1 Qualitative Information und einfache Dummy-Variablen
•
Wir unterscheiden quantitative und qualitative Variablen.
Erstere werden in der Regel stetig (Beispiel: Alter, Lohnsatz),
letztere z.B. binär kodiert (Beispiel: Geschlecht männlich
ja/nein, Hausbesitzer ja/nein).
•
Man spricht von binären, Dummy-, dichotomen, Null-Eins- oder
Indikator-Variablen.
•
Konvention ist, dass die Variable nach der zutreffenden Kategorie benannt ist und diese mit 1 kodiert ist, so dass 1 = ja und
0 = nein (Beispiel: weiblich, Besitzer, erwerbstätig). Ein Variablenname „Geschlecht“ ist nicht informativ.
7–3
•
Die Kodierung mit den Werten 0 und 1 ist willkürlich (1 und 2
oder -1 und 1 wären auch möglich), hat aber Interpretationsvorteile.
7–4
•
Beispiel 1: wage = β0 + δ0 female + β1 educ + u
(7.1)
Die Variable female hat für Frauen den Wert 1, für Männer den
Wert 0. δ0 gibt den mittleren Lohnunterschied für Männer und
Frauen an, wenn Bildung konstant gehalten wird. Wenn δ0 < 0,
verdienen Frauen weniger als Männer.
Wenn E(u | female,educ ) = 0, dann
δ0 = E (wage | female = 1,educ) – E (wage | female = 0,educ)
bzw. δ0 = E ( wage | female,educ ) – E (wage | male,educ)
(7.2)
7–5
•
Grafisch verschiebt der Dummy-Koeffizient den Achsenabschnitt β0 um δ0:
Geradengleichung für Männer: wage = β0 + β1 educ
Geradengleichung für Frauen: wage = (β0 + δ0) + β1 educ
7–6
7–7
• Frage: Warum nicht:
wage = β0 + δ0 female + δ1 male + β1 educ + u ?
Antwort: Modell wäre perfekt multikollinear (dummy variable
trap). Der Wert der Konstante (=1) ergibt sich als Linearkombination, Konstante = female + male. Außerdem: Mit zwei Gruppen (männlich/weiblich) brauchen wir zwei Achsenabschnittswerte und die lassen sich mit einer Dummy-Variable und der
Konstanten bereits erzeugen.
•
Die Gruppe, für die die Dummy-Variable mit Null kodiert ist,
nennt man Basis- oder Referenzgruppe, sie ist der Vergleichsmaßstab bei der Interpretation des Koeffizienten δ0.
7–8
•
Ersetzt man die Variable female durch die Variable male, verschieben sich β0 um δ1, aber die zentralen Aussagen bleiben
gleich.
Wenn:
wage = β0 + δ0 female + β1educ + u
und
wage = α0 + γ0 male + β1 educ + u
ergibt sich für Frauen: α0 = β0 + δ0 und für Männer β0 = α0 + γ0.
7–9
•
Alternativ zur Formulierung mit Konstante und Dummy vermeidet auch die Formulierung
wage = β0 male + α0 female + …
die „dummy variable trap“. Allerdings lässt sich der Geschlechtsunterschied schwerer interpretieren und ohne Konstante ist R2 nicht definiert.
7–10
•
Beispiel 1: wage = -1,57 – 1,81 female + 0,572 educ
(0,72) (0,26)
(0,049)
+ 0,025 exper + 0,141 tenure
(0,012)
n = 526,
(0,021)
(7.4)
R2 = 0,364
Der negative Achsenabschnitt (hier für Männer und Frauen) ist
nur für den Fall relevant, in dem alle erklärenden Variablen Null
sind. Bei gleichen Werten für educ, exper, tenure verdienen
Frauen im Mittel 1,81 $ (Daten von 1976) pro Stunde weniger
als Männer. Dies liegt also nicht an Unterschieden in Bildung,
Erfahrung oder Betriebszugehörigkeitsdauer, sondern am Geschlecht bzw. Faktoren, die damit korreliert und sonst nicht kon7–11
trolliert sind (z.B. Beruf). Ohne Kontrollvariablen:
wage = 7,10 – 2,51 female
(0,21) (0,30)
n = 526,
(7.5)
R2 = 0,116
Nach dieser Schätzung verdienen Frauen im Mittel 2,51 $ weniger als Männer. Der mittlere Verdienst für Männer ist 7,10 $.
Der geschätzte Koeffizient für Frauen ist signifikant: t = 2,51/0,30 = -8,37.
•
Mit der einfachen Regression lässt sich prüfen, ob es zwischen
zwei Gruppen einen signifikanten Unterschied gibt. Der t-Test
ist nur unter der Annahme MLR.5 (Homoskedastie) gültig.
7–12
•
Der Lohnunterschied zwischen den Geschlechtern ist in (7.4)
kleiner als in (7.5). Dies zeigt, dass er teilweise auf Unterschiede in educ, exper und tenure zurück geht. Es belegt, dass in
(7.5) relevante Faktoren nicht konstant gehalten werden und
keine ceteris paribus Interpretation vorliegt. Allerdings kann
auch (7.4) noch zu wenig Kontrollvariablen aufweisen, um kausal interpretierbare Effekte zu generieren (Bsp.: Beruf, körperlicher Anspruch des Jobs, Weiterbildung, Engagement, Motivation, etc.).
7–13
•
Beispiel 2: Kausaler Effekt von PC-Nutzung auf Collegenoten?
colGPA = β0 + δ0 PC + β1 hsGPA + β2 ACT + u
PC = 1, wenn Student über PC verfügt, sonst = 0
⎧> ⎫
δ0 ⎨ ⎬ 0 je nachdem, ob PCs die Produktivität erhöhen oder
⎩< ⎭
reduzieren
colGPA = 1,26 + 0,157 PC + 0,447 hsGPA + 0,0087 ACT
(0,33) (0,057)
n = 141,
(0,094)
R2 = 0,219
(0,0105)
(7.6)
Gegeben Schulnoten und Testergebnisse (ACT), sind die Noten von PC-Besitzern im Mittel signifikant (tPC = 0,157/0,057 =
2,75) um 0,157 Notenpunkte höher als die von Nicht-PCBesitzern. Es ist denkbar, dass PC-Besitz mit hsGPA oder ACT
7–14
korreliert. Dann ergibt sich ohne Kontrolle für hsGPA und ACT
ein anderes δ0. Tatsächlich ändert sich wenig δ̂0 = 0,17 mit
se( δ̂0 ) = 0,063.
7–15
•
Unter der Annahme E(u PC, hsGPA, ACT) = 0 lässt sich der
Koeffizient δ̂0 als kausaler Effekt interpretieren. Dies gilt aber
z.B. dann nicht, wenn Einkommen oder Bildung der Eltern sowohl PC als auch colGPA beeinflusst. Man könnte sich vorstellen, dass
E(u PC = 1, hsGPA, ACT) > E(u PC = 0, hsGPA, ACT) ,
wenn Kinder reicher Eltern sowohl eher einen PC haben, als
auch bessere Förderung erhalten und z.B. weniger Zeit für
Erwerbstätigkeit verwenden. Die kausale Interpretation ist also
nicht immer plausibel.
7–16
•
Dummy-Variablen werden auch zur Politikevaluation eingesetzt. Man unterscheidet die Nichtteilnehmer (control
group) von den Teilnehmern (treatment
group) einer
Maßnahme (z.B. Arbeitsförderung). Wenn durch multiple
Regression alle Faktoren kontrolliert werden können, die zur
Zuteilung auf eine der Gruppen geführt haben, kann der
Koeffizient einer Variable "treatment" als kausaler Effekt
interpretiert werden.
7–17
•
Beispiel 3: Wirkung von Weiterbildungssubventionen
hrsemp = 46,67 + 26,25 grant - 0,98 log(sales)
(43,41)
(5,59)
(3,54)
- 6,07 log(employ)
(3,88)
n = 105 Unternehmen,
(7.7)
R2 = 0,237
hrsemp = Weiterbildungsstunden pro Mitarbeiter (Mittelwert 17)
grant
= 1, wenn Unternehmen Subventionen erhält, sonst 0
sales
= Jahresumsatz des Unternehmens
employ = Anzahl der Beschäftigten
7–18
Subvention (treatment hier) hat statistisch und ökonomisch
signifikanten Effekt von 26 Stunden. Umsatz insignifikant,
größere Arbeitgeber bilden weniger weiter, mit
-6,07/3,88 = -1,56, t103, 10% = 1,65.
•
Kausaler Effekt? Vielleicht hätten Subventionsempfänger sowieso weitergebildet: Dann E(u | grant = 1,x) > E(u | grant =
0,x). Auswahl der Subventionsempfänger relevant. Wenn Zufall
(unkorreliert), dann eher kausaler Effekt, als wenn systematische Auswahl.
7–19
•
Beispiel 4: Interpretation von Dummies bei log-abhängigen Variablen (immer: natürlicher Logarithmus)
log(price) = 5,56 + 0,168 log(lotsize) + 0,707 log(sqrft)
(0,65) (0,038)
(0,093)
+ 0,27 bdrms + 0,054 colonial
(0,029)
n = 88,
(0,045)
(7.8)
R2 = 0,649
price = Hauspreis
lotsize = Grundstücksgröße
sqrft = Wohnfläche
bdrms = Anzahl Zimmer
colonial = 1, Haus im Kolonialstil, = 0 nicht
7–20
•
Bei großen Koeffizienten berechnet man
(exp(β) – 1) · 100, d.h. hier exp(0,054) - 1 = 0,055
(7.10)
log(price) unterscheidet sich ceteris paribus um 0,054, wenn im
Kolonialstil. Kleiner Effekt kann als Prozentgröße interpretiert
werden, d.h. 5,4% Preisaufschlag, wenn Kolonialstil.
7–21
•
zurück zu Beispiel 1:
log(wage) = 0,417 – 0,297 female + 0,080 educ
(0,099) (0,036)
(0,007)
+ 0,029 exper – 0,00058 exper2
(0,005)
(0,00010)
+ 0,032 tenure – 0,00059 tenure2
(0,007)
n = 526,
(0,00023)
R2 = 0,441
Lohnabschlag für Frauen approximativ 29,7%.
Genauer: log(wageF) – log(wageM) = -0,297
Exponenzieren, dann minus 1:
7–22
n
wage
F
n
wage
M
−1=
n − wage
n)
(wage
F
M
= exp( −0,297) − 1
n
wage
M
≈ 0,743 − 1 = −0,257
Ceteris paribus Lohnabschlag beträgt 25,7%, nicht 29,7%.
7–23
Kapitel 7: Binäre Variablen
7.1 Qualitative Information und einfache Dummy-Variablen
7.2 Dummy-Variablen für Kategorien
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–24
7.2 Dummy-Variablen für Kategorien
•
Man kann auch mehrere Dummy-Variablen in einer Schätzung
haben. Ergänzt man die Lohnregression um die Variable
married, so erhält sie einen positiven Koeffizienten von 0,053
(0,041) und der female Dummy sinkt auf -0,290 (0,036). Interessant wäre, ob sich der „Verheiratetenzuschlag“ nach dem
Geschlecht unterscheidet.
7–25
•
Man kann 4 Gruppen bilden: verheiratete Männer, verheiratete
Frauen und je unverheiratet. 3 von diesen Gruppen werden in
der Regression kontrolliert, die vierte (hier unverheiratete Männer) ist die Referenzgruppe:
log(wage) = 0,321 + 0,213 marrmale – 0,198 marrfem
(0,100) (0,055)
(0,056)
– 0,110 singfem + 0,079 educ + 0,027 exper
(0,056)
(0,007)
(0,005)
– 0,00054 exper2 + 0,029 tenure
(0,00011)
(0,007)
– 0,00053 tenure2
(0,00023)
(7.11)
7–26
n = 526,
R2 = 0,461
Alle Koeffizienten sind am 5%-Niveau signifikant. Die Gruppenindikatoren werden relativ zur Referenzgruppe interpretiert.
Verheiratete Männer verdienen approximativ 21,3% mehr als
nicht verheiratete, verheiratete Frauen verdienen approximativ
19,8% weniger und nicht verheiratete Frauen ca. 11% weniger.
Mit den Koeffizienten können die Lohnunterschiede zwischen
Gruppen bestimmt werden.
7–27
•
Zum Test auf Signifikanz der Unterschiede zwischen Teilgruppen ist eine Neuschätzung mit einer anderen Referenzgruppe
am einfachsten, z.B.
log(wage) = 0,123 + 0,411 marrmale + 0,198 singmale
(0,106) (0,056)
(0,058)
+ 0,088 singfem + …
(0,052)
Unterschied verheiratete/unverheiratete Frauen wie zuvor
0,088, aber nicht signifikant. Unterschied verheiratete Männer
vs. verheiratete Frauen größer und signifikant. Lohnabstände
zwischen Teilgruppen sind konstant und unabhängig von der
Referenzgruppe.
7–28
•
Bei g Gruppen verwendet man g-1 Indikatorvariablen plus Konstante.
•
Ordinale Informationen können ebenfalls über DummyVariablen in der Schätzgleichung berücksichtigt werden (z.B.
gut, mittel, schlecht).
•
Frage: In einer Regression des Gehalts von Fußballspielern
soll für die Position des Spielers kontrolliert werden. Im Datensatz wird Angriff, Mittelfeld und Verteidigung unterschieden.
Welche Dummyvariablen würden Sie im Modell berücksichtigen?
7–29
•
Beispiel: Löhne und Schönheit
Attraktivität in 3 Kategorien erfasst (unter Durchschnitt =
belavg, Durchschnitt = avg, über Durchschnitt = abvavg):
Männer: log(wage) = β̂0 – 0,164 belavg + 0,016 abvavg + …
(0,046)
n = 700,
Frauen:
(0,033)
R2 = 0,403
log(wage) = β̂0 – 0,124 belavg + 0,035 abvavg + …
(0,066)
n = 409,
(0,046)
R2 = 0,330
7–30
Lohnabschlag wenn unattraktiv für Männer größer als für Frauen. Lohnzuschlag in beiden Fällen positiv, aber insignifikant
(Referenz ist Durchschnitt).
•
Frage: Wie würden Sie die Hypothese testen, dass das Aussehen für die Bezahlung von Männern keine Rolle spielt?
•
Hat eine ordinale Variable zu viele Kategorien, um diese einzeln zu schätzen, kann man sie in Gruppen zusammenfassen,
z.B. Kinderzahl 0-1, Kinder 2-3, Kinder 4-5, Kinder 6-7, Kinder
≥ 8.
7–31
Kapitel 7: Binäre Variablen
7.1 Qualitative Information und einfache Dummy-Variablen
7.2 Dummy-Variablen für Kategorien
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–32
7.3 Interaktion mit Dummy-Variablen
7.3.1 Interaktion zwischen Dummy-Variablen
•
Bei stetigen Variablen hatten wir Interaktionen genutzt, um die
Abhängigkeit partieller Effekte von erklärenden Variablen zuzulassen (vgl. Kapitel 6.2). Man verwendet dabei entweder andere Variablen oder Polynome, d.h. Interaktion mit der gleichen
erklärenden Variable (Bsp.: β1 income + β2 income2 +…).
7–33
•
Auch die partiellen Effekte von Dummy-Variablen können von
anderen Größen, auch anderen Dummies abhängen, z.B. variiert der Verheiratetenzuschlag beim Lohn mit dem Geschlecht.
Dies berücksichtigt man in der Regel durch das Hinzufügen eines Interaktionseffektes zu den einzelnen Haupteffekten.
7–34
•
Beispiel:
log(wage) = 0,321 – 0,110 female + 0,213 married
(0,100) (0,056)
(0,055)
– 0,301 female · married + …
(0,072)
(7.14)
Auch mit dieser Spezifikation lässt sich der Lohnunterschied für
die oben beschriebenen 4 Gruppen abbilden: Wenn female = 0
und married = 0, erhalten wir den Lohn für unverheiratete Männer, d.h. hier die Konstante. Female = 1 und married = 0 ergibt
den Lohn für unverheiratete Frauen: 0,321 – 0,110. Female =
0, married = 1 für verheiratete Männer: 0,321 + 0,213 und
female = 1, married = 1 für verheiratete Frauen: 0,321 – 0,110
7–35
+ 0,213 – 0,301. Die Vorhersagen sind exakt wie zuvor und beschreiben verschiedene Achsenabschnitte für die vier Gruppen.
•
Ein Vorteil der Spezifikation mit Interaktionsterm ist, dass man
direkt die Signifikanz des Interaktionsterms testen kann, z.B. ob
der Effekt des Geschlechts mit dem Familienstand variiert und
umgekehrt.
7–36
7.3.2 Interaktion von Dummy- mit stetigen Variablen
•
Interaktionen können nicht nur dazu genutzt werden, unterschiedliche Achsenabschnitte zu bestimmen, sondern auch, um
die Steigungsparameter nach Gruppen getrennt auszuweisen.
•
Beispiel:
log(wage) = (β0 + δ0 female)
+ (β1 + δ1 female) · educ + u
(7.16)
Für Männer log(wage) = β0 + β1 educ + u
Für Frauen
log(wage) = (β0 + δ0) + (β1 + δ1) · educ + u
Wenn δ̂0 und δ̂1 signifikant von Null verschieden sind, unterscheidet sich das Modell für beide Gruppen.
7–37
7–38
•
Das Modell wird wie folgt geschätzt:
log(wage) = β0 + δ0 female + β1 educ
+ δ1 (female · educ) + u
(7.17)
Wenn δ0 = 0 und δ1 ≠ 0, unterscheidet sich lediglich der partielle Effekt von educ für die Geschlechter, der Achsenabschnitt ist
gleich. Wenn δ0 ≠ 0 und δ1 = 0, unterscheidet sich lediglich der
Achsenabschnitt und der partielle Effekt von educ ist für beide
Gruppen identisch.
Mit einem F- (oder LM-) Test lässt sich H0: δ0 = 0, δ1 = 0 testen.
7–39
•
Beispiel: Hautfarbe und Gehalt von Baseballspielern
log(salary) = 10,34 + 0,0673 years + 0,0089 gamesyr
(2,18) (0,0129)
(0,0034)
+ 0,00095 bavg + 0,0146 hrunsyr + 0,0045 rbisyr
(0,00151)
(0,0164)
(0,0076)
+ 0,0072 runsyr + 0,0011 fldperc + 0,0075 allstar
(0,0046)
(0,0021)
(0,0029)
– 0,198 black – 0,190 hispan + 0,0125 black · percblack
(0,125)
(0,153)
(0,0050)
+ 0,0201 hispan · perchisp
7–40
(0,0098)
n = 330 Spieler,
R2 = 0,638
years
= Jahre in Major League
games
= Spiele/Jahr in Major Leage
bavg
= career batting average
hrunsyr
= home runs per year
fldperc
= career fielding percent
allstar
= percent of years an all-star
black
= 1, Spieler ist schwarz, 0 nicht
hispan
= 1, Spieler ist hispanic, 0 nicht
(7.19)
percblack = Bevölkerungsanteil Schwarzer in Stadt des Teams
(0 – 100)
7–41
perchisp
= Bevölkerungsanteil Hispanics in Stadt des Teams
(0 – 100)
Teste ob die vier Ethnie-Indikatoren gemeinsam signifikant
sind, R2restr. = 0,626.
F=
(0,638 − 0,626) / 4
0,003
=
= 2,63
(1 − 0,638) / (330 − 13) 0,0011
F4, 317, 5% ≈ 2,37,
H0 verworfen, Indikatoren am 5%-Niveau gemeinsam signifikant. Wenn percblack = 0, erhält ein schwarzer Spieler im Mittel
ca. 19,8% weniger Gehalt als ein weißer. Gehalt steigt, wenn
Anteil Schwarzer in der Stadt steigt; bei 10% ist Gehaltsunterschied: -0,198 + 0,0125 · 10 = -0,073, Abschlag nur noch 7,3%
bei gleicher Qualität der Spieler. Wenn percblack = 20, Auf7–42
schlag von 5,2% (beobachteter max. percblack-Wert = 74%).
Wenn perchisp = 0, Abschlag von ca. 19% für Hispanics gegenüber weißen Spielern. Ab 9,45% Hispanics Abschlag ausgeglichen. Nicht unterscheidbar, ob Diskriminierung oder evtl.
die besten und somit höchstverdienenden schwarzen Spieler in
Städten mit schwarzer Bevölkerung spielen wollen.
•
Frage: Wie würden Sie im Modell (7.19) die Hypothese testen,
dass der Lohneffekt von years von der Hautfarbe abhängt?
7–43
7.3.3 Gruppenspezifische Unterschiede in der Regressionsfunktion
•
Mit Interaktionstermen lässt sich prüfen, ob ganze Regressionsgleichungen nach Gruppen unterschiedlich ausfallen.
•
Beispiel: Collegenoten für männliche und weibliche Sportler
cumgpa = β0 + β1 sat + β2 hsperc + β3 tothrs + u
cumgpa = kumulierter Grad Point Average
sat
= SAT-Testpunkte
hsperc = Rang der Highschool
tothrs
= SWS
7–44
•
Vollständig interagiertes Modell erlaubt Geschlechterunter-
schiede für jeden der Parameter.
cumgpa = β0 + δ0 female + β1 sat + δ1 female · sat
+ β2 hsperc + δ2 female · hsperc
+ β3 tothrs + δ3 female · tothrs + u
(7.20)
Gleiches Modell für beide Geschlechter, wenn H0:
δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0 gilt.
Schätzergebnis:
cumgpa = 1,48 – 0,353 female + 0,0011 sat
(0,21) (0,411)
(0,0002)
+ 0,00075 female · sat
(0,00039)
7–45
- 0,0085 hsperc – 0,00055 female · hsperc
(0,0014)
(0,00316)
+ 0,0023 tothrs
(0,0009)
n = 366,
- 0,00012 female · tothrs
(0,00163)
R2 = 0,406,
(7.22)
R 2 = 0,394
Nur ein Interaktionsterm statistisch signifikant. Restringiertes
Modell ergibt R2 = 0,352, so dass F = 8,14 mit p < 0,0001. H0
ist klar verworfen. Interpretation der Geschlechterunterschiede
schwierig, da viele Effekte gleichzeitig:
Wenn sat = 1100, hsperc = 10, tothrs = 50, haben Frauen um
0,461 bessere Noten:
7–46
-0,353 + 0,00075 · 1100 – 0,00055 · 10 – 0,00012 · 50 =
0,461.
•
F-Test für H0 aufwändig, wenn viele erklärende Variablen. Alternative Formulierung über SSR.
•
Allgemein: k erklärende Variablen und zwei Gruppen g = 1,2:
y = βg,0 + βg,1 x1 + βg,2 x 2 + ... + βg,k xk + u
•
H0: βj,g=1 = βj,g=2 mit j = 0, …, k
(7.23)
ergibt k+1 Restriktionen.
Unrestringiertes Modell hat n–2·(k+1) Freiheitsgrade.
7–47
•
Neu: SSRu kann als Summe der SSR von zwei getrennt geschätzten Regressionen (z.B. eine für Männer, eine für Frauen)
bestimmt werden, mit n1 und n2 Beobachtungen.
Dann SSRu = SSR1 + SSR2.
SSRP bezeichnet die SSR der
"gepoolten" Regression unter der Annahme, dass H0 gilt.
F=
[SSRP − (SSR1 + SSR2 )] /(k + 1)
(SSR1 + SSR2 ) / [n − 2(k + 1)]
(7.24)
Dies ist die Teststatistik für den Chow-Test; gültig unter der
Annahme, dass beide Gruppen eine identische Fehlertermvarianz haben.
7–48
•
Beispiel: SSRP = 85,515
SSRu = 78,355
F=
SSR1 = 19,603
n1 = 90
SSR2 = 58,752
n2 = 276.
[85,515 − 78,355] / 4 = 8,18
78,355 / [366 − 2(3 + 1)]
> 2,37 = F4,358,5%
H0 verworfen.
7–49
Kapitel 7: Binäre Variablen
7.1 Qualitative Information und einfache Dummy-Variablen
7.2 Dummy-Variablen für Kategorien
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–50
7.4 Binäre Variable als abhängige Variable: Lineares Wahrscheinlichkeitsmodell (LWM)
•
Ziel: Dichotome Zustände erklären, Beispiel: Abgeschlossene
Schulbildung, Drogenmissbrauch, Unternehmensübernahme
7–51
•
Wenn y dichotom, ändert sich Interpretation von βj. Unter
MLR.4 gilt immer noch E(u x1,..., x k ) = 0 . Es folgt daher
E(y x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk ,
wobei
P(y = 1 x ) = E(y x )
so dass
P(y = 1 x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk .
(7.27)
Die Wahrscheinlichkeit, dass y = 1, ist eine lineare Funktion
von x1,...,xk. Daher spricht man vom linearen Wahrscheinlichkeitsmodell (LWM). Es gilt:
ΔP(y = 1 x ) = β j Δx j
•
(7.28)
In diesem Fall gibt die Prognose ŷ die Wahrscheinlichkeit des
Ereignisses y = 1 an.
7–52
•
Beispiel: Erwerbstätigkeit von Frauen (1975)
inlf = 0,586 – 0,0034 nwifeinc + 0,038 educ + 0,039 exper
(0,154) (0,0014)
(0,007)
(0,006)
– 0,00060 exper2 – 0,016 age – 0,262 kidslt6
(0,00018)
(0,002)
(0,034)
+ 0,0130 kidsge6
(0,0132)
n = 753,
inlf
(7.29)
R2 = 0,264
= 1, wenn erwerbstätig, sonst = 0
nwifeinc = Einkommen des Ehemanns in 1000 $
educ
= Jahre Ausbildung
exper
= Arbeitsmarkterfahrung (in Jahren)
7–53
age
= Alter
kidslt6
= Anzahl Kinder unter 6 Jahren
kidsge6 = Anzahl Kinder ab 6 Jahren
Fast alle Variablen signifikant und Vorzeichen entsprechen Erwartungen. Ein Ausbildungsjahr erhöht die Wahrscheinlichkeit
um 0,038, d.h. 3,8 Prozentpunkte. Verdient der Ehemann
10.000 $ mehr, so sinkt die Wahrscheinlichkeit der Erwerbstätigkeit der Frau um 0,034 bzw. 3,4 Prozentpunkte. Ein weiteres
Jahr Arbeitsmarkterfahrung ändert die Wahrscheinlichkeit, dass
y = 1 um 0,039 – 2 · 0,0006 · exper, d.h. das Maximum wird
nach exper* = 0,0039 / 2 · 0,0006 = 32,5 Jahren erreicht.
7–54
•
Schwächen des LWM:
(a) Es ist möglich, dass vorhergesagte Werte außerhalb des
(0,1) Intervalls liegen.
(b) Es ist oft unplausibel, dass einzelne Variablen über ihren
gesamten Wertebereich linear mit der abhängigen Variable zusammen hängen. Beispielsweise reduzieren 4 Kinder unter 6
Jahren die Wahrscheinlichkeit um 4 · 0,262 = 1,048, d.h. um
über 100 Prozentpunkte! Problem über andere Kodierung lösbar.
7–55
(c) Das Modell ist heteroskedastisch. Unverzerrtheit bleibt erhalten, aber Standardfehler fehlerhaft und t- und F-Test nicht
anwendbar.
•
Selbstverständlich können lineare Wahrscheinlichkeitsmodelle
Dummies als erklärende Variablen verwenden. Die Koeffizienten beschreiben den ceteris paribus Unterschied in der Wahrscheinlichkeit, dass y = 1 für die beiden Gruppen.
7–56
Schlüsselbegriffe Kapitel 7:
Qualitative, binäre, dichotome Variable
Dummy-Variable
dummy variable trap
Referenzgruppe
control group
treatment group
Ordinale Information
Interaktion
Interaktionseffekt
Haupteffekt
Vollständig interagiertes Modell
Chow-Test
7–57
Literatur Kapitel 7:
•
Wooldridge, Kapitel 7
•
Hill / Griffiths / Judge, Kapitel 9 und 18.2
•
Stock / Watson, Kapitel 11
7–58
Herunterladen