Kapitel 1: Einführung und Repetitorium 1.1 Technische

Werbung
Leitfragen und Lernziele Kapitel 1:
Kapitel 1: Einführung und Repetitorium
•
1.1 Technische Bemerkungen
Womit beschäftigt sich die Ökonometrie, wie geht man bei empirischen Analysen vor?
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
•
Welche Datenstrukturen gibt es?
•
Wie unterscheiden sich Kausalität und Korrelation?
•
Welche Vorkenntnisse werden vorausgesetzt?
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–1
1–2
Hilfsmittel:
1.1 Technische Bemerkungen
- Wörterbuch für ausländische Studierende
1.1.1 Vorlesung
Termin:
- Formelsammlung wird bereitgestellt
Montag, 9:45-11:15 H4, ab 15.4.2013
Folien:
nicht: 15.7. Ersatztermine: 26.4. 9:45-11:15 H4.
Sprechstunde:
Klausur:
- Nicht programmierbarer Taschenrechner
(i)
Nach Vorlesung
(ii)
Nicht per E-Mail
Download unter: www.lsw.wiso.uni-erlangen.de
→ Studium → Bachelor → Praxis d. emp. W.
Praxisvorträge: Gegen Ende des Semesters bieten wir Ihnen im
Rahmen der Vorlesung Kurzvorträge zur Bedeutung empirischen Arbeitens in der Berufspraxis
Termin setzt Prüfungsamt
Dauer: 90 Minuten (ca. 50 Punkte offene Fragen,
an.
ca. 40 Punkte w/f, MC)
1–3
1–4
1.1.3 Tutorien
1.1.2 Übungen
Anmeldung über StudOn erforderlich
Ab Semestermitte werden parallele klausurvorbereitende Tutorien
Teil 1:
PC Übungen
angeboten. Bitte Aushang und Webseite beachten
Teil 2:
Termine:
Hörsaal Übungen
siehe www.lsw.wiso.uni-erlangen.de
Tipp: - Suchen Sie sich eine Übung mit kleiner Studierendenzahl
- Parallelveranstaltungen, gleiches Programm
- Beginn: 17. Kalenderwoche (ab 23.4.)
- Lehrveranstaltungen im PC-Pool, siehe Aushang, Webseite
1–5
1–6
1.1.4 Lehrbuch
1.1.5 Hausarbeit
Die Veranstaltung folgt dem Lehrbuch: Jeffrey M. Wooldridge,
•
Durch das Erstellen einer freiwilligen empirischen Hausarbeit
Introductory Econometrics. A Modern Approach, 5. Auflage, 2013,
können Sie Ihre SPSS Kenntnisse vertiefen und erste Erfah-
South-Western CENGAGE Learning
rungen im Arbeiten mit Daten sammeln. Bei Notenverbesserung wird die Note der Hausarbeit zu 20% auf Ihre Gesamtnote
(unabhängig vom Ausgang der Klausur) angerechnet.
•
Die Note wird angerechnet, wenn Sie die Klausur im laufenden
oder im folgenden Semester antreten. Anschließend verfällt die
Note; die Hausarbeit kann dann neu angefertigt werden.
1–7
1–8
•
Sie können sich in Gruppen von bis zu 3 Personen bis zum
8.5.2013 zur Hausarbeit anmelden. Die Themen werden ab
•
Lesen Sie voraus
Detailinformationen im Netz).
•
Arbeiten Sie die Folien mehrfach durch
Die Bearbeitung der Hausarbeit erfordert, dass Sie selbständig
•
Arbeiten Sie in Kleingruppen
mit SPSS umgehen und sich diesbezügliche Problem-
•
Wiederholen Sie den Stoff frühzeitig, um Lücken zu erkennen
•
Hilfsmittel: Leitfragen der Kapitel
dem 13.5.2013 vergeben. Abgabetermin ist der 12.08.2013. (s.
•
lösungskompetenzen aneignen. Die Hausarbeiten setzen teilweise die Vorlesungsinhalte der letzten Semesterwochen vo-
•
1.1.6 Lerntipps
raus, so dass die sofortige Lösung nicht immer optimal ist.
Schlüsselbegriffe am Kapitelende
Die Hausarbeiten umfassen im Normalfall 2 bis 3 Seiten. Die
Fragen im Lehrbuch (mit Antworten im Anhang F)
Antworten sollten im Fließtext (keine Stichworte) verfasst sein.
1–9
1.1.7 Ziele der Veranstaltung
1–10
Motivation:
Ziel 1: Interesse am empirischen Arbeiten wecken (Gastvorträge,
Auswertung Ihrer Daten)
(1) Empirisches Arbeiten macht Spaß
(2) Methode ist gängiges Instrumentarium in Wissenschaft und
Ziel 2: Vermittlung von Grundkenntnissen zu
Praxis
(1) Datenverarbeitung am PC
(3) Mit empirischen Verfahren lassen sich Fragen beantworten,
(2) Intuition und Vorgehensweise des Kleinstquadrateverfahrens
theoretisch abgeleitete Hypothesen testen (Stichwort: kritischer Rationalismus), Prognosen erstellen, Evaluationen
(3) Eigenschaften von Schätzverfahren und Anwendungen
durchführen
(4) Fehlerquellen beim empirischen Arbeiten
1–11
1–12
1.1.8 Gliederung der Veranstaltung
1.1.9 Anforderungen der Veranstaltung
1.
Einführung und Repetitorium
•
Englischsprachiges Lehrbuch
2.
Das einfache Regressionsmodell
•
Überblick über „Ökonometrie“ verschaffen (Fortsetzungsveran-
3.
Multiple Regression: Schätzung
4.
Multiple Regression: Inferenz
•
PC-Kompetenz erwerben, insbes. SPSS
5.
Asymptotische Eigenschaften des KQ Schätzers
•
Schlüsselbegriffe und Methoden verstehen
6.
Anwendungen des KQ Schätzers
•
Grundverständnis für empirisches Arbeiten erwerben
7.
Binäre Variablen
•
Teilweise werden Konzepte aus der Veranstaltung "Statistik"
staltung folgt im Wintersemester)
wiederholt und vertieft.
1–13
1–14
Kapitel 1: Einführung und Repetitorium
1.2 Einführung: Ökonometrie und Daten
1.1 Technische Bemerkungen
1.2.1 Ökonometrie und empirische Analyse
1.2 Einführung: Ökonometrie und Daten
•
Ökonometrie nutzt statistische Methoden, um ökonomische
oder soziale Zusammenhänge zu quantifizieren, Theorien zu
APPENDIX
testen, Prognosen zu erstellen, Regierungs- und Geschäftspoli-
A Mathematische Grundlagen
tiken zu evaluieren.
B Grundlagen der Wahrscheinlichkeitsrechnung
•
Die Anwendungen finden sich in zahlreichen Gebieten.
C Statistische Grundlagen
•
Im Normalfall liegen Beobachtungsdaten vor, die vom Forscher gesammelt werden (Gegenteil: im Labor erhobene Experimentaldaten).
1–15
1–16
•
Beispiel 1: crime = β0 + β1 legaler Lohn
Vorgehensweise der „Empirischen“ Analyse
(1)
Präzise Frage formulieren
+ β2 illegaler Lohn + … + u
(2)
Ökonomisches Modell ableiten, um Verhalten zu erklä-
u wird Störterm, Residuum oder Fehlerterm genannt.
ren z.B.: y = f ( x1, x2, …, x7 ),
β0, β1, β2 sind konstante Parameter des Modells, geben
Art und Ausmaß der Zusammenhänge zwischen crime
crime = f ( legaler Lohn, illegaler Lohn, … )
(3)
und Lohn an.
Ökonometrisches Modell aufstellen, d.h. Konkretisieren von f und allen Variablen. Nicht alle Faktoren sind
Beispiel 2: Konkretisierung einer allgemeinen Gleichung
beobachtbar, eine Restgröße (u) bleibt immer.
für den Stundenlohn: wage = f ( educ, exper, female ):
wage = β0 + β1 educ + β2 exper + β3 female + u
1–17
Beispiel 3: Zusammenhang zwischen Einkommen der
Generationen einer Familie:
1–18
(4)
Hypothesen formulieren
z.B.: Lohn der legalen Beschäftigung hat keinen Einfluss
Einkommen_Kind = β0 + β1 Einkommen_Eltern + ... + u
Beispiel 4: Rolle von Korruption für nationales Wirt-
auf kriminelle Aktivität: β1 = 0
z.B.: Die Löhne von Frauen und Männern sind im Mittel
gleich: β3 = 0
schaftswachstum:
Wachstum = β0 + β1 Korruptionsintensität + β2 Bildung +
z.B.: Je höher das Einkommen der Eltern, umso höher das
ihrer Kinder: β1 > 0
... + u
z.B.: Korruption ist für das Wachstum schädlich: β1 < 0
(5) Daten sammeln
(6) Modell ökonometrisch schätzen und Hypothesen testen
1–19
1–20
(7) Gelegentlich: Ergebnisse für Prognosen nutzen
1.2.2 Datenstrukturen
1.2.2.1 Querschnittsdaten
•
Querschnittsdaten beschreiben eine Stichprobe von Beobachtungen zu einem Zeitpunkt.
•
Typische Annahme: Zufallsstichprobe aus der Grundgesamtheit.
•
Mikrodatenbeispiel für Querschnittsdaten:
1–21
1–22
1.2.2.2 Zeitreihendaten
•
Zeitreihendaten beschreiben die Entwicklung einzelner Variablen über die Zeit
•
Vergangenheit beeinflusst die Gegenwart, Zeit ist ein relevanter
Faktor, Reihenfolge der Beobachtungen bedeutsam
•
Messfrequenz kann sehr verschieden sein: minutengenaue Aktienpreise, wöchentliche Umsätze, Jahresinflation, …
1–23
•
Besonderheit: Saisonalität
•
Zeitreihendatenbeispiel
1–24
1.2.2.3 Gepoolte Querschnitte
•
Kombination von Querschnittserhebungen verschiedener Zeitpunkte
•
Erlaubt, Wirkung von Änderungen zu messen, z.B. Auswirkung
der Änderung der Grundsteuer auf die Immobilienpreise:
1–25
1–26
1.2.2.4 Paneldaten
•
Wiederholte Messungen für jede Beobachtungseinheit (z.B. Individuen, Firmen, Regionen)
•
Beispiel: 2-Jahres-Panel für 150 Städte (300 Beobachtungen),
je eine Beobachtung von 1986 und eine von 1990.
1–27
1–28
1.2.3 Kausalität und die ceteris paribus Interpretation
•
Häufig von zentralem Interesse: Kausaler Effekt der Variable
X auf Variable Y. Nicht jede Korrelation beschreibt einen kausalen Zusammenhang!
•
Die ceteris paribus Interpretation beschreibt den kausalen
Effekt einer Größe X auf Y unter der Annahme, dass alle anderen Einflussfaktoren konstant bleiben.
Beispiel: Effekt von PKW-Preisen auf die PKW-Nachfrage, bei
gegebenen Preisen für Benzin, Versicherung, andere PKWTypen
1–29
•
Wenn es gelingt, alle anderen relevanten Faktoren konstant zu
1–30
•
halten, lässt sich der ceteris paribus Effekt als kausale Wirkung
Problem bei nicht-experimentellen bzw. Beobachtungsdaten:
(a) Individuen wählen Schulbildung.
interpretieren.
(b) Bei langer Bildung wenig Berufserfahrung, muss heraus-
Man kann sich aber selten sicher sein, dass alle relevanten
gerechnet werden.
Faktoren erfasst wurden.
•
Hilfreich, um kausale Effekte zu etablieren: Experimente
•
Beispiel 1: Effekt von Düngung auf Sojabohnenernte
(c) Hohe Fähigkeiten führen zu Bildung und hohen Löhnen.
•
dung von Kriminalität? – Simultanitätsproblem
→ Experiment denkbar
•
Beispiel 3: Führt die Zahl der Streifenpolizisten zur Vermei-
•
Beispiel 2: Auswirkung von Schulbildung auf Löhne
Beispiel 4: Auswirkung von Mindestlöhnen auf die Arbeitslosigkeit? – Experiment in Verbindung mit Zeitreihendaten denk-
→ Experiment schwierig
bar
1–31
1–32
Kapitel 1: Einführung und Repetitorium
APPENDIX
1.1 Technische Bemerkungen
A Mathematische Grundlagen
1.2 Einführung: Ökonometrie und Daten
A.1 Das Summenzeichen und deskriptive Statistiken
APPENDIX
•
Die Summe einer Reihe von n Werten einer Variable X lässt
sich schreiben als
∑
(A.1)
1
=
i
B Grundlagen der Wahrscheinlichkeitsrechnung
xn
+
.
.
.
+
x2
+
x1
≡
xi
n
A Mathematische Grundlagen
C Statistische Grundlagen
•
Für eine Konstante c ergibt sich
n
∑c = n ⋅c
(A.2)
i=1
1–33
•
n
Sowie
n
∑ c ⋅ xi = c ∑ xi
i=1
•
Für Mittelwerte gilt
n
∑ (xi - x) = 0
Für Zahlenpaare X und Y sowie Konstanten a und b gilt
n
i =1
n
n
= a∑ x i + b∑ y i
i =1
(A.4)
i =1
Der Durchschnitt oder Mittelwert aus n Zahlen {xi: i =1,…,n}
x=
1 n
∑ xi
n i=1
,
(A.6)
i=1
berechnet sich als
•
•
i=1
∑ (a xi + b yi )
•
(A.3)
1–34
da
n
n
n
n
i=1
i=1
i=1
i=1
n
∑ di = ∑ (xi - x) = ∑ xi - ∑ x = ∑ xi - nx = nx - nx = 0
i=1
n
⎛1
⎞ n
= ∑ xi - n ⎜ ∑ xi ⎟ = ∑ x i -∑ xi = 0
i=1
i=1
⎝ n i=1 ⎠ i=1
n
n
(A.5)
Der Stichprobenmittelwert ist eine beschreibende Statistik für
eine bestimmte Variable.
1–35
1–36
•
Eine häufig verwendete Umformung ist
n
∑ ( xi − x ) (
n
i=1
i=1
y
×
x
n
yi
xi
n
∑
1
=
i
i=1
2
︶
n
i=1
∑ (xi - x)2 = ∑ (xi2 - 2xi x + x
1
=
i
n
)
=
yi
x
xi
=
︵
∑
was sich wie folgt ergibt:
n
)=∑ (
n
i=1
i=1
1
=
i
i=1
(A.7)
y
yi
xi
n
∑ (xi - x)2 = ∑ xi2 - n(x)2 ,
y
yi
n
Ebenso lässt sich für 2 Variablen {(xi,yi): i =1,…,n} zeigen:
n
•
(A.8)
)
= ∑ xi2 - 2x ∑ xi + n(x)2
n
n
i=1
i=1
= ∑ xi2 - 2n(x)2 + n(x)2 =∑ xi2 - n(x)2
1–37
• Beispiel: Zusammenhang Mietausgaben – Einkommen:
A.2 Eigenschaften linearer Funktionen
•
Wenn der Zusammenhang zwischen Variablen x und y dargestellt werden kann als
y = β0 + β1 x,
1–38
housing expenditure = 164 + 0,27 income,
(A.11)
von jedem zusätzlich verdienten Euro Einkommen geht im Mit(A.9)
tel ein Betrag von 27 Cent in die Miete.
ist y eine lineare Funktion von x und die Parameter β0 und β1
beschreiben die Beziehung zwischen x und y. β0 heißt Achsenabschnitt, β1 Steigungsparameter.
•
Eine Änderung von x ändert y um den Faktor β1:
∆y = β1 ∆ x1
(A.10)
β1 ist hier der konstante, marginale Effekt von x auf y.
1–39
1–40
•
Lineare Beziehungen lassen sich auch für mehr als zwei Variablen darstellen:
y = β0 + β1 x1 + β2 x2
•
Beispiel: Die Nachfrage nach CDs hängt ab von deren Preis
und dem individuellen Einkommen:
(A.12)
quantity = 120 – 9,8 price + 0,03 income,
β0 ist der Achsenabschnitt, β1 und β2 sind Steigungsparameter.
wobei price in $ pro CD und income in $ gemessen ist. Bei ge-
giert.
gebenem Einkommen reduziert ein Preisanstieg um einen $ die
y x2
y x1 Δ
Δ Δ
Δ
=
=
β2
β1
β1 (β2) beschreibt, wie stark y auf Änderungen in x1 (x2) rea-
, wenn ∆x2= 0
Nachfrage nach CDs um 9,8 Stück. Bei einem um 100 $ höhe-
und
ren Einkommen steigt die Nachfrage - bei gegebenen Preisen um 3 Stück.
, wenn ∆x1= 0
1–41
•
A.3 Anteile und Prozentgrößen
•
1–42
selbst eine Prozentgröße ist:
Anteilswerte lassen sich durch Multiplikation mit 100 als Pro-
Absolute Änderung: ∆x = x1 – x0, Änderung in Prozentpunk-
zentgrößen ausdrücken und umgekehrt.
Beispiel:
82
100
Relative Änderung über die Zeit:
x
Δ x0
=
x0
- x0
x1
•
Relative Änderung:
(A.14)
x
Δ
ist ein Anteilswert, der zu einer Prozentgröße umformuliert wer0
x
den kann: % ∆x = 100 ·
•
ten,
= 0,82 ist der Anteil der Erwachsenen mit Schul-
abschluss, d.h. 0,82 · 100 = 82%
Wichtig: Korrekte Ausdrucksweise, wenn die betrachtete Größe
(A.15)
•
Δx
· 100, Änderung in Prozent.
x0
Beispiel: Anstieg der Mehrwertsteuer von 15 % auf 18 % um 3
(18 − 15 ) = 0,2 → um 20 Prozent
Prozentpunkte, bzw.
15
Beispiel: Einkommensanstieg von 30 000 auf 33 750 Euro pro
Jahr: 3750 / 30 000 = 0,125, d.h. 100 · 0,125 = 12,5%
1–43
1–44
Steigung =
A.4 Eigenschaften wichtiger Funktionen
•
Um fallende Grenzerträge abbilden zu können, benötigt man
quadratische Funktionen
2
y = β0 + β1 x + β2 x .
•
Δy
= β1 + 2 β2 x
Δx
Beispiel: wage = 5,25 + 0,48 exper – 0,008 exper2
Maximum der Lohnkurve bei: exper =
(A.16)
(A.18)
0,48
= 30
2 ⋅ 0,008
Wenn β1 > 0, β2 < 0 ergibt sich eine umgekehrt U-förmige Parabel, mit einem Maximum an der Stelle
x=
•
β1
.
-2β2
(A.17)
In diesem Fall ist der marginale Effekt von x auf y davon abhängig, an welcher Ausprägung von x man sich befindet. Die
Steigung fällt mit wachsendem x, solange β2 < 0:
1–45
•
Wir verwenden im Regelfall den natürlichen Logarithmus,
hier geschrieben als
y = log(x)
1–46
•
Rechenregeln: log(x1 · x2) = log(x1) + log(x2), x1,x2 > 0
(A.21)
log(x1 / x2) = log(x1) – log(x2), x1,x2 > 0
und definiert für x > 0. Auch hier ergeben sich abnehmende
log(xc)
Grenzerträge von x bezüglich y, wobei der marginale Effekt von
= c log(x),
x > 0, c beliebig
x nie negativ wird.
•
Approximation für kleine Werte x: log(1 + x) ≈ x
Charakteristika: log(x) < 0, wenn 0 < x < 1
•
Beispiel:
log(1,02) = 0,01980
log(1) = 0
log(1,05) = 0,04879
log(x) > 0, wenn x > 1
log(1,20) = 0,18232
1–47
1–48
•
•
Δy
Für kleine Änderungen in x gilt:
•
(x − x 0 ) Δx
Δ log ( x ) = log(x1 ) − log(x 0 ) ≈ 1
=
x0
x0
(A.22)
100 ⋅ Δ log( x ) ≈ %Δx
(A.23)
Beispiel 1:
x0 = 40
x1 = 41
Anstieg um
•
Beispiel 2:
x0 = 40
x1 = 60
Anstieg um
Δx
y
x
=
%Δy
%Δx
(A.24)
Wenn y = β0 + β1 x, dann ist die Elastizität
Δy x
x
x
⋅ = β1 ⋅ = β1 ⋅
Δx y
y
β0 + β1x
1
⋅ 100 = 2,5%
40
(A.25)
und somit abhängig vom jeweiligen Wert x.
•
log(41) – log(40) = 0,0247, gute Approximation, ∆x klein
Elastizität:
20
⋅ 100 = 50%
40
Modell konstanter Elastizität: Wegen (A.23) lässt sich die
Δ log( y )
approximieren und als β1 schätzen
Elastizität durch
Δ log( x )
durch
log(y) = β0 + β1 log(x)
(A.26)
log(60) – log(40) ≅ 0,4055, schlechte Approximation, ∆x groß
1–49
•
Es gibt zwei weitere Verwendungsarten des Logarithmus im li-
1–50
•
nearen Modell.
•
Eine Änderung in educ (= Schuljahre) um 1 erhöht den Lohn
Alternative 1:
log(y) = β0 + β1 x
•
100 · ∆ log(y) = (100 · β1) · ∆x
x>0
(A.29)
(A.28)
so dass
Δy =
β1
⋅ % Δx
100
β1 gibt die Semi-Elastizität an: Ändert sich x um eine Einheit,
Ändert sich x um ein Prozent, so ändert sich y um
so ändert sich y um β1· 100 Prozent.
ten.
1–51
(A.30)
0
0
β11
% ∆y = (100 · β1) · ∆x
Alternative 2: y = β0 + β1 log(x),
⎛ β ⎞
Hier gilt Δy = β1 Δlog(x) ⇔ Δy = ⎜ 1 ⎟ ⋅ [ Δlog(x) ⋅ 100]
⎝ 100 ⎠
∆ log(y) = β1 ∆x,
und
um 9,4% (Rendite auf Schulbildung).
(A.27)
In diesem Fall gilt
so dass
Beispiel: log(wage) = 2,78 + 0,094 educ
Einhei-
1–52
•
Beispiel: hours = 33 + 45,1 log(wage)
A.5 Differentialrechnung
Ein Prozent höhere Löhne erhöhen die Stundenzahl (das Ar-
•
x
Δ
f x
d
d
≈
y
Δ
Wenn y = f(x), dann gilt für kleine Änderungen in x
beitsangebot) um 0,451 Stunden oder knapp 30 Minuten.
•
⋅
Exponentialfunktion: y = exp(x), wobei gilt:
exp(0) = 1 und exp(1) = 2,7183
-
log(y) = β0 + β1 x ⇔ y = exp(β0 + β1 x)
-
exp(x1 + x2) = exp(x1) · exp(x2)
-
exp[ c · log(x) ] = xc.
(A.31)
df
die am Ausgangspunkt x0 bewertete Ableitung von f
dx
dy
df
ist. Wir schreiben auch
statt
.
dx
dx
wobei
•
Verschiedene Ableitungen:
-
wenn y = log(x),
dann
dy
=
dx
Eingesetzt in (A.31) folgt: Δy ≈
1 x
-
,
1
⋅ Δx .
x0
1–53
Da hier Δy durch Δlog(x) ersetzt werden kann, gilt:
•
x
0
Δ x
=
g
o
l
Δ
(x)
1–54
Partielle Ableitungen spielen eine Rolle, wenn y von 2 erklä-
renden Variablen abhängt:
.
-
wenn y = β0 + β1 x ,
dann
dy
= β1
dx
-
wenn y = xc ,
dann
dy
= c · xc-1
dx
-
d(f(x) + g(x)) df(x) dg(x)
=
+
dx
dx
dx
-
d(c ⋅ f(x))
⎛ df(x) ⎞
= c ⋅⎜
⎟
dx
⎝ dx ⎠
Dann sind
∂y
∂x1 x
und
2 kons tan t
y = f (x1,x2) .
∂y
∂x 2
(A.32)
x1 kons tan t
die partiellen Ableitungen.
1–55
1–56
•
Beispiel: Lohn als Funktion von Schulbildung und Erfahrung
Kapitel 1: Einführung und Repetitorium
wage = 3,10 + 0,41 educ + 0,19 exper – 0,004 exper2
e
g
a
w
∂
+ 0,007 educ · exper
1.1 Technische Bemerkungen
(A.35)
r
e
p
x
e
∂
= 0,19 – 0,008 exper + 0,007 educ
1.2 Einführung: Ökonometrie und Daten
APPENDIX
Die Lohnwirkung eines Jahres Arbeitsmarkterfahrung ist abhängig von Bildung und Arbeitsmarkterfahrung.
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–57
1–58
•
B Grundlagen der Wahrscheinlichkeitsrechnung
keit θ von X = 1 vollständig beschrieben werden:
B.1 Zufallsvariablen und ihre Wahrscheinlichkeitsverteilung
•
P(X=1) = θ
Experiment: Charakterisiert durch unendlich oft wiederholbare
•
Vorgehensweise und klar definierte Ergebnisse.
•
Bernoulli Zufallsvariable kann durch Eintrittswahrscheinlich-
(B.1, B.2)
Diskrete Zufallsvariable: Zufallsvariable mit abzählbar vielen
Ausprägungen
Zufallsvariable: Eine Variable mit numerischen Werten, deren
Ausprägung durch ein Experiment bestimmt wird; hier be-
P(X=0) = 1 – θ
•
Zuordnung aller möglichen Realisationen zu ihren Eintritts-
schrieben mit Großbuchstaben X, Y, Z; Realisationen werden
wahrscheinlichkeiten
durch Kleinbuchstaben beschrieben x, y, z.
X nimmt die Werte { x1, …, xk } mit Wahrscheinlichkeit p1, …, pk
•
Wir betrachten binäre, diskrete und stetige Zufallsvariablen.
an, wobei
•
Bernoulli (Binäre) Zufallsvariable: Nimmt Werte von 0 oder 1
pj = P(X = xj), j = 1,2, …, k
(B.3)
an. Notation für Bernoulli-Variablen: X ~ Bernoulli (θ)
mit 0 ≤ pj ≤ 1 und p1 + p2 + … + pk = 1.
(B.4)
1–59
beschreibt
diskrete
Zufallsvariablen.
1–60
•
Wahrscheinlichkeitsdichtefunktion f beschreibt für jedes x
Grafisch:
die Wahrscheinlichkeit, mit der die Zufallsvariable X den Wert x
annimmt:
f(xj) = pj , j = 1,2, …, k
•
(B.5)
Mithilfe von f lässt sich die Wahrscheinlichkeit von Ereignissen
berechnen.
•
Beispiel: Anzahl von Korbtreffern bei 2 Basketballfreiwürfen
wenn f(0) = 0,20,
f(1) = 0,44,
f(2) = 0,36.
(Summe = 1)
•
Wahrscheinlichkeit für mindestens einen Korb:
Eine Variable X ist eine stetige Zufallsvariable, wenn sie jeden einzelnen Wert mit der Wahrscheinlichkeit 0 annimmt, da
P(X ≥ 1) = P(X = 1) + P(X = 2) = 0,44 + 0,36 = 0,80
es unendlich viele mögliche Realisationen gibt.
1–61
•
Die Wahrscheinlichkeitsdichtefunktion beschreibt für jedes X
1–62
•
die Wahrscheinlichkeit in einem Intervall [a, b] zu liegen.
Kumulative Verteilungsfunktion: F(x) ≡ P(X ≤ x)
(B.6)
- für diskrete Zufallsvariablen die Summe über f(xj), xj ≤ x
P( a ≤ X ≤ b) beschreibt die Fläche unter der Funktion f:
- für stetige Zufallsvariablen die Fläche unter f links von x.
•
•
Für jede Zahl c gilt:
P(X > c) = 1 – F(c).
(B.7)
Für alle Zahlen a < b:
P(a < X ≤ b) = F(b) – F(a).
(B.8)
Bei stetigen Zufallsvariablen gilt P(X ≥ c) = P(X > c) und (B.9)
P(a < X < b)= P(a ≤ X ≤ b)= P(a ≤ X < b)= P(a< X ≤ b)
1–63
(B.10)
1–64
B.2 Gemeinsame Verteilungen, bedingte Verteilungen und
•
Beispiel:
Unabhängigkeit
•
männlich
Wenn X und Y diskrete Zufallsvariablen sind, lässt sich ihre
gemeinsame Verteilungsfunktion fx,y wie folgt schreiben
fx,y(x,y) = P(X = x, Y = y)
•
(B.11)
weiblich
Rechtshänder
0,40
0,30
0,70
Linkshänder
0,15
0,15
0,30
0,55
0,45
Die Wahrscheinlichkeitsdichtefunktionen fX und fY heißen auch
marginale Wahrscheinlichkeitsdichtefunktionen (Randver-
teilung).
•
Zufallsvariablen sind unabhängig, wenn gilt:
fX,Y(x,y) = fX(x)⋅fY(y)
(B.12)
1–65
•
•
•
Im diskreten Fall gilt bei Unabhängigkeit:
P(X = x, Y = y) = P(X = x)⋅P(Y = y)
Beispiel: 2 Freiwürfe beim Basketball. Wenn die Trefferwahr-
sind, ist die Wahrscheinlichkeit für 2 Treffer: P(X = 1, Y = 1) =
0,7 · 0,7 = 0,49. Wenn der Erfolg des zweiten Wurfs vom Erfolg
des ersten Wurfs abhängt, sind die Ereignisse nicht unabhän-
Gemeinsame Wahrscheinlichkeitsfunktionen werden auch für
mehr als zwei Zufallsvariablen, X1, X2, …, Xn betrachtet. Das
(B.13)
scheinlichkeit 70% ist und 2 Würfe unabhängig voneinander
Konzept der Unabhängigkeit gilt hier genauso.
•
Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X,
fY X (y x) =
fX,Y (x,y)
fX (x)
(B.15)
bzw. bei diskreten X,Y:
fY X (y x) = P(Y = y X = x) ,
gig und die Berechnung ist nicht zutreffend.
•
1–66
(B.16)
Wenn die Zufallsvariablen X und Y unabhängig voneinander
beschreibt die Wahrscheinlichkeit, dass Y den Wert y annimmt,
sind, dann sind auch die Zufallsvariablen g(X) und h(Y) unab-
gegeben, dass X den Wert x annimmt.
hängig.
1–67
1–68
•
Wenn X und Y unabhängig sind, heißt das, dass Kenntnis von
Was ist die gemeinsame Dichte für P(X = 1, Y = 1)?
X nichts dazu beiträgt, etwas über Y zu lernen:
Wenn
P(X = 1) = 0,80 ,
dann folgt
P(X = 1, Y = 1) = P(Y = 1│X = 1) · P(X = 1)
fY X (y x) =
•
fX,Y (x,y) fX (x)fY (y)
=
= fY (y)
fX (x)
fX (x)
= 0,85 · 0,80 = 0,68.
Beispiel: 2 Basketballfreiwürfe
fY X (1 1) = 0,85
fY X (0 1) = 0,15
fY X (1 0) = 0,70
fY X (0 0) = 0,30
Die Wahrscheinlichkeit, den zweiten Wurf zu verwandeln, hängt
vom Ergebnis des ersten Wurfs ab, d.h. die Ereignisse sind
nicht unabhängig.
1–69
1–70
•
B.3 Eigenschaften von Wahrscheinlichkeitsverteilungen
E(X) = −1⋅
B.3.1 Erwartungswert
•
Beispiel: Werte -1, 0, 2 mit Wahrscheinlichkeit
Wenn X eine Zufallsvariable ist, dann ist der Erwartungswert
von X, E(X), μx oder μ, der gewichtete Durchschnitt aller möglichen Werte von X. Die Gewichte ergeben sich aus der Dichte-
1
1
3 5
+ 0⋅ + 2⋅ =
8
2
8 8
∞
1 1
3
, und .
8 2
8
•
Stetige Zufallsvariable:
•
Wenn X eine Zufallsvariable ist, dann auch g(X) (z.B. X2 oder
E( X) =
∫
xf (x )dx
(B.18)
−∞
log(X)). Dann
funktion.
k
Diskrete Zufallsvariable: E(X) = x1 f(x1) + x2 f(x2) + … + xk f(xk)
j=1
x diskret
(B.19)
x stetig.
(B.20)
j=1
(B.17)
∞
k
≡ ∑ x j f(x j )
E [ g(X)] = ∑ g(x j ) fX (x j )
-
1–71
∞
E [ g(X)] = ∫ g(x) fX (x)dx
1–72
•
•
Beispiel:
E ( X2 ) = ( −1) ⋅
2
1
1
3 1 12 13
+ 02 ⋅ + 22 ⋅ = +
=
8
2
8 8 8
8
⎛5⎞
Dies zeigt auch, dass E [g(X)] ≠ g [E(x)], hier = ⎜ ⎟
⎝8⎠
•
E1: Für eine Konstante c:
2
E(c) = c
E2: Für Konstanten a und b:
Ebenfalls gilt für diskrete Zufallsvariablen X, Y mit der gemein-
E(aX + b) = a E(X) + b
samen Dichte fX,Y :
k
Eigenschaften von Erwartungswerten:
m
E [ g(X,Y)] = ∑∑ g(xn ,y j ) ⋅ fX,Y (xn ,y j )
n=1 j=1
1–73
E3: Wenn { a1, a2, … an } Konstanten sind und { X1, X2, … Xn }
Zufallsvariablen, dann
⎛ n
⎞ n
E ⎜ ∑ ai Xi ⎟ = ∑ ai E(Xi )
⎝ i=1
⎠ i=1
⎛ n
⎞ n
und (für ai =1): E ⎜ ∑ Xi ⎟ = ∑ E(Xi )
⎝ i=1 ⎠ i=1
•
Beispiel: X1, X2 und X3 sind die Anzahl der verkauften kleinen,
mittleren und großen Pizzen. Die Erwartungswerte sind
E(a1X1+a2X2+… anXn)= a1E(X1)+ a2E(X2)+…+ anE(Xn)
bzw.
1–74
E(X1) = 25, E(X2) = 57, E(X3) = 40, die jeweiligen Preise sind
5,50, 7,60 und 9,15 €. Der erwartete Umsatz ist dann
(B.21)
E(5,50 · X1 + 7,60 · X2 + 9,15 · X3)
(B.22)
= 5,50 · E(X1) + 7,60 · E(X2) + 9,15 · E(X3)
= 5,50 · 25 + 7,60 · 57 + 9,15 · 40 = 936,70
1–75
1–76
•
B.3.2 Dispersionsmaße
•
Bei einer Zufallsvariable X mit μ = E(X) interessiert, wie stark
Die Zufallsvariablen X und Y haben eine unterschiedliche
sich X im Mittel von seinem Erwartungswert entfernt (X – μ)
Streuung:
(wenig = geringe Streuung, viel = hohe Streuung). Die Varianz
beschreibt die erwartete quadrierte Streuung:
Var(X) ≡ E [(X – μ)2] = σ2
(B.23)
Dabei gilt: σ2= E(x2–2x μ+ μ2)= E(X2)–2 μ2+ μ2= E(X2)–μ2 (B.24)
(vergleiche A.7)
•
Eigenschaften von Varianzen:
Var1: Die Varianz einer Konstanten ist 0.
Var2: Bei Konstanten a, b gilt Var(aX + b) = a2 Var(X)
1–77
2
σ
=
x
r
a
V
B.4 Merkmale von gemeinsamen u. bedingten Verteilungen
•
Eigenschaften von Standardabweichungen:
Die Kovarianz von zwei Zufallsvariablen ist definiert als
Cov(X,Y) ≡ E [(X – μx) (Y – μy)] = σXY
(B.26)
SD1: Die Standardabweichung einer Konstanten ist 0.
Wenn σXY>0, spricht man von positiver Kovarianz, wenn σXY< 0
SD2: Bei Konstanten a und b gilt: sd(aX + b) = a sd(X)
von negativer.
Eine Zufallsvariable X mit Erwartungswert μ und Standardabweichung σ lässt sich standardisieren:
μ
- σ
X
=
Z
•
=
x
σ
=
•
Die Standardabweichung einer Zufallsvariable, sd(X), ist die
Wurzel der Varianz:
(x)
(x)
d
s
•
1–78
,
•
(B.25)
Es lässt sich zeigen:
Cov(X,Y) = E [(X – μx) (Y – μy)] = E [(X – μy) Y ]
so dass E(Z) = 0 und Var(Z) = 1.
= E [ X (Y – μy)] = E(X Y) – μx μy
(B.27)
(vergleiche A.8)
•
1–79
Wenn E(X) = 0 oder E(Y) = 0, folgt Cov(X,Y) = E(XY).
1–80
•
•
Die Kovarianz misst den linearen Zusammenhang zwischen
Cov3: Cov(X,Y) ≤ sd(X) sd(Y)
Zufallsvariablen.
Das Maß der Kovarianz kann auf Werte zwischen -1 und +1
Eigenschaften der Kovarianz:
standardisiert werden. Der Korrelationskoeffizient ist definiert
σ
Cov(X,Y)
= XY = ρ XY
Corr(X,Y) ≡
(B.29)
als:
sd(X)sd(Y) σ X σ Y
Cov1: Wenn Zufallsvariablen X und Y unabhängig sind, dann
Cov(X,Y) = 0. Der Umkehrschluss gilt nicht, da Kovarianz nur lineare Zusammenhänge misst. So haben X
•
Bei Unabhängigkeit folgt aus Cov(X,Y)=0, dass Corr(X,Y)=0.
Auch der Korrelationskoeffizient beschreibt lineare Zusammen-
und X2 eine Kovarianz von 0, obwohl sie nicht unabhän-
hänge.
gig sind.
Cov2: Für Konstanten a1, a2, b1 und b2 gilt:
Cov(a1X + b1, a2Y + b2) = a1a2 Cov(X Y),
(B.28)
Skalieren der Variable beeinflusst die Kovarianz.
1–81
•
1–82
•
Eigenschaften der Korrelationskoeffizienten:
Corr1: -1 ≤ Corr(X,Y) ≤ 1
Weitere Eigenschaften von Varianzen:
Var3: Bei Konstanten a, b gilt:
Werte von +1 bzw. -1 implizieren perfekte positive bzw.
Var(aX + bY) = a2 Var(X) + b2 Var(Y) + 2ab Cov(X,Y)
negative lineare Zusammenhänge
Wenn X, Y unkorreliert, folgt Cov(X,Y) = 0 und
Corr2: Bei Konstanten a1, a2, b1, b2 mit a1⋅a2 > 0 gilt:
Corr(a1X + b1, a2Y + b2) = Corr(X,Y)
Var(X + Y) = Var(X) + Var(Y)
(B.30)
Var(X – Y) = Var(X) + Var(Y)
(B.31)
bzw. bei a1⋅a2 < 0:
Zufallsvariablen
Corr(a1X + b1, a2Y + b2) = -Corr(X,Y)
unkorreliert, wenn jede Variable mit jeder anderen
Skalieren beeinflusst den Korrelationskoeffizienten nicht.
1–83
{
X1,
…
Xn
}
sind
paarweise
unkorreliert ist, d.h. Cov(Xi, Xj) = 0 für alle i ≠ j.
1–84
Var4: Wenn { X1, …, Xn } paarweise unkorrelierte Zufallsvariablen sind und ai eine Konstante, dann
•
(B.32)
und
⎛ n
⎞ n
Var ⎜ ∑ Xi ⎟ = ∑ Var(Xi )
⎝ i=1 ⎠ i=1
(B.33)
x
Y
E
=
x
=
X
Y
E
⎛ n
⎞ n
Var ⎜ ∑ ai Xi ⎟ = ∑ ai2 Var(Xi )
⎝ i=1
⎠ i=1
das Konzept der bedingten Erwartungen von Interesse. Diese
beschreibt den Erwartungswert von Y gegeben, dass die Variable X den Wert X = x annimmt: (
) ( )
Var(a1X1 + … + anXn) = a12 Var(X1) + … + an2 Var(Xn),
bzw.
Will man die Variable Y mit Hilfe der Variable X erklären, so ist
Sind die Zufallsvariablen nicht paarweise unkorreliert, so
müssen alle Kovarianzen berücksichtigt werden.
1–85
•
•
Ist Y diskret mit Werten { y1, …, ym }, dann
m
Beispiel: Y = Lohnsatz,
X = Jahre der Schulbildung
E(Y X = 12) = mittlerer Lohn der Personen mit 12 Jahren Schul-
E(Y x) = ∑ yi fY X (yi x)
j=1
bildung. Da X viele Werte annehmen kann, bietet sich eine verkürzte Darstellung an, die für beliebige Werte von X gilt:
E(Y X) = 1,05 + 0,45 X
Ist Y stetig, dann
∞
E(Y x) =
1–86
∫ y fY X (y x)dy
−∞
Es handelt sich um den gewichteten Durchschnitt von y für gegebene Werte von X.
1–87
1–88
•
CE3: Wenn X und Y unabhängig sind, dann E(Y X) = E(Y) ,
Bedingte Erwartungen können auch nichtlinear sein.
da X für Y keine Rolle spielt.
CE1: E ⎡⎣c(X) X ⎤⎦ = c(X) für jede Funktion c(X).
Wenn U und X unabhängig sind und E(U) = 0 , dann folgt
E(U X) = 0
Wenn X bekannt ist, ist hier auch c(X) bekannt und konstant, z.B. E x 2 x = x 2
(
)
CE4: Law of iterated expectations E X ⎡⎣E(Y X)⎤⎦ = E(Y)
CE2: Bei Funktionen a(X) und b(X):
Der Erwartungswert von y lässt sich berechnen, wenn man so-
E ⎡⎣a(X)Y + b(X) X ⎤⎦ = a(X)E(Y X) + b(X)
wohl die Beziehung zwischen X und Y kennt als auch die Ei-
Beispiel: E ⎣⎡ XY + 2X2 X ⎦⎤ = X ⋅ E(Y X) + 2X2
genschaften der Verteilung von X.
1–89
•
1–90
CE5: Wenn E(Y X) = E(Y) , dann gilt
Beispiel 1: Angenommen, man sucht den durchschnittlichen IQ
der Bevölkerung, hat aber nur Durchschnittswerte für Männer
Cov(X,Y) = 0 und Corr(X,Y) = 0,
und Frauen getrennt. Dann lässt sich der Gesamtdurchschnitt
und jede Funktion von X ist unkorreliert mit Y.
als gewichteter Durchschnitt zwischen Männern und Frauen
bestimmen:
Wenn die Kenntnis von X den E(Y) nicht beeinflusst,
E ⎡⎣E(IQ Geschlecht)⎤⎦
müssen die Größen unkorreliert sein. Wenn X und Y korreliert sind, muss E(Y X) mit X variieren.
= E(IQ Männer) ⋅ P(Mann) + E(IQ Frau) ⋅ (1- P(Mann)) = E(IQ)
•
•
Beispiel 2: Y = Lohn, X = Bildung
Es folgt: Wenn U und X Zufallsvariablen sind und E(U X) = 0 ,
dann ist E(U) = 0 und U und X sind nicht korreliert.
Wir wissen E(Y X) = 4 + 0,6 · X und E(X) = 11,5
•
Dann: E(Y) = E(4 + 0,6 X) = 4 + 0,6 E(X) = 4 + 0,6·11,5 =
Auch die Varianz von Y kann bedingt auf X beschrieben werden: Var(Y X = x) = E(Y 2 x) − [E(Y x)] 2 .
10,90
1–91
1–92
•
Eigenschaft CV1:
B.5 Spezielle Verteilungsfunktionen
Wenn X und Y unabhängig sind, dann Var(Y X) = Var(Y).
•
Einige Verteilungsfunktionen sind für die Ökonometrie besonders wichtig.
•
Normalverteilte Zufallsvariablen sind stetig mit der Dichte-
funktion
⎧ (x - μ)2 ⎫
f(x) =
exp ⎨,
2 ⎬
σ 2π
⎩ 2σ ⎭
1
−∞ < x < ∞ ,
(B.34)
wobei μ = E(X) und σ2 = Var(X). Man schreibt X~ Normal(μ,σ2)
Die Normalverteilung ist symmetrisch, daher ist μ auch der
Median. Die Verteilungsfunktion entspricht einer Glockenkurve:
1–93
1–94
•
Die Normalverteilung mit μ = 0 und σ2 = 1 heißt Standardnormalverteilung, mit der Dichtefunktion:
φ(z) =
⎛ -z2 ⎞
exp ⎜
⎟
2π
⎝ 2 ⎠
1
−∞ < z < ∞
(B.35)
Kumulative Verteilungsfunktion: Φ( z) , Fläche unter Φ( z) bis z
Φ( z ) = P(Z < z), in Verteilungstabellen aufgeführt, wobei
•
Wenn Y = log(X) einer Normalverteilung folgt, sagen wir, dass
X lognormal verteilt ist.
und
1–95
P(Z > z) = 1 – Φ( z)
(B.36)
P(Z < z) = Φ( z)
(B.37)
P(a ≤ Z ≤ b) = Φ(b) – Φ(a)
(B.38)
1–96
•
Eigenschaften der Normalverteilung:
•
Normal 1: Wenn X ∼ Normal (μ, σ2), dann (X - μ)/σ ∼ Normal
(0, 1)
•
Beispiel 1: X ~Normal (4,9) und wir suchen P(2 < X ≤ 6).
P(2 < X
≤
Schritt 1: Standardisieren
≤
⎛2-4 x-4 6-4⎞
6) = P ⎜
<
<
3
3 ⎟⎠
⎝ 3
2⎞
⎛ 2
= P⎜- < Z
3 ⎟⎠
⎝ 3
= Φ ( +0,67 ) - Φ ( -0,67 )
1–97
•
lung.
•
⎡
⎛ −2 ⎞ ⎤
= ⎢1 − Φ ⎜ ⎟ ⎥ + Φ( −2) = 1 − 0,251 + 0,023 = 0,772
⎝ 3 ⎠⎦
⎣
Dies impliziert, dass für den Mittelwert von n unabhängigen,
normalverteilten Zufallsvariablen Y1, Y2, … Yn, die jeweils
⎛ σ2 ⎞
~ Normal μ, σ2 ,gilt: Y ~ Normal ⎜ μ, ⎟
(B.40)
⎝ n ⎠
(
Normal2: Wenn X ~ Normal(μ,σ2),
dann aX + b ~ Normal(aμ + b, a2 σ2)
•
Normal4: Eine lineare Kombination von unabhängigen, identisch verteilten normalen Zufallsvariablen hat eine Normalvertei-
P( X > 2) = P(X > 2) + P(X < -2)
⎛ X-4 2-4⎞
⎛ X - 4 -2 - 4 ⎞
= P⎜
>
+P⎜
<
⎟
3 ⎠
3 ⎟⎠
⎝ 3
⎝ 3
•
1–98
•
Beispiel 2: Berechne
8
9
4
,
0
=
1
5
2
,
0
9
4
7
,
0
=
Schritt 2: aus Tabelle G1 ablesen:
•
Normal3: Wenn X und Y gemeinsam normalverteilt sind, sind
)
Wenn Z standardnormalverteilte Zufallsvariablen sind, dann
n
folgt X = ∑ Zi2 der Chi-Quadrat (χ2 ) Verteilung mit n Frei-
1–99
heitsgraden: X ~ χ
n
Hier stellt die Normalverteilung eine Ausnahme dar.
2
i=1
sie genau dann unabhängig, wenn Cov(X,Y) = 0.
(B.41)
1–100
•
Die t-Verteilung ergibt sich aus der Standardnormal- und der
χ -Verteilung. Wenn Z ~ Normal (0,1) und X ~ χ und X und Z
2
Die Chi-Quadrat-Verteilung ist nicht negativ, nicht symmetrisch
2
•
n
und hat einen Erwartungswert = n und eine Varianz = 2n.
=
T
•
tn
~
n
Z X
unabhängig sind, dann:
(B.42)
Die Dichtefunktion der t-Verteilung ähnelt der Normalverteilung
rianz ist
2
n n
mit etwas dickeren Rändern. Der Erwartungswert ist 0, die Vafür n > 2. Mit steigendem n konvergiert die t-
Verteilung gegen die Normalverteilung.
1–101
1–102
•
Die F-Verteilung ergibt sich aus zwei unabhängigen
2
︶
︶
k
,
1
︵
︵
Fk
~
k1k2
/ /
1
X X2
=
F
χ2 -verteilten Zufallsvariablen X1 ~ χk12 , X2 ~ χk2 2 mit:
(B.43)
Man unterscheidet Zähler- (k1) und Nennerfreiheitsgrade (k2).
•
Die F-Verteilung nimmt nur positive Werte an und ist nicht
symmetrisch.
1–103
1–104
Kapitel 1: Einführung und Repetitorium
1.1 Technische Bemerkungen
1.2 Einführung: Ökonometrie und Daten
APPENDIX
A Mathematische Grundlagen
B Grundlagen der Wahrscheinlichkeitsrechnung
C Statistische Grundlagen
1–105
1–106
•
C Statistische Grundlagen
Schulbildung auf den Stundenlohn aus ("Bildungsrendite")?
C.1 Bevölkerung, Parameter und Zufallsstichprobe
•
Beispiel: Wie wirkt sich in Deutschland im Mittel ein Jahr
Dies lässt sich auf Basis einer Stichprobe als Punktschätzung
Mit Hilfe der statistischen Inferenz (dem statistischen Schlie-
punktgenau schätzen (z.B. plus 7,5% pro Jahr) oder in einem
ßen o. Schlussfolgern) lernt man auf Basis einer Stichprobe
Intervall als Intervallschätzer eingrenzen (z.B. zwischen 5,6 und
etwas über die Eigenschaften der unterliegenden Bevölkerung
oder Grundgesamtheit.
9,4 %).
•
Unter Parametern versteht man konstante Größen, die in der
Grundgesamtheit die interessierenden Zusammenhänge charakterisieren.
1–107
1–108
•
Y sei eine Zufallsvariable, die in der Grundgesamtheit gemäß
•
Eine Stichprobe ist zufällig, wenn vor der Ziehung nicht fest-
der Dichtefunktion f(y;θ) verteilt sei, wobei der unbekannte Pa-
steht, welche Elemente berücksichtigt werden, alle Bevölke-
rameter θ die sonst bekannte Dichtefunktion charakterisiert. Um
rungselemente die gleiche Ziehungswahrscheinlichkeit haben
etwas über θ zu lernen, kann man verschiedene Stichproben
und jede Ziehung unabhängig von allen anderen stattfindet.
aus der Grundgesamtheit betrachten.
•
Wenn Y1, Y2, …, Yn unabhängige Zufallsvariablen mit einer
gemeinsamen Dichtefunktion f(y;θ) sind, dann ist {Y1, Y2, …,
Yn} eine Zufallsstichprobe der durch f(y;θ) charakterisierten
Grundgesamtheit.
•
Die Zufallsvariablen heißen i.i.d. verteilt (independent and
identically distributed, unabhängig und identisch), wenn sie zufällig gezogen und mit der gleichen Dichtefunktion verteilt sind.
1–109
C.2 Eigenschaften von Schätzverfahren in kleinen Stichproben
•
Man unterscheidet Eigenschaften, die sogar in kleinen Stichproben (finite samples) gelten, von asymptotischen Eigenschaften, die nur gelten, wenn die Stichprobengröße gegen
unendlich konvergiert (large samples).
•
Ein Schätzverfahren (estimator) ist eine Regel, die auf Basis
von Stichprobendaten einen Schätzwert (estimate) für unbe-
1–110
•
Beispiel: Zufallsstichprobe {Y1, Y2, …, Yn} aus der Bevölkerung
mit dem unbekannten Mittelwert μ. μ lässt sich als Stichprobenmittelwert schätzen.
Y=
1n
∑ Yi
n i =1
(C.1)
Der Schätzwert für konkrete Daten einer konkreten Stichprobe
1
ist dann y = ( y1 + y 2 + " + yn )
n
kannte Bevölkerungsparameter bestimmt. Das Verfahren kann
auf jede Stichprobe angewendet werden.
1–111
1–112
•
Allgemein lässt sich ein Schätzverfahren W für einen Parameter θ als Funktion h von Zufallsvariablen darstellen:
W = h (Y1, Y2, …, Yn)
(C.2)
C.2.1 Eigenschaft der Unverzerrtheit
•
Ein Schätzer W des Parameters θ heißt unverzerrt, wenn für
alle θ gilt
Da W von der Zufallsstichprobe abhängt, ist es selbst eine Zu-
E (W) = θ
fallsvariable. Für den konkreten Schätzwert schreiben wir
•
w = h (y1, y2, …, yn).
•
(C.3)
Bei unverzerrten Schätzern ist nicht jeder Schätzwert mit dem
wahren Wert identisch, aber über viele Zufallsstichproben hin-
Um verschiedene Schätzverfahren vergleichen zu können, betrachten wir deren Eigenschaften.
weg entspricht der Mittelwert von W dem wahren θ.
•
Bei verzerrten Schätzern für θ beträgt die Verzerrung (Bias)
Bias (W) ≡ E (W) - θ
•
(C.4)
Beispiel für verzerrten und unverzerrten Schätzer:
1–113
1–114
•
Um Verzerrung zu vermeiden, muss man die Schätzfunktion h
angemessen wählen. Für manche Schätzverfahren lässt sich
die Unverzerrtheit leicht zeigen.
•
Beispiel: Schätzer Y für den Mittelwert der Grundgesamtheit,
µ:
⎛1 n
⎞ 1 ⎛ n ⎞ 1 n
E ( Y ) = E ⎜ ∑ Yi ⎟ = E ⎜ ∑ Yi ⎟ = ∑ E ( Yi )
⎝ n i=1 ⎠ n ⎝ i=1 ⎠ n i=1
1⎛ n ⎞ 1
= ⎜ ∑ μ ⎟ = × ( nμ) = μ
n ⎝ i=1 ⎠ n
1–
–115
1–116
•
Die Stichprobenvarianz S2 ist ein unverzerrter Schätzer für die
unbekannte Varianz der Grundgesamtheit (σ2):
S2 =
1 n
(Yi − Yi )2
∑
n − 1 i =1
•
Beispiel: Wählt man als Schätzer für μ: W ≡ Y1, also nur den
ersten Wert der Stichprobe, so gilt E(Y1) = μ.
(C.5)
Man dividiert durch n-1 statt n, da der Mittelwert μ der Grundgesamtheit durch Y geschätzt wird. Wäre μ bekannt, könnte
man durch n teilen und berechnen
1 n
~
2
S2 = ∑ (Yi − μ ) .
n i =1
•
Unverzerrtheit ist manchmal ein problematisches Kriterium, da
gute Schätzverfahren z.T. verzerrt sind und manche unverzerrten Schätzer schlechte Schätzverfahren darstellen.
1–117
1–118
C.2.2 Eigenschaft der Effizienz
•
Neben dem Erwartungswert eines Schätzverfahrens interessiert uns die Streuung, wobei unter den unverzerrten Schätzern
die mit kleiner Streuung präziser sind.
1–119
1–
–120
•
•
Die Streuung eines Schätzers wird durch seine Varianz be-
Der Erwartungswert von Y als Schätzer für μ entspricht dem
schrieben.
Mittel der Grundgesamtheit, die Varianz ist die der Grundge-
Beispiel:
samtheit geteilt durch n (d.h. je größer n, umso kleiner Var(Y)).
⎛1 n ⎞ 1
⎛ n ⎞ 1
Var ( Y ) = Var ⎜ ∑ Yi ⎟ = 2 Var ⎜ ∑ Yi ⎟ = 2
⎝ n i=1 ⎠ n
⎝ i=1 ⎠ n
n
⎞ 1
1 ⎛
1
= 2 ⎜ ∑ σ2 ⎟ = 2 n ⋅ σ2 = σ2
n
n ⎝ i=1 ⎠ n
•
n
∑ Var ( Yi )
i=1
Als Schätzer für μ sind sowohl Y als auch Y1 unverzerrt, aber Y
σ2
hat mit
eine kleinere Varianz als Y1 mit σ2. Daher ist Y als
n
Schätzer vorzuziehen.
•
(C.6)
Wenn W1 und W2 zwei unverzerrte Schätzer einer Gruppe von
Parametern θ sind, dann nennt man W1 im Vergleich zu W2 effizient, wenn Var (W1) ≤ Var (W2) für alle Werte von θ mit einer
strikten Ungleichheit für mindestens ein θ.
1–121
•
Im Beispiel ist Y effizient relativ zu Y1, da Var (Y) < Var (Y1)
sobald n >1.
•
Ein Vergleich der Varianz ist meist nur für unverzerrte Schätzer
relevant (jede Konstante hat eine Varianz von 0, kann aber völlig falsch sein).
1–123
1–122
Schlüsselbegriffe Kapitel 1 & Appendix:
Beobachtungsdaten
Diskrete Zufallsvariable
Ökonometrie
Empirische Analyse
Ökonomisches Modell
Ökonometrisches Modell
Querschnittsdaten
Zeitreihendaten
Gepoolter Querschnitt
Paneldaten
Kausaler Effekt
Ceteris paribus Interpretation
Mittelwert
Lineare Funktion
Achsenabschnitt
Effizient
Steigungsparameter
Marginaler Effekt
Prozentpunkt, Prozent
Experimentaldaten
Stetige Zufallsvariable
Bernoulli (binäre) Zufallsvariable
Eintrittswahrscheinlichkeit
Wahrscheinlichkeitsdichtefunktion
Kumulative Verteilungsfunktion
Gemeinsame Verteilungsfunktion
Unabhängige Zufallsvariablen
Marginale Wahrscheinlichkeitsdichtefunktion
Bedingte Wahrscheinlichkeitsdichtefunktion
Gemeinsame Dichte
Erwartungswert
Varianz
Standardabweichung
Standardisieren
Kovarianz
Skalieren der Variable
Korrelationskoeffizient
Paarweise unkorreliert
1–124
Natürlicher Logarithmus
Elastizität
Modell konstanter Elastizitäten
Semielastizität
Exponentialfunktion
Partielle Ableitung
Experiment
Zufallsvariable
Statistische Inferenz
Bevölkerung
Parameter
iid – verteilt
Normalverteilung
Asymptotische Eigenschaft
Schätzwert (estimate)
Verzerrung (Bias)
Bedingter Erwartungswert
Law of iterated expectations
Normalverteilte Zufallsvariable
Lognormalverteilte Zufallsvariable
Standardnormalverteilung
Chi-Quadrat-Verteilung
t-Verteilung
F-Verteilung
Stichprobe
Grundgesamtheit
Zufallsvariable
Bernoulliverteilung
Finite sample
Schätzverfahren (estimator)
Unverzerrt
Stichprobenvarianz
Literatur Kapitel 1:
•
Wooldridge, Kapitel 1, Appendix A, B, C
•
Von Auer, Kapitel 1, Kapitel 2
•
Hill/Griffiths/Judge, Kapitel 1, Kapitel 2
•
Gujarati,1999, Essentials of Econometrics, McGraw Hill, Singapur, Kapitel 1 – Kapitel 3
•
Stock/Watson, 2007, Introduction to Econometrics, 2. Auflage,
Pearson Education Inc., Kapitel 1 – Kapitel 3
1–125
1–126
Leitfragen und Lernziele Kapitel 2:
Kapitel 2: Das einfache Regressionsmodell
•
2.1 Definitionen
Wie lässt sich der Zusammenhang zwischen zwei Zufallsvariablen empirisch schätzen?
2.2 Herleitung der Kleinstquadrate-Schätzung
•
Wie funktioniert das Kleinstquadrate(KQ)-Verfahren?
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
•
Was sind die Eigenschaften des KQ-Verfahrens?
2.4 Erwartungswerte und Varianzen
•
Welche Annahmen müssen getroffen werden?
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–1
•
2.1 Definitionen
•
2–2
(2.1)
Grundgesamtheit unterstellen.
Dünger und Erntemenge, Ausbildung und Lohn, Polizeibeamte
•
y = β 0 + β1 x + u
Dies ist der Regressionszusammenhang, den wir für die
Ziel: Beziehung zwischen zwei Variablen beschreiben, z.B.
•
und Kriminalität.
Einfachste Darstellung:
Begriffe für y: Abhängige Variable, erklärte Variable, endogene
Variable, Regressand
Dabei zu klären:
(a) Können auch andere Faktoren Ernte, Lohn bzw. Kriminali-
•
Begriffe für x: Unabhängige Variable, erklärende Variable, exogene Variable, Kovariate, Regressor
tät beeinflussen?
(b) In welchem funktionalen Verhältnis stehen die Variablen
•
u: Der Fehler- oder Störterm umfasst alle Faktoren, die y beeinflussen, außer dem beobachteten x (unbeobachtete Faktoren).
zueinander?
(c) Wie kann man sicher sein, eine ceteris paribus Beziehung
zu beschreiben?
2–3
2–4
•
Unterstellt: Linearer Zusammenhang zwischen y und x. Ge-
die gleiche Wirkung auf y hat, egal wie hoch x ist; manchmal
von x um ∆x um β1 · ∆x:
unrealistisch (z.B. bei fallenden Grenzerträgen).
∆u = 0
(2.2)
•
Beispiel: Ernte = β0 + β1 · Dünger + u
(2.3)
β1 beschreibt, wie sich eine Änderung in der Düngermenge auf
β1 misst den Effekt von x auf y, aber es muss nicht der kausale
sein. Noch haben wir alle anderen Faktoren ignoriert. Um den
β1 = Steigungsparameter, β0 = Achsenabschnittsparameter,
ceteris paribus Effekt zu beschreiben, sind Annahmen erforder-
Konstante.
•
Lineare Form impliziert, dass Änderung von x um eine Einheit
geben die Störgröße (d.h. ∆u = 0), ändert sich y bei Änderung
∆y = β1 · ∆x bei
•
•
lich.
•
E(u) = 0
Annahme 1:
(2.5)
Unterstellt, dass alle ausgelassenen Faktoren, die z.B. die Ern-
die Ernte auswirkt.
te beeinflussen, einen Mittelwert von Null in der Grundgesamtheit haben. Dies ist unproblematisch, solange eine Konstante
(β0) mitgeschätzt wird.
2–5
•
Eine weitere Annahme beschreibt den Zusammenhang zwi-
2–6
•
Beispiel:
wage = β0 + β1 · educ + u
(2.4)
schen x und u. Wenn die beiden Zufallsvariablen unkorreliert
β1 beschreibt, um wie viel € sich der Stundenlohn ändert, wenn
sind, bedeutet dies nur, dass es zwischen ihnen keinen linea-
sich die Anzahl der Ausbildungsjahre (educ) um eins erhöht.
ren Zusammenhang gibt.
Wir unterstellen, dass alle anderen relevanten Faktoren kon-
• Für die Regressionsanalyse und um eine ceteris paribus Inter-
stant gehalten werden. Dazu gehört z.B. die Fähigkeit einer
pretation zu legitimieren, benötigen wir die stärkere Annahme,
Person. Annahme 2 besagt, dass der Erwartungswert der Fä-
dass der auf x bedingte Erwartungswert von u gleich Null ist.
higkeit für Personen mit verschiedenen Werten für educ gleich
Das heißt, dass der Durchschnitt von u nicht von x abhängt und
sein muss. Man würde das nicht unbedingt so erwarten.
für alle Werte von x gleich ist (mittlere bedingte Unabhängig-
Ebenso darf sich im Düngerbeispiel z.B. die unbeobachtete
Landqualität nicht nach Düngermenge unterscheiden.
keit).
Annahme 2:
•
E(u x) = E(u) = 0
(2.6)
2–7
2–8
•
Frage: Wenn die Klausurpunkte (score) von der Anwesenheit
in der Vorlesung (attend) und unbeobachteten Faktoren beeinflusst wird: score = β0 + β1 attend + u
(2.7)
Wann gilt Annahme 2?
• Trifft Annahme 2 nicht zu, so kann β1 nicht kausal interpretiert
werden.
• Unter Annahme 2 lautet der auf x bedingte Erwartungswert von
y:
E(y x) = E(β0 + β1x + u x)
= E(β0 x) + E(β1x x) + E(u x)
• Bedeutung von Annahme 2: E ( u x ) = 0 :
= β0 + β1x + 0
a) An jedem einzelnen Wert von x ist E(u) = 0
(2.8)
• Die Bevölkerungs-Regressionsfunktion, E(y x) , ist linear in
b) Für alle x ist E(u) identisch
x. Eine Änderung von x um 1 verschiebt den Erwartungswert
c) Bei E ( u x ) = 0 sind u und x unkorreliert, d.h. cov(x,u) = 0
von y um β1.
d) u repräsentiert alle Faktoren w, die neben x das y beeinflussen. Es kann nur dann E ( u x ) = 0 , wenn cov(x,w) = 0.
• Für jede Ausprägung von x ergibt sich so eine Verteilung von y,
die um E(y x) konzentriert ist:
2–9
2–10
• Die beobachteten Werte von y lassen sich in zwei Teile zerlegen:
y = β 0 + β1 x + u
= E(y x ) + u
• Der erste Teil ist systematisch durch x erklärbar. Unter Annahme 2 ist der zweite Teil, u, nicht durch x erklärbar.
2–11
2–12
2.2 Herleitung der Kleinstquadrate-Schätzung
Kapitel 2: Das einfache Regressionsmodell
•
2.1 Definitionen
Wir unterstellen eine Stichprobe der Größe n aus der Grundgesamtheit: {(xi,yi): i = 1,…,n}.
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
•
Für jede Beobachtung i gilt:
yi = β0 + β1 xi + ui
2.4 Erwartungswerte und Varianzen
(2.9)
Dabei ist ui der Störterm für Beobachtung i, der alle für yi rele-
2.5 Regression durch den Ursprung
vanten Faktoren - außer xi - abbildet.
•
2.6 Regression mit logarithmierten Werten
Beispiel: n = 15 Beobachtungen zu Ersparnissen (y) und Jahreseinkommen (x).
2–13
2–14
•
Aus Annahme 2 folgt, dass x und u in der Grundgesamtheit
unkorreliert sind. Die Kovarianz von unkorrelierten Größen ist
Null (vgl. B.29).
•
•
Es gilt also:
E(u) = 0
(Ann.1)
und
Cov(x,u) = E(xu) = 0
(wg. Ann.2) (2.11)
da
Cov(x,u) = E(xu) – E(x) E(u)
Dies lässt sich auch wie folgt schreiben:
und
2–15
(2.10)
E(u) = E(y – β0 – β1 x) = 0
(2.12)
E(xu) = E[x (y – β0 – β1 x)] = 0
(2.13)
2–16
0
=
xi
β1
1
=
i
(2.15)
n
•
wobei y =
1 n
∑ xi (yi - βˆ 0 - βˆ 1 xi ) = 0
n i=1
∑ˆ
1
=
i
1
=
i
lösen:
(2.14)
∑ˆ
y = βˆ 0 +βˆ 1 x ,
gen der Grundgesamtheit (2.12) und (2.13) für die Stichprobe
1 n
∑ (yi - βˆ 0 - βˆ 1 xi ) = 0
n i=1
n
∑
Appendix A1 lassen sich Schätzwerte für β0 und β1 ableiten.
Dabei sucht man diejenigen β̂0 und β̂1 Werte, die die Gleichun-
1 n
β0
(2.14) lässt sich umformen:
1 n
yi
•
n
Mit diesen Bedingungen und den Rechenregeln aus Kapitel 1 –
1 n
•
1 n
∑ yi
n i=1
und
(2.16)
x=
1 n
∑ xi
n i=1
βˆ 0 = y - βˆ 1 x
Daraus folgt:
(2.17)
Nach Anwendung des Berechnungsverfahrens verwendet man
die ^-Schreibweise.
2–17
•
2–18
n
(2.15) lässt sich umformen:
β̂1 =
n
∑ xi (yi - (y - βˆ 1 x) - βˆ 1xi ) = 0
i=1
∑ xi (yi - y + βˆ 1(x - xi )) = 0
i=1
∑ (xi - x)
.
(2.19)
2
n
n
zur Stichprobenvarianz von x. Wenn x und y positiv korreliert
i=1
i=1
sind, dann ist auch β̂1 positiv und umgekehrt.
n
∑ xi (xi - x) = ∑ (xi2 - xi x) = ∑ (xi - x)2
•
i=1
n
n
i=1
i=1
n
∑ (x i -x)2 > 0 :
Annahme (2.18) gilt nicht, wenn alle Beobachtungen für xi den
gleichen Wert annehmen, z.B. wenn Stundenlöhne nur für Per-
∑ xi (yi - y) = ∑ (xi - x)(yi - y)
gilt für β̂1, solange
n
• Dies ist das Verhältnis der Stichprobenkovarianz von x und y
∑ xi (yi - y) = ∑ xiβˆ 1(xi - x)
und
i=1
i=1
n
Da
∑ (xi - x)(yi - y)
sonen mit gleichen Werten für „educ“ beobachtet werden.
(2.18)
i=1
2–19
•
Mit (2.17) und (2.19) werden die Kleinstquadrateschätzwerte
für β0 und β1 berechnet.
2–20
•
Der vorhergesagte Wert von y an der Stelle x = xi ist:
ŷi = βˆ 0 + βˆ 1xi
Das geschätzte Residuum für Beobachtung i ist:
xi
β1
β0
yi
=
yi
yi
=
ui
•
(2.20)
ˆ
ˆ
ˆ
ˆ
(2.21)
2–21
•
Man kann β̂0 und β̂1 so wählen, dass die Summe der quadrier-
2–22
•
KQ-Regressionsgleichung (Stichproben-Regressionsfunktion):
ten Residuen minimiert wird:
n
n
i=1
i=1
∑ ûi2 = ∑ (yi − βˆ 0 − βˆ 1xi )2 = S
ŷ = βˆ 0 + βˆ 1 x ,
(2.22)
Leitet man diesen Ausdruck nach β̂0 und β̂1 ab, so ergeben sich
die Gleichungen (2.14) und (2.15) als Bedingungen erster Ord-
wobei ŷ den vorhergesagten Wert angibt; β̂0 ist der vorhergesagte Wert von y, wenn x = 0, was oft nicht sinnvoll ist.
•
(2.22a)
n
∂S
= −2∑ xi (yi − βˆ 0 − βˆ 1 xi ) = 0
∂βˆ 1
i=1
(2.22b)
Die Stichproben-Regressionsfunktion (2.23) ist die geschätzte Version der Bevölkerungs-Regressionsfunktion
(2.8) E(y x) = β0 + β1x , die unbekannt bleibt. Jede Stichprobe
nung, die durch (2.17) und (2.19) gelöst werden:
n
∂S
= −2∑ (yi − βˆ 0 − βˆ 1 xi ) = 0
∂βˆ 0
i=1
(2.23)
generiert
mit
β̂0
und
β̂1
eine
andere
Stichproben-
Regressionsfunktion.
•
Mit β̂1 lässt sich für jede Änderung von x (∆x) die erwartete geschätzte Änderung von y (∆y) bestimmen.
2–23
2–24
• Beispiel 1: Gehalt des Vorstandsvorsitzenden (salary) als
•
Funktion der Rendite (ROE). Salary gemessen in 1000 $ (z.B.
Beispiel 2: Stundenlohn (wage) als Funktion der Ausbildungs-
jahre (educ). Daten für 526 Personen ergeben:
856,3), ROE gemessen in Prozent (z.B. 10)
wage = –0,90 + 0,54 educ
salary = β0 + β1 ROE + u
0 Jahre Ausbildung: Stundenlohn negativ: Nicht sinnvoll, aber
kommt in Daten auch nicht vor (out of sample prediction).
Auf Basis von Daten für 209 Vorstandsvorsitzende ergibt sich:
salary = 963,1 + 18,5 ROE
8 Jahre Ausbildung: wage = –0,90 + 0,54 · 8 = 3,42 $
(2.26)
Jedes Ausbildungsjahr erhöht den Lohn im Mittel um 54 Cent,
Gehalt bei Rendite von 0: 963.100 $
Gehalt bei Rendite von 1 Prozent: um 18,5 (Tausend $) höher.
Gehalt bei Rendite von 30 Prozent: 963,1 + 18,5 · 30 = 1518,2
egal wie hoch die Bildung schon war.
•
Frage: Was ist die Konsequenz eines Anstiegs von educ = 8
auf educ = 10?
Tausend $, d.h. 1.518.200 Dollar.
2–25
•
(2.27)
Sprachregelung: Man regressiert y auf x, also die abhängige
2–26
Kapitel 2: Das einfache Regressionsmodell
auf die unabhängige Variable.
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–27
2–28
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätz-
•
Die Stichprobenkovarianz zwischen xi und û i ist Null:
n
∑ xiuˆ i = 0
güte
•
Jeder vorhergesagte Wert von y, ŷ , liegt auf der Regressionsgerade, die tatsächlichen Datenpunkte im Normalfall nicht.
Wenn û positiv ist, wird y unterschätzt, wenn û negativ ist, wird
Dies folgt aus Annahme 2 und der Bedingung (2.15).
•
•
Summe und Durchschnittswert der KQ-Residuen ist Null:
yi lässt sich als Summe von Vorhersage und Residuum abbilden:
n
∑ ûi = 0
Der Punkt ( x, y ) liegt auf der Regressionsgeraden, d.h. setzt
man x in die Regressionsgleichung ein, so ergibt sich y .
y überschätzt (vgl. Abb. 2.4).
•
(2.31)
i=1
(2.30)
y i = ŷ i + ûi
(2.32)
Da die ûi im Mittel Null sind, folgt ŷ = y .
i=1
Dies folgt sowohl aus Annahme 1 (2.5) als auch aus der Bedinn
gung erster Ordnung für die Minimierung von
∑ ûi2 (2.22a).
i=1
2–29
• Man definiert die gesamte (totale, SST), erklärte (SSE) und re-
2–30
•
R2 als Maß der Schätzgüte verwenden:
R T
S S
S S
1
=
E T
S S
S S
=
2
R
(2.33)
, 0 ≤ R2 ≤ 1
i=1
n
∑ (yˆ i - y)2
∑ uˆ i2
(2.38)
Es gibt den Anteil der durch x erklärten Stichprobenvariation
(2.34)
i=1
n
≡
SSR
n
∑ (yi - y)2
≡
SSE
≡
siduale (SSR) Quadratsumme:
SST
Solange die Konstante β0 mit geschätzt wurde, kann man das
von y an und wird meist als Prozentgröße beschrieben. Wenn
(2.35)
R2 = 1, liegen alle Punkte auf der Regressionsgeraden. In die-
i=1
sem Fall ist SSR = 0, es gibt keine Residuen.
• SST beschreibt die gesamte Variation in y. Sie lässt sich auftei•
len:
R
S
S
+
E
S
S
=
T
S
S
(2.36)
2–31
Der Wert des R2 entspricht dem Quadrat des Stichprobenkorre2
lationskoeffizienten zwischen yi und ŷ i , R2 = ⎡⎣corr ( yi ,yˆ i ) ⎤⎦ .
2–32
•
Beispiel: salary = 963,1 +18,5 ROE, n=209 R2=0,0132 (2.39)
Hier wird nur ein Anteil von 1,32 Prozent der gesamten Streuung von salary durch ROE erklärt. Dennoch kann die Schät-
Kapitel 2: Das einfache Regressionsmodell
2.1 Definitionen
2.2 Herleitung der Kleinstquadrate-Schätzung
zung nützlich sein.
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–33
2–34
•
2.4 Erwartungswerte und Varianzen
bachteten Größen, die yi beeinflussen.
2.4.1 Unverzerrtheit des KQ-Schätzers
•
Annahme SLR.1: Im Modell für die Grundgesamtheit sind y, x
und der Störterm u verbunden als: y = β0 + β1 x + u,
•
•
Annahme SLR.3: Die Realisationen von xi in der Stichprobe,
{xi, i= 1,…,n} sind nicht alle identisch.
•
y, x und u sind Zufallsvariablen.
•
Annahme SLR.2: Unsere Zufallsstichprobe der Größe n {(xi,yi):
•
Für die Beobachtung i der Zufallsstichprobe lässt sich (2.47)
•
Annahme SLR.4: Der Erwartungswert des Fehlers u ist für jeden Wert der erklärenden Variablen x gleich Null: E(u x) = 0
•
Für jedes Element i der Zufallsstichprobe gilt: E(ui xi ) = 0 .
wie folgt schreiben:
i=1,2,…,n
(2.48)
2–35
Frage: Bei welchen Werten für die Varianz oder Standardab-
weichung von xi in der Stichprobe trifft die Annahme nicht zu?
i= 1,2,…,n} folgt Modell (2.47).
yi = β0 + β1 xi + ui,
Da β0 und β1 ohne Variation in x nicht definiert sind (vgl. 2.18),
unterstellen wir:
(2.47)
mit β0 und β1 als Achsenabschnitts- und Steigungsparameter.
•
ui ist der Störterm für Beobachtung i und enthält alle unbeo-
2–36
•
Wir betrachten die KQ-Eigenschaften bedingt auf die konkreten
n
In (2.19) hatten wir gezeigt, dass β̂1 =
da
∑ (xi - x)(yi - y) = ∑ (xi - x)yi
n
∑ (xi - x)
•
,
Der Zähler lässt sich wie folgt umformen:
n
n
n
i=1
i=1
i=1
∑ (xi - x)β0 + ∑ (xi - x)β1xi + ∑ (xi - x)ui
2
(vgl. A8), lässt sich ˆ
n
n
∑ (xi - x)yi
i=1
n
∑ (xi - x)2
i=1
n
=
∑ (xi - x)yi
i=1
SSTx
n
n
i=1
i=1
n
n
=
(2.51)
= β0 ∑ (xi - x) + β1∑ (xi - x)xi + ∑ (xi - x)ui
auch
i=1
schreiben als
β̂1 =
i=1
i=1
n
i=1
∑ (xi - x)(yi - y)
1
β
n
β̂1 ist eine Zufallsvariable, die je nach Stichprobe anders ausfallen kann.
xi in unserer Stichprobe.
•
•
= β1 ⋅ SSTx + ∑ (xi - x)ui ,
∑ (xi - x)(β0 + β1xi + ui )
i=1
i=1
SSTx
da der erste Term gleich Null ist. SSTx ist die Variation in x.
i=1
Einsetzen in 2.50:
(2.49,50)
2–37
1
=
i
∑
ui
di
n
Tx
1 S
S
+
β1
=
ui
︶
,
•
Beweis: Hier bedingt auf die tatsächlich beobachteten Werte x
(2.52)
x
xi
=
di
wobei
1
=
i
ˆ
x Tx
- S
xi S
n
+
β1
=
β1
•
︵
∑
2–38
. Der Schätzer ergibt den Bevölkerungsparame-
(alternativ: Unter Annahme nicht-stochastischer x):
(a)
ter plus eine lineare Kombination der Störterme {u1,u2,…,un}.
= β1 +
Wären alle Störterme gleich Null, ergäbe sich β1.
•
Theorem 2.1 (Unverzerrtheit von KQ):
0
1
1
SSTx
⎤
1
∑ dui i ⎥ = β1 + SST
i=1
x
⎦
n
n
∑ E(dui i )
i=1
n
∑ dE(u
i
i ) = β1,
i=1
da E(u x) = 0 unter SLR.2 und SLR.4.
Unter den Annahmen SLR.1 bis SLR.4 gilt:
E(βˆ ) = β
E(βˆ ) = β
und
0
⎡ 1
E(βˆ 1 ) = β1 + E ⎢
⎣ SSTx
1
(2.53)
für alle Werte von β0 und β1. Die KQ-Schätzer sind unverzerrt.
(b)
βˆ 0 = y - βˆ 1 x = ( β0 + β1 x + u ) - βˆ 1 x = β0 + (β1 - βˆ 1 )x + u
E(βˆ 0 ) = β0 + E[(β1 - βˆ 1 )x] + E(u) = β0 + E[(β1 - βˆ 1 )]x = β0 ,
da E(u) = u = 0 und E(βˆ 1 ) = β1.
2–39
2–40
•
Unverzerrtheit ist eine Eigenschaft des Schätzverfahrens, nicht
• Beispiel:
einzelner Schätzwerte. Ob eine konkrete Stichprobe zu zutref-
Mathenoten
auf
Schulmahlzeiten-
Förderung:
math = β0 + β1 lnchprg + u
fenden Schätzergebnissen führt, weiß man nicht.
•
Regressiere
(2.54)
Alle 4 Annahmen müssen zutreffen, d.h. Linearität, Zufalls-
n = 408 Schulen, lnchprg = Anteil der Schüler mit Subvention
stichprobe, Varianz in x, mittlere bedingte Unabhängigkeit von
(0 - 100), math = Anteil der Schüler, die Matheprüfung beste-
u und x, sonst sind die Schätzer verzerrt. Annahme 4 trifft gele-
hen (0 - 100).
gentlich nicht zu.
math = 32,14 – 0,319 lnchprg
R2 = 0,171
Je mehr gefördert wird, umso schlechter die Matheerfolge. Anteil lnchprg plus 10 Prozentpunkte, Anteil Matheerfolg minus 3,2
Prozentpunkte. Kausaler Effekt nicht glaubhaft.
2–41
•
Wenn u mit x korreliert, ist β1 verzerrt geschätzt. u könnte aus-
2.4.2 Varianz der KQ-Schätzer
gelassene Variablen wie Armutsrate oder Schulqualität enthal-
•
ten, die mit lnchprg korreliert sind. Dann ist β̂1 verzerrt.
•
2–42
Wie stark streuen die Parameterschätzer um den Erwartungswert? Wie präzise sind die Schätzer?
Lösungen werden in der Veranstaltung Empirische Wirtschafts-
•
forschung II besprochen.
Annahme SLR.5: Der Störterm u hat für jeden Wert der erkläVar(u x) = σ 2
renden
Variable
die
gleiche
Varianz:
(Homoskedastie).
•
Annahme SLR.5 ist für Beweis der Unverzerrtheit nicht erforderlich.
•
Die Annahmen SLR.4 und SLR.5 können auch in Bezug auf y
dargestellt werden (siehe Abb. 2.8):
E(y x) = β0 + β1x (linearer Erwartungswert)
2–43
(2.55)
2–44
Var(y x) = σ 2
(konstante Varianz)
(2.56)
•
Wenn
Var(u x )
von
x
abhängt,
spricht
man
von
Heteroskedastie, die sich wegen Var(u x ) = Var(y x ) auch
auf y überträgt.
2–45
2–46
•
Theorem 2.2 (Stichprobenvarianz der KQ-Schätzer):
Unter den Annahmen SLR.1 – SLR.5 gilt (bedingt auf die Stichprobenwerte x):
Var(βˆ 1 ) =
σ2
n
∑ (xi - x)
2
σ2
=
SSTx
(2.57)
i=1
Var(βˆ 0 ) =
σ2
n
1 n 2
∑x
n i=1 i
∑ (xi - x)
(2.58)
2
i=1
2–47
2–48
•
Determinanten von Var(β̂1 ) :
2.4.3 Die Varianz des Fehlerterms
- Je größer σ2, umso größer ist Var(β̂1 )
•
mit Hilfe der Daten geschätzt werden kann.
- Je größer die Streuung von x, umso kleiner ist Var(β̂1 )
- Je größer die Stichprobe, umso größer ist SSTx, umso klei-
•
Für Konfidenzintervalle und Teststatistiken benötigen wir die
Standardabweichungen von β̂ 0 und β̂1: sd(β̂ 0 ) und sd(β̂1), als
messen kann, da die wahren β0, β1 unbekannt sind.
•
Nach der Schätzung ergibt y i = β̂0 + β̂1x i + ûi die auf Basis der
Stichprobe bestimmten Residuen ûi .
Wurzel der Varianzen.
•
Unterscheidung: Im Bevölkerungsmodell yi = β0 + β1 xi + ui stellen die ui Fehler für die Beobachtung i dar, die man aber nie
ner Var(β̂1 )
•
Zur Berechnung der Parametervarianzen benötigen wir σ2, das
Je kleiner Var(β̂1), umso präziser ist der Zusammenhang zwischen y und x beschreibbar.
2–49
•
Die Residuen lassen sich als Funktion der wahren unbeobach-
2–50
•
Schätzung von 2 Parametern (β̂0 , β̂1 ) sind, die auf Basis der
teten Fehler darstellen:
vorliegenden Information bestimmt wurden. Dadurch verringert
ûi = yi - βˆ 0 - βˆ 1xi = (β0 + β1xi + ui ) - βˆ 0 - βˆ 1xi
= ui - (βˆ 0 - β0 ) - (βˆ 1 - β1 )x i
sich die Zahl der Freiheitsgrade um 2, was bei einem unver-
(2.59)
zerrten Schätzer berücksichtigt werden muss (vgl. C.5):
Bei unverzerrten Parameterschätzern ist E(ûi ) = ui .
•
2
σˆ 2 =
n
1
Da σ = E(u ), wäre ∑ ui2 ein geeignetes Schätzverfahren für
n i=1
2
Die Verzerrung ergibt sich, da die û i selbst das Ergebnis der
σ 2 , allerdings sind die ui2 nicht beobachtbar. Wenn wir statt2
dessen ûi nutzen, ist der Schätzer bestimmbar, aber noch ver1 n 2 SSR
zerrt:
∑ ûi = n
n i=1
2–51
•
1
(n - 2)
n
SSR
∑ uˆ i2 = (n - 2)
Theorem 2.3 (Unverzerrte Schätzung von σ2):
Unter den Annahmen SLR.1 – SLR.5 gilt:
•
(2.61)
i=1
E(σ̂ 2 ) = σ 2
σ̂ 2 kann in (2.57) und (2.58) genutzt werden, um unverzerrte
Schätzer von Var(β̂0 ) und Var(β̂1 ) zu bestimmen.
2–52
•
Ein Schätzer der Standardabweichung von ui ist σ̂ = σ̂ 2 ,
Kapitel 2: Das einfache Regressionsmodell
genannt Standardfehler der Regression (SER). Es ist ein
•
Schätzer für die auf x bedingte Streuung von u und y.
2.1 Definitionen
Die Standardabweichung (standard deviation) der Parameσ
ter: sd(βˆ 1) =
lässt sich auf Basis der Streuung in der
SSTx
2.2 Herleitung der Kleinstquadrate-Schätzung
Stichprobe als Standardfehler von β̂1 schätzen:
2.4 Erwartungswerte und Varianzen
se(βˆ 1) =
σˆ
=
SSTx
σˆ
2.5 Regression durch den Ursprung
n
∑ (xi − x)2
2.6 Regression mit logarithmierten Werten
i=1
•
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
Da σ̂ von Stichprobe zu Stichprobe variiert, sind se(β̂1 ) und
se(β̂0 ) Zufallsvariablen.
2–53
•
2.5 Regression durch den Ursprung
•
2–54
Es gibt Fälle, in denen bei x = 0 auch der Wert von y null sein
Das Kleinstquadrateverfahren minimiert in diesem Fall (vgl.
2.22):
n
∑ (yi - βˆ 1xi )2 = 0
soll (z.B. Steuereinnahmen als Funktion des Einkommens).
y = β 1x .
Hier lautet das Modell:
Bedingung erster Ordnung:
(2.63)
•
(2.64)
i=1
n
∑ xi (yi - βˆ 1xi ) = 0 ,
Da kein Achsenabschnittsparameter geschätzt wird, spricht
man von einer Regression „durch den Ursprung“, die Regressionslinie verläuft durch den Punkt (x,y) = (0,0).
(2.65)
i=1
n
so dass
ˆ
β 1 =
∑ xi yi
i=1
n
∑
,
(2.66)
xi2
i=1
solange nicht alle xi den Wert 0 annehmen.
2–55
2–56
n
•
Vergleiche dies mit β̂1 =
∑ (xi - x)yi
i=1
n
∑ (xi - x)2
ˆ
. β1 und β̂1 sind nur dann
2.1 Definitionen
i=1
identisch, wenn x = 0 .
•
Kapitel 2: Das einfache Regressionsmodell
(2.49)
ˆ
ˆ
Schätzt man β1 obwohl β0 ≠ 0, so ist β1 verzerrt.
2.2 Herleitung der Kleinstquadrate-Schätzung
2.3 Eigenschaften des Kleinstquadrate-Schätzers und Schätzgüte
2.4 Erwartungswerte und Varianzen
2.5 Regression durch den Ursprung
2.6 Regression mit logarithmierten Werten
2–57
•
2.6 Regression mit logarithmierten Werten
•
sich y bei Änderung von x um eine Einheit ändert. Um zu be-
(Semi-Elastizität) (vgl. A.28). Nun ist die absolute Änderung
schreiben, um wie viel Prozent sich y ändert, schätzt man das
von y nicht mehr über alle Werte von educ konstant.
•
Hinweis: Die verwendeten Rechenregeln sind in Kapitel 1 –
Beispiel:
(2.44)
um circa 8,3 Prozent.
•
Mit dem Schätzverfahren lassen sich auch konstante Elastizitäten schätzen (vgl. A.26).
Appendix A4 erläutert.
•
Ergebnis: log(wage) = 0,584 + 0,083 educ
Mit jedem zusätzlichen Ausbildungsjahr (educ) steigt der Lohn
Hinweis: Auch wenn die Notation "log" verwendet wird, ist der
natürliche Logarithmus gemeint.
•
Jetzt gibt 100 · β1 an, um wie viel Prozent sich y (bzw. der
Lohn) ändert, wenn sich x (bzw. educ) um eine Einheit ändert
Im linearen Modell beschreibt β1, um welchen absoluten Betrag
Modell mit logarithmiertem y.
•
2–58
log(wage) = β0 + β1 educ +u
(2.42)
% ∆wage ≅ (100 · β1) ∆educ
(2.43)
2–59
2–60
•
Beispiel: log(salary) = β0 + β1 log(sales) + u
(2.45)
•
hours = β0 + β1 log(wage) + u
Hier ist β1 die Elastizität des Gehalts des CEO in Bezug auf den
β1/100 beschreibt die absolute Änderung in hours bei einer Än-
Umsatz. Schätzung wie zuvor:
derung von wage um ein Prozent.
log(salary)= 4,822 + 0,257 log(sales)
(2.46)
hours = 33 + 45,1 log(wage)
2
n=209, R = 0,211.
•
Beispiel:
∆hours ≈ (45,1 / 100) % ∆wage
Ein Anstieg der Umsätze um 1 Prozent erhöht das Gehalt um
Ein Anstieg der Löhne um ein Prozent erhöht die Stundenzahl
0,257 Prozent.
um 0,451, d.h. 0,451 · 60 = 27,06 Minuten.
Schließlich lässt sich abschätzen, wie hoch der absolute Effekt
einer relativen Änderung ist.
2–61
2–62
•
Modelle, die nicht-linear in Parametern sind, sind z.B.:
1
oder
y=
+u
y = β0 + xβ1 + u
β0 + β1x
Solche Modelle behandeln wir nicht.
•
Warum „lineares Regressionsmodell“? Die Regressionsgleichung y = β0 + β1 x + u ist linear in den Parametern β0 und β1.
Logarithmische Variablen sind ebenso zulässig wie Polynome
oder
x oder sin(x). Skalierungen beeinflussen nicht die
Schätzung, aber die Interpretation.
2–63
2–64
Schlüsselbegriffe Kapitel 2:
Ceteris paribus Beziehung
Einfache Regression
Abhängige, erklärte, endogene Variable
Regressand
Fehlerterm, Störterm
Unabhängige, erkl., exogene Variable
Regressor
Linearer Zusammenhang
Steigungsparameter
Achsenabschnittsparameter
Konstante
Mittlere bedingte Unabhängigkeit
Ausgelassene Faktoren
Grundgesamtheit
Bedingter Erwartungswert
Bevölkerungs-Regressionsfunktion
Systematisch erklärbarer Teil
Stichprobe
Stichprobenkovarianz
Gesamte Quadratsumme
Erklärte Quadratsumme
Residuale Quadratsumme
Variation
R2
Schätzgüte
Stichprobenvariation
Stichprobenkorrelationskoeffizient
Skalieren
Semi-Elastizität
Lineares Regressionsmodell
Nicht-linear in Parametern
Unverzerrtheit
Nicht-stochastisch
Schätzverfahren vs. –wert
Stichprobenvarianz
KQ-Schätzwert
Residuum
Stichproben-Regressionsfunktion
Regressionsgerade
Vorhersage
Teststatistik
Standardabweichung
Standardfehler der Regression
Standardfehler
Regression durch den Ursprung
Linear in Parametern
Homoskedastie
Heteroskedastie
Konfidenzintervall
2–65
Literatur Kapitel 2:
•
Wooldridge, Kapitel 2
•
Von Auer, Kapitel 3, Kapitel 4
•
Hill/Griffiths/Judge, Kapitel 3, Kapitel 4
•
Stock/Watson, Kapitel 4
2–67
2–66
Leitfragen und Lernziele Kapitel 3:
Kapitel 3: Multiple Regression: Schätzung
•
3.1 Motivation
Was spricht gegen die ceteris paribus Interpretation im einfachen Regressionsmodell?
3.2 Mechanik und Interpretation des KQ-Schätzers
•
3.3 Erwartungswert des KQ-Schätzers
Wie lässt sich das einfache Regressionsmodell auf viele erklärende Variablen hin erweitern?
3.4 Varianz des KQ-Schätzers
•
Welche Eigenschaften hat das KQ-Verfahren und warum ist es
so verbreitet?
3.5 Gauss-Markov Theorem
3–1
•
3.1 Motivation
•
3–2
(3.1)
Störterm herausgelöst und separat mit dem Koeffizienten β2 berücksichtigt. Jetzt kann β1 bei gegebenem Wert für die Arbeits-
Multiple Regressionsanalyse berücksichtigt viele Kontrollvariablen, so dass kausale bzw. ceteris paribus Schlussfolgerun-
markterfahrung geschätzt werden.
•
Beispiel 2: avgscore = β0 + β1 · expend + β2 · avginc + u (3.2)
Gesucht ist β1, die Auswirkung von Ausgaben der Schulen pro
gen plausibler werden.
•
wage = β0 + β1 · educ + β2 · exper + u
Nun wird der Effekt der Arbeitsmarkterfahrung (exper) aus dem
Nachteil der einfachen Regressionsanalyse: Annahme SLR.4,
E(u X ) = 0 , ist unrealistisch. Daher ist die ceteris paribus Interpretation problematisch.
•
Beispiel 1:
Mit mehreren erklärenden Variablen lässt sich eine abhängige
Variable besser erklären und voraussagen.
Schüler auf Testerfolge. Da beide Größen vom mittleren Familieneinkommen beeinflusst werden könnten, ist es sinnvoll, den
Effekt des Einkommens (avginc) herauszurechnen (β2).
3–3
3–4
• Allgemeines Modell mit zwei erklärenden Variablen:
y = β0 + β1 x1 + β2 x2 + u
•
Auf diese Weise lassen sich auch nicht-lineare Zusammenhänge abbilden, z.B. cons = β0 + β1 · inc + β2 · inc2 + u ,
(3.3)
(3.4)
Wieder misst β0 den Achsenabschnitt, β1 die Änderung in y
cons = Konsumausgaben und inc = Einkommen.
wenn sich x1 ändert (gegeben x2, d.h. Δx2 = 0 sowie gegeben u,
Hier können β1 und β2 nicht getrennt voneinander interpretiert
d.h. Δu = 0) und β2 die Änderung in y wenn sich x2 ändert (ge-
werden. Man bestimmt den Gesamteffekt von inc auf cons
Δcons
durch die erste Ableitung:
≈ β1 + 2β2 inc
Δinc
geben x1, d.h. Δx1 = 0 sowie gegeben u, d.h. Δu = 0).
Beide Parameter sowie das Einkommen spielen eine Rolle.
Obwohl cons in nicht-linearer Form von inc abhängt, ist (3.4)
ein (in den Parametern) lineares Regressionsmodell.
3–5
•
Zentrale Annahme im Modell mit zwei erklärenden Variablen:
E(u x1 ,x 2 ) = 0 ,
(3.5)
•
Allgemeines multiples Regressionsmodell:
y = β0 + β1 x1 + β2 x2 + β3 x3 + … + βk xk + u
(3.6)
d.h. für jedes mögliche Wertepaar (x1, x2) soll der erwartete
Das Modell berücksichtigt k erklärende Variablen und enthält
Wert von u einheitlich Null sein und alle unbeobachteten De-
k+1 unbekannte Parameter. Man unterscheidet Achsenab-
terminanten von y hängen nicht mit x1 und x2 zusammen. Diese
schnitts- (β0) und Steigungsparameter (β1 bis βk). u enthält alle
Annahme ist nicht immer realistisch. Im Beispiel 1 könnten un-
nicht berücksichtigten Determinanten von y.
beobachtete Fähigkeiten („ability“) sowohl mit dem Lohn als
auch mit educ zusammenhängen. Dann wäre der KQ-Schätzer
verzerrt.
•
3–6
•
Zentrale Annahme ist wieder:
E(u x1 ,x 2 ,...,xk ) = 0
(3.8)
d.h., dass der Störterm u mit allen erklärenden Variablen
Frage: Anzahl Kapitalverbrechen =
unkorelliert ist. Nur dann ist KQ ein unverzerrter Schätzer für
β0 + β1 · Verurteilungswahrscheinlichkeit + β2 · Haftdauer + u.
die unbekannten Parameter.
Was könnte in u enthalten sein? Hält Annahme (3.5)?
3–7
3–8
3.2 Mechanik und Interpretation des KQ-Schätzers
Kapitel 3: Multiple Regression: Schätzung
3.2.1 Ableitung der KQ-Schätzer
3.1 Motivation
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
•
Schreibweise für eine KQ-Schätzung mit 2 erklärenden Variabŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
len:
(3.9)
•
Ableitung des Kleinstquadrate-Schätzers durch Minimieren der
3.4 Varianz des KQ-Schätzers
quadrierten Residuen. Bei n Beobachtungen werden die Werte
für β̂ 0 , β̂1 und β̂2 gesucht, die
3.5 Gauss-Markov Theorem
n
∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 )2
(3.10)
i=1
minimieren. i ist der Index für die n Beobachtungen.
3–9
•
Im allgemeinen Fall sucht man die Parameter β̂ 0 , β̂1,…, β̂k für
ŷi = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk
3–10
•
E(u)=0 und E(xju)=0 für j=1,2,…,k ableiten, wenn die Bedin-
(3.11)
gungen in (3.13) durch n dividiert werden. In diesem Fall spricht
durch Minimieren von (s. Appendix A.1):
n
∑ (yi - βˆ 0 - βˆ 1 xi1 - βˆ 2 xi2 - ... - βˆ k xik )2 .
man von einem Momentenschätzer.
(3.12)
•
i=1
•
Es ergeben sich k+1 Bedingungen erster Ordnung:
∑ (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
und (3.8)) auch in der Stichprobe zutreffen. Man spricht von
i=1
n
Momentenbedingungen.
∑ xi1(yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
•
i=1
n
∑ xi2 (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
Wir erhalten hier die Schätzer für β0,…, βk dadurch, dass wir
die k+1 Gleichungen in (3.13) nach den k+1 Parametern an-
i=1
n
Momentenschätzer erhält man, wenn man unterstellt, dass Bedingungen, die in der Grundgesamtheit gelten (z.B. Ann. (3.5)
n
∑ xik (yi - βˆ 0 - βˆ 1 xi1 - ... - βˆ k xik ) = 0
Diese Bedingungen lassen sich auch über die Annahmen (3.8),
(3.13)
hand der Stichprobendaten auflösen.
i=1
3–11
3–12
•
Gleichung (3.11) wird als KQ-Regressionsgerade oder Stichproben-Regressionsfunktion bezeichnet. Es ist Standard, einen Achsenabschnittsparameter, β0, mit zu schätzen.
3.2.2 Interpretation der KQ-Regressionsgleichung
•
Zwei erklärende Variablen:
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
(3.14)
β̂ 0 ergibt den y-Wert, wenn x1 = x2 = 0 (selten sinnvoll).
Die Steigungsparameter beschreiben
Δyˆ = βˆ 1 Δx1 + βˆ 2 Δx 2
d.h. wie stark sich y bei Änderungen von x1 und x2 ändert. Bei
gegebenem x2, d.h. Δx2 = 0, folgt Δy = βˆ 1 Δx1, bei gegebenem
x1, d.h. Δx1 = 0, folgt Δy = βˆ 2 Δx 2 als Partialeffekt von x1 bzw.
x2.
3–13
•
k erklärende Variablen:
ŷ = βˆ 0 + βˆ 1 x1 + ... + βˆ k xk
(3.16)
bzw.
Δyˆ = βˆ 1 Δx1 + ... + βˆ k Δxk
(3.17)
3–14
•
Beispiel: log(wage) = 0.284 + 0.092 educ +
0.0041 exper + 0.022 tenure
β̂1 beschreibt die Änderung in y, wenn x1 ceteris paribus um ei-
educ = Ausbildungsjahre
ne Einheit steigt oder fällt, Δy = βˆ 1 Δx1 ,
exper = Jahre Arbeitsmarkterfahrung
(3.18)
(3.19)
tenure = Jahre Betriebszugehörigkeitsdauer
d.h. bei gegebenen Werten für x2, x3,…, xk.
Da die abhängige Variable logarithmiert ist, (Hinweis: Gemeint
ist der natürliche Logarithmus) haben die Koeffizienten eine
(approximative) Prozentinterpretation. Bei gegebener exper
und tenure erhöht ein weiteres Ausbildungsjahr log(wage) um
0,092 bzw. den Lohn um 9,2 Prozent. Dies ist der mittlere
3–15
3–16
•
Lohnunterschied zweier Personen mit gleichem exper und
3.2.3 Vorhersage
tenure und mit einem Bildungsunterschied von einem Jahr.
•
Auch der Effekt einer gleichzeitigen Änderung von zwei Variab-
Für jede Beobachtung i ergibt sich nach der Schätzung der
vorhergesagte y-Wert wie folgt:
len lässt sich bestimmen:
ŷi = βˆ 0 + βˆ 1 xi1 + βˆ 2 xi2 + ... + βˆ k xik
∆log(wage) = 0,0041 ∆exper + 0,022 ∆tenure
•
= 0,0041 + 0,022
Dies weicht vom beobachteten Wert yi im Ausmaß des Vorhersagefehlers ab. Der KQ-Schätzer minimiert den durchschnittli-
= 0,0261
chen Vorhersagefehler, das Residuum ûi :
hier ca. 2,6 Prozent Lohnzuwachs, wenn sich exper und tenure
uˆ i = yi - yˆ i
gleichzeitig um eins ändern.
(3.21)
Wenn ûi > 0, wird yi unterschätzt, wenn ûi < 0, überschätzt.
3–17
•
(3.20)
3–18
•
Eigenschaften von KQ-Vorhersagen:
(1) Der Stichprobendurchschnitt der Residuen ist Null und
daher y = ŷ (siehe 3.13)
Frage: Eine Schätzung der Collegenote (colGPA) ergibt
colGPA = 1,29 + 0,453 hsGPA + 0,0094 ACT,
wobei hsGPA = Note Highschool
(2) Die Stichprobenkovarianz zwischen jeder unabhängigen
Variable und den KQ-Residuen ist Null, daher auch die
zwischen den vorhergesagten Werten und den KQ-Residuen (siehe 3.13)
ACT = Testergebnis.
Wenn im Mittel hsGPA = 3,4 und ACT = 24,1, wie lautet die
mittlere Collegenote?
(3) Der Punkt ( x 1, x 2,…, x k, y ) liegt immer auf der Regressionsgerade y = βˆ 0 + βˆ 1 x 1 +βˆ 2 x 2 +... + βˆ k x k (wegen (1)).
3–19
3–20
•
3.2.4 KQ-Koeffizienten als partielle Effekte
•
(3.22), wobei hier dann r̂i1 das Residuum der Regression von x1
Eine häufig verwendete Darstellung der Steigungskoeffizienten
lautet z.B. für den Fall ŷ = βˆ 0 + βˆ 1x1 + βˆ 2 x 2
⎛ n
⎞ ⎛ n ⎞
βˆ 1 = ⎜ ∑ rˆi1yi ⎟ / ⎜ ∑ rˆi12 ⎟ ,
⎝ i=1
⎠ ⎝ i=1 ⎠
Auch im allgemeinen Fall mit k erklärenden Variablen gilt
auf alle anderen x2, x3, …, xk bezeichnet.
(3.22)
wobei r̂i1 das Residuum einer Regression von x1 auf x2 ist.
•
(3.22) besagt, dass sich der Steigungsparameter β̂1 im multiplen Modell als Ergebnis einer Regression von yi auf dieses r̂i1
bestimmen lässt. Dabei beschreibt r̂i1 den Teil der x1 – Variable,
der nicht durch x2 abgebildet wird. β̂1 beschreibt die partielle
Korrelation von x1 mit y, nachdem x2 herausgerechnet wurde.
3–21
•
3.2.5 Vergleich von einfacher und multipler Regression
•
Einfache Regression:
Multiple Regression :
•
•
Beispiel: Eine Schätzung der Beteiligung von Arbeitnehmern
im Pensionsplan eines Unternehmens ergibt
y = β 0 + β 1 x1
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2
prate = 80,12 + 5,52 mrate + 0,243 age
~
Grundsätzlich unterscheiden sich β1 und β̂ 1 , wobei gilt
β 1 = βˆ 1 + βˆ 2 δ 1 .
(3.23)
~
δ1 ist der Steigungsparameter der einfachen Regression von xi2
auf xi1:
3–22
xi2 = δ0 + δ1 xi1 + ui
~
β1 und β̂1 sind identisch, wenn entweder β̂2 = 0 , d.h. x2 hat kei~
nen Einfluss auf ŷ oder wenn δ1 = 0 , d.h. x1 und x2 sind in der
n = 1534
prate = Anteil der Beschäftigten, die teilnehmen (0–100)
mrate = Rate der Kofinanzierung durch Arbeitgeber (0–1)
age
= Alter des Pensionsplans (Mittel 13,2)
Die Koeffizienten sind wie erwartet positiv. Schätzt man ohne
age:
prate = 83,08 + 5,86 mrate ,
ändert sich β̂mrate nur wenig, da die Korrelation zwischen mrate
und age klein ist.
Stichprobe unkorreliert.
3–23
3–24
•
3.2.6 Schätzgüte
einfachen und der multiplen Regression gleich, wenn (a) ent-
• Wie zuvor lässt sich definieren:
weder die Koeffizienten der anderen erklärenden Variablen alle
total sum of squares
explained sum of squares
residual sum of squares
SSE
SSR
∑ (yi - y)2
(3.24)
i=1
n
∑ (yˆ i - y)2
(3.25)
i=1
n
≡
reliert ist. Wenn die Koeffizienten oder Korrelationen klein aus~
fallen, kann der Unterschied zwischen β1 und β̂1 klein sein.
n
≡
Null sind oder (b) wenn x1 mit keiner der anderen Variablen kor-
SST
≡
Bei k erklärenden Variablen ist der Steigungsparameter β1 der
∑ uˆ i2
(3.26)
• Und es gilt
R
S
S
+
E
S
S
=
T
S
S
i=1
,
(3.27)
d.h. die gesamte Variation in yi ist die Summe der Variation in
ŷ i und in ûi .
3–25
Wie zuvor ist
R T
S S
S S
1
=
E T
S S
S S
≡
2
R
•
(3.28)
3–26
•
R2 nie fallen, da der erklärte Anteil von SST nicht fallen kann.
der Anteil der durch die KQ-Regression erklärten Variation von
Daher ist das R2 kein gutes Kriterium, um über die Aufnahme
y. R2 entspricht dem quadrierten Korrelationskoeffizient zwischen yi und ŷ i .
zusätzlicher erklärender Variablen zu entscheiden. Stattdessen
prüft man, ob zusätzliche Variablen einen von Null verschiede-
2
⎛ n
⎞
ˆ ⎟
⎜ ∑ (yi - y)(yˆ i - y)
⎝ i=1
⎠
R2 =
.
n
⎛ n
⎞
⎛
⎞
2
ˆ 2⎟
⎜ ∑ (yi - y) ⎟ ⎜ ∑ (yˆ i - y)
⎝ i=1
⎠ ⎝ i=1
⎠
Werden zusätzliche erklärende Variablen berücksichtigt, kann
(3.29)
nen Effekt haben (dazu Kapitel 4).
•
Beispiel: CollegeNote = 1,29 + 0,453 SchulNote + 0,0094 Test
n=141, R2=0,176. Das Modell erklärt 17,6 Prozent der beobachteten Streuung von Collegenoten.
•
Selbst bei kleinen R2 Werten kann KQ präzise und informative
ceteris paribus Effekte bestimmen.
3–27
3–28
•
3.2.7 Schätzung ohne Regressionskonstante
•
Lässt man β0 irrtümlich aus, können alle Steigungsparameter
Wird das lineare Modell ohne Regressionskonstante geschätzt,
verzerrt sein. Berücksichtigt man β0, obwohl es eigentlich Null
so spricht man von einer Regression durch den Ursprung. Im-
ist, so steigt die Streuung der geschätzten Steigungsparameter.
plizit wird β0 gleich Null gesetzt.
•
Da für den Fall, dass x1 = 0, x2 = 0, …, xk = 0, nimmt ŷ dann den
Wert Null an.
•
Wenn keine Regressionskonstante geschätzt wird, ist nicht
mehr gewährleistet, dass der Mittelwert der Residuen Null ist.
•
R2 kann nun negativ werden, wenn es als Anteil 1−
SSR
defiSST
niert ist. Dies lässt sich durch Berechnung von R2 mittels (3.29)
vermeiden.
3–29
3–30
3.3 Erwartungswert des KQ-Schätzers
Kapitel 3: Multiple Regression: Schätzung
3.3.1 Annahmen und Theorem
3.1 Motivation
•
3.2 Mechanik und Interpretation des KQ-Schätzers
Wir betrachten Eigenschaften des KQ-Schätzverfahrens (nicht:
von konkreten Schätzergebnissen), wenn mittels Stichproben-
3.3 Erwartungswert des KQ-Schätzers
daten unbekannte Parameter der Grundgesamtheit geschätzt
3.4 Varianz des KQ-Schätzers
werden.
• Annahme MLR.1: Das Modell für die Grundgesamtheit lautet:
u
+
xk
βk
+
.
.
.
+
x2
β2
+
x1
β1
+
β0
=
y
3.5 Gauss-Markov Theorem
,
(3.31)
wobei β0, β1,…, βk konstante unbekannte Parameter und u ein
unbeobachtbarer Zufallsfehler oder Störterm ist.
3–31
3–32
• Das Modell ist linear in Parametern. y und die erklärenden Va-
• Bei perfekter Kollinearität ist KQ-Schätzung nicht möglich. Bei
riablen können beliebige Funktionen der zugrundeliegenden
hoher (aber nichtperfekter) Korrelation ist der KQ-Schätzer
2
Variablen sein (z.B. y = log(wage), x2 = educ ).
durchführbar, aber oft unpräzise.
• Annahme MLR.2: Die Zufallsstichprobe mit n Beobachtungen
• Perfekte Kollinearität ergibt sich beispielsweise, wenn die gleiche Variable in verschiedenen Einheiten verwendet wird.
{(xi1, xi2,…, xik, yi): i= 1,2,…,n} folgt dem Bevölkerungsmodell.
ui
+
k
xi
βk
+
.
.
.
+
2
xi
β2
+
1
xi
β1
+
β0
=
yi
• Für eine zufällige Beobachtung i gilt
(3.32)
• Annahme MLR.3: In Stichprobe und Grundgesamtheit ist keine
unabhängige Variable konstant und zwischen den erklärenden
Variablen gibt es keine exakten linearen Zusammenhänge (keine perfekte Kollinearität).
3–33
• Beispiel:
• Beispiel:
- Eisumsatz = β0 + β1 Grad C + β2 Grad F + …
- Lohn
3–34
Lohn=β0 + β1 Alter + β2 Geburtsjahr + β3 Beobachtungsjahr + u
= β0 + β1 Jahre Studium + β2 Semester Studium +…
- PKW Umsatz = β0 + β1 Werbungskosten in € + β2 Werbungskosten in $ + …
Da Beobachtungsjahr–Geburtsjahr = Alter, so nicht schätzbar.
• Ebenfalls nicht schätzbar, wenn n < k+1.
• MLR.3 kann auch zufällig, durch unglückliche Datenkonstellati-
• Quadratische Berücksichtigung von erklärenden Variablen (s.o.
x1 = income, x2 = income2) ist unproblematisch, da hier x2 keine
lineare Funktion von x1 ist.
• Perfekte Kollinearität ergibt sich auch, wenn mehrere Variablen
on nicht zutreffen.
• Annahme MLR.4: Der Fehlerterm u hat – bedingt auf alle erklärenden Variablen – einen Erwartungswert von 0.
E(u x1 ,x 2 ,...,xk ) = 0
(3.36)
linear abhängig sind, z.B. wenn x1 + x2 = x3. Lösung: eine der
drei Variablen auslassen.
3–35
3–36
• Annahme MLR.4 trifft nicht zu, wenn
• Theorem 3.1 (Unverzerrtheit des KQ-Schätzers):
E(β̂ j ) = β j ,
(a) funktionale Form falsch spezifiziert ist und der Störterm z.B.
Unter MLR.1 – MLR.4 gilt
noch x12 enthält,
für alle Werte des Bevölkerungsparameters βj, d.h. KQ-
(b) log und lineare Form nicht angemessen berücksichtigt sind,
Schätzer sind unverzerrt.
j= 0,1,…,k
(3.37)
(c) wichtige erklärende Variablen ausgelassen werden, die mit
• Wichtigste Annahme: MLR.4, aber nicht überprüfbar.
den berücksichtigten Variablen korreliert sind,
• Unverzerrtheit beschreibt das Verfahren, nicht konkrete Ergebnisse.
(d) Messfehler in einer erklärenden Variable vorliegen.
Trifft MLR.4 zu, so sprechen wir von exogenen erklärenden
Variablen. Ist xj mit u korreliert, so ist xj endogen.
3–37
3–38
• Wahres Modell:
3.3.2 Auswirkungen von Fehlspezifikationen
u
+
x2
β2
+
x1
β1
+
β0
=
y
• Berücksichtigung irrelevanter erklärender Variablen (mit Be-
erfüllt MLR.1-4
völkerungsparameter von 0):
geschätzt:
y = β0 + β1 x1 + β2 x 2 + β3 x3 + u ;
(3.40)
(3.41)
Geschätztes Modell: y = β 0 + β 1 x1
β 1 = βˆ 1 + βˆ 2 δ 1, wobei β̂1 und β̂2 geschätzte
Wir wissen
(3.38)
wenn β3 = 0,
Steigungsparameter der multiplen Regression von yi auf xi1 und
dann E(y x1 , x 2 , x 3 ) = E(y x1,x 2 ) =β0 + β1 x1 + β2 x 2 .
xi2, i = 1, 2, …, n sind.
• β0, β1 und β2 werden unverzerrt geschätzt, aber mit zu großen
•
δ 1 ist der Steigungsparameter der Regression von xi2 auf xi1.
Varianzen.
• Auslassen relevanter erklärender Variablen führt zu verzerrten KQ-Schätzern.
3–39
3–40
~
• Unter der Annahme, dass δ1 fix ist und KQ β̂1 und β̂2 unverzerrt
schätzt, folgt
E(β 1) = E(βˆ 1 + βˆ 2 δ 1 ) = E(βˆ 1 ) + E(βˆ 2 ) ⋅ δ 1 = β1 + β2 ⋅ δ 1
Bias(β ) = E(β ) - β = β ⋅ δ ,
so dass
1
1
1
2
1
(3.45)
(3.46)
was als „omitted variable bias“ bezeichnet wird.
~
• Nur wenn β2 = 0 oder δ1 = 0, d.h. wenn x2 nicht ins Modell gehört oder nicht mit x1 korreliert ist, führt Auslassen nicht zu Ver-
• Vorzeichen von β2 in der Regel unbekannt, aber ebenso ab~
schätzbar wie das von δ1.
zerrung.
•
Beispiel 1:
wage = β0 + β1 educ + β2 ability + u
Vermutung: β2>0 und corr(educ,ability)>0. β1 aus Schätzung:
• Die Richtung der Verzerrung ergibt sich aus Tabelle 3.2:
wage = β0 + β1 educ + ν
sollte im Mittel über viele Stichproben überschätzt sein.
• Beispiel 2:
3–41
3–42
avgscore = β0 + β1 expend + β2 povertyrate + u:
• Wenn x3 und x1 korreliert sind, ist β 1 verzerrt. Wenn x3 und x2
geschätzt wurde: avgscore = β0 + β1 expend + ν
nicht korreliert sind, ist β 2 dann verzerrt, wenn lediglich x2 mit x1
Vermutung: β2<0 und corr(expend,povrate)<0. Vermutlich β1
korreliert ist.
überschätzt (z.B. Effekt positiv, wenn eigentlich = 0).
• Bei k > 2 ist es schwierig, die Richtung der Verzerrung zu be-
• Multiples Regressionsmodell mit k>2: Korrelation zwischen er-
stimmen.
klärender Variable und Fehler führt im Normalfall zu Verzerrung
für alle KQ-Parameter:
• Beispiel:
Ann. wahres Modell: y = β0 + β1 x1 + β2 x2 + β3 x3 + u
Geschätztes Modell: y = β 0 + β 1 x1 + β 2 x 2
(3.49)
(3.50)
3–43
3–44
3.4 Varianz des KQ-Schätzers
Kapitel 3: Multiple Regression: Schätzung
• Ziel: Aussagen zur Streuung der geschätzten Parameter β̂ j .
3.1 Motivation
• Große
3.2 Mechanik und Interpretation des KQ-Schätzers
Varianz
impliziert
geringe
Präzision
und
breite
Konfidenzintervalle.
3.3 Erwartungswert des KQ-Schätzers
• Annahme MLR.5: Der Fehlerterm u hat für alle Werte der er-
3.4 Varianz des KQ-Schätzers
klärenden Variablen die gleiche Varianz (Homoskedastie),
Var(u x1 ,...,xk ) = σ2 .
3.5 Gauss-Markov Theorem
•
Variiert die Varianz von u mit einer der erklärenden Variablen,
spricht man von Heteroskedastie.
• Die Annahmen MLR.1–5 werden als Gauss-Markov Annahmen bezeichnet.
3–45
3–46
• Theorem 3.2 (Stichprobenvarianz des KQ-Steigungsparame-
• Einflussfaktor σ 2 : Je größer die unbekannte Streuung von u in
der Grundgesamtheit, umso größer Var(β̂ j ) . Bei gegebenem y
ters):
Unter MLR.1–5 und bedingt auf die Stichprobenwerte der erkläσ2
,
renden Variablen gilt Var(βˆ j ) =
SSTj (1- R2j )
n
für j = 1,2,…k, wobei
SSTj = ∑ (xij - x j )2 die Stichprobenvai=1
riation von xj ist und Rj2 der R2-Wert einer Regression von xj
auf alle anderen unabhängigen Variablen (einschließlich eines
lässt sich σ 2 nur reduzieren, indem weitere relevante erklärende Variablen ins Modell und damit aus dem Fehlerterm genommen werden.
• Einflussfaktor SSTj: Je größer die Streuung von xj, umso kleiner
Var(β̂ j ) . Die Variation von xj wächst mit steigendem Stichprobenumfang.
• Frage: Könnte SSTj = 0 sein?
Achsenabschnittsparameters).
3–47
3–48
• Einflussfaktor Rj2: Ein hoher Rj2-Wert zeigt an, dass ein großer
Teil der Variation in xj durch die anderen erklärenden Variablen
im Modell erklärt werden kann. Daher leistet xj dann nur einen
geringen zusätzlichen Beitrag zur Erklärung von y. βj hat die
kleinstmögliche Varianz und größtmögliche Präzision, wenn
Rj2 = 0, d.h. wenn xj nicht durch die anderen unabhängigen Variablen linear abgebildet werden kann. Rj2 = 1 ist nach Annahme
MLR.3 nicht zulässig (perfekte Multikollinearität), bei Rj2 „nahe
• Multikollinearität kann durch größere Stichproben oder gekürzte
Modellspezifikationen behoben werden.
• Frage: Welchen Einfluss hat eine hohe Korrelation zwischen
den Variablen x2 und x3 auf die Varianz der Schätzung von β1?
• Berücksichtigung irrelevanter Variablen erhöht die Varianz der
~
geschätzten Parameter. Vorausgesetzt β1 und β̂1 sind unver~
zerrt, sagen wir β1 ist effizienter als β̂1, wenn gilt
(
)
(
)
Var β 1 |x < Var βˆ 1 |x .
1“ spricht man von Multikollinearität, was zulässig ist.
• Bei Multikollinearität können die Parameter nicht präzise geschätzt werden, d.h. die Standardfehler sind groß.
3–49
• Schätzung von σ 2 : Für einen unverzerrten Schätzer von σ 2 auf
Basis der quadrierten Störterme ist eine Korrektur der Freiheitsgrade erforderlich, da nicht die Störterme der Bevölkerung,
3–50
• Standardabweichung (standard deviation) von β̂ j :
σ
sd(βˆ j ) =
1
⎡SSTj (1- R2j )⎤ 2
⎣
⎦
1
R k
S S n
=
1
2i u
k
1n
=
i
n
=
2
σ
sondern die geschätzten Residuen einer Stichprobe vorliegen:
ˆ
∑ˆ
(3.56)
• Theorem 3.3 (Unverzerrte Schätzung von σ2):
Unter den Gauss-Markov Annahmen MLR.1–5 gilt: E(σˆ 2 ) = σ 2 .
•
Standardfehler (standard error) von β̂ j :
σ̂
se(βˆ j ) =
1
⎡SSTj (1- R2j )⎤ 2
⎣
⎦
(3.58)
Der Standardfehler von β̂ j ist (ebenso wie β̂ j selbst) eine Zufallsvariable mit Verteilungseigenschaften.
σ̂ wird als Standardfehler der Regression bezeichnet (SER).
3–51
3–52
• (3.58) ist nicht gültig, wenn die Homoskedastieannahme MLR.5
verletzt
ist.
Unter
Heteroskedastie
sind
die
Kapitel 3: Multiple Regression: Schätzung
KQ-
Parameterschätzer unverzerrt, aber die nach (3.58) berechne-
3.1 Motivation
ten KQ-Standardfehler sind falsch.
3.2 Mechanik und Interpretation des KQ-Schätzers
3.3 Erwartungswert des KQ-Schätzers
3.4 Varianz des KQ-Schätzers
3.5 Gauss-Markov Theorem
3–53
3–54
• Unter den Annahmen MLR.1–5 ist KQ das beste, lineare, un-
3.5 Gauss-Markov Theorem
• Begründet Verwendung des KQ-Schätzers. Unter MLR.1–4 ist
KQ unverzerrt, aber es gibt viele Schätzverfahren mit dieser Ei-
verzerrte Schätzverfahren (best linear unbiased estimator =
BLUE), d.h. der lineare, unverzerrte Schätzer mit der kleinsten
Varianz.
genschaft.
• MLR.1–5 werden Gauss-Markov Annahmen (für Querschnitts-
• Theorem 3.4 (Gauss-Markov Theorem):
analysen) genannt.
β̂0 , β̂1,…, β̂k benennen die KQ-Schätzer im Modell
y = β0 + β1 x1 + β2 x2 +…+ βk xk +u.
Unter den Annahmen MLR.1–5 sind β̂0 , β̂1,…, β̂k die besten linearen unverzerrten Schätzer für β0, β1,…, βk (BLUE).
3–55
3–56
Exogene erklärende Variable
Endogende erklärende Variable
Schlüsselbegriffe Kapitel 3:
Multiple Regression
Lineares Regressionsmodell
Bedingungen erster Ordnung
Momentenschätzer
Momentenbedingungen
Stichproben-Regressionsfunktion
Partialeffekt
Kontrollvariable
Vorhersagefehler
Residuum
SST, SSE, SSR
R2
Schätzgüte
Regression durch den Ursprung
Bevölkerungsparameter
Unverzerrtheit
Irrelevante erklärende Variable
Omitted variable bias
Präzision
Konfidenzintervall
Homoskedastie
Heteroskedastie
Gauss-Markov Theorem
Stichprobenvariation
(Perfekte) Multikollinearität
Effizient
Standardfehler der Regression
Standardabweichung von β̂ j
Bevölkerungsmodell
Perfekte Kollinearität
Lineare Abhängigkeit
Messfehler
Standardfehler von β̂ j
Gauss-Markov Theorem
Best linear unbiased estimator
BLUE
3–57
Literatur Kapitel 3:
•
Wooldridge, Kapitel 3
•
Von Auer, Kapitel 8, Kapitel 9
•
Hill / Griffiths / Judge, Kapitel 7
•
Stock / Watson, Kapitel 6
3–59
Linearer Schätzer
Partielle Effekte
3–58
Leitfragen und Lernziele Kapitel 4:
Kapitel 4: Multiple Regression: Inferenz
•
4.1 Stichprobenverteilung des KQ-Schätzers
Wie kommt man auf Basis von KQ-Schätzungen zu weiterführenden Aussagen über die Grundgesamtheit?
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
•
4.3 Konfidenzintervalle
Wie führt man Hypothesentests durch und welche Gestaltungsmöglichkeiten ergeben sich dafür?
4.4 Hypothesentests zu Linearkombinationen von Parametern
•
Worin unterscheiden sich Punkt- und Intervallschätzer?
4.5 F-Tests für mehrere lineare Restriktionen
•
Was ist bei der Darstellung von Schätzergebnissen zu beachten?
4.6 Präsentation von Schätzergebnissen
4–1
•
4.1 Stichprobenverteilung des KQ-Schätzers
•
4–2
Aussagen von
E(u x1 ,...,xk ) = E(u) = 0
MLR.4:
Kapitel 3 behandelte Erwartungswert (Stichwort: Verzerrung)
und Varianz (Stichwort: Präzision und Effizienz) von KQ-
MLR.5:
Schätzern, nicht die vollständige Verteilungsfunktion.
•
Die Stichprobenverteilung des KQ-Schätzers folgt der Vertei-
•
Var(u x1 ,...,xk ) = Var(u) = σ 2
sowie
ein.
Wenn u von x1, x2,…, xk unabhängig ist, hat u an jeder Ausprägung von x1, x2,…, xk die gleiche Verteilung.
lung der Störterme. Daher:
•
Die Annahme der Unabhängigkeit ist sehr stark und schließt die
Annahme MLR.6: Der Störterm der Grundgesamtheit, u, ist
unabhängig von den erklärenden Variablen x1, x2,…, xk und
normalverteilt mit Erwartungswert Null und Varianz σ2:
•
MLR.1–MLR.6 werden als Annahmen des klassischen linearen
Modells (CLM) bezeichnet, d.h. Gauss-Markov Annahmen plus
Normalverteilung.
u ~ Normal(0, σ2).
4–3
4–4
•
•
Unter den CLM-Annahmen hat der KQ-Schätzer für β̂ 0 , β̂1,…,
•
Frage: Angenommen, u ist von den erklärenden Variablen un-
β̂k die kleinste Varianz aller unverzerrten Schätzer, die Lineari-
abhängig und nimmt mit gleicher Wahrscheinlichkeit 1/5 die
tätsrestriktion des Gauss-Markov Theorems kann entfallen.
Werte -2, -1, 0, 1 und 2 an. Verletzt dies die Gauss-Markov Annahmen? Verletzt es die CLM-Annahmen?
Theorem 4.1 (Normalverteilung):
Unter den Annahmen MLR.1–MLR.6 und bedingt auf die tatsächlich beobachteten Werte der unabhängigen Variablen, ist
(4.1)
βˆ j ~ Normal(β j ,Var(βˆ j ))
Für standardisierte Schätzer gilt:
(βˆ j - β j ) sd(βˆ j ) ~ Normal(0,1),
wobei sd für Standardabweichung (standard deviation) steht.
4–5
4–6
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.1 Stichprobenverteilung des KQ-Schätzers
4.2.1 Allgemeines
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
•
Bevölkerungsmodell:
4.3 Konfidenzintervalle
•
Ann.: CLM-Annahmen treffen zu. Dann erzeugt KQ unverzerrte
u
+
xk
βk
+
.
.
.
+
x1
β1
+
β0
=
y
Kapitel 4: Multiple Regression: Inferenz
(4.2)
Schätzer für βj.
4.4 Hypothesentests zu Linearkombinationen von Parametern
•
4.5 F-Tests für mehrere lineare Restriktionen
Um Hypothesen bezüglich der wahren, aber unbekannten Bevölkerungsparameter zu testen, benötigen wir:
4.6 Präsentation von Schätzergebnissen
4–7
4–8
•
•
Theorem 4.2 (t-Verteilung standardisierter Schätzer):
Unter den Annahmen MLR.1–MLR.6 gilt
(βˆ j - β j ) se(βˆ j ) ~ tn-k-1 ,
Hypothesentests beginnen mit der Nullhypothese, z.B.:
H0: βj = 0
Sie besagt hier, dass ceteris paribus, d.h. nach Kontrolle der
(4.3)
wobei k+1 die Anzahl der unbekannten Parameter im Bevölke-
anderen betrachteten erklärenden Variablen (x1, x2, …, xj-1, xj+1,
rungsmodell sind (k Steigungs- und ein Achsenabschnittspara-
…, xk), xj keinen partiellen Effekt auf y hat.
•
meter, β0).
mativ.
wahren Bevölkerungswerte u und σ2 verwendet werden. Die so
standardisierten Parameterschätzer folgen nicht der Normal-,
Die Nullhypothese wird so formuliert, dass man etwas lernt, indem man sie verwirft. H0: „xj hat einen Effekt“ wäre nicht infor-
• Theorem 4.2 unterscheidet sich von 4.1, da û und σ̂ 2 statt der
•
Sie bezieht sich auf den wahren, unbekannten Bevölkerungsparameter.
sondern der t-Verteilung.
4–9
•
•
(4.4)
Beispiel: log(wage) = β0 + β1 educ + β2 exper + β3 tenure + u
4–10
•
Der Schätzwert von β̂ j wird nie genau Null sein, daher stellt
Hier besagt H0: β2 = 0, dass ceteris paribus die Arbeitsmarkter-
sich die Frage, ab wann β̂ j weit genug von Null entfernt ist, um
fahrung keinen Einfluss auf den Lohn hat. Falls β2 > 0, wirkt
sich höhere Erfahrung bspw. durch höhere Produktivität auf
H0 zu verwerfen. Der t-Wert beschreibt, um wie viele Standardfehler von β̂ j der Schätzwert von Null entfernt ist. Je größer t,
den Lohn aus.
umso unwahrscheinlicher wird, dass H0 gilt.
Um die Nullhypothese (4.4) zu testen, benötigen wir eine Test-
•
statistik. In diesem Fall nutzen wir die t-Statistik, den t-Wert
tβˆ βˆ j se(βˆ j )
von β̂j , der definiert ist als:
(4.5)
≡
wir das Signifikanzniveau, die Verteilung der Teststatistik und
die Alternativhypothese kennen.
j
Die Berechnung ist einfach und wird meist schon von der Software vorgenommen.
Um eine Ablehnungsregel für H0 festlegen zu können, müssen
•
Bei Hypothesentests kann man zwei Arten von Fehlern machen: Verwirft man H0, obwohl H0 zutrifft, spricht man vom Typ
1-Fehler. Verwirft man H0 nicht, obwohl H0 falsch ist, spricht
man vom Typ 2-Fehler.
4–11
4–12
•
•
Ob ein Fehler vorliegt, lässt sich mit Stichprobendaten nicht
•
Um die Ablehnungsregel für H0 formulieren zu können, müssen
feststellen. Die Wahrscheinlichkeit von Typ 1- und Typ 2-
wir wissen, wie der t-Wert in Stichproben verteilt ist, wenn H0
Fehlern lässt sich jedoch beschreiben. Die Wahrscheinlichkeit
wahr ist. Theorem 4.2 besagt, dass der wie in (4.5) berechnete
eines Typ 1-Fehlers nennt man Signifikanzniveau α:
α = P (reject H0 H0 true)
t-Wert der tn-k-1-Verteilung folgt.
(C.30)
•
Die Ablehnungsregel hängt von der Alternativhypothese (H1)
α wird vor einem Test auf Werte wie 0,10, 0,05 oder 0,01 fest-
ab, für die wir zwei Fälle unterscheiden, einseitige und zweisei-
gelegt.
tige Alternativhypothesen.
Wählt man α = 0,05, so ist man bereit, in 5% aller Fälle die H0
zu verwerfen, obgleich sie zutrifft.
4–13
•
4.2.2 Tests gegen einseitige Alternativhypothesen
•
4–14
wartungswert Null. Unter H1: βj > 0 ist der Erwartungswert von
t β̂ j > 0. Ab einem bestimmten kritischen positiven Wert von t β̂ j
Eine einseitige Alternativhypothese ist z.B.:
H1: βj > 0
(4.6)
ist es sehr unwahrscheinlich, dass H0 zutrifft. Wir verwerfen H0
zugunsten von H1, wenn t β̂ j diesen positiven kritischen Wert
Man schließt aus, dass der wahre Wert βj < 0 sein könnte (oder
formuliert H0: βj ≤ 0).
•
übersteigt. Ist t β̂ j negativ, stützt das nicht die Alternativhypothe-
Nun ist die Ablehnungsregel zu wählen. Unterstellen wir zunächst α = 0,05, d.h. mit einer Wahrscheinlichkeit von 5% begehen wir einen Typ 1-Fehler.
Unter H0: βj = 0 (bzw. H0: βj ≤ 0) folgt t β̂ j der t-Verteilung mit Er-
se.
•
Unter der Annahme von α = 0,05 liegt der kritische Wert, den
wir c nennen, am 95. Perzentil der tn-k-1-Verteilung.
•
4–15
Verteilung der t-Statistik unter H0: βj ≤ 0, H1: βj > 0 bei α = 0,05:
4–16
•
Die Ablehnungsregel lautet: Verwerfe H0 zugunsten von H1 am
5% Signifikanzniveau, wenn
t β̂ j > c.
(4.7)
Die Regel besagt, dass wir – selbst wenn H0 zutrifft – die Nullhypothese für 5 Prozent aller Stichproben verwerfen.
•
Um c zu berechnen, brauchen wir α und n-k-1.
•
Beispiel 1:
α = 0,05
n-k-1 = 28,
dann ergibt sich aus Tabelle G.2: cα=0,05;28 = 1.701
4–17
Tabelle G.2
Critical Values of the t Distribution
•
Significance Level
Degees of Freedom
1-Tailed:
2-Tailed:
4–18
.10
.20
.05
.10
.025
.05
.01
.02
.005
.01
1
2
3
4
5
6
7
8
9
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
26
27
28
29
30
40
60
90
120
∞
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.291
1.289
1.282
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.662
1.658
1.645
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.987
1.980
1.960
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.368
2.358
2.326
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.632
2.617
2.576
Graphische Darstellung der t-Verteilung mit kritischem Wert für
einseitigen Test, bei α = 0,05 und n – k – 1 = 28:
Wenn t β̂ j < 1,701, kann H0 am 5%-Niveau nicht zugunsten von
H1 verworfen werden (z.B. bei allen negativen Werten für t β̂ j ).
4–19
4–20
•
•
Beispiel 2:
α = 0,1
n-k-1 = 27
jetzt c = 1,314.
α = 0,01
n-k-1 = 27
jetzt c = 2,473.
Der kritische Wert c wird umso höher, je kleiner α (in Abbildung
4.2 verschiebt sich c nach rechts). Dadurch sinkt die Wahrscheinlichkeit, H0 (fälschlicherweise) zu verwerfen. Eine Nullhypothese, die am 10%-Niveau verworfen wurde, muss am 5%Niveau nicht verworfen werden. Aber eine H0, die bereits am
5%-Niveau verworfen wurde, wird immer auch am 10%-Niveau
verworfen.
•
Je höher n-k-1, umso ähnlicher wird die t-Verteilung der Normalverteilung.
4–21
•
Beispiel: Wir erhalten als Schätzergebnis (Standardfehler in
4–22
•
Einseitige Tests mit
H1: βj < 0
(4.8)
Klammern) (beachte: der natürliche Logarithmus ist gemeint)
werden genauso durchgeführt. Die Ablehnungsregion der H0 ist
log(wage) = 0,284 + 0,092 educ + 0,0041 exper + 0,022 tenure
nun auf der linken Seite der t-Verteilung und die Ablehnungsre-
(0,104) (0,007)
(0,0017)
n = 526, R = 0,316
H0: βexper ≤ 0
texper =
0,0041
≈ 2,41
0,0017
(4.9)
j
wobei c wieder der kritische Wert ist, den wir als positiven Wert
H1: βexper > 0
n-k-1 = 526 – 3 – 1 = 522
t β̂ < -c (statt t βˆ j > c ),
gel lautet
(0,003)
2
unterstellen.
cα=0,05 = 1,645
cα=0,01 = 2,326
Da texper > cα=0,01, muss H0 verworfen werden. βexper ist am 1%Niveau größer als Null, auch wenn der Koeffizient nicht groß ist.
Ceteris paribus erhöht ein Jahr Erfahrung den log-Lohn um
0,0041 und den Lohn um 0,41 Prozent.
4–23
•
Beispiel :
α = 0,05
n-k-1 = 18
H0: βj = 0 (bzw. H0: βj ≥ 0)
cα=0,05;18 = 1,734
H1: βj < 0
Ablehnungsregel: tβ̂ < -1,734
j
Wenn t positiv ist, kann H0 nicht verworfen werden.
4–24
•
Graphische Darstellung:
4.2.3 Tests gegen zweiseitige Alternativen
•
Wir prüfen, ob sich β̂j signifikant von Null unterscheidet, ohne
die Richtung der Abweichung festzulegen.
H0: βj = 0 gegen H1: βj ≠ 0
(4.10)
•
Ablehnungsregel jetzt:
•
Wählt man α = 0,05, so wird bei zweiseitigen Tests c so ge-
t β̂ > c
(4.11)
j
wählt, dass auf jeder Seite der t-Verteilung die Ablehnungsregion 2,5% umfasst. c hat den Wert des 97,5. Perzentils der tVerteilung.
•
Beispiel:
α = 0,05
n-k-1 = 25
cα=0,05;25 = 2,060
(vgl. oben, Tabelle G.2)
4–25
•
4–26
•
Graphische Darstellung:
Sprachregelung: Verwirft man die H0: βj = 0 am α-Signifikanzniveau im zweiseitigen Test, so sagt man: xj ist am α-Niveau
statistisch signifikant (von Null verschieden). Wird H0 nicht
verworfen, sagt man xj ist insignifikant (am α-Niveau).
4–27
4–28
•
0,412
= 4,38 > c hochsignifikant auch am 1% Niveau,
0,094
0,015
=
= 1,36 < 1,96 insignifikant und kleiner Effekt.
0,011
0,0833
=
= 3,19 > 2,576 hochsignifikanter negativer Ef0,026
thsGPA =
Beispiel :
colGPA = 1,39 + 0,412 hsGPA + 0,015 ACT – 0,083 skipped
(0,33) (0,094)
(0,011)
tACT
(0,026)
n = 141, R2 = 0,234
t skipped
colGPA = Notendurchschnitt College
fekt. 10 verpasste Vorlesungen reduzieren – ceteris paribus –
hsGPA = Notendurchschnitt Highschool
den Notendurchschnitt um 0,83.
ACT
= Ergebnis eines Uni-Zugangstests
skipped = Anzahl verpasster Vorlesungen
Welche erklärenden Variablen sind am 5% Niveau signifikant?
cα=0,05 ≅ 1,96
(cα=0,01 ≅ 2,576)
4–29
•
4.2.4 Andere Hypothesen zu βj
•
Gelegentlich interessiert nicht nur statistische Signifikanz, son-
Der Test wird genau wie zuvor durchgeführt, nur die Berechnung der t-Statistik ändert sich:
Einseitig z.B.:
dern, ob βj einen konkreten Wert aj annimmt, z.B. βj = 1.
H0: βj = aj
4–30
(4.12)
H0: βj ≤ 1 gegen H1: βj > 1
tβˆ =
j
•
In diesem Fall lautet die t-Statistik, die wieder misst, um wie
Wird H0 verworfen, sagt man β̂ j ist signifikant größer als 1.
Zweiseitig z.B.:
H0: βj = -1 gegen H1: βj ≠ -1
1
j
+ β
e
βj s
=
j
tβ
viele Standardabweichungen β̂ j vom unterstellten Wert entfernt
(βˆ j - a j )
ist:
t β̂ =
j
se(βˆ j )
(βˆ j − 1)
.
se(βˆ j )
ˆ
Unter H0 folgt t βˆ der t-Verteilung mit n-k-1 Freiheitsgraden.
j
(ˆ )
(ˆ ).
H0 verwerfen, wenn t > c, dann ist β̂ j signifikant von -1 verschieden.
4–31
4–32
• Beispiel: log(price) = 11,08 – 0,954 log(nox) – 0,134 log(dist)
(0,32) (0,117)
t = (-0,954 + 1) / 0,117 = 0,393 < c
(0,043)
H0 kann nicht verworfen werden, die Elastizität ist nicht signifi-
+ 0,255 rooms – 0,052 stratio
(0,019)
kant von -1 verschieden.
(0,006)
2
n = 506 (Stadtviertel in Boston), R = 0,581
price = Median Hauspreis im Stadtviertel
nox
= Ausmaß der Luftverschmutzung
dist
= mittlere Distanz zu 5 Arbeitgebern
rooms = mittlere Hausgröße
stratio = Schüler-Lehrer-Verhältnis der Schule
β1: Elastizität der Hauspreise bezüglich Luftverschmutzung
H0: β1 = -1 gegen H1: β1 ≠ -1, cα=0,05; 501 ≈ 1,96
4–33
•
4.2.5 p-Werte
•
z.B. stützen, dass βj = 0 ist, so wählt man ein möglichst kleines
Der p-Wert ist das Signifikanzniveau des Tests, bei dem der
berechnete tatsächliche t-Wert der kritische Wert ist.
Bislang haben wir willkürlich α festgelegt und daraufhin c bestimmt. Die Wahl der α-Werte kann manipuliert sein. Will man
•
4–34
•
Beispiel:
n-k-1 = 40
H0: βj = 0
H1: βj ≠ 0
tβ̂ = 1,85
j
α (hohes Signifikanzniveau), da dann die Wahrscheinlichkeit
Wenn α/2 = 0,025, dann cα=0,05;40 = 2,021; H0 nicht verworfen.
sinkt, H0: βj = 0 zu verwerfen.
Wenn α/2 = 0,05, dann cα=0,1;40 = 1,684; H0 verworfen.
Der p-Wert gibt an, was der kleinstmögliche α-Wert bzw. das
größtmögliche Signifikanzniveau wäre, zu dem H0: βj = 0 gerade noch verworfen würde. Wenn im Beispiel H0 bei α = 0,1 verworfen wird, bei α = 0,05 nicht, könnte der p-Wert 0,07 betragen.
4–35
4–36
•
p-Werte werden in der Regel von der Software für H0: βj = 0
angegeben oder lassen sich berechnen.
Es gilt
p = P( T > t ),
(4.15)
d.h. p ist die Wahrscheinlichkeit, dass eine t-verteilte Zufallsvariable T betragsmäßig den empirischen t-Wert übersteigt.
•
Hinweis: Siehe Erläuterung der t-Verteilung in Kapitel 1 - Appendix B5.
•
Beispiel:
p-Wert = P( T > 1,85) = 2 · P(T > 1,85) = 2 · 0,0359 = 0,0718
Unter H0 beobachtet man einen t-Wert mit dem Betrag von
mindestens 1,85 in 7,18 Prozent aller Fälle.
4–37
4–38
•
Frage: Angenommen, β̂1 = 0,56 und der p-Wert für H0: β1 = 0
•
Kleine p-Werte sind Evidenz gegen H0, große gegen H1.
•
p-Werte lassen sich auch für einseitige Hypothesentests be-
gegen H1: β1 ≠ 0 beträgt 0,086.
rechnen.
Wie lautet der p-Wert für H0: β1 = 0 (bzw. H0: β1 ≤ 0) gegen H1:
•
Beispiel:
β1 > 0 ?
H0: βj ≤ 0 gegen H1: βj > 0
Wenn β̂ j < 0, muss p > 0,50 und H0 kann nicht verworfen wer-
•
verworfen, nie akzeptiert. Begründung: Eine nicht verworfene
den. Wenn β̂ j > 0, dann t > 0 und p ist die Wahrscheinlichkeit,
Nullhypothese muss nicht korrekt sein (Typ 2-Fehler), daher
eine Realisation der t-verteilten Zufallsvariable oberhalb dieses
Wertes zu finden.
Sprachregelung: Nullhypothesen werden verworfen oder nicht
sollte man sie nicht „akzeptieren“.
•
Im Beispiel der Hauspreise haben wir H0: β1 = -1 nicht verworfen. Aber genauso wenig könnten wir H0: β1 = -0,9 verwerfen.
Dann: t = (-0,954 + 0,9) / 0,117 = -0,462 < c.
4–39
4–40
•
4.2.6 Bedeutung von Signifikanz
•
Statistische Signifikanz ergibt sich, wenn der Koeffizient im
Verhältnis zu seinem Standardfehler ausreichend groß ist (entweder, weil β̂ j groß, oder se(β̂ j ) klein ist). Man spricht von
Die Größe der Standardfehler wird auch von der Stichprobengröße bestimmt. Große Stichproben führen in der Regel zu
präzisen Schätzern mit kleinen Standardfehlern und großen tStatistiken (vgl. 3-58). Das bedeutet nicht, dass alle Variablen
ökonomischer Signifikanz, wenn der Koeffizient groß ausfällt,
„wichtig“ sind. Um die Bedeutung eines xj für y zu beurteilen,
unabhängig davon, wie präzise er geschätzt wurde.
muss man βj, den marginalen Effekt, betrachten. Manche Wissenschaftler wählen bei steigenden Stichprobengrößen kleinere
α-Werte.
4–41
•
Beispiel: Bachelor-Jahreseinkommen (in 1000€)
Kapitel 4: Multiple Regression: Inferenz
= 22,3 + 13,7 BWL + 0,72 SoWi + 17,2 empWifo
(2,2) (10,1)
(0,01)
4–42
(1,4)
H0: βj = 0
H1: βj ≠ 0
α = 0,05
n = 1200
c = 1,96
13,7
= 1,356 nicht statistisch, aber ökonomisch signifikant
tBWL =
10,1
tSoWi = 0,72 = 72 statistisch, aber nicht ökonomisch signifikant
0,01
tempWifo = 17,2 = 12,29 statistisch und ökonomisch signifikant
1,4
4.1 Stichprobenverteilung des KQ-Schätzers
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–43
4–44
•
4.3 Konfidenzintervalle
•
Konfidenzintervalle sind vorsichtig zu interpretieren: Würde
man die Berechnung der Intervallgrenzen für viele Stichproben
Konfidenzintervalle um die Punktschätzer für die Bevölke-
wiederholen, dann würde in 1-α Prozent aller Fälle der wahre
rungsparameter βj sind Intervallschätzer und lassen sich unter
Am
Bevölkerungsparameter βj innerhalb der Intervallgrenzen lie-
Signifikanzniveau α erwarten wir, dass folgende Aussage mit
gen. Für einzelne, konkret berechnete Konfidenzintervalle gilt
Wahrscheinlichkeit 1-α zutrifft:
β̂ j - β j
-t α
,n-k-1
se(βˆ )
diese Aussage nicht.
den
Annahmen
MLR.1–MLR.6
β̂ j - β j
se(βˆ )
ableiten.
tα
2
•
,n-k-1
Die Berechnung ist unkompliziert:
Wenn n-k-1 = 25, α = 0,05 ergibt sich cα=0,05;25 = 2,06, so dass
≤
≤
-c
folgt
≤
≤
j
2
wie
[β̂ j − 2,06 ⋅ se(β̂ j ), β̂ j + 2,06 ⋅ se(β̂ j )].
c
j
•
≤
≤
βˆ j - c ⋅ se(βˆ j ) β j
Je größer α, umso enger ist das Konfidenzintervall, d.h.
Konfidenzintervall bei α = 0,1 ist enger als bei α = 0,01.
βˆ j + c ⋅ se(βˆ j )
4–45
•
Intervallschätzer sind nur informativ, wenn Folgendes beachtet
wird:
4–46
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
(a) ausgelassene erklärende Variablen verzerren β̂ j ,
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
(b) bei Heteroskedastie sind die se(β̂ j ) falsch,
4.3 Konfidenzintervalle
(c) ohne Normalverteilung stimmen die Werte für c nicht.
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–47
4–48
4.4 Hypothesentests zu Linearkombinationen von Parametern
•
Gelegentlich beziehen sich einzelne Hypothesen auf mehr als
ein βj.
t=
(4.20)
Der Zähler lässt sich mit den Schätzergebnissen leicht berechnen, problematisch ist der Nenner.
• Beispiel: Haben Junior-College (jc) und Universitätsabschlüsse
log(wage) = 1,472 + 0,0667 jc + 0,0769 univ + 0,0049 exper
die gleiche Lohnwirkung?
(0,021) (0,0068)
log(wage) = β0 + β1 jc + β2 univ + β3 exper + u
jc
βˆ 1 - βˆ 2
se(βˆ 1 - βˆ 2 )
(4.17)
(0,0023)
(0,0002)
(4.21)
n = 6763, R2 = 0,222
= Ausbildungsjahre am Junior-College
β̂1 – β̂2 = 0,0667 – 0,0769 = -0,0102,
univ = Ausbildungsjahre an der Universität
d.h. ein Jahr Uni erhöht die Löhne im Mittel und ceteris paribus
exper = Monate Arbeitsmarkterfahrung
um 1,02 Prozentpunkte mehr als ein Jahr Junior-College.
H0: β1 = β2 , (bzw. H0: β1 ≥ β2 )
(4.18)
Den Standardfehler der Differenz müssen wir über ihre Varianz
H1: β1 < β2
(4.19)
berechnen:
Die t-Statistik lässt sich auch für 2 Parameter aufstellen:
4–49
Var(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 )
{
}
se(βˆ 1 - βˆ 2 ) = Var(βˆ 1 ) + Var(βˆ 2 ) - 2 Cov(βˆ 1, βˆ 2 )
(4.22)
1
2
(4.23)
Das ist aufwändig, einfacher ist eine andere Vorgehensweise:
Teste
H0: θ1 = β1 – β2 = 0
gegen
H1: θ1 < 0
4–50
(0,021) (0,0069)
n = 6763,
Im einseitigen t-Test: t =
(0,0023)
(0,0002)(4.27)
R2 = 0,222
−0,0102
= -1,48. Dies liegt zwischen
0,0069
(4.24)
den kritischen Werten am 5 (-1,645) und 10 (-1,282) Prozentni-
mittels eines t-Tests. Dazu benötigt man se( θ̂1), was sich durch
veau, mit p = 0,07. Die Evidenz gegen H0: β1 = β2 ist nicht stark.
Umformulieren der Gleichung ergibt.
Da θ1 = β1 – β2
⇔
β1 = θ1 + β2
log(wage) = β0 + (θ1 + β2) jc + β2 univ + β3 exper + u
= β0 + θ1 jc + β2 (jc + univ) + β3 exper + u
Mit dem Koeffizienten für jc erhält man θ̂1 und se( θ̂1).
(4.25)
log(wage) = 1,472 – 0,0102 jc + 0,0769 totcoll + 0,0049 exper
4–51
4–52
Kapitel 4: Multiple Regression: Inferenz
4.5 F-Tests für mehrere lineare Restriktionen
4.1 Stichprobenverteilung des KQ-Schätzers
4.5.1 Test auf die gemeinsame Signifikanz mehrerer Variablen
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
•
Hinweis: siehe Erläuterung der F-Verteilung
4.3 Konfidenzintervalle
•
Beispiel:
log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
+ β4 hrunsyr + β5 rbisyr + u
4.4 Hypothesentests zu Linearkombinationen von Parametern
salary
= Jahresgehalt 1993 von Baseballspielern
4.5 F-Tests für mehrere lineare Restriktionen
years
= Jahre in MLB (major league baseball)
4.6 Präsentation von Schätzergebnissen
gamesyr = durchschnittl. Zahl von Spielen pro Jahr
bavg
(4.28)
= batting average
hrunsyr = Anzahl home runs pro Jahr
rbisyr
= runs batted in pro Jahr
4–53
•
•
4–54
Spielen bavg, hrunsyr, rbisyr ceteris paribus eine Rolle?
•
Einfache t-Tests würden H0 nicht ablehnen.
H0: β3 = 0, β4 = 0, β5 = 0
•
Der gemeinsame Test von H0 prüft, wie stark sich SSR (=
„joint hypothesis“
(4.29).
Wir prüfen, ob drei Variablen vom Modell ausgeschlossen wer-
Summe quadrierter Residuen) erhöht, wenn die drei betrachte-
den können, „Ausschlussrestriktionen“.
ten Variablen aus dem Modell ausgeschlossen werden. Da KQ
H1: H0 trifft nicht zu.
SSR minimiert, muss SSR wachsen, wenn weniger Variablen
Die Schätzung ergibt:
betrachtet werden.
log(salary) = 11,9 + 0,0689 years + 0,0126 gamesyr
(0,29) (0,0121)
(4.31)
(0,0026)
+ 0,00098 bavg + 0,0144 hrunsyr + 0,0108 rbisyr
(0,00110)
n = 353
•
(0,0161)
SSR = 183.186
(0,0072)
•
Neues, restringiertes Modell ((4.28) war unrestringiert).
log(salary) = β0 + β1 years + β2 gamesyr + u
(4.32)
log(salary) = 11,22 + 0,0713 years + 0,0202 gamesyr
(4.33)
(0,11) (0,0125)
R2 = 0,6278
n = 353
4–55
(0,0013)
SSR = 198.311
R2 = 0,5971
4–56
•
•
R2 ist gefallen, SSR gestiegen. Der Test prüft, ob die Änderun-
wobei SSR die Fehlerquadratsummen des restringierten (r) und
gen signifikant sind.
unrestringierten (u) Modells angeben. Da SSRr ≥ SSRu, ist F
Allgemeine Schreibweise: Unrestringiertes Modell mit k+1 Pa-
nie negativ. Zähler- und Nennerfreiheitsgrade lauten im Bei-
rametern:
•
y = β0 + β1 x1 +... + βk xk + u
•
H1: H0 falsch
≡
•
Teststatistik des F-Tests:
(SSRr - SSRu ) / q
,
F
SSRu / (n - k - 1)
n-k-1 = 353 – 5 – 1 = 347
Verteilung: Unter H0 und MLR.1–MLR.6 folgt F der F-Verteilung
F ~ Fq,n-k-1 .
(4.35)
Wenn F groß ist, unterscheiden sich SSRr und SSRu stark und
Restringiertes Modell mit k+1-q Parametern:
y = β0 + β1 x1 + ... + βk-q xk-q + u
•
•
H0 benennt q Ausschlussrestriktionen:
H0: βk-q+1 = 0, …, βk = 0
spiel: q = 3
(4.34)
(4.36)
H0 trifft nicht zu. Der kritische F-Wert ist in der Tabelle G.3 abzulesen.
(4.37)
4–57
4–58
4–59
4–60
Beispiel:
q = 3, n-k-1 = 60, α = 0,05, dann cα=0,05;3;60 = 2,76 (G.3b)
α = 0,01, dann cα=0,01;3;60 = 4,13 (G.3c)
•
H0 wird verworfen, wenn F > c.
•
Wird H0 verworfen, so sagen wir xk-q+1, xk-q+2, …, xk sind ge-
•
(4.40)
•
Der F-Test kann auch verwendet werden, um Hypothesen be-
meinsam statistisch signifikant, sonst insignifikant. Zwischen
züglich einzelner Parameter zu testen. In dem Fall gilt F1,n-k-1 =
den einzelnen Variablen können wir nicht unterscheiden.
t2n-k-1. Bei zweiseitigen Alternativen führen beide Tests zum
gleichen Ergebnis.
Beispiel bei q = 3 und n-k-1 = 347 ergibt sich cα=0,01;3;347 = 3,78
•
und cα=0,05;3;347 = 2,60. Der empirische Wert beträgt
(198.311 − 183.186) / 3
F=
≅ 9,55
183.186 / 347
•
4.5.2 F- und t-Statistik und R2
kant sind, aber in einer Gruppe nicht mehr oder umgekehrt einzelne statistisch signifikant sind, aber die ganze Gruppe ge-
H0 wird also verworfen, obwohl die individuellen Koeffizienten
insignifikant
waren.
Das
kann
daran
liegen,
Es ist möglich, dass einzelne Variablen allein statistisch signifi-
dass
Multikollinearität die Standardfehler erhöht hat. Für den F-Test
meinsam nicht.
•
Exkurs: Für einen einzelnen Koeffizienten ist die Wahrscheinlichkeit eines Typ 2-Fehlers (H0 nicht ablehnen, obwohl falsch)
spielt das keine Rolle.
4–61
beim F-Test höher als beim t-Test. Man sagt, die Teststärke
4–62
•
Auch für die F-Statistik lassen sich p-Werte ausweisen, die die
Wahrscheinlichkeit angeben, unter der F-Verteilung bei gege-
den.
•
Die F-Statistik kann sowohl mittels SSR als auch R2 berechnet
werden. Es lässt sich ersetzen: SSRr = SST (1 – Rr2 ), SSRu =
SST (1 – Ru2 ):
F=
•
(0,6278 − 0,5971) / 3
≅ 9,54
(1 − 0,6278) / 347
Beispiel:
(Power) des t-Tests ist für diese H0 größer als die des F-Tests.
Daher sollte für einzelne Hypothesen der t-Test gewählt wer-
F=
•
(Ru2 - Rr2 ) / q
(1- Ru2 ) / (n - k - 1)
benen Freiheitsgraden einen größeren als den vorgefundenen
F-Wert zu beobachten. Wenn z.B. p = 0,016, wird H0 am 5%
Niveau verworfen, nicht jedoch am 1%-Niveau.
(4.41)
Da immer R2, aber selten SSR angegeben wird, ist diese Version besser handhabbar.
4–63
4–64
4.5.3 Gesamtsignifikanz einer Regression und allgemeine An-
•
Auch kleine R2-Werte können hier zum Verwerfen von H0 füh-
wendung
•
Dieser Test beschreibt die Gesamtsignifikanz des Modells.
ren.
Standardtest: gemeinsame Signifikanz aller erklärenden Vari•
ablen
H0: β1 = β2 = … = βk = 0
Der F-Test lässt sich auch auf andere als Ausschlussrestriktionen anwenden.
(4.44)
H1 besagt, dass mindestens eine Variable einen von Null verschiedenen Koeffizienten hat. H0 kann auch formuliert werden
als: H0: E( y x 1, x2, …, xk) = E(y). Das restringierte Modell lautet
y = β0 + u
•
(4.45)
Der Rr2 -Wert ist nun 0, so dass die Teststatistik lautet:
R2 / k
F=
(1- R2 ) / (n - k -1)
(4.46)
4–65
•
Beispiel:
log(price) = β0 + β1 log(assess) + β2 log(lotsize) +
β3 log(sqrft) + β4 bedrooms + u (4.47)
price
= Hauspreis
assess
= offiziell geschätzter Hauspreis
lotsize
= Grundstücksgröße
sqrft
= Grundfläche des Hauses
•
Das Modell wird zunächst ohne Restriktion geschätzt:
y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x 4 + u ,
(4.49)
anschließend werden die Restriktionen eingefügt:
y = β0 + x1 + u,
was sich wie folgt schätzen lässt:
y – x1 = β0 + u
bedrooms = Anzahl der Zimmer.
(4.50)
SSRr lässt sich berechnen, so dass
Wenn der Verkaufspreis rational zustande kommt, sollte die
Elastizität bzgl. des assess-Wertes 1 betragen und ceteris
paribus die anderen Faktoren keine Rolle mehr spielen:
H0: β1 = 1, β2 = 0, β3 = 0, β4 = 0
4–66
(4.48)
4–67
F=
(SSRr - SSRu ) / 4
SSRu / (n - 5)
Da sich in diesem Fall die abhängigen Variablen unterscheiden,
kann der F-Test nicht in seiner R2-Version genutzt werden.
4–68
•
Bei SSRu = 1.822
folgt
F=
SSRr = 1.880
q=4
(1.880 − 1.822) / 4
= 0,661
1.822 / 83
n = 88
n-k-1 = 83
Fα=0,05;4;83 = 2,5
Kapitel 4: Multiple Regression: Inferenz
4.1 Stichprobenverteilung des KQ-Schätzers
H0 wird nicht verworfen. Über den geschätzten Preis hinaus
haben die Merkmale des Hauses keine Bedeutung.
4.2 Hypothesentests einzelner Bevölkerungsparameter: t-Test
4.3 Konfidenzintervalle
4.4 Hypothesentests zu Linearkombinationen von Parametern
4.5 F-Tests für mehrere lineare Restriktionen
4.6 Präsentation von Schätzergebnissen
4–69
4–70
4.6 Präsentation von Schätzergebnissen
•
KQ-Koeffizienten werden mit Standardfehlern angegeben und
für die zentralen Variablen interpretiert.
•
R2 und die Zahl der benutzten Beobachtungen werden angegeben.
•
Meist sieht man die Darstellung in Tabellen. Dabei werden die
abhängige Variable über der Tabelle und die erklärenden Variablen in der ersten Spalte angegeben. In Spalten findet man alternative Modellspezifikationen.
4–71
4–72
Schlüsselbegriffe Kapitel 4:
Verteilungsfunktion
Unabhängigkeit
CLM-Annahmen
Zentraler Grenzwertsatz
Nullhypothese
Teststatistik
Alternativhypothese
Signifikanzniveau
Typ 1-Fehler
Typ 2-Fehler
Ablehnungsregel
Einseitige H1
Zweiseitige H1
Kritischer Wert
Statistische Signifikanz
Insignifikant
p-Wert
Literatur Kapitel 4:
Ökonomische Signifikanz
Konfidenzintervall
Intervallschätzer
t-Test
F-Test
Anschlussrestriktion
SSR
Restringiertes Modell
Unrestringiertes Modell
Fehlerquadratsumme
Zählerfreiheitsgrade
Nennerfreiheitsgrade
Gemeinsame Signifikanz
Teststärke (Power)
Gesamtsignifikanz
Alternative Modellspezifikation
4–73
•
Wooldridge, Kapitel 4, Appendix C5, C6
•
Von Auer, Kapitel 10
•
Hill / Griffiths / Judge, Kapitel 7, Kapitel 8
•
Stock / Watson, Kapitel 7
4–74
Leitfragen und Lernziele Kapitel 5:
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
5.2 Konsistenz
5.3 Asymptotische Normalverteilung und Inferenz
•
Welche Eigenschaften können Schätzverfahren haben?
•
Unter welchen Annahmen hat KQ welche Eigenschaften?
•
Welche praktische Bedeutung hat die Annahme der Normalverteilung?
5.4 Asymptotische Effizienz
5–1
5–2
5.1 Einführung
leitet. Sie gelten – als Eigenschaften des Schätzverfahrens –
•
auch, wenn die Stichprobe klein ist. Deswegen werden sie als
Wir haben die Eigenschaften des KQ-Schätzers unter bestimm-
finite sample properties bezeichnet.
ten Annahmen betrachtet.
•
- Unter MLR.1–MLR.4 ist der KQ-Schätzer unverzerrt.
- Unter MLR.1–MLR.5 gilt das Gauss-Markov Theorem
(BLUE).
Für manche, sehr brauchbare Schätzverfahren ist es schwierig
oder unmöglich, diese Eigenschaften „für kleine n“ nachzuweisen. In diesen Fällen prüft man die Eigenschaften für den hypothetischen Fall, dass die Stichprobengröße beliebig, d.h. un-
- Unter MLR.1–MLR.6 hat der KQ-Schätzer unter allen un-
endlich groß wird.
verzerrten Schätzern die kleinste Varianz und er folgt der
Normalverteilung (legitimiert t- und F-Tests).
•
Die Eigenschaften der Unverzerrtheit, Effizienz und exakten
Verteilung werden unabhängig von der Stichprobengröße abge5–3
5–4
•
Die Eigenschaften von Schätzverfahren, die für n → ∞ gezeigt
werden können, nennt man large sample properties oder
asymptotic properties, also asymptotische Eigenschaften,
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.1 Einführung (einschließlich Appendix C3)
(Konsistenz, asymptotische Normalverteilung und asymptoti-
5.2 Konsistenz
sche Effizienz).
5.3 Asymptotische Normalverteilung und Inferenz
5.4 Asymptotische Effizienz
5–5
5–6
5.2 Konsistenz
•
Die asymptotische Eigenschaft der Konsistenz betrachtet, wie
weit ein Schätzer bei unendlich großer Stichprobe vom wahren
Wert entfernt liegt. 2 zentrale Aspekte: Bei konsistenten
Schätzverfahren
(a) sinkt die Varianz des Schätzers, je größer n.
(b) liegt der Schätzer umso näher am wahren Wert (θ), je größer die Stichprobe.
5–7
5–8
•
Definition: Es sei Wn ein Schätzverfahren für den unbekannten
•
Parameter θ auf Basis der Stichprobe Y1, Y2, …, Yn mit n Beobachtungen. Wn ist ein konsistentes Schätzverfahren, wenn
für jedes (beliebig kleine) ε > 0 gilt
lim P( Wn − θ > ε) → 0
n→∞
•
Wn um θ konzentriert.
•
inkonsistent sind (z.B. die Varianz von Y1, der ersten Beobachtung in einer Stichprobe, als Schätzer für μ bleibt konstant σ2.
1
Die Varianz von Y hingegen geht mit n → ∞ gegen Null: σ 2 ).
n
Wenn ein Schätzer Wn nicht konsistent ist, nennen wir ihn inkonsistent. Konsistenz ist eine Mindestbedingung für Schät-
•
Andere
Darstellungsform:
•
Wahrscheinlichkeitsgrenzwert
(probability limit): Wenn Wn konsistent ist, ist sein Wahrscheinlichkeitsgrenzwert θ:
Es gilt: Ein unverzerrter Schätzer Wn ist dann konsistent, wenn
Var(Wn) → 0 bei n → ∞ . Nur dann gilt plim(Wn) = θ.
plim(Wn) = θ
5–9
•
Es gibt verzerrte Schätzer, die konsistent sind (z.B. σ̂ ohne
Freiheitsgradkorrektur) und es gibt unverzerrte Schätzer, die
(C.7)
zer.
Je größer n, umso enger ist die Verteilung eines konsistenten
5–10
β̂ j sei ein KQ-Schätzer für den Parameter βj. Bei jeder Stich-
probengröße n hat β̂ j eine Wahrscheinlichkeitsverteilung. Da β̂ j
unter den Annahmen MLR.1–MLR.4 unverzerrt ist, hat jede
dieser Verteilungen den Mittelwert βj.
Wenn β̂ j konsistent ist, wird die Verteilung um βj immer enger,
je größer n.
5–11
5–12
•
•
Theorem 5.1 (Konsistenz von KQ):
Unabhängigkeit) impliziert, dass Cov(xj,u) = 0, aber nicht um-
Unter den Annahmen MLR.1–MLR.4 ist der KQ-Schätzer β̂ j für
gekehrt. Kovarianz und Korrelation beschreiben ausschließlich
βj konsistent für alle j=0,1,…, k.
•
lineare Zusammenhänge, während MLR.4 auch jeden Zusam-
Es lässt sich zeigen, dass gilt
plimβˆ 1 = β1 + Cov(x1,u) / Var(x1 )
= β1 ,
Die Annahme MLR.4 E(u x1,x 2 ,...,xk ) = 0 (mittlere bedingte
menhang zwischen u und einer nicht-linearen Funktion von xj
ausschließt. Eine abgeschwächte Form von MLR.4 ist also:
(5.3)
da wegen MLR.4 x1 und u unkorreliert sind. Unterstellt wurde
0 < Var(x 1 ) < ∞ .
•
Annahme MLR.4′ : E(u) = 0 und Cov(xj,u) = 0 für alle j=1,2,…, k
•
Konsistenz von KQ erfordert lediglich MLR.4′ , Unverzerrtheit
erfordert MLR.4.
5–13
Auch wenn nur einer der k Regressoren mit u korreliert ist, sind
im Normalfall die KQ-Schätzer für alle k Parameter des Modells
ten wir in Kapitel 3 für das Modell
E(β ) = β + β δ ,
zeigt:
1
Die Inkonsistenz für β̂1 beträgt
plim β̂1 − β1 = Cov(x1,u) / Var(x1 )
Beispiel: Für den Fall ausgelassener, relevanter Variablen hatge-
(3.45)
~
wobei β 1 ohne Kontrolle für x2 geschätzt war und δ1 der ge-
verzerrt und inkonsistent.
•
•
ν
+
x2
β2
+
x1
β1
+
β0
=
y
•
5–14
(5.4)
1
2
1
schätzte Koeffizient einer Regression von x2 auf x1 war. Nun gilt
Dies erlaubt, Richtung und Ausmaß der Inkonsistenz einzu-
(wieder unter Annahme von MLR.1–MLR.4):
plim β 1 = β1 + β2 δ1,
schätzen, da Var(x1) > 0.
wobei jetzt δ1 den Bevölkerungsparameter einer Regression
(5.5)
von x2 auf x1 darstellt. Sind x1 und x2 in der Bevölkerung
unkorreliert, ist β 1 konsistent. Ausmaß und Richtung der Inkonsistenz lassen sich also abschätzen.
5–15
5–16
•
Beispiel:
price
•
price = β0 + β1 distance + β2 quality + u
= Hauspreis
Im Fall von k erklärenden Variablen führt Cov(xj,u) ≠ 0 für nur
ein j zur Inkonsistenz aller k+1 Parameter. Einzige Ausnahme:
distance = Abstand Müllverbrennungsanlage (Erwartung: β1>0)
Ein anderer Steigungsparameter βm ist bei Inkonsistenz von βj
quality
noch konsistent, wenn xm nicht mit xj korreliert ist und keine
= Qualität des Hauses (Erwartung: β2>0)
Wenn bessere Häuser weiter von Müllverbrennungsanlagen
weiteren erklärenden Variablen im Modell sind (vgl. die Situati-
entfernt sind, dann δ1 > 0. Dann führt Auslassen der Variable
on bei ausgelassenen Variablen, Kapitel 3).
quality zur Überschätzung des wahren β1, da β2 · δ1 > 0.
5–17
5–18
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.3 Asymptotische Normalverteilung und Inferenz
5.1 Einführung (einschließlich Appendix C3)
•
Unter der Annahme MLR.6 konnten wir t- und F-Tests ableiten.
Sind u1, u2, …, un nicht normalverteilt, so sind t- und F-Tests
5.2 Konsistenz
nicht gültig, aber Unverzerrtheit und BLUE-Eigenschaft gelten
5.3 Asymptotische Normalverteilung und Inferenz
nach wie vor.
5.4 Asymptotische Effizienz
•
Gegeben die erklärenden Variablen, überträgt sich die Normalverteilungsannahme von u auf die abhängige Variable und die
geschätzten Parameter. Allerdings kennen wir viele Situationen, in denen y nicht normalverteilt ist.
•
Beispiel: Anteil der Arbeitnehmer eines Unternehmens (prate),
die an einem Pensionssparplan teilnehmen:
5–19
5–20
•
Selbst wenn y nicht normalverteilt ist, ergibt sich aus dem Zentralen Grenzwertsatz, dass die KQ-Schätzer asymptotisch
normalverteilt sind und t- und F-Tests asymptotisch zutreffen.
Dazu benötigen wir:
•
Definition: Wenn {Zj : j = 1,2,…, n } eine Folge von Zufallsvariablen ist und für alle Zahlen z gilt
P(Zj ≤ z) → Φ (z)
wenn n → ∞ ,
(C.11)
dann ist Zj asymptotisch standardnormalverteilt. Φ (z) beschreibt die kumulative Standardnormalverteilung.
a
Man schreibt: Zj ~ Normal(0,1).
5–21
•
D.h. mit wachsender Stichprobengröße nähert sich die Vertei-
•
Die meisten Schätzverfahren können als Funktion von Stich-
lung der Standardnormalverteilung an. Der zentrale Grenzwert-
probenmittelwerten dargestellt werden, daher ist C.12 extrem
satz besagt, dass der standardisierte Mittelwert jeder Zufalls-
nützlich. Für KQ ergibt sich:
stichprobe zur Standardnormalverteilung konvergiert:
•
5–22
•
Zentraler Grenzwertsatz: Es sei {Y1, Y2, …, Yn} eine Zufallsstichprobe mit Mittelwert μ und Varianz σ2. Dann folgt
Zn =
Yn - μ
σ
n (Yn - μ)
=
σ
n
Theorem 5.2 (asymptotische Normalverteilung des KQ-
Schätzers)
Unter den Annahmen MLR.1–MLR.5 gilt:
(C.12)
(i) β̂ j ist asymptotisch normalverteilt, mit
a
⎛ σ2 ⎞
n(βˆ j - β j )~ Normal ⎜ 0, 2 ⎟ ,
⎜ a ⎟
j ⎠
⎝
asymptotisch der Standardnormalverteilung.
•
Zn ist der standardisierte Mittelwert von Y, wobei Var(Y) =
σ2
.
n
5–23
wobei
σ2
> 0 die asymptotische Varianz von n(βˆ j - β j )
a 2j
5–24
n
ist. Für die Steigungsparameter gilt a2j = plim(n-1∑ rˆij2 ) .
•
i=1
Konfidenzintervalle berechnet werden. Sie gelten jetzt asympto-
r̂ij sind die Residuen einer Regression von xj auf die
tisch statt exakt. Je größer n, umso besser ist die Approximati-
anderen erklärenden Variablen;
on.
2
2
(ii) σ̂ ist ein konsistenter Schätzer für σ = Var(u);
(iii)
(βˆ j - β j ) a
~ Normal(0,1)
se(βˆ )
Somit können auch ohne MLR.6 t-Tests durchgeführt und
für alle j,
•
Wenn MLR.6 nicht gilt, nennt man se(β̂ j ) den asymptotischen
Standardfehler von β̂ j und man spricht von der asymptoti-
(5.7)
schen t-Verteilung. Auch F-Tests gelten approximativ.
j
wobei se(β̂ j ) der KQ-Standardfehler von β̂ j ist.
•
Da die t-Verteilung für n-k-1 → ∞ gegen die Standardnormal(βˆ j - β j ) a
~ tn-k-1 . (5.8)
verteilung konvergiert, gilt ebenso:
se(βˆ )
j
5–25
5–26
Kapitel 5: Asymptotische Eigenschaften des KQ-Schätzers
5.4 Asymptotische Effizienz
5.1 Einführung (einschließlich Appendix C3)
•
Unter zwei unverzerrten Schätzern für einen Parametervektor θ
heißt derjenige relativ effizient, dessen Varianz für alle Ele-
5.2 Konsistenz
mente des geschätzten Parametervektors nie größer ist als die
5.3 Asymptotische Normalverteilung und Inferenz
des anderen Schätzers und für mindestens ein Element aus θ
5.4 Asymptotische Effizienz
strikt kleiner ist.
•
Unter den Annahmen MLR.1–MLR.5 hat der KQ-Schätzer unter
allen linearen unverzerrten Schätzern die kleinste Varianz. Er
ist effizient.
5–27
5–28
•
Ein Schätzer ist asymptotisch effizient, wenn er unter allen
konsistenten, asymptotisch normalverteilten Schätzern die
kleinste asymptotische Varianz hat.
•
Theorem 5.3 (asymptotische Effizienz von KQ):
Unter den Gauss-Markov Annahmen (MLR.1–MLR.5) ist der
KQ-Schätzer asymptotisch effizient.
5–29
Literatur Kapitel 5:
•
Wooldridge, Kapitel 5 und C3
•
Von Auer, Kapitel 20.1
•
Hill / Griffiths / Judge, Kapitel 13.2
•
Stock / Watson, Kapitel 2.6, Kapitel 18.2
5–31
Schlüsselbegriffe Kapitel 5:
Finite sample property
Large sample property
Asymptotische Eigenschaft
Konsistenz, Inkonsistenz
Asymptotische Normalverteilung
Wahrscheinlichkeitsgrenzwert
Zentraler Grenzwertsatz
Asymptotischer Standardfehler
Asymptotische t-Verteiliung
Relativ effizient
Asymptotisch effizient
Score test
5–30
Leitfragen und Lernziele Kapitel 6:
Kapitel 6: Anwendungen des KQ-Schätzers
•
6.1 Auswirkung von Skalierung
Wie reagieren die Parameter auf geänderte Definitionen der
Variablen?
6.2 Alternative funktionale Formen
•
6.3 Schätzgüte und Auswahl der Regressoren
Welche Variablen sollten im Regressionsmodell berücksichtigt
werden?
6.4 Vorhersage und Analyse der Residuen
•
Wie lassen sich Vorhersagen und ihre Streuung bestimmen?
6.5 Überblick
•
Wann sind Schätzergebnisse intern und extern valide?
6–1
•
6.1 Auswirkung von Skalierung
•
6–2
Bei Umskalierung von Variablen passen sich Koeffizienten,
Standardfehler, Konfidenzintervalle, t- und F-Statistiken so an,
Beispiel:
bwght = β̂0 + β̂1 cigs + β̂2 faminc
bwght
= Geburtsgewicht (in ounces = ca. 28,35 g)
cigs
= Anzahl der von der Mutter in der Schwangerschaft pro Tag gerauchten Zigaretten
dass alle Effekte und Testergebnisse erhalten bleiben.
•
(6.1)
Eine Umskalierung wird oft verwendet, um die Darstellungswei-
faminc
= Jahreseinkommen der Familie (in 1000 $)
se der Ergebnisse zu vereinheitlichen (z.B. β̂1 = 14.201,0 und
β̂ 2 = 0,3752; multipliziert man x1 mit 1000 erhält man β̂1 =
14,201).
6–3
6–4
•
Skalierung der abhängigen Variablen in pounds statt ounces,
wobei 1 pound (lbs.) = 16 ounces. Dadurch sinken alle geschätzten Parameter um den Faktor 16:
bwght β̂0 β̂1
β̂
=
+
cigs + 2 faminc .
16
16 16
16
•
Schätzergebnisse in Spalte (2): Jede Zigarette reduziert nun
das Gewicht um 0,0289 pounds, 0,0289 · 16 = 0,46 ounces,
was dem Effekt aus Spalte (1) entspricht.
•
Umskalieren führt auch zu geänderten Standardfehlern. Die
Standardfehler in Spalte (1) sind 16-mal größer als die in Spalte
•
(2), t-Werte und Signifikanzniveaus bleiben somit konstant.
Schätzergebnisse in Spalte (1): Pro Zigarette sinkt das Gewicht
signifikant um 0,46 Unzen (= ounces).
6–5
•
Auch die Konfidenzintervalle für Parameter ändern sich um den
6–6
•
Faktor 16.
•
der zugehörige Koeffizient. So können je 20 Zigaretten als 1
Päckchen gezählt werden:
Da das Residuum in Spalte (1) 16-mal größer ist als das Resi-
bwght = β̂0 + (20 β̂1) (cigs/20) + β̂ 2 faminc
duum in Spalte (2), ist SSR von Spalte (1) 162 = 256-mal so
= β̂0 + (20 β̂1) packs + β̂ 2 faminc
groß wie das in Spalte (2).
•
Bei Umskalierung der erklärenden Variable ändert sich lediglich
Vgl. Spalte (1) und (3): 20 · (-0,4634) = -9,268. Gleiches gilt für
Das R2 ist durch die Skalierung nicht beeinflusst.
die Standardfehler, so dass die t-Statistik gleich bleibt.
•
Betrachtet man cigs und packs gleichzeitig in einer Regression,
ergibt sich perfekte Multikollinearität.
•
Frage: Was passiert mit β̂ 2 , wenn man faminc in Dollar misst:
fincdol = 1000 · faminc? Welche Messweise ist vorzuziehen?
6–7
6–8
•
Ist die abhängige Variable logarithmiert (natürlicher Logarith-
Kapitel 6: Anwendungen des KQ-Schätzers
mus), hat ihre Skalierung keinen Effekt auf die Steigungsparameter, lediglich der Achsenabschnittsparameter passt sich an,
6.1 Auswirkung von Skalierung
da
6.2 Alternative funktionale Formen
log(c1· y) = log(c1) + log(y),
β̂
•
neu
0
für c1 > 0
6.3 Schätzgüte und Auswahl der Regressoren
alt
0
= β̂ + log(c1)
6.4 Vorhersage und Analyse der Residuen
Gleiches gilt für logarithmierte erklärende Variablen:
log( x ) = log(x/100) = log(x) – log(100);
ŷ = β̂0 + β̂1 log(x)
aus
wird nach Umskalieren mit log ( x ) = log (100 ) + log ( x ) z.B.
ŷ = (β̂0 + β̂1 log(100)) + β̂1 log( x )
6–9
6–10
•
6.2 Alternative funktionale Formen
Approximation
6.2.1 Verwendung des Logarithmus
•
n = 506
der
Prozentberechnung.
Zur
präzisen
Berechnung verwendet man:
Beispiel: log(price) = 9,23 – 0,718 log (nox) + 0,306 rooms
(0,19) (0,066)
Je größer die Semielastizität, umso unpräziser ist die
%Δyˆ = 100 ⋅ [exp(βˆ j Δx j ) − 1]
(0,019)
(6.8)
bzw. wenn Δxj = 1
R2 = 0,514
%Δyˆ = 100 ⋅ [exp(βˆ j ) − 1]
Der Koeffizient von log(nox) gibt eine Elastizität an. Steigt nox um
ein Prozent, so fällt der mittlere Hauspreis um 0,718 Prozent. Der
Koeffizient von rooms gibt eine Semielastizität an. Steigt die An-
•
(6.9)
Beispiel: Wenn β̂2 = 0,306 ergibt sich eine Preisänderung von
[exp(0,306) – 1] · 100 = 35,8% für jedes zusätzliche Zimmer.
zahl der Zimmer um eins, so steigt der Hauspreis approximativ um
100 · 0,306 = 30,6 Prozent.
6–11
6–12
•
•
Vorteile logarithmierter Variablen:
log(wage) = 0,3 – 0,05 · unemployment rate + …
(a) Interessante Interpretationen.
log(wage) = 0,3 – 0,05 · log(unemployment rate) + …
(b) Für y > 0 passt die logarithmierte Variable oft besser zu
Wenn unemployment rate von 0-100 kodiert ist, sagt die erste
CLM-Annahmen. Andernfalls häufig Heteroskedastie oder
Gleichung, dass eine um einen Prozentpunkt höhere
schiefe Verteilung.
•
Beispiel:
Arbeitslosenrate (z.B. 9 statt 8 Prozent) die Löhne ceteris
(c) Logarithmierte Werte sind weniger breit gestreut als nicht
paribus um approximativ 5 Prozent senkt. Die zweite Gleichung
logarithmierte, Ausreißer-Beobachtungen verlieren an Einfluss.
besagt, dass eine Änderung der Arbeitslosenrate um ein
Wichtig, die Auswirkung auf die Interpretation zu beachten.
Prozent (z.B. 8,08 statt 8 Prozent) die Löhne ceteris paribus
um 0,05 Prozent senkt.
6–13
•
6–14
Variablen mit Ausprägungen ≤ 0 können nicht logarithmiert
6.2.2 Quadratische Spezifikationen
werden. Gelegentlich wird dann statt der Variable selbst ihr
•
Wert plus 1 logarithmiert, d.h. für Ausprägungen y = 0 wird
log(y+1) statt log(y) genutzt.
•
Frage: Warum können die R2-Werte von Modellen mit der ab-
fallende marginale Effekte beschreiben.
•
Beispiel: Produktivitätsfortschritt (y = wage) durch Arbeitserfahrung (x = exper):
hängigen Variable y nicht mit solchen der abhängigen Variable
•
log(y) verglichen werden?
Mit quadratischen Spezifikationen lassen sich steigende oder
ŷ = βˆ 0 + βˆ 1 x + βˆ 2 x 2
Der marginale Effekt von x auf y variiert hier mit β̂1 , β̂2 und x
Δŷ ˆ
(6.11)
Δŷ ≈ (βˆ 1 + 2 βˆ 2 x) ⋅ Δx ⇔
≈ β1 + 2 βˆ 2 x
Δx
Typischerweise wird der marginale Effekt von x auf y am Mittelwert der Daten x berechnet.
•
6–15
Wenn β̂1 > 0 und β̂2 < 0, erhält man einen konkaven Verlauf.
6–16
•
Beispiel:
wage = 3,73 + 0,298 exper – 0,0061 exper2
(0,35) (0,041)
(0,0009)
(6.12)
2
n = 526
R = 0,093
Die Lohnsteigerung von exper = 0 auf exper = 1 beträgt
β̂1 + 2 β̂2 x = 0,298 – 2 · 0,0061 · 0 = 0,298, also 0,298 Dollar.
Beim Übergang von 10 auf 11 bleibt nur noch
0,298 – 2 · 0,0061 · 10 = 0,176. Bei konkavem Verlauf lässt
sich der Punkt berechnen, ab dem der Lohnzuwachs bei zusätzlicher Erfahrung negativ wird:
−βˆ
βˆ
∂y ˆ
= β1 + 2 βˆ 2 x* = 0 ⇔ x* = 1 = 1 .
∂x
2 βˆ 2 2 βˆ 2
(6.13)
Hier: x* = exper* = 0,298 / (2 · 0,0061) = 24,4 Jahre
6–17
•
6–18
Wenn β̂1 < 0 und β̂2 > 0, ist der Verlauf u-förmig (konvex) und
hat ein Minimum x*.
•
Beispiel: log(price) = 13,39 – 0,902 log(nox) – 0,087 log(dist)
(0,57) (0,115)
(0,043)
– 0,545 rooms + 0,062 rooms2 – 0,048 stratio
(0,165)
n = 506
(0,013)
(0,006)
2
R = 0,603
Der Koeffizient von rooms2 ist hochsignifikant. Bei kleiner Zahl
von Zimmern scheint ein weiteres Zimmer den Hauspreis zu
senken, bis das Minimum erreicht ist:
x* =
−βˆ 1
0,545
=
≈ 4,4
2 βˆ 2 2 ⋅ 0,062
6–19
6–20
Der negative Effekt für Häuser mit weniger als 4 Zimmern ist
•
Haben bei quadratischen Effekten beide Koeffizienten das glei-
unrealistisch. In der Stichprobe sind weniger als 1% der Be-
che Vorzeichen, so gibt es keine Richtungsänderung im Zu-
obachtungen davon betroffen.
sammenhang zwischen y und x.
•
Marginaler Effekt:
n ≈ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms
Δlog(price)
n
%Δ
price ≈ 100 ⋅ {−0,545 + 2 ⋅ 0,062 ⋅ rooms} ⋅ Δrooms
Bei quadrierten logarithmierten erklärenden Variablen können
sich nicht-konstante Elastizitäten ergeben:
log(y) = β0 + β1 log(x) + β2 (log(x))2 + u
%Δy = [β1 + β2 2 ⋅ log(x)] %Δx
≈ ( −54,5 + 12,4 ⋅ rooms) ⋅ Δrooms
Hat man bereits rooms = 5, so erhöht ein weiteres Zimmer den
•
Gelegentlich wählt man eine flexiblere als die quadratische
Preis approximativ um -54,5 + 12,4 · 5 = 7,5%. Der Effekt
Form, z.B. ein Polynom 3. (oder auch 4.) Ordnung:
wächst bei größeren Häusern sehr stark. Bereits bei 6 ergibt
y = β0 + β1 x + β2 x 2 + β3 x 3 + u
sich -54,5 + 12,4 · 6 = 19,9%.
Wieder berechnet man zur Interpretation marginale Effekte.
6–21
Gelegentlich hängt der partielle Effekt einer Variablen vom Wert
einer anderen ab. Dies modelliert man durch Interaktionster-
•
6–22
•
6.2.3 Modelle mit Interaktionstermen
•
(6.16)
Beispiel 2: price = β0 + β1 sqft + β2 bdrms + β3 sqft · bdrms
+ β4 bathrms + u
Δprice
= β2 + β3 sqft
Δbdrms
(6.17)
me.
Wenn β3 > 0, ist der Preisaufschlag pro Zimmer (=bedroom) in
Beispiel 1: Der Produktivitätseffekt von Arbeitserfahrung kann
Häusern mit großer Wohnfläche (sqft) höher als in kleinen. β2
je nach Bildungstand unterschiedlich ausfallen.
ergibt den Preisaufschlag für Häuser mit sqft = 0.
Statt: wage = β0 + β1 educ + β2 exp er + u
nun:
wage = β0 + β1 educ + β2 exp er + β3 ( educ ⋅ exper ) + u
Jetzt
Δwage
= β2 + β3 ⋅ educ .
Δ exp er
6–23
6–24
Kapitel 6: Anwendungen des KQ-Schätzers
price
β 2 + β3 sqft1
sqft1 > sqft 0 ,
6.1 Auswirkung von Skalierung
β2 > 0, β3 > 0
6.2 Alternative funktionale Formen
6.3 Schätzgüte und Auswahl der Regressoren
β 2 + β3 sqft 0
6.4 Vorhersage und Analyse der Residuen
bedrooms
Wenn β3 = 0, spielt die Wohnfläche für den Preisaufschlag durch
die Zahl der Zimmer keine Rolle.
6–25
6–26
•
6.3 Schätzgüte und Auswahl der Regressoren
Modell berücksichtigt werden. Es ist üblich, neben R2 ein an-
6.3.1 R2 und R 2
•
gepasstes R2, R 2 , zu betrachten, welches mit der Zahl der
2
R beschreibt den Anteil der Variation in y, der durch das Mo-
verwendeten Regressoren schwankt:
SSR
R2 = 1SST
SSR / (n - k -1)
σˆ 2
2
R = 1= 1SST / (n -1)
SST / (n -1)
dell erklärt wird.
•
R2 kann nicht sinken, wenn zusätzliche erklärende Variablen im
Auch bei kleinem R2 lassen sich präzise und unverzerrte Koeffizienten schätzen.
•
(6.21)
Aufnahme eines Regressors reduziert SSR, aber auch n-k-1.
Daher kann das R 2 steigen, gleich bleiben oder auch fallen,
wenn eine zusätzliche erklärende Variable berücksichtigt wird.
Man verwendet das R 2 , um z.B. Modifikationen einer gegebenen Modellspezifikation zu bewerten.
6–27
6–28
•
Interessant: R 2 steigt, sobald der Betrag des t-Wertes einer zu-
wie R2 und kann nicht unmittelbar zur Berechnung des F-Tests
fikanz einer Gruppe von Variablen ≥ 1 ist. Damit steigt der (kor-
genutzt werden.
•
Es gilt folgende Umrechnung:
Beispiel:
2
sie unterschiedlich viele Parameter verwenden. Modelle sind
2
R = 0,30
n = 51
R 2 wird verwendet, um nicht genestete Modelle für eine gegebene abhängige Variable zu vergleichen, insbesondere wenn
n -1
R = 1- (1- R )
n - k -1
2
•
R 2 kann negativ werden. R 2 hat nicht die gleiche Interpretation
sätzlichen Variable ≥ 1 ist und wenn die F-Statistik für die Signirigierte) Erklärungsgehalt auch ohne statistische Signifikanz.
•
•
nicht genestet, wenn sie nicht durch lineare Restriktionen inein-
(6.22)
ander überführt werden können.
k = 10
R = 1 – 0,70 · 50/40 = 0,125
2
6–29
•
6–30
•
Beispiel 1 (Gehalt der Baseballspieler):
(a) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
+ β4 hrunsyr + u1
Beispiel 2: R&D-Intensität und Umsatz:
(a) rdintens = β0 + β1 log(sales) + u1
(6.23)
(b) rdintens = β0 + β1 sales + β2 sales2 + u2
(6.24)
(b) log(salary) = β0 + β1 years + β2 gamesyr + β3 bavg
Die Modelle sind nicht genestet. Da unterschiedlich viele erklä-
+ β4 rbisyr + u2
rende Variablen verwendet werden, ist R2 für den Vergleich
Da die Variablen hrunsyr und rbisyr hochkorreliert sind, ist die
nicht informativ.
Frage, welche einen höheren Beitrag leistet. Die Modelle sind
Ra2 = 0,061
nicht genestet. (a) ergibt R2 = 0,6211 und (b) R2 = 0,6226, ein
sätzlichen Parameter eine Korrektur vor (n = 32), Ra2 = 0,03 Rb2
kleiner Vorteil für (b). Dies ließe sich auch mit R2 vergleichen,
da hier die gleiche Anzahl Parameter geschätzt wurde.
Rb2 = 0,148. Das angepasste R2 nimmt für den zu-
= 0,09. Auch mit Korrektur ist Modell (b) überlegen.
•
Weder R2 noch R 2 kann verwendet werden, um zwischen Modellen mit unterschiedlichen abhängigen Variablen zu wählen,
da sich die SST unterscheiden.
6–31
6–32
•
Beispiel 3: CEO-Gehalt als Funktion von Umsatz und Rendite
n = 830,63 + 0,0163 sales + 19,63 roe
salary
(223,90) (0,0089)
n = 209
(11,08)
R = 0,029
2
(6.25)
R = 0,020
2
6.3.2 Auswahl von Regressoren
•
Es ist möglich, durch Berücksichtigung von zu vielen Regressoren die beabsichtigte ceteris paribus Interpretation zu verfälschen. Plausibilität des „konstant Haltens“ muss im Einzelfall
n = 4,36 + 0,275 lsales + 0,0179 roe lsalary
lsalary
geprüft werden.
= 4,36 + 0,275 lsales + 0,0179 roe
(0,24) (0,033)
n = 209
2
(0,0040)
R = 0,282
(6.26)
R = 0,275
2
Wenngleich Modell (6.26) besser zu den Daten zu passen
scheint als Modell (6.25), sind R2 und R2 keine relevanten Vergleichskriterien, da sie sich auf unterschiedliche abhängige Variablen beziehen.
6–33
6–34
• Beispiel 1: Reduziert eine höhere Biersteuer die Zahl der Ver-
• Beispiel 2: Hauspreis als Funktion des geschätzten Wertes
kehrstoten? Vermutung: Bei höherer Steuer weniger Bierkon-
und der Hausmerkmale.
sum, dadurch sicherere Fahrweise. Modell:
Modell: log(price) = β0 + β1 log(assess) + β2 log(lotsize) + β3
Unfalltote = β0 + β1 Steuersatz + β2 gefahrene Meilen + β3 An-
log(sqft) + β4 bdrms +…
teil männlich + β4 Bevölkerungsanteil 16-21 + …
Geeignet, um Rationalität der Preisfindung via H0: β1 = 1 zu tes-
Was, wenn zusätzlich noch Bierkonsum kontrolliert wird?
ten. Kontrolle für geschätzten Preis nicht sinnvoll, wenn man
Unfalltote = β0 + β1 Steuersatz + β2 Bierkonsum …
Preiswirkung der Hausmerkmale in einer hedonischen Preis-
Jetzt misst β1 den Steuereffekt auf Unfallopfer bei gegebenem
funktion bestimmen will. Dann geeignetes Modell:
Bierkonsum, das ist nicht mehr sinnvoll zu interpretieren.
log(price) = β0 + β1 log(lotsize) + β2 log(sqft) + β3 bdrms + …
Zweites Modell hat niedrigeres R2, aber gesuchte Interpretation.
6–35
6–36
• Einzelfallentscheidungen zwischen omitted variable bias und
Kapitel 6: Anwendungen des KQ-Schätzers
over-controlling.
• Es kann sinnvoll sein, zusätzliche erklärende Variablen ins Mo-
6.1 Auswirkung von Skalierung
dell aufzunehmen, die nicht mit den bereits berücksichtigten
6.2 Alternative funktionale Formen
korreliert sind und keine omitted variable bias abbauen: Je grö-
6.3 Schätzgüte und Auswahl der Regressoren
ßer der erklärte Teil der Gesamtvariation der abhängigen Variable, umso kleiner ist die Fehlertermvarianz, umso kleiner die
6.4 Vorhersage und Analyse der Residuen
Streuung der Parameter und umso präziser die Schätzung.
• Allerdings besteht immer das Risiko von Multikollinearität.
6–37
6–38
•
6.4 Vorhersage und Analyse der Residuen
rameter θ0 als Schätzer des zugehörigen y bestimmen:
6.4.1 Konfidenzintervalle von Vorhersagen
wahr:
θ0 = β0 + β1 c1 + β2 c 2 + ... + βk c k
geschätzt:
θˆ 0 = βˆ 0 + βˆ 1 c1 + βˆ 2 c 2 + ... + βˆ k c k
die vorhergesagten Werte.
•
Geschätzt:
ŷ = βˆ 0 + βˆ 1 x1 + βˆ 2 x 2 + ... + βˆ k xk
(6.27)
•
(
2
Zufallsvariablen sind, überträgt sich diese Eigenschaft auch auf
ck
=
xk
,
.
.
.
,
c2
=
Vorhersagen werden mittels KQ-Schätzer erzeugt. Da letztere
x
,
c1
=
x1
y
E
=
•
Setzt man Werte c1, …, ck für x1, …, xk ein, so lässt sich der Pa-
)
(6.28)
(6.29)
Hat man θ̂0 , so lässt sich bei großer Zahl von Freiheitsgraden
ein 95%-Konfidenzintervall als: θ̂0 ± 1,96 se(θ̂0 ) bestimmen.
•
Frage: Was ist bei einer kleinen Zahl von Freiheitsgraden an-
ders?
6–39
6–40
• Wie lässt sich se( θ̂0 ) bestimmen? Trick:
Schritt 1:
•
wenn alle erklärenden Variablen an ihrem Stichprobenmittel-
β0 = θ0 - β1 c1 - β2 c 2 - ... - βk c k
wert betrachtet werden, d.h. wenn cj = x j. Je weiter sich die cj
Schritt 2: Einsetzen in y = β0 + β1 x1 + β2 x 2 + ... + βk xk + u
von x j entfernen, umso größer wird die Varianz der Vorhersa-
Schritt 3: ergibt
y = θ0 + β1 (x1 - c1 ) + β2 (x 2 - c 2 ) + ... + βk (xk - c k ) + u
Die Varianz des vorhergesagten Wertes ( θ̂0 ) ist am kleinsten,
ge.
(6.30)
Für jedes i wird xij ersetzt durch xij – cj. Dieses Modell lässt sich
schätzen. Nun sind der Achsenabschnitt und sein Standardfehler Schätzer für θ̂0 und se( θ̂0 ).
6–41
•
Alternativ zur fiktiven oder durchschnittlichen Beobachtung c
6–42
•
kann auch die Vorhersage mit Vorhersageintervall für eine tatsächliche Beobachtung interessieren. In diesem Fall ist auch
Da β̂ j unverzerrt ist, folgt E(yˆ 0 ) = y 0 und E(eˆ 0 ) = 0 , gegeben die
beobachteten Daten.
•
Var(eˆ 0 ) = Var(y 0 − yˆ 0 ) = Var(u0 − yˆ 0 )
Von allen Bestandteilen von y0 ist nur u0 stochastisch, βj und x 0j
Konfidenzintervalls des vorhergesagten Wertes beachtet werden:
sind Konstante (vergleiche 6.33). Der wahre Fehler u0 ist mit
den Daten der Stichprobe unkorreliert, daher auch mit β̂ j und
Modell für Beobachtung 0:
x 0j und somit ŷ 0 .
0
u
+
0k
x
βk
+
.
.
.
+
02
x
β2
+
01
x
β1
+
β0
=
0
y
der Störterm relevant und muss bei der Bestimmung des
(6.33)
Vorhersage:
ŷ 0 = βˆ 0 + βˆ 1 x10 + βˆ 2 x 02 + ... + βˆ k xk0
Vorhersagefehler:
eˆ 0 = y 0 − yˆ 0 = (β0 + β1 x10 + β2 x 02 + ... + βk xk0 ) + u0 − yˆ 0
Daher
Var(eˆ 0 ) = Var(u0 - yˆ 0 )
= Var(u0 ) + Var(yˆ 0 ) = σ 2 + Var(yˆ 0 )
(6.34)
6–43
(6.35)
σ2 ist konstant und Var( ŷ 0 ) hängt z.B. von der Stichprobengrö6–44
ße ab, die die Varianz von β̂ j bestimmt.
2
•
0
Da σ und Var( ŷ ) geschätzt werden können, ergibt sich
{
0
2
0
se(eˆ ) = σˆ + [se(yˆ )]
•
}
2 12
Beispiel: Schätzung der Streuung einer Vorhersage für eine
vorgegebene Merkmalskombination:
(6.36)
colGPA = 1,493 + 0,00149 sat – 0,01386 hsperc
(0,075) (0,00007)
Wie im Fall von β̂ j gilt: ê 0 se( ê 0 ) ~ t n − k −1. Dadurch ergibt sich für
– 0,06088 hsize + 0,00546 hsizesq
das Konfidenzintervall
P[ − t α /2 ≤
(0,01650)
ê0
≤ t α /2 ] = 1- α
se(eˆ 0 )
n = 4137,
Einsetzen ergibt das Konfidenzintervall für y0:
y 0 − yˆ 0
P[ − t α /2 ≤
≤ t α /2 ] = 1- α
se(eˆ 0 )
P[yˆ 0 − t α /2 ⋅ se(eˆ 0 ) ≤ y 0 ≤ yˆ 0 + t α /2 ⋅ se(eˆ 0 )] = 1- α
(0,00056)
R2 = 0,278,
(0,002277)
R2 = 0,277,
(6.32)
σ̂2 = 0,560
colGPA = College Note
sat
(6.37)
= Testpunkte
hsperc = High School Rang
hsize
= High School Größe (in 100 Schülern)
Vorhergesagter Wert, wenn sat = 1200, hsperc = 30, hsize = 5:
6–45
6–46
Der Achsenabschnitt entspricht dem vorhergesagten Wert θ̂0
colGPA = 2,70.
Zur Bestimmung des Standardfehlers und Konfidenzintervalls
und 0,020 ist sein Standardfehler, se( θ̂0 ).
Variablen umkodieren (vgl. 6.30):
Konfidenzintervall: 2,70 ± 1,96 ⋅ (0,020), somit [2,66; 2,74], was
sat0 = sat -1200, hsperc0 = hsperc -30, hsize0 = hsize -5,
wegen der großen Stichprobengröße sehr eng ausfällt.
0
hsizesq = hsizesq -25.
Neuschätzung ergibt:
colGPA = 2,700 + 0,00149 sat0 – 0,01386 hsperc0
(0,020) (0,00007)
(0,00056)
0
– 0,06088 hsize + 0,00546 hsizesq0
(0,01650)
n = 4137,
R2 = 0,278,
(0,00227)
R2 = 0,277,
σ̂ = 0,560
6–47
6–48
6.4.2 Analyse der Residuen und log(y) als abhängige Variable
•
•
•
Unter CLM-Annahmen (MLR.1–MLR.6) gilt daher für 6.39:
E(y x ) = exp(σ 2 2)× exp(β0 + β1 x1 + β2 x 2 +... + βk xk ),
Wenn yi den Preis von Gut i angibt und ûi < 0 ist, erkennt man
wobei x die unabhängigen Variablen beschreibt und σ2 die Va-
preiswerte Güter.
rianz von u ist.
Auch logarithmierte abhängige Variablen lassen sich vorhersagen:
•
Es gilt: Wenn u ~ Normal(0,σ2), dann ist
E(exp(u)) = exp(σ2/2).
Dies kann über wichtige ausgelassene Faktoren informieren.
xk
βk
+
.
.
.
x2
β2
+
x1
β1
+
β0
=
y
g
o
l
•
Es kann informativ sein, die beobachtungsspezifischen Abweichungen vom vorhergesagten Wert anzuschauen, uˆ i = y i - yˆ i .
•
ˆ
ˆ
ˆ
ˆ
•
(6.39)
Zur Vorhersage von y nutzt man also
ŷ = exp(σˆ 2 2) ⋅ exp(logy) ,
(6.40)
wobei σ̂ 2 ein unverzerrter Schätzer von σ2 ist. Da σ̂ 2 > 0,
Allerdings ist es falsch, den Wert für y daraus durch einfaches
exp( σ̂ 2 /2) > 1.
Exponentieren zu gewinnen: ŷ = exp(logy).
•
Unter MLR.6 ergibt (6.40) konsistente Vorhersagen ŷ .
6–50
6–49
•
Ohne MLR.6 gilt
E(y x) = α0exp(β0 + β1 x1 + β2 x 2 +... + βk xk ) ,
•
(6.41)
das Quadrat der Stichprobenkorrelation von ŷi aus Schritt (iv)
wobei α0 = E(exp(u)). Hat man α̂ 0 , so lässt sich vorhersagen
ŷ = αˆ 0 exp(logy)
•
Ein Maß für die Schätzgüte der Regression von log(y) für y ist
mit dem tatsächlichen yi.
(6.42)
•
Beispiel:
log(salary) = β0 + β1 log(sales) + β2 log(mktval)
Vorgehensweise zur Vorhersage von y, wenn die abhängige
Variable log(y) ist:
(i)
+ β3 ceoten +u
salary = Gehalt des CEO in Tausend $
Bestimme nach der KQ-Schätzung log yi
sales = Umsatz in Mio $
(ii) Berechne für jedes i m̂i = exp(logy i )
mktval = Marktwert des Unternehmens
(iii) Regressiere y auf m̂ ohne Achsenabschnitt.
ceoten = Betriebszugehörigkeitsdauer des CEO (in Jahren)
Der Koeffizient dieser Regression durch den Ursprung
ist ein Schätzer für α0.
(iv) Mit log yi und α̂ 0 lässt sich gemäß (6.42) ŷ bestimmen.
6–51
lsalary = 4,504 + 0,163 lsales + 0,109 lmktval + 0,0117 ceoten
(0,257) (0,039)
n = 177,
2
R = 0,318
(0,0053)
(0,0053)
(6.45)
6–52
Eine Regression von salary auf m̂i
= exp(lsalaryi) ergibt
α̂0 ≈ 1,117 .
6.5. Überblick
•
Für sales = 5000, mktval = 10 000 und ceoten = 10 ergibt sich:
Bei der Verwendung von Logarithmen zu beachten
1. Koeffizienten sind als relative, d.h. prozentuale Änderungen
4,504 + 0,163 log(5000) + 0,109 log(10 000) + 0,0117 · 10 ≈
zu interpretieren; andere Maßeinheiten spielen keine Rolle.
7,013.
2. Typischerweise werden Geldbeträge oder Variablen mit ho-
Somit ist der vorhergesagte Wert 1,117· exp(7,013) = 1240,967
her Streuung logarithmiert, seltener Jahres- oder Anteils-
bzw. 1,2 Mio $. Die Corr(salaryi, salaryi) = 0,493, so dass wir
maße.
3. Logarithmierte
einen quadrierten Wert von 0,243 erhalten. Dieser ist höher als
2
abhängige
Variablen
ergeben
häufiger
homoskedastische und normalverteilte Störterme.
das R von 0,201 aus dem nicht-logarithmierten Modell. Insofern kann man das logarithmierte Modell wegen besserer
4. Logarithmieren der abhängigen Variable reduziert die Be-
Schätzgüte, aber auch wegen leichter zu interpretierender Pa-
deutung von Ausreisserbeobachtungen. Bei y-Werten nahe
rameter vorziehen.
0 kann log(y) höhere Streuung haben als y.
6–53
5. Logarithmieren ist nicht möglich, wenn y=0 sein kann. Oft
wird hier log(1+y) genutzt.
•
Bei Verwendung von Interaktionstermen zu beachten:
1. Hier kann der partielle Effekt einer Variable x1 vom Wert ei-
6. Vorhersagen mit log(y) sind komplexer als mit y.
•
6–54
ner Variable x2 abhängen.
Bei Verwendung quadratischer Terme zu beachten:
2. Es kann zur Interpretation hilfreich sein, vor der Schätzung
1. Quadrierte erklärende Variablen erlauben steigende und fal-
die Variablen um relevante Werte zu zentrieren; sonst misst
der Koeffizient der Haupteffekte den partiellen Effekt von x1
lende Effekte.
2. Maximal- und Minimalstellen sollten berechnet und überprüft
wenn die interagierte Variable x2 den Wert x2=0 annimmt.
3. Statistische Signifikanz von Interaktionstermen ergibt sich
werden.
3. Bei quadrierten erklärenden Variablen können auch kleine
aus t-Tests, ökonomische Signifikanz aus dem Vergleich
verschiedener vorhergesagter Werte.
Koeffizienten einflussreich sein.
6–55
6–56
Schlüsselbegriffe Kapitel 6:
Literatur Kapitel 6:
Skalierung
Standardisierung
Semielastizität
Interaktionsterm
2
2
Angepasstes R , R
ability bias
over-controlling
Hedonische Preisfunktion
Genestetes Model
Vorhersage-Konfidenzintervall
•
Wooldridge, Kapitel 6
•
Von Auer, Kapitel 11, 13, 14
•
Hill / Griffiths / Judge, Kapitel 6, 10
•
Stock / Watson, Kapitel 8, 9
6–57
6–58
Leitfragen und Lernziele Kapitel 7:
Kapitel 7: Binäre Variablen
•
7.1 Qualitative Information und einfache Dummy-Variablen
Welche Kontrollvariablen lassen sich als Dummy-Variablen repräsentieren?
7.2 Dummy-Variablen für Kategorien
•
7.3 Interaktion mit Dummy-Variablen
Wie kann man Achsenabschnitts- und Steigungsparameter
gruppenspezifisch bestimmen?
7.4 Binäre Variablen als abhängige Variablen: Lineares
•
Wahrscheinlichkeitsmodell
Wie ist mit Dummy-Variablen als abhängigen Variablen zu verfahren?
7–1
•
7.1 Qualitative Information und einfache Dummy-Variablen
•
7–2
Wir unterscheiden quantitative und qualitative Variablen.
Erstere werden in der Regel stetig (Beispiel: Alter, Lohnsatz),
Die Kodierung mit den Werten 0 und 1 ist willkürlich (1 und 2
oder -1 und 1 wären auch möglich), hat aber Interpretationsvorteile.
letztere z.B. binär kodiert (Beispiel: Geschlecht männlich
ja/nein, Hausbesitzer ja/nein).
•
Man spricht von binären, Dummy-, dichotomen, Null-Eins- oder
Indikator-Variablen.
•
Konvention ist, dass die Variable nach der zutreffenden Kategorie benannt ist und diese mit 1 kodiert ist, so dass 1 = ja und
0 = nein (Beispiel: weiblich, Besitzer, erwerbstätig). Ein Variablenname „Geschlecht“ ist nicht informativ.
7–3
7–4
•
Beispiel 1: wage = β0 + δ0 female + β1 educ + u
(7.1)
•
Grafisch verschiebt der Dummy-Koeffizient den Achsenabschnitt β0 um δ0:
Die Variable female hat für Frauen den Wert 1, für Männer den
Geradengleichung für Männer: wage = β0 + β1 educ
Wert 0. δ0 gibt den mittleren Lohnunterschied für Männer und
Geradengleichung für Frauen: wage = (β0 + δ0) + β1 educ
Frauen an, wenn Bildung konstant gehalten wird. Wenn δ0 < 0,
verdienen Frauen weniger als Männer.
Wenn E(u | female,educ ) = 0, dann
δ0 = E (wage | female = 1,educ) – E (wage | female = 0,educ)
bzw. δ0 = E ( wage | female,educ ) – E (wage | male,educ)
(7.2)
7–5
7–6
• Frage: Warum nicht:
wage = β0 + δ0 female + δ1 male + β1 educ + u ?
Antwort: Modell wäre perfekt multikollinear (dummy variable
trap). Der Wert der Konstante (=1) ergibt sich als Linearkombination, Konstante = female + male. Außerdem: Mit zwei Gruppen (männlich/weiblich) brauchen wir zwei Achsenabschnittswerte und die lassen sich mit einer Dummy-Variable und der
Konstanten bereits erzeugen.
•
Die Gruppe, für die die Dummy-Variable mit Null kodiert ist,
nennt man Basis- oder Referenzgruppe, sie ist der Vergleichsmaßstab bei der Interpretation des Koeffizienten δ0.
7–7
7–8
•
Ersetzt man die Variable female durch die Variable male, ver-
•
schieben sich β0 um δ1, aber die zentralen Aussagen bleiben
det auch die Formulierung
gleich.
Wenn:
Alternativ zur Formulierung mit Konstante und Dummy vermei-
wage = β0 male + α0 female + …
wage = β0 + δ0 female + β1educ + u
und
die „dummy variable trap“. Allerdings lässt sich der Geschlechtsunterschied schwerer interpretieren und ohne Kon-
wage = α0 + γ0 male + β1 educ + u
stante ist R2 nicht definiert.
ergibt sich für Frauen: α0 = β0 + δ0 und für Männer β0 = α0 + γ0.
7–9
•
7–10
Beispiel 1: wage = -1,57 – 1,81 female + 0,572 educ
(0,72) (0,26)
trolliert sind (z.B. Beruf). Ohne Kontrollvariablen:
(0,049)
wage = 7,10 – 2,51 female
+ 0,025 exper + 0,141 tenure
(0,012)
(0,021)
(0,21) (0,30)
(7.4)
n = 526,
(7.5)
R2 = 0,116
R2 = 0,364
Nach dieser Schätzung verdienen Frauen im Mittel 2,51 $ we-
Der negative Achsenabschnitt (hier für Männer und Frauen) ist
niger als Männer. Der mittlere Verdienst für Männer ist 7,10 $.
nur für den Fall relevant, in dem alle erklärenden Variablen Null
Der geschätzte Koeffizient für Frauen ist signifikant: t = -
sind. Bei gleichen Werten für educ, exper, tenure verdienen
2,51/0,30 = -8,37.
n = 526,
Frauen im Mittel 1,81 $ (Daten von 1976) pro Stunde weniger
•
Mit der einfachen Regression lässt sich prüfen, ob es zwischen
als Männer. Dies liegt also nicht an Unterschieden in Bildung,
zwei Gruppen einen signifikanten Unterschied gibt. Der t-Test
Erfahrung oder Betriebszugehörigkeitsdauer, sondern am Ge-
ist nur unter der Annahme MLR.5 (Homoskedastie) gültig.
schlecht bzw. Faktoren, die damit korreliert und sonst nicht kon7–11
7–12
•
Der Lohnunterschied zwischen den Geschlechtern ist in (7.4)
•
Beispiel 2: Kausaler Effekt von PC-Nutzung auf Collegenoten?
kleiner als in (7.5). Dies zeigt, dass er teilweise auf Unterschie-
colGPA = β0 + δ0 PC + β1 hsGPA + β2 ACT + u
de in educ, exper und tenure zurück geht. Es belegt, dass in
PC = 1, wenn Student über PC verfügt, sonst = 0
(7.5) relevante Faktoren nicht konstant gehalten werden und
⎧> ⎫
δ0 ⎨ ⎬ 0 je nachdem, ob PCs die Produktivität erhöhen oder
⎩< ⎭
keine ceteris paribus Interpretation vorliegt. Allerdings kann
reduzieren
auch (7.4) noch zu wenig Kontrollvariablen aufweisen, um kau-
colGPA = 1,26 + 0,157 PC + 0,447 hsGPA + 0,0087 ACT
sal interpretierbare Effekte zu generieren (Bsp.: Beruf, körperli-
(0,33) (0,057)
cher Anspruch des Jobs, Weiterbildung, Engagement, Motivati-
n = 141,
on, etc.).
(0,094)
(0,0105)
2
R = 0,219
(7.6)
Gegeben Schulnoten und Testergebnisse (ACT), sind die Noten von PC-Besitzern im Mittel signifikant (tPC = 0,157/0,057 =
2,75) um 0,157 Notenpunkte höher als die von Nicht-PCBesitzern. Es ist denkbar, dass PC-Besitz mit hsGPA oder ACT
7–13
korreliert. Dann ergibt sich ohne Kontrolle für hsGPA und ACT
7–14
•
Unter der Annahme E(u PC, hsGPA, ACT) = 0 lässt sich der
ein anderes δ0. Tatsächlich ändert sich wenig δ̂0 = 0,17 mit
Koeffizient δ̂0 als kausaler Effekt interpretieren. Dies gilt aber
se( δ̂0 ) = 0,063.
z.B. dann nicht, wenn Einkommen oder Bildung der Eltern sowohl PC als auch colGPA beeinflusst. Man könnte sich vorstellen, dass
E(u PC = 1, hsGPA, ACT) > E(u PC = 0, hsGPA, ACT) ,
wenn Kinder reicher Eltern sowohl eher einen PC haben, als
auch bessere Förderung erhalten und z.B. weniger Zeit für
Erwerbstätigkeit verwenden. Die kausale Interpretation ist also
nicht immer plausibel.
7–15
7–16
•
Dummy-Variablen werden auch zur Politikevaluation ein-
•
Beispiel 3: Wirkung von Weiterbildungssubventionen
gesetzt. Man unterscheidet die Nichtteilnehmer (control
group) von den Teilnehmern (treatment
hrsemp = 46,67 + 26,25 grant - 0,98 log(sales)
group) einer
(43,41)
(5,59)
(3,54)
Maßnahme (z.B. Arbeitsförderung). Wenn durch multiple
- 6,07 log(employ)
Regression alle Faktoren kontrolliert werden können, die zur
(3,88)
Zuteilung auf eine der Gruppen geführt haben, kann der
(7.7)
2
n = 105 Unternehmen,
Koeffizient einer Variable "treatment" als kausaler Effekt
R = 0,237
hrsemp = Weiterbildungsstunden pro Mitarbeiter (Mittelwert 17)
interpretiert werden.
grant
= 1, wenn Unternehmen Subventionen erhält, sonst 0
sales
= Jahresumsatz des Unternehmens
employ = Anzahl der Beschäftigten
7–17
Subvention (treatment hier) hat statistisch und ökonomisch
signifikanten Effekt von 26 Stunden. Umsatz insignifikant,
größere Arbeitgeber bilden weniger weiter, mit
•
Beispiel 4: Interpretation von Dummies bei log-abhängigen Variablen (immer: natürlicher Logarithmus)
log(price) = 5,56 + 0,168 log(lotsize) + 0,707 log(sqrft)
-6,07/3,88 = -1,56, t103, 10% = 1,65.
•
7–18
(0,65) (0,038)
(0,093)
+ 0,27 bdrms + 0,054 colonial
Kausaler Effekt? Vielleicht hätten Subventionsempfänger so-
(0,029)
wieso weitergebildet: Dann E(u | grant = 1,x) > E(u | grant =
(0,045)
(7.8)
R2 = 0,649
0,x). Auswahl der Subventionsempfänger relevant. Wenn Zufall
n = 88,
(unkorreliert), dann eher kausaler Effekt, als wenn systemati-
price = Hauspreis
lotsize = Grundstücksgröße
sqrft = Wohnfläche
bdrms = Anzahl Zimmer
sche Auswahl.
colonial = 1, Haus im Kolonialstil, = 0 nicht
7–19
7–20
•
•
Bei großen Koeffizienten berechnet man
(exp(β) – 1) · 100, d.h. hier exp(0,054) - 1 = 0,055
(7.10)
zurück zu Beispiel 1:
log(wage) = 0,417 – 0,297 female + 0,080 educ
(0,099) (0,036)
log(price) unterscheidet sich ceteris paribus um 0,054, wenn im
(0,007)
+ 0,029 exper – 0,00058 exper2
Kolonialstil. Kleiner Effekt kann als Prozentgröße interpretiert
(0,005)
werden, d.h. 5,4% Preisaufschlag, wenn Kolonialstil.
(0,00010)
+ 0,032 tenure – 0,00059 tenure2
(0,007)
n = 526,
(0,00023)
R2 = 0,441
Lohnabschlag für Frauen approximativ 29,7%.
Genauer: log(wageF) – log(wageM) = -0,297
Exponenzieren, dann minus 1:
7–21
n
wage
F
n
wage
M
−1=
n − wage
n)
(wage
F
M
7–22
Kapitel 7: Binäre Variablen
= exp( −0,297) − 1
n
wage
M
7.1 Qualitative Information und einfache Dummy-Variablen
≈ 0,743 − 1 = −0,257
7.2 Dummy-Variablen für Kategorien
Ceteris paribus Lohnabschlag beträgt 25,7%, nicht 29,7%.
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–23
7–24
•
7.2 Dummy-Variablen für Kategorien
•
Man kann 4 Gruppen bilden: verheiratete Männer, verheiratete
Frauen und je unverheiratet. 3 von diesen Gruppen werden in
Man kann auch mehrere Dummy-Variablen in einer Schätzung
der Regression kontrolliert, die vierte (hier unverheiratete Män-
haben. Ergänzt man die Lohnregression um die Variable
ner) ist die Referenzgruppe:
married, so erhält sie einen positiven Koeffizienten von 0,053
log(wage) = 0,321 + 0,213 marrmale – 0,198 marrfem
(0,041) und der female Dummy sinkt auf -0,290 (0,036). Inte-
(0,100) (0,055)
ressant wäre, ob sich der „Verheiratetenzuschlag“ nach dem
(0,056)
– 0,110 singfem + 0,079 educ + 0,027 exper
Geschlecht unterscheidet.
(0,056)
(0,007)
(0,005)
2
– 0,00054 exper + 0,029 tenure
(0,00011)
(0,007)
2
– 0,00053 tenure
(0,00023)
(7.11)
7–25
n = 526,
R2 = 0,461
7–26
•
Zum Test auf Signifikanz der Unterschiede zwischen Teilgruppen ist eine Neuschätzung mit einer anderen Referenzgruppe
Alle Koeffizienten sind am 5%-Niveau signifikant. Die Gruppenindikatoren werden relativ zur Referenzgruppe interpretiert.
Verheiratete Männer verdienen approximativ 21,3% mehr als
nicht verheiratete, verheiratete Frauen verdienen approximativ
19,8% weniger und nicht verheiratete Frauen ca. 11% weniger.
Mit den Koeffizienten können die Lohnunterschiede zwischen
Gruppen bestimmt werden.
am einfachsten, z.B.
log(wage) = 0,123 + 0,411 marrmale + 0,198 singmale
(0,106) (0,056)
(0,058)
+ 0,088 singfem + …
(0,052)
Unterschied verheiratete/unverheiratete Frauen wie zuvor
0,088, aber nicht signifikant. Unterschied verheiratete Männer
vs. verheiratete Frauen größer und signifikant. Lohnabstände
zwischen Teilgruppen sind konstant und unabhängig von der
Referenzgruppe.
7–27
7–28
•
Bei g Gruppen verwendet man g-1 Indikatorvariablen plus Konstante.
•
•
Beispiel: Löhne und Schönheit
Attraktivität in 3 Kategorien erfasst (unter Durchschnitt =
Ordinale Informationen können ebenfalls über DummyVariablen in der Schätzgleichung berücksichtigt werden (z.B.
belavg, Durchschnitt = avg, über Durchschnitt = abvavg):
Männer: log(wage) = β̂0 – 0,164 belavg + 0,016 abvavg + …
gut, mittel, schlecht).
•
(0,046)
n = 700,
Frage: In einer Regression des Gehalts von Fußballspielern
soll für die Position des Spielers kontrolliert werden. Im Daten-
Frauen:
R = 0,403
log(wage) = β̂0 – 0,124 belavg + 0,035 abvavg + …
satz wird Angriff, Mittelfeld und Verteidigung unterschieden.
Welche Dummyvariablen würden Sie im Modell berücksichti-
(0,033)
2
(0,066)
n = 409,
(0,046)
2
R = 0,330
gen?
7–29
Lohnabschlag wenn unattraktiv für Männer größer als für Frau-
7–30
Kapitel 7: Binäre Variablen
en. Lohnzuschlag in beiden Fällen positiv, aber insignifikant
•
•
(Referenz ist Durchschnitt).
7.1 Qualitative Information und einfache Dummy-Variablen
Frage: Wie würden Sie die Hypothese testen, dass das Ausse-
7.2 Dummy-Variablen für Kategorien
hen für die Bezahlung von Männern keine Rolle spielt?
7.3 Interaktion mit Dummy-Variablen
Hat eine ordinale Variable zu viele Kategorien, um diese ein-
7.4 Binäre Variablen als abhängige Variablen: Lineares
zeln zu schätzen, kann man sie in Gruppen zusammenfassen,
Wahrscheinlichkeitsmodell
z.B. Kinderzahl 0-1, Kinder 2-3, Kinder 4-5, Kinder 6-7, Kinder
≥ 8.
7–31
7–32
•
7.3 Interaktion mit Dummy-Variablen
anderen Größen, auch anderen Dummies abhängen, z.B. vari-
7.3.1 Interaktion zwischen Dummy-Variablen
•
Auch die partiellen Effekte von Dummy-Variablen können von
iert der Verheiratetenzuschlag beim Lohn mit dem Geschlecht.
Bei stetigen Variablen hatten wir Interaktionen genutzt, um die
Dies berücksichtigt man in der Regel durch das Hinzufügen ei-
Abhängigkeit partieller Effekte von erklärenden Variablen zuzu-
nes Interaktionseffektes zu den einzelnen Haupteffekten.
lassen (vgl. Kapitel 6.2). Man verwendet dabei entweder andere Variablen oder Polynome, d.h. Interaktion mit der gleichen
erklärenden Variable (Bsp.: β1 income + β2 income2 +…).
•
Beispiel:
7–33
7–34
log(wage) = 0,321 – 0,110 female + 0,213 married
+ 0,213 – 0,301. Die Vorhersagen sind exakt wie zuvor und be-
(0,100) (0,056)
(0,055)
schreiben verschiedene Achsenabschnitte für die vier Gruppen.
– 0,301 female · married + …
(0,072)
(7.14)
Auch mit dieser Spezifikation lässt sich der Lohnunterschied für
die oben beschriebenen 4 Gruppen abbilden: Wenn female = 0
•
Ein Vorteil der Spezifikation mit Interaktionsterm ist, dass man
direkt die Signifikanz des Interaktionsterms testen kann, z.B. ob
der Effekt des Geschlechts mit dem Familienstand variiert und
umgekehrt.
und married = 0, erhalten wir den Lohn für unverheiratete Männer, d.h. hier die Konstante. Female = 1 und married = 0 ergibt
den Lohn für unverheiratete Frauen: 0,321 – 0,110. Female =
0, married = 1 für verheiratete Männer: 0,321 + 0,213 und
female = 1, married = 1 für verheiratete Frauen: 0,321 – 0,110
7–35
7–36
7.3.2 Interaktion von Dummy- mit stetigen Variablen
•
Interaktionen können nicht nur dazu genutzt werden, unterschiedliche Achsenabschnitte zu bestimmen, sondern auch, um
die Steigungsparameter nach Gruppen getrennt auszuweisen.
•
Beispiel:
log(wage) = (β0 + δ0 female)
+ (β1 + δ1 female) · educ + u
(7.16)
Für Männer log(wage) = β0 + β1 educ + u
Für Frauen
log(wage) = (β0 + δ0) + (β1 + δ1) · educ + u
Wenn δ̂0 und δ̂1 signifikant von Null verschieden sind, unterscheidet sich das Modell für beide Gruppen.
7–37
•
•
Das Modell wird wie folgt geschätzt:
log(wage) = β0 + δ0 female + β1 educ
+ δ1 (female · educ) + u
7–38
Beispiel: Hautfarbe und Gehalt von Baseballspielern
log(salary) = 10,34 + 0,0673 years + 0,0089 gamesyr
(7.17)
Wenn δ0 = 0 und δ1 ≠ 0, unterscheidet sich lediglich der partielle Effekt von educ für die Geschlechter, der Achsenabschnitt ist
gleich. Wenn δ0 ≠ 0 und δ1 = 0, unterscheidet sich lediglich der
Achsenabschnitt und der partielle Effekt von educ ist für beide
Gruppen identisch.
(2,18) (0,0129)
(0,0034)
+ 0,00095 bavg + 0,0146 hrunsyr + 0,0045 rbisyr
(0,00151)
(0,0164)
(0,0076)
+ 0,0072 runsyr + 0,0011 fldperc + 0,0075 allstar
(0,0046)
(0,0021)
(0,0029)
– 0,198 black – 0,190 hispan + 0,0125 black · percblack
Mit einem F- (oder LM-) Test lässt sich H0: δ0 = 0, δ1 = 0 tes-
(0,125)
(0,153)
(0,0050)
ten.
+ 0,0201 hispan · perchisp
7–39
7–40
(0,0098)
n = 330 Spieler,
perchisp
R2 = 0,638
(0 – 100)
(7.19)
years
= Jahre in Major League
Teste ob die vier Ethnie-Indikatoren gemeinsam signifikant
games
= Spiele/Jahr in Major Leage
sind, R2restr. = 0,626.
bavg
= career batting average
hrunsyr
= home runs per year
F=
fldperc
= career fielding percent
H0 verworfen, Indikatoren am 5%-Niveau gemeinsam signifi-
allstar
= percent of years an all-star
kant. Wenn percblack = 0, erhält ein schwarzer Spieler im Mittel
black
= 1, Spieler ist schwarz, 0 nicht
ca. 19,8% weniger Gehalt als ein weißer. Gehalt steigt, wenn
hispan
= 1, Spieler ist hispanic, 0 nicht
Anteil Schwarzer in der Stadt steigt; bei 10% ist Gehaltsunter-
(0,638 − 0,626) / 4
0,003
=
= 2,63
(1 − 0,638) / (330 − 13) 0,0011
F4, 317, 5% ≈ 2,37,
schied: -0,198 + 0,0125 · 10 = -0,073, Abschlag nur noch 7,3%
percblack = Bevölkerungsanteil Schwarzer in Stadt des Teams
bei gleicher Qualität der Spieler. Wenn percblack = 20, Auf-
(0 – 100)
7–41
7–42
schlag von 5,2% (beobachteter max. percblack-Wert = 74%).
7.3.3 Gruppenspezifische Unterschiede in der Regressions-
Wenn perchisp = 0, Abschlag von ca. 19% für Hispanics ge-
funktion
genüber weißen Spielern. Ab 9,45% Hispanics Abschlag aus-
•
geglichen. Nicht unterscheidbar, ob Diskriminierung oder evtl.
die besten und somit höchstverdienenden schwarzen Spieler in
Städten mit schwarzer Bevölkerung spielen wollen.
•
= Bevölkerungsanteil Hispanics in Stadt des Teams
Mit Interaktionstermen lässt sich prüfen, ob ganze Regressionsgleichungen nach Gruppen unterschiedlich ausfallen.
•
Beispiel: Collegenoten für männliche und weibliche Sportler
cumgpa = β0 + β1 sat + β2 hsperc + β3 tothrs + u
Frage: Wie würden Sie im Modell (7.19) die Hypothese testen,
cumgpa = kumulierter Grad Point Average
dass der Lohneffekt von years von der Hautfarbe abhängt?
sat
= SAT-Testpunkte
hsperc = Rang der Highschool
tothrs
7–43
= SWS
7–44
•
- 0,0085 hsperc – 0,00055 female · hsperc
Vollständig interagiertes Modell erlaubt Geschlechterunter-
(0,0014)
schiede für jeden der Parameter.
+ 0,0023 tothrs
cumgpa = β0 + δ0 female + β1 sat + δ1 female · sat
- 0,00012 female · tothrs
(0,0009)
+ β2 hsperc + δ2 female · hsperc
+ β3 tothrs + δ3 female · tothrs + u
(0,00316)
n = 366,
(7.20)
(0,00163)
R2 = 0,406,
(7.22)
R 2 = 0,394
Gleiches Modell für beide Geschlechter, wenn H0:
Nur ein Interaktionsterm statistisch signifikant. Restringiertes
δ0 = 0, δ1 = 0, δ2 = 0, δ3 = 0 gilt.
Modell ergibt R2 = 0,352, so dass F = 8,14 mit p < 0,0001. H0
ist klar verworfen. Interpretation der Geschlechterunterschiede
Schätzergebnis:
schwierig, da viele Effekte gleichzeitig:
cumgpa = 1,48 – 0,353 female + 0,0011 sat
(0,21) (0,411)
Wenn sat = 1100, hsperc = 10, tothrs = 50, haben Frauen um
(0,0002)
0,461 bessere Noten:
+ 0,00075 female · sat
(0,00039)
7–45
-0,353 + 0,00075 · 1100 – 0,00055 · 10 – 0,00012 · 50 =
F-Test für H0 aufwändig, wenn viele erklärende Variablen. Alternative Formulierung über SSR.
•
Allgemein: k erklärende Variablen und zwei Gruppen g = 1,2:
y = βg,0 + βg,1 x1 + βg,2 x 2 + ... + βg,k xk + u
•
H0: βj,g=1 = βj,g=2 mit j = 0, …, k
•
Neu: SSRu kann als Summe der SSR von zwei getrennt geschätzten Regressionen (z.B. eine für Männer, eine für Frauen)
0,461.
•
7–46
(7.23)
ergibt k+1 Restriktionen.
Unrestringiertes Modell hat n–2·(k+1) Freiheitsgrade.
bestimmt werden, mit n1 und n2 Beobachtungen.
Dann SSRu = SSR1 + SSR2.
SSRP bezeichnet die SSR der
"gepoolten" Regression unter der Annahme, dass H0 gilt.
F=
[SSRP − (SSR1 + SSR2 )] /(k + 1)
(SSR1 + SSR2 ) / [n − 2(k + 1)]
(7.24)
Dies ist die Teststatistik für den Chow-Test; gültig unter der
Annahme, dass beide Gruppen eine identische Fehlertermvarianz haben.
7–47
7–48
•
Beispiel: SSRP = 85,515
SSRu = 78,355
F=
SSR1 = 19,603
n1 = 90
SSR2 = 58,752
n2 = 276.
[85,515 − 78,355] / 4 = 8,18
78,355 / [366 − 2(3 + 1)]
> 2,37 = F4,358,5%
Kapitel 7: Binäre Variablen
7.1 Qualitative Information und einfache Dummy-Variablen
7.2 Dummy-Variablen für Kategorien
H0 verworfen.
7.3 Interaktion mit Dummy-Variablen
7.4 Binäre Variablen als abhängige Variablen: Lineares
Wahrscheinlichkeitsmodell
7–49
7.4 Binäre Variable als abhängige Variable: Lineares Wahr-
7–50
•
scheinlichkeitsmodell (LWM)
•
Wenn y dichotom, ändert sich Interpretation von βj. Unter
MLR.4 gilt immer noch E(u x1,..., x k ) = 0 . Es folgt daher
E(y x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk ,
Ziel: Dichotome Zustände erklären, Beispiel: Abgeschlossene
Schulbildung, Drogenmissbrauch, Unternehmensübernahme
wobei
P(y = 1 x ) = E(y x )
so dass
P(y = 1 x ) = β0 + β1 x1 + β2 x 2 + ... + βk xk .
(7.27)
Die Wahrscheinlichkeit, dass y = 1, ist eine lineare Funktion
von x1,...,xk. Daher spricht man vom linearen Wahrscheinlichkeitsmodell (LWM). Es gilt:
ΔP(y = 1 x ) = β j Δx j
•
(7.28)
In diesem Fall gibt die Prognose ŷ die Wahrscheinlichkeit des
Ereignisses y = 1 an.
7–51
7–52
•
Beispiel: Erwerbstätigkeit von Frauen (1975)
inlf = 0,586 – 0,0034 nwifeinc + 0,038 educ + 0,039 exper
(0,154) (0,0014)
(0,007)
(0,006)
– 0,00060 exper – 0,016 age – 0,262 kidslt6
(0,002)
inlf
= Anzahl Kinder unter 6 Jahren
wartungen. Ein Ausbildungsjahr erhöht die Wahrscheinlichkeit
um 0,038, d.h. 3,8 Prozentpunkte. Verdient der Ehemann
+ 0,0130 kidsge6
n = 753,
kidslt6
Fast alle Variablen signifikant und Vorzeichen entsprechen Er-
(0,034)
(0,0132)
= Alter
kidsge6 = Anzahl Kinder ab 6 Jahren
2
(0,00018)
age
10.000 $ mehr, so sinkt die Wahrscheinlichkeit der Erwerbstä-
(7.29)
R2 = 0,264
tigkeit der Frau um 0,034 bzw. 3,4 Prozentpunkte. Ein weiteres
Jahr Arbeitsmarkterfahrung ändert die Wahrscheinlichkeit, dass
= 1, wenn erwerbstätig, sonst = 0
nwifeinc = Einkommen des Ehemanns in 1000 $
y = 1 um 0,039 – 2 · 0,0006 · exper, d.h. das Maximum wird
educ
= Jahre Ausbildung
nach exper* = 0,0039 / 2 · 0,0006 = 32,5 Jahren erreicht.
exper
= Arbeitsmarkterfahrung (in Jahren)
7–53
•
7–54
Schwächen des LWM:
(c) Das Modell ist heteroskedastisch. Unverzerrtheit bleibt er-
(a) Es ist möglich, dass vorhergesagte Werte außerhalb des
halten, aber Standardfehler fehlerhaft und t- und F-Test nicht
(0,1) Intervalls liegen.
anwendbar.
(b) Es ist oft unplausibel, dass einzelne Variablen über ihren
•
Selbstverständlich können lineare Wahrscheinlichkeitsmodelle
gesamten Wertebereich linear mit der abhängigen Variable zu-
Dummies als erklärende Variablen verwenden. Die Koeffizien-
sammen hängen. Beispielsweise reduzieren 4 Kinder unter 6
ten beschreiben den ceteris paribus Unterschied in der Wahr-
Jahren die Wahrscheinlichkeit um 4 · 0,262 = 1,048, d.h. um
scheinlichkeit, dass y = 1 für die beiden Gruppen.
über 100 Prozentpunkte! Problem über andere Kodierung lösbar.
7–55
7–56
Schlüsselbegriffe Kapitel 7:
Literatur Kapitel 7:
Qualitative, binäre, dichotome Variable
Dummy-Variable
dummy variable trap
Referenzgruppe
control group
treatment group
Ordinale Information
Interaktion
Interaktionseffekt
Haupteffekt
Vollständig interagiertes Modell
Chow-Test
•
Wooldridge, Kapitel 7
•
Hill / Griffiths / Judge, Kapitel 9 und 18.2
•
Stock / Watson, Kapitel 11
7–57
7–58
Herunterladen