Statistik und Ökonometrie - Universität des Saarlandes

Werbung
Ökonometrie
Vorlesung an der Universität des Saarlandes
PD Dr. Stefan Klößner
Sommersemester 2017
Ökonometrie (SS 2017)
Folie 1
1 Einleitung
Organisatorisches 1.1
Organisatorisches I
Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.04
Übung: Dienstag, 10-12, Gebäude B4 1, HS 0.06, Beginn: 25.04.
Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum)
Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 29.05. (15 Uhr)!
(Abmeldung im ViPa bis 13.07., 12 Uhr)
Hilfsmittel für Klausur
I
I
I
Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit
”
2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig)
Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung!
Durchgefallen — was dann?
I
Nachprüfung“ Ende März/Anfang April 2018 (2. Prüfungszeitraum)
”
Ökonometrie (SS 2017)
Folie 2
1 Einleitung
Organisatorisches 1.1
Organisatorisches II
Informationen und Materialien unter
http://www.oekonometrie.uni-saarland.de/
bzw. genauer
http://www.oekonometrie.uni-saarland.de/Oeko.html
Kontakt: PD Dr. Stefan Klößner
Geb. C3 1, 2. OG, Zi. 2.19
e-Mail: [email protected]
Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)
Vorlesungsunterlagen
I
I
Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters)
Download spätestens dienstags, 19:00 Uhr, vor der Vorlesung möglich
Ökonometrie (SS 2017)
Folie 3
1 Einleitung
Organisatorisches 1.1
Organisatorisches III
Übungsunterlagen
I
I
I
I
I
Übungsblätter (i.d.R. wöchentlich)
Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich
Besprechung der Übungsblätter in der Übung der folgenden Woche.
Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!
Kontakt: M.Sc. Sandra Baar
Geb. C3 1, 2. OG, Zi. 2.20
e-Mail: [email protected]
Die folgenden Folien (S. 5–128) ermöglichen bei Bedarf die Wiederholung der
wichtigsten Grundlagen aus den Veranstaltungen Deskriptive Statistik und
”
Wahrscheinlichkeitsrechung“ und Schließende Statistik“.
”
Ökonometrie (SS 2017)
Folie 4
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2017)
Folie 5
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Lage- und Streuungsmaße eindimensionaler Daten
Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten)
x1 , . . . , xn der Länge n.
Daten sollen auf wenige Kennzahlen“ verdichtet werden.
”
Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also
”
arithmetisches Mittel“ x mit:
”
n
1
1X
x := (x1 + x2 + · · · + xn ) =
xi
n
n
i=1
Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen
Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie
deren (positive) Wurzel (empirische Standardabweichung) sX mit:
!
n
n
X
p
1X
2 ! 1
2
2
sX = + sX2
sX :=
(xi − x) =
xi − x 2 =: x 2 − x 2 ,
n
n
i=1
i=1
Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,
daher i.d.R. besser zu interpretieren als Varianz sX2 .
Ökonometrie (SS 2017)
Folie 6
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten I
Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten
Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der
Länge n (also n Datenpaare)
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zu einem zweidimensionalen Merkmal (X , Y ) vorliegt.
Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von
Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind!
Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der
eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst
die empirische Kovarianz sX ,Y mit:
!
n
n
X
1X
! 1
sX ,Y :=
(xi − x)(yi − y ) =
xi · yi − x · y =: xy − x · y
n
n
i=1
Ökonometrie (SS 2017)
i=1
Folie 7
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten II
Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man
darauf aufbauend den empirischen (Bravais-)Pearsonschen
Korrelationskoeffizienten rX ,Y mit:
sX ,Y
rX ,Y :=
sX · sY
Es gilt stets −1 ≤ rX ,Y ≤ 1.
rX ,Y misst lineare Zusammenhänge, spezieller gilt
I
I
I
rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“),
”
”
rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“),
”
”
|rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.
rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene
Merkmalsausprägungen besitzen.
Ökonometrie (SS 2017)
Folie 8
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Beispiel: Empirischer Pearsonscher Korrelationskoeffizient
rX, Y = 0
20
●
●
●
●
●
●
●
●
●
●
8
15
●
●
●
80
●
●
●
●
●
●
6
●
●
●
●
●
●
●
4
●
●
Y
●
40
●
●
●
Y
●
●
10
●
60
●
●
Y
rX, Y = −1
●
10
100
rX, Y = 1
●
●
●
●
●
●
●
●
0
10
15
20
5
● ● ●
●
12
8
Y
●
●
●
● ●
Y
5.0
15
●
●
●
●
●
●
●
●
●
●
●
●
4
4.0
●
●
●
●
●
●
●
5
●
●
●
●
●
10
Y
●
●
●
●
●
●
●
●
2
●
3.0
●
●
5
10
X
15
20
20
●
●
●
●
15
rX, Y = −0.837
●
●
0
10
X
10
●
●
●
Ökonometrie (SS 2017)
5
●
6.0
20
●
●
●
20
rX, Y = 0.1103
●
●
15
X
rX, Y = 0.9652
●
●
●
10
X
●
●
●
6
5
●
●
●
●
●
●
●
2
●
5
●
20
●
●
5
10
X
15
20
●
●
●
5
10
15
●
20
X
Folie 9
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2017)
Folie 10
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen I
(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)
Abbildungen X : Ω → R von Ergebnismengen Ω eines
Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen.
Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten
bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet
werden.
Wir fassen eine Zufallsvariable auf als eine Variable“,
”
I
I
I
die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,
deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem
”
zufälligen, meist wiederholbarem Vorgang abhängen,
über deren Werteverteilung“ man allerdings Kenntnisse hat
”
( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte
( Schließende Statistik).
Ökonometrie (SS 2017)
Folie 11
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen II
Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in
mehrere Typen
Diskrete Zufallsvariablen X :
I
I
Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte
annehmen.
Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert
werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.
Stetige Zufallsvariablen X :
I
I
I
Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen)
annehmen.
Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit
deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann,
dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.
Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!
Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.
Ökonometrie (SS 2017)
Folie 12
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen III
Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X
Werte in einer bestimmten Menge A annimmt, können konkreter
I
bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche
Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch
X
P{X ∈ A} =
pX (xi )
xi ∈A
I
bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b]
oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX
durch
Z b
P{X ∈ A} =
fX (x)dx
a
berechnet werden.
Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle
Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R
festgelegt.
Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt
Verteilungsfunktion von X .
Ökonometrie (SS 2017)
Folie 13
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen I
Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)
entsprechen Momente von Zufallsvariablen.
Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung
auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht
existieren, Existenzfragen hier aber vollkommen ausgeklammert!)
Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X :
Erwartungswert bzw. auch Mittelwert µX := E(X )
I
Berechnung bei diskreter Zufallsvariablen X durch:
X
xi · pX (xi )
E(X ) =
xi ∈T (X )
I
(wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet).
Berechnung bei stetiger Zufallsvariablen X durch:
Z ∞
E(X ) =
x · fX (x)dx
−∞
Ökonometrie (SS 2017)
Folie 14
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen II
Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen
p X:
Varianz σX2 := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ),
die sog. Standardabweichung von X , mit
h
i
!
2
Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2
I
Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch:
X 2
E(X 2 ) =
xi · pX (xi )
xi ∈T (X )
I
Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch:
Z ∞
E(X 2 ) =
x 2 · fX (x)dx
−∞
Ökonometrie (SS 2017)
Folie 15
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen III
Für eine Zufallsvariable X und reelle Zahlen a, b gilt:
I
I
E(aX + b) = a E(X ) + b
Var(aX + b) = a2 Var(X )
Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine
”
(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)
Abbildungen G : R → R und H : R → R:
E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))
Ist X eine Zufallsvariable mit
p Erwartungswert µX = E(X ) und
Standardabweichung σX = Var(X ), so erhält man mit
X − E(X )
X − µX
Z := p
=
σX
Var(X )
eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.
Man nennt Z dann eine standardisierte Zufallsvariable.
Ökonometrie (SS 2017)
Folie 16
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen IV
Weiteres Lagemaß für Zufallsvariablen: p-Quantile
Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:
P{X ≤ xp } ≥ p
und
P{X ≥ xp } ≥ 1 − p
Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit
streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber
eindeutig durch Lösung der Gleichung
FX (xp ) = p
bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX
(auch Quantilsfunktion genannt) direkt durch
xp = FX−1 (p)
bestimmen.
Ökonometrie (SS 2017)
Folie 17
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Spezielle parametrische Verteilungsfamilien
Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen.
Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige
(reelle) Parameter (bzw. einen ein- oder mehrdimensionalen
Parametervektor) eineindeutig festgelegt, also
I
I
legt der Parameter(vektor) die Verteilung vollständig fest und
gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche
Verteilungen ( Identifizierbarkeit“).
”
Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum.
Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger
Verteilungsfamilien.
Ökonometrie (SS 2017)
Folie 18
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Bernoulli-/Alternativverteilung
Verwendung:
I
I
I
I
Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten
bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.
Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten
”
(bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,
es sei also
1 falls ω ∈ A
X (ω) :=
0 falls ω ∈ A
Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 .
”
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
ab; p ist also einziger Parameter der Verteilungsfamilie.
Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)
Der Träger der Verteilung ist dann T (X ) = {0, 1}, die
Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p.
Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p)
Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).
Ökonometrie (SS 2017)
Folie 19
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Bernoulli-/Alternativverteilung
B(1, p)
Parameter:
p ∈ (0, 1)
0.8
pX
0.4
0.2
pX(x)
0.6
p = 0.4
0.0
Träger: T (X ) = {0, 1}
Wahrscheinlichkeitsfunktion:

 1 − p für x = 0
p
für x = 1
pX (x) =

0
sonst
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
1.5
2.0
x
für x < 0
für 0 ≤ x < 1
für x ≥ 1
FX(x)
Verteilungsfunktion:

 0
1−p
FX (x) =

1
0.0 0.2 0.4 0.6 0.8 1.0
FX
●
p = 0.4
●
−1.0
−0.5
0.0
0.5
1.0
x
Momente: E (X )
γ(X )
Ökonometrie (SS 2017)
= p
=
Var(X )
√1−2p
p(1−p)
κ(X )
= p · (1 − p)
=
1−3p(1−p)
p(1−p)
Folie 20
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
Verallgemeinerung der Bernoulli-Verteilung
Verwendung:
I
I
I
I
I
Modellierung der unabhängigen, wiederholten Durchführung eines
Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw.
Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“).
”
Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert,
”
Nichteintreten (bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl
von n Wiederholungen des Experiments zählen.
Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für Durchführung
i) den Wert 1
P
an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi .
Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3.
n = 5, p = 1/3.
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
sowie der Anzahl der Durchführungen n des Experiments ab.
Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und
p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}.
Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p)
Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1.
Ökonometrie (SS 2017)
Folie 21
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
B(n, p)
Parameter:
n ∈ N, p ∈ (0, 1)
pX(x)
0.0 0.1 0.2 0.3 0.4 0.5
pX
Träger: T (X ) = {0, 1, . . . , n}
Wahrscheinlichkeitsfunktion: pX (x)
  n x
p (1 − p)n−x für x ∈ T (X )
=
x

0
sonst
n = 5, p = 0.4
−1
0
1
2
3
4
5
●
●
4
5
6
x
FX (x) =
X
pX (xi )
xi ∈T (X )
xi ≤x
FX(x)
Verteilungsfunktion:
0.0 0.2 0.4 0.6 0.8 1.0
FX
n = 5, p = 0.4
●
●
●
●
−1
0
1
2
3
6
x
Momente: E (X )
γ(X )
Ökonometrie (SS 2017)
= n·p
=
√ 1−2p
np(1−p)
Var(X )
κ(X )
= n · p · (1 − p)
=
1+(3n−6)p(1−p)
np(1−p)
Folie 22
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Einfachste stetige Verteilungsfamilie:
Stetige Gleichverteilung auf Intervall [a, b]
Modellierung einer stetigen Verteilung, in der alle Realisationen in einem
Intervall [a, b] als gleichwahrscheinlich“ angenommen werden.
”
Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab.
Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall
1
[a, b] konstant zu b−a
gewählt werden.
Träger der Verteilung: T (X ) = [a, b]
Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)
Ökonometrie (SS 2017)
Folie 23
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Unif(a, b)
Parameter:
a, b ∈ R mit a < b
fX
a = 1, b = 3
0.4
0.0
0.2
fX(x)
0.6
Träger: T (X ) = [a, b]
Dichtefunktion: fX : R → R;
( 1
für a ≤ x ≤ b
b−a
fX (x) =
0
sonst
0
1
2
3
4
3
4
x
FX(x)
0.0 0.2 0.4 0.6 0.8 1.0
FX
Verteilungsfunktion: FX : R → R;

für x < a

 0
x−a
für a ≤ x ≤ b
FX (x) =
b−a


1
für x > b
a = 1, b = 3
0
1
2
x
Momente: E (X ) = a+b
2
γ(X ) = 0
Ökonometrie (SS 2017)
Var(X ) =
κ(X ) =
(b−a)2
12
9
5
Folie 24
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler
(unabhängiger) Zufallsvariablen (später mehr!)
Einsatz für Näherungen
Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit
Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit
Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 .
Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,
Berechnung muss i.d.R. mit Software/Tabellen erfolgen.
Wichtige Eigenschaft der Normalverteilungsfamilie:
Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist
aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 .
Zurückführung allgemeiner Normalverteilungen auf den Fall der
Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und
σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar.
Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.
Träger aller Normalverteilungen ist T (X ) = R.
Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 )
Ökonometrie (SS 2017)
Folie 25
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
N(µ, σ 2 )
Parameter:
µ ∈ R, σ 2 > 0
fX (x) = √
fX(x)
Träger: T (X ) = R
Dichtefunktion: fX : R → R;
(x−µ)2
1
1
e − 2σ2 = ϕ
σ
2πσ
x −µ
σ
0.00 0.05 0.10 0.15 0.20
fX
µ = 5, σ2 = 4
0
5
10
x
FX : R → R; FX (x) = Φ
x −µ
σ
FX(x)
Verteilungsfunktion:
0.0 0.2 0.4 0.6 0.8 1.0
FX
µ = 5, σ2 = 4
0
5
10
x
Momente: E (X ) = µ
γ(X ) = 0
Ökonometrie (SS 2017)
Var(X )
κ(X )
= σ2
= 3
Folie 26
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Arbeiten mit Normalverteilungen
Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ 2 ):
Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw.
nicht leicht auszuwerten!
Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte
Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten
Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R
(http://www.r-project.org)
Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur
Verfügung gestellte) Tabellen.
Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur
ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch
Φ(x) = 1 − Φ(−x)
für alle x ∈ R .
Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt.
Ökonometrie (SS 2017)
Folie 27
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Ausschnitt aus Tabelle für Φ(x)
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
Ökonometrie (SS 2017)
Folie 28
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Normalverteilungstabelle
0.02
0.04
µ = 100, σ2 = 82
0.00
fN(100, 82)(x)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?)
70
80
90
100
110
120
130
x
Antwort: Ist X ∼ N(100, 82 ), so gilt:
P{X < 90}
90 − 100
8
= Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
= FN(100,82 ) (90) = Φ
Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.
Ökonometrie (SS 2017)
Folie 29
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
2
0.04
µ = 100, σ2 = 82
0.02
2.5%
0.00
fN(100, 82)(x)
Frage: Welchen Wert x überschreitet eine N(100, 8 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der
schraffierten Fläche zu einem Flächeninhalt von 0.025?)
70
80
90
100
110
<− | −>
?
120
130
2
Antwort: Ist X ∼ N(100, 8 ), so ist das 97.5%- bzw. 0.975-Quantil von X
gesucht. Mit
x − 100
FX (x) = FN(100,82 ) (x) = Φ
8
und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man
x − 100 !
x − 100
Φ
= 0.975 ⇔
= Φ−1 (0.975) = N0.975 = 1.96
8
8
⇒ x = 8 · 1.96 + 100 = 115.68
Ökonometrie (SS 2017)
Folie 30
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Statistik-Software R
Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an?
Antwort:
> pnorm(90,mean=100,sd=8)
[1] 0.1056498
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit?
Antwort:
> qnorm(0.975,mean=100,sd=8)
[1] 115.6797
Ökonometrie (SS 2017)
Folie 31
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren I
Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur
Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später
erforderlich!)
Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n
Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor
X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen
Verteilung von X .
Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht
übertragbar, nur technisch etwas anspruchsvoller.
Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren
Ökonometrie (SS 2017)
Folie 32
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren II
Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine
(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R
mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden.
Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A
annimmt, können dann wiederum durch Aufsummieren der
Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet
werden:
X
P{X ∈ A} =
pX (xi )
xi ∈A∩T (X)
Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch
Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert
werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über
Mehrfachintegrale) ausrechnen lassen:
Z
b1
Z
bn
···
PX (A) =
a1
fX (t1 , . . . , tn )dtn · · · dt1
an
für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn
Ökonometrie (SS 2017)
Folie 33
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren III
Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines
n-dimensionalen Zufallsvektors nennt man auch Randverteilungen.
Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen
pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.
Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann
auch Randdichte(funktione)n.
Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch
(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen
Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien
Wahrscheinlichkeitsrechnung).
Ökonometrie (SS 2017)
Folie 34
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I
Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig,
wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als
Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen
pX (x) =
n
Y
pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn )
i=1
bzw.
fX (x) =
n
Y
fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn )
i=1
für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann.
(Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!)
”
”
Ökonometrie (SS 2017)
Folie 35
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II
Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und
(paarweise) linearer Abhängigkeiten interessant!
Bedingte Verteilungen:
Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn
man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits
kennt?
Lineare Abhängigkeiten:
Treten besonders große Realisation einer Zufallsvariablen häufig im
Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen
einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang
für besonders kleine Realisationen der ersten Zufallsvariablen);
lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben?
Ökonometrie (SS 2017)
Folie 36
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III
Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei
Zufallsvariablen (aus einem Zufallsvektor).
Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz
!
σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y )
(Zur Berechnung von E(X · Y ) siehe Folien WR!)
Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor,
a, b ∈ R):
1
2
3
4
5
6
Cov(aX , bY ) = ab Cov(X , Y )
Cov(X + a, Y + b) = Cov(X , Y )
(Translationsinvarianz)
Cov(X , Y ) = Cov(Y , X )
(Symmetrie)
Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y )
Cov(X , X ) = Var(X )
X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0
Ökonometrie (SS 2017)
Folie 37
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV
Nachteil“ der Kovarianz:
”
Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit,
sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der
Streuung von X bzw. Y ab.
Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem
Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist.
”
Hierzu Standardisierung der Kovarianz über Division durch
Standardabweichungen von X und Y (falls σX > 0 und σY > 0!).
Man erhält so den Pearsonschen Korrelationskoeffizienten:
ρXY := Korr(X , Y ) :=
Ökonometrie (SS 2017)
Cov(X , Y )
σXY
= p
σX · σY
+ Var(X ) · Var(Y )
Folie 38
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V
Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit
σX > 0, σY > 0 und a, b ∈ R, so gilt:
(
1
2
3
4
5
6
7
Korr(aX , bY ) =
Korr(X , Y )
falls a · b > 0
− Korr(X , Y ) falls a · b < 0
Korr(X + a, Y + b) = Korr(X , Y )
(Translationsinvarianz)
Korr(X , Y ) = Korr(Y , X )
(Symmetrie)
−1 ≤ Korr(X , Y ) ≤ 1
Korr(X , X ) = 1
Korr(X , Y ) =
1
a>0
genau dann, wenn Y = aX + b mit
Korr(X , Y ) = −1
a<0
X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0
Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert.
Ökonometrie (SS 2017)
Folie 39
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung I
Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale
(multivariate) Normalverteilung
Spezifikation am Beispiel der zweidimensionalen (bivariaten)
Normalverteilung durch Angabe einer Dichtefunktion
fX ,Y (x, y ) =
1√
2πσX σY
1−ρ2
e
−
1
2(1−ρ2 )
x−µX
σX
2
−2ρ
x−µX
σX
y −µY
σY
2 y −µ
+ σ Y
Y
abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).
Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder
(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 )
Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden.
Ökonometrie (SS 2017)
Folie 40
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung II
Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur
N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0
fX ,Y (x, y ) = fX (x) · fY (y )
für alle x, y ∈ R ,
also sind X und Y (genau) für ρ = 0 stochastisch unabhängig.
Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x
wieder Normalverteilungen, es gilt genauer:
ρσX
2
2
X |Y = y ∼ N µX +
(y − µY ), σX (1 − ρ )
σY
bzw.
Y |X = x
Ökonometrie (SS 2017)
∼
ρσY
2
2
(x − µX ), σY (1 − ρ )
N µY +
σX
Folie 41
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung III
Dichtefunktion der mehrdimensionalen Normalverteilung
0.06
0.04
f(x,y)
0.02
0.00
6
4
6
y
4
2
2
0
0
−2
x
−4
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
Folie 42
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung IV
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
6
0.005
0.01
0.02
0.03
4
0.04
0.05
y
0.06
2
0.055
0.045
0.035
0.025
0
0.015
−4
−2
0
2
4
6
x
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
Folie 43
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung V
Dichtefunktion der mehrdimensionalen Normalverteilung
0.15
f(x,y)
0.10
0.05
3
2
1
3
0
y
2
1
−1
0
−1
−2
x
−2
−3 −3
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Ökonometrie (SS 2017)
Folie 44
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VI
3
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
2
0.02
0.06
1
0.08
0.1
y
0
0.14
−1
0.12
−3
−2
0.04
−3
−2
−1
0
1
2
3
x
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Ökonometrie (SS 2017)
Folie 45
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VII
Dichtefunktion der mehrdimensionalen Normalverteilung
0.10
f(x,y)
0.05
0.00
16
14
12
16
10
y
14
12
8
8
6
10
x
6
4
4
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2017)
Folie 46
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VIII
16
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
14
0.01
0.02
0.03
12
0.05
0.07
0.09
y
10
0.11
0.12
0.1
8
0.08
0.06
4
6
0.04
4
6
8
10
12
14
16
x
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2017)
Folie 47
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen I
Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,
so gilt:
E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c
und
Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y )
Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors
weiter verallgemeinert werden!
Ökonometrie (SS 2017)
Folie 48
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen II
Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der
n-dimensionale Vektor
E(X) := [E(X1 ), . . . , E(Xn )]0
Erwartungswertvektor von X und die n × n-Matrix
0
V(X) := E (X − E(X)) · (X − E(X))


E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))]


..
..
..
:= 

.
.
.
E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))]


Var(X1 )
Cov(X1 , X2 )
· · · Cov(X1 , Xn−1 )
Cov(X1 , Xn )
 Cov(X2 , X1 )
Var(X2 )
· · · Cov(X2 , Xn−1 )
Cov(X2 , Xn ) 




..
..
..
..
..
= 

.
.
.
.
.


 Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · ·
Var(Xn−1 )
Cov(Xn−1 , Xn ) 
Cov(Xn , X1 )
Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 )
Var(Xn )
(Varianz-)Kovarianzmatrix von X.
Ökonometrie (SS 2017)
Folie 49
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen III
In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe
n
X
(w = (w1 , . . . , wn )0 ∈ Rn )
wi · Xi = w1 · X1 + · · · + wn · Xn
i=1
n
X
den Erwartungswert E
!
wi · Xi
i=1
=
n
X
wi · E(Xi ) = w0 E(X)
i=1
die Varianz
Var
n
X
!
wi · Xi
=
i=1
n X
n
X
wi · wj · Cov(Xi , Xj )
i=1 j=1
=
n
X
i=1
0
wi2 · Var(Xi ) + 2
n−1 X
n
X
wi · wj · Cov(Xi , Xj )
i=1 j=i+1
= w V(X)w
Ökonometrie (SS 2017)
Folie 50
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen I
Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen
Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch
verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt
”
”n
für die Summe Yn := i=1 Xi also
E(Yn ) = n · µX
Var(Yn ) = n · σX2
sowie
und man erhält durch
Zn :=
Yn − nµX
√
=
σX n
1
n
Pn
Xi − µX √
n
σX
i=1
standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1).
Zentraler Grenzwertsatz:
Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung
(Standardnormalverteilung).
iid
Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N.
Ökonometrie (SS 2017)
Folie 51
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen II
Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man
näherungsweise (auch falls Xi nicht normalverteilt ist) für
hinreichend großes n ∈ N
I
die N(nµX , nσX2 )-Verteilung für Yn :=
n
X
Xi oder
i=1
I
die Standardnormalverteilung für Zn :=
Yn − nµX
√
=
σX n
1
n
Pn
Xi − µX √
n
σX
i=1
verwendet.
Leicht zu merken:
Man verwendet näherungsweise die Normalverteilung mit
passendem“ Erwartungswert und passender“ Varianz!
”
”
Ökonometrie (SS 2017)
Folie 52
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2017)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2017)
Folie 54
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
Stichprobe
Zufallsvariablen
X1, …, Xn
(konkrete)
Auswahl der
führt
Rückschluss auf
Verteilung/Kenngrößen
Ökonometrie (SS 2017)
Ziehung/
Stichprobe
zu
Realisationen
x1, …, xn
Folie 55
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen zu den 3 Grundannahmen
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Ökonometrie (SS 2017)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
I
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Ökonometrie (SS 2017)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Stichprobenfunktionen
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
i=1
Ökonometrie (SS 2017)
x :=
n
1X
xi
n
i=1
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
x
Stichprobe Nr. x1 x2 x3 x4 x5
1
2
3
4
5
6
7
8
9
..
.
Ökonometrie (SS 2017)
2
6
2
3
6
3
3
5
5
..
.
3
6
2
5
2
1
4
5
4
..
.
4
4
5
6
4
3
3
1
5
..
.
6
4
3
3
1
6
2
5
4
..
.
2
1
5
5
2
3
5
3
4
..
.
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
Folie 59
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
0.12
0.08
pX(xi)
0.06
0.04
0.02
3
4
5
6
0.00
0.00
0.00
2
1
2
3
4
5
6
1
2
3
xi
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
1
1.75
2.75
3.75
xi
Ökonometrie (SS 2017)
4.75
5.75
0.08
0.06
pX(xi)
0.02
0.04
0.06
0.00
0.00
0.00
0.02
0.02
0.04
0.04
0.06
pX(xi)
0.08
0.08
0.10
0.10
0.12
1
pX(xi)
0.10
pX(xi)
0.05
0.10
0.05
pX(xi)
0.15
0.10
0.20
n=3
0.14
n=2
0.15
n=1
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisationen von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2017)
Folie 61
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2017)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b := E θb − θ
MSE(θ)
soll möglichst klein sein.
Ökonometrie (SS 2017)
Folie 63
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
b = E (θb − θ)2 = Var(θb − θ) +[ E(θb − θ) ]2
MSE(θ)
| {z } | {z }
b
=Var(θ)
b
=:Bias(θ)
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
b
denkbaren Werte von θ), so nennt man θ erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
Bei Schätzung von E(Y ) mit X gilt:
E(X )=E(Y )
σ2
MSE(X ) = E (X − E(Y ))2
=
Var(X ) = σX2 = Y
n
Ökonometrie (SS 2017)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen MSE(X ) =
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2017)
Folie 65
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
Ökonometrie (SS 2017)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
n
S 2 :=
1 X
(Xi − X )2
n−1
n
bzw.
s 2 :=
i=1
1 X
(xi − x)2
n−1
i=1
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2017)
Folie 67
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Intervallschätzung von µY := E(Y )
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
Ökonometrie (SS 2017)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
2
2
•
Verteilungseigenschaft X ∼ N µ, σn bzw. X ∼ N µ, σn wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
bzw.
X − µ√ •
n ∼ N(0, 1)
σ
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
Ökonometrie (SS 2017)
Folie 69
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
σ
n, falls Y ∼ Unif(20, 50)
f(x)
0.2
0.3
0.4
N(0,1)
n=4
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=2
−4
−2
0
2
4
−4
−2
x
2
4
x
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=12
0.2
0.3
0.4
N(0,1)
n=7
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 70
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
σ
n, falls Y ∼ Exp(2)
f(x)
0.2
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
−4
−2
0
2
4
−4
−2
x
2
4
x
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 71
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
σ
n, falls Y ∼ B(1, 0.5)
f(x)
0.2
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
−4
−2
0
2
4
−4
−2
x
2
4
x
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
σ
n, falls Y ∼ B(1, 0.05)
f(x)
0.2
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
−4
−2
0
2
4
−4
−2
x
2
4
x
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 73
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X I
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
I
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
α
2
an (vgl. Übungsaufgabe).
Ökonometrie (SS 2017)
Folie 74
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
2
Für N(µ,
σ )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
α
1 − 2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
I
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
berechnen (vgl. auch Folien 26 und 30).
Unter Verwendung der Symmetrieeigenschaft
Nα = −N1−α
bzw. hier
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2017)
Folie 75
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X III
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σ2
von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
α
α
√
√
µY −
· N1− 2 , µY +
· N1− 2
n
n
von X .
Ökonometrie (SS 2017)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
Aufgabenstellung:
I
I
I
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
Lösung:
I
I
I
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2017)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
102
25
, α = 0.05
X
0.10
α 2 = 0.025
α 2 = 0.025
1 − α = 0.95
0.00
0.05
fX(x)
0.15
0.20
Im Beispiel: X ∼ N 50,
µY −
Ökonometrie (SS 2017)
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
P X ∈ µ − √ · N1− α2 , µ + √ · N1− α2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
=1−α .
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
X − √ · N1− α2 , X + √ · N1− α2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2017)
Folie 79
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei bekannter Varianz σ 2
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
α
α
P µ ∈ X − √ · N1− 2 , X + √ · N1− 2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2017)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisation x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
x − √ · N1− α2 , x + √ · N1− α2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2017)
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
S2 =
1 X
(Xi − X )2
n−1
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
2
Seien Y ∼ N(µ,
q σ ),PX1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
√
n
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2017)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
tn;p = −tn;1−p
bzw.
tn;1−p = −tn;p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2017)
Folie 83
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
−4
−2
0
2
4
x
Ökonometrie (SS 2017)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei unbekannter Varianz σ 2
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
1
Ersetzen von σ durch S =
2
Ersetzen von N
1− α
2
√
S2 =
q
1
n−1
Pn
i=1 (Xi
− X )2
durch t
n−1;1− α
2
erforderlich.
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
α
α
X − √ · tn−1;1− 2 , X + √ · tn−1;1− 2
n
n
Ökonometrie (SS 2017)
Folie 85
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
[1] 2.13145
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
Ökonometrie (SS 2017)
Folie 86
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Quantile der t-Verteilungen: tn;p
Ökonometrie (SS 2017)
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Folie 87
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisation x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
x − √ · tn−1;1− α2 , x + √ · tn−1;1− α2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Ökonometrie (SS 2017)
Folie 88
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Hypothesentests
Bisher betrachtet:
Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts
Hierzu: Verwendung der
1
2
theoretischen Information über Verteilung von X
empirischen Information aus Stichprobenrealisation x von X
zur Konstruktion einer
I
I
Punktschätzung
Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen
Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)
Mittelwert (Erwartungswert) enthält.
Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:
Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer
vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt
( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ).
”
”
Ökonometrie (SS 2017)
Folie 89
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel I
Interessierende Zufallsvariable Y :
Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von
Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).
Verteilungsannahme:
Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ).
Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16
vom Umfang n = 16 zu Y vor.
Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu
entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre,
unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt
(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).
Ökonometrie (SS 2017)
Folie 90
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel II
Offensichlich gilt:
I
I
I
X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird
X praktisch nie genau den Wert x = 500 annehmen!
Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500
”
gilt.
Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500
”
gilt.
Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500,
und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x
weit weg von 500.
Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann
”
”
eine geeignete“ Entscheidungsregel konstruiert werden?
”
Ökonometrie (SS 2017)
Folie 91
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilungen von X
0.4
für verschiedene Erwartungswerte µ bei σ = 4 und n = 16
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 92
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidungsproblem
Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu
genau einer der folgenden vier verschiedenen Situationen:
Entscheidung
für H0 (µ = 500)
Entscheidung
für H1 (µ 6= 500)
Tatsächliche Situation:
H0 wahr (µ = 500)
richtige
Entscheidung
Fehler
1. Art
Tatsächliche Situation:
H1 wahr (µ 6= 500)
Fehler
2. Art
richtige
Entscheidung
Wünschenswert:
Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen.
”
”
Aber: Zielkonflikt vorhanden:
Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto
”
”
I
I
seltener Fehler 2. Art
häufiger Fehler 1. Art
und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“.
”
”
Ökonometrie (SS 2017)
Folie 93
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für nahe“ Grenze
”
0.4
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 94
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für ferne“ Grenze
”
0.4
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 95
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel I
Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für
alle möglichen Situationen (also alle denkbaren µ) zu verringern.
Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!
Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die
”
Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung
gegen H0 , obwohl H0 wahr ist) begehen darf.
Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man
”
”
den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x
bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α
jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500
entscheidet!
Ökonometrie (SS 2017)
Folie 96
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel II
Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von
H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und
damit nur mit Wahrscheinlichkeit α außerhalb liegt!).
Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält
den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)
σ
σ
µ0 − √ · N1− α2 , µ0 + √ · N1− α2
n
n
mit
Ökonometrie (SS 2017)
σ
σ
P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2
=1−α .
n
n
Folie 97
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Grenze zum Signifikanzniveau α = 0.05
0.4
Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 98
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel I
Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel
also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im
Intervall
4
4
√
√
· N0.975 , 500 +
· N0.975 = [498.04, 501.96] ,
500 −
16
16
dem sog. Annahmebereich des Hypothesentests, liegt.
Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen
H0 : µ = 500) aus, wenn die Realisation x von X in der Menge
(−∞, 498.04) ∪ (501.96, ∞) ,
dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,
liegt.
Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich
schon vollständig spezifiziert!
Ökonometrie (SS 2017)
Folie 99
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel II
Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter
2
Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher:
Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder
Teststatistik
X − µ0 √
N :=
n.
σ
Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und
ist daher daher (für µ = µ0 ) standardnormalverteilt:
X − µ0 √
n ∼ N(0, 1)
σ
Ökonometrie (SS 2017)
falls µ = µ0
Folie 100
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel III
Man rechnet leicht nach:
σ
σ
X − µ0 √
X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔
n ∈ −N1− α2 , N1− α2
σ
n
n
√
0
Als
A für die Testgröße N = X −µ
n erhält man also
σ
Annahmebereich
−N1− α2 , N1− α2 , als kritischen Bereich K entsprechend
K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞
und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.
Ökonometrie (SS 2017)
Folie 101
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel IV
Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X
”
bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher
untersuchen. Damit lassen sich dann auch (von µ abhängige!)
Fehlerwahrscheinlichkeiten 2. Art berechnen.
Im Beispiel erhält man so zu den betrachteten Szenarien (also
unterschiedlichen wahren Parametern µ):
Wahrscheinlichkeit der
Wahrscheinlichkeit der
Annahme von µ = 500 Ablehnung von µ = 500
P{N ∈ A}
P{N ∈ K }
µ = 500
0.95
0.05
µ = 494
0
1
µ = 499
0.8299
0.1701
µ = 503
0.1492
0.8508
(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)
Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den
”
Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.
Ökonometrie (SS 2017)
Folie 102
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zweiseitiger Gauß-Test für den Ewartungswert
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des zweiseitigen Tests:
”
1
Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
X − µ0 √
•
n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ).
σ
3
Kritischer Bereich zum Signifikanzniveau α:
K = −∞, −N1− α2 ∪ N1− α2 , ∞
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 103
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Qualitätskontrolle (Länge von Stahlstiften)
Untersuchungsgegenstand: Weicht die mittlere Länge der von einer
bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in
[cm]) ab, so dass die Produktion gestoppt werden muss?
Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 )
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 64 zu Y liefert Stichprobenmittel x = 9.7.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
(Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz
1
Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10
√
0
2
Teststatistik: N = X −µ
n ∼ N(0, 1), falls H0 gilt (µ = µ0 )
σ
3
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞)
√
4
Realisierter Wert der Teststatistik: N = 9.7−10
64 = −6
0.4
5
Entscheidung: N ∈ K
H0 wird abgelehnt und die Produktion gestoppt.
Ökonometrie (SS 2017)
Folie 104
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert I
bei bekannter Varianz
Neben zweiseitigem Test auch zwei einseitige Varianten:
H0 : µ ≤ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
H0 : µ ≥ µ0
gegen
H1 : µ < µ0
(linksseitiger Test)
Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise
abzulehnen, auf das Signifikanzniveau α.
Entscheidung zwischen beiden Varianten daher wie folgt:
H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als
glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei
Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist.
H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern
möchte und für deren Akzeptanz man hohe Evidenz fordert.
Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass
man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1
kontrollieren will.
Ökonometrie (SS 2017)
Folie 105
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert II
bei bekannter Varianz
Auch für einseitige Tests fasst Teststatistik
N=
X − µ0 √
n
σ
die empirische Information über den Erwartungswert µ geeignet zusammen.
Allerdings gilt nun offensichtlich
I
im Falle des rechtsseitigen Tests von
H0 : µ ≤ µ0
I
gegen
H1 : µ > µ0 ,
dass große (insbesondere positive) Realisationen von N gegen H0 und für H1
sprechen, sowie
im Falle des linksseitigen Tests von
H0 : µ ≥ µ0
gegen
H1 : µ < µ0 ,
dass kleine (insbesondere negative) Realisationen von N gegen H0 und für
H1 sprechen.
Ökonometrie (SS 2017)
Folie 106
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
Noch nötig zur Konstruktion der Tests:
Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass
Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α
beschränkt bleibt.
Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit
P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 .
Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das
größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten.
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt.
Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit
insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test.
Ökonometrie (SS 2017)
Folie 107
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
µ = 500
µ = 499
µ = 502
µ = 504
0.2
0.0
0.1
fN(x|µ)
0.3
0.4
Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 108
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert II
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des rechtsseitigen Tests:
”
1
Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = (N1−α , ∞)
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 109
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein
kritischer Wert bestimmt werden, den die Teststatistik N im Fall der
Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.
Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 .
Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das
kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten.
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt.
Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält
damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den
linksseitigen Test.
Ökonometrie (SS 2017)
Folie 110
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
0.4
Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
0.2
0.0
0.1
fN(x|µ)
0.3
µ = 500
µ = 496
µ = 498
µ = 501
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 111
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert II
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des linksseitigen Tests:
”
1
Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = (−∞, −N1−α )
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 112
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen I
Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist
Vorsicht bei der Interpretation von Testergebnissen geboten, es besteht ein
großer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0
und dem Aussagegehalt einer Annahme von H0 :
Fällt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsächlich
erfüllt sein — wegen der Beschränkung der Fehlerwahrscheinlichkeit 1. Art
durch das Signifikanzniveau α nur mit einer typischerweise geringen
Wahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, die
fälschlicherweise zur Ablehnung von H0 geführt hat.
Aber: Vorsicht vor Über“interpretation als Evidenz für Gültigkeit von H1 :
”
Aussagen der Form Wenn H0 abgelehnt wird, dann gilt H1 mit
”
Wahrscheinlichkeit von mindestens 1 − α“ sind unsinnig!
Ökonometrie (SS 2017)
Folie 113
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen II
Fällt die Testentscheidung jedoch für H0 aus, so ist dies meist ein
vergleichsweise schwächeres Indiz“ für die Gültigkeit von H0 , da die
”
Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise große
Werte (bis 1 − α) annehmen kann.
Gilt also tatsächlich H1 , ist es dennoch mit einer oft – meist abhängig vom
Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit möglich, eine
”
Stichprobenrealisation zu erhalten, die fälschlicherweise nicht zur
Ablehnung von H0 führt.
Aus diesem Grund sagt man auch häufig statt H0 wird angenommen“ eher
”
H kann nicht verworfen werden“.
” 0
Ökonometrie (SS 2017)
Folie 114
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen III
Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird häufig als
I
I
I
signifikante Veränderung (zweiseitiger Test),
signifikante Verringerung (linksseitiger Test) oder
signifikante Erhöhung (rechtsseitiger Test)
einer Größe bezeichnet. Konstruktionsbedingt kann das Ergebnis einer
statistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aber
niemals als zweifelsfreier Beweis für die Veränderung/Verringerung/Erhöhung
einer Größe dienen!
Vorsicht vor Publication Bias“:
”
I
I
Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20
statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt in
einer Ablehnung von H0 .
Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nicht
verworfen wurde, verschwiegen bzw. nicht publiziert werden!
Ökonometrie (SS 2017)
Folie 115
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen IV
Ein signifikanter“ Unterschied ist noch lange kein deutlicher“ Unterschied!
”
”
Problem: Fluch des großen Stichprobenumfangs“
”
Beispiel: Abfüllmaschine soll Flaschen mit 1000 ml Inhalt abfüllen.
I
I
Abfüllmenge schwankt zufällig, Verteilung sei Normalverteilung mit bekannter
Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Fälle liegt Abfüllmenge
im Bereich ±1 ml um den (tatsächlichen) Mittelwert.
Statistischer Test zum Niveau α = 0.05 zur Überprüfung, ob mittlere
Abfüllmenge (Erwartungswert) von 1000 ml abweicht.
Tatsächlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen.
Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4%
Systematische Abweichung der Abfüllmenge von 0.1 ml also zwar mit hoher
Wahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehin
vorhandenen) zufälligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich!
Fazit: Durch wissenschaftliche Studien belegte signifikante Verbesserungen“
”
können vernachlässigbar klein sein ( Werbung...)
Ökonometrie (SS 2017)
Folie 116
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Der p-Wert
Hypothesentests komprimieren“ Stichprobeninformation zur Entscheidung
”
zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α.
Testentscheidung hängt von α ausschließlich über kritischen Bereich Kα ab!
Genauere Betrachtung (Gauß-Test für den Erwartungswert) offenbart:
I
I
Je kleiner α, desto kleiner (im Sinne von ⊂“) der kritische Bereich.
Zu jeder realisierten Teststatistik N findet” man sowohl
F
F
große“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N enthalten ( Ablehnung von H0 ), als auch
kleine“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N nicht enthalten ( Annahme von H0 ).
Es gibt also zu jeder realisierten Teststatistik N ein sogenanntes
empirisches (marginales) Signifikanzniveau, häufiger p-Wert genannt,
welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt.
Ökonometrie (SS 2017)
Folie 117
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
p-Wert bei Gauß-Tests
für den Erwartungswert bei bekannter Varianz
Der Wechsel zwischen N ∈ Kα“ und N ∈
/ Kα“ findet bei den diskutierten
” dort statt, wo
” die realisierte
Gauß-Tests offensichtlich
Teststatistik N gerade
mit (einer) der Grenze(n) des kritischen Bereichs übereinstimmt, d.h.
I
I
I
bei rechtsseitigen Tests mit Kα = (N1−α , ∞) für N = N1−α ,
bei linksseitigen Tests mit Kα = (−∞, −N1−α ) für N = −N1−α ,
bei zweiseitigen Tests mit Kα = (−∞, −N1− α2 ) ∪ (N1− α2 , ∞) für
N=
−N1− α2
N1− α2
falls N < 0
falls N ≥ 0
.
Durch Auflösen nach α erhält man
I
I
I
für rechtsseitige Tests den p-Wert 1 − Φ(N),
für linksseitige Tests den p-Wert Φ(N),
für zweiseitige Tests den p-Wert
2 · Φ(N) = 2 · (1 − Φ(−N))
2 · (1 − Φ(N))
Ökonometrie (SS 2017)
falls N < 0
falls N ≥ 0
= 2 · (1 − Φ(|N|)) .
Folie 118
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik)
0.2
fN(0, 1)(x)
0.3
0.4
Realisierte Teststatistik N = 1.6, p-Wert: 0.0548
p = 0.0548
0.0
0.1
1 − p = 0.9452
N0.85 N = 1.6 N0.99
x
Ökonometrie (SS 2017)
Folie 119
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik)
0.2
fN(0, 1)(x)
0.3
0.4
Realisierte Teststatistik N = −1.8, p-Wert: 0.0719
2
= 0.03595
1 − p = 0.9281
p
2
= 0.03595
0.0
0.1
p
− N0.995 N = − 1.8 − N0.85
N0.85
N0.995
x
Ökonometrie (SS 2017)
Folie 120
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung mit p-Wert
Offensichtlich erhält man auf der Grundlage des p-Werts p zur beobachteten
Stichprobenrealisation die einfache Entscheidungsregel
H0 ablehnen
⇔
p<α
für Hypothesentests zum Signifikanzniveau α.
Sehr niedrige p-Werte bedeuten also, dass man beim zugehörigen
Hypothesentest H0 auch dann ablehnen würde, wenn man die maximale
Fehlerwahrscheinlichkeit 1. Art sehr klein wählen würde.
Kleinere p-Werte liefern also stärkere Indizien für die Gültigkeit von H1 als
größere, aber (wieder) Vorsicht vor Überinterpretation: Aussagen der Art
Der p-Wert gibt die Wahrscheinlichkeit für die Gültigkeit von H0 an“ sind
”
unsinnig!
Warnung!
Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist es
unbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Werts
festzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wählen,
dass man die bevorzugte“ Testentscheidung erhält!
”
Ökonometrie (SS 2017)
Folie 121
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Tests und Konfidenzintervalle
Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen)
Konfidenzintervallen für den Erwartungswert bei bekannter Varianz.
Für Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 − α gilt:
σ
σ
µ
e ∈ X − √ · N1− α2 , X + √ · N1− α2
n
n
σ
σ
⇔
µ
e − X ∈ − √ · N1− α2 , √ · N1− α2
n
n
µ
e−X√
⇔
n ∈ −N1− α2 , N1− α2
σ
X −µ
e√
⇔
n ∈ −N1− α2 , N1− α2
σ
Damit ist µ
e also genau dann im Konfidenzintervall zur
Sicherheitswahrscheinlichkeit 1 − α enthalten, wenn ein zweiseitiger
Gauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ
e nicht
verwerfen würde.
Ökonometrie (SS 2017)
Folie 122
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: Gauß-Test für den Mittelwert
bei bekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R unbekannt, σ 2 bekannt
approximativ: E (Y ) = µ ∈ R unbekannt, Var(Y ) = σ 2 bekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
N=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
σ
N für µ = µ0 (näherungsweise) N(0, 1)-verteilt
n
X
1
X =
Xi
n i=1
(−∞, −N1− α2 )
∪(N1− α2 , ∞)
(N1−α , ∞)
(−∞, −N1−α )
2 · (1 − Φ(|N|))
1 − Φ(N)
Φ(N)
Folie 123
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert I
bei unbekannter Varianz
Konstruktion des (exakten) Gauß-Tests für den Mittelwert bei bekannter
Varianz durch Verteilungsaussage
N :=
X − µ√
n ∼ N(0, 1) ,
σ
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y .
Analog zur Konstruktion von Konfidenzintervallen für den Mittelwert bei
unbekannter Varianz: Verwendung der Verteilungsaussage
v
u
n
u 1 X
X − µ√
t :=
n ∼ t(n − 1)
mit
S =t
(Xi − X )2 ,
S
n−1
i=1
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y , um geeigneten
Hypothesentest für den Mittelwert µ zu entwickeln.
Test lässt sich genauso wie Gauß-Test herleiten, lediglich
I
I
Verwendung von S statt σ,
Verwendung von t(n − 1) statt N(0, 1).
Ökonometrie (SS 2017)
Folie 124
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert II
bei unbekannter Varianz
Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigen
Tests bleibt wie beim Gauß-Test erhalten.
Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden
Vereinfachungen“ bei der Bestimmung von kritischen Bereichen und
”
p-Werten gültig.
p-Werte können mit Hilfe der Verteilungsfunktion Ft(n−1) der
t(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhält man
Ft(n−1) (t) beispielsweise mit dem Befehl pt(t,df=n-1).
Zur Berechnung von p-Werten für große n: Näherung der t(n − 1)-Verteilung
durch Standardnormalverteilung möglich.
Analog zu Konfidenzintervallen:
Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert bei
unbekannter Varianz immer noch als approximativer (näherungsweiser) Test
verwendet werden.
Ökonometrie (SS 2017)
Folie 125
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: t-Test für den Mittelwert
bei unbekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ R++ unbekannt
approximativ: E (Y ) = µ ∈ R, Var(Y ) = σ 2 ∈ R++ unbekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
t=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
S
t für µ = µ0 (näherungsweise) t(n − 1)-verteilt
n
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
1X
X =
Xi
n i=1
v
v
u
u
n
u 1
u 1 X
S =t
(Xi − X )2 = t
n − 1 i=1
n−1
(−∞, −t
∪(t
)
, ∞)
n−1;1− α
2
n−1;1− α
2
2 · (1 − Ft(n−1) (|t|))
n
X
!
Xi2 − nX
2
i=1
(tn−1;1−α , ∞)
(−∞, −tn−1;1−α )
1 − Ft(n−1) (t)
Ft(n−1) (t)
Folie 126
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Durchschnittliche Wohnfläche
Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnfläche pro
Haushalt in einer bestimmten Stadt gegenüber dem aus dem Jahr 1998
stammenden Wert von 71.2 (in [m2 ]) erhöht?
Annahmen: Verteilung der Wohnfläche Y im Jahr 2009 unbekannt.
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 400 zu Y liefert Stichprobenmittel x = 73.452 und
Stichprobenstandardabweichung s = 24.239.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
Rechtsseitiger approx. t-Test für den Mittelwert bei unbekannter Varianz
1
Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2
√ •
0
2
Teststatistik: t = X −µ
n ∼ t(399), falls H0 gilt (µ = µ0 )
S
3
Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95
√ , ∞) = (1.649, ∞)
73.452−71.2
4
Realisierter Wert der Teststatistik: t = 24.239
400 = 1.858
5
Entscheidung: t ∈ K
H0 wird abgelehnt; Test kommt zur Entscheidung,
dass sich durchschnittliche Wohnfläche gegenüber 1998 erhöht hat.
Ökonometrie (SS 2017)
Folie 127
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik)
0.2
1 − p = 0.968
p = 0.032
0.0
0.1
ft(399)(x)
0.3
0.4
Wohnflächenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032
t399, 0.8
t = 1.858
t399, 0.999
x
Ökonometrie (SS 2017)
Folie 128
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Inhaltsverzeichnis
(Ausschnitt)
3
Einfache lineare Regression
Deskriptiver Ansatz
Statistisches Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Einfache lineare Modelle mit R
Ökonometrie (SS 2017)
Folie 129
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge I
Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient als
Maß der Stärke des linearen Zusammenhangs zwischen zwei
(kardinalskalierten) Merkmalen X und Y .
Nun: Ausführlichere Betrachtung linearer Zusammenhänge zwischen
Merkmalen (zunächst rein deskriptiv!):
Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe,
ist nicht nur die Stärke dieses Zusammenhangs interessant, sondern auch die
genauere Form“ des Zusammenhangs.
”
Form“ linearer Zusammenhänge kann durch Geraden(gleichungen)
”
spezifiziert werden.
Ökonometrie (SS 2017)
Folie 130
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge II
Problemstellung: Wie kann zu einer Urliste (x1 , y1 ), . . . , (xn , yn ) der Länge n
zu (X , Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefunden
werden, die den linearen Zusammenhang zwischen X und Y möglichst gut“
”
widerspiegelt?
Wichtig: Was soll möglichst gut“ überhaupt bedeuten?
”
Hier: Summe der quadrierten Abstände von der Geraden zu den
Datenpunkten (xi , yi ) in vertikaler Richtung soll möglichst gering sein.
(Begründung für Verwendung dieses Qualitätskriteriums“ wird nachgeliefert!)
”
Ökonometrie (SS 2017)
Folie 131
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge III
Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a und
Steigung b in der bekannten Darstellung
y = fa,b (x) := a + b · x .
Für den i-ten Datenpunkt (xi , yi ) erhält man damit den vertikalen Abstand
ui (a, b) := yi − fa,b (xi ) = yi − (a + b · xi )
von der Geraden mit Absolutglied a und Steigung b.
Ökonometrie (SS 2017)
Folie 132
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge IV
Gesucht werden a und b so, dass die Summe der quadrierten vertikalen
Abstände der Punktwolke“ (xi , yi ) von der durch a und b festgelegten
”
Geraden,
n
X
(ui (a, b))2 =
i=1
n
X
i=1
(yi − fa,b (xi ))2 =
n
X
(yi − (a + b · xi ))2 ,
i=1
möglichst klein wird.
Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate
(KQ-Methode) oder Least-Squares-Methode (LS-Methode).
Ökonometrie (SS 2017)
Folie 133
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
”
15
aus n = 10 Paaren (xi , yi )
●
●
●
●
10
●
●
yi
●
●
5
●
0
●
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 134
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: P
Punktwolke“ und verschiedene Geraden I
” ni=1 (ui (a, b))2 = 180.32
15
a = 1, b = 0.8,
●
●
●
●
10
●
●
ui(a, b)
yi
●
●
5
●
●
b = 0.8
0
a=1 1
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 135
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: P
Punktwolke“ und verschiedene Geraden II
” ni=1 (ui (a, b))2 = 33.71
15
a = 5, b = 0.8,
●
●
●
●
●
10
ui(a, b)
yi
●
●
●
●
5
b = 0.8
1
●
0
a=5
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 136
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
und verschiedene Geraden III
” Pni=1 (ui (a, b))2 = 33.89
15
a = −1, b = 1.9,
●
●
●
●
10
●
ui(a, b)
yi
●
●
●
5
●
●
0
b = 1.9
a = −1
1
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 137
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden I
Gesucht sind also b
a, b
b ∈ R mit
n
n
X
X
(yi − (b
a+b
bxi ))2 = min
(yi − (a + bxi ))2
a,b∈R
i=1
i=1
Lösung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi ) = 0
∂a
i=1
Pn
n
2
X
∂ i=1 (yi − (a + bxi ))
!
= −2
(yi − a − bxi )xi = 0 ,
∂b
i=1
führt zu sogenannten Normalgleichungen:
!
n
n
X
X
!
na +
xi b =
yi
n
X
i=1
Ökonometrie (SS 2017)
!
xi
a+
i=1
n
X
i=1
!
xi2
!
b=
i=1
n
X
xi yi
i=1
Folie 138
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden II
Aufgelöst nach a und b erhält man die Lösungen
Pn
Pn
Pn
n
i=1 xi yi −
i=1 xi ·
i=1 yi
b
b=
2
Pn
Pn
2
n
i=1 xi −
i=1 xi
1 Pn
Pn
b
b
a = n1
i=1 yi − n
i=1 xi · b
oder kürzer mit den aus der deskr. Statistik bekannten Bezeichnungen
Pn
Pn
Pn
Pn
x = n1 i=1 xi , x 2 = n1 i=1 xi2 , y = n1 i=1 yi und xy = n1 i=1 xi yi
bzw. den empirischen Momenten sX ,Y = xy − x · y und sX2 = x 2 − x 2 :
sX ,Y
xy − x · y
b
b=
= 2
2
2
sX
x −x
b
a = y − xb
b
Die erhaltenen Werte b
a und b
b minimieren tatsächlich die Summe der
quadrierten vertikalen Abstände, da die Hesse-Matrix positiv definit ist.
Ökonometrie (SS 2017)
Folie 139
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“ und Regressionsgerade
”
15
P
b
a = 2.03, b
b = 1.35, ni=1 (ui (b
a, b
b))2 = 22.25
●
●
●
10
●
yi
^
^, b
ui(a
)
●
●
●
●
5
●
^ ●
b = 1.35
0
1
^ = 2.03
a
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 140
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode I
Zu b
a und b
b kann man offensichtlich die folgende, durch die Regressionsgerade
erzeugte Zerlegung der Merkmalswerte yi betrachten:
a+b
b · xi )
yi = b
a+b
b · x + y − (b
| {z }i |i
{z
}
=:b
yi
=ui (b
a,b
b)=:b
ui
Aus den Normalgleichungen lassen sich leicht einige Eigenschaften für die so
bi und ybi herleiten, insbesondere:
definierten u
I
I
I
P
Pn
P
P
b = 0 und damit ni=1 yi = ni=1 ybi bzw. y = yb := n1 ni=1 ybi .
u
Pni=1 i
b = 0.
xu
i=1
Pi i
P
P
bi = 0 folgt auch ni=1 ybi u
bi = 0.
bi = 0 und ni=1 xi u
Mit ni=1 u
Ökonometrie (SS 2017)
Folie 141
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode II
Mit diesen Eigenschaften erhält man die folgende Varianzzerlegung:
n
n
1X
1X
(yi − y )2 =
(b
yi − yb)2 +
n
n
i=1
i=1
|
|
{z
}
{z
}
Gesamtvarianz der yi
erklärte Varianz
n
1X 2
bi
u
n
i=1
| {z }
unerklärte Varianz
Die als Anteil der erklärten Varianz an der Gesamtvarianz gemessene Stärke
des linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt:
rX2 ,Y
Ökonometrie (SS 2017)
=
1
n
1
n
Pn
(b
yi − yb)2
Pi=1
n
2
i=1 (yi − y )
Folie 142
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Regressionsgerade mit Zerlegung yi = b
yi + b
ui
15
P
b
ui2 = 22.25
a = 2.03, b
b = 1.35, ni=1 b
y = y^
x
●
●
●
●
● ●
●
10
●
^
u
i
●
●
yi
●
●
●
yi
●
●
5
●
●
●
^
b
●
1
0
^
a
y^i
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 143
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Berechnung von b
a und b
b
Daten im Beispiel:
i
xi
yi
1
2.51
6.57
2
8.27
12.44
3
4.46
10.7
4
3.95
5.51
5
6.42
12.95
6
6.44
8.95
7
2.12
3.86
8
3.65
6.22
9
6.2
10.7
10
6.68
10.98
Berechnete (deskriptive/empirische) Größen:
x = 5.0703
sX2 = 3.665
y = 8.8889
sY2 = 8.927
x 2 = 29.3729
sX ,Y = 4.956
y 2 = 87.9398
rX ,Y = 0.866
Damit erhält man Absolutglied b
a und Steigung b
b als
4.956
sX ,Y
b
= 1.352
b= 2 =
3.665
sX
b
a =y −b
b · x = 8.8889 − 1.352 · 5.0703 = 2.03
und damit die Regressionsgerade
y = f (x) = 2.03 + 1.352 · x .
Ökonometrie (SS 2017)
Folie 144
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell I
Bisher: rein deskriptive Betrachtung linearer Zusammenhänge
Bereits erläutert/bekannt: Korrelation 6= Kausalität:
Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalen
lässt sich nicht schließen, dass der Wert eines Merkmals den des anderen
beeinflusst.
Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung von
Pearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleine
auch keine Wirkungsrichtung erkennen lassen kann.
Nun: statistische Modelle für lineare Zusammenhänge
Ökonometrie (SS 2017)
Folie 145
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell II
Keine symmetrische Behandlung von X und Y mehr, sondern:
I
I
Interpretation von X ( Regressor“) als erklärende deterministische Variable.
”
Interpretation von Y ( Regressand“) als abhängige, zu erklärende
”
(Zufalls-)Variable.
Es wird angenommen, dass Y in linearer Form von X abhängt, diese
Abhängigkeit jedoch nicht perfekt“ ist, sondern durch zufällige Einflüsse
”
gestört“ wird.
”
Anwendung in Experimenten: Festlegung von X durch Versuchsplaner,
Untersuchung des Effekts auf Y
Damit auch Kausalitätsanalysen möglich!
Ökonometrie (SS 2017)
Folie 146
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell III
Es wird genauer angenommen, dass für i ∈ {1, . . . , n} die Beziehung
yi = β0 + β1 · xi + ui
gilt, wobei
I
I
I
u1 , . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ 2
(unbekannt) und Cov(ui , uj ) = 0 für i 6= j sind, die zufällige Störungen der
linearen Beziehung ( Störgrößen“) beschreiben,
P
”
x1 , . . . , xn deterministisch sind mit sX2 = n1 ni=1 (xi − x)2 > 0
(d.h. nicht alle xi sind gleich),
β0 , β1 feste, unbekannte reelle Parameter sind.
Man nimmt an, dass man neben x1 , . . . , xn auch y1 , . . . , yn beobachtet, die
wegen der Abhängigkeit von den Zufallsvariablen u1 , . . . , un ebenfalls
(Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch
(Realisationen von) u1 , . . . , un beobachten kann (β0 und β1 unbekannt!).
Ökonometrie (SS 2017)
Folie 147
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung I
Das durch die getroffenen Annahmen beschriebene Modell heißt auch
einfaches lineares Regressionsmodell.
Im einfachen linearen Regressionsmodell sind also (neben σ 2 ) insbesondere β0
und β1 Parameter, deren Schätzung für die Quantifizierung des linearen
Zusammenhangs zwischen xi und yi nötig ist.
Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche
nach Absolutglied und Steigung einer geeigneten Geradengleichung
y = fβ0 ,β1 (x) = β0 + β1 · x .
Achtung!
Die Bezeichnung der Parameter hat sich gegenüber der Veranstaltung
Schließende Statistik“ geändert, aus β1 wird β0 , aus β2 wird β1 !
”
Ökonometrie (SS 2017)
Folie 148
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung II
Satz 3.1 (Satz von Gauß-Markov)
Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte
Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten
vertikalen Abstände zur durch β0 und β1 bestimmten Geraden, in Zeichen
n
n
X
X
2 !
b
b
(yi − (β0 + β1 · xi )) = min
(yi − (β0 + β1 · xi ))2 ,
i=1
β0 ,β1 ∈R
i=1
die beste (varianzminimale) lineare (in yi ) erwartungstreue Schätzfunktion βb0
für β0 bzw. βb1 für β1 .
Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums
Minimierung der quadrierten vertikalen Abstände“ (KQ-Methode).
”
Ökonometrie (SS 2017)
Folie 149
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung III
Man erhält also — ganz analog zum deskriptiven Ansatz — die folgenden
Parameterschätzer:
Parameterschätzer im einfachen linearen Regressionsmodell
n
βb1 =
Pn
Pn
i=1 xi yi −
Pn
2
n
i=1 xi
βb0 =
1
n
Pn
Pn
i=1 xi ·
i=1 yi
2
Pn
−
i=1 xi
i=1 yi
−
1
n
Pn
i=1 xi
=
xy − x · y
x2
−x
2
=
sX ,Y
,
sX2
· βb1 = y − x βb1 .
Vorsicht!
sX2 , sY2 sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Größen
Pn
Pn
sX2 = n1 i=1 (xi − x)2 = x 2 − x 2 ,
sY2 = n1 i=1 (yi − y )2 = y 2 − y 2
Pn
und sX ,Y = n1 i=1 (xi − x) · (yi − y ) = xy − x · y .
Ökonometrie (SS 2017)
Folie 150
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung IV
bi := yi − (βb0 + βb1 · xi ) = yi − ybi
Die resultierenden vertikalen Abweichungen u
der yi von den auf der Regressionsgeraden liegenden Werten ybi := βb0 + βb1 · xi
nennt man Residuen.
Wie im deskriptiven Ansatz gelten die Beziehungen
Pn
Pn
Pn
Pn
bi = 0,
bi ,
bi = 0,
i=1 xi u
i=1 y
i=1 yi =
i=1 u
Pn
bi
bi u
i=1 y
=0
die Streuungszerlegung
n
X
(yi − y )2
i=1
|
=
n
X
n
X
+
i=1
{z
}
Total Sum of Squares
|
1
n
bi2
u
i=1
{z
}
Explained Sum of Squares
bzw. die Varianzzerlegung
Pn
1
2
i=1 (yi − y ) =
n
Ökonometrie (SS 2017)
(b
yi − yb)2
Pn
yi
i=1 (b
| {z }
Residual Sum of Squares
− yb)2 +
1
n
Pn
i=1
bi2 .
u
Folie 151
3 Einfache lineare Regression
Parameterschätzung 3.3
Das (multiple) Bestimmtheitsmaß R 2
Auch im linearen Regressionsmodell wird die Stärke des linearen
Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz
gemessen und mit
Pn
Pn
bi2
(b
yi − yb)2
RSS
ESS
i=1 u
P
=1−
R 2 = Pi=1
=
1
−
=
n
n
2
2
TSS
TSS
(y
−
y
)
(y
−
y
)
i=1 i
i=1 i
bezeichnet. R 2 wird auch (multiples) Bestimmtheitsmaß genannt.
Es gilt 0 ≤ R 2 ≤ 1 sowie der (bekannte) Zusammenhang R 2 = rX2 ,Y =
sX2 ,Y
sX2 ·sY2
.
Größere Werte von R 2 (in der Nähe von 1) sprechen für eine hohe
Modellgüte, niedrige Werte (in der Nähe von 0) für eine geringe Modellgüte.
Ökonometrie (SS 2017)
Folie 152
3 Einfache lineare Regression
Parameterschätzung 3.3
Beispiel: Ausgaben in Abhängigkeit vom Einkommen I
Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und
Genussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100
e) in der Form
iid
ui ∼ N(0, σ 2 ),
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n}
abhängen. Für n = 7 Haushalte beobachte man nun neben dem Einkommen
xi auch die (Realisation der) Ausgaben für Nahrungs- und Genussmittel yi
wie folgt:
Haushalt i
Einkommen xi
NuG-Ausgaben yi
1
35
9
2
49
15
3
21
7
4
39
11
5
15
5
6
28
8
7
25
9
Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1
bi
der linearen Modellbeziehung geschätzt sowie die Werte ybi , die Residuen u
und das Bestimmtheitsmaß R 2 bestimmt werden.
Ökonometrie (SS 2017)
Folie 153
3 Einfache lineare Regression
Parameterschätzung 3.3
Berechnete (deskriptive/empirische) Größen:
x = 30.28571
sX2 = 114.4901
y = 9.14286
sY2 = 8.6938
x 2 = 1031.71429
sX ,Y = 30.2449
y 2 = 92.28571
rX ,Y = 0.9587
Damit erhält man die Parameterschätzer βb0 und βb1 als
sX ,Y
30.2449
βb1 = 2 =
= 0.26417
114.4901
sX
βb0 = y − βb1 · x = 9.14286 − 0.26417 · 30.28571 = 1.14228 .
Als Bestimmtheitsmaß erhält man R 2 = rX2 ,Y = 0.95872 = 0.9191.
bi erhält man durch Einsetzen (b
bi = yi − ybi ):
Für ybi und u
yi = βb0 + βb1 · xi , u
i
xi
yi
ybi
bi
u
Ökonometrie (SS 2017)
1
35
9
10.39
−1.39
2
49
15
14.09
0.91
3
21
7
6.69
0.31
4
39
11
11.44
−0.44
5
15
5
5.1
−0.1
6
28
8
8.54
−0.54
7
25
9
7.75
1.25
Folie 154
3 Einfache lineare Regression
Parameterschätzung 3.3
Grafik: Ausgaben in Abhängigkeit vom Einkommen
15
βb0 = 1.14228, βb1 = 0.26417, R 2 = 0.9191
●
y = y^
x
●
●
●
10
●
^
u
i
●
●
●
●
yi
●
●
●
5
●
●
yi
0
y^i
0
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 155
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 I
Wegen der Abhängigkeit von yi handelt es sich bei βb0 und βb1 (wie in der
schließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen.
βb0 und βb1 sind linear in yi , man kann genauer zeigen:
βb0 =
n
X
x 2 − x · xi
· yi
n · sX2
i=1
Ökonometrie (SS 2017)
und
βb1 =
n
X
xi − x
· yi
n · sX2
i=1
Folie 156
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 II
βb0 und βb1 sind erwartungstreu für β0 und β1 , denn wegen E(ui ) = 0 gilt
I
I
I
E(yi ) = β0 +P
β1 · xi +
) = β0 + β1 · xi ,P
E(ui P
E(y ) = E n1 ni=1 yi = n1 ni=1 E(yi ) = n1 ni=1 (β0 + β1 · xi ) = β0 + β1 · x,
P
P
E(xy ) = E n1 ni=1 xi yi = n1 ni=1 xi (β0 + β1 · xi ) = β0 · x + β1 · x 2
und damit
xy − x · y
E(xy ) − x · E(y )
=
x2 − x2
x2 − x2
β0 · x + β1 · x 2 − x · (β0 + β1 · x)
β1 · (x 2 − x 2 )
=
=
= β1
x2 − x2
x2 − x2
E(βb1 ) = E
sowie
E(βb0 ) = E(y − x βb1 ) = E(y ) − x E(βb1 ) = β0 + β1 · x − x · β1 = β0 .
Diese beiden Eigenschaften folgen bereits mit dem Satz von Gauß-Markov.
Ökonometrie (SS 2017)
Folie 157
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 III
Für die Varianzen der Schätzfunktionen erhält man (mit der Darstellung aus
Folie 156):
Var(βb1 ) =
σ2
n · sX2
sowie
Var(βb0 ) =
σ2 · x 2
n · sX2
Diese hängen von der unbekannten Varianz σ 2 der ui ab.
Eine erwartungstreue Schätzfunktion für σ 2 ist gegeben durch
n
1 X 2
bi
u
n−2
i=1
n
n
· sY2 · (1 − R 2 ) =
· (sY2 − βb1 · sX ,Y )
=
n−2
n−2
p
c2 dieser Schätzfunktion heißt auch
Die positive Wurzel σ
b=+ σ
Standard Error of the Regression (SER) oder residual standard error.
c2 := Var(u
\i ) =
σ
Ökonometrie (SS 2017)
Folie 158
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 IV
c2 für σ 2 liefert die geschätzten Varianzen der
Einsetzen des Schätzers σ
Parameterschätzer
\
c2 b := Var(
σ
βb1 ) =
β1
c2
sY2 − βb1 · sX ,Y
σ
=
n · sX2
(n − 2) · sX2
und
2
c2 2
2
b
\
c2 b := Var(
b0 ) = σ · x = (sY − β1 · sX ,Y ) · x .
β
σ
β0
n · sX2
(n − 2) · sX2
q
q
c2 b und σ
c2 b dieser geschätzten
Die positiven Wurzeln σ
bβb0 = σ
bβb1 = σ
β0
β1
Varianzen werden wie üblich als (geschätzte) Standardfehler von βb0 und βb1
bezeichnet.
Ökonometrie (SS 2017)
Folie 159
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle und Tests
unter Normalverteilungsannahme für ui
Häufig nimmt man weitergehend für die Störgrößen an, dass speziell
iid
ui ∼ N(0, σ 2 )
gilt, d.h. dass alle ui (für i ∈ {1, . . . , n}) unabhängig identisch normalverteilt
sind mit Erwartungswert 0 und (unbekannter) Varianz σ 2 .
In diesem Fall sind offensichtlich auch y1 , . . . , yn stochastisch unabhängig und
jeweils normalverteilt mit Erwartungswert E(yi ) = β0 + β1 · xi und Varianz
Var(yi ) = σ 2 .
Da βb0 und βb1 linear in yi sind, folgt insgesamt mit den bereits berechneten
Momenten von βb0 und βb1 :
!
2
2
σ
·
x
σ2
b
b
β0 ∼ N β0 ,
und
β1 ∼ N β1 ,
n · sX2
n · sX2
Ökonometrie (SS 2017)
Folie 160
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle
unter Normalverteilungsannahme für ui
Da σ 2 unbekannt ist, ist für Anwendungen wesentlich relevanter, dass im
Falle unabhängig identisch normalverteilter Störgrößen ui mit den
c2 b für Var(βb0 ) und σ
c2 b für Var(βb1 ) gilt:
Schätzfunktionen σ
β0
β1
βb0 − β0
∼ t(n − 2)
σ
bβb0
und
βb1 − β1
∼ t(n − 2)
σ
bβb1
Hieraus erhält man unmittelbar die Formeln“
”
h
i
b
α
β0 − tn−2;1− 2 · σ
bβb0 , βb0 + tn−2;1− α2 · σ
bβb0
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β0 bzw.
h
i
βb1 − tn−2;1− α2 · σ
bβb1 , βb1 + tn−2;1− α2 · σ
bβb1
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β1 .
Ökonometrie (SS 2017)
Folie 161
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen II
Im bereits erläuterten Beispiel erhält man als Schätzwert für σ 2 :
2
b
c2 = n · (sY − β1 · sX ,Y ) = 7 · (8.6938 − 0.26417 · 30.2449) = 0.9856
σ
n−2
7−2
b
Die (geschätzten) Standardfehler für β0 und βb1 sind damit
s
r
c2 · x 2
0.9856 · 1031.71429
σ
=
= 1.1264 ,
σ
bβb0 =
2
7 · 114.4901
n · sX
s
r
c2
σ
0.9856
σ
bβb1 =
= 0.0351 .
=
7 · 114.4901
n · sX2
Für α = 0.05 erhält man mit tn−2;1− α2 = t5;0.975 = 2.571 für β0 also
[1.14228 − 2.571 · 1.1264, 1.14228 + 2.571 · 1.1264] = [−1.7537, 4.0383]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 bzw.
[0.26417 − 2.571 · 0.0351, 0.26417 + 2.571 · 0.0351] = [0.1739, 0.3544]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für β1 .
Ökonometrie (SS 2017)
Folie 162
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Hypothesentests
unter Normalverteilungsannahme für ui
Genauso lassen sich unter der Normalverteilungsannahme (exakte) t-Tests für
die Parameter β0 und β1 konstruieren.
Trotz unterschiedlicher Problemstellung weisen die Tests Ähnlichkeiten zum
t-Test für den Mittelwert einer normalverteilten Zufallsvariablen bei
unbekannter Varianz auf.
Untersucht werden können die Hypothesenpaare
H0 : β0 = β00
gegen
H1 : β0 6= β00
H0 : β0 ≤ β00
gegen
H1 : β0 > β00
H0 : β0 ≥ β00
gegen
H1 : β0 < β00
H0 : β1 = β10
gegen
H1 : β1 6= β10
H0 : β1 ≤ β10
gegen
H1 : β1 > β10
H0 : β1 ≥ β10
gegen
H1 : β1 < β10
bzw.
Besonders anwendungsrelevant sind Tests auf die Signifikanz“ der Parameter
”
(insbesondere β1 ), die den zweiseitigen Tests mit β00 = 0 bzw. β10 = 0
entsprechen.
Ökonometrie (SS 2017)
Folie 163
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β0
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β0 = β00
H1 : β0 6= β00
Teststatistik
H0 : β0 ≤ β00
H1 : β0 > β00
t=
Verteilung (H0 )
H0 : β0 ≥ β00
H1 : β0 < β00
βb0 − β00
σ
bβc0
t für β0 = β00 t(n − 2)-verteilt
s
(sY2 − βb1 · sX ,Y ) · x 2
b
b
, β0 = y − β1 · x, σ
bβc0 =
(n − 2) · sX2
Benötigte Größen
sX ,Y
βb1 = 2
sX
Kritischer Bereich
zum Niveau α
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
2 · (1 − Ft(n−2) (|t|))
1 − Ft(n−2) (t)
Ft(n−2) (t)
p-Wert
Ökonometrie (SS 2017)
Folie 164
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β1
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β1 = β10
H1 : β1 6= β10
Teststatistik
H0 : β1 ≤ β10
H1 : β1 > β10
t=
Verteilung (H0 )
H0 : β1 ≥ β10
H1 : β1 < β10
βb1 − β10
σ
bβc1
t für β1 = β10 t(n − 2)-verteilt
s
sY2 − βb1 · sX ,Y
=
(n − 2) · sX2
Benötigte Größen
sX ,Y
βb1 = 2 , σ
bβc1
sX
Kritischer Bereich
zum Niveau α
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
2 · (1 − Ft(n−2) (|t|))
1 − Ft(n−2) (t)
Ft(n−2) (t)
p-Wert
Ökonometrie (SS 2017)
Folie 165
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen III
Im bereits erläuterten Beispiel soll zum Signifikanzniveau α = 0.05 getestet
werden, ob β0 signifikant von Null verschieden ist. Geeigneter Test:
t-Test für den Regressionsparameter β0
1
2
3
4
5
Hypothesen:
H0 : β0 = 0
gegen
H1 : β0 6= 0
Teststatistik:
βb0 − 0
t=
ist unter H0 (für β0 = 0) t(n − 2)-verteilt.
σ
bβc0
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , +∞) = (−∞, −t5;0.975 ) ∪ (t5;0.975 , +∞)
= (−∞, −2.571) ∪ (2.571, +∞)
Berechnung der realisierten Teststatistik:
βb0 − 0
1.14228 − 0
t=
=
= 1.014
σ
bβc0
1.1264
Entscheidung:
t = 1.014 ∈
/ (−∞, −2.571) ∪ (2.571, +∞) = K ⇒ H0 wird nicht abgelehnt!
(p-Wert: 2 − 2 · Ft(5) (|t|) = 2 − 2 · Ft(5) (|1.014|) = 2 − 2 · 0.8215 = 0.357)
Der Test kann für β0 keine signifikante Abweichung von Null feststellen.
Ökonometrie (SS 2017)
Folie 166
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen IV
Nun soll zum Signifikanzniveau α = 0.01 getestet werden, ob β1 positiv ist.
Geeigneter Test:
t-Test für den Regressionsparameter β1
1
2
3
4
5
Hypothesen:
H0 : β1 ≤ 0
gegen
H1 : β1 > 0
Teststatistik:
βb1 − 0
ist unter H0 (für β1 = 0) t(n − 2)-verteilt.
t=
σ
bβc1
Kritischer Bereich zum Niveau α = 0.01:
K = (tn−2;1−α , +∞) = (t5;0.99 , +∞) = (3.365, +∞)
Berechnung der realisierten Teststatistik:
βb1 − 0
0.26417 − 0
t=
=
= 7.5262
σ
bβc1
0.0351
Entscheidung:
t = 7.5262 ∈ (3.365, +∞) = K
⇒
H0 wird abgelehnt!
(p-Wert: 1 − Ft(5) (t) = 1 − Ft(5) (7.5262) = 1 − 0.9997 = 0.0003)
Der Test stellt fest, dass β1 signifikant positiv ist.
Ökonometrie (SS 2017)
Folie 167
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Punkt- und Intervallprognosen
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Neben Konfidenzintervallen und Tests für die Parameter β0 und β1 in linearen
Regressionsmodellen vor allem Prognosen wichtige Anwendung.
Zur Erstellung von Prognosen: Erweiterung der Modellannahme
yi = β0 + β1 · xi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren, hier mit (x0 , y0 ) bezeichneten Datenpunkt,
bei dem jedoch y0 nicht beobachtet wird, sondern lediglich der Wert des
Regressors x0 bekannt ist.
Ziel: Schätzung“ (Prognose) von y0 = β0 + β1 · x0 + u0 bzw.
”
E(y0 ) = β0 + β1 · x0 auf Grundlage von x0 .
Wegen E(u0 ) = 0 und der Erwartungstreue von βb0 für β0 bzw. βb1 für β1 ist
[
yb0 := βb0 + βb1 · x0 =: E(y
0)
offensichtlich erwartungstreu für y0 bzw. E(y0 ) gegeben x0 .
[
yb0 bzw. E(y
0 ) wird auch (bedingte) Punktprognose für y0 bzw. E(y0 )
gegeben x0 genannt.
Ökonometrie (SS 2017)
Folie 168
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler
Zur Beurteilung der Genauigkeit der Prognosen:
Untersuchung der sogenannten Prognosefehler
yb0 − y0
bzw.
[
E(y
0 ) − E(y0 ) .
Qualitativer Unterschied:
I
Prognosefehler
[
b
b
b
b
E(y
0 ) − E(y0 ) = β0 + β1 · x0 − (β0 + β1 · x0 ) = (β0 − β0 ) + (β1 − β1 ) · x0
I
resultiert nur aus Fehler bei der Schätzung von β0 bzw. β1 durch βb0 bzw. βb1 .
Prognosefehler
yb0 − y0 = βb0 + βb1 · x0 − (β0 + β1 · x0 + u0 ) = (βb0 − β0 ) + (βb1 − β1 ) · x0 − u0
ist Kombination von Schätzfehlern (für β0 und β1 ) sowie zufälliger
Schwankung von u0 ∼ N(0, σ 2 ).
[
Zunächst: Untersuchung von eE := E(y
0 ) − E(y0 )
Ökonometrie (SS 2017)
Folie 169
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Wegen der Erwartungstreue stimmen mittlerer quadratischer (Prognose-)
[
Fehler und Varianz von eE = E(y
0 ) − E(y0 ) überein und man erhält
[
[
b
b
Var(E(y
0 ) − E(y0 )) = Var(E(y0 )) = Var(β0 + β1 · x0 )
= Var(βb0 ) + x 2 Var(βb1 ) + 2 · x0 · Cov(βb0 , βb1 ).
0
Es kann gezeigt werden, dass für die Kovarianz von βb0 und βb1 gilt:
x
x
Cov(βb0 , βb1 ) = −σ 2 · Pn
= −σ 2 ·
2
n · sX2
i=1 (xi − x)
Insgesamt berechnet man so die Varianz des Prognosefehlers
σe2E := Var(eE ) =
σ2 · x 2
σ2
σ2 · x
2
+
x
·
−
2
·
x
·
0
0
n · sX2
n · sX2
n · sX2
= σ2 ·
x 2 + x02 − 2 · x0 · x
n · sX2
(x 2 − x 2 ) + (x 2 + x02 − 2 · x0 · x)
n · sX2
2
2
s + (x0 − x)
1 (x0 − x)2
2
.
= σ2 · X
=
σ
·
+
n
n · sX2
n · sX2
= σ2 ·
Ökonometrie (SS 2017)
Folie 170
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Die Linearität von βb0 und βb1 (in yi ) überträgt sich (natürlich) auch auf
[
E(y
0 ), damit gilt offensichtlich
2
[
eE = E(y
0 ) − E(y0 ) ∼ N 0, σeE
bzw.
[
E(y
0 ) − E(y0 )
∼ N(0, 1) .
σeE
Da σ 2 unbekannt ist, erhält man durch Ersetzen von σ 2 durch die
c2 die geschätzte Varianz
erwartungstreue Schätzfunktion σ
c2 e := Var(e
c2 ·
d E) = σ
σ
E
1 (x0 − x)2
+
n
n · sX2
[
von E(y
0 ) und damit die praktisch wesentlich relevantere Verteilungsaussage
[
eE
E(y
0 ) − E(y0 )
=
∼ t(n − 2) ,
σ
beE
σ
beE
aus der sich in bekannter Weise (symmetrische) Konfidenzintervalle (und
Tests) konstruieren lassen.
Ökonometrie (SS 2017)
Folie 171
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für E(y0 ) gegeben x0
Intervallprognosen zur Vertrauenswahrscheinlichkeit 1 − α erhält man also als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) in der Form
h
[
[
·σ
beE , E(y
·σ
beE
E(y
0 ) + tn−2;1− α
0 ) − tn−2;1− α
2
2
i
i
h
beE , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
beE .
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
1 (x0 − x)2
1 (38 − 30.28571)2
c
c
2
2
σ eE = σ ·
+
= 0.9856 ·
+
= 0.214
n
7
7 · 114.4901
n · sX2
[
b
b
die Punktprognose E(y
0 ) = β0 + β1 · x0 = 1.14228 + 0.26417 · 38 = 11.1807
(in 100 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 0.95
i
h
√
√
11.1807 − 2.571 · 0.214 , 11.1807 + 2.571 · 0.214
= [9.9914 , 12.37] (in 100 e) .
Ökonometrie (SS 2017)
Folie 172
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler e0 := yb0 − y0
Nun: Untersuchung des Prognosefehlers e0 := yb0 − y0
Offensichtlich gilt für e0 = yb0 − y0 die Zerlegung
yb0 − y0 = (βb0 + βb1 · x0 ) −(β0 + β1 · x0 +u0 )
{z
}
|
{z
} |
[
=E(y
0)
=
[
E(y
0 ) − E(y0 )
|
{z
}
Fehler aus Schätzung von
β0 und β1
=E(y0 )
−
u0
|{z}
.
zufällige Schwankung
der Störgröße
[
b
b
E(y
0 ) hängt nur von u1 , . . . , un ab (über y1 , . . . , yn bzw. β0 und β1 ) und ist
iid
wegen der Annahme ui ∼ N(0, σ 2 ) unabhängig von u0 .
Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auch
unkorreliert und man erhält:
[
σe20 := Var(yb0 − y0 ) = Var(E(y
0 ) − E(y0 )) + Var(u0 )
1 (x0 − x)2
1 (x0 − x)2
2
2
2
=σ ·
+
+σ =σ · 1+ +
n
n
n · sX2
n · sX2
Ökonometrie (SS 2017)
Folie 173
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgt
auch sofort die Normalverteilungseigenschaft des Prognosefehlers
e0 = y0 − yb0 , genauer gilt:
e0 = yb0 − y0 ∼ N 0, σe20
bzw.
yb0 − y0
∼ N(0, 1) .
σe0
c2 ersetzt werden, um mit Hilfe der geschätzen
Wieder muss σ 2 durch σ
Varianz
2
c2 e := Var(
c2 · 1 + 1 + (x0 − x)
d yb0 − y0 ) = σ
σ
0
n
n · sX2
des Prognosefehlers die für die Praxis relevante Verteilungsaussage
e0
yb0 − y0
=
∼ t(n − 2) ,
σ
be0
σ
be0
zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen.
Ökonometrie (SS 2017)
Folie 174
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für y0 gegeben x0
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also analog zu den Intervallprognosen für E(y0 ) in der Form
yb0 − tn−2;1− α2 · σ
be0 , yb0 + tn−2;1− α2 · σ
be0
i
h
be0 , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
be0 .
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
2
(38 − 30.28571)2
1
c2 e = σ
c2 · 1 + 1 + (x0 − x)
= 1.1996
σ
+
=
0.9856·
1
+
0
n
7
7 · 114.4901
n · sX2
[
mit der bereits berechneten Punktprognose yb0 = E(y
0 ) = 11.1807 (in 100 e)
die zugehörige Intervallprognose für y0 zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 1.1996 , 11.1807 + 2.571 · 1.1996
= [8.3648 , 13.9966] (in 100 e) .
Ökonometrie (SS 2017)
Folie 175
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognose: Ausgaben in Abhängigkeit vom Einkommen
15
βb0 = 1.14228, βb1 = 0.26417, x0 = 38, yb0 = 11.1807, 1 − α = 0.95
●
y = y^
x
10
●
●
●
yi
●
●
0
5
●
0
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 176
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
Einfache lineare Modelle mit Statistik-Software R
Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
7
1.2535
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.14225
1.12645
1.014 0.357100
x
0.26417
0.03507
7.533 0.000653 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919,
Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Ökonometrie (SS 2017)
Folie 177
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
Interpretation des Outputs I
c2 und R 2
Residuen, σ
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
bi
Auflistung bzw. Zusammenfassung der Residuen u
p
c
c
SER σ
b = σ 2 , hier: σ
b = 0.9928 ⇒ σ 2 = 0.9857
Anzahl Freiheitsgrade n − 2, hier: n − 2 = 5 ⇒ n = 7
(Multiples) Bestimmtheitsmaß R 2 , hier: R 2 = 0.919
Ökonometrie (SS 2017)
Folie 178
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
Interpretation des Outputs II
Ergebnisse zur Schätzung von β0 und β1
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Realisationen von βb0 , βb1 , hier: βb0 = 1.14225, βb1 = 0.26417
Standardfehler von βb0 , βb1 , hier: σ
bβc0 = 1.12645, σ
bβc1 = 0.03507
t-Statistiken zu Tests auf Signifikanz, hier: zu β0 : t = 1.014, zu β1 : t = 7.533
p-Werte zu Tests auf Signifikanz, hier: zu β0 : p = 0.3571, zu β1 : p = 0.000653
Ökonometrie (SS 2017)
Folie 179
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
Zusammenhang zwischen p-Werten
zu zweiseitigen und einseitigen Tests bei unter H0 (um Null) symmetrisch verteilter Teststatistik
Erinnerung: t(n)- sowie N(0, 1)-Verteilung sind symmetrisch um Null, für die
zugehörigen Verteilungsfunktionen F gilt also F (x) = 1 − F (−x) für alle
x ∈ R und F (0) = 0.5, F (x) < 0.5 für x < 0 sowie F (x) > 0.5 für x > 0.
Für die p-Werte pz der zweiseitigen Tests auf den Mittelwert bei bekannter
(Gauß-Test) sowie unbekannter (t-Test) Varianz gilt daher bekanntlich
2 · F (x)
falls x < 0
pz = 2 · min{F (x), 1 − F (x)} =
,
2 · (1 − F (x)) falls x ≥ 0
wobei x den realisierten Wert der Teststatistik sowie F die
Verteilungsfunktion der Teststatistik unter H0 bezeichne.
Für die p-Werte pl = F (x) zum linksseitigen sowie pr = 1 − F (x) zum
rechtsseitigen Test bei realisierter Teststatistik x gelten demnach die
folgenden Zusammenhänge:
 p

z

 1 − pz falls x < 0
falls x < 0
2
2
pl =
sowie
pr =
 1 − pz falls x ≥ 0
 pz
falls x ≥ 0
2
2
Somit auch p-Werte zu einseitigen Tests aus R-Output bestimmbar!
Ökonometrie (SS 2017)
.
Folie 180
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression I
Bisher: Annahme der Gültigkeit eines einfachen linearen Modells
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n},
mit
I
I
der abhängigen Variablen (Regressand) yi ,
einer unabhängigen, erklärenden Variablen (Regressor) xi , wobei
1
2
I
xi als deterministisch angenommen wird und
sX2 > 0 gelten muss,
der Störgröße ui , wobei
1
2
3
4
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) angenommen wird.
Ökonometrie (SS 2017)
Folie 181
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression II
Auf Grundlage dieses Annahmen-Komplexes:
I
I
I
Verwendung der KQ-Methode, um eine geschätze Regressionsgerade
y = βb0 + βb1 · x mit den zugehörigen KQ-Prognosen ybi = βb0 + βb1 · xi und den
bi = yi − ybi zu bestimmen.
zugehörigen KQ-Residuen u
Bestimmung von Konfidenzintervallen und Durchführung von Hypothesentests
für die Regressionsparameter β0 und β1 .
Bestimmung von bedingten Punktprognosen und Prognoseintervallen für die
abhängige Variable y zu neuen“ Werten der unabhängigen, erklärenden
”
Variablen x.
Problem: (Perfekte) Validität der Ergebnisse nur, wenn Modell korrekt und
Annahmen-Komplex erfüllt ist!
Im Folgenden:
I
I
I
Erweiterung des einfachen linearen Regressionsmodells zum multiplen linearen
Regressionsmodell
Untersuchung der Konsequenz von Annahmeverletzungen
Geeignete Reaktion auf bzw. geeignete Verfahren im Fall von
Annahmeverletzungen
Ökonometrie (SS 2017)
Folie 182
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen I
Der omitted variable bias“
”
Eine Möglichkeit der Verletzung der Annahmen des einfachen linearen
Modells: Modell ist tatsächlich komplexer, yi hänge auch von einer weiteren
erklärenden Variablen e
xi linear in der Gestalt
yi = β0 + β1 · xi + β2 · e
xi + i ,
i ∈ {1, . . . , n},
mit β2 6= 0 ab, wobei die üblichen Annahmen für die Störgrößen i
(insbesondere E(i ) ≡ 0) gelten sollen.
Wird statt des komplexeren Modells die Gültigkeit eines einfachen linearen
Modells angenommen, ist die Abhängigkeit von e
xi offensichtlich in der
Störgröße ui subsummiert, man erhält die Darstellung
yi = β0 + β1 · xi + β2 · e
x + i ,
}
| {zi
i ∈ {1, . . . , n}.
ui
Damit gilt im einfachen Modell jedoch E(ui ) = β2 · e
xi , die Annahme E(ui ) ≡ 0
ist also verletzt, sobald e
xi 6= 0 für mindestens ein i ∈ {1, . . . , n} gilt!
Ökonometrie (SS 2017)
Folie 183
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen II
Der omitted variable bias“
”
Werden trotz dieser Annahmenverletzung Parameterschätzer im einfachen
linearen Modell bestimmt, so erhält man beispielsweise für βb1
βb1 =
n
n
X
X
(xi − x)
(xi − x)
· yi =
· (β0 + β1 · xi + β2 · e
xi + i )
nsX2
nsX2
i=1
i=1
n
n
n
n
X
X
X
(xi − x)e
(xi − x)
(xi − x)xi
xi X (xi − x)i
+β
= β0
+β
+
2
1
nsX2
nsX2
nsX2
nsX2
i=1
i=1
i=1
i=1
|
{z
}
|
{z
}
|
{z
}
=0
und damit E(βb1 ) = β1 + β2
(sX ,Xe
!
=1
e
! sX ,X
s2
X
=
sX ,Xe
.
sX2
e .)
bezeichnet wie üblich die empirische Kovarianz zwischen X und X
Damit ist βb1 nicht mehr erwartungstreu für β1 , falls sX ,Xe 6= 0 gilt, auch
Konfidenzintervalle und Tests werden dann unbrauchbar!
Ökonometrie (SS 2017)
Folie 184
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell I
Lösung des Problems durch Schaffung der Möglichkeit, weitere erklärende
Variablen einzubeziehen.
Erweiterung des einfachen linearen Modells um zusätzliche Regressoren
x2i , . . . , xKi zum multiplen linearen Modell
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
i ∈ {1, . . . , n},
bzw. in Matrixschreibweise
y = Xβ + u
mit
 
y1
 .. 
y =  . ,
yn
Ökonometrie (SS 2017)

1
 ..
X = .

x11
..
.
···
xK 1
..  ,
. 
1
x1n
···
xKn


β0
 β1 
 
β =  . ,
 .. 
βK
 
u1
 .. 
u=. .
un
Folie 185
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell II
Modellannahmen im multiplen linearen Regressionsmodell übertragen sich (zum
Teil verallgemeinert) aus einfachem linearen Modell:
Für die K unabhängigen, erklärenden Variablen (Regressoren) x1i , . . . , xKi
wird angenommen, dass
1
2
die xki deterministisch sind (für i ∈ {1, . . . , n}, k ∈ {1, . . . , K }) und dass
sich für kein k ∈ {1, . . . , K } der Regressor xki als (für alle i ∈ {1, . . . , n} feste)
Linearkombination einer Konstanten und der übrigen Regressoren darstellen
lässt. Äquivalent dazu:
F
F
Die Regressormatrix X hat vollen (Spalten-)Rang K + 1.
x1i lässt sich nicht als Linearkombination einer Konstanten und der übrigen
Regressoren x2i , . . . , xKi darstellen.
Für die Störgrößen ui wird
1
2
3
4
E(ui ) ≡ 0 bzw. E(u) = 0 mit dem Nullvektor 0 := (0, . . . , 0)0 ,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) bzw. u ∼ N(0, σ 2 In ) mit der
(n × n)-Einheitsmatrix In angenommen.
Ökonometrie (SS 2017)
Folie 186
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell III
Für den Erwartungswert von yi gilt nun
E (yi ) = β0 + β1 x1i + . . . + βK xKi ,
i ∈ {1, . . . , n},
die Regressionsgerade aus dem einfachen linearen Modell wird also nun zu
einer Regressionsebene, beschrieben durch die Regressions-Parameter
β0 , . . . , β K .
Der Regressionsparameter (und Steigungskoeffizient) βk gibt nun für
k ∈ {1, . . . , K } die erwartete Änderung (ohne den Einfluss der Störgröße ui )
von yi an, die aus der Erhöhung des Regressors xki um eine Einheit resultiert,
wenn alle anderen Regressoren konstant gehalten werden.
Zur Schätzung der Parameter des multiplen Regressionsmodells wird
wiederum die Methode der Kleinsten Quadrate (Least Squares, auch
Ordinary Least Squares) verwendet.
Ökonometrie (SS 2017)
Folie 187
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell I
Die Anwendung der KQ-Methode im multiplen linearen Modell führt zur
Suche nach βb0 , βb1 , . . . , βbK ∈ R mit
n
X
(yi − (βb0 + βb1 xi1 + . . . + βbK xKi ))2
i=1
!
=
min
β0 ,β1 ,...,βK ∈R
n
X
(yi − (β0 + β1 xi1 + . . . + βK xKi ))2 .
i=1
In Matrixschreibweise ist also der Vektor βb = (βb0 , βb1 , . . . , βbK )0 ∈ RK +1
gesucht mit
!
b 0 (y − Xβ)
b =
(y − Xβ)
min (y − Xβ)0 (y − Xβ) .
β∈RK +1
(Zu Matrizen A bzw. Vektoren b seien hier und im Folgenden wie üblich mit
A0 bzw. b0 jeweils die transponierten Matrizen bzw. Vektoren bezeichnet.)
Ökonometrie (SS 2017)
Folie 188
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell II
Die Matrixdarstellung erlaubt eine kompakte Lösung der Optimierung:
Für die zu minimierende Funktion
f (β) := (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
= y0 y − 2β 0 X0 y + β 0 X0 Xβ
erhält man den Gradienten
∂f (β)
= −2X0 y + 2X0 Xβ = 2(X0 Xβ − X0 y)
∂β
und damit wegen der Invertierbarkeit (!) von X0 X als Lösung von
∂f (β) !
=0
∂β
βb = (X0 X)−1 X0 y ,
die wegen der positiven Definitheit (!) von X0 X auch (einzige) Lösung des
Minimierungsproblems ist.
Ökonometrie (SS 2017)
Folie 189
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell III
Die Invertierbarkeit von X0 X ist gewährleistet, da nach Annahme die
(n × (K + 1))-Matrix X vollen (Spalten-)Rang K + 1 und damit auch die
((K + 1) × (K + 1))-Matrix X0 X vollen Rang K + 1 hat.
Da X vollen (Spalten-)Rang besitzt, ist X0 X außerdem positiv definit.
Eine Verletzung der getroffenen Annahme, dass X vollen (Spalten-)Rang
besitzt, bezeichnet man auch als perfekte Multikollinearität der
Regressormatrix X.
Bei Vorliegen von perfekter Multikollinearität ist die KQ-Methode zwar immer
noch (allerdings nicht wie eben beschrieben!) durchführbar, der optimale
Vektor βb ist allerdings nicht mehr eindeutig bestimmt, der zugehörige
Parametervektor β damit nicht mehr identifiziert.
Perfekte Multikollinearität kann durch (zum Teil offensichtliche)
Unachtsamkeiten bei der Zusammenstellung der Regressoren entstehen
(später mehr!).
Ökonometrie (SS 2017)
Folie 190
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IV
Eine andere Darstellung des KQ-Schätzers βb ist gegeben durch

 
βb1
s11
 ..   ..
=
 .   .
sK 1
βbK
s12
..
.
···
−1 

s1K
s1Y
..   .. 
.   . 
sK 2
···
sKK
sKY
und
βb0 = y − (βb1 x 1 + . . . + βbK x K )
mit
xk =
n
1X
xki ,
n
skj =
i=1
n
1X
y=
yi ,
n
i=1
n
1X
(xki − x k )(xji − x j ),
n
i=1
skY
n
1X
=
(xki − x k )(yi − y )
n
i=1
für k, j ∈ {1, . . . , K }.
Ökonometrie (SS 2017)
Folie 191
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell V
Offensichtlich erhält man für K = 1 hiermit die – abgesehen von der leicht
abweichenden Notation – zum KQ-Schätzer im einfachen linearen Modell
übereinstimmende Darstellung
s1Y
βb1 =
s11
sowie
βb0 = y − βb1 x 1 .
Für K = 2 lässt sich die Darstellung
s22 s1Y − s12 s2Y
βb1 =
,
2
s11 s22 − s12
s11 s2Y − s12 s1Y
βb2 =
,
2
s11 s22 − s12
βb0 = y − (βb1 x 1 + βb2 x 2 )
für die KQ-Schätzer ableiten.
Ökonometrie (SS 2017)
Folie 192
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VI
Wie im einfachen linearen Regressionsmodell definiert man zu den
KQ/OLS-geschätzten Parametern βb = (βb0 , βb1 , . . . , βbK )0 mit
ybi := βb0 + βb1 x1i + . . . βbK xKi ,
i ∈ {1, . . . , n}
bzw.
b
y := Xβb
die vom (geschätzten) Modell prognostizierten Werte der abhängigen
Variablen auf der geschätzten Regressionsebene sowie mit
bi := yi − ybi ,
u
i ∈ {1, . . . , n}
bzw.
b := y − b
u
y
die Residuen, also die Abstände (in y -Richtung) der beobachteten Werte der
abhängigen Variablen von den prognostizierten Werten auf der geschätzten
Regressionsebene.
Pn
P
bi = 0 sowie ni=1 xki u
bi = 0 für k ∈ {1, . . . , K } bzw.
Es gilt (analog) i=1 u
b = X0 (y − b
X0 u
y) = X0 y − X0 Xβb = X0 y − X0 X(X0 X)−1 X0 y = 0 .
Ökonometrie (SS 2017)
Folie 193
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VII
0 0b
b 0u
b = (Xβ)
b = βbP
Damit
y0 u
X u = 0 sowie
P mit
Pb
Pngilt weiter
n
bi = i=1 (yi − ybi ) auch ni=1 yi = ni=1 ybi ⇐⇒ y = yb.
0 = i=1 u
So erhält man
b
b +b
b)0 (b
b) = b
b0 b
u0 u
y0 u
y0 y = (b
y+u
y+u
y0 b
y+ u
y +b
|{z} |{z}
=0
=0
2
und durch Subtraktion von ny 2 = nb
y auf beiden Seiten
2
b0 u
b
y0 y − ny 2 = b
y0 b
y − nb
y +u
und damit insgesamt die bekannte Streuungszerlegung
n
X
(yi − y )2
i=1
|
i=1
{z
}
Total Sum of Squares
Ökonometrie (SS 2017)
=
n
X
(b
yi − yb)2
|
+
n
X
bi2
u
.
i=1
{z
}
Explained Sum of Squares
| {z }
Residual Sum of Squares
Folie 194
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VIII
Wie im einfachen linearen Modell misst das multiple Bestimmtheitsmaß
Pn
Pn
bi2
u
yi − yb)2
ESS
RSS
i=1 (b
P
R = 1 − Pn
=
=
=1−
n
2
2
TSS
TSS
i=1 (yi − y )
i=1 (yi − y )
2
i=1
den Anteil der durch den (geschätzten) linearen Zusammenhang erklärten
Streuung an der gesamten Streuung der abhängigen Variablen.
Es gilt weiterhin 0 ≤ R 2 ≤ 1.
Bei der Hinzunahme weiterer erklärender Variablen (Regressoren) in ein
bestehendes lineares Modell kann sich im Laufe der
der
Pn KQ/OLS-Schätzung
bi2 , offensichtlich
Zielfunktionswert an der Minimumstelle, RSS = i=1 u
höchstens weiter verringern.
Damit führt die Hinzunahme weiterer (auch eigentlich irrelevanter)
Regressoren höchstens zu einer Zunahme des multiplen Bestimmtheitsmaßes
R 2.
Ökonometrie (SS 2017)
Folie 195
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IX
Um einen aussagekräftigeren Vergleich der Bestimmtheitmaße eines
ursprünglichen und eines erweiterten Modells durchführen zu können, kann
das adjustierte Bestimmtheitsmaß
R2
:= 1 −
1
n−(K +1) · RSS
1
n−1 · TSS
=1−
RSS
n−1
n − (K + 1) TSS
verwendet werden.
Dieses kann sich bei Erweiterung eines Modells um zusätzliche Regressoren
auch verringern (und sogar negativ werden).
Es gilt (offensichtlich) stets
R2 ≤ R2 ≤ 1 .
Ökonometrie (SS 2017)
Folie 196
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell X
Bei der Berechnung von R 2 wird die für σ 2 = Var(ui ) erwartungstreue
Schätzfunktion
n
c2 =
σ
X
b0 u
b
u
1
RSS
bi2 =
u
=
n − (K + 1)
n − (K + 1)
n − (K + 1)
i=1
verwendet.
p
c2 dieser
Wie im einfachen linearen Modell wird die positive Wurzel + σ
Schätzfunktion als Standard Error of the Regression (SER) oder residual
standard error bezeichnet.
Die Korrektur um K + 1 Freiheitsgrade erklärt sich dadurch, dass nun K + 1
Beobachtungen nötig sind, um die Regressionsebene (eindeutig) bestimmen
zu können.
Ökonometrie (SS 2017)
Folie 197
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XI
Die Schätzfunktion βb = (X0 X)−1 X0 y ist offensichtlich linear in den yi .
Einsetzen von y = Xβ + u liefert die Darstellung
βb = (X0 X)−1 X0 y = (X0 X)−1 X0 (Xβ + u)
= (X0 X)−1 (X0 X)β + (X0 X)−1 X0 u = β + (X0 X)−1 X0 u
b unter der Annahme E(u) = 0 folgt daraus sofort E(β)
b = β und damit
von β,
b
die Erwartungstreue von β für β.
b von βb erhält man mit der obigen
Für die (Varianz-)Kovarianzmatrix V(β)
b
Darstellung für β wegen der Symmetrie von (X0 X)−1 weiter
0 h
0 i
b = E βb − E(β)
b
b
V(β)
βb − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 ) X(X0 X)−1
| {z }
=V(u)=σ 2 In
= σ 2 (X0 X)−1 X0 X(X0 X)−1 = σ 2 (X0 X)−1
Ökonometrie (SS 2017)
Folie 198
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XII
b enthält alle Varianzen der Parameterschätzer
Die (symmetrische) Matrix V(β)
b
b
b
β0 , β1 , . . . , βK sowie deren paarweise Kovarianzen in der Gestalt

Var(βb0 )
 Cov(βb1 , βb0 )
b =
V(β)

..

.
b
Cov(βK , βb0 )
Cov(βb0 , βb1 ) · · ·
Var(βb1 )
···
..
..
.
.
b
b
Cov(βK , β1 ) · · ·

Cov(βb0 , βbK )
Cov(βb1 , βbK )

 .
..

.
b
Var(βK )
c2 durch
b = σ 2 (X0 X)−1 kann unter Zuhilfenahme von σ
V(β)
c2 (X0 X)−1
b =σ
b β)
V(
geschätzt werden.
Ökonometrie (SS 2017)
Folie 199
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIII
Man erhält so Schätzwerte für die Varianzen der Schätzer βb0 , βb1 , . . . , βbK
sowie deren paarweise Kovarianzen in der Gestalt


d βb0 )
d βb0 , βb1 ) · · · Cov(
d βb0 , βbK )
Var(
Cov(
d b b
d βb1 )
d βb1 , βbK )
 Cov(β1 , β0 )

Var(
· · · Cov(
b =
b β)
 .
V(
..
..
..
..


.


.
.
.
d βbK , βb0 ) Cov(
d βbK , βb1 ) · · ·
Cov(
d βbK )
Var(
b
b β),
Die (positiven) Wurzeln der Hauptdiagonalelemente von V(
q
q
q
d βb0 ), σ
d βb1 ), . . . , σ
d βbK ) ,
bβb1 := Var(
bβbK := Var(
σ
bβb0 := Var(
werden wie üblich als Standardfehler der Parameterschätzer βb0 , βb1 , . . . , βbK
bezeichnet.
Ökonometrie (SS 2017)
Folie 200
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIV
Zusammengefasst erhält man unter bisherigen Annahmen an X sowie den
anfangs getroffenen Annahmen
1
2
3
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j
an die Störgrößen ui , i ∈ {1, . . . , n}, dass
I
I
I
b eine in yi lineare Schätzfunktion ist,
β
b erwartungstreu für β ist,
β
b die Varianz-Kovarianzmatrix V(β)
b = σ 2 (X0 X)−1 besitzt.
β
Der Satz von Gauß-Markov sichert darüberhinaus, dass βb sogar die beste
lineare unverzerrte Schätzfunktion (BLUE) ist.
Unter der zusätzlichen Annahme einer
4
gemeinsamen Normalverteilung der ui
b
erhält man mit der Linearität
sofort die Normalverteilungseigenschaft von β,
2
0
−1
b
b
also β ∼ N β, σ (X X)
. Außerdem kann man zeigen, dass β dann sogar
varianzminial unter allen für β erwartungstreuen Schätzfunktionen ist.
Ökonometrie (SS 2017)
Folie 201
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XV
Auch ohne Normalverteilungsannahme für die ui kann man unter gewissen
technischen Voraussetzungen (die hier nicht näher ausgeführt werden) zeigen,
dass die Verteilung von βb bei wachsendem Beobachtungsumfang n gegen
eine (mehrdimensionale) Normalverteilung konvergiert.
In der Praxis bedeutet dies, dass man – auch für endliches n – als geeignete
Näherung der Verteilung von βb häufig eine mehrdimensionale
Normalverteilung mit dem Erwartungswertvektor β und der
Varianz-Kovarianzmatrix σ 2 (X0 X)−1 verwenden kann.
Wie gut“ diese Näherung ist, hängt wieder vom konkreten Anwendungsfall
”
ab; insbesondere
I
I
steigt die Qualität der Näherung i.d.R. mit wachsendem n,
ist die Näherung umso besser, je ähnlicher die tatsächliche Verteilung der ui
einer Normalverteilung ist.
In der Praxis beurteilt man die Nähe“ der Verteilung der (unbeobachteten!)
”
Störgrößen ui zu einer Normalverteilung mit Hilfe der (geschätzten!)
bi .
Residuen u
Ökonometrie (SS 2017)
Folie 202
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Konfidenzintervalle und Tests für einzelne Parameter
Konfidenzintervalle und Tests für einzelne Parameter können ganz analog
zum einfachen linearen Modell konstruiert werden.
Für die Komponenten βbk , k ∈ {0, . . . , K }, des Parameterschätzers βb gilt bei
Normalverteilungsannahme an die ui exakt (sonst ggf. approximativ)
βbk − βk
∼ t(n − (K + 1)),
σ
bβbk
k ∈ {0, . . . , K }
Hieraus ergeben sich für k ∈ {0, . . . , K } unmittelbar die zum einfachen
linearen Modell analogen Formeln“ der (ggf. approximativen)
”
(symmetrischen) Konfidenzintervalle für βk zum Konfidenzniveau 1 − α
bzw. zur Vertrauenswahrscheinlichkeit 1 − α als
h
i
βbk − tn−(K +1);1− α2 · σ
bβbk , βbk + tn−(K +1);1− α2 · σ
bβbk
Ebenfalls analog erhält man t-Tests für die Regressionsparameter
β0 , β1 , . . . , βK .
Ökonometrie (SS 2017)
Folie 203
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Zusammenfassung: t-Test für den Parameter βk
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : βk = βk0
H1 : βk 6= βk0
Nullhypothese
Gegenhypothese
H0 : βk ≤ βk0
H1 : βk > βk0
Teststatistik
Verteilung (H0 )
Benötigte Größen
t=
H0 : βk ≥ βk0
H1 : βk < βk0
βbk − βk0
σ
bβbk
t für βk = βk0 (näherungsweise) t(n − (K + 1))-verteilt
q
h
i
c2 [(X0 X)−1 ]
βbk = (X0 X)−1 X0 y
,σ
bβbk = σ
k+1,k+1 mit
k+1
c2 =
σ
b
u0 b
u
,
n−(K +1)
wobei b
u = y − X(X0 X)−1 X0 y
Kritischer Bereich
zum Niveau α
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
p-Wert
2 · (1 − Ft(n−(K +1)) (|t|))
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Ökonometrie (SS 2017)
Folie 204
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias I
Beispieldatensatz mit Daten zur Lohnhöhe (yi ), zu den Ausbildungsjahren
über den Hauptschulabschluss hinaus (x1i ) sowie zum Alter in Jahren (x2i )
von n = 20 Mitarbeitern eines Betriebs:
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
1
2
3
4
5
6
7
8
9
10
1250
1
28
1950
9
34
2300
11
55
1350
3
24
1650
2
42
1750
1
43
1550
4
37
1400
1
18
1700
3
63
2000
4
58
11
12
13
14
15
16
17
18
19
20
1350
1
30
1600
2
43
1400
2
23
1500
3
21
2350
6
50
1700
9
64
1350
1
36
2600
7
58
1400
2
35
1550
2
41
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 13.1)
Es soll nun angenommen werden, dass das multiple lineare Regressionsmodell
yi = β0 + β1 x1i + β2 x2i + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , 20},
mit den üblichen Annahmen korrekt spezifiziert ist.
Ökonometrie (SS 2017)
Folie 205
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias II
Zunächst wird (fälschlicherweise!) die Variable Alter“ (x2i ) weggelassen und
”
die Lohnhöhe“ (yi ) nur mit der Variable Ausbildung
“ (x1i ) erklärt:
”
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung)
Residuals:
Min
1Q
-458.19 -140.36
Median
-68.94
3Q
87.32
Max
620.37
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1354.66
94.22 14.377 2.62e-11 ***
Ausbildung
89.28
19.82
4.505 0.000274 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 264.6 on 18 degrees of freedom
Multiple R-squared: 0.5299,
Adjusted R-squared:
F-statistic: 20.29 on 1 and 18 DF, p-value: 0.0002742
Ökonometrie (SS 2017)
0.5038
Folie 206
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias III
Danach wird das korrekte, vollständige Modell geschätzt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
Residuals:
Min
1Q
-569.50 -120.79
Median
-5.14
3Q
73.12
Max
519.26
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Ökonometrie (SS 2017)
0.6007
Folie 207
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias IV
Geschätzte Regressionsebene mit Residuen
●
●
●
●
●
●
●
●
●
●
●
●
●
70
60
●●
●
●
50
●
Alter x2i
1200 1400 1600 1800 2000 2200 2400 2600
Lohnhöhe yi
●
40
●
30
20
10
0
2
4
6
8
10
12
Ausbildung x1i
Ökonometrie (SS 2017)
Folie 208
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias V
Gegenüberstellung der Schätzergebnisse:
korrektes Modell
Absolutglied
βb0
σ
bβb0
1354.658
94.222
1027.806
164.473
Ausbildung
βb1
σ
bβb1
89.282
19.82
62.575
21.191
Alter
βb2
σ
bβb2
b0 u
b
u
SER
R2
R2
Ökonometrie (SS 2017)
falsches Modell
10.602
4.577
1260028
264.578
0.5299
0.5038
957698
237.35
0.6427
0.6007
Folie 209
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VI
Die Regressoren x1i (Ausbildungsjahre) und x2i (Alter) sind positiv korreliert,
es gilt (mit den Bezeichnungen von Folie 191) genauer
s12 = 22.445
bzw.
√
22.445
s12
√
=√
= 0.544
√
s11 s22
8.91 · 191.028
Außerdem hat der Regressor Alter“ (neben dem Regressor Ausbildung“) im
”
”
korrekten Modell einen signifikanten Regressionskoeffizienten.
Im Modell mit ausgelassener Variablen x2i (Alter) spiegelt der geschätzte
Koeffizient zum Regressor Ausbildung“ damit nicht den isolierten“ Effekt der
”
”
Ausbildung wider, sondern einen kombinierten“ Effekt.
”
Wie man zeigen (und im Beispiel leicht nachrechnen) kann, erhält man
(analog zum Resultat von Folie 184) durch
s12 b
22.445
βb1 +
β2 = 62.575 +
· 10.602 = 89.282
s11
8.91
aus den Schätzergebnissen des korrekten Modells den Punktschätzer für β1
im falschen Modell mit ausgelassenem Regressor.
Ökonometrie (SS 2017)
Folie 210
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VII
Auch die Punkt- und Intervallschätzung von β0 sowie Hypothesentests für die
Regressionsparameter unterliegen im Modell mit ausgelassener Variablen
vergleichbaren Verzerrungen.
Geht man fälschlicherweise davon aus, die Annahmen des linearen
Regressionsmodell im Modell mit ausgelassenem Regressor erfüllt und mit der
Modellschätzung den isolierten Effekt des Regressors Ausbildung“ gemessen
”
zu haben, so führt dies zu
I
I
I
verzerrten Punktschätzern,
verschobenen und in der Breite verzerrten Konfidenzintervallen sowie
wertlosen Hypothesentests
für den isolierten Effekt (da man tatsächlich einen kombinierten Effekt
gemessen hat).
Ökonometrie (SS 2017)
Folie 211
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen I
Wie im einfachen linearen Regressionsmodell: Erweiterung der
Modellannahme
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren Datenpunkt (y0 , x10 , . . . , xK 0 ), bei dem jedoch
y0 nicht beobachtet wird, sondern lediglich die Werte der Regressoren
x10 , . . . , xK 0 bekannt sind.
Ziel ist wiederum die Prognose von y0 = β0 + β1 x10 + . . . βK xK 0 + u0 bzw.
E(y0 ) = β0 + β1 x10 + . . . βK xK 0 auf Grundlage von x10 , . . . , xK 0 .
Hierzu definiert man wie im einfachen linearen Modell mit
yb0 := βb0 + βb1 x10 + . . . + βbK xK 0
[
b
b
b
bzw. E(y
0 ) := β0 + β1 x10 + . . . + βK xK 0
die (bedingte) Punktprognose yb0 für y0 gegeben x10 , . . . , xK 0 bzw.
[
die (bedingte) Punktprognose E(y
0 ) für E(y0 ) gegeben x10 , . . . , xK 0 .
Ökonometrie (SS 2017)
Folie 212
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen II
Die Untersuchung der Eigenschaften der bedingten Punktprognosen
vereinfacht sich durch die Definition des Vektors
0
x0 = 1 x10 · · · xK 0 ,
der (transponiert) analog zu einer Zeile der Regressormatrix X aufgebaut ist.
Für die (bedingte) Punktprognose für y0 bzw. E(y0 ) gegeben x0 erhält man
so die kompakte Darstellung
yb0 = x0 0 βb
bzw.
0b
[
E(y
0 ) = x0 β .
Die Erwartungstreue der (bedingten) Punktprognosen ergibt sich damit
unmittelbar aus der Erwartungstreue von βb für β und E(u0 ) = 0:
b = x0 0 E(β)
b = x0 0 β = E(y0 )
E(x0 0 β)
Ökonometrie (SS 2017)
[ = E(E(y0 )) ]
Folie 213
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen III
Wie im einfachen linearen Modell resultiert der Prognosefehler
0b
0
0 b
[
eE := E(y
0 ) − E(y0 ) = x0 β − x0 β = x0 (β − β)
b während
nur aus dem Fehler bei der Schätzung von β durch β,
e0 := yb0 − y0 = x0 0 βb − (x0 0 β + u0 ) = x0 0 (βb − β) − u0
zusätzlich die zufällige Schwankung von u0 ∼ N(0, σ 2 ) enthält.
[
Für die Varianz des Prognosefehlers eE erhält man (da E(E(y
0 ) − E(y0 )) = 0)
h
i
0 b
2
[
σe2E := Var(eE ) = Var(E(y
0 ) − E(y0 )) = E [x0 (β − β)]
h
i
h
i
(!)
= E (x0 0 (βb − β))(x0 0 (βb − β))0 = E x0 0 (βb − β)(βb − β)0 x0
b 0 = σ 2 x0 0 (X0 X)−1 x0 .
= x0 0 V(β)x
Ökonometrie (SS 2017)
Folie 214
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IV
Für die Varianz des Prognosefehlers e0 erhält man (wegen E(b
y0 − y0 ) = 0,
E(βb − β) = 0 und E(u0 ) = 0)
h
i
σe20 := Var(e0 ) = Var(b
y0 − y0 ) = E [x0 0 (βb − β) − u0 ]2
h
i
= E [x0 0 (βb − β)]2 − 2x0 0 (βb − β)u0 + u02
h
i
h
i
= E [x0 0 (βb − β)]2 −2x0 0 E (βb − β)u0 + E(u02 )
{z
}
|
{z
} | {z2 }
|
=σ 2 x0 0 (X0 X)−1 x0
=σ
Ökonometrie (SS 2017)
2
b
=Cov(β−β,u
0 )=0
=σ
1 + x0 0 (X0 X)−1 x0 .
Folie 215
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen V
[
b
Wegen der Linearität von yb0 bzw. E(y
0 ) in β überträgt sich die
[
Normalverteilungseigenschaft von βb auf yb0 bzw. E(y
0 ), es gilt also
yb0 ∼ N y0 , σe20
2
[
E(y
0 ) ∼ N E(y0 ), σeE
bzw.
.
Wie im einfachen linearen Regressionsmodell muss das unbekannte σ 2 durch
c2 geschätzt werden, mit
σ
c2 e := σ
c2 1 + x0 0 (X0 X)−1 x0 σ
0
q
erhält man mit σ
be0 :=
bzw.
c2 e und σ
σ
beE :=
0
yb0 − y0
∼ t(n − (K + 1))
σ
be0
bzw.
q
c2 e := σ
c2 x0 0 (X0 X)−1 x0
σ
E
c2 e die Verteilungsaussagen
σ
E
[
E(y
0 ) − E(y0 )
∼ t(n − (K + 1)) ,
σ
beE
aus denen sich Prognoseintervalle für y0 und E(y0 ) konstruieren lassen.
Ökonometrie (SS 2017)
Folie 216
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VI
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also in der Form
h
i
yb0 − tn−(K +1);1− α2 · σ
be0 , yb0 + tn−(K +1);1− α2 · σ
be0
h
i
√
√
b
b
σ 1+x0 0 (X0 X)−1 x0 , x0 0 β+t
σ 1+x0 0 (X0 X)−1 x0 .
= x0 0 β−t
n−(K +1);1− α ·b
n−(K +1);1− α ·b
2
2
Intervallprognosen für E(y0 ) zur Vertrauenswahrscheinlichkeit 1 − α (auch
interpretierbar als Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ))
erhält man entsprechend in der Form
h
i
[
[
α · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − tn−(K +1);1− α
e
0
e
n−(K
+1);1−
E
E
2
2
h
√ 0 0 −1
√ 0 0 −1 i
0b
b
α
α
= x0 0 β−t
·b
σ
x
(X
X)
x
,
x
·b
σ
x
(X X) x0
β+t
0
0
0
0
n−(K +1);1−
n−(K +1);1−
2
2
Ökonometrie (SS 2017)
.
Folie 217
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VII
Eine Punktprognose für die (erwartete) Lohnhöhe eines 38-jährigen
Mitarbeiters, der nach dem Hauptschulabschluss weitere 4 Ausbildungsjahre
absolviert
hat, erhält
man im geschätzten Modell aus Folie 207 mit
0
x0 = 1 4 38 als
0b
[
yb0 = E(y
0 ) = x0 β = 1
4


1027.806
38  62.575  = 1680.978 .
10.602
Im Beispiel aus Folie 207 gilt weiterhin

0.4801866
0.0081102
0.0079709
(X0 X)−1 =  0.0081102
−0.0114619 −0.0009366

−0.0114619
−0.0009366
0.0003718
und σ
b = 237.35.
Ökonometrie (SS 2017)
Folie 218
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VIII
Mit

x0 0 (X0 X)−1 x0 = 1
4
0.4801866
38  0.0081102
−0.0114619
0.0081102
0.0079709
−0.0009366
 
−0.0114619
1
−0.0009366  4 
0.0003718
38
= 0.0536441
erhält man weiter
p
√
σ
be0 = σ
b 1 + x0 0 (X0 X)−1 x0 = 237.35 · 1 + 0.0536441 = 243.6331
und
σ
beE = σ
b
Ökonometrie (SS 2017)
p
x0 0 (X0 X)−1 x0 = 237.35 ·
√
0.0536441 = 54.9731 .
Folie 219
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IX
Insgesamt erhält man für α = 0.05 schließlich das Prognoseintervall
h
i
yb0 − t20−(2+1);1− 0.05 · σ
be0 , yb0 + t20−(2+1);1− 0.05 · σ
be0
2
2
= [yb0 − t17;0.975 · σ
be0 , yb0 + t17;0.975 · σ
be0 ]
= [1680.978 − 2.1098 · 243.6331 , 1680.978 + 2.1098 · 243.6331]
= [1166.961 , 2194.995]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für y0 gegeben x10 = 4 und
x20 = 38.
Entsprechend erhält man für α = 0.05 das Prognoseintervall
h
i
[
[
0.05 · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − t20−(2+1);1− 0.05
e
0
e
20−(2+1);1− 2
E
E
2
= [1680.978 − 2.1098 · 54.9731 , 1680.978 + 2.1098 · 54.9731]
= [1564.996 , 1796.96]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38.
Ökonometrie (SS 2017)
Folie 220
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen I
Neben Tests für einzelne Regressionsparameter sind auch Tests (und
Konfidenzintervalle) für Linearkombinationen von Regressionsparametern
problemlos möglich.
iid
Bei Vorliegen der Normalverteilungseigenschaft ui ∼ N(0, σ 2 ) bzw.
u ∼ N(0, σ 2 In ) gilt bekanntlich
βb ∼ N β, σ 2 (X0 X)−1
,
und auch ohne Normalverteilungsannahme an die ui ist die approximative
Verwendung einer (mehrdimensionalen) Normalverteilung für βb oft sinnvoll.
•
Damit gilt allerdings nicht nur βbk ∼ N(βk , σ 2 ) bzw. βbk ∼ N(βk , σ 2 ) für
k ∈ {0, . . . , K }, sondern darüberhinaus, dass jede beliebige Linearkombination
der Koeffizientenschätzer βb0 , βb1 , . . . , βbK (näherungsweise) normalverteilt ist.
Ökonometrie (SS 2017)
Folie 221
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen II
Tests über einzelne Linearkombinationen von Regressionsparametern lassen
sich mit Hilfe von K + 1 Koeffizienten a0 , a1 , . . . , aK ∈ R für die Parameter
β0 , β1 , . . . , βK sowie einem Skalar c ∈ R in den Varianten
H0 :
K
X
ak βk = c
H0 :
k=0
K
X
H1 :
H0 :
k=0
vs.
K
X
ak βk ≤ c
ak βk 6= c
k=0
vs.
H1 :
K
X
vs.
ak βk > c
H1 :
vs.
K
X
ak βk < c
k=0
bzw. in vektorieller Schreibweise mit a := a0
H1 : a0 β 6= c
ak βk ≥ c
k=0
k=0
H0 : a0 β = c
K
X
H0 : a0 β ≤ c
vs.
H1 : a0 β > c
a1
···
aK
0
als
H0 : a0 β ≥ c
vs.
H1 : a0 β < c
formulieren.
Ökonometrie (SS 2017)
Folie 222
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen III
Mit den bekannten Rechenregeln“ für die Momente von Linearkombinationen
”
eines Zufallsvektors (vgl. Folie 50) erhält man zunächst
a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a
•
bzw. a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a .
Ersetzt man die unbekannte Störgrößenvarianz σ 2 wie üblich durch den
c2 , so erhält man die Verteilungsaussage
(erwartungstreuen) Schätzer σ
a0 βb − a0 β
p
∼ t(n − (K + 1))
σ
b a0 (X0 X)−1 a
bzw.
a0 βb − a0 β
•
p
∼ t(n − (K + 1)) ,
0
0
−1
σ
b a (X X) a
woraus sich in gewohnter Weise Konfidenzintervalle und Tests konstruieren
lassen.
Ökonometrie (SS 2017)
Folie 223
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
p
σ
b a0 (X0 X)−1 a
t für a0 β = c (näherungsweise) t(n − (K + 1))-verteilt
t=
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
Benötigte Größen
c2 =
b = (X0 X)−1 X0 y, σ
β
Kritischer Bereich
zum Niveau α
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
p-Wert
2 · (1 − Ft(n−(K +1)) (|t|))
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Ökonometrie (SS 2017)
Folie 224
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese I
Im vorangegangenen Beispiel (Lohnhöhe erklärt durch Ausbildung und Alter)
kann (im korrekt spezifizierten Modell) zum Beispiel getestet werden, ob der
(isolierte) Effekt eines weiteren Ausbildungsjahres mehr als doppelt so groß
wie der (isolierte) Effekt eines zusätzlichen Lebensjahres ist, also ob
β1 > 2 · β2 gilt.
Die passende Hypothesenformulierung lautet in diesem Fall
H0 : β1 − 2 · β2 ≤ 0
gegen
H1 : β1 − 2 · β2 > 0
gegen
H1 : a0 β > c
bzw. in der bisherigen Schreibweise
mit a = 0
Ökonometrie (SS 2017)
1
H0 : a0 β ≤ c
0
−2 und c = 0.
Folie 225
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese II
Mit (X0 X)−1 und σ
b wie auf Folie 218 angegeben erhält man zunächst

 
0.4801866
0.0081102 −0.0114619
0
0.0079709 −0.0009366  1 
a0 (X0 X)−1 a = 0 1 −2  0.0081102
−0.0114619 −0.0009366 0.0003718
−2
= 0.013204
und mit a0 βb = 0
t=
1


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
41.371 − 0
a0 βb − c
p
√
=
= 1.5169 .
0
0
−1
237.35 · 0.013204
σ
b a (X X) a
H0 kann hier zum Signifikanzniveau α = 0.05 nicht abgelehnt werden, da
t = 1.5169 ∈
/ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2017)
Folie 226
4 Multiple lineare Regression
Konfidenzintervalle für Linearkombinationen 4.6
Konfidenzintervalle für (einzelne) Linearkombinationen
Ein (ggf. approximatives) symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man auf vergleichbare Art und Weise durch:
h
a0 βb − tn−(K +1);1− α2 · σ
b
i
p
p
a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
Im vorangegangenen Beispiel erhält
man somit
0 ein Konfidenzintervall für
β1 − 2 · β2 , also für a0 β mit a = 0 1 −2 , zum Konfidenzniveau
1 − α = 0.95 unter Verwendung der bisherigen Zwischenergebnisse sowie von
t17;0.975 = 2.11 durch:
h
i
p
p
a0 βb − tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
h
i
√
√
= 41.371 − 2.11 · 237.35 0.013204 , 41.371 + 2.11 · 237.35 0.013204
= [−16.1762 , 98.9182]
Ökonometrie (SS 2017)
Folie 227
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen I
Neben einzelnen linearen Hypothesen können auch mehrere lineare
Hypothesen simultan überprüft werden.
Die Nullhypothese H0 solcher Tests enthält L lineare
(Gleichheits-)Restriktionen in der Gestalt
a10 β0 + a11 β1 + . . . + a1K βK = c1
a20 β0 + a21 β1 + . . . + a2K βK = c2
..
..
..
.
.
.
aL0 β0 + aL1 β1 + . . . + aLK βK = cL
bzw.
K
X
alk βk = cl
für l ∈ {1, . . . , L} .
k=0
Ökonometrie (SS 2017)
Folie 228
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen II
0
Mit dem L-dimensionalen Vektor c := c1 · · · cL und der
(L × (K + 1))-Matrix


a10 a11 · · · a1K

..
.. 
A :=  ...
.
. 
aL0 aL1 · · · aLK
lässt sich die Nullhypothese auch als Aβ = c schreiben.
H1 ist (wie immer) genau dann erfüllt, wenn H0 verletzt ist, hier also wenn
mindestens eine Gleichheitsrestriktion nicht gilt.
Da Vektoren genau dann übereinstimmen, wenn alle Komponenten gleich
sind, kann das Hypothesenpaar also in der Form
H0 : Aβ = c
gegen
H1 : Aβ 6= c
kompakt notiert werden.
Ökonometrie (SS 2017)
Folie 229
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen III
Zur Konstruktion eines Hypothesentests fordert man zunächst, dass A weder
redundante noch zu viele“ Linearkombinationen enthält, dass A also vollen
”
Zeilenrang L besitzt.
Eine geeignete Testgröße zur gemeinsamen Überprüfung der L linearen
Restriktionen aus der Nullhypothese ist dann
.
−1
(Aβb − c) L
(Aβb − c)0 A(X0 X)−1 A0
F =
b0 u
b/(n − (K + 1))
u
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
=
.
L
Man kann zeigen, dass F bei Gültigkeit von H0 : Aβ = c unter den
bisherigen Annahmen (einschließlich der Annahme u ∼ N(0, σ 2 In )) einer
sogenannten F -Verteilung mit L Zähler- und n − (K + 1)
Nennerfreiheitsgraden folgt, in Zeichen F ∼ F (L, n − (K + 1)).
Ökonometrie (SS 2017)
Folie 230
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen IV
Die F -Statistik aus Folie 230 ist im Wesentlichen eine (positiv definite)
quadratische Form in den empirischen Verletzungen“ Aβb − c der
”
Nullhypothese.
Besonders große Werte der F -Statistik sprechen also gegen die Gültigkeit der
Nullhypothese.
Entsprechend bietet sich als kritischer Bereich zum Signifikanzniveau α
K = (FL,n−(K +1);1−α , ∞)
an, wobei mit Fm,n;p das p-Quantil der F (m, n)-Verteilung (F -Verteilung mit
m Zähler- und n Nennerfreiheitsgraden) bezeichnet ist.
Auch bei Verletzung der Normalverteilungsannahme ist eine approximative
Annahme der F (L, n − (K + 1))-Verteilung (unter H0 !) und damit ein
approximativer Test sinnvoll.
Ökonometrie (SS 2017)
Folie 231
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Grafische Darstellung einiger F (m, n)-Verteilungen
für m, n ∈ {2, 5, 10}
0.0
0.2
0.4
f(x)
0.6
0.8
1.0
F(2, 2)
F(5, 2)
F(10, 2)
F(2, 5)
F(5, 5)
F(10, 5)
F(2, 10)
F(5, 10)
F(10, 10)
0
1
2
3
4
x
Ökonometrie (SS 2017)
Folie 232
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
0.95-Quantile der F (m, n)-Verteilungen Fm,n;0.95
n\m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
40
50
100
150
1
161.448
18.513
10.128
7.709
6.608
5.987
5.591
5.318
5.117
4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381
4.351
4.171
4.085
4.034
3.936
3.904
Ökonometrie (SS 2017)
2
199.500
19.000
9.552
6.944
5.786
5.143
4.737
4.459
4.256
4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522
3.493
3.316
3.232
3.183
3.087
3.056
3
215.707
19.164
9.277
6.591
5.409
4.757
4.347
4.066
3.863
3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127
3.098
2.922
2.839
2.790
2.696
2.665
4
224.583
19.247
9.117
6.388
5.192
4.534
4.120
3.838
3.633
3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895
2.866
2.690
2.606
2.557
2.463
2.432
5
230.162
19.296
9.013
6.256
5.050
4.387
3.972
3.687
3.482
3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740
2.711
2.534
2.449
2.400
2.305
2.274
6
233.986
19.330
8.941
6.163
4.950
4.284
3.866
3.581
3.374
3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628
2.599
2.421
2.336
2.286
2.191
2.160
7
236.768
19.353
8.887
6.094
4.876
4.207
3.787
3.500
3.293
3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544
2.514
2.334
2.249
2.199
2.103
2.071
8
238.883
19.371
8.845
6.041
4.818
4.147
3.726
3.438
3.230
3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477
2.447
2.266
2.180
2.130
2.032
2.001
Folie 233
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
0 c
b
b − c)
(Aβ − c) σ 2 A(X0 X)−1 A0
(Aβ
F =
L
F ist (approx.) F (L, n − (K + 1))-verteilt, falls Aβ = c
c2 =
b = (X0 X)−1 X0 y, σ
β
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
Kritischer Bereich
zum Niveau α
(FL,n−(K +1);1−α , ∞)
p-Wert
1 − FF (L,n−(K +1)) (F )
Ökonometrie (SS 2017)
Folie 234
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Ein spezieller F -Test
auf Signifikanz des Erklärungsansatzes“
”
Eine spezielle, häufig verwendete Ausgestaltung des F -Tests überprüft
(simultan), ob mindestens ein Regressor einen (signifikanten) Effekt auf den
Regressanden hat.
Die Hypothesen lauten also:
H0 : β1 = . . . = βK = 0
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
Die realisierte Teststatistik zu diesem Test, die Anzahl der (Zähler- und
Nenner-)Freiheitsgrade der (F -)Verteilung unter H0 sowie der p-Wert der
realiserten Teststatistik sind üblicherweise Bestandteil von Regressionsoutputs
zu Schätzungen linearer Modelle mit Statistik-Software.
In der Schätzung des korrekt spezifizierten Modells aus Folie 207 liest man
beispielsweise die realisierte Teststatistik F = 15.29, 2 Zähler- und 17
Nennerfreiheitsgrade der F -Verteilung unter H0 sowie den p-Wert 0.0001587
ab.
Ökonometrie (SS 2017)
Folie 235
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik I
Es kann gezeigt werden, dass man unter den getroffenen Annahmen die
realisierte F -Statistik auch berechnen kann, indem man neben dem
eigentlichen unrestringierten“ Regressionsmodell das sogenannte
”
restringierte“ Regressionsmodell schätzt und die Ergebnisse vergleicht.
”
Die Schätzung des restringierten Modells erfolgt als Lösung des
ursprünglichen KQ-Optimierungsproblems unter der Nebenbedingung
Aβ = c.
Werden mit RSS0 die Summe der quadrierten Residuen bzw. mit R02 das
Bestimmtheitsmaß der restringierten Modellschätzung bezeichnet, lässt sich
die F -Statistik auch als
F =
(RSS0 − RSS)/L
(R 2 − R02 )/L
=
RSS/(n − (K + 1))
(1 − R 2 )/(n − (K + 1))
darstellen, wenn mit RSS, R 2 bzw. K wie üblich die Summe der quadrierten
Residuen, das Bestimmtheitsmaß bzw. die Anzahl der Regressoren des
unrestringierten Modells bezeichnet werden und L die Anzahl der linearen
Restriktionen (Anzahl der Zeilen von A) ist.
Ökonometrie (SS 2017)
Folie 236
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik II
Insbesondere wenn die linearen Restriktionen im Ausschluss einiger der
Regressoren bestehen, die Nullhypothese also die Gestalt
H0 : βj = 0
für j ∈ J ⊆ {1, . . . , K }
mit |J| = L
besitzt, kann die Schätzung des restringierten Modells natürlich durch die
Schätzung des entsprechend verkleinerten Regressionsmodells erfolgen.
Im bereits betrachteten Spezialfall J = {1, . . . , K } bzw.
H0 : β1 = . . . = βK = 0
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
gilt offensichtlich R02 = 0, damit kann die F -Statistik ohne weitere Schätzung
auch durch
R 2 /K
F =
2
(1 − R )/(n − (K + 1))
ausgewertet werden.
Ökonometrie (SS 2017)
Folie 237
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter I
Konfidenzintervalle für einen Regressionsparameter βk zur
Vertrauenswahrscheinlichkeit 1 − α bestehen aus genau den hypothetischen
Parameterwerten βk0 , zu denen ein (zweiseitiger) Signifikanztest zum
Signifikanzniveau α (mit H0 : βk = βk0 ) die Nullhypothese nicht ablehnt.
Dieses Konzept lässt sich problemlos auf Konfidenzbereiche (simultan) für
mehrere Regressionsparameter erweitern; wegen der resultierenden Gestalt
werden diese Konfidenzellipsen oder ggf. Konfidenzellipsoide genannt.
Für eine Teilmenge J = {j1 , . . . , jL } ⊆ {0, . . . , K } mit |J| = L enthält also ein
Konfidenzbereich für den Parameter(teil)vektor (βj1 , . . . , βjL )0 zum
Konfidenzniveau 1 − α genau die Vektoren (βj01 , . . . , βj0L )0 , für die ein F -Test
zum Signifikanzniveau α mit
H0 : βj1 = βj01 ∧ . . . ∧ βjL = βj0L
diese Nullhypothese nicht verwirft.
Ökonometrie (SS 2017)
Folie 238
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter II
Da der F -Test H0 genau dann nicht verwirft, wenn für die Teststatistik
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
F =
L
≤ FL,n−(K +1);1−α
gilt, wird der Konfidenzbereich zum Niveau 1 − α also durch die Menge
h
i−1
c2 A(X0 X)−1 A0
c ∈ RL (Aβb − c)0 σ
(Aβb − c) ≤ L · FL,n−(K +1);1−α
beschrieben, wobei die Matrix A aus L Zeilen besteht und die Zeile l jeweils
in der (zu βjl gehörenden) (jl + 1)-ten Spalte den Eintrag 1 hat und sonst nur
Nullen beinhaltet.
Konfidenzellipsen bzw. -ellipsoide sind auch für mehrere Linearkombinationen
der Regressionsparameter als Verallgemeinerung der Konfidenzintervalle für
einzelne Linearkombinationen ganz analog konstruierbar, es muss lediglich die
entsprechende (allgemeinere) Matrix A eingesetzt werden.
Ökonometrie (SS 2017)
Folie 239
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Beispiel: Konfidenzellipse für β1 und β2
10
●
0
5
Alter β2
15
20
im korrekt spezifizierten Modell von Folie 207, 1 − α = 0.95
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2017)
Folie 240
4 Multiple lineare Regression
Multikollinearität 4.9
Multikollinearität
Erinnerung: Unter der (gemäß Modellannahmen ausgeschlossenen) perfekten
Multikollinearität versteht man eine perfekte lineare Abhängigkeit unter den
Regressoren (einschließlich des Absolutglieds“).
”
Bei perfekter Multikollinearität ist eine Schätzung des Modells mit dem
vorgestellten Verfahren nicht möglich.
Im Unterschied zur perfekten Multikollinearität spricht man von imperfekter
Multikollinearität, wenn die Regressoren (einschließlich des Absolutglieds“)
”
beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineare
Abhängigkeiten aufweisen.
Eine (konventionelle) Schätzung des Modells ist dann (abgesehen von
numerischen Schwierigkeiten in sehr extremen Fällen) möglich, die Ergebnisse
können aber (i.d.R. unerwünschte) Besonderheiten aufweisen.
Ökonometrie (SS 2017)
Folie 241
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität I
Perfekte Multikollinearität tritt in linearen Modellen mit Absolutglied (wie
hier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.
Dummy-Variablen falsch spezifiziert werden.
Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1
annehmen.
Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen in
lineare Modelle einbezogen, indem den vorhandenen (!) Ausprägungen
separate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1
annehmen, wenn die entsprechende Ausprägung vorliegt, und 0 sonst.
Wird zu jeder vorhandenen Ausprägung eine solche Dummy-Variable
definiert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert
1, alle anderen den Wert 0.
Damit ist aber offensichtlich die Summe über alle Dummy-Variablen stets
gleich 1 und damit identisch mit dem (und insbesondere linear abhängig zum)
Absolutglied.
Ökonometrie (SS 2017)
Folie 242
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität II
Lösung: (Genau) eine Dummy-Variable wird weggelassen.
Damit nimmt die zu dieser Dummy-Variablen gehörende Ausprägung des
Merkmals eine Art Benchmark“ oder Bezugsgröße ein.
”
Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu den
anderen Merkmalsausprägungen sind dann als Änderung gegenüber dieser
Benchmark zu interpretieren, während der Effekt“ der Benchmark selbst im
”
Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.
Beispiel: Einbeziehung des Merkmals Geschlecht“ mit den beiden (auch im
”
Datensatz auftretenden!) Ausprägungen weiblich und männlich mit Hilfe
einer Dummy-Variablen weiblich (oder alternativ männlich) ist korrekt,
während Aufnahme der beiden Variablen weiblich und männlich
zwangsläufig zu perfekter Multikollinearität führt.
Lineare Abhängigkeiten zwischen Regressoren können auch ohne (fehlerhafte)
Verwendung von Dummy-Variablen auftreten.
Ökonometrie (SS 2017)
Folie 243
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität III
Beispiel 1: Sind in einem Modell die Regressoren durchschnittl.
”
Monatseinkommen“ (Monat), Jahressonderzahlung“ (Sonderzahlung) und
”
Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs
”
Jahr = 12 · Monat + Sonderzahlung
offensichtlich perfekte Multikollinearität.
Beispiel 2: Sind gleichzeitig die Regressoren Nettoeinnahmen mit reduz.
”
MWSt.“ (NettoReduziert), Nettoeinnahmen mit regul. MWSt.“
”
(NettoRegulär) und Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen
”
des Zusammenhangs
Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegulär
ebenfalls perfekte Multikollinearität.
Lösung: Eine der Variablen im linearen Zusammenhang weglassen (wird von
Statistik-Software meist automatisch erledigt).
Ökonometrie (SS 2017)
Folie 244
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität I
Imperfekte Multikollinearität kann im Beispiel 1 aus Folie 244 auch nach
Elimination des Regressors Jahr auftreten:
Oft ist die Jahressonderzahlung (mehr oder weniger) linear vom
durchschnittlichen Monatseinkommen abhängig ( 13. Monatsgehalt“). Dies
”
kann zu beinahe“ linearen Abhängigkeiten zwischen den Regressoren führen.
”
In einem (fiktiven) linearen Modell werden die monalichen Ausgaben für
Nahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personen
im Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und die
jährliche Sonderzahlung (Sonderzahlung) erklärt.
Im (ebenfalls fiktiven) Datensatz der Länge n = 25 beträgt die Korrelation
zwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch im
folgenden Plot visualisiert ist.
Ökonometrie (SS 2017)
Folie 245
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität II
Darstellung der Regressoren Monat und Sonderzahlung
5000
Punktwolke der Regressoren Monat und Sonderzahlung
●●
4500
●
●
●
●
●
3500
●
●
3000
●
●
●
●
●
2500
Sonderzahlung x3i
4000
●
●
●
2000
●
●
●
●
1500
●
●
●
●
1500
2000
2500
3000
3500
4000
4500
5000
Monat x2i
Ökonometrie (SS 2017)
Folie 246
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität III
Schätzergebnisse des vollständigen Modells
Call:
lm(formula = NuG ~ Personen + Monat + Sonderzahlung)
Residuals:
Min
1Q
-268.49 -109.97
Median
-0.13
3Q
122.96
Max
248.30
Coefficients:
Estimate Std. Error t
(Intercept)
61.44311 124.97001
Personen
159.57520
29.13033
Monat
0.17848
0.11854
Sonderzahlung
0.07205
0.12413
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
value Pr(>|t|)
0.492
0.628
5.478 1.96e-05 ***
1.506
0.147
0.580
0.568
0.1 ' ' 1
Residual standard error: 153.3 on 21 degrees of freedom
Multiple R-squared: 0.8242,
Adjusted R-squared:
F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08
Ökonometrie (SS 2017)
0.7991
Folie 247
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IV
In der Schätzung des vollständigen Modells ist nur der Koeffizient des
Regressors Personen signifikant von Null verschieden (zu gängigen
Signifikanzniveaus).
Insbesondere die (geschätzten) Koeffizienten zu den Regressoren Monat und
Sonderzahlung sind zwar (wie zu erwarten) positiv, durch die
vergleichsweise großen Standardfehler jedoch insignifikant.
Es liegt die Vermutung nahe, dass die Schätzung der Koeffizienten deshalb so
ungenau“ ausfällt, weil die Effekte der beiden Regressoren wegen der hohen
”
Korrelation im linearen Modellansatz kaum zu trennen sind.
Die imperfekte, aber große (lineare) Abhängigkeit der beiden Regressoren
Monat und Sonderzahlung überträgt sich auf einen stark ausgeprägten
(negativen!) Zusammenhang der Koeffizientenschätzer zu diesen Regressoren,
was sich auch in Konfidenzellipsen zu den entsprechenden Parametern
widerspiegelt:
Ökonometrie (SS 2017)
Folie 248
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität V
0.1
0.0
●
−0.2
−0.1
Sonderzahlung β3
0.2
0.3
0.4
Konfidenzellipse (1 − α = 0.95) für β2 und β3 im vollständigen Modell
−0.1
0.0
0.1
0.2
0.3
0.4
0.5
Monat β2
Ökonometrie (SS 2017)
Folie 249
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VI
Bei Betrachtung der Konfidenzellipse fällt auf, dass die Ellipse sehr flach“ ist.
”
Grund hierfür ist die bereits erwähnte starke negative (geschätzte)
Korrelation der Schätzfunktionen βb2 und βb3 , die sich aus der geschätzten
Varianz-Kovarianzmatrix


15617.50443 −2322.95496 −3.52136 0.76131

848.57606
0.76545 −0.69665
b = −2322.95496
b β)

V(
 −3.52136
0.76545
0.01405 −0.01431
0.76131
−0.69665
−0.01431 0.01541
−0.01431
= −0.973 errechnen lässt.
0.01405 · 0.01541
Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor
d βb2 , βb3 ) = √
als Korr(
Jahr = 12 · Monat + Sonderzahlung
zusammen, erhält man folgende Ergebnisse:
Ökonometrie (SS 2017)
Folie 250
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VII
Modell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Jahr)
Residuals:
Min
1Q
-263.159 -109.291
Median
5.702
3Q
121.542
Max
262.347
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.0719
122.3825
0.475
0.64
Personen
162.0057
28.0344
5.779 8.18e-06 ***
Jahr
0.0190
0.0021
9.044 7.27e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 150.5 on 22 degrees of freedom
Multiple R-squared: 0.8227,
Adjusted R-squared:
F-statistic: 51.04 on 2 and 22 DF, p-value: 5.449e-09
Ökonometrie (SS 2017)
0.8066
Folie 251
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VIII
Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)
signifikant von Null verschieden (und wie zu erwarten positiv).
Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil der
erklärten Varianz beinahe unverändert, das adjustierte Bestimmtheitsmaß
vergrößert sich sogar.
Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen der
Regressoren Monat oder Sonderzahlung aus dem ursprünglichen Modell
entfernt.
Ist das Weglassen von Regressoren oder eine Umspezifikation des Modells
möglich und sinnvoll, kann man das Problem der (imperfekten)
Multikollinearität also dadurch umgehen.
Ansonsten kann man den bisher dargestellten Folgen von imperfekter
Multikollinearität nur durch einen vergrößerten Stichprobenumfang
entgegenwirken.
Ökonometrie (SS 2017)
Folie 252
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IX
Modell ohne Regressor Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Monat)
Residuals:
Min
1Q
-261.656 -109.348
Median
7.655
3Q
109.174
Max
267.646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.88292 122.92403
0.471
0.642
Personen
162.83304
28.15048
5.784 8.08e-06 ***
Monat
0.24538
0.02726
9.003 7.88e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 151 on 22 degrees of freedom
Multiple R-squared: 0.8214,
Adjusted R-squared:
F-statistic: 50.59 on 2 and 22 DF, p-value: 5.901e-09
Ökonometrie (SS 2017)
0.8052
Folie 253
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität X
Modell ohne Regressor Monat
Call:
lm(formula = NuG ~ Personen + Sonderzahlung)
Residuals:
Min
1Q
-299.94 -113.54
Median
25.03
3Q
87.79
Max
293.15
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
106.1682
124.8342
0.850
0.404
Personen
149.8531
29.2120
5.130 3.85e-05 ***
Sonderzahlung
0.2538
0.0298
8.515 2.06e-08 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 157.7 on 22 degrees of freedom
Multiple R-squared: 0.8052,
Adjusted R-squared:
F-statistic: 45.48 on 2 and 22 DF, p-value: 1.53e-08
Ökonometrie (SS 2017)
0.7875
Folie 254
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität XI
Das Vorliegen von imperfekter Multikollinearität bedeutet im Übrigen nicht,
dass die Resultate der Schätzung nicht mehr nützlich oder gar falsch sind,
insbesondere bleiben verwertbare Prognosen meist möglich.
Im vollständigen Modell erhält man außerdem beispielsweise mit dem
Konfidenzintervall zum Konfidenzniveau
1 − α = 0.95 für die Summe
0
β2 + β3 , also für a0 β mit a = 0 0 1 1 , mit
[0.1781, 0.3219]
eine deutlich präzisere Schätzung als für die einzelnen Koeffizienten
β2 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.0681, 0.425]) und
β3 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.1861, 0.3302]).
Werden die schlecht zu trennenden“ Effekte also (z.B. durch geeignete
”
Linearkombination) zusammengefasst, sind wieder präzisere Schlüsse möglich.
Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant
(α = 0.05) von Null verschieden ist, kann mit einem Blick auf die
Konfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positiv
beantwortet werden.
Ökonometrie (SS 2017)
Folie 255
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität I
Ausstehend ist noch die präzisere Festlegung einer Schwelle für die lineare
Abhängigkeit zwischen den Regressoren, ab der man üblicherweise von
imperfekter Multikollinearität spricht.
Man benötigt zunächst ein Maß für die lineare Abhängigkeit der Regressoren.
Dazu setzt man zunächst jeden der K (echten) Regressoren separat als
abhängige Variable in jeweils ein neues Regressionsmodell ein und verwendet
als unabhängige, erklärende Variablen jeweils alle übrigen Regressoren in der
folgenden Gestalt:
x1i = γ0
+ γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
x2i = γ0 + γ1 x1i
..
..
.
.
+ γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
..
..
.
.
x(K −1)i = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . .
xKi = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i
Ökonometrie (SS 2017)
+ γK xKi + ui ,
+ ui .
Folie 256
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität II
Die K resultierenden Bestimmtheitsmaße Rk2 (k ∈ {1, . . . , K }) werden dann
verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)
VIFk :=
1
1 − Rk2
zu definieren.
Offensichtlich gilt VIFk ≥ 1, und VIFk wächst mit zunehmendem Rk2
(es gilt genauer VIFk = 1 ⇐⇒ Rk2 = 0 und VIFk → ∞ ⇐⇒ Rk2 → 1).
Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 im
Modell enthalten, spricht man in der Regel vom Vorliegen von imperfekter
Multikollinearität oder vom Multikollinearitätsproblem, es existieren aber
auch einige andere Faustregeln“.
”
Ökonometrie (SS 2017)
Folie 257
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität III
In der Darstellung (mit den Abkürzungen x k und skk aus Folie 191)
d βbk ) =
Var(
c2
c2
σ
σ
· VIFk = Pn
· VIFk
2
n · skk
i=1 (xki − x k )
der geschätzten Varianz der Parameterschätzer βbk ist die Bezeichnung
Varianz-Inflations-Faktor“ selbsterklärend.
”
In der im Beispiel durchgeführten Schätzung des vollständigen Modells
ergeben sich die folgenden Varianz-Inflations-Faktoren:
Regressor
VIF
Personen
Monat
Sonderzahlung
1.062
18.765
18.531
Nach der oben genannten Faustregel“ liegt also ein Multikollinearitätsproblem
”
bei den Regressoren Monat und Sonderzahlung vor.
Ökonometrie (SS 2017)
Folie 258
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen I
Die Annahme 2 an die Störgrößen ui auf Folie 186 lautet Var(ui ) = σ 2 für
alle i ∈ {1, . . . , n}, es wird also die Gleichheit aller Störgrößenvarianzen
gefordert.
Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch als
Homoskedastie oder Homoskedastizität dieser Zufallsvariablen bezeichnet.
Man spricht bei Erfüllung der Annahme 2 an die Störgrößen damit auch von
homoskedastischen Störgrößen.
Das Gegenteil von Homoskedastie wird mit Heteroskedastie oder
Heteroskedastizität bezeichnet.
Ist Annahme 2 an die Störgrößen verletzt, gilt also (mit σi2 := Var(ui ))
σi2 6= σj2 für mindestens eine Kombination i, j ∈ {1, . . . , n}, so spricht man
von heteroskedastischen Störgrößen.
Ökonometrie (SS 2017)
Folie 259
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen II
Im Folgenden untersuchen wir die Auswirkungen des Vorliegens
heteroskedastischer, aber (nach wie vor) unkorrelierter Störgrößen.
Es gelte also
 2
σ1
0


V(u) = diag(σ12 , . . . , σn2 ) :=  ...

0
0
0
σ22
0 ···
0 ···
..
.
0
0
0
0
0
0
0
0
···
···
0
0
2
σn−1
0

0
0

..  ,
.

0
σn2
V(u) ist also eine Diagonalmatrix.
Sind die Störgrößen gemeinsam normalverteilt (gilt also Annahme
sind die ui noch unabhängig, aber nicht mehr identisch verteilt.
Ökonometrie (SS 2017)
4
), so
Folie 260
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen III
Auswirkungen von Heteroskedastie in den Störgrößen
bei Schätzung des Modells mit der OLS-/KQ-Methode
I
b bleibt unverzerrt für β.
Der Vektor von Schätzfunktionen β
(Die Koeffizientenschätzer bleiben prinzipiell sinnvoll und gut einsetzbar.)
I
b ist nicht mehr effizient (varianzminimal).
β
(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sind
präzisere Schätzfunktionen konstruierbar. Dies wird in dieser Veranstaltung aber
nicht weiter besprochen.)
I
Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltung
unbrauchbar!
Ursächlich für den letzten (und folgenreichsten) Aspekt ist, dass bei der
b bzw. V(
b regelmäßig die (bei
b β)
Herleitung bzw. Berechnung von V(β)
Heteroskedastie falsche!) Spezifikation V(u) = σ 2 In eingesetzt bzw.
verwendet wurde.
Ökonometrie (SS 2017)
Folie 261
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie I
Schätzung von V(β)
b nicht mehr
Bei Vorliegen von Heteroskedastie in den Störgrößen kann V(β)
so stark wie auf Folie 198 vereinfacht werden, man erhält lediglich
0 h
0 i
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 )X(X0 X)−1
= (X0 X)−1 X0 V(u)X(X0 X)−1 .
Bei unbekannter Form von Heteroskedastie wurde als Schätzer für V(u) von
Halbert White zunächst (Econometrica, 1980) die folgende Funktion
vorgeschlagen:
 2

b1 0 0 · · · 0
u
0
0
0 u
b22 0 · · · 0
0
0



.. 
..
b hc0 (u) := diag(b
bn2 ) =  ...
V
u12 , . . . , u
.
.


2
 0 0 0 ··· 0 u
bn−1 0 
bn2
0 0 0 ··· 0
0
u
Ökonometrie (SS 2017)
Folie 262
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie II
Schätzung von V(β)
Auf dieser Basis wurden weitere Schätzer entwickelt, einer davon ist die (für
bessere Eigenschaften in kleinen Stichproben um Freiheitsgrade korrigierte)
Variante
n
bn2 )
diag(b
u12 , . . . , u
n − (K + 1)
 2
b1 0 0 · · ·
u
0 u
b22 0 · · ·

n
 ..
..
=

.
n − (K + 1)  .
 0 0 0 ···
0 0 0 ···
b hc1 (u) :=
V
0
0
0
0
0
0
2
bn−1
u
0

0
0

..  .
.

0
bn2
u
b aus Folie 262 liefert dann z.B.
Einsetzen in die Darstellung von V(β)
b := (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
V
als (unter moderaten Bedingungen konsistenten) Schätzer für die
b
Varianz-Kovarianz-Matrix V(β).
Ökonometrie (SS 2017)
Folie 263
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests I
bei heteroskedastischen Störgrößen
Konfidenz- und Prognoseintervalle sowie Hypothesentests müssen nun auf der
Verteilungsaussage
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
bzw.
•
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
aufbauen, die durch eine geeignete Schätzung von V(u) nutzbar gemacht
wird.
b für
b hc (β)
Die Verwendung eines heteroskedastie-konsistenten Schätzers V
b
V(β) führt dazu, dass viele bei Homoskedastie (zumindest bei gemeinsam
normalverteilen Störgrößen) exakt gültigen Verteilungsaussagen nur noch
asymptotisch und damit für endliche Stichprobenumfänge nur noch
näherungsweise (approximativ) gelten (selbst bei gemeinsam normalverteilten
Störgrößen).
Ökonometrie (SS 2017)
Folie 264
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests II
bei heteroskedastischen Störgrößen
Achtung!
b muss
Bei der Verwendung von heteroskedastie-konsistenten Schätzern für V(β)
unbedingt darauf geachtet werden, keine Formeln“ einzusetzen, die unter
”
Ausnutzung von nur bei Homoskedastie der Störgrößen gültigen
Zusammenhängen hergeleitet wurden.
c2 oder σ
Generell sind ganz offensichtlich alle Formeln“, die σ
b enthalten, also
”
nicht mehr einsetzbar. Dazu zählen einige Darstellungen auf den Folien 204,
217, 224, 227, 230 und 234.
Bei der Berechnung von Konfidenzintervallen (Folie 203) und der
Durchführung von Tests (Folie 204) für einzelne Parameter sind natürlich bei
c2 b bzw. σ
jedem Auftreten von σ
bβbk die entsprechenden Diagonaleinträge der
βk
b bzw. deren
b hc (β)
verwendeten heteroskedastie-konsistenten Schätzmatrix V
Wurzeln einzusetzen!
Der t-Test für einzelne lineare Hypothesen hat nun die folgende Darstellung:
Ökonometrie (SS 2017)
Folie 265
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
t= q
b
b hc (β)a
a0 V
0
t für a β = c näherungsweise t(n − (K + 1))-verteilt
Benötigte Größen
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b z.B. V
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β),
2
2
n
b
b hc1 (u) =
bn ), wobei b
diag(b
u1 , . . . , u
mit V
u = y − Xβ
n−(K +1)
Kritischer Bereich
zum Niveau α
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
p-Wert
2 · (1 − Ft(n−(K +1)) (|t|))
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Ökonometrie (SS 2017)
Folie 266
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests III
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Auch die alternativen Darstellungen der Statistik des F -Tests von Folie 236f.
verlieren ihre Korrektheit!
Die F -Statistik aus Folie 230 ist durch eine Darstellung der Bauart“
”
i−1
h
b 0
b hc (β)A
(Aβb − c)
(Aβb − c)0 AV
F =
L
zu ersetzen, beispielsweise also durch
h
i−1
b hc1 (u)X(X0 X)−1 A0
(Aβb − c)0 A(X0 X)−1 X0 V
(Aβb − c)
F =
b hc1 (u) =
mit V
L
n
n−(K +1)
bn2 ).
diag(b
u12 , . . . , u
Der F -Test hat also bei heteroskedastischen Störgrößen die folgende Gestalt:
Ökonometrie (SS 2017)
Folie 267
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Anwendungsvoraussetzungen
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
b − c)0 AV
b 0
b − c)
b hc (β)A
(Aβ
(Aβ
F =
L
F ist approx. F (L, n − (K + 1))-verteilt, falls Aβ = c
b
b eine heteroskedastie-konsistente Schätzb hc (β)
β = (X0 X)−1 X0 y, V
b
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β), z.B. V
2
2
n
b
b
bn ), wobei b
mit Vhc1 (u) =
diag(b
u1 , . . . , u
u = y − Xβ
n−(K +1)
Kritischer Bereich
zum Niveau α
(FL,n−(K +1);1−α , ∞)
p-Wert
1 − FF (L,n−(K +1)) (F )
Ökonometrie (SS 2017)
Folie 268
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests IV
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Ein approximatives symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man bei heteroskedastischen Störgrößen durch
q
q
b , a0 βb + tn−(K +1);1− α · a0 V
b
b hc (β)a
b hc (β)a
a0 βb − tn−(K +1);1− α2 · a0 V
2
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Bei der Konstruktion von Konfidenzellipsen bzw. -ellipsoiden ist natürlich
analog eine geeignete Darstellung der F -Statistik (siehe z.B. Folie 267) zu
verwenden, man erhält einen (approximativen) Konfidenzbereich zum
Konfidenzniveau 1 − α also nun (unter Beibehaltung der bisherigen
Bezeichnungen) mit der Menge
h
i−1
L
0
0
b
b
b
b
c ∈ R (Aβ − c) AVhc (β)A
(Aβ − c) ≤ L · FL,n−(K +1);1−α .
Ökonometrie (SS 2017)
Folie 269
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests V
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
(Approximative) Intervallprognosen für E(y0 ) gegeben x0 zur
Vertrauenswahrscheinlichkeit 1 − α (auch interpretierbar als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) gegeben x0 ) erhält
man nun in der Gestalt
q
q
0b
0
0
0
b
b
b
b
b
x0 β − tn−(K +1);1− α2 · x0 Vhc (β)x0 , x0 β + tn−(K +1);1− α2 · x0 Vhc (β)x0
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Intervallprognosen von y0 gegeben x0 sind nun nicht mehr sinnvoll
durchführbar, da man keine Informationen mehr über die von u0 verursachte
Schwankung von y0 hat!
Ökonometrie (SS 2017)
Folie 270
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Robuste Standardfehler“
”
Die Verwendung von heteroskedastie-konsistenten Schätzern für die
Standardabweichungen von βbk (bzw. weitergehender die Verwendung eines
b wird
heteroskedastie-konsistenten Schätzers für die Schätzung von V(β))
auch als Verwendung robuster Standardfehler“ bezeichnet.
”
Gängige Statistik-Software erlaubt die Verwendung robuster Standardfehler,
auch wenn standardmäßig in der Regel von homoskedastischen Störgrößen
ausgegangen wird.
In der Statistik-Software R implementiert beispielsweise die Funktion hccm
( heteroscedasticity-corrected covariance matrix“) im Paket car verschiedene
”
b bei den
Varianten heteroskedastie-konsistenter Schätzungen von V(β)
Auswertungen zu linearen Regressionsmodellen.
Die Verwendung robuster Standardfehler trotz homoskedastischer Störgrößen
ist unkritisch. Moderne Lehrbücher empfehlen zunehmend eine generelle
Verwendung robuster Standardfehler.
Ökonometrie (SS 2017)
Folie 271
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler I
b und V
b im Beispiel von Folie 207:
b β)
b hc1 (β)
Berechnung von V(
> library(car)
> fit
<- lm(Lohnhöhe ~ Ausbildung + Alter)
> print(vcov(fit),digits=6)
# "standard"
(Intercept)
Ausbildung
Alter
(Intercept) Ausbildung
Alter
27051.397
456.8888 -645.7068
456.889
449.0435 -52.7609
-645.707
-52.7609
20.9445
> Vhhc1 <- hccm(fit, type="hc1")
> print(Vhhc1,digits=6)
(Intercept)
Ausbildung
Alter
Ökonometrie (SS 2017)
# "robust"
(Intercept) Ausbildung
Alter
23815.318 -1602.3359 -583.2360
-1602.336
271.0231
26.8099
-583.236
26.8099
16.1392
Folie 272
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler II
t-Tests auf Signifikanz der einzelnen Koeffizienten:
> print(coeftest(fit))
# "standard"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
164.4731 6.2491 8.814e-06 ***
Ausbildung
62.5745
21.1906 2.9529 0.008904 **
Alter
10.6020
4.5765 2.3166 0.033265 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> print(coeftest(fit, vcov. = Vhhc1))
# "robust"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
154.3221 6.6601 4.021e-06 ***
Ausbildung
62.5745
16.4628 3.8010 0.001428 **
Alter
10.6020
4.0174 2.6390 0.017229 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Folie 273
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler III
Die Schätzung unter Zulassung heteroskedastischer Störgrößen führt im
Beispiel zu kleineren p-Werten der Tests auf Signifikanz der einzelnen
Parameter.
Insbesondere ist nun der Koeffizient zum Regressor Ausbildung sogar zum
Signifikanzniveau α = 0.001 bzw. der Koeffizient zum Regressor Alter sogar
zum Signifikanzniveau α = 0.01 signifikant positiv!
Der t-Test zum Test der linearen Hypothese
H0 : β1 − 2 · β2 ≤ 0
gegen
H1 : β1 − 2 · β2 > 0
bzw.
H0 : a0 β ≤ c
gegen
H1 : a0 β > c
0
mit a = 0 1 −2 und c = 0 wird im Folgenden statt unter der Annahme
von Homoskedastie der Störgrößen unter Zulassung heteroskedastischer
Störgrößen durchgeführt.
Ökonometrie (SS 2017)
Folie 274
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler IV
b wie auf Folie 272 angegeben erhält man nun zunächst
b hc1 (β)
Mit V

 
23815.318 −1602.336 −583.236
0
b = 0 1 −2 −1602.336
b hc1 (β)a
271.023
26.810   1 
a0 V
−583.236
26.810
16.139
−2
= 228.3404
und mit a0 βb = 0
1
t=q


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
a0 βb − c
41.371 − 0
=√
= 2.7378 .
228.3404
b
b hc1 (β)a
a0 V
H0 kann nun zum Signifikanzniveau α = 0.05 anders als bei Annahme
homoskedastischer Störgrößen also abgelehnt werden, da
t = 2.7378 ∈ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2017)
Folie 275
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler V
[
Mit der (bereits auf Folie 218 berechneten) Punktprognose E(y
0 ) = 1680.982
für die erwartete Lohnhöhe eines 38-jährigen Mitarbeiters, der nach dem
Hauptschulabschluss weitere 4 Ausbildungsjahre absolviert hat (also für
0
x0 = 1 4 38 ), erhält man unter Annahme heteroskedastischer
Störgrößen nun mit
0b
b 0= 1
x0 Vhc1 (β)x
4

23815.318
38 −1602.336
−583.236
−1602.336
271.023
26.810
 
−583.236
1
26.810   4  = 2462.304
16.139
38
das Prognoseintervall
q
q
0b
0b
0
0
b
b
b
b
α
α
x0 β − tn−(K +1);1− 2 · x0 Vhc (β)x0 , x0 β + tn−(K +1);1− 2 · x0 Vhc (β)x0
h
i
√
√
= 1680.982 − 2.1098 · 2462.304 , 1680.982 + 2.1098 · 2462.304
= [1576.29 , 1785.674]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38. (Intervall bei homoskedastischen Störgrößen: [1565, 1796.964])
Ökonometrie (SS 2017)
Folie 276
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste“ Konfidenzellipse für β1 und β2
”
Modell von Folie 207, mit bzw. ohne Verwendung robuster Standardfehler, 1 − α = 0.95
10
●
0
5
Alter β2
15
20
^ ^
V(β)
^
^
Vhc1(β)
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2017)
Folie 277
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Inhaltsverzeichnis
(Ausschnitt)
4
Multiple lineare Regression
Multiples lineares Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Tests einzelner linearer Hypothesen
Konfidenzintervalle für Linearkombinationen
Tests mehrerer linearer Hypothesen
Konfidenzellipsen
Multikollinearität
Heteroskedastische Störgrößen
Tests auf Heteroskedastie
Ökonometrie (SS 2017)
Folie 278
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Tests auf Heteroskedastie der Störgrößen
Neben dem Ansatz, generell eine heteroskedastie-konsistente Schätzung von
b zu verwenden, besteht auch die Möglichkeit, das Vorliegen von
V(β)
Heteroskedastizität der Störgrößen statistisch zu untersuchen, um dann bei
”
Bedarf“ einen heteroskedastie-konsistenten Schätzer zu verwenden.
Hierzu existieren verschiedene Hypothesentests, deren
Anwendungsmöglichkeiten zum Beispiel davon abhängen, ob man eine
bestimmte Quelle“ für die Heteroskedastie in den Störgrößen angeben kann
”
bzw. vermutet.
In der vorangegangenen Regression (Lohnhöhe regressiert auf Ausbildung
und Alter) könnte man beispielsweise vermuten, dass die Varianz der
Störgrößen dort groß ist, wo auch die Lohnhöhe groß ist.
Ein Test, der in dieser Situation sehr gut geeignet sein kann, ist der
Goldfeld-Quandt-Test.
Ökonometrie (SS 2017)
Folie 279
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test I
Zur (sinnvollen) Anwendung des Goldfeld-Quandt-Tests ist es erforderlich,
dass die Heteroskedastie in den Störgrößen
I
I
von einer beobachteten (und identifizierten) Variablen verursacht wird und
monoton“ in dieser Variablen ist.
”
Die Monotonie“ kann sich auch dahingehend äußern, dass sich bei einem
”
(nur) nominalskalierten Regressor mit zwei Ausprägungen (also z.B. einer
Dummy-Variablen!) die Störgrößenvarianz in der einen Gruppe“ von der in
”
der anderen Gruppe unterscheidet!
Zur Anwendung des Goldfeld-Quandt-Tests ist es bei einer
ordinal-/kardinalskalierten Variablen, die die Störgrößenvarianz monoton“
”
beeinflussen soll, sogar erforderlich, den Datensatz in eine Gruppe von
Beobachtungen mit kleinen“ Ausprägungen und eine weitere Gruppe von
”
Beobachtungen mit großen“ Ausprägungen dieser Variablen aufzuteilen
”
(eventuell unter Auslassung eines Teils der Daten mit mittelgroßen“
”
Ausprägungen dieser Variablen).
Ökonometrie (SS 2017)
Folie 280
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test II
Das ursprüngliche Regressionsmodell wird dann jeweils getrennt für die
beiden Gruppen A (entspricht ggf. Gruppe mit kleinen“ Ausprägungen) und
”
B (entspricht ggf. Gruppe mit großen“ Ausprägungen) (unter der – für die
”
Durchführung des Tests wenig schädlichen – Annahme von Homoskedastie in
beiden Gruppen) geschätzt.
Die Anwendung des Goldfeld-Quandt-Tests läuft dann auf einen (aus der
Schließenden Statistik bekannten!) F -Test zum Vergleich zweier Varianzen
(unter Normalverteilungsannahme) hinaus.
Unter der Nullhypothese der Homoskedastie sind insbesondere die
Störgrößenvarianzen beider Gruppen, im Folgenden mit σA2 bzw. σB2
bezeichnet, sowohl konstant als auch gleich.
Der Test kann sowohl beidseitig als auch einseitig (links- bzw. rechtsseitig)
durchgeführt werden, so erhält man die folgenden Hypothesenpaare:
H0 : σA2 = σB2
gegen
H1 : σA2 6= σB2
Ökonometrie (SS 2017)
H0 : σA2 ≤ σB2
gegen
H1 : σA2 > σB2
H0 : σA2 ≥ σB2
gegen
H1 : σA2 < σB2
Folie 281
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test III
bA bzw. u
bB jeweils den Residuenvektor der Schätzung aus
Bezeichnen u
Gruppe A bzw. B, SERA bzw. SERB jeweils den Standard Error of Regression
(residual standard error) der Schätzung aus Gruppe A bzw. B, nA bzw. nB
die Länge des jeweils zur Schätzung verwendeten (Teil-)Datensatzes für
Gruppe A bzw. B sowie K (wie üblich) die Anzahl (echter) Regressoren, so
erhält man die möglichen Darstellungen
F =
b0A u
bA /(nA − (K + 1))
SER2A
u
=
b0B u
bB /(nB − (K + 1))
u
SER2B
der Teststatistik, die bei Gültigkeit von σA2 = σB2 eine
F (nA − (K + 1), nB − (K + 1))-Verteilung besitzt.
Insgesamt erhält man die folgende Zusammenfassung des
Goldfeld-Quandt-Tests:
Ökonometrie (SS 2017)
Folie 282
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Goldfeld-Quandt-Test (GQ-Test)
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit E(u) = 0, V(u) Diagonalmatrix aus σA2 , σB2 ,
u normalverteilt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Auswahl von zwei Gruppen
A bzw. B vom Umfang nA bzw. nB aus den Beobachtungen
H0 : σA2 = σB2
H1 : σA2 6= σB2
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
H0 : σA2 ≤ σB2
H1 : σA2 > σB2
F =
b
u0A b
uA /(nA − (K + 1))
SER2A
=
0
b
uB /(nB − (K + 1))
uB b
SER2B
F unter H0 für σA2 = σB2 F (nA − (K + 1), nB − (K + 1))-verteilt
Residuenvektoren b
uA bzw. b
uB oder Standard Error of Regression
SERA bzw. SERB aus jeweils separater Modellschätzung
zu den Gruppen A und B
[0, Fn −(K +1),n −(K +1); α )
A
B
2
zum Niveau α
H0 : σA2 ≥ σB2
H1 : σA2 < σB2
(Fn −(K +1),n −(K +1);1−α , ∞)
A
B
[0, Fn −(K +1),n −(K +1);α )
A
B
1 − FF (n −(K +1),n −(K +1)) (F )
A
B
FF (n −(K +1),n −(K +1)) (F )
A
B
∪(Fn −(K +1),n −(K +1);1− α , ∞)
A
B
2
p-Wert
2 · min
n
FF (n −(K +1),n −(K +1)) (F ),
A
B
o
1 − FF (n −(K +1),n −(K +1)) (F )
A
Ökonometrie (SS 2017)
B
Folie 283
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test I
Teilt man den Datensatz des Lohnhöhen-Beispiels“ in die beiden Gruppen A“
”
”
zu den 10 höchsten Lohnhöhen und B“ zu den 10 niedrigsten Lohnhöhen auf,
”
so erhält man die folgende Modellschätzung für Gruppe A“:
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe >
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-488.33 -154.11
Median
-34.06
3Q
78.62
Max
534.61
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1516.69
561.23
2.702
0.0305 *
Ausbildung
51.87
32.07
1.618
0.1498
Alter
3.20
11.07
0.289
0.7809
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 328 on 7 degrees of freedom
Multiple R-squared: 0.3051,
Adjusted R-squared:
F-statistic: 1.537 on 2 and 7 DF, p-value: 0.2797
Ökonometrie (SS 2017)
0.1066
Folie 284
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test II
Die Schätzung für Gruppe B“ liefert:
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe <=
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-100.381 -27.528
Median
-2.589
3Q
47.221
Max
101.743
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1198.772
108.647 11.034 1.11e-05 ***
Ausbildung
57.711
24.688
2.338
0.052 .
Alter
3.270
3.359
0.973
0.363
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.72 on 7 degrees of freedom
Multiple R-squared: 0.4967,
Adjusted R-squared:
F-statistic: 3.454 on 2 and 7 DF, p-value: 0.09045
Ökonometrie (SS 2017)
0.3529
Folie 285
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test III
Die Teststatistik des GQ-Tests erhält man also durch
F =
3282
= 17.811 .
77.722
Der rechtsseitige Test zum Signifikanzniveau α = 0.05 lehnt mit
K = (F1−α;nA −(K +1),nB −(K +1) , ∞) = (F0.95;7,7 , ∞) = (3.79, ∞)
wegen F ∈ K die Nullhypothese der Homoskedastie der Störgrößen also ab
und entscheidet sich für eine größere Störgrößenvarianz in der Gruppe, die zu
den größeren Lohnhöhen gehört.
Ökonometrie (SS 2017)
Folie 286
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test IV
Visualisierung der Abhängigkeit der b
ui2 vom Regressor Lohnhöhe und des GQ-Tests
Punktwolke der abhängigen Variablen und der quadrierten Residuen
SER2B
SER2A
100000 150000 200000 250000 300000
●
●
50000
quadrierte Residuen u^i
2
●
●
●
0
●
1200
●
●
●
●
1400
●
●
●
●
●
1600
●
●
1800
●
2000
2200
2400
2600
Lohnhöhe yi
Ökonometrie (SS 2017)
Folie 287
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test V
Schneller lässt sich die Fragestellung mit dem Befehl gqtest aus dem Paket
lmtest bearbeiten.
Die Verwendung der Voreinstellung teilt den Datensatz gemäß der Ordnung
einer vorgegebenen Variablen in zwei (möglichst) gleich große Teile und
macht einen einseitigen Test auf positive Abhängigkeit der Störgrößenvarianz
von der vorgegebenen Variablen (wie im Beispiel):
> library(lmtest)
> gqtest(lm(Lohnhöhe~Ausbildung+Alter),order.by=Lohnhöhe)
Goldfeld-Quandt test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
GQ = 17.817, df1 = 7, df2 = 7, p-value = 0.00058
Ökonometrie (SS 2017)
Folie 288
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test I
auf Heteroskedastie in den Störgrößen
Ein weiterer Test auf Heteroskedastie in den Störgrößen ist der
Breusch-Pagan-Test.
Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine
(einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
Vielmehr lässt sich mit dem Breusch-Pagan-Test eine konstante
Störgrößenvarianz σ 2 ≡ σi2 gegen eine recht allgemeine Abhängigkeit der
Störgrößenvarianzen von Q Variablen z1i , z2i , . . . , zQi , i ∈ {1, . . . , n}, in der
Form
σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
(1)
mit einer Funktion h, an die nur moderate Bedingungen gestellt werden
müssen, abgrenzen.
Im Breusch-Pagan-Test entspricht der Fall einer konstanten
Störgrößenvarianz der Nullhypothese
H0 : γ1 = . . . = γQ = 0
⇐⇒
im allgemeineren Varianz-Modell“ aus Formel (1).
”
Ökonometrie (SS 2017)
σi2 ≡ h(γ0 )
Folie 289
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test II
auf Heteroskedastie in den Störgrößen
Häufig werden als Variablen z1i , z2i , . . . , zQi gerade wieder die Regressoren
des ursprünglichen Regressionsmodells eingesetzt, es gilt dann also
Q=K
und
zji = xji
für i ∈ {1, . . . , n}, j ∈ {1, . . . , K } .
Durch die Freiheit bei der Auswahl der Einflussvariablen z1i , z2i , . . . , zQi sind
aber auch zahlreiche Varianten möglich, zum Beispiel
I
I
die Verwendung nicht nur der Regressoren des ursprünglichen Modells, sondern
auch Potenzen hiervon und/oder Produkte verschiedener Regressoren oder
die Verwendung der aus der ursprünglichen Modellschätzung gewonnenen ybi .
Unter dem Namen Breusch-Pagan-Test“ (BP-Test) werden üblicherweise
” Versionen subsumiert, nämlich
zwei unterschiedliche
I
I
der ursprüngliche Test von Breusch und Pagan (Econometrica, 1979), der
unabhängig auch von Cook und Weisberg (Biometrika, 1983) vorgeschlagen
wurde, sowie
eine robuste“ Modifikation von Koenker (Journal of Econometrics, 1981), die
”
geeigneter ist, wenn die Störgrößen nicht normalverteilt sind.
Ökonometrie (SS 2017)
Folie 290
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test III
auf Heteroskedastie in den Störgrößen
Beide Versionen des BP-Tests sind als Score-Test“ konzipiert, die
”
Teststatistik lässt sich jedoch jeweils leicht auf Basis von
(OLS-)Schätzergebnissen einer (linearen) Hilfsregression berechnen.
bi die Residuen aus der Schätzung des auf heteroskedastische
Sind u
Störgrößen zu untersuchenden
linearen Modells und RSS die Residual Sum of
Pn
b0 u
b), so benötigt man als abhängige Variable
bi2 = u
Squares (mit RSS = i=1 u
der Hilfsregression die gemäß
wi :=
n 2
n 2
bi =
b
u
u
0
b
b
uu
RSS i
für i ∈ {1, . . . , n}
standardisierten“ quadrierten Residuen wi .
”
Ökonometrie (SS 2017)
Folie 291
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test IV
auf Heteroskedastie in den Störgrößen
Für beide Versionen des BP-Tests ist dann die Hilfsregression
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei ,
i ∈ {1, . . . , n},
(per OLS-/KQ-Methode) zu schätzen.
Im ursprünglichen BP-Test erhält man die unter der Nullhypothese
näherungsweise χ2 (Q)-verteilte Teststatistik dann als die Hälfte der
b
Explained Sum of Squares“ der Hilfsregression, mit der Bezeichnung
ei
Pn
”
für die Residuen der Hilfsregression und der Abkürzung w = n1 i=1 wi also
zum Beispiel unter Verwendung von ESS = TSS − RSS durch
!
!!
n
n
X
X
1
2
2
2
b
χ = ·
(wi − w ) −
ei
.
2
i=1
Ökonometrie (SS 2017)
i=1
Folie 292
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test V
auf Heteroskedastie in den Störgrößen
In der robusteren Version von Koenker erhält man die unter der
Nullhypothese ebenfalls näherungsweise χ2 (Q)-verteilte Teststatistik als
n-faches multiples Bestimmtheitsmaß der Hilfsregression, es gilt also
χ2 = n · RH2
mit der Bezeichnung RH2 für das Bestimmtheitsmaß der Hilfsregression.
Offensichtlich kann (nur) bei Verwendung der Version von Koenker auf die
Standardisierung der quadrierten Residuen der ursprünglichen
Modellschätzung verzichtet werden und die Hilfsregression auch direkt mit
bi2 durchgeführt werden, da dies das
der abhängigen Variablen u
Bestimmtheitsmaß nicht ändert (wohl aber die ESS!).
Ökonometrie (SS 2017)
Folie 293
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Original“)
”
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
Nullhypothese
Gegenhypothese
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
!
!!
n
n
X
X
1
2
2
2
b
(wi − w ) −
ei
χ = ·
2
i=1
i=1
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
χ2 ist approx. χ2 (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
b
bn )0 = y − X(X0 X)−1 X0 y, wi =
u = (b
u1 , . . . , u
b
ei die Residuen der Hilfsregression
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
n
b2 ,
u
b
u0 b
u i
(χ2Q;1−α , ∞)
1 − Fχ2 (Q) (χ2 )
Folie 294
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Koenker“)
”
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
Nullhypothese
Gegenhypothese
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
Teststatistik
Verteilung (H0 )
χ2 = n · RH2
χ ist approx. χ (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
2
2
Benötigte Größen
b
bn )0 = y − X(X0 X)−1 X0 y, RH2 das Bestimmtheitsmaß
u = (b
u1 , . . . , u
bi2 = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
der Hilfsregression u
Kritischer Bereich
zum Niveau α
(χ2Q;1−α , ∞)
p-Wert
Ökonometrie (SS 2017)
1 − Fχ2 (Q) (χ2 )
Folie 295
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
White-Test
auf Heteroskedastie in den Störgrößen
White hat in seiner Arbeit von 1980 (Econometrica) nicht nur
heteroskedastie-konsistente Schätzverfahren, sondern auch einen Test auf
Heteroskedastie in den Störgrößen vorgeschlagen.
Es zeigt sich, dass der White-Test auf heteroskedastische Störgrößen ein
Spezialfall der Koenker“-Version des Breusch-Pagan-Tests ist.
”
Konkret erhält man den White-Test bei der Durchführung eines
Breusch-Pagan-Tests nach Koenker, wenn man als Einflussvariablen zqi für
die Varianz der Störgrößen gerade
I
I
I
alle Regressoren, zusätzlich
alle quadrierten Regressoren sowie zusätzlich
alle gemischten Produkte von Regressoren
des ursprünglichen Modells wählt.
In einem Modell mit 2 Regressoren wäre also die Hilfsregression
bi2 = γ0 + γ1 x1i + γ2 x2i + γ3 x1i2 + γ4 x2i2 + γ5 x1i x2i + ei
u
durchzuführen.
Ökonometrie (SS 2017)
Folie 296
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test I
Im Folgenden werden zwei Varianten des Breusch-Pagan-Test am bereits
mehrfach verwendeten Lohnhöhen“-Beispiel illustriert.
”
bi2 der ursprünglichen Regression
Ausgehend von den quadrierten Residuen u
der Lohnhöhe auf die beiden Regressoren Ausbildung und Alter (sowie ein
Absolutglied) werden für die Original“-Version des Breusch-Pagan-Tests
”
bi2 berechnet:
zunächst die standardisierten quadrierten Residuen wi = bun0bu u
> uhat <- residuals(lm(Lohnhöhe~Ausbildung+Alter))
> w
<- uhat^2/mean(uhat^2)
Als
Summe
der quadrierten Abweichungen vom arithmetischen Mittel
Pn
(w
−
w
)2 der wi (also als TSS der folgenden Hilfsregression!) erhält
i
i=1
man:
> sum((w-mean(w))^2)
[1] 72.66564
Ökonometrie (SS 2017)
Folie 297
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test II
Werden als Einflussvariablen für die Varianz der Störgrößen die beiden
ursprünglichen Regressoren Ausbildung und Alter gewählt, ist dann die
Hilfsregression
wi = γ0 + γ1 Ausbildungi + γ2 Alteri + ei
zu schätzen und die zugehörige RSS zu bestimmen, man erhält
> sum(residuals(lm(w~Ausbildung+Alter))^2)
[1] 45.76786
und damit (gerundet) die Teststatistik
!
!!
n
n
X
X
1
1
2
2
2
b
χ = ·
(wi − w ) −
ei
= (72.666 − 45.768) = 13.449 .
2
2
i=1
i=1
Ein Vergleich zum kritischen Wert χ22;0.95 = 5.991 bei einem Test zum Niveau
α = 0.05 erlaubt die Ablehnung der Nullhypothese und damit den Schluss auf
das Vorliegen von Heteroskedastie in den Störgrößen.
Ökonometrie (SS 2017)
Folie 298
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test III
Wird in der beschriebenen Situation ein White-Test durchgeführt, so muss
eine der Hilfsregressionen
bi2 = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2i
u
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
oder
wi = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2i
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
durchgeführt werden.
In der Statistik-Software R müssen diese Rechenoperationen“ von
”
Regressoren bei der Modellformulierung in den Befehl I()“ eingeschlossen
”
werden, da ^“ und *“ bei der Notation von Modellgleichungen andere
”
”
Bedeutungen haben!
Ökonometrie (SS 2017)
Folie 299
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test IV
Man erhält als OLS-Schätzergebnis:
Call:
lm(formula = uhat^2 ~ Ausbildung + Alter + I(Ausbildung^2) +
I(Alter^2) + I(Ausbildung * Alter))
Residuals:
Min
1Q
-104762 -17524
Median
-9639
3Q
29687
Max
78007
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
5778.593 125459.783
0.046
0.9639
Ausbildung
-5788.874 23416.039 -0.247
0.8083
Alter
-6.682
6568.457 -0.001
0.9992
I(Ausbildung^2)
-6319.607
2139.021 -2.954
0.0105 *
I(Alter^2)
-58.640
92.777 -0.632
0.5375
I(Ausbildung * Alter)
1826.589
549.299
3.325
0.0050 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 58820 on 14 degrees of freedom
Multiple R-squared: 0.7093,
Adjusted R-squared:
F-statistic: 6.831 on 5 and 14 DF, p-value: 0.002013
Ökonometrie (SS 2017)
0.6055
Folie 300
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test V
Unter Verwendung des Bestimmtheitsmaßes dieser Hilfsregression ergibt sich
χ2 = n · RH2 = 20 · 0.7093 = 14.186 > χ25;0.95 = 11.07, also wird auch hier
zum Niveau α = 0.05 signifikante Heteroskedastie in den Störgrößen
festgestellt.
Schneller: mit dem Befehl bptest() im Paket lmtest:
I
Original“-Breusch-Pagan-Test (1. Beispiel):
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),studentize=FALSE)
Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 13.449, df = 2, p-value = 0.001201
I
White“- bzw. Koenker“-Variante (2. Beispiel):
”
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),
+ ~Ausbildung+Alter+I(Ausbildung^2)+I(Alter^2)+I(Ausbildung*Alter))
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 14.186, df = 5, p-value = 0.01447
Ökonometrie (SS 2017)
Folie 301
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Inhaltsverzeichnis
(Ausschnitt)
5
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
Ökonometrie (SS 2017)
Folie 302
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren I
Eine Variable y hängt linear von einer Variablen x ab, wenn der
Differenzenquotient bzw. die Ableitung bzgl. dieser Variablen konstant ist,
wenn also
∂y
∆y
=c
bzw.
=c
∆x
∂x
für eine Konstante c ∈ R gilt.
Im bisher betrachteten linearen Regressionsmodell
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
i ∈ {1, . . . , n},
hängt y also linear von jedem Regressor xk (k ∈ {1, . . . , K }) ab, denn es gilt
∆y
= βk
∆xk
bzw.
∂y
= βk .
∂xk
Die hier als marginaler Effekt“ einer Änderung von xk auf y interpretierbare
”
(partielle) Ableitung ist also konstant und damit insbesondere unabhängig
von xk (sowie unabhängig von anderen Variablen).
Ökonometrie (SS 2017)
Folie 303
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren II
Bereits im White-Test verwendet: Regressionsfunktion“
”
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
die zwar linear in den Regressionsparametern β0 , . . . , β5 , aber nichtlinear in
den Regressoren x1 und x2 ist.
Der marginale Effekt einer Änderung von x1 auf y beträgt hier beispielsweise
(abhängig vom Wert der Regressoren x1 und x2 !)
∂y
= β1 + 2β3 x1 + β5 x2 .
∂x1
Allgemein betrachten wir nun Regressionsmodelle, die sich in der Form
g (yi ) = β0 +β1 h1 (x1i , . . . , xKi )+. . .+βM hM (x1i , . . . , xKi )+ui ,
i ∈ {1, . . . , n},
mit M Transformationen h1 , . . . , hM der K Regressoren und (ggf.) einer
Transformation g der abhängigen Variablen darstellen lassen.
Ökonometrie (SS 2017)
Folie 304
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren III
Unter den üblichen Annahmen an die Störgrößen ui und unter der
Voraussetzung, dass die Transformationen h1 , . . . , hM zu einer neuen“
”
Regressormatrix


1 h1 (x11 , . . . , xK 1 ) · · · hM (x11 , . . . , xK 1 )
1 h1 (x12 , . . . , xK 2 ) · · · hM (x12 , . . . , xK 2 )

e := 
X
 ..

..
..
.

.
.
1
h1 (x1n , . . . , xKn )
···
hM (x1n , . . . , xKn )
mit vollem Spaltenrang M + 1 führen, bleiben die bisher besprochenen
Eigenschaften der OLS-/KQ-Schätzung dieses Modells bestehen.
Bezeichnet e
y := (g (y1 ), . . . , g (yn ))0 den transformierten (bzw. – falls
g (y ) = y für alle y ∈ R gilt – untransformierten) Vektor der abhängigen
Variable, erhält man beispielsweise den KQ-Schätzer als
e 0 X)
e −1 X
e 0e
βb = (X
y.
Ökonometrie (SS 2017)
Folie 305
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren IV
Weitere Beispiele für Modelle mit Regressionsfunktionen, die nichtlinear in
den (ursprünglichen) Regressoren xk sind:
1
2
3
4
5
yi = β0 + β1 x1i + β2 x1i2 + ui ,
yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
yi = β0 + β1 ln(x1i ) + ui ,
ln(yi ) = β0 + β1 x1i + ui ,
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui .
Wichtig!
Unabhängig von der konkreten Form der Regressionsfunktion muss (wie auch
bisher!) die Korrektheit der Spezifikation der Regressionsfunkion gewährleistet
sein, um die Ergebnisse der Schätzung überhaupt sinnvoll verwerten zu können!
Im Folgenden werden zunächst Regressionsfunktionen untersucht, die nur von
einer unabhängigen Variablen x1 abhängen (wie in den Beispielen 1 – 4 ).
Ökonometrie (SS 2017)
Folie 306
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle I
in nur einer Variablen x1
Die Modelle aus
1
bzw.
2
,
yi = β0 + β1 x1i + β2 x1i2 + ui
bzw. yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
sind Beispiele für polynomiale Modelle (in einer Variablen) der Form
yi = β0 + β1 x1i + β2 x1i2 + . . . + βr x1ir + ui
zu vorgegebenem Grad r ∈ {2, 3, . . .} des Polynoms.
In polynomialen Modellen (in einer Variablen) sind die marginalen Effekte
einer Änderung von x1 auf y gegeben durch
∂y
= β1 + 2β2 x1 + . . . + r βr x1r −1
∂x1
und damit insbesondere nicht konstant, sondern abhängig vom Regressor x1 .
Ökonometrie (SS 2017)
Folie 307
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle II
in nur einer Variablen x1
Konfidenzintervalle für die marginalen Effekte an einem vorgegebenen Wert
x1 des Regressors können dann als Konfidenzintervalle für
Linearkombinationen a0 β bestimmt werden, wenn der Vektor a ∈ Rr +1
(abhängig von x1 ) entsprechend gewählt wird, im polynomialen Modell mit
Polynomgrad r also als
a= 0
1
2x1
...
rx1r −1
0
.
Bei einer sehr großen Wahl von r besteht die Gefahr des Overfittings“: Sind
”
bei einer Punktwolke“ aus n Beobachtungen (x1i , yi ) alle xi unterschiedlich,
”
so kann die Punktwolke durch ein Polynom vom Grad r = n − 1 perfekt
interpoliert“ werden!
”
In der Praxis finden sich häufig polynomiale Modelle mit r = 2 oder r = 3.
Ökonometrie (SS 2017)
Folie 308
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle III
in nur einer Variablen x1
Gelegentlich wird – unter der Annahme, dass die wahre Regressionsfunktion
ein Polynom von unbekanntem Grad ist – zunächst ein Modell mit großem“
”
r geschätzt und dann sukzessive mit Hilfe von t-Tests überprüft, ob βr
signifikant von Null verschieden ist, um ggf. den Grad r des Polynoms in der
Regressionsfunktion um 1 zu reduzieren.
Die Nullhypothese eines linearen Zusammenhangs gegen die Alternative eines
polynomialen Zusammenhangs (mit Polynomgrad r ≥ 2) kann offensichtlich
durch einen F -Test mit
H0 : β2 = . . . = βr = 0
überprüft werden.
Natürlich können Tests bzw. Konfidenzintervalle auch unter der Annahme
heteroskedastischer Störgrößen durchgeführt werden, wenn die entsprechende
b der Varianz-Kovarianzmatrix
b hc (β)
heteroskedastie-konsistente Schätzung V
b und die dafür geeigneten Darstellungen der jeweiligen Tests verwendet
V(β)
werden.
Ökonometrie (SS 2017)
Folie 309
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle I
in nur einer Variablen x1
Log-Transformationen von x1i in ln(x1i ) und/oder yi in ln(yi ) bieten sich
dann an, wenn anstelle der Annahme eines konstanten Effekts ∆y = β1 ∆x1
von absoluten Änderungen ∆x1 auf absolute Änderungen ∆y eher dann ein
konstanter Effekt β1 erwartet wird, wenn relative, prozentuale Änderungen
∆y
1
bei der Ursache ( ∆x
x1 ) und/oder bei der abhängigen Variablen ( y )
betrachtet werden.
Grundlage dafür ist
∂ ln(x)
∂x
=
1
x
bzw.
∆x
∆x
≈
, wenn |∆x| |x|.
ln(x + ∆x) − ln(x) = ln 1 +
x
x
Abhängig davon, ob nur die unabhängige Variable, nur die abhängige Variable
oder beide Variablen transformiert werden, sind die folgenden Spezifikationen
möglich:
Ökonometrie (SS 2017)
Folie 310
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle II
in nur einer Variablen x1
1
Linear-log-Spezifikation:
yi = β0 + β1 ln(x1i ) + ui .
Konstanter Effekt β1 der relativen Änderung von x1 auf eine absolute
Änderung von y , bzw. abnehmender marginaler Effekt bei steigendem x:
∆y ≈ β1
∂y
β1
∆x1
bzw.
=
x1
∂x1
x1
Bsp.: x1i Düngemitteleinsatz, yi Ernteertrag (auf Feld i).
I
I
Eine (relative) Erhöhung des Düngemitteleinsatzes um 1% erhöht den
(absoluten) Ernteertrag (etwa) um 0.01 · β1 .
Eine (absolute) Erhöhung des Düngemitteleinsatzes um einen Betrag ∆x1 hat
dort mehr Wirkung, wo noch nicht so viel Dünger eingebracht wurde
( abnehmende Grenzerträge“).
”
Ökonometrie (SS 2017)
Folie 311
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle III
in nur einer Variablen x1
2
Log-linear-Spezifikation:
ln(yi ) = β0 + β1 x1i + ui .
Konstanter Effekt β1 der absoluten Änderung von x1 auf eine relative
Änderung von y , bzw. steigender marginaler Effekt bei steigendem y :
∆y
∂y
≈ β1 ∆x1 bzw.
= β1 y
y
∂x1
Bsp.: x1i Berufserfahrung von BWL-Absolventen (in Jahren), yi Einkommen.
I
I
Ein Jahr zusätzliche Berufserfahrung erhöht danach das mittlere Einkommen
um etwa 100β1 %.
Eine (absolute) Erhöhung der Berufserfahrung hat also einen höheren
(absoluten) Effekt auf das Einkommen dort, wo das Einkommen ohnehin
bereits ein höheres Niveau hatte.
Ökonometrie (SS 2017)
Folie 312
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle IV
in nur einer Variablen x1
3
Log-log-Spezifikation:
ln(yi ) = β0 + β1 ln(x1i ) + ui .
Konstanter Effekt β1 (=Elastizität) der relativen Änderung von x1 auf eine
relative Änderung von y :
∆y
∆x1
∂y x1
≈ β1
bzw.
= β1
y
x1
∂x1 y
Bsp.: x1i Kapitaleinsatz pro Arbeitskraft, yi Output pro Arbeitskraft.
I
I
Erhöhung des per-capita-Kapitaleinsatzes um 1% führt zur Erhöhung des
per-capita-Output um β1 % (Cobb-Douglas-Produktionsfunktion).
Modellierung von konstanten Skalenerträgen“.
”
Ökonometrie (SS 2017)
Folie 313
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle V
in nur einer Variablen x1
Anmerkungen zu Log-transformierten abhängigen Variablen (ln(y ))
Insbesondere Log-log-Spezifikationen können bei der sog. Linearisierung“ von
”
Regressionsmodellen entstehen, die zunächst nichtlinear (auch!) in den
Regressionsparametern sind, zum Beispiel erhält man aus dem Modell (hier:
mit mehreren Regressoren)
yi = β0 · x1iβ1 · x2iβ2 · e ui ,
i ∈ {1, . . . , n},
durch Logarithmieren auf beiden Seiten mit
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui ,
i ∈ {1, . . . , n}.
ein linearisiertes“ Modell.
”
Ökonometrie (SS 2017)
Folie 314
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle VI
in nur einer Variablen x1
Bei der Prognose von y0 gegeben x0 bzw. der Bestimmung von ybi auf Basis
von Modellen mit log-tranformierter abhängiger Variablen ln(y ) ist zu
beachten, dass wegen E (e ui ) 6= e E(ui ) trotz der Annahme E(ui ) ≡ 0 im
iid
Allgemeinen E (e ui ) 6= 1 = e 0 gilt. Für ui ∼ N(0, σ 2 ) gilt insbesondere
E (e ui ) = e
σ2
2
iid
, damit erhält man für ln(yi ) = h(x1i ) + ui mit ui ∼ N(0, σ 2 )
E(yi ) = E e ln(yi ) = E e h(x1i )+ui = E e h(x1i ) · e ui
= e h(x1i ) · E (e ui ) = e h(x1i ) · e
σ2
2
> e h(x1i ) .
Wenn die abhängige Variable y in ln(y ) transformiert wird, kann man das
Bestimmtheitsmaß für die geschätzte Regression nicht sinnvoll mit dem
Bestimmtheitsmaß einer Regressionsgleichung für y vergleichen!
(Anteil der erklärten Varianz der ln(yi ) vs. Anteil der erklärten Varianz der yi )
Ökonometrie (SS 2017)
Folie 315
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen I
Im Folgenden soll am Beispiel der Abhängigkeit der Milchleistung von Kühen
von der zugeführten Futtermenge die Schätzung einiger in den Regressoren
nichtlinearer Modelle illustriert werden.
Es liege hierzu folgender Datensatz vom Umfang n = 12 zu Grunde:
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
1
2
3
4
5
6
6525
10
8437
30
8019
20
8255
33
5335
5
7236
22
7
8
9
10
11
12
5821
8
7531
14
8320
25
4336
1
7225
17
8112
28
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 14.1)
Es wird nacheinander die Gültigkeit einer linearen, quadratischen, kubischen,
linear-log-, log-linear- bzw. log-log-Spezifikation unterstellt und das
zugehörige Modell geschätzt (unter Homoskedastieannahme).
Ökonometrie (SS 2017)
Folie 316
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen II
Lineares Modell: Milchi = β0 + β1 Futteri + ui
Call:
lm(formula = Milch ~ Futter)
Residuals:
Min
1Q Median
-768.2 -275.0 -115.6
3Q
353.4
Max
880.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4985.27
312.84 15.935 1.95e-08 ***
Futter
118.91
15.39
7.725 1.60e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 527.9 on 10 degrees of freedom
Multiple R-squared: 0.8565,
Adjusted R-squared:
F-statistic: 59.68 on 1 and 10 DF, p-value: 1.597e-05
Ökonometrie (SS 2017)
0.8421
Folie 317
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen III
Quadratisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + ui
Call:
lm(formula = Milch ~ Futter + I(Futter^2))
Residuals:
Min
1Q
-699.14 -135.47
Median
-2.44
3Q
179.63
Max
490.67
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4109.445
290.487 14.147 1.87e-07 ***
Futter
271.393
38.626
7.026 6.14e-05 ***
I(Futter^2)
-4.432
1.087 -4.076 0.00277 **
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 329.9 on 9 degrees of freedom
Multiple R-squared: 0.9496,
Adjusted R-squared:
F-statistic: 84.74 on 2 and 9 DF, p-value: 1.452e-06
Ökonometrie (SS 2017)
0.9384
Folie 318
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen IV
Kubisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + β3 Futter3i + ui
Call:
lm(formula = Milch ~ Futter + I(Futter^2) + I(Futter^3))
Residuals:
Min
1Q
-641.92 -117.82
Median
5.13
3Q
202.86
Max
447.31
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3954.93841 389.73064 10.148 7.61e-06 ***
Futter
327.00926
97.73076
3.346
0.0101 *
I(Futter^2)
-8.50791
6.63147 -1.283
0.2354
I(Futter^3)
0.07951
0.12747
0.624
0.5502
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 341.7 on 8 degrees of freedom
Multiple R-squared: 0.9519,
Adjusted R-squared:
F-statistic: 52.79 on 3 and 8 DF, p-value: 1.29e-05
Ökonometrie (SS 2017)
0.9339
Folie 319
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen V
Linear-log-Modell: Milchi = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = Milch ~ log(Futter))
Residuals:
Min
1Q
-635.74 -287.21
Median
33.02
3Q
373.09
Max
517.67
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
3818.3
358.2 10.660 8.82e-07 ***
log(Futter)
1268.8
130.1
9.754 2.00e-06 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 429.8 on 10 degrees of freedom
Multiple R-squared: 0.9049,
Adjusted R-squared:
F-statistic: 95.14 on 1 and 10 DF, p-value: 1.996e-06
Ökonometrie (SS 2017)
0.8954
Folie 320
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VI
Log-linear-Modell: ln(Milchi ) = β0 + β1 Futteri + ui
Call:
lm(formula = log(Milch) ~ Futter)
Residuals:
Min
1Q
Median
-0.16721 -0.03642 -0.01678
3Q
0.05692
Max
0.14677
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.523601
0.055220 154.358 < 2e-16 ***
Futter
0.018315
0.002717
6.741 5.1e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.09318 on 10 degrees of freedom
Multiple R-squared: 0.8196,
Adjusted R-squared: 0.8016
F-statistic: 45.44 on 1 and 10 DF, p-value: 5.098e-05
Ökonometrie (SS 2017)
Folie 321
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VII
Log-log-Modell: ln(Milchi ) = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = log(Milch) ~ log(Futter))
Residuals:
Min
1Q
Median
-0.076867 -0.028385 -0.004122
3Q
0.049235
Max
0.066730
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.32264
0.04468 186.29 < 2e-16 ***
log(Futter) 0.20364
0.01622
12.55 1.91e-07 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.0536 on 10 degrees of freedom
Multiple R-squared: 0.9403,
Adjusted R-squared: 0.9343
F-statistic: 157.5 on 1 and 10 DF, p-value: 1.912e-07
Ökonometrie (SS 2017)
Folie 322
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Geschätzte Regressions-/Prognosefunktionen I
Lineares Modell
Quadratisches Modell
7000
Milch
●
●
●
●
●
●
0
●
5
10
15
20
25
30
0
5
10
Futter
●
Milch
●
●
●
●
5000
●
●
●
5
10
15
20
25
30
0.0
0.5
1.0
Futter
●
●
9.0
8.4
●
10
15
Futter
2.5
3.0
3.5
20
25
30
●
●
●
8.8
●
●
●
●●
●
●
●
8.6
●
log(Milch)
9.0
8.8
●
●
●
●
5
2.0
Log−log−Modell
●
●
●
1.5
log(Futter)
Log−linear−Modell
8.6
●
●
●
7000
7000
●
●
●
log(Milch)
30
●
●
8.4
25
●
●
●
5000
Milch
●
●
●
Ökonometrie (SS 2017)
20
Linear−log−Modell
●
●
0
15
Futter
Kubisches Modell
0
●
●
5000
●
●
●
●
●
●
●
●
●
●
●
5000
Milch
●
●
7000
●
●
●
●
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
log(Futter)
Folie 323
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Geschätzte Regressions-/Prognosefunktionen II
Vergleich der Prognosefunktionen
●
●
●
●
●
●
6000
Milch
●
●
●
7000
8000
Linear
Quadratisch
Kubisch
Linear−log
Log−linear
Log−log
●
5000
●
●
0
5
10
15
20
25
30
Futter
Ökonometrie (SS 2017)
Folie 324
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen I
In der beim White-Test verwendeten Regressionsfunktion
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
ist – anders als bei den bisher näher betrachteten polynomialen oder
(semi-)log-Modellen – der marginale Effekt einer Änderung von x1 auf y
∂y
= β1 + 2β3 x1 + β5 x2
∂x1
nicht nur von der betrachteten Stelle x1 des 1. Regressors, sondern auch vom
Wert x2 des 2. Regressors abhängig!
Ursächlich hierfür ist die Verwendung des Produkts x1 · x2 als unabhängige
Variable. Man bezeichnet solche Produkte als Interaktionsvariablen oder
Interaktionsterme.
Ökonometrie (SS 2017)
Folie 325
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen II
Wir betrachten nun die folgenden drei Fälle:
1
2
3
Interaktion von zwei Dummyvariablen
Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen
Interaktion von zwei kardinalskalierten Variablen
Erinnerung: Dummyvariablen (auch 0,1-Indikatorvariablen genannt, im
Folgenden auch mit dk statt xk bezeichnet) sind Regressoren, die nur die
Werte 0 und 1 annehmen.
Der Wert 1 einer Dummyvariablen dki kennzeichnet bei einem betrachteten
Datenpunkt i in der Regel
I
I
das Vorhandensein eines gewissen Charakteristikums/einer gewissen
Eigenschaft bzw.
die Zugehörigkeit zu einer gewissen Gruppe.
Der Wert 1 eines Produkts dki · dli von zwei Dummyvariablen dk und dl tritt
also bei den Datenpunkten i auf, bei denen beide Charakteristika bzw.
Gruppenzugehörigkeiten gleichzeitig vorliegen.
Ökonometrie (SS 2017)
Folie 326
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen I
Interaktionsvariablen zu 2 Dummyvariablen sind also beispielsweise dann in
ein Modell aufzunehmen, wenn der Effekt der Zugehörigkeit zu einer Gruppe
nicht unabhängig vom Vorliegen eines weiteren Charakteristikums ist.
Beispiel: Betrachte das Modell
yi = β0 + β1 d1i + β2 d2i + ui ,
i ∈ {1, . . . , n},
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von
I
I
30-jährigen Frauen (d2i = 1) und Männern (d2i = 0)
mit akademischem Grad (d1i = 1) und ohne akademischen Grad (d1i = 0).
In dieser Spezifikation ist
I
I
das Basiseinkommen (Absolutglied) für Männer (β0 ) und Frauen (β0 + β2 )
unterschiedlich, aber
der Effekt eines abgeschlossenen Studiums für Männer und Frauen gleich (β1 ).
Ökonometrie (SS 2017)
Folie 327
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen II
Die Einführung einer zusätzlichen Interaktionsvariablen d1i d2i ist hier
gleichbedeutend damit, dass für Männer und Frauen das Basiseinkommen
(Absolutglied) und der Effekt des akademischen Grades unterschiedlich sein
können:
yi = β0 + β1 d1i + β2 d2i + β3 d1i d2i + ui
(
⇐⇒
yi =
β0
+
β1 d1i
+
ui , falls i männlich
(β0 + β2 )
+
(β1 + β3 )d1i
+
ui , falls i weiblich
In diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
I
I
das Basiseinkommen geschlechtsabhängig ist (H1 : β2 6= 0),
der Effekt des akademischen Grades geschlechtsabhängig ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem (gemeinsam)
überprüft werden, ob das Geschlecht in dem Modell irgendeinen Einfluss auf
das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 328
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion einer kardinalskalierten mit einer Dummyvariablen I
Eine Interaktionsvariable zu einer kardinalskalierten und einer
Dummyvariablen ist dann in ein Modell aufzunehmen, wenn der Effekt einer
kardinalskalierten Variablen nicht unabhängig vom Vorliegen eines bestimmten
Charakteristikums bzw. der Zugehörigkeit zu einer bestimmten Gruppe ist.
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 d2i + ui ,
i ∈ {1, . . . , n},
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
mit (d2i = 1) und ohne (d2i = 0) akademischen Grad
mit einer Anzahl von x1i Jahren an Berufserfahrung.
In dieser Spezifikation ist
I
I
das Basiseinkommen (Absolutglied) der Nichtakademiker (β0 ) und der
Akademiker (β0 + β2 ) unterschiedlich, aber
der Effekt eines Jahres Berufserfahrung für Nichtakademiker und Akademiker
gleich (β1 ).
Ökonometrie (SS 2017)
Folie 329
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion einer kardinalskalierten mit einer Dummyvariablen II
Die Einführung einer zusätzlichen Interaktionsvariablen x1i d2i sorgt hier
dafür, dass für Nichtakademiker und Akademiker das Basiseinkommen
(Absolutglied) und der Effekt der Berufserfahrung unterschiedlich sein
können:
yi = β0 + β1 x1i + β2 d2i + β3 x1i d2i + ui
(
⇐⇒
yi =
β0
+
β1 x1i
+ ui ,
falls i Nichtakademiker
(β0 + β2 )
+
(β1 + β3 )x1i
+ ui ,
falls i Akademiker
Auch in diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
I
I
das Basiseinkommen vom Vorhandensein eines akademischen Grads abhängt
(H1 : β2 6= 0),
der Effekt der Berufserfahrung für Nichtakademiker und Akademiker
unterschiedlich ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem wiederum
(gemeinsam) überprüft werden, ob das Vorhandensein eines akademischen
Grads in dem Modell irgendeinen Einfluss auf das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 330
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen I
Eine Interaktionsvariable zu zwei kardinalskalierten Variablen ist dann in ein
Modell aufzunehmen, wenn der Effekt einer kardinalskalierten Variablen nicht
unabhängig vom Wert einer anderen kardinalskalierten Variablen ist.
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 x2i + ui ,
i ∈ {1, . . . , n},
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
mit einer Anzahl von x1i Jahren an Berufserfahrung und
einer Ausbildungszeit von x2i Jahren.
In dieser Spezifikation ist
I
I
der Effekt eines (zusätzlichen) Jahres an Berufserfahrung unabhängig von der
Ausbildungszeit gleich β1 und
der Effekt eines (zusätzlichen) Jahres an Ausbildungszeit unabhängig von der
Berufserfahrung gleich β2 .
Ökonometrie (SS 2017)
Folie 331
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen II
Die Einführung einer zusätzlichen Interaktionsvariablen x1i x2i sorgt hier
dafür, dass der Effekt eines (zusätzlichen) Jahres an Berufserfahrung bzw.
Ausbildungszeit jeweils abhängig vom Niveau der anderen Variablen sein kann.
Für die Regressionsfunktion
y = β0 + β1 x1 + β2 x2 + β3 x1 x2
zum Modellansatz
yi = β0 + β1 x1i + β2 x2i + β3 x1i x2i + ui ,
i ∈ {1, . . . , n},
gilt nämlich:
∂y
= β1 + β3 x2
∂x1
sowie
∂y
= β2 + β3 x1
∂x2
In diesem Modell kann mit einem t-Test überprüft werden, ob tatsächlich
eine signifikante Interaktion vorliegt und der Effekt eines (zusätzlichen)
Jahres an Berufserfahrung bzw. Ausbildungszeit jeweils abhängig vom Niveau
der anderen Variablen ist.
Ökonometrie (SS 2017)
Folie 332
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen I
Im Lohnhöhenbeispiel“ wurde bisher als Modell
”
Lohnhöhei = β0 + β1 Ausbildungi + β2 Alteri + ui
angenommen, mit dem folgenden Schätzergebnis (unter Annahme
homoskedastischer Störgrößen):
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
Residuals:
Min
1Q
-569.50 -120.79
Median
-5.14
3Q
73.12
Max
519.26
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Ökonometrie (SS 2017)
0.6007
Folie 333
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen II
Die Schätzung bei Hinzunahme einer Interaktionsvariablen für die
Regressoren Ausbildung und Alter ergibt (unter Annahme
homoskedastischer Störgrößen):
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + I(Ausbildung * Alter))
Residuals:
Min
1Q
-470.03 -128.21
Median
-29.24
3Q
61.99
Max
541.43
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.924
288.786
2.832
0.0120 *
Ausbildung
128.650
77.493
1.660
0.1164
Alter
15.764
7.422
2.124
0.0496 *
I(Ausbildung * Alter)
-1.414
1.595 -0.887
0.3883
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 238.9 on 16 degrees of freedom
Multiple R-squared: 0.6595,
Adjusted R-squared:
F-statistic: 10.33 on 3 and 16 DF, p-value: 0.0005041
Ökonometrie (SS 2017)
0.5956
Folie 334
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen III
b ändert die
b hc1 (β))
Auch die Verwendung robuster Standardfehler (V
Schätzergebnisse nicht wesentlich:
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.9240
257.6594 3.1744 0.005885 **
Ausbildung
128.6496
83.6652 1.5377 0.143669
Alter
15.7637
6.8998 2.2847 0.036323 *
I(Ausbildung * Alter) -1.4143
1.9546 -0.7236 0.479787
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Die Berechnung der Varianzinflationsfaktoren offenbart“ das entstandene
”
Multikollinearitätsproblem:
> library(car)
> vif(lm(Lohnhöhe~Ausbildung+Alter+I(Ausbildung*Alter)))
Ausbildung
18.757206
Ökonometrie (SS 2017)
Alter I(Ausbildung * Alter)
3.688704
27.428395
Folie 335
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IV
Betrachte nun die folgende Ergänzung“ des Datensatzes um die
”
Dummyvariablen Weiblich (mit Wert 1 für weibliche und 0 für männliche
Betriebsangehörige) sowie Stamm (mit Wert 1 für Beschäftigte mit über 25
Jahren Betriebszugehörigkeit, 0 sonst) zum Lohnhöhenbeispiel:
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
Ökonometrie (SS 2017)
1
2
3
4
5
6
7
8
9
10
1250
1
28
1
0
1950
9
34
0
0
2300
11
55
0
0
1350
3
24
1
0
1650
2
42
0
0
1750
1
43
0
0
1550
4
37
1
0
1400
1
18
0
0
1700
3
63
1
0
2000
4
58
0
1
11
12
13
14
15
16
17
18
19
20
1350
1
30
1
0
1600
2
43
0
0
1400
2
23
0
0
1500
3
21
0
0
2350
6
50
0
0
1700
9
64
1
1
1350
1
36
1
0
2600
7
58
0
1
1400
2
35
1
0
1550
2
41
0
0
Folie 336
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen V
Eine erste Modellschätzung mit der zusätzlichen Dummyvariablen Stamm
ergibt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Stamm)
Residuals:
Min
1Q
-585.19 -120.69
Median
-1.91
3Q
64.44
Max
499.54
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1044.204
191.386
5.456 5.28e-05 ***
Ausbildung
62.034
22.017
2.818
0.0124 *
Alter
10.110
5.418
1.866
0.0805 .
Stamm
35.620
193.640
0.184
0.8564
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 244.4 on 16 degrees of freedom
Multiple R-squared: 0.6435,
Adjusted R-squared:
F-statistic: 9.626 on 3 and 16 DF, p-value: 0.0007201
Ökonometrie (SS 2017)
0.5766
Folie 337
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VI
Eine Modellschätzung mit der zusätzlichen Dummyvariablen Weiblich ergibt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich)
Residuals:
Min
1Q
-341.81 -63.29
Median
-23.10
3Q
54.66
Max
415.58
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1153.784
128.038
9.011 1.15e-07 ***
Ausbildung
49.842
16.277
3.062 0.00745 **
Alter
11.754
3.452
3.405 0.00362 **
Weiblich
-312.816
83.257 -3.757 0.00172 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 178.3 on 16 degrees of freedom
Multiple R-squared: 0.8102,
Adjusted R-squared:
F-statistic: 22.76 on 3 and 16 DF, p-value: 5.128e-06
Ökonometrie (SS 2017)
0.7746
Folie 338
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VII
Eine Modellschätzung mit den zusätzlichen Dummyvariablen Stamm und
Weiblich ergibt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
Residuals:
Min
1Q
-352.78 -63.15
Median
-19.96
3Q
55.61
Max
402.17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1164.906
147.862
7.878 1.04e-06 ***
Ausbildung
49.484
16.931
2.923 0.01050 *
Alter
11.416
4.095
2.788 0.01379 *
Weiblich
-312.513
85.926 -3.637 0.00243 **
Stamm
24.423
145.819
0.167 0.86922
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 184 on 15 degrees of freedom
Multiple R-squared: 0.8105,
Adjusted R-squared:
F-statistic: 16.04 on 4 and 15 DF, p-value: 2.7e-05
Ökonometrie (SS 2017)
0.76
Folie 339
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VIII
Variante I: Hinzufügen der Interaktion von Weiblich und Stamm:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Stamm))
Residuals:
Min
1Q
-202.67 -76.43
Median
-4.51
3Q
18.03
Max
325.65
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1084.687
112.439
9.647 1.46e-07 ***
Ausbildung
64.889
13.324
4.870 0.000248 ***
Alter
11.007
3.054
3.604 0.002877 **
Weiblich
-200.118
71.233 -2.809 0.013922 *
Stamm
220.038
121.483
1.811 0.091603 .
I(Weiblich * Stamm) -693.032
192.232 -3.605 0.002869 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 137.2 on 14 degrees of freedom
Multiple R-squared: 0.9018,
Adjusted R-squared:
F-statistic: 25.7 on 5 and 14 DF, p-value: 1.375e-06
Ökonometrie (SS 2017)
0.8667
Folie 340
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IX
Breusch-Pagan-Test (nach Koenker) im ursprünglichen Modell:
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 7.4032, df = 2, p-value = 0.02468
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen:
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
BP = 9.6253, df = 4, p-value = 0.04724
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen und
Interaktionsterm:
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm + I(Weiblich
BP = 6.9717, df = 5, p-value = 0.2228
Ökonometrie (SS 2017)
Folie 341
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen X
Variante II: Hinzufügen der Interaktion von Weiblich und Ausbildung:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung))
Residuals:
Min
1Q
-160.32 -86.44
Median
-23.71
3Q
69.83
Max
305.85
Coefficients:
Estimate Std. Error t value
(Intercept)
1061.933
124.133
8.555
Ausbildung
65.991
14.724
4.482
Alter
11.725
3.306
3.547
Weiblich
-41.731
113.671 -0.367
Stamm
154.349
125.352
1.231
I(Weiblich * Ausbildung) -81.946
27.259 -3.006
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
6.22e-07
0.000517
0.003220
0.719016
0.238484
0.009436
**
0.1 ' ' 1
Residual standard error: 148.5 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.52 on 5 and 14 DF, p-value: 4.073e-06
Ökonometrie (SS 2017)
***
***
**
0.8437
Folie 342
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen XI
Variante III: Hinzufügen der Interaktion von Weiblich und Ausbildung
sowie von Weiblich und Alter :
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung) + I(Weiblich * Alter))
Residuals:
Min
1Q
-170.48 -79.35
Median
-21.72
3Q
68.58
Max
283.54
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
986.879
153.018
6.449 2.17e-05 ***
Ausbildung
61.942
15.604
3.970
0.0016 **
Alter
14.159
4.386
3.228
0.0066 **
Weiblich
114.977
216.239
0.532
0.6039
Stamm
114.635
134.825
0.850
0.4106
I(Weiblich * Ausbildung) -60.144
37.519 -1.603
0.1329
I(Weiblich * Alter)
-5.713
6.681 -0.855
0.4080
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 149.9 on 13 degrees of freedom
Multiple R-squared: 0.891,
Adjusted R-squared: 0.8407
F-statistic: 17.71 on 6 and 13 DF, p-value: 1.448e-05
Ökonometrie (SS 2017)
Folie 343
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen XII
Die Berechnung der Varianzinflationsfaktoren offenbart“ erneut ein
”
Multikollinearitätsproblem:
> vif(lm(Lohnhöhe~Ausbildung+Alter+Weiblich+Stamm+
+
I(Weiblich*Ausbildung)+I(Weiblich*Alter)))
Ausbildung
Alter
1.930386
3.270178
Stamm I(Weiblich * Ausbildung)
2.062336
5.837059
Weiblich
9.985942
I(Weiblich * Alter)
18.249808
Die Hinzunahme von Interaktionstermen (und anderen in den Regressoren
nichtlinearen Variablen) lässt insgesamt eine sehr flexible Modellbildung zu.
Die Schätzungenauigkeiten (z.B. Standardfehler) werden aber (insbesondere –
wie im Beispiel – bei Schätzung auf Basis kleiner Datensätze) mit
zunehmender Variablenanzahl tendenziell immer größer!
Ökonometrie (SS 2017)
Folie 344
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Inhaltsverzeichnis
(Ausschnitt)
5
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
Ökonometrie (SS 2017)
Folie 345
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle I
Ein Spezialfall von Modellen mit Dummyvariablen – insbesondere auch in
Interaktionstermen – sind sogenannte Strukturbruchmodelle.
Als Strukturbruch wird eine (abrupte) Änderung der Parameterstruktur (im
Ganzen oder in Teilen) bezeichnet. Strukturbruchmodelle erlauben diese
Änderung der Parameterstruktur im Rahmen des formulierten Modells.
Die Änderung eines oder mehrerer Regressionsparameter kann dabei zum
Beispiel
I
I
beim Wechsel zwischen verschiedenen Gruppen des Datensatzes oder
insbesondere bei Zeitreihendaten beim Wechsel zwischen verschiedenen
Zeiträumen
auftreten.
Wird die mögliche Änderung der Parameter nicht in einem entsprechenden
Strukturbruchmodell zugelassen, sondern stattdessen von konstanten
Parametern ausgegangen, handelt es sich im Fall eines tatsächlich
vorliegenden Strukturbruchs um eine Annahmeverletzung, welche die
Schätzergebnisse (des dadurch fehlspezifizierten Modells) oft unbrauchbar
macht.
Ökonometrie (SS 2017)
Folie 346
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle II
Zur Formulierung eines einfachen Strukturbruchmodells mit zwei Phasen (1)
und (2) oder Gruppen (1) und (2) seien die Indizes {1, . . . , n} der n
Datenpunkte gemäß der beiden Phasen/Gruppen durch die Mengen
∅ 6= I(1) ( {1, . . . , n}
I(2) = {1, . . . , n}\I(1)
und
partitioniert.
Die möglichen Parameterunterschiede in den beiden Phasen/Gruppen können
offensichtlich durch eine getrennte Schätzung der beiden Regressionsmodelle
(1)
(1)
(1)
i ∈ I(1) ,
(2)
(2)
(2)
i ∈ I(2) ,
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
und
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
berücksichtigt werden.
(Die Rangbedingung an die Regressormatrix muss für beide Modelle erfüllt
bleiben, insbesondere folgen hieraus Mindestgrößen von I(1) und I(2) !)
Ökonometrie (SS 2017)
Folie 347
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle III
Mit einer die Gruppen-/Phasenzugehörigkeit beschreibenden Dummyvariablen
(
0 falls i ∈ I(1)
di :=
1 falls i ∈ I(2)
lassen sich die beiden Einzelschätzungen alternativ jedoch auch ein in einem
(größeren) Strukturbruchmodell der Gestalt
(1)
(1)
(1)
yi = β0 +δ0 di +β1 x1i +δ1 di x1i +. . .+βK xKi +δK di xKi +ui ,
i ∈ {1, . . . , n},
mit 2K + 2 Regressionsparametern subsummieren, wobei zwischen den
Parametern dann die Beziehung
(2)
(1)
δ k = βk − βk
bzw.
(2)
(1)
βk = βk + δk
für
k ∈ {0, . . . , K }
gilt.
Ökonometrie (SS 2017)
Folie 348
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle IV
Aus den Ergebnissen einer OLS-/KQ-Schätzung des Strukturbruchmodells
lassen sich dann mit t-Tests bzw. F -Tests Rückschlüsse auf das (tatsächliche)
Vorliegen von Parameterunterschieden ziehen.
Relevant sind hierbei insbesondere
I
I
t-Tests auf Signifikanz einzelner Parameter δk , k ∈ {0, . . . , K }, also
H1 : δk 6= 0, sowie
F -Tests auf Signifikanz von mindestens einem der Parameter δ0 , δ1 , . . . , δK ,
also H1 : δk 6= 0 für mind. ein k ∈ {0, . . . , K },
denn wegen der bereits skizzierten Parameterzusammenhänge gilt
δk = 0
⇐⇒
(1)
(2)
βk = βk
für alle k ∈ {0, . . . , K } .
Je nachdem, ob von homoskedastischen oder heteroskedastischen Störgrößen
ausgegangen werden soll, sind die entsprechenden Darstellungen der
jeweiligen Tests zu verwenden.
Ökonometrie (SS 2017)
Folie 349
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle V
Für die Durchführung des F -Tests auf Signifikanz von mindestens einem der
Parameter δ0 , δ1 , . . . , δK besteht bei Annahme homoskedastischer Störgrößen
die Möglichkeit, das ursprüngliche Modell
yi = β0 + β1 x1i + . . . + βK xKi + ui
ohne die Strukturbruchkomponente
I
I
einmal für den Gesamtdatensatz (i ∈ {1, . . . , n}) als restringiertes Modell
sowie zusätzlich
jeweils einmal für die Phasen/Gruppen (i ∈ I(1) bzw. i ∈ I(2) ) (als insgesamt
unrestringiertes Modell)
zu schätzen und die (Gesamt-)Summen der Residuenquadrate in der
entsprechenden Darstellung der F -Statistik aus Folie 236 einzusetzen.
(Beispiel:
Übungsblatt)
Zu beachten ist dabei, dass die übrigen Ergebnisse dieser Hilfsregressionen“
”
nur teilweise sinnvoll zu interpretieren sind!
Ökonometrie (SS 2017)
Folie 350
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle VI
Strukturbruchmodelle sind auch für komplexere Situationen konstruierbar,
insbesondere wenn mehr als zwei Gruppen/Phasen betrachtet werden sollen.
Dazu ist dann eine allgemeinere Partitionierung der Beobachtungen
{1, . . . , n} in M Teilmengen I(1) , . . . , I(M) mit den Eigenschaften
M
[
I(j) = {1, . . . , n}
und
I(j) ∩ I(l) = ∅ für j 6= l
j=1
durchzuführen.
Während wir Strukturbruchmodelle als Spezialfall von Modellen mit
Dummyvariablen betrachten, werden (in der Literatur) gelegentlich auch
Modelle mit Dummyvariablen als spezielle Strukturbruchmodelle aufgefasst.
Ökonometrie (SS 2017)
Folie 351
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell I
Für ein Modell, welches im Lohnhöhenbeispiel unterschiedliche Parameter für
männliche und weibliche Betriebsangehörige zulässt, erhält man:
Call:
lm(formula = Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich *
Ausbildung) + Alter + I(Weiblich * Alter))
Residuals:
Min
1Q
-184.63 -77.76
Median
-12.46
3Q
52.31
Max
308.12
Coefficients:
Estimate Std. Error t value
(Intercept)
930.154
136.338
6.822
Weiblich
142.514
211.674
0.673
Ausbildung
60.334
15.335
3.934
I(Weiblich * Ausbildung) -45.101
32.756 -1.377
Alter
16.196
3.637
4.453
I(Weiblich * Alter)
-7.669
6.209 -1.235
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
8.29e-06 ***
0.511736
0.001497 **
0.190171
0.000546 ***
0.237113
0.1 ' ' 1
Residual standard error: 148.4 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.53 on 5 and 14 DF, p-value: 4.056e-06
Ökonometrie (SS 2017)
0.8438
Folie 352
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell II
Eine Schätzung des Strukturbruchmodells unter Annahme heteroskedastischer
b liefert:
b hc1 (β))
Störgrößen (und Verwendung von V
t test of coefficients:
Estimate Std. Error t value
(Intercept)
930.1539
132.1236 7.0400
Weiblich
142.5142
146.5563 0.9724
Ausbildung
60.3345
16.1410 3.7380
I(Weiblich * Ausbildung) -45.1015
20.2299 -2.2294
Alter
16.1964
3.7428 4.3273
I(Weiblich * Alter)
-7.6693
4.1761 -1.8365
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
5.865e-06
0.3473445
0.0022052
0.0426748
0.0006959
0.0876084
***
**
*
***
.
0.1 ' ' 1
Zum Niveau α = 0.05 ist nun wenigstens der Koeffizient zur Interaktion von
Weiblich mit Ausbildung, zum Niveau α = 0.10 darüberhinaus der zur
Interaktion von Weiblich mit Alter signifikant von Null verschieden.
Ökonometrie (SS 2017)
Folie 353
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell III
Obwohl unter Annahme homoskedastischer Störgrößen kein einziger der
Strukturbruchparameter“ δk signifikant (α = 0.05) von Null verschieden ist,
”
erhält man zum F -Test für die (gemeinsame) Nullhypothese
H0 : δ0 = δ1 = δ2 = 0
das Ergebnis (Befehl linearHypothesis im R-Paket car):
Linear hypothesis test
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
17 957698
2
14 308438 3
649260 9.8233 0.0009567 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Folie 354
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell IV
Eine Durchführung des F -Tests unter Annahme heteroskedastischer
b liefert ein ähnliches Resultat:
b hc1 (β))
Störgrößen (bei Verwendung von V
Linear hypothesis test
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Note: Coefficient covariance matrix supplied.
Res.Df Df
F
Pr(>F)
1
17
2
14 3 11.485 0.0004565 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Folie 355
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell V
Dass die einzelnen t-Tests die jeweilige Nullhypothese nicht ablehnen können,
scheint zumindest teilweise durch ein Multikollinearitätsproblem im
Strukturbruchmodell begründet zu sein, für die Varianz-Inflations-Faktoren
erhält man:
Weiblich
9.761929
Alter
2.293787
Ausbildung I(Weiblich * Ausbildung)
1.902040
4.539092
I(Weiblich * Alter)
16.084175
Nicht uninteressant ist das Resultat des Breusch-Pagan-Tests (nach Koenker)
im Strukturbruchmodell, bei dem die Regressoren des Strukturbruchmodells
auch für die Hilfsregression verwendet werden:
studentized Breusch-Pagan test
data: fit
BP = 10.089, df = 5, p-value = 0.07275
Die Evidenz für heteroskedastische Störgrößen ist also im
Strukturbruchmodell erheblich schwächer als im urspünglichen Modell.
Ökonometrie (SS 2017)
Folie 356
6 Validität
Validität von Schlussfolgerungen einer Regressionsstudie
Aussagen und Schlussfolgerungen zu Kausalwirkungen, die auf Basis einer
Regressionsstudie gezogen werden, haben generell nicht den Status von
Beweisen, wie z.B. die Ableitung von Eigenschaften von Schätzfunktionen
(Konsistenz, Erwartungstreue, Effizienz, asymptotische Normalverteilung) aus
Modellannahmen.
Bei der Einschätzung der Validität einer Regressionsstudie unterscheidet man
zwischen interner und externer Validität.
Interne Validität bezieht sich dabei auf die Gültigkeit von Aussagen über die
Population, aus der die Stichprobe für die Regressionsstudie stammt.
Externe Validität bezieht sich hingegen auf die Gültigkeit von
verallgemeinernden Aussagen, die Ergebnisse auf andere Populationen und
Rahmenbedingungen übertragen.
Ökonometrie (SS 2017)
Folie 357
6 Validität
Interne Validität 6.1
Interne Validität
Damit die interne Validität gewährleistet ist, müssen insbesondere
I
I
I
die Ursache-Wirkung-Beziehungen korrekt spezifiziert sein,
die relevanten Koeffizienten unverzerrt und konsistent geschätzt werden und
bei Verwendung von Konfidenzintervallen und Hypothesentests auch die
Standardfehler bzw. die Varianz-Kovarianzmatrix der Koeffizientenschätzer
konsistent geschätzt werden.
Verschiedene Verletzungen von Modellannahmen können die interne Validität
gefährden bzw. machen zumindest besondere Maßnahmen erforderlich, um
die interne Validität zu erhalten.
Im Folgenden (zum Teil Wiederholung):
Exemplarische Auflistung einiger Konstellationen, unter denen notwendige
Annahmen für die Konsistenz und Unverzerrtheit der Koeffizientenschätzer βb
verletzt werden.
Ökonometrie (SS 2017)
Folie 358
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer I
1
Fehlende Variablen führen – wie bereits diskutiert – zur Verzerrung des
OLS-Schätzers, wenn sie nicht nur die abhängige Variable y beeinflussen,
sondern auch mit dem relevanten Regressor xk , ggf. auch mit mehreren
Regressoren, korreliert sind (
omitted variable bias“). Grund dafür ist die
Verletzung der Annahme E(u) =” 0. Daher sollte schon vor der
Regressionsanalyse überlegt werden:
I
I
I
I
Welche mit xk korrelierten Einflüsse sind unberücksichtigt?
Gibt es eventuell Daten der fehlenden Variablen?
Gibt es wenigstens Kontrollvariablen“, deren Aufnahme in das Modell den
”
omitted variable bias reduziert?
Muss eventuell auf eine andere Datenerhebung (Paneldaten, Randomisierung)
oder ein anderes Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden?
Ökonometrie (SS 2017)
Folie 359
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer II
Bei der Aufnahme zusätzlicher Variablen ist zu beachten, dass
I
I
2
die Aufnahme zusätzlicher Variablen auch einen Preis hat, nämlich die
Erhöhung der Varianzen der OLS-Schätzer. Es ist also abzuwägen, ob die
Reduktion von Verzerrung die Verringerung der Präzision aufwiegt.
in der Präsentation der Ergebnisse einer Regressionsstudie nicht nur die
Ergebnisse der letztlich favorisierten Spezifikation mit zusätzlichen Variablen
angegeben werden sollten, sondern auch die der alternativen Regressionen.
Fehlspezifikation der funktionalen Form der Regressionsfunktion führt
dazu, dass der (möglicherweise vom xk -Niveau abhängige) marginale Effekt
von xk auf y auch bei großer Stichprobe verzerrt geschätzt wird.
( korrekte Spezifikation eventuell durch einen nichtlinearen Ansatz)
Ökonometrie (SS 2017)
Folie 360
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer III
3
Messfehler in den erklärenden Variablen führen dazu, dass die
OLS-Schätzung nicht konsistent ist.
Im klassischen Fehler-in-den-Variablen-Modell wird angenommen, dass
anstelle des tatsächlichen Regressors xki die Variable x̃ki = xki + εi verwendet
wird, wobei angenommen wird, dass die Messfehler εi unabhängig identisch
verteilt sind mit Erwartungswert Null und Varianz σε2 , unkorreliert mit xki und
mit der Störgröße ui . In diesem Fall
I
wird der zugehörige Koeffizient βk systematisch betragsmäßig unterschätzt,
I
kann die Verzerrung ohne Probleme korrigiert werden, wenn das Verhältnis σ2k
ε
bekannt ist,
muss ansonsten auf andere Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden.
I
Ökonometrie (SS 2017)
σx2
Folie 361
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer IV
4
Wenn die Stichprobenauswahl von den y −Werten abhängig ist, z.B.
wenn – beabsichtigt oder unbeabsichtigt – Beobachtungen ausgeschlossen
werden, bei denen yi unterhalb eines Schwellenwerts liegt, ist der
OLS-Schätzer verzerrt und inkonsistent (
sample selection bias“).
”
Schätzverfahren, die in dieser Situation konsistent sind, bauen auf
Maximum-Likelihood-Verfahren in Modellen mit binären abhängigen
Variablen auf.
5
Simultane Kausalität von xk nach y und von y nach xk führt dazu, dass
der Regressor xk (der dann auch nicht mehr als deterministische Größe
betrachtet werden kann, sondern als Zufallsvariable aufgefasst werden muss!)
mit der Störgröße korreliert und der OLS-Schätzer verzerrt und inkonsistent
ist (
simultaneous equation bias“).
”
Ökonometrie (SS 2017)
Folie 362
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer V
Die Situation simultaner Kausalität kann formalisiert erfasst werden, indem
zur Regressionsbeziehung für den Einfluss von xk auf y eine weitere Gleichung
für eine umgekehrte Regressionsbeziehung formuliert wird, also ein
interdependentes System simultaner Regressionsgleichungen, z.B.
yi
x1i
= β0 + β1 x1i + β2 x2i + ui und
= γ0 + γ1 yi + γ3 x3i + vi .
Die konsistente Schätzung in simultanen Gleichungssystemen spielte eine
dominierende Rolle in der Entwicklung der Ökonometrie, vor allem im
Kontext makroökonomischer Modelle.
Ein Lösungsansatz ist die Instrumentalvariablenschätzung.
Ökonometrie (SS 2017)
Folie 363
6 Validität
Interne Validität 6.1
Konsistenz der Standardfehler der OLS-Schätzung
Wenn die Standardfehler nicht mit einem konsistenten Schätzverfahren
berechnet wurden, sind darauf beruhende Konfidenzintervalle und Tests nicht
mehr valide.
Die Konsistenz der geschätzten Standardfehler hängt davon ab, welche
Annahmen bezüglich der Varianzen und Kovarianzen der Störgrößen adäquat
sind.
Wie bereits hervorgehoben wurde, wird man oft von Heteroskedastizität
ausgehen müssen, in diesem Fall sind nur die entsprechenden robusten
Standardfehler konsistent.
Darüberhinaus wurden Schätzer der Varianzen der OLS-Schätzer entwickelt,
die auch bei korrelierten Störgrößen konsistent sind.
Korrelation in den Störgrößen tritt insbesondere dann häufig auf, wenn es
sich bei den untersuchten Daten um Zeitreihendaten handelt.
Ökonometrie (SS 2017)
Folie 364
Herunterladen