¨Okonometrie Organisatorisches I Organisatorisches II

1 Einleitung
Organisatorisches 1.1
Organisatorisches I
Ökonometrie
Vorlesung an der Universität des Saarlandes
Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.04
Übung: Dienstag, 10-12, Gebäude B4 1, HS 0.06, Beginn: 25.04.
Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum)
Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 29.05. (15 Uhr)!
(Abmeldung im ViPa bis 13.07., 12 Uhr)
Hilfsmittel für Klausur
PD Dr. Stefan Klößner
Sommersemester 2017
I
I
I
Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit
”
2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig)
Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung!
Durchgefallen — was dann?
I
Ökonometrie (SS 2017)
Folie 1
1 Einleitung
Organisatorisches 1.1
Organisatorisches II
Organisatorisches 1.1
I
bzw. genauer
I
I
http://www.oekonometrie.uni-saarland.de/Oeko.html
I
Kontakt: PD Dr. Stefan Klößner
Geb. C3 1, 2. OG, Zi. 2.19
e-Mail: [email protected]
I
Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)
Vorlesungsunterlagen
Übungsblätter (i.d.R. wöchentlich)
Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich
Besprechung der Übungsblätter in der Übung der folgenden Woche.
Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!
Kontakt: M.Sc. Sandra Baar
Geb. C3 1, 2. OG, Zi. 2.20
e-Mail: [email protected]
Die folgenden Folien (S. 5–128) ermöglichen bei Bedarf die Wiederholung der
wichtigsten Grundlagen aus den Veranstaltungen Deskriptive Statistik und
”
Wahrscheinlichkeitsrechung“ und Schließende Statistik“.
”
Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters)
Download spätestens dienstags, 19:00 Uhr, vor der Vorlesung möglich
Ökonometrie (SS 2017)
1 Einleitung
Folie 2
Übungsunterlagen
http://www.oekonometrie.uni-saarland.de/
I
Ökonometrie (SS 2017)
Organisatorisches III
Informationen und Materialien unter
I
Nachprüfung“ Ende März/Anfang April 2018 (2. Prüfungszeitraum)
”
Folie 3
Ökonometrie (SS 2017)
Folie 4
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Lage- und Streuungsmaße eindimensionaler Daten
(Ausschnitt)
Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten)
x1 , . . . , xn der Länge n.
2
Daten sollen auf wenige Kennzahlen“ verdichtet werden.
”
Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also
”
arithmetisches Mittel“ x mit:
”
n
1
1X
x := (x1 + x2 + · · · + xn ) =
xi
n
n
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
i=1
Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen
Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie
deren (positive) Wurzel (empirische Standardabweichung) sX mit:
!
n
n
X
p
1X
2 ! 1
2
2
sX = + sX2
sX :=
(xi − x) =
xi − x 2 =: x 2 − x 2 ,
n
n
i=1
i=1
Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,
daher i.d.R. besser zu interpretieren als Varianz sX2 .
Ökonometrie (SS 2017)
Folie 5
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten I
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zu einem zweidimensionalen Merkmal (X , Y ) vorliegt.
Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von
Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind!
Deskriptive Statistik 2.1
Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man
darauf aufbauend den empirischen (Bravais-)Pearsonschen
Korrelationskoeffizienten rX ,Y mit:
sX ,Y
rX ,Y :=
sX · sY
Es gilt stets −1 ≤ rX ,Y ≤ 1.
rX ,Y misst lineare Zusammenhänge, spezieller gilt
I
Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der
eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst
die empirische Kovarianz sX ,Y mit:
!
n
n
X
1X
! 1
sX ,Y :=
(xi − x)(yi − y ) =
xi · yi − x · y =: xy − x · y
n
n
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 6
Abhängigkeitsmaße zweidimensionaler Daten II
Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten
Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der
Länge n (also n Datenpaare)
i=1
Ökonometrie (SS 2017)
I
I
rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“),
”
”
rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“),
”
”
|rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.
rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene
Merkmalsausprägungen besitzen.
i=1
Folie 7
Ökonometrie (SS 2017)
Folie 8
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Beispiel: Empirischer Pearsonscher Korrelationskoeffizient
rX, Y = 0
20
●
●
●
●
●
80
●
●
●
●
●
●
6
●
●
●
40
●
●
Y
●
●
●
●
●
4
●
●
●
●
Y
●
10
●
60
●
●
●
●
●
●
●
0
5
10
15
20
5
●
10
15
20
5
10
15
rX, Y = 0.1103
rX, Y = −0.837
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4.0
●
●
● ●
●
●
●
●
8
●
●
●
4
●
●
Y
10
●
●
●
●
Y
5.0
15
●
●
●
●
●
●
●
2
●
3.0
●
●
5
10
X
15
20
●
5
10
15
X
20
●
●
●
5
10
15
●
20
X
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 9
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen I
Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten
bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet
werden.
Wir fassen eine Zufallsvariable auf als eine Variable“,
”
I
I
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 10
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen II
(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)
Abbildungen X : Ω → R von Ergebnismengen Ω eines
Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen.
I
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
●
●
●
20
●
●
●
10
6.0
20
●
●
●
●
12
rX, Y = 0.9652
●
Y
●
X
●
2
●
●
X
●
5
● ● ●
X
●
0
●
●
●
●
●
●
●
2
●
●
6
5
●
20
●
●
●
Inhaltsverzeichnis
●
●
8
15
●
●
●
●
Y
●
●
●
●
Wahrscheinlichkeitsrechnung 2.2
(Ausschnitt)
rX, Y = −1
10
100
rX, Y = 1
2 Wiederholung statistischer Grundlagen
die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,
deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem
”
zufälligen, meist wiederholbarem Vorgang abhängen,
über deren Werteverteilung“ man allerdings Kenntnisse hat
”
( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte
( Schließende Statistik).
Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in
mehrere Typen
Diskrete Zufallsvariablen X :
I
I
Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte
annehmen.
Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert
werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.
Stetige Zufallsvariablen X :
I
I
I
Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen)
annehmen.
Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit
deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann,
dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.
Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!
Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.
Ökonometrie (SS 2017)
Folie 11
Ökonometrie (SS 2017)
Folie 12
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen III
bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche
Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch
X
P{X ∈ A} =
pX (xi )
xi ∈A
I
bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b]
oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX
durch
Z b
P{X ∈ A} =
fX (x)dx
Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)
entsprechen Momente von Zufallsvariablen.
Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung
auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht
existieren, Existenzfragen hier aber vollkommen ausgeklammert!)
Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X :
Erwartungswert bzw. auch Mittelwert µX := E(X )
I
a
berechnet werden.
Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle
Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R
festgelegt.
Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt
Verteilungsfunktion von X .
Ökonometrie (SS 2017)
Wahrscheinlichkeitsrechnung 2.2
Folie 14
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Für eine Zufallsvariable X und reelle Zahlen a, b gilt:
I
I
E(aX + b) = a E(X ) + b
Var(aX + b) = a2 Var(X )
Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine
”
(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)
Abbildungen G : R → R und H : R → R:
E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))
Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch:
X 2
E(X 2 ) =
xi · pX (xi )
Ist X eine Zufallsvariable mit
p Erwartungswert µX = E(X ) und
Standardabweichung σX = Var(X ), so erhält man mit
xi ∈T (X )
Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch:
Z ∞
E(X 2 ) =
x 2 · fX (x)dx
X − E(X )
X − µX
Z := p
=
σX
Var(X )
−∞
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Momente eindimensionaler Zufallsvariablen III
Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen
p X:
Varianz σX2 := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ),
die sog. Standardabweichung von X , mit
h
i
!
2
Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2
I
(wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet).
Berechnung bei stetiger Zufallsvariablen X durch:
Z ∞
E(X ) =
x · fX (x)dx
−∞
Momente eindimensionaler Zufallsvariablen II
I
Berechnung bei diskreter Zufallsvariablen X durch:
X
xi · pX (xi )
E(X ) =
xi ∈T (X )
I
Folie 13
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen I
Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X
Werte in einer bestimmten Menge A annimmt, können konkreter
I
2 Wiederholung statistischer Grundlagen
eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.
Man nennt Z dann eine standardisierte Zufallsvariable.
Folie 15
Ökonometrie (SS 2017)
Folie 16
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen IV
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Spezielle parametrische Verteilungsfamilien
Weiteres Lagemaß für Zufallsvariablen: p-Quantile
Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:
P{X ≤ xp } ≥ p
und
P{X ≥ xp } ≥ 1 − p
Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit
streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber
eindeutig durch Lösung der Gleichung
FX (xp ) = p
bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX
(auch Quantilsfunktion genannt) direkt durch
Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen.
Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige
(reelle) Parameter (bzw. einen ein- oder mehrdimensionalen
Parametervektor) eineindeutig festgelegt, also
I
I
legt der Parameter(vektor) die Verteilung vollständig fest und
gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche
Verteilungen ( Identifizierbarkeit“).
”
Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum.
Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger
Verteilungsfamilien.
xp = FX−1 (p)
bestimmen.
I
I
Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 .
”
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
ab; p ist also einziger Parameter der Verteilungsfamilie.
Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)
Der Träger der Verteilung ist dann T (X ) = {0, 1}, die
Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p.
Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p)
Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).
Folie 19
Verteilungsfunktion:

 0
1−p
FX (x) =

1
Momente: E (X )
γ(X )
Ökonometrie (SS 2017)
für x < 0
für 0 ≤ x < 1
für x ≥ 1
0.8
0.6
p = 0.4
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
1.5
2.0
x
FX
●
p = 0.4
●
−1.0
−0.5
0.0
0.5
1.0
x
= p
=
pX
0.4
Träger: T (X ) = {0, 1}
Wahrscheinlichkeitsfunktion:

 1 − p für x = 0
p
für x = 1
pX (x) =

0
sonst
Parameter:
p ∈ (0, 1)
pX(x)
Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten
bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.
Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten
”
(bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,
es sei also
1 falls ω ∈ A
X (ω) :=
0 falls ω ∈ A
Ökonometrie (SS 2017)
Wahrscheinlichkeitsrechnung 2.2
0.2
Verwendung:
I
2 Wiederholung statistischer Grundlagen
Bernoulli-/Alternativverteilung
B(1, p)
Bernoulli-/Alternativverteilung
I
Folie 18
0.0
Wahrscheinlichkeitsrechnung 2.2
Ökonometrie (SS 2017)
FX(x)
2 Wiederholung statistischer Grundlagen
Folie 17
0.0 0.2 0.4 0.6 0.8 1.0
Ökonometrie (SS 2017)
√1−2p
p(1−p)
Var(X )
κ(X )
= p · (1 − p)
=
1−3p(1−p)
p(1−p)
Folie 20
I
I
I
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
sowie der Anzahl der Durchführungen n des Experiments ab.
Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und
p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}.
Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p)
Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 21
Wahrscheinlichkeitsrechnung 2.2
Träger: T (X ) = {0, 1, . . . , n}
Wahrscheinlichkeitsfunktion: pX (x)
  n x
p (1 − p)n−x für x ∈ T (X )
=
x

0
sonst
pX(x)
Modellierung der unabhängigen, wiederholten Durchführung eines
Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw.
Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“).
”
Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert,
”
Nichteintreten (bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl
von n Wiederholungen des Experiments zählen.
Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für Durchführung
i) den Wert 1
P
an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi .
Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3.
n = 5, p = 1/3.
Parameter:
n ∈ N, p ∈ (0, 1)
0
1
2
3
4
5
●
●
4
5
6
x
FX
Verteilungsfunktion:
FX (x) =
X
pX (xi )
xi ∈T (X )
xi ≤x
n = 5, p = 0.4
●
●
●
●
−1
0
1
2
3
6
x
Momente: E (X )
γ(X )
= n·p
=
Var(X )
√ 1−2p
np(1−p)
κ(X )
= n · p · (1 − p)
1+(3n−6)p(1−p)
np(1−p)
=
Ökonometrie (SS 2017)
Folie 22
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Unif(a, b)
Stetige Gleichverteilung
pX
n = 5, p = 0.4
−1
FX(x)
Verallgemeinerung der Bernoulli-Verteilung
Verwendung:
I
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
B(n, p)
Binomialverteilung
I
2 Wiederholung statistischer Grundlagen
0.0 0.1 0.2 0.3 0.4 0.5
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Parameter:
a, b ∈ R mit a < b
fX
Modellierung einer stetigen Verteilung, in der alle Realisationen in einem
Intervall [a, b] als gleichwahrscheinlich“ angenommen werden.
”
Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab.
0.4
fX(x)
0.2
0
1
2
3
4
3
4
x
Träger der Verteilung: T (X ) = [a, b]
Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)
Momente: E (X ) =
γ(X ) =
Folie 23
Ökonometrie (SS 2017)
a+b
2
0
Var(X )
κ(X )
FX(x)
Verteilungsfunktion: FX : R → R;

für x < a

 0
x−a
für a ≤ x ≤ b
FX (x) =
b−a


1
für x > b
0.0 0.2 0.4 0.6 0.8 1.0
FX
Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall
1
[a, b] konstant zu b−a
gewählt werden.
Ökonometrie (SS 2017)
0.0
Einfachste stetige Verteilungsfamilie:
Stetige Gleichverteilung auf Intervall [a, b]
a = 1, b = 3
0.6
Träger: T (X ) = [a, b]
Dichtefunktion: fX : R → R;
( 1
für a ≤ x ≤ b
b−a
fX (x) =
0
sonst
a = 1, b = 3
0
1
2
x
=
=
(b−a)2
12
9
5
Folie 24
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
N(µ, σ 2 )
Ökonometrie (SS 2017)
Folie 25
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Arbeiten mit Normalverteilungen
(x−µ)2
1
1
fX (x) = √
e − 2σ2 = ϕ
σ
2πσ
x −µ
σ
fX
µ = 5, σ2 = 4
0
5
10
x
FX
Verteilungsfunktion:
FX : R → R; FX (x) = Φ
x −µ
σ
µ = 5, σ2 = 4
0
5
10
x
Momente: E (X ) = µ
γ(X ) = 0
Var(X )
κ(X )
= σ2
= 3
Ökonometrie (SS 2017)
Folie 26
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Ausschnitt aus Tabelle für Φ(x)
2
Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ ):
Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw.
nicht leicht auszuwerten!
Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte
Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten
Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R
(http://www.r-project.org)
Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur
Verfügung gestellte) Tabellen.
Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur
ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch
Φ(x) = 1 − Φ(−x)
Träger: T (X ) = R
Dichtefunktion: fX : R → R;
fX(x)
Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler
(unabhängiger) Zufallsvariablen (später mehr!)
Einsatz für Näherungen
Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit
Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit
Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 .
Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,
Berechnung muss i.d.R. mit Software/Tabellen erfolgen.
Wichtige Eigenschaft der Normalverteilungsfamilie:
Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist
aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 .
Zurückführung allgemeiner Normalverteilungen auf den Fall der
Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und
σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar.
Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.
Träger aller Normalverteilungen ist T (X ) = R.
Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 )
Parameter:
µ ∈ R, σ 2 > 0
0.00 0.05 0.10 0.15 0.20
Normalverteilung
für alle x ∈ R .
Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
FX(x)
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Folie 27
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
Ökonometrie (SS 2017)
Folie 28
Beispiel: Arbeiten mit Normalverteilungstabelle
Wahrscheinlichkeitsrechnung 2.2
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der
schraffierten Fläche zu einem Flächeninhalt von 0.025?)
fN(100, 82)(x)
µ = 100, σ2 = 82
2.5%
0.00
0.02
0.04
µ = 100, σ2 = 82
70
0.00
fN(100, 82)(x)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?)
2 Wiederholung statistischer Grundlagen
0.04
Wahrscheinlichkeitsrechnung 2.2
0.02
2 Wiederholung statistischer Grundlagen
70
80
90
100
110
120
P{X < 90}
90 − 100
= FN(100,82 ) (90) = Φ
8
= Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
90
100
110
<− | −>
?
120
130
Antwort: Ist X ∼ N(100, 82 ), so ist das 97.5%- bzw. 0.975-Quantil von X
gesucht. Mit
x − 100
FX (x) = FN(100,82 ) (x) = Φ
8
und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man
x − 100 !
x − 100
Φ
= 0.975 ⇔
= Φ−1 (0.975) = N0.975 = 1.96
8
8
⇒ x = 8 · 1.96 + 100 = 115.68
130
x
Antwort: Ist X ∼ N(100, 82 ), so gilt:
80
Folie 29
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Statistik-Software R
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 30
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren I
Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:
Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur
Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später
erforderlich!)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an?
Antwort:
> pnorm(90,mean=100,sd=8)
[1] 0.1056498
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit?
Antwort:
> qnorm(0.975,mean=100,sd=8)
Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n
Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor
X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen
Verteilung von X .
Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht
übertragbar, nur technisch etwas anspruchsvoller.
Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren
[1] 115.6797
Ökonometrie (SS 2017)
Folie 31
Ökonometrie (SS 2017)
Folie 32
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren II
xi ∈A∩T (X)
Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch
Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert
werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über
Mehrfachintegrale) ausrechnen lassen:
Z
b1
···
a1
Z
bn
an
für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn
2 Wiederholung statistischer Grundlagen
Folie 33
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I
Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig,
wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als
Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen
n
Y
i=1
bzw.
fX (x) =
pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn )
n
Y
i=1
fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn )
für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann.
(Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!)
”
”
Ökonometrie (SS 2017)
Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines
n-dimensionalen Zufallsvektors nennt man auch Randverteilungen.
Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen
pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.
Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann
auch Randdichte(funktione)n.
Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch
(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen
Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien
Wahrscheinlichkeitsrechnung).
fX (t1 , . . . , tn )dtn · · · dt1
Ökonometrie (SS 2017)
pX (x) =
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren III
Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine
(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R
mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden.
Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A
annimmt, können dann wiederum durch Aufsummieren der
Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet
werden:
X
P{X ∈ A} =
pX (xi )
PX (A) =
2 Wiederholung statistischer Grundlagen
Folie 35
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 34
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II
Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und
(paarweise) linearer Abhängigkeiten interessant!
Bedingte Verteilungen:
Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn
man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits
kennt?
Lineare Abhängigkeiten:
Treten besonders große Realisation einer Zufallsvariablen häufig im
Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen
einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang
für besonders kleine Realisationen der ersten Zufallsvariablen);
lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben?
Ökonometrie (SS 2017)
Folie 36
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III
Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei
Zufallsvariablen (aus einem Zufallsvektor).
Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz
!
σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y )
(Zur Berechnung von E(X · Y ) siehe Folien WR!)
Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor,
a, b ∈ R):
1
2
3
4
5
6
Cov(aX , bY ) = ab Cov(X , Y )
Cov(X + a, Y + b) = Cov(X , Y )
(Translationsinvarianz)
Cov(X , Y ) = Cov(Y , X )
(Symmetrie)
Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y )
Cov(X , X ) = Var(X )
X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V
Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit
σX > 0, σY > 0 und a, b ∈ R, so gilt:
1
2
3
4
5
6
7
Korr(aX , bY ) =
Korr(X , Y )
Nachteil“ der Kovarianz:
”
Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit,
sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der
Streuung von X bzw. Y ab.
Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem
Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist.
”
Hierzu Standardisierung der Kovarianz über Division durch
Standardabweichungen von X und Y (falls σX > 0 und σY > 0!).
Cov(X , Y )
σXY
= p
σX · σY
+ Var(X ) · Var(Y )
Ökonometrie (SS 2017)
Folie 38
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung I
Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale
(multivariate) Normalverteilung
falls a · b > 0
Spezifikation am Beispiel der zweidimensionalen (bivariaten)
Normalverteilung durch Angabe einer Dichtefunktion
− Korr(X , Y ) falls a · b < 0
Korr(X + a, Y + b) = Korr(X , Y )
(Translationsinvarianz)
Korr(X , Y ) = Korr(Y , X )
(Symmetrie)
−1 ≤ Korr(X , Y ) ≤ 1
Korr(X , X ) = 1
Korr(X , Y ) =
1
a>0
genau dann, wenn Y = aX + b mit
Korr(X , Y ) = −1
a<0
X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0
fX ,Y (x, y ) =
1√
e
2πσX σY 1−ρ2
−
1
2(1−ρ2 )
x−µX
σX
2
−2ρ
x−µX
σX
y −µY
σY
2 y −µ
+ σ Y
Y
abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).
Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder
(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 )
Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert.
Ökonometrie (SS 2017)
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV
ρXY := Korr(X , Y ) :=
Folie 37
(
Wahrscheinlichkeitsrechnung 2.2
Man erhält so den Pearsonschen Korrelationskoeffizienten:
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden.
Folie 39
Ökonometrie (SS 2017)
Folie 40
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung II
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung III
Dichtefunktion der mehrdimensionalen Normalverteilung
Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur
N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0
0.06
für alle x, y ∈ R ,
fX ,Y (x, y ) = fX (x) · fY (y )
0.04
f(x,y)
also sind X und Y (genau) für ρ = 0 stochastisch unabhängig.
Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x
wieder Normalverteilungen, es gilt genauer:
ρσX
X |Y = y ∼ N µX +
(y − µY ), σX2 (1 − ρ2 )
σY
0.02
0.00
6
4
6
y
bzw.
Y |X = x
∼
4
2
ρσY
2
2
(x − µX ), σY (1 − ρ )
N µY +
σX
2
0
0
x
−2
−4
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
Folie 41
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung IV
Ökonometrie (SS 2017)
Folie 42
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung V
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Dichtefunktion der mehrdimensionalen Normalverteilung
0.15
6
0.005
0.01
f(x,y)
0.02
0.10
0.03
4
0.04
0.05
0.05
y
0.06
2
0.055
3
0.045
2
0.035
1
0.025
0.015
3
0
0
y
2
1
−1
0
−1
−2
x
−2
−4
−2
0
2
4
−3 −3
6
x
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Folie 43
Ökonometrie (SS 2017)
Folie 44
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VI
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VII
Dichtefunktion der mehrdimensionalen Normalverteilung
3
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
2
0.02
0.10
0.06
1
0.08
0.1
f(x,y)
0.05
y
0
0.14
0.00
16
14
−1
0.12
12
0.04
16
14
y
−2
10
12
8
8
−3
6
10
x
6
4
−3
−2
−1
0
µX = 0, µY = 0,
1
2
3
x
= 1, σ2Y = 1, ρ = 0
σ2X
4
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2017)
Folie 45
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VIII
Ökonometrie (SS 2017)
Folie 46
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen I
16
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,
so gilt:
E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c
14
0.01
0.02
0.03
12
0.05
0.07
0.09
und
y
10
0.11
0.12
Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y )
0.1
8
0.08
0.06
Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors
weiter verallgemeinert werden!
4
6
0.04
4
6
8
µX = 10, µY = 10,
Ökonometrie (SS 2017)
10
σ2X
12
14
16
x
= 4, σ2Y = 4, ρ = −0.95
Folie 47
Ökonometrie (SS 2017)
Folie 48
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen II
Momente von Summen von Zufallsvariablen III
Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der
n-dimensionale Vektor
E(X) := [E(X1 ), . . . , E(Xn )]0
In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe
Erwartungswertvektor von X und die n × n-Matrix
0
V(X) := E (X − E(X)) · (X − E(X))


E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))]


..
..
..
:= 

.
.
.
E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))]


Var(X1 )
Cov(X1 , X2 )
· · · Cov(X1 , Xn−1 )
Cov(X1 , Xn )
 Cov(X2 , X1 )
Var(X2 )
· · · Cov(X2 , Xn−1 )
Cov(X2 , Xn ) 




.
.
.
..
.
..
..
..
..
= 

.


 Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · ·
Var(Xn−1 )
Cov(Xn−1 , Xn ) 
Cov(Xn , X1 )
Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 )
Var(Xn )
n
X
i=1
n
X
den Erwartungswert E
i=1
die Varianz
Var
(w = (w1 , . . . , wn )0 ∈ Rn )
wi · Xi = w1 · X1 + · · · + wn · Xn
n
X
i=1
wi · Xi
!
=
wi · Xi
n X
n
X
i=1 j=1
=
n
X
i=1
0
!
=
n
X
i=1
wi · E(Xi ) = w0 E(X)
wi · wj · Cov(Xi , Xj )
wi2 · Var(Xi ) + 2
= w V(X)w
n−1 X
n
X
i=1 j=i+1
wi · wj · Cov(Xi , Xj )
(Varianz-)Kovarianzmatrix von X.
Ökonometrie (SS 2017)
Folie 49
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen I
Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen
Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch
verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt
”
”n
für die Summe Yn := i=1 Xi also
E(Yn ) = n · µX
Var(Yn ) = n · σX2
sowie
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
1
n
Pn
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen II
Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man
näherungsweise (auch falls Xi nicht normalverteilt ist) für
hinreichend großes n ∈ N
I
die N(nµX , nσX2 )-Verteilung für Yn :=
n
X
Xi oder
i=1
und man erhält durch
Yn − nµX
√
Zn :=
=
σX n
Folie 50
Xi − µX √
n
σX
I
i=1
Yn − nµX
√
=
die Standardnormalverteilung für Zn :=
σX n
verwendet.
1
n
Pn
Xi − µX √
n
σX
i=1
Leicht zu merken:
standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1).
Man verwendet näherungsweise die Normalverteilung mit
passendem“ Erwartungswert und passender“ Varianz!
”
”
Zentraler Grenzwertsatz:
Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung
(Standardnormalverteilung).
iid
Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N.
Ökonometrie (SS 2017)
Folie 51
Ökonometrie (SS 2017)
Folie 52
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
(Ausschnitt)
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
2
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2017)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
führt
Rückschluss auf
Verteilung/Kenngrößen
Ökonometrie (SS 2017)
Schließende Statistik 2.3
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Zufallsvariablen
X1, …, Xn
(konkrete)
2 Wiederholung statistischer Grundlagen
Folie 54
Bemerkungen zu den 3 Grundannahmen
Stichprobe
Auswahl der
Ökonometrie (SS 2017)
Ziehung/
Stichprobe
zu
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Realisationen
x1, …, xn
Folie 55
Ökonometrie (SS 2017)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
I
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Schließende Statistik 2.3
Stichprobenfunktionen
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
2 Wiederholung statistischer Grundlagen
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
n
1X
xi
n
x :=
i=1
Ökonometrie (SS 2017)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
i=1
Ökonometrie (SS 2017)
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
0.14
pX(xi)
0.04
0.06
0.08
0.10
5
6
0.00
0.02
4
1
2
3
4
5
6
1
2
3
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
pX(xi)
0.02
0.04
1.75
2.75
3.75
4.75
5.75
0.00
0.02
Ökonometrie (SS 2017)
0.04
0.06
pX(xi)
0.06
0.08
0.08
0.10
xi
xi
Folie 59
0.10
pX(xi)
0.05
0.00
3
0.10
1
Ökonometrie (SS 2017)
n=3
0.12
0.15
0.20
0.15
pX(xi)
0.10
0.00
2
0.12
1
0.00
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
0.08
2
1
5
5
2
3
5
3
4
..
.
0.06
6
4
3
3
1
6
2
5
4
..
.
pX(xi)
4
4
5
6
4
3
3
1
5
..
.
0.04
3
6
2
5
2
1
4
5
4
..
.
0.02
2
6
2
3
6
3
3
5
5
..
.
n=2
0.00
1
2
3
4
5
6
7
8
9
..
.
n=1
0.05
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
Stichprobe Nr. x1 x2 x3 x4 x5
x
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisationen von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Folie 61
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2017)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
b = E (θb − θ)2 = Var(θb − θ) +[ E(θb − θ) ]2
MSE(θ)
| {z } | {z }
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
b
=Var(θ)
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
denkbaren Werte von θ), so nennt man θb erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b
b
MSE(θ) := E θ − θ
Bei Schätzung von E(Y ) mit X gilt:
E(X )=E(Y )
σ2
MSE(X ) = E (X − E(Y ))2
=
Var(X ) = σX2 = Y
n
soll möglichst klein sein.
Ökonometrie (SS 2017)
b
=:Bias(θ)
Folie 63
Ökonometrie (SS 2017)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2017)
Folie 65
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
S 2 :=
1
n−1
bzw.
s 2 :=
i=1
1
n−1
n
X
Ökonometrie (SS 2017)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
i=1
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
(xi − x)2
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2017)
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
n
X
(Xi − X )2
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Intervallschätzung von µY := E(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen MSE(X ) =
2 Wiederholung statistischer Grundlagen
Folie 67
Ökonometrie (SS 2017)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
falls Y ∼ Unif(20, 50)
0.4
N(0,1)
n=4
f(x)
0.0
0.1
0.2
0.3
0.4
0.3
f(x)
0.0
−4
−2
0
2
4
−4
−2
x
N(0,1)
n=12
f(x)
0.0
−2
0
2
4
−4
−2
x
−2
2
4
Ökonometrie (SS 2017)
2
4
0.1
2
4
−4
N(0,1)
n=30
−2
0
2
4
2
4
N(0,1)
n=250
0.3
f(x)
0.0
−4
x
−2
0
x
Folie 71
0
0.1
f(x)
0.0
−4
−2
x
0.1
0.2
f(x)
x
0
0.3
0.4
N(0,1)
n=250
0.1
0
−2
x
0.0
−2
0.0
−4
0.3
0.4
0.3
0.2
0.0
0.1
f(x)
0
x
N(0,1)
n=30
−4
f(x)
0.3
f(x)
0.0
−4
N(0,1)
n=10
0.4
4
falls Y ∼ B(1, 0.5)
0.2
2
x
0.4
0
N(0,1)
n=3
0.2
−2
X −µ √
n,
σ
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=10
0.0
−4
Schließende Statistik 2.3
Beispiel: Näherung für
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ Exp(2)
2 Wiederholung statistischer Grundlagen
0.4
X −µ √
n,
σ
Folie 70
0.2
Beispiel: Näherung für
4
Ökonometrie (SS 2017)
0.4
Schließende Statistik 2.3
2
x
0.3
2 Wiederholung statistischer Grundlagen
0
0.2
Folie 69
4
0.1
f(x)
0.2
0.0
−4
Ökonometrie (SS 2017)
2
0.3
0.4
N(0,1)
n=7
0.1
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
0
x
0.3
X − µ√ •
n ∼ N(0, 1)
σ
bzw.
0.1
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
2
2
•
Verteilungseigenschaft X ∼ N µ, σn bzw. X ∼ N µ, σn wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
N(0,1)
n=2
0.2
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
X −µ √
n,
σ
0.4
Schließende Statistik 2.3
0.2
2 Wiederholung statistischer Grundlagen
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
f(x)
0.2
0.3
0.4
N(0,1)
n=10
−2
0
2
4
−4
−2
x
0
2
4
x
I
I
−4
α
2
an (vgl. Übungsaufgabe).
−2
0
2
4
−4
x
−2
0
2
4
x
Ökonometrie (SS 2017)
Folie 73
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σ2
Unter Verwendung der Symmetrieeigenschaft
bzw. hier
Folie 74
von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
berechnen (vgl. auch Folien 26 und 30).
Nα = −N1−α
Ökonometrie (SS 2017)
Schwankungsintervalle für X III
Für N(µ,
σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
0.0
−4
I
Schließende Statistik 2.3
Schwankungsintervalle für X I
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.05)
2 Wiederholung statistischer Grundlagen
Folie 75
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
von X .
Ökonometrie (SS 2017)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
I
102
25
Im Beispiel: X ∼ N 50,
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
0.20
I
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
Aufgabenstellung:
I
2 Wiederholung statistischer Grundlagen
, α = 0.05
X
I
0.10
0.05
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
α 2 = 0.025
µY −
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2017)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Ökonometrie (SS 2017)
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
σ2
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
α
α
P X ∈ µ − √ · N1− 2 , µ + √ · N1− 2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
α
α
=1−α .
P µ ∈ X − √ · N1− 2 , X + √ · N1− 2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
α
α
X − √ · N1− 2 , X + √ · N1− 2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2017)
α 2 = 0.025
1 − α = 0.95
0.00
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
fX(x)
I
I
0.15
Lösung:
Folie 79
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2017)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisation x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
α
α
x − √ · N1− 2 , x + √ · N1− 2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
S2 =
1 X
(Xi − X )2
n−1
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
2
Seien Y ∼ N(µ,
q σ ),PX1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
√
n
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2017)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.4
0.3
0.2
0.1
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
f(x)
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
bzw.
tn;1−p = −tn;p
0.0
tn;p = −tn;1−p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2017)
−4
−2
0
2
4
x
Folie 83
Ökonometrie (SS 2017)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Konfidenzintervalle für den Erwartungswert I
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
√
S2 =
q
1
Ersetzen von σ durch S =
2
Ersetzen von N1− α2 durch tn−1;1− α2
1
n−1
Pn
i=1 (Xi
Schließende Statistik 2.3
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
− X )2
erforderlich.
[1] 2.13145
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2
n
n
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ökonometrie (SS 2017)
Folie 85
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 86
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Quantile der t-Verteilungen: tn;p
Ökonometrie (SS 2017)
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisation x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
α
α
x − √ · tn−1;1− 2 , x + √ · tn−1;1− 2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Folie 87
Ökonometrie (SS 2017)
Folie 88
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Hypothesentests
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel I
Bisher betrachtet:
Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts
Hierzu: Verwendung der
1
2
Interessierende Zufallsvariable Y :
Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von
Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).
theoretischen Information über Verteilung von X
empirischen Information aus Stichprobenrealisation x von X
zur Konstruktion einer
I
I
Punktschätzung
Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen
Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)
Mittelwert (Erwartungswert) enthält.
Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:
Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer
vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt
( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ).
”
”
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 89
Schließende Statistik 2.3
Einführendes Beispiel II
Verteilungsannahme:
Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ).
Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16
vom Umfang n = 16 zu Y vor.
Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu
entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre,
unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt
(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).
Ökonometrie (SS 2017)
Folie 90
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilungen von X
0.4
für verschiedene Erwartungswerte µ bei σ = 4 und n = 16
Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500,
und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x
weit weg von 500.
Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann
”
”
eine geeignete“ Entscheidungsregel konstruiert werden?
”
0.2
0.1
I
0.0
I
X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird
X praktisch nie genau den Wert x = 500 annehmen!
Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500
”
gilt.
Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500
”
gilt.
fX(x|µ)
I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Offensichlich gilt:
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 91
Ökonometrie (SS 2017)
Folie 92
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für nahe“ Grenze
”
Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu
genau einer der folgenden vier verschiedenen Situationen:
I
0.1
Wünschenswert:
Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen.
”
”
Aber: Zielkonflikt vorhanden:
Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto
”
”
I
0.2
0.3
Tatsächliche Situation:
H1 wahr (µ 6= 500)
Fehler
2. Art
richtige
Entscheidung
µ = 500
µ = 494
µ = 499
µ = 503
0.0
Tatsächliche Situation:
H0 wahr (µ = 500)
richtige
Entscheidung
Fehler
1. Art
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1
fX(x|µ)
Entscheidung
für H0 (µ = 500)
Entscheidung
für H1 (µ 6= 500)
Schließende Statistik 2.3
0.4
Entscheidungsproblem
2 Wiederholung statistischer Grundlagen
seltener Fehler 2. Art
häufiger Fehler 1. Art
494
496
498
500
502
504
506
x
und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“.
”
”
Ökonometrie (SS 2017)
Folie 93
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
0.4
Beispiel für ferne“ Grenze
”
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3
2 Wiederholung statistischer Grundlagen
Folie 94
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für
alle möglichen Situationen (also alle denkbaren µ) zu verringern.
Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!
0.2
Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die
”
Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung
gegen H0 , obwohl H0 wahr ist) begehen darf.
Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man
”
”
den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x
bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α
jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500
entscheidet!
0.0
0.1
fX(x|µ)
Ökonometrie (SS 2017)
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 95
Ökonometrie (SS 2017)
Folie 96
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel II
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Grenze zum Signifikanzniveau α = 0.05
0.4
Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95
0.2
0.1
0.0
σ
σ
P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2
=1−α .
n
n
fX(x|µ)
Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält
den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)
σ
σ
µ0 − √ · N1− α2 , µ0 + √ · N1− α2
n
n
mit
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von
H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und
damit nur mit Wahrscheinlichkeit α außerhalb liegt!).
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 97
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel I
Ökonometrie (SS 2017)
Folie 98
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel II
Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel
also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im
Intervall
4
4
500 − √ · N0.975 , 500 + √ · N0.975 = [498.04, 501.96] ,
16
16
dem sog. Annahmebereich des Hypothesentests, liegt.
Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter
2
Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher:
Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder
Teststatistik
X − µ0 √
N :=
n.
σ
Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen
H0 : µ = 500) aus, wenn die Realisation x von X in der Menge
Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und
ist daher daher (für µ = µ0 ) standardnormalverteilt:
(−∞, 498.04) ∪ (501.96, ∞) ,
X − µ0 √
n ∼ N(0, 1)
σ
dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,
liegt.
falls µ = µ0
Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich
schon vollständig spezifiziert!
Ökonometrie (SS 2017)
Folie 99
Ökonometrie (SS 2017)
Folie 100
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel III
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel IV
Man rechnet leicht nach:
σ
σ
X − µ0 √
X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔
n ∈ −N1− α2 , N1− α2
σ
n
n
√
0
Als
A für die Testgröße N = X −µ
n erhält man also
σ
Annahmebereich
−N1− α2 , N1− α2 , als kritischen Bereich K entsprechend
K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞
und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.
Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X
”
bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher
untersuchen. Damit lassen sich dann auch (von µ abhängige!)
Fehlerwahrscheinlichkeiten 2. Art berechnen.
Im Beispiel erhält man so zu den betrachteten Szenarien (also
unterschiedlichen wahren Parametern µ):
Wahrscheinlichkeit der
Wahrscheinlichkeit der
Annahme von µ = 500 Ablehnung von µ = 500
P{N ∈ A}
P{N ∈ K }
µ = 500
0.95
0.05
µ = 494
0
1
µ = 499
0.8299
0.1701
µ = 503
0.1492
0.8508
(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)
Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den
”
Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 101
Schließende Statistik 2.3
Zweiseitiger Gauß-Test für den Ewartungswert
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 102
Schließende Statistik 2.3
Beispiel: Qualitätskontrolle (Länge von Stahlstiften)
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des zweiseitigen Tests:
”
1
Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
4
5
X − µ0 √
•
n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = −∞, −N1− α2 ∪ N1− α2 , ∞
Berechnung der realisierten Teststatistik N
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 103
Untersuchungsgegenstand: Weicht die mittlere Länge der von einer
bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in
[cm]) ab, so dass die Produktion gestoppt werden muss?
Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 )
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 64 zu Y liefert Stichprobenmittel x = 9.7.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
(Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz
1
Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10
√
0
2
Teststatistik: N = X −µ
n ∼ N(0, 1), falls H0 gilt (µ = µ0 )
σ
3
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞)
√
4
Realisierter Wert der Teststatistik: N = 9.7−10
64 = −6
0.4
5
Entscheidung: N ∈ K
H0 wird abgelehnt und die Produktion gestoppt.
Ökonometrie (SS 2017)
Folie 104
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert I
Einseitige Gauß-Tests für den Ewartungswert II
bei bekannter Varianz
bei bekannter Varianz
Auch für einseitige Tests fasst Teststatistik
Neben zweiseitigem Test auch zwei einseitige Varianten:
H0 : µ ≤ µ0
H0 : µ ≥ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
gegen
H1 : µ < µ0
(linksseitiger Test)
N=
Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise
abzulehnen, auf das Signifikanzniveau α.
Entscheidung zwischen beiden Varianten daher wie folgt:
die empirische Information über den Erwartungswert µ geeignet zusammen.
Allerdings gilt nun offensichtlich
I
2 Wiederholung statistischer Grundlagen
Folie 105
Schließende Statistik 2.3
im Falle des rechtsseitigen Tests von
H0 : µ ≤ µ0
H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als
glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei
Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist.
H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern
möchte und für deren Akzeptanz man hohe Evidenz fordert.
Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass
man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1
kontrollieren will.
Ökonometrie (SS 2017)
X − µ0 √
n
σ
I
gegen
H1 : µ > µ0 ,
dass große (insbesondere positive) Realisationen von N gegen H0 und für H1
sprechen, sowie
im Falle des linksseitigen Tests von
H0 : µ ≥ µ0
gegen
H1 : µ < µ0 ,
dass kleine (insbesondere negative) Realisationen von N gegen H0 und für
H1 sprechen.
Ökonometrie (SS 2017)
Folie 106
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
bei bekannter Varianz
Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
0.4
Rechtsseitiger Gauß-Test für den Ewartungswert I
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt.
0.2
0.1
0.0
Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das
größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten.
fN(x|µ)
Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit
P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 .
Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit
insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test.
Ökonometrie (SS 2017)
Folie 107
µ = 500
µ = 499
µ = 502
µ = 504
0.3
Noch nötig zur Konstruktion der Tests:
Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass
Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α
beschränkt bleibt.
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 108
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein
kritischer Wert bestimmt werden, den die Teststatistik N im Fall der
Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.
2
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ .
Testrezept“ des rechtsseitigen Tests:
”
1
Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R.
2
Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das
kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten.
Teststatistik:
N :=
3
Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 .
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt.
Kritischer Bereich zum Signifikanzniveau α:
Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält
damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den
linksseitigen Test.
K = (N1−α , ∞)
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 109
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2017)
Folie 110
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
bei bekannter Varianz
0.4
Beispiel für Verteilungen von N
Anwendung
µ = 500
µ = 496
µ = 498
µ = 501
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Testrezept“ des linksseitigen Tests:
”
1
Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R.
2
0.2
fN(x|µ)
0.3
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Teststatistik:
0.1
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
0.0
K = (−∞, −N1−α )
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 111
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 112
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen I
Fällt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsächlich
erfüllt sein — wegen der Beschränkung der Fehlerwahrscheinlichkeit 1. Art
durch das Signifikanzniveau α nur mit einer typischerweise geringen
Wahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, die
fälschlicherweise zur Ablehnung von H0 geführt hat.
Aber: Vorsicht vor Über“interpretation als Evidenz für Gültigkeit von H1 :
”
Aussagen der Form Wenn H0 abgelehnt wird, dann gilt H1 mit
”
Wahrscheinlichkeit von mindestens 1 − α“ sind unsinnig!
2 Wiederholung statistischer Grundlagen
Folie 113
Schließende Statistik 2.3
Interpretation von Testergebnissen III
I
I
signifikante Veränderung (zweiseitiger Test),
signifikante Verringerung (linksseitiger Test) oder
signifikante Erhöhung (rechtsseitiger Test)
I
Gilt also tatsächlich H1 , ist es dennoch mit einer oft – meist abhängig vom
Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit möglich, eine
”
Stichprobenrealisation zu erhalten, die fälschlicherweise nicht zur
Ablehnung von H0 führt.
Aus diesem Grund sagt man auch häufig statt H0 wird angenommen“ eher
”
H kann nicht verworfen werden“.
” 0
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 114
Schließende Statistik 2.3
Ein signifikanter“ Unterschied ist noch lange kein deutlicher“ Unterschied!
”
”
Problem: Fluch des großen Stichprobenumfangs“
”
Beispiel: Abfüllmaschine soll Flaschen mit 1000 ml Inhalt abfüllen.
einer Größe bezeichnet. Konstruktionsbedingt kann das Ergebnis einer
statistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aber
niemals als zweifelsfreier Beweis für die Veränderung/Verringerung/Erhöhung
einer Größe dienen!
Vorsicht vor Publication Bias“:
”
I
Fällt die Testentscheidung jedoch für H0 aus, so ist dies meist ein
vergleichsweise schwächeres Indiz“ für die Gültigkeit von H0 , da die
”
Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise große
Werte (bis 1 − α) annehmen kann.
Interpretation von Testergebnissen IV
Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird häufig als
I
Schließende Statistik 2.3
Interpretation von Testergebnissen II
Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist
Vorsicht bei der Interpretation von Testergebnissen geboten, es besteht ein
großer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0
und dem Aussagegehalt einer Annahme von H0 :
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20
statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt in
einer Ablehnung von H0 .
Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nicht
verworfen wurde, verschwiegen bzw. nicht publiziert werden!
I
I
Abfüllmenge schwankt zufällig, Verteilung sei Normalverteilung mit bekannter
Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Fälle liegt Abfüllmenge
im Bereich ±1 ml um den (tatsächlichen) Mittelwert.
Statistischer Test zum Niveau α = 0.05 zur Überprüfung, ob mittlere
Abfüllmenge (Erwartungswert) von 1000 ml abweicht.
Tatsächlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen.
Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4%
Systematische Abweichung der Abfüllmenge von 0.1 ml also zwar mit hoher
Wahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehin
vorhandenen) zufälligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich!
Fazit: Durch wissenschaftliche Studien belegte signifikante Verbesserungen“
”
können vernachlässigbar klein sein ( Werbung...)
Ökonometrie (SS 2017)
Folie 115
Ökonometrie (SS 2017)
Folie 116
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Der p-Wert
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
p-Wert bei Gauß-Tests
für den Erwartungswert bei bekannter Varianz
Hypothesentests komprimieren“ Stichprobeninformation zur Entscheidung
”
zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α.
Der Wechsel zwischen N ∈ Kα“ und N ∈
/ Kα“ findet bei den diskutierten
” dort statt, wo
” die realisierte
Gauß-Tests offensichtlich
Teststatistik N gerade
mit (einer) der Grenze(n) des kritischen Bereichs übereinstimmt, d.h.
I
Testentscheidung hängt von α ausschließlich über kritischen Bereich Kα ab!
Genauere Betrachtung (Gauß-Test für den Erwartungswert) offenbart:
I
I
I
I
Je kleiner α, desto kleiner (im Sinne von ⊂“) der kritische Bereich.
Zu jeder realisierten Teststatistik N findet” man sowohl
F
F
bei rechtsseitigen Tests mit Kα = (N1−α , ∞) für N = N1−α ,
bei linksseitigen Tests mit Kα = (−∞, −N1−α ) für N = −N1−α ,
bei zweiseitigen Tests mit Kα = (−∞, −N1− α2 ) ∪ (N1− α2 , ∞) für
N=
große“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N enthalten ( Ablehnung von H0 ), als auch
kleine“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N nicht enthalten ( Annahme von H0 ).
−N1− α2
N1− α2
.
Durch Auflösen nach α erhält man
I
Es gibt also zu jeder realisierten Teststatistik N ein sogenanntes
empirisches (marginales) Signifikanzniveau, häufiger p-Wert genannt,
welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt.
I
I
für rechtsseitige Tests den p-Wert 1 − Φ(N),
für linksseitige Tests den p-Wert Φ(N),
für zweiseitige Tests den p-Wert
2 · Φ(N) = 2 · (1 − Φ(−N))
2 · (1 − Φ(N))
Ökonometrie (SS 2017)
Folie 117
2 Wiederholung statistischer Grundlagen
falls N < 0
falls N ≥ 0
Schließende Statistik 2.3
falls N < 0
falls N ≥ 0
= 2 · (1 − Φ(|N|)) .
Ökonometrie (SS 2017)
Folie 118
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Realisierte Teststatistik N = 1.6, p-Wert: 0.0548
Realisierte Teststatistik N = −1.8, p-Wert: 0.0719
0.3
p = 0.0548
= 0.03595
1 − p = 0.9281
p
2
− N0.995 N = − 1.8 − N0.85
N0.85 N = 1.6 N0.99
x
Ökonometrie (SS 2017)
2
= 0.03595
0.0
0.0
0.1
p
0.1
1 − p = 0.9452
0.2
fN(0, 1)(x)
0.2
fN(0, 1)(x)
0.3
0.4
Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik)
0.4
Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik)
N0.85
N0.995
x
Folie 119
Ökonometrie (SS 2017)
Folie 120
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung mit p-Wert
Schließende Statistik 2.3
Tests und Konfidenzintervalle
Offensichtlich erhält man auf der Grundlage des p-Werts p zur beobachteten
Stichprobenrealisation die einfache Entscheidungsregel
H0 ablehnen
2 Wiederholung statistischer Grundlagen
⇔
p<α
für Hypothesentests zum Signifikanzniveau α.
Sehr niedrige p-Werte bedeuten also, dass man beim zugehörigen
Hypothesentest H0 auch dann ablehnen würde, wenn man die maximale
Fehlerwahrscheinlichkeit 1. Art sehr klein wählen würde.
Kleinere p-Werte liefern also stärkere Indizien für die Gültigkeit von H1 als
größere, aber (wieder) Vorsicht vor Überinterpretation: Aussagen der Art
Der p-Wert gibt die Wahrscheinlichkeit für die Gültigkeit von H0 an“ sind
”
unsinnig!
Warnung!
Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist es
unbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Werts
festzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wählen,
dass man die bevorzugte“ Testentscheidung erhält!
”
Ökonometrie (SS 2017)
Folie 121
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen)
Konfidenzintervallen für den Erwartungswert bei bekannter Varianz.
Für Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 − α gilt:
σ
σ
α
α
√
√
µ
e∈ X−
· N1− 2 , X +
· N1− 2
n
n
σ
σ
⇔
µ
e − X ∈ − √ · N1− α2 , √ · N1− α2
n
n
µ
e−X√
⇔
n ∈ −N1− α2 , N1− α2
σ
X −µ
e√
⇔
n ∈ −N1− α2 , N1− α2
σ
Damit ist µ
e also genau dann im Konfidenzintervall zur
Sicherheitswahrscheinlichkeit 1 − α enthalten, wenn ein zweiseitiger
Gauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ
e nicht
verwerfen würde.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: Gauß-Test für den Mittelwert
t-Test für den Mittel-/Erwartungswert I
bei bekannter Varianz
bei unbekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R unbekannt, σ 2 bekannt
approximativ: E (Y ) = µ ∈ R unbekannt, Var(Y ) = σ 2 bekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
N=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
σ
N für µ = µ0 (näherungsweise) N(0, 1)-verteilt
n
1X
X =
Xi
n i=1
(−∞, −N1− α2 )
∪(N1− α2 , ∞)
2 · (1 − Φ(|N|))
Konstruktion des (exakten) Gauß-Tests für den Mittelwert bei bekannter
Varianz durch Verteilungsaussage
N :=
X − µ√
n ∼ N(0, 1) ,
σ
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y .
Analog zur Konstruktion von Konfidenzintervallen für den Mittelwert bei
unbekannter Varianz: Verwendung der Verteilungsaussage
v
u
n
u 1 X
X − µ√
t :=
n ∼ t(n − 1)
mit
S =t
(Xi − X )2 ,
S
n−1
i=1
(N1−α , ∞)
(−∞, −N1−α )
1 − Φ(N)
Φ(N)
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y , um geeigneten
Hypothesentest für den Mittelwert µ zu entwickeln.
Test lässt sich genauso wie Gauß-Test herleiten, lediglich
I
I
Ökonometrie (SS 2017)
Folie 122
Folie 123
Verwendung von S statt σ,
Verwendung von t(n − 1) statt N(0, 1).
Ökonometrie (SS 2017)
Folie 124
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert II
Zusammenfassung: t-Test für den Mittelwert
bei unbekannter Varianz
bei unbekannter Varianz
Anwendungsvoraussetzungen
Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigen
Tests bleibt wie beim Gauß-Test erhalten.
Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden
Vereinfachungen“ bei der Bestimmung von kritischen Bereichen und
”
p-Werten gültig.
Nullhypothese
Gegenhypothese
p-Werte können mit Hilfe der Verteilungsfunktion Ft(n−1) der
t(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhält man
Ft(n−1) (t) beispielsweise mit dem Befehl pt(t,df=n-1).
Teststatistik
Zur Berechnung von p-Werten für große n: Näherung der t(n − 1)-Verteilung
durch Standardnormalverteilung möglich.
Benötigte Größen
Analog zu Konfidenzintervallen:
Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert bei
unbekannter Varianz immer noch als approximativer (näherungsweiser) Test
verwendet werden.
Verteilung (H0 )
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 125
Schließende Statistik 2.3
Beispiel: Durchschnittliche Wohnfläche
Ökonometrie (SS 2017)
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ R++ unbekannt
approximativ: E (Y ) = µ ∈ R, Var(Y ) = σ 2 ∈ R++ unbekannt
X1 , . . . , Xn einfache Stichprobe zu Y
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
t=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
S
t für µ = µ0 (näherungsweise) t(n − 1)-verteilt
n
X
1
X =
Xi
n
v
v i=1
!
u
u
n
n
X
u 1
u 1 X
2
2
t
2
t
X − nX
S=
(Xi − X ) =
n − 1 i=1
n − 1 i=1 i
(−∞, −tn−1;1− α2 )
∪(tn−1;1− α2 , ∞)
2 · (1 − Ft(n−1) (|t|))
(tn−1;1−α , ∞)
(−∞, −tn−1;1−α )
1 − Ft(n−1) (t)
Ft(n−1) (t)
Folie 126
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik)
Ökonometrie (SS 2017)
Folie 127
0.2
1 − p = 0.968
p = 0.032
0.0
0.1
ft(399)(x)
0.3
0.4
Wohnflächenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032
Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnfläche pro
Haushalt in einer bestimmten Stadt gegenüber dem aus dem Jahr 1998
stammenden Wert von 71.2 (in [m2 ]) erhöht?
Annahmen: Verteilung der Wohnfläche Y im Jahr 2009 unbekannt.
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 400 zu Y liefert Stichprobenmittel x = 73.452 und
Stichprobenstandardabweichung s = 24.239.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
Rechtsseitiger approx. t-Test für den Mittelwert bei unbekannter Varianz
1
Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2
√ •
0
2
Teststatistik: t = X −µ
n ∼ t(399), falls H0 gilt (µ = µ0 )
S
3
Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95
√ , ∞) = (1.649, ∞)
4
Realisierter Wert der Teststatistik: t = 73.452−71.2
400 = 1.858
24.239
5
Entscheidung: t ∈ K
H0 wird abgelehnt; Test kommt zur Entscheidung,
dass sich durchschnittliche Wohnfläche gegenüber 1998 erhöht hat.
t399, 0.8
t = 1.858
t399, 0.999
x
Ökonometrie (SS 2017)
Folie 128
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Inhaltsverzeichnis
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge I
(Ausschnitt)
3
Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient als
Maß der Stärke des linearen Zusammenhangs zwischen zwei
(kardinalskalierten) Merkmalen X und Y .
Einfache lineare Regression
Deskriptiver Ansatz
Statistisches Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Einfache lineare Modelle mit R
Nun: Ausführlichere Betrachtung linearer Zusammenhänge zwischen
Merkmalen (zunächst rein deskriptiv!):
Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe,
ist nicht nur die Stärke dieses Zusammenhangs interessant, sondern auch die
genauere Form“ des Zusammenhangs.
”
Form“ linearer Zusammenhänge kann durch Geraden(gleichungen)
”
spezifiziert werden.
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 129
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge II
Ökonometrie (SS 2017)
Folie 130
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge III
Problemstellung: Wie kann zu einer Urliste (x1 , y1 ), . . . , (xn , yn ) der Länge n
zu (X , Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefunden
werden, die den linearen Zusammenhang zwischen X und Y möglichst gut“
”
widerspiegelt?
Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a und
Steigung b in der bekannten Darstellung
Wichtig: Was soll möglichst gut“ überhaupt bedeuten?
”
Hier: Summe der quadrierten Abstände von der Geraden zu den
Datenpunkten (xi , yi ) in vertikaler Richtung soll möglichst gering sein.
(Begründung für Verwendung dieses Qualitätskriteriums“ wird nachgeliefert!)
”
Für den i-ten Datenpunkt (xi , yi ) erhält man damit den vertikalen Abstand
Ökonometrie (SS 2017)
Folie 131
y = fa,b (x) := a + b · x .
ui (a, b) := yi − fa,b (xi ) = yi − (a + b · xi )
von der Geraden mit Absolutglied a und Steigung b.
Ökonometrie (SS 2017)
Folie 132
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge IV
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
”
15
aus n = 10 Paaren (xi , yi )
Gesucht werden a und b so, dass die Summe der quadrierten vertikalen
Abstände der Punktwolke“ (xi , yi ) von der durch a und b festgelegten
”
Geraden,
(ui (a, b)) =
i=1
n
X
i=1
2
(yi − fa,b (xi )) =
n
X
i=1
●
●
10
●
●
2
(yi − (a + b · xi )) ,
●
●
●
5
2
●
yi
n
X
●
möglichst klein wird.
●
0
Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate
(KQ-Methode) oder Least-Squares-Methode (LS-Methode).
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 133
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Folie 134
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: P
Punktwolke“ und verschiedene Geraden II
”
a = 5, b = 0.8, ni=1 (ui (a, b))2 = 33.71
15
Beispiel: P
Punktwolke“ und verschiedene Geraden I
”
a = 1, b = 0.8, ni=1 (ui (a, b))2 = 180.32
Ökonometrie (SS 2017)
●
●
●
●
●
●
●
●
ui(a, b)
10
10
●
●
●
●
yi
●
yi
ui(a, b)
●
b = 0.8
●
●
●
5
5
●
1
●
●
a=5
b = 0.8
0
0
0
a=1 1
2
4
6
8
0
xi
Ökonometrie (SS 2017)
2
4
6
8
xi
Folie 135
Ökonometrie (SS 2017)
Folie 136
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
und verschiedene Geraden III
” Pni=1 (ui (a, b))2 = 33.89
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden I
a = −1, b = 1.9,
Gesucht sind also b
a, b
b ∈ R mit
15
n
n
X
X
(yi − (b
a+b
bxi ))2 = min
(yi − (a + bxi ))2
a,b∈R
i=1
●
10
●
●
●
ui(a, b)
●
yi
●
●
5
●
i=1
●
führt zu sogenannten Normalgleichungen:
!
n
n
X
X
!
na +
xi b =
yi
b = 1.9
a = −1
1
0
i=1
Lösung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi ) = 0
∂a
i=1
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi )xi = 0 ,
∂b
●
0
3 Einfache lineare Regression
2
4
6
n
X
8
xi
i=1
Ökonometrie (SS 2017)
Folie 137
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden II
Ökonometrie (SS 2017)
xi
!
i=1
a+
n
X
xi2
i=1
!
i=1
!
b=
n
X
xi yi
i=1
Folie 138
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“ und Regressionsgerade
” P
b
a = 2.03, b
b = 1.35, n (ui (b
a, b
b))2 = 22.25
i=1
15
Aufgelöst nach a und b erhält man die Lösungen
Pn
Pn
Pn
n
i=1 xi yi −
i=1 xi ·
i=1 yi
b
b=
2
Pn
Pn
2
n
i=1 xi −
i=1 xi
1 Pn
Pn
b
b
a = n1
i=1 yi − n
i=1 xi · b
●
●
10
xy − x · y
sX ,Y
b
b=
= 2
sX
x2 − x2
b
b
a = y − xb
Ökonometrie (SS 2017)
yi
^
^, b
ui(a
)
●
●
●
●
5
bzw. den empirischen Momenten sX ,Y = xy − x · y und sX2 = x 2 − x 2 :
Die erhaltenen Werte b
a und b
b minimieren tatsächlich die Summe der
quadrierten vertikalen Abstände, da die Hesse-Matrix positiv definit ist.
●
●
oder kürzer mit den aus der deskr. Statistik bekannten Bezeichnungen
Pn
Pn
Pn
Pn
x = n1 i=1 xi , x 2 = n1 i=1 xi2 , y = n1 i=1 yi und xy = n1 i=1 xi yi
●
●
^
b = 1.35
0
1
^ = 2.03
a
0
2
4
6
8
xi
Folie 139
Ökonometrie (SS 2017)
Folie 140
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode I
a+b
b · xi )
yi = b
a+b
b · x + y − (b
| {z }i |i
{z
}
=:b
yi
I
Mit diesen Eigenschaften erhält man die folgende Varianzzerlegung:
n
n
1X
1X
(yi − y )2 =
(b
yi − yb)2 +
n
n
i=1
i=1
|
|
{z
}
{z
}
Gesamtvarianz der yi
=ui (b
a,b
b)=:b
ui
Aus den Normalgleichungen lassen sich leicht einige Eigenschaften für die so
bi und ybi herleiten, insbesondere:
definierten u
I
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode II
Zu b
a und b
b kann man offensichtlich die folgende, durch die Regressionsgerade
erzeugte Zerlegung der Merkmalswerte yi betrachten:
I
3 Einfache lineare Regression
Folie 141
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
i=1
b
ui2 = 22.25
15
b
a = 2.03, b
b = 1.35,
Pn
●
● ●
●
10
●
Pn
(b
yi − yb)2
Pi=1
n
2
i=1 (yi − y )
Ökonometrie (SS 2017)
Folie 142
3 Einfache lineare Regression
i
xi
yi
●
●
^
u
i
=
1
n
1
n
Deskriptiver Ansatz 3.1
Daten im Beispiel:
y = y^
x
●
rX2 ,Y
Beispiel: Berechnung von b
a und b
b
Beispiel: Regressionsgerade mit Zerlegung yi = b
yi + b
ui
unerklärte Varianz
Die als Anteil der erklärten Varianz an der Gesamtvarianz gemessene Stärke
des linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt:
P
Pn
P
P
b = 0 und damit ni=1 yi = ni=1 ybi bzw. y = yb := n1 ni=1 ybi .
u
Pni=1 i
b = 0.
xu
i=1
Pi i
P
P
bi = 0 folgt auch ni=1 ybi u
bi = 0.
bi = 0 und ni=1 xi u
Mit ni=1 u
Ökonometrie (SS 2017)
erklärte Varianz
n
1X 2
bi
u
n
i=1
| {z }
1
2.51
6.57
2
8.27
12.44
3
4.46
10.7
4
3.95
5.51
5
6.42
12.95
6
6.44
8.95
7
2.12
3.86
8
3.65
6.22
9
6.2
10.7
10
6.68
10.98
Berechnete (deskriptive/empirische) Größen:
●
x = 5.0703
●
y = 8.8889
x 2 = 29.3729
y 2 = 87.9398
yi
●
●
●
●
yi
●
●
5
sX2
●
●
^
b
sX ,Y = 4.956
rX ,Y = 0.866
sX ,Y
4.956
b
= 1.352
b= 2 =
3.665
sX
b
a =y −b
b · x = 8.8889 − 1.352 · 5.0703 = 2.03
1
0
^
a
= 8.927
Damit erhält man Absolutglied b
a und Steigung b
b als
y^i
●
= 3.665
sY2
und damit die Regressionsgerade
0
2
4
6
8
y = f (x) = 2.03 + 1.352 · x .
xi
Ökonometrie (SS 2017)
Folie 143
Ökonometrie (SS 2017)
Folie 144
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell I
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell II
Keine symmetrische Behandlung von X und Y mehr, sondern:
Bisher: rein deskriptive Betrachtung linearer Zusammenhänge
I
Bereits erläutert/bekannt: Korrelation 6= Kausalität:
Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalen
lässt sich nicht schließen, dass der Wert eines Merkmals den des anderen
beeinflusst.
I
Interpretation von X ( Regressor“) als erklärende deterministische Variable.
”
Interpretation von Y ( Regressand“) als abhängige, zu erklärende
”
(Zufalls-)Variable.
Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung von
Pearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleine
auch keine Wirkungsrichtung erkennen lassen kann.
Es wird angenommen, dass Y in linearer Form von X abhängt, diese
Abhängigkeit jedoch nicht perfekt“ ist, sondern durch zufällige Einflüsse
”
gestört“ wird.
”
Anwendung in Experimenten: Festlegung von X durch Versuchsplaner,
Untersuchung des Effekts auf Y
Nun: statistische Modelle für lineare Zusammenhänge
Damit auch Kausalitätsanalysen möglich!
Ökonometrie (SS 2017)
Folie 145
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell III
u1 , . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ 2
(unbekannt) und Cov(ui , uj ) = 0 für i 6= j sind, die zufällige Störungen der
linearen Beziehung ( Störgrößen“) beschreiben,
P
”
x1 , . . . , xn deterministisch sind mit sX2 = n1 ni=1 (xi − x)2 > 0
(d.h. nicht alle xi sind gleich),
β0 , β1 feste, unbekannte reelle Parameter sind.
Man nimmt an, dass man neben x1 , . . . , xn auch y1 , . . . , yn beobachtet, die
wegen der Abhängigkeit von den Zufallsvariablen u1 , . . . , un ebenfalls
(Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch
(Realisationen von) u1 , . . . , un beobachten kann (β0 und β1 unbekannt!).
Ökonometrie (SS 2017)
Parameterschätzung 3.3
einfaches lineares Regressionsmodell.
gilt, wobei
I
3 Einfache lineare Regression
Das durch die getroffenen Annahmen beschriebene Modell heißt auch
yi = β0 + β1 · xi + ui
I
Folie 146
Parameterschätzung I
Es wird genauer angenommen, dass für i ∈ {1, . . . , n} die Beziehung
I
Ökonometrie (SS 2017)
Folie 147
Im einfachen linearen Regressionsmodell sind also (neben σ 2 ) insbesondere β0
und β1 Parameter, deren Schätzung für die Quantifizierung des linearen
Zusammenhangs zwischen xi und yi nötig ist.
Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche
nach Absolutglied und Steigung einer geeigneten Geradengleichung
y = fβ0 ,β1 (x) = β0 + β1 · x .
Achtung!
Die Bezeichnung der Parameter hat sich gegenüber der Veranstaltung
Schließende Statistik“ geändert, aus β1 wird β0 , aus β2 wird β1 !
”
Ökonometrie (SS 2017)
Folie 148
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung II
Man erhält also — ganz analog zum deskriptiven Ansatz — die folgenden
Parameterschätzer:
Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte
Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten
vertikalen Abstände zur durch β0 und β1 bestimmten Geraden, in Zeichen
n
n
X
X
!
(yi − (βb0 + βb1 · xi ))2 = min
(yi − (β0 + β1 · xi ))2 ,
β0 ,β1 ∈R
i=1
Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums
Minimierung der quadrierten vertikalen Abstände“ (KQ-Methode).
”
Ökonometrie (SS 2017)
Folie 149
3 Einfache lineare Regression
Parameterschätzung 3.3
bi := yi − (βb0 + βb1 · xi ) = yi − ybi
Die resultierenden vertikalen Abweichungen u
der yi von den auf der Regressionsgeraden liegenden Werten ybi := βb0 + βb1 · xi
nennt man Residuen.
Wie im deskriptiven Ansatz gelten die Beziehungen
Pn
Pn
Pn
Pn
bi = 0,
bi ,
bi = 0,
i=1 xi u
i=1 y
i=1 u
i=1 yi =
Pn
bi u
bi
i=1 y
die Streuungszerlegung
i=1
{z
}
Total Sum of Squares
n
X
i=1
|
(b
yi − yb)2
{z
}
Explained Sum of Squares
bzw. die Varianzzerlegung
Pn
1
2
i=1 (yi − y ) =
n
Ökonometrie (SS 2017)
βb1 =
n
Vorsicht!
Pn
βb0 =
1
n
Pn
Pn
i=1 xi ·
i=1 yi
2
Pn
−
i=1 xi
Pn
i=1 xi yi −
Pn
2
n
i=1 xi
i=1 yi
−
1
n
Pn
i=1 xi
=
xy − x · y
x2 − x2
=
sX ,Y
,
sX2
· βb1 = y − x βb1 .
sX2 , sY2 sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Größen
Pn
Pn
sX2 = n1 i=1 (xi − x)2 = x 2 − x 2 ,
sY2 = n1 i=1 (yi − y )2 = y 2 − y 2
Pn
und sX ,Y = n1 i=1 (xi − x) · (yi − y ) = xy − x · y .
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 150
Parameterschätzung 3.3
Das (multiple) Bestimmtheitsmaß R 2
Parameterschätzung IV
|
Parameterschätzer im einfachen linearen Regressionsmodell
i=1
die beste (varianzminimale) lineare (in yi ) erwartungstreue Schätzfunktion βb0
für β0 bzw. βb1 für β1 .
=
Parameterschätzung 3.3
Parameterschätzung III
Satz 3.1 (Satz von Gauß-Markov)
n
X
(yi − y )2
3 Einfache lineare Regression
1
n
Pn
yi
i=1 (b
n
X
+
i=1
=0
bezeichnet. R 2 wird auch (multiples) Bestimmtheitsmaß genannt.
bi2
u
Es gilt 0 ≤ R 2 ≤ 1 sowie der (bekannte) Zusammenhang R 2 = rX2 ,Y =
| {z }
Residual Sum of Squares
− yb)2 +
1
n
Pn
i=1
bi2 .
u
Auch im linearen Regressionsmodell wird die Stärke des linearen
Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz
gemessen und mit
Pn
Pn
bi2
(b
yi − yb)2
ESS
RSS
2
i=1
i=1 u
P
R = Pn
=
1
−
=
=1−
n
2
2
TSS
TSS
i=1 (yi − y )
i=1 (yi − y )
sX2 ,Y
sX2 ·sY2
.
Größere Werte von R 2 (in der Nähe von 1) sprechen für eine hohe
Modellgüte, niedrige Werte (in der Nähe von 0) für eine geringe Modellgüte.
Folie 151
Ökonometrie (SS 2017)
Folie 152
3 Einfache lineare Regression
Parameterschätzung 3.3
Beispiel: Ausgaben in Abhängigkeit vom Einkommen I
3 Einfache lineare Regression
Parameterschätzung 3.3
Berechnete (deskriptive/empirische) Größen:
x = 30.28571
Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und
Genussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100
e) in der Form
iid
ui ∼ N(0, σ 2 ),
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n}
abhängen. Für n = 7 Haushalte beobachte man nun neben dem Einkommen
xi auch die (Realisation der) Ausgaben für Nahrungs- und Genussmittel yi
wie folgt:
Haushalt i
Einkommen xi
NuG-Ausgaben yi
1
35
9
2
49
15
3
21
7
4
39
11
5
15
5
6
28
8
7
25
9
Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1
bi
der linearen Modellbeziehung geschätzt sowie die Werte ybi , die Residuen u
und das Bestimmtheitsmaß R 2 bestimmt werden.
Ökonometrie (SS 2017)
Folie 153
3 Einfache lineare Regression
Parameterschätzung 3.3
15
βb0 = 1.14228, βb1 = 0.26417, R 2 = 0.9191
10
yi
●
●
●
●
●
●
5
rX ,Y = 0.9587
Damit erhält man die Parameterschätzer βb0 und βb1 als
sX ,Y
30.2449
βb1 = 2 =
= 0.26417
114.4901
sX
βb0 = y − βb1 · x = 9.14286 − 0.26417 · 30.28571 = 1.14228 .
Als Bestimmtheitsmaß erhält man R 2 = rX2 ,Y = 0.95872 = 0.9191.
bi erhält man durch Einsetzen (b
bi = yi − ybi ):
Für ybi und u
yi = βb0 + βb1 · xi , u
Ökonometrie (SS 2017)
i
xi
yi
ybi
bi
u
1
35
9
10.39
−1.39
2
49
15
14.09
0.91
3
21
7
6.69
0.31
4
39
11
11.44
−0.44
5
15
5
5.1
−0.1
6
28
8
8.54
−0.54
7
25
9
7.75
1.25
Folie 154
3 Einfache lineare Regression
Parameterschätzung 3.3
Wegen der Abhängigkeit von yi handelt es sich bei βb0 und βb1 (wie in der
schließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen.
βb0 und βb1 sind linear in yi , man kann genauer zeigen:
●
βb0 =
yi
n
X
x 2 − x · xi
· yi
n · sX2
i=1
und
βb1 =
n
X
xi − x
· yi
n · sX2
i=1
0
y^i
sX ,Y = 30.2449
y 2 = 92.28571
●
●
●
●
●
= 8.6938
x 2 = 1031.71429
●
y = y^
x
●
= 114.4901
y = 9.14286
sY2
Eigenschaften der Schätzfunktionen βb0 und βb1 I
Grafik: Ausgaben in Abhängigkeit vom Einkommen
^
u
i
sX2
0
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 155
Ökonometrie (SS 2017)
Folie 156
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 II
βb0 und βb1 sind erwartungstreu für β0 und β1 , denn wegen E(ui ) = 0 gilt
I
I
I
E(yi ) = β0 +P
β1 · xi +
) = β0 + β1 · xi ,P
E(ui P
E(y ) = E n1 ni=1 yi = n1 ni=1 E(yi ) = n1 ni=1 (β0 + β1 · xi ) = β0 + β1 · x,
P
P
E(xy ) = E n1 ni=1 xi yi = n1 ni=1 xi (β0 + β1 · xi ) = β0 · x + β1 · x 2
3 Einfache lineare Regression
Eigenschaften der Schätzfunktionen βb0 und βb1 III
Für die Varianzen der Schätzfunktionen erhält man (mit der Darstellung aus
Folie 156):
Var(βb1 ) =
und damit
E(βb1 ) = E
=
xy − x · y
x2
−x
2
=
β1 · (x 2 − x 2 )
x2
−x
2
= β1
Var(βb0 ) =
σ2 · x 2
n · sX2
Diese beiden Eigenschaften folgen bereits mit dem Satz von Gauß-Markov.
Ökonometrie (SS 2017)
Folie 157
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 IV
n
1 X 2
bi
u
n−2
i=1
n
n
· s 2 · (1 − R 2 ) =
· (sY2 − βb1 · sX ,Y )
=
n−2 Y
n−2
p
c2 dieser Schätzfunktion heißt auch
Die positive Wurzel σ
b=+ σ
Standard Error of the Regression (SER) oder residual standard error.
c2 := Var(u
\i ) =
σ
E(βb0 ) = E(y − x βb1 ) = E(y ) − x E(βb1 ) = β0 + β1 · x − x · β1 = β0 .
Ökonometrie (SS 2017)
Folie 158
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle und Tests
unter Normalverteilungsannahme für ui
c2 für σ 2 liefert die geschätzten Varianzen der
Einsetzen des Schätzers σ
Parameterschätzer
Häufig nimmt man weitergehend für die Störgrößen an, dass speziell
iid
ui ∼ N(0, σ 2 )
c2
s 2 − βb1 · sX ,Y
σ
= Y
2
n · sX
(n − 2) · sX2
gilt, d.h. dass alle ui (für i ∈ {1, . . . , n}) unabhängig identisch normalverteilt
sind mit Erwartungswert 0 und (unbekannter) Varianz σ 2 .
und
c2 · x 2
σ
(s 2 − βb1 · sX ,Y ) · x 2
\
c2 b := Var(
βb0 ) =
σ
= Y
.
β0
2
n · sX
(n − 2) · sX2
q
q
c2 b und σ
c2 b dieser geschätzten
Die positiven Wurzeln σ
bβb0 = σ
b
=
σ
b
β0
β1
β1
Varianzen werden wie üblich als (geschätzte) Standardfehler von βb0 und βb1
bezeichnet.
Ökonometrie (SS 2017)
sowie
Eine erwartungstreue Schätzfunktion für σ 2 ist gegeben durch
sowie
\
c2 b := Var(
σ
βb1 ) =
β1
σ2
n · sX2
Diese hängen von der unbekannten Varianz σ 2 der ui ab.
E(xy ) − x · E(y )
=
x2 − x2
x2 − x2
β0 · x + β1 · x 2 − x · (β0 + β1 · x)
Parameterschätzung 3.3
Folie 159
In diesem Fall sind offensichtlich auch y1 , . . . , yn stochastisch unabhängig und
jeweils normalverteilt mit Erwartungswert E(yi ) = β0 + β1 · xi und Varianz
Var(yi ) = σ 2 .
Da βb0 und βb1 linear in yi sind, folgt insgesamt mit den bereits berechneten
Momenten von βb0 und βb1 :
!
2
2
2
σ
·
x
b1 ∼ N β1 , σ
und
β
βb0 ∼ N β0 ,
n · sX2
n · sX2
Ökonometrie (SS 2017)
Folie 160
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen II
unter Normalverteilungsannahme für ui
Im bereits erläuterten Beispiel erhält man als Schätzwert für σ 2 :
2
Da σ unbekannt ist, ist für Anwendungen wesentlich relevanter, dass im
Falle unabhängig identisch normalverteilter Störgrößen ui mit den
c2 b für Var(βb0 ) und σ
c2 b für Var(βb1 ) gilt:
Schätzfunktionen σ
β0
β1
βb0 − β0
∼ t(n − 2)
σ
bβb0
3 Einfache lineare Regression
und
2
b
c2 = n · (sY − β1 · sX ,Y ) = 7 · (8.6938 − 0.26417 · 30.2449) = 0.9856
σ
n−2
7−2
Die (geschätzten) Standardfehler für βb0 und βb1 sind damit
s
r
c2 · x 2
0.9856 · 1031.71429
σ
=
= 1.1264 ,
σ
bβb0 =
7 · 114.4901
n · sX2
s
r
c2
σ
0.9856
σ
bβb1 =
= 0.0351 .
=
2
7 · 114.4901
n · sX
βb1 − β1
∼ t(n − 2)
σ
bβb1
Hieraus erhält man unmittelbar die Formeln“
”
h
i
βb0 − tn−2;1− α2 · σ
bβb0 , βb0 + tn−2;1− α2 · σ
bβb0
Für α = 0.05 erhält man mit tn−2;1− α2 = t5;0.975 = 2.571 für β0 also
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β0 bzw.
h
i
βb1 − tn−2;1− α2 · σ
bβb1 , βb1 + tn−2;1− α2 · σ
bβb1
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β1 .
Ökonometrie (SS 2017)
3 Einfache lineare Regression
[1.14228 − 2.571 · 1.1264, 1.14228 + 2.571 · 1.1264] = [−1.7537, 4.0383]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 bzw.
[0.26417 − 2.571 · 0.0351, 0.26417 + 2.571 · 0.0351] = [0.1739, 0.3544]
Folie 161
Konfidenzintervalle und Tests 3.4
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für β1 .
Ökonometrie (SS 2017)
Folie 162
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Hypothesentests
Zusammenfassung: t-Test für den Parameter β0
unter Normalverteilungsannahme für ui
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Genauso lassen sich unter der Normalverteilungsannahme (exakte) t-Tests für
die Parameter β0 und β1 konstruieren.
Trotz unterschiedlicher Problemstellung weisen die Tests Ähnlichkeiten zum
t-Test für den Mittelwert einer normalverteilten Zufallsvariablen bei
unbekannter Varianz auf.
Untersucht werden können die Hypothesenpaare
bzw.
H0 : β0 = β00
gegen
H1 : β0 6= β00
H0 : β0 ≤ β00
gegen
H1 : β0 > β00
H0 : β0 ≥ β00
gegen
H1 : β0 < β00
H0 : β1 = β10
gegen
H1 : β1 6= β10
H0 : β1 ≤ β10
gegen
H1 : β1 > β10
H0 : β1 ≥ β10
gegen
H1 : β1 < β10
Nullhypothese
Gegenhypothese
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β0 = β00
H1 : β0 6= β00
Teststatistik
Benötigte Größen
Kritischer Bereich
zum Niveau α
Folie 163
p-Wert
Ökonometrie (SS 2017)
H0 : β0 ≤ β00
H1 : β0 > β00
t=
Verteilung (H0 )
Besonders anwendungsrelevant sind Tests auf die Signifikanz“ der Parameter
”
(insbesondere β1 ), die den zweiseitigen Tests mit β00 = 0 bzw. β10 = 0
entsprechen.
Ökonometrie (SS 2017)
Anwendungsvoraussetzungen
sX ,Y
βb1 = 2
sX
H0 : β0 ≥ β00
H1 : β0 < β00
βb0 − β00
σ
bβc0
t für β0 = β00 t(n − 2)-verteilt
s
(sY2 − βb1 · sX ,Y ) · x 2
, βb0 = y − βb1 · x, σ
bβc0 =
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
2 · (1 − Ft(n−2) (|t|))
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
Folie 164
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β1
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen III
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β1 = β10
H1 : β1 6= β10
Nullhypothese
Gegenhypothese
H0 : β1 ≤ β10
H1 : β1 > β10
Teststatistik
t=
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
sX ,Y
βb1 = 2 , σ
bβc1
sX
2 · (1 − Ft(n−2) (|t|))
1
2
βb1 − β10
σ
bβc1
3
t für β1 = β10 t(n − 2)-verteilt
s
sY2 − βb1 · sX ,Y
=
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
p-Wert
H0 : β1 ≥ β10
H1 : β1 < β10
Im bereits erläuterten Beispiel soll zum Signifikanzniveau α = 0.05 getestet
werden, ob β0 signifikant von Null verschieden ist. Geeigneter Test:
t-Test für den Regressionsparameter β0
4
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
5
Hypothesen:
H0 : β0 = 0
gegen
H1 : β0 6= 0
Teststatistik:
βb0 − 0
t=
ist unter H0 (für β0 = 0) t(n − 2)-verteilt.
σ
bβc0
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , +∞) = (−∞, −t5;0.975 ) ∪ (t5;0.975 , +∞)
= (−∞, −2.571) ∪ (2.571, +∞)
Berechnung der realisierten Teststatistik:
βb0 − 0
1.14228 − 0
t=
=
= 1.014
σ
bβc0
1.1264
Entscheidung:
t = 1.014 ∈
/ (−∞, −2.571) ∪ (2.571, +∞) = K ⇒ H0 wird nicht abgelehnt!
(p-Wert: 2 − 2 · Ft(5) (|t|) = 2 − 2 · Ft(5) (|1.014|) = 2 − 2 · 0.8215 = 0.357)
Der Test kann für β0 keine signifikante Abweichung von Null feststellen.
Ökonometrie (SS 2017)
Folie 165
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen IV
Ökonometrie (SS 2017)
Folie 166
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Punkt- und Intervallprognosen
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Nun soll zum Signifikanzniveau α = 0.01 getestet werden, ob β1 positiv ist.
Geeigneter Test:
t-Test für den Regressionsparameter β1
1
2
3
4
5
Hypothesen:
H0 : β1 ≤ 0
gegen
H1 : β1 > 0
Teststatistik:
βb1 − 0
ist unter H0 (für β1 = 0) t(n − 2)-verteilt.
t=
σ
bβc1
Kritischer Bereich zum Niveau α = 0.01:
yi = β0 + β1 · xi + ui ,
⇒
i ∈ {1, . . . , n}
[
yb0 := βb0 + βb1 · x0 =: E(y
0)
H0 wird abgelehnt!
(p-Wert: 1 − Ft(5) (t) = 1 − Ft(5) (7.5262) = 1 − 0.9997 = 0.0003)
Der Test stellt fest, dass β1 signifikant positiv ist.
Ökonometrie (SS 2017)
iid
ui ∼ N(0, σ 2 ),
auf (zumindest) einen weiteren, hier mit (x0 , y0 ) bezeichneten Datenpunkt,
bei dem jedoch y0 nicht beobachtet wird, sondern lediglich der Wert des
Regressors x0 bekannt ist.
Ziel: Schätzung“ (Prognose) von y0 = β0 + β1 · x0 + u0 bzw.
”
E(y0 ) = β0 + β1 · x0 auf Grundlage von x0 .
Wegen E(u0 ) = 0 und der Erwartungstreue von βb0 für β0 bzw. βb1 für β1 ist
K = (tn−2;1−α , +∞) = (t5;0.99 , +∞) = (3.365, +∞)
Berechnung der realisierten Teststatistik:
βb1 − 0
0.26417 − 0
t=
=
= 7.5262
σ
bβc1
0.0351
Entscheidung:
t = 7.5262 ∈ (3.365, +∞) = K
Neben Konfidenzintervallen und Tests für die Parameter β0 und β1 in linearen
Regressionsmodellen vor allem Prognosen wichtige Anwendung.
Zur Erstellung von Prognosen: Erweiterung der Modellannahme
Folie 167
offensichtlich erwartungstreu für y0 bzw. E(y0 ) gegeben x0 .
[
yb0 bzw. E(y
0 ) wird auch (bedingte) Punktprognose für y0 bzw. E(y0 )
gegeben x0 genannt.
Ökonometrie (SS 2017)
Folie 168
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
[
[
b
b
Var(E(y
0 ) − E(y0 )) = Var(E(y0 )) = Var(β0 + β1 · x0 )
= Var(βb0 ) + x 2 Var(βb1 ) + 2 · x0 · Cov(βb0 , βb1 ).
Zur Beurteilung der Genauigkeit der Prognosen:
Untersuchung der sogenannten Prognosefehler
yb0 − y0
0
[
E(y
0 ) − E(y0 ) .
bzw.
Qualitativer Unterschied:
Prognosefehler
[
b
b
b
b
E(y
0 ) − E(y0 ) = β0 + β1 · x0 − (β0 + β1 · x0 ) = (β0 − β0 ) + (β1 − β1 ) · x0
I
Punkt- und Intervallprognosen 3.5
Wegen der Erwartungstreue stimmen mittlerer quadratischer (Prognose-)
[
Fehler und Varianz von eE = E(y
0 ) − E(y0 ) überein und man erhält
Prognosefehler
I
3 Einfache lineare Regression
resultiert nur aus Fehler bei der Schätzung von β0 bzw. β1 durch βb0 bzw. βb1 .
Prognosefehler
Es kann gezeigt werden, dass für die Kovarianz von βb0 und βb1 gilt:
x
x
Cov(βb0 , βb1 ) = −σ 2 · Pn
= −σ 2 ·
2
n
·
sX2
(x
−
x)
i=1 i
Insgesamt berechnet man so die Varianz des Prognosefehlers
σe2E := Var(eE ) =
= σ2 ·
yb0 − y0 = βb0 + βb1 · x0 − (β0 + β1 · x0 + u0 ) = (βb0 − β0 ) + (βb1 − β1 ) · x0 − u0
(x 2 − x 2 ) + (x 2 + x02 − 2 · x0 · x)
n · sX2
s 2 + (x0 − x)2
1 (x0 − x)2
2
= σ2 · X
=
σ
·
+
.
n
n · sX2
n · sX2
[
Zunächst: Untersuchung von eE := E(y
0 ) − E(y0 )
Folie 169
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Die Linearität von βb0 und βb1 (in yi ) überträgt sich (natürlich) auch auf
[
E(y
0 ), damit gilt offensichtlich
2
[
eE = E(y
0 ) − E(y0 ) ∼ N 0, σeE
bzw.
[
E(y
0 ) − E(y0 )
∼ N(0, 1) .
σeE
1 (x0 − x)2
+
n
n · sX2
3 Einfache lineare Regression
Folie 170
Punkt- und Intervallprognosen 3.5
Intervallprognosen zur Vertrauenswahrscheinlichkeit 1 − α erhält man also als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) in der Form
h
[
[
E(y
·σ
beE , E(y
·σ
beE
0 ) − tn−2;1− α
0 ) + tn−2;1− α
2
2
i
i
h
beE , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
beE .
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
[
von E(y
0 ) und damit die praktisch wesentlich relevantere Verteilungsaussage
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
2
1 (38 − 30.28571)2
c2 e = σ
c2 · 1 + (x0 − x)
σ
=
0.9856
·
+
= 0.214
E
n
7
7 · 114.4901
n · sX2
[
b
b
die Punktprognose E(y
0 ) = β0 + β1 · x0 = 1.14228 + 0.26417 · 38 = 11.1807
(in 100 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 0.214 , 11.1807 + 2.571 · 0.214
[
eE
E(y
0 ) − E(y0 )
=
∼ t(n − 2) ,
σ
beE
σ
beE
aus der sich in bekannter Weise (symmetrische) Konfidenzintervalle (und
Tests) konstruieren lassen.
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Prognoseintervalle für E(y0 ) gegeben x0
Da σ 2 unbekannt ist, erhält man durch Ersetzen von σ 2 durch die
c2 die geschätzte Varianz
erwartungstreue Schätzfunktion σ
c2 e := Var(e
c2 ·
d E) = σ
σ
E
x 2 + x02 − 2 · x0 · x
n · sX2
= σ2 ·
ist Kombination von Schätzfehlern (für β0 und β1 ) sowie zufälliger
Schwankung von u0 ∼ N(0, σ 2 ).
Ökonometrie (SS 2017)
σ2 · x 2
σ2
σ2 · x
+ x02 ·
− 2 · x0 ·
2
2
n · sX
n · sX
n · sX2
= [9.9914 , 12.37] (in 100 e) .
Folie 171
Ökonometrie (SS 2017)
Folie 172
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler e0 := yb0 − y0
yb0 − y0 = (βb0 + βb1 · x0 ) −(β0 + β1 · x0 +u0 )
{z
}
|
{z
} |
[
E(y
0 ) − E(y0 )
|
{z
}
e0 = yb0 − y0 ∼ N 0, σe20
=E(y0 )
−
Fehler aus Schätzung von
β0 und β1
u0
|{z}
zufällige Schwankung
der Störgröße
[
b
b
E(y
0 ) hängt nur von u1 , . . . , un ab (über y1 , . . . , yn bzw. β0 und β1 ) und ist
iid
wegen der Annahme ui ∼ N(0, σ 2 ) unabhängig von u0 .
Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auch
unkorreliert und man erhält:
[
σe20 := Var(yb0 − y0 ) = Var(E(y
0 ) − E(y0 )) + Var(u0 )
1 (x0 − x)2
1 (x0 − x)2
2
2
= σ2 ·
+
+
σ
=
σ
·
1
+
+
n
n
n · sX2
n · sX2
Folie 173
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für y0 gegeben x0
1 (x0 − x)2
c
c
2
2
d
σ e0 := Var(yb0 − y0 ) = σ · 1 + +
n
n · sX2
des Prognosefehlers die für die Praxis relevante Verteilungsaussage
e0
yb0 − y0
=
∼ t(n − 2) ,
σ
be0
σ
be0
zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen.
Ökonometrie (SS 2017)
Folie 174
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognose: Ausgaben in Abhängigkeit vom Einkommen
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also analog zu den Intervallprognosen für E(y0 ) in der Form
βb0 = 1.14228, βb1 = 0.26417, x0 = 38, yb0 = 11.1807, 1 − α = 0.95
yb0 − tn−2;1− α2 · σ
be0 , yb0 + tn−2;1− α2 · σ
be0
h
i
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
be0 , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
be0 .
●
y = y^
x
10
●
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
●
●
yi
●
[
mit der bereits berechneten Punktprognose yb0 = E(y
0 ) = 11.1807 (in 100 e)
die zugehörige Intervallprognose für y0 zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 1.1996 , 11.1807 + 2.571 · 1.1996
●
●
5
2
(38 − 30.28571)2
1
c2 · 1 + 1 + (x0 − x)
= 1.1996
=σ
= 0.9856· 1 + +
2
n
7
7 · 114.4901
n · sX
0
c2 e
σ
0
yb0 − y0
∼ N(0, 1) .
σe0
bzw.
c2 ersetzt werden, um mit Hilfe der geschätzen
Wieder muss σ 2 durch σ
Varianz
.
Ökonometrie (SS 2017)
15
=
Punkt- und Intervallprognosen 3.5
Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgt
auch sofort die Normalverteilungseigenschaft des Prognosefehlers
e0 = y0 − yb0 , genauer gilt:
Nun: Untersuchung des Prognosefehlers e0 := yb0 − y0
Offensichtlich gilt für e0 = yb0 − y0 die Zerlegung
[
=E(y
0)
3 Einfache lineare Regression
0
= [8.3648 , 13.9966] (in 100 e) .
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 175
Ökonometrie (SS 2017)
Folie 176
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Einfache lineare Modelle mit Statistik-Software R
Interpretation des Outputs I
Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
c2 und R 2
Residuen, σ
> summary(lm(y~x))
Residuals:
1
2
-1.3882 0.9134
Call:
lm(formula = y ~ x)
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.14225
1.12645
1.014 0.357100
x
0.26417
0.03507
7.533 0.000653 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Anzahl Freiheitsgrade n − 2, hier: n − 2 = 5 ⇒ n = 7
(Multiples) Bestimmtheitsmaß R 2 , hier: R 2 = 0.919
Folie 177
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
7
1.2535
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
bi
Auflistung bzw. Zusammenfassung der Residuen u
p
c2 , hier: σ
c2 = 0.9857
SER σ
b= σ
b = 0.9928 ⇒ σ
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919,
Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Ökonometrie (SS 2017)
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 178
Einfache lineare Modelle mit R 3.6
Interpretation des Outputs II
Zusammenhang zwischen p-Werten
Ergebnisse zur Schätzung von β0 und β1
zu zweiseitigen und einseitigen Tests bei unter H0 (um Null) symmetrisch verteilter Teststatistik
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
Erinnerung: t(n)- sowie N(0, 1)-Verteilung sind symmetrisch um Null, für die
zugehörigen Verteilungsfunktionen F gilt also F (x) = 1 − F (−x) für alle
x ∈ R und F (0) = 0.5, F (x) < 0.5 für x < 0 sowie F (x) > 0.5 für x > 0.
Für die p-Werte pz der zweiseitigen Tests auf den Mittelwert bei bekannter
(Gauß-Test) sowie unbekannter (t-Test) Varianz gilt daher bekanntlich
2 · F (x)
falls x < 0
pz = 2 · min{F (x), 1 − F (x)} =
,
2 · (1 − F (x)) falls x ≥ 0
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Realisationen von βb0 , βb1 , hier: βb0 = 1.14225, βb1 = 0.26417
Standardfehler von βb0 , βb1 , hier: σ
bβc0 = 1.12645, σ
bβc1 = 0.03507
t-Statistiken zu Tests auf Signifikanz, hier: zu β0 : t = 1.014, zu β1 : t = 7.533
p-Werte zu Tests auf Signifikanz, hier: zu β0 : p = 0.3571, zu β1 : p = 0.000653
Ökonometrie (SS 2017)
Folie 179
wobei x den realisierten Wert der Teststatistik sowie F die
Verteilungsfunktion der Teststatistik unter H0 bezeichne.
Für die p-Werte pl = F (x) zum linksseitigen sowie pr = 1 − F (x) zum
rechtsseitigen Test bei realisierter Teststatistik x gelten demnach die
folgenden Zusammenhänge:
 p

z

 1 − pz falls x < 0
falls x < 0
2
2
pl =
sowie
pr =
 1 − pz falls x ≥ 0
 pz
falls x ≥ 0
2
2
Somit auch p-Werte zu einseitigen Tests aus R-Output bestimmbar!
Ökonometrie (SS 2017)
.
Folie 180
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression I
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression II
Auf Grundlage dieses Annahmen-Komplexes:
I
Bisher: Annahme der Gültigkeit eines einfachen linearen Modells
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n},
I
mit
I
I
1
2
I
I
der abhängigen Variablen (Regressand) yi ,
einer unabhängigen, erklärenden Variablen (Regressor) xi , wobei
xi als deterministisch angenommen wird und
sX2 > 0 gelten muss,
Problem: (Perfekte) Validität der Ergebnisse nur, wenn Modell korrekt und
Annahmen-Komplex erfüllt ist!
Im Folgenden:
der Störgröße ui , wobei
1
2
3
4
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
I
I
iid
damit insgesamt ui ∼ N(0, σ 2 ) angenommen wird.
I
Ökonometrie (SS 2017)
Folie 181
4 Multiple lineare Regression
Verwendung der KQ-Methode, um eine geschätze Regressionsgerade
y = βb0 + βb1 · x mit den zugehörigen KQ-Prognosen ybi = βb0 + βb1 · xi und den
bi = yi − ybi zu bestimmen.
zugehörigen KQ-Residuen u
Bestimmung von Konfidenzintervallen und Durchführung von Hypothesentests
für die Regressionsparameter β0 und β1 .
Bestimmung von bedingten Punktprognosen und Prognoseintervallen für die
abhängige Variable y zu neuen“ Werten der unabhängigen, erklärenden
”
Variablen x.
Multiples lineares Modell 4.1
Erweiterung des einfachen linearen Regressionsmodells zum multiplen linearen
Regressionsmodell
Untersuchung der Konsequenz von Annahmeverletzungen
Geeignete Reaktion auf bzw. geeignete Verfahren im Fall von
Annahmeverletzungen
Ökonometrie (SS 2017)
Folie 182
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen I
Konsequenz bei weggelassener erklärender Variablen II
Der omitted variable bias“
”
Der omitted variable bias“
”
Eine Möglichkeit der Verletzung der Annahmen des einfachen linearen
Modells: Modell ist tatsächlich komplexer, yi hänge auch von einer weiteren
erklärenden Variablen e
xi linear in der Gestalt
yi = β0 + β1 · xi + β2 · e
xi + i ,
i ∈ {1, . . . , n},
mit β2 6= 0 ab, wobei die üblichen Annahmen für die Störgrößen i
(insbesondere E(i ) ≡ 0) gelten sollen.
Wird statt des komplexeren Modells die Gültigkeit eines einfachen linearen
Modells angenommen, ist die Abhängigkeit von e
xi offensichtlich in der
Störgröße ui subsummiert, man erhält die Darstellung
yi = β0 + β1 · xi + β2 · e
x + i ,
| {zi
}
i ∈ {1, . . . , n}.
ui
Damit gilt im einfachen Modell jedoch E(ui ) = β2 · e
xi , die Annahme E(ui ) ≡ 0
ist also verletzt, sobald e
xi 6= 0 für mindestens ein i ∈ {1, . . . , n} gilt!
Ökonometrie (SS 2017)
Folie 183
Werden trotz dieser Annahmenverletzung Parameterschätzer im einfachen
linearen Modell bestimmt, so erhält man beispielsweise für βb1
βb1 =
n
n
X
X
(xi − x)
(xi − x)
·
y
=
· (β0 + β1 · xi + β2 · e
xi + i )
i
2
nsX
nsX2
i=1
i=1
n
n
n
n
X
X
X
(xi − x)
(xi − x)xi
(xi − x)e
xi X (xi − x)i
= β0
+β
+β
+
2
1
nsX2
nsX2
nsX2
nsX2
i=1
i=1
i=1
i=1
|
{z
}
|
{z
}
|
{z
}
=0
und damit E(βb1 ) = β1 + β2
(sX ,Xe
!
=1
e
! sX ,X
s2
X
=
sX ,Xe
.
sX2
e .)
bezeichnet wie üblich die empirische Kovarianz zwischen X und X
Damit ist βb1 nicht mehr erwartungstreu für β1 , falls sX ,Xe 6= 0 gilt, auch
Konfidenzintervalle und Tests werden dann unbrauchbar!
Ökonometrie (SS 2017)
Folie 184
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell I
4 Multiple lineare Regression
Das multiple lineare Regressionsmodell II
Lösung des Problems durch Schaffung der Möglichkeit, weitere erklärende
Variablen einzubeziehen.
Erweiterung des einfachen linearen Modells um zusätzliche Regressoren
x2i , . . . , xKi zum multiplen linearen Modell
Modellannahmen im multiplen linearen Regressionsmodell übertragen sich (zum
Teil verallgemeinert) aus einfachem linearen Modell:
Für die K unabhängigen, erklärenden Variablen (Regressoren) x1i , . . . , xKi
wird angenommen, dass
1
2
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
Multiples lineares Modell 4.1
i ∈ {1, . . . , n},
die xki deterministisch sind (für i ∈ {1, . . . , n}, k ∈ {1, . . . , K }) und dass
sich für kein k ∈ {1, . . . , K } der Regressor xki als (für alle i ∈ {1, . . . , n} feste)
Linearkombination einer Konstanten und der übrigen Regressoren darstellen
lässt. Äquivalent dazu:
F
bzw. in Matrixschreibweise
F
y = Xβ + u
mit
Die Regressormatrix X hat vollen (Spalten-)Rang K + 1.
x1i lässt sich nicht als Linearkombination einer Konstanten und der übrigen
Regressoren x2i , . . . , xKi darstellen.
Für die Störgrößen ui wird
 
y1
 .. 
y =  . ,
yn

1
 ..
X = .
1
x11
..
.
···
x1n
···

xK 1
..  ,
. 
xKn


β0
 β1 
 
β =  . ,
 .. 
βK
 
u1
 .. 
u=. .
un
Ökonometrie (SS 2017)
Folie 185
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell III
2
3
4
E(ui ) ≡ 0 bzw. E(u) = 0 mit dem Nullvektor 0 := (0, . . . , 0)0 ,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) bzw. u ∼ N(0, σ 2 In ) mit der
(n × n)-Einheitsmatrix In angenommen.
Ökonometrie (SS 2017)
Folie 186
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell I
Die Anwendung der KQ-Methode im multiplen linearen Modell führt zur
Suche nach βb0 , βb1 , . . . , βbK ∈ R mit
Für den Erwartungswert von yi gilt nun
E (yi ) = β0 + β1 x1i + . . . + βK xKi ,
1
i ∈ {1, . . . , n},
die Regressionsgerade aus dem einfachen linearen Modell wird also nun zu
einer Regressionsebene, beschrieben durch die Regressions-Parameter
β0 , . . . , β K .
Der Regressionsparameter (und Steigungskoeffizient) βk gibt nun für
k ∈ {1, . . . , K } die erwartete Änderung (ohne den Einfluss der Störgröße ui )
von yi an, die aus der Erhöhung des Regressors xki um eine Einheit resultiert,
wenn alle anderen Regressoren konstant gehalten werden.
Zur Schätzung der Parameter des multiplen Regressionsmodells wird
wiederum die Methode der Kleinsten Quadrate (Least Squares, auch
Ordinary Least Squares) verwendet.
n
X
(yi − (βb0 + βb1 xi1 + . . . + βbK xKi ))2
i=1
!
=
min
β0 ,β1 ,...,βK ∈R
n
X
i=1
(yi − (β0 + β1 xi1 + . . . + βK xKi ))2 .
In Matrixschreibweise ist also der Vektor βb = (βb0 , βb1 , . . . , βbK )0 ∈ RK +1
gesucht mit
!
b 0 (y − Xβ)
b =
(y − Xβ)
min (y − Xβ)0 (y − Xβ) .
β∈RK +1
(Zu Matrizen A bzw. Vektoren b seien hier und im Folgenden wie üblich mit
A0 bzw. b0 jeweils die transponierten Matrizen bzw. Vektoren bezeichnet.)
Ökonometrie (SS 2017)
Folie 187
Ökonometrie (SS 2017)
Folie 188
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell II
Die Invertierbarkeit von X0 X ist gewährleistet, da nach Annahme die
(n × (K + 1))-Matrix X vollen (Spalten-)Rang K + 1 und damit auch die
((K + 1) × (K + 1))-Matrix X0 X vollen Rang K + 1 hat.
Für die zu minimierende Funktion
f (β) := (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
Da X vollen (Spalten-)Rang besitzt, ist X0 X außerdem positiv definit.
= y0 y − 2β 0 X0 y + β 0 X0 Xβ
Eine Verletzung der getroffenen Annahme, dass X vollen (Spalten-)Rang
besitzt, bezeichnet man auch als perfekte Multikollinearität der
Regressormatrix X.
erhält man den Gradienten
∂f (β)
= −2X0 y + 2X0 Xβ = 2(X0 Xβ − X0 y)
∂β
und damit wegen der Invertierbarkeit (!) von X0 X als Lösung von
∂f (β) !
=0
∂β
βb = (X0 X)−1 X0 y ,
die wegen der positiven Definitheit (!) von X0 X auch (einzige) Lösung des
Minimierungsproblems ist.
Ökonometrie (SS 2017)
Folie 189
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IV
und
s12
..
.
···
sK 2
···
−1 

s1K
s1Y
..   .. 
.   . 
sKK
xk =
n
1X
xki ,
n
skj =
i=1
n
1X
y=
yi ,
n
sKY
i=1
Ökonometrie (SS 2017)
Folie 190
4 Multiple lineare Regression
Parameterschätzung 4.2
s1Y
βb1 =
s11
sowie
Für K = 2 lässt sich die Darstellung
s22 s1Y − s12 s2Y
βb1 =
,
2
s11 s22 − s12
n
1X
(xki − x k )(xji − x j ),
n
i=1
skY
Perfekte Multikollinearität kann durch (zum Teil offensichtliche)
Unachtsamkeiten bei der Zusammenstellung der Regressoren entstehen
(später mehr!).
Offensichtlich erhält man für K = 1 hiermit die – abgesehen von der leicht
abweichenden Notation – zum KQ-Schätzer im einfachen linearen Modell
übereinstimmende Darstellung
βb0 = y − (βb1 x 1 + . . . + βbK x K )
mit
Bei Vorliegen von perfekter Multikollinearität ist die KQ-Methode zwar immer
noch (allerdings nicht wie eben beschrieben!) durchführbar, der optimale
Vektor βb ist allerdings nicht mehr eindeutig bestimmt, der zugehörige
Parametervektor β damit nicht mehr identifiziert.
Schätzung im multiplen linearen Modell V
Eine andere Darstellung des KQ-Schätzers βb ist gegeben durch
 
βb1
s11
 ..   ..
 . = .
sK 1
βbK
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell III
Die Matrixdarstellung erlaubt eine kompakte Lösung der Optimierung:

4 Multiple lineare Regression
n
1X
=
(xki − x k )(yi − y )
n
βb0 = y − βb1 x 1 .
s11 s2Y − s12 s1Y
βb2 =
,
2
s11 s22 − s12
für die KQ-Schätzer ableiten.
βb0 = y − (βb1 x 1 + βb2 x 2 )
i=1
für k, j ∈ {1, . . . , K }.
Ökonometrie (SS 2017)
Folie 191
Ökonometrie (SS 2017)
Folie 192
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VI
i ∈ {1, . . . , n}
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VII
0 0b
b 0u
b = (Xβ)
b = βbP
Damit
y0 u
X u = 0 sowie
P mit
Pb
Pngilt weiter
n
bi = i=1 (yi − ybi ) auch ni=1 yi = ni=1 ybi ⇐⇒ y = yb.
0 = i=1 u
Wie im einfachen linearen Regressionsmodell definiert man zu den
KQ/OLS-geschätzten Parametern βb = (βb0 , βb1 , . . . , βbK )0 mit
ybi := βb0 + βb1 x1i + . . . βbK xKi ,
4 Multiple lineare Regression
So erhält man
b
y := Xβb
bzw.
b
b +b
b)0 (b
b) = b
b0 b
u0 u
y0 u
y0 y = (b
y+u
y+u
y0 b
y+ u
y +b
|{z} |{z}
die vom (geschätzten) Modell prognostizierten Werte der abhängigen
Variablen auf der geschätzten Regressionsebene sowie mit
=0
=0
2
bi := yi − ybi ,
u
i ∈ {1, . . . , n}
bzw.
und durch Subtraktion von ny 2 = nb
y auf beiden Seiten
b := y − b
u
y
2
die Residuen, also die Abstände (in y -Richtung) der beobachteten Werte der
abhängigen Variablen von den prognostizierten Werten auf der geschätzten
Regressionsebene.
Pn
P
bi = 0 sowie ni=1 xki u
bi = 0 für k ∈ {1, . . . , K } bzw.
Es gilt (analog) i=1 u
b = X (y − b
Xu
y) = X y − X Xβb = X y − X X(X X)
0
0
0
0
0
0
0
−1
und damit insgesamt die bekannte Streuungszerlegung
n
X
(yi − y )2
0
i=1
Xy=0.
|
Folie 193
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VIII
}
=
n
X
(b
yi − yb)2
i=1
|
{z
}
n
X
+
i=1
Explained Sum of Squares
bi2
u
.
| {z }
Residual Sum of Squares
Ökonometrie (SS 2017)
Folie 194
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IX
Wie im einfachen linearen Modell misst das multiple Bestimmtheitsmaß
Pn
Pn
b2
u
(b
yi − yb)2
RSS
ESS
R 2 = 1 − Pn i=1 i 2 = Pi=1
=1−
=
n
2
TSS
TSS
(y
−
y
)
(y
−
y
)
i
i
i=1
i=1
Um einen aussagekräftigeren Vergleich der Bestimmtheitmaße eines
ursprünglichen und eines erweiterten Modells durchführen zu können, kann
das adjustierte Bestimmtheitsmaß
R 2 := 1 −
den Anteil der durch den (geschätzten) linearen Zusammenhang erklärten
Streuung an der gesamten Streuung der abhängigen Variablen.
Es gilt weiterhin 0 ≤ R 2 ≤ 1.
1
n−(K +1) · RSS
1
n−1 · TSS
=1−
RSS
n−1
n − (K + 1) TSS
verwendet werden.
Bei der Hinzunahme weiterer erklärender Variablen (Regressoren) in ein
bestehendes lineares Modell kann sich im Laufe der
der
Pn KQ/OLS-Schätzung
bi2 , offensichtlich
Zielfunktionswert an der Minimumstelle, RSS = i=1 u
höchstens weiter verringern.
Dieses kann sich bei Erweiterung eines Modells um zusätzliche Regressoren
auch verringern (und sogar negativ werden).
Es gilt (offensichtlich) stets
R2 ≤ R2 ≤ 1 .
Damit führt die Hinzunahme weiterer (auch eigentlich irrelevanter)
Regressoren höchstens zu einer Zunahme des multiplen Bestimmtheitsmaßes
R 2.
Ökonometrie (SS 2017)
{z
Total Sum of Squares
Ökonometrie (SS 2017)
4 Multiple lineare Regression
b0 u
b
y0 y − ny 2 = b
y0 b
y − nb
y +u
Folie 195
Ökonometrie (SS 2017)
Folie 196
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell X
verwendet.
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XI
Die Schätzfunktion βb = (X0 X)−1 X0 y ist offensichtlich linear in den yi .
Einsetzen von y = Xβ + u liefert die Darstellung
Bei der Berechnung von R 2 wird die für σ 2 = Var(ui ) erwartungstreue
Schätzfunktion
c2 =
σ
4 Multiple lineare Regression
βb = (X0 X)−1 X0 y = (X0 X)−1 X0 (Xβ + u)
= (X0 X)−1 (X0 X)β + (X0 X)−1 X0 u = β + (X0 X)−1 X0 u
n
X
b0 u
b
u
1
RSS
bi2 =
u
=
n − (K + 1)
n − (K + 1)
n − (K + 1)
i=1
p
c2 dieser
Wie im einfachen linearen Modell wird die positive Wurzel + σ
Schätzfunktion als Standard Error of the Regression (SER) oder residual
standard error bezeichnet.
Die Korrektur um K + 1 Freiheitsgrade erklärt sich dadurch, dass nun K + 1
Beobachtungen nötig sind, um die Regressionsebene (eindeutig) bestimmen
zu können.
b unter der Annahme E(u) = 0 folgt daraus sofort E(β)
b = β und damit
von β,
die Erwartungstreue von βb für β.
b von βb erhält man mit der obigen
Für die (Varianz-)Kovarianzmatrix V(β)
b
Darstellung für β wegen der Symmetrie von (X0 X)−1 weiter
0 h
0 i
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 ) X(X0 X)−1
| {z }
=V(u)=σ 2 In
2
0
= σ (X X)
Ökonometrie (SS 2017)
Folie 197
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XII
Var(βb0 )
 Cov(βb1 , βb0 )
b =
V(β)

..

.
Cov(βbK , βb0 )
Cov(βb0 , βb1 ) · · ·
Var(βb1 )
···
..
..
.
.
Cov(βbK , βb1 ) · · ·

Cov(βb0 , βbK )
Cov(βb1 , βbK )

 .
..

.
Var(βbK )
Ökonometrie (SS 2017)
0
X X(X X)
−1
2
0
−1
= σ (X X)
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 198
Parameterschätzung 4.2
Man erhält so Schätzwerte für die Varianzen der Schätzer βb0 , βb1 , . . . , βbK
sowie deren paarweise Kovarianzen in der Gestalt


d βb0 )
d βb0 , βb1 ) · · · Cov(
d βb0 , βbK )
Var(
Cov(
d b b
d βb1 )
d βb1 , βbK )
 Cov(β1 , β0 )

Var(
· · · Cov(
b
b

 .
V(β) = 
..
..
..
..

.


.
.
.
b
b
b
b
b
d
d
d
Cov(βK , β0 ) Cov(βK , β1 ) · · ·
Var(βK )
b
b β),
Die (positiven) Wurzeln der Hauptdiagonalelemente von V(
q
q
q
b
b
d
d
d βbK ) ,
bβb1 := Var(β1 ), . . . , σ
bβbK := Var(
σ
bβb0 := Var(β0 ), σ
c2 durch
b = σ 2 (X0 X)−1 kann unter Zuhilfenahme von σ
V(β)
geschätzt werden.
0
Schätzung im multiplen linearen Modell XIII
b enthält alle Varianzen der Parameterschätzer
Die (symmetrische) Matrix V(β)
βb0 , βb1 , . . . , βbK sowie deren paarweise Kovarianzen in der Gestalt

−1
c2 (X0 X)−1
b =σ
b β)
V(
werden wie üblich als Standardfehler der Parameterschätzer βb0 , βb1 , . . . , βbK
bezeichnet.
Folie 199
Ökonometrie (SS 2017)
Folie 200
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIV
2
3
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j
an die Störgrößen ui , i ∈ {1, . . . , n}, dass
I
I
I
b eine in yi lineare Schätzfunktion ist,
β
b erwartungstreu für β ist,
β
b die Varianz-Kovarianzmatrix V(β)
b = σ 2 (X0 X)−1 besitzt.
β
Der Satz von Gauß-Markov sichert darüberhinaus, dass βb sogar die beste
lineare unverzerrte Schätzfunktion (BLUE) ist.
Unter der zusätzlichen Annahme einer
4
Auch ohne Normalverteilungsannahme für die ui kann man unter gewissen
technischen Voraussetzungen (die hier nicht näher ausgeführt werden) zeigen,
dass die Verteilung von βb bei wachsendem Beobachtungsumfang n gegen
eine (mehrdimensionale) Normalverteilung konvergiert.
In der Praxis bedeutet dies, dass man – auch für endliches n – als geeignete
Näherung der Verteilung von βb häufig eine mehrdimensionale
Normalverteilung mit dem Erwartungswertvektor β und der
Varianz-Kovarianzmatrix σ 2 (X0 X)−1 verwenden kann.
Wie gut“ diese Näherung ist, hängt wieder vom konkreten Anwendungsfall
”
ab; insbesondere
I
I
gemeinsamen Normalverteilung der ui
b
erhält man mit der Linearität
sofort die Normalverteilungseigenschaft von β,
also βb ∼ N β, σ 2 (X0 X)−1 . Außerdem kann man zeigen, dass βb dann sogar
varianzminial unter allen für β erwartungstreuen Schätzfunktionen ist.
Ökonometrie (SS 2017)
Folie 201
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XV
Zusammengefasst erhält man unter bisherigen Annahmen an X sowie den
anfangs getroffenen Annahmen
1
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Konfidenzintervalle und Tests für einzelne Parameter
steigt die Qualität der Näherung i.d.R. mit wachsendem n,
ist die Näherung umso besser, je ähnlicher die tatsächliche Verteilung der ui
einer Normalverteilung ist.
In der Praxis beurteilt man die Nähe“ der Verteilung der (unbeobachteten!)
”
Störgrößen ui zu einer Normalverteilung mit Hilfe der (geschätzten!)
bi .
Residuen u
Ökonometrie (SS 2017)
Folie 202
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Zusammenfassung: t-Test für den Parameter βk
im multiplen linearen Regressionsmodell
Konfidenzintervalle und Tests für einzelne Parameter können ganz analog
zum einfachen linearen Modell konstruiert werden.
Für die Komponenten βbk , k ∈ {0, . . . , K }, des Parameterschätzers βb gilt bei
Normalverteilungsannahme an die ui exakt (sonst ggf. approximativ)
βbk − βk
∼ t(n − (K + 1)),
σ
bβbk
k ∈ {0, . . . , K }
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : βk = βk0
H1 : βk 6= βk0
Nullhypothese
Gegenhypothese
H0 : βk ≤ βk0
H1 : βk > βk0
Teststatistik
Hieraus ergeben sich für k ∈ {0, . . . , K } unmittelbar die zum einfachen
linearen Modell analogen Formeln“ der (ggf. approximativen)
”
(symmetrischen) Konfidenzintervalle für βk zum Konfidenzniveau 1 − α
bzw. zur Vertrauenswahrscheinlichkeit 1 − α als
h
i
βbk − tn−(K +1);1− α2 · σ
bβbk , βbk + tn−(K +1);1− α2 · σ
bβbk
Ebenfalls analog erhält man t-Tests für die Regressionsparameter
β0 , β1 , . . . , βK .
Ökonometrie (SS 2017)
Anwendungsvoraussetzungen
Folie 203
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
t=
H0 : βk ≥ βk0
H1 : βk < βk0
βbk − βk0
σ
bβbk
t für βk = βk0 (näherungsweise) t(n − (K + 1))-verteilt
q
i
c2 [(X0 X)−1 ]
βbk = (X0 X)−1 X0 y
,σ
bβbk = σ
k+1,k+1 mit
c2 =
σ
h
b
u0 b
u
,
n−(K +1)
k+1
wobei b
u = y − X(X0 X)−1 X0 y
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 204
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias I
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Zunächst wird (fälschlicherweise!) die Variable Alter“ (x2i ) weggelassen und
”
die Lohnhöhe“ (yi ) nur mit der Variable Ausbildung
“ (x1i ) erklärt:
”
”
1
2
3
4
5
6
7
8
9
10
1250
1
28
1950
9
34
2300
11
55
1350
3
24
1650
2
42
1750
1
43
1550
4
37
1400
1
18
1700
3
63
2000
4
58
11
12
13
14
15
16
17
18
19
20
1350
1
30
1600
2
43
1400
2
23
1500
3
21
2350
6
50
1700
9
64
1350
1
36
2600
7
58
1400
2
35
1550
2
41
i
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 13.1)
Es soll nun angenommen werden, dass das multiple lineare Regressionsmodell
yi = β0 + β1 x1i + β2 x2i + ui ,
iid
ui ∼ N(0, σ 2 ),
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias II
Beispieldatensatz mit Daten zur Lohnhöhe (yi ), zu den Ausbildungsjahren
über den Hauptschulabschluss hinaus (x1i ) sowie zum Alter in Jahren (x2i )
von n = 20 Mitarbeitern eines Betriebs:
i
4 Multiple lineare Regression
Call:
lm(formula = Lohnhöhe ~ Ausbildung)
Residuals:
Min
1Q
-458.19 -140.36
Median
-68.94
3Q
87.32
Max
620.37
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1354.66
94.22 14.377 2.62e-11 ***
Ausbildung
89.28
19.82
4.505 0.000274 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 264.6 on 18 degrees of freedom
Multiple R-squared: 0.5299,
Adjusted R-squared:
F-statistic: 20.29 on 1 and 18 DF, p-value: 0.0002742
i ∈ {1, . . . , 20},
0.5038
mit den üblichen Annahmen korrekt spezifiziert ist.
Ökonometrie (SS 2017)
Folie 205
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias III
Ökonometrie (SS 2017)
Folie 206
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias IV
Danach wird das korrekte, vollständige Modell geschätzt:
Geschätzte Regressionsebene mit Residuen
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
3Q
73.12
Max
519.26
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Ökonometrie (SS 2017)
Lohnhöhe yi
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
●
●
●
●
●
●
●
●
●
●
●
●
●
70
60
●●
●
●
50
●
Alter x2i
Median
-5.14
1200 1400 1600 1800 2000 2200 2400 2600
●
Residuals:
Min
1Q
-569.50 -120.79
40
●
30
20
10
0
2
4
6
8
10
12
Ausbildung x1i
0.6007
Folie 207
Ökonometrie (SS 2017)
Folie 208
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias V
Ausbildung
Alter
βb0
σ
bβb0
βb1
σ
bβb1
βb2
σ
bβb2
b0 u
b
u
SER
R2
R2
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VI
Die Regressoren x1i (Ausbildungsjahre) und x2i (Alter) sind positiv korreliert,
es gilt (mit den Bezeichnungen von Folie 191) genauer
Gegenüberstellung der Schätzergebnisse:
Absolutglied
4 Multiple lineare Regression
falsches Modell
korrektes Modell
1354.658
94.222
1027.806
164.473
89.282
19.82
62.575
21.191
s12 = 22.445
√
s12
√
s11 s22
=√
22.445
√
= 0.544
8.91 · 191.028
Außerdem hat der Regressor Alter“ (neben dem Regressor Ausbildung“) im
”
”
korrekten Modell einen signifikanten Regressionskoeffizienten.
Im Modell mit ausgelassener Variablen x2i (Alter) spiegelt der geschätzte
Koeffizient zum Regressor Ausbildung“ damit nicht den isolierten“ Effekt der
”
”
Ausbildung wider, sondern einen kombinierten“ Effekt.
”
Wie man zeigen (und im Beispiel leicht nachrechnen) kann, erhält man
(analog zum Resultat von Folie 184) durch
10.602
4.577
1260028
264.578
0.5299
0.5038
bzw.
957698
237.35
0.6427
0.6007
s12 b
22.445
βb1 +
β2 = 62.575 +
· 10.602 = 89.282
s11
8.91
aus den Schätzergebnissen des korrekten Modells den Punktschätzer für β1
im falschen Modell mit ausgelassenem Regressor.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 209
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VII
I
I
verzerrten Punktschätzern,
verschobenen und in der Breite verzerrten Konfidenzintervallen sowie
wertlosen Hypothesentests
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Wie im einfachen linearen Regressionsmodell: Erweiterung der
Modellannahme
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren Datenpunkt (y0 , x10 , . . . , xK 0 ), bei dem jedoch
y0 nicht beobachtet wird, sondern lediglich die Werte der Regressoren
x10 , . . . , xK 0 bekannt sind.
Ziel ist wiederum die Prognose von y0 = β0 + β1 x10 + . . . βK xK 0 + u0 bzw.
E(y0 ) = β0 + β1 x10 + . . . βK xK 0 auf Grundlage von x10 , . . . , xK 0 .
Hierzu definiert man wie im einfachen linearen Modell mit
yb0 := βb0 + βb1 x10 + . . . + βbK xK 0
für den isolierten Effekt (da man tatsächlich einen kombinierten Effekt
gemessen hat).
Ökonometrie (SS 2017)
Folie 210
Punkt- und Intervallprognosen I
Auch die Punkt- und Intervallschätzung von β0 sowie Hypothesentests für die
Regressionsparameter unterliegen im Modell mit ausgelassener Variablen
vergleichbaren Verzerrungen.
Geht man fälschlicherweise davon aus, die Annahmen des linearen
Regressionsmodell im Modell mit ausgelassenem Regressor erfüllt und mit der
Modellschätzung den isolierten Effekt des Regressors Ausbildung“ gemessen
”
zu haben, so führt dies zu
I
Ökonometrie (SS 2017)
[
b
b
b
bzw. E(y
0 ) := β0 + β1 x10 + . . . + βK xK 0
Folie 211
die (bedingte) Punktprognose yb0 für y0 gegeben x10 , . . . , xK 0 bzw.
[
die (bedingte) Punktprognose E(y
0 ) für E(y0 ) gegeben x10 , . . . , xK 0 .
Ökonometrie (SS 2017)
Folie 212
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen II
Wie im einfachen linearen Modell resultiert der Prognosefehler
0b
0
0 b
[
eE := E(y
0 ) − E(y0 ) = x0 β − x0 β = x0 (β − β)
der (transponiert) analog zu einer Zeile der Regressormatrix X aufgebaut ist.
Für die (bedingte) Punktprognose für y0 bzw. E(y0 ) gegeben x0 erhält man
so die kompakte Darstellung
0b
[
E(y
0 ) = x0 β .
bzw.
b = x0 0 E(β)
b = x0 0 β = E(y0 )
E(x0 0 β)
[ = E(E(y0 )) ]
Ökonometrie (SS 2017)
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IV
=σ
0
0
1 + x0 (X X)
−1
zusätzlich die zufällige Schwankung von u0 ∼ N(0, σ 2 ) enthält.
[
Für die Varianz des Prognosefehlers eE erhält man (da E(E(y
0 ) − E(y0 )) = 0)
Ökonometrie (SS 2017)
Folie 214
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen V
Für die Varianz des Prognosefehlers e0 erhält man (wegen E(b
y0 − y0 ) = 0,
b
E(β − β) = 0 und E(u0 ) = 0)
h
i
σe20 := Var(e0 ) = Var(b
y0 − y0 ) = E [x0 0 (βb − β) − u0 ]2
h
i
= E [x0 0 (βb − β)]2 − 2x0 0 (βb − β)u0 + u02
h
i
h
i
= E [x0 0 (βb − β)]2 −2x0 0 E (βb − β)u0 + E(u02 )
{z
}
|
{z
} | {z2 }
|
=σ 2 x0 0 (X0 X)−1 x0
e0 := yb0 − y0 = x0 0 βb − (x0 0 β + u0 ) = x0 0 (βb − β) − u0
b 0 = σ 2 x0 0 (X0 X)−1 x0 .
= x0 0 V(β)x
Folie 213
4 Multiple lineare Regression
b während
nur aus dem Fehler bei der Schätzung von β durch β,
h
i
0 b
2
[
σe2E := Var(eE ) = Var(E(y
0 ) − E(y0 )) = E [x0 (β − β)]
h
i
h
i
(!)
= E (x0 0 (βb − β))(x0 0 (βb − β))0 = E x0 0 (βb − β)(βb − β)0 x0
Die Erwartungstreue der (bedingten) Punktprognosen ergibt sich damit
unmittelbar aus der Erwartungstreue von βb für β und E(u0 ) = 0:
2
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen III
Die Untersuchung der Eigenschaften der bedingten Punktprognosen
vereinfacht sich durch die Definition des Vektors
0
x0 = 1 x10 · · · xK 0 ,
yb0 = x0 0 βb
4 Multiple lineare Regression
b
=Cov(β−β,u
0 )=0
=σ
x0 .
[
b
Wegen der Linearität von yb0 bzw. E(y
0 ) in β überträgt sich die
[
Normalverteilungseigenschaft von βb auf yb0 bzw. E(y
0 ), es gilt also
yb0 ∼ N y0 , σe20
2
[
E(y
0 ) ∼ N E(y0 ), σeE
bzw.
.
Wie im einfachen linearen Regressionsmodell muss das unbekannte σ 2 durch
c2 geschätzt werden, mit
σ
c2 e := σ
c2 1 + x0 0 (X0 X)−1 x0 σ
0
erhält man mit σ
be0 :=
q
bzw.
c2 e und σ
σ
beE :=
0
yb0 − y0
∼ t(n − (K + 1))
σ
be0
bzw.
q
c2 e := σ
c2 x0 0 (X0 X)−1 x0
σ
E
c2 e die Verteilungsaussagen
σ
E
[
E(y
0 ) − E(y0 )
∼ t(n − (K + 1)) ,
σ
beE
aus denen sich Prognoseintervalle für y0 und E(y0 ) konstruieren lassen.
Ökonometrie (SS 2017)
Folie 215
Ökonometrie (SS 2017)
Folie 216
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VI
Intervallprognosen für E(y0 ) zur Vertrauenswahrscheinlichkeit 1 − α (auch
interpretierbar als Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ))
erhält man entsprechend in der Form
h
i
[
[
α · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − tn−(K +1);1− α
e
0
e
n−(K
+1);1−
E
E
2
2
h
√ 0 0 −1
√ 0 0 −1 i
0b
0b
α
α
= x0 β−tn−(K +1);1− 2 ·bσ x0 (X X) x0 , x0 β+tn−(K +1);1− 2 ·bσ x0 (X X) x0
.
Ökonometrie (SS 2017)
Folie 217
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VIII
4
0.4801866
38  0.0081102
−0.0114619
= 0.0536441
0.0081102
0.0079709
−0.0009366
 
−0.0114619
1
−0.0009366  4 
0.0003718
38
σ
beE = σ
b
Ökonometrie (SS 2017)
p
x0 0 (X0 X)−1 x0 = 237.35 ·
0b
[
yb0 = E(y
0 ) = x0 β = 1
4


1027.806
38  62.575  = 1680.978 .
10.602
Im Beispiel aus Folie 207 gilt weiterhin

0.4801866
0.0081102
0.0079709
(X0 X)−1 =  0.0081102
−0.0114619 −0.0009366
und σ
b = 237.35.

−0.0114619
−0.0009366
0.0003718
Ökonometrie (SS 2017)
Folie 218
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
√
Insgesamt erhält man für α = 0.05 schließlich das Prognoseintervall
h
i
yb0 − t20−(2+1);1− 0.05 · σ
be0 , yb0 + t20−(2+1);1− 0.05 · σ
be0
2
2
= [yb0 − t17;0.975 · σ
be0 , yb0 + t17;0.975 · σ
be0 ]
= [1680.978 − 2.1098 · 243.6331 , 1680.978 + 2.1098 · 243.6331]
= [1166.961 , 2194.995]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für y0 gegeben x10 = 4 und
x20 = 38.
Entsprechend erhält man für α = 0.05 das Prognoseintervall
h
i
[
[
0.05 · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − t20−(2+1);1− 0.05
e
0
e
20−(2+1);1−
E
E
2
2
erhält man weiter
p
√
σ
be0 = σ
b 1 + x0 0 (X0 X)−1 x0 = 237.35 · 1 + 0.0536441 = 243.6331
und
Eine Punktprognose für die (erwartete) Lohnhöhe eines 38-jährigen
Mitarbeiters, der nach dem Hauptschulabschluss weitere 4 Ausbildungsjahre
absolviert
hat, erhält
man im geschätzten Modell aus Folie 207 mit
0
x0 = 1 4 38 als
Punkt- und Intervallprognosen IX
Mit
x0 0 (X0 X)−1 x0 = 1
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VII
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also in der Form
h
i
yb0 − tn−(K +1);1− α2 · σ
be0 , yb0 + tn−(K +1);1− α2 · σ
be0
h
i
√
√
b
b
σ 1+x0 0 (X0 X)−1 x0 , x0 0 β+t
σ 1+x0 0 (X0 X)−1 x0 .
= x0 0 β−t
n−(K +1);1− α ·b
n−(K +1);1− α ·b
2
2

4 Multiple lineare Regression
= [1680.978 − 2.1098 · 54.9731 , 1680.978 + 2.1098 · 54.9731]
0.0536441 = 54.9731 .
= [1564.996 , 1796.96]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38.
Folie 219
Ökonometrie (SS 2017)
Folie 220
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen I
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen II
Neben Tests für einzelne Regressionsparameter sind auch Tests (und
Konfidenzintervalle) für Linearkombinationen von Regressionsparametern
problemlos möglich.
iid
Tests über einzelne Linearkombinationen von Regressionsparametern lassen
sich mit Hilfe von K + 1 Koeffizienten a0 , a1 , . . . , aK ∈ R für die Parameter
β0 , β1 , . . . , βK sowie einem Skalar c ∈ R in den Varianten
H0 :
Bei Vorliegen der Normalverteilungseigenschaft ui ∼ N(0, σ 2 ) bzw.
u ∼ N(0, σ 2 In ) gilt bekanntlich
βb ∼ N β, σ 2 (X0 X)−1
Tests einzelner linearer Hypothesen 4.5
H1 :
und auch ohne Normalverteilungsannahme an die ui ist die approximative
Verwendung einer (mehrdimensionalen) Normalverteilung für βb oft sinnvoll.
•
Damit gilt allerdings nicht nur βbk ∼ N(βk , σ 2 ) bzw. βbk ∼ N(βk , σ 2 ) für
k ∈ {0, . . . , K }, sondern darüberhinaus, dass jede beliebige Linearkombination
der Koeffizientenschätzer βb0 , βb1 , . . . , βbK (näherungsweise) normalverteilt ist.
Folie 221
4 Multiple lineare Regression
ak βk = c
H0 :
k=0
,
Ökonometrie (SS 2017)
K
X
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen III
K
X
k=0
K
X
k=0
vs.
ak βk 6= c
H1 :
K
X
ak βk ≤ c
H0 :
vs.
ak βk > c
vs.
H1 :
a1
···
ak βk < c
vs.
aK
0
als
H0 : a0 β ≤ c
H0 : a0 β ≥ c
0
0
vs.
H1 : a β 6= c
K
X
k=0
bzw. in vektorieller Schreibweise mit a := a0
0
ak βk ≥ c
k=0
k=0
H0 : a0 β = c
K
X
H1 : a β > c
vs.
H1 : a β < c
formulieren.
Ökonometrie (SS 2017)
Folie 222
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell
Mit den bekannten Rechenregeln“ für die Momente von Linearkombinationen
”
eines Zufallsvektors (vgl. Folie 50) erhält man zunächst
a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a
•
bzw. a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a .
2
Ersetzt man die unbekannte Störgrößenvarianz σ wie üblich durch den
c2 , so erhält man die Verteilungsaussage
(erwartungstreuen) Schätzer σ
a0 βb − a0 β
p
∼ t(n − (K + 1))
σ
b a0 (X0 X)−1 a
bzw.
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
a0 βb − a0 β
•
p
∼ t(n − (K + 1)) ,
σ
b a0 (X0 X)−1 a
woraus sich in gewohnter Weise Konfidenzintervalle und Tests konstruieren
lassen.
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
Folie 223
Ökonometrie (SS 2017)
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
p
0
σ
b a (X0 X)−1 a
0
t für a β = c (näherungsweise) t(n − (K + 1))-verteilt
t=
c2 =
b = (X0 X)−1 X0 y, σ
β
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 224
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese I
Die passende Hypothesenformulierung lautet in diesem Fall
gegen
mit a = 0 1
H0 : a β ≤ c
0
−2 und c = 0.
gegen
H1 : β1 − 2 · β2 > 0
t=
H1 : a β > c
Konfidenzintervalle für Linearkombinationen 4.6
Konfidenzintervalle für (einzelne) Linearkombinationen
41.371 − 0
a0 βb − c
p
√
=
= 1.5169 .
237.35 · 0.013204
σ
b a0 (X0 X)−1 a
Ökonometrie (SS 2017)
Folie 226
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen I
Ein (ggf. approximatives) symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man auf vergleichbare Art und Weise durch:
i
p
p
a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
Im vorangegangenen Beispiel erhält
man somit
0 ein Konfidenzintervall für
β1 − 2 · β2 , also für a0 β mit a = 0 1 −2 , zum Konfidenzniveau
1 − α = 0.95 unter Verwendung der bisherigen Zwischenergebnisse sowie von
t17;0.975 = 2.11 durch:
h
i
p
p
a0 βb − tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
h
i
√
√
= 41.371 − 2.11 · 237.35 0.013204 , 41.371 + 2.11 · 237.35 0.013204
Neben einzelnen linearen Hypothesen können auch mehrere lineare
Hypothesen simultan überprüft werden.
Die Nullhypothese H0 solcher Tests enthält L lineare
(Gleichheits-)Restriktionen in der Gestalt
a10 β0 + a11 β1 + . . . + a1K βK = c1
a20 β0 + a21 β1 + . . . + a2K βK = c2
..
..
..
.
.
.
aL0 β0 + aL1 β1 + . . . + aLK βK = cL
bzw.
= [−16.1762 , 98.9182]
Ökonometrie (SS 2017)
1


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
H0 kann hier zum Signifikanzniveau α = 0.05 nicht abgelehnt werden, da
t = 1.5169 ∈
/ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Folie 225
4 Multiple lineare Regression
a0 βb − tn−(K +1);1− α2 · σ
b
= 0.013204
0
Ökonometrie (SS 2017)
h
Mit (X0 X)−1 und σ
b wie auf Folie 218 angegeben erhält man zunächst

 
0.4801866
0.0081102 −0.0114619
0
0.0079709 −0.0009366  1 
a0 (X0 X)−1 a = 0 1 −2  0.0081102
−0.0114619 −0.0009366 0.0003718
−2
und mit a0 βb = 0
bzw. in der bisherigen Schreibweise
0
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese II
Im vorangegangenen Beispiel (Lohnhöhe erklärt durch Ausbildung und Alter)
kann (im korrekt spezifizierten Modell) zum Beispiel getestet werden, ob der
(isolierte) Effekt eines weiteren Ausbildungsjahres mehr als doppelt so groß
wie der (isolierte) Effekt eines zusätzlichen Lebensjahres ist, also ob
β1 > 2 · β2 gilt.
H0 : β1 − 2 · β2 ≤ 0
4 Multiple lineare Regression
Folie 227
K
X
k=0
Ökonometrie (SS 2017)
alk βk = cl
für l ∈ {1, . . . , L} .
Folie 228
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen II
Zur Konstruktion eines Hypothesentests fordert man zunächst, dass A weder
redundante noch zu viele“ Linearkombinationen enthält, dass A also vollen
”
Zeilenrang L besitzt.
lässt sich die Nullhypothese auch als Aβ = c schreiben.
H1 ist (wie immer) genau dann erfüllt, wenn H0 verletzt ist, hier also wenn
mindestens eine Gleichheitsrestriktion nicht gilt.
Da Vektoren genau dann übereinstimmen, wenn alle Komponenten gleich
sind, kann das Hypothesenpaar also in der Form
gegen
kompakt notiert werden.
Folie 229
4 Multiple lineare Regression
Eine geeignete Testgröße zur gemeinsamen Überprüfung der L linearen
Restriktionen aus der Nullhypothese ist dann
.
−1
(Aβb − c) L
(Aβb − c)0 A(X0 X)−1 A0
F =
b0 u
b/(n − (K + 1))
u
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
=
.
L
Man kann zeigen, dass F bei Gültigkeit von H0 : Aβ = c unter den
bisherigen Annahmen (einschließlich der Annahme u ∼ N(0, σ 2 In )) einer
sogenannten F -Verteilung mit L Zähler- und n − (K + 1)
Nennerfreiheitsgraden folgt, in Zeichen F ∼ F (L, n − (K + 1)).
H1 : Aβ 6= c
Ökonometrie (SS 2017)
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen III
0
Mit dem L-dimensionalen Vektor c := c1 · · · cL und der
(L × (K + 1))-Matrix


a10 a11 · · · a1K

..
.. 
A :=  ...
.
. 
aL0 aL1 · · · aLK
H0 : Aβ = c
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen IV
Ökonometrie (SS 2017)
Folie 230
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Grafische Darstellung einiger F (m, n)-Verteilungen
für m, n ∈ {2, 5, 10}
F(2, 2)
F(5, 2)
F(10, 2)
F(2, 5)
F(5, 5)
F(10, 5)
F(2, 10)
F(5, 10)
F(10, 10)
0.8
1.0
Die F -Statistik aus Folie 230 ist im Wesentlichen eine (positiv definite)
quadratische Form in den empirischen Verletzungen“ Aβb − c der
”
Nullhypothese.
0.6
Besonders große Werte der F -Statistik sprechen also gegen die Gültigkeit der
Nullhypothese.
f(x)
Entsprechend bietet sich als kritischer Bereich zum Signifikanzniveau α
Auch bei Verletzung der Normalverteilungsannahme ist eine approximative
Annahme der F (L, n − (K + 1))-Verteilung (unter H0 !) und damit ein
approximativer Test sinnvoll.
0.0
an, wobei mit Fm,n;p das p-Quantil der F (m, n)-Verteilung (F -Verteilung mit
m Zähler- und n Nennerfreiheitsgraden) bezeichnet ist.
0.2
0.4
K = (FL,n−(K +1);1−α , ∞)
0
1
2
3
4
x
Ökonometrie (SS 2017)
Folie 231
Ökonometrie (SS 2017)
Folie 232
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
0.95-Quantile der F (m, n)-Verteilungen Fm,n;0.95
n\m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
40
50
100
150
1
161.448
18.513
10.128
7.709
6.608
5.987
5.591
5.318
5.117
4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381
4.351
4.171
4.085
4.034
3.936
3.904
2
199.500
19.000
9.552
6.944
5.786
5.143
4.737
4.459
4.256
4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522
3.493
3.316
3.232
3.183
3.087
3.056
3
215.707
19.164
9.277
6.591
5.409
4.757
4.347
4.066
3.863
3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127
3.098
2.922
2.839
2.790
2.696
2.665
Ökonometrie (SS 2017)
4 Multiple lineare Regression
4
224.583
19.247
9.117
6.388
5.192
4.534
4.120
3.838
3.633
3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895
2.866
2.690
2.606
2.557
2.463
2.432
5
230.162
19.296
9.013
6.256
5.050
4.387
3.972
3.687
3.482
3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740
2.711
2.534
2.449
2.400
2.305
2.274
6
233.986
19.330
8.941
6.163
4.950
4.284
3.866
3.581
3.374
3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628
2.599
2.421
2.336
2.286
2.191
2.160
7
236.768
19.353
8.887
6.094
4.876
4.207
3.787
3.500
3.293
3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544
2.514
2.334
2.249
2.199
2.103
2.071
8
238.883
19.371
8.845
6.041
4.818
4.147
3.726
3.438
3.230
3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477
2.447
2.266
2.180
2.130
2.032
2.001
Folie 233
Tests mehrerer linearer Hypothesen 4.7
Ein spezieller F -Test
Tests mehrerer linearer Hypothesen 4.7
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
0
c2 A(X0 X)−1 A0
b − c) σ
b − c)
(Aβ
(Aβ
L
F ist (approx.) F (L, n − (K + 1))-verteilt, falls Aβ = c
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
c2 =
b = (X0 X)−1 X0 y, σ
β
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
p-Wert
Ökonometrie (SS 2017)
Folie 234
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik I
auf Signifikanz des Erklärungsansatzes“
”
Eine spezielle, häufig verwendete Ausgestaltung des F -Tests überprüft
(simultan), ob mindestens ein Regressor einen (signifikanten) Effekt auf den
Regressanden hat.
Die Hypothesen lauten also:
H0 : β1 = . . . = βK = 0 gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
Die realisierte Teststatistik zu diesem Test, die Anzahl der (Zähler- und
Nenner-)Freiheitsgrade der (F -)Verteilung unter H0 sowie der p-Wert der
realiserten Teststatistik sind üblicherweise Bestandteil von Regressionsoutputs
zu Schätzungen linearer Modelle mit Statistik-Software.
In der Schätzung des korrekt spezifizierten Modells aus Folie 207 liest man
beispielsweise die realisierte Teststatistik F = 15.29, 2 Zähler- und 17
Nennerfreiheitsgrade der F -Verteilung unter H0 sowie den p-Wert 0.0001587
ab.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 235
Es kann gezeigt werden, dass man unter den getroffenen Annahmen die
realisierte F -Statistik auch berechnen kann, indem man neben dem
eigentlichen unrestringierten“ Regressionsmodell das sogenannte
”
restringierte“ Regressionsmodell schätzt und die Ergebnisse vergleicht.
”
Die Schätzung des restringierten Modells erfolgt als Lösung des
ursprünglichen KQ-Optimierungsproblems unter der Nebenbedingung
Aβ = c.
Werden mit RSS0 die Summe der quadrierten Residuen bzw. mit R02 das
Bestimmtheitsmaß der restringierten Modellschätzung bezeichnet, lässt sich
die F -Statistik auch als
F =
(RSS0 − RSS)/L
(R 2 − R02 )/L
=
RSS/(n − (K + 1))
(1 − R 2 )/(n − (K + 1))
darstellen, wenn mit RSS, R 2 bzw. K wie üblich die Summe der quadrierten
Residuen, das Bestimmtheitsmaß bzw. die Anzahl der Regressoren des
unrestringierten Modells bezeichnet werden und L die Anzahl der linearen
Restriktionen (Anzahl der Zeilen von A) ist.
Ökonometrie (SS 2017)
Folie 236
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik II
für j ∈ J ⊆ {1, . . . , K }
mit |J| = L
besitzt, kann die Schätzung des restringierten Modells natürlich durch die
Schätzung des entsprechend verkleinerten Regressionsmodells erfolgen.
Im bereits betrachteten Spezialfall J = {1, . . . , K } bzw.
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
gilt offensichtlich R02 = 0, damit kann die F -Statistik ohne weitere Schätzung
auch durch
R 2 /K
F =
(1 − R 2 )/(n − (K + 1))
ausgewertet werden.
Folie 237
Für eine Teilmenge J = {j1 , . . . , jL } ⊆ {0, . . . , K } mit |J| = L enthält also ein
Konfidenzbereich für den Parameter(teil)vektor (βj1 , . . . , βjL )0 zum
Konfidenzniveau 1 − α genau die Vektoren (βj01 , . . . , βj0L )0 , für die ein F -Test
zum Signifikanzniveau α mit
H0 : βj1 = βj01 ∧ . . . ∧ βjL = βj0L
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter II
4 Multiple lineare Regression
Konfidenzellipsen 4.8
im korrekt spezifizierten Modell von Folie 207, 1 − α = 0.95
beschrieben, wobei die Matrix A aus L Zeilen besteht und die Zeile l jeweils
in der (zu βjl gehörenden) (jl + 1)-ten Spalte den Eintrag 1 hat und sonst nur
Nullen beinhaltet.
Konfidenzellipsen bzw. -ellipsoide sind auch für mehrere Linearkombinationen
der Regressionsparameter als Verallgemeinerung der Konfidenzintervalle für
einzelne Linearkombinationen ganz analog konstruierbar, es muss lediglich die
entsprechende (allgemeinere) Matrix A eingesetzt werden.
Folie 239
Alter β2
gilt, wird der Konfidenzbereich zum Niveau 1 − α also durch die Menge
h
i−1
L
0 c
0
−1 0
2
b
b
c ∈ R (Aβ − c) σ A(X X) A
(Aβ − c) ≤ L · FL,n−(K +1);1−α
15
20
≤ FL,n−(K +1);1−α
●
5
L
Folie 238
Beispiel: Konfidenzellipse für β1 und β2
Da der F -Test H0 genau dann nicht verwirft, wenn für die Teststatistik
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
Ökonometrie (SS 2017)
10
4 Multiple lineare Regression
Ökonometrie (SS 2017)
Dieses Konzept lässt sich problemlos auf Konfidenzbereiche (simultan) für
mehrere Regressionsparameter erweitern; wegen der resultierenden Gestalt
werden diese Konfidenzellipsen oder ggf. Konfidenzellipsoide genannt.
diese Nullhypothese nicht verwirft.
Ökonometrie (SS 2017)
F =
Konfidenzintervalle für einen Regressionsparameter βk zur
Vertrauenswahrscheinlichkeit 1 − α bestehen aus genau den hypothetischen
Parameterwerten βk0 , zu denen ein (zweiseitiger) Signifikanztest zum
Signifikanzniveau α (mit H0 : βk = βk0 ) die Nullhypothese nicht ablehnt.
0
H0 : β1 = . . . = βK = 0
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter I
Insbesondere wenn die linearen Restriktionen im Ausschluss einiger der
Regressoren bestehen, die Nullhypothese also die Gestalt
H0 : βj = 0
4 Multiple lineare Regression
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2017)
Folie 240
4 Multiple lineare Regression
Multikollinearität 4.9
Multikollinearität
Im Unterschied zur perfekten Multikollinearität spricht man von imperfekter
Multikollinearität, wenn die Regressoren (einschließlich des Absolutglieds“)
”
beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineare
Abhängigkeiten aufweisen.
Eine (konventionelle) Schätzung des Modells ist dann (abgesehen von
numerischen Schwierigkeiten in sehr extremen Fällen) möglich, die Ergebnisse
können aber (i.d.R. unerwünschte) Besonderheiten aufweisen.
4 Multiple lineare Regression
Folie 241
Multikollinearität 4.9
Perfekte Multikollinearität II
Perfekte Multikollinearität tritt in linearen Modellen mit Absolutglied (wie
hier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.
Dummy-Variablen falsch spezifiziert werden.
Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1
annehmen.
Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen in
lineare Modelle einbezogen, indem den vorhandenen (!) Ausprägungen
separate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1
annehmen, wenn die entsprechende Ausprägung vorliegt, und 0 sonst.
Wird zu jeder vorhandenen Ausprägung eine solche Dummy-Variable
definiert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert
1, alle anderen den Wert 0.
Damit ist aber offensichtlich die Summe über alle Dummy-Variablen stets
gleich 1 und damit identisch mit dem (und insbesondere linear abhängig zum)
Absolutglied.
Ökonometrie (SS 2017)
Folie 242
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität III
Lösung: (Genau) eine Dummy-Variable wird weggelassen.
Damit nimmt die zu dieser Dummy-Variablen gehörende Ausprägung des
Merkmals eine Art Benchmark“ oder Bezugsgröße ein.
”
Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu den
anderen Merkmalsausprägungen sind dann als Änderung gegenüber dieser
Benchmark zu interpretieren, während der Effekt“ der Benchmark selbst im
”
Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.
Beispiel: Einbeziehung des Merkmals Geschlecht“ mit den beiden (auch im
”
Datensatz auftretenden!) Ausprägungen weiblich und männlich mit Hilfe
einer Dummy-Variablen weiblich (oder alternativ männlich) ist korrekt,
während Aufnahme der beiden Variablen weiblich und männlich
zwangsläufig zu perfekter Multikollinearität führt.
Lineare Abhängigkeiten zwischen Regressoren können auch ohne (fehlerhafte)
Verwendung von Dummy-Variablen auftreten.
Ökonometrie (SS 2017)
Multikollinearität 4.9
Perfekte Multikollinearität I
Erinnerung: Unter der (gemäß Modellannahmen ausgeschlossenen) perfekten
Multikollinearität versteht man eine perfekte lineare Abhängigkeit unter den
Regressoren (einschließlich des Absolutglieds“).
”
Bei perfekter Multikollinearität ist eine Schätzung des Modells mit dem
vorgestellten Verfahren nicht möglich.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 243
Beispiel 1: Sind in einem Modell die Regressoren durchschnittl.
”
Monatseinkommen“ (Monat), Jahressonderzahlung“ (Sonderzahlung) und
”
Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs
”
Jahr = 12 · Monat + Sonderzahlung
offensichtlich perfekte Multikollinearität.
Beispiel 2: Sind gleichzeitig die Regressoren Nettoeinnahmen mit reduz.
”
MWSt.“ (NettoReduziert), Nettoeinnahmen mit regul. MWSt.“
”
(NettoRegulär) und Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen
”
des Zusammenhangs
Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegulär
ebenfalls perfekte Multikollinearität.
Lösung: Eine der Variablen im linearen Zusammenhang weglassen (wird von
Statistik-Software meist automatisch erledigt).
Ökonometrie (SS 2017)
Folie 244
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität I
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität II
Darstellung der Regressoren Monat und Sonderzahlung
5000
Punktwolke der Regressoren Monat und Sonderzahlung
Imperfekte Multikollinearität kann im Beispiel 1 aus Folie 244 auch nach
Elimination des Regressors Jahr auftreten:
4500
●
●
●
●
3500
●
●
●
3000
Sonderzahlung x3i
4000
●
●
●
●
●
2500
Oft ist die Jahressonderzahlung (mehr oder weniger) linear vom
durchschnittlichen Monatseinkommen abhängig ( 13. Monatsgehalt“). Dies
”
kann zu beinahe“ linearen Abhängigkeiten zwischen den Regressoren führen.
”
In einem (fiktiven) linearen Modell werden die monalichen Ausgaben für
Nahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personen
im Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und die
jährliche Sonderzahlung (Sonderzahlung) erklärt.
●●
●
●
●
●
●
●
●
1500
Im (ebenfalls fiktiven) Datensatz der Länge n = 25 beträgt die Korrelation
zwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch im
folgenden Plot visualisiert ist.
2000
●
●
●
●
1500
2000
2500
3000
3500
4000
4500
5000
Monat x2i
Ökonometrie (SS 2017)
Folie 245
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität III
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 246
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IV
Schätzergebnisse des vollständigen Modells
Call:
lm(formula = NuG ~ Personen + Monat + Sonderzahlung)
Residuals:
Min
1Q
-268.49 -109.97
Median
-0.13
3Q
122.96
In der Schätzung des vollständigen Modells ist nur der Koeffizient des
Regressors Personen signifikant von Null verschieden (zu gängigen
Signifikanzniveaus).
Max
248.30
Insbesondere die (geschätzten) Koeffizienten zu den Regressoren Monat und
Sonderzahlung sind zwar (wie zu erwarten) positiv, durch die
vergleichsweise großen Standardfehler jedoch insignifikant.
Coefficients:
Estimate Std. Error t
(Intercept)
61.44311 124.97001
Personen
159.57520
29.13033
Monat
0.17848
0.11854
Sonderzahlung
0.07205
0.12413
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
value Pr(>|t|)
0.492
0.628
5.478 1.96e-05 ***
1.506
0.147
0.580
0.568
Die imperfekte, aber große (lineare) Abhängigkeit der beiden Regressoren
Monat und Sonderzahlung überträgt sich auf einen stark ausgeprägten
(negativen!) Zusammenhang der Koeffizientenschätzer zu diesen Regressoren,
was sich auch in Konfidenzellipsen zu den entsprechenden Parametern
widerspiegelt:
0.1 ' ' 1
Residual standard error: 153.3 on 21 degrees of freedom
Multiple R-squared: 0.8242,
Adjusted R-squared:
F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08
Ökonometrie (SS 2017)
Es liegt die Vermutung nahe, dass die Schätzung der Koeffizienten deshalb so
ungenau“ ausfällt, weil die Effekte der beiden Regressoren wegen der hohen
”
Korrelation im linearen Modellansatz kaum zu trennen sind.
0.7991
Folie 247
Ökonometrie (SS 2017)
Folie 248
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität V
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VI
Konfidenzellipse (1 − α = 0.95) für β2 und β3 im vollständigen Modell
0.1
0.0
●
−0.01431
= −0.973 errechnen lässt.
0.01405 · 0.01541
Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor
d βb2 , βb3 ) = √
als Korr(
−0.2
−0.1
Sonderzahlung β3
0.2
0.3
0.4
Bei Betrachtung der Konfidenzellipse fällt auf, dass die Ellipse sehr flach“ ist.
”
Grund hierfür ist die bereits erwähnte starke negative (geschätzte)
Korrelation der Schätzfunktionen βb2 und βb3 , die sich aus der geschätzten
Varianz-Kovarianzmatrix


15617.50443 −2322.95496 −3.52136 0.76131

848.57606
0.76545 −0.69665
b = −2322.95496
b β)

V(
 −3.52136
0.76545
0.01405 −0.01431
0.76131
−0.69665
−0.01431 0.01541
−0.1
0.0
0.1
0.2
0.3
0.4
Jahr = 12 · Monat + Sonderzahlung
0.5
zusammen, erhält man folgende Ergebnisse:
Monat β2
Ökonometrie (SS 2017)
Folie 249
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VII
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 250
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VIII
Modell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung
Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)
signifikant von Null verschieden (und wie zu erwarten positiv).
Call:
lm(formula = NuG ~ Personen + Jahr)
Residuals:
Min
1Q
-263.159 -109.291
Median
5.702
3Q
121.542
Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil der
erklärten Varianz beinahe unverändert, das adjustierte Bestimmtheitsmaß
vergrößert sich sogar.
Max
262.347
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.0719
122.3825
0.475
0.64
Personen
162.0057
28.0344
5.779 8.18e-06 ***
Jahr
0.0190
0.0021
9.044 7.27e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen der
Regressoren Monat oder Sonderzahlung aus dem ursprünglichen Modell
entfernt.
Ist das Weglassen von Regressoren oder eine Umspezifikation des Modells
möglich und sinnvoll, kann man das Problem der (imperfekten)
Multikollinearität also dadurch umgehen.
Residual standard error: 150.5 on 22 degrees of freedom
Multiple R-squared: 0.8227,
Adjusted R-squared:
F-statistic: 51.04 on 2 and 22 DF, p-value: 5.449e-09
Ansonsten kann man den bisher dargestellten Folgen von imperfekter
Multikollinearität nur durch einen vergrößerten Stichprobenumfang
entgegenwirken.
Ökonometrie (SS 2017)
0.8066
Folie 251
Ökonometrie (SS 2017)
Folie 252
4 Multiple lineare Regression
Multikollinearität 4.9
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IX
Beispiel: Imperfekte Multikollinearität X
Modell ohne Regressor Sonderzahlung
Modell ohne Regressor Monat
Call:
lm(formula = NuG ~ Personen + Monat)
Residuals:
Min
1Q
-261.656 -109.348
Median
7.655
3Q
109.174
Call:
lm(formula = NuG ~ Personen + Sonderzahlung)
Residuals:
Min
1Q
-299.94 -113.54
Max
267.646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.88292 122.92403
0.471
0.642
Personen
162.83304
28.15048
5.784 8.08e-06 ***
Monat
0.24538
0.02726
9.003 7.88e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 151 on 22 degrees of freedom
Multiple R-squared: 0.8214,
Adjusted R-squared:
F-statistic: 50.59 on 2 and 22 DF, p-value: 5.901e-09
Ökonometrie (SS 2017)
Max
293.15
Estimate Std. Error t value Pr(>|t|)
(Intercept)
106.1682
124.8342
0.850
0.404
Personen
149.8531
29.2120
5.130 3.85e-05 ***
Sonderzahlung
0.2538
0.0298
8.515 2.06e-08 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 157.7 on 22 degrees of freedom
Multiple R-squared: 0.8052,
Adjusted R-squared:
F-statistic: 45.48 on 2 and 22 DF, p-value: 1.53e-08
0.8052
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität XI
0.7875
Ökonometrie (SS 2017)
Folie 254
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität I
Das Vorliegen von imperfekter Multikollinearität bedeutet im Übrigen nicht,
dass die Resultate der Schätzung nicht mehr nützlich oder gar falsch sind,
insbesondere bleiben verwertbare Prognosen meist möglich.
Im vollständigen Modell erhält man außerdem beispielsweise mit dem
Konfidenzintervall zum Konfidenzniveau
1 − α = 0.95 für die Summe
0
β2 + β3 , also für a0 β mit a = 0 0 1 1 , mit
[0.1781, 0.3219]
eine deutlich präzisere Schätzung als für die einzelnen Koeffizienten
β2 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.0681, 0.425]) und
β3 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.1861, 0.3302]).
Werden die schlecht zu trennenden“ Effekte also (z.B. durch geeignete
”
Linearkombination) zusammengefasst, sind wieder präzisere Schlüsse möglich.
Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant
(α = 0.05) von Null verschieden ist, kann mit einem Blick auf die
Konfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positiv
beantwortet werden.
Ökonometrie (SS 2017)
3Q
87.79
Coefficients:
Folie 253
4 Multiple lineare Regression
Median
25.03
Folie 255
Ausstehend ist noch die präzisere Festlegung einer Schwelle für die lineare
Abhängigkeit zwischen den Regressoren, ab der man üblicherweise von
imperfekter Multikollinearität spricht.
Man benötigt zunächst ein Maß für die lineare Abhängigkeit der Regressoren.
Dazu setzt man zunächst jeden der K (echten) Regressoren separat als
abhängige Variable in jeweils ein neues Regressionsmodell ein und verwendet
als unabhängige, erklärende Variablen jeweils alle übrigen Regressoren in der
folgenden Gestalt:
x1i = γ0
+ γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
x2i = γ0 + γ1 x1i
..
..
.
.
+ γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
..
..
.
.
x(K −1)i = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . .
xKi = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i
Ökonometrie (SS 2017)
+ γK xKi + ui ,
+ ui .
Folie 256
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität II
1
1 − Rk2
Offensichtlich gilt VIFk ≥ 1, und VIFk wächst mit zunehmendem Rk2
(es gilt genauer VIFk = 1 ⇐⇒ Rk2 = 0 und VIFk → ∞ ⇐⇒ Rk2 → 1).
Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 im
Modell enthalten, spricht man in der Regel vom Vorliegen von imperfekter
Multikollinearität oder vom Multikollinearitätsproblem, es existieren aber
auch einige andere Faustregeln“.
”
4 Multiple lineare Regression
Folie 257
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen I
d βbk ) =
Var(
c2
c2
σ
σ
· VIFk = Pn
· VIFk
2
n · skk
i=1 (xki − x k )
Regressor
VIF
Personen
Monat
Sonderzahlung
1.062
18.765
18.531
Nach der oben genannten Faustregel“ liegt also ein Multikollinearitätsproblem
”
bei den Regressoren Monat und Sonderzahlung vor.
Ökonometrie (SS 2017)
Folie 258
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen II
Die Annahme 2 an die Störgrößen ui auf Folie 186 lautet Var(ui ) = σ 2 für
alle i ∈ {1, . . . , n}, es wird also die Gleichheit aller Störgrößenvarianzen
gefordert.
Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch als
Homoskedastie oder Homoskedastizität dieser Zufallsvariablen bezeichnet.
Man spricht bei Erfüllung der Annahme 2 an die Störgrößen damit auch von
homoskedastischen Störgrößen.
Das Gegenteil von Homoskedastie wird mit Heteroskedastie oder
Heteroskedastizität bezeichnet.
Ist Annahme 2 an die Störgrößen verletzt, gilt also (mit σi2 := Var(ui ))
σi2 6= σj2 für mindestens eine Kombination i, j ∈ {1, . . . , n}, so spricht man
von heteroskedastischen Störgrößen.
Ökonometrie (SS 2017)
In der Darstellung (mit den Abkürzungen x k und skk aus Folie 191)
der geschätzten Varianz der Parameterschätzer βbk ist die Bezeichnung
Varianz-Inflations-Faktor“ selbsterklärend.
”
In der im Beispiel durchgeführten Schätzung des vollständigen Modells
ergeben sich die folgenden Varianz-Inflations-Faktoren:
zu definieren.
Ökonometrie (SS 2017)
Multikollinearität 4.9
Messung von imperfekter Multikollinearität III
Die K resultierenden Bestimmtheitsmaße Rk2 (k ∈ {1, . . . , K }) werden dann
verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)
VIFk :=
4 Multiple lineare Regression
Folie 259
Im Folgenden untersuchen wir die Auswirkungen des Vorliegens
heteroskedastischer, aber (nach wie vor) unkorrelierter Störgrößen.
Es gelte also
 2
σ1
0


V(u) = diag(σ12 , . . . , σn2 ) :=  ...

0
0
V(u) ist also eine Diagonalmatrix.
0
σ22
0 ···
0 ···
..
.
0
0
0
0
0
0
0
0
···
···
0
0
2
σn−1
0

0
0

..  ,
.

0
σn2
Sind die Störgrößen gemeinsam normalverteilt (gilt also Annahme
sind die ui noch unabhängig, aber nicht mehr identisch verteilt.
Ökonometrie (SS 2017)
4
), so
Folie 260
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Auswirkungen von Heteroskedastie in den Störgrößen
bei Schätzung des Modells mit der OLS-/KQ-Methode
I
I
b bleibt unverzerrt für β.
Der Vektor von Schätzfunktionen β
(Die Koeffizientenschätzer bleiben prinzipiell sinnvoll und gut einsetzbar.)
b ist nicht mehr effizient (varianzminimal).
β
(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sind
präzisere Schätzfunktionen konstruierbar. Dies wird in dieser Veranstaltung aber
nicht weiter besprochen.)
Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltung
unbrauchbar!
Ursächlich für den letzten (und folgenreichsten) Aspekt ist, dass bei der
b bzw. V(
b regelmäßig die (bei
b β)
Herleitung bzw. Berechnung von V(β)
Heteroskedastie falsche!) Spezifikation V(u) = σ 2 In eingesetzt bzw.
verwendet wurde.
Ökonometrie (SS 2017)
Folie 261
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie II
Schätzung von V(β)
n
bn2 )
diag(b
u12 , . . . , u
n − (K + 1)
 2
b1 0 0 · · ·
u
0 u
b22 0 · · ·

n
 ..
..
=

.
n − (K + 1)  .
 0 0 0 ···
0 0 0 ···
0
0
0
0
0
0
2
bn−1
u
0

0
0

..  .
.

0
bn2
u
= (X0 X)−1 X0 V(u)X(X0 X)−1 .
Bei unbekannter Form von Heteroskedastie wurde als Schätzer für V(u) von
Halbert White zunächst (Econometrica, 1980) die folgende Funktion
vorgeschlagen:
 2

b1 0 0 · · · 0
u
0
0
0 u
b22 0 · · · 0
0
0


 ..
.. 
2
2
.
b
..
bn ) =  .
Vhc0 (u) := diag(b
u1 , . . . , u
.


2
 0 0 0 ··· 0 u
bn−1 0 
bn2
0 0 0 ··· 0
0
u
Ökonometrie (SS 2017)
Folie 262
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz- und Prognoseintervalle sowie Hypothesentests müssen nun auf der
Verteilungsaussage
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
•
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
aufbauen, die durch eine geeignete Schätzung von V(u) nutzbar gemacht
wird.
b für
b hc (β)
Die Verwendung eines heteroskedastie-konsistenten Schätzers V
b
V(β) führt dazu, dass viele bei Homoskedastie (zumindest bei gemeinsam
normalverteilen Störgrößen) exakt gültigen Verteilungsaussagen nur noch
asymptotisch und damit für endliche Stichprobenumfänge nur noch
näherungsweise (approximativ) gelten (selbst bei gemeinsam normalverteilten
Störgrößen).
b := (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
V
als (unter moderaten Bedingungen konsistenten) Schätzer für die
b
Varianz-Kovarianz-Matrix V(β).
bei heteroskedastischen Störgrößen
bzw.
b aus Folie 262 liefert dann z.B.
Einsetzen in die Darstellung von V(β)
Ökonometrie (SS 2017)
b nicht mehr
Bei Vorliegen von Heteroskedastie in den Störgrößen kann V(β)
so stark wie auf Folie 198 vereinfacht werden, man erhält lediglich
0 h
0 i
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 )X(X0 X)−1
Konfidenz-, Prognoseintervalle und Hypothesentests I
Auf dieser Basis wurden weitere Schätzer entwickelt, einer davon ist die (für
bessere Eigenschaften in kleinen Stichproben um Freiheitsgrade korrigierte)
Variante
b hc1 (u) :=
V
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie I
Schätzung von V(β)
Heteroskedastie der Störgrößen III
I
4 Multiple lineare Regression
Folie 263
Ökonometrie (SS 2017)
Folie 264
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests II
Zusammenfassung: t-Test für einzelne lineare Hypothesen
bei heteroskedastischen Störgrößen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Achtung!
Anwendungsvoraussetzungen
b muss
Bei der Verwendung von heteroskedastie-konsistenten Schätzern für V(β)
unbedingt darauf geachtet werden, keine Formeln“ einzusetzen, die unter
”
Ausnutzung von nur bei Homoskedastie der Störgrößen gültigen
Zusammenhängen hergeleitet wurden.
Nullhypothese
Gegenhypothese
c2 oder σ
Generell sind ganz offensichtlich alle Formeln“, die σ
b enthalten, also
”
nicht mehr einsetzbar. Dazu zählen einige Darstellungen auf den Folien 204,
217, 224, 227, 230 und 234.
Teststatistik
Bei der Berechnung von Konfidenzintervallen (Folie 203) und der
Durchführung von Tests (Folie 204) für einzelne Parameter sind natürlich bei
c2 b bzw. σ
jedem Auftreten von σ
b b die entsprechenden Diagonaleinträge der
Benötigte Größen
Der t-Test für einzelne lineare Hypothesen hat nun die folgende Darstellung:
p-Wert
βk
βk
b bzw. deren
b hc (β)
verwendeten heteroskedastie-konsistenten Schätzmatrix V
Wurzeln einzusetzen!
Ökonometrie (SS 2017)
Folie 265
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Die F -Statistik aus Folie 230 ist durch eine Darstellung der Bauart“
”
i−1
h
b 0
b hc (β)A
(Aβb − c)
(Aβb − c)0 AV
F =
L
F =
(Aβb − c) A(X X)
b hc1 (u) =
mit V
n
n−(K +1)
−1
0b
0
−1
X Vhc1 (u)X(X X)
L
0
A
i−1
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β), z.B. V
2
2
n
b
b
bn ), wobei b
u1 , . . . , u
mit Vhc1 (u) = n−(K +1) diag(b
u = y − Xβ
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Ökonometrie (SS 2017)
Folie 266
4 Multiple lineare Regression
Anwendungsvoraussetzungen
Teststatistik
Verteilung (H0 )
(Aβb − c)
Benötigte Größen
bn2 ).
diag(b
u12 , . . . , u
Der F -Test hat also bei heteroskedastischen Störgrößen die folgende Gestalt:
Ökonometrie (SS 2017)
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
t= q
b
b hc (β)a
a0 V
0
t für a β = c näherungsweise t(n − (K + 1))-verteilt
Heteroskedastische Störgrößen 4.10
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
zu ersetzen, beispielsweise also durch
0
H0 : a0 β ≤ c
H1 : a0 β > c
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Auch die alternativen Darstellungen der Statistik des F -Tests von Folie 236f.
verlieren ihre Korrektheit!
h
Kritischer Bereich
zum Niveau α
H0 : a0 β = c
H1 : a0 β 6= c
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
Konfidenz-, Prognoseintervalle und Hypothesentests III
0
Verteilung (H0 )
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
Folie 267
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
b − c)0 AV
b 0
b − c)
b hc (β)A
(Aβ
(Aβ
L
F ist approx. F (L, n − (K + 1))-verteilt, falls Aβ = c
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b z.B. V
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β),
n
b
b hc1 (u) =
bn2 ), wobei b
mit V
diag(b
u12 , . . . , u
u = y − Xβ
n−(K +1)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
Folie 268
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests IV
Konfidenz-, Prognoseintervalle und Hypothesentests V
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Ein approximatives symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man bei heteroskedastischen Störgrößen durch
q
q
b , a0 βb + tn−(K +1);1− α · a0 V
b
b hc (β)a
b hc (β)a
a0 βb − tn−(K +1);1− α2 · a0 V
2
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Bei der Konstruktion von Konfidenzellipsen bzw. -ellipsoiden ist natürlich
analog eine geeignete Darstellung der F -Statistik (siehe z.B. Folie 267) zu
verwenden, man erhält einen (approximativen) Konfidenzbereich zum
Konfidenzniveau 1 − α also nun (unter Beibehaltung der bisherigen
Bezeichnungen) mit der Menge
h
i−1
b 0
b hc (β)A
c ∈ RL (Aβb − c)0 AV
(Aβb − c) ≤ L · FL,n−(K +1);1−α .
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 269
Heteroskedastische Störgrößen 4.10
Robuste Standardfehler“
”
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Intervallprognosen von y0 gegeben x0 sind nun nicht mehr sinnvoll
durchführbar, da man keine Informationen mehr über die von u0 verursachte
Schwankung von y0 hat!
Ökonometrie (SS 2017)
Folie 270
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler I
Die Verwendung von heteroskedastie-konsistenten Schätzern für die
Standardabweichungen von βbk (bzw. weitergehender die Verwendung eines
b wird
heteroskedastie-konsistenten Schätzers für die Schätzung von V(β))
auch als Verwendung robuster Standardfehler“ bezeichnet.
”
Gängige Statistik-Software erlaubt die Verwendung robuster Standardfehler,
auch wenn standardmäßig in der Regel von homoskedastischen Störgrößen
ausgegangen wird.
In der Statistik-Software R implementiert beispielsweise die Funktion hccm
( heteroscedasticity-corrected covariance matrix“) im Paket car verschiedene
”
b bei den
Varianten heteroskedastie-konsistenter Schätzungen von V(β)
Auswertungen zu linearen Regressionsmodellen.
Die Verwendung robuster Standardfehler trotz homoskedastischer Störgrößen
ist unkritisch. Moderne Lehrbücher empfehlen zunehmend eine generelle
Verwendung robuster Standardfehler.
Ökonometrie (SS 2017)
(Approximative) Intervallprognosen für E(y0 ) gegeben x0 zur
Vertrauenswahrscheinlichkeit 1 − α (auch interpretierbar als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) gegeben x0 ) erhält
man nun in der Gestalt
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
Folie 271
b und V
b im Beispiel von Folie 207:
b β)
b hc1 (β)
Berechnung von V(
> library(car)
> fit
<- lm(Lohnhöhe ~ Ausbildung + Alter)
> print(vcov(fit),digits=6)
# "standard"
(Intercept)
Ausbildung
Alter
(Intercept) Ausbildung
Alter
27051.397
456.8888 -645.7068
456.889
449.0435 -52.7609
-645.707
-52.7609
20.9445
> Vhhc1 <- hccm(fit, type="hc1")
> print(Vhhc1,digits=6)
(Intercept)
Ausbildung
Alter
Ökonometrie (SS 2017)
# "robust"
(Intercept) Ausbildung
Alter
23815.318 -1602.3359 -583.2360
-1602.336
271.0231
26.8099
-583.236
26.8099
16.1392
Folie 272
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler II
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler III
t-Tests auf Signifikanz der einzelnen Koeffizienten:
> print(coeftest(fit))
Die Schätzung unter Zulassung heteroskedastischer Störgrößen führt im
Beispiel zu kleineren p-Werten der Tests auf Signifikanz der einzelnen
Parameter.
# "standard"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
164.4731 6.2491 8.814e-06 ***
Ausbildung
62.5745
21.1906 2.9529 0.008904 **
Alter
10.6020
4.5765 2.3166 0.033265 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> print(coeftest(fit, vcov. = Vhhc1))
Insbesondere ist nun der Koeffizient zum Regressor Ausbildung sogar zum
Signifikanzniveau α = 0.001 bzw. der Koeffizient zum Regressor Alter sogar
zum Signifikanzniveau α = 0.01 signifikant positiv!
Der t-Test zum Test der linearen Hypothese
H0 : β1 − 2 · β2 ≤ 0
# "robust"
t test of coefficients:
H0 : a0 β ≤ c
gegen
H1 : a0 β > c
0
mit a = 0 1 −2 und c = 0 wird im Folgenden statt unter der Annahme
von Homoskedastie der Störgrößen unter Zulassung heteroskedastischer
Störgrößen durchgeführt.
Ökonometrie (SS 2017)
Folie 273
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler IV
= 228.3404
t=q


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
a0 βb − c
41.371 − 0
=√
= 2.7378 .
228.3404
b
b hc1 (β)a
a0 V
Folie 274
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
[
Mit der (bereits auf Folie 218 berechneten) Punktprognose E(y
0 ) = 1680.982
für die erwartete Lohnhöhe eines 38-jährigen Mitarbeiters, der nach dem
Hauptschulabschluss weitere 4 Ausbildungsjahre absolviert hat (also für
0
x0 = 1 4 38 ), erhält man unter Annahme heteroskedastischer
Störgrößen nun mit
b 0= 1
x0 Vhc1 (β)x
0b
4

23815.318
38 −1602.336
−583.236
−1602.336
271.023
26.810
 
−583.236
1
26.810   4  = 2462.304
16.139
38
das Prognoseintervall
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
h
i
√
√
= 1680.982 − 2.1098 · 2462.304 , 1680.982 + 2.1098 · 2462.304
= [1576.29 , 1785.674]
H0 kann nun zum Signifikanzniveau α = 0.05 anders als bei Annahme
homoskedastischer Störgrößen also abgelehnt werden, da
t = 2.7378 ∈ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Beispiel: Robuste Standardfehler V
b wie auf Folie 272 angegeben erhält man nun zunächst
b hc1 (β)
Mit V

 
23815.318 −1602.336 −583.236
0
b = 0 1 −2 −1602.336
b hc1 (β)a
271.023
26.810   1 
a0 V
−583.236
26.810
16.139
−2
1
H1 : β1 − 2 · β2 > 0
bzw.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
154.3221 6.6601 4.021e-06 ***
Ausbildung
62.5745
16.4628 3.8010 0.001428 **
Alter
10.6020
4.0174 2.6390 0.017229 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
und mit a0 βb = 0
gegen
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38. (Intervall bei homoskedastischen Störgrößen: [1565, 1796.964])
Folie 275
Ökonometrie (SS 2017)
Folie 276
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste“ Konfidenzellipse für β1 und β2
”
(Ausschnitt)
^ ^
V(β)
^
^
Vhc1(β)
10
0
5
Alter β2
15
20
4
●
40
60
80
100
Tests auf Heteroskedastie 4.11
Inhaltsverzeichnis
Modell von Folie 207, mit bzw. ohne Verwendung robuster Standardfehler, 1 − α = 0.95
20
4 Multiple lineare Regression
Multiple lineare Regression
Multiples lineares Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Tests einzelner linearer Hypothesen
Konfidenzintervalle für Linearkombinationen
Tests mehrerer linearer Hypothesen
Konfidenzellipsen
Multikollinearität
Heteroskedastische Störgrößen
Tests auf Heteroskedastie
120
Ausbildung β1
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 277
Tests auf Heteroskedastie 4.11
Tests auf Heteroskedastie der Störgrößen
4 Multiple lineare Regression
Folie 278
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test I
Neben dem Ansatz, generell eine heteroskedastie-konsistente Schätzung von
b zu verwenden, besteht auch die Möglichkeit, das Vorliegen von
V(β)
Heteroskedastizität der Störgrößen statistisch zu untersuchen, um dann bei
”
Bedarf“ einen heteroskedastie-konsistenten Schätzer zu verwenden.
Hierzu existieren verschiedene Hypothesentests, deren
Anwendungsmöglichkeiten zum Beispiel davon abhängen, ob man eine
bestimmte Quelle“ für die Heteroskedastie in den Störgrößen angeben kann
”
bzw. vermutet.
In der vorangegangenen Regression (Lohnhöhe regressiert auf Ausbildung
und Alter) könnte man beispielsweise vermuten, dass die Varianz der
Störgrößen dort groß ist, wo auch die Lohnhöhe groß ist.
Ein Test, der in dieser Situation sehr gut geeignet sein kann, ist der
Goldfeld-Quandt-Test.
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Folie 279
Zur (sinnvollen) Anwendung des Goldfeld-Quandt-Tests ist es erforderlich,
dass die Heteroskedastie in den Störgrößen
I
I
von einer beobachteten (und identifizierten) Variablen verursacht wird und
monoton“ in dieser Variablen ist.
”
Die Monotonie“ kann sich auch dahingehend äußern, dass sich bei einem
”
(nur) nominalskalierten Regressor mit zwei Ausprägungen (also z.B. einer
Dummy-Variablen!) die Störgrößenvarianz in der einen Gruppe“ von der in
”
der anderen Gruppe unterscheidet!
Zur Anwendung des Goldfeld-Quandt-Tests ist es bei einer
ordinal-/kardinalskalierten Variablen, die die Störgrößenvarianz monoton“
”
beeinflussen soll, sogar erforderlich, den Datensatz in eine Gruppe von
Beobachtungen mit kleinen“ Ausprägungen und eine weitere Gruppe von
”
Beobachtungen mit großen“ Ausprägungen dieser Variablen aufzuteilen
”
(eventuell unter Auslassung eines Teils der Daten mit mittelgroßen“
”
Ausprägungen dieser Variablen).
Ökonometrie (SS 2017)
Folie 280
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test II
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test III
Das ursprüngliche Regressionsmodell wird dann jeweils getrennt für die
beiden Gruppen A (entspricht ggf. Gruppe mit kleinen“ Ausprägungen) und
”
B (entspricht ggf. Gruppe mit großen“ Ausprägungen) (unter der – für die
”
Durchführung des Tests wenig schädlichen – Annahme von Homoskedastie in
beiden Gruppen) geschätzt.
Die Anwendung des Goldfeld-Quandt-Tests läuft dann auf einen (aus der
Schließenden Statistik bekannten!) F -Test zum Vergleich zweier Varianzen
(unter Normalverteilungsannahme) hinaus.
Unter der Nullhypothese der Homoskedastie sind insbesondere die
Störgrößenvarianzen beider Gruppen, im Folgenden mit σA2 bzw. σB2
bezeichnet, sowohl konstant als auch gleich.
Der Test kann sowohl beidseitig als auch einseitig (links- bzw. rechtsseitig)
durchgeführt werden, so erhält man die folgenden Hypothesenpaare:
H0 : σA2 = σB2
gegen
H1 : σA2 6= σB2
H0 : σA2 ≤ σB2
gegen
H1 : σA2 > σB2
Folie 281
4 Multiple lineare Regression
F =
b0A u
bA /(nA − (K + 1))
SER2A
u
=
b0B u
bB /(nB − (K + 1))
u
SER2B
der Teststatistik, die bei Gültigkeit von σA2 = σB2 eine
F (nA − (K + 1), nB − (K + 1))-Verteilung besitzt.
Insgesamt erhält man die folgende Zusammenfassung des
Goldfeld-Quandt-Tests:
H0 : σA2 ≥ σB2
gegen
H1 : σA2 < σB2
Ökonometrie (SS 2017)
bA bzw. u
bB jeweils den Residuenvektor der Schätzung aus
Bezeichnen u
Gruppe A bzw. B, SERA bzw. SERB jeweils den Standard Error of Regression
(residual standard error) der Schätzung aus Gruppe A bzw. B, nA bzw. nB
die Länge des jeweils zur Schätzung verwendeten (Teil-)Datensatzes für
Gruppe A bzw. B sowie K (wie üblich) die Anzahl (echter) Regressoren, so
erhält man die möglichen Darstellungen
Tests auf Heteroskedastie 4.11
Zusammenfassung: Goldfeld-Quandt-Test (GQ-Test)
Ökonometrie (SS 2017)
Folie 282
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test I
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit E(u) = 0, V(u) Diagonalmatrix aus σA2 , σB2 ,
u normalverteilt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Auswahl von zwei Gruppen
A bzw. B vom Umfang nA bzw. nB aus den Beobachtungen
H0 : σA2 = σB2
H1 : σA2 6= σB2
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
H0 : σA2 ≤ σB2
H1 : σA2 > σB2
F =
b
u0A b
uA /(nA − (K + 1))
SER2A
=
b
uB /(nB − (K + 1))
u0B b
SER2B
Residuenvektoren b
uA bzw. b
uB oder Standard Error of Regression
SERA bzw. SERB aus jeweils separater Modellschätzung
zu den Gruppen A und B
[0, Fn −(K +1),n −(K +1); α )
A
B
(Fn −(K +1),n −(K +1);1−α , ∞)
A
B
[0, Fn −(K +1),n −(K +1);α )
A
B
1 − FF (n −(K +1),n −(K +1)) (F )
A
B
FF (n −(K +1),n −(K +1)) (F )
A
B
∪(Fn −(K +1),n −(K +1);1− α , ∞)
A
B
2
p-Wert
2 · min
n
FF (n −(K +1),n −(K +1)) (F ),
A
B
o
1 − FF (n −(K +1),n −(K +1)) (F )
A
Ökonometrie (SS 2017)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe >
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-488.33 -154.11
F unter H0 für σA2 = σB2 F (nA − (K + 1), nB − (K + 1))-verteilt
2
zum Niveau α
H0 : σA2 ≥ σB2
H1 : σA2 < σB2
Teilt man den Datensatz des Lohnhöhen-Beispiels“ in die beiden Gruppen A“
”
”
zu den 10 höchsten Lohnhöhen und B“ zu den 10 niedrigsten Lohnhöhen auf,
”
so erhält man die folgende Modellschätzung für Gruppe A“:
”
Median
-34.06
3Q
78.62
Max
534.61
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1516.69
561.23
2.702
0.0305 *
Ausbildung
51.87
32.07
1.618
0.1498
Alter
3.20
11.07
0.289
0.7809
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 328 on 7 degrees of freedom
Multiple R-squared: 0.3051,
Adjusted R-squared:
F-statistic: 1.537 on 2 and 7 DF, p-value: 0.2797
0.1066
B
Folie 283
Ökonometrie (SS 2017)
Folie 284
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test II
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test III
Die Schätzung für Gruppe B“ liefert:
”
Die Teststatistik des GQ-Tests erhält man also durch
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe <=
sort(Lohnhöhe)[10])
F =
Residuals:
Min
1Q
-100.381 -27.528
Median
-2.589
3Q
47.221
Max
101.743
Der rechtsseitige Test zum Signifikanzniveau α = 0.05 lehnt mit
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1198.772
108.647 11.034 1.11e-05 ***
Ausbildung
57.711
24.688
2.338
0.052 .
Alter
3.270
3.359
0.973
0.363
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.72 on 7 degrees of freedom
Multiple R-squared: 0.4967,
Adjusted R-squared:
F-statistic: 3.454 on 2 and 7 DF, p-value: 0.09045
K = (F1−α;nA −(K +1),nB −(K +1) , ∞) = (F0.95;7,7 , ∞) = (3.79, ∞)
wegen F ∈ K die Nullhypothese der Homoskedastie der Störgrößen also ab
und entscheidet sich für eine größere Störgrößenvarianz in der Gruppe, die zu
den größeren Lohnhöhen gehört.
0.3529
Ökonometrie (SS 2017)
Folie 285
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test IV
Visualisierung der Abhängigkeit der
b
ui2
3282
= 17.811 .
77.722
Ökonometrie (SS 2017)
Folie 286
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test V
vom Regressor Lohnhöhe und des GQ-Tests
Punktwolke der abhängigen Variablen und der quadrierten Residuen
100000 150000 200000 250000 300000
2
Die Verwendung der Voreinstellung teilt den Datensatz gemäß der Ordnung
einer vorgegebenen Variablen in zwei (möglichst) gleich große Teile und
macht einen einseitigen Test auf positive Abhängigkeit der Störgrößenvarianz
von der vorgegebenen Variablen (wie im Beispiel):
> library(lmtest)
> gqtest(lm(Lohnhöhe~Ausbildung+Alter),order.by=Lohnhöhe)
●
●
Goldfeld-Quandt test
50000
quadrierte Residuen u^i
Schneller lässt sich die Fragestellung mit dem Befehl gqtest aus dem Paket
lmtest bearbeiten.
SER2B
SER2A
●
data: lm(Lohnhöhe ~ Ausbildung + Alter)
GQ = 17.817, df1 = 7, df2 = 7, p-value = 0.00058
●
●
●
●
0
●
1200
●
●
1400
●
●
●
●
●
1600
●
●
1800
●
2000
2200
2400
2600
Lohnhöhe yi
Ökonometrie (SS 2017)
Folie 287
Ökonometrie (SS 2017)
Folie 288
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test I
Breusch-Pagan-Test II
auf Heteroskedastie in den Störgrößen
auf Heteroskedastie in den Störgrößen
Ein weiterer Test auf Heteroskedastie in den Störgrößen ist der
Breusch-Pagan-Test.
Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine
(einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
Vielmehr lässt sich mit dem Breusch-Pagan-Test eine konstante
Störgrößenvarianz σ 2 ≡ σi2 gegen eine recht allgemeine Abhängigkeit der
Störgrößenvarianzen von Q Variablen z1i , z2i , . . . , zQi , i ∈ {1, . . . , n}, in der
Form
σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
(1)
mit einer Funktion h, an die nur moderate Bedingungen gestellt werden
müssen, abgrenzen.
Im Breusch-Pagan-Test entspricht der Fall einer konstanten
Störgrößenvarianz der Nullhypothese
H0 : γ1 = . . . = γQ = 0
⇐⇒
im allgemeineren Varianz-Modell“ aus Formel (1).
”
4 Multiple lineare Regression
Q=K
I
I
Tests auf Heteroskedastie 4.11
zji = xji
für i ∈ {1, . . . , n}, j ∈ {1, . . . , K } .
die Verwendung nicht nur der Regressoren des ursprünglichen Modells, sondern
auch Potenzen hiervon und/oder Produkte verschiedener Regressoren oder
die Verwendung der aus der ursprünglichen Modellschätzung gewonnenen ybi .
Unter dem Namen Breusch-Pagan-Test“ (BP-Test) werden üblicherweise
” Versionen subsumiert, nämlich
zwei unterschiedliche
I
Folie 289
und
Durch die Freiheit bei der Auswahl der Einflussvariablen z1i , z2i , . . . , zQi sind
aber auch zahlreiche Varianten möglich, zum Beispiel
I
σi2 ≡ h(γ0 )
Ökonometrie (SS 2017)
Häufig werden als Variablen z1i , z2i , . . . , zQi gerade wieder die Regressoren
des ursprünglichen Regressionsmodells eingesetzt, es gilt dann also
der ursprüngliche Test von Breusch und Pagan (Econometrica, 1979), der
unabhängig auch von Cook und Weisberg (Biometrika, 1983) vorgeschlagen
wurde, sowie
eine robuste“ Modifikation von Koenker (Journal of Econometrics, 1981), die
”
geeigneter ist, wenn die Störgrößen nicht normalverteilt sind.
Ökonometrie (SS 2017)
Folie 290
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test III
Breusch-Pagan-Test IV
auf Heteroskedastie in den Störgrößen
auf Heteroskedastie in den Störgrößen
Für beide Versionen des BP-Tests ist dann die Hilfsregression
Beide Versionen des BP-Tests sind als Score-Test“ konzipiert, die
”
Teststatistik lässt sich jedoch jeweils leicht auf Basis von
(OLS-)Schätzergebnissen einer (linearen) Hilfsregression berechnen.
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei ,
bi die Residuen aus der Schätzung des auf heteroskedastische
Sind u
Störgrößen zu untersuchenden
linearen Modells und RSS die Residual Sum of
Pn
b0 u
b), so benötigt man als abhängige Variable
bi2 = u
Squares (mit RSS = i=1 u
der Hilfsregression die gemäß
wi :=
n 2
n 2
b =
b
u
u
b0 u
b i
u
RSS i
für i ∈ {1, . . . , n}
standardisierten“ quadrierten Residuen wi .
”
Ökonometrie (SS 2017)
(per OLS-/KQ-Methode) zu schätzen.
Im ursprünglichen BP-Test erhält man die unter der Nullhypothese
näherungsweise χ2 (Q)-verteilte Teststatistik dann als die Hälfte der
b
Explained Sum of Squares“ der Hilfsregression, mit der Bezeichnung
ei
Pn
”
für die Residuen der Hilfsregression und der Abkürzung w = n1 i=1 wi also
zum Beispiel unter Verwendung von ESS = TSS − RSS durch
!
!!
n
n
X
X
1
2
2
2
b
χ = ·
(wi − w ) −
ei
.
2
i=1
Folie 291
i ∈ {1, . . . , n},
Ökonometrie (SS 2017)
i=1
Folie 292
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test V
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Original“)
”
auf Heteroskedastie in den Störgrößen
auf Heteroskedastizität der Störgrößen
In der robusteren Version von Koenker erhält man die unter der
Nullhypothese ebenfalls näherungsweise χ2 (Q)-verteilte Teststatistik als
n-faches multiples Bestimmtheitsmaß der Hilfsregression, es gilt also
2
χ =n·
RH2
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
mit der Bezeichnung RH2 für das Bestimmtheitsmaß der Hilfsregression.
Teststatistik
Offensichtlich kann (nur) bei Verwendung der Version von Koenker auf die
Standardisierung der quadrierten Residuen der ursprünglichen
Modellschätzung verzichtet werden und die Hilfsregression auch direkt mit
bi2 durchgeführt werden, da dies das
der abhängigen Variablen u
Bestimmtheitsmaß nicht ändert (wohl aber die ESS!).
Verteilung (H0 )
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
!
!!
n
n
X
X
1
2
2
2
b
(wi − w ) −
ei
χ = ·
2
i=1
i=1
χ2 ist approx. χ2 (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
Benötigte Größen
Kritischer Bereich
zum Niveau α
b
bn )0 = y − X(X0 X)−1 X0 y, wi =
u = (b
u1 , . . . , u
b
ei die Residuen der Hilfsregression
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
Folie 293
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Koenker“)
”
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
χ2 = n · RH2
χ ist approx. χ (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
0
−1
0
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
White hat in seiner Arbeit von 1980 (Econometrica) nicht nur
heteroskedastie-konsistente Schätzverfahren, sondern auch einen Test auf
Heteroskedastie in den Störgrößen vorgeschlagen.
Es zeigt sich, dass der White-Test auf heteroskedastische Störgrößen ein
Spezialfall der Koenker“-Version des Breusch-Pagan-Tests ist.
”
Konkret erhält man den White-Test bei der Durchführung eines
Breusch-Pagan-Tests nach Koenker, wenn man als Einflussvariablen zqi für
die Varianz der Störgrößen gerade
2
0
Folie 294
auf Heteroskedastie in den Störgrößen
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
2
Ökonometrie (SS 2017)
White-Test
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
Nullhypothese
Gegenhypothese
(χ2Q;1−α , ∞)
1 − Fχ2 (Q) (χ2 )
p-Wert
Ökonometrie (SS 2017)
n
b2 ,
u
b
u0 b
u i
I
RH2
b
bn ) = y − X(X X) X y,
u = (b
u1 , . . . , u
das Bestimmtheitsmaß
bi2 = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
der Hilfsregression u
(χ2Q;1−α , ∞)
I
I
alle Regressoren, zusätzlich
alle quadrierten Regressoren sowie zusätzlich
alle gemischten Produkte von Regressoren
des ursprünglichen Modells wählt.
In einem Modell mit 2 Regressoren wäre also die Hilfsregression
bi2 = γ0 + γ1 x1i + γ2 x2i + γ3 x1i2 + γ4 x2i2 + γ5 x1i x2i + ei
u
1 − Fχ2 (Q) (χ2 )
durchzuführen.
Ökonometrie (SS 2017)
Folie 295
Ökonometrie (SS 2017)
Folie 296
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test I
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test II
Im Folgenden werden zwei Varianten des Breusch-Pagan-Test am bereits
mehrfach verwendeten Lohnhöhen“-Beispiel illustriert.
”
bi2 der ursprünglichen Regression
Ausgehend von den quadrierten Residuen u
der Lohnhöhe auf die beiden Regressoren Ausbildung und Alter (sowie ein
Absolutglied) werden für die Original“-Version des Breusch-Pagan-Tests
”
bi2 berechnet:
zunächst die standardisierten quadrierten Residuen wi = bun0bu u
> uhat <- residuals(lm(Lohnhöhe~Ausbildung+Alter))
> w
<- uhat^2/mean(uhat^2)
Als
Summe
der quadrierten Abweichungen vom arithmetischen Mittel
Pn
(w
−
w
)2 der wi (also als TSS der folgenden Hilfsregression!) erhält
i
i=1
man:
> sum((w-mean(w))^2)
Werden als Einflussvariablen für die Varianz der Störgrößen die beiden
ursprünglichen Regressoren Ausbildung und Alter gewählt, ist dann die
Hilfsregression
wi = γ0 + γ1 Ausbildungi + γ2 Alteri + ei
zu schätzen und die zugehörige RSS zu bestimmen, man erhält
> sum(residuals(lm(w~Ausbildung+Alter))^2)
[1] 45.76786
und damit (gerundet) die Teststatistik
!
!!
n
n
X
X
1
1
2
2
2
b
χ = ·
(wi − w ) −
ei
= (72.666 − 45.768) = 13.449 .
2
2
i=1
i=1
Ein Vergleich zum kritischen Wert χ22;0.95 = 5.991 bei einem Test zum Niveau
α = 0.05 erlaubt die Ablehnung der Nullhypothese und damit den Schluss auf
das Vorliegen von Heteroskedastie in den Störgrößen.
[1] 72.66564
Ökonometrie (SS 2017)
Folie 297
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test III
Ökonometrie (SS 2017)
Folie 298
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test IV
Wird in der beschriebenen Situation ein White-Test durchgeführt, so muss
eine der Hilfsregressionen
bi2 = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2i
u
Man erhält als OLS-Schätzergebnis:
Call:
lm(formula = uhat^2 ~ Ausbildung + Alter + I(Ausbildung^2) +
I(Alter^2) + I(Ausbildung * Alter))
Residuals:
Min
1Q
-104762 -17524
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
oder
Median
-9639
3Q
29687
Max
78007
Coefficients:
wi = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 ·
Ausbildung2i
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
durchgeführt werden.
In der Statistik-Software R müssen diese Rechenoperationen“ von
”
Regressoren bei der Modellformulierung in den Befehl I()“ eingeschlossen
”
werden, da ^“ und *“ bei der Notation von Modellgleichungen andere
”
”
Bedeutungen haben!
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 299
Estimate Std. Error t value Pr(>|t|)
(Intercept)
5778.593 125459.783
0.046
0.9639
Ausbildung
-5788.874 23416.039 -0.247
0.8083
Alter
-6.682
6568.457 -0.001
0.9992
I(Ausbildung^2)
-6319.607
2139.021 -2.954
0.0105 *
I(Alter^2)
-58.640
92.777 -0.632
0.5375
I(Ausbildung * Alter)
1826.589
549.299
3.325
0.0050 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 58820 on 14 degrees of freedom
Multiple R-squared: 0.7093,
Adjusted R-squared:
F-statistic: 6.831 on 5 and 14 DF, p-value: 0.002013
Ökonometrie (SS 2017)
0.6055
Folie 300
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test V
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Inhaltsverzeichnis
(Ausschnitt)
Unter Verwendung des Bestimmtheitsmaßes dieser Hilfsregression ergibt sich
χ2 = n · RH2 = 20 · 0.7093 = 14.186 > χ25;0.95 = 11.07, also wird auch hier
zum Niveau α = 0.05 signifikante Heteroskedastie in den Störgrößen
festgestellt.
Schneller: mit dem Befehl bptest() im Paket lmtest:
I
Original“-Breusch-Pagan-Test (1. Beispiel):
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),studentize=FALSE)
Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 13.449, df = 2, p-value = 0.001201
I
5
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
White“- bzw. Koenker“-Variante (2. Beispiel):
”
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),
+ ~Ausbildung+Alter+I(Ausbildung^2)+I(Alter^2)+I(Ausbildung*Alter))
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 14.186, df = 5, p-value = 0.01447
Ökonometrie (SS 2017)
Folie 301
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren I
Im bisher betrachteten linearen Regressionsmodell
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
∂y
= βk .
∂xk
Nichtlinearität in den Regressoren 5.1
Bereits im White-Test verwendet: Regressionsfunktion“
”
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
die zwar linear in den Regressionsparametern β0 , . . . , β5 , aber nichtlinear in
den Regressoren x1 und x2 ist.
Der marginale Effekt einer Änderung von x1 auf y beträgt hier beispielsweise
(abhängig vom Wert der Regressoren x1 und x2 !)
∂y
= β1 + 2β3 x1 + β5 x2 .
∂x1
Allgemein betrachten wir nun Regressionsmodelle, die sich in der Form
g (yi ) = β0 +β1 h1 (x1i , . . . , xKi )+. . .+βM hM (x1i , . . . , xKi )+ui ,
Die hier als marginaler Effekt“ einer Änderung von xk auf y interpretierbare
”
(partielle) Ableitung ist also konstant und damit insbesondere unabhängig
von xk (sowie unabhängig von anderen Variablen).
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
i ∈ {1, . . . , n},
hängt y also linear von jedem Regressor xk (k ∈ {1, . . . , K }) ab, denn es gilt
bzw.
Folie 302
Nichtlinearität in den Regressoren II
Eine Variable y hängt linear von einer Variablen x ab, wenn der
Differenzenquotient bzw. die Ableitung bzgl. dieser Variablen konstant ist,
wenn also
∂y
∆y
=c
bzw.
=c
∆x
∂x
für eine Konstante c ∈ R gilt.
∆y
= βk
∆xk
Ökonometrie (SS 2017)
Folie 303
i ∈ {1, . . . , n},
mit M Transformationen h1 , . . . , hM der K Regressoren und (ggf.) einer
Transformation g der abhängigen Variablen darstellen lassen.
Ökonometrie (SS 2017)
Folie 304
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren III
h1 (x1n , . . . , xKn )
···
Weitere Beispiele für Modelle mit Regressionsfunktionen, die nichtlinear in
den (ursprünglichen) Regressoren xk sind:
1
2
3
4
5
hM (x1n , . . . , xKn )
Unabhängig von der konkreten Form der Regressionsfunktion muss (wie auch
bisher!) die Korrektheit der Spezifikation der Regressionsfunkion gewährleistet
sein, um die Ergebnisse der Schätzung überhaupt sinnvoll verwerten zu können!
Im Folgenden werden zunächst Regressionsfunktionen untersucht, die nur von
einer unabhängigen Variablen x1 abhängen (wie in den Beispielen 1 – 4 ).
e 0 e −1 e 0
Xe
y.
Ökonometrie (SS 2017)
Folie 305
5 Nichtlineare Regressionsfunktionen
yi = β0 + β1 x1i + β2 x1i2 + ui ,
yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
yi = β0 + β1 ln(x1i ) + ui ,
ln(yi ) = β0 + β1 x1i + ui ,
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui .
Wichtig!
mit vollem Spaltenrang M + 1 führen, bleiben die bisher besprochenen
Eigenschaften der OLS-/KQ-Schätzung dieses Modells bestehen.
Bezeichnet e
y := (g (y1 ), . . . , g (yn ))0 den transformierten (bzw. – falls
g (y ) = y für alle y ∈ R gilt – untransformierten) Vektor der abhängigen
Variable, erhält man beispielsweise den KQ-Schätzer als
βb = (X X)
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren IV
Unter den üblichen Annahmen an die Störgrößen ui und unter der
Voraussetzung, dass die Transformationen h1 , . . . , hM zu einer neuen“
”
Regressormatrix


1 h1 (x11 , . . . , xK 1 ) · · · hM (x11 , . . . , xK 1 )
1 h1 (x12 , . . . , xK 2 ) · · · hM (x12 , . . . , xK 2 )

e := 
X
 ..

..
..
.

.
.
1
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Ökonometrie (SS 2017)
Folie 306
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle I
Polynomiale Modelle II
in nur einer Variablen x1
in nur einer Variablen x1
Die Modelle aus
1
bzw.
2
,
yi = β0 + β1 x1i + β2 x1i2 + ui
bzw. yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
sind Beispiele für polynomiale Modelle (in einer Variablen) der Form
Konfidenzintervalle für die marginalen Effekte an einem vorgegebenen Wert
x1 des Regressors können dann als Konfidenzintervalle für
Linearkombinationen a0 β bestimmt werden, wenn der Vektor a ∈ Rr +1
(abhängig von x1 ) entsprechend gewählt wird, im polynomialen Modell mit
Polynomgrad r also als
yi = β0 + β1 x1i + β2 x1i2 + . . . + βr x1ir + ui
zu vorgegebenem Grad r ∈ {2, 3, . . .} des Polynoms.
In polynomialen Modellen (in einer Variablen) sind die marginalen Effekte
einer Änderung von x1 auf y gegeben durch
∂y
= β1 + 2β2 x1 + . . . + r βr x1r −1
∂x1
a= 0
1
2x1
...
rx1r −1
0
.
Bei einer sehr großen Wahl von r besteht die Gefahr des Overfittings“: Sind
”
bei einer Punktwolke“ aus n Beobachtungen (x1i , yi ) alle xi unterschiedlich,
”
so kann die Punktwolke durch ein Polynom vom Grad r = n − 1 perfekt
interpoliert“ werden!
”
In der Praxis finden sich häufig polynomiale Modelle mit r = 2 oder r = 3.
und damit insbesondere nicht konstant, sondern abhängig vom Regressor x1 .
Ökonometrie (SS 2017)
Folie 307
Ökonometrie (SS 2017)
Folie 308
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle III
(Semi-)logarithmische Modelle I
in nur einer Variablen x1
in nur einer Variablen x1
Gelegentlich wird – unter der Annahme, dass die wahre Regressionsfunktion
ein Polynom von unbekanntem Grad ist – zunächst ein Modell mit großem“
”
r geschätzt und dann sukzessive mit Hilfe von t-Tests überprüft, ob βr
signifikant von Null verschieden ist, um ggf. den Grad r des Polynoms in der
Regressionsfunktion um 1 zu reduzieren.
Log-Transformationen von x1i in ln(x1i ) und/oder yi in ln(yi ) bieten sich
dann an, wenn anstelle der Annahme eines konstanten Effekts ∆y = β1 ∆x1
von absoluten Änderungen ∆x1 auf absolute Änderungen ∆y eher dann ein
konstanter Effekt β1 erwartet wird, wenn relative, prozentuale Änderungen
∆y
1
bei der Ursache ( ∆x
x1 ) und/oder bei der abhängigen Variablen ( y )
betrachtet werden.
Die Nullhypothese eines linearen Zusammenhangs gegen die Alternative eines
polynomialen Zusammenhangs (mit Polynomgrad r ≥ 2) kann offensichtlich
durch einen F -Test mit
Grundlage dafür ist
H0 : β2 = . . . = βr = 0
Ökonometrie (SS 2017)
Folie 309
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
=
1
x
bzw.
∆x
∆x
≈
, wenn |∆x| |x|.
ln(x + ∆x) − ln(x) = ln 1 +
x
x
überprüft werden.
Natürlich können Tests bzw. Konfidenzintervalle auch unter der Annahme
heteroskedastischer Störgrößen durchgeführt werden, wenn die entsprechende
b der Varianz-Kovarianzmatrix
b hc (β)
heteroskedastie-konsistente Schätzung V
b
V(β) und die dafür geeigneten Darstellungen der jeweiligen Tests verwendet
werden.
∂ ln(x)
∂x
Abhängig davon, ob nur die unabhängige Variable, nur die abhängige Variable
oder beide Variablen transformiert werden, sind die folgenden Spezifikationen
möglich:
Ökonometrie (SS 2017)
Folie 310
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle II
(Semi-)logarithmische Modelle III
in nur einer Variablen x1
in nur einer Variablen x1
1
Linear-log-Spezifikation:
2
Log-linear-Spezifikation:
yi = β0 + β1 ln(x1i ) + ui .
ln(yi ) = β0 + β1 x1i + ui .
Konstanter Effekt β1 der relativen Änderung von x1 auf eine absolute
Änderung von y , bzw. abnehmender marginaler Effekt bei steigendem x:
∆y ≈ β1
Konstanter Effekt β1 der absoluten Änderung von x1 auf eine relative
Änderung von y , bzw. steigender marginaler Effekt bei steigendem y :
∂y
β1
∆x1
bzw.
=
x1
∂x1
x1
∆y
∂y
≈ β1 ∆x1 bzw.
= β1 y
y
∂x1
Bsp.: x1i Düngemitteleinsatz, yi Ernteertrag (auf Feld i).
I
I
Bsp.: x1i Berufserfahrung von BWL-Absolventen (in Jahren), yi Einkommen.
Eine (relative) Erhöhung des Düngemitteleinsatzes um 1% erhöht den
(absoluten) Ernteertrag (etwa) um 0.01 · β1 .
Eine (absolute) Erhöhung des Düngemitteleinsatzes um einen Betrag ∆x1 hat
dort mehr Wirkung, wo noch nicht so viel Dünger eingebracht wurde
( abnehmende Grenzerträge“).
”
Ökonometrie (SS 2017)
Folie 311
I
I
Ein Jahr zusätzliche Berufserfahrung erhöht danach das mittlere Einkommen
um etwa 100β1 %.
Eine (absolute) Erhöhung der Berufserfahrung hat also einen höheren
(absoluten) Effekt auf das Einkommen dort, wo das Einkommen ohnehin
bereits ein höheres Niveau hatte.
Ökonometrie (SS 2017)
Folie 312
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle IV
(Semi-)logarithmische Modelle V
in nur einer Variablen x1
in nur einer Variablen x1
3
Log-log-Spezifikation:
Anmerkungen zu Log-transformierten abhängigen Variablen (ln(y ))
ln(yi ) = β0 + β1 ln(x1i ) + ui .
Konstanter Effekt β1 (=Elastizität) der relativen Änderung von x1 auf eine
relative Änderung von y :
Insbesondere Log-log-Spezifikationen können bei der sog. Linearisierung“ von
”
Regressionsmodellen entstehen, die zunächst nichtlinear (auch!) in den
Regressionsparametern sind, zum Beispiel erhält man aus dem Modell (hier:
mit mehreren Regressoren)
yi = β0 · x1iβ1 · x2iβ2 · e ui ,
∆y
∆x1
∂y x1
≈ β1
bzw.
= β1
y
x1
∂x1 y
durch Logarithmieren auf beiden Seiten mit
Bsp.: x1i Kapitaleinsatz pro Arbeitskraft, yi Output pro Arbeitskraft.
I
I
ein linearisiertes“ Modell.
”
Folie 313
5 Nichtlineare Regressionsfunktionen
i ∈ {1, . . . , n}.
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui ,
Erhöhung des per-capita-Kapitaleinsatzes um 1% führt zur Erhöhung des
per-capita-Output um β1 % (Cobb-Douglas-Produktionsfunktion).
Modellierung von konstanten Skalenerträgen“.
”
Ökonometrie (SS 2017)
i ∈ {1, . . . , n},
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle VI
Ökonometrie (SS 2017)
Folie 314
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen I
in nur einer Variablen x1
Bei der Prognose von y0 gegeben x0 bzw. der Bestimmung von ybi auf Basis
von Modellen mit log-tranformierter abhängiger Variablen ln(y ) ist zu
beachten, dass wegen E (e ui ) 6= e E(ui ) trotz der Annahme E(ui ) ≡ 0 im
iid
Allgemeinen E (e ui ) 6= 1 = e 0 gilt. Für ui ∼ N(0, σ 2 ) gilt insbesondere
E (e ui ) = e
σ2
2
iid
, damit erhält man für ln(yi ) = h(x1i ) + ui mit ui ∼ N(0, σ 2 )
E(yi ) = E e ln(yi ) = E e h(x1i )+ui = E e h(x1i ) · e ui
= e h(x1i ) · E (e ui ) = e h(x1i ) · e
σ2
2
> e h(x1i ) .
Wenn die abhängige Variable y in ln(y ) transformiert wird, kann man das
Bestimmtheitsmaß für die geschätzte Regression nicht sinnvoll mit dem
Bestimmtheitsmaß einer Regressionsgleichung für y vergleichen!
(Anteil der erklärten Varianz der ln(yi ) vs. Anteil der erklärten Varianz der yi )
Ökonometrie (SS 2017)
Folie 315
Im Folgenden soll am Beispiel der Abhängigkeit der Milchleistung von Kühen
von der zugeführten Futtermenge die Schätzung einiger in den Regressoren
nichtlinearer Modelle illustriert werden.
Es liege hierzu folgender Datensatz vom Umfang n = 12 zu Grunde:
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
1
2
3
4
5
6
6525
10
8437
30
8019
20
8255
33
5335
5
7236
22
7
8
9
10
11
12
5821
8
7531
14
8320
25
4336
1
7225
17
8112
28
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 14.1)
Es wird nacheinander die Gültigkeit einer linearen, quadratischen, kubischen,
linear-log-, log-linear- bzw. log-log-Spezifikation unterstellt und das
zugehörige Modell geschätzt (unter Homoskedastieannahme).
Ökonometrie (SS 2017)
Folie 316
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen II
Quadratisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + ui
Call:
lm(formula = Milch ~ Futter + I(Futter^2))
Call:
lm(formula = Milch ~ Futter)
3Q
353.4
Residuals:
Min
1Q
-699.14 -135.47
Max
880.9
Folie 317
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen IV
Call:
lm(formula = Milch ~ Futter + I(Futter^2) + I(Futter^3))
Median
5.13
3Q
202.86
Max
490.67
0.9384
Ökonometrie (SS 2017)
Folie 318
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen V
Kubisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + β3 Futter3i + ui
Residuals:
Min
1Q
-641.92 -117.82
3Q
179.63
Residual standard error: 329.9 on 9 degrees of freedom
Multiple R-squared: 0.9496,
Adjusted R-squared:
F-statistic: 84.74 on 2 and 9 DF, p-value: 1.452e-06
0.8421
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Median
-2.44
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4109.445
290.487 14.147 1.87e-07 ***
Futter
271.393
38.626
7.026 6.14e-05 ***
I(Futter^2)
-4.432
1.087 -4.076 0.00277 **
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4985.27
312.84 15.935 1.95e-08 ***
Futter
118.91
15.39
7.725 1.60e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 527.9 on 10 degrees of freedom
Multiple R-squared: 0.8565,
Adjusted R-squared:
F-statistic: 59.68 on 1 and 10 DF, p-value: 1.597e-05
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen III
Lineares Modell: Milchi = β0 + β1 Futteri + ui
Residuals:
Min
1Q Median
-768.2 -275.0 -115.6
5 Nichtlineare Regressionsfunktionen
Linear-log-Modell: Milchi = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = Milch ~ log(Futter))
Residuals:
Min
1Q
-635.74 -287.21
Max
447.31
Median
33.02
3Q
373.09
Max
517.67
Coefficients:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
3818.3
358.2 10.660 8.82e-07 ***
log(Futter)
1268.8
130.1
9.754 2.00e-06 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3954.93841 389.73064 10.148 7.61e-06 ***
Futter
327.00926
97.73076
3.346
0.0101 *
I(Futter^2)
-8.50791
6.63147 -1.283
0.2354
I(Futter^3)
0.07951
0.12747
0.624
0.5502
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 341.7 on 8 degrees of freedom
Multiple R-squared: 0.9519,
Adjusted R-squared:
F-statistic: 52.79 on 3 and 8 DF, p-value: 1.29e-05
Ökonometrie (SS 2017)
Residual standard error: 429.8 on 10 degrees of freedom
Multiple R-squared: 0.9049,
Adjusted R-squared:
F-statistic: 95.14 on 1 and 10 DF, p-value: 1.996e-06
0.9339
Folie 319
Ökonometrie (SS 2017)
0.8954
Folie 320
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VI
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VII
Log-linear-Modell: ln(Milchi ) = β0 + β1 Futteri + ui
Log-log-Modell: ln(Milchi ) = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = log(Milch) ~ Futter)
Call:
lm(formula = log(Milch) ~ log(Futter))
Residuals:
Min
1Q
Median
-0.16721 -0.03642 -0.01678
3Q
0.05692
Residuals:
Min
1Q
Median
-0.076867 -0.028385 -0.004122
Max
0.14677
3Q
0.049235
Max
0.066730
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.523601
0.055220 154.358 < 2e-16 ***
Futter
0.018315
0.002717
6.741 5.1e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.32264
0.04468 186.29 < 2e-16 ***
log(Futter) 0.20364
0.01622
12.55 1.91e-07 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.09318 on 10 degrees of freedom
Multiple R-squared: 0.8196,
Adjusted R-squared: 0.8016
F-statistic: 45.44 on 1 and 10 DF, p-value: 5.098e-05
Residual standard error: 0.0536 on 10 degrees of freedom
Multiple R-squared: 0.9403,
Adjusted R-squared: 0.9343
F-statistic: 157.5 on 1 and 10 DF, p-value: 1.912e-07
Ökonometrie (SS 2017)
Folie 321
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Geschätzte Regressions-/Prognosefunktionen I
Lineares Modell
●
0
15
20
25
Linear−log−Modell
●
●
●
●
Milch
●
30
●
●
●
●
●
●
15
20
25
0.0
1.0
1.5
2.0
2.5
Futter
log(Futter)
Log−log−Modell
log(Milch)
●
●
8.4
●
●
10
15
Futter
20
25
30
●
●
3.0
●
●
3.5
●
9.0
●
●
●
●
8.8
●
●
●
●
●●
●
●
●
●
8.6
●
●
●
●
5
0.5
Log−linear−Modell
●
8.8
30
●
5000
10
9.0
5
●
●
●
●
●
5000
●
●
●
Milch
●
●
7000
7000
10
Kubisches Modell
●
8.6
5
Futter
●
5000
Milch
30
●
log(Milch)
8000
25
●
●
7000
20
Futter
●
Linear
Quadratisch
Kubisch
Linear−log
Log−linear
Log−log
●
6000
Milch
15
●
8.4
Vergleich der Prognosefunktionen
●
5000
10
●
Ökonometrie (SS 2017)
●
●
●
●
5
Nichtlinearität in einer Variablen 5.2
●
7000
7000
●
0
●
●
●
●
●
0
5 Nichtlineare Regressionsfunktionen
Geschätzte Regressions-/Prognosefunktionen II
●
●
●
5000
Milch
●
●
●
0
Folie 322
Quadratisches Modell
●
●
●
●
Ökonometrie (SS 2017)
●
0
●
0.0
0.5
1.0
1.5
2.0
2.5
3.0
5
10
15
20
25
30
3.5
Futter
log(Futter)
Folie 323
Ökonometrie (SS 2017)
Folie 324
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen I
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen II
Wir betrachten nun die folgenden drei Fälle:
In der beim White-Test verwendeten Regressionsfunktion
1
2
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
3
Erinnerung: Dummyvariablen (auch 0,1-Indikatorvariablen genannt, im
Folgenden auch mit dk statt xk bezeichnet) sind Regressoren, die nur die
Werte 0 und 1 annehmen.
Der Wert 1 einer Dummyvariablen dki kennzeichnet bei einem betrachteten
Datenpunkt i in der Regel
ist – anders als bei den bisher näher betrachteten polynomialen oder
(semi-)log-Modellen – der marginale Effekt einer Änderung von x1 auf y
∂y
= β1 + 2β3 x1 + β5 x2
∂x1
I
nicht nur von der betrachteten Stelle x1 des 1. Regressors, sondern auch vom
Wert x2 des 2. Regressors abhängig!
Ursächlich hierfür ist die Verwendung des Produkts x1 · x2 als unabhängige
Variable. Man bezeichnet solche Produkte als Interaktionsvariablen oder
Interaktionsterme.
Ökonometrie (SS 2017)
Folie 325
5 Nichtlineare Regressionsfunktionen
Interaktion von zwei Dummyvariablen
Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen
Interaktion von zwei kardinalskalierten Variablen
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen I
I
das Vorhandensein eines gewissen Charakteristikums/einer gewissen
Eigenschaft bzw.
die Zugehörigkeit zu einer gewissen Gruppe.
Der Wert 1 eines Produkts dki · dli von zwei Dummyvariablen dk und dl tritt
also bei den Datenpunkten i auf, bei denen beide Charakteristika bzw.
Gruppenzugehörigkeiten gleichzeitig vorliegen.
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Die Einführung einer zusätzlichen Interaktionsvariablen d1i d2i ist hier
gleichbedeutend damit, dass für Männer und Frauen das Basiseinkommen
(Absolutglied) und der Effekt des akademischen Grades unterschiedlich sein
können:
Beispiel: Betrachte das Modell
yi = β0 + β1 d1i + β2 d2i + β3 d1i d2i + ui
i ∈ {1, . . . , n},
⇐⇒
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von
I
I
30-jährigen Frauen (d2i = 1) und Männern (d2i = 0)
mit akademischem Grad (d1i = 1) und ohne akademischen Grad (d1i = 0).
I
das Basiseinkommen (Absolutglied) für Männer (β0 ) und Frauen (β0 + β2 )
unterschiedlich, aber
der Effekt eines abgeschlossenen Studiums für Männer und Frauen gleich (β1 ).
Ökonometrie (SS 2017)
Folie 327
yi =
(
β0
+
β1 d1i
+
ui , falls i männlich
(β0 + β2 )
+
(β1 + β3 )d1i
+
ui , falls i weiblich
In diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
I
In dieser Spezifikation ist
I
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen II
Interaktionsvariablen zu 2 Dummyvariablen sind also beispielsweise dann in
ein Modell aufzunehmen, wenn der Effekt der Zugehörigkeit zu einer Gruppe
nicht unabhängig vom Vorliegen eines weiteren Charakteristikums ist.
yi = β0 + β1 d1i + β2 d2i + ui ,
Folie 326
I
das Basiseinkommen geschlechtsabhängig ist (H1 : β2 6= 0),
der Effekt des akademischen Grades geschlechtsabhängig ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem (gemeinsam)
überprüft werden, ob das Geschlecht in dem Modell irgendeinen Einfluss auf
das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 328
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion einer kardinalskalierten mit einer Dummyvariablen I
5 Nichtlineare Regressionsfunktionen
Interaktion einer kardinalskalierten mit einer Dummyvariablen II
Eine Interaktionsvariable zu einer kardinalskalierten und einer
Dummyvariablen ist dann in ein Modell aufzunehmen, wenn der Effekt einer
kardinalskalierten Variablen nicht unabhängig vom Vorliegen eines bestimmten
Charakteristikums bzw. der Zugehörigkeit zu einer bestimmten Gruppe ist.
Die Einführung einer zusätzlichen Interaktionsvariablen x1i d2i sorgt hier
dafür, dass für Nichtakademiker und Akademiker das Basiseinkommen
(Absolutglied) und der Effekt der Berufserfahrung unterschiedlich sein
können:
yi = β0 + β1 x1i + β2 d2i + β3 x1i d2i + ui
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 d2i + ui ,
i ∈ {1, . . . , n},
⇐⇒
yi =
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
I
I
das Basiseinkommen (Absolutglied) der Nichtakademiker (β0 ) und der
Akademiker (β0 + β2 ) unterschiedlich, aber
der Effekt eines Jahres Berufserfahrung für Nichtakademiker und Akademiker
gleich (β1 ).
Ökonometrie (SS 2017)
Folie 329
5 Nichtlineare Regressionsfunktionen
(
β0
+
β1 x1i
+ ui ,
falls i Nichtakademiker
(β0 + β2 )
+
(β1 + β3 )x1i
+ ui ,
falls i Akademiker
Auch in diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
mit (d2i = 1) und ohne (d2i = 0) akademischen Grad
mit einer Anzahl von x1i Jahren an Berufserfahrung.
In dieser Spezifikation ist
I
Modelle mit Interaktionen 5.3
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen I
I
das Basiseinkommen vom Vorhandensein eines akademischen Grads abhängt
(H1 : β2 6= 0),
der Effekt der Berufserfahrung für Nichtakademiker und Akademiker
unterschiedlich ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem wiederum
(gemeinsam) überprüft werden, ob das Vorhandensein eines akademischen
Grads in dem Modell irgendeinen Einfluss auf das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 330
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen II
Eine Interaktionsvariable zu zwei kardinalskalierten Variablen ist dann in ein
Modell aufzunehmen, wenn der Effekt einer kardinalskalierten Variablen nicht
unabhängig vom Wert einer anderen kardinalskalierten Variablen ist.
Die Einführung einer zusätzlichen Interaktionsvariablen x1i x2i sorgt hier
dafür, dass der Effekt eines (zusätzlichen) Jahres an Berufserfahrung bzw.
Ausbildungszeit jeweils abhängig vom Niveau der anderen Variablen sein kann.
Für die Regressionsfunktion
y = β0 + β1 x1 + β2 x2 + β3 x1 x2
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 x2i + ui ,
zum Modellansatz
i ∈ {1, . . . , n},
yi = β0 + β1 x1i + β2 x2i + β3 x1i x2i + ui ,
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
mit einer Anzahl von x1i Jahren an Berufserfahrung und
einer Ausbildungszeit von x2i Jahren.
gilt nämlich:
∂y
= β1 + β3 x2
∂x1
In dieser Spezifikation ist
I
I
der Effekt eines (zusätzlichen) Jahres an Berufserfahrung unabhängig von der
Ausbildungszeit gleich β1 und
der Effekt eines (zusätzlichen) Jahres an Ausbildungszeit unabhängig von der
Berufserfahrung gleich β2 .
Ökonometrie (SS 2017)
i ∈ {1, . . . , n},
Folie 331
sowie
∂y
= β2 + β3 x1
∂x2
In diesem Modell kann mit einem t-Test überprüft werden, ob tatsächlich
eine signifikante Interaktion vorliegt und der Effekt eines (zusätzlichen)
Jahres an Berufserfahrung bzw. Ausbildungszeit jeweils abhängig vom Niveau
der anderen Variablen ist.
Ökonometrie (SS 2017)
Folie 332
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen I
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen II
Im Lohnhöhenbeispiel“ wurde bisher als Modell
”
Lohnhöhei = β0 + β1 Ausbildungi + β2 Alteri + ui
Die Schätzung bei Hinzunahme einer Interaktionsvariablen für die
Regressoren Ausbildung und Alter ergibt (unter Annahme
homoskedastischer Störgrößen):
angenommen, mit dem folgenden Schätzergebnis (unter Annahme
homoskedastischer Störgrößen):
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + I(Ausbildung * Alter))
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
Residuals:
Min
1Q
-470.03 -128.21
Residuals:
Min
1Q
-569.50 -120.79
Coefficients:
Median
-5.14
3Q
73.12
Max
519.26
0.5956
0.6007
Folie 333
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen III
Ökonometrie (SS 2017)
Folie 334
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IV
b ändert die
b hc1 (β))
Auch die Verwendung robuster Standardfehler (V
Schätzergebnisse nicht wesentlich:
Betrachte nun die folgende Ergänzung“ des Datensatzes um die
”
Dummyvariablen Weiblich (mit Wert 1 für weibliche und 0 für männliche
Betriebsangehörige) sowie Stamm (mit Wert 1 für Beschäftigte mit über 25
Jahren Betriebszugehörigkeit, 0 sonst) zum Lohnhöhenbeispiel:
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.9240
257.6594 3.1744 0.005885 **
Ausbildung
128.6496
83.6652 1.5377 0.143669
Alter
15.7637
6.8998 2.2847 0.036323 *
I(Ausbildung * Alter) -1.4143
1.9546 -0.7236 0.479787
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
Die Berechnung der Varianzinflationsfaktoren offenbart“ das entstandene
”
Multikollinearitätsproblem:
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
> library(car)
> vif(lm(Lohnhöhe~Ausbildung+Alter+I(Ausbildung*Alter)))
Ökonometrie (SS 2017)
Max
541.43
Residual standard error: 238.9 on 16 degrees of freedom
Multiple R-squared: 0.6595,
Adjusted R-squared:
F-statistic: 10.33 on 3 and 16 DF, p-value: 0.0005041
Ökonometrie (SS 2017)
Ausbildung
18.757206
3Q
61.99
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.924
288.786
2.832
0.0120 *
Ausbildung
128.650
77.493
1.660
0.1164
Alter
15.764
7.422
2.124
0.0496 *
I(Ausbildung * Alter)
-1.414
1.595 -0.887
0.3883
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Median
-29.24
Alter I(Ausbildung * Alter)
3.688704
27.428395
Folie 335
Ökonometrie (SS 2017)
1
2
3
4
5
6
7
8
9
10
1250
1
28
1
0
1950
9
34
0
0
2300
11
55
0
0
1350
3
24
1
0
1650
2
42
0
0
1750
1
43
0
0
1550
4
37
1
0
1400
1
18
0
0
1700
3
63
1
0
2000
4
58
0
1
11
12
13
14
15
16
17
18
19
20
1350
1
30
1
0
1600
2
43
0
0
1400
2
23
0
0
1500
3
21
0
0
2350
6
50
0
0
1700
9
64
1
1
1350
1
36
1
0
2600
7
58
0
1
1400
2
35
1
0
1550
2
41
0
0
Folie 336
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen V
Eine Modellschätzung mit der zusätzlichen Dummyvariablen Weiblich ergibt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Stamm)
Median
-1.91
3Q
64.44
Residuals:
Min
1Q
-341.81 -63.29
Max
499.54
Residual standard error: 244.4 on 16 degrees of freedom
Multiple R-squared: 0.6435,
Adjusted R-squared:
F-statistic: 9.626 on 3 and 16 DF, p-value: 0.0007201
Folie 337
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VII
Folie 338
5 Nichtlineare Regressionsfunktionen
Residuals:
Min
1Q
-202.67 -76.43
Modelle mit Interaktionen 5.3
Median
-4.51
3Q
18.03
Max
325.65
Coefficients:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1164.906
147.862
7.878 1.04e-06 ***
Ausbildung
49.484
16.931
2.923 0.01050 *
Alter
11.416
4.095
2.788 0.01379 *
Weiblich
-312.513
85.926 -3.637 0.00243 **
Stamm
24.423
145.819
0.167 0.86922
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Stamm))
Max
402.17
Residual standard error: 184 on 15 degrees of freedom
Multiple R-squared: 0.8105,
Adjusted R-squared:
F-statistic: 16.04 on 4 and 15 DF, p-value: 2.7e-05
0.7746
Variante I: Hinzufügen der Interaktion von Weiblich und Stamm:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
3Q
55.61
Max
415.58
Beispiel: Modelle mit Interaktionen VIII
Eine Modellschätzung mit den zusätzlichen Dummyvariablen Stamm und
Weiblich ergibt:
Median
-19.96
3Q
54.66
Residual standard error: 178.3 on 16 degrees of freedom
Multiple R-squared: 0.8102,
Adjusted R-squared:
F-statistic: 22.76 on 3 and 16 DF, p-value: 5.128e-06
0.5766
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Median
-23.10
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1153.784
128.038
9.011 1.15e-07 ***
Ausbildung
49.842
16.277
3.062 0.00745 **
Alter
11.754
3.452
3.405 0.00362 **
Weiblich
-312.816
83.257 -3.757 0.00172 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1044.204
191.386
5.456 5.28e-05 ***
Ausbildung
62.034
22.017
2.818
0.0124 *
Alter
10.110
5.418
1.866
0.0805 .
Stamm
35.620
193.640
0.184
0.8564
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residuals:
Min
1Q
-352.78 -63.15
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VI
Eine erste Modellschätzung mit der zusätzlichen Dummyvariablen Stamm
ergibt:
Residuals:
Min
1Q
-585.19 -120.69
5 Nichtlineare Regressionsfunktionen
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1084.687
112.439
9.647 1.46e-07 ***
Ausbildung
64.889
13.324
4.870 0.000248 ***
Alter
11.007
3.054
3.604 0.002877 **
Weiblich
-200.118
71.233 -2.809 0.013922 *
Stamm
220.038
121.483
1.811 0.091603 .
I(Weiblich * Stamm) -693.032
192.232 -3.605 0.002869 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 137.2 on 14 degrees of freedom
Multiple R-squared: 0.9018,
Adjusted R-squared:
F-statistic: 25.7 on 5 and 14 DF, p-value: 1.375e-06
0.76
Folie 339
Ökonometrie (SS 2017)
0.8667
Folie 340
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IX
5 Nichtlineare Regressionsfunktionen
Beispiel: Modelle mit Interaktionen X
Breusch-Pagan-Test (nach Koenker) im ursprünglichen Modell:
Variante II: Hinzufügen der Interaktion von Weiblich und Ausbildung:
studentized Breusch-Pagan test
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung))
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 7.4032, df = 2, p-value = 0.02468
Residuals:
Min
1Q
-160.32 -86.44
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen:
studentized Breusch-Pagan test
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm + I(Weiblich *
BP = 6.9717, df = 5, p-value = 0.2228
Ökonometrie (SS 2017)
Folie 341
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen XI
Stamm))
Pr(>|t|)
6.22e-07
0.000517
0.003220
0.719016
0.238484
0.009436
***
***
**
**
0.1 ' ' 1
Residual standard error: 148.5 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.52 on 5 and 14 DF, p-value: 4.073e-06
0.8437
Ökonometrie (SS 2017)
Folie 342
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Die Berechnung der Varianzinflationsfaktoren offenbart“ erneut ein
”
Multikollinearitätsproblem:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung) + I(Weiblich * Alter))
3Q
68.58
Max
305.85
Beispiel: Modelle mit Interaktionen XII
Variante III: Hinzufügen der Interaktion von Weiblich und Ausbildung
sowie von Weiblich und Alter :
Median
-21.72
3Q
69.83
Estimate Std. Error t value
(Intercept)
1061.933
124.133
8.555
Ausbildung
65.991
14.724
4.482
Alter
11.725
3.306
3.547
Weiblich
-41.731
113.671 -0.367
Stamm
154.349
125.352
1.231
I(Weiblich * Ausbildung) -81.946
27.259 -3.006
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen und
Interaktionsterm:
Residuals:
Min
1Q
-170.48 -79.35
Median
-23.71
Coefficients:
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
BP = 9.6253, df = 4, p-value = 0.04724
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
> vif(lm(Lohnhöhe~Ausbildung+Alter+Weiblich+Stamm+
+
I(Weiblich*Ausbildung)+I(Weiblich*Alter)))
Max
283.54
Ausbildung
Alter
1.930386
3.270178
Stamm I(Weiblich * Ausbildung)
2.062336
5.837059
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
986.879
153.018
6.449 2.17e-05 ***
Ausbildung
61.942
15.604
3.970
0.0016 **
Alter
14.159
4.386
3.228
0.0066 **
Weiblich
114.977
216.239
0.532
0.6039
Stamm
114.635
134.825
0.850
0.4106
I(Weiblich * Ausbildung) -60.144
37.519 -1.603
0.1329
I(Weiblich * Alter)
-5.713
6.681 -0.855
0.4080
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Weiblich
9.985942
I(Weiblich * Alter)
18.249808
Die Hinzunahme von Interaktionstermen (und anderen in den Regressoren
nichtlinearen Variablen) lässt insgesamt eine sehr flexible Modellbildung zu.
Die Schätzungenauigkeiten (z.B. Standardfehler) werden aber (insbesondere –
wie im Beispiel – bei Schätzung auf Basis kleiner Datensätze) mit
zunehmender Variablenanzahl tendenziell immer größer!
Residual standard error: 149.9 on 13 degrees of freedom
Multiple R-squared: 0.891,
Adjusted R-squared: 0.8407
F-statistic: 17.71 on 6 and 13 DF, p-value: 1.448e-05
Ökonometrie (SS 2017)
Folie 343
Ökonometrie (SS 2017)
Folie 344
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Inhaltsverzeichnis
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle I
(Ausschnitt)
Ein Spezialfall von Modellen mit Dummyvariablen – insbesondere auch in
Interaktionstermen – sind sogenannte Strukturbruchmodelle.
5
Als Strukturbruch wird eine (abrupte) Änderung der Parameterstruktur (im
Ganzen oder in Teilen) bezeichnet. Strukturbruchmodelle erlauben diese
Änderung der Parameterstruktur im Rahmen des formulierten Modells.
Die Änderung eines oder mehrerer Regressionsparameter kann dabei zum
Beispiel
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
I
I
beim Wechsel zwischen verschiedenen Gruppen des Datensatzes oder
insbesondere bei Zeitreihendaten beim Wechsel zwischen verschiedenen
Zeiträumen
auftreten.
Wird die mögliche Änderung der Parameter nicht in einem entsprechenden
Strukturbruchmodell zugelassen, sondern stattdessen von konstanten
Parametern ausgegangen, handelt es sich im Fall eines tatsächlich
vorliegenden Strukturbruchs um eine Annahmeverletzung, welche die
Schätzergebnisse (des dadurch fehlspezifizierten Modells) oft unbrauchbar
macht.
Ökonometrie (SS 2017)
Folie 345
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle II
∅ 6= I(1) ( {1, . . . , n}
I(2) = {1, . . . , n}\I(1)
und
partitioniert.
Die möglichen Parameterunterschiede in den beiden Phasen/Gruppen können
offensichtlich durch eine getrennte Schätzung der beiden Regressionsmodelle
(1)
βK xKi
i ∈ I(1) ,
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
i ∈ I(2) ,
(2)
+
(2)
+ ... +
Strukturbruchmodelle 5.4
(2)
Mit einer die Gruppen-/Phasenzugehörigkeit beschreibenden Dummyvariablen
(
0 falls i ∈ I(1)
di :=
1 falls i ∈ I(2)
lassen sich die beiden Einzelschätzungen alternativ jedoch auch ein in einem
(größeren) Strukturbruchmodell der Gestalt
(1)
(1)
(1)
i ∈ {1, . . . , n},
mit 2K + 2 Regressionsparametern subsummieren, wobei zwischen den
Parametern dann die Beziehung
(2)
berücksichtigt werden.
(Die Rangbedingung an die Regressormatrix muss für beide Modelle erfüllt
bleiben, insbesondere folgen hieraus Mindestgrößen von I(1) und I(2) !)
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
yi = β0 +δ0 di +β1 x1i +δ1 di x1i +. . .+βK xKi +δK di xKi +ui ,
+ ui ,
yi =
und
(1)
β1 x1i
Folie 346
Strukturbruchmodelle III
Zur Formulierung eines einfachen Strukturbruchmodells mit zwei Phasen (1)
und (2) oder Gruppen (1) und (2) seien die Indizes {1, . . . , n} der n
Datenpunkte gemäß der beiden Phasen/Gruppen durch die Mengen
(1)
β0
Ökonometrie (SS 2017)
Folie 347
(1)
δ k = βk − βk
bzw.
(2)
(1)
βk = βk + δk
für
k ∈ {0, . . . , K }
gilt.
Ökonometrie (SS 2017)
Folie 348
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle IV
I
t-Tests auf Signifikanz einzelner Parameter δk , k ∈ {0, . . . , K }, also
H1 : δk 6= 0, sowie
F -Tests auf Signifikanz von mindestens einem der Parameter δ0 , δ1 , . . . , δK ,
also H1 : δk 6= 0 für mind. ein k ∈ {0, . . . , K },
denn wegen der bereits skizzierten Parameterzusammenhänge gilt
δk = 0
⇐⇒
(1)
(2)
βk = βk
für alle k ∈ {0, . . . , K } .
Je nachdem, ob von homoskedastischen oder heteroskedastischen Störgrößen
ausgegangen werden soll, sind die entsprechenden Darstellungen der
jeweiligen Tests zu verwenden.
Ökonometrie (SS 2017)
Folie 349
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle VI
j=1
I(j) = {1, . . . , n}
Für die Durchführung des F -Tests auf Signifikanz von mindestens einem der
Parameter δ0 , δ1 , . . . , δK besteht bei Annahme homoskedastischer Störgrößen
die Möglichkeit, das ursprüngliche Modell
yi = β0 + β1 x1i + . . . + βK xKi + ui
ohne die Strukturbruchkomponente
I
I
einmal für den Gesamtdatensatz (i ∈ {1, . . . , n}) als restringiertes Modell
sowie zusätzlich
jeweils einmal für die Phasen/Gruppen (i ∈ I(1) bzw. i ∈ I(2) ) (als insgesamt
unrestringiertes Modell)
zu schätzen und die (Gesamt-)Summen der Residuenquadrate in der
entsprechenden Darstellung der F -Statistik aus Folie 236 einzusetzen.
(Beispiel:
Übungsblatt)
Zu beachten ist dabei, dass die übrigen Ergebnisse dieser Hilfsregressionen“
”
nur teilweise sinnvoll zu interpretieren sind!
Ökonometrie (SS 2017)
Folie 350
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell I
Strukturbruchmodelle sind auch für komplexere Situationen konstruierbar,
insbesondere wenn mehr als zwei Gruppen/Phasen betrachtet werden sollen.
Dazu ist dann eine allgemeinere Partitionierung der Beobachtungen
{1, . . . , n} in M Teilmengen I(1) , . . . , I(M) mit den Eigenschaften
M
[
Strukturbruchmodelle 5.4
Strukturbruchmodelle V
Aus den Ergebnissen einer OLS-/KQ-Schätzung des Strukturbruchmodells
lassen sich dann mit t-Tests bzw. F -Tests Rückschlüsse auf das (tatsächliche)
Vorliegen von Parameterunterschieden ziehen.
Relevant sind hierbei insbesondere
I
5 Nichtlineare Regressionsfunktionen
und
I(j) ∩ I(l) = ∅ für j 6= l
Für ein Modell, welches im Lohnhöhenbeispiel unterschiedliche Parameter für
männliche und weibliche Betriebsangehörige zulässt, erhält man:
Call:
lm(formula = Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich *
Ausbildung) + Alter + I(Weiblich * Alter))
Residuals:
Min
1Q
-184.63 -77.76
Median
-12.46
3Q
52.31
Max
308.12
Coefficients:
durchzuführen.
Während wir Strukturbruchmodelle als Spezialfall von Modellen mit
Dummyvariablen betrachten, werden (in der Literatur) gelegentlich auch
Modelle mit Dummyvariablen als spezielle Strukturbruchmodelle aufgefasst.
Estimate Std. Error t value
(Intercept)
930.154
136.338
6.822
Weiblich
142.514
211.674
0.673
Ausbildung
60.334
15.335
3.934
I(Weiblich * Ausbildung) -45.101
32.756 -1.377
Alter
16.196
3.637
4.453
I(Weiblich * Alter)
-7.669
6.209 -1.235
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
8.29e-06 ***
0.511736
0.001497 **
0.190171
0.000546 ***
0.237113
0.1 ' ' 1
Residual standard error: 148.4 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.53 on 5 and 14 DF, p-value: 4.056e-06
Ökonometrie (SS 2017)
Folie 351
Ökonometrie (SS 2017)
0.8438
Folie 352
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell II
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell III
Eine Schätzung des Strukturbruchmodells unter Annahme heteroskedastischer
b liefert:
b hc1 (β))
Störgrößen (und Verwendung von V
Obwohl unter Annahme homoskedastischer Störgrößen kein einziger der
Strukturbruchparameter“ δk signifikant (α = 0.05) von Null verschieden ist,
”
erhält man zum F -Test für die (gemeinsame) Nullhypothese
t test of coefficients:
Estimate Std. Error t value
(Intercept)
930.1539
132.1236 7.0400
Weiblich
142.5142
146.5563 0.9724
Ausbildung
60.3345
16.1410 3.7380
I(Weiblich * Ausbildung) -45.1015
20.2299 -2.2294
Alter
16.1964
3.7428 4.3273
I(Weiblich * Alter)
-7.6693
4.1761 -1.8365
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
5.865e-06
0.3473445
0.0022052
0.0426748
0.0006959
0.0876084
das Ergebnis (Befehl linearHypothesis im R-Paket car):
***
Linear hypothesis test
**
*
***
.
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
0.1 ' ' 1
Zum Niveau α = 0.05 ist nun wenigstens der Koeffizient zur Interaktion von
Weiblich mit Ausbildung, zum Niveau α = 0.10 darüberhinaus der zur
Interaktion von Weiblich mit Alter signifikant von Null verschieden.
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
H0 : δ0 = δ1 = δ2 = 0
Folie 353
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell IV
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
17 957698
2
14 308438 3
649260 9.8233 0.0009567 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Folie 354
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell V
Dass die einzelnen t-Tests die jeweilige Nullhypothese nicht ablehnen können,
scheint zumindest teilweise durch ein Multikollinearitätsproblem im
Strukturbruchmodell begründet zu sein, für die Varianz-Inflations-Faktoren
erhält man:
Eine Durchführung des F -Tests unter Annahme heteroskedastischer
b liefert ein ähnliches Resultat:
b hc1 (β))
Störgrößen (bei Verwendung von V
Linear hypothesis test
Weiblich
9.761929
Alter
2.293787
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
Ausbildung I(Weiblich * Ausbildung)
1.902040
4.539092
I(Weiblich * Alter)
16.084175
Nicht uninteressant ist das Resultat des Breusch-Pagan-Tests (nach Koenker)
im Strukturbruchmodell, bei dem die Regressoren des Strukturbruchmodells
auch für die Hilfsregression verwendet werden:
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Note: Coefficient covariance matrix supplied.
studentized Breusch-Pagan test
Res.Df Df
F
Pr(>F)
1
17
2
14 3 11.485 0.0004565 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
data: fit
BP = 10.089, df = 5, p-value = 0.07275
Die Evidenz für heteroskedastische Störgrößen ist also im
Strukturbruchmodell erheblich schwächer als im urspünglichen Modell.
Folie 355
Ökonometrie (SS 2017)
Folie 356
6 Validität
6 Validität
Validität von Schlussfolgerungen einer Regressionsstudie
Interne Validität
Damit die interne Validität gewährleistet ist, müssen insbesondere
Aussagen und Schlussfolgerungen zu Kausalwirkungen, die auf Basis einer
Regressionsstudie gezogen werden, haben generell nicht den Status von
Beweisen, wie z.B. die Ableitung von Eigenschaften von Schätzfunktionen
(Konsistenz, Erwartungstreue, Effizienz, asymptotische Normalverteilung) aus
Modellannahmen.
I
I
I
Bei der Einschätzung der Validität einer Regressionsstudie unterscheidet man
zwischen interner und externer Validität.
Im Folgenden (zum Teil Wiederholung):
Exemplarische Auflistung einiger Konstellationen, unter denen notwendige
Annahmen für die Konsistenz und Unverzerrtheit der Koeffizientenschätzer βb
verletzt werden.
Externe Validität bezieht sich hingegen auf die Gültigkeit von
verallgemeinernden Aussagen, die Ergebnisse auf andere Populationen und
Rahmenbedingungen übertragen.
6 Validität
Folie 357
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer I
1
Ökonometrie (SS 2017)
6 Validität
I
I
I
Welche mit xk korrelierten Einflüsse sind unberücksichtigt?
Gibt es eventuell Daten der fehlenden Variablen?
Gibt es wenigstens Kontrollvariablen“, deren Aufnahme in das Modell den
”
omitted variable bias reduziert?
Muss eventuell auf eine andere Datenerhebung (Paneldaten, Randomisierung)
oder ein anderes Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden?
Ökonometrie (SS 2017)
Folie 358
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer II
Fehlende Variablen führen – wie bereits diskutiert – zur Verzerrung des
OLS-Schätzers, wenn sie nicht nur die abhängige Variable y beeinflussen,
sondern auch mit dem relevanten Regressor xk , ggf. auch mit mehreren
Regressoren, korreliert sind (
omitted variable bias“). Grund dafür ist die
Verletzung der Annahme E(u) =” 0. Daher sollte schon vor der
Regressionsanalyse überlegt werden:
I
die Ursache-Wirkung-Beziehungen korrekt spezifiziert sein,
die relevanten Koeffizienten unverzerrt und konsistent geschätzt werden und
bei Verwendung von Konfidenzintervallen und Hypothesentests auch die
Standardfehler bzw. die Varianz-Kovarianzmatrix der Koeffizientenschätzer
konsistent geschätzt werden.
Verschiedene Verletzungen von Modellannahmen können die interne Validität
gefährden bzw. machen zumindest besondere Maßnahmen erforderlich, um
die interne Validität zu erhalten.
Interne Validität bezieht sich dabei auf die Gültigkeit von Aussagen über die
Population, aus der die Stichprobe für die Regressionsstudie stammt.
Ökonometrie (SS 2017)
Interne Validität 6.1
Folie 359
Bei der Aufnahme zusätzlicher Variablen ist zu beachten, dass
I
I
2
die Aufnahme zusätzlicher Variablen auch einen Preis hat, nämlich die
Erhöhung der Varianzen der OLS-Schätzer. Es ist also abzuwägen, ob die
Reduktion von Verzerrung die Verringerung der Präzision aufwiegt.
in der Präsentation der Ergebnisse einer Regressionsstudie nicht nur die
Ergebnisse der letztlich favorisierten Spezifikation mit zusätzlichen Variablen
angegeben werden sollten, sondern auch die der alternativen Regressionen.
Fehlspezifikation der funktionalen Form der Regressionsfunktion führt
dazu, dass der (möglicherweise vom xk -Niveau abhängige) marginale Effekt
von xk auf y auch bei großer Stichprobe verzerrt geschätzt wird.
( korrekte Spezifikation eventuell durch einen nichtlinearen Ansatz)
Ökonometrie (SS 2017)
Folie 360
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer III
3
I
wird der zugehörige Koeffizient βk systematisch betragsmäßig unterschätzt,
I
kann die Verzerrung ohne Probleme korrigiert werden, wenn das Verhältnis σ2k
ε
bekannt ist,
muss ansonsten auf andere Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden.
σx2
Ökonometrie (SS 2017)
Folie 361
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer V
x1i
= β0 + β1 x1i + β2 x2i + ui und
= γ0 + γ1 yi + γ3 x3i + vi .
Wenn die Stichprobenauswahl von den y −Werten abhängig ist, z.B.
wenn – beabsichtigt oder unbeabsichtigt – Beobachtungen ausgeschlossen
werden, bei denen yi unterhalb eines Schwellenwerts liegt, ist der
OLS-Schätzer verzerrt und inkonsistent (
sample selection bias“).
”
Schätzverfahren, die in dieser Situation konsistent sind, bauen auf
Maximum-Likelihood-Verfahren in Modellen mit binären abhängigen
Variablen auf.
5
Simultane Kausalität von xk nach y und von y nach xk führt dazu, dass
der Regressor xk (der dann auch nicht mehr als deterministische Größe
betrachtet werden kann, sondern als Zufallsvariable aufgefasst werden muss!)
mit der Störgröße korreliert und der OLS-Schätzer verzerrt und inkonsistent
ist (
simultaneous equation bias“).
”
Ökonometrie (SS 2017)
6 Validität
Folie 362
Interne Validität 6.1
Wenn die Standardfehler nicht mit einem konsistenten Schätzverfahren
berechnet wurden, sind darauf beruhende Konfidenzintervalle und Tests nicht
mehr valide.
Die Konsistenz der geschätzten Standardfehler hängt davon ab, welche
Annahmen bezüglich der Varianzen und Kovarianzen der Störgrößen adäquat
sind.
Wie bereits hervorgehoben wurde, wird man oft von Heteroskedastizität
ausgehen müssen, in diesem Fall sind nur die entsprechenden robusten
Standardfehler konsistent.
Die konsistente Schätzung in simultanen Gleichungssystemen spielte eine
dominierende Rolle in der Entwicklung der Ökonometrie, vor allem im
Kontext makroökonomischer Modelle.
Ein Lösungsansatz ist die Instrumentalvariablenschätzung.
Ökonometrie (SS 2017)
4
Konsistenz der Standardfehler der OLS-Schätzung
Die Situation simultaner Kausalität kann formalisiert erfasst werden, indem
zur Regressionsbeziehung für den Einfluss von xk auf y eine weitere Gleichung
für eine umgekehrte Regressionsbeziehung formuliert wird, also ein
interdependentes System simultaner Regressionsgleichungen, z.B.
yi
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer IV
Messfehler in den erklärenden Variablen führen dazu, dass die
OLS-Schätzung nicht konsistent ist.
Im klassischen Fehler-in-den-Variablen-Modell wird angenommen, dass
anstelle des tatsächlichen Regressors xki die Variable x̃ki = xki + εi verwendet
wird, wobei angenommen wird, dass die Messfehler εi unabhängig identisch
verteilt sind mit Erwartungswert Null und Varianz σε2 , unkorreliert mit xki und
mit der Störgröße ui . In diesem Fall
I
6 Validität
Darüberhinaus wurden Schätzer der Varianzen der OLS-Schätzer entwickelt,
die auch bei korrelierten Störgrößen konsistent sind.
Korrelation in den Störgrößen tritt insbesondere dann häufig auf, wenn es
sich bei den untersuchten Daten um Zeitreihendaten handelt.
Folie 363
Ökonometrie (SS 2017)
Folie 364

¨Okonometrie Organisatorisches I Organisatorisches II

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können