¨Okonometrie Organisatorisches I Organisatorisches II

Werbung
1 Einleitung
Organisatorisches 1.1
Organisatorisches I
Ökonometrie
Vorlesung an der Universität des Saarlandes
Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.04
Übung: Dienstag, 10-12, Gebäude B4 1, HS 0.06, Beginn: 25.04.
Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum)
Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 29.05. (15 Uhr)!
(Abmeldung im ViPa bis 13.07., 12 Uhr)
Hilfsmittel für Klausur
PD Dr. Stefan Klößner
Sommersemester 2017
I
I
I
Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit
”
2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig)
Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung!
Durchgefallen — was dann?
I
Ökonometrie (SS 2017)
Folie 1
1 Einleitung
Organisatorisches 1.1
Organisatorisches II
Organisatorisches 1.1
I
bzw. genauer
I
I
http://www.oekonometrie.uni-saarland.de/Oeko.html
I
Kontakt: PD Dr. Stefan Klößner
Geb. C3 1, 2. OG, Zi. 2.19
e-Mail: [email protected]
I
Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)
Vorlesungsunterlagen
Übungsblätter (i.d.R. wöchentlich)
Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich
Besprechung der Übungsblätter in der Übung der folgenden Woche.
Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!
Kontakt: M.Sc. Sandra Baar
Geb. C3 1, 2. OG, Zi. 2.20
e-Mail: [email protected]
Die folgenden Folien (S. 5–128) ermöglichen bei Bedarf die Wiederholung der
wichtigsten Grundlagen aus den Veranstaltungen Deskriptive Statistik und
”
Wahrscheinlichkeitsrechung“ und Schließende Statistik“.
”
Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters)
Download spätestens dienstags, 19:00 Uhr, vor der Vorlesung möglich
Ökonometrie (SS 2017)
1 Einleitung
Folie 2
Übungsunterlagen
http://www.oekonometrie.uni-saarland.de/
I
Ökonometrie (SS 2017)
Organisatorisches III
Informationen und Materialien unter
I
Nachprüfung“ Ende März/Anfang April 2018 (2. Prüfungszeitraum)
”
Folie 3
Ökonometrie (SS 2017)
Folie 4
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Lage- und Streuungsmaße eindimensionaler Daten
(Ausschnitt)
Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten)
x1 , . . . , xn der Länge n.
2
Daten sollen auf wenige Kennzahlen“ verdichtet werden.
”
Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also
”
arithmetisches Mittel“ x mit:
”
n
1
1X
x := (x1 + x2 + · · · + xn ) =
xi
n
n
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
i=1
Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen
Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie
deren (positive) Wurzel (empirische Standardabweichung) sX mit:
!
n
n
X
p
1X
2 ! 1
2
2
sX = + sX2
sX :=
(xi − x) =
xi − x 2 =: x 2 − x 2 ,
n
n
i=1
i=1
Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,
daher i.d.R. besser zu interpretieren als Varianz sX2 .
Ökonometrie (SS 2017)
Folie 5
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten I
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zu einem zweidimensionalen Merkmal (X , Y ) vorliegt.
Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von
Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind!
Deskriptive Statistik 2.1
Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man
darauf aufbauend den empirischen (Bravais-)Pearsonschen
Korrelationskoeffizienten rX ,Y mit:
sX ,Y
rX ,Y :=
sX · sY
Es gilt stets −1 ≤ rX ,Y ≤ 1.
rX ,Y misst lineare Zusammenhänge, spezieller gilt
I
Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der
eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst
die empirische Kovarianz sX ,Y mit:
!
n
n
X
1X
! 1
sX ,Y :=
(xi − x)(yi − y ) =
xi · yi − x · y =: xy − x · y
n
n
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 6
Abhängigkeitsmaße zweidimensionaler Daten II
Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten
Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der
Länge n (also n Datenpaare)
i=1
Ökonometrie (SS 2017)
I
I
rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“),
”
”
rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“),
”
”
|rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.
rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene
Merkmalsausprägungen besitzen.
i=1
Folie 7
Ökonometrie (SS 2017)
Folie 8
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Beispiel: Empirischer Pearsonscher Korrelationskoeffizient
rX, Y = 0
20
●
●
●
●
●
80
●
●
●
●
●
●
6
●
●
●
40
●
●
Y
●
●
●
●
●
4
●
●
●
●
Y
●
10
●
60
●
●
●
●
●
●
●
0
5
10
15
20
5
●
10
15
20
5
10
15
rX, Y = 0.1103
rX, Y = −0.837
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4.0
●
●
● ●
●
●
●
●
8
●
●
●
4
●
●
Y
10
●
●
●
●
Y
5.0
15
●
●
●
●
●
●
●
2
●
3.0
●
●
5
10
X
15
20
●
5
10
15
X
20
●
●
●
5
10
15
●
20
X
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 9
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen I
Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten
bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet
werden.
Wir fassen eine Zufallsvariable auf als eine Variable“,
”
I
I
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 10
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen II
(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)
Abbildungen X : Ω → R von Ergebnismengen Ω eines
Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen.
I
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
●
●
●
20
●
●
●
10
6.0
20
●
●
●
●
12
rX, Y = 0.9652
●
Y
●
X
●
2
●
●
X
●
5
● ● ●
X
●
0
●
●
●
●
●
●
●
2
●
●
6
5
●
20
●
●
●
Inhaltsverzeichnis
●
●
8
15
●
●
●
●
Y
●
●
●
●
Wahrscheinlichkeitsrechnung 2.2
(Ausschnitt)
rX, Y = −1
10
100
rX, Y = 1
2 Wiederholung statistischer Grundlagen
die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,
deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem
”
zufälligen, meist wiederholbarem Vorgang abhängen,
über deren Werteverteilung“ man allerdings Kenntnisse hat
”
( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte
( Schließende Statistik).
Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in
mehrere Typen
Diskrete Zufallsvariablen X :
I
I
Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte
annehmen.
Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert
werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.
Stetige Zufallsvariablen X :
I
I
I
Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen)
annehmen.
Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit
deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann,
dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.
Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!
Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.
Ökonometrie (SS 2017)
Folie 11
Ökonometrie (SS 2017)
Folie 12
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen III
bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche
Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch
X
P{X ∈ A} =
pX (xi )
xi ∈A
I
bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b]
oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX
durch
Z b
P{X ∈ A} =
fX (x)dx
Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)
entsprechen Momente von Zufallsvariablen.
Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung
auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht
existieren, Existenzfragen hier aber vollkommen ausgeklammert!)
Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X :
Erwartungswert bzw. auch Mittelwert µX := E(X )
I
a
berechnet werden.
Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle
Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R
festgelegt.
Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt
Verteilungsfunktion von X .
Ökonometrie (SS 2017)
Wahrscheinlichkeitsrechnung 2.2
Folie 14
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Für eine Zufallsvariable X und reelle Zahlen a, b gilt:
I
I
E(aX + b) = a E(X ) + b
Var(aX + b) = a2 Var(X )
Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine
”
(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)
Abbildungen G : R → R und H : R → R:
E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))
Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch:
X 2
E(X 2 ) =
xi · pX (xi )
Ist X eine Zufallsvariable mit
p Erwartungswert µX = E(X ) und
Standardabweichung σX = Var(X ), so erhält man mit
xi ∈T (X )
Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch:
Z ∞
E(X 2 ) =
x 2 · fX (x)dx
X − E(X )
X − µX
Z := p
=
σX
Var(X )
−∞
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Momente eindimensionaler Zufallsvariablen III
Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen
p X:
Varianz σX2 := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ),
die sog. Standardabweichung von X , mit
h
i
!
2
Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2
I
(wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet).
Berechnung bei stetiger Zufallsvariablen X durch:
Z ∞
E(X ) =
x · fX (x)dx
−∞
Momente eindimensionaler Zufallsvariablen II
I
Berechnung bei diskreter Zufallsvariablen X durch:
X
xi · pX (xi )
E(X ) =
xi ∈T (X )
I
Folie 13
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen I
Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X
Werte in einer bestimmten Menge A annimmt, können konkreter
I
2 Wiederholung statistischer Grundlagen
eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.
Man nennt Z dann eine standardisierte Zufallsvariable.
Folie 15
Ökonometrie (SS 2017)
Folie 16
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen IV
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Spezielle parametrische Verteilungsfamilien
Weiteres Lagemaß für Zufallsvariablen: p-Quantile
Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:
P{X ≤ xp } ≥ p
und
P{X ≥ xp } ≥ 1 − p
Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit
streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber
eindeutig durch Lösung der Gleichung
FX (xp ) = p
bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX
(auch Quantilsfunktion genannt) direkt durch
Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen.
Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige
(reelle) Parameter (bzw. einen ein- oder mehrdimensionalen
Parametervektor) eineindeutig festgelegt, also
I
I
legt der Parameter(vektor) die Verteilung vollständig fest und
gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche
Verteilungen ( Identifizierbarkeit“).
”
Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum.
Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger
Verteilungsfamilien.
xp = FX−1 (p)
bestimmen.
I
I
Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 .
”
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
ab; p ist also einziger Parameter der Verteilungsfamilie.
Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)
Der Träger der Verteilung ist dann T (X ) = {0, 1}, die
Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p.
Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p)
Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).
Folie 19
Verteilungsfunktion:

 0
1−p
FX (x) =

1
Momente: E (X )
γ(X )
Ökonometrie (SS 2017)
für x < 0
für 0 ≤ x < 1
für x ≥ 1
0.8
0.6
p = 0.4
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
1.5
2.0
x
FX
●
p = 0.4
●
−1.0
−0.5
0.0
0.5
1.0
x
= p
=
pX
0.4
Träger: T (X ) = {0, 1}
Wahrscheinlichkeitsfunktion:

 1 − p für x = 0
p
für x = 1
pX (x) =

0
sonst
Parameter:
p ∈ (0, 1)
pX(x)
Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten
bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.
Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten
”
(bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,
es sei also
1 falls ω ∈ A
X (ω) :=
0 falls ω ∈ A
Ökonometrie (SS 2017)
Wahrscheinlichkeitsrechnung 2.2
0.2
Verwendung:
I
2 Wiederholung statistischer Grundlagen
Bernoulli-/Alternativverteilung
B(1, p)
Bernoulli-/Alternativverteilung
I
Folie 18
0.0
Wahrscheinlichkeitsrechnung 2.2
Ökonometrie (SS 2017)
FX(x)
2 Wiederholung statistischer Grundlagen
Folie 17
0.0 0.2 0.4 0.6 0.8 1.0
Ökonometrie (SS 2017)
√1−2p
p(1−p)
Var(X )
κ(X )
= p · (1 − p)
=
1−3p(1−p)
p(1−p)
Folie 20
I
I
I
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
sowie der Anzahl der Durchführungen n des Experiments ab.
Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und
p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}.
Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p)
Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 21
Wahrscheinlichkeitsrechnung 2.2
Träger: T (X ) = {0, 1, . . . , n}
Wahrscheinlichkeitsfunktion: pX (x)
  n x
p (1 − p)n−x für x ∈ T (X )
=
x

0
sonst
pX(x)
Modellierung der unabhängigen, wiederholten Durchführung eines
Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw.
Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“).
”
Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert,
”
Nichteintreten (bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl
von n Wiederholungen des Experiments zählen.
Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für Durchführung
i) den Wert 1
P
an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi .
Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3.
n = 5, p = 1/3.
Parameter:
n ∈ N, p ∈ (0, 1)
0
1
2
3
4
5
●
●
4
5
6
x
FX
Verteilungsfunktion:
FX (x) =
X
pX (xi )
xi ∈T (X )
xi ≤x
n = 5, p = 0.4
●
●
●
●
−1
0
1
2
3
6
x
Momente: E (X )
γ(X )
= n·p
=
Var(X )
√ 1−2p
np(1−p)
κ(X )
= n · p · (1 − p)
1+(3n−6)p(1−p)
np(1−p)
=
Ökonometrie (SS 2017)
Folie 22
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Unif(a, b)
Stetige Gleichverteilung
pX
n = 5, p = 0.4
−1
FX(x)
Verallgemeinerung der Bernoulli-Verteilung
Verwendung:
I
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
B(n, p)
Binomialverteilung
I
2 Wiederholung statistischer Grundlagen
0.0 0.1 0.2 0.3 0.4 0.5
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Parameter:
a, b ∈ R mit a < b
fX
Modellierung einer stetigen Verteilung, in der alle Realisationen in einem
Intervall [a, b] als gleichwahrscheinlich“ angenommen werden.
”
Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab.
0.4
fX(x)
0.2
0
1
2
3
4
3
4
x
Träger der Verteilung: T (X ) = [a, b]
Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)
Momente: E (X ) =
γ(X ) =
Folie 23
Ökonometrie (SS 2017)
a+b
2
0
Var(X )
κ(X )
FX(x)
Verteilungsfunktion: FX : R → R;

für x < a

 0
x−a
für a ≤ x ≤ b
FX (x) =
b−a


1
für x > b
0.0 0.2 0.4 0.6 0.8 1.0
FX
Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall
1
[a, b] konstant zu b−a
gewählt werden.
Ökonometrie (SS 2017)
0.0
Einfachste stetige Verteilungsfamilie:
Stetige Gleichverteilung auf Intervall [a, b]
a = 1, b = 3
0.6
Träger: T (X ) = [a, b]
Dichtefunktion: fX : R → R;
( 1
für a ≤ x ≤ b
b−a
fX (x) =
0
sonst
a = 1, b = 3
0
1
2
x
=
=
(b−a)2
12
9
5
Folie 24
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
N(µ, σ 2 )
Ökonometrie (SS 2017)
Folie 25
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Arbeiten mit Normalverteilungen
(x−µ)2
1
1
fX (x) = √
e − 2σ2 = ϕ
σ
2πσ
x −µ
σ
fX
µ = 5, σ2 = 4
0
5
10
x
FX
Verteilungsfunktion:
FX : R → R; FX (x) = Φ
x −µ
σ
µ = 5, σ2 = 4
0
5
10
x
Momente: E (X ) = µ
γ(X ) = 0
Var(X )
κ(X )
= σ2
= 3
Ökonometrie (SS 2017)
Folie 26
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Ausschnitt aus Tabelle für Φ(x)
2
Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ ):
Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw.
nicht leicht auszuwerten!
Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte
Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten
Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R
(http://www.r-project.org)
Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur
Verfügung gestellte) Tabellen.
Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur
ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch
Φ(x) = 1 − Φ(−x)
Träger: T (X ) = R
Dichtefunktion: fX : R → R;
fX(x)
Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler
(unabhängiger) Zufallsvariablen (später mehr!)
Einsatz für Näherungen
Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit
Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit
Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 .
Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,
Berechnung muss i.d.R. mit Software/Tabellen erfolgen.
Wichtige Eigenschaft der Normalverteilungsfamilie:
Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist
aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 .
Zurückführung allgemeiner Normalverteilungen auf den Fall der
Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und
σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar.
Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.
Träger aller Normalverteilungen ist T (X ) = R.
Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 )
Parameter:
µ ∈ R, σ 2 > 0
0.00 0.05 0.10 0.15 0.20
Normalverteilung
für alle x ∈ R .
Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
FX(x)
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Folie 27
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
Ökonometrie (SS 2017)
Folie 28
Beispiel: Arbeiten mit Normalverteilungstabelle
Wahrscheinlichkeitsrechnung 2.2
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der
schraffierten Fläche zu einem Flächeninhalt von 0.025?)
fN(100, 82)(x)
µ = 100, σ2 = 82
2.5%
0.00
0.02
0.04
µ = 100, σ2 = 82
70
0.00
fN(100, 82)(x)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?)
2 Wiederholung statistischer Grundlagen
0.04
Wahrscheinlichkeitsrechnung 2.2
0.02
2 Wiederholung statistischer Grundlagen
70
80
90
100
110
120
P{X < 90}
90 − 100
= FN(100,82 ) (90) = Φ
8
= Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
90
100
110
<− | −>
?
120
130
Antwort: Ist X ∼ N(100, 82 ), so ist das 97.5%- bzw. 0.975-Quantil von X
gesucht. Mit
x − 100
FX (x) = FN(100,82 ) (x) = Φ
8
und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man
x − 100 !
x − 100
Φ
= 0.975 ⇔
= Φ−1 (0.975) = N0.975 = 1.96
8
8
⇒ x = 8 · 1.96 + 100 = 115.68
130
x
Antwort: Ist X ∼ N(100, 82 ), so gilt:
80
Folie 29
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Statistik-Software R
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 30
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren I
Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:
Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur
Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später
erforderlich!)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an?
Antwort:
> pnorm(90,mean=100,sd=8)
[1] 0.1056498
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit?
Antwort:
> qnorm(0.975,mean=100,sd=8)
Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n
Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor
X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen
Verteilung von X .
Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht
übertragbar, nur technisch etwas anspruchsvoller.
Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren
[1] 115.6797
Ökonometrie (SS 2017)
Folie 31
Ökonometrie (SS 2017)
Folie 32
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren II
xi ∈A∩T (X)
Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch
Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert
werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über
Mehrfachintegrale) ausrechnen lassen:
Z
b1
···
a1
Z
bn
an
für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn
2 Wiederholung statistischer Grundlagen
Folie 33
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I
Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig,
wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als
Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen
n
Y
i=1
bzw.
fX (x) =
pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn )
n
Y
i=1
fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn )
für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann.
(Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!)
”
”
Ökonometrie (SS 2017)
Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines
n-dimensionalen Zufallsvektors nennt man auch Randverteilungen.
Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen
pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.
Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann
auch Randdichte(funktione)n.
Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch
(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen
Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien
Wahrscheinlichkeitsrechnung).
fX (t1 , . . . , tn )dtn · · · dt1
Ökonometrie (SS 2017)
pX (x) =
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren III
Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine
(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R
mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden.
Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A
annimmt, können dann wiederum durch Aufsummieren der
Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet
werden:
X
P{X ∈ A} =
pX (xi )
PX (A) =
2 Wiederholung statistischer Grundlagen
Folie 35
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 34
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II
Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und
(paarweise) linearer Abhängigkeiten interessant!
Bedingte Verteilungen:
Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn
man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits
kennt?
Lineare Abhängigkeiten:
Treten besonders große Realisation einer Zufallsvariablen häufig im
Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen
einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang
für besonders kleine Realisationen der ersten Zufallsvariablen);
lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben?
Ökonometrie (SS 2017)
Folie 36
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III
Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei
Zufallsvariablen (aus einem Zufallsvektor).
Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz
!
σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y )
(Zur Berechnung von E(X · Y ) siehe Folien WR!)
Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor,
a, b ∈ R):
1
2
3
4
5
6
Cov(aX , bY ) = ab Cov(X , Y )
Cov(X + a, Y + b) = Cov(X , Y )
(Translationsinvarianz)
Cov(X , Y ) = Cov(Y , X )
(Symmetrie)
Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y )
Cov(X , X ) = Var(X )
X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V
Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit
σX > 0, σY > 0 und a, b ∈ R, so gilt:
1
2
3
4
5
6
7
Korr(aX , bY ) =
Korr(X , Y )
Nachteil“ der Kovarianz:
”
Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit,
sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der
Streuung von X bzw. Y ab.
Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem
Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist.
”
Hierzu Standardisierung der Kovarianz über Division durch
Standardabweichungen von X und Y (falls σX > 0 und σY > 0!).
Cov(X , Y )
σXY
= p
σX · σY
+ Var(X ) · Var(Y )
Ökonometrie (SS 2017)
Folie 38
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung I
Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale
(multivariate) Normalverteilung
falls a · b > 0
Spezifikation am Beispiel der zweidimensionalen (bivariaten)
Normalverteilung durch Angabe einer Dichtefunktion
− Korr(X , Y ) falls a · b < 0
Korr(X + a, Y + b) = Korr(X , Y )
(Translationsinvarianz)
Korr(X , Y ) = Korr(Y , X )
(Symmetrie)
−1 ≤ Korr(X , Y ) ≤ 1
Korr(X , X ) = 1
Korr(X , Y ) =
1
a>0
genau dann, wenn Y = aX + b mit
Korr(X , Y ) = −1
a<0
X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0
fX ,Y (x, y ) =
1√
e
2πσX σY 1−ρ2
−
1
2(1−ρ2 )
x−µX
σX
2
−2ρ
x−µX
σX
y −µY
σY
2 y −µ
+ σ Y
Y
abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).
Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder
(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 )
Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert.
Ökonometrie (SS 2017)
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV
ρXY := Korr(X , Y ) :=
Folie 37
(
Wahrscheinlichkeitsrechnung 2.2
Man erhält so den Pearsonschen Korrelationskoeffizienten:
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden.
Folie 39
Ökonometrie (SS 2017)
Folie 40
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung II
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung III
Dichtefunktion der mehrdimensionalen Normalverteilung
Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur
N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0
0.06
für alle x, y ∈ R ,
fX ,Y (x, y ) = fX (x) · fY (y )
0.04
f(x,y)
also sind X und Y (genau) für ρ = 0 stochastisch unabhängig.
Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x
wieder Normalverteilungen, es gilt genauer:
ρσX
X |Y = y ∼ N µX +
(y − µY ), σX2 (1 − ρ2 )
σY
0.02
0.00
6
4
6
y
bzw.
Y |X = x
∼
4
2
ρσY
2
2
(x − µX ), σY (1 − ρ )
N µY +
σX
2
0
0
x
−2
−4
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
Folie 41
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung IV
Ökonometrie (SS 2017)
Folie 42
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung V
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Dichtefunktion der mehrdimensionalen Normalverteilung
0.15
6
0.005
0.01
f(x,y)
0.02
0.10
0.03
4
0.04
0.05
0.05
y
0.06
2
0.055
3
0.045
2
0.035
1
0.025
0.015
3
0
0
y
2
1
−1
0
−1
−2
x
−2
−4
−2
0
2
4
−3 −3
6
x
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2017)
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Folie 43
Ökonometrie (SS 2017)
Folie 44
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VI
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VII
Dichtefunktion der mehrdimensionalen Normalverteilung
3
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
2
0.02
0.10
0.06
1
0.08
0.1
f(x,y)
0.05
y
0
0.14
0.00
16
14
−1
0.12
12
0.04
16
14
y
−2
10
12
8
8
−3
6
10
x
6
4
−3
−2
−1
0
µX = 0, µY = 0,
1
2
3
x
= 1, σ2Y = 1, ρ = 0
σ2X
4
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2017)
Folie 45
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VIII
Ökonometrie (SS 2017)
Folie 46
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen I
16
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,
so gilt:
E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c
14
0.01
0.02
0.03
12
0.05
0.07
0.09
und
y
10
0.11
0.12
Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y )
0.1
8
0.08
0.06
Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors
weiter verallgemeinert werden!
4
6
0.04
4
6
8
µX = 10, µY = 10,
Ökonometrie (SS 2017)
10
σ2X
12
14
16
x
= 4, σ2Y = 4, ρ = −0.95
Folie 47
Ökonometrie (SS 2017)
Folie 48
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen II
Momente von Summen von Zufallsvariablen III
Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der
n-dimensionale Vektor
E(X) := [E(X1 ), . . . , E(Xn )]0
In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe
Erwartungswertvektor von X und die n × n-Matrix
0
V(X) := E (X − E(X)) · (X − E(X))


E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))]


..
..
..
:= 

.
.
.
E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))]


Var(X1 )
Cov(X1 , X2 )
· · · Cov(X1 , Xn−1 )
Cov(X1 , Xn )
 Cov(X2 , X1 )
Var(X2 )
· · · Cov(X2 , Xn−1 )
Cov(X2 , Xn ) 




.
.
.
..
.
..
..
..
..
= 

.


 Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · ·
Var(Xn−1 )
Cov(Xn−1 , Xn ) 
Cov(Xn , X1 )
Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 )
Var(Xn )
n
X
i=1
n
X
den Erwartungswert E
i=1
die Varianz
Var
(w = (w1 , . . . , wn )0 ∈ Rn )
wi · Xi = w1 · X1 + · · · + wn · Xn
n
X
i=1
wi · Xi
!
=
wi · Xi
n X
n
X
i=1 j=1
=
n
X
i=1
0
!
=
n
X
i=1
wi · E(Xi ) = w0 E(X)
wi · wj · Cov(Xi , Xj )
wi2 · Var(Xi ) + 2
= w V(X)w
n−1 X
n
X
i=1 j=i+1
wi · wj · Cov(Xi , Xj )
(Varianz-)Kovarianzmatrix von X.
Ökonometrie (SS 2017)
Folie 49
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen I
Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen
Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch
verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt
”
”n
für die Summe Yn := i=1 Xi also
E(Yn ) = n · µX
Var(Yn ) = n · σX2
sowie
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
1
n
Pn
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen II
Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man
näherungsweise (auch falls Xi nicht normalverteilt ist) für
hinreichend großes n ∈ N
I
die N(nµX , nσX2 )-Verteilung für Yn :=
n
X
Xi oder
i=1
und man erhält durch
Yn − nµX
√
Zn :=
=
σX n
Folie 50
Xi − µX √
n
σX
I
i=1
Yn − nµX
√
=
die Standardnormalverteilung für Zn :=
σX n
verwendet.
1
n
Pn
Xi − µX √
n
σX
i=1
Leicht zu merken:
standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1).
Man verwendet näherungsweise die Normalverteilung mit
passendem“ Erwartungswert und passender“ Varianz!
”
”
Zentraler Grenzwertsatz:
Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung
(Standardnormalverteilung).
iid
Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N.
Ökonometrie (SS 2017)
Folie 51
Ökonometrie (SS 2017)
Folie 52
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
(Ausschnitt)
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
2
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2017)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
führt
Rückschluss auf
Verteilung/Kenngrößen
Ökonometrie (SS 2017)
Schließende Statistik 2.3
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Zufallsvariablen
X1, …, Xn
(konkrete)
2 Wiederholung statistischer Grundlagen
Folie 54
Bemerkungen zu den 3 Grundannahmen
Stichprobe
Auswahl der
Ökonometrie (SS 2017)
Ziehung/
Stichprobe
zu
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Realisationen
x1, …, xn
Folie 55
Ökonometrie (SS 2017)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
I
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Schließende Statistik 2.3
Stichprobenfunktionen
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
2 Wiederholung statistischer Grundlagen
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
n
1X
xi
n
x :=
i=1
Ökonometrie (SS 2017)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
i=1
Ökonometrie (SS 2017)
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
0.14
pX(xi)
0.04
0.06
0.08
0.10
5
6
0.00
0.02
4
1
2
3
4
5
6
1
2
3
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
pX(xi)
0.02
0.04
1.75
2.75
3.75
4.75
5.75
0.00
0.02
Ökonometrie (SS 2017)
0.04
0.06
pX(xi)
0.06
0.08
0.08
0.10
xi
xi
Folie 59
0.10
pX(xi)
0.05
0.00
3
0.10
1
Ökonometrie (SS 2017)
n=3
0.12
0.15
0.20
0.15
pX(xi)
0.10
0.00
2
0.12
1
0.00
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
0.08
2
1
5
5
2
3
5
3
4
..
.
0.06
6
4
3
3
1
6
2
5
4
..
.
pX(xi)
4
4
5
6
4
3
3
1
5
..
.
0.04
3
6
2
5
2
1
4
5
4
..
.
0.02
2
6
2
3
6
3
3
5
5
..
.
n=2
0.00
1
2
3
4
5
6
7
8
9
..
.
n=1
0.05
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
Stichprobe Nr. x1 x2 x3 x4 x5
x
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisationen von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Folie 61
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2017)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
b = E (θb − θ)2 = Var(θb − θ) +[ E(θb − θ) ]2
MSE(θ)
| {z } | {z }
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
b
=Var(θ)
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
denkbaren Werte von θ), so nennt man θb erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b
b
MSE(θ) := E θ − θ
Bei Schätzung von E(Y ) mit X gilt:
E(X )=E(Y )
σ2
MSE(X ) = E (X − E(Y ))2
=
Var(X ) = σX2 = Y
n
soll möglichst klein sein.
Ökonometrie (SS 2017)
b
=:Bias(θ)
Folie 63
Ökonometrie (SS 2017)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2017)
Folie 65
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
S 2 :=
1
n−1
bzw.
s 2 :=
i=1
1
n−1
n
X
Ökonometrie (SS 2017)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
i=1
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
(xi − x)2
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2017)
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
n
X
(Xi − X )2
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Intervallschätzung von µY := E(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen MSE(X ) =
2 Wiederholung statistischer Grundlagen
Folie 67
Ökonometrie (SS 2017)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
falls Y ∼ Unif(20, 50)
0.4
N(0,1)
n=4
f(x)
0.0
0.1
0.2
0.3
0.4
0.3
f(x)
0.0
−4
−2
0
2
4
−4
−2
x
N(0,1)
n=12
f(x)
0.0
−2
0
2
4
−4
−2
x
−2
2
4
Ökonometrie (SS 2017)
2
4
0.1
2
4
−4
N(0,1)
n=30
−2
0
2
4
2
4
N(0,1)
n=250
0.3
f(x)
0.0
−4
x
−2
0
x
Folie 71
0
0.1
f(x)
0.0
−4
−2
x
0.1
0.2
f(x)
x
0
0.3
0.4
N(0,1)
n=250
0.1
0
−2
x
0.0
−2
0.0
−4
0.3
0.4
0.3
0.2
0.0
0.1
f(x)
0
x
N(0,1)
n=30
−4
f(x)
0.3
f(x)
0.0
−4
N(0,1)
n=10
0.4
4
falls Y ∼ B(1, 0.5)
0.2
2
x
0.4
0
N(0,1)
n=3
0.2
−2
X −µ √
n,
σ
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=10
0.0
−4
Schließende Statistik 2.3
Beispiel: Näherung für
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ Exp(2)
2 Wiederholung statistischer Grundlagen
0.4
X −µ √
n,
σ
Folie 70
0.2
Beispiel: Näherung für
4
Ökonometrie (SS 2017)
0.4
Schließende Statistik 2.3
2
x
0.3
2 Wiederholung statistischer Grundlagen
0
0.2
Folie 69
4
0.1
f(x)
0.2
0.0
−4
Ökonometrie (SS 2017)
2
0.3
0.4
N(0,1)
n=7
0.1
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
0
x
0.3
X − µ√ •
n ∼ N(0, 1)
σ
bzw.
0.1
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
2
2
•
Verteilungseigenschaft X ∼ N µ, σn bzw. X ∼ N µ, σn wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
N(0,1)
n=2
0.2
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
X −µ √
n,
σ
0.4
Schließende Statistik 2.3
0.2
2 Wiederholung statistischer Grundlagen
Ökonometrie (SS 2017)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
f(x)
0.2
0.3
0.4
N(0,1)
n=10
−2
0
2
4
−4
−2
x
0
2
4
x
I
I
−4
α
2
an (vgl. Übungsaufgabe).
−2
0
2
4
−4
x
−2
0
2
4
x
Ökonometrie (SS 2017)
Folie 73
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σ2
Unter Verwendung der Symmetrieeigenschaft
bzw. hier
Folie 74
von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
berechnen (vgl. auch Folien 26 und 30).
Nα = −N1−α
Ökonometrie (SS 2017)
Schwankungsintervalle für X III
Für N(µ,
σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
0.0
−4
I
Schließende Statistik 2.3
Schwankungsintervalle für X I
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.05)
2 Wiederholung statistischer Grundlagen
Folie 75
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
von X .
Ökonometrie (SS 2017)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
I
102
25
Im Beispiel: X ∼ N 50,
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
0.20
I
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
Aufgabenstellung:
I
2 Wiederholung statistischer Grundlagen
, α = 0.05
X
I
0.10
0.05
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
α 2 = 0.025
µY −
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2017)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Ökonometrie (SS 2017)
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
σ2
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
α
α
P X ∈ µ − √ · N1− 2 , µ + √ · N1− 2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
α
α
=1−α .
P µ ∈ X − √ · N1− 2 , X + √ · N1− 2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
α
α
X − √ · N1− 2 , X + √ · N1− 2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2017)
α 2 = 0.025
1 − α = 0.95
0.00
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
fX(x)
I
I
0.15
Lösung:
Folie 79
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2017)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisation x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
α
α
x − √ · N1− 2 , x + √ · N1− 2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
S2 =
1 X
(Xi − X )2
n−1
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
2
Seien Y ∼ N(µ,
q σ ),PX1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
√
n
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2017)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.4
0.3
0.2
0.1
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
f(x)
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
bzw.
tn;1−p = −tn;p
0.0
tn;p = −tn;1−p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2017)
−4
−2
0
2
4
x
Folie 83
Ökonometrie (SS 2017)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Konfidenzintervalle für den Erwartungswert I
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
√
S2 =
q
1
Ersetzen von σ durch S =
2
Ersetzen von N1− α2 durch tn−1;1− α2
1
n−1
Pn
i=1 (Xi
Schließende Statistik 2.3
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
− X )2
erforderlich.
[1] 2.13145
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2
n
n
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ökonometrie (SS 2017)
Folie 85
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 86
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Quantile der t-Verteilungen: tn;p
Ökonometrie (SS 2017)
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisation x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
α
α
x − √ · tn−1;1− 2 , x + √ · tn−1;1− 2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Folie 87
Ökonometrie (SS 2017)
Folie 88
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Hypothesentests
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel I
Bisher betrachtet:
Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts
Hierzu: Verwendung der
1
2
Interessierende Zufallsvariable Y :
Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von
Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).
theoretischen Information über Verteilung von X
empirischen Information aus Stichprobenrealisation x von X
zur Konstruktion einer
I
I
Punktschätzung
Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen
Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)
Mittelwert (Erwartungswert) enthält.
Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:
Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer
vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt
( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ).
”
”
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 89
Schließende Statistik 2.3
Einführendes Beispiel II
Verteilungsannahme:
Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ).
Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16
vom Umfang n = 16 zu Y vor.
Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu
entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre,
unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt
(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).
Ökonometrie (SS 2017)
Folie 90
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilungen von X
0.4
für verschiedene Erwartungswerte µ bei σ = 4 und n = 16
Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500,
und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x
weit weg von 500.
Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann
”
”
eine geeignete“ Entscheidungsregel konstruiert werden?
”
0.2
0.1
I
0.0
I
X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird
X praktisch nie genau den Wert x = 500 annehmen!
Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500
”
gilt.
Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500
”
gilt.
fX(x|µ)
I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Offensichlich gilt:
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 91
Ökonometrie (SS 2017)
Folie 92
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für nahe“ Grenze
”
Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu
genau einer der folgenden vier verschiedenen Situationen:
I
0.1
Wünschenswert:
Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen.
”
”
Aber: Zielkonflikt vorhanden:
Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto
”
”
I
0.2
0.3
Tatsächliche Situation:
H1 wahr (µ 6= 500)
Fehler
2. Art
richtige
Entscheidung
µ = 500
µ = 494
µ = 499
µ = 503
0.0
Tatsächliche Situation:
H0 wahr (µ = 500)
richtige
Entscheidung
Fehler
1. Art
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1
fX(x|µ)
Entscheidung
für H0 (µ = 500)
Entscheidung
für H1 (µ 6= 500)
Schließende Statistik 2.3
0.4
Entscheidungsproblem
2 Wiederholung statistischer Grundlagen
seltener Fehler 2. Art
häufiger Fehler 1. Art
494
496
498
500
502
504
506
x
und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“.
”
”
Ökonometrie (SS 2017)
Folie 93
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
0.4
Beispiel für ferne“ Grenze
”
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3
2 Wiederholung statistischer Grundlagen
Folie 94
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für
alle möglichen Situationen (also alle denkbaren µ) zu verringern.
Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!
0.2
Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die
”
Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung
gegen H0 , obwohl H0 wahr ist) begehen darf.
Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man
”
”
den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x
bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α
jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500
entscheidet!
0.0
0.1
fX(x|µ)
Ökonometrie (SS 2017)
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 95
Ökonometrie (SS 2017)
Folie 96
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel II
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Grenze zum Signifikanzniveau α = 0.05
0.4
Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95
0.2
0.1
0.0
σ
σ
P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2
=1−α .
n
n
fX(x|µ)
Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält
den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)
σ
σ
µ0 − √ · N1− α2 , µ0 + √ · N1− α2
n
n
mit
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von
H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und
damit nur mit Wahrscheinlichkeit α außerhalb liegt!).
494
496
498
500
502
504
506
x
Ökonometrie (SS 2017)
Folie 97
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel I
Ökonometrie (SS 2017)
Folie 98
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel II
Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel
also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im
Intervall
4
4
500 − √ · N0.975 , 500 + √ · N0.975 = [498.04, 501.96] ,
16
16
dem sog. Annahmebereich des Hypothesentests, liegt.
Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter
2
Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher:
Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder
Teststatistik
X − µ0 √
N :=
n.
σ
Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen
H0 : µ = 500) aus, wenn die Realisation x von X in der Menge
Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und
ist daher daher (für µ = µ0 ) standardnormalverteilt:
(−∞, 498.04) ∪ (501.96, ∞) ,
X − µ0 √
n ∼ N(0, 1)
σ
dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,
liegt.
falls µ = µ0
Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich
schon vollständig spezifiziert!
Ökonometrie (SS 2017)
Folie 99
Ökonometrie (SS 2017)
Folie 100
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel III
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel IV
Man rechnet leicht nach:
σ
σ
X − µ0 √
X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔
n ∈ −N1− α2 , N1− α2
σ
n
n
√
0
Als
A für die Testgröße N = X −µ
n erhält man also
σ
Annahmebereich
−N1− α2 , N1− α2 , als kritischen Bereich K entsprechend
K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞
und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.
Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X
”
bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher
untersuchen. Damit lassen sich dann auch (von µ abhängige!)
Fehlerwahrscheinlichkeiten 2. Art berechnen.
Im Beispiel erhält man so zu den betrachteten Szenarien (also
unterschiedlichen wahren Parametern µ):
Wahrscheinlichkeit der
Wahrscheinlichkeit der
Annahme von µ = 500 Ablehnung von µ = 500
P{N ∈ A}
P{N ∈ K }
µ = 500
0.95
0.05
µ = 494
0
1
µ = 499
0.8299
0.1701
µ = 503
0.1492
0.8508
(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)
Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den
”
Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 101
Schließende Statistik 2.3
Zweiseitiger Gauß-Test für den Ewartungswert
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 102
Schließende Statistik 2.3
Beispiel: Qualitätskontrolle (Länge von Stahlstiften)
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des zweiseitigen Tests:
”
1
Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
4
5
X − µ0 √
•
n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = −∞, −N1− α2 ∪ N1− α2 , ∞
Berechnung der realisierten Teststatistik N
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 103
Untersuchungsgegenstand: Weicht die mittlere Länge der von einer
bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in
[cm]) ab, so dass die Produktion gestoppt werden muss?
Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 )
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 64 zu Y liefert Stichprobenmittel x = 9.7.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
(Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz
1
Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10
√
0
2
Teststatistik: N = X −µ
n ∼ N(0, 1), falls H0 gilt (µ = µ0 )
σ
3
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞)
√
4
Realisierter Wert der Teststatistik: N = 9.7−10
64 = −6
0.4
5
Entscheidung: N ∈ K
H0 wird abgelehnt und die Produktion gestoppt.
Ökonometrie (SS 2017)
Folie 104
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert I
Einseitige Gauß-Tests für den Ewartungswert II
bei bekannter Varianz
bei bekannter Varianz
Auch für einseitige Tests fasst Teststatistik
Neben zweiseitigem Test auch zwei einseitige Varianten:
H0 : µ ≤ µ0
H0 : µ ≥ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
gegen
H1 : µ < µ0
(linksseitiger Test)
N=
Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise
abzulehnen, auf das Signifikanzniveau α.
Entscheidung zwischen beiden Varianten daher wie folgt:
die empirische Information über den Erwartungswert µ geeignet zusammen.
Allerdings gilt nun offensichtlich
I
2 Wiederholung statistischer Grundlagen
Folie 105
Schließende Statistik 2.3
im Falle des rechtsseitigen Tests von
H0 : µ ≤ µ0
H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als
glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei
Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist.
H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern
möchte und für deren Akzeptanz man hohe Evidenz fordert.
Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass
man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1
kontrollieren will.
Ökonometrie (SS 2017)
X − µ0 √
n
σ
I
gegen
H1 : µ > µ0 ,
dass große (insbesondere positive) Realisationen von N gegen H0 und für H1
sprechen, sowie
im Falle des linksseitigen Tests von
H0 : µ ≥ µ0
gegen
H1 : µ < µ0 ,
dass kleine (insbesondere negative) Realisationen von N gegen H0 und für
H1 sprechen.
Ökonometrie (SS 2017)
Folie 106
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
bei bekannter Varianz
Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
0.4
Rechtsseitiger Gauß-Test für den Ewartungswert I
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt.
0.2
0.1
0.0
Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das
größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten.
fN(x|µ)
Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit
P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 .
Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit
insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test.
Ökonometrie (SS 2017)
Folie 107
µ = 500
µ = 499
µ = 502
µ = 504
0.3
Noch nötig zur Konstruktion der Tests:
Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass
Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α
beschränkt bleibt.
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 108
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein
kritischer Wert bestimmt werden, den die Teststatistik N im Fall der
Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.
2
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ .
Testrezept“ des rechtsseitigen Tests:
”
1
Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R.
2
Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das
kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten.
Teststatistik:
N :=
3
Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 .
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt.
Kritischer Bereich zum Signifikanzniveau α:
Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält
damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den
linksseitigen Test.
K = (N1−α , ∞)
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 109
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2017)
Folie 110
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
bei bekannter Varianz
0.4
Beispiel für Verteilungen von N
Anwendung
µ = 500
µ = 496
µ = 498
µ = 501
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Testrezept“ des linksseitigen Tests:
”
1
Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R.
2
0.2
fN(x|µ)
0.3
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Teststatistik:
0.1
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
0.0
K = (−∞, −N1−α )
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2017)
Folie 111
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2017)
Folie 112
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen I
Fällt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsächlich
erfüllt sein — wegen der Beschränkung der Fehlerwahrscheinlichkeit 1. Art
durch das Signifikanzniveau α nur mit einer typischerweise geringen
Wahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, die
fälschlicherweise zur Ablehnung von H0 geführt hat.
Aber: Vorsicht vor Über“interpretation als Evidenz für Gültigkeit von H1 :
”
Aussagen der Form Wenn H0 abgelehnt wird, dann gilt H1 mit
”
Wahrscheinlichkeit von mindestens 1 − α“ sind unsinnig!
2 Wiederholung statistischer Grundlagen
Folie 113
Schließende Statistik 2.3
Interpretation von Testergebnissen III
I
I
signifikante Veränderung (zweiseitiger Test),
signifikante Verringerung (linksseitiger Test) oder
signifikante Erhöhung (rechtsseitiger Test)
I
Gilt also tatsächlich H1 , ist es dennoch mit einer oft – meist abhängig vom
Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit möglich, eine
”
Stichprobenrealisation zu erhalten, die fälschlicherweise nicht zur
Ablehnung von H0 führt.
Aus diesem Grund sagt man auch häufig statt H0 wird angenommen“ eher
”
H kann nicht verworfen werden“.
” 0
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 114
Schließende Statistik 2.3
Ein signifikanter“ Unterschied ist noch lange kein deutlicher“ Unterschied!
”
”
Problem: Fluch des großen Stichprobenumfangs“
”
Beispiel: Abfüllmaschine soll Flaschen mit 1000 ml Inhalt abfüllen.
einer Größe bezeichnet. Konstruktionsbedingt kann das Ergebnis einer
statistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aber
niemals als zweifelsfreier Beweis für die Veränderung/Verringerung/Erhöhung
einer Größe dienen!
Vorsicht vor Publication Bias“:
”
I
Fällt die Testentscheidung jedoch für H0 aus, so ist dies meist ein
vergleichsweise schwächeres Indiz“ für die Gültigkeit von H0 , da die
”
Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise große
Werte (bis 1 − α) annehmen kann.
Interpretation von Testergebnissen IV
Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird häufig als
I
Schließende Statistik 2.3
Interpretation von Testergebnissen II
Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist
Vorsicht bei der Interpretation von Testergebnissen geboten, es besteht ein
großer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0
und dem Aussagegehalt einer Annahme von H0 :
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20
statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt in
einer Ablehnung von H0 .
Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nicht
verworfen wurde, verschwiegen bzw. nicht publiziert werden!
I
I
Abfüllmenge schwankt zufällig, Verteilung sei Normalverteilung mit bekannter
Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Fälle liegt Abfüllmenge
im Bereich ±1 ml um den (tatsächlichen) Mittelwert.
Statistischer Test zum Niveau α = 0.05 zur Überprüfung, ob mittlere
Abfüllmenge (Erwartungswert) von 1000 ml abweicht.
Tatsächlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen.
Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4%
Systematische Abweichung der Abfüllmenge von 0.1 ml also zwar mit hoher
Wahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehin
vorhandenen) zufälligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich!
Fazit: Durch wissenschaftliche Studien belegte signifikante Verbesserungen“
”
können vernachlässigbar klein sein ( Werbung...)
Ökonometrie (SS 2017)
Folie 115
Ökonometrie (SS 2017)
Folie 116
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Der p-Wert
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
p-Wert bei Gauß-Tests
für den Erwartungswert bei bekannter Varianz
Hypothesentests komprimieren“ Stichprobeninformation zur Entscheidung
”
zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α.
Der Wechsel zwischen N ∈ Kα“ und N ∈
/ Kα“ findet bei den diskutierten
” dort statt, wo
” die realisierte
Gauß-Tests offensichtlich
Teststatistik N gerade
mit (einer) der Grenze(n) des kritischen Bereichs übereinstimmt, d.h.
I
Testentscheidung hängt von α ausschließlich über kritischen Bereich Kα ab!
Genauere Betrachtung (Gauß-Test für den Erwartungswert) offenbart:
I
I
I
I
Je kleiner α, desto kleiner (im Sinne von ⊂“) der kritische Bereich.
Zu jeder realisierten Teststatistik N findet” man sowohl
F
F
bei rechtsseitigen Tests mit Kα = (N1−α , ∞) für N = N1−α ,
bei linksseitigen Tests mit Kα = (−∞, −N1−α ) für N = −N1−α ,
bei zweiseitigen Tests mit Kα = (−∞, −N1− α2 ) ∪ (N1− α2 , ∞) für
N=
große“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N enthalten ( Ablehnung von H0 ), als auch
kleine“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N nicht enthalten ( Annahme von H0 ).
−N1− α2
N1− α2
.
Durch Auflösen nach α erhält man
I
Es gibt also zu jeder realisierten Teststatistik N ein sogenanntes
empirisches (marginales) Signifikanzniveau, häufiger p-Wert genannt,
welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt.
I
I
für rechtsseitige Tests den p-Wert 1 − Φ(N),
für linksseitige Tests den p-Wert Φ(N),
für zweiseitige Tests den p-Wert
2 · Φ(N) = 2 · (1 − Φ(−N))
2 · (1 − Φ(N))
Ökonometrie (SS 2017)
Folie 117
2 Wiederholung statistischer Grundlagen
falls N < 0
falls N ≥ 0
Schließende Statistik 2.3
falls N < 0
falls N ≥ 0
= 2 · (1 − Φ(|N|)) .
Ökonometrie (SS 2017)
Folie 118
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Realisierte Teststatistik N = 1.6, p-Wert: 0.0548
Realisierte Teststatistik N = −1.8, p-Wert: 0.0719
0.3
p = 0.0548
= 0.03595
1 − p = 0.9281
p
2
− N0.995 N = − 1.8 − N0.85
N0.85 N = 1.6 N0.99
x
Ökonometrie (SS 2017)
2
= 0.03595
0.0
0.0
0.1
p
0.1
1 − p = 0.9452
0.2
fN(0, 1)(x)
0.2
fN(0, 1)(x)
0.3
0.4
Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik)
0.4
Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik)
N0.85
N0.995
x
Folie 119
Ökonometrie (SS 2017)
Folie 120
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung mit p-Wert
Schließende Statistik 2.3
Tests und Konfidenzintervalle
Offensichtlich erhält man auf der Grundlage des p-Werts p zur beobachteten
Stichprobenrealisation die einfache Entscheidungsregel
H0 ablehnen
2 Wiederholung statistischer Grundlagen
⇔
p<α
für Hypothesentests zum Signifikanzniveau α.
Sehr niedrige p-Werte bedeuten also, dass man beim zugehörigen
Hypothesentest H0 auch dann ablehnen würde, wenn man die maximale
Fehlerwahrscheinlichkeit 1. Art sehr klein wählen würde.
Kleinere p-Werte liefern also stärkere Indizien für die Gültigkeit von H1 als
größere, aber (wieder) Vorsicht vor Überinterpretation: Aussagen der Art
Der p-Wert gibt die Wahrscheinlichkeit für die Gültigkeit von H0 an“ sind
”
unsinnig!
Warnung!
Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist es
unbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Werts
festzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wählen,
dass man die bevorzugte“ Testentscheidung erhält!
”
Ökonometrie (SS 2017)
Folie 121
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen)
Konfidenzintervallen für den Erwartungswert bei bekannter Varianz.
Für Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 − α gilt:
σ
σ
α
α
√
√
µ
e∈ X−
· N1− 2 , X +
· N1− 2
n
n
σ
σ
⇔
µ
e − X ∈ − √ · N1− α2 , √ · N1− α2
n
n
µ
e−X√
⇔
n ∈ −N1− α2 , N1− α2
σ
X −µ
e√
⇔
n ∈ −N1− α2 , N1− α2
σ
Damit ist µ
e also genau dann im Konfidenzintervall zur
Sicherheitswahrscheinlichkeit 1 − α enthalten, wenn ein zweiseitiger
Gauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ
e nicht
verwerfen würde.
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: Gauß-Test für den Mittelwert
t-Test für den Mittel-/Erwartungswert I
bei bekannter Varianz
bei unbekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R unbekannt, σ 2 bekannt
approximativ: E (Y ) = µ ∈ R unbekannt, Var(Y ) = σ 2 bekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
N=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
σ
N für µ = µ0 (näherungsweise) N(0, 1)-verteilt
n
1X
X =
Xi
n i=1
(−∞, −N1− α2 )
∪(N1− α2 , ∞)
2 · (1 − Φ(|N|))
Konstruktion des (exakten) Gauß-Tests für den Mittelwert bei bekannter
Varianz durch Verteilungsaussage
N :=
X − µ√
n ∼ N(0, 1) ,
σ
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y .
Analog zur Konstruktion von Konfidenzintervallen für den Mittelwert bei
unbekannter Varianz: Verwendung der Verteilungsaussage
v
u
n
u 1 X
X − µ√
t :=
n ∼ t(n − 1)
mit
S =t
(Xi − X )2 ,
S
n−1
i=1
(N1−α , ∞)
(−∞, −N1−α )
1 − Φ(N)
Φ(N)
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y , um geeigneten
Hypothesentest für den Mittelwert µ zu entwickeln.
Test lässt sich genauso wie Gauß-Test herleiten, lediglich
I
I
Ökonometrie (SS 2017)
Folie 122
Folie 123
Verwendung von S statt σ,
Verwendung von t(n − 1) statt N(0, 1).
Ökonometrie (SS 2017)
Folie 124
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert II
Zusammenfassung: t-Test für den Mittelwert
bei unbekannter Varianz
bei unbekannter Varianz
Anwendungsvoraussetzungen
Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigen
Tests bleibt wie beim Gauß-Test erhalten.
Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden
Vereinfachungen“ bei der Bestimmung von kritischen Bereichen und
”
p-Werten gültig.
Nullhypothese
Gegenhypothese
p-Werte können mit Hilfe der Verteilungsfunktion Ft(n−1) der
t(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhält man
Ft(n−1) (t) beispielsweise mit dem Befehl pt(t,df=n-1).
Teststatistik
Zur Berechnung von p-Werten für große n: Näherung der t(n − 1)-Verteilung
durch Standardnormalverteilung möglich.
Benötigte Größen
Analog zu Konfidenzintervallen:
Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert bei
unbekannter Varianz immer noch als approximativer (näherungsweiser) Test
verwendet werden.
Verteilung (H0 )
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
2 Wiederholung statistischer Grundlagen
Folie 125
Schließende Statistik 2.3
Beispiel: Durchschnittliche Wohnfläche
Ökonometrie (SS 2017)
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ R++ unbekannt
approximativ: E (Y ) = µ ∈ R, Var(Y ) = σ 2 ∈ R++ unbekannt
X1 , . . . , Xn einfache Stichprobe zu Y
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
t=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
S
t für µ = µ0 (näherungsweise) t(n − 1)-verteilt
n
X
1
X =
Xi
n
v
v i=1
!
u
u
n
n
X
u 1
u 1 X
2
2
t
2
t
X − nX
S=
(Xi − X ) =
n − 1 i=1
n − 1 i=1 i
(−∞, −tn−1;1− α2 )
∪(tn−1;1− α2 , ∞)
2 · (1 − Ft(n−1) (|t|))
(tn−1;1−α , ∞)
(−∞, −tn−1;1−α )
1 − Ft(n−1) (t)
Ft(n−1) (t)
Folie 126
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik)
Ökonometrie (SS 2017)
Folie 127
0.2
1 − p = 0.968
p = 0.032
0.0
0.1
ft(399)(x)
0.3
0.4
Wohnflächenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032
Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnfläche pro
Haushalt in einer bestimmten Stadt gegenüber dem aus dem Jahr 1998
stammenden Wert von 71.2 (in [m2 ]) erhöht?
Annahmen: Verteilung der Wohnfläche Y im Jahr 2009 unbekannt.
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 400 zu Y liefert Stichprobenmittel x = 73.452 und
Stichprobenstandardabweichung s = 24.239.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
Rechtsseitiger approx. t-Test für den Mittelwert bei unbekannter Varianz
1
Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2
√ •
0
2
Teststatistik: t = X −µ
n ∼ t(399), falls H0 gilt (µ = µ0 )
S
3
Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95
√ , ∞) = (1.649, ∞)
4
Realisierter Wert der Teststatistik: t = 73.452−71.2
400 = 1.858
24.239
5
Entscheidung: t ∈ K
H0 wird abgelehnt; Test kommt zur Entscheidung,
dass sich durchschnittliche Wohnfläche gegenüber 1998 erhöht hat.
t399, 0.8
t = 1.858
t399, 0.999
x
Ökonometrie (SS 2017)
Folie 128
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Inhaltsverzeichnis
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge I
(Ausschnitt)
3
Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient als
Maß der Stärke des linearen Zusammenhangs zwischen zwei
(kardinalskalierten) Merkmalen X und Y .
Einfache lineare Regression
Deskriptiver Ansatz
Statistisches Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Einfache lineare Modelle mit R
Nun: Ausführlichere Betrachtung linearer Zusammenhänge zwischen
Merkmalen (zunächst rein deskriptiv!):
Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe,
ist nicht nur die Stärke dieses Zusammenhangs interessant, sondern auch die
genauere Form“ des Zusammenhangs.
”
Form“ linearer Zusammenhänge kann durch Geraden(gleichungen)
”
spezifiziert werden.
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 129
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge II
Ökonometrie (SS 2017)
Folie 130
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge III
Problemstellung: Wie kann zu einer Urliste (x1 , y1 ), . . . , (xn , yn ) der Länge n
zu (X , Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefunden
werden, die den linearen Zusammenhang zwischen X und Y möglichst gut“
”
widerspiegelt?
Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a und
Steigung b in der bekannten Darstellung
Wichtig: Was soll möglichst gut“ überhaupt bedeuten?
”
Hier: Summe der quadrierten Abstände von der Geraden zu den
Datenpunkten (xi , yi ) in vertikaler Richtung soll möglichst gering sein.
(Begründung für Verwendung dieses Qualitätskriteriums“ wird nachgeliefert!)
”
Für den i-ten Datenpunkt (xi , yi ) erhält man damit den vertikalen Abstand
Ökonometrie (SS 2017)
Folie 131
y = fa,b (x) := a + b · x .
ui (a, b) := yi − fa,b (xi ) = yi − (a + b · xi )
von der Geraden mit Absolutglied a und Steigung b.
Ökonometrie (SS 2017)
Folie 132
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge IV
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
”
15
aus n = 10 Paaren (xi , yi )
Gesucht werden a und b so, dass die Summe der quadrierten vertikalen
Abstände der Punktwolke“ (xi , yi ) von der durch a und b festgelegten
”
Geraden,
(ui (a, b)) =
i=1
n
X
i=1
2
(yi − fa,b (xi )) =
n
X
i=1
●
●
10
●
●
2
(yi − (a + b · xi )) ,
●
●
●
5
2
●
yi
n
X
●
möglichst klein wird.
●
0
Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate
(KQ-Methode) oder Least-Squares-Methode (LS-Methode).
0
2
4
6
8
xi
Ökonometrie (SS 2017)
Folie 133
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Folie 134
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: P
Punktwolke“ und verschiedene Geraden II
”
a = 5, b = 0.8, ni=1 (ui (a, b))2 = 33.71
15
Beispiel: P
Punktwolke“ und verschiedene Geraden I
”
a = 1, b = 0.8, ni=1 (ui (a, b))2 = 180.32
Ökonometrie (SS 2017)
●
●
●
●
●
●
●
●
ui(a, b)
10
10
●
●
●
●
yi
●
yi
ui(a, b)
●
b = 0.8
●
●
●
5
5
●
1
●
●
a=5
b = 0.8
0
0
0
a=1 1
2
4
6
8
0
xi
Ökonometrie (SS 2017)
2
4
6
8
xi
Folie 135
Ökonometrie (SS 2017)
Folie 136
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“
und verschiedene Geraden III
” Pni=1 (ui (a, b))2 = 33.89
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden I
a = −1, b = 1.9,
Gesucht sind also b
a, b
b ∈ R mit
15
n
n
X
X
(yi − (b
a+b
bxi ))2 = min
(yi − (a + bxi ))2
a,b∈R
i=1
●
10
●
●
●
ui(a, b)
●
yi
●
●
5
●
i=1
●
führt zu sogenannten Normalgleichungen:
!
n
n
X
X
!
na +
xi b =
yi
b = 1.9
a = −1
1
0
i=1
Lösung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi ) = 0
∂a
i=1
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi )xi = 0 ,
∂b
●
0
3 Einfache lineare Regression
2
4
6
n
X
8
xi
i=1
Ökonometrie (SS 2017)
Folie 137
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden II
Ökonometrie (SS 2017)
xi
!
i=1
a+
n
X
xi2
i=1
!
i=1
!
b=
n
X
xi yi
i=1
Folie 138
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“ und Regressionsgerade
” P
b
a = 2.03, b
b = 1.35, n (ui (b
a, b
b))2 = 22.25
i=1
15
Aufgelöst nach a und b erhält man die Lösungen
Pn
Pn
Pn
n
i=1 xi yi −
i=1 xi ·
i=1 yi
b
b=
2
Pn
Pn
2
n
i=1 xi −
i=1 xi
1 Pn
Pn
b
b
a = n1
i=1 yi − n
i=1 xi · b
●
●
10
xy − x · y
sX ,Y
b
b=
= 2
sX
x2 − x2
b
b
a = y − xb
Ökonometrie (SS 2017)
yi
^
^, b
ui(a
)
●
●
●
●
5
bzw. den empirischen Momenten sX ,Y = xy − x · y und sX2 = x 2 − x 2 :
Die erhaltenen Werte b
a und b
b minimieren tatsächlich die Summe der
quadrierten vertikalen Abstände, da die Hesse-Matrix positiv definit ist.
●
●
oder kürzer mit den aus der deskr. Statistik bekannten Bezeichnungen
Pn
Pn
Pn
Pn
x = n1 i=1 xi , x 2 = n1 i=1 xi2 , y = n1 i=1 yi und xy = n1 i=1 xi yi
●
●
^
b = 1.35
0
1
^ = 2.03
a
0
2
4
6
8
xi
Folie 139
Ökonometrie (SS 2017)
Folie 140
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode I
a+b
b · xi )
yi = b
a+b
b · x + y − (b
| {z }i |i
{z
}
=:b
yi
I
Mit diesen Eigenschaften erhält man die folgende Varianzzerlegung:
n
n
1X
1X
(yi − y )2 =
(b
yi − yb)2 +
n
n
i=1
i=1
|
|
{z
}
{z
}
Gesamtvarianz der yi
=ui (b
a,b
b)=:b
ui
Aus den Normalgleichungen lassen sich leicht einige Eigenschaften für die so
bi und ybi herleiten, insbesondere:
definierten u
I
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode II
Zu b
a und b
b kann man offensichtlich die folgende, durch die Regressionsgerade
erzeugte Zerlegung der Merkmalswerte yi betrachten:
I
3 Einfache lineare Regression
Folie 141
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
i=1
b
ui2 = 22.25
15
b
a = 2.03, b
b = 1.35,
Pn
●
● ●
●
10
●
Pn
(b
yi − yb)2
Pi=1
n
2
i=1 (yi − y )
Ökonometrie (SS 2017)
Folie 142
3 Einfache lineare Regression
i
xi
yi
●
●
^
u
i
=
1
n
1
n
Deskriptiver Ansatz 3.1
Daten im Beispiel:
y = y^
x
●
rX2 ,Y
Beispiel: Berechnung von b
a und b
b
Beispiel: Regressionsgerade mit Zerlegung yi = b
yi + b
ui
unerklärte Varianz
Die als Anteil der erklärten Varianz an der Gesamtvarianz gemessene Stärke
des linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt:
P
Pn
P
P
b = 0 und damit ni=1 yi = ni=1 ybi bzw. y = yb := n1 ni=1 ybi .
u
Pni=1 i
b = 0.
xu
i=1
Pi i
P
P
bi = 0 folgt auch ni=1 ybi u
bi = 0.
bi = 0 und ni=1 xi u
Mit ni=1 u
Ökonometrie (SS 2017)
erklärte Varianz
n
1X 2
bi
u
n
i=1
| {z }
1
2.51
6.57
2
8.27
12.44
3
4.46
10.7
4
3.95
5.51
5
6.42
12.95
6
6.44
8.95
7
2.12
3.86
8
3.65
6.22
9
6.2
10.7
10
6.68
10.98
Berechnete (deskriptive/empirische) Größen:
●
x = 5.0703
●
y = 8.8889
x 2 = 29.3729
y 2 = 87.9398
yi
●
●
●
●
yi
●
●
5
sX2
●
●
^
b
sX ,Y = 4.956
rX ,Y = 0.866
sX ,Y
4.956
b
= 1.352
b= 2 =
3.665
sX
b
a =y −b
b · x = 8.8889 − 1.352 · 5.0703 = 2.03
1
0
^
a
= 8.927
Damit erhält man Absolutglied b
a und Steigung b
b als
y^i
●
= 3.665
sY2
und damit die Regressionsgerade
0
2
4
6
8
y = f (x) = 2.03 + 1.352 · x .
xi
Ökonometrie (SS 2017)
Folie 143
Ökonometrie (SS 2017)
Folie 144
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell I
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell II
Keine symmetrische Behandlung von X und Y mehr, sondern:
Bisher: rein deskriptive Betrachtung linearer Zusammenhänge
I
Bereits erläutert/bekannt: Korrelation 6= Kausalität:
Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalen
lässt sich nicht schließen, dass der Wert eines Merkmals den des anderen
beeinflusst.
I
Interpretation von X ( Regressor“) als erklärende deterministische Variable.
”
Interpretation von Y ( Regressand“) als abhängige, zu erklärende
”
(Zufalls-)Variable.
Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung von
Pearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleine
auch keine Wirkungsrichtung erkennen lassen kann.
Es wird angenommen, dass Y in linearer Form von X abhängt, diese
Abhängigkeit jedoch nicht perfekt“ ist, sondern durch zufällige Einflüsse
”
gestört“ wird.
”
Anwendung in Experimenten: Festlegung von X durch Versuchsplaner,
Untersuchung des Effekts auf Y
Nun: statistische Modelle für lineare Zusammenhänge
Damit auch Kausalitätsanalysen möglich!
Ökonometrie (SS 2017)
Folie 145
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell III
u1 , . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ 2
(unbekannt) und Cov(ui , uj ) = 0 für i 6= j sind, die zufällige Störungen der
linearen Beziehung ( Störgrößen“) beschreiben,
P
”
x1 , . . . , xn deterministisch sind mit sX2 = n1 ni=1 (xi − x)2 > 0
(d.h. nicht alle xi sind gleich),
β0 , β1 feste, unbekannte reelle Parameter sind.
Man nimmt an, dass man neben x1 , . . . , xn auch y1 , . . . , yn beobachtet, die
wegen der Abhängigkeit von den Zufallsvariablen u1 , . . . , un ebenfalls
(Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch
(Realisationen von) u1 , . . . , un beobachten kann (β0 und β1 unbekannt!).
Ökonometrie (SS 2017)
Parameterschätzung 3.3
einfaches lineares Regressionsmodell.
gilt, wobei
I
3 Einfache lineare Regression
Das durch die getroffenen Annahmen beschriebene Modell heißt auch
yi = β0 + β1 · xi + ui
I
Folie 146
Parameterschätzung I
Es wird genauer angenommen, dass für i ∈ {1, . . . , n} die Beziehung
I
Ökonometrie (SS 2017)
Folie 147
Im einfachen linearen Regressionsmodell sind also (neben σ 2 ) insbesondere β0
und β1 Parameter, deren Schätzung für die Quantifizierung des linearen
Zusammenhangs zwischen xi und yi nötig ist.
Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche
nach Absolutglied und Steigung einer geeigneten Geradengleichung
y = fβ0 ,β1 (x) = β0 + β1 · x .
Achtung!
Die Bezeichnung der Parameter hat sich gegenüber der Veranstaltung
Schließende Statistik“ geändert, aus β1 wird β0 , aus β2 wird β1 !
”
Ökonometrie (SS 2017)
Folie 148
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung II
Man erhält also — ganz analog zum deskriptiven Ansatz — die folgenden
Parameterschätzer:
Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte
Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten
vertikalen Abstände zur durch β0 und β1 bestimmten Geraden, in Zeichen
n
n
X
X
!
(yi − (βb0 + βb1 · xi ))2 = min
(yi − (β0 + β1 · xi ))2 ,
β0 ,β1 ∈R
i=1
Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums
Minimierung der quadrierten vertikalen Abstände“ (KQ-Methode).
”
Ökonometrie (SS 2017)
Folie 149
3 Einfache lineare Regression
Parameterschätzung 3.3
bi := yi − (βb0 + βb1 · xi ) = yi − ybi
Die resultierenden vertikalen Abweichungen u
der yi von den auf der Regressionsgeraden liegenden Werten ybi := βb0 + βb1 · xi
nennt man Residuen.
Wie im deskriptiven Ansatz gelten die Beziehungen
Pn
Pn
Pn
Pn
bi = 0,
bi ,
bi = 0,
i=1 xi u
i=1 y
i=1 u
i=1 yi =
Pn
bi u
bi
i=1 y
die Streuungszerlegung
i=1
{z
}
Total Sum of Squares
n
X
i=1
|
(b
yi − yb)2
{z
}
Explained Sum of Squares
bzw. die Varianzzerlegung
Pn
1
2
i=1 (yi − y ) =
n
Ökonometrie (SS 2017)
βb1 =
n
Vorsicht!
Pn
βb0 =
1
n
Pn
Pn
i=1 xi ·
i=1 yi
2
Pn
−
i=1 xi
Pn
i=1 xi yi −
Pn
2
n
i=1 xi
i=1 yi
−
1
n
Pn
i=1 xi
=
xy − x · y
x2 − x2
=
sX ,Y
,
sX2
· βb1 = y − x βb1 .
sX2 , sY2 sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Größen
Pn
Pn
sX2 = n1 i=1 (xi − x)2 = x 2 − x 2 ,
sY2 = n1 i=1 (yi − y )2 = y 2 − y 2
Pn
und sX ,Y = n1 i=1 (xi − x) · (yi − y ) = xy − x · y .
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 150
Parameterschätzung 3.3
Das (multiple) Bestimmtheitsmaß R 2
Parameterschätzung IV
|
Parameterschätzer im einfachen linearen Regressionsmodell
i=1
die beste (varianzminimale) lineare (in yi ) erwartungstreue Schätzfunktion βb0
für β0 bzw. βb1 für β1 .
=
Parameterschätzung 3.3
Parameterschätzung III
Satz 3.1 (Satz von Gauß-Markov)
n
X
(yi − y )2
3 Einfache lineare Regression
1
n
Pn
yi
i=1 (b
n
X
+
i=1
=0
bezeichnet. R 2 wird auch (multiples) Bestimmtheitsmaß genannt.
bi2
u
Es gilt 0 ≤ R 2 ≤ 1 sowie der (bekannte) Zusammenhang R 2 = rX2 ,Y =
| {z }
Residual Sum of Squares
− yb)2 +
1
n
Pn
i=1
bi2 .
u
Auch im linearen Regressionsmodell wird die Stärke des linearen
Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz
gemessen und mit
Pn
Pn
bi2
(b
yi − yb)2
ESS
RSS
2
i=1
i=1 u
P
R = Pn
=
1
−
=
=1−
n
2
2
TSS
TSS
i=1 (yi − y )
i=1 (yi − y )
sX2 ,Y
sX2 ·sY2
.
Größere Werte von R 2 (in der Nähe von 1) sprechen für eine hohe
Modellgüte, niedrige Werte (in der Nähe von 0) für eine geringe Modellgüte.
Folie 151
Ökonometrie (SS 2017)
Folie 152
3 Einfache lineare Regression
Parameterschätzung 3.3
Beispiel: Ausgaben in Abhängigkeit vom Einkommen I
3 Einfache lineare Regression
Parameterschätzung 3.3
Berechnete (deskriptive/empirische) Größen:
x = 30.28571
Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und
Genussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100
e) in der Form
iid
ui ∼ N(0, σ 2 ),
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n}
abhängen. Für n = 7 Haushalte beobachte man nun neben dem Einkommen
xi auch die (Realisation der) Ausgaben für Nahrungs- und Genussmittel yi
wie folgt:
Haushalt i
Einkommen xi
NuG-Ausgaben yi
1
35
9
2
49
15
3
21
7
4
39
11
5
15
5
6
28
8
7
25
9
Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1
bi
der linearen Modellbeziehung geschätzt sowie die Werte ybi , die Residuen u
und das Bestimmtheitsmaß R 2 bestimmt werden.
Ökonometrie (SS 2017)
Folie 153
3 Einfache lineare Regression
Parameterschätzung 3.3
15
βb0 = 1.14228, βb1 = 0.26417, R 2 = 0.9191
10
yi
●
●
●
●
●
●
5
rX ,Y = 0.9587
Damit erhält man die Parameterschätzer βb0 und βb1 als
sX ,Y
30.2449
βb1 = 2 =
= 0.26417
114.4901
sX
βb0 = y − βb1 · x = 9.14286 − 0.26417 · 30.28571 = 1.14228 .
Als Bestimmtheitsmaß erhält man R 2 = rX2 ,Y = 0.95872 = 0.9191.
bi erhält man durch Einsetzen (b
bi = yi − ybi ):
Für ybi und u
yi = βb0 + βb1 · xi , u
Ökonometrie (SS 2017)
i
xi
yi
ybi
bi
u
1
35
9
10.39
−1.39
2
49
15
14.09
0.91
3
21
7
6.69
0.31
4
39
11
11.44
−0.44
5
15
5
5.1
−0.1
6
28
8
8.54
−0.54
7
25
9
7.75
1.25
Folie 154
3 Einfache lineare Regression
Parameterschätzung 3.3
Wegen der Abhängigkeit von yi handelt es sich bei βb0 und βb1 (wie in der
schließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen.
βb0 und βb1 sind linear in yi , man kann genauer zeigen:
●
βb0 =
yi
n
X
x 2 − x · xi
· yi
n · sX2
i=1
und
βb1 =
n
X
xi − x
· yi
n · sX2
i=1
0
y^i
sX ,Y = 30.2449
y 2 = 92.28571
●
●
●
●
●
= 8.6938
x 2 = 1031.71429
●
y = y^
x
●
= 114.4901
y = 9.14286
sY2
Eigenschaften der Schätzfunktionen βb0 und βb1 I
Grafik: Ausgaben in Abhängigkeit vom Einkommen
^
u
i
sX2
0
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 155
Ökonometrie (SS 2017)
Folie 156
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 II
βb0 und βb1 sind erwartungstreu für β0 und β1 , denn wegen E(ui ) = 0 gilt
I
I
I
E(yi ) = β0 +P
β1 · xi +
) = β0 + β1 · xi ,P
E(ui P
E(y ) = E n1 ni=1 yi = n1 ni=1 E(yi ) = n1 ni=1 (β0 + β1 · xi ) = β0 + β1 · x,
P
P
E(xy ) = E n1 ni=1 xi yi = n1 ni=1 xi (β0 + β1 · xi ) = β0 · x + β1 · x 2
3 Einfache lineare Regression
Eigenschaften der Schätzfunktionen βb0 und βb1 III
Für die Varianzen der Schätzfunktionen erhält man (mit der Darstellung aus
Folie 156):
Var(βb1 ) =
und damit
E(βb1 ) = E
=
xy − x · y
x2
−x
2
=
β1 · (x 2 − x 2 )
x2
−x
2
= β1
Var(βb0 ) =
σ2 · x 2
n · sX2
Diese beiden Eigenschaften folgen bereits mit dem Satz von Gauß-Markov.
Ökonometrie (SS 2017)
Folie 157
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 IV
n
1 X 2
bi
u
n−2
i=1
n
n
· s 2 · (1 − R 2 ) =
· (sY2 − βb1 · sX ,Y )
=
n−2 Y
n−2
p
c2 dieser Schätzfunktion heißt auch
Die positive Wurzel σ
b=+ σ
Standard Error of the Regression (SER) oder residual standard error.
c2 := Var(u
\i ) =
σ
E(βb0 ) = E(y − x βb1 ) = E(y ) − x E(βb1 ) = β0 + β1 · x − x · β1 = β0 .
Ökonometrie (SS 2017)
Folie 158
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle und Tests
unter Normalverteilungsannahme für ui
c2 für σ 2 liefert die geschätzten Varianzen der
Einsetzen des Schätzers σ
Parameterschätzer
Häufig nimmt man weitergehend für die Störgrößen an, dass speziell
iid
ui ∼ N(0, σ 2 )
c2
s 2 − βb1 · sX ,Y
σ
= Y
2
n · sX
(n − 2) · sX2
gilt, d.h. dass alle ui (für i ∈ {1, . . . , n}) unabhängig identisch normalverteilt
sind mit Erwartungswert 0 und (unbekannter) Varianz σ 2 .
und
c2 · x 2
σ
(s 2 − βb1 · sX ,Y ) · x 2
\
c2 b := Var(
βb0 ) =
σ
= Y
.
β0
2
n · sX
(n − 2) · sX2
q
q
c2 b und σ
c2 b dieser geschätzten
Die positiven Wurzeln σ
bβb0 = σ
b
=
σ
b
β0
β1
β1
Varianzen werden wie üblich als (geschätzte) Standardfehler von βb0 und βb1
bezeichnet.
Ökonometrie (SS 2017)
sowie
Eine erwartungstreue Schätzfunktion für σ 2 ist gegeben durch
sowie
\
c2 b := Var(
σ
βb1 ) =
β1
σ2
n · sX2
Diese hängen von der unbekannten Varianz σ 2 der ui ab.
E(xy ) − x · E(y )
=
x2 − x2
x2 − x2
β0 · x + β1 · x 2 − x · (β0 + β1 · x)
Parameterschätzung 3.3
Folie 159
In diesem Fall sind offensichtlich auch y1 , . . . , yn stochastisch unabhängig und
jeweils normalverteilt mit Erwartungswert E(yi ) = β0 + β1 · xi und Varianz
Var(yi ) = σ 2 .
Da βb0 und βb1 linear in yi sind, folgt insgesamt mit den bereits berechneten
Momenten von βb0 und βb1 :
!
2
2
2
σ
·
x
b1 ∼ N β1 , σ
und
β
βb0 ∼ N β0 ,
n · sX2
n · sX2
Ökonometrie (SS 2017)
Folie 160
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen II
unter Normalverteilungsannahme für ui
Im bereits erläuterten Beispiel erhält man als Schätzwert für σ 2 :
2
Da σ unbekannt ist, ist für Anwendungen wesentlich relevanter, dass im
Falle unabhängig identisch normalverteilter Störgrößen ui mit den
c2 b für Var(βb0 ) und σ
c2 b für Var(βb1 ) gilt:
Schätzfunktionen σ
β0
β1
βb0 − β0
∼ t(n − 2)
σ
bβb0
3 Einfache lineare Regression
und
2
b
c2 = n · (sY − β1 · sX ,Y ) = 7 · (8.6938 − 0.26417 · 30.2449) = 0.9856
σ
n−2
7−2
Die (geschätzten) Standardfehler für βb0 und βb1 sind damit
s
r
c2 · x 2
0.9856 · 1031.71429
σ
=
= 1.1264 ,
σ
bβb0 =
7 · 114.4901
n · sX2
s
r
c2
σ
0.9856
σ
bβb1 =
= 0.0351 .
=
2
7 · 114.4901
n · sX
βb1 − β1
∼ t(n − 2)
σ
bβb1
Hieraus erhält man unmittelbar die Formeln“
”
h
i
βb0 − tn−2;1− α2 · σ
bβb0 , βb0 + tn−2;1− α2 · σ
bβb0
Für α = 0.05 erhält man mit tn−2;1− α2 = t5;0.975 = 2.571 für β0 also
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β0 bzw.
h
i
βb1 − tn−2;1− α2 · σ
bβb1 , βb1 + tn−2;1− α2 · σ
bβb1
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β1 .
Ökonometrie (SS 2017)
3 Einfache lineare Regression
[1.14228 − 2.571 · 1.1264, 1.14228 + 2.571 · 1.1264] = [−1.7537, 4.0383]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 bzw.
[0.26417 − 2.571 · 0.0351, 0.26417 + 2.571 · 0.0351] = [0.1739, 0.3544]
Folie 161
Konfidenzintervalle und Tests 3.4
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für β1 .
Ökonometrie (SS 2017)
Folie 162
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Hypothesentests
Zusammenfassung: t-Test für den Parameter β0
unter Normalverteilungsannahme für ui
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Genauso lassen sich unter der Normalverteilungsannahme (exakte) t-Tests für
die Parameter β0 und β1 konstruieren.
Trotz unterschiedlicher Problemstellung weisen die Tests Ähnlichkeiten zum
t-Test für den Mittelwert einer normalverteilten Zufallsvariablen bei
unbekannter Varianz auf.
Untersucht werden können die Hypothesenpaare
bzw.
H0 : β0 = β00
gegen
H1 : β0 6= β00
H0 : β0 ≤ β00
gegen
H1 : β0 > β00
H0 : β0 ≥ β00
gegen
H1 : β0 < β00
H0 : β1 = β10
gegen
H1 : β1 6= β10
H0 : β1 ≤ β10
gegen
H1 : β1 > β10
H0 : β1 ≥ β10
gegen
H1 : β1 < β10
Nullhypothese
Gegenhypothese
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β0 = β00
H1 : β0 6= β00
Teststatistik
Benötigte Größen
Kritischer Bereich
zum Niveau α
Folie 163
p-Wert
Ökonometrie (SS 2017)
H0 : β0 ≤ β00
H1 : β0 > β00
t=
Verteilung (H0 )
Besonders anwendungsrelevant sind Tests auf die Signifikanz“ der Parameter
”
(insbesondere β1 ), die den zweiseitigen Tests mit β00 = 0 bzw. β10 = 0
entsprechen.
Ökonometrie (SS 2017)
Anwendungsvoraussetzungen
sX ,Y
βb1 = 2
sX
H0 : β0 ≥ β00
H1 : β0 < β00
βb0 − β00
σ
bβc0
t für β0 = β00 t(n − 2)-verteilt
s
(sY2 − βb1 · sX ,Y ) · x 2
, βb0 = y − βb1 · x, σ
bβc0 =
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
2 · (1 − Ft(n−2) (|t|))
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
Folie 164
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β1
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen III
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β1 = β10
H1 : β1 6= β10
Nullhypothese
Gegenhypothese
H0 : β1 ≤ β10
H1 : β1 > β10
Teststatistik
t=
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
sX ,Y
βb1 = 2 , σ
bβc1
sX
2 · (1 − Ft(n−2) (|t|))
1
2
βb1 − β10
σ
bβc1
3
t für β1 = β10 t(n − 2)-verteilt
s
sY2 − βb1 · sX ,Y
=
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
p-Wert
H0 : β1 ≥ β10
H1 : β1 < β10
Im bereits erläuterten Beispiel soll zum Signifikanzniveau α = 0.05 getestet
werden, ob β0 signifikant von Null verschieden ist. Geeigneter Test:
t-Test für den Regressionsparameter β0
4
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
5
Hypothesen:
H0 : β0 = 0
gegen
H1 : β0 6= 0
Teststatistik:
βb0 − 0
t=
ist unter H0 (für β0 = 0) t(n − 2)-verteilt.
σ
bβc0
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , +∞) = (−∞, −t5;0.975 ) ∪ (t5;0.975 , +∞)
= (−∞, −2.571) ∪ (2.571, +∞)
Berechnung der realisierten Teststatistik:
βb0 − 0
1.14228 − 0
t=
=
= 1.014
σ
bβc0
1.1264
Entscheidung:
t = 1.014 ∈
/ (−∞, −2.571) ∪ (2.571, +∞) = K ⇒ H0 wird nicht abgelehnt!
(p-Wert: 2 − 2 · Ft(5) (|t|) = 2 − 2 · Ft(5) (|1.014|) = 2 − 2 · 0.8215 = 0.357)
Der Test kann für β0 keine signifikante Abweichung von Null feststellen.
Ökonometrie (SS 2017)
Folie 165
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen IV
Ökonometrie (SS 2017)
Folie 166
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Punkt- und Intervallprognosen
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Nun soll zum Signifikanzniveau α = 0.01 getestet werden, ob β1 positiv ist.
Geeigneter Test:
t-Test für den Regressionsparameter β1
1
2
3
4
5
Hypothesen:
H0 : β1 ≤ 0
gegen
H1 : β1 > 0
Teststatistik:
βb1 − 0
ist unter H0 (für β1 = 0) t(n − 2)-verteilt.
t=
σ
bβc1
Kritischer Bereich zum Niveau α = 0.01:
yi = β0 + β1 · xi + ui ,
⇒
i ∈ {1, . . . , n}
[
yb0 := βb0 + βb1 · x0 =: E(y
0)
H0 wird abgelehnt!
(p-Wert: 1 − Ft(5) (t) = 1 − Ft(5) (7.5262) = 1 − 0.9997 = 0.0003)
Der Test stellt fest, dass β1 signifikant positiv ist.
Ökonometrie (SS 2017)
iid
ui ∼ N(0, σ 2 ),
auf (zumindest) einen weiteren, hier mit (x0 , y0 ) bezeichneten Datenpunkt,
bei dem jedoch y0 nicht beobachtet wird, sondern lediglich der Wert des
Regressors x0 bekannt ist.
Ziel: Schätzung“ (Prognose) von y0 = β0 + β1 · x0 + u0 bzw.
”
E(y0 ) = β0 + β1 · x0 auf Grundlage von x0 .
Wegen E(u0 ) = 0 und der Erwartungstreue von βb0 für β0 bzw. βb1 für β1 ist
K = (tn−2;1−α , +∞) = (t5;0.99 , +∞) = (3.365, +∞)
Berechnung der realisierten Teststatistik:
βb1 − 0
0.26417 − 0
t=
=
= 7.5262
σ
bβc1
0.0351
Entscheidung:
t = 7.5262 ∈ (3.365, +∞) = K
Neben Konfidenzintervallen und Tests für die Parameter β0 und β1 in linearen
Regressionsmodellen vor allem Prognosen wichtige Anwendung.
Zur Erstellung von Prognosen: Erweiterung der Modellannahme
Folie 167
offensichtlich erwartungstreu für y0 bzw. E(y0 ) gegeben x0 .
[
yb0 bzw. E(y
0 ) wird auch (bedingte) Punktprognose für y0 bzw. E(y0 )
gegeben x0 genannt.
Ökonometrie (SS 2017)
Folie 168
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
[
[
b
b
Var(E(y
0 ) − E(y0 )) = Var(E(y0 )) = Var(β0 + β1 · x0 )
= Var(βb0 ) + x 2 Var(βb1 ) + 2 · x0 · Cov(βb0 , βb1 ).
Zur Beurteilung der Genauigkeit der Prognosen:
Untersuchung der sogenannten Prognosefehler
yb0 − y0
0
[
E(y
0 ) − E(y0 ) .
bzw.
Qualitativer Unterschied:
Prognosefehler
[
b
b
b
b
E(y
0 ) − E(y0 ) = β0 + β1 · x0 − (β0 + β1 · x0 ) = (β0 − β0 ) + (β1 − β1 ) · x0
I
Punkt- und Intervallprognosen 3.5
Wegen der Erwartungstreue stimmen mittlerer quadratischer (Prognose-)
[
Fehler und Varianz von eE = E(y
0 ) − E(y0 ) überein und man erhält
Prognosefehler
I
3 Einfache lineare Regression
resultiert nur aus Fehler bei der Schätzung von β0 bzw. β1 durch βb0 bzw. βb1 .
Prognosefehler
Es kann gezeigt werden, dass für die Kovarianz von βb0 und βb1 gilt:
x
x
Cov(βb0 , βb1 ) = −σ 2 · Pn
= −σ 2 ·
2
n
·
sX2
(x
−
x)
i=1 i
Insgesamt berechnet man so die Varianz des Prognosefehlers
σe2E := Var(eE ) =
= σ2 ·
yb0 − y0 = βb0 + βb1 · x0 − (β0 + β1 · x0 + u0 ) = (βb0 − β0 ) + (βb1 − β1 ) · x0 − u0
(x 2 − x 2 ) + (x 2 + x02 − 2 · x0 · x)
n · sX2
s 2 + (x0 − x)2
1 (x0 − x)2
2
= σ2 · X
=
σ
·
+
.
n
n · sX2
n · sX2
[
Zunächst: Untersuchung von eE := E(y
0 ) − E(y0 )
Folie 169
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Die Linearität von βb0 und βb1 (in yi ) überträgt sich (natürlich) auch auf
[
E(y
0 ), damit gilt offensichtlich
2
[
eE = E(y
0 ) − E(y0 ) ∼ N 0, σeE
bzw.
[
E(y
0 ) − E(y0 )
∼ N(0, 1) .
σeE
1 (x0 − x)2
+
n
n · sX2
3 Einfache lineare Regression
Folie 170
Punkt- und Intervallprognosen 3.5
Intervallprognosen zur Vertrauenswahrscheinlichkeit 1 − α erhält man also als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) in der Form
h
[
[
E(y
·σ
beE , E(y
·σ
beE
0 ) − tn−2;1− α
0 ) + tn−2;1− α
2
2
i
i
h
beE , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
beE .
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
[
von E(y
0 ) und damit die praktisch wesentlich relevantere Verteilungsaussage
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
2
1 (38 − 30.28571)2
c2 e = σ
c2 · 1 + (x0 − x)
σ
=
0.9856
·
+
= 0.214
E
n
7
7 · 114.4901
n · sX2
[
b
b
die Punktprognose E(y
0 ) = β0 + β1 · x0 = 1.14228 + 0.26417 · 38 = 11.1807
(in 100 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 0.214 , 11.1807 + 2.571 · 0.214
[
eE
E(y
0 ) − E(y0 )
=
∼ t(n − 2) ,
σ
beE
σ
beE
aus der sich in bekannter Weise (symmetrische) Konfidenzintervalle (und
Tests) konstruieren lassen.
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Prognoseintervalle für E(y0 ) gegeben x0
Da σ 2 unbekannt ist, erhält man durch Ersetzen von σ 2 durch die
c2 die geschätzte Varianz
erwartungstreue Schätzfunktion σ
c2 e := Var(e
c2 ·
d E) = σ
σ
E
x 2 + x02 − 2 · x0 · x
n · sX2
= σ2 ·
ist Kombination von Schätzfehlern (für β0 und β1 ) sowie zufälliger
Schwankung von u0 ∼ N(0, σ 2 ).
Ökonometrie (SS 2017)
σ2 · x 2
σ2
σ2 · x
+ x02 ·
− 2 · x0 ·
2
2
n · sX
n · sX
n · sX2
= [9.9914 , 12.37] (in 100 e) .
Folie 171
Ökonometrie (SS 2017)
Folie 172
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler e0 := yb0 − y0
yb0 − y0 = (βb0 + βb1 · x0 ) −(β0 + β1 · x0 +u0 )
{z
}
|
{z
} |
[
E(y
0 ) − E(y0 )
|
{z
}
e0 = yb0 − y0 ∼ N 0, σe20
=E(y0 )
−
Fehler aus Schätzung von
β0 und β1
u0
|{z}
zufällige Schwankung
der Störgröße
[
b
b
E(y
0 ) hängt nur von u1 , . . . , un ab (über y1 , . . . , yn bzw. β0 und β1 ) und ist
iid
wegen der Annahme ui ∼ N(0, σ 2 ) unabhängig von u0 .
Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auch
unkorreliert und man erhält:
[
σe20 := Var(yb0 − y0 ) = Var(E(y
0 ) − E(y0 )) + Var(u0 )
1 (x0 − x)2
1 (x0 − x)2
2
2
= σ2 ·
+
+
σ
=
σ
·
1
+
+
n
n
n · sX2
n · sX2
Folie 173
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für y0 gegeben x0
1 (x0 − x)2
c
c
2
2
d
σ e0 := Var(yb0 − y0 ) = σ · 1 + +
n
n · sX2
des Prognosefehlers die für die Praxis relevante Verteilungsaussage
e0
yb0 − y0
=
∼ t(n − 2) ,
σ
be0
σ
be0
zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen.
Ökonometrie (SS 2017)
Folie 174
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognose: Ausgaben in Abhängigkeit vom Einkommen
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also analog zu den Intervallprognosen für E(y0 ) in der Form
βb0 = 1.14228, βb1 = 0.26417, x0 = 38, yb0 = 11.1807, 1 − α = 0.95
yb0 − tn−2;1− α2 · σ
be0 , yb0 + tn−2;1− α2 · σ
be0
h
i
= (βb0 + βb1 · x0 ) − tn−2;1− α2 · σ
be0 , (βb0 + βb1 · x0 ) + tn−2;1− α2 · σ
be0 .
●
y = y^
x
10
●
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
●
●
yi
●
[
mit der bereits berechneten Punktprognose yb0 = E(y
0 ) = 11.1807 (in 100 e)
die zugehörige Intervallprognose für y0 zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 1.1996 , 11.1807 + 2.571 · 1.1996
●
●
5
2
(38 − 30.28571)2
1
c2 · 1 + 1 + (x0 − x)
= 1.1996
=σ
= 0.9856· 1 + +
2
n
7
7 · 114.4901
n · sX
0
c2 e
σ
0
yb0 − y0
∼ N(0, 1) .
σe0
bzw.
c2 ersetzt werden, um mit Hilfe der geschätzen
Wieder muss σ 2 durch σ
Varianz
.
Ökonometrie (SS 2017)
15
=
Punkt- und Intervallprognosen 3.5
Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgt
auch sofort die Normalverteilungseigenschaft des Prognosefehlers
e0 = y0 − yb0 , genauer gilt:
Nun: Untersuchung des Prognosefehlers e0 := yb0 − y0
Offensichtlich gilt für e0 = yb0 − y0 die Zerlegung
[
=E(y
0)
3 Einfache lineare Regression
0
= [8.3648 , 13.9966] (in 100 e) .
10
20
30
40
50
xi
Ökonometrie (SS 2017)
Folie 175
Ökonometrie (SS 2017)
Folie 176
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Einfache lineare Modelle mit Statistik-Software R
Interpretation des Outputs I
Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
c2 und R 2
Residuen, σ
> summary(lm(y~x))
Residuals:
1
2
-1.3882 0.9134
Call:
lm(formula = y ~ x)
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.14225
1.12645
1.014 0.357100
x
0.26417
0.03507
7.533 0.000653 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Anzahl Freiheitsgrade n − 2, hier: n − 2 = 5 ⇒ n = 7
(Multiples) Bestimmtheitsmaß R 2 , hier: R 2 = 0.919
Folie 177
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
7
1.2535
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
bi
Auflistung bzw. Zusammenfassung der Residuen u
p
c2 , hier: σ
c2 = 0.9857
SER σ
b= σ
b = 0.9928 ⇒ σ
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919,
Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Ökonometrie (SS 2017)
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Ökonometrie (SS 2017)
3 Einfache lineare Regression
Folie 178
Einfache lineare Modelle mit R 3.6
Interpretation des Outputs II
Zusammenhang zwischen p-Werten
Ergebnisse zur Schätzung von β0 und β1
zu zweiseitigen und einseitigen Tests bei unter H0 (um Null) symmetrisch verteilter Teststatistik
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
Erinnerung: t(n)- sowie N(0, 1)-Verteilung sind symmetrisch um Null, für die
zugehörigen Verteilungsfunktionen F gilt also F (x) = 1 − F (−x) für alle
x ∈ R und F (0) = 0.5, F (x) < 0.5 für x < 0 sowie F (x) > 0.5 für x > 0.
Für die p-Werte pz der zweiseitigen Tests auf den Mittelwert bei bekannter
(Gauß-Test) sowie unbekannter (t-Test) Varianz gilt daher bekanntlich
2 · F (x)
falls x < 0
pz = 2 · min{F (x), 1 − F (x)} =
,
2 · (1 − F (x)) falls x ≥ 0
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Realisationen von βb0 , βb1 , hier: βb0 = 1.14225, βb1 = 0.26417
Standardfehler von βb0 , βb1 , hier: σ
bβc0 = 1.12645, σ
bβc1 = 0.03507
t-Statistiken zu Tests auf Signifikanz, hier: zu β0 : t = 1.014, zu β1 : t = 7.533
p-Werte zu Tests auf Signifikanz, hier: zu β0 : p = 0.3571, zu β1 : p = 0.000653
Ökonometrie (SS 2017)
Folie 179
wobei x den realisierten Wert der Teststatistik sowie F die
Verteilungsfunktion der Teststatistik unter H0 bezeichne.
Für die p-Werte pl = F (x) zum linksseitigen sowie pr = 1 − F (x) zum
rechtsseitigen Test bei realisierter Teststatistik x gelten demnach die
folgenden Zusammenhänge:
 p

z

 1 − pz falls x < 0
falls x < 0
2
2
pl =
sowie
pr =
 1 − pz falls x ≥ 0
 pz
falls x ≥ 0
2
2
Somit auch p-Werte zu einseitigen Tests aus R-Output bestimmbar!
Ökonometrie (SS 2017)
.
Folie 180
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression I
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression II
Auf Grundlage dieses Annahmen-Komplexes:
I
Bisher: Annahme der Gültigkeit eines einfachen linearen Modells
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n},
I
mit
I
I
1
2
I
I
der abhängigen Variablen (Regressand) yi ,
einer unabhängigen, erklärenden Variablen (Regressor) xi , wobei
xi als deterministisch angenommen wird und
sX2 > 0 gelten muss,
Problem: (Perfekte) Validität der Ergebnisse nur, wenn Modell korrekt und
Annahmen-Komplex erfüllt ist!
Im Folgenden:
der Störgröße ui , wobei
1
2
3
4
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
I
I
iid
damit insgesamt ui ∼ N(0, σ 2 ) angenommen wird.
I
Ökonometrie (SS 2017)
Folie 181
4 Multiple lineare Regression
Verwendung der KQ-Methode, um eine geschätze Regressionsgerade
y = βb0 + βb1 · x mit den zugehörigen KQ-Prognosen ybi = βb0 + βb1 · xi und den
bi = yi − ybi zu bestimmen.
zugehörigen KQ-Residuen u
Bestimmung von Konfidenzintervallen und Durchführung von Hypothesentests
für die Regressionsparameter β0 und β1 .
Bestimmung von bedingten Punktprognosen und Prognoseintervallen für die
abhängige Variable y zu neuen“ Werten der unabhängigen, erklärenden
”
Variablen x.
Multiples lineares Modell 4.1
Erweiterung des einfachen linearen Regressionsmodells zum multiplen linearen
Regressionsmodell
Untersuchung der Konsequenz von Annahmeverletzungen
Geeignete Reaktion auf bzw. geeignete Verfahren im Fall von
Annahmeverletzungen
Ökonometrie (SS 2017)
Folie 182
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen I
Konsequenz bei weggelassener erklärender Variablen II
Der omitted variable bias“
”
Der omitted variable bias“
”
Eine Möglichkeit der Verletzung der Annahmen des einfachen linearen
Modells: Modell ist tatsächlich komplexer, yi hänge auch von einer weiteren
erklärenden Variablen e
xi linear in der Gestalt
yi = β0 + β1 · xi + β2 · e
xi + i ,
i ∈ {1, . . . , n},
mit β2 6= 0 ab, wobei die üblichen Annahmen für die Störgrößen i
(insbesondere E(i ) ≡ 0) gelten sollen.
Wird statt des komplexeren Modells die Gültigkeit eines einfachen linearen
Modells angenommen, ist die Abhängigkeit von e
xi offensichtlich in der
Störgröße ui subsummiert, man erhält die Darstellung
yi = β0 + β1 · xi + β2 · e
x + i ,
| {zi
}
i ∈ {1, . . . , n}.
ui
Damit gilt im einfachen Modell jedoch E(ui ) = β2 · e
xi , die Annahme E(ui ) ≡ 0
ist also verletzt, sobald e
xi 6= 0 für mindestens ein i ∈ {1, . . . , n} gilt!
Ökonometrie (SS 2017)
Folie 183
Werden trotz dieser Annahmenverletzung Parameterschätzer im einfachen
linearen Modell bestimmt, so erhält man beispielsweise für βb1
βb1 =
n
n
X
X
(xi − x)
(xi − x)
·
y
=
· (β0 + β1 · xi + β2 · e
xi + i )
i
2
nsX
nsX2
i=1
i=1
n
n
n
n
X
X
X
(xi − x)
(xi − x)xi
(xi − x)e
xi X (xi − x)i
= β0
+β
+β
+
2
1
nsX2
nsX2
nsX2
nsX2
i=1
i=1
i=1
i=1
|
{z
}
|
{z
}
|
{z
}
=0
und damit E(βb1 ) = β1 + β2
(sX ,Xe
!
=1
e
! sX ,X
s2
X
=
sX ,Xe
.
sX2
e .)
bezeichnet wie üblich die empirische Kovarianz zwischen X und X
Damit ist βb1 nicht mehr erwartungstreu für β1 , falls sX ,Xe 6= 0 gilt, auch
Konfidenzintervalle und Tests werden dann unbrauchbar!
Ökonometrie (SS 2017)
Folie 184
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell I
4 Multiple lineare Regression
Das multiple lineare Regressionsmodell II
Lösung des Problems durch Schaffung der Möglichkeit, weitere erklärende
Variablen einzubeziehen.
Erweiterung des einfachen linearen Modells um zusätzliche Regressoren
x2i , . . . , xKi zum multiplen linearen Modell
Modellannahmen im multiplen linearen Regressionsmodell übertragen sich (zum
Teil verallgemeinert) aus einfachem linearen Modell:
Für die K unabhängigen, erklärenden Variablen (Regressoren) x1i , . . . , xKi
wird angenommen, dass
1
2
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
Multiples lineares Modell 4.1
i ∈ {1, . . . , n},
die xki deterministisch sind (für i ∈ {1, . . . , n}, k ∈ {1, . . . , K }) und dass
sich für kein k ∈ {1, . . . , K } der Regressor xki als (für alle i ∈ {1, . . . , n} feste)
Linearkombination einer Konstanten und der übrigen Regressoren darstellen
lässt. Äquivalent dazu:
F
bzw. in Matrixschreibweise
F
y = Xβ + u
mit
Die Regressormatrix X hat vollen (Spalten-)Rang K + 1.
x1i lässt sich nicht als Linearkombination einer Konstanten und der übrigen
Regressoren x2i , . . . , xKi darstellen.
Für die Störgrößen ui wird
 
y1
 .. 
y =  . ,
yn

1
 ..
X = .
1
x11
..
.
···
x1n
···

xK 1
..  ,
. 
xKn


β0
 β1 
 
β =  . ,
 .. 
βK
 
u1
 .. 
u=. .
un
Ökonometrie (SS 2017)
Folie 185
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell III
2
3
4
E(ui ) ≡ 0 bzw. E(u) = 0 mit dem Nullvektor 0 := (0, . . . , 0)0 ,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) bzw. u ∼ N(0, σ 2 In ) mit der
(n × n)-Einheitsmatrix In angenommen.
Ökonometrie (SS 2017)
Folie 186
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell I
Die Anwendung der KQ-Methode im multiplen linearen Modell führt zur
Suche nach βb0 , βb1 , . . . , βbK ∈ R mit
Für den Erwartungswert von yi gilt nun
E (yi ) = β0 + β1 x1i + . . . + βK xKi ,
1
i ∈ {1, . . . , n},
die Regressionsgerade aus dem einfachen linearen Modell wird also nun zu
einer Regressionsebene, beschrieben durch die Regressions-Parameter
β0 , . . . , β K .
Der Regressionsparameter (und Steigungskoeffizient) βk gibt nun für
k ∈ {1, . . . , K } die erwartete Änderung (ohne den Einfluss der Störgröße ui )
von yi an, die aus der Erhöhung des Regressors xki um eine Einheit resultiert,
wenn alle anderen Regressoren konstant gehalten werden.
Zur Schätzung der Parameter des multiplen Regressionsmodells wird
wiederum die Methode der Kleinsten Quadrate (Least Squares, auch
Ordinary Least Squares) verwendet.
n
X
(yi − (βb0 + βb1 xi1 + . . . + βbK xKi ))2
i=1
!
=
min
β0 ,β1 ,...,βK ∈R
n
X
i=1
(yi − (β0 + β1 xi1 + . . . + βK xKi ))2 .
In Matrixschreibweise ist also der Vektor βb = (βb0 , βb1 , . . . , βbK )0 ∈ RK +1
gesucht mit
!
b 0 (y − Xβ)
b =
(y − Xβ)
min (y − Xβ)0 (y − Xβ) .
β∈RK +1
(Zu Matrizen A bzw. Vektoren b seien hier und im Folgenden wie üblich mit
A0 bzw. b0 jeweils die transponierten Matrizen bzw. Vektoren bezeichnet.)
Ökonometrie (SS 2017)
Folie 187
Ökonometrie (SS 2017)
Folie 188
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell II
Die Invertierbarkeit von X0 X ist gewährleistet, da nach Annahme die
(n × (K + 1))-Matrix X vollen (Spalten-)Rang K + 1 und damit auch die
((K + 1) × (K + 1))-Matrix X0 X vollen Rang K + 1 hat.
Für die zu minimierende Funktion
f (β) := (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
Da X vollen (Spalten-)Rang besitzt, ist X0 X außerdem positiv definit.
= y0 y − 2β 0 X0 y + β 0 X0 Xβ
Eine Verletzung der getroffenen Annahme, dass X vollen (Spalten-)Rang
besitzt, bezeichnet man auch als perfekte Multikollinearität der
Regressormatrix X.
erhält man den Gradienten
∂f (β)
= −2X0 y + 2X0 Xβ = 2(X0 Xβ − X0 y)
∂β
und damit wegen der Invertierbarkeit (!) von X0 X als Lösung von
∂f (β) !
=0
∂β
βb = (X0 X)−1 X0 y ,
die wegen der positiven Definitheit (!) von X0 X auch (einzige) Lösung des
Minimierungsproblems ist.
Ökonometrie (SS 2017)
Folie 189
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IV
und
s12
..
.
···
sK 2
···
−1 

s1K
s1Y
..   .. 
.   . 
sKK
xk =
n
1X
xki ,
n
skj =
i=1
n
1X
y=
yi ,
n
sKY
i=1
Ökonometrie (SS 2017)
Folie 190
4 Multiple lineare Regression
Parameterschätzung 4.2
s1Y
βb1 =
s11
sowie
Für K = 2 lässt sich die Darstellung
s22 s1Y − s12 s2Y
βb1 =
,
2
s11 s22 − s12
n
1X
(xki − x k )(xji − x j ),
n
i=1
skY
Perfekte Multikollinearität kann durch (zum Teil offensichtliche)
Unachtsamkeiten bei der Zusammenstellung der Regressoren entstehen
(später mehr!).
Offensichtlich erhält man für K = 1 hiermit die – abgesehen von der leicht
abweichenden Notation – zum KQ-Schätzer im einfachen linearen Modell
übereinstimmende Darstellung
βb0 = y − (βb1 x 1 + . . . + βbK x K )
mit
Bei Vorliegen von perfekter Multikollinearität ist die KQ-Methode zwar immer
noch (allerdings nicht wie eben beschrieben!) durchführbar, der optimale
Vektor βb ist allerdings nicht mehr eindeutig bestimmt, der zugehörige
Parametervektor β damit nicht mehr identifiziert.
Schätzung im multiplen linearen Modell V
Eine andere Darstellung des KQ-Schätzers βb ist gegeben durch
 
βb1
s11
 ..   ..
 . = .
sK 1
βbK
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell III
Die Matrixdarstellung erlaubt eine kompakte Lösung der Optimierung:

4 Multiple lineare Regression
n
1X
=
(xki − x k )(yi − y )
n
βb0 = y − βb1 x 1 .
s11 s2Y − s12 s1Y
βb2 =
,
2
s11 s22 − s12
für die KQ-Schätzer ableiten.
βb0 = y − (βb1 x 1 + βb2 x 2 )
i=1
für k, j ∈ {1, . . . , K }.
Ökonometrie (SS 2017)
Folie 191
Ökonometrie (SS 2017)
Folie 192
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VI
i ∈ {1, . . . , n}
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VII
0 0b
b 0u
b = (Xβ)
b = βbP
Damit
y0 u
X u = 0 sowie
P mit
Pb
Pngilt weiter
n
bi = i=1 (yi − ybi ) auch ni=1 yi = ni=1 ybi ⇐⇒ y = yb.
0 = i=1 u
Wie im einfachen linearen Regressionsmodell definiert man zu den
KQ/OLS-geschätzten Parametern βb = (βb0 , βb1 , . . . , βbK )0 mit
ybi := βb0 + βb1 x1i + . . . βbK xKi ,
4 Multiple lineare Regression
So erhält man
b
y := Xβb
bzw.
b
b +b
b)0 (b
b) = b
b0 b
u0 u
y0 u
y0 y = (b
y+u
y+u
y0 b
y+ u
y +b
|{z} |{z}
die vom (geschätzten) Modell prognostizierten Werte der abhängigen
Variablen auf der geschätzten Regressionsebene sowie mit
=0
=0
2
bi := yi − ybi ,
u
i ∈ {1, . . . , n}
bzw.
und durch Subtraktion von ny 2 = nb
y auf beiden Seiten
b := y − b
u
y
2
die Residuen, also die Abstände (in y -Richtung) der beobachteten Werte der
abhängigen Variablen von den prognostizierten Werten auf der geschätzten
Regressionsebene.
Pn
P
bi = 0 sowie ni=1 xki u
bi = 0 für k ∈ {1, . . . , K } bzw.
Es gilt (analog) i=1 u
b = X (y − b
Xu
y) = X y − X Xβb = X y − X X(X X)
0
0
0
0
0
0
0
−1
und damit insgesamt die bekannte Streuungszerlegung
n
X
(yi − y )2
0
i=1
Xy=0.
|
Folie 193
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VIII
}
=
n
X
(b
yi − yb)2
i=1
|
{z
}
n
X
+
i=1
Explained Sum of Squares
bi2
u
.
| {z }
Residual Sum of Squares
Ökonometrie (SS 2017)
Folie 194
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IX
Wie im einfachen linearen Modell misst das multiple Bestimmtheitsmaß
Pn
Pn
b2
u
(b
yi − yb)2
RSS
ESS
R 2 = 1 − Pn i=1 i 2 = Pi=1
=1−
=
n
2
TSS
TSS
(y
−
y
)
(y
−
y
)
i
i
i=1
i=1
Um einen aussagekräftigeren Vergleich der Bestimmtheitmaße eines
ursprünglichen und eines erweiterten Modells durchführen zu können, kann
das adjustierte Bestimmtheitsmaß
R 2 := 1 −
den Anteil der durch den (geschätzten) linearen Zusammenhang erklärten
Streuung an der gesamten Streuung der abhängigen Variablen.
Es gilt weiterhin 0 ≤ R 2 ≤ 1.
1
n−(K +1) · RSS
1
n−1 · TSS
=1−
RSS
n−1
n − (K + 1) TSS
verwendet werden.
Bei der Hinzunahme weiterer erklärender Variablen (Regressoren) in ein
bestehendes lineares Modell kann sich im Laufe der
der
Pn KQ/OLS-Schätzung
bi2 , offensichtlich
Zielfunktionswert an der Minimumstelle, RSS = i=1 u
höchstens weiter verringern.
Dieses kann sich bei Erweiterung eines Modells um zusätzliche Regressoren
auch verringern (und sogar negativ werden).
Es gilt (offensichtlich) stets
R2 ≤ R2 ≤ 1 .
Damit führt die Hinzunahme weiterer (auch eigentlich irrelevanter)
Regressoren höchstens zu einer Zunahme des multiplen Bestimmtheitsmaßes
R 2.
Ökonometrie (SS 2017)
{z
Total Sum of Squares
Ökonometrie (SS 2017)
4 Multiple lineare Regression
b0 u
b
y0 y − ny 2 = b
y0 b
y − nb
y +u
Folie 195
Ökonometrie (SS 2017)
Folie 196
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell X
verwendet.
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XI
Die Schätzfunktion βb = (X0 X)−1 X0 y ist offensichtlich linear in den yi .
Einsetzen von y = Xβ + u liefert die Darstellung
Bei der Berechnung von R 2 wird die für σ 2 = Var(ui ) erwartungstreue
Schätzfunktion
c2 =
σ
4 Multiple lineare Regression
βb = (X0 X)−1 X0 y = (X0 X)−1 X0 (Xβ + u)
= (X0 X)−1 (X0 X)β + (X0 X)−1 X0 u = β + (X0 X)−1 X0 u
n
X
b0 u
b
u
1
RSS
bi2 =
u
=
n − (K + 1)
n − (K + 1)
n − (K + 1)
i=1
p
c2 dieser
Wie im einfachen linearen Modell wird die positive Wurzel + σ
Schätzfunktion als Standard Error of the Regression (SER) oder residual
standard error bezeichnet.
Die Korrektur um K + 1 Freiheitsgrade erklärt sich dadurch, dass nun K + 1
Beobachtungen nötig sind, um die Regressionsebene (eindeutig) bestimmen
zu können.
b unter der Annahme E(u) = 0 folgt daraus sofort E(β)
b = β und damit
von β,
die Erwartungstreue von βb für β.
b von βb erhält man mit der obigen
Für die (Varianz-)Kovarianzmatrix V(β)
b
Darstellung für β wegen der Symmetrie von (X0 X)−1 weiter
0 h
0 i
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 ) X(X0 X)−1
| {z }
=V(u)=σ 2 In
2
0
= σ (X X)
Ökonometrie (SS 2017)
Folie 197
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XII
Var(βb0 )
 Cov(βb1 , βb0 )
b =
V(β)

..

.
Cov(βbK , βb0 )
Cov(βb0 , βb1 ) · · ·
Var(βb1 )
···
..
..
.
.
Cov(βbK , βb1 ) · · ·

Cov(βb0 , βbK )
Cov(βb1 , βbK )

 .
..

.
Var(βbK )
Ökonometrie (SS 2017)
0
X X(X X)
−1
2
0
−1
= σ (X X)
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 198
Parameterschätzung 4.2
Man erhält so Schätzwerte für die Varianzen der Schätzer βb0 , βb1 , . . . , βbK
sowie deren paarweise Kovarianzen in der Gestalt


d βb0 )
d βb0 , βb1 ) · · · Cov(
d βb0 , βbK )
Var(
Cov(
d b b
d βb1 )
d βb1 , βbK )
 Cov(β1 , β0 )

Var(
· · · Cov(
b
b

 .
V(β) = 
..
..
..
..

.


.
.
.
b
b
b
b
b
d
d
d
Cov(βK , β0 ) Cov(βK , β1 ) · · ·
Var(βK )
b
b β),
Die (positiven) Wurzeln der Hauptdiagonalelemente von V(
q
q
q
b
b
d
d
d βbK ) ,
bβb1 := Var(β1 ), . . . , σ
bβbK := Var(
σ
bβb0 := Var(β0 ), σ
c2 durch
b = σ 2 (X0 X)−1 kann unter Zuhilfenahme von σ
V(β)
geschätzt werden.
0
Schätzung im multiplen linearen Modell XIII
b enthält alle Varianzen der Parameterschätzer
Die (symmetrische) Matrix V(β)
βb0 , βb1 , . . . , βbK sowie deren paarweise Kovarianzen in der Gestalt

−1
c2 (X0 X)−1
b =σ
b β)
V(
werden wie üblich als Standardfehler der Parameterschätzer βb0 , βb1 , . . . , βbK
bezeichnet.
Folie 199
Ökonometrie (SS 2017)
Folie 200
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIV
2
3
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j
an die Störgrößen ui , i ∈ {1, . . . , n}, dass
I
I
I
b eine in yi lineare Schätzfunktion ist,
β
b erwartungstreu für β ist,
β
b die Varianz-Kovarianzmatrix V(β)
b = σ 2 (X0 X)−1 besitzt.
β
Der Satz von Gauß-Markov sichert darüberhinaus, dass βb sogar die beste
lineare unverzerrte Schätzfunktion (BLUE) ist.
Unter der zusätzlichen Annahme einer
4
Auch ohne Normalverteilungsannahme für die ui kann man unter gewissen
technischen Voraussetzungen (die hier nicht näher ausgeführt werden) zeigen,
dass die Verteilung von βb bei wachsendem Beobachtungsumfang n gegen
eine (mehrdimensionale) Normalverteilung konvergiert.
In der Praxis bedeutet dies, dass man – auch für endliches n – als geeignete
Näherung der Verteilung von βb häufig eine mehrdimensionale
Normalverteilung mit dem Erwartungswertvektor β und der
Varianz-Kovarianzmatrix σ 2 (X0 X)−1 verwenden kann.
Wie gut“ diese Näherung ist, hängt wieder vom konkreten Anwendungsfall
”
ab; insbesondere
I
I
gemeinsamen Normalverteilung der ui
b
erhält man mit der Linearität
sofort die Normalverteilungseigenschaft von β,
also βb ∼ N β, σ 2 (X0 X)−1 . Außerdem kann man zeigen, dass βb dann sogar
varianzminial unter allen für β erwartungstreuen Schätzfunktionen ist.
Ökonometrie (SS 2017)
Folie 201
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XV
Zusammengefasst erhält man unter bisherigen Annahmen an X sowie den
anfangs getroffenen Annahmen
1
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Konfidenzintervalle und Tests für einzelne Parameter
steigt die Qualität der Näherung i.d.R. mit wachsendem n,
ist die Näherung umso besser, je ähnlicher die tatsächliche Verteilung der ui
einer Normalverteilung ist.
In der Praxis beurteilt man die Nähe“ der Verteilung der (unbeobachteten!)
”
Störgrößen ui zu einer Normalverteilung mit Hilfe der (geschätzten!)
bi .
Residuen u
Ökonometrie (SS 2017)
Folie 202
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Zusammenfassung: t-Test für den Parameter βk
im multiplen linearen Regressionsmodell
Konfidenzintervalle und Tests für einzelne Parameter können ganz analog
zum einfachen linearen Modell konstruiert werden.
Für die Komponenten βbk , k ∈ {0, . . . , K }, des Parameterschätzers βb gilt bei
Normalverteilungsannahme an die ui exakt (sonst ggf. approximativ)
βbk − βk
∼ t(n − (K + 1)),
σ
bβbk
k ∈ {0, . . . , K }
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : βk = βk0
H1 : βk 6= βk0
Nullhypothese
Gegenhypothese
H0 : βk ≤ βk0
H1 : βk > βk0
Teststatistik
Hieraus ergeben sich für k ∈ {0, . . . , K } unmittelbar die zum einfachen
linearen Modell analogen Formeln“ der (ggf. approximativen)
”
(symmetrischen) Konfidenzintervalle für βk zum Konfidenzniveau 1 − α
bzw. zur Vertrauenswahrscheinlichkeit 1 − α als
h
i
βbk − tn−(K +1);1− α2 · σ
bβbk , βbk + tn−(K +1);1− α2 · σ
bβbk
Ebenfalls analog erhält man t-Tests für die Regressionsparameter
β0 , β1 , . . . , βK .
Ökonometrie (SS 2017)
Anwendungsvoraussetzungen
Folie 203
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
t=
H0 : βk ≥ βk0
H1 : βk < βk0
βbk − βk0
σ
bβbk
t für βk = βk0 (näherungsweise) t(n − (K + 1))-verteilt
q
i
c2 [(X0 X)−1 ]
βbk = (X0 X)−1 X0 y
,σ
bβbk = σ
k+1,k+1 mit
c2 =
σ
h
b
u0 b
u
,
n−(K +1)
k+1
wobei b
u = y − X(X0 X)−1 X0 y
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 204
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias I
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Zunächst wird (fälschlicherweise!) die Variable Alter“ (x2i ) weggelassen und
”
die Lohnhöhe“ (yi ) nur mit der Variable Ausbildung
“ (x1i ) erklärt:
”
”
1
2
3
4
5
6
7
8
9
10
1250
1
28
1950
9
34
2300
11
55
1350
3
24
1650
2
42
1750
1
43
1550
4
37
1400
1
18
1700
3
63
2000
4
58
11
12
13
14
15
16
17
18
19
20
1350
1
30
1600
2
43
1400
2
23
1500
3
21
2350
6
50
1700
9
64
1350
1
36
2600
7
58
1400
2
35
1550
2
41
i
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 13.1)
Es soll nun angenommen werden, dass das multiple lineare Regressionsmodell
yi = β0 + β1 x1i + β2 x2i + ui ,
iid
ui ∼ N(0, σ 2 ),
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias II
Beispieldatensatz mit Daten zur Lohnhöhe (yi ), zu den Ausbildungsjahren
über den Hauptschulabschluss hinaus (x1i ) sowie zum Alter in Jahren (x2i )
von n = 20 Mitarbeitern eines Betriebs:
i
4 Multiple lineare Regression
Call:
lm(formula = Lohnhöhe ~ Ausbildung)
Residuals:
Min
1Q
-458.19 -140.36
Median
-68.94
3Q
87.32
Max
620.37
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1354.66
94.22 14.377 2.62e-11 ***
Ausbildung
89.28
19.82
4.505 0.000274 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 264.6 on 18 degrees of freedom
Multiple R-squared: 0.5299,
Adjusted R-squared:
F-statistic: 20.29 on 1 and 18 DF, p-value: 0.0002742
i ∈ {1, . . . , 20},
0.5038
mit den üblichen Annahmen korrekt spezifiziert ist.
Ökonometrie (SS 2017)
Folie 205
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias III
Ökonometrie (SS 2017)
Folie 206
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias IV
Danach wird das korrekte, vollständige Modell geschätzt:
Geschätzte Regressionsebene mit Residuen
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
3Q
73.12
Max
519.26
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Ökonometrie (SS 2017)
Lohnhöhe yi
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
●
●
●
●
●
●
●
●
●
●
●
●
●
70
60
●●
●
●
50
●
Alter x2i
Median
-5.14
1200 1400 1600 1800 2000 2200 2400 2600
●
Residuals:
Min
1Q
-569.50 -120.79
40
●
30
20
10
0
2
4
6
8
10
12
Ausbildung x1i
0.6007
Folie 207
Ökonometrie (SS 2017)
Folie 208
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias V
Ausbildung
Alter
βb0
σ
bβb0
βb1
σ
bβb1
βb2
σ
bβb2
b0 u
b
u
SER
R2
R2
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VI
Die Regressoren x1i (Ausbildungsjahre) und x2i (Alter) sind positiv korreliert,
es gilt (mit den Bezeichnungen von Folie 191) genauer
Gegenüberstellung der Schätzergebnisse:
Absolutglied
4 Multiple lineare Regression
falsches Modell
korrektes Modell
1354.658
94.222
1027.806
164.473
89.282
19.82
62.575
21.191
s12 = 22.445
√
s12
√
s11 s22
=√
22.445
√
= 0.544
8.91 · 191.028
Außerdem hat der Regressor Alter“ (neben dem Regressor Ausbildung“) im
”
”
korrekten Modell einen signifikanten Regressionskoeffizienten.
Im Modell mit ausgelassener Variablen x2i (Alter) spiegelt der geschätzte
Koeffizient zum Regressor Ausbildung“ damit nicht den isolierten“ Effekt der
”
”
Ausbildung wider, sondern einen kombinierten“ Effekt.
”
Wie man zeigen (und im Beispiel leicht nachrechnen) kann, erhält man
(analog zum Resultat von Folie 184) durch
10.602
4.577
1260028
264.578
0.5299
0.5038
bzw.
957698
237.35
0.6427
0.6007
s12 b
22.445
βb1 +
β2 = 62.575 +
· 10.602 = 89.282
s11
8.91
aus den Schätzergebnissen des korrekten Modells den Punktschätzer für β1
im falschen Modell mit ausgelassenem Regressor.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 209
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VII
I
I
verzerrten Punktschätzern,
verschobenen und in der Breite verzerrten Konfidenzintervallen sowie
wertlosen Hypothesentests
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Wie im einfachen linearen Regressionsmodell: Erweiterung der
Modellannahme
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren Datenpunkt (y0 , x10 , . . . , xK 0 ), bei dem jedoch
y0 nicht beobachtet wird, sondern lediglich die Werte der Regressoren
x10 , . . . , xK 0 bekannt sind.
Ziel ist wiederum die Prognose von y0 = β0 + β1 x10 + . . . βK xK 0 + u0 bzw.
E(y0 ) = β0 + β1 x10 + . . . βK xK 0 auf Grundlage von x10 , . . . , xK 0 .
Hierzu definiert man wie im einfachen linearen Modell mit
yb0 := βb0 + βb1 x10 + . . . + βbK xK 0
für den isolierten Effekt (da man tatsächlich einen kombinierten Effekt
gemessen hat).
Ökonometrie (SS 2017)
Folie 210
Punkt- und Intervallprognosen I
Auch die Punkt- und Intervallschätzung von β0 sowie Hypothesentests für die
Regressionsparameter unterliegen im Modell mit ausgelassener Variablen
vergleichbaren Verzerrungen.
Geht man fälschlicherweise davon aus, die Annahmen des linearen
Regressionsmodell im Modell mit ausgelassenem Regressor erfüllt und mit der
Modellschätzung den isolierten Effekt des Regressors Ausbildung“ gemessen
”
zu haben, so führt dies zu
I
Ökonometrie (SS 2017)
[
b
b
b
bzw. E(y
0 ) := β0 + β1 x10 + . . . + βK xK 0
Folie 211
die (bedingte) Punktprognose yb0 für y0 gegeben x10 , . . . , xK 0 bzw.
[
die (bedingte) Punktprognose E(y
0 ) für E(y0 ) gegeben x10 , . . . , xK 0 .
Ökonometrie (SS 2017)
Folie 212
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen II
Wie im einfachen linearen Modell resultiert der Prognosefehler
0b
0
0 b
[
eE := E(y
0 ) − E(y0 ) = x0 β − x0 β = x0 (β − β)
der (transponiert) analog zu einer Zeile der Regressormatrix X aufgebaut ist.
Für die (bedingte) Punktprognose für y0 bzw. E(y0 ) gegeben x0 erhält man
so die kompakte Darstellung
0b
[
E(y
0 ) = x0 β .
bzw.
b = x0 0 E(β)
b = x0 0 β = E(y0 )
E(x0 0 β)
[ = E(E(y0 )) ]
Ökonometrie (SS 2017)
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IV
=σ
0
0
1 + x0 (X X)
−1
zusätzlich die zufällige Schwankung von u0 ∼ N(0, σ 2 ) enthält.
[
Für die Varianz des Prognosefehlers eE erhält man (da E(E(y
0 ) − E(y0 )) = 0)
Ökonometrie (SS 2017)
Folie 214
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen V
Für die Varianz des Prognosefehlers e0 erhält man (wegen E(b
y0 − y0 ) = 0,
b
E(β − β) = 0 und E(u0 ) = 0)
h
i
σe20 := Var(e0 ) = Var(b
y0 − y0 ) = E [x0 0 (βb − β) − u0 ]2
h
i
= E [x0 0 (βb − β)]2 − 2x0 0 (βb − β)u0 + u02
h
i
h
i
= E [x0 0 (βb − β)]2 −2x0 0 E (βb − β)u0 + E(u02 )
{z
}
|
{z
} | {z2 }
|
=σ 2 x0 0 (X0 X)−1 x0
e0 := yb0 − y0 = x0 0 βb − (x0 0 β + u0 ) = x0 0 (βb − β) − u0
b 0 = σ 2 x0 0 (X0 X)−1 x0 .
= x0 0 V(β)x
Folie 213
4 Multiple lineare Regression
b während
nur aus dem Fehler bei der Schätzung von β durch β,
h
i
0 b
2
[
σe2E := Var(eE ) = Var(E(y
0 ) − E(y0 )) = E [x0 (β − β)]
h
i
h
i
(!)
= E (x0 0 (βb − β))(x0 0 (βb − β))0 = E x0 0 (βb − β)(βb − β)0 x0
Die Erwartungstreue der (bedingten) Punktprognosen ergibt sich damit
unmittelbar aus der Erwartungstreue von βb für β und E(u0 ) = 0:
2
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen III
Die Untersuchung der Eigenschaften der bedingten Punktprognosen
vereinfacht sich durch die Definition des Vektors
0
x0 = 1 x10 · · · xK 0 ,
yb0 = x0 0 βb
4 Multiple lineare Regression
b
=Cov(β−β,u
0 )=0
=σ
x0 .
[
b
Wegen der Linearität von yb0 bzw. E(y
0 ) in β überträgt sich die
[
Normalverteilungseigenschaft von βb auf yb0 bzw. E(y
0 ), es gilt also
yb0 ∼ N y0 , σe20
2
[
E(y
0 ) ∼ N E(y0 ), σeE
bzw.
.
Wie im einfachen linearen Regressionsmodell muss das unbekannte σ 2 durch
c2 geschätzt werden, mit
σ
c2 e := σ
c2 1 + x0 0 (X0 X)−1 x0 σ
0
erhält man mit σ
be0 :=
q
bzw.
c2 e und σ
σ
beE :=
0
yb0 − y0
∼ t(n − (K + 1))
σ
be0
bzw.
q
c2 e := σ
c2 x0 0 (X0 X)−1 x0
σ
E
c2 e die Verteilungsaussagen
σ
E
[
E(y
0 ) − E(y0 )
∼ t(n − (K + 1)) ,
σ
beE
aus denen sich Prognoseintervalle für y0 und E(y0 ) konstruieren lassen.
Ökonometrie (SS 2017)
Folie 215
Ökonometrie (SS 2017)
Folie 216
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VI
Intervallprognosen für E(y0 ) zur Vertrauenswahrscheinlichkeit 1 − α (auch
interpretierbar als Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ))
erhält man entsprechend in der Form
h
i
[
[
α · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − tn−(K +1);1− α
e
0
e
n−(K
+1);1−
E
E
2
2
h
√ 0 0 −1
√ 0 0 −1 i
0b
0b
α
α
= x0 β−tn−(K +1);1− 2 ·bσ x0 (X X) x0 , x0 β+tn−(K +1);1− 2 ·bσ x0 (X X) x0
.
Ökonometrie (SS 2017)
Folie 217
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VIII
4
0.4801866
38  0.0081102
−0.0114619
= 0.0536441
0.0081102
0.0079709
−0.0009366
 
−0.0114619
1
−0.0009366  4 
0.0003718
38
σ
beE = σ
b
Ökonometrie (SS 2017)
p
x0 0 (X0 X)−1 x0 = 237.35 ·
0b
[
yb0 = E(y
0 ) = x0 β = 1
4


1027.806
38  62.575  = 1680.978 .
10.602
Im Beispiel aus Folie 207 gilt weiterhin

0.4801866
0.0081102
0.0079709
(X0 X)−1 =  0.0081102
−0.0114619 −0.0009366
und σ
b = 237.35.

−0.0114619
−0.0009366
0.0003718
Ökonometrie (SS 2017)
Folie 218
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
√
Insgesamt erhält man für α = 0.05 schließlich das Prognoseintervall
h
i
yb0 − t20−(2+1);1− 0.05 · σ
be0 , yb0 + t20−(2+1);1− 0.05 · σ
be0
2
2
= [yb0 − t17;0.975 · σ
be0 , yb0 + t17;0.975 · σ
be0 ]
= [1680.978 − 2.1098 · 243.6331 , 1680.978 + 2.1098 · 243.6331]
= [1166.961 , 2194.995]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für y0 gegeben x10 = 4 und
x20 = 38.
Entsprechend erhält man für α = 0.05 das Prognoseintervall
h
i
[
[
0.05 · σ
E(y
·
σ
b
,
E(y
)
+
t
b
0 ) − t20−(2+1);1− 0.05
e
0
e
20−(2+1);1−
E
E
2
2
erhält man weiter
p
√
σ
be0 = σ
b 1 + x0 0 (X0 X)−1 x0 = 237.35 · 1 + 0.0536441 = 243.6331
und
Eine Punktprognose für die (erwartete) Lohnhöhe eines 38-jährigen
Mitarbeiters, der nach dem Hauptschulabschluss weitere 4 Ausbildungsjahre
absolviert
hat, erhält
man im geschätzten Modell aus Folie 207 mit
0
x0 = 1 4 38 als
Punkt- und Intervallprognosen IX
Mit
x0 0 (X0 X)−1 x0 = 1
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VII
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also in der Form
h
i
yb0 − tn−(K +1);1− α2 · σ
be0 , yb0 + tn−(K +1);1− α2 · σ
be0
h
i
√
√
b
b
σ 1+x0 0 (X0 X)−1 x0 , x0 0 β+t
σ 1+x0 0 (X0 X)−1 x0 .
= x0 0 β−t
n−(K +1);1− α ·b
n−(K +1);1− α ·b
2
2

4 Multiple lineare Regression
= [1680.978 − 2.1098 · 54.9731 , 1680.978 + 2.1098 · 54.9731]
0.0536441 = 54.9731 .
= [1564.996 , 1796.96]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38.
Folie 219
Ökonometrie (SS 2017)
Folie 220
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen I
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen II
Neben Tests für einzelne Regressionsparameter sind auch Tests (und
Konfidenzintervalle) für Linearkombinationen von Regressionsparametern
problemlos möglich.
iid
Tests über einzelne Linearkombinationen von Regressionsparametern lassen
sich mit Hilfe von K + 1 Koeffizienten a0 , a1 , . . . , aK ∈ R für die Parameter
β0 , β1 , . . . , βK sowie einem Skalar c ∈ R in den Varianten
H0 :
Bei Vorliegen der Normalverteilungseigenschaft ui ∼ N(0, σ 2 ) bzw.
u ∼ N(0, σ 2 In ) gilt bekanntlich
βb ∼ N β, σ 2 (X0 X)−1
Tests einzelner linearer Hypothesen 4.5
H1 :
und auch ohne Normalverteilungsannahme an die ui ist die approximative
Verwendung einer (mehrdimensionalen) Normalverteilung für βb oft sinnvoll.
•
Damit gilt allerdings nicht nur βbk ∼ N(βk , σ 2 ) bzw. βbk ∼ N(βk , σ 2 ) für
k ∈ {0, . . . , K }, sondern darüberhinaus, dass jede beliebige Linearkombination
der Koeffizientenschätzer βb0 , βb1 , . . . , βbK (näherungsweise) normalverteilt ist.
Folie 221
4 Multiple lineare Regression
ak βk = c
H0 :
k=0
,
Ökonometrie (SS 2017)
K
X
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen III
K
X
k=0
K
X
k=0
vs.
ak βk 6= c
H1 :
K
X
ak βk ≤ c
H0 :
vs.
ak βk > c
vs.
H1 :
a1
···
ak βk < c
vs.
aK
0
als
H0 : a0 β ≤ c
H0 : a0 β ≥ c
0
0
vs.
H1 : a β 6= c
K
X
k=0
bzw. in vektorieller Schreibweise mit a := a0
0
ak βk ≥ c
k=0
k=0
H0 : a0 β = c
K
X
H1 : a β > c
vs.
H1 : a β < c
formulieren.
Ökonometrie (SS 2017)
Folie 222
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell
Mit den bekannten Rechenregeln“ für die Momente von Linearkombinationen
”
eines Zufallsvektors (vgl. Folie 50) erhält man zunächst
a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a
•
bzw. a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a .
2
Ersetzt man die unbekannte Störgrößenvarianz σ wie üblich durch den
c2 , so erhält man die Verteilungsaussage
(erwartungstreuen) Schätzer σ
a0 βb − a0 β
p
∼ t(n − (K + 1))
σ
b a0 (X0 X)−1 a
bzw.
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
a0 βb − a0 β
•
p
∼ t(n − (K + 1)) ,
σ
b a0 (X0 X)−1 a
woraus sich in gewohnter Weise Konfidenzintervalle und Tests konstruieren
lassen.
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
Folie 223
Ökonometrie (SS 2017)
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
p
0
σ
b a (X0 X)−1 a
0
t für a β = c (näherungsweise) t(n − (K + 1))-verteilt
t=
c2 =
b = (X0 X)−1 X0 y, σ
β
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 224
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese I
Die passende Hypothesenformulierung lautet in diesem Fall
gegen
mit a = 0 1
H0 : a β ≤ c
0
−2 und c = 0.
gegen
H1 : β1 − 2 · β2 > 0
t=
H1 : a β > c
Konfidenzintervalle für Linearkombinationen 4.6
Konfidenzintervalle für (einzelne) Linearkombinationen
41.371 − 0
a0 βb − c
p
√
=
= 1.5169 .
237.35 · 0.013204
σ
b a0 (X0 X)−1 a
Ökonometrie (SS 2017)
Folie 226
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen I
Ein (ggf. approximatives) symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man auf vergleichbare Art und Weise durch:
i
p
p
a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
Im vorangegangenen Beispiel erhält
man somit
0 ein Konfidenzintervall für
β1 − 2 · β2 , also für a0 β mit a = 0 1 −2 , zum Konfidenzniveau
1 − α = 0.95 unter Verwendung der bisherigen Zwischenergebnisse sowie von
t17;0.975 = 2.11 durch:
h
i
p
p
a0 βb − tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a , a0 βb + tn−(K +1);1− α2 · σ
b a0 (X0 X)−1 a
h
i
√
√
= 41.371 − 2.11 · 237.35 0.013204 , 41.371 + 2.11 · 237.35 0.013204
Neben einzelnen linearen Hypothesen können auch mehrere lineare
Hypothesen simultan überprüft werden.
Die Nullhypothese H0 solcher Tests enthält L lineare
(Gleichheits-)Restriktionen in der Gestalt
a10 β0 + a11 β1 + . . . + a1K βK = c1
a20 β0 + a21 β1 + . . . + a2K βK = c2
..
..
..
.
.
.
aL0 β0 + aL1 β1 + . . . + aLK βK = cL
bzw.
= [−16.1762 , 98.9182]
Ökonometrie (SS 2017)
1


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
H0 kann hier zum Signifikanzniveau α = 0.05 nicht abgelehnt werden, da
t = 1.5169 ∈
/ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Folie 225
4 Multiple lineare Regression
a0 βb − tn−(K +1);1− α2 · σ
b
= 0.013204
0
Ökonometrie (SS 2017)
h
Mit (X0 X)−1 und σ
b wie auf Folie 218 angegeben erhält man zunächst

 
0.4801866
0.0081102 −0.0114619
0
0.0079709 −0.0009366  1 
a0 (X0 X)−1 a = 0 1 −2  0.0081102
−0.0114619 −0.0009366 0.0003718
−2
und mit a0 βb = 0
bzw. in der bisherigen Schreibweise
0
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese II
Im vorangegangenen Beispiel (Lohnhöhe erklärt durch Ausbildung und Alter)
kann (im korrekt spezifizierten Modell) zum Beispiel getestet werden, ob der
(isolierte) Effekt eines weiteren Ausbildungsjahres mehr als doppelt so groß
wie der (isolierte) Effekt eines zusätzlichen Lebensjahres ist, also ob
β1 > 2 · β2 gilt.
H0 : β1 − 2 · β2 ≤ 0
4 Multiple lineare Regression
Folie 227
K
X
k=0
Ökonometrie (SS 2017)
alk βk = cl
für l ∈ {1, . . . , L} .
Folie 228
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen II
Zur Konstruktion eines Hypothesentests fordert man zunächst, dass A weder
redundante noch zu viele“ Linearkombinationen enthält, dass A also vollen
”
Zeilenrang L besitzt.
lässt sich die Nullhypothese auch als Aβ = c schreiben.
H1 ist (wie immer) genau dann erfüllt, wenn H0 verletzt ist, hier also wenn
mindestens eine Gleichheitsrestriktion nicht gilt.
Da Vektoren genau dann übereinstimmen, wenn alle Komponenten gleich
sind, kann das Hypothesenpaar also in der Form
gegen
kompakt notiert werden.
Folie 229
4 Multiple lineare Regression
Eine geeignete Testgröße zur gemeinsamen Überprüfung der L linearen
Restriktionen aus der Nullhypothese ist dann
.
−1
(Aβb − c) L
(Aβb − c)0 A(X0 X)−1 A0
F =
b0 u
b/(n − (K + 1))
u
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
=
.
L
Man kann zeigen, dass F bei Gültigkeit von H0 : Aβ = c unter den
bisherigen Annahmen (einschließlich der Annahme u ∼ N(0, σ 2 In )) einer
sogenannten F -Verteilung mit L Zähler- und n − (K + 1)
Nennerfreiheitsgraden folgt, in Zeichen F ∼ F (L, n − (K + 1)).
H1 : Aβ 6= c
Ökonometrie (SS 2017)
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen III
0
Mit dem L-dimensionalen Vektor c := c1 · · · cL und der
(L × (K + 1))-Matrix


a10 a11 · · · a1K

..
.. 
A :=  ...
.
. 
aL0 aL1 · · · aLK
H0 : Aβ = c
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen IV
Ökonometrie (SS 2017)
Folie 230
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Grafische Darstellung einiger F (m, n)-Verteilungen
für m, n ∈ {2, 5, 10}
F(2, 2)
F(5, 2)
F(10, 2)
F(2, 5)
F(5, 5)
F(10, 5)
F(2, 10)
F(5, 10)
F(10, 10)
0.8
1.0
Die F -Statistik aus Folie 230 ist im Wesentlichen eine (positiv definite)
quadratische Form in den empirischen Verletzungen“ Aβb − c der
”
Nullhypothese.
0.6
Besonders große Werte der F -Statistik sprechen also gegen die Gültigkeit der
Nullhypothese.
f(x)
Entsprechend bietet sich als kritischer Bereich zum Signifikanzniveau α
Auch bei Verletzung der Normalverteilungsannahme ist eine approximative
Annahme der F (L, n − (K + 1))-Verteilung (unter H0 !) und damit ein
approximativer Test sinnvoll.
0.0
an, wobei mit Fm,n;p das p-Quantil der F (m, n)-Verteilung (F -Verteilung mit
m Zähler- und n Nennerfreiheitsgraden) bezeichnet ist.
0.2
0.4
K = (FL,n−(K +1);1−α , ∞)
0
1
2
3
4
x
Ökonometrie (SS 2017)
Folie 231
Ökonometrie (SS 2017)
Folie 232
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
0.95-Quantile der F (m, n)-Verteilungen Fm,n;0.95
n\m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
40
50
100
150
1
161.448
18.513
10.128
7.709
6.608
5.987
5.591
5.318
5.117
4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381
4.351
4.171
4.085
4.034
3.936
3.904
2
199.500
19.000
9.552
6.944
5.786
5.143
4.737
4.459
4.256
4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522
3.493
3.316
3.232
3.183
3.087
3.056
3
215.707
19.164
9.277
6.591
5.409
4.757
4.347
4.066
3.863
3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127
3.098
2.922
2.839
2.790
2.696
2.665
Ökonometrie (SS 2017)
4 Multiple lineare Regression
4
224.583
19.247
9.117
6.388
5.192
4.534
4.120
3.838
3.633
3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895
2.866
2.690
2.606
2.557
2.463
2.432
5
230.162
19.296
9.013
6.256
5.050
4.387
3.972
3.687
3.482
3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740
2.711
2.534
2.449
2.400
2.305
2.274
6
233.986
19.330
8.941
6.163
4.950
4.284
3.866
3.581
3.374
3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628
2.599
2.421
2.336
2.286
2.191
2.160
7
236.768
19.353
8.887
6.094
4.876
4.207
3.787
3.500
3.293
3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544
2.514
2.334
2.249
2.199
2.103
2.071
8
238.883
19.371
8.845
6.041
4.818
4.147
3.726
3.438
3.230
3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477
2.447
2.266
2.180
2.130
2.032
2.001
Folie 233
Tests mehrerer linearer Hypothesen 4.7
Ein spezieller F -Test
Tests mehrerer linearer Hypothesen 4.7
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
0
c2 A(X0 X)−1 A0
b − c) σ
b − c)
(Aβ
(Aβ
L
F ist (approx.) F (L, n − (K + 1))-verteilt, falls Aβ = c
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
c2 =
b = (X0 X)−1 X0 y, σ
β
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
p-Wert
Ökonometrie (SS 2017)
Folie 234
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik I
auf Signifikanz des Erklärungsansatzes“
”
Eine spezielle, häufig verwendete Ausgestaltung des F -Tests überprüft
(simultan), ob mindestens ein Regressor einen (signifikanten) Effekt auf den
Regressanden hat.
Die Hypothesen lauten also:
H0 : β1 = . . . = βK = 0 gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
Die realisierte Teststatistik zu diesem Test, die Anzahl der (Zähler- und
Nenner-)Freiheitsgrade der (F -)Verteilung unter H0 sowie der p-Wert der
realiserten Teststatistik sind üblicherweise Bestandteil von Regressionsoutputs
zu Schätzungen linearer Modelle mit Statistik-Software.
In der Schätzung des korrekt spezifizierten Modells aus Folie 207 liest man
beispielsweise die realisierte Teststatistik F = 15.29, 2 Zähler- und 17
Nennerfreiheitsgrade der F -Verteilung unter H0 sowie den p-Wert 0.0001587
ab.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 235
Es kann gezeigt werden, dass man unter den getroffenen Annahmen die
realisierte F -Statistik auch berechnen kann, indem man neben dem
eigentlichen unrestringierten“ Regressionsmodell das sogenannte
”
restringierte“ Regressionsmodell schätzt und die Ergebnisse vergleicht.
”
Die Schätzung des restringierten Modells erfolgt als Lösung des
ursprünglichen KQ-Optimierungsproblems unter der Nebenbedingung
Aβ = c.
Werden mit RSS0 die Summe der quadrierten Residuen bzw. mit R02 das
Bestimmtheitsmaß der restringierten Modellschätzung bezeichnet, lässt sich
die F -Statistik auch als
F =
(RSS0 − RSS)/L
(R 2 − R02 )/L
=
RSS/(n − (K + 1))
(1 − R 2 )/(n − (K + 1))
darstellen, wenn mit RSS, R 2 bzw. K wie üblich die Summe der quadrierten
Residuen, das Bestimmtheitsmaß bzw. die Anzahl der Regressoren des
unrestringierten Modells bezeichnet werden und L die Anzahl der linearen
Restriktionen (Anzahl der Zeilen von A) ist.
Ökonometrie (SS 2017)
Folie 236
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik II
für j ∈ J ⊆ {1, . . . , K }
mit |J| = L
besitzt, kann die Schätzung des restringierten Modells natürlich durch die
Schätzung des entsprechend verkleinerten Regressionsmodells erfolgen.
Im bereits betrachteten Spezialfall J = {1, . . . , K } bzw.
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
gilt offensichtlich R02 = 0, damit kann die F -Statistik ohne weitere Schätzung
auch durch
R 2 /K
F =
(1 − R 2 )/(n − (K + 1))
ausgewertet werden.
Folie 237
Für eine Teilmenge J = {j1 , . . . , jL } ⊆ {0, . . . , K } mit |J| = L enthält also ein
Konfidenzbereich für den Parameter(teil)vektor (βj1 , . . . , βjL )0 zum
Konfidenzniveau 1 − α genau die Vektoren (βj01 , . . . , βj0L )0 , für die ein F -Test
zum Signifikanzniveau α mit
H0 : βj1 = βj01 ∧ . . . ∧ βjL = βj0L
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter II
4 Multiple lineare Regression
Konfidenzellipsen 4.8
im korrekt spezifizierten Modell von Folie 207, 1 − α = 0.95
beschrieben, wobei die Matrix A aus L Zeilen besteht und die Zeile l jeweils
in der (zu βjl gehörenden) (jl + 1)-ten Spalte den Eintrag 1 hat und sonst nur
Nullen beinhaltet.
Konfidenzellipsen bzw. -ellipsoide sind auch für mehrere Linearkombinationen
der Regressionsparameter als Verallgemeinerung der Konfidenzintervalle für
einzelne Linearkombinationen ganz analog konstruierbar, es muss lediglich die
entsprechende (allgemeinere) Matrix A eingesetzt werden.
Folie 239
Alter β2
gilt, wird der Konfidenzbereich zum Niveau 1 − α also durch die Menge
h
i−1
L
0 c
0
−1 0
2
b
b
c ∈ R (Aβ − c) σ A(X X) A
(Aβ − c) ≤ L · FL,n−(K +1);1−α
15
20
≤ FL,n−(K +1);1−α
●
5
L
Folie 238
Beispiel: Konfidenzellipse für β1 und β2
Da der F -Test H0 genau dann nicht verwirft, wenn für die Teststatistik
h
i−1
c2 A(X0 X)−1 A0
(Aβb − c)0 σ
(Aβb − c)
Ökonometrie (SS 2017)
10
4 Multiple lineare Regression
Ökonometrie (SS 2017)
Dieses Konzept lässt sich problemlos auf Konfidenzbereiche (simultan) für
mehrere Regressionsparameter erweitern; wegen der resultierenden Gestalt
werden diese Konfidenzellipsen oder ggf. Konfidenzellipsoide genannt.
diese Nullhypothese nicht verwirft.
Ökonometrie (SS 2017)
F =
Konfidenzintervalle für einen Regressionsparameter βk zur
Vertrauenswahrscheinlichkeit 1 − α bestehen aus genau den hypothetischen
Parameterwerten βk0 , zu denen ein (zweiseitiger) Signifikanztest zum
Signifikanzniveau α (mit H0 : βk = βk0 ) die Nullhypothese nicht ablehnt.
0
H0 : β1 = . . . = βK = 0
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter I
Insbesondere wenn die linearen Restriktionen im Ausschluss einiger der
Regressoren bestehen, die Nullhypothese also die Gestalt
H0 : βj = 0
4 Multiple lineare Regression
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2017)
Folie 240
4 Multiple lineare Regression
Multikollinearität 4.9
Multikollinearität
Im Unterschied zur perfekten Multikollinearität spricht man von imperfekter
Multikollinearität, wenn die Regressoren (einschließlich des Absolutglieds“)
”
beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineare
Abhängigkeiten aufweisen.
Eine (konventionelle) Schätzung des Modells ist dann (abgesehen von
numerischen Schwierigkeiten in sehr extremen Fällen) möglich, die Ergebnisse
können aber (i.d.R. unerwünschte) Besonderheiten aufweisen.
4 Multiple lineare Regression
Folie 241
Multikollinearität 4.9
Perfekte Multikollinearität II
Perfekte Multikollinearität tritt in linearen Modellen mit Absolutglied (wie
hier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.
Dummy-Variablen falsch spezifiziert werden.
Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1
annehmen.
Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen in
lineare Modelle einbezogen, indem den vorhandenen (!) Ausprägungen
separate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1
annehmen, wenn die entsprechende Ausprägung vorliegt, und 0 sonst.
Wird zu jeder vorhandenen Ausprägung eine solche Dummy-Variable
definiert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert
1, alle anderen den Wert 0.
Damit ist aber offensichtlich die Summe über alle Dummy-Variablen stets
gleich 1 und damit identisch mit dem (und insbesondere linear abhängig zum)
Absolutglied.
Ökonometrie (SS 2017)
Folie 242
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität III
Lösung: (Genau) eine Dummy-Variable wird weggelassen.
Damit nimmt die zu dieser Dummy-Variablen gehörende Ausprägung des
Merkmals eine Art Benchmark“ oder Bezugsgröße ein.
”
Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu den
anderen Merkmalsausprägungen sind dann als Änderung gegenüber dieser
Benchmark zu interpretieren, während der Effekt“ der Benchmark selbst im
”
Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.
Beispiel: Einbeziehung des Merkmals Geschlecht“ mit den beiden (auch im
”
Datensatz auftretenden!) Ausprägungen weiblich und männlich mit Hilfe
einer Dummy-Variablen weiblich (oder alternativ männlich) ist korrekt,
während Aufnahme der beiden Variablen weiblich und männlich
zwangsläufig zu perfekter Multikollinearität führt.
Lineare Abhängigkeiten zwischen Regressoren können auch ohne (fehlerhafte)
Verwendung von Dummy-Variablen auftreten.
Ökonometrie (SS 2017)
Multikollinearität 4.9
Perfekte Multikollinearität I
Erinnerung: Unter der (gemäß Modellannahmen ausgeschlossenen) perfekten
Multikollinearität versteht man eine perfekte lineare Abhängigkeit unter den
Regressoren (einschließlich des Absolutglieds“).
”
Bei perfekter Multikollinearität ist eine Schätzung des Modells mit dem
vorgestellten Verfahren nicht möglich.
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 243
Beispiel 1: Sind in einem Modell die Regressoren durchschnittl.
”
Monatseinkommen“ (Monat), Jahressonderzahlung“ (Sonderzahlung) und
”
Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs
”
Jahr = 12 · Monat + Sonderzahlung
offensichtlich perfekte Multikollinearität.
Beispiel 2: Sind gleichzeitig die Regressoren Nettoeinnahmen mit reduz.
”
MWSt.“ (NettoReduziert), Nettoeinnahmen mit regul. MWSt.“
”
(NettoRegulär) und Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen
”
des Zusammenhangs
Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegulär
ebenfalls perfekte Multikollinearität.
Lösung: Eine der Variablen im linearen Zusammenhang weglassen (wird von
Statistik-Software meist automatisch erledigt).
Ökonometrie (SS 2017)
Folie 244
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität I
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität II
Darstellung der Regressoren Monat und Sonderzahlung
5000
Punktwolke der Regressoren Monat und Sonderzahlung
Imperfekte Multikollinearität kann im Beispiel 1 aus Folie 244 auch nach
Elimination des Regressors Jahr auftreten:
4500
●
●
●
●
3500
●
●
●
3000
Sonderzahlung x3i
4000
●
●
●
●
●
2500
Oft ist die Jahressonderzahlung (mehr oder weniger) linear vom
durchschnittlichen Monatseinkommen abhängig ( 13. Monatsgehalt“). Dies
”
kann zu beinahe“ linearen Abhängigkeiten zwischen den Regressoren führen.
”
In einem (fiktiven) linearen Modell werden die monalichen Ausgaben für
Nahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personen
im Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und die
jährliche Sonderzahlung (Sonderzahlung) erklärt.
●●
●
●
●
●
●
●
●
1500
Im (ebenfalls fiktiven) Datensatz der Länge n = 25 beträgt die Korrelation
zwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch im
folgenden Plot visualisiert ist.
2000
●
●
●
●
1500
2000
2500
3000
3500
4000
4500
5000
Monat x2i
Ökonometrie (SS 2017)
Folie 245
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität III
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 246
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IV
Schätzergebnisse des vollständigen Modells
Call:
lm(formula = NuG ~ Personen + Monat + Sonderzahlung)
Residuals:
Min
1Q
-268.49 -109.97
Median
-0.13
3Q
122.96
In der Schätzung des vollständigen Modells ist nur der Koeffizient des
Regressors Personen signifikant von Null verschieden (zu gängigen
Signifikanzniveaus).
Max
248.30
Insbesondere die (geschätzten) Koeffizienten zu den Regressoren Monat und
Sonderzahlung sind zwar (wie zu erwarten) positiv, durch die
vergleichsweise großen Standardfehler jedoch insignifikant.
Coefficients:
Estimate Std. Error t
(Intercept)
61.44311 124.97001
Personen
159.57520
29.13033
Monat
0.17848
0.11854
Sonderzahlung
0.07205
0.12413
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
value Pr(>|t|)
0.492
0.628
5.478 1.96e-05 ***
1.506
0.147
0.580
0.568
Die imperfekte, aber große (lineare) Abhängigkeit der beiden Regressoren
Monat und Sonderzahlung überträgt sich auf einen stark ausgeprägten
(negativen!) Zusammenhang der Koeffizientenschätzer zu diesen Regressoren,
was sich auch in Konfidenzellipsen zu den entsprechenden Parametern
widerspiegelt:
0.1 ' ' 1
Residual standard error: 153.3 on 21 degrees of freedom
Multiple R-squared: 0.8242,
Adjusted R-squared:
F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08
Ökonometrie (SS 2017)
Es liegt die Vermutung nahe, dass die Schätzung der Koeffizienten deshalb so
ungenau“ ausfällt, weil die Effekte der beiden Regressoren wegen der hohen
”
Korrelation im linearen Modellansatz kaum zu trennen sind.
0.7991
Folie 247
Ökonometrie (SS 2017)
Folie 248
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität V
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VI
Konfidenzellipse (1 − α = 0.95) für β2 und β3 im vollständigen Modell
0.1
0.0
●
−0.01431
= −0.973 errechnen lässt.
0.01405 · 0.01541
Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor
d βb2 , βb3 ) = √
als Korr(
−0.2
−0.1
Sonderzahlung β3
0.2
0.3
0.4
Bei Betrachtung der Konfidenzellipse fällt auf, dass die Ellipse sehr flach“ ist.
”
Grund hierfür ist die bereits erwähnte starke negative (geschätzte)
Korrelation der Schätzfunktionen βb2 und βb3 , die sich aus der geschätzten
Varianz-Kovarianzmatrix


15617.50443 −2322.95496 −3.52136 0.76131

848.57606
0.76545 −0.69665
b = −2322.95496
b β)

V(
 −3.52136
0.76545
0.01405 −0.01431
0.76131
−0.69665
−0.01431 0.01541
−0.1
0.0
0.1
0.2
0.3
0.4
Jahr = 12 · Monat + Sonderzahlung
0.5
zusammen, erhält man folgende Ergebnisse:
Monat β2
Ökonometrie (SS 2017)
Folie 249
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VII
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 250
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VIII
Modell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung
Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)
signifikant von Null verschieden (und wie zu erwarten positiv).
Call:
lm(formula = NuG ~ Personen + Jahr)
Residuals:
Min
1Q
-263.159 -109.291
Median
5.702
3Q
121.542
Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil der
erklärten Varianz beinahe unverändert, das adjustierte Bestimmtheitsmaß
vergrößert sich sogar.
Max
262.347
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.0719
122.3825
0.475
0.64
Personen
162.0057
28.0344
5.779 8.18e-06 ***
Jahr
0.0190
0.0021
9.044 7.27e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen der
Regressoren Monat oder Sonderzahlung aus dem ursprünglichen Modell
entfernt.
Ist das Weglassen von Regressoren oder eine Umspezifikation des Modells
möglich und sinnvoll, kann man das Problem der (imperfekten)
Multikollinearität also dadurch umgehen.
Residual standard error: 150.5 on 22 degrees of freedom
Multiple R-squared: 0.8227,
Adjusted R-squared:
F-statistic: 51.04 on 2 and 22 DF, p-value: 5.449e-09
Ansonsten kann man den bisher dargestellten Folgen von imperfekter
Multikollinearität nur durch einen vergrößerten Stichprobenumfang
entgegenwirken.
Ökonometrie (SS 2017)
0.8066
Folie 251
Ökonometrie (SS 2017)
Folie 252
4 Multiple lineare Regression
Multikollinearität 4.9
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IX
Beispiel: Imperfekte Multikollinearität X
Modell ohne Regressor Sonderzahlung
Modell ohne Regressor Monat
Call:
lm(formula = NuG ~ Personen + Monat)
Residuals:
Min
1Q
-261.656 -109.348
Median
7.655
3Q
109.174
Call:
lm(formula = NuG ~ Personen + Sonderzahlung)
Residuals:
Min
1Q
-299.94 -113.54
Max
267.646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.88292 122.92403
0.471
0.642
Personen
162.83304
28.15048
5.784 8.08e-06 ***
Monat
0.24538
0.02726
9.003 7.88e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 151 on 22 degrees of freedom
Multiple R-squared: 0.8214,
Adjusted R-squared:
F-statistic: 50.59 on 2 and 22 DF, p-value: 5.901e-09
Ökonometrie (SS 2017)
Max
293.15
Estimate Std. Error t value Pr(>|t|)
(Intercept)
106.1682
124.8342
0.850
0.404
Personen
149.8531
29.2120
5.130 3.85e-05 ***
Sonderzahlung
0.2538
0.0298
8.515 2.06e-08 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 157.7 on 22 degrees of freedom
Multiple R-squared: 0.8052,
Adjusted R-squared:
F-statistic: 45.48 on 2 and 22 DF, p-value: 1.53e-08
0.8052
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität XI
0.7875
Ökonometrie (SS 2017)
Folie 254
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität I
Das Vorliegen von imperfekter Multikollinearität bedeutet im Übrigen nicht,
dass die Resultate der Schätzung nicht mehr nützlich oder gar falsch sind,
insbesondere bleiben verwertbare Prognosen meist möglich.
Im vollständigen Modell erhält man außerdem beispielsweise mit dem
Konfidenzintervall zum Konfidenzniveau
1 − α = 0.95 für die Summe
0
β2 + β3 , also für a0 β mit a = 0 0 1 1 , mit
[0.1781, 0.3219]
eine deutlich präzisere Schätzung als für die einzelnen Koeffizienten
β2 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.0681, 0.425]) und
β3 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.1861, 0.3302]).
Werden die schlecht zu trennenden“ Effekte also (z.B. durch geeignete
”
Linearkombination) zusammengefasst, sind wieder präzisere Schlüsse möglich.
Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant
(α = 0.05) von Null verschieden ist, kann mit einem Blick auf die
Konfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positiv
beantwortet werden.
Ökonometrie (SS 2017)
3Q
87.79
Coefficients:
Folie 253
4 Multiple lineare Regression
Median
25.03
Folie 255
Ausstehend ist noch die präzisere Festlegung einer Schwelle für die lineare
Abhängigkeit zwischen den Regressoren, ab der man üblicherweise von
imperfekter Multikollinearität spricht.
Man benötigt zunächst ein Maß für die lineare Abhängigkeit der Regressoren.
Dazu setzt man zunächst jeden der K (echten) Regressoren separat als
abhängige Variable in jeweils ein neues Regressionsmodell ein und verwendet
als unabhängige, erklärende Variablen jeweils alle übrigen Regressoren in der
folgenden Gestalt:
x1i = γ0
+ γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
x2i = γ0 + γ1 x1i
..
..
.
.
+ γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
..
..
.
.
x(K −1)i = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . .
xKi = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i
Ökonometrie (SS 2017)
+ γK xKi + ui ,
+ ui .
Folie 256
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität II
1
1 − Rk2
Offensichtlich gilt VIFk ≥ 1, und VIFk wächst mit zunehmendem Rk2
(es gilt genauer VIFk = 1 ⇐⇒ Rk2 = 0 und VIFk → ∞ ⇐⇒ Rk2 → 1).
Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 im
Modell enthalten, spricht man in der Regel vom Vorliegen von imperfekter
Multikollinearität oder vom Multikollinearitätsproblem, es existieren aber
auch einige andere Faustregeln“.
”
4 Multiple lineare Regression
Folie 257
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen I
d βbk ) =
Var(
c2
c2
σ
σ
· VIFk = Pn
· VIFk
2
n · skk
i=1 (xki − x k )
Regressor
VIF
Personen
Monat
Sonderzahlung
1.062
18.765
18.531
Nach der oben genannten Faustregel“ liegt also ein Multikollinearitätsproblem
”
bei den Regressoren Monat und Sonderzahlung vor.
Ökonometrie (SS 2017)
Folie 258
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen II
Die Annahme 2 an die Störgrößen ui auf Folie 186 lautet Var(ui ) = σ 2 für
alle i ∈ {1, . . . , n}, es wird also die Gleichheit aller Störgrößenvarianzen
gefordert.
Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch als
Homoskedastie oder Homoskedastizität dieser Zufallsvariablen bezeichnet.
Man spricht bei Erfüllung der Annahme 2 an die Störgrößen damit auch von
homoskedastischen Störgrößen.
Das Gegenteil von Homoskedastie wird mit Heteroskedastie oder
Heteroskedastizität bezeichnet.
Ist Annahme 2 an die Störgrößen verletzt, gilt also (mit σi2 := Var(ui ))
σi2 6= σj2 für mindestens eine Kombination i, j ∈ {1, . . . , n}, so spricht man
von heteroskedastischen Störgrößen.
Ökonometrie (SS 2017)
In der Darstellung (mit den Abkürzungen x k und skk aus Folie 191)
der geschätzten Varianz der Parameterschätzer βbk ist die Bezeichnung
Varianz-Inflations-Faktor“ selbsterklärend.
”
In der im Beispiel durchgeführten Schätzung des vollständigen Modells
ergeben sich die folgenden Varianz-Inflations-Faktoren:
zu definieren.
Ökonometrie (SS 2017)
Multikollinearität 4.9
Messung von imperfekter Multikollinearität III
Die K resultierenden Bestimmtheitsmaße Rk2 (k ∈ {1, . . . , K }) werden dann
verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)
VIFk :=
4 Multiple lineare Regression
Folie 259
Im Folgenden untersuchen wir die Auswirkungen des Vorliegens
heteroskedastischer, aber (nach wie vor) unkorrelierter Störgrößen.
Es gelte also
 2
σ1
0


V(u) = diag(σ12 , . . . , σn2 ) :=  ...

0
0
V(u) ist also eine Diagonalmatrix.
0
σ22
0 ···
0 ···
..
.
0
0
0
0
0
0
0
0
···
···
0
0
2
σn−1
0

0
0

..  ,
.

0
σn2
Sind die Störgrößen gemeinsam normalverteilt (gilt also Annahme
sind die ui noch unabhängig, aber nicht mehr identisch verteilt.
Ökonometrie (SS 2017)
4
), so
Folie 260
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Auswirkungen von Heteroskedastie in den Störgrößen
bei Schätzung des Modells mit der OLS-/KQ-Methode
I
I
b bleibt unverzerrt für β.
Der Vektor von Schätzfunktionen β
(Die Koeffizientenschätzer bleiben prinzipiell sinnvoll und gut einsetzbar.)
b ist nicht mehr effizient (varianzminimal).
β
(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sind
präzisere Schätzfunktionen konstruierbar. Dies wird in dieser Veranstaltung aber
nicht weiter besprochen.)
Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltung
unbrauchbar!
Ursächlich für den letzten (und folgenreichsten) Aspekt ist, dass bei der
b bzw. V(
b regelmäßig die (bei
b β)
Herleitung bzw. Berechnung von V(β)
Heteroskedastie falsche!) Spezifikation V(u) = σ 2 In eingesetzt bzw.
verwendet wurde.
Ökonometrie (SS 2017)
Folie 261
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie II
Schätzung von V(β)
n
bn2 )
diag(b
u12 , . . . , u
n − (K + 1)
 2
b1 0 0 · · ·
u
0 u
b22 0 · · ·

n
 ..
..
=

.
n − (K + 1)  .
 0 0 0 ···
0 0 0 ···
0
0
0
0
0
0
2
bn−1
u
0

0
0

..  .
.

0
bn2
u
= (X0 X)−1 X0 V(u)X(X0 X)−1 .
Bei unbekannter Form von Heteroskedastie wurde als Schätzer für V(u) von
Halbert White zunächst (Econometrica, 1980) die folgende Funktion
vorgeschlagen:
 2

b1 0 0 · · · 0
u
0
0
0 u
b22 0 · · · 0
0
0


 ..
.. 
2
2
.
b
..
bn ) =  .
Vhc0 (u) := diag(b
u1 , . . . , u
.


2
 0 0 0 ··· 0 u
bn−1 0 
bn2
0 0 0 ··· 0
0
u
Ökonometrie (SS 2017)
Folie 262
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz- und Prognoseintervalle sowie Hypothesentests müssen nun auf der
Verteilungsaussage
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
•
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
aufbauen, die durch eine geeignete Schätzung von V(u) nutzbar gemacht
wird.
b für
b hc (β)
Die Verwendung eines heteroskedastie-konsistenten Schätzers V
b
V(β) führt dazu, dass viele bei Homoskedastie (zumindest bei gemeinsam
normalverteilen Störgrößen) exakt gültigen Verteilungsaussagen nur noch
asymptotisch und damit für endliche Stichprobenumfänge nur noch
näherungsweise (approximativ) gelten (selbst bei gemeinsam normalverteilten
Störgrößen).
b := (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
V
als (unter moderaten Bedingungen konsistenten) Schätzer für die
b
Varianz-Kovarianz-Matrix V(β).
bei heteroskedastischen Störgrößen
bzw.
b aus Folie 262 liefert dann z.B.
Einsetzen in die Darstellung von V(β)
Ökonometrie (SS 2017)
b nicht mehr
Bei Vorliegen von Heteroskedastie in den Störgrößen kann V(β)
so stark wie auf Folie 198 vereinfacht werden, man erhält lediglich
0 h
0 i
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X0 X)−1 X0 u (X0 X)−1 X0 u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 )X(X0 X)−1
Konfidenz-, Prognoseintervalle und Hypothesentests I
Auf dieser Basis wurden weitere Schätzer entwickelt, einer davon ist die (für
bessere Eigenschaften in kleinen Stichproben um Freiheitsgrade korrigierte)
Variante
b hc1 (u) :=
V
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie I
Schätzung von V(β)
Heteroskedastie der Störgrößen III
I
4 Multiple lineare Regression
Folie 263
Ökonometrie (SS 2017)
Folie 264
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests II
Zusammenfassung: t-Test für einzelne lineare Hypothesen
bei heteroskedastischen Störgrößen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Achtung!
Anwendungsvoraussetzungen
b muss
Bei der Verwendung von heteroskedastie-konsistenten Schätzern für V(β)
unbedingt darauf geachtet werden, keine Formeln“ einzusetzen, die unter
”
Ausnutzung von nur bei Homoskedastie der Störgrößen gültigen
Zusammenhängen hergeleitet wurden.
Nullhypothese
Gegenhypothese
c2 oder σ
Generell sind ganz offensichtlich alle Formeln“, die σ
b enthalten, also
”
nicht mehr einsetzbar. Dazu zählen einige Darstellungen auf den Folien 204,
217, 224, 227, 230 und 234.
Teststatistik
Bei der Berechnung von Konfidenzintervallen (Folie 203) und der
Durchführung von Tests (Folie 204) für einzelne Parameter sind natürlich bei
c2 b bzw. σ
jedem Auftreten von σ
b b die entsprechenden Diagonaleinträge der
Benötigte Größen
Der t-Test für einzelne lineare Hypothesen hat nun die folgende Darstellung:
p-Wert
βk
βk
b bzw. deren
b hc (β)
verwendeten heteroskedastie-konsistenten Schätzmatrix V
Wurzeln einzusetzen!
Ökonometrie (SS 2017)
Folie 265
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Die F -Statistik aus Folie 230 ist durch eine Darstellung der Bauart“
”
i−1
h
b 0
b hc (β)A
(Aβb − c)
(Aβb − c)0 AV
F =
L
F =
(Aβb − c) A(X X)
b hc1 (u) =
mit V
n
n−(K +1)
−1
0b
0
−1
X Vhc1 (u)X(X X)
L
0
A
i−1
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β), z.B. V
2
2
n
b
b
bn ), wobei b
u1 , . . . , u
mit Vhc1 (u) = n−(K +1) diag(b
u = y − Xβ
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Ökonometrie (SS 2017)
Folie 266
4 Multiple lineare Regression
Anwendungsvoraussetzungen
Teststatistik
Verteilung (H0 )
(Aβb − c)
Benötigte Größen
bn2 ).
diag(b
u12 , . . . , u
Der F -Test hat also bei heteroskedastischen Störgrößen die folgende Gestalt:
Ökonometrie (SS 2017)
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
t= q
b
b hc (β)a
a0 V
0
t für a β = c näherungsweise t(n − (K + 1))-verteilt
Heteroskedastische Störgrößen 4.10
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
zu ersetzen, beispielsweise also durch
0
H0 : a0 β ≤ c
H1 : a0 β > c
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Auch die alternativen Darstellungen der Statistik des F -Tests von Folie 236f.
verlieren ihre Korrektheit!
h
Kritischer Bereich
zum Niveau α
H0 : a0 β = c
H1 : a0 β 6= c
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
Konfidenz-, Prognoseintervalle und Hypothesentests III
0
Verteilung (H0 )
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
Folie 267
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2017)
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
b − c)0 AV
b 0
b − c)
b hc (β)A
(Aβ
(Aβ
L
F ist approx. F (L, n − (K + 1))-verteilt, falls Aβ = c
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b z.B. V
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β),
n
b
b hc1 (u) =
bn2 ), wobei b
mit V
diag(b
u12 , . . . , u
u = y − Xβ
n−(K +1)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
Folie 268
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests IV
Konfidenz-, Prognoseintervalle und Hypothesentests V
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Ein approximatives symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man bei heteroskedastischen Störgrößen durch
q
q
b , a0 βb + tn−(K +1);1− α · a0 V
b
b hc (β)a
b hc (β)a
a0 βb − tn−(K +1);1− α2 · a0 V
2
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Bei der Konstruktion von Konfidenzellipsen bzw. -ellipsoiden ist natürlich
analog eine geeignete Darstellung der F -Statistik (siehe z.B. Folie 267) zu
verwenden, man erhält einen (approximativen) Konfidenzbereich zum
Konfidenzniveau 1 − α also nun (unter Beibehaltung der bisherigen
Bezeichnungen) mit der Menge
h
i−1
b 0
b hc (β)A
c ∈ RL (Aβb − c)0 AV
(Aβb − c) ≤ L · FL,n−(K +1);1−α .
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 269
Heteroskedastische Störgrößen 4.10
Robuste Standardfehler“
”
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Intervallprognosen von y0 gegeben x0 sind nun nicht mehr sinnvoll
durchführbar, da man keine Informationen mehr über die von u0 verursachte
Schwankung von y0 hat!
Ökonometrie (SS 2017)
Folie 270
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler I
Die Verwendung von heteroskedastie-konsistenten Schätzern für die
Standardabweichungen von βbk (bzw. weitergehender die Verwendung eines
b wird
heteroskedastie-konsistenten Schätzers für die Schätzung von V(β))
auch als Verwendung robuster Standardfehler“ bezeichnet.
”
Gängige Statistik-Software erlaubt die Verwendung robuster Standardfehler,
auch wenn standardmäßig in der Regel von homoskedastischen Störgrößen
ausgegangen wird.
In der Statistik-Software R implementiert beispielsweise die Funktion hccm
( heteroscedasticity-corrected covariance matrix“) im Paket car verschiedene
”
b bei den
Varianten heteroskedastie-konsistenter Schätzungen von V(β)
Auswertungen zu linearen Regressionsmodellen.
Die Verwendung robuster Standardfehler trotz homoskedastischer Störgrößen
ist unkritisch. Moderne Lehrbücher empfehlen zunehmend eine generelle
Verwendung robuster Standardfehler.
Ökonometrie (SS 2017)
(Approximative) Intervallprognosen für E(y0 ) gegeben x0 zur
Vertrauenswahrscheinlichkeit 1 − α (auch interpretierbar als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) gegeben x0 ) erhält
man nun in der Gestalt
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
Folie 271
b und V
b im Beispiel von Folie 207:
b β)
b hc1 (β)
Berechnung von V(
> library(car)
> fit
<- lm(Lohnhöhe ~ Ausbildung + Alter)
> print(vcov(fit),digits=6)
# "standard"
(Intercept)
Ausbildung
Alter
(Intercept) Ausbildung
Alter
27051.397
456.8888 -645.7068
456.889
449.0435 -52.7609
-645.707
-52.7609
20.9445
> Vhhc1 <- hccm(fit, type="hc1")
> print(Vhhc1,digits=6)
(Intercept)
Ausbildung
Alter
Ökonometrie (SS 2017)
# "robust"
(Intercept) Ausbildung
Alter
23815.318 -1602.3359 -583.2360
-1602.336
271.0231
26.8099
-583.236
26.8099
16.1392
Folie 272
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler II
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler III
t-Tests auf Signifikanz der einzelnen Koeffizienten:
> print(coeftest(fit))
Die Schätzung unter Zulassung heteroskedastischer Störgrößen führt im
Beispiel zu kleineren p-Werten der Tests auf Signifikanz der einzelnen
Parameter.
# "standard"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
164.4731 6.2491 8.814e-06 ***
Ausbildung
62.5745
21.1906 2.9529 0.008904 **
Alter
10.6020
4.5765 2.3166 0.033265 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> print(coeftest(fit, vcov. = Vhhc1))
Insbesondere ist nun der Koeffizient zum Regressor Ausbildung sogar zum
Signifikanzniveau α = 0.001 bzw. der Koeffizient zum Regressor Alter sogar
zum Signifikanzniveau α = 0.01 signifikant positiv!
Der t-Test zum Test der linearen Hypothese
H0 : β1 − 2 · β2 ≤ 0
# "robust"
t test of coefficients:
H0 : a0 β ≤ c
gegen
H1 : a0 β > c
0
mit a = 0 1 −2 und c = 0 wird im Folgenden statt unter der Annahme
von Homoskedastie der Störgrößen unter Zulassung heteroskedastischer
Störgrößen durchgeführt.
Ökonometrie (SS 2017)
Folie 273
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler IV
= 228.3404
t=q


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
a0 βb − c
41.371 − 0
=√
= 2.7378 .
228.3404
b
b hc1 (β)a
a0 V
Folie 274
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
[
Mit der (bereits auf Folie 218 berechneten) Punktprognose E(y
0 ) = 1680.982
für die erwartete Lohnhöhe eines 38-jährigen Mitarbeiters, der nach dem
Hauptschulabschluss weitere 4 Ausbildungsjahre absolviert hat (also für
0
x0 = 1 4 38 ), erhält man unter Annahme heteroskedastischer
Störgrößen nun mit
b 0= 1
x0 Vhc1 (β)x
0b
4

23815.318
38 −1602.336
−583.236
−1602.336
271.023
26.810
 
−583.236
1
26.810   4  = 2462.304
16.139
38
das Prognoseintervall
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
h
i
√
√
= 1680.982 − 2.1098 · 2462.304 , 1680.982 + 2.1098 · 2462.304
= [1576.29 , 1785.674]
H0 kann nun zum Signifikanzniveau α = 0.05 anders als bei Annahme
homoskedastischer Störgrößen also abgelehnt werden, da
t = 2.7378 ∈ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Beispiel: Robuste Standardfehler V
b wie auf Folie 272 angegeben erhält man nun zunächst
b hc1 (β)
Mit V

 
23815.318 −1602.336 −583.236
0
b = 0 1 −2 −1602.336
b hc1 (β)a
271.023
26.810   1 
a0 V
−583.236
26.810
16.139
−2
1
H1 : β1 − 2 · β2 > 0
bzw.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
154.3221 6.6601 4.021e-06 ***
Ausbildung
62.5745
16.4628 3.8010 0.001428 **
Alter
10.6020
4.0174 2.6390 0.017229 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
und mit a0 βb = 0
gegen
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38. (Intervall bei homoskedastischen Störgrößen: [1565, 1796.964])
Folie 275
Ökonometrie (SS 2017)
Folie 276
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste“ Konfidenzellipse für β1 und β2
”
(Ausschnitt)
^ ^
V(β)
^
^
Vhc1(β)
10
0
5
Alter β2
15
20
4
●
40
60
80
100
Tests auf Heteroskedastie 4.11
Inhaltsverzeichnis
Modell von Folie 207, mit bzw. ohne Verwendung robuster Standardfehler, 1 − α = 0.95
20
4 Multiple lineare Regression
Multiple lineare Regression
Multiples lineares Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Tests einzelner linearer Hypothesen
Konfidenzintervalle für Linearkombinationen
Tests mehrerer linearer Hypothesen
Konfidenzellipsen
Multikollinearität
Heteroskedastische Störgrößen
Tests auf Heteroskedastie
120
Ausbildung β1
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 277
Tests auf Heteroskedastie 4.11
Tests auf Heteroskedastie der Störgrößen
4 Multiple lineare Regression
Folie 278
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test I
Neben dem Ansatz, generell eine heteroskedastie-konsistente Schätzung von
b zu verwenden, besteht auch die Möglichkeit, das Vorliegen von
V(β)
Heteroskedastizität der Störgrößen statistisch zu untersuchen, um dann bei
”
Bedarf“ einen heteroskedastie-konsistenten Schätzer zu verwenden.
Hierzu existieren verschiedene Hypothesentests, deren
Anwendungsmöglichkeiten zum Beispiel davon abhängen, ob man eine
bestimmte Quelle“ für die Heteroskedastie in den Störgrößen angeben kann
”
bzw. vermutet.
In der vorangegangenen Regression (Lohnhöhe regressiert auf Ausbildung
und Alter) könnte man beispielsweise vermuten, dass die Varianz der
Störgrößen dort groß ist, wo auch die Lohnhöhe groß ist.
Ein Test, der in dieser Situation sehr gut geeignet sein kann, ist der
Goldfeld-Quandt-Test.
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Folie 279
Zur (sinnvollen) Anwendung des Goldfeld-Quandt-Tests ist es erforderlich,
dass die Heteroskedastie in den Störgrößen
I
I
von einer beobachteten (und identifizierten) Variablen verursacht wird und
monoton“ in dieser Variablen ist.
”
Die Monotonie“ kann sich auch dahingehend äußern, dass sich bei einem
”
(nur) nominalskalierten Regressor mit zwei Ausprägungen (also z.B. einer
Dummy-Variablen!) die Störgrößenvarianz in der einen Gruppe“ von der in
”
der anderen Gruppe unterscheidet!
Zur Anwendung des Goldfeld-Quandt-Tests ist es bei einer
ordinal-/kardinalskalierten Variablen, die die Störgrößenvarianz monoton“
”
beeinflussen soll, sogar erforderlich, den Datensatz in eine Gruppe von
Beobachtungen mit kleinen“ Ausprägungen und eine weitere Gruppe von
”
Beobachtungen mit großen“ Ausprägungen dieser Variablen aufzuteilen
”
(eventuell unter Auslassung eines Teils der Daten mit mittelgroßen“
”
Ausprägungen dieser Variablen).
Ökonometrie (SS 2017)
Folie 280
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test II
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test III
Das ursprüngliche Regressionsmodell wird dann jeweils getrennt für die
beiden Gruppen A (entspricht ggf. Gruppe mit kleinen“ Ausprägungen) und
”
B (entspricht ggf. Gruppe mit großen“ Ausprägungen) (unter der – für die
”
Durchführung des Tests wenig schädlichen – Annahme von Homoskedastie in
beiden Gruppen) geschätzt.
Die Anwendung des Goldfeld-Quandt-Tests läuft dann auf einen (aus der
Schließenden Statistik bekannten!) F -Test zum Vergleich zweier Varianzen
(unter Normalverteilungsannahme) hinaus.
Unter der Nullhypothese der Homoskedastie sind insbesondere die
Störgrößenvarianzen beider Gruppen, im Folgenden mit σA2 bzw. σB2
bezeichnet, sowohl konstant als auch gleich.
Der Test kann sowohl beidseitig als auch einseitig (links- bzw. rechtsseitig)
durchgeführt werden, so erhält man die folgenden Hypothesenpaare:
H0 : σA2 = σB2
gegen
H1 : σA2 6= σB2
H0 : σA2 ≤ σB2
gegen
H1 : σA2 > σB2
Folie 281
4 Multiple lineare Regression
F =
b0A u
bA /(nA − (K + 1))
SER2A
u
=
b0B u
bB /(nB − (K + 1))
u
SER2B
der Teststatistik, die bei Gültigkeit von σA2 = σB2 eine
F (nA − (K + 1), nB − (K + 1))-Verteilung besitzt.
Insgesamt erhält man die folgende Zusammenfassung des
Goldfeld-Quandt-Tests:
H0 : σA2 ≥ σB2
gegen
H1 : σA2 < σB2
Ökonometrie (SS 2017)
bA bzw. u
bB jeweils den Residuenvektor der Schätzung aus
Bezeichnen u
Gruppe A bzw. B, SERA bzw. SERB jeweils den Standard Error of Regression
(residual standard error) der Schätzung aus Gruppe A bzw. B, nA bzw. nB
die Länge des jeweils zur Schätzung verwendeten (Teil-)Datensatzes für
Gruppe A bzw. B sowie K (wie üblich) die Anzahl (echter) Regressoren, so
erhält man die möglichen Darstellungen
Tests auf Heteroskedastie 4.11
Zusammenfassung: Goldfeld-Quandt-Test (GQ-Test)
Ökonometrie (SS 2017)
Folie 282
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test I
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit E(u) = 0, V(u) Diagonalmatrix aus σA2 , σB2 ,
u normalverteilt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Auswahl von zwei Gruppen
A bzw. B vom Umfang nA bzw. nB aus den Beobachtungen
H0 : σA2 = σB2
H1 : σA2 6= σB2
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
H0 : σA2 ≤ σB2
H1 : σA2 > σB2
F =
b
u0A b
uA /(nA − (K + 1))
SER2A
=
b
uB /(nB − (K + 1))
u0B b
SER2B
Residuenvektoren b
uA bzw. b
uB oder Standard Error of Regression
SERA bzw. SERB aus jeweils separater Modellschätzung
zu den Gruppen A und B
[0, Fn −(K +1),n −(K +1); α )
A
B
(Fn −(K +1),n −(K +1);1−α , ∞)
A
B
[0, Fn −(K +1),n −(K +1);α )
A
B
1 − FF (n −(K +1),n −(K +1)) (F )
A
B
FF (n −(K +1),n −(K +1)) (F )
A
B
∪(Fn −(K +1),n −(K +1);1− α , ∞)
A
B
2
p-Wert
2 · min
n
FF (n −(K +1),n −(K +1)) (F ),
A
B
o
1 − FF (n −(K +1),n −(K +1)) (F )
A
Ökonometrie (SS 2017)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe >
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-488.33 -154.11
F unter H0 für σA2 = σB2 F (nA − (K + 1), nB − (K + 1))-verteilt
2
zum Niveau α
H0 : σA2 ≥ σB2
H1 : σA2 < σB2
Teilt man den Datensatz des Lohnhöhen-Beispiels“ in die beiden Gruppen A“
”
”
zu den 10 höchsten Lohnhöhen und B“ zu den 10 niedrigsten Lohnhöhen auf,
”
so erhält man die folgende Modellschätzung für Gruppe A“:
”
Median
-34.06
3Q
78.62
Max
534.61
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1516.69
561.23
2.702
0.0305 *
Ausbildung
51.87
32.07
1.618
0.1498
Alter
3.20
11.07
0.289
0.7809
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 328 on 7 degrees of freedom
Multiple R-squared: 0.3051,
Adjusted R-squared:
F-statistic: 1.537 on 2 and 7 DF, p-value: 0.2797
0.1066
B
Folie 283
Ökonometrie (SS 2017)
Folie 284
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test II
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test III
Die Schätzung für Gruppe B“ liefert:
”
Die Teststatistik des GQ-Tests erhält man also durch
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe <=
sort(Lohnhöhe)[10])
F =
Residuals:
Min
1Q
-100.381 -27.528
Median
-2.589
3Q
47.221
Max
101.743
Der rechtsseitige Test zum Signifikanzniveau α = 0.05 lehnt mit
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1198.772
108.647 11.034 1.11e-05 ***
Ausbildung
57.711
24.688
2.338
0.052 .
Alter
3.270
3.359
0.973
0.363
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.72 on 7 degrees of freedom
Multiple R-squared: 0.4967,
Adjusted R-squared:
F-statistic: 3.454 on 2 and 7 DF, p-value: 0.09045
K = (F1−α;nA −(K +1),nB −(K +1) , ∞) = (F0.95;7,7 , ∞) = (3.79, ∞)
wegen F ∈ K die Nullhypothese der Homoskedastie der Störgrößen also ab
und entscheidet sich für eine größere Störgrößenvarianz in der Gruppe, die zu
den größeren Lohnhöhen gehört.
0.3529
Ökonometrie (SS 2017)
Folie 285
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test IV
Visualisierung der Abhängigkeit der
b
ui2
3282
= 17.811 .
77.722
Ökonometrie (SS 2017)
Folie 286
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test V
vom Regressor Lohnhöhe und des GQ-Tests
Punktwolke der abhängigen Variablen und der quadrierten Residuen
100000 150000 200000 250000 300000
2
Die Verwendung der Voreinstellung teilt den Datensatz gemäß der Ordnung
einer vorgegebenen Variablen in zwei (möglichst) gleich große Teile und
macht einen einseitigen Test auf positive Abhängigkeit der Störgrößenvarianz
von der vorgegebenen Variablen (wie im Beispiel):
> library(lmtest)
> gqtest(lm(Lohnhöhe~Ausbildung+Alter),order.by=Lohnhöhe)
●
●
Goldfeld-Quandt test
50000
quadrierte Residuen u^i
Schneller lässt sich die Fragestellung mit dem Befehl gqtest aus dem Paket
lmtest bearbeiten.
SER2B
SER2A
●
data: lm(Lohnhöhe ~ Ausbildung + Alter)
GQ = 17.817, df1 = 7, df2 = 7, p-value = 0.00058
●
●
●
●
0
●
1200
●
●
1400
●
●
●
●
●
1600
●
●
1800
●
2000
2200
2400
2600
Lohnhöhe yi
Ökonometrie (SS 2017)
Folie 287
Ökonometrie (SS 2017)
Folie 288
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test I
Breusch-Pagan-Test II
auf Heteroskedastie in den Störgrößen
auf Heteroskedastie in den Störgrößen
Ein weiterer Test auf Heteroskedastie in den Störgrößen ist der
Breusch-Pagan-Test.
Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine
(einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
Vielmehr lässt sich mit dem Breusch-Pagan-Test eine konstante
Störgrößenvarianz σ 2 ≡ σi2 gegen eine recht allgemeine Abhängigkeit der
Störgrößenvarianzen von Q Variablen z1i , z2i , . . . , zQi , i ∈ {1, . . . , n}, in der
Form
σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
(1)
mit einer Funktion h, an die nur moderate Bedingungen gestellt werden
müssen, abgrenzen.
Im Breusch-Pagan-Test entspricht der Fall einer konstanten
Störgrößenvarianz der Nullhypothese
H0 : γ1 = . . . = γQ = 0
⇐⇒
im allgemeineren Varianz-Modell“ aus Formel (1).
”
4 Multiple lineare Regression
Q=K
I
I
Tests auf Heteroskedastie 4.11
zji = xji
für i ∈ {1, . . . , n}, j ∈ {1, . . . , K } .
die Verwendung nicht nur der Regressoren des ursprünglichen Modells, sondern
auch Potenzen hiervon und/oder Produkte verschiedener Regressoren oder
die Verwendung der aus der ursprünglichen Modellschätzung gewonnenen ybi .
Unter dem Namen Breusch-Pagan-Test“ (BP-Test) werden üblicherweise
” Versionen subsumiert, nämlich
zwei unterschiedliche
I
Folie 289
und
Durch die Freiheit bei der Auswahl der Einflussvariablen z1i , z2i , . . . , zQi sind
aber auch zahlreiche Varianten möglich, zum Beispiel
I
σi2 ≡ h(γ0 )
Ökonometrie (SS 2017)
Häufig werden als Variablen z1i , z2i , . . . , zQi gerade wieder die Regressoren
des ursprünglichen Regressionsmodells eingesetzt, es gilt dann also
der ursprüngliche Test von Breusch und Pagan (Econometrica, 1979), der
unabhängig auch von Cook und Weisberg (Biometrika, 1983) vorgeschlagen
wurde, sowie
eine robuste“ Modifikation von Koenker (Journal of Econometrics, 1981), die
”
geeigneter ist, wenn die Störgrößen nicht normalverteilt sind.
Ökonometrie (SS 2017)
Folie 290
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test III
Breusch-Pagan-Test IV
auf Heteroskedastie in den Störgrößen
auf Heteroskedastie in den Störgrößen
Für beide Versionen des BP-Tests ist dann die Hilfsregression
Beide Versionen des BP-Tests sind als Score-Test“ konzipiert, die
”
Teststatistik lässt sich jedoch jeweils leicht auf Basis von
(OLS-)Schätzergebnissen einer (linearen) Hilfsregression berechnen.
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei ,
bi die Residuen aus der Schätzung des auf heteroskedastische
Sind u
Störgrößen zu untersuchenden
linearen Modells und RSS die Residual Sum of
Pn
b0 u
b), so benötigt man als abhängige Variable
bi2 = u
Squares (mit RSS = i=1 u
der Hilfsregression die gemäß
wi :=
n 2
n 2
b =
b
u
u
b0 u
b i
u
RSS i
für i ∈ {1, . . . , n}
standardisierten“ quadrierten Residuen wi .
”
Ökonometrie (SS 2017)
(per OLS-/KQ-Methode) zu schätzen.
Im ursprünglichen BP-Test erhält man die unter der Nullhypothese
näherungsweise χ2 (Q)-verteilte Teststatistik dann als die Hälfte der
b
Explained Sum of Squares“ der Hilfsregression, mit der Bezeichnung
ei
Pn
”
für die Residuen der Hilfsregression und der Abkürzung w = n1 i=1 wi also
zum Beispiel unter Verwendung von ESS = TSS − RSS durch
!
!!
n
n
X
X
1
2
2
2
b
χ = ·
(wi − w ) −
ei
.
2
i=1
Folie 291
i ∈ {1, . . . , n},
Ökonometrie (SS 2017)
i=1
Folie 292
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Breusch-Pagan-Test V
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Original“)
”
auf Heteroskedastie in den Störgrößen
auf Heteroskedastizität der Störgrößen
In der robusteren Version von Koenker erhält man die unter der
Nullhypothese ebenfalls näherungsweise χ2 (Q)-verteilte Teststatistik als
n-faches multiples Bestimmtheitsmaß der Hilfsregression, es gilt also
2
χ =n·
RH2
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
mit der Bezeichnung RH2 für das Bestimmtheitsmaß der Hilfsregression.
Teststatistik
Offensichtlich kann (nur) bei Verwendung der Version von Koenker auf die
Standardisierung der quadrierten Residuen der ursprünglichen
Modellschätzung verzichtet werden und die Hilfsregression auch direkt mit
bi2 durchgeführt werden, da dies das
der abhängigen Variablen u
Bestimmtheitsmaß nicht ändert (wohl aber die ESS!).
Verteilung (H0 )
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
!
!!
n
n
X
X
1
2
2
2
b
(wi − w ) −
ei
χ = ·
2
i=1
i=1
χ2 ist approx. χ2 (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
Benötigte Größen
Kritischer Bereich
zum Niveau α
b
bn )0 = y − X(X0 X)−1 X0 y, wi =
u = (b
u1 , . . . , u
b
ei die Residuen der Hilfsregression
wi = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
Folie 293
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Breusch-Pagan-Test ( Koenker“)
”
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
χ2 = n · RH2
χ ist approx. χ (Q)-verteilt, falls σi2 ≡ h(γ0 ) konstant.
0
−1
0
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
White hat in seiner Arbeit von 1980 (Econometrica) nicht nur
heteroskedastie-konsistente Schätzverfahren, sondern auch einen Test auf
Heteroskedastie in den Störgrößen vorgeschlagen.
Es zeigt sich, dass der White-Test auf heteroskedastische Störgrößen ein
Spezialfall der Koenker“-Version des Breusch-Pagan-Tests ist.
”
Konkret erhält man den White-Test bei der Durchführung eines
Breusch-Pagan-Tests nach Koenker, wenn man als Einflussvariablen zqi für
die Varianz der Störgrößen gerade
2
0
Folie 294
auf Heteroskedastie in den Störgrößen
H0 : γ1 = . . . = γQ = 0 ⇐⇒ σi2 ≡ h(γ0 )
H1 : γq 6= 0 für mindestens ein q ∈ {1, . . . , Q}
2
Ökonometrie (SS 2017)
White-Test
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, Q Einflussvariablen
z1i , . . . , zQi , σi2 = h(γ0 + γ1 · z1i + . . . + γQ · zQi )
Nullhypothese
Gegenhypothese
(χ2Q;1−α , ∞)
1 − Fχ2 (Q) (χ2 )
p-Wert
Ökonometrie (SS 2017)
n
b2 ,
u
b
u0 b
u i
I
RH2
b
bn ) = y − X(X X) X y,
u = (b
u1 , . . . , u
das Bestimmtheitsmaß
bi2 = γ0 + γ1 · z1i + . . . + γQ · zQi + ei
der Hilfsregression u
(χ2Q;1−α , ∞)
I
I
alle Regressoren, zusätzlich
alle quadrierten Regressoren sowie zusätzlich
alle gemischten Produkte von Regressoren
des ursprünglichen Modells wählt.
In einem Modell mit 2 Regressoren wäre also die Hilfsregression
bi2 = γ0 + γ1 x1i + γ2 x2i + γ3 x1i2 + γ4 x2i2 + γ5 x1i x2i + ei
u
1 − Fχ2 (Q) (χ2 )
durchzuführen.
Ökonometrie (SS 2017)
Folie 295
Ökonometrie (SS 2017)
Folie 296
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test I
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test II
Im Folgenden werden zwei Varianten des Breusch-Pagan-Test am bereits
mehrfach verwendeten Lohnhöhen“-Beispiel illustriert.
”
bi2 der ursprünglichen Regression
Ausgehend von den quadrierten Residuen u
der Lohnhöhe auf die beiden Regressoren Ausbildung und Alter (sowie ein
Absolutglied) werden für die Original“-Version des Breusch-Pagan-Tests
”
bi2 berechnet:
zunächst die standardisierten quadrierten Residuen wi = bun0bu u
> uhat <- residuals(lm(Lohnhöhe~Ausbildung+Alter))
> w
<- uhat^2/mean(uhat^2)
Als
Summe
der quadrierten Abweichungen vom arithmetischen Mittel
Pn
(w
−
w
)2 der wi (also als TSS der folgenden Hilfsregression!) erhält
i
i=1
man:
> sum((w-mean(w))^2)
Werden als Einflussvariablen für die Varianz der Störgrößen die beiden
ursprünglichen Regressoren Ausbildung und Alter gewählt, ist dann die
Hilfsregression
wi = γ0 + γ1 Ausbildungi + γ2 Alteri + ei
zu schätzen und die zugehörige RSS zu bestimmen, man erhält
> sum(residuals(lm(w~Ausbildung+Alter))^2)
[1] 45.76786
und damit (gerundet) die Teststatistik
!
!!
n
n
X
X
1
1
2
2
2
b
χ = ·
(wi − w ) −
ei
= (72.666 − 45.768) = 13.449 .
2
2
i=1
i=1
Ein Vergleich zum kritischen Wert χ22;0.95 = 5.991 bei einem Test zum Niveau
α = 0.05 erlaubt die Ablehnung der Nullhypothese und damit den Schluss auf
das Vorliegen von Heteroskedastie in den Störgrößen.
[1] 72.66564
Ökonometrie (SS 2017)
Folie 297
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test III
Ökonometrie (SS 2017)
Folie 298
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test IV
Wird in der beschriebenen Situation ein White-Test durchgeführt, so muss
eine der Hilfsregressionen
bi2 = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2i
u
Man erhält als OLS-Schätzergebnis:
Call:
lm(formula = uhat^2 ~ Ausbildung + Alter + I(Ausbildung^2) +
I(Alter^2) + I(Ausbildung * Alter))
Residuals:
Min
1Q
-104762 -17524
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
oder
Median
-9639
3Q
29687
Max
78007
Coefficients:
wi = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 ·
Ausbildung2i
+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei
durchgeführt werden.
In der Statistik-Software R müssen diese Rechenoperationen“ von
”
Regressoren bei der Modellformulierung in den Befehl I()“ eingeschlossen
”
werden, da ^“ und *“ bei der Notation von Modellgleichungen andere
”
”
Bedeutungen haben!
Ökonometrie (SS 2017)
4 Multiple lineare Regression
Folie 299
Estimate Std. Error t value Pr(>|t|)
(Intercept)
5778.593 125459.783
0.046
0.9639
Ausbildung
-5788.874 23416.039 -0.247
0.8083
Alter
-6.682
6568.457 -0.001
0.9992
I(Ausbildung^2)
-6319.607
2139.021 -2.954
0.0105 *
I(Alter^2)
-58.640
92.777 -0.632
0.5375
I(Ausbildung * Alter)
1826.589
549.299
3.325
0.0050 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 58820 on 14 degrees of freedom
Multiple R-squared: 0.7093,
Adjusted R-squared:
F-statistic: 6.831 on 5 and 14 DF, p-value: 0.002013
Ökonometrie (SS 2017)
0.6055
Folie 300
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Breusch-Pagan-Test/White-Test V
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Inhaltsverzeichnis
(Ausschnitt)
Unter Verwendung des Bestimmtheitsmaßes dieser Hilfsregression ergibt sich
χ2 = n · RH2 = 20 · 0.7093 = 14.186 > χ25;0.95 = 11.07, also wird auch hier
zum Niveau α = 0.05 signifikante Heteroskedastie in den Störgrößen
festgestellt.
Schneller: mit dem Befehl bptest() im Paket lmtest:
I
Original“-Breusch-Pagan-Test (1. Beispiel):
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),studentize=FALSE)
Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 13.449, df = 2, p-value = 0.001201
I
5
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
White“- bzw. Koenker“-Variante (2. Beispiel):
”
”
> bptest(lm(Lohnhöhe~Ausbildung+Alter),
+ ~Ausbildung+Alter+I(Ausbildung^2)+I(Alter^2)+I(Ausbildung*Alter))
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 14.186, df = 5, p-value = 0.01447
Ökonometrie (SS 2017)
Folie 301
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren I
Im bisher betrachteten linearen Regressionsmodell
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
∂y
= βk .
∂xk
Nichtlinearität in den Regressoren 5.1
Bereits im White-Test verwendet: Regressionsfunktion“
”
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
die zwar linear in den Regressionsparametern β0 , . . . , β5 , aber nichtlinear in
den Regressoren x1 und x2 ist.
Der marginale Effekt einer Änderung von x1 auf y beträgt hier beispielsweise
(abhängig vom Wert der Regressoren x1 und x2 !)
∂y
= β1 + 2β3 x1 + β5 x2 .
∂x1
Allgemein betrachten wir nun Regressionsmodelle, die sich in der Form
g (yi ) = β0 +β1 h1 (x1i , . . . , xKi )+. . .+βM hM (x1i , . . . , xKi )+ui ,
Die hier als marginaler Effekt“ einer Änderung von xk auf y interpretierbare
”
(partielle) Ableitung ist also konstant und damit insbesondere unabhängig
von xk (sowie unabhängig von anderen Variablen).
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
i ∈ {1, . . . , n},
hängt y also linear von jedem Regressor xk (k ∈ {1, . . . , K }) ab, denn es gilt
bzw.
Folie 302
Nichtlinearität in den Regressoren II
Eine Variable y hängt linear von einer Variablen x ab, wenn der
Differenzenquotient bzw. die Ableitung bzgl. dieser Variablen konstant ist,
wenn also
∂y
∆y
=c
bzw.
=c
∆x
∂x
für eine Konstante c ∈ R gilt.
∆y
= βk
∆xk
Ökonometrie (SS 2017)
Folie 303
i ∈ {1, . . . , n},
mit M Transformationen h1 , . . . , hM der K Regressoren und (ggf.) einer
Transformation g der abhängigen Variablen darstellen lassen.
Ökonometrie (SS 2017)
Folie 304
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren III
h1 (x1n , . . . , xKn )
···
Weitere Beispiele für Modelle mit Regressionsfunktionen, die nichtlinear in
den (ursprünglichen) Regressoren xk sind:
1
2
3
4
5
hM (x1n , . . . , xKn )
Unabhängig von der konkreten Form der Regressionsfunktion muss (wie auch
bisher!) die Korrektheit der Spezifikation der Regressionsfunkion gewährleistet
sein, um die Ergebnisse der Schätzung überhaupt sinnvoll verwerten zu können!
Im Folgenden werden zunächst Regressionsfunktionen untersucht, die nur von
einer unabhängigen Variablen x1 abhängen (wie in den Beispielen 1 – 4 ).
e 0 e −1 e 0
Xe
y.
Ökonometrie (SS 2017)
Folie 305
5 Nichtlineare Regressionsfunktionen
yi = β0 + β1 x1i + β2 x1i2 + ui ,
yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
yi = β0 + β1 ln(x1i ) + ui ,
ln(yi ) = β0 + β1 x1i + ui ,
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui .
Wichtig!
mit vollem Spaltenrang M + 1 führen, bleiben die bisher besprochenen
Eigenschaften der OLS-/KQ-Schätzung dieses Modells bestehen.
Bezeichnet e
y := (g (y1 ), . . . , g (yn ))0 den transformierten (bzw. – falls
g (y ) = y für alle y ∈ R gilt – untransformierten) Vektor der abhängigen
Variable, erhält man beispielsweise den KQ-Schätzer als
βb = (X X)
Nichtlinearität in den Regressoren 5.1
Nichtlinearität in den Regressoren IV
Unter den üblichen Annahmen an die Störgrößen ui und unter der
Voraussetzung, dass die Transformationen h1 , . . . , hM zu einer neuen“
”
Regressormatrix


1 h1 (x11 , . . . , xK 1 ) · · · hM (x11 , . . . , xK 1 )
1 h1 (x12 , . . . , xK 2 ) · · · hM (x12 , . . . , xK 2 )

e := 
X
 ..

..
..
.

.
.
1
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Ökonometrie (SS 2017)
Folie 306
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle I
Polynomiale Modelle II
in nur einer Variablen x1
in nur einer Variablen x1
Die Modelle aus
1
bzw.
2
,
yi = β0 + β1 x1i + β2 x1i2 + ui
bzw. yi = β0 + β1 x1i + β2 x1i2 + β3 x1i3 + ui ,
sind Beispiele für polynomiale Modelle (in einer Variablen) der Form
Konfidenzintervalle für die marginalen Effekte an einem vorgegebenen Wert
x1 des Regressors können dann als Konfidenzintervalle für
Linearkombinationen a0 β bestimmt werden, wenn der Vektor a ∈ Rr +1
(abhängig von x1 ) entsprechend gewählt wird, im polynomialen Modell mit
Polynomgrad r also als
yi = β0 + β1 x1i + β2 x1i2 + . . . + βr x1ir + ui
zu vorgegebenem Grad r ∈ {2, 3, . . .} des Polynoms.
In polynomialen Modellen (in einer Variablen) sind die marginalen Effekte
einer Änderung von x1 auf y gegeben durch
∂y
= β1 + 2β2 x1 + . . . + r βr x1r −1
∂x1
a= 0
1
2x1
...
rx1r −1
0
.
Bei einer sehr großen Wahl von r besteht die Gefahr des Overfittings“: Sind
”
bei einer Punktwolke“ aus n Beobachtungen (x1i , yi ) alle xi unterschiedlich,
”
so kann die Punktwolke durch ein Polynom vom Grad r = n − 1 perfekt
interpoliert“ werden!
”
In der Praxis finden sich häufig polynomiale Modelle mit r = 2 oder r = 3.
und damit insbesondere nicht konstant, sondern abhängig vom Regressor x1 .
Ökonometrie (SS 2017)
Folie 307
Ökonometrie (SS 2017)
Folie 308
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Polynomiale Modelle III
(Semi-)logarithmische Modelle I
in nur einer Variablen x1
in nur einer Variablen x1
Gelegentlich wird – unter der Annahme, dass die wahre Regressionsfunktion
ein Polynom von unbekanntem Grad ist – zunächst ein Modell mit großem“
”
r geschätzt und dann sukzessive mit Hilfe von t-Tests überprüft, ob βr
signifikant von Null verschieden ist, um ggf. den Grad r des Polynoms in der
Regressionsfunktion um 1 zu reduzieren.
Log-Transformationen von x1i in ln(x1i ) und/oder yi in ln(yi ) bieten sich
dann an, wenn anstelle der Annahme eines konstanten Effekts ∆y = β1 ∆x1
von absoluten Änderungen ∆x1 auf absolute Änderungen ∆y eher dann ein
konstanter Effekt β1 erwartet wird, wenn relative, prozentuale Änderungen
∆y
1
bei der Ursache ( ∆x
x1 ) und/oder bei der abhängigen Variablen ( y )
betrachtet werden.
Die Nullhypothese eines linearen Zusammenhangs gegen die Alternative eines
polynomialen Zusammenhangs (mit Polynomgrad r ≥ 2) kann offensichtlich
durch einen F -Test mit
Grundlage dafür ist
H0 : β2 = . . . = βr = 0
Ökonometrie (SS 2017)
Folie 309
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
=
1
x
bzw.
∆x
∆x
≈
, wenn |∆x| |x|.
ln(x + ∆x) − ln(x) = ln 1 +
x
x
überprüft werden.
Natürlich können Tests bzw. Konfidenzintervalle auch unter der Annahme
heteroskedastischer Störgrößen durchgeführt werden, wenn die entsprechende
b der Varianz-Kovarianzmatrix
b hc (β)
heteroskedastie-konsistente Schätzung V
b
V(β) und die dafür geeigneten Darstellungen der jeweiligen Tests verwendet
werden.
∂ ln(x)
∂x
Abhängig davon, ob nur die unabhängige Variable, nur die abhängige Variable
oder beide Variablen transformiert werden, sind die folgenden Spezifikationen
möglich:
Ökonometrie (SS 2017)
Folie 310
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle II
(Semi-)logarithmische Modelle III
in nur einer Variablen x1
in nur einer Variablen x1
1
Linear-log-Spezifikation:
2
Log-linear-Spezifikation:
yi = β0 + β1 ln(x1i ) + ui .
ln(yi ) = β0 + β1 x1i + ui .
Konstanter Effekt β1 der relativen Änderung von x1 auf eine absolute
Änderung von y , bzw. abnehmender marginaler Effekt bei steigendem x:
∆y ≈ β1
Konstanter Effekt β1 der absoluten Änderung von x1 auf eine relative
Änderung von y , bzw. steigender marginaler Effekt bei steigendem y :
∂y
β1
∆x1
bzw.
=
x1
∂x1
x1
∆y
∂y
≈ β1 ∆x1 bzw.
= β1 y
y
∂x1
Bsp.: x1i Düngemitteleinsatz, yi Ernteertrag (auf Feld i).
I
I
Bsp.: x1i Berufserfahrung von BWL-Absolventen (in Jahren), yi Einkommen.
Eine (relative) Erhöhung des Düngemitteleinsatzes um 1% erhöht den
(absoluten) Ernteertrag (etwa) um 0.01 · β1 .
Eine (absolute) Erhöhung des Düngemitteleinsatzes um einen Betrag ∆x1 hat
dort mehr Wirkung, wo noch nicht so viel Dünger eingebracht wurde
( abnehmende Grenzerträge“).
”
Ökonometrie (SS 2017)
Folie 311
I
I
Ein Jahr zusätzliche Berufserfahrung erhöht danach das mittlere Einkommen
um etwa 100β1 %.
Eine (absolute) Erhöhung der Berufserfahrung hat also einen höheren
(absoluten) Effekt auf das Einkommen dort, wo das Einkommen ohnehin
bereits ein höheres Niveau hatte.
Ökonometrie (SS 2017)
Folie 312
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle IV
(Semi-)logarithmische Modelle V
in nur einer Variablen x1
in nur einer Variablen x1
3
Log-log-Spezifikation:
Anmerkungen zu Log-transformierten abhängigen Variablen (ln(y ))
ln(yi ) = β0 + β1 ln(x1i ) + ui .
Konstanter Effekt β1 (=Elastizität) der relativen Änderung von x1 auf eine
relative Änderung von y :
Insbesondere Log-log-Spezifikationen können bei der sog. Linearisierung“ von
”
Regressionsmodellen entstehen, die zunächst nichtlinear (auch!) in den
Regressionsparametern sind, zum Beispiel erhält man aus dem Modell (hier:
mit mehreren Regressoren)
yi = β0 · x1iβ1 · x2iβ2 · e ui ,
∆y
∆x1
∂y x1
≈ β1
bzw.
= β1
y
x1
∂x1 y
durch Logarithmieren auf beiden Seiten mit
Bsp.: x1i Kapitaleinsatz pro Arbeitskraft, yi Output pro Arbeitskraft.
I
I
ein linearisiertes“ Modell.
”
Folie 313
5 Nichtlineare Regressionsfunktionen
i ∈ {1, . . . , n}.
ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui ,
Erhöhung des per-capita-Kapitaleinsatzes um 1% führt zur Erhöhung des
per-capita-Output um β1 % (Cobb-Douglas-Produktionsfunktion).
Modellierung von konstanten Skalenerträgen“.
”
Ökonometrie (SS 2017)
i ∈ {1, . . . , n},
Nichtlinearität in einer Variablen 5.2
(Semi-)logarithmische Modelle VI
Ökonometrie (SS 2017)
Folie 314
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen I
in nur einer Variablen x1
Bei der Prognose von y0 gegeben x0 bzw. der Bestimmung von ybi auf Basis
von Modellen mit log-tranformierter abhängiger Variablen ln(y ) ist zu
beachten, dass wegen E (e ui ) 6= e E(ui ) trotz der Annahme E(ui ) ≡ 0 im
iid
Allgemeinen E (e ui ) 6= 1 = e 0 gilt. Für ui ∼ N(0, σ 2 ) gilt insbesondere
E (e ui ) = e
σ2
2
iid
, damit erhält man für ln(yi ) = h(x1i ) + ui mit ui ∼ N(0, σ 2 )
E(yi ) = E e ln(yi ) = E e h(x1i )+ui = E e h(x1i ) · e ui
= e h(x1i ) · E (e ui ) = e h(x1i ) · e
σ2
2
> e h(x1i ) .
Wenn die abhängige Variable y in ln(y ) transformiert wird, kann man das
Bestimmtheitsmaß für die geschätzte Regression nicht sinnvoll mit dem
Bestimmtheitsmaß einer Regressionsgleichung für y vergleichen!
(Anteil der erklärten Varianz der ln(yi ) vs. Anteil der erklärten Varianz der yi )
Ökonometrie (SS 2017)
Folie 315
Im Folgenden soll am Beispiel der Abhängigkeit der Milchleistung von Kühen
von der zugeführten Futtermenge die Schätzung einiger in den Regressoren
nichtlinearer Modelle illustriert werden.
Es liege hierzu folgender Datensatz vom Umfang n = 12 zu Grunde:
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
i
Milchleistung (Liter/Jahr) yi
Futtermenge (Zentner/Jahr) x1i
1
2
3
4
5
6
6525
10
8437
30
8019
20
8255
33
5335
5
7236
22
7
8
9
10
11
12
5821
8
7531
14
8320
25
4336
1
7225
17
8112
28
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 14.1)
Es wird nacheinander die Gültigkeit einer linearen, quadratischen, kubischen,
linear-log-, log-linear- bzw. log-log-Spezifikation unterstellt und das
zugehörige Modell geschätzt (unter Homoskedastieannahme).
Ökonometrie (SS 2017)
Folie 316
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen II
Quadratisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + ui
Call:
lm(formula = Milch ~ Futter + I(Futter^2))
Call:
lm(formula = Milch ~ Futter)
3Q
353.4
Residuals:
Min
1Q
-699.14 -135.47
Max
880.9
Folie 317
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen IV
Call:
lm(formula = Milch ~ Futter + I(Futter^2) + I(Futter^3))
Median
5.13
3Q
202.86
Max
490.67
0.9384
Ökonometrie (SS 2017)
Folie 318
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen V
Kubisches Modell: Milchi = β0 + β1 Futteri + β2 Futter2i + β3 Futter3i + ui
Residuals:
Min
1Q
-641.92 -117.82
3Q
179.63
Residual standard error: 329.9 on 9 degrees of freedom
Multiple R-squared: 0.9496,
Adjusted R-squared:
F-statistic: 84.74 on 2 and 9 DF, p-value: 1.452e-06
0.8421
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Median
-2.44
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4109.445
290.487 14.147 1.87e-07 ***
Futter
271.393
38.626
7.026 6.14e-05 ***
I(Futter^2)
-4.432
1.087 -4.076 0.00277 **
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4985.27
312.84 15.935 1.95e-08 ***
Futter
118.91
15.39
7.725 1.60e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 527.9 on 10 degrees of freedom
Multiple R-squared: 0.8565,
Adjusted R-squared:
F-statistic: 59.68 on 1 and 10 DF, p-value: 1.597e-05
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen III
Lineares Modell: Milchi = β0 + β1 Futteri + ui
Residuals:
Min
1Q Median
-768.2 -275.0 -115.6
5 Nichtlineare Regressionsfunktionen
Linear-log-Modell: Milchi = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = Milch ~ log(Futter))
Residuals:
Min
1Q
-635.74 -287.21
Max
447.31
Median
33.02
3Q
373.09
Max
517.67
Coefficients:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
3818.3
358.2 10.660 8.82e-07 ***
log(Futter)
1268.8
130.1
9.754 2.00e-06 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3954.93841 389.73064 10.148 7.61e-06 ***
Futter
327.00926
97.73076
3.346
0.0101 *
I(Futter^2)
-8.50791
6.63147 -1.283
0.2354
I(Futter^3)
0.07951
0.12747
0.624
0.5502
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 341.7 on 8 degrees of freedom
Multiple R-squared: 0.9519,
Adjusted R-squared:
F-statistic: 52.79 on 3 and 8 DF, p-value: 1.29e-05
Ökonometrie (SS 2017)
Residual standard error: 429.8 on 10 degrees of freedom
Multiple R-squared: 0.9049,
Adjusted R-squared:
F-statistic: 95.14 on 1 and 10 DF, p-value: 1.996e-06
0.9339
Folie 319
Ökonometrie (SS 2017)
0.8954
Folie 320
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VI
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Beispiel zur Nichtlinearität in einer Variablen VII
Log-linear-Modell: ln(Milchi ) = β0 + β1 Futteri + ui
Log-log-Modell: ln(Milchi ) = β0 + β1 ln(Futteri ) + ui
Call:
lm(formula = log(Milch) ~ Futter)
Call:
lm(formula = log(Milch) ~ log(Futter))
Residuals:
Min
1Q
Median
-0.16721 -0.03642 -0.01678
3Q
0.05692
Residuals:
Min
1Q
Median
-0.076867 -0.028385 -0.004122
Max
0.14677
3Q
0.049235
Max
0.066730
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.523601
0.055220 154.358 < 2e-16 ***
Futter
0.018315
0.002717
6.741 5.1e-05 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.32264
0.04468 186.29 < 2e-16 ***
log(Futter) 0.20364
0.01622
12.55 1.91e-07 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.09318 on 10 degrees of freedom
Multiple R-squared: 0.8196,
Adjusted R-squared: 0.8016
F-statistic: 45.44 on 1 and 10 DF, p-value: 5.098e-05
Residual standard error: 0.0536 on 10 degrees of freedom
Multiple R-squared: 0.9403,
Adjusted R-squared: 0.9343
F-statistic: 157.5 on 1 and 10 DF, p-value: 1.912e-07
Ökonometrie (SS 2017)
Folie 321
5 Nichtlineare Regressionsfunktionen
Nichtlinearität in einer Variablen 5.2
Geschätzte Regressions-/Prognosefunktionen I
Lineares Modell
●
0
15
20
25
Linear−log−Modell
●
●
●
●
Milch
●
30
●
●
●
●
●
●
15
20
25
0.0
1.0
1.5
2.0
2.5
Futter
log(Futter)
Log−log−Modell
log(Milch)
●
●
8.4
●
●
10
15
Futter
20
25
30
●
●
3.0
●
●
3.5
●
9.0
●
●
●
●
8.8
●
●
●
●
●●
●
●
●
●
8.6
●
●
●
●
5
0.5
Log−linear−Modell
●
8.8
30
●
5000
10
9.0
5
●
●
●
●
●
5000
●
●
●
Milch
●
●
7000
7000
10
Kubisches Modell
●
8.6
5
Futter
●
5000
Milch
30
●
log(Milch)
8000
25
●
●
7000
20
Futter
●
Linear
Quadratisch
Kubisch
Linear−log
Log−linear
Log−log
●
6000
Milch
15
●
8.4
Vergleich der Prognosefunktionen
●
5000
10
●
Ökonometrie (SS 2017)
●
●
●
●
5
Nichtlinearität in einer Variablen 5.2
●
7000
7000
●
0
●
●
●
●
●
0
5 Nichtlineare Regressionsfunktionen
Geschätzte Regressions-/Prognosefunktionen II
●
●
●
5000
Milch
●
●
●
0
Folie 322
Quadratisches Modell
●
●
●
●
Ökonometrie (SS 2017)
●
0
●
0.0
0.5
1.0
1.5
2.0
2.5
3.0
5
10
15
20
25
30
3.5
Futter
log(Futter)
Folie 323
Ökonometrie (SS 2017)
Folie 324
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen I
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Modelle mit Interaktionsvariablen II
Wir betrachten nun die folgenden drei Fälle:
In der beim White-Test verwendeten Regressionsfunktion
1
2
y = β0 + β1 x1 + β2 x2 + β3 x12 + β4 x22 + β5 x1 x2 ,
3
Erinnerung: Dummyvariablen (auch 0,1-Indikatorvariablen genannt, im
Folgenden auch mit dk statt xk bezeichnet) sind Regressoren, die nur die
Werte 0 und 1 annehmen.
Der Wert 1 einer Dummyvariablen dki kennzeichnet bei einem betrachteten
Datenpunkt i in der Regel
ist – anders als bei den bisher näher betrachteten polynomialen oder
(semi-)log-Modellen – der marginale Effekt einer Änderung von x1 auf y
∂y
= β1 + 2β3 x1 + β5 x2
∂x1
I
nicht nur von der betrachteten Stelle x1 des 1. Regressors, sondern auch vom
Wert x2 des 2. Regressors abhängig!
Ursächlich hierfür ist die Verwendung des Produkts x1 · x2 als unabhängige
Variable. Man bezeichnet solche Produkte als Interaktionsvariablen oder
Interaktionsterme.
Ökonometrie (SS 2017)
Folie 325
5 Nichtlineare Regressionsfunktionen
Interaktion von zwei Dummyvariablen
Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen
Interaktion von zwei kardinalskalierten Variablen
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen I
I
das Vorhandensein eines gewissen Charakteristikums/einer gewissen
Eigenschaft bzw.
die Zugehörigkeit zu einer gewissen Gruppe.
Der Wert 1 eines Produkts dki · dli von zwei Dummyvariablen dk und dl tritt
also bei den Datenpunkten i auf, bei denen beide Charakteristika bzw.
Gruppenzugehörigkeiten gleichzeitig vorliegen.
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Die Einführung einer zusätzlichen Interaktionsvariablen d1i d2i ist hier
gleichbedeutend damit, dass für Männer und Frauen das Basiseinkommen
(Absolutglied) und der Effekt des akademischen Grades unterschiedlich sein
können:
Beispiel: Betrachte das Modell
yi = β0 + β1 d1i + β2 d2i + β3 d1i d2i + ui
i ∈ {1, . . . , n},
⇐⇒
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von
I
I
30-jährigen Frauen (d2i = 1) und Männern (d2i = 0)
mit akademischem Grad (d1i = 1) und ohne akademischen Grad (d1i = 0).
I
das Basiseinkommen (Absolutglied) für Männer (β0 ) und Frauen (β0 + β2 )
unterschiedlich, aber
der Effekt eines abgeschlossenen Studiums für Männer und Frauen gleich (β1 ).
Ökonometrie (SS 2017)
Folie 327
yi =
(
β0
+
β1 d1i
+
ui , falls i männlich
(β0 + β2 )
+
(β1 + β3 )d1i
+
ui , falls i weiblich
In diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
I
In dieser Spezifikation ist
I
Modelle mit Interaktionen 5.3
Interaktion von zwei Dummyvariablen II
Interaktionsvariablen zu 2 Dummyvariablen sind also beispielsweise dann in
ein Modell aufzunehmen, wenn der Effekt der Zugehörigkeit zu einer Gruppe
nicht unabhängig vom Vorliegen eines weiteren Charakteristikums ist.
yi = β0 + β1 d1i + β2 d2i + ui ,
Folie 326
I
das Basiseinkommen geschlechtsabhängig ist (H1 : β2 6= 0),
der Effekt des akademischen Grades geschlechtsabhängig ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem (gemeinsam)
überprüft werden, ob das Geschlecht in dem Modell irgendeinen Einfluss auf
das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 328
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion einer kardinalskalierten mit einer Dummyvariablen I
5 Nichtlineare Regressionsfunktionen
Interaktion einer kardinalskalierten mit einer Dummyvariablen II
Eine Interaktionsvariable zu einer kardinalskalierten und einer
Dummyvariablen ist dann in ein Modell aufzunehmen, wenn der Effekt einer
kardinalskalierten Variablen nicht unabhängig vom Vorliegen eines bestimmten
Charakteristikums bzw. der Zugehörigkeit zu einer bestimmten Gruppe ist.
Die Einführung einer zusätzlichen Interaktionsvariablen x1i d2i sorgt hier
dafür, dass für Nichtakademiker und Akademiker das Basiseinkommen
(Absolutglied) und der Effekt der Berufserfahrung unterschiedlich sein
können:
yi = β0 + β1 x1i + β2 d2i + β3 x1i d2i + ui
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 d2i + ui ,
i ∈ {1, . . . , n},
⇐⇒
yi =
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
I
I
das Basiseinkommen (Absolutglied) der Nichtakademiker (β0 ) und der
Akademiker (β0 + β2 ) unterschiedlich, aber
der Effekt eines Jahres Berufserfahrung für Nichtakademiker und Akademiker
gleich (β1 ).
Ökonometrie (SS 2017)
Folie 329
5 Nichtlineare Regressionsfunktionen
(
β0
+
β1 x1i
+ ui ,
falls i Nichtakademiker
(β0 + β2 )
+
(β1 + β3 )x1i
+ ui ,
falls i Akademiker
Auch in diesem Modell kann man mit (jeweils) einem t-Test überprüfen, ob
mit (d2i = 1) und ohne (d2i = 0) akademischen Grad
mit einer Anzahl von x1i Jahren an Berufserfahrung.
In dieser Spezifikation ist
I
Modelle mit Interaktionen 5.3
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen I
I
das Basiseinkommen vom Vorhandensein eines akademischen Grads abhängt
(H1 : β2 6= 0),
der Effekt der Berufserfahrung für Nichtakademiker und Akademiker
unterschiedlich ist (H1 : β3 6= 0).
Mit einem F -Test (H1 : (β2 , β3 )0 6= (0, 0)0 ) kann außerdem wiederum
(gemeinsam) überprüft werden, ob das Vorhandensein eines akademischen
Grads in dem Modell irgendeinen Einfluss auf das Monatseinkommen hat.
Ökonometrie (SS 2017)
Folie 330
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Interaktion von zwei kardinalskalierten Variablen II
Eine Interaktionsvariable zu zwei kardinalskalierten Variablen ist dann in ein
Modell aufzunehmen, wenn der Effekt einer kardinalskalierten Variablen nicht
unabhängig vom Wert einer anderen kardinalskalierten Variablen ist.
Die Einführung einer zusätzlichen Interaktionsvariablen x1i x2i sorgt hier
dafür, dass der Effekt eines (zusätzlichen) Jahres an Berufserfahrung bzw.
Ausbildungszeit jeweils abhängig vom Niveau der anderen Variablen sein kann.
Für die Regressionsfunktion
y = β0 + β1 x1 + β2 x2 + β3 x1 x2
Beispiel: Betrachte das Modell
yi = β0 + β1 x1i + β2 x2i + ui ,
zum Modellansatz
i ∈ {1, . . . , n},
yi = β0 + β1 x1i + β2 x2i + β3 x1i x2i + ui ,
z.B. zu einer Stichprobe von Monatseinkommen (yi ) von Männern
I
I
mit einer Anzahl von x1i Jahren an Berufserfahrung und
einer Ausbildungszeit von x2i Jahren.
gilt nämlich:
∂y
= β1 + β3 x2
∂x1
In dieser Spezifikation ist
I
I
der Effekt eines (zusätzlichen) Jahres an Berufserfahrung unabhängig von der
Ausbildungszeit gleich β1 und
der Effekt eines (zusätzlichen) Jahres an Ausbildungszeit unabhängig von der
Berufserfahrung gleich β2 .
Ökonometrie (SS 2017)
i ∈ {1, . . . , n},
Folie 331
sowie
∂y
= β2 + β3 x1
∂x2
In diesem Modell kann mit einem t-Test überprüft werden, ob tatsächlich
eine signifikante Interaktion vorliegt und der Effekt eines (zusätzlichen)
Jahres an Berufserfahrung bzw. Ausbildungszeit jeweils abhängig vom Niveau
der anderen Variablen ist.
Ökonometrie (SS 2017)
Folie 332
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen I
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen II
Im Lohnhöhenbeispiel“ wurde bisher als Modell
”
Lohnhöhei = β0 + β1 Ausbildungi + β2 Alteri + ui
Die Schätzung bei Hinzunahme einer Interaktionsvariablen für die
Regressoren Ausbildung und Alter ergibt (unter Annahme
homoskedastischer Störgrößen):
angenommen, mit dem folgenden Schätzergebnis (unter Annahme
homoskedastischer Störgrößen):
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + I(Ausbildung * Alter))
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
Residuals:
Min
1Q
-470.03 -128.21
Residuals:
Min
1Q
-569.50 -120.79
Coefficients:
Median
-5.14
3Q
73.12
Max
519.26
0.5956
0.6007
Folie 333
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen III
Ökonometrie (SS 2017)
Folie 334
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IV
b ändert die
b hc1 (β))
Auch die Verwendung robuster Standardfehler (V
Schätzergebnisse nicht wesentlich:
Betrachte nun die folgende Ergänzung“ des Datensatzes um die
”
Dummyvariablen Weiblich (mit Wert 1 für weibliche und 0 für männliche
Betriebsangehörige) sowie Stamm (mit Wert 1 für Beschäftigte mit über 25
Jahren Betriebszugehörigkeit, 0 sonst) zum Lohnhöhenbeispiel:
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.9240
257.6594 3.1744 0.005885 **
Ausbildung
128.6496
83.6652 1.5377 0.143669
Alter
15.7637
6.8998 2.2847 0.036323 *
I(Ausbildung * Alter) -1.4143
1.9546 -0.7236 0.479787
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
Die Berechnung der Varianzinflationsfaktoren offenbart“ das entstandene
”
Multikollinearitätsproblem:
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
Weiblich d3i
Stamm d4i
> library(car)
> vif(lm(Lohnhöhe~Ausbildung+Alter+I(Ausbildung*Alter)))
Ökonometrie (SS 2017)
Max
541.43
Residual standard error: 238.9 on 16 degrees of freedom
Multiple R-squared: 0.6595,
Adjusted R-squared:
F-statistic: 10.33 on 3 and 16 DF, p-value: 0.0005041
Ökonometrie (SS 2017)
Ausbildung
18.757206
3Q
61.99
Estimate Std. Error t value Pr(>|t|)
(Intercept)
817.924
288.786
2.832
0.0120 *
Ausbildung
128.650
77.493
1.660
0.1164
Alter
15.764
7.422
2.124
0.0496 *
I(Ausbildung * Alter)
-1.414
1.595 -0.887
0.3883
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427,
Adjusted R-squared:
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Median
-29.24
Alter I(Ausbildung * Alter)
3.688704
27.428395
Folie 335
Ökonometrie (SS 2017)
1
2
3
4
5
6
7
8
9
10
1250
1
28
1
0
1950
9
34
0
0
2300
11
55
0
0
1350
3
24
1
0
1650
2
42
0
0
1750
1
43
0
0
1550
4
37
1
0
1400
1
18
0
0
1700
3
63
1
0
2000
4
58
0
1
11
12
13
14
15
16
17
18
19
20
1350
1
30
1
0
1600
2
43
0
0
1400
2
23
0
0
1500
3
21
0
0
2350
6
50
0
0
1700
9
64
1
1
1350
1
36
1
0
2600
7
58
0
1
1400
2
35
1
0
1550
2
41
0
0
Folie 336
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen V
Eine Modellschätzung mit der zusätzlichen Dummyvariablen Weiblich ergibt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Stamm)
Median
-1.91
3Q
64.44
Residuals:
Min
1Q
-341.81 -63.29
Max
499.54
Residual standard error: 244.4 on 16 degrees of freedom
Multiple R-squared: 0.6435,
Adjusted R-squared:
F-statistic: 9.626 on 3 and 16 DF, p-value: 0.0007201
Folie 337
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VII
Folie 338
5 Nichtlineare Regressionsfunktionen
Residuals:
Min
1Q
-202.67 -76.43
Modelle mit Interaktionen 5.3
Median
-4.51
3Q
18.03
Max
325.65
Coefficients:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1164.906
147.862
7.878 1.04e-06 ***
Ausbildung
49.484
16.931
2.923 0.01050 *
Alter
11.416
4.095
2.788 0.01379 *
Weiblich
-312.513
85.926 -3.637 0.00243 **
Stamm
24.423
145.819
0.167 0.86922
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Ökonometrie (SS 2017)
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Stamm))
Max
402.17
Residual standard error: 184 on 15 degrees of freedom
Multiple R-squared: 0.8105,
Adjusted R-squared:
F-statistic: 16.04 on 4 and 15 DF, p-value: 2.7e-05
0.7746
Variante I: Hinzufügen der Interaktion von Weiblich und Stamm:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
3Q
55.61
Max
415.58
Beispiel: Modelle mit Interaktionen VIII
Eine Modellschätzung mit den zusätzlichen Dummyvariablen Stamm und
Weiblich ergibt:
Median
-19.96
3Q
54.66
Residual standard error: 178.3 on 16 degrees of freedom
Multiple R-squared: 0.8102,
Adjusted R-squared:
F-statistic: 22.76 on 3 and 16 DF, p-value: 5.128e-06
0.5766
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
Median
-23.10
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1153.784
128.038
9.011 1.15e-07 ***
Ausbildung
49.842
16.277
3.062 0.00745 **
Alter
11.754
3.452
3.405 0.00362 **
Weiblich
-312.816
83.257 -3.757 0.00172 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1044.204
191.386
5.456 5.28e-05 ***
Ausbildung
62.034
22.017
2.818
0.0124 *
Alter
10.110
5.418
1.866
0.0805 .
Stamm
35.620
193.640
0.184
0.8564
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residuals:
Min
1Q
-352.78 -63.15
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen VI
Eine erste Modellschätzung mit der zusätzlichen Dummyvariablen Stamm
ergibt:
Residuals:
Min
1Q
-585.19 -120.69
5 Nichtlineare Regressionsfunktionen
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1084.687
112.439
9.647 1.46e-07 ***
Ausbildung
64.889
13.324
4.870 0.000248 ***
Alter
11.007
3.054
3.604 0.002877 **
Weiblich
-200.118
71.233 -2.809 0.013922 *
Stamm
220.038
121.483
1.811 0.091603 .
I(Weiblich * Stamm) -693.032
192.232 -3.605 0.002869 **
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 137.2 on 14 degrees of freedom
Multiple R-squared: 0.9018,
Adjusted R-squared:
F-statistic: 25.7 on 5 and 14 DF, p-value: 1.375e-06
0.76
Folie 339
Ökonometrie (SS 2017)
0.8667
Folie 340
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen IX
5 Nichtlineare Regressionsfunktionen
Beispiel: Modelle mit Interaktionen X
Breusch-Pagan-Test (nach Koenker) im ursprünglichen Modell:
Variante II: Hinzufügen der Interaktion von Weiblich und Ausbildung:
studentized Breusch-Pagan test
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung))
data: lm(Lohnhöhe ~ Ausbildung + Alter)
BP = 7.4032, df = 2, p-value = 0.02468
Residuals:
Min
1Q
-160.32 -86.44
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen:
studentized Breusch-Pagan test
studentized Breusch-Pagan test
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm + I(Weiblich *
BP = 6.9717, df = 5, p-value = 0.2228
Ökonometrie (SS 2017)
Folie 341
Modelle mit Interaktionen 5.3
Beispiel: Modelle mit Interaktionen XI
Stamm))
Pr(>|t|)
6.22e-07
0.000517
0.003220
0.719016
0.238484
0.009436
***
***
**
**
0.1 ' ' 1
Residual standard error: 148.5 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.52 on 5 and 14 DF, p-value: 4.073e-06
0.8437
Ökonometrie (SS 2017)
Folie 342
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
Die Berechnung der Varianzinflationsfaktoren offenbart“ erneut ein
”
Multikollinearitätsproblem:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm +
I(Weiblich * Ausbildung) + I(Weiblich * Alter))
3Q
68.58
Max
305.85
Beispiel: Modelle mit Interaktionen XII
Variante III: Hinzufügen der Interaktion von Weiblich und Ausbildung
sowie von Weiblich und Alter :
Median
-21.72
3Q
69.83
Estimate Std. Error t value
(Intercept)
1061.933
124.133
8.555
Ausbildung
65.991
14.724
4.482
Alter
11.725
3.306
3.547
Weiblich
-41.731
113.671 -0.367
Stamm
154.349
125.352
1.231
I(Weiblich * Ausbildung) -81.946
27.259 -3.006
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen und
Interaktionsterm:
Residuals:
Min
1Q
-170.48 -79.35
Median
-23.71
Coefficients:
data: lm(Lohnhöhe ~ Ausbildung + Alter + Weiblich + Stamm)
BP = 9.6253, df = 4, p-value = 0.04724
5 Nichtlineare Regressionsfunktionen
Modelle mit Interaktionen 5.3
> vif(lm(Lohnhöhe~Ausbildung+Alter+Weiblich+Stamm+
+
I(Weiblich*Ausbildung)+I(Weiblich*Alter)))
Max
283.54
Ausbildung
Alter
1.930386
3.270178
Stamm I(Weiblich * Ausbildung)
2.062336
5.837059
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
986.879
153.018
6.449 2.17e-05 ***
Ausbildung
61.942
15.604
3.970
0.0016 **
Alter
14.159
4.386
3.228
0.0066 **
Weiblich
114.977
216.239
0.532
0.6039
Stamm
114.635
134.825
0.850
0.4106
I(Weiblich * Ausbildung) -60.144
37.519 -1.603
0.1329
I(Weiblich * Alter)
-5.713
6.681 -0.855
0.4080
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Weiblich
9.985942
I(Weiblich * Alter)
18.249808
Die Hinzunahme von Interaktionstermen (und anderen in den Regressoren
nichtlinearen Variablen) lässt insgesamt eine sehr flexible Modellbildung zu.
Die Schätzungenauigkeiten (z.B. Standardfehler) werden aber (insbesondere –
wie im Beispiel – bei Schätzung auf Basis kleiner Datensätze) mit
zunehmender Variablenanzahl tendenziell immer größer!
Residual standard error: 149.9 on 13 degrees of freedom
Multiple R-squared: 0.891,
Adjusted R-squared: 0.8407
F-statistic: 17.71 on 6 and 13 DF, p-value: 1.448e-05
Ökonometrie (SS 2017)
Folie 343
Ökonometrie (SS 2017)
Folie 344
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Inhaltsverzeichnis
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle I
(Ausschnitt)
Ein Spezialfall von Modellen mit Dummyvariablen – insbesondere auch in
Interaktionstermen – sind sogenannte Strukturbruchmodelle.
5
Als Strukturbruch wird eine (abrupte) Änderung der Parameterstruktur (im
Ganzen oder in Teilen) bezeichnet. Strukturbruchmodelle erlauben diese
Änderung der Parameterstruktur im Rahmen des formulierten Modells.
Die Änderung eines oder mehrerer Regressionsparameter kann dabei zum
Beispiel
Nichtlineare Regressionsfunktionen
Nichtlinearität in den Regressoren
Nichtlinearität in einer Variablen
Modelle mit Interaktionen
Strukturbruchmodelle
I
I
beim Wechsel zwischen verschiedenen Gruppen des Datensatzes oder
insbesondere bei Zeitreihendaten beim Wechsel zwischen verschiedenen
Zeiträumen
auftreten.
Wird die mögliche Änderung der Parameter nicht in einem entsprechenden
Strukturbruchmodell zugelassen, sondern stattdessen von konstanten
Parametern ausgegangen, handelt es sich im Fall eines tatsächlich
vorliegenden Strukturbruchs um eine Annahmeverletzung, welche die
Schätzergebnisse (des dadurch fehlspezifizierten Modells) oft unbrauchbar
macht.
Ökonometrie (SS 2017)
Folie 345
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle II
∅ 6= I(1) ( {1, . . . , n}
I(2) = {1, . . . , n}\I(1)
und
partitioniert.
Die möglichen Parameterunterschiede in den beiden Phasen/Gruppen können
offensichtlich durch eine getrennte Schätzung der beiden Regressionsmodelle
(1)
βK xKi
i ∈ I(1) ,
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
i ∈ I(2) ,
(2)
+
(2)
+ ... +
Strukturbruchmodelle 5.4
(2)
Mit einer die Gruppen-/Phasenzugehörigkeit beschreibenden Dummyvariablen
(
0 falls i ∈ I(1)
di :=
1 falls i ∈ I(2)
lassen sich die beiden Einzelschätzungen alternativ jedoch auch ein in einem
(größeren) Strukturbruchmodell der Gestalt
(1)
(1)
(1)
i ∈ {1, . . . , n},
mit 2K + 2 Regressionsparametern subsummieren, wobei zwischen den
Parametern dann die Beziehung
(2)
berücksichtigt werden.
(Die Rangbedingung an die Regressormatrix muss für beide Modelle erfüllt
bleiben, insbesondere folgen hieraus Mindestgrößen von I(1) und I(2) !)
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
yi = β0 +δ0 di +β1 x1i +δ1 di x1i +. . .+βK xKi +δK di xKi +ui ,
+ ui ,
yi =
und
(1)
β1 x1i
Folie 346
Strukturbruchmodelle III
Zur Formulierung eines einfachen Strukturbruchmodells mit zwei Phasen (1)
und (2) oder Gruppen (1) und (2) seien die Indizes {1, . . . , n} der n
Datenpunkte gemäß der beiden Phasen/Gruppen durch die Mengen
(1)
β0
Ökonometrie (SS 2017)
Folie 347
(1)
δ k = βk − βk
bzw.
(2)
(1)
βk = βk + δk
für
k ∈ {0, . . . , K }
gilt.
Ökonometrie (SS 2017)
Folie 348
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle IV
I
t-Tests auf Signifikanz einzelner Parameter δk , k ∈ {0, . . . , K }, also
H1 : δk 6= 0, sowie
F -Tests auf Signifikanz von mindestens einem der Parameter δ0 , δ1 , . . . , δK ,
also H1 : δk 6= 0 für mind. ein k ∈ {0, . . . , K },
denn wegen der bereits skizzierten Parameterzusammenhänge gilt
δk = 0
⇐⇒
(1)
(2)
βk = βk
für alle k ∈ {0, . . . , K } .
Je nachdem, ob von homoskedastischen oder heteroskedastischen Störgrößen
ausgegangen werden soll, sind die entsprechenden Darstellungen der
jeweiligen Tests zu verwenden.
Ökonometrie (SS 2017)
Folie 349
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Strukturbruchmodelle VI
j=1
I(j) = {1, . . . , n}
Für die Durchführung des F -Tests auf Signifikanz von mindestens einem der
Parameter δ0 , δ1 , . . . , δK besteht bei Annahme homoskedastischer Störgrößen
die Möglichkeit, das ursprüngliche Modell
yi = β0 + β1 x1i + . . . + βK xKi + ui
ohne die Strukturbruchkomponente
I
I
einmal für den Gesamtdatensatz (i ∈ {1, . . . , n}) als restringiertes Modell
sowie zusätzlich
jeweils einmal für die Phasen/Gruppen (i ∈ I(1) bzw. i ∈ I(2) ) (als insgesamt
unrestringiertes Modell)
zu schätzen und die (Gesamt-)Summen der Residuenquadrate in der
entsprechenden Darstellung der F -Statistik aus Folie 236 einzusetzen.
(Beispiel:
Übungsblatt)
Zu beachten ist dabei, dass die übrigen Ergebnisse dieser Hilfsregressionen“
”
nur teilweise sinnvoll zu interpretieren sind!
Ökonometrie (SS 2017)
Folie 350
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell I
Strukturbruchmodelle sind auch für komplexere Situationen konstruierbar,
insbesondere wenn mehr als zwei Gruppen/Phasen betrachtet werden sollen.
Dazu ist dann eine allgemeinere Partitionierung der Beobachtungen
{1, . . . , n} in M Teilmengen I(1) , . . . , I(M) mit den Eigenschaften
M
[
Strukturbruchmodelle 5.4
Strukturbruchmodelle V
Aus den Ergebnissen einer OLS-/KQ-Schätzung des Strukturbruchmodells
lassen sich dann mit t-Tests bzw. F -Tests Rückschlüsse auf das (tatsächliche)
Vorliegen von Parameterunterschieden ziehen.
Relevant sind hierbei insbesondere
I
5 Nichtlineare Regressionsfunktionen
und
I(j) ∩ I(l) = ∅ für j 6= l
Für ein Modell, welches im Lohnhöhenbeispiel unterschiedliche Parameter für
männliche und weibliche Betriebsangehörige zulässt, erhält man:
Call:
lm(formula = Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich *
Ausbildung) + Alter + I(Weiblich * Alter))
Residuals:
Min
1Q
-184.63 -77.76
Median
-12.46
3Q
52.31
Max
308.12
Coefficients:
durchzuführen.
Während wir Strukturbruchmodelle als Spezialfall von Modellen mit
Dummyvariablen betrachten, werden (in der Literatur) gelegentlich auch
Modelle mit Dummyvariablen als spezielle Strukturbruchmodelle aufgefasst.
Estimate Std. Error t value
(Intercept)
930.154
136.338
6.822
Weiblich
142.514
211.674
0.673
Ausbildung
60.334
15.335
3.934
I(Weiblich * Ausbildung) -45.101
32.756 -1.377
Alter
16.196
3.637
4.453
I(Weiblich * Alter)
-7.669
6.209 -1.235
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
8.29e-06 ***
0.511736
0.001497 **
0.190171
0.000546 ***
0.237113
0.1 ' ' 1
Residual standard error: 148.4 on 14 degrees of freedom
Multiple R-squared: 0.8849,
Adjusted R-squared:
F-statistic: 21.53 on 5 and 14 DF, p-value: 4.056e-06
Ökonometrie (SS 2017)
Folie 351
Ökonometrie (SS 2017)
0.8438
Folie 352
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell II
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell III
Eine Schätzung des Strukturbruchmodells unter Annahme heteroskedastischer
b liefert:
b hc1 (β))
Störgrößen (und Verwendung von V
Obwohl unter Annahme homoskedastischer Störgrößen kein einziger der
Strukturbruchparameter“ δk signifikant (α = 0.05) von Null verschieden ist,
”
erhält man zum F -Test für die (gemeinsame) Nullhypothese
t test of coefficients:
Estimate Std. Error t value
(Intercept)
930.1539
132.1236 7.0400
Weiblich
142.5142
146.5563 0.9724
Ausbildung
60.3345
16.1410 3.7380
I(Weiblich * Ausbildung) -45.1015
20.2299 -2.2294
Alter
16.1964
3.7428 4.3273
I(Weiblich * Alter)
-7.6693
4.1761 -1.8365
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
Pr(>|t|)
5.865e-06
0.3473445
0.0022052
0.0426748
0.0006959
0.0876084
das Ergebnis (Befehl linearHypothesis im R-Paket car):
***
Linear hypothesis test
**
*
***
.
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
0.1 ' ' 1
Zum Niveau α = 0.05 ist nun wenigstens der Koeffizient zur Interaktion von
Weiblich mit Ausbildung, zum Niveau α = 0.10 darüberhinaus der zur
Interaktion von Weiblich mit Alter signifikant von Null verschieden.
Ökonometrie (SS 2017)
5 Nichtlineare Regressionsfunktionen
H0 : δ0 = δ1 = δ2 = 0
Folie 353
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell IV
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
17 957698
2
14 308438 3
649260 9.8233 0.0009567 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
Folie 354
5 Nichtlineare Regressionsfunktionen
Strukturbruchmodelle 5.4
Beispiel: Strukturbruchmodell V
Dass die einzelnen t-Tests die jeweilige Nullhypothese nicht ablehnen können,
scheint zumindest teilweise durch ein Multikollinearitätsproblem im
Strukturbruchmodell begründet zu sein, für die Varianz-Inflations-Faktoren
erhält man:
Eine Durchführung des F -Tests unter Annahme heteroskedastischer
b liefert ein ähnliches Resultat:
b hc1 (β))
Störgrößen (bei Verwendung von V
Linear hypothesis test
Weiblich
9.761929
Alter
2.293787
Hypothesis:
Weiblich = 0
I(Weiblich * Ausbildung) = 0
I(Weiblich * Alter) = 0
Ausbildung I(Weiblich * Ausbildung)
1.902040
4.539092
I(Weiblich * Alter)
16.084175
Nicht uninteressant ist das Resultat des Breusch-Pagan-Tests (nach Koenker)
im Strukturbruchmodell, bei dem die Regressoren des Strukturbruchmodells
auch für die Hilfsregression verwendet werden:
Model 1: restricted model
Model 2: Lohnhöhe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +
Alter + I(Weiblich * Alter)
Note: Coefficient covariance matrix supplied.
studentized Breusch-Pagan test
Res.Df Df
F
Pr(>F)
1
17
2
14 3 11.485 0.0004565 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2017)
data: fit
BP = 10.089, df = 5, p-value = 0.07275
Die Evidenz für heteroskedastische Störgrößen ist also im
Strukturbruchmodell erheblich schwächer als im urspünglichen Modell.
Folie 355
Ökonometrie (SS 2017)
Folie 356
6 Validität
6 Validität
Validität von Schlussfolgerungen einer Regressionsstudie
Interne Validität
Damit die interne Validität gewährleistet ist, müssen insbesondere
Aussagen und Schlussfolgerungen zu Kausalwirkungen, die auf Basis einer
Regressionsstudie gezogen werden, haben generell nicht den Status von
Beweisen, wie z.B. die Ableitung von Eigenschaften von Schätzfunktionen
(Konsistenz, Erwartungstreue, Effizienz, asymptotische Normalverteilung) aus
Modellannahmen.
I
I
I
Bei der Einschätzung der Validität einer Regressionsstudie unterscheidet man
zwischen interner und externer Validität.
Im Folgenden (zum Teil Wiederholung):
Exemplarische Auflistung einiger Konstellationen, unter denen notwendige
Annahmen für die Konsistenz und Unverzerrtheit der Koeffizientenschätzer βb
verletzt werden.
Externe Validität bezieht sich hingegen auf die Gültigkeit von
verallgemeinernden Aussagen, die Ergebnisse auf andere Populationen und
Rahmenbedingungen übertragen.
6 Validität
Folie 357
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer I
1
Ökonometrie (SS 2017)
6 Validität
I
I
I
Welche mit xk korrelierten Einflüsse sind unberücksichtigt?
Gibt es eventuell Daten der fehlenden Variablen?
Gibt es wenigstens Kontrollvariablen“, deren Aufnahme in das Modell den
”
omitted variable bias reduziert?
Muss eventuell auf eine andere Datenerhebung (Paneldaten, Randomisierung)
oder ein anderes Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden?
Ökonometrie (SS 2017)
Folie 358
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer II
Fehlende Variablen führen – wie bereits diskutiert – zur Verzerrung des
OLS-Schätzers, wenn sie nicht nur die abhängige Variable y beeinflussen,
sondern auch mit dem relevanten Regressor xk , ggf. auch mit mehreren
Regressoren, korreliert sind (
omitted variable bias“). Grund dafür ist die
Verletzung der Annahme E(u) =” 0. Daher sollte schon vor der
Regressionsanalyse überlegt werden:
I
die Ursache-Wirkung-Beziehungen korrekt spezifiziert sein,
die relevanten Koeffizienten unverzerrt und konsistent geschätzt werden und
bei Verwendung von Konfidenzintervallen und Hypothesentests auch die
Standardfehler bzw. die Varianz-Kovarianzmatrix der Koeffizientenschätzer
konsistent geschätzt werden.
Verschiedene Verletzungen von Modellannahmen können die interne Validität
gefährden bzw. machen zumindest besondere Maßnahmen erforderlich, um
die interne Validität zu erhalten.
Interne Validität bezieht sich dabei auf die Gültigkeit von Aussagen über die
Population, aus der die Stichprobe für die Regressionsstudie stammt.
Ökonometrie (SS 2017)
Interne Validität 6.1
Folie 359
Bei der Aufnahme zusätzlicher Variablen ist zu beachten, dass
I
I
2
die Aufnahme zusätzlicher Variablen auch einen Preis hat, nämlich die
Erhöhung der Varianzen der OLS-Schätzer. Es ist also abzuwägen, ob die
Reduktion von Verzerrung die Verringerung der Präzision aufwiegt.
in der Präsentation der Ergebnisse einer Regressionsstudie nicht nur die
Ergebnisse der letztlich favorisierten Spezifikation mit zusätzlichen Variablen
angegeben werden sollten, sondern auch die der alternativen Regressionen.
Fehlspezifikation der funktionalen Form der Regressionsfunktion führt
dazu, dass der (möglicherweise vom xk -Niveau abhängige) marginale Effekt
von xk auf y auch bei großer Stichprobe verzerrt geschätzt wird.
( korrekte Spezifikation eventuell durch einen nichtlinearen Ansatz)
Ökonometrie (SS 2017)
Folie 360
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer III
3
I
wird der zugehörige Koeffizient βk systematisch betragsmäßig unterschätzt,
I
kann die Verzerrung ohne Probleme korrigiert werden, wenn das Verhältnis σ2k
ε
bekannt ist,
muss ansonsten auf andere Schätzverfahren (Instrumentalvariablenschätzung)
zurückgegriffen werden.
σx2
Ökonometrie (SS 2017)
Folie 361
6 Validität
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer V
x1i
= β0 + β1 x1i + β2 x2i + ui und
= γ0 + γ1 yi + γ3 x3i + vi .
Wenn die Stichprobenauswahl von den y −Werten abhängig ist, z.B.
wenn – beabsichtigt oder unbeabsichtigt – Beobachtungen ausgeschlossen
werden, bei denen yi unterhalb eines Schwellenwerts liegt, ist der
OLS-Schätzer verzerrt und inkonsistent (
sample selection bias“).
”
Schätzverfahren, die in dieser Situation konsistent sind, bauen auf
Maximum-Likelihood-Verfahren in Modellen mit binären abhängigen
Variablen auf.
5
Simultane Kausalität von xk nach y und von y nach xk führt dazu, dass
der Regressor xk (der dann auch nicht mehr als deterministische Größe
betrachtet werden kann, sondern als Zufallsvariable aufgefasst werden muss!)
mit der Störgröße korreliert und der OLS-Schätzer verzerrt und inkonsistent
ist (
simultaneous equation bias“).
”
Ökonometrie (SS 2017)
6 Validität
Folie 362
Interne Validität 6.1
Wenn die Standardfehler nicht mit einem konsistenten Schätzverfahren
berechnet wurden, sind darauf beruhende Konfidenzintervalle und Tests nicht
mehr valide.
Die Konsistenz der geschätzten Standardfehler hängt davon ab, welche
Annahmen bezüglich der Varianzen und Kovarianzen der Störgrößen adäquat
sind.
Wie bereits hervorgehoben wurde, wird man oft von Heteroskedastizität
ausgehen müssen, in diesem Fall sind nur die entsprechenden robusten
Standardfehler konsistent.
Die konsistente Schätzung in simultanen Gleichungssystemen spielte eine
dominierende Rolle in der Entwicklung der Ökonometrie, vor allem im
Kontext makroökonomischer Modelle.
Ein Lösungsansatz ist die Instrumentalvariablenschätzung.
Ökonometrie (SS 2017)
4
Konsistenz der Standardfehler der OLS-Schätzung
Die Situation simultaner Kausalität kann formalisiert erfasst werden, indem
zur Regressionsbeziehung für den Einfluss von xk auf y eine weitere Gleichung
für eine umgekehrte Regressionsbeziehung formuliert wird, also ein
interdependentes System simultaner Regressionsgleichungen, z.B.
yi
Interne Validität 6.1
Konsistenz/Unverzerrtheit der Koeffizientenschätzer IV
Messfehler in den erklärenden Variablen führen dazu, dass die
OLS-Schätzung nicht konsistent ist.
Im klassischen Fehler-in-den-Variablen-Modell wird angenommen, dass
anstelle des tatsächlichen Regressors xki die Variable x̃ki = xki + εi verwendet
wird, wobei angenommen wird, dass die Messfehler εi unabhängig identisch
verteilt sind mit Erwartungswert Null und Varianz σε2 , unkorreliert mit xki und
mit der Störgröße ui . In diesem Fall
I
6 Validität
Darüberhinaus wurden Schätzer der Varianzen der OLS-Schätzer entwickelt,
die auch bei korrelierten Störgrößen konsistent sind.
Korrelation in den Störgrößen tritt insbesondere dann häufig auf, wenn es
sich bei den untersuchten Daten um Zeitreihendaten handelt.
Folie 363
Ökonometrie (SS 2017)
Folie 364
Herunterladen