Okonometrie Organisatorisches I

Werbung
Ökonometrie
Vorlesung an der Universität des Saarlandes
Dr. Martin Becker
Sommersemester 2014
Ökonometrie (SS 2014)
1 Einleitung
Folie 1
Organisatorisches 1.1
Organisatorisches I
Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.18
Übung: Dienstag, 12:15-13:45 Uhr, Gebäude B4 1, HS 0.18, Beginn: 22.04.
Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum)
Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 26.05. (15 Uhr)!
(Abmeldung im ViPa bis 10.07., 12 Uhr)
Hilfsmittel für Klausur
I
I
I
Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit
”
2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig)
Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung!
Durchgefallen — was dann?
I
I
Nachprüfung“ Ende März/Anfang April 2015 (2. Prüfungszeitraum)
”
ab Sommersemester 2015: ???
Ökonometrie (SS 2014)
Folie 2
1 Einleitung
Organisatorisches 1.1
Organisatorisches II
Informationen und Materialien unter
http://www.lehrstab-statistik.de
bzw. genauer
http://www.lehrstab-statistik.de/oekoss2014.html .
Kontakt: Dr. Martin Becker
Geb. C3 1, 2. OG, Zi. 2.17
e-Mail: [email protected]
Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)
Vorlesungsunterlagen
I
I
I
Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters)
Eventuell Vorlesungsfolien der Veranstaltung von Prof. Friedmann aus SS 2013
Download spätestens Dienstags, 19:00 Uhr, vor der Vorlesung möglich
Ökonometrie (SS 2014)
1 Einleitung
Folie 3
Organisatorisches 1.1
Organisatorisches III
Übungsunterlagen
I
I
I
I
Übungsblätter (i.d.R. wöchentlich)
Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich
Besprechung der Übungsblätter in der Übung der folgenden Woche.
Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!
Im Sommersemester 2014 sehr spezielle Situation (Makro...)
I
I
I
I
I
Beginn ausnahmsweise mit Wiederholung statistischer Grundlagen.
Dadurch Wegfall einiger regulärer Inhalte.
Alte Klausuren nur eingeschränkt relevant.
Wiederholung nur lückenhaft und wenig formal möglich!
Je nach Kenntnisstand: Eigene Wiederholung statistischer Grundlagen
z.B. aus den jeweiligen Veranstaltungsfolien nötig!
Ökonometrie (SS 2014)
Folie 4
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2014)
Folie 5
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Lage- und Streuungsmaße eindimensionaler Daten
Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten)
x1 , . . . , xn der Länge n.
Daten sollen auf wenige Kennzahlen“ verdichtet werden.
”
Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also
”
arithmetisches Mittel“ x mit:
”
n
1
1X
x := (x1 + x2 + · · · + xn ) =
xi
n
n
i=1
Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen
Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie
deren (positive) Wurzel (empirische Standardabweichung) sX mit:
!
n
n
X
X
p
1
1
2 !
sX2 :=
(xi − x) =
xi2 − x 2 =: x 2 − x 2 ,
sX = + sX2
n
n
i=1
i=1
Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,
daher i.d.R. besser zu interpretieren als Varianz sX2 .
Ökonometrie (SS 2014)
Folie 6
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten I
Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten
Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der
Länge n (also n Datenpaare)
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zu einem zweidimensionalen Merkmal (X , Y ) vorliegt.
Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von
Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind!
Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der
eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst
die empirische Kovarianz sX ,Y mit:
!
n
n
X
1X
1
!
sX ,Y :=
(xi − x)(yi − y ) =
xi · yi − x · y =: xy − x · y
n
n
i=1
i=1
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 7
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten II
Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man
darauf aufbauend den empirischen (Bravais-)Pearsonschen
Korrelationskoeffizienten rX ,Y mit:
sX ,Y
rX ,Y :=
sX · sY
Es gilt stets −1 ≤ rX ,Y ≤ 1.
rX ,Y misst lineare Zusammenhänge, spezieller gilt
I
I
I
rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“),
”
”
rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“),
”
”
|rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.
rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene
Merkmalsausprägungen besitzen.
Ökonometrie (SS 2014)
Folie 8
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Beispiel: Empirischer Pearsonscher Korrelationskoeffizient
rX, Y = 0
20
●
●
●
●
●
●
●
●
●
●
●
8
15
●
●
●
80
●
●
●
●
●
●
●
●
●
4
●
●
●
40
●
●
6
●
Y
●
●
●
●
●
Y
●
10
●
60
●
●
Y
rX, Y = −1
10
100
rX, Y = 1
●
●
●
●
●
●
●
●
0
5
10
15
20
5
●
●
15
20
10
15
rX, Y = 0.9652
rX, Y = 0.1103
rX, Y = −0.837
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
●
●
●
4.0
●
●
● ●
●
●
●
●
8
●
Y
10
●
●
●
●
Y
5.0
15
●
●
●
●
●
●
10
●
●
●
●
●
●
●
2
●
3.0
●
●
5
10
15
20
20
●
●
6
●
6.0
20
●
12
X
●
0
5
X
●
Y
●
●
10
●
5
● ● ●
X
●
●
●
●
●
●
●
●
●
2
●
5
●
20
●
●
5
10
X
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
X
15
20
●
●
●
5
10
15
●
20
X
Folie 9
Wahrscheinlichkeitsrechnung 2.2
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2014)
Folie 10
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen I
(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)
Abbildungen X : Ω → R von Ergebnismengen Ω eines
Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen.
Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten
bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet
werden.
Wir fassen eine Zufallsvariable auf als eine Variable“,
”
I
I
I
die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,
deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem
”
zufälligen, meist wiederholbarem Vorgang abhängen,
über deren Werteverteilung“ man allerdings Kenntnisse hat
”
( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte
( Schließende Statistik).
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 11
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen II
Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in
mehrere Typen
Diskrete Zufallsvariablen X :
I
I
Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte
annehmen.
Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert
werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.
Stetige Zufallsvariablen X :
I
I
I
Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen)
annehmen.
Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit
deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann,
dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.
Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!
Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.
Ökonometrie (SS 2014)
Folie 12
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen III
Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X
Werte in einer bestimmten Menge A annimmt, können konkreter
I
bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche
Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch
X
P{X ∈ A} =
pX (xi )
xi ∈A
I
bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b]
oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX
durch
Z
b
P{X ∈ A} =
fX (x)dx
a
berechnet werden.
Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle
Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R
festgelegt.
Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt
Verteilungsfunktion von X .
Ökonometrie (SS 2014)
Folie 13
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen I
Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)
entsprechen Momente von Zufallsvariablen.
Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung
auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht
existieren, Existenzfragen hier aber vollkommen ausgeklammert!)
Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X :
Erwartungswert bzw. auch Mittelwert µX := E(X )
I
Berechnung bei diskreter Zufallsvariablen X durch:
X
E(X ) =
xi · pX (xi )
xi ∈T (X )
I
(wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet).
Berechnung bei stetiger Zufallsvariablen X durch:
Z ∞
E(X ) =
x · fX (x)dx
−∞
Ökonometrie (SS 2014)
Folie 14
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen II
Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen
p X:
2
Varianz σX := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ),
die sog. Standardabweichung von X , mit
h
i
!
2
Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2
I
Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch:
X 2
E(X 2 ) =
xi · pX (xi )
xi ∈T (X )
I
Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch:
Z ∞
2
E(X ) =
x 2 · fX (x)dx
−∞
Ökonometrie (SS 2014)
Folie 15
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen III
Für eine Zufallsvariable X und reelle Zahlen a, b gilt:
I
I
E(aX + b) = a E(X ) + b
Var(aX + b) = a2 Var(X )
Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine
”
(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)
Abbildungen G : R → R und H : R → R:
E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))
Ist X eine Zufallsvariable mit
p Erwartungswert µX = E(X ) und
Standardabweichung σX = Var(X ), so erhält man mit
X − E(X )
X − µX
Z := p
=
σX
Var(X )
eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.
Man nennt Z dann eine standardisierte Zufallsvariable.
Ökonometrie (SS 2014)
Folie 16
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen IV
Weiteres Lagemaß für Zufallsvariablen: p-Quantile
Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:
P{X ≤ xp } ≥ p
und
P{X ≥ xp } ≥ 1 − p
Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit
streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber
eindeutig durch Lösung der Gleichung
FX (xp ) = p
bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX
(auch Quantilsfunktion genannt) direkt durch
xp = FX−1 (p)
bestimmen.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 17
Wahrscheinlichkeitsrechnung 2.2
Spezielle parametrische Verteilungsfamilien
Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen.
Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige
(reelle) Parameter (bzw. einen ein- oder mehrdimensionalen
Parametervektor) eineindeutig festgelegt, also
I
I
legt der Parameter(vektor) die Verteilung vollständig fest und
gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche
Verteilungen ( Identifizierbarkeit“).
”
Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum.
Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger
Verteilungsfamilien.
Ökonometrie (SS 2014)
Folie 18
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Bernoulli-/Alternativverteilung
Verwendung:
I
I
I
I
Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten
bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.
Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten
”
(bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,
es sei also
1 falls ω ∈ A
X (ω) :=
0 falls ω ∈ A
Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 .
”
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
ab; p ist also einziger Parameter der Verteilungsfamilie.
Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)
Der Träger der Verteilung ist dann T (X ) = {0, 1}, die
Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p.
Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p)
Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).
Ökonometrie (SS 2014)
Folie 19
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
für x < 0
für 0 ≤ x < 1
für x ≥ 1
Ökonometrie (SS 2014)
=
0.8
0.6
0.4
0.2
0.0
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
1.5
2.0
x
FX
●
p = 0.4
●
−1.0
−0.5
0.0
0.5
1.0
x
Momente: E (X ) = p
γ(X )
pX
p = 0.4
0.0 0.2 0.4 0.6 0.8 1.0
Verteilungsfunktion:

 0
1−p
FX (x) =

1
pX(x)
Träger: T (X ) = {0, 1}
Wahrscheinlichkeitsfunktion:

 1 − p für x = 0
p
für x = 1
pX (x) =

0
sonst
Parameter:
p ∈ (0, 1)
FX(x)
Bernoulli-/Alternativverteilung
B(1, p)
Var(X )
√1−2p
p(1−p)
κ(X )
= p · (1 − p)
=
1−3p(1−p)
p(1−p)
Folie 20
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
Verallgemeinerung der Bernoulli-Verteilung
Verwendung:
I
I
I
I
I
Modellierung der unabhängigen, wiederholten Durchführung eines
Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw.
Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“).
”
Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert,
”
Nichteintreten (bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl
von n Wiederholungen des Experiments zählen.
Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für DurchfP
ührung i) den Wert 1
an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi .
Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3.
n = 5, p = 1/3.
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
sowie der Anzahl der Durchführungen n des Experiments ab.
Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und
p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}.
Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p)
Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1.
Ökonometrie (SS 2014)
Folie 21
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
B(n, p)
0.0 0.1 0.2 0.3 0.4 0.5
Träger: T (X ) = {0, 1, . . . , n}
Wahrscheinlichkeitsfunktion: pX (x)
  n x
p (1 − p)n−x für x ∈ T (X )
=
x

0
sonst
pX(x)
Parameter:
n ∈ N, p ∈ (0, 1)
pX
n = 5, p = 0.4
−1
0
1
2
3
4
5
●
●
4
5
6
x
FX (x) =
X
pX (xi )
xi ∈T (X )
xi ≤x
FX(x)
Verteilungsfunktion:
0.0 0.2 0.4 0.6 0.8 1.0
FX
n = 5, p = 0.4
●
●
●
●
−1
0
1
2
3
6
x
Momente: E (X ) = n · p
γ(X ) =
Ökonometrie (SS 2014)
√ 1−2p
np(1−p)
Var(X )
κ(X )
= n · p · (1 − p)
=
1+(3n−6)p(1−p)
np(1−p)
Folie 22
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Einfachste stetige Verteilungsfamilie:
Stetige Gleichverteilung auf Intervall [a, b]
Modellierung einer stetigen Verteilung, in der alle Realisationen in einem
Intervall [a, b] als gleichwahrscheinlich“ angenommen werden.
”
Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab.
Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall
1
[a, b] konstant zu b−a
gewählt werden.
Träger der Verteilung: T (X ) = [a, b]
Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)
Ökonometrie (SS 2014)
Folie 23
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Unif(a, b)
Parameter:
a, b ∈ R mit a < b
fX
a = 1, b = 3
0.4
0.0
0.2
fX(x)
0.6
Träger: T (X ) = [a, b]
Dichtefunktion: fX : R → R;
( 1
für a ≤ x ≤ b
b−a
fX (x) =
0
sonst
0
1
2
3
4
3
4
x
Momente: E (X ) = a+b
2
γ(X ) = 0
Ökonometrie (SS 2014)
Var(X )
κ(X )
0.0 0.2 0.4 0.6 0.8 1.0
Verteilungsfunktion: FX : R → R;

für x < a

 0
x−a
für a ≤ x ≤ b
FX (x) =
b−a


1
für x > b
FX(x)
FX
a = 1, b = 3
0
1
2
x
=
=
(b−a)2
12
9
5
Folie 24
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler
(unabhängiger) Zufallsvariablen (später mehr!)
Einsatz für Näherungen
Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit
Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit
Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 .
Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,
Berechnung muss i.d.R. mit Software/Tabellen erfolgen.
Wichtige Eigenschaft der Normalverteilungsfamilie:
Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist
aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 .
Zurückführung allgemeiner Normalverteilungen auf den Fall der
Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und
σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar.
Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.
Träger aller Normalverteilungen ist T (X ) = R.
Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 )
Ökonometrie (SS 2014)
Folie 25
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
N(µ, σ 2 )
(x−µ)2
1
1
fX (x) = √
e − 2σ2 = ϕ
σ
2πσ
x −µ
σ
0.00 0.05 0.10 0.15 0.20
Träger: T (X ) = R
Dichtefunktion: fX : R → R;
fX(x)
Parameter:
µ ∈ R, σ 2 > 0
fX
µ = 5, σ2 = 4
0
5
10
x
FX : R → R; FX (x) = Φ
x −µ
σ
FX(x)
Verteilungsfunktion:
0.0 0.2 0.4 0.6 0.8 1.0
FX
µ = 5, σ2 = 4
0
5
10
x
Momente: E (X ) = µ
γ(X ) = 0
Ökonometrie (SS 2014)
Var(X )
κ(X )
= σ2
= 3
Folie 26
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Arbeiten mit Normalverteilungen
Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ 2 ):
Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw.
nicht leicht auszuwerten!
Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte
Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten
Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R
(http://www.r-project.org)
Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur
Verfügung gestellte) Tabellen.
Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur
ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch
Φ(x) = 1 − Φ(−x)
für alle x ∈ R .
Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt.
Ökonometrie (SS 2014)
Folie 27
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Ausschnitt aus Tabelle für Φ(x)
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
Ökonometrie (SS 2014)
Folie 28
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Normalverteilungstabelle
0.02
0.04
µ = 100, σ2 = 82
0.00
fN(100, 82)(x)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?)
70
80
90
100
110
120
130
x
Antwort: Ist X ∼ N(100, 82 ), so gilt:
P{X < 90}
90 − 100
= FN(100,82 ) (90) = Φ
8
= Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.
Ökonometrie (SS 2014)
Folie 29
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
0.04
µ = 100, σ2 = 82
0.02
2.5%
0.00
fN(100, 82)(x)
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der
schraffierten Fläche zu einem Flächeninhalt von 0.025?)
70
80
90
100
110
<− | −>
?
120
130
Antwort: Ist X ∼ N(100, 82 ), so ist das 97.5%- bzw. 0.975-Quantil von X
gesucht. Mit
x − 100
FX (x) = FN(100,82 ) (x) = Φ
8
und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man
x − 100 !
x − 100
Φ
= 0.975 ⇔
= Φ−1 (0.975) = N0.975 = 1.96
8
8
⇒ x = 8 · 1.96 + 100 = 115.68
Ökonometrie (SS 2014)
Folie 30
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Statistik-Software R
Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an?
Antwort:
> pnorm(90,mean=100,sd=8)
[1] 0.1056498
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit?
Antwort:
> qnorm(0.975,mean=100,sd=8)
[1] 115.6797
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 31
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren I
Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur
Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später
erforderlich!)
Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n
Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor
X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen
Verteilung von X .
Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht
übertragbar, nur technisch etwas anspruchsvoller.
Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren
Ökonometrie (SS 2014)
Folie 32
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren II
Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine
(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R
mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden.
Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A
annimmt, können dann wiederum durch Aufsummieren der
Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet
werden:
X
P{X ∈ A} =
pX (xi )
xi ∈A∩T (X)
Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch
Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert
werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über
Mehrfachintegrale) ausrechnen lassen:
PX (A) =
Z
b1
a1
···
Z
bn
an
fX (t1 , . . . , tn )dtn · · · dt1
für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 33
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren III
Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines
n-dimensionalen Zufallsvektors nennt man auch Randverteilungen.
Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen
pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.
Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann
auch Randdichte(funktione)n.
Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch
(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen
Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien
Wahrscheinlichkeitsrechnung).
Ökonometrie (SS 2014)
Folie 34
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I
Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig,
wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als
Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen
pX (x) =
n
Y
i=1
bzw.
fX (x) =
pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn )
n
Y
i=1
fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn )
für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann.
(Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!)
”
”
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 35
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II
Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und
(paarweise) linearer Abhängigkeiten interessant!
Bedingte Verteilungen:
Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn
man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits
kennt?
Lineare Abhängigkeiten:
Treten besonders große Realisation einer Zufallsvariablen häufig im
Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen
einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang
für besonders kleine Realisationen der ersten Zufallsvariablen);
lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben?
Ökonometrie (SS 2014)
Folie 36
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III
Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei
Zufallsvariablen (aus einem Zufallsvektor).
Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz
!
σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y )
(Zur Berechnung von E(X · Y ) siehe Folien WR!)
Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor,
a, b ∈ R):
1
2
3
4
5
6
Cov(aX , bY ) = ab Cov(X , Y )
Cov(X + a, Y + b) = Cov(X , Y )
(Translationsinvarianz)
Cov(X , Y ) = Cov(Y , X )
(Symmetrie)
Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y )
Cov(X , X ) = Var(X )
X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0
Ökonometrie (SS 2014)
Folie 37
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV
Nachteil“ der Kovarianz:
”
Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit,
sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der
Streuung von X bzw. Y ab.
Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem
Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist.
”
Hierzu Standardisierung der Kovarianz über Division durch
Standardabweichungen von X und Y (falls σX > 0 und σY > 0!).
Man erhält so den Pearsonschen Korrelationskoeffizienten:
ρXY := Korr(X , Y ) :=
Ökonometrie (SS 2014)
Cov(X , Y )
σXY
= p
σX · σY
+ Var(X ) · Var(Y )
Folie 38
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V
Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit
σX > 0, σY > 0 und a, b ∈ R, so gilt:
1
2
3
4
5
6
7
Korr(aX , bY ) =
(
Korr(X , Y )
falls a · b > 0
− Korr(X , Y ) falls a · b < 0
Korr(X + a, Y + b) = Korr(X , Y )
(Translationsinvarianz)
Korr(X , Y ) = Korr(Y , X )
(Symmetrie)
−1 ≤ Korr(X , Y ) ≤ 1
Korr(X , X ) = 1
Korr(X , Y ) =
1
a>0
genau dann, wenn Y = aX + b mit
Korr(X , Y ) = −1
a<0
X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0
Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert.
Ökonometrie (SS 2014)
Folie 39
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung I
Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale
(multivariate) Normalverteilung
Spezifikation am Beispiel der zweidimensionalen (bivariaten)
Normalverteilung durch Angabe einer Dichtefunktion
fX ,Y (x, y ) =
1√
2πσX σY
1−ρ
e
2
−
1
2(1−ρ2 )
x−µX
σX
2
−2ρ
x−µX
σX
y −µY
σY
y −µY 2
+ σ
Y
abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).
Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder
(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 )
Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden.
Ökonometrie (SS 2014)
Folie 40
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung II
Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur
N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0
für alle x, y ∈ R ,
fX ,Y (x, y ) = fX (x) · fY (y )
also sind X und Y (genau) für ρ = 0 stochastisch unabhängig.
Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x
wieder Normalverteilungen, es gilt genauer:
ρσX
X |Y = y ∼ N µX +
(y − µY ), σX2 (1 − ρ2 )
σY
bzw.
Y |X = x
ρσY
N µY +
(x − µX ), σY2 (1 − ρ2 )
σX
∼
Ökonometrie (SS 2014)
Folie 41
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung III
Dichtefunktion der mehrdimensionalen Normalverteilung
0.06
0.04
f(x,y)
0.02
0.00
6
4
6
y
4
2
2
0
0
−2
x
−4
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2014)
Folie 42
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung IV
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
6
0.005
0.02
0.03
4
0.04
0.05
y
0.06
2
0.055
0.045
0.035
0.025
0.015
0
0.01
−4
−2
0
2
4
6
x
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2014)
Folie 43
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung V
Dichtefunktion der mehrdimensionalen Normalverteilung
0.15
f(x,y)
0.10
0.05
3
2
1
3
0
y
2
1
−1
0
−1
−2
x
−2
−3 −3
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Ökonometrie (SS 2014)
Folie 44
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VI
3
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
2
0.02
0.04
0.06
1
0.08
0.1
0
y
0.14
−3
−2
−1
0.12
−3
−2
−1
0
1
2
3
x
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Ökonometrie (SS 2014)
Folie 45
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VII
Dichtefunktion der mehrdimensionalen Normalverteilung
0.10
f(x,y)
0.05
0.00
16
14
12
16
10
y
14
12
8
8
6
10
x
6
4
4
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2014)
Folie 46
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VIII
14
16
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
0.02
0.03
12
0.05
0.07
0.09
10
y
0.11
0.12
0.1
8
0.08
0.06
6
0.04
4
0.01
4
6
8
10
12
14
16
x
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2014)
Folie 47
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen I
Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,
so gilt:
E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c
und
Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y )
Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors
weiter verallgemeinert werden!
Ökonometrie (SS 2014)
Folie 48
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen II
Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der
n-dimensionale Vektor
E(X) := [E(X1 ), . . . , E(Xn )]0
Erwartungswertvektor von X und die n × n-Matrix
0
V(X) := E (X − E(X)) · (X − E(X))


E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))]


..
..
..
:= 

.
.
.
E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))]


Var(X1 )
Cov(X1 , X2 )
· · · Cov(X1 , Xn−1 )
Cov(X1 , Xn )
 Cov(X2 , X1 )
Var(X2 )
· · · Cov(X2 , Xn−1 )
Cov(X2 , Xn ) 




.
.
.
.
.
.
.
.
.
.
= 

.
.
.
.
.


 Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · ·
Var(Xn−1 )
Cov(Xn−1 , Xn ) 
Cov(Xn , X1 )
Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 )
Var(Xn )
(Varianz-)Kovarianzmatrix von X.
Ökonometrie (SS 2014)
Folie 49
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen III
In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe
n
X
i=1
n
X
den Erwartungswert E
i=1
die Varianz
Var
n
X
i=1
wi · Xi
!
=
wi · Xi
n X
n
X
i=1 j=1
=
n
X
i=1
0
wi2
!
=
n
X
i=1
wi · E(Xi ) = w0 E(X)
wi · wj · Cov(Xi , Xj )
· Var(Xi ) + 2
= w V(X)w
Ökonometrie (SS 2014)
(w = (w1 , . . . , wn )0 ∈ Rn )
wi · Xi = w1 · X1 + · · · + wn · Xn
n−1 X
n
X
i=1 j=i+1
wi · wj · Cov(Xi , Xj )
Folie 50
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen I
Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen
Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch
verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt
”
”n
für die Summe Yn := i=1 Xi also
E(Yn ) = n · µX
Var(Yn ) = n · σX2
sowie
und man erhält durch
Zn :=
Yn − nµX
√
=
σX n
1
n
X
i=1 i − µX √
n
σX
Pn
standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1).
Zentraler Grenzwertsatz:
Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung
(Standardnormalverteilung).
iid
Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N.
Ökonometrie (SS 2014)
Folie 51
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen II
Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man
näherungsweise (auch falls Xi nicht normalverteilt ist) für
hinreichend großes n ∈ N
I
die
N(nµX , nσX2 )-Verteilung
für Yn :=
n
X
Xi oder
i=1
I
Yn − nµX
√
die Standardnormalverteilung für Zn :=
=
σX n
verwendet.
1
n
Pn
Xi − µX √
n
σX
i=1
Leicht zu merken:
Man verwendet näherungsweise die Normalverteilung mit
passendem“ Erwartungswert und passender“ Varianz!
”
”
Ökonometrie (SS 2014)
Folie 52
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2014)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2014)
Folie 54
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
Stichprobe
Zufallsvariablen
X1, …, Xn
(konkrete)
Auswahl der
führt
Rückschluss auf
Verteilung/Kenngrößen
Ziehung/
Stichprobe
zu
Realisationen
x1, …, xn
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 55
Schließende Statistik 2.3
Bemerkungen zu den 3 Grundannahmen
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Ökonometrie (SS 2014)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
I
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Ökonometrie (SS 2014)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Stichprobenfunktionen
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
i=1
Ökonometrie (SS 2014)
n
1X
x :=
xi
n
i=1
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
x
Stichprobe Nr. x1 x2 x3 x4 x5
1
2
3
4
5
6
7
8
9
..
.
2
6
2
3
6
3
3
5
5
..
.
3
6
2
5
2
1
4
5
4
..
.
4
4
5
6
4
3
3
1
5
..
.
6
4
3
3
1
6
2
5
4
..
.
2
1
5
5
2
3
5
3
4
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
..
.
Ökonometrie (SS 2014)
Folie 59
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
3
4
5
6
0.12
0.08
pX(xi)
0.06
0.00
0.02
0.04
0.05
0.00
0.00
2
1
2
3
4
5
6
1
2
3
xi
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
1
1.75
2.75
3.75
xi
Ökonometrie (SS 2014)
4.75
5.75
0.08
0.06
pX(xi)
0.02
0.04
0.06
0.00
0.00
0.00
0.02
0.02
0.04
0.04
0.06
pX(xi)
0.08
0.08
0.10
0.10
0.12
1
pX(xi)
0.10
pX(xi)
0.10
0.05
pX(xi)
0.15
0.10
0.20
n=3
0.14
n=2
0.15
n=1
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisation von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 61
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2014)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b := E θb − θ
MSE(θ)
soll möglichst klein sein.
Ökonometrie (SS 2014)
Folie 63
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
2
b
b
MSE(θ) = E (θ − θ) = Var(θb − θ) +[ E(θb − θ) ]2
| {z } | {z }
b
=Var(θ)
b
=:Bias(θ)
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
denkbaren Werte von θ), so nennt man θb erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
Bei Schätzung von E(Y ) mit X gilt:
σY2
2 E(X )=E(Y )
2
MSE(X ) = E (X − E(Y ))
=
Var(X ) = σX =
n
Ökonometrie (SS 2014)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen MSE(X ) =
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 65
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
Ökonometrie (SS 2014)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
n
1 X
S :=
(Xi − X )2
n−1
2
n
bzw.
i=1
1 X
s :=
(xi − x)2
n−1
2
i=1
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2014)
Folie 67
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Intervallschätzung von µY := E(Y )
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
Ökonometrie (SS 2014)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
•
σ2
σ2
Verteilungseigenschaft X ∼ N µ, n bzw. X ∼ N µ, n wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
X − µ√ •
n ∼ N(0, 1)
σ
bzw.
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
Ökonometrie (SS 2014)
Folie 69
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=4
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=2
falls Y ∼ Unif(20, 50)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=12
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=7
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2014)
2
4
−4
−2
0
2
4
x
Folie 70
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ Exp(2)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
2
4
−4
−2
x
0
2
4
x
Ökonometrie (SS 2014)
Folie 71
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.5)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2014)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.05)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
2
4
x
−4
−2
0
2
4
x
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 73
Schließende Statistik 2.3
Schwankungsintervalle für X I
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
I
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
α
2
an (vgl. Übungsaufgabe 2 (c)).
Ökonometrie (SS 2014)
Folie 74
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
Für N(µ,
σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
I
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
berechnen (vgl. auch Folien 26 und 30).
Unter Verwendung der Symmetrieeigenschaft
Nα = −N1−α
bzw. hier
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2014)
Folie 75
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X III
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σ2
von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
von X .
Ökonometrie (SS 2014)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
Aufgabenstellung:
I
I
I
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
Lösung:
I
I
I
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2014)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
102
25
, α = 0.05
X
0.10
α 2 = 0.025
α 2 = 0.025
1 − α = 0.95
0.00
0.05
fX(x)
0.15
0.20
Im Beispiel: X ∼ N 50,
µY −
Ökonometrie (SS 2014)
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
P X ∈ µ − √ · N1− α2 , µ + √ · N1− α2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
=1−α .
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
X − √ · N1− α2 , X + √ · N1− α2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2014)
Folie 79
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei bekannter Varianz σ 2
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2014)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisationen x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
x − √ · N1− α2 , x + √ · N1− α2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2014)
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
1 X
S =
(Xi − X )2
n−1
2
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
Seien Y ∼ N(µ,
σ 2 ), X1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
q
√
Pn
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2014)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
tn;p = −tn;1−p
bzw.
tn;1−p = −tn;p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2014)
Folie 83
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
−4
−2
0
2
4
x
Ökonometrie (SS 2014)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei unbekannter Varianz σ 2
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
√
S2
=
q
1
Ersetzen von σ durch S =
2
Ersetzen von N1− α2 durch tn−1;1− α2
1
n−1
Pn
i=1 (Xi
− X )2
erforderlich.
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2
n
n
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 85
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
[1] 2.13145
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
Ökonometrie (SS 2014)
Folie 86
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Quantile der t-Verteilungen: tn;p
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 87
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisationen x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
x − √ · tn−1;1− α2 , x + √ · tn−1;1− α2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Ökonometrie (SS 2014)
Folie 88
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Hypothesentests
Bisher betrachtet:
Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts
Hierzu: Verwendung der
1
2
theoretischen Information über Verteilung von X
empirischen Information aus Stichprobenrealisation x von X
zur Konstruktion einer
I
I
Punktschätzung
Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen
Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)
Mittelwert (Erwartungswert) enthält.
Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:
Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer
vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt
( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ).
”
”
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 89
Schließende Statistik 2.3
Einführendes Beispiel I
Interessierende Zufallsvariable Y :
Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von
Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).
Verteilungsannahme:
Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ).
Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16
vom Umfang n = 16 zu Y vor.
Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu
entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre,
unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt
(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).
Ökonometrie (SS 2014)
Folie 90
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel II
Offensichlich gilt:
I
I
I
X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird
X praktisch nie genau den Wert x = 500 annehmen!
Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500
”
gilt.
Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500
”
gilt.
Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500,
und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x
weit weg von 500.
Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann
”
”
eine geeignete“ Entscheidungsregel konstruiert werden?
”
Ökonometrie (SS 2014)
Folie 91
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilungen von X
0.4
für verschiedene Erwartungswerte µ bei σ = 4 und n = 16
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 92
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidungsproblem
Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu
genau einer der folgenden vier verschiedenen Situationen:
Entscheidung
für H0 (µ = 500)
Entscheidung
für H1 (µ 6= 500)
Tatsächliche Situation:
H0 wahr (µ = 500)
richtige
Entscheidung
Fehler
1. Art
Tatsächliche Situation:
H1 wahr (µ 6= 500)
Fehler
2. Art
richtige
Entscheidung
Wünschenswert:
Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen.
”
”
Aber: Zielkonflikt vorhanden:
Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto
”
”
I
I
seltener Fehler 2. Art
häufiger Fehler 1. Art
und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“.
”
”
Ökonometrie (SS 2014)
Folie 93
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
0.4
Beispiel für nahe“ Grenze
”
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 94
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
0.4
Beispiel für ferne“ Grenze
”
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 95
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel I
Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für
alle möglichen Situationen (also alle denkbaren µ) zu verringern.
Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!
Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die
”
Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung
gegen H0 , obwohl H0 wahr ist) begehen darf.
Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man
”
”
den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x
bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α
jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500
entscheidet!
Ökonometrie (SS 2014)
Folie 96
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel II
Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von
H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und
damit nur mit Wahrscheinlichkeit α außerhalb liegt!).
Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält
den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)
σ
σ
µ0 − √ · N1− α2 , µ0 + √ · N1− α2
n
n
mit
σ
σ
P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2
=1−α .
n
n
Ökonometrie (SS 2014)
Folie 97
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Grenze zum Signifikanzniveau α = 0.05
0.4
Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95
0.2
0.0
0.1
fX(x|µ)
0.3
µ = 500
µ = 494
µ = 499
µ = 503
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 98
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel I
Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel
also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im
Intervall
4
4
500 − √ · N0.975 , 500 + √ · N0.975 = [498.04, 501.96] ,
16
16
dem sog. Annahmebereich des Hypothesentests, liegt.
Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen
H0 : µ = 500) aus, wenn die Realisation x von X in der Menge
(−∞, 498.04) ∪ (501.96, ∞) ,
dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,
liegt.
Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich
schon vollständig spezifiziert!
Ökonometrie (SS 2014)
Folie 99
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel II
Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter
2
Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher:
Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder
Teststatistik
X − µ0 √
N :=
n.
σ
Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und
ist daher daher (für µ = µ0 ) standardnormalverteilt:
X − µ0 √
n ∼ N(0, 1)
σ
Ökonometrie (SS 2014)
falls µ = µ0
Folie 100
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel III
Man rechnet leicht nach:
σ
σ
X − µ0 √
X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔
n ∈ −N1− α2 , N1− α2
σ
n
n
X −µ0 √
Als
Annahmebereich
A
f
ür
die
Testgr
öße
N
=
n erhält man also
σ
−N1− α2 , N1− α2 , als kritischen Bereich K entsprechend
K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞
und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 101
Schließende Statistik 2.3
Entscheidung im Beispiel IV
Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X
”
bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher
untersuchen. Damit lassen sich dann auch (von µ abhängige!)
Fehlerwahrscheinlichkeiten 2. Art berechnen.
Im Beispiel erhält man so zu den betrachteten Szenarien (also
unterschiedlichen wahren Parametern µ):
Wahrscheinlichkeit der
Wahrscheinlichkeit der
Annahme von µ = 500 Ablehnung von µ = 500
P{N ∈ A}
P{N ∈ K }
µ = 500
0.95
0.05
µ = 494
0
1
µ = 499
0.8299
0.1701
µ = 503
0.1492
0.8508
(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)
Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den
”
Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.
Ökonometrie (SS 2014)
Folie 102
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zweiseitiger Gauß-Test für den Ewartungswert
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des zweiseitigen Tests:
”
1
Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
4
5
X − µ0 √
•
n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = −∞, −N1− α2 ∪ N1− α2 , ∞
Berechnung der realisierten Teststatistik N
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 103
Schließende Statistik 2.3
Beispiel: Qualitätskontrolle (Länge von Stahlstiften)
Untersuchungsgegenstand: Weicht die mittlere Länge der von einer
bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in
[cm]) ab, so dass die Produktion gestoppt werden muss?
Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 )
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 64 zu Y liefert Stichprobenmittel x = 9.7.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
(Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz
1
Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10
√
0
2
Teststatistik: N = X −µ
n ∼ N(0, 1), falls H0 gilt (µ = µ0 )
σ
3
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞)
√
4
Realisierter Wert der Teststatistik: N = 9.7−10
64 = −6
0.4
5
Entscheidung: N ∈ K
H0 wird abgelehnt und die Produktion gestoppt.
Ökonometrie (SS 2014)
Folie 104
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert I
bei bekannter Varianz
Neben zweiseitigem Test auch zwei einseitige Varianten:
H0 : µ ≤ µ0
H0 : µ ≥ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
gegen
H1 : µ < µ0
(linksseitiger Test)
Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise
abzulehnen, auf das Signifikanzniveau α.
Entscheidung zwischen beiden Varianten daher wie folgt:
H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als
glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei
Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist.
H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern
möchte und für deren Akzeptanz man hohe Evidenz fordert.
Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass
man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1
kontrollieren will.
Ökonometrie (SS 2014)
Folie 105
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert II
bei bekannter Varianz
Auch für einseitige Tests fasst Teststatistik
N=
X − µ0 √
n
σ
die empirische Information über den Erwartungswert µ geeignet zusammen.
Allerdings gilt nun offensichtlich
I
im Falle des rechtsseitigen Tests von
H0 : µ ≤ µ0
I
gegen
H1 : µ > µ0 ,
dass große (insbesondere positive) Realisationen von N gegen H0 und für H1
sprechen, sowie
im Falle des linksseitigen Tests von
H0 : µ ≥ µ0
gegen
H1 : µ < µ0 ,
dass kleine (insbesondere negative) Realisationen von N gegen H0 und für
H1 sprechen.
Ökonometrie (SS 2014)
Folie 106
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
Noch nötig zur Konstruktion der Tests:
Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass
Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α
beschränkt bleibt.
Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit
P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 .
Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das
größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten.
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt.
Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit
insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test.
Ökonometrie (SS 2014)
Folie 107
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
µ = 500
µ = 499
µ = 502
µ = 504
0.2
0.0
0.1
fN(x|µ)
0.3
0.4
Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2014)
Folie 108
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert II
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des rechtsseitigen Tests:
”
1
Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = (N1−α , ∞)
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 109
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein
kritischer Wert bestimmt werden, den die Teststatistik N im Fall der
Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.
Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 .
Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das
kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten.
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt.
Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält
damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den
linksseitigen Test.
Ökonometrie (SS 2014)
Folie 110
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
0.4
Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
0.2
0.0
0.1
fN(x|µ)
0.3
µ = 500
µ = 496
µ = 498
µ = 501
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2014)
Folie 111
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert II
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des linksseitigen Tests:
”
1
Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = (−∞, −N1−α )
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
Folie 112
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen I
Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist
Vorsicht bei der Interpretation von Testergebnissen geboten, es besteht ein
großer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0
und dem Aussagegehalt einer Annahme von H0 :
Fällt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsächlich
erfüllt sein — wegen der Beschränkung der Fehlerwahrscheinlichkeit 1. Art
durch das Signifikanzniveau α nur mit einer typischerweise geringen
Wahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, die
fälschlicherweise zur Ablehnung von H0 geführt hat.
Aber: Vorsicht vor Über“interpretation als Evidenz für Gültigkeit von H1 :
”
Aussagen der Form Wenn H0 abgelehnt wird, dann gilt H1 mit
”
Wahrscheinlichkeit von mindestens 1 − α“ sind unsinnig!
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 113
Schließende Statistik 2.3
Interpretation von Testergebnissen II
Fällt die Testentscheidung jedoch für H0 aus, so ist dies meist ein
vergleichsweise schwächeres Indiz“ für die Gültigkeit von H0 , da die
”
Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise große
Werte (bis 1 − α) annehmen kann.
Gilt also tatsächlich H1 , ist es dennoch mit einer oft – meist abhängig vom
Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit möglich, eine
”
Stichprobenrealisation zu erhalten, die fälschlicherweise nicht zur
Ablehnung von H0 führt.
Aus diesem Grund sagt man auch häufig statt H0 wird angenommen“ eher
”
H0 kann nicht verworfen werden“.
”
Ökonometrie (SS 2014)
Folie 114
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Interpretation von Testergebnissen III
Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird häufig als
I
I
I
signifikante Veränderung (zweiseitiger Test),
signifikante Verringerung (linksseitiger Test) oder
signifikante Erhöhung (rechtsseitiger Test)
einer Größe bezeichnet. Konstruktionsbedingt kann das Ergebnis einer
statistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aber
niemals als zweifelsfreier Beweis für die Veränderung/Verringerung/Erhöhung
einer Größe dienen!
Vorsicht vor Publication Bias“:
”
I
I
Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20
statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt in
einer Ablehnung von H0 .
Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nicht
verworfen wurde, verschwiegen bzw. nicht publiziert werden!
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 115
Schließende Statistik 2.3
Interpretation von Testergebnissen IV
Ein signifikanter“ Unterschied ist noch lange kein deutlicher“ Unterschied!
”
”
Problem: Fluch des großen Stichprobenumfangs“
”
Beispiel: Abfüllmaschine soll Flaschen mit 1000 ml Inhalt abfüllen.
I
I
Abfüllmenge schwankt zufällig, Verteilung sei Normalverteilung mit bekannter
Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Fälle liegt Abfüllmenge
im Bereich ±1 ml um den (tatsächlichen) Mittelwert.
Statistischer Test zum Niveau α = 0.05 zur Überprüfung, ob mittlere
Abfüllmenge (Erwartungswert) von 1000 ml abweicht.
Tatsächlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen.
Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4%
Systematische Abweichung der Abfüllmenge von 0.1 ml also zwar mit hoher
Wahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehin
vorhandenen) zufälligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich!
Fazit: Durch wissenschaftliche Studien belegte signifikante Verbesserungen“
”
können vernachlässigbar klein sein ( Werbung...)
Ökonometrie (SS 2014)
Folie 116
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Der p-Wert
Hypothesentests komprimieren“ Stichprobeninformation zur Entscheidung
”
zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α.
Testentscheidung hängt von α ausschließlich über kritischen Bereich Kα ab!
Genauere Betrachtung (Gauß-Test für den Erwartungswert) offenbart:
I
I
Je kleiner α, desto kleiner (im Sinne von ⊂“) der kritische Bereich.
Zu jeder realisierten Teststatistik N findet” man sowohl
F
F
große“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N enthalten ( Ablehnung von H0 ), als auch
kleine“ Signifikanzniveaus, deren zugehörige kritische Bereiche
”
N nicht enthalten ( Annahme von H0 ).
Es gibt also zu jeder realisierten Teststatistik N ein sogenanntes
empirisches (marginales) Signifikanzniveau, häufiger p-Wert genannt,
welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt.
Ökonometrie (SS 2014)
Folie 117
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
p-Wert bei Gauß-Tests
für den Erwartungswert bei bekannter Varianz
Der Wechsel zwischen N ∈ Kα“ und N ∈
/ Kα“ findet bei den diskutierten
”
”
Gauß-Tests offensichtlich dort statt, wo die realisierte Teststatistik N gerade
mit (einer) der Grenze(n) des kritischen Bereichs übereinstimmt, d.h.
I
I
I
bei rechtsseitigen Tests mit Kα = (N1−α , ∞) für N = N1−α ,
bei linksseitigen Tests mit Kα = (−∞, −N1−α ) für N = −N1−α ,
bei zweiseitigen Tests mit Kα = (−∞, −N1− α2 ) ∪ (N1− α2 , ∞) für
N=
−N1− α2
N1− α2
falls N < 0
falls N ≥ 0
.
Durch Auflösen nach α erhält man
I
I
I
für rechtsseitige Tests den p-Wert 1 − Φ(N),
für linksseitige Tests den p-Wert Φ(N),
für zweiseitige Tests den p-Wert
2 · Φ(N) = 2 · (1 − Φ(−N))
2 · (1 − Φ(N))
Ökonometrie (SS 2014)
falls N < 0
falls N ≥ 0
= 2 · (1 − Φ(|N|)) .
Folie 118
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik)
0.2
fN(0, 1)(x)
0.3
0.4
Realisierte Teststatistik N = 1.6, p-Wert: 0.0548
p = 0.0548
0.0
0.1
1 − p = 0.9452
N0.85 N = 1.6 N0.99
x
Ökonometrie (SS 2014)
Folie 119
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik)
0.2
fN(0, 1)(x)
0.3
0.4
Realisierte Teststatistik N = −1.8, p-Wert: 0.0719
2
= 0.03595
1 − p = 0.9281
p
2
= 0.03595
0.0
0.1
p
− N0.995 N = − 1.8 − N0.85
N0.85
N0.995
x
Ökonometrie (SS 2014)
Folie 120
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung mit p-Wert
Offensichtlich erhält man auf der Grundlage des p-Werts p zur beobachteten
Stichprobenrealisation die einfache Entscheidungsregel
H0 ablehnen
⇔
p<α
für Hypothesentests zum Signifikanzniveau α.
Sehr niedrige p-Werte bedeuten also, dass man beim zugehörigen
Hypothesentest H0 auch dann ablehnen würde, wenn man die maximale
Fehlerwahrscheinlichkeit 1. Art sehr klein wählen würde.
Kleinere p-Werte liefern also stärkere Indizien für die Gültigkeit von H1 als
größere, aber (wieder) Vorsicht vor Überinterpretation: Aussagen der Art
Der p-Wert gibt die Wahrscheinlichkeit für die Gültigkeit von H0 an“ sind
”
unsinnig!
Warnung!
Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist es
unbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Werts
festzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wählen,
dass man die bevorzugte“ Testentscheidung erhält!
”
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 121
Schließende Statistik 2.3
Tests und Konfidenzintervalle
Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen)
Konfidenzintervallen für den Erwartungswert bei bekannter Varianz.
Für Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 − α gilt:
σ
σ
µ
e ∈ X − √ · N1− α2 , X + √ · N1− α2
n
n
σ
σ
⇔
µ
e − X ∈ − √ · N1− α2 , √ · N1− α2
n
n
µ
e−X√
⇔
n ∈ −N1− α2 , N1− α2
σ
X −µ
e√
⇔
n ∈ −N1− α2 , N1− α2
σ
Damit ist µ
e also genau dann im Konfidenzintervall zur
Sicherheitswahrscheinlichkeit 1 − α enthalten, wenn ein zweiseitiger
Gauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ
e nicht
verwerfen würde.
Ökonometrie (SS 2014)
Folie 122
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: Gauß-Test für den Mittelwert
bei bekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R unbekannt, σ 2 bekannt
approximativ: E (Y ) = µ ∈ R unbekannt, Var(Y ) = σ 2 bekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
N=
X − µ0 √
n
σ
N für µ = µ0 (näherungsweise) N(0, 1)-verteilt
n
1X
Xi
X =
n i=1
(−∞, −N1− α2 )
∪(N1− α2 , ∞)
2 · (1 − Φ(|N|))
p-Wert
H0 : µ ≥ µ0
H1 : µ < µ0
(N1−α , ∞)
(−∞, −N1−α )
1 − Φ(N)
Φ(N)
Ökonometrie (SS 2014)
Folie 123
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert I
bei unbekannter Varianz
Konstruktion des (exakten) Gauß-Tests für den Mittelwert bei bekannter
Varianz durch Verteilungsaussage
N :=
X − µ√
n ∼ N(0, 1) ,
σ
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y .
Analog zur Konstruktion von Konfidenzintervallen für den Mittelwert bei
unbekannter Varianz: Verwendung der Verteilungsaussage
v
u
n
u 1 X
X − µ√
t :=
n ∼ t(n − 1)
mit
S =t
(Xi − X )2 ,
S
n−1
i=1
falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y , um geeigneten
Hypothesentest für den Mittelwert µ zu entwickeln.
Test lässt sich genauso wie Gauß-Test herleiten, lediglich
I
I
Verwendung von S statt σ,
Verwendung von t(n − 1) statt N(0, 1).
Ökonometrie (SS 2014)
Folie 124
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
t-Test für den Mittel-/Erwartungswert II
bei unbekannter Varianz
Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigen
Tests bleibt wie beim Gauß-Test erhalten.
Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden
Vereinfachungen“ bei der Bestimmung von kritischen Bereichen und
”
p-Werten gültig.
p-Werte können mit Hilfe der Verteilungsfunktion Ft(n−1) der
t(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhält man
Ft(n−1) (t) beispielsweise mit dem Befehl pt(t,df=n-1).
Zur Berechnung von p-Werten für große n: Näherung der t(n − 1)-Verteilung
durch Standardnormalverteilung möglich.
Analog zu Konfidenzintervallen:
Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert bei
unbekannter Varianz immer noch als approximativer (näherungsweiser) Test
verwendet werden.
Ökonometrie (SS 2014)
Folie 125
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Zusammenfassung: t-Test für den Mittelwert
bei unbekannter Varianz
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ R++ unbekannt
approximativ: E (Y ) = µ ∈ R, Var(Y ) = σ 2 ∈ R++ unbekannt
X1 , . . . , Xn einfache Stichprobe zu Y
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
H0 : µ ≤ µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ 6= µ0
t=
H0 : µ ≥ µ0
H1 : µ < µ0
X − µ0 √
n
S
t für µ = µ0 (näherungsweise) t(n − 1)-verteilt
n
1X
X =
Xi
n i=1
v
v
!
u
u
n
n
X
u 1
u 1 X
2
S =t
(Xi − X )2 = t
Xi2 − nX
n − 1 i=1
n − 1 i=1
(−∞, −tn−1;1− α2 )
∪(tn−1;1− α2 , ∞)
2 · (1 − Ft(n−1) (|t|))
(tn−1;1−α , ∞)
(−∞, −tn−1;1−α )
1 − Ft(n−1) (t)
Ft(n−1) (t)
Folie 126
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Durchschnittliche Wohnfläche
Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnfläche pro
Haushalt in einer bestimmten Stadt gegenüber dem aus dem Jahr 1998
stammenden Wert von 71.2 (in [m2 ]) erhöht?
Annahmen: Verteilung der Wohnfläche Y im Jahr 2009 unbekannt.
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 400 zu Y liefert Stichprobenmittel x = 73.452 und
Stichprobenstandardabweichung s = 24.239.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
Rechtsseitiger approx. t-Test für den Mittelwert bei unbekannter Varianz
1
Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2
√ •
0
2
Teststatistik: t = X −µ
n ∼ t(399), falls H0 gilt (µ = µ0 )
S
3
Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95
√ , ∞) = (1.649, ∞)
73.452−71.2
4
Realisierter Wert der Teststatistik: t = 24.239
400 = 1.858
5
Entscheidung: t ∈ K
H0 wird abgelehnt; Test kommt zur Entscheidung,
dass sich durchschnittliche Wohnfläche gegenüber 1998 erhöht hat.
Ökonometrie (SS 2014)
Folie 127
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik)
0.2
1 − p = 0.968
p = 0.032
0.0
0.1
ft(399)(x)
0.3
0.4
Wohnflächenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032
t399, 0.8
t = 1.858
t399, 0.999
x
Ökonometrie (SS 2014)
Folie 128
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Inhaltsverzeichnis
(Ausschnitt)
3
Einfache lineare Regression
Deskriptiver Ansatz
Statistisches Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Einfache lineare Modelle mit R
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 129
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge I
Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient als
Maß der Stärke des linearen Zusammenhangs zwischen zwei
(kardinalskalierten) Merkmalen X und Y .
Nun: Ausführlichere Betrachtung linearer Zusammenhänge zwischen
Merkmalen (zunächst rein deskriptiv!):
Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe,
ist nicht nur die Stärke dieses Zusammenhangs interessant, sondern auch die
genauere Form“ des Zusammenhangs.
”
Form“ linearer Zusammenhänge kann durch Geraden(gleichungen)
”
spezifiziert werden.
Ökonometrie (SS 2014)
Folie 130
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge II
Problemstellung: Wie kann zu einer Urliste (x1 , y1 ), . . . , (xn , yn ) der Länge n
zu (X , Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefunden
werden, die den linearen Zusammenhang zwischen X und Y möglichst gut“
”
widerspiegelt?
Wichtig: Was soll möglichst gut“ überhaupt bedeuten?
”
Hier: Summe der quadrierten Abstände von der Geraden zu den
Datenpunkten (xi , yi ) in vertikaler Richtung soll möglichst gering sein.
(Begründung für Verwendung dieses Qualitätskriteriums“ wird nachgeliefert!)
”
Ökonometrie (SS 2014)
Folie 131
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge III
Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a und
Steigung b in der bekannten Darstellung
y = fa,b (x) := a + b · x .
Für den i-ten Datenpunkt (xi , yi ) erhält man damit den vertikalen Abstand
ui (a, b) := yi − fa,b (xi ) = yi − (a + b · xi )
von der Geraden mit Absolutglied a und Steigung b.
Ökonometrie (SS 2014)
Folie 132
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Deskriptive Beschreibung linearer Zusammenhänge IV
Gesucht werden a und b so, dass die Summe der quadrierten vertikalen
Abstände der Punktwolke“ (xi , yi ) von der durch a und b festgelegten
”
Geraden,
n
X
2
(ui (a, b)) =
i=1
n
X
i=1
2
(yi − fa,b (xi )) =
n
X
i=1
(yi − (a + b · xi ))2 ,
möglichst klein wird.
Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate
(KQ-Methode) oder Least-Squares-Methode (LS-Methode).
Ökonometrie (SS 2014)
Folie 133
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: Punktwolke“
”
aus n = 10 Paaren (xi , yi )
●
●
●
●
10
●
●
yi
●
●
5
●
0
●
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 134
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: P
Punktwolke“ und verschiedene Geraden I
”
a = 1, b = 0.8, ni=1 (ui (a, b))2 = 180.32
●
●
●
●
10
●
●
ui(a, b)
yi
●
●
5
●
●
b = 0.8
0
a=1 1
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 135
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: P
Punktwolke“ und verschiedene Geraden II
”
a = 5, b = 0.8, ni=1 (ui (a, b))2 = 33.71
●
●
●
●
●
10
ui(a, b)
yi
●
●
●
●
5
b = 0.8
1
●
0
a=5
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 136
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
15
Beispiel: Punktwolke“
und verschiedene Geraden III
Pn
”
a = −1, b = 1.9, i=1 (ui (a, b))2 = 33.89
●
●
10
●
●
●
ui(a, b)
yi
●
●
●
5
●
●
0
b = 1.9
a = −1
1
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 137
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden I
Gesucht sind also b
a, b
b ∈ R mit
n
n
X
X
2
(yi − (b
a+b
bxi )) = min
(yi − (a + bxi ))2
a,b∈R
i=1
i=1
Lösung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi ) = 0
∂a
i=1
Pn
n
X
∂ i=1 (yi − (a + bxi ))2
!
= −2
(yi − a − bxi )xi = 0 ,
∂b
i=1
führt zu sogenannten Normalgleichungen:
!
n
n
X
X
!
na +
xi b =
yi
n
X
i=1
Ökonometrie (SS 2014)
xi
!
a+
i=1
n
X
i=1
xi2
!
!
b=
i=1
n
X
xi yi
i=1
Folie 138
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Rechnerische Bestimmung der Regressionsgeraden II
Aufgelöst nach a und b erhält man die Lösungen
Pn
Pn
Pn
n
x
y
−
x
·
y
i
i
i
i
i=1
i=1
i=1
b
b=
2
Pn
Pn
2
n
i=1 xi −
i=1 xi
P
P
n
n
1
b
a = n1
y
−
x
·b
b
i
i
i=1
i=1
n
oder kürzer mit den aus der deskr. Statistik bekannten Bezeichnungen
Pn
Pn
Pn
Pn
x = n1 i=1 xi , x 2 = n1 i=1 xi2 , y = n1 i=1 yi und xy = n1 i=1 xi yi
bzw. den empirischen Momenten sX ,Y = xy − x · y und sX2 = x 2 − x 2 :
xy − x · y
sX ,Y
b
b=
=
sX2
x2 − x2
b
a = y − xb
b
Die erhaltenen Werte b
a und b
b minimieren tatsächlich die Summe der
quadrierten vertikalen Abstände, da die Hesse-Matrix positiv definit ist.
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 139
Deskriptiver Ansatz 3.1
Beispiel: Punktwolke“ und Regressionsgerade
” P
b
a = 2.03, b
b = 1.35, n (ui (b
a, b
b))2 = 22.25
15
i=1
●
●
10
yi
^
^, b
ui(a
)
●
●
●
●
●
●
5
●
^ ●
b = 1.35
0
1
^ = 2.03
a
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 140
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode I
Zu b
a und b
b kann man offensichtlich die folgende, durch die Regressionsgerade
erzeugte Zerlegung der Merkmalswerte yi betrachten:
a+b
b · xi )
yi = b
a+b
b · x + y − (b
| {z }i |i
{z
}
=:b
yi
=ui (b
a,b
b)=:b
ui
Aus den Normalgleichungen lassen sich leicht einige Eigenschaften für die so
bi und ybi herleiten, insbesondere:
definierten u
I
I
I
Pn
Pn
Pn
Pn
1
b
b
bi .
b
u
=
0
und
damit
y
=
y
bzw.
y
=
y
:=
i
i
i
i=1 y
i=1
i=1
n
Pni=1
b = 0.
xu
i=1
P
Pin i
P
bi = 0 und ni=1 xi u
bi = 0 folgt auch ni=1 ybi u
bi = 0.
Mit i=1 u
Ökonometrie (SS 2014)
Folie 141
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Eigenschaften der KQ-Methode II
Mit diesen Eigenschaften erhält man die folgende Varianzzerlegung:
n
n
1X
1X
2
(yi − y ) =
(b
yi − yb)2 +
n
n
i=1
i=1
|
{z
}
|
{z
}
Gesamtvarianz der yi
erklärte Varianz
n
1X 2
bi
u
n
i=1
| {z }
unerklärte Varianz
Die als Anteil der erklärten Varianz an der Gesamtvarianz gemessene Stärke
des linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt:
rX2 ,Y =
Ökonometrie (SS 2014)
1
n
1
n
Pn
yi − yb)2
i=1 (b
Pn
2
i=1 (yi − y )
Folie 142
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Regressionsgerade mit Zerlegung yi = b
yi + b
ui
15
P
b
a = 2.03, b
b = 1.35, ni=1 b
ui2 = 22.25
y = y^
x
●
●
●
●
● ●
●
10
●
^
u
i
●
●
yi
●
●
●
●
●
5
yi
●
●
●
^
b
1
0
^
a
y^i
●
0
2
4
6
8
xi
Ökonometrie (SS 2014)
Folie 143
3 Einfache lineare Regression
Deskriptiver Ansatz 3.1
Beispiel: Berechnung von b
a und b
b
Daten im Beispiel:
i
xi
yi
1
2.51
6.57
2
8.27
12.44
3
4.46
10.7
4
3.95
5.51
5
6.42
12.95
6
6.44
8.95
7
2.12
3.86
8
3.65
6.22
9
6.2
10.7
10
6.68
10.98
Berechnete (deskriptive/empirische) Größen:
x = 5.0703
sX2 = 3.665
y = 8.8889
sY2 = 8.927
x 2 = 29.3729
sX ,Y = 4.956
y 2 = 87.9398
rX ,Y = 0.866
Damit erhält man Absolutglied b
a und Steigung b
b als
sX ,Y
4.956
b
b= 2 =
= 1.352
3.665
sX
b
a =y −b
b · x = 8.8889 − 1.352 · 5.0703 = 2.03
und damit die Regressionsgerade
y = f (x) = 2.03 + 1.352 · x .
Ökonometrie (SS 2014)
Folie 144
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell I
Bisher: rein deskriptive Betrachtung linearer Zusammenhänge
Bereits erläutert/bekannt: Korrelation 6= Kausalität:
Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalen
lässt sich nicht schließen, dass der Wert eines Merkmals den des anderen
beeinflusst.
Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung von
Pearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleine
auch keine Wirkungsrichtung erkennen lassen kann.
Nun: statistische Modelle für lineare Zusammenhänge
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 145
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell II
Keine symmetrische Behandlung von X und Y mehr, sondern:
I
I
Interpretation von X ( Regressor“) als erklärende deterministische Variable.
”
Interpretation von Y ( Regressand“) als abhängige, zu erklärende
”
(Zufalls-)Variable.
Es wird angenommen, dass Y in linearer Form von X abhängt, diese
Abhängigkeit jedoch nicht perfekt“ ist, sondern durch zufällige Einflüsse
”
gestört“ wird.
”
Anwendung in Experimenten: Festlegung von X durch Versuchsplaner,
Untersuchung des Effekts auf Y
Damit auch Kausalitätsanalysen möglich!
Ökonometrie (SS 2014)
Folie 146
3 Einfache lineare Regression
Statistisches Modell 3.2
Das einfache lineare Regressionsmodell III
Es wird genauer angenommen, dass für i ∈ {1, . . . , n} die Beziehung
yi = β0 + β1 · xi + ui
gilt, wobei
I
I
I
u1 , . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ 2
(unbekannt) und Cov(ui , uj ) = 0 für i 6= j sind, die zufällige Störungen der
linearen Beziehung ( Störgrößen“) beschreiben,
P
”
x1 , . . . , xn deterministisch sind mit sX2 = n1 ni=1 (xi − x)2 > 0
(d.h. nicht alle xi sind gleich),
β0 , β1 feste, unbekannte reelle Parameter sind.
Man nimmt an, dass man neben x1 , . . . , xn auch y1 , . . . , yn beobachtet, die
wegen der Abhängigkeit von den Zufallsvariablen u1 , . . . , un ebenfalls
(Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch
(Realisationen von) u1 , . . . , un beobachten kann (β0 und β1 unbekannt!).
Ökonometrie (SS 2014)
Folie 147
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung I
Das durch die getroffenen Annahmen beschriebene Modell heißt auch
einfaches lineares Regressionsmodell.
Im einfachen linearen Regressionsmodell sind also (neben σ 2 ) insbesondere β0
und β1 Parameter, deren Schätzung für die Quantifizierung des linearen
Zusammenhangs zwischen xi und yi nötig ist.
Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche
nach Absolutglied und Steigung einer geeigneten Geradengleichung
y = fβ0 ,β1 (x) = β0 + β1 · x .
Achtung!
Die Bezeichnung der Parameter hat sich gegenüber der Veranstaltung
Schließende Statistik“ geändert, aus β1 wird β0 , aus β2 wird β1 !
”
Ökonometrie (SS 2014)
Folie 148
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung II
Satz 3.1 (Satz von Gauß-Markov)
Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte
Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten
vertikalen Abstände zur durch β0 und β1 bestimmten Geraden, in Zeichen
n
n
X
X
!
2
(yi − (βb0 + βb1 · xi )) = min
(yi − (β0 + β1 · xi ))2 ,
β0 ,β1 ∈R
i=1
i=1
die beste (varianzminimale) lineare (in yi ) erwartungstreue Schätzfunktion βb0
für β0 bzw. βb1 für β1 .
Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums
Minimierung der quadrierten vertikalen Abstände“ (KQ-Methode).
”
Ökonometrie (SS 2014)
Folie 149
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung III
Man erhält also — ganz analog zum deskriptiven Ansatz — die folgenden
Parameterschätzer:
Parameterschätzer im einfachen linearen Regressionsmodell
βb1 =
Vorsicht!
n
Pn
Pn
x
y
−
x
·
y
xy − x · y
sX ,Y
i
i
i
i
i=1
i=1
i=1
=
=
,
Pn
P
2
2
n
2 − x2
2
s
x
n
X
i=1 xi −
i=1 xi
1 Pn
Pn
b
b
βb0 = n1
y
−
x
i=1 i
i=1 i · β1 = y − x β1 .
n
Pn
sX2 , sY2 sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Größen
Pn
Pn
sX2 = n1 i=1 (xi − x)2 = x 2 − x 2 ,
sY2 = n1 i=1 (yi − y )2 = y 2 − y 2
Pn
und sX ,Y = n1 i=1 (xi − x) · (yi − y ) = xy − x · y .
Ökonometrie (SS 2014)
Folie 150
3 Einfache lineare Regression
Parameterschätzung 3.3
Parameterschätzung IV
bi := yi − (βb0 + βb1 · xi ) = yi − ybi
Die resultierenden vertikalen Abweichungen u
der yi von den auf der Regressionsgeraden liegenden Werten ybi := βb0 + βb1 · xi
nennt man Residuen.
Wie im deskriptiven Ansatz gelten die Beziehungen
Pn
Pn
Pn
Pn
bi = 0,
b
b
y
,
y
=
u
=
0,
i=1 xi u
i=1 i
i=1 i
i=1 i
Pn
bi
bi u
i=1 y
die Streuungszerlegung
n
X
(yi − y )2
i=1
|
{z
}
Total Sum of Squares
=
n
X
i=1
|
(b
yi − yb)
{z
}
Explained Sum of Squares
bzw. die Varianzzerlegung
Pn
1
2
i=1 (yi − y ) =
n
Ökonometrie (SS 2014)
2
1
n
Pn
n
X
+
i=1
bi2
u
| {z }
Residual Sum of Squares
yi − yb)2 +
i=1 (b
3 Einfache lineare Regression
=0
1
n
Pn
i=1
bi2 .
u
Folie 151
Parameterschätzung 3.3
Das (multiple) Bestimmtheitsmaß R 2
Auch im linearen Regressionsmodell wird die Stärke des linearen
Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz
gemessen und mit
Pn
Pn
2
b
bi2
(b
y
−
y
)
ESS
RSS
2
i=1 i
i=1 u
P
P
R = n
=
1
−
=
=
1
−
n
2
2
TSS
TSS
i=1 (yi − y )
i=1 (yi − y )
bezeichnet. R 2 wird auch (multiples) Bestimmtheitsmaß genannt.
Es gilt 0 ≤ R 2 ≤ 1 sowie der (bekannte) Zusammenhang R 2 = rX2 ,Y =
sX2 ,Y
sX2 ·sY2
.
Größere Werte von R 2 (in der Nähe von 1) sprechen für eine hohe
Modellgüte, niedrige Werte (in der Nähe von 0) für eine geringe Modellgüte.
Ökonometrie (SS 2014)
Folie 152
3 Einfache lineare Regression
Parameterschätzung 3.3
Beispiel: Ausgaben in Abhängigkeit vom Einkommen I
Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und
Genussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100
e) in der Form
iid
ui ∼ N(0, σ 2 ),
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n}
abhängen. Für n = 7 Haushalte beobachte man nun neben dem Einkommen
xi auch die (Realisation der) Ausgaben für Nahrungs- und Genussmittel yi
wie folgt:
Haushalt i
Einkommen xi
NuG-Ausgaben yi
1
35
9
2
49
15
3
21
7
4
39
11
5
15
5
6
28
8
7
25
9
Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1
bi
der linearen Modellbeziehung geschätzt sowie die Werte ybi , die Residuen u
und das Bestimmtheitsmaß R 2 bestimmt werden.
Ökonometrie (SS 2014)
Folie 153
3 Einfache lineare Regression
Parameterschätzung 3.3
Berechnete (deskriptive/empirische) Größen:
x = 30.28571
sX2 = 114.4901
y = 9.14286
sY2 = 8.6938
x 2 = 1031.71429
sX ,Y = 30.2449
y 2 = 92.28571
rX ,Y = 0.9587
Damit erhält man die Parameterschätzer βb0 und βb1 als
sX ,Y
30.2449
βb1 = 2 =
= 0.26417
114.4901
sX
βb0 = y − βb1 · x = 9.14286 − 0.26417 · 30.28571 = 1.14228 .
Als Bestimmtheitsmaß erhält man R 2 = rX2 ,Y = 0.95872 = 0.9191.
bi erhält man durch Einsetzen (b
bi = yi − ybi ):
Für ybi und u
yi = βb0 + βb1 · xi , u
Ökonometrie (SS 2014)
i
xi
yi
ybi
bi
u
1
35
9
10.39
−1.39
2
49
15
14.09
0.91
3
21
7
6.69
0.31
4
39
11
11.44
−0.44
5
15
5
5.1
−0.1
6
28
8
8.54
−0.54
7
25
9
7.75
1.25
Folie 154
3 Einfache lineare Regression
Parameterschätzung 3.3
Grafik: Ausgaben in Abhängigkeit vom Einkommen
15
βb0 = 1.14228, βb1 = 0.26417, R 2 = 0.9191
●
y = y^
x
●
●
●
10
●
^
u
i
●
●
●
●
yi
●
●
●
5
●
●
yi
0
y^i
0
10
20
30
40
50
xi
Ökonometrie (SS 2014)
Folie 155
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 I
Wegen der Abhängigkeit von yi handelt es sich bei βb0 und βb1 (wie in der
schließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen.
βb0 und βb1 sind linear in yi , man kann genauer zeigen:
βb0 =
Ökonometrie (SS 2014)
n
X
x 2 − x · xi
· yi
n · sX2
i=1
und
βb1 =
n
X
xi − x
· yi
n · sX2
i=1
Folie 156
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 II
βb0 und βb1 sind erwartungstreu für β0 und β1 , denn wegen E(ui ) = 0 gilt
I
I
I
E(yi ) = β0 +P
β1 · xi +
) = β0 + β1 · xi ,P
E(u1 i P
n
1
E(y ) = E n i=1 yi = n ni=1 E(yi ) = n1 ni=1 (β0 + β1 · xi ) = β0 + β1 · x,
P
P
E(xy ) = E n1 ni=1 xi yi = n1 ni=1 xi (β0 + β1 · xi ) = β0 · x + β1 · x 2
und damit
E(βb1 ) = E
=
xy − x · y
=
E(xy ) − x · E(y )
x2 − x2
x2 − x2
β0 · x + β1 · x 2 − x · (β0 + β1 · x)
x2 − x2
=
β1 · (x 2 − x 2 )
x2 − x2
= β1
sowie
E(βb0 ) = E(y − x βb1 ) = E(y ) − x E(βb1 ) = β0 + β1 · x − x · β1 = β0 .
Diese beiden Eigenschaften folgen bereits mit dem Satz von Gauß-Markov.
Ökonometrie (SS 2014)
Folie 157
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 III
Für die Varianzen der Schätzfunktionen erhält man (mit der Darstellung aus
Folie 156):
Var(βb1 ) =
σ2
n · sX2
sowie
σ2 · x 2
b
Var(β0 ) =
n · sX2
Diese hängen von der unbekannten Varianz σ 2 der ui ab.
Eine erwartungstreue Schätzfunktion für σ 2 ist gegeben durch
n
1 X 2
bi
u
n−2
i=1
n
n
=
· sY2 · (1 − R 2 ) =
· (sY2 − βb1 · sX ,Y )
n−2
n−2
p
c2 dieser Schätzfunktion heißt auch
Die positive Wurzel σ
b=+ σ
Standard Error of the Regression (SER) oder residual standard error.
c2 := Var(u
\i ) =
σ
Ökonometrie (SS 2014)
Folie 158
3 Einfache lineare Regression
Parameterschätzung 3.3
Eigenschaften der Schätzfunktionen βb0 und βb1 IV
c2 für σ 2 liefert die geschätzten Varianzen der
Einsetzen des Schätzers σ
Parameterschätzer
\
c2 b := Var(
σ
βb1 ) =
β1
c2
sY2 − βb1 · sX ,Y
σ
=
n · sX2
(n − 2) · sX2
und
c2 · x 2
σ
(sY2 − βb1 · sX ,Y ) · x 2
\
c
2
b
σ βb0 := Var(β0 ) =
=
.
n · sX2
(n − 2) · sX2
q
q
c
c2 b dieser geschätzten
2
Die positiven Wurzeln σ
bβb0 = σ βb0 und σ
bβb1 = σ
β1
Varianzen werden wie üblich als (geschätzte) Standardfehler von βb0 und βb1
bezeichnet.
Ökonometrie (SS 2014)
Folie 159
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle und Tests
unter Normalverteilungsannahme für ui
Häufig nimmt man weitergehend für die Störgrößen an, dass speziell
iid
ui ∼ N(0, σ 2 )
gilt, d.h. dass alle ui (für i ∈ {1, . . . , n}) unabhängig identisch normalverteilt
sind mit Erwartungswert 0 und (unbekannter) Varianz σ 2 .
In diesem Fall sind offensichtlich auch y1 , . . . , yn stochastisch unabhängig und
jeweils normalverteilt mit Erwartungswert E(yi ) = β0 + β1 · xi und Varianz
Var(yi ) = σ 2 .
Da βb0 und βb1 linear in yi sind, folgt insgesamt mit den bereits berechneten
Momenten von βb0 und βb1 :
!
2
2
2
σ
·
x
σ
βb0 ∼ N β0 ,
und
βb1 ∼ N β1 ,
2
n · sX
n · sX2
Ökonometrie (SS 2014)
Folie 160
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Konfidenzintervalle
unter Normalverteilungsannahme für ui
Da σ 2 unbekannt ist, ist für Anwendungen wesentlich relevanter, dass im
Falle unabhängig identisch normalverteilter Störgrößen ui mit den
c2 b für Var(βb0 ) und σ
c2 b für Var(βb1 ) gilt:
Schätzfunktionen σ
β0
β1
βb0 − β0
∼ t(n − 2)
σ
bβb0
und
βb1 − β1
∼ t(n − 2)
σ
bβb1
Hieraus erhält man unmittelbar die Formeln“
”
h
i
b
b
α
α
β0 − tn−2;1− 2 · σ
bβb0 , β0 + tn−2;1− 2 · σ
bβb0
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β0 bzw.
h
i
b
b
α
α
β1 − tn−2;1− 2 · σ
bβb1 , β1 + tn−2;1− 2 · σ
bβb1
für (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit
1 − α für β1 .
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 161
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen II
Im bereits erläuterten Beispiel erhält man als Schätzwert für σ 2 :
n · (sY2 − βb1 · sX ,Y )
7 · (8.6938 − 0.26417 · 30.2449)
c
2
σ =
=
= 0.9856
n−2
7−2
Die (geschätzten) Standardfehler für βb0 und βb1 sind damit
s
r
c2 · x 2
0.9856 · 1031.71429
σ
σ
bβb0 =
=
= 1.1264 ,
7 · 114.4901
n · sX2
s
r
c2
σ
0.9856
σ
bβb1 =
=
= 0.0351 .
2
7 · 114.4901
n · sX
Für α = 0.05 erhält man mit tn−2;1− α2 = t5;0.975 = 2.571 für β0 also
[1.14228 − 2.571 · 1.1264, 1.14228 + 2.571 · 1.1264] = [−1.7537, 4.0383]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 bzw.
[0.26417 − 2.571 · 0.0351, 0.26417 + 2.571 · 0.0351] = [0.1739, 0.3544]
als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für β1 .
Ökonometrie (SS 2014)
Folie 162
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Hypothesentests
unter Normalverteilungsannahme für ui
Genauso lassen sich unter der Normalverteilungsannahme (exakte) t-Tests für
die Parameter β0 und β1 konstruieren.
Trotz unterschiedlicher Problemstellung weisen die Tests Ähnlichkeiten zum
t-Test für den Mittelwert einer normalverteilten Zufallsvariablen bei
unbekannter Varianz auf.
Untersucht werden können die Hypothesenpaare
bzw.
H0 : β0 = β00
gegen
H1 : β0 6= β00
H0 : β0 ≤ β00
gegen
H1 : β0 > β00
H0 : β0 ≥ β00
gegen
H1 : β0 < β00
H0 : β1 = β10
gegen
H1 : β1 6= β10
H0 : β1 ≤ β10
gegen
H1 : β1 > β10
H0 : β1 ≥ β10
gegen
H1 : β1 < β10
Besonders anwendungsrelevant sind Tests auf die Signifikanz“ der Parameter
”
(insbesondere β1 ), die den zweiseitigen Tests mit β00 = 0 bzw. β10 = 0
entsprechen.
Ökonometrie (SS 2014)
Folie 163
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β0
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β0 = β00
H1 : β0 6= β00
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
sX ,Y
βb1 = 2
sX
H0 : β0 ≤ β00
H1 : β0 > β00
H0 : β0 ≥ β00
H1 : β0 < β00
βb0 − β00
t=
σ
bβc0
t für β0 = β00 t(n − 2)-verteilt
s
(sY2 − βb1 · sX ,Y ) · x 2
, βb0 = y − βb1 · x, σ
bβc0 =
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
2 · (1 − Ft(n−2) (|t|))
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
Folie 164
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Zusammenfassung: t-Test für den Parameter β1
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Anwendungsvoraussetzungen
iid
exakt: yi = β0 + β1 · xi + ui mit ui ∼ N(0, σ 2 ) für i ∈ {1, . . . , n},
σ 2 unbekannt, x1 , . . . , xn deterministisch und bekannt,
Realisation y1 , . . . , yn beobachtet
H0 : β1 = β10
H1 : β1 6= β10
Nullhypothese
Gegenhypothese
Teststatistik
t=
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
H0 : β1 ≤ β10
H1 : β1 > β10
sX ,Y
βb1 = 2 , σ
bβc1
sX
βb1 − β10
σ
bβc1
t für β1 = β10 t(n − 2)-verteilt
s
sY2 − βb1 · sX ,Y
=
(n − 2) · sX2
(−∞, −tn−2;1− α2 )
∪(tn−2;1− α2 , ∞)
2 · (1 − Ft(n−2) (|t|))
p-Wert
H0 : β1 ≥ β10
H1 : β1 < β10
(tn−2;1−α , ∞)
(−∞, −tn−2;1−α )
1 − Ft(n−2) (t)
Ft(n−2) (t)
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 165
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen III
Im bereits erläuterten Beispiel soll zum Signifikanzniveau α = 0.05 getestet
werden, ob β0 signifikant von Null verschieden ist. Geeigneter Test:
t-Test für den Regressionsparameter β0
1
2
3
4
5
Hypothesen:
H0 : β0 = 0
gegen
H1 : β0 6= 0
Teststatistik:
βb0 − 0
t=
ist unter H0 (für β0 = 0) t(n − 2)-verteilt.
σ
bβc0
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −tn−2;1− α2 ) ∪ (tn−2;1− α2 , +∞) = (−∞, −t5;0.975 ) ∪ (t5;0.975 , +∞)
= (−∞, −2.571) ∪ (2.571, +∞)
Berechnung der realisierten Teststatistik:
βb0 − 0
1.14228 − 0
t=
=
= 1.014
σ
bβc0
1.1264
Entscheidung:
t = 1.014 ∈
/ (−∞, −2.571) ∪ (2.571, +∞) = K ⇒ H0 wird nicht abgelehnt!
(p-Wert: 2 − 2 · Ft(5) (|t|) = 2 − 2 · Ft(5) (|1.014|) = 2 − 2 · 0.8215 = 0.357)
Der Test kann für β0 keine signifikante Abweichung von Null feststellen.
Ökonometrie (SS 2014)
Folie 166
3 Einfache lineare Regression
Konfidenzintervalle und Tests 3.4
Beispiel: Ausgaben in Abhängigkeit vom Einkommen IV
Nun soll zum Signifikanzniveau α = 0.01 getestet werden, ob β1 positiv ist.
Geeigneter Test:
t-Test für den Regressionsparameter β1
1
2
3
4
5
Hypothesen:
H0 : β1 ≤ 0
gegen
H1 : β1 > 0
Teststatistik:
βb1 − 0
ist unter H0 (für β1 = 0) t(n − 2)-verteilt.
t=
σ
bβc1
Kritischer Bereich zum Niveau α = 0.01:
K = (tn−2;1−α , +∞) = (t5;0.99 , +∞) = (3.365, +∞)
Berechnung der realisierten Teststatistik:
βb1 − 0
0.26417 − 0
t=
=
= 7.5262
σ
bβc1
0.0351
Entscheidung:
t = 7.5262 ∈ (3.365, +∞) = K
⇒
H0 wird abgelehnt!
(p-Wert: 1 − Ft(5) (t) = 1 − Ft(5) (7.5262) = 1 − 0.9997 = 0.0003)
Der Test stellt fest, dass β1 signifikant positiv ist.
Ökonometrie (SS 2014)
Folie 167
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Punkt- und Intervallprognosen
im einfachen linearen Regressionsmodell mit Normalverteilungsannahme
Neben Konfidenzintervallen und Tests für die Parameter β0 und β1 in linearen
Regressionsmodellen vor allem Prognosen wichtige Anwendung.
Zur Erstellung von Prognosen: Erweiterung der Modellannahme
yi = β0 + β1 · xi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren, hier mit (x0 , y0 ) bezeichneten Datenpunkt,
bei dem jedoch y0 nicht beobachtet wird, sondern lediglich der Wert des
Regressors x0 bekannt ist.
Ziel: Schätzung“ (Prognose) von y0 = β0 + β1 · x0 + u0 bzw.
”
E(y0 ) = β0 + β1 · x0 auf Grundlage von x0 .
Wegen E(u0 ) = 0 und der Erwartungstreue von βb0 für β0 bzw. βb1 für β1 ist
[
yb0 := βb0 + βb1 · x0 =: E(y
0)
offensichtlich erwartungstreu für y0 bzw. E(y0 ) gegeben x0 .
[
yb0 bzw. E(y
0 ) wird auch (bedingte) Punktprognose für y0 bzw. E(y0 )
gegeben x0 genannt.
Ökonometrie (SS 2014)
Folie 168
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler
Zur Beurteilung der Genauigkeit der Prognosen:
Untersuchung der sogenannten Prognosefehler
yb0 − y0
bzw.
[
E(y
0 ) − E(y0 ) .
Qualitativer Unterschied:
I
Prognosefehler
[
b
b
b
b
E(y
0 ) − E(y0 ) = β0 + β1 · x0 − (β0 + β1 · x0 ) = (β0 − β0 ) + (β1 − β1 ) · x0
I
resultiert nur aus Fehler bei der Schätzung von β0 bzw. β1 durch βb0 bzw. βb1 .
Prognosefehler
yb0 − y0 = βb0 + βb1 · x0 − (β0 + β1 · x0 + u0 ) = (βb0 − β0 ) + (βb1 − β1 ) · x0 − u0
ist Kombination von Schätzfehlern (für β0 und β1 ) sowie zufälliger
Schwankung von u0 ∼ N(0, σ 2 ).
[
Zunächst: Untersuchung von eE := E(y
0 ) − E(y0 )
Ökonometrie (SS 2014)
Folie 169
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Wegen der Erwartungstreue stimmen mittlerer quadratischer (Prognose-)
[
Fehler und Varianz von eE = E(y
0 ) − E(y0 ) überein und man erhält
[
[
b
b
Var(E(y
0 ) − E(y0 )) = Var(E(y0 )) = Var(β0 + β1 · x0 )
= Var(βb0 ) + x 2 Var(βb1 ) + 2 · x0 · Cov(βb0 , βb1 ).
0
Es kann gezeigt werden, dass für die Kovarianz von βb0 und βb1 gilt:
x
x
2
Cov(βb0 , βb1 ) = −σ 2 · Pn
=
−σ
·
2
n · sX2
i=1 (xi − x)
Insgesamt berechnet man so die Varianz des Prognosefehlers
σe2E
σ2 · x 2
σ2
σ2 · x
2
:= Var(eE ) =
+ x0 ·
− 2 · x0 ·
n · sX2
n · sX2
n · sX2
x 2 + x02 − 2 · x0 · x
=σ ·
n · sX2
2
(x 2 − x 2 ) + (x 2 + x02 − 2 · x0 · x)
=σ ·
n · sX2
2
2
2
s
+
(x
−
(x
−
x)
1
x)
0
0
= σ2 · X
= σ2 ·
+
.
2
n
n · sX
n · sX2
2
Ökonometrie (SS 2014)
Folie 170
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Die Linearität von βb0 und βb1 (in yi ) überträgt sich (natürlich) auch auf
[
E(y
0 ), damit gilt offensichtlich
2
[
eE = E(y
0 ) − E(y0 ) ∼ N 0, σeE
bzw.
[
E(y
0 ) − E(y0 )
∼ N(0, 1) .
σeE
Da σ 2 unbekannt ist, erhält man durch Ersetzen von σ 2 durch die
c2 die geschätzte Varianz
erwartungstreue Schätzfunktion σ
c2 e := Var(e
c2 ·
d E) = σ
σ
E
1 (x0 − x)2
+
n
n · sX2
[
von E(y
0 ) und damit die praktisch wesentlich relevantere Verteilungsaussage
[
eE
E(y
0 ) − E(y0 )
=
∼ t(n − 2) ,
σ
beE
σ
beE
aus der sich in bekannter Weise (symmetrische) Konfidenzintervalle (und
Tests) konstruieren lassen.
Ökonometrie (SS 2014)
Folie 171
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für E(y0 ) gegeben x0
Intervallprognosen zur Vertrauenswahrscheinlichkeit 1 − α erhält man also als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) in der Form
h
[
[
E(y
·σ
beE , E(y
·σ
beE
0 ) + tn−2;1− α
0 ) − tn−2;1− α
2
2
i
i
h
b
b
b
b
= (β0 + β1 · x0 ) − tn−2;1− α2 · σ
beE , (β0 + β1 · x0 ) + tn−2;1− α2 · σ
beE .
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
2
2
1
(x
−
x)
1
(38
−
30.28571)
0
c2 e = σ
c2 ·
σ
+
= 0.9856 ·
+
= 0.214
E
n
7
7 · 114.4901
n · sX2
[
b
b
die Punktprognose E(y
0 ) = β0 + β1 · x0 = 1.14228 + 0.26417 · 38 = 11.1807
(in 100 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 0.95
h
i
√
√
11.1807 − 2.571 · 0.214 , 11.1807 + 2.571 · 0.214
= [9.9914 , 12.37] (in 100 e) .
Ökonometrie (SS 2014)
Folie 172
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognosefehler e0 := yb0 − y0
Nun: Untersuchung des Prognosefehlers e0 := yb0 − y0
Offensichtlich gilt für e0 = yb0 − y0 die Zerlegung
yb0 − y0 = (βb0 + βb1 · x0 ) −(β0 + β1 · x0 +u0 )
{z
}
|
{z
} |
[
=E(y
0)
=
=E(y0 )
[
E(y
0 ) − E(y0 )
|
{z
}
−
Fehler aus Schätzung von
β0 und β1
u0
|{z}
.
zufällige Schwankung
der Störgröße
[
b
b
E(y
0 ) hängt nur von u1 , . . . , un ab (über y1 , . . . , yn bzw. β0 und β1 ) und ist
iid
wegen der Annahme ui ∼ N(0, σ 2 ) unabhängig von u0 .
Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auch
unkorreliert und man erhält:
[
σe20 := Var(yb0 − y0 ) = Var(E(y
0 ) − E(y0 )) + Var(u0 )
2
2
(x
−
x)
1
(x
−
x)
1
0
0
+
+ σ2 = σ2 · 1 + +
= σ2 ·
2
n
n
n · sX
n · sX2
Ökonometrie (SS 2014)
Folie 173
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgt
auch sofort die Normalverteilungseigenschaft des Prognosefehlers
e0 = y0 − yb0 , genauer gilt:
e0 = yb0 − y0 ∼ N 0, σe20
bzw.
yb0 − y0
∼ N(0, 1) .
σe0
c2 ersetzt werden, um mit Hilfe der geschätzen
Wieder muss σ 2 durch σ
Varianz
2
1
(x
−
x)
0
c2 e := Var(
c2 · 1 + +
d yb0 − y0 ) = σ
σ
0
n
n · sX2
des Prognosefehlers die für die Praxis relevante Verteilungsaussage
yb0 − y0
e0
=
∼ t(n − 2) ,
σ
be0
σ
be0
zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen.
Ökonometrie (SS 2014)
Folie 174
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognoseintervalle für y0 gegeben x0
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also analog zu den Intervallprognosen für E(y0 ) in der Form
yb0 − tn−2;1− α2 · σ
be0 , yb0 + tn−2;1− α2 · σ
be0
i
h
b
b
b
b
be0 , (β0 + β1 · x0 ) + tn−2;1− α2 · σ
be0 .
= (β0 + β1 · x0 ) − tn−2;1− α2 · σ
Im Beispiel (Ausgaben in Abhängigkeit vom Einkommen) erhält man zu
gegebenem x0 = 38 (in 100 e)
(x0 − x)2
(38 − 30.28571)2
1
1
c
c
2
2
= 1.1996
σ e0 = σ · 1 + +
= 0.9856· 1 + +
n
7
7 · 114.4901
n · sX2
[
mit der bereits berechneten Punktprognose yb0 = E(y
0 ) = 11.1807 (in 100 e)
die zugehörige Intervallprognose für y0 zur Vertrauenswahrscheinlichkeit 0.95
i
h
√
√
11.1807 − 2.571 · 1.1996 , 11.1807 + 2.571 · 1.1996
= [8.3648 , 13.9966] (in 100 e) .
Ökonometrie (SS 2014)
Folie 175
3 Einfache lineare Regression
Punkt- und Intervallprognosen 3.5
Prognose: Ausgaben in Abhängigkeit vom Einkommen
15
βb0 = 1.14228, βb1 = 0.26417, x0 = 38, yb0 = 11.1807, 1 − α = 0.95
●
y = y^
x
10
●
●
●
yi
●
●
0
5
●
0
10
20
30
40
50
xi
Ökonometrie (SS 2014)
Folie 176
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Einfache lineare Modelle mit Statistik-Software R
Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
7
1.2535
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.14225
1.12645
1.014 0.357100
x
0.26417
0.03507
7.533 0.000653 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Ökonometrie (SS 2014)
Folie 177
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Interpretation des Outputs I
c2 und R 2
Residuen, σ
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
bi
Auflistung bzw. Zusammenfassung der Residuen u
p
c2 , hier: σ
c2 = 0.9857
SER σ
b= σ
b = 0.9928 ⇒ σ
Anzahl Freiheitsgrade n − 2, hier: n − 2 = 5 ⇒ n = 7
(Multiples) Bestimmtheitsmaß R 2 , hier: R 2 = 0.919
Ökonometrie (SS 2014)
Folie 178
Einfache lineare Modelle mit R 3.6
3 Einfache lineare Regression
Interpretation des Outputs II
Ergebnisse zur Schätzung von β0 und β1
Residuals:
1
2
-1.3882 0.9134
3
4
5
6
0.3102 -0.4449 -0.1048 -0.5390
Coefficients:
Estimate Std. Error t value
(Intercept) 1.14225
1.12645
1.014
x
0.26417
0.03507
7.533
-Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01
7
1.2535
Pr(>|t|)
0.357100
0.000653 ***
‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9928 on 5 degrees of freedom
Multiple R-squared: 0.919, Adjusted R-squared: 0.9028
F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529
Realisationen von βb0 , βb1 , hier: βb0 = 1.14225, βb1 = 0.26417
Standardfehler von βb0 , βb1 , hier: σ
bβc0 = 1.12645, σ
bβc1 = 0.03507
t-Statistiken zu Tests auf Signifikanz, hier: zu β0 : t = 1.014, zu β1 : t = 7.533
p-Werte zu Tests auf Signifikanz, hier: zu β0 : p = 0.3571, zu β1 : p = 0.000653
Ökonometrie (SS 2014)
3 Einfache lineare Regression
Folie 179
Einfache lineare Modelle mit R 3.6
Zusammenhang zwischen p-Werten
zu zweiseitigen und einseitigen Tests bei unter H0 (um Null) symmetrisch verteilter Teststatistik
Erinnerung: t(n)- sowie N(0, 1)-Verteilung sind symmetrisch um Null, für die
zugehörigen Verteilungsfunktionen F gilt also F (x) = 1 − F (−x) für alle
x ∈ R und F (0) = 0.5, F (x) < 0.5 für x < 0 sowie F (x) > 0.5 für x > 0.
Für die p-Werte pz der zweiseitigen Tests auf den Mittelwert bei bekannter
(Gauß-Test) sowie unbekannter (t-Test) Varianz gilt daher bekanntlich
2 · F (x)
falls x < 0
pz = 2 · min{F (x), 1 − F (x)} =
,
2 · (1 − F (x)) falls x ≥ 0
wobei x den realisierten Wert der Teststatistik sowie F die
Verteilungsfunktion der Teststatistik unter H0 bezeichne.
Für die p-Werte pl = F (x) zum linksseitigen sowie pr = 1 − F (x) zum
rechtsseitigen Test bei realisierter Teststatistik x gelten demnach die
folgenden Zusammenhänge:
 p

z

 1 − pz falls x < 0
falls x < 0
2
2
pl =
sowie
pr =
 1 − pz falls x ≥ 0
 pz
falls x ≥ 0
2
2
Somit auch p-Werte zu einseitigen Tests aus R-Output bestimmbar!
Ökonometrie (SS 2014)
.
Folie 180
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression I
Bisher: Annahme der Gültigkeit eines einfachen linearen Modells
yi = β0 + β1 · xi + ui ,
i ∈ {1, . . . , n},
mit
I
I
der abhängigen Variablen (Regressand) yi ,
einer unabhängigen, erklärenden Variablen (Regressor) xi , wobei
1
2
I
xi als deterministisch angenommen wird und
sX2 > 0 gelten muss,
der Störgröße ui , wobei
1
2
3
4
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) angenommen wird.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 181
Multiples lineares Modell 4.1
Zusammenfassung: Einfache lineare Regression II
Auf Grundlage dieses Annahmen-Komplexes:
I
I
I
Verwendung der KQ-Methode, um eine geschätze Regressionsgerade
y = βb0 + βb1 · x mit den zugehörigen KQ-Prognosen ybi = βb0 + βb1 · xi und den
bi = yi − ybi zu bestimmen.
zugehörigen KQ-Residuen u
Bestimmung von Konfidenzintervallen und Durchführung von Hypothesentests
für die Regressionsparameter β0 und β1 .
Bestimmung von bedingten Punktprognosen und Prognoseintervallen für die
abhängige Variable y zu neuen“ Werten der unabhängigen, erklärenden
”
Variablen x.
Problem: (Perfekte) Validität der Ergebnisse nur, wenn Modell korrekt und
Annahmen-Komplex erfüllt ist!
Im Folgenden:
I
I
I
Erweiterung des einfachen linearen Regressionsmodells zum multiplen linearen
Regressionsmodell
Untersuchung der Konsequenz von Annahmeverletzungen
Geeignete Reaktion auf bzw. geeignete Verfahren im Fall von
Annahmeverletzungen
Ökonometrie (SS 2014)
Folie 182
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen I
Der omitted variable bias“
”
Eine Möglichkeit der Verletzung der Annahmen des einfachen linearen
Modells: Modell ist tatsächlich komplexer, yi hänge auch von einer weiteren
erklärenden Variablen e
xi linear in der Gestalt
yi = β0 + β1 · xi + β2 · e
xi + i ,
i ∈ {1, . . . , n},
mit β2 6= 0 ab, wobei die üblichen Annahmen für die Störgrößen i
(insbesondere E(i ) ≡ 0) gelten sollen.
Wird statt des komplexeren Modells die Gültigkeit eines einfachen linearen
Modells angenommen, ist die Abhängigkeit von e
xi offensichtlich in der
Störgröße ui subsummiert, man erhält die Darstellung
yi = β0 + β1 · xi + β2 · e
x + i ,
}
| {zi
i ∈ {1, . . . , n}.
ui
Damit gilt im einfachen Modell jedoch E(ui ) = β2 · e
xi , die Annahme E(ui ) ≡ 0
ist also verletzt, sobald e
xi 6= 0 für mindestens ein i ∈ {1, . . . , n} gilt!
Ökonometrie (SS 2014)
Folie 183
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Konsequenz bei weggelassener erklärender Variablen II
Der omitted variable bias“
”
Werden trotz dieser Annahmenverletzung Parameterschätzer im einfachen
linearen Modell bestimmt, so erhält man beispielsweise für βb1
βb1 =
n
n
X
X
(xi − x)
(xi − x)
·
y
=
· (β0 + β1 · xi + β2 · e
xi + i )
i
nsX2
nsX2
i=1
= β0
n
X
i=1
|
i=1
n
X
n
n
X
(xi − x)e
(xi − x)
(xi − x)xi
xi X (xi − x)i
+β1
+β2
+
nsX2
nsX2
nsX2
nsX2
i=1
i=1
i=1
{z
}
|
{z
}
|
{z
}
=0
und damit E(βb1 ) = β1 + β2
(sX ,Xe
!
=1
e
! sX ,X
s2
X
=
sX ,Xe
.
sX2
e .)
bezeichnet wie üblich die empirische Kovarianz zwischen X und X
Damit ist βb1 nicht mehr erwartungstreu für β1 , falls sX ,Xe 6= 0 gilt, auch
Konfidenzintervalle und Tests werden dann unbrauchbar!
Ökonometrie (SS 2014)
Folie 184
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell I
Lösung des Problems durch Schaffung der Möglichkeit, weitere erklärende
Variablen einzubeziehen.
Erweiterung des einfachen linearen Modells um zusätzliche Regressoren
x2i , . . . , xKi zum multiplen linearen Modell
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
i ∈ {1, . . . , n},
bzw. in Matrixschreibweise
y = Xβ + u
mit
 
y1
 
y =  ...  ,
yn

1

X =  ...
1
x11
..
.
···
x1n
···

xK 1
..  ,
. 
xKn


β0
 β1 
 
β =  . ,
 .. 
βK
 
u1
 
u =  ...  .
un
Ökonometrie (SS 2014)
Folie 185
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell II
Modellannahmen im multiplen linearen Regressionsmodell übertragen sich (zum
Teil verallgemeinert) aus einfachem linearen Modell:
Für die K unabhängigen, erklärenden Variablen (Regressoren) x1i , . . . , xKi
wird angenommen, dass
1
2
die xki deterministisch sind (für i ∈ {1, . . . , n}, k ∈ {1, . . . , K }) und dass
sich für kein k ∈ {1, . . . , K } der Regressor xki als (für alle i ∈ {1, . . . , n} feste)
Linearkombination einer Konstanten und der übrigen Regressoren darstellen
lässt. Äquivalent dazu:
F
F
Die Regressormatrix X hat vollen (Spalten-)Rang K + 1.
x1i lässt sich nicht als Linearkombination einer Konstanten und der übrigen
Regressoren x2i , . . . , xKi darstellen.
Für die Störgrößen ui wird
1
2
3
4
E(ui ) ≡ 0 bzw. E(u) = 0 mit dem Nullvektor 0 := (0, . . . , 0)0 ,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j sowie meist darüberhinaus eine
gemeinsame Normalverteilung der ui ,
iid
damit insgesamt ui ∼ N(0, σ 2 ) bzw. u ∼ N(0, σ 2 In ) mit der
(n × n)-Einheitsmatrix In angenommen.
Ökonometrie (SS 2014)
Folie 186
4 Multiple lineare Regression
Multiples lineares Modell 4.1
Das multiple lineare Regressionsmodell III
Für den Erwartungswert von yi gilt nun
E (yi ) = β0 + β1 x1i + . . . + βK xKi ,
i ∈ {1, . . . , n},
die Regressionsgerade aus dem einfachen linearen Modell wird also nun zu
einer Regressionsebene, beschrieben durch die Regressions-Parameter
β0 , . . . , β K .
Der Regressionsparameter (und Steigungskoeffizient) βk gibt nun für
k ∈ {1, . . . , K } die erwartete Änderung (ohne den Einfluss der Störgröße ui )
von yi an, die aus der Erhöhung des Regressors xki um eine Einheit resultiert,
wenn alle anderen Regressoren konstant gehalten werden.
Zur Schätzung der Parameter des multiplen Regressionsmodells wird
wiederum die Methode der Kleinsten Quadrate (Least Squares, auch
Ordinary Least Squares) verwendet.
Ökonometrie (SS 2014)
Folie 187
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell I
Die Anwendung der KQ-Methode im multiplen linearen Modell führt zur
Suche nach βb0 , βb1 , . . . , βbK ∈ R mit
n
X
(yi − (βb0 + βb1 xi1 + . . . + βbK xKi ))2
i=1
!
=
min
β0 ,β1 ,...,βK ∈R
n
X
i=1
(yi − (β0 + β1 xi1 + . . . + βK xKi ))2 .
In Matrixschreibweise ist also der Vektor βb = (βb0 , βb1 , . . . , βbK )0 ∈ RK +1
gesucht mit
!
b 0 (y − Xβ)
b =
(y − Xβ)
min (y − Xβ)0 (y − Xβ) .
β∈RK +1
(Zu Matrizen A bzw. Vektoren b seien hier und im Folgenden wie üblich mit
A0 bzw. b0 jeweils die transponierten Matrizen bzw. Vektoren bezeichnet.)
Ökonometrie (SS 2014)
Folie 188
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell II
Die Matrixdarstellung erlaubt eine kompakte Lösung der Optimierung:
Für die zu minimierende Funktion
f (β) := (y − Xβ)0 (y − Xβ) = y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ
= y0 y − 2β 0 X0 y + β 0 X0 Xβ
erhält man den Gradienten
∂f (β)
= −2X0 y + 2X0 Xβ = 2(X0 Xβ − X0 y)
∂β
und damit wegen der Invertierbarkeit (!) von X0 X als Lösung von
∂f (β) !
=0
∂β
βb = (X0 X)−1 X0 y ,
die wegen der positiven Definitheit (!) von X0 X auch (einzige) Lösung des
Minimierungsproblems ist.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 189
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell III
Die Invertierbarkeit von X0 X ist gewährleistet, da nach Annahme die
(n × (K + 1))-Matrix X vollen (Spalten-)Rang K + 1 und damit auch die
((K + 1) × (K + 1))-Matrix X0 X vollen Rang K + 1 hat.
Da X vollen (Spalten-)Rang besitzt, ist X0 X außerdem positiv definit.
Eine Verletzung der getroffenen Annahme, dass X vollen (Spalten-)Rang
besitzt, bezeichnet man auch als perfekte Multikollinearität der
Regressormatrix X.
Bei Vorliegen von perfekter Multikollinearität ist die KQ-Methode zwar immer
noch (allerdings nicht wie eben beschrieben!) durchführbar, der optimale
Vektor βb ist allerdings nicht mehr eindeutig bestimmt, der zugehörige
Parametervektor β damit nicht mehr identifiziert.
Perfekte Multikollinearität kann durch (zum Teil offensichtliche)
Unachtsamkeiten bei der Zusammenstellung der Regressoren entstehen
(später mehr!).
Ökonometrie (SS 2014)
Folie 190
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IV
Eine andere Darstellung des KQ-Schätzers βb ist gegeben durch

 
βb1
s11
 ..   ..
 . = .
sK 1
βbK
und
s12
..
.
···
sK 2
···
−1 

s1K
s1Y
..   .. 
.   . 
sKK
sKY
βb0 = y − (βb1 x 1 + . . . + βbK x K )
mit
n
1X
xk =
xki ,
n
y=
1
n
i=1
n
X
n
1X
skj =
(xki − x k )(xji − x j ),
n
yi ,
skY =
i=1
1
n
i=1
n
X
i=1
(xki − x k )(yi − y )
für k, j ∈ {1, . . . , K }.
Ökonometrie (SS 2014)
Folie 191
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell V
Offensichtlich erhält man für K = 1 hiermit die – abgesehen von der leicht
abweichenden Notation – zum KQ-Schätzer im einfachen linearen Modell
übereinstimmende Darstellung
s1Y
βb1 =
s11
sowie
Für K = 2 lässt sich die Darstellung
s22 s1Y − s12 s2Y
,
βb1 =
2
s11 s22 − s12
s11 s2Y − s12 s1Y
βb2 =
,
2
s11 s22 − s12
für die KQ-Schätzer ableiten.
Ökonometrie (SS 2014)
βb0 = y − βb1 x 1 .
βb0 = y − (βb1 x 1 + βb2 x 2 )
Folie 192
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VI
Wie im einfachen linearen Regressionsmodell definiert man zu den
KQ/OLS-geschätzten Parametern βb = (βb0 , βb1 , . . . , βbK )0 mit
ybi := βb0 + βb1 x1i + . . . βbK xKi ,
i ∈ {1, . . . , n}
bzw.
b
y := Xβb
die vom (geschätzten) Modell prognostizierten Werte der abhängigen
Variablen auf der geschätzten Regressionsebene sowie mit
bi := yi − ybi ,
u
i ∈ {1, . . . , n}
b := y − b
u
y
bzw.
die Residuen, also die Abstände (in y -Richtung) der beobachteten Werte der
abhängigen Variablen von den progostizierten Werten auf der geschätzten
Regressionsebene.
Pn
P
bi = 0 sowie ni=1 xki u
bi = 0 für k ∈ {1, . . . , K } bzw.
Es gilt (analog) i=1 u
b = X0 (y − b
X0 u
y) = X0 y − X0 Xβb = X0 y − X0 X(X0 X)−1 X0 y = 0 .
Ökonometrie (SS 2014)
Folie 193
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VII
0 0b
b 0u
b = (Xβ)
b = βbP
Damit
y0 u
X u = 0 sowie
Pn mit
Pb
Pngilt weiter
n
n
bi = i=1 (yi − ybi ) auch i=1 yi = i=1 ybi ⇐⇒ y = yb.
0 = i=1 u
So erhält man
b +b
b
b)0 (b
b) = b
b0 b
y0 y = (b
y+u
y+u
y0 b
y+ u
y +b
y0 u
u0 u
|{z} |{z}
=0
=0
2
und durch Subtraktion von ny 2 = nb
y auf beiden Seiten
2
b0 u
b
y0 y − ny 2 = b
y0 b
y − nb
y +u
und damit insgesamt die bekannte Streuungszerlegung
n
X
(yi − y )2
i=1
|
{z
}
Total Sum of Squares
Ökonometrie (SS 2014)
=
n
X
(b
yi − yb)2
i=1
|
{z
}
Explained Sum of Squares
+
n
X
i=1
bi2
u
.
| {z }
Residual Sum of Squares
Folie 194
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell VIII
Wie im einfachen linearen Modell misst das multiple Bestimmtheitsmaß
Pn
Pn
2
b
u
(b
yi − yb)2
RSS
ESS
2
i
i=1
i=1
P
R = 1 − Pn
=
=
=
1
−
n
2
2
TSS
TSS
i=1 (yi − y )
i=1 (yi − y )
den Anteil der durch den (geschätzten) linearen Zusammenhang erklärten
Streuung an der gesamten Streuung der abhängigen Variablen.
Es gilt weiterhin 0 ≤ R 2 ≤ 1.
Bei der Hinzunahme weiterer erklärender Variablen (Regressoren) in ein
bestehendes lineares Modell kann sich im Laufe der
ätzung der
Pn KQ/OLS-Sch
2
bi , offensichtlich
Zielfunktionswert an der Minimumstelle, RSS = i=1 u
höchstens weiter verringern.
Damit führt die Hinzunahme weiterer (auch eigentlich irrelevanter)
Regressoren höchstens zu einer Zunahme des multiplen Bestimmtheitsmaßes
R 2.
Ökonometrie (SS 2014)
Folie 195
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell IX
Um einen aussagekräftigeren Vergleich der Bestimmtheitmaße eines
ursprünglichen und eines erweiterten Modells durchführen zu können, kann
das adjustierte Bestimmtheitsmaß
2
R := 1 −
1
n−(K +1) · RSS
1
n−1 · TSS
=1−
n−1
RSS
n − (K + 1) TSS
verwendet werden.
Dieses kann sich bei Erweiterung eines Modells um zusätzliche Regressoren
auch verringern (und sogar negativ werden).
Es gilt (offensichtlich) stets
2
R ≤ R2 ≤ 1 .
Ökonometrie (SS 2014)
Folie 196
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell X
2
Bei der Berechnung von R wird die für σ 2 = Var(ui ) erwartungstreue
Schätzfunktion
n
X
b0 u
b
u
RSS
1
2
c
2
bi =
u
=
σ =
n − (K + 1)
n − (K + 1)
n − (K + 1)
i=1
verwendet.
p
c2 dieser
Wie im einfachen linearen Modell wird die positive Wurzel + σ
Schätzfunktion als Standard Error of the Regression (SER) oder residual
standard error bezeichnet.
Die Korrektur um K + 1 Freiheitsgrade erklärt sich dadurch, dass nun K + 1
Beobachtungen nötig sind, um die Regressionsebene (eindeutig) bestimmen
zu können.
Ökonometrie (SS 2014)
Folie 197
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XI
Die Schätzfunktion βb = (X0 X)−1 X0 y ist offensichtlich linear in den yi .
Einsetzen von y = Xβ + u liefert die Darstellung
βb = (X0 X)−1 X0 y = (X0 X)−1 X0 (Xβ + u)
= (X0 X)−1 (X0 X)β + (X0 X)−1 X0 u = β + (X0 X)−1 X0 u
b unter der Annahme E(u) = 0 folgt daraus sofort E(β)
b = β und damit
von β,
die Erwartungstreue von βb für β.
b von βb erhält man mit der obigen
Für die (Varianz-)Kovarianzmatrix V(β)
Darstellung für βb wegen der Symmetrie von (X0 X)−1 weiter
0 h
0 i
0
−1 0
0
−1 0
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X X) X u (X X) X u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 ) X(X0 X)−1
| {z }
=V(u)=σ 2 In
= σ 2 (X0 X)−1 X0 X(X0 X)−1 = σ 2 (X0 X)−1
Ökonometrie (SS 2014)
Folie 198
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XII
b enthält alle Varianzen der Parameterschätzer
Die (symmetrische) Matrix V(β)
βb0 , βb1 , . . . , βbK sowie deren paarweise Kovarianzen in der Gestalt

Var(βb0 )
 Cov(βb1 , βb0 )

b
V(β) = 
..

.
Cov(βbK , βb0 )
Cov(βb0 , βb1 ) · · ·
Var(βb1 )
···
..
..
.
.
Cov(βbK , βb1 ) · · ·

Cov(βb0 , βbK )
Cov(βb1 , βbK )

 .
..

.
Var(βbK )
c2 durch
b = σ 2 (X0 X)−1 kann unter Zuhilfenahme von σ
V(β)
geschätzt werden.
c2 (X0 X)−1
b =σ
b β)
V(
Ökonometrie (SS 2014)
Folie 199
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIII
Man erhält so Schätzwerte für die Varianzen der Schätzer βb0 , βb1 , . . . , βbK
sowie deren paarweise Kovarianzen in der Gestalt


b
b
b
b
b
d
d
d
Var(β0 )
Cov(β0 , β1 ) · · · Cov(β0 , βK )
d b b
d βb1 )
d βb1 , βbK )
 Cov(β1 , β0 )

Var(
· · · Cov(
b =
b β)
 .
V(
..
..
..
..


.


.
.
.
d βbK , βb0 ) Cov(
d βbK , βb1 ) · · ·
Cov(
d βbK )
Var(
b
b β),
Die (positiven) Wurzeln der Hauptdiagonalelemente von V(
q
q
q
d βb0 ), σ
d βb1 ), . . . , σ
d βbK ) ,
σ
bβb0 := Var(
bβb1 := Var(
bβbK := Var(
werden wie üblich als Standardfehler der Parameterschätzer βb0 , βb1 , . . . , βbK
bezeichnet.
Ökonometrie (SS 2014)
Folie 200
4 Multiple lineare Regression
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XIV
Zusammengefasst erhält man unter bisherigen Annahmen an X sowie den
anfangs getroffenen Annahmen
1
2
3
E(ui ) ≡ 0,
Var(ui ) ≡ σ 2 > 0,
Cov(ui , uj ) = 0 für alle i, j mit i 6= j
an die Störgrößen ui , i ∈ {1, . . . , n}, dass
I
I
I
b eine in yi lineare Schätzfunktion ist,
β
b erwartungstreu für β ist,
β
b die Varianz-Kovarianzmatrix V(β)
b = σ 2 (X0 X)−1 besitzt.
β
Der Satz von Gauß-Markov sichert darüberhinaus, dass βb sogar die beste
lineare unverzerrte Schätzfunktion (BLUE) ist.
Unter der zusätzlichen Annahme einer
4
gemeinsamen Normalverteilung der ui
b
erhält man mit der Linearität sofort die Normalverteilungseigenschaft von β,
also βb ∼ N β, σ 2 (X0 X)−1 . Außerdem kann man zeigen, dass βb dann sogar
varianzminial unter allen für β erwartungstreuen Schätzfunktionen ist.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 201
Parameterschätzung 4.2
Schätzung im multiplen linearen Modell XV
Auch ohne Normalverteilungsannahme für die ui kann man unter gewissen
technischen Voraussetzungen (die hier nicht näher ausgeführt werden) zeigen,
dass die Verteilung von βb bei wachsendem Beobachtungsumfang n gegen
eine (mehrdimensionale) Normalverteilung konvergiert.
In der Praxis bedeutet dies, dass man – auch für endliches n – als geeignete
Näherung der Verteilung von βb häufig eine mehrdimensionale
Normalverteilung mit dem Erwartungswertvektor β und der
Varianz-Kovarianzmatrix σ 2 (X0 X)−1 verwenden kann.
Wie gut“ diese Näherung ist, hängt wieder von vom konkreten
”
Anwendungsfall
ab; insbesondere
I
I
steigt die Qualität der Näherung i.d.R. mit wachsendem n,
ist die Näherung umso besser, je ähnlicher die tatsächliche Verteilung der ui
einer Normalverteilung ist.
In der Praxis beurteilt man die Nähe“ der Verteilung der (unbeobachteten!)
”
Störgrößen ui zu einer Normalverteilung mit Hilfe der (geschätzten!)
bi .
Residuen u
Ökonometrie (SS 2014)
Folie 202
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Konfidenzintervalle und Tests für einzelne Parameter
Konfidenzintervalle und Tests für einzelne Parameter können ganz analog
zum einfachen linearen Modell konstruiert werden.
Für die Komponenten βbk , k ∈ {0, . . . , K }, des Parameterschätzers βb gilt bei
Normalverteilungsannahme an die ui exakt (sonst ggf. approximativ)
βbk − βk
∼ t(n − (K + 1)),
σ
bβbk
k ∈ {0, . . . , K }
Hieraus ergeben sich für k ∈ {0, . . . , K } unmittelbar die zum einfachen
linearen Modell analogen Formeln“ der (ggf. approximativen)
”
(symmetrischen) Konfidenzintervalle für βk zum Konfidenzniveau 1 − α
bzw. zur Vertrauenswahrscheinlichkeit 1 − α als
h
i
βbk − tn−(K +1);1− α2 · σ
bβbk , βbk + tn−(K +1);1− α2 · σ
bβbk
Ebenfalls analog erhält man t-Tests für die Regressionsparameter
β0 , β1 , . . . , βK .
Ökonometrie (SS 2014)
Folie 203
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Zusammenfassung: t-Test für den Parameter βk
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : βk = βk0
H1 : βk 6= βk0
Nullhypothese
Gegenhypothese
H0 : βk ≤ βk0
H1 : βk > βk0
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
t=
H0 : βk ≥ βk0
H1 : βk < βk0
βbk − βk0
σ
bβbk
t für βk = βk0 (näherungsweise) t(n − (K + 1))-verteilt
q
h
i
0
−1 0
c2 [(X0 X)−1 ]
b
βk = (X X) X y
,σ
bβbk = σ
k+1,k+1 mit
k+1
c2 =
σ
b0 b
u u
,
n−(K +1)
wobei b
u = y − X(X0 X)−1 X0 y
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 204
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias I
Beispieldatensatz mit Daten zur Lohnhöhe (yi ), zu den Ausbildungsjahren
über den Hauptschulabschluss hinaus (x1i ) sowie zum Alter in Jahren (x2i )
von n = 20 Mitarbeitern eines Betriebs:
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
1
2
3
4
5
6
7
8
9
10
1250
1
28
1950
9
34
2300
11
55
1350
3
24
1650
2
42
1750
1
43
1550
4
37
1400
1
18
1700
3
63
2000
4
58
11
12
13
14
15
16
17
18
19
20
1350
1
30
1600
2
43
1400
2
23
1500
3
21
2350
6
50
1700
9
64
1350
1
36
2600
7
58
1400
2
35
1550
2
41
i
Lohnhöhe yi
Ausbildung x1i
Alter x2i
(vgl. von Auer, Ludwig: Ökonometrie – Eine Einführung, 6. Aufl., Tabelle 13.1)
Es soll nun angenommen werden, dass das multiple lineare Regressionsmodell
iid
ui ∼ N(0, σ 2 ),
yi = β0 + β1 x1i + β2 x2i + ui ,
i ∈ {1, . . . , 20},
mit den üblichen Annahmen korrekt spezifiziert ist.
Ökonometrie (SS 2014)
Folie 205
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias II
Zunächst wird (fälschlicherweise!) die Variable Alter“ (x2i ) weggelassen und
”
die Lohnhöhe“ (yi ) nur mit der Variable Ausbildung
“ (x1i ) erklärt:
”
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung)
Residuals:
Min
1Q
-458.19 -140.36
Median
-68.94
3Q
87.32
Max
620.37
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1354.66
94.22 14.377 2.62e-11 ***
Ausbildung
89.28
19.82
4.505 0.000274 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 264.6 on 18 degrees of freedom
Multiple R-squared: 0.5299, Adjusted R-squared: 0.5038
F-statistic: 20.29 on 1 and 18 DF, p-value: 0.0002742
Ökonometrie (SS 2014)
Folie 206
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias III
Danach wird das korrekte, vollständige Modell geschätzt:
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter)
Residuals:
Min
1Q
-569.50 -120.79
Median
-5.14
3Q
73.12
Max
519.26
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.806
164.473
6.249 8.81e-06 ***
Ausbildung
62.575
21.191
2.953
0.0089 **
Alter
10.602
4.577
2.317
0.0333 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 237.4 on 17 degrees of freedom
Multiple R-squared: 0.6427, Adjusted R-squared: 0.6007
F-statistic: 15.29 on 2 and 17 DF, p-value: 0.0001587
Ökonometrie (SS 2014)
Folie 207
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias IV
Geschätzte Regressionsebene mit Residuen
●
●
●
●
●
●
●
●
●
●
●
●
●
70
60
●●
●
●
50
●
Alter x2i
1200 1400 1600 1800 2000 2200 2400 2600
Lohnhöhe yi
●
40
●
30
20
10
0
2
4
6
8
10
12
Ausbildung x1i
Ökonometrie (SS 2014)
Folie 208
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias V
Gegenüberstellung der Schätzergebnisse:
Absolutglied
Ausbildung
Alter
falsches Modell
korrektes Modell
1354.658
94.222
1027.806
164.473
89.282
19.82
62.575
21.191
βb0
σ
bβb0
βb1
σ
bβb1
βb2
σ
bβb2
10.602
4.577
b0 u
b
u
SER
R2
2
R
1260028
264.578
0.5299
0.5038
957698
237.35
0.6427
0.6007
Ökonometrie (SS 2014)
Folie 209
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VI
Die Regressoren x1i (Ausbildungsjahre) und x2i (Alter) sind positiv korreliert,
es gilt (mit den Bezeichnungen von Folie 191) genauer
s12 = 22.445
bzw.
√
s12
√
s11 s22
=√
22.445
√
= 0.544
8.91 · 191.028
Außerdem hat der Regressor Alter“ (neben dem Regressor Ausbildung“) im
”
”
korrekten Modell einen signifikanten Regressionskoeffizienten.
Im Modell mit ausgelassener Variablen x2i (Alter) spiegelt der geschätzte
Koeffizient zum Regressor Ausbildung“ damit nicht den isolierten“ Effekt der
”
”
Ausbildung wider, sondern einen kombinierten“ Effekt.
”
Wie man zeigen (und im Beispiel leicht nachrechnen) kann, erhält man
(analog zum Resultat von Folie 184) durch
s12 b
22.445
βb1 +
β2 = 62.575 +
· 10.602 = 89.282
s11
8.91
aus den Schätzergebnissen des korrekten Modells den Punktschätzer für β1
im falschen Modell mit ausgelassenem Regressor.
Ökonometrie (SS 2014)
Folie 210
4 Multiple lineare Regression
Konfidenzintervalle und Tests 4.3
Beispiel: Multiples Modell/Omitted Variable Bias VII
Auch die Punkt- und Intervallschätzung von β0 sowie Hypothesentests für die
Regressionsparameter unterliegen im Modell mit ausgelassener Variablen
vergleichbaren Verzerrungen.
Geht man fälschlicherweise davon aus, die Annahmen des linearen
Regressionsmodell im Modell mit ausgelassenem Regressor erfüllt und mit der
Modellschätzung den isolierten Effekt des Regressors Ausbildung“ gemessen
”
zu haben, so führt dies zu
I
I
I
verzerrten Punktschätzern,
verschobenen und in der Breite verzerrten Konfidenzintervallen sowie
wertlosen Hypothesentests
für den isolierten Effekt (da man tatsächlich einen kombinierten Effekt
gemessen hat).
Ökonometrie (SS 2014)
Folie 211
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen I
Wie im einfachen linearen Regressionsmodell: Erweiterung der
Modellannahme
yi = β0 + β1 x1i + . . . + βK xKi + ui ,
iid
ui ∼ N(0, σ 2 ),
i ∈ {1, . . . , n}
auf (zumindest) einen weiteren Datenpunkt (y0 , x10 , . . . , xK 0 ), bei dem jedoch
y0 nicht beobachtet wird, sondern lediglich die Werte der Regressoren
x10 , . . . , xK 0 bekannt sind.
Ziel ist wiederum die Prognose von y0 = β0 + β1 x10 + . . . βK xK 0 + u0 bzw.
E(y0 ) = β0 + β1 x10 + . . . βK xK 0 auf Grundlage von x10 , . . . , xK 0 .
Hierzu definiert man wie im einfachen linearen Modell mit
yb0 := βb0 + βb1 x10 + . . . + βbK xK 0
[
b
b
b
bzw. E(y
0 ) := β0 + β1 x10 + . . . + βK xK 0
die (bedingte) Punktprognose yb0 für y0 gegeben x10 , . . . , xK 0 bzw.
[
die (bedingte) Punktprognose E(y
0 ) für E(y0 ) gegeben x10 , . . . , xK 0 .
Ökonometrie (SS 2014)
Folie 212
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen II
Die Untersuchung der Eigenschaften der bedingten Punktprognosen
vereinfacht sich durch die Definition des Vektors
0
x0 = 1 x10 · · · xK 0 ,
der (transponiert) analog zu einer Zeile der Regressormatrix X aufgebaut ist.
Für die (bedingte) Punktprognose für y0 bzw. E(y0 ) gegeben x0 erhält man
so die kompakte Darstellung
yb0 = x0 0 βb
bzw.
0b
[
E(y
0 ) = x0 β .
Die Erwartungstreue der (bedingten) Punktprognosen ergibt sich damit
unmittelbar aus der Erwartungstreue von βb für β und E(u0 ) = 0:
b = x0 0 E(β)
b = x0 0 β = E(y0 )
E(x0 0 β)
[ = E(E(y0 )) ]
Ökonometrie (SS 2014)
Folie 213
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen III
Wie im einfachen linearen Modell resultiert der Prognosefehler
0b
0
0 b
[
eE := E(y
0 ) − E(y0 ) = x0 β − x0 β = x0 (β − β)
b während
nur aus dem Fehler bei der Schätzung von β durch β,
e0 := yb0 − y0 = x0 0 βb − (x0 0 β + u0 ) = x0 0 (βb − β) − u0
zusätzlich die zufällige Schwankung von u0 ∼ N(0, σ 2 ) enthält.
[
Für die Varianz des Prognosefehlers eE erhält man (da E(E(y
0 ) − E(y0 )) = 0)
σe2E
h
i
0 b
2
[
:= Var(eE ) = Var(E(y0 ) − E(y0 )) = E [x0 (β − β)]
h
i
h
i
(!)
0 b
0 b
0
0 b
0
b
= E (x0 (β − β))(x0 (β − β)) = E x0 (β − β)(β − β) x0
b 0 = σ 2 x0 0 (X0 X)−1 x0 .
= x0 0 V(β)x
Ökonometrie (SS 2014)
Folie 214
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IV
Für die Varianz des Prognosefehlers e0 erhält man (wegen E(b
y0 − y0 ) = 0,
E(βb − β) = 0 und E(u0 ) = 0)
h
i
2
0 b
2
σe0 := Var(e0 ) = Var(b
y0 − y0 ) = E [x0 (β − β) − u0 ]
h
i
0 b
2
0 b
2
= E [x0 (β − β)] − 2x0 (β − β)u0 + u0
h
i
h
i
0
0 b
2
b
= E [x0 (β − β)] −2x0 E (β − β)u0 + E(u02 )
{z
}
{z
} | {z2 }
|
|
=σ 2 x0 0 (X0 X)−1 x0
=σ
b
=Cov(β−β,u
0 )=0
= σ 2 1 + x0 0 (X0 X)−1 x0 .
Ökonometrie (SS 2014)
Folie 215
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen V
[
b
Wegen der Linearität von yb0 bzw. E(y
0 ) in β überträgt sich die
[
Normalverteilungseigenschaft von βb auf yb0 bzw. E(y
0 ), es gilt also
yb0 ∼ N y0 , σe20
2
[
E(y
0 ) ∼ N E(y0 ), σeE
bzw.
.
Wie im einfachen linearen Regressionsmodell muss das unbekannte σ 2 durch
c2 geschätzt werden, mit
σ
c2 e := σ
c2 1 + x0 0 (X0 X)−1 x0 σ
0
erhält man mit σ
be0 :=
q
bzw.
c2 e und σ
σ
beE :=
0
yb0 − y0
∼ t(n − (K + 1))
σ
be0
bzw.
q
c2 e := σ
c2 x0 0 (X0 X)−1 x0
σ
E
c2 e die Verteilungsaussagen
σ
E
[
E(y
0 ) − E(y0 )
∼ t(n − (K + 1)) ,
σ
beE
aus denen sich Prognoseintervalle für y0 und E(y0 ) konstruieren lassen.
Ökonometrie (SS 2014)
Folie 216
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VI
Intervallprognosen für y0 zur Vertrauenswahrscheinlichkeit 1 − α erhält man
also in der Form
h
i
yb0 − tn−(K +1);1− α2 · σ
be0 , yb0 + tn−(K +1);1− α2 · σ
be0
h
i
√
√
0 (X0 X)−1 x , x 0 β+t
0 (X0 X)−1 x
b
b
α
α
·b
σ
·b
σ
1+x
1+x
= x0 0 β−t
.
0
0
0
0
0
n−(K +1);1−
n−(K +1);1−
2
2
Intervallprognosen für E(y0 ) zur Vertrauenswahrscheinlichkeit 1 − α (auch
interpretierbar als Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ))
erhält man entsprechend in der Form
h
i
[
[
α
α
E(y0 ) − tn−(K +1);1− 2 · σ
beE , E(y0 ) + tn−(K +1);1− 2 · σ
beE
h
i
√
√
b
b
= x0 0 β−t
σ x0 0 (X0 X)−1 x0 , x0 0 β+t
σ x0 0 (X0 X)−1 x0
n−(K +1);1− α ·b
n−(K +1);1− α ·b
2
2
.
Ökonometrie (SS 2014)
Folie 217
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VII
Eine Punktprognose für die (erwartete) Lohnhöhe eines 38-jährigen
Mitarbeiters, der nach dem Hauptschulabschluss weitere 4 Ausbildungsjahre
absolviert
hat, erh
0 ält man im geschätzten Modell aus Folie 207 mit
x0 = 1 4 38 als
0b
[
yb0 = E(y
0 ) = x0 β = 1
4


1027.806
38  62.575  = 1680.978 .
10.602
Im Beispiel aus Folie 207 gilt weiterhin

0.4801866
0.0081102
0
−1

0.0079709
(X X) = 0.0081102
−0.0114619 −0.0009366
und σ
b = 237.35.
Ökonometrie (SS 2014)

−0.0114619
−0.0009366
0.0003718
Folie 218
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen VIII
Mit
x0 0 (X0 X)−1 x0 = 1
4

0.4801866
38  0.0081102
−0.0114619
= 0.0536441
 
−0.0114619
1
−0.0009366  4 
0.0003718
38
0.0081102
0.0079709
−0.0009366
erhält man weiter
p
√
σ
be0 = σ
b 1 + x0 0 (X0 X)−1 x0 = 237.35 · 1 + 0.0536441 = 243.6331
und
σ
beE = σ
b
p
x0 0 (X0 X)−1 x0 = 237.35 ·
√
0.0536441 = 54.9731 .
Ökonometrie (SS 2014)
Folie 219
4 Multiple lineare Regression
Punkt- und Intervallprognosen 4.4
Punkt- und Intervallprognosen IX
Insgesamt erhält man für α = 0.05 schließlich das Prognoseintervall
h
i
yb0 − t20−(2+1);1− 0.05 · σ
be0 , yb0 + t20−(2+1);1− 0.05 · σ
be0
2
2
= [yb0 − t17;0.975 · σ
be0 , yb0 + t17;0.975 · σ
be0 ]
= [1680.978 − 2.1098 · 243.6331 , 1680.978 + 2.1098 · 243.6331]
= [1166.961 , 2194.995]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für y0 gegeben x10 = 4 und
x20 = 38.
Entsprechend erhält man für α = 0.05 das Prognoseintervall
h
i
[
[
E(y0 ) − t20−(2+1);1− 0.05
·σ
beE , E(y0 ) + t20−(2+1);1− 0.05
·σ
beE
2
2
= [1680.978 − 2.1098 · 54.9731 , 1680.978 + 2.1098 · 54.9731]
= [1564.996 , 1796.96]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38.
Ökonometrie (SS 2014)
Folie 220
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen I
Neben Tests für einzelne Regressionsparameter sind auch Tests (und
Konfidenzintervalle) für Linearkombinationen von Regressionsparametern
problemlos möglich.
iid
Bei Vorliegen der Normalverteilungseigenschaft ui ∼ N(0, σ 2 ) bzw.
u ∼ N(0, σ 2 In ) gilt bekanntlich
βb ∼ N β, σ 2 (X0 X)−1
,
und auch ohne Normalverteilungsannahme an die ui ist die approximative
Verwendung einer (mehrdimensionalen) Normalverteilung für βb oft sinnvoll.
•
Damit gilt allerdings nicht nur βbk ∼ N(βk , σ 2 ) bzw. βbk ∼ N(βk , σ 2 ) für
k ∈ {0, . . . , K }, sondern darüberhinaus, dass jede beliebige Linearkombination
der Koeffizientenschätzer βb0 , βb1 , . . . , βbK (näherungsweise) normalverteilt ist.
Ökonometrie (SS 2014)
Folie 221
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen II
Tests über einzelne Linearkombinationen von Regressionsparametern lassen
sich mit Hilfe von K + 1 Koeffizienten a0 , a1 , . . . , aK ∈ R für die Parameter
β0 , β1 , . . . , βK sowie einem Skalar c ∈ R in den Varianten
H0 :
K
X
ak βk = c
H0 :
k=0
H1 :
K
X
k=0
K
X
k=0
vs.
ak βk 6= c
H1 :
K
X
ak βk ≤ c
vs.
H1 : a0 β 6= c
ak βk ≥ c
K
X
ak βk < c
k=0
vs.
ak βk > c
H1 :
k=0
vs.
k=0
bzw. in vektorieller Schreibweise mit a := a0
H0 : a0 β = c
H0 :
K
X
a1
···
aK
0
als
H0 : a0 β ≤ c
H0 : a0 β ≥ c
H1 : a0 β > c
H1 : a0 β < c
vs.
vs.
formulieren.
Ökonometrie (SS 2014)
Folie 222
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Tests einzelner linearer Hypothesen III
Mit den bekannten Rechenregeln“ für die Momente von Linearkombinationen
”
eines Zufallsvektors (vgl. Folie 50) erhält man zunächst
a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a
•
bzw. a0 βb ∼ N a0 β, σ 2 a0 (X0 X)−1 a .
Ersetzt man die unbekannte Störgrößenvarianz σ 2 wie üblich durch den
c2 , so erhält man die Verteilungsaussage
(erwartungstreuen) Schätzer σ
a0 βb − a0 β
p
∼ t(n − (K + 1))
σ
b a0 (X0 X)−1 a
bzw.
a0 βb − a0 β
•
p
∼ t(n − (K + 1)) ,
σ
b a0 (X0 X)−1 a
woraus sich in gewohnter Weise Konfidenzintervalle und Tests konstruieren
lassen.
Ökonometrie (SS 2014)
Folie 223
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
p
σ
b a0 (X0 X)−1 a
t für a0 β = c (näherungsweise) t(n − (K + 1))-verteilt
t=
c2 =
b = (X0 X)−1 X0 y, σ
β
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 224
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese I
Im vorangegangenen Beispiel (Lohnhöhe erklärt durch Ausbildung und Alter)
kann (im korrekt spezifizierten Modell) zum Beispiel getestet werden, ob der
(isolierte) Effekt eines weiteren Ausbildungsjahres mehr als doppelt so groß
wie der (isolierte) Effekt eines zusätzlichen Lebensjahres ist, also ob
β1 > 2 · β2 gilt.
Die passende Hypothesenformulierung lautet in diesem Fall
H0 : β1 − 2 · β2 ≤ 0
gegen
H1 : β1 − 2 · β2 > 0
gegen
H1 : a0 β > c
bzw. in der bisherigen Schreibweise
mit a = 0
1
H0 : a0 β ≤ c
0
−2 und c = 0.
Ökonometrie (SS 2014)
Folie 225
4 Multiple lineare Regression
Tests einzelner linearer Hypothesen 4.5
Beispiel: Test einer einzelnen linearen Hypothese II
Mit (X0 X)−1 und σ
b wie auf Folie 218 angegeben erhält man zunächst

 
0.4801866
0.0081102
−0.0114619
0
0
0
−1
0.0079709 −0.0009366  1 
a (X X) a = 0 1 −2  0.0081102
−0.0114619 −0.0009366 0.0003718
−2
= 0.013204
und mit a0 βb = 0
t=
1


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
41.371 − 0
a0 βb − c
p
√
=
= 1.5169 .
237.35 · 0.013204
σ
b a0 (X0 X)−1 a
H0 kann hier zum Signifikanzniveau α = 0.05 nicht abgelehnt werden, da
t = 1.5169 ∈
/ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2014)
Folie 226
4 Multiple lineare Regression
Konfidenzintervalle für Linearkombinationen 4.6
Konfidenzintervalle für (einzelne) Linearkombinationen
h
Ein (ggf. approximatives) symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man auf vergleichbare Art und Weise durch:
a βb − tn−(K +1);1− α2
0
i
p
p
0b
0
0
−1
0
0
−1
·σ
b a (X X) a , a β + tn−(K +1);1− α2 · σ
b a (X X) a
Im vorangegangenen Beispiel erhält
man somit
0 ein Konfidenzintervall für
0
β1 − 2 · β2 , also für a β mit a = 0 1 −2 , zum Konfidenzniveau
1 − α = 0.95 unter Verwendung der bisherigen Zwischenergebnisse sowie von
t17;0.975 = 2.11 durch:
h
i
p
p
0b
0
0
0
−1
0
0
−1
b
a β − tn−(K +1);1− α2 · σ
b a (X X) a , a β + tn−(K +1);1− α2 · σ
b a (X X) a
h
i
√
√
= 41.371 − 2.11 · 237.35 0.013204 , 41.371 + 2.11 · 237.35 0.013204
= [−16.1762 , 98.9182]
Ökonometrie (SS 2014)
Folie 227
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen I
Neben einzelnen linearen Hypothesen können auch mehrere lineare
Hypothesen simultan überprüft werden.
Die Nullhypothese H0 solcher Tests enthält L lineare
(Gleichheits-)Restriktionen in der Gestalt
a10 β0 + a11 β1 + . . . + a1K βK = c1
a20 β0 + a21 β1 + . . . + a2K βK = c2
..
..
..
.
.
.
aL0 β0 + aL1 β1 + . . . + aLK βK = cL
bzw.
K
X
k=0
Ökonometrie (SS 2014)
alk βk = cl
für l ∈ {1, . . . , L} .
Folie 228
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen II
0
Mit dem L-dimensionalen Vektor c := c1 · · · cL und der
(L × (K + 1))-Matrix


a10 a11 · · · a1K

..
.. 
A :=  ...
.
. 
aL0 aL1 · · · aLK
lässt sich die Nullhypothese auch als Aβ = c schreiben.
H1 ist (wie immer) genau dann erfüllt, wenn H0 verletzt ist, hier also wenn
mindestens eine Gleichheitsrestriktion nicht gilt.
Da Vektoren genau dann übereinstimmen, wenn alle Komponenten gleich
sind, kann das Hypothesenpaar also in der Form
H0 : Aβ = c
gegen
H1 : Aβ 6= c
kompakt notiert werden.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 229
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen III
Zur Konstruktion eines Hypothesentests fordert man zunächst, dass A weder
redundante noch zu viele“ Linearkombinationen enthält, dass A also vollen
”
Zeilenrang L besitzt.
Eine geeignete Testgröße zur gemeinsamen Überprüfung der L linearen
Restriktionen aus der Nullhypothese ist dann
.
0
−1 0 −1
0
b
b
(Aβ − c) A(X X) A
(Aβ − c) L
F =
b0 u
b/(n − (K + 1))
u
h
i−1
0 c
0
−1 0
2
b
(Aβ − c) σ A(X X) A
(Aβb − c)
=
.
L
Man kann zeigen, dass F bei Gültigkeit von H0 : Aβ = c unter den
bisherigen Annahmen (einschließlich der Annahme u ∼ N(0, σ 2 In )) einer
sogenannten F -Verteilung mit L Zähler- und n − (K + 1)
Nennerfreiheitsgraden folgt, in Zeichen F ∼ F (L, n − (K + 1)).
Ökonometrie (SS 2014)
Folie 230
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
(Simultane) Tests mehrerer linearer Hypothesen IV
Die F -Statistik aus Folie 230 ist im Wesentlichen eine (positiv definite)
quadratische Form in den empirischen Verletzungen“ Aβb − c der
”
Nullhypothese.
Besonders große Werte der F -Statistik sprechen also gegen die Gültigkeit der
Nullhypothese.
Entsprechend bietet sich als kritischer Bereich zum Signifikanzniveau α
K = (FL,n−(K +1);1−α , ∞)
an, wobei mit Fm,n;p das p-Quantil der F (m, n)-Verteilung (F -Verteilung mit
m Zähler- und n Nennerfreiheitsgraden) bezeichnet ist.
Auch bei Verletzung der Normalverteilungsannahme ist eine approximative
Annahme der F (L, n − (K + 1))-Verteilung (unter H0 !) und damit ein
approximativer Test sinnvoll.
Ökonometrie (SS 2014)
Folie 231
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Grafische Darstellung einiger F (m, n)-Verteilungen
für m, n ∈ {2, 5, 10}
0.0
0.2
0.4
f(x)
0.6
0.8
1.0
F(2, 2)
F(5, 2)
F(10, 2)
F(2, 5)
F(5, 5)
F(10, 5)
F(2, 10)
F(5, 10)
F(10, 10)
0
1
2
3
4
x
Ökonometrie (SS 2014)
Folie 232
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
0.95-Quantile der F (m, n)-Verteilungen Fm,n;0.95
n\m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
40
50
100
150
1
161.448
18.513
10.128
7.709
6.608
5.987
5.591
5.318
5.117
4.965
4.844
4.747
4.667
4.600
4.543
4.494
4.451
4.414
4.381
4.351
4.171
4.085
4.034
3.936
3.904
2
199.500
19.000
9.552
6.944
5.786
5.143
4.737
4.459
4.256
4.103
3.982
3.885
3.806
3.739
3.682
3.634
3.592
3.555
3.522
3.493
3.316
3.232
3.183
3.087
3.056
3
215.707
19.164
9.277
6.591
5.409
4.757
4.347
4.066
3.863
3.708
3.587
3.490
3.411
3.344
3.287
3.239
3.197
3.160
3.127
3.098
2.922
2.839
2.790
2.696
2.665
4
224.583
19.247
9.117
6.388
5.192
4.534
4.120
3.838
3.633
3.478
3.357
3.259
3.179
3.112
3.056
3.007
2.965
2.928
2.895
2.866
2.690
2.606
2.557
2.463
2.432
5
230.162
19.296
9.013
6.256
5.050
4.387
3.972
3.687
3.482
3.326
3.204
3.106
3.025
2.958
2.901
2.852
2.810
2.773
2.740
2.711
2.534
2.449
2.400
2.305
2.274
6
233.986
19.330
8.941
6.163
4.950
4.284
3.866
3.581
3.374
3.217
3.095
2.996
2.915
2.848
2.790
2.741
2.699
2.661
2.628
2.599
2.421
2.336
2.286
2.191
2.160
7
236.768
19.353
8.887
6.094
4.876
4.207
3.787
3.500
3.293
3.135
3.012
2.913
2.832
2.764
2.707
2.657
2.614
2.577
2.544
2.514
2.334
2.249
2.199
2.103
2.071
8
238.883
19.371
8.845
6.041
4.818
4.147
3.726
3.438
3.230
3.072
2.948
2.849
2.767
2.699
2.641
2.591
2.548
2.510
2.477
2.447
2.266
2.180
2.130
2.032
2.001
Ökonometrie (SS 2014)
Folie 233
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell
Anwendungsvoraussetzungen
exakt: y = Xβ + u mit u ∼ N(0, σ 2 In ),
approx.: y = Xβ + u mit E(u) = 0, V(u) = σ 2 In ,
σ 2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
c2 A(X0 X)−1 A0
b − c)0 σ
b − c)
(Aβ
(Aβ
L
F ist (approx.) F (L, n − (K + 1))-verteilt, falls Aβ = c
c2 =
b = (X0 X)−1 X0 y, σ
β
b
u0 b
u
b
, wobei b
u = y − Xβ
n − (K + 1)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
Folie 234
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Ein spezieller F -Test
auf Signifikanz des Erklärungsansatzes“
”
Eine spezielle, häufig verwendete Ausgestaltung des F -Tests überprüft
(simultan), ob mindestens ein Regressor einen (signifikanten) Effekt auf den
Regressanden hat.
Die Hypothesen lauten also:
H0 : β1 = . . . = βK = 0
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
Die realisierte Teststatistik zu diesem Test, die Anzahl der (Zähler- und
Nenner-)Freiheitsgrade der (F -)Verteilung unter H0 sowie der p-Wert der
realiserten Teststatistik sind üblicherweise Bestandteil von Regressionsoutputs
zu Schätzungen linearer Modelle mit Statistik-Software.
In der Schätzung des korrekt spezifizierten Modells aus Folie 207 liest man
beispielsweise die realisierte Teststatistik F = 15.29, 2 Zähler- und 17
Nennerfreiheitsgrade der F -Verteilung unter H0 sowie den p-Wert 0.0001587
ab.
Ökonometrie (SS 2014)
Folie 235
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik I
Es kann gezeigt werden, dass man unter den getroffenen Annahmen die
realisierte F -Statistik auch berechnen kann, in dem man neben dem
eigentlichen unrestringierten“ Regressionsmodell das sogenannte
”
restringierte“ Regressionsmodell schätzt und die Ergebnisse vergleicht.
”
Die Schätzung des restringierten Modells erfolgt als Lösung des
ursprünglichen KQ-Optimierungsproblems unter der Nebenbedingung
Aβ = c.
Werden mit RSS0 die Summe der quadrierten Residuen bzw. mit R02 das
Bestimmtheitsmaß der restringierten Modellschätzung bezeichnet, lässt sich
die F -Statistik auch als
(RSS0 − RSS)/L
(R 2 − R02 )/L
F =
=
RSS/(n − (K + 1))
(1 − R 2 )/(n − (K + 1))
darstellen, wenn mit RSS, R 2 bzw. K wie üblich die Summe der quadrierten
Residuen, das Bestimmtheitsmaß bzw. die Anzahl der Regressoren des
unrestringierten Modells bezeichnet werden und L die Anzahl der linearen
Restriktionen (Anzahl der Zeilen von A) ist.
Ökonometrie (SS 2014)
Folie 236
4 Multiple lineare Regression
Tests mehrerer linearer Hypothesen 4.7
Alternative Darstellungen der F -Statistik II
Insbesondere wenn die linearen Restriktionen im Ausschluss einiger der
Regressoren bestehen, die Nullhypothese also die Gestalt
für j ∈ J ⊆ {1, . . . , K }
H0 : βj = 0
mit |J| = L
besitzt, kann die Schätzung des restringierten Modells natürlich durch die
Schätzung des entsprechend verkleinerten Regressionsmodells erfolgen.
Im bereits betrachteten Spezialfall J = {1, . . . , K } bzw.
H0 : β1 = . . . = βK = 0
gegen H1 : βk 6= 0 für mind. ein k ∈ {1, . . . , K }
gilt offensichtlich R02 = 0, damit kann die F -Statistik ohne weitere Schätzung
auch durch
R 2 /K
F =
(1 − R 2 )/(n − (K + 1))
ausgewertet werden.
Ökonometrie (SS 2014)
Folie 237
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter I
Konfidenzintervalle für einen Regressionsparameter βk zur
Vertrauenswahrscheinlichkeit 1 − α bestehen aus genau den hypothetischen
Parameterwerten βk0 , zu denen ein (zweiseitiger) Signifikanztest zum
Signifikanzniveau α (mit H0 : βk = βk0 ) die Nullhypothese nicht ablehnt.
Dieses Konzept lässt sich problemlos auf Konfidenzbereiche (simultan) für
mehrere Regressionsparameter erweitern; wegen der resultierenden Gestalt
werden diese Konfidenzellipsen oder ggf. Konfidenzellipsoide genannt.
Für eine Teilmenge J = {j1 , . . . , jL } ⊆ {0, . . . , K } mit |J| = L enthält also ein
Konfidenzbereich für den Parameter(teil)vektor (βj1 , . . . , βjL )0 zum
Konfidenzniveau 1 − α genau die Vektoren (βj01 , . . . , βj0L )0 , für die ein F -Test
zum Signifikanzniveau α mit
H0 : βj1 = βj01 ∧ . . . ∧ βjL = βj0L
diese Nullhypothese nicht verwirft.
Ökonometrie (SS 2014)
Folie 238
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Konfidenzellipsen für mehrere Parameter II
Da der F -Test H0 genau dann nicht verwirft, wenn für die Teststatistik
F =
h
i−1
0 c
0
−1 0
2
b
(Aβ − c) σ A(X X) A
(Aβb − c)
L
≤ FL,n−(K +1);1−α
gilt, wird der Konfidenzbereich zum Niveau 1 − α also durch die Menge
h
i−1
c2 A(X0 X)−1 A0
c ∈ RL (Aβb − c)0 σ
(Aβb − c) ≤ L · FL,n−(K +1);1−α
beschrieben, wobei die Matrix A aus L Zeilen besteht und die Zeile l jeweils
in der (zu βjl gehörenden) (jl + 1)-ten Spalte den Eintrag 1 hat und sonst nur
Nullen beinhaltet.
Konfidenzellipsen bzw. -ellipsoide sind auch für mehrere Linearkombinationen
der Regressionsparameter als Verallgemeinerung der Konfidenzintervalle für
einzelne Linearkombinationen ganz analog konstruierbar, es muss lediglich die
entsprechende (allgemeinere) Matrix A eingesetzt werden.
Ökonometrie (SS 2014)
Folie 239
4 Multiple lineare Regression
Konfidenzellipsen 4.8
Beispiel: Konfidenzellipse für β1 und β2
10
●
0
5
Alter β2
15
20
im korrekt spezifizierten Modell von Folie 207, 1 − α = 0.95
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2014)
Folie 240
4 Multiple lineare Regression
Multikollinearität 4.9
Multikollinearität
Erinnerung: Unter der (gemäß Modellannahmen ausgeschlossenen) perfekten
Multikollinearität versteht man eine perfekte lineare Abhängigkeit unter den
Regressoren (einschließlich des Absolutglieds“).
”
Bei perfekter Multikollinearität ist eine Schätzung des Modells mit dem
vorgestellten Verfahren nicht möglich.
Im Unterschied zur perfekten Multikollinearität spricht man von imperfekter
Multikollinearität, wenn die Regressoren (einschließlich des Absolutglieds“)
”
beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineare
Abhängigkeiten aufweisen.
Eine (konventionelle) Schätzung des Modells ist dann (abgesehen von
numerischen Schwierigkeiten in sehr extremen Fällen) möglich, die Ergebnisse
können aber (i.d.R. unerwünschte) Besonderheiten aufweisen.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 241
Multikollinearität 4.9
Perfekte Multikollinearität I
Perfekte Multikollinearität tritt in linearen Modellen mit Absolutglied (wie
hier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.
Dummy-Variablen falsch spezifiziert werden.
Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1
annehmen.
Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen in
lineare Modelle einbezogen, indem den vorhandenen (!) Ausprägungen
separate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1
annehmen, wenn die entsprechende Ausprägung vorliegt, und 0 sonst.
Wird zu jeder vorhandenen Ausprägung eine solche Dummy-Variable
definiert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert
1, alle anderen den Wert 0.
Damit ist aber offensichtlich die Summe über alle Dummy-Variablen stets
gleich 1 und damit identisch mit dem (und insbesondere linear abhängig zum)
Absolutglied.
Ökonometrie (SS 2014)
Folie 242
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität II
Lösung: (Genau) eine Dummy-Variable wird weggelassen.
Damit nimmt die zu dieser Dummy-Variablen gehörende Ausprägung des
Merkmals eine Art Benchmark“ oder Bezugsgröße ein.
”
Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu den
anderen Merkmalsausprägungen sind dann als Änderung gegenüber dieser
Benchmark zu interpretieren, während der Effekt“ der Benchmark selbst im
”
Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.
Beispiel: Einbeziehung des Merkmals Geschlecht“ mit den beiden (auch im
”
Datensatz auftretenden!) Ausprägungen weiblich und männlich mit Hilfe
einer Dummy-Variablen weiblich (oder alternativ männlich) ist korrekt,
während Aufnahme der beiden Variablen weiblich und männlich
zwangsläufig zu perfekter Multikollinearität führt.
Lineare Abhängigkeiten zwischen Regressoren können auch ohne (fehlerhafte)
Verwendung von Dummy-Variablen auftreten.
Ökonometrie (SS 2014)
Folie 243
4 Multiple lineare Regression
Multikollinearität 4.9
Perfekte Multikollinearität III
Beispiel 1: Sind in einem Modell die Regressoren durchschnittl.
”
Monatseinkommen“ (Monat), Jahressonderzahlung“ (Sonderzahlung) und
”
Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs
”
Jahr = 12 · Monat + Sonderzahlung
offensichtlich perfekte Multikollinearität.
Beispiel 2: Sind gleichzeitig die Regressoren Nettoeinnahmen mit reduz.
”
MWSt.“ (NettoReduziert), Nettoeinnahmen mit regul. MWSt.“
”
(NettoRegulär) und Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen
”
des Zusammenhangs
Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegulär
ebenfalls perfekte Multikollinearität.
Lösung: Eine der Variablen im linearen Zusammenhang weglassen (wird von
Statistik-Software meist automatisch erledigt).
Ökonometrie (SS 2014)
Folie 244
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität I
Imperfekte Multikollinearität kann im Beispiel 1 aus Folie 244 auch nach
Elimination des Regressors Jahr auftreten:
Oft ist die Jahressonderzahlung (mehr oder weniger) linear vom
durchschnittlichen Monatseinkommen abhängig ( 13. Monatsgehalt“). Dies
”
kann zu beinahe“ linearen Abhängigkeiten zwischen den Regressoren führen.
”
In einem (fiktiven) linearen Modell werden die monalichen Ausgaben für
Nahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personen
im Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und die
jährliche Sonderzahlung (Sonderzahlung) erklärt.
Im (ebenfalls fiktiven) Datensatz der Länge n = 25 beträgt die Korrelation
zwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch im
folgenden Plot visualisiert ist.
Ökonometrie (SS 2014)
Folie 245
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität II
Darstellung der Regressoren Monat und Sonderzahlung
5000
Punktwolke der Regressoren Monat und Sonderzahlung
●●
4500
●
●
●
●
●
3500
●
●
3000
●
●
●
●
●
2500
Sonderzahlung x3i
4000
●
●
●
2000
●
●
●
●
1500
●
●
●
●
1500
2000
2500
3000
3500
4000
4500
5000
Monat x2i
Ökonometrie (SS 2014)
Folie 246
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität III
Schätzergebnisse des vollständigen Modells
Call:
lm(formula = NuG ~ Personen + Monat + Sonderzahlung)
Residuals:
Min
1Q
-268.49 -109.97
Median
-0.13
3Q
122.96
Max
248.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
61.44311 124.97001
0.492
0.628
Personen
159.57520
29.13033
5.478 1.96e-05 ***
Monat
0.17848
0.11854
1.506
0.147
Sonderzahlung
0.07205
0.12413
0.580
0.568
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 153.3 on 21 degrees of freedom
Multiple R-squared: 0.8242, Adjusted R-squared: 0.7991
F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 247
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IV
In der Schätzung des vollständigen Modells ist nur der Koeffizient des
Regressors Personen signifikant von Null verschieden (zu gängigen
Signifikanzniveaus).
Insbesondere die (geschätzten) Koeffizienten zu den Regressoren Monat und
Sonderzahlung sind zwar (wie zu erwarten) positiv, durch die
vergleichsweise großen Standardfehler jedoch insignifikant.
Es liegt die Vermutung nahe, dass die Schätzung der Koeffizienten deshalb so
ungenau“ ausfällt, weil die Effekte der beiden Regressoren wegen der hohen
”
Korrelation im linearen Modellansatz kaum zu trennen sind.
Die imperfekte, aber große (lineare) Abhängigkeit der beiden Regressoren
Monat und Sonderzahlung überträgt sich auf einen stark ausgeprägten
(negativen!) Zusammenhang der Koeffizientenschätzer zu diesen Regressoren,
was sich auch in Konfidenzellipsen zu den entsprechenden Parametern
widerspiegelt:
Ökonometrie (SS 2014)
Folie 248
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität V
0.1
0.0
●
−0.2
−0.1
Sonderzahlung β3
0.2
0.3
0.4
Konfidenzellipse (1 − α = 0.95) für β2 und β3 im vollständigen Modell
−0.1
0.0
0.1
0.2
0.3
0.4
0.5
Monat β2
Ökonometrie (SS 2014)
Folie 249
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VI
Bei Betrachtung der Konfidenzellipse fällt auf, dass die Ellipse sehr flach“ ist.
”
Grund hierfür ist die bereits erwähnte starke negative (geschätzte)
Korrelation der Schätzfunktionen βb2 und βb3 , die sich aus der geschätzten
Varianz-Kovarianzmatrix


15617.50443 −2322.95496 −3.52136 0.76131
−2322.95496
848.57606
0.76545 −0.69665
b
b


V(β) = 
−3.52136
0.76545
0.01405 −0.01431
0.76131
−0.69665
−0.01431 0.01541
−0.01431
= −0.973 errechnen lässt.
0.01405 · 0.01541
Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor
d βb2 , βb3 ) = √
als Korr(
Jahr = 12 · Monat + Sonderzahlung
zusammen, erhält man folgende Ergebnisse:
Ökonometrie (SS 2014)
Folie 250
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VII
Modell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Jahr)
Residuals:
Min
1Q
-263.159 -109.291
Median
5.702
3Q
121.542
Max
262.347
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.0719
122.3825
0.475
0.64
Personen
162.0057
28.0344
5.779 8.18e-06 ***
Jahr
0.0190
0.0021
9.044 7.27e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 150.5 on 22 degrees of freedom
Multiple R-squared: 0.8227, Adjusted R-squared: 0.8066
F-statistic: 51.04 on 2 and 22 DF, p-value: 5.449e-09
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 251
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität VIII
Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)
signifikant von Null verschieden (und wie zu erwarten positiv).
Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil der
erklärten Varianz beinahe unverändert, das adjustierte Bestimmtheitsmaß
vergrößert sich sogar.
Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen der
Regressoren Monat oder Sonderzahlung aus dem ursprünglichen Modell
entfernt.
Ist das Weglassen von Regressoren oder eine Umspezifikation des Modells
möglich und sinnvoll, kann man das Problem der (imperfekten)
Multikollinearität also dadurch umgehen.
Ansonsten kann man den bisher dargestellten Folgen von imperfekter
Multikollinearität nur durch einen vergrößerten Stichprobenumfang
entgegenwirken.
Ökonometrie (SS 2014)
Folie 252
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität IX
Modell ohne Regressor Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Monat)
Residuals:
Min
1Q
-261.656 -109.348
Median
7.655
3Q
109.174
Max
267.646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.88292 122.92403
0.471
0.642
Personen
162.83304
28.15048
5.784 8.08e-06 ***
Monat
0.24538
0.02726
9.003 7.88e-09 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 151 on 22 degrees of freedom
Multiple R-squared: 0.8214, Adjusted R-squared: 0.8052
F-statistic: 50.59 on 2 and 22 DF, p-value: 5.901e-09
Ökonometrie (SS 2014)
Folie 253
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität X
Modell ohne Regressor Monat
Call:
lm(formula = NuG ~ Personen + Sonderzahlung)
Residuals:
Min
1Q
-299.94 -113.54
Median
25.03
3Q
87.79
Max
293.15
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
106.1682
124.8342
0.850
0.404
Personen
149.8531
29.2120
5.130 3.85e-05 ***
Sonderzahlung
0.2538
0.0298
8.515 2.06e-08 ***
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 157.7 on 22 degrees of freedom
Multiple R-squared: 0.8052, Adjusted R-squared: 0.7875
F-statistic: 45.48 on 2 and 22 DF, p-value: 1.53e-08
Ökonometrie (SS 2014)
Folie 254
4 Multiple lineare Regression
Multikollinearität 4.9
Beispiel: Imperfekte Multikollinearität XI
Das Vorliegen von imperfekter Multikollinearität bedeutet im Übrigen nicht,
dass die Resultate der Schätzung nicht mehr nützlich oder gar falsch sind,
insbesondere bleiben verwertbare Prognosen meist möglich.
Im vollständigen Modell erhält man außerdem beispielsweise mit dem
Konfidenzintervall zum Konfidenzniveau
1 − α = 0.95 für die Summe
0
0
β2 + β3 , also für a β mit a = 0 0 1 1 , mit
[0.1781, 0.3219]
eine deutlich präzisere Schätzung als für die einzelnen Koeffizienten
β2 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.0681, 0.425]) und
β3 (Konfidenzintervall zum Niveau 1 − α = 0.95: [−0.1861, 0.3302]).
Werden die schlecht zu trennenden“ Effekte also (z.B. durch geeignete
”
Linearkombination) zusammengefasst, sind wieder präzisere Schlüsse möglich.
Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant
(α = 0.05) von Null verschieden ist, kann mit einem Blick auf die
Konfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positiv
beantwortet werden.
Ökonometrie (SS 2014)
Folie 255
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität I
Ausstehend ist noch die präzisere Festlegung einer Schwelle für die lineare
Abhängigkeit zwischen den Regressoren, ab der man üblicherweise von
imperfekter Multikollinearität spricht.
Man benötigt zunächst ein Maß für die lineare Abhängigkeit der Regressoren.
Dazu setzt man zunächst jeden der K (echten) Regressoren separat als
abhängige Variable in jeweils ein neues Regressionsmodell ein und verwendet
als unabhängige, erklärende Variablen jeweils alle übrigen Regressoren in der
folgenden Gestalt:
x1i = γ0
+ γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
x2i = γ0 + γ1 x1i
..
..
.
.
+ γ3 x3i + . . . + γK −1 x(K −1)i + γK xKi + ui ,
..
..
.
.
x(K −1)i = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . .
xKi = γ0 + γ1 x1i + γ2 x2i + γ3 x3i + . . . + γK −1 x(K −1)i
Ökonometrie (SS 2014)
+ γK xKi + ui ,
+ ui .
Folie 256
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität II
Die K resultierenden Bestimmtheitsmaße Rk2 (k ∈ {1, . . . , K }) werden dann
verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)
VIFk :=
1
1 − Rk2
zu definieren.
Offensichtlich gilt VIFk ≥ 1, und VIFk wächst mit zunehmendem Rk2
(es gilt genauer VIFk = 1 ⇐⇒ Rk2 = 0 und VIFk → ∞ ⇐⇒ Rk2 → 1).
Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 im
Modell enthalten, spricht man in der Regel vom Vorliegen von imperfekter
Multikollinearität oder vom Multikollinearitätsproblem, es existieren aber
auch einige andere Faustregeln“.
”
Ökonometrie (SS 2014)
Folie 257
4 Multiple lineare Regression
Multikollinearität 4.9
Messung von imperfekter Multikollinearität III
In der Darstellung (mit den Abkürzung x k und skk aus Folie 191)
d βbk ) =
Var(
c2
c2
σ
σ
· VIFk = Pn
· VIFk
2
n · skk
(x
−
x
)
ki
k
i=1
der geschätzten Varianz der Parameterschätzer βbk ist die Bezeichnung
Varianz-Inflations-Faktor“ selbsterklärend.
”
In der im Beispiel durchgeführten Schätzung des vollständigen Modells
ergeben sich die folgenden Varianz-Inflations-Faktoren:
Regressor
VIF
Personen
Monat
Sonderzahlung
1.062
18.765
18.531
Nach der oben genannten Faustregel“ liegt also ein Multikollinearitätsproblem
”
bei den Regressoren Monat und Sonderzahlung vor.
Ökonometrie (SS 2014)
Folie 258
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen I
Die Annahme 2 an die Störgrößen ui auf Folie 186 lautet Var(ui ) = σ 2 für
alle i ∈ {1, . . . , n}, es wird also die Gleichheit aller Störgrößenvarianzen
gefordert.
Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch als
Homoskedastie oder Homoskedastizität dieser Zufallsvariablen bezeichnet.
Man spricht bei Erfüllung der Annahme 2 an die Störgrößen damit auch von
homoskedastischen Störgrößen.
Das Gegenteil von Homoskedastie wird mit Heteroskedastie oder
Heteroskedastizität bezeichnet.
Ist Annahme 2 an die Störgrößen verletzt, gilt also (mit σi2 := Var(ui ))
σi2 6= σj2 für mindestens eine Kombination i, j ∈ {1, . . . , n}, so spricht man
von heteroskedastischen Störgrößen.
Ökonometrie (SS 2014)
Folie 259
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen II
Im Folgenden untersuchen wir die Auswirkungen des Vorliegens
heteroskedastischer, aber (nach wie vor) unkorrelierter Störgrößen.
Es gelte also
 2
σ1
0


2
2
V(u) = diag(σ1 , . . . , σn ) :=  ...

0
0
V(u) ist also eine Diagonalmatrix.
0
σ22
0 ···
0 ···
..
.
0
0
0
0
0
0
0
0
···
···
0
0
2
σn−1
0

0
0

..  ,
.

0
σn2
Sind die Störgrößen gemeinsam normalverteilt (gilt also Annahme
sind die ui noch unabhängig, aber nicht mehr identisch verteilt.
Ökonometrie (SS 2014)
4
), so
Folie 260
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Heteroskedastie der Störgrößen III
Auswirkungen von Heteroskedastie in den Störgrößen
bei Schätzung des Modells mit der OLS-/KQ-Methode
I
I
I
b bleibt unverzerrt für β.
Der Vektor von Schätzfunktionen β
(Die Koeffizientenschätzer bleiben prinzipiell sinnvoll und gut einsetzbar.)
b ist nicht mehr effizient (varianzminimal).
β
(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sind
präzisere Schätzfunktionen konstruierbar. Dies wird in dieser Veranstaltung aber
nicht weiter besprochen.)
Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltung
unbrauchbar!
Ursächlich für den letzten (und folgenreichsten) Aspekt ist, dass bei der
b bzw. V(
b regelmäßig die (bei
b β)
Herleitung bzw. Berechnung von V(β)
Heteroskedastie falsche!) Spezifikation V(u) = σ 2 In eingesetzt bzw.
verwendet wurde.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 261
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie I
Schätzung von V(β)
b nicht mehr
Bei Vorliegen von Heteroskedastie in den Störgrößen kann V(β)
so stark wie auf Folie 198 vereinfacht werden, man erhält lediglich
0 h
0 i
0
−1 0
0
−1 0
b
b
b
b
b
V(β) = E β − E(β) β − E(β)
= E (X X) X u (X X) X u
= E (X0 X)−1 X0 uu0 X(X0 X)−1 = (X0 X)−1 X0 E(uu0 )X(X0 X)−1
= (X0 X)−1 X0 V(u)X(X0 X)−1 .
Bei unbekannter Form von Heteroskedastie wurde als Schätzer für V(u) von
Halbert White zunächst (Econometrica, 1980) die folgende Funktion
vorgeschlagen:
 2

b1 0 0 · · · 0
u
0
0
0 u
b22 0 · · · 0
0
0



 ..
.
2
2
.
b
.
.
bn ) =  .
Vhc0 (u) := diag(b
u1 , . . . , u

.
.


2
 0 0 0 ··· 0 u
bn−1
0
bn2
0 0 0 ··· 0
0
u
Ökonometrie (SS 2014)
Folie 262
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
b bei Heteroskedastie II
Schätzung von V(β)
Auf dieser Basis wurden weitere Schätzer entwickelt, einer davon ist die (für
bessere Eigenschaften in kleinen Stichproben um Freiheitsgrade korrigierte)
Variante
n
bn2 )
diag(b
u12 , . . . , u
n − (K + 1)
 2
b1 0 0 · · ·
u
0 u
b22 0 · · ·

n
 ..
..
=
.
.
n − (K + 1) 
 0 0 0 ···
0 0 0 ···
b hc1 (u) :=
V
0
0
0
0
0
0
2
bn−1
u
0

0
0

..  .
.

0
bn2
u
b aus Folie 262 liefert dann z.B.
Einsetzen in die Darstellung von V(β)
b := (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
V
als (unter moderaten Bedingungen konsistenten) Schätzer für die
b
Varianz-Kovarianz-Matrix V(β).
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 263
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests I
bei heteroskedastischen Störgrößen
Konfidenz- und Prognoseintervalle sowie Hypothesentests müssen nun auf der
Verteilungsaussage
bzw.
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
•
βb ∼ N(β, (X0 X)−1 X0 V(u)X(X0 X)−1 )
aufbauen, die durch eine geeignete Schätzung von V(u) nutzbar gemacht
wird.
b für
b hc (β)
Die Verwendung eines heteroskedastie-konsistenten Schätzers V
b führt dazu, dass viele bei Homoskedastie (zumindest bei gemeinsam
V(β)
normalverteilen Störgrößen) exakt gültigen Verteilungsaussagen nur noch
asymptotisch und damit für endliche Stichprobenumfänge nur noch
näherungsweise (approximativ) gelten (selbst bei gemeinsam normalverteilten
Störgrößen).
Ökonometrie (SS 2014)
Folie 264
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests II
bei heteroskedastischen Störgrößen
Achtung!
b muss
Bei der Verwendung von heteroskedastie-konsistenten Schätzern für V(β)
unbedingt darauf geachtet werden, keine Formeln“ einzusetzen, die unter
”
Ausnutzung von nur bei Homoskedastie der Störgrößen gültigen
Zusammenhängen hergeleitet wurden.
c2 oder σ
Generell sind ganz offensichtlich alle Formeln“, die σ
b enthalten, also
”
nicht mehr einsetzbar. Dazu zählen einige Darstellungen auf den Folien 204,
217, 224, 227, 230 und 234.
Bei der Berechnung von Konfidenzintervallen (Folie 203) und der
Durchführung von Tests (Folie 204) für einzelne Parameter sind natürlich bei
c2 b bzw. σ
allen Vorkomnissen von σ
bβbk die entsprechenden Diagonaleinträge
βk
b bzw.
b hc (β)
der verwendeten heteroskedastie-konsistenten Schätzmatrix V
deren Wurzeln einzusetzen!
Der t-Test für einzelne lineare Hypothesen hat nun die folgende Darstellung:
Ökonometrie (SS 2014)
Folie 265
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Zusammenfassung: t-Test für einzelne lineare Hypothesen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet
H0 : a0 β = c
H1 : a0 β 6= c
H0 : a0 β ≤ c
H1 : a0 β > c
H0 : a0 β ≥ c
H1 : a0 β < c
b−c
a0 β
t= q
b
b hc (β)a
a0 V
t für a0 β = c näherungsweise t(n − (K + 1))-verteilt
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b z.B. V
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β),
n
b
b hc1 (u) =
bn2 ), wobei b
mit V
diag(b
u12 , . . . , u
u = y − Xβ
n−(K +1)
(−∞, −tn−(K +1);1− α2 )
∪(tn−(K +1);1− α2 , ∞)
2 · (1 − Ft(n−(K +1)) (|t|))
(tn−(K +1);1−α , ∞)
(−∞, −tn−(K +1);1−α )
1 − Ft(n−(K +1)) (t)
Ft(n−(K +1)) (t)
Folie 266
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests III
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Auch die alternativen Darstellungen der Statistik des F -Tests von Folie 236f.
verlieren ihre Korrektheit!
Die F -Statistik aus Folie 230 ist durch eine Darstellung der Bauart“
”
i−1
h
0
0
b
b
b
(Aβb − c)
(Aβ − c) AVhc (β)A
F =
L
zu ersetzen, beispielsweise also durch
F =
h
i−1
0
0
−1 0 b
0
−1 0
b
(Aβ − c) A(X X) X Vhc1 (u)X(X X) A
(Aβb − c)
b hc1 (u) =
mit V
L
n
n−(K +1)
bn2 ).
diag(b
u12 , . . . , u
Der F -Test hat also bei heteroskedastischen Störgrößen die folgende Gestalt:
Ökonometrie (SS 2014)
Folie 267
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Zusammenfassung: F -Test für L ≥ 1 lineare Restriktionen
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Anwendungsvoraussetzungen
approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ12 , . . . , σn2 ),
σi2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,
Realisation y = (y1 , . . . , yn )0 beobachtet, c ∈ RL ,
(L × (K + 1))-Matrix A mit vollem Zeilenrang L
Nullhypothese
Gegenhypothese
Teststatistik
Verteilung (H0 )
Benötigte Größen
F =
H0 : Aβ = c
H1 : Aβ 6= c
h
i−1
b − c)0 AV
b 0
b − c)
b hc (β)A
(Aβ
(Aβ
L
F ist approx. F (L, n − (K + 1))-verteilt, falls Aβ = c
b = (X0 X)−1 X0 y, V
b eine heteroskedastie-konsistente Schätzb hc (β)
β
b z.B. V
b = (X0 X)−1 X0 V
b hc1 (β)
b hc1 (u)X(X0 X)−1
funktion für V(β),
n
b
b hc1 (u) =
bn2 ), wobei b
mit V
diag(b
u12 , . . . , u
u = y − Xβ
n−(K +1)
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
(FL,n−(K +1);1−α , ∞)
1 − FF (L,n−(K +1)) (F )
Folie 268
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests IV
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
Ein approximatives symmetrisches Konfidenzintervall für a0 β zum
Konfidenzniveau 1 − α erhält man bei heteroskedastischen Störgrößen durch
q
q
0b
0
b , a βb + tn−(K +1);1− α · a0 V
b
b hc (β)a
b hc (β)a
a β − tn−(K +1);1− α2 · a0 V
2
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Bei der Konstruktion von Konfidenzellipsen bzw. -ellipsoiden ist natürlich
analog eine geeignete Darstellung der F -Statistik (siehe z.B. Folie 267) zu
verwenden, man erhält einen (approximativen) Konfidenzbereich zum
Konfidenzniveau 1 − α also nun (unter Beibehaltung der bisherigen
Bezeichnungen) mit der Menge
h
i−1
b 0
b hc (β)A
c ∈ RL (Aβb − c)0 AV
(Aβb − c) ≤ L · FL,n−(K +1);1−α .
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 269
Heteroskedastische Störgrößen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests V
im multiplen linearen Regressionsmodell mit heteroskedastischen Störgrößen
(Approximative) Intervallprognosen für E(y0 ) gegeben x0 zur
Vertrauenswahrscheinlichkeit 1 − α (auch interpretierbar als
Konfidenzintervalle zum Konfidenzniveau 1 − α für E(y0 ) gegeben x0 ) erhält
man nun in der Gestalt
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
b
b hc (β).
mit einer geeigneten (heteroskedastie-konsistenten) Schätzmatrix V
Intervallprognosen von y0 gegeben x0 sind nun nicht mehr sinnvoll
durchführbar, da man keine Informationen mehr über die von u0 verursachte
Schwankung von y0 hat!
Ökonometrie (SS 2014)
Folie 270
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Robuste Standardfehler“
”
Die Verwendung von heteroskedastie-konsistenten Schätzern für die
Standardabweichungen von βbk (bzw. weitergehender die Verwendung eines
b wird
heteroskedastie-konsistenten Schätzers für die Schätzung von V(β))
auch als Verwendung robuster Standardfehler“ bezeichnet.
”
Gängige Statistik-Software erlaubt die Verwendung robuster Standardfehler,
auch wenn standardmäßig in der Regel von homoskedatischen Störgrößen
ausgegangen wird.
In der Statistik-Software R implementiert beispielsweise die Funktion hccm
( heteroscedasticity-corrected covariance matrix“) im Paket car verschiedene
”
b bei den
Varianten heteroskedastie-konsistenter Schätzungen von V(β)
Auswertungen zu linearen Regressionsmodellen.
Die Verwendung robuster Standardfehler trotz homoskedastischer Störgrößen
ist unkritisch. Moderne Lehrbücher empfehlen zunehmend eine generelle
Verwendung robuster Standardfehler.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 271
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler I
b und V
b im Beispiel von Folie 207:
b β)
b hc1 (β)
Berechnung von V(
> library(car)
> fit
<- lm(Lohnhöhe ~ Ausbildung + Alter)
> print(vcov(fit),digits=6)
# "standard"
(Intercept) Ausbildung
Alter
(Intercept)
27051.397
456.8888 -645.7068
Ausbildung
456.889
449.0435 -52.7609
Alter
-645.707
-52.7609
20.9445
> Vhhc1 <- hccm(fit, type="hc1")
> print(Vhhc1,digits=6)
# "robust"
(Intercept) Ausbildung
Alter
(Intercept)
23815.318 -1602.3359 -583.2360
Ausbildung
-1602.336
271.0231
26.8099
Alter
-583.236
26.8099
16.1392
Ökonometrie (SS 2014)
Folie 272
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler II
t-Tests auf Signifikanz der einzelnen Koeffizienten:
> print(coeftest(fit))
# "standard"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
164.4731 6.2491 8.814e-06 ***
Ausbildung
62.5745
21.1906 2.9529 0.008904 **
Alter
10.6020
4.5765 2.3166 0.033265 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> print(coeftest(fit, vcov. = Vhhc1))
# "robust"
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1027.8058
154.3221 6.6601 4.021e-06 ***
Ausbildung
62.5745
16.4628 3.8010 0.001428 **
Alter
10.6020
4.0174 2.6390 0.017229 *
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ökonometrie (SS 2014)
Folie 273
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler III
Die Schätzung unter Zulassung heteroskedastischer Störgrößen führt im
Beispiel zu kleineren p-Werten der Tests auf Signifikanz der einzelnen
Parameter.
Insbesondere ist nun der Koeffizient zum Regressor Ausbildung sogar zum
Signifikanzniveau α = 0.001 bzw. der Koeffizient zum Regressor Alter sogar
zum Signifikanzniveau α = 0.01 signifikant positiv!
Der t-Test zum Test der linearen Hypothese
H0 : β1 − 2 · β2 ≤ 0
gegen
H1 : β1 − 2 · β2 > 0
bzw.
H0 : a0 β ≤ c
gegen
H1 : a0 β > c
0
mit a = 0 1 −2 und c = 0 wird im Folgenden statt unter der Annahme
von Homoskedastie der Störgrößen unter Zulassung heteroskedastischer
Störgrößen durchgeführt.
Ökonometrie (SS 2014)
Folie 274
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler IV
b wie auf Folie 272 angegeben erhält man nun zunächst
b hc1 (β)
Mit V

 
23815.318
−1602.336
−583.236
0
0b
b = 0 1 −2 −1602.336
271.023
26.810   1 
a Vhc1 (β)a
−583.236
26.810
16.139
−2
= 228.3404
und mit a0 βb = 0


1027.806
−2  62.575  = 41.371 die realisierte Teststatistik
10.602
1
t=q
a0 βb − c
41.371 − 0
=√
= 2.7378 .
228.3404
0
b
b
a Vhc1 (β)a
H0 kann nun zum Signifikanzniveau α = 0.05 anders als bei Annahme
homoskedastischer Störgrößen also abgelehnt werden, da
t = 2.7378 ∈ (1.74, ∞) = (t17;0.95 , ∞) = (tn−(K +1);1−α , ∞) = K .
Ökonometrie (SS 2014)
Folie 275
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste Standardfehler V
[
Mit der (bereits auf Folie 218 berechneten) Punktprognose E(y
0 ) = 1680.982
für die erwartete Lohnhöhe eines 38-jährigen Mitarbeiters, der nach dem
Hauptschulabschluss weitere 4 Ausbildungsjahre absolviert hat (also für
0
x0 = 1 4 38 ), erhält man unter Annahme heteroskedastischer
Störgrößen nun mit
b 0= 1
b hc1 (β)x
x0 0 V
4

23815.318
38 −1602.336
−583.236
−1602.336
271.023
26.810
 
−583.236
1


26.810
4  = 2462.304
16.139
38
das Prognoseintervall
q
q
b 0 , x0 0 βb + tn−(K +1);1− α · x0 0 V
b 0
b hc (β)x
b hc (β)x
x0 0 βb − tn−(K +1);1− α2 · x0 0 V
2
h
i
√
√
= 1680.982 − 2.1098 · 2462.304 , 1680.982 + 2.1098 · 2462.304
= [1576.29 , 1785.674]
zur Vertrauenswahrscheinlichkeit 1 − α = 0.95 für E(y0 ) gegeben x10 = 4 und
x20 = 38. (Intervall bei homoskedastischen Störgrößen: [1565, 1796.964])
Ökonometrie (SS 2014)
Folie 276
4 Multiple lineare Regression
Heteroskedastische Störgrößen 4.10
Beispiel: Robuste“ Konfidenzellipse für β1 und β2
”
Modell von Folie 207, mit bzw. ohne Verwendung robuster Standardfehler, 1 − α = 0.95
10
●
0
5
Alter β2
15
20
^ ^
V(β)
^
^
Vhc1(β)
20
40
60
80
100
120
Ausbildung β1
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 277
Tests auf Heteroskedastie 4.11
Inhaltsverzeichnis
(Ausschnitt)
4
Multiple lineare Regression
Multiples lineares Modell
Parameterschätzung
Konfidenzintervalle und Tests
Punkt- und Intervallprognosen
Tests einzelner linearer Hypothesen
Konfidenzintervalle für Linearkombinationen
Tests mehrerer linearer Hypothesen
Konfidenzellipsen
Multikollinearität
Heteroskedastische Störgrößen
Tests auf Heteroskedastie
Ökonometrie (SS 2014)
Folie 278
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Tests auf Heteroskedastie der Störgrößen
Neben dem Ansatz, generell eine heteroskedastie-konsistente Schätzung von
b zu verwenden, besteht auch die Möglichkeit, das Vorliegen von
V(β)
Heteroskedastizität der Störgrößen statistisch zu untersuchen, um dann bei
”
Bedarf“ einen heteroskedastie-konsistenten Schätzer zu verwenden.
Hierzu existieren verschiedene Hypothesentests, deren
Anwendungsmöglichkeiten zum Beispiel davon abhängen, ob man eine
bestimmte Quelle“ für die Heteroskedastie in den Störgrößen angeben kann
”
bzw. vermutet.
In der vorangegangenen Regression (Lohnhöhe regressiert auf Ausbildung
und Alter) könnte man beispielsweise vermuten, dass die Varianz der
Störgrößen dort groß ist, wo auch die Lohnhöhe groß ist.
Ein Test, der in dieser Situation sehr gut geeignet sein kann, ist der
Goldfeldt-Quandt-Test.
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 279
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test I
Zur (sinnvollen) Anwendung des Goldfeld-Quandt-Tests ist es erforderlich,
dass die Heteroskedastie in den Störgrößen
I
I
von einer beobachteten (und identifizierten) Variablen verursacht wird und
monoton“ in dieser Variablen ist.
”
Die Monotonie“ kann sich auch dahingehend äußern, dass sich bei einem
”
(nur) nominalskalierten Regressor mit zwei Ausprägungen (also z.B. einer
Dummy-Variablen!) die Störgrößenvarianz in der einen Gruppe“ von der in
”
der anderen Gruppe unterscheidet!
Zur Anwendung des Goldfeld-Quandt-Tests ist es bei einer
ordinal-/kardinalskalierten Variablen, die die Störgrößenvarianz monoton“
”
beeinflussen soll, sogar erforderlich, den Datensatz in eine Gruppe von
Beobachtungen mit kleinen“ Ausprägungen und eine weitere Gruppe von
”
Beobachtungen mit großen“ Ausprägungen dieser Variablen aufzuteilen
”
(eventuell unter Auslassung eines Teils der Daten mit mittelgroßen“
”
Ausprägungen dieser Variablen).
Ökonometrie (SS 2014)
Folie 280
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test II
Das ursprüngliche Regressionsmodell wird dann jeweils getrennt für die
beiden Gruppen A (entspricht ggf. Gruppe mit kleinen“ Ausprägungen) und
”
B (entspricht ggf. Gruppe mit großen“ Ausprägungen) (unter der – für die
”
Durchführung des Tests wenig schädlichen – Annahme von Homoskedastie in
beiden Gruppen) geschätzt.
Die Anwendung des Goldfeld-Quandt-Tests läuft dann auf einen (aus der
Schließenden Statistik bekannten!) F -Test zum Vergleich zweier Varianzen
(unter Normalverteilungsannahme) hinaus.
Unter der Nullhypothese der Homoskedastie sind insbesondere die
Störgrößenvarianzen beider Gruppen, im Folgenden mit σA2 bzw. σB2
bezeichnet, sowohl konstant als auch gleich.
Der Test kann sowohl beidseitig als auch einseitig (links- bzw. rechtsseitig)
durchgeführt werden, so erhält man die folgenden Hypothesenpaare:
H0 : σA2 = σB2
gegen
H1 : σA2 6= σB2
H0 : σA2 ≤ σB2
gegen
H1 : σA2 > σB2
Ökonometrie (SS 2014)
H0 : σA2 ≥ σB2
gegen
H1 : σA2 < σB2
Folie 281
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Goldfeld-Quandt-Test III
bA bzw. u
bB jeweils den Residuenvektor der Schätzung aus
Bezeichnen u
Gruppe A bzw. B, SERA bzw. SERB jeweils den Standard Error of Regression
(residual standard error) der Schätzung aus Gruppe A bzw. B, nA bzw. nB
die Länge des jeweils zur Schätzung verwendeten (Teil-)Datensatzes für
Gruppe A bzw. B sowie K (wie üblich) die Anzahl (echter) Regressoren, so
erhält man die möglichen Darstellungen
b0A u
bA /(nA − (K + 1))
SER2A
u
=
F = 0
bB u
bB /(nB − (K + 1))
u
SER2B
der Teststatistik, die bei Gültigkeit von σA2 = σB2 eine
F (nA − (K + 1), nB − (K + 1))-Verteilung besitzt.
Insgesamt erhält man die folgende Zusammenfassung des
Goldfeld-Quandt-Tests:
Ökonometrie (SS 2014)
Folie 282
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Zusammenfassung: Goldfeld-Quandt-Test (GQ-Test)
auf Heteroskedastizität der Störgrößen
Anwendungsvoraussetzungen
Nullhypothese
Gegenhypothese
exakt: y = Xβ + u mit E(u) = 0, V(u) Diagonalmatrix aus σA2 , σB2 ,
X deterministisch mit vollem Spaltenrang K + 1, Realisation
y = (y1 , . . . , yn )0 beobachtet, Auswahl von zwei Gruppen
A bzw. B vom Umfang nA bzw. nB aus den Beobachtungen
H0 : σA2 = σB2
H1 : σA2 6= σB2
Benötigte Größen
Kritischer Bereich
zum Niveau α
p-Wert
Ökonometrie (SS 2014)
H0 : σA2 ≥ σB2
H1 : σA2 < σB2
b
u0A b
uA /(nA − (K + 1))
SER2A
F = 0
=
b
uB /(nB − (K + 1))
uB b
SER2B
Teststatistik
Verteilung (H0 )
H0 : σA2 ≤ σB2
H1 : σA2 > σB2
F unter H0 für σA2 = σB2 F (nA − (K + 1), nB − (K + 1))-verteilt
Residuenvektoren b
uA bzw. b
uB oder Standard Error of Regression
SERA bzw. SERB aus jeweils separater Modellschätzung
zu den Gruppen A und B
[0, FnA −1,nB −1; α )
2
α
nA −1,nB −1;1− 2
∪(F
, ∞)
2·min FF (nA −1,nB −1) (F ),
1 − FF (nA −1,nB −1) (F )
(FnA −1,nB −1;1−α , ∞)
[0, FnA −1,nB −1;α )
1−FF (nA −1,nB −1) (F )
FF (nA −1,nB −1) (F )
4 Multiple lineare Regression
Folie 283
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test I
Teilt man den Datensatz des Lohnhöhen-Beispiels“ in die beiden Gruppen A“
”
”
zu den 10 höchsten Lohnhöhen und B“ zu den 10 niedrigsten Lohnhöhen auf,
”
so erhält man die folgende Modellschätzung für Gruppe A“:
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe >
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-488.33 -154.11
Median
-34.06
3Q
78.62
Max
534.61
Coefficients:
Estimate Std. Error t
(Intercept) 1516.69
561.23
Ausbildung
51.87
32.07
Alter
3.20
11.07
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.'
value Pr(>|t|)
2.702
0.0305 *
1.618
0.1498
0.289
0.7809
0.1
' '
1
Residual standard error: 328 on 7 degrees of freedom
Multiple R-squared: 0.3051, Adjusted R-squared: 0.1066
F-statistic: 1.537 on 2 and 7 DF, p-value: 0.2797
Ökonometrie (SS 2014)
Folie 284
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test II
Die Schätzung für Gruppe B“ liefert:
”
Call:
lm(formula = Lohnhöhe ~ Ausbildung + Alter, subset = Lohnhöhe <=
sort(Lohnhöhe)[10])
Residuals:
Min
1Q
-100.381 -27.528
Median
-2.589
3Q
47.221
Max
101.743
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1198.772
108.647 11.034 1.11e-05 ***
Ausbildung
57.711
24.688
2.338
0.052 .
Alter
3.270
3.359
0.973
0.363
--Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 77.72 on 7 degrees of freedom
Multiple R-squared: 0.4967, Adjusted R-squared: 0.3529
F-statistic: 3.454 on 2 and 7 DF, p-value: 0.09045
Ökonometrie (SS 2014)
Folie 285
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test III
Die Teststatistik des GQ-Tests erhält man also durch
3282
F =
= 17.811 .
77.722
Der rechtsseitige Test zum Signifikanzniveau α = 0.05 lehnt mit
K = (F1−α;nA −(K +1),nB −(K +1) , ∞) = (F0.95;7,7 , ∞) = (3.79, ∞)
wegen F ∈ K die Nullhypothese der Homoskedastie der Störgrößen also ab
und entscheidet sich für eine größere Störgrößenvarianz in der Gruppe, die zu
den größeren Lohnhöhen gehört.
Ökonometrie (SS 2014)
Folie 286
4 Multiple lineare Regression
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test IV
Visualisierung der Abhängigkeit der b
ui2 vom Regressor Lohnhöhe und des GQ-Tests
Punktwolke der abhängigen Variablen und der quadrierten Residuen
SER2B
SER2A
100000 150000 200000 250000 300000
●
●
50000
2
quadrierte Residuen u^i
●
●
●
0
●
1200
●
●
●
●
1400
●
●
●
●
●
1600
●
●
1800
●
2000
2200
2400
2600
Lohnhöhe yi
Ökonometrie (SS 2014)
4 Multiple lineare Regression
Folie 287
Tests auf Heteroskedastie 4.11
Beispiel: Goldfeld-Quandt-Test V
Schneller lässt sich die Fragestellung mit dem Befehl gqtest aus dem Paket
lmtest bearbeiten.
Die Verwendung der Voreinstellung teilt den Datensatz gemäß der Ordnung
einer vorgegebenen Variablen in zwei (möglichst) gleich große Teile und
macht einen einseitigen Test auf positive Abhängigkeit der Störgrößenvarianz
von der vorgegebenen Variablen (wie im Beispiel):
> library(lmtest)
> gqtest(lm(Lohnhöhe~Ausbildung+Alter),order.by=Lohnhöhe)
Goldfeld-Quandt test
data: lm(Lohnhöhe ~ Ausbildung + Alter)
GQ = 17.8168, df1 = 7, df2 = 7, p-value = 0.00058
Ökonometrie (SS 2014)
Folie 288
Herunterladen