Kapitel 5 Intervallschätzer, einfache Hypothesentests und Prognosen

Kapitel 5
Intervallschätzer, einfache
Hypothesentests und Prognosen
“The greatest enemy of knowledge is not
ignorance, it is the illusion of knowledge.”
(Stephen Hawking)
Bisher haben wir uns im wesentlichen mit der Berechnung der OLS Schätzfunktionen
sowie deren Eigenschaften beschäftigt. Nun gehen wir einen entscheidenden Schritt
weiter und beschäftigen uns mit Konzepten der induktiven Statistik. Nach einer
sehr kurzen Wiederholung der Gauss-Markov Annahmen werden wir das Konzept
der Konfidenzintervalle erläutern, und anschließend relativ ausführlich die Grundidee von Hypothesentests wiederholen. Im Kern handelt es sich bei diesem ganzen
Kapitel um eine bloße Wiederholung einiger grundlegender Konzepte der einführenden Statistik, da aber sehr vieles vom Folgenden auf diesen Ideen aufbaut räumen
wir diesem Kapitel dennoch relativ breiten Raum ein.
5.1
Wiederholung Gauss-Markov Annahmen
Im letzten Kapitel haben wir uns hauptsächlich mit den Eigenschaften der
OLS Schätzer beschäftigt. Diese OLS Schätzer sind Beispiele für so genannte
Punktschätzer, sie ordnen jeder möglichen Stichprobe einen Punkt auf der Zahlengerade zu. Wir benötigen im letzten Kapitel im wesentlichen die folgenden GaussMarkov Annahmen um zu beweisen, dass diese OLS Schätzer effizient sind:
A1 Die PRF yi = β1 + β2 xi2 + · · · + βk xik + εi ist linear in den Parametern βh
(h = 1, . . . , k) und enthält genau die Regressoren, die erforderlich sind um den
datengenerierenden Prozess korrekt zu beschreiben.
Eine Verletzung dieser Annahme führt in der Regel dazu, dass die OLS
Schätzer weder erwartungstreu noch konsistent sind.
0
c [email protected]
1
Angewandte Ökonometrie
2
A2 Es gibt in der Stichprobe keine (exakte) lineare Abhängigkeit zwischen den
insgesamt k Regressoren (inklusive Regressionskonstante). Dies impliziert
corr(xh , xg ) 6= 1 für alle h, g = 1, . . . , k, h 6= g (keine perfekte Multikollinearität). Außerdem ist die Anzahl der Beobachtungen n mindestens so groß
wie die Anzahl der Regressoren (n ≥ k);
Falls diese Annahme verletzt ist, sind die OLS Schätzer nicht eindeutig definiert und können erst gar nicht berechnet werden.
A3 Die Regressoren sind nicht mit den Störtermen korreliert, oder noch stärker,
die Regressoren und Störterme sind stochastisch unabhängig. Dies impliziert
E(εi |xj2 , . . . , xjk ) = 0 für alle i, j = 1, . . . , n (keine endogenen Regressoren).
Diese Annahme spielt in der Ökonometrie eine besonders große Rolle, da sie
für nicht-experimentelle Daten häufig verletzt ist. Bei endogenen Regressoren
sind die OLS Schätzer weder erwartungstreu noch konsistent!
A4 εi ∼ i.i.d.(0, σ 2 ), diese Annahme impliziert, dass alle Störterme εi die gleiche
Verteilung mit Erwartungswert Null und konstanter Varianz σ 2 haben (also
‘identically distributed’ sind), sowie dass die εi untereinander stochastisch unabhängig sind, d.h. E(εi εj |x) = 0 für i 6= j.1 Wenn diese Annahme erfüllt ist,
sind die Störterme weder heteroskedastisch noch autokorreliert.
Wenn Annahmen A1 – A3 erfüllt sind und nur Annahme A4 verletzt ist, sind
die OLS Schätzer zwar erwartungstreu und konsistent, aber nicht effizient.
Ein Modell, das alle Gauss Markov Annahmen erfüllt, wird in der Literatur häufig
‘Klassisches Lineares Regressionsmodell’ genannt (oder CLRM für ‘classical linear
regression model’ ).
OLS Schätzer des ‘Klassischen Linearen Regressionsmodells’ sind effizient, bieten
also in der Klasse der linearen erwartungstreuen Schätzfunktionen die ‘größtmögliche
Genauigkeit’ (sie sind ‘BLUE’).
Eine solche ‘größtmögliche Genauigkeit’ ist zwar beruhigend, aber ‘größtmöglich’
sagt wenig darüber aus, wie präzise die Schätzung tatsächlich ist. Wenn wir auf
Grundlage unserer Schätzungen Entscheidungen treffen müssen wollen wir vermutlich wissen, inwieweit wir den Schätzungen auch ‘vertrauen’ können.
Die bisher verwendeten Punktschätzer, wie z.B. βb2 , können uns diese Information
nicht liefern, sie geben keine Hinweise darüber, wie ‘nahe’ sie beim wahren Wert
liegen, bzw. wie präzise sie sind, und täuschen damit möglicherweise eine Scheingenauigkeit vor.
Wir werden in diesem Kapitel zeigen, dass wir mit Hilfe der Punktschätzer und deren
Standardfehler ein Intervall berechnen können, das zusätzlich den Stichprobenfehler2
1
Zur Erinnerung: Seien U und V zwei diskrete Zufallsvariablen. Allgemein gilt E(U V ) =
P P
i
j ui vj Pr(ui , vj ). Stochastische Unabhängigkeit
P Pbedeutet Pr(ui , vj ) = Pr(ui ) Pr(vj ), bei stochastischer Unabhängigkeit gilt also E(U V ) = i j ui vj Pr(ui ) Pr(vj ), daraus folgt E(U V ) =
E(U ) E(V ). Analoges dazu gilt für stetige Zufallsvariablen.
2
In der deutschen Literatur werden ‘Standardfehler’ und ‘Stichprobenfehler’ manchmal synonym verwendet. Hier verstehen wir unter dem Stichprobenfehler etwas salopp den Fehler, der bei
der Schätzung eines Parameters durch wiederholte Stichprobenziehungen aus der gleichen Grundgesamtheit entsteht.
3
Angewandte Ökonometrie
(‘sampling error’ ) berücksichtigt, und uns damit etwas über die ‘Genauigkeit’ einer
Schätzung verrät.
Allerdings benötigen wir dazu eine zusätzliche Annahme, nämlich dass die Störterme nicht nur εi ∼ i.i.d.(0, σ 2) sind, sondern zusätzlich normalverteilt sind. Diese
Annahme wird häufig geschrieben als
εi ∼ n.i.d.(0, σ 2 )
wobei n.i.d. für ‘normally and independent distributed’ steht (das identically folgt
automatisch aus der Normalverteilungsannahme mit identischen Erwartungswerten
und Varianzen).
Wir werden dies häufig als εi ∼ N(0, σ 2 ) schreiben, wobei das Symbol N die Normalverteilung bezeichnet (diese Schreibweise impliziert nicht notwendigerweise Unabhängigkeit, aber wenn nicht ausdrücklich darauf auf etwas anderes hingewiesen
wird im Folgenden auch Unabhängigkeit, d.h. E(εi εj ) = 0 für i 6= j, angenommen).
Wenn alle Gauss-Markov Annahmen erfüllt sind und die Störterme zusätzlich normalverteilt sind spricht man von einem ‘Klassischen Normalverteilten Linearen Regressionsmodell’ (oder CNLRM für Classical Normal Linear Regression Model ).
Die Normalverteilungsannahme ist nicht ganz so restriktiv wie sie auf den ersten
Blick erscheinen mag, da einerseits die Störterme vieler datengenerierender Prozesse tatsächlich annähernd normalverteilt sind, und in anderen Fällen der zentrale
Grenzwertsatz unter nicht allzu strengen Annahmen sicher stellt, dass die Stichprobenkennwertverteilungen (‘sampling distributions’ ) ziemlich rasch gegen eine Normalverteilung konvergieren, und deshalb zumindest asymptotisch gültig bleiben.
Wir werden nun zeigen, dass uns die zusätzliche Normalverteilungsannahme εi ∼
N(0, σ 2 ) erlaubt Schätzfunktionen zu entwickeln, die jeder möglichen Stichprobe ein
Intervall zuordnen, das zusätzlich den Stichprobenfehler (‘sampling error’ ) berücksichtigt und uns damit etwas über die ‘Genauigkeit’ einer Schätzung verrät.
Solche Schätzfunktionen werden Intervallschätzer genannt. Intervallschätzer sind
natürlich auch Zufallsvariablen, die auf der Idee der wiederholten Stichprobenziehungen (‘repeated sampling’ ) beruhen. Die bekanntesten Intervallschätzer sind Konfidenzintervalle (‘confidence interval’, abgekürzt CI).
Obwohl Konfidenzintervalle ein ziemlich allgemeines Konzept sind werden wir uns im
Folgenden nur mit Konfidenzintervallen für die Regressionskoeffizienten beschäftigen. Noch konkreter werden wir die Ergebnisse nur für den Steigungskoeffizienten βb2
eines bivariaten Regressionsmodells herleiten, aber die prinzipielle Idee ist natürlich
viel allgemeiner anwendbar.
5.2
Ein Konfidenzintervall für βb2
Aus Gründen der Einfachheit werden wir in diesem Kapitel generell annehmen, dass
alle Regressoren x deterministisch sind3 sowie alle Gauss Markov Annahmen erfüllt
und die Störterme normalverteilt seien.
3
Tatsächlich treffen wir diese Annahme nur aus Bequemlichkeit, denn man kann zeigen, dass
alle Konfidenzintervalle und Tests auch bei stochastischen Regressoren gültig bleiben, wenn die
Störterme normalverteilt sind, siehe Greene (2007, 57f).
4
Angewandte Ökonometrie
f (v)
µ2 = −2
σ2 = 0.4
0.8
0.6
µ1 = 1.5
σ1 = 0.5
0.4
0.2
−3
µ2
−2
−1
µ3
0
1
2
α/2 = 0.025
α/2 = 0.025
Fläche:
(1 − α) = 0.95
−1.96
−1
v
Standardisierte
Verteilung mit:
µz = 0
σz = 1
0.2
−2
3
f (z)
0.4
−3
µ1
0
1
+1.96
2
3
z
Abbildung 5.1: Normalverteile Zufallsvariablen v1 , v2 , v3 mit unterschiedlichen Erwartungswerten und Varianzen können standardisiert werden zu
z ∼ N(0, 1).
5.2.1
Implikationen der Normalverteilungsannahme
Die erste zentrale Frage ist, wie wir aus der Normalverteilung der Störterme εi auf die
Verteilung der Schätzfunktion βb2 schließen können. Dazu müssen wir etwas weiter
ausholen.
Aus der einführenden Statistik wissen wir, dass jede lineare Transformation einer
normalverteilten Zufallsvariable wieder normalverteilt ist. Dies gestattet eine Standardisierung normalverteilter Zufallsvariablen, wenn z.B. v eine normalverteilte Zufallsvariable mit E(v) = µ und se(v) = σv ist, dann kann daraus eine standardnormalverteilte Zufallsvariable z = (v − µ)/σv ∼ N(0, 1) erzeugt werden, siehe Abbildung
5.1.
Für standardnormalverteilte Zufallsvariablen z gilt
Pr (−1.96 ≤ z ≤ +1.96) = 0.95
crit
wobei 1.96 der kritische Wert z0.025
der Standardnormalverteilung ist, d.h. 2.5% der
Wahrscheinlichkeitsmasse liegen links von −1.96 und 2.5% der Wahrscheinlichkeitsmasse liegen rechts von +1.96, vgl. Abbildung 5.1.
Wenn wir das der Zufallsvariable z zugrunde liegende Zufallsexperiment unendlich
oft wiederholen würden, so erwarten wir 95% der Realisationen von z im Intervall
[−1.96, +1.96].
Dies wollen wir nun nützen um die Verteilung unserer Schätzfunktion βb2 zu bestimmen. Der Ausgangspunkt ist die Normalverteilungsannahme der Störterme
εi ∼ n.i.d.(0, σ 2 ).
5
Angewandte Ökonometrie
Für deterministische x ist deshalb auch die abhängige Variable yi = β1 + β2 xi + εi
normalverteilt mit yi ∼ n.i.d.(β1 + β2 xi , σ 2 ).
Daraus folgt, dass auch die OLS Schätzer normalverteilt sind, denn wieP
wir bereits
b
früher gezeigt haben sind diese eine lineare Funktion
der
y
,
z.B.
β
=
i
2
i wi yi mit
P
2
den deterministischen Gewichten wi = (xi − x̄)/ j (xj − x̄) .
Damit folgt aus der Normalverteilungsannahme der Störterme
βb2 − β2
∼ N(0, 1)
σβb2
und weiters
"
#
βb2 − β2
Pr −1.96 ≤
≤ +1.96 = 0.95
σβb2
Wenn wir den wahren Wert des Standardfehlers σβb2 kennen würden, könnten wir
daraus ein Konfidenzintervall für den Parameter β2 ermitteln indem wir obigen
Ausdruck umformen zu
h
i
Pr βb2 − 1.96 σβb2 ≤ β2 ≤ βb2 + 1.96 σβb2 = 0.95
Allerdings hilft uns dies wenig, da wir den den wahren Wert des Standardfehlers des
Steigungskoeffizienten σβb2 üblicherweise nicht kennen.
Die erste Idee, den wahren Wert des Standardfehlers, den Parameter σβb2 , durch
dessen Schätzer σ̂βb2 zu ersetzen, führt zu Problemen, denn σ̂βb2 ist im Gegensatz zu
σβb2 eine Zufallsvariable.4 Deshalb ist
βb2 − β2
≁ N(0, 1)
σ̂βb2
das Verhältnis zweier Zufallsvariablen, und es gibt keinen Grund anzunehmen, dass
diese Zufallsvariable wieder normalverteilt sein sollte.
Glücklicherweise konnte W.S. Gosset, Chef-Braumeister der Guinness Brauerei, vor
mehr als hundert Jahren zeigen, dass man die Verteilung des obigen Ausdrucks recht
einfach bestimmen kann (Gosset, 1908), er ist t-verteilt. Da Gosset dieses Ergebnis
unter dem Pseudonym “Student” veröffentlichte, wird die t-Verteilung manchmal
auch Student-Verteilung genannt (vgl. Ziliak, 2008).
5.2.2
Von der Normalverteilung zur t-Verteilung
Wir wollen nun zeigen, dass für das klassische Regressionsmodell mit normalverteilten Störtermen (CNLRM) yi = β1 + β2 xi2 + εi mit εi ∼ n.i.d.(0, σ 2 ) gilt
βb2 − β2
∼ tn−2
σ̂βb2
4
Es ist wichtig zu erkennen, dass σβb2 ein Parameter der Grundgesamtheit ist, also eine fixe
Zahl, während der Schätzer dafür, σ̂βb2 , eine Zufallsvariable ist und als solche wieder eine Stichprobenkennwertverteilung hat.
6
Angewandte Ökonometrie
f (t)
q > 120
q=5
0.4
q=1
0.2
−5
−4
−3
−2
−1
0
1
2
3
4
5 t
Abbildung 5.2: Vergleich der Dichtefunktionen einer t-Verteilung mit q Freiheitsgraden und einer Standard-Normalverteilung
oder in Worten, die mit Hilfe der geschätzten Standardfehler σ̂βb2 standardisierten
Koeffizienten sind t-verteilt mit n − 2 Freiheitsgraden.
Um dies zu zeigen erinnern wir uns aus der einführenden Statistik, dass die Quadratsumme von q unabhängig standardnormalverteilten Zufallsvariablen χ2 verteilt
ist mit q Freiheitsgraden.
Ebenso ist bekannt, dass das Verhältnis einer standardnormalverteilten Zufallsvariable und der Wurzel einer davon unabhängig χ2 -verteilten Zufallsvariable, dividiert
durch die Freiheitsgrade, t-verteilt ist, also
N(0, 1)
q
∼ tq
χ2q /q
Die t-Verteilung ist ähnlich wie die Standardnormalverteilung symmetrisch, hat aber
‘fat tails’ (‘dicke Ränder’); siehe Abbildung 5.2. Für große n konvergiert die tVerteilung gegen die Standardnormalverteilung. De facto macht es ab einer Stichprobengröße n > 30 keinen großen Unterschied, ob man in der t-Verteilungstabelle
oder in der Standardnormalverteilungstabelle nachschlägt.
Um nun zu zeigen, dass (βb2 − β2 )/σ̂βb2 tatsächlich t-verteilt ist, erinnern wir uns,
dass die mit Hilfe des ‘wahren’ Standardfehlers σβbh standardisierten Koeffizienten
standardnormalverteilt sind
βb2 − β2
∼ N(0, 1)
(5.1)
σβb2
wobei β2 und σβb2 fixe, aber unbekannte Parameter der Grundgesamtheit sind (also
keine Zufallsvariablen).
Wenn für alle Störterme gilt εi ∼ N(0, σ 2 ) (mit i = 1, . . . , n) kann man zeigen, dass
die folgende Zufallsvariable χ2 verteilt ist mit n − 2 Freiheitsgraden
P 2
i ε̂i
∼ χ2n−2
σ2
P
wobei i ε̂2i die beobachtbare Quadratsumme der Residuen und σ 2 die unbeobachtbare Varianz der Störterme ist.
7
Angewandte Ökonometrie
Unter Verwendung des Standardfehlers der Regression σ̂ 2 =
wir dies umschreiben zu
P
ε̂i2
σ2
(n − 2)σ̂ 2
=
=
σ2
(n−2)σ̂2
P
(xi −x̄)2
2
P σ
(xi −x̄)2
=
(n − 2)σ̂β2b
2
σβ2b
2
P
ε̂i2 /(n − 2) können
∼ χ2n−2
(5.2)
P
P
(xi −x̄)2 bzw. σβ2b = σ 2 / (xi −x̄)2 . Man beachte, dass σ 2 die Varianz
2
der Störterme ist, und σ 2 die Varianz des Steigungskoeffizienten βb2 ; beide Varianzen
da σ̂β2b = σ̂ 2 /
2
βb2
sind unbeobachtbare Parameter, die aus den Daten geschätzt werden müssen.
Da man obendrein zeigen kann, dass die standardnormalverteilte Zufallsvariable
(5.1) und die χ2 -verteilte Zufallsvariable (5.2) stochastisch unabhängig sind, ist der
Quotient dieser beiden Zufallsvariablen eine t-verteilte Zufallsvariable
N(0, 1)
q 2 ∼ tn−2
χn−2
n−2
⇒
r
βb2 −β2
σβb
2
(n−2)σ̂2b
=
βb2 −β2
σβb
β2
(n−2)σ2b
β2
2
σ̂βb
2
σβb
2
=
βb2 − β2
∼ tn−2
σ̂βb2
Die schöne Überraschung dabei ist, dass sich die unbekannte Populationsvarianz σβ2b
2
herauskürzt.
Wir werden später zeigen, dass dieses wichtige Resultat von Gosset (1908) auch
allgemeiner für einen beliebigen Koeffizienten h des multiplen Regressionsmodells
mit k Regressoren (inkl. Regressionskonstante; mit h ∈ {1, . . . , k}) gilt
βbh − βh
∼ tn−k
σ̂βbh
wobei n − k die Freiheitsgrade sind.
Mit Hilfe dieses Ergebnisses können nun einfach die Konfidenzintervalle der Koeffizienten berechnet werden. Es ist üblich, das gewählte Konfidenzniveau mit (1 − α)
zu bezeichnen, wobei α das frei gewählte Signifikanzniveau ist. Für ein 95% Konfidenzniveau ist z.B. α = 0.05 und 1 − α = 0.95.
Die Bestimmung des Konfidenzintervalls ist nun einfach. Wir wissen, dass
#
"
b
βh − βh
Pr −tcrit
≤ +tcrit
α/2,df ≤
α/2,df = 1 − α
σ̂βbh
wobei tcrit
α/2,df den kritischen Wert der t-Verteilung ist und df die Freiheitsgrade (‘degrees of freedom’ ) bezeichnet. Der kritische Wert tcrit
0.025,25 = 2.06 sagt uns z.B., dass
bei einer t-Verteilung mit 25 Freiheitsgraden 2.5% der Fläche rechts vom Wert 2.06
liegen.5
5
Der kritische Wert kann entweder in einer Tabelle nachgeschlagen werden, oder wenn ein Statistikprogramm zur Verfügung steht, mit Hilfe der Quantilfunktion (inversen Verteilungsfunktion)
berechnet werden.
8
Angewandte Ökonometrie
Wir formen diesen Ausdruck nun so um, dass der unbeobachtbare
Zentrum steht.
h
i
crit
crit
b
Pr −tα/2,df · σ̂βbh ≤ βh − βh ≤ +tα/2,df · σ̂βbh =
h
i
bh + tcrit · σ̂ b
Pr −βbh − tcrit
·
σ̂
≤
−β
≤
−
β
=
b
h
α/2,df
α/2,df
βh
βh
h
i
crit
b
Pr +βbh + tcrit
=
α/2,df · σ̂βbh ≥ βh ≥ βh − tα/2,df · σ̂βbh
Parameter βh im
1−α
1−α
1−α
Wir haben nun gezeigt, dass aus den Gauss Markov Annahmen und der zusätzlichen
Annahme normalverteilter Störterme
βbh − βh
∼ tn−k
σ̂βbh
folgt, und dies erlaubt uns folgende zentrale Wahrscheinlichkeitsaussage
h
i
crit
b
Pr βbh − tcrit
·
σ̂
≤
β
≤
β
+
t
·
σ̂
h
h
α/2,df
α/2,df
βbh
βbh = 1 − α
Dies definiert die untere und obere Grenze des (1 − α) × 100 Prozent Konfidenzintervalls für einen Regressionskoeffizienten h
h
i
crit
b
βbh − tcrit
σ̂
,
β
+
t
σ̂
h
α/2,df βbh
α/2,df βbh
Beispiel: In einem früheren Beispiel haben wir den Preis von Gebrauchtautos auf
Alter und Kilometerstand regressiert.
[ =
Preis
22649.88 − 1896.26 Alter
(411.87)
(235.215)
R2 = 0.907,
− 0.031 km
(0.008)
n = 40
(Standardfehler in Klammern)
Die Koeffizienten weisen das erwartete Vorzeichen auf und haben die übliche Interpretation, z.B. sinkt der erwartete (gefittete) Preis bei konstanter km-Zahl jedes
Jahr um 1896.26 Euro.
Dies ist eine Punktschätzung, der uns nichts über die Genauigkeit der Schätzung
verrät. Um ein 95% Konfidenzintervall zu berechnen benötigen wir den kritischen
t-Wert, und um diesen nachschlagen zu können die Freiheitsgrade.
Wir haben insgesamt 40 Beobachtungen (n = 40) und drei geschätzte Koeffizienten
(b1 , b2 und b3 ), also n − k = 40 − 3 = 37 Freiheitsgrade. Tabelle 5.1 gibt uns
nur die die kritischen Werte für 30 und 40 Freiheitsgrade, der kritische Wert für 40
Freiheitsgrade wäre z.B. tcrit
0.025,40 = 2.021. Wem dies zu ungenau ist kann mit Hilfe der
Quantilfunktion eines geeigneten Programmes den genauen Wert tcrit
0.025,37 = 2.0262
6
berechnen.
6
Die Funktionen sind für R: qt(0.975,37) und für Stata: invttail(37,0.025), und für
EViews: @qtdist(0.975,37).
9
Angewandte Ökonometrie
Tabelle 5.1: Tabelle: t(q) -Verteilung (rechts-seitig)
q
α = 0.1
α = 0.05
α = 0.025
α = 0.01
α = 0.005
1
2
3
..
.
3.078
1.886
1.638
..
.
6.314
2.920
2.353
..
.
12.706
4.303
3.182
..
.
31.821
6.965
4.541
..
.
63.657
9.925
5.841
..
.
30
40
60
∞
1.310
1.303
1.296
1.282
1.697
1.684
1.671
1.645
2.042
2.021
2.000
1.960
2.457
2.423
2.390
2.327
2.750
2.704
2.660
2.576
Die Realisation des 95% Konfidenzintervalls für das Alter ist also
[−1896.26 − 2.0262 ∗ 235.215; −1896.26 + 2.0262 ∗ 235.215]
bzw. [−2372.854; −1419.674].
Für ein 99% Konfidenzintervall wäre der kritische Wert tcrit
0.005,37 = 2.715409 größer,
das Konfidenzintervall also breiter [−2534.968; −1257.56].
Die Realisation des 95% Konfidenzintervalls für km ist [−0.04695; −0.01507].
Da es sich jeweils um Realisationen handelt ist es offensichtlich, dass Wahrscheinlichkeitsaussagen über diese Konfidenzintervalle sinnlos wären.
5.2.3
Interpretation von Konfidenzintervallen
Als Jerzy Neyman seine Idee mit den Konfidenzintervallen 1934 erstmals der Royal
Statistical Society vorstellte stieß er nicht auf ungeteilte Begeisterung. Nach dem
üblichen Dank brachte der Chair der Sitzung seine Skepsis zum Ausdruck:
“I am not certain whether to ask for an explanation or to cast a doubt.
[. . . ] I am referring to Dr. Neyman’s confidence limits. I am not at all
sure that the ‘confidence’ is not a ‘confidence trick’. [. . . ] The statement
of the theory is not convincing, and until I am convinced I am doubtful
of its validity.” (Salsburg, 2002, 121)
Die theoretische Gültigkeit sowie Nützlichkeit der Konfidenzintervalle steht mittlerweile außer Zweifel, sie gehören längst zum unverzichtbaren Standardrepertoire der
statistischen Analyse.
Trotzdem erschließt sich das Konzept der Konfidenzintervalle nicht auf den ersten
Blick, Konfidenzintervalle sind zwar einfach zu berechnen, aber nicht immer ganz so
einfach zu verstehen. Deshalb wollen wir etwas weiter ausholen.
Wann immer wir mit Zufallsvariablen und deren Realisationen operieren müssen wir
vorsichtig sein. Zufallsvariablen beschreiben alle möglichen Ausgänge eines Zufallsexperiments, also gewissermaßen den ex ante Zustand vor Durchführung des dahinter liegenden Zufallsexperiments. Bevor das gedachte Experiment durchgeführt
wurde ist der Ausgang ungewiss, deshalb können wir Wahrscheinlichkeitsaussagen
über die möglichen Ausgänge machen.
Angewandte Ökonometrie
10
Tatsächlich können wir aber nur Realisationen beobachten, Ergebnisse des (gedachten) Zufallsexperiments. Sobald das Experiment durchgeführt wurde ist das Resultat
fix, deshalb können wir über Realisationen keine Wahrscheinlichkeitsaussagen treffen
(außer der trivialen Aussage, dass das beobachtete Ereignis mit Wahrscheinlichkeit
Eins eingetroffen ist).
Was bedeutet dies nun für unser Konfidenzintervall? Wir stellen zuerst fest, dass
in einer ex ante Sichtweise
unsere Schätzer für diei obere und untere Grenze des
h
crit
b
Konfidenzintervalls βbh − tcrit
α/2,df σ̂βbh , βh + tα/2,df σ̂βbh Zufallsvariablen in dem Sinne
sind, dass sie jeder möglichen Stichprobe zwei Zahlenwerte zuordnen.
In dieser ex ante Sichtweise kann die Wahrscheinlichkeitsaussage
h
i
bh + tcrit · σ̂ b = 1 − α
Pr βbh − tcrit
·
σ̂
≤
β
≤
β
b
h
α/2,df
α/2,df
βh
βh
mindestens auf zwei Arten interpretiert werden
• wenn wir – hypothetisch – unendlich viele Stichproben ziehen würden, und für
jede dieser Stichproben ein z.B. 95% Konfidenzintervall berechnen würden, so
würden 95% dieser Konfidenzintervalle den wahren Wert βh überdecken; oder
• das 95% Konfidenzintervall, welches wir aus der nächsten – noch nicht gezogenen – Stichprobe berechnen werden, wird mit 95% Wahrscheinlichkeit das
wahre βh überdecken.
Sobald auf Grundlage der einen vorliegenden Stichprobe die empirischen Realisationen von b2 und sβb2 berechnet wurden erhalten wir eine Realisation der unteren
und oberen Intervallgrenze, ein empirisches Konfidenzintervall, also einfache Zahlen.
Darüber können wir natürlich keine Zufallsaussage treffen (sβb2 ist die Realisation
der Zufallsvariable σ̂ b , also des Standardfehlers des Koeffizienten βb2 ).
β2
Um zu einer Wahrscheinlichkeitsaussage zu kommen müssen wir uns gedanklich in
den Zustand vor Durchführung des Zufallsexperiments versetzen, wir stellen uns
vor, wir könnten beliebig viele Stichproben der gleichen Größe aus der gemeinsamen
Wahrscheinlichkeitsverteilung der Variablen ziehen, und für jede dieser Stichproben
ein Konfidenzintervall berechnen.
Wenn wir die richtige Teststatistik gewählt haben und die entsprechenden Annahmen erfüllt sind können wir sagen, dass 95% der derart (hypothetisch) berechneten
Konfidenzintervalle den wahren Wert überdecken würden.
Kehren wir zurück zu dem vorhin berechneten 95% Konfidenzintervall
[−2372.854; −1419.674] für den Koeffizienten des Alters im Autobeispiel.
Da es sich dabei um eine Realisation handelt, also um eine ex post Sichtweise, erlaubt uns dieses Konfidenzintervall keine Wahrscheinlichkeitsaussage. Eine Aussage
wie “Das Konfidenzintervall [−2372.854; −1419.674] enthält mit 95% Wahrscheinlichkeit den wahren Wert β2 ” ist offensichtlich unsinnig; β2 ist ein unbekannter Parameter und er liegt entweder in diesem Intervall oder er liegt außerhalb, etwas
dazwischen gibt es nicht, vgl. Abbildung 5.3.
Vom realisierten Konfidenzintervall wissen wir aber, dass es (in statistischer Sicht)
nur eines von vielen potentiell möglichen Konfidenzintervallen ist, die alle nach der
11
Angewandte Ökonometrie
b
f (β)
Stichprobenkennwertverteilung
von βb um wahres β
(1 − α)
α/2
α/2
βb
β
bc
Wiederholte
Stichprobenziehungen
(7 Realisationen)
b1
bc
b2
bc
b3
bc
b4
bc
b5
bc
b6
bc
b
7
Abbildung 5.3: ‘Wahres’ β und Konfidenzintervalle für 7 Stichproben. In der praktischen Arbeit beobachten wir nur eine einzige Stichprobe und
deshalb nur eine einzige Realisation eines Konfidenzintervalls. Obwohl wir nie sicher sein können, ob dieses eine Konfidenzintervall
den wahren Wert β enthält, gibt uns die Breite des Konfidenzintervalls wichtige Information über die Genauigkeit der Schätzung!
Quelle: nach Bleymüller et al. 2002, S. 86.
gleichen Regel berechnet werden und die sich nur aufgrund der Stichprobenvariabilität unterscheiden, sowie dass 95% dieser potentiell möglichen Intervalle den wahren
Wert überdecken.
Wir können nur hoffen, dass unsere Stichprobe eine der 95% aller Stichproben ist,
deren Konfidenzintervall den wahren Wert β2 überdeckt, aber wir können uns nie
sicher sein. Abbildung 5.3 verdeutlicht diese Idee.
Was sollen wir dann mit diesem Konfidenzintervall anfangen? Viele Anfänger sind
verunsichert und frustriert, dass die Realisation des Konfidenzintervalls so wenig
über den wahren Parameter β2 verrät, dass sie darüber den wesentlichen Punkt
übersehen, die Breite des Konfidenzintervalls!
Es ist offensichtlich, dass die Breite des Konfidenzintervalls in einer unmittelbaren
Beziehung zum Stichprobenfehler steht, umso enger ein Konfidenzintervall ist, umso
mehr werden wir dieser Schätzung vertrauen.
12
Angewandte Ökonometrie
Eine Frage stellt sich noch: wir beobachten nur eine einzige Stichprobe; wie können
wir aus dieser einen Stichprobe auf die aus der unbekannten Grundgesamtheit resultierende Stichprobenvariabilität schließen? Die Antwort folgt unmittelbar aus den
Annahmen, insbesondere der Annahme, dass alle Störterme unabhängig normalverteilt sind, denn wenn diese Annahmen erfüllt sind gilt das bekannte Ergebnis von
Gosset (1908) t = (βb2 − β2 )/σ̂β2b ∼ tn−2 .
2
Deshalb erlauben Konfidenzintervalle bei Gültigkeit dieser Annahme eine einfache
und unmittelbare Beurteilung des Stichprobenfehlers, der aus der Stichprobenvariablilität resultiert, und verraten uns damit etwas über die Präzision der Schätzung. Dies
gestattet uns im weiteren eine Beurteilung der Vertrauenswürdigkeit der Schätzung.
Aber benötigen wir dafür wirklich ein so kompliziertes Verfahren? Ja! Ein großer
Vorteil von Konfidenzintervallen besteht darin, dass sie nach einer festen und nachvollziehbaren Regel berechnet werden, und dass alle Forscherinnen, die sich an dieses
Regelwerk halten, zu vergleichbaren Ergebnissen kommen. Sie gehören deshalb zum
unverzichtbaren Instrumentarium aller empirisch arbeitenden Wissenschaftler.
Ein kleiner Nachteil von Konfidenzintervallen sei allerdings nicht verschwiegen, es
ist nicht immer ganz einfach einem Laien in wenigen Worten zu erklären, was sie
wirklich aussagen. Aber damit stehen sie nicht ganz alleine da, dieses Problem teilen
sie bekanntlich mit vielen abstrakten Konzepten der Wissenschaft.
5.2.4
Zusammenfassung
Der zentrale Ausgangspunkt dieses Abschnitts war das bekannte Ergebnis von Gosset (1908)
βb2 − β2
∼ tn−2
σ̂βb2
welches die Herleitung von Konfidenzintervallen für die Regressionskoeffizienten erlaubte.
Wir fassen die Schritte zur Bestimmung eines Intervallschätzers für βbh noch einmal
zusammen:
1. Nachdenken über die Forschungsfrage und überlegen, inwieweit vernünftigerweise davon ausgegangen werden kann, dass die Gauss Markov Annahmen und
die Normalverteilungsannahme ‘in einem hinreichenden Ausmaß’ erfüllt sind.
2. Berechnung des Punktschätzers bh und des Standardfehlers dieses Koeffizienten σ̂bh .
3. Festlegung eines Konfidenzniveaus (1−α) und Bestimmung des dazugehörigen
kritischen Wertes tcrit
α/2,n−k für n−k Freiheitsgrade (für eine multiple Regression
mit k Regressoren und unbekanntem σ 2 ).
4. Für das theoretische Konfidentintervall
h
i
bh + tcrit
Pr βbh − tcrit
σ̂
≤
β
≤
β
σ̂
b
b
h
α/2,n−k βh
α/2,n−k βh = 1 − α
Angewandte Ökonometrie
13
berechnen wir die Realisation
crit
bh − tcrit
α/2,n−k sbh ; bh + tα/2,n−k sbh
5. Interpretation des Intervallschätzers: wenn alle Gauss Markov Annahmen
erfüllt sind und die Störterme normalverteilt sind erwarten wir, dass bei wiederholten Stichprobenziehungen (1 − α) × 100% der so berechneten Konfidenzintervalle den ‘wahren’ Wert βh überdecken.
Generell wird die Schätzung umso genauer sein, je enger das so berechnete
Konfidenzintervall ist.
Man beachte, dass die Breite des Konfidenzintervalls sowohl vom frei gewählten
Konfidenzniveau 1 − α abhängt, als auch von allen Faktoren, die sich auf die Größe
des Standardfehlers des Koeffizienten auswirken.
Das Konfidenzintervall ist ceteris paribus umso enger, . . .
• je kleiner das frei gewählte Konfidenzniveau 1 − α ist (d.h. ein 90% Konfidenzintervall ist ceteris paribus enger als ein 99% Konfidenzintervall7 ), und
• umso kleiner der Standardfehler des Koeffizienten ist.
Der Standardfehler ist wiederum umso kleiner, . . .
– umso kleiner die Varianz der Störterme σ 2 ist,
P
– umso größer die Streuung i (xi − x̄)2 der Regressoren ist,
– umso größer die Stichprobe ist, und
– umso kleiner die Korrelation zwischen den Regressoren ist.
Übung:
1. Für unser früheres Beispiel über den den Zusammenhang zwischen Preis (in
Euro) und Alter (in Jahren) von Gebrauchtautos haben wir das 95% Konfidenzintervall [−2372.854; −1419.674] berechnet.
Interpretieren Sie dieses Konfidenzintervall. Wie würden Sie das Ergebnis Ihrem Vater erklären?
2. Benützen Sie
(n − 2)σ̂ 2
∼ χ2n−2
2
σ
um ein 95% Konfidenzintervall für σ 2 zu konstruieren. Berechnen Sie dieses
Intervall für obiges Beispiel.
7
Konfidenzintervalle, die nur in 90% der Fälle den wahren Wert enthalten müssen, können ceteris
paribus schmaler sein als Konfidenzintervalle, die in 99% der Fälle den wahren Wert enthalten
sollen.
Angewandte Ökonometrie
5.3
14
Einfache Hypothesentests
Wir haben uns bisher darauf konzentriert, eine möglichst gute Schätzfunktion βb für
einen ‘wahren’, aber unbekannten Parameter β zu finden, sowie eine Schätzfunktion
für dessen Standardfehler σ̂βb, mit dessen Hilfe wir u.a. Konfidenzintervalle berechnen
konnten.
Tatsächlich läuft der wissenschaftliche Erkenntnisprozess aber häufig anders. Am
Anfang steht meist der Wunsch ein beobachtetes Phänomen zu ‘verstehen’. Aber
was meinen wir mit ‘verstehen’ ? Offensichtlich erklären selbst Experten beobachtete Phänomene höchst unterschiedlich, obwohl sie alle glauben das Phänomen zu
‘verstehen’.
Ein bewährter Ansatz “etwas zu verstehen” besteht darin, den Mechanismus, den
den wir hinter dem Phänomen vermuteten, in einem – häufig mathematischen –
Modell nachzubilden. Wenn dieses Modell ähnliche Ergebnisse produziert wie die
in der Realität beobachteten Phänomene, dann sind wir einem reproduzierbaren
Erklärungsansatz zumindest deutlich näher gekommen.
Was wir dafür aber benötigen ist eine Methode, mit der wir überprüfen können,
inwieweit die Vorhersagen des Modells mit den beobachteten Daten kompatibel sind,
oder auch, inwieweit die dem Modell zugrunde liegenden Annahmen ‘realistisch’
sind.
Dies ist nicht ganz einfach, da Modelle immer Vereinfachungen sind und nie alle Aspekte des datengenerierenden Prozesses abbilden können, deshalb werden die
Vorhersagen der Modelle kaum jemals exakt mit den beobachteten Daten übereinstimmen. Aber wie groß dürfen die Abweichungen sein? Und wie sicher dürfen wir
sein, dass das Modell tatsächlich eine adequate Beschreibung der hinter dem datengenerierenden Prozesses liegenden Gesetzmäßigkeiten liefert? Genau darum geht es
in diesem Kapitel, nämlich um das Testen.
Die Anfänge der Hypothesentests gehen auf Pioniere wie Francis Ysidro Edgeworth
(1885) und Karl Pearson (1900) zurück, die gegen Ende des 19. Jahrhunderts erstmals begannen die Grundlagen statistischer Tests zu formulieren und systematischer
darzustellen.
Die moderne Form von Hypothesentests geht vor allem auf drei Personen zurück, die
in den Jahren zwischen 1915 und 1933 die Grundlagen schufen. Auf der einen Seite
der große Pionier der modernen Statistik, R.A. Fisher (1925), und auf der anderen
Seite Neyman and Pearson (1928a,b).
Obwohl Fisher und Neyman-Pearson überzeugt waren, dass ihre Ansätze sich
grundsätzlich unterscheiden, wird in fast allen modernen Lehrbüchern eine Hybridform dieser beiden Ansätze präsentiert. Für eine Diskussion siehe z.B. Gigerenzer
et al. (1990), Lehmann (1993), Spanos (1999, 688ff).
Hier werden wir eher aus didaktischen Gründen als um der historischen Gerechtigkeit
willen zuerst kurz den Ansatz von Ronald A. Fisher skizzieren, bevor wir den heute
eher gebräuchlichen Ansatz von Neyman-Pearson präsentieren.
5.3.1
Signifikanztest nach R.A. Fisher
Bis herauf zum späten 19. Jahrhundert waren die Überlegungen, wie man Informationen aus der Stichprobe mit den theoretischen Vermutungen konfrontieren könnte,
15
Angewandte Ökonometrie
eher informeller Natur. Die grundlegende Idee könnte man folgendermaßen skizzieren: wenn wir den wahren – aber unbekannten – Wert eines interessierenden Parameters mit θ bezeichnen, und unsere theoretischen Überlegungen einen Wert θ0
erwarten lassen, so hat die Hypothese die Form
θ = θ0
Da θ nicht beobachtbar ist können wir dazu keine Aussage machen, aber wenn diese
Hypothese wahr ist sollte auch der Unterschied zwischen dem Schätzer θ̂ und der
Vermutung θ0 ‘möglichst klein’ oder ungefähr Null sein
|θ̂ − θ0 | ≈ 0
Obwohl in dieser Frühzeit noch nicht dargelegt wurde, was konkret unter ‘näherungsweise Null’ zu verstehen sei, folgen daraus bereits die zwei zentralen Elemente
eines Hypothesentests, nämlich
1. eine Vermutung über die Grundgesamtheit θ = θ0 ; und
2. eine Distanzfunktion |θ̂ − θ0 |
Darauf aufbauend entwickelte R. Fisher seinen Ansatz zu Hypothesentests.
Der erste große Beitrag Fishers in diesem Zusammenhang bestand in der Formulierung einer expliziten Nullhypothese
H0 :
θ = θ0
sowie der Einsicht, welche Implikationen dies für Hypothesentests hat. Man beachte, dass sich die Nullhypothese immer auf die unbeobachtbare Grundgesamtheit –
also die Parameter der PRF – bezieht, und nicht auf die Schätzung (SRF). Die
Schätzungen sind beobachtbar, da gibt es nichts zu vermuten.
Die Nullhypothese wird meist als ‘Negativhypothese’ formuliert, d.h. als Gegenhypothese zur theoretischen Vermutung. Die Nullhypothese beschreibt in diesem Sinne
häufig einen ‘worst case’ für die Vermutung der Forscherin, sodass sie wünscht die
Nullhypothese verwerfen zu können. Durch diese Vorgangsweise soll die Wahrscheinlichkeit für eine irrtümliche Verwerfung der Nullhypothese kontrolliert klein bleiben.
Prinzipiell können Forscher frei entscheiden was sie als ‘worst case’ ansehen, bzw.
wie sie ihre Nullhypothese formulieren, allerdings gibt es – wie wir später zeigen
werden – eine Einschränkung technischer Natur: die Nullhypothese muss stets so
formuliert werden, dass sie das ‘=’ Zeichen (bzw. bei einseitigen Hypothesen das ‘≤’
oder ‘≥’ Zeichen) enthält (d.h., die H0 darf kein 6=, < oder > enthalten).
Im Unterschied zu Neyman-Pearson stellte Fisher seiner Nullhypothese keine explizite Alternativhypothese gegenüber. Die Nullhypothese wird solange als ‘wahr’
angenommen, bis sie in ‘zu starken’ Konflikt mit den beobachtbaren Daten – also
der Stichprobe – gerät.
Auf den Arbeiten von Gosset (1908) aufbauend erkannte Fisher, wie die Distanz
|θ̂ − θ0 | beurteilt werden kann, nämlich durch die Verwendung einer Teststatistik.
16
Angewandte Ökonometrie
Teststatistiken sind neben Nullhypothesen eine zweite unverzichtbare Zutat für
Hypothesentests. Teststatistiken sind spezielle Zufallsvariablen, deren theoretische
Verteilung unter Gültigkeit der Nullhypothese bekannt ist. Ähnlich wie Schätzfunktionen sind Teststatistiken spezielle Funktionen der Stichprobe, d.h. sie ordnen jeder
Stichprobe eine reelle Zahl zu. Im Unterschied zu Schätzern muss die theoretische
Stichprobenkennwertverteilung (‘sampling distribution’ ) einer Teststatistik unter H0
aber von vornherein bekannt sein. Teststatistiken dürfen natürlich keine unbekannten Parameter enthalten, sonst könnte ihr Wert für eine konkrete Stichprobe nicht
berechnet werden.
Die Herleitung von Teststatistiken ist Aufgabe der theoretischen Ökonometrie (bzw.
Statistik) und im allgemeinen kein einfaches Unterfangen. Wie wir später sehen
werden sind viele der gebräuchlichen Teststatistiken asymptotischer Natur, d.h. ihre
Verteilung ist für kleine Stichproben unbekannt, konvergiert aber mit zunehmender
Stichprobengröße gegen eine bekannte theoretische Verteilung.
Wir wollen die prinzipielle Idee von Teststatistiken anhand einer einfachen t-Statistik
erläutern, übrigens eine der eher wenigen Teststatistiken, deren theoretische Verteilung auch für kleine Stichproben bekannt ist. Sie beruht auf dem bekannten Ergebnis
von Gosset (1908) (vgl. Abschnitt 5.2.2, Seite 5), für einen Koeffizienten βbh des Regressionsmodells yi = βb1 + · · · + βbh xih + · · · + βbk xik + ε̂i
βbh − βh
∼ tn−k
σ̂βbh
(5.3)
Dies gilt für den ‘wahren’ Wert βh , der leider unbeobachtbar ist. Aber wenn die
Nullhypothese βh = β0 wahr ist muss gelten
t(S) =
βbh − β0 H0
∼ tn−k
σ̂βbh
(5.4)
wobei S die Menge aller mögliche Stichproben bezeichnet und t(S) ausdrücken soll,
dass die Teststatistik t(S) eine Funktion der Stichproben S ist, also ein ZufallsvaH0
riable. Da dies nur gilt, wenn die Nullhypothese wahr ist, schreiben wir ∼;
dies wird
gelesen als “ist unter H0 verteilt als”. Wenn also H0 : βh = β0 wahr ist und alle Gauss
Markov Annahmen sowie die Normalverteilungsannahme der Störterme erfüllt sind,
ist t(S) t-verteilt mit n − k Freiheitsgraden.
Wenn wir in einer Monte Carlo Simulation unendlich viele Stichproben mit Umfang
n ziehen würden, für jede dieser Stichproben den Wert der Teststatistik t berechnen,
und schließlich ein Histogramm all dieser t Werte zeichnen würden, so könnten wir
feststellen, dass diese empirische Simulation ungefähr einer t-Verteilung folgt. Die
theoretische Stichprobenkennwertverteilung f (t) ist in Abbildung 5.4 eingezeichnet.
Man beachte übrigens den Unterschied zwischen Gleichung (5.4) und Gleichung
(5.3), Gleichung (5.3) enthält den unbekannten Parameter βh und ist deshalb keine
Teststatistik. In Funktion (5.4) wurde der unbekannte Parameter βh durch die beobachtbare Vermutung unter der H0 , d.h. durch das bekannte β0 , ersetzt, deshalb
erfüllt Funktion (5.4) alle Eigenschaften einer Teststatistik, sie ist eine Zufallsvariable, die jeder möglichen Stichprobe eine reelle Zahl zugeordnet, sie enthält keine
unbekannten Parameter, und die theoretische Verteilung von t(S) unter H0 ist bekannt.
17
Angewandte Ökonometrie
Man beachte, dass im Zähler der Teststatistik das Stichproben-Analogon zur Nullhypothese H0 : βh = β0 in impliziter Form steht, d.h. βbh − β0 (= 0), wobei die
Schätzfunktion βbh eine Zufallsvariable und β0 ein Skalar ist.
Offensichtlich ist die Teststatistik t(S) eine Funktion der Distanz |βbh − β0 |, und
um diese Distanz berechnen zu können muss die Nullhypothese das ‘=’ Zeichen
enthalten. Der Wert der Teststatistik wird umso näher bei Null liegen, umso geringer
die Distanz zwischen dem Schätzer βbh und dem unter der Nullhypothese vermuteten
Wert β0 ist. Diese Distanz wird gewichtet mit dem Standardfehler σ̂βbh , einer weiteren
Zufallsvariable.
Unter den getroffenen Annahmen ist die Stichprobenkennwertverteilung von t(S)
unter H0 t-verteilt und wir müssen lediglich die Anzahl der Freiheitsgrade n − k
kennen um die Dichtefunktion der Zufallsvariablen t(S) wie in Abbildung 5.4 zeichnen zu können.
Nun gehen wir einen entscheidenden Schritt weiter und ziehen eine konkrete Stichprobe. Diese Stichprobe erlaubt uns Schätzungen (also Realisationen) für die Schätzfunktionen βbh und σ̂βbh zu berechnen, also bh und sβbh . Mit Hilfe dieser Schätzungen
können wir eine Realisation temp der Teststatistik t(S) berechnen, die wir im Folgenden als ‘empirische t-Statistik’ bezeichnen
temp =
bh − β0
sβbh
Damit ist aber die Frage, inwieweit die beobachtbaren Daten in Konflikt zu unserer
Nullhypothese stehen, noch nicht beantwortet. Hier kommt nun die nächste große
Beitrag Fishers, die p-Werte, welche uns eine statistische Beurteilung der Nullhypothese erlauben werden.
p-Werte für zweiseitige Hypothesentests
Rekapitulieren wir, wir haben nun eine theoretische Teststatistik t(S) für die Nullhypothese H0 : βh − β0 = 0, sowie eine empirische Realisation temp dieser Teststatistik.
Abbildung 5.4 zeigt die Verteilung der theoretischen Teststatistik. Man beachte, dass
wir nur die Stichprobengröße n kennen müssen um diese Dichtefunktion zu zeichnen,
da die Form der t-Verteilung nur von der Anzahl der Freiheitsgrade n − k abhängt.
Die Nullhypothese H0 : βh = β0 ist zweiseitig, sowohl Werte von βbh , die viel größer
als β0 sind, als auch Werte von βbh , die viel kleiner als β0 sind, sind entweder unwahrscheinlich oder sprechen gegen die Nullhypothese.
Im nächsten Schritt nützen wir Realisation temp der vorliegenden Stichprobe. Da die
empirische Teststatistik positiv oder negativ sein kann verwenden wir den Absolutwert |temp |.
Die p–Werte nach Fisher für einen zweiseitigen Test sind die Flächen unter der
Dichtefunktion rechts von +|temp | und links von −|temp |.
Diese Flächen können mit Hilfe der Verteilungsfunktion F (t) einfach berechnet werden.
Z emp
|t
F (t) =
|
f (v) dv
−∞
18
Angewandte Ökonometrie
Stichprobenkennwertverteilung f (t)
der Teststatistik t(S)
unter H0
p-Wert
(Fläche)
−|temp |
0
|temp |
t(S)
Abbildung 5.4: p-Wert nach R. Fisher (rot schraffierte Fläche) für zweiseitigen
Test H0 : β = β0 .
Der Wert der Verteilungsfunktion an der Stelle +|temp | gibt die Fläche unter der
Dichtefunktion links von +|temp | an. Da die gesamte Fläche unter einer Dichtefunktion immer 1 ist erhalten wir die Fläche rechts von +|temp | mit 1 − F (|temp |. Da die
t-Verteilung symmetrisch ist brauchen wir diesen Wert nur zu verdoppeln um den
p-Wert für deinen zweiseitigen Test zu erhalten.
pemp = 2[1 − F (|temp |, df)]
wobei F (t) die Verteilungsfunktion der t-Verteilung ist (nicht die F-Statistik!), |temp |
ist der Absolutwert der empirischen Teststatistik, und und df steht für die Freiheitsgrade (‘degrees of freedom’ ).
Die prinzipielle Idee von Signifikanztests nach R.A. Fisher sind in Abbildung 5.5
dargestellt. Auf Grundlage der Zufallsvariablen ‘hinter’ den Realisationen der Stichprobe wird eine Teststatistik konstruiert, deren Verteilung unter H0 bekannt ist. Da
unter H0 auch die Lage der Stichprobenkennwertverteilung der Teststatistik bekannt
ist kann dies genützt werden, um die empirischen p-Werte zu bestimmen.
Beispiel Im
Kapitel
zur
deskriptiven
Regressionsanalyse
hatten wir ein Beispiel mit den Stundenlöhnen (StdL) und dem Geschlecht (m
=
1 für Männer und Null sonst) von 12 Personen
((http://www.uibk.ac.at/econometrics/data/stdl_bsp1.csv)). Nun interpretieren wir diese Zahlen als Stichprobe aus einer unbekannten Grundgesamtheit. Das
Ergebnis war
StdL
=
12.5
(0.747)***
R2 = 0.359,
+
2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Angewandte Ökonometrie
Datengenerierender
Prozess (DGP)
y = β1 + β2x + ε
f (x, y)
x
n Paare von Zufallsvariablen;
εi identisch & unabhängig verteilt?
y
ε̂1 = y1 − βb1 − βb2 x1 , ε1 ∼ N(0, σ12 )
..
.
..
.
induktiv
(Theorie)
ε̂i = yi − βb1 − βb2 xi ,
..
.
εi ∼ N(0, σi2 )
..
.
ε̂n = yn − βb1 − βb2 xn , εn ∼ N(0, σn2 )
Stichprobenkennwertverteilung
unter H0 : β2 = β0
Teststatistik
t=
βb2 −β0
se(
b βb2 )
f (t)
mit t ∼ tn−k
..
.
n→∞
nicht beobachtbar
b
|
t
0
. . . Asymptotik
Zustände vor dem Zufallsexperiment (ex ante) sind nicht beobachtbar!
ZUFALLSEXPERIMENT
Nach dem Zufallsexperiment (ex post) existiert kein Zufall!
p-Wert
y1
x1
y2
x2
...
yi
xi
...
yn
xn
b2 −β0
sβb
2
|
bc
b
temp 0
emp. Teststatistik
c
H.
Stocker
19
Stichprobe (n Realisationen)
temp =
beobachtbar
deskriptiv
(Empirie)
Abbildung 5.5: Hypothesentest eines Regressionskoeffizienten
Hypothesentest für einen Regressionskoeffizienten
20
Angewandte Ökonometrie
Wir erinnern uns, dass bei eiern regression auf eine Dummy Variable das Interzept
den Wert von y der Referenzkategorie angibt, und der Koeffizient der Dummy Variable den Unterschied zur Referenzkategorie misst. In diesem Beispiel ist also der
durchschnittliche Stundenlohn von Frauen 12.5 Euro, und Männer verdienen um 2.5
Euro mehr. Um zu testen, ob es Unterschiede in den Mittelwerten gibt, brauchen
wir also nur den Koeffizienten der Dummy Variabel testen.
Deshalb ist die empirische t-Statistik für die Nullhypothese, dass es keinen Unterschied im Stundenlohn zwischen Männern und Frauen gibt (d.h. H : β2 = 0)
temp =
2.5
b2 − 0
=
= 2.366
sβb2
1.0567
Computerprogramme geben den entsprechenden empirischen p-Wert gleich aus, man
kann ihn aber auch einfach berechnen, wenn man den Wert der Verteilungsfunktion
F (|2.366|, df = 10) = 0.9802269 kennt8 , pemp = (1 − 0.9802269) ∗ 2 = 0.03955.
Vorsicht ist bei der Interpretation des empirischen p-Wertes geboten, da es sich um
eine Realisation handelt, macht eine Interpretation als Wahrscheinlichkeit keinen
Sinn.
Aber wir können uns fragen wie wahrscheinlich es ist, bei einer hypothetischen neuerlichen Ziehung einer Zufallsstichprobe (oder Wiederholungen des Zufallsexperiments) einen mindestens ebenso extremen oder noch extremeren Wert als temp zu
erhalten.
Interpretation von p-Werten: Wenn die Nullhypothese wahr ist und
alle erforderlichen Annahmen erfüllt sind gibt der p-Wert die Wahrscheinlichkeit dafür an, dass wir bei einer hypothetischen neuerlichen
Durchführung des Zufallsexperiments eine empirische Teststatistik erhalten würden, die noch extremer ist als die vorliegende empirische Teststatistik.
Da p-Werte Wahrscheinlichkeiten sind können sie nur Werte zwischen
Null und Eins annehmen. Wenn alle zugrunde liegenden Annahmen
erfüllt sind deutet ein p-Wert nahe bei Null darauf hin, dass entweder ein sehr unwahrscheinliches Ereignis eingetreten ist, oder dass die
Nullhypothese falsch ist.
Umso kleiner ein p-Wert ist, umso eher wird man geneigt sein die Nullyhpothese zu verwerfen.
Etwas salopp können wir den p-Wert auch einfach als Kennzahl dafür interpretieren, wie gut die Nullhypothese den datengenerierenden Prozess
beschreibt. Ein sehr kleiner p-Wert wird als Evidenz gegen die Nullhypothese interpretiert.
Man beachte, dass der p-Wert nicht die Wahrscheinlichkeit für die Richtigkeit der
Nullhypothese angibt, sondern die Wahrscheinlichkeit dafür, dass bei angenommener
8
Wenn wir mit t den Wert der empirischen t-Statistik und mit df die Freiheitsgrade bezeichnen
erhalten den Wert der Verteilungsfunktion bei t in R mit pt(t,df), in Eviews mit @ctdist(t,
df) und in Stata erhalten wir die Fläche rechts von t mit ttail(df,t).
Angewandte Ökonometrie
21
Gültigkeit der Nullhypothese eine so extreme (oder noch extremere) Zufallsstichprobe
beobachtet wird!
Wir unterstellen dabei von vornherein, dass es sich um eine echte Zufallsstichprobe
handelt, anderenfalls ist der Test ungültig. Man sollte dabei auch nicht vergessen,
wie schwierig es in angewandten Fällen ist, eine echte Zufallsstichprobe zu ziehen!
Für unser Beispiel mit den Stundenlöhnen nahmen wir einfach an, dass wir eine
echte Zufallsstichprobe vorliegen hatten, und erhielten pemp = (1 − 0.9802269) ∗ 2 =
0.03955. Angenommen es gäbe in der Grundgesamtheit keinen Unterschied zwischen
den Stundenlöhnen von Männer und Frauen (d.h. wenn die Nullhypothese wahr ist)
und wir würden eine neuerliche Stichprobe ziehen, dann wäre die Wahrscheinlichkeit
bei dieser neuerlichen Ziehung einen noch extremeren Wert von temp zu erhalten
knapp 4 Prozent.
Oder anders ausgedrückt, wenn die Nullhypothese wahr ist und wir sehr viele Stichproben ziehen würden, dann würden wir in knapp 4 Prozent der Fälle einen so
extremen temp -Wert erwarten.
Dieser kleine p-Wert kann zumindest drei Ursachen haben,
1. die Annahmen, auf denen der Test beruht, sind nicht erfüllt,
2. es handelt sich um ein sehr seltenes (unwahrscheinliches) Ereignis, oder
3. die Nullhypothese ist falsch.
Inwieweit die Annahmen, auf denen der Test beruht, erfüllt sind, sollte vor
Durchführung der Tests überprüft werden; mehr dazu folgt in den späteren Kapiteln.
Die Entscheidung, ob man das Ergebnis als sehr unwahrscheinlich einstufen oder ob
man die Nullhypothese verwerfen soll, ist schwieriger.
In seinen frühen Schriften schlug Fisher vor, bei einem p-Wert kleiner als 5% die
Nullhypothese zu verwerfen, da ein zufälliges Eintreten eines so seltenen Ereignisses
hinreichend unwahrscheinlich sei.
In seinen späteren Lebensjahren hat Fisher einen solchen fixen Wert allerdings entschieden abgelehnt
“. . . no scientific worker has a fixed level of significance at which from
year to year, and in all circumstances, he rejects hypotheses; he rather
gives his mind to each particular case in the light of his evidence and his
ideas.” (R.A. Fisher, 1956)
Wir werden später sehen, dass in der Ablehnung eines solchen von vornherein festgelegten Wertes, ab dem die Nullhypothese verworfen wird, einer der wesentlichen
Unterschiede zur Testmethodik von Neyman und Pearson besteht.
Zuvor wollen wir aber noch kurz den Fall einseitiger Nullhypothesen diskutieren.
22
Angewandte Ökonometrie
p-Werte für einseitige Hypothesentests
Kehren wir nochmals zu unserem Beispiel mit den Stundenlöhnen von Männern
und Frauen zurück. Da haben wir die symmetrische Nullhypothese getestet, dass es
keinen Unterschied gibt, H0 : β2 = 0.
Die geschätzte Gleichung war
StdL
=
12.5
(0.747)***
R2 = 0.359,
+ 2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Wenn wir behaupten, dass Frauen am Arbeitsmarkt diskriminiert werden, möchten
wir die Gegenbehauptung ausschließen, das Frauen gleich viel oder mehr verdienen
als Männer. Da wir in der Regression eine Dummy für Männer haben ist die Nullhypothese, dass Männer gleich viel oder weniger verdienen als Frauen. Wenn wir den
wahren Koeffizienten von m in der obigen Regression wie üblich mit β2 bezeichnen
ist die Nullhypothese also
H0 : β2 ≤ 0
Auf den ersten Blick scheint es unmöglich diese Hypothese zu testen, da β2 ≤ 0
unendlich viele Fälle umfasst. Etwas nachdenken zeigt allerdings, dass es genügt
den Grenzfall β2 = 0 zu testen, denn wenn man H0 : β2 = 0 verwerfen kann, können
automatisch auch alle extremeren Hypothesen β2 < 0 verworfen werden.
Deshalb können wir für einen einseitigen Test die gleiche Teststatistik wie für zweiseitige Tests verwenden, in diesem Fall
temp =
b2 − β0
sβb2
allerdings ist bei einseitigen Tests das Vorzeichen der empirischen Teststatistik zu
beachten.
Im Zähler der empirischen t-Statistik steht das empirische Pendent zur Nullhypothese in impliziter Form. Wenn die Nullhypothese wahr ist würden wir einen Wert
von temp nahe bei Null erwarten. Für eine rechtsseitige Nullhypothese H0 : β2 ≤ 0
würde selbst ein stark negativer Wert von temp nicht im Widerspruch zur Nullhypothese stehen. Selbst leicht positive Werte sind nicht überraschend, erst stark positive
Werte stehen im Widerspruch zur Nullhypothese. Deshalb überprüfen wir, welche
Fläche unter der Dichtefunktion rechts von temp liegt (hier verwenden wir nicht den
Absolutbetrag, das Vorzeichen ist wichtig!).
Dieser Fall ist im rechten Panel von Abbildung 5.6 dargestellt.
Wir haben bereits temp = (b2 − 0)/sβb2 = 2.5/1.057 = 2.366 für den zweiseitigen Test
H0 : β2 = 0 berechnet. Diesen Wert verwenden Wir auch für den einseitigen Test,
allerdings interessieren wir uns nun nur für die Fläche rechts von temp = 2.366, also
pemp = 1 − F (2.366, df = 10) = 0.0198.
Man beachte, dass dieser Wert (für symmetrische Dichtefunktionen) genau halb so
groß ist wie der p-Wert für den zweiseitigen Tests, da wir für den zweiseitigen Test
23
Angewandte Ökonometrie
Linksseitiger Test: H0 : β ≥ β0
Rechtsseitiger Test: H0 : β ≤ β0
f (t)
f (t)
p-Wert für
H0 : β ≤ β0
p-Wert für
H0 : β ≥ β0
temp
0
t
0
temp
t
Abbildung 5.6: p-Wert nach R. Fisher für einseitige Hypothesentests. Für H0 :
β ≥ β0 stellt nur ein stark negativer Wert von temp eine Überraschung dar, für H0 : β ≤ β0 ist erst ein stark positiver Wert temp
überraschend.
diese Fläche nur verdoppelt haben. Wir hätten also ebenso gut den pemp -Wert für
zweiseitige Tests durch zwei dividieren können.
Zur Interpretation: Wenn es sich um eine echte Zufallsstichprobe handelte und die
Löhne beider Gruppen in der Grundgesamtheit normalverteilt sind und wenn die
Nullhypothese wahr ist, d.h. die Durchschnittslöhne von Männern tatsächlich niedriger oder höchstens gleich hoch sind wie die von Frauen, dann ist die Wahrscheinlichkeit bei einer neuerlichen Ziehung einer Zufallsstichprobe einen mindestens so
extremen Wert temp zu erhalten knapp zwei Prozent.
Linksseitige Tests für Nullyhpothesen H0 : β2 ≥ β0 funktionieren analog, nur ist in
diesem Fall die Fläche links von temp relevant, vergleiche linkes Panel von Abbildung
5.6.
Hinweis: Viele finden einseitige Hypothesentests verwirrend, da man das Vorzeichen
beachten muss. Etwas einfacher wird es in diesem einfachen Fall wenn man beachtet,
dass im Zähler dieser Teststatistik das empirische Analogon zur Nullhypothese in
impliziter Form steht.
• Für eine rechtsseitige Nullhypothese H0 : β − β0 ≤ 0 stellen negative Werte
von temp = (b − β0 )/sβb keine Überraschung dar, selbst kleine positive Werte
sind nicht sehr überraschend, erst große positive Werte sind überraschend und
mit der Nullhypothese schwer vereinbar.
• Umgekehrt, für eine linksseitige Nullhypothese H0 : β − β0 ≥ 0 sind positive
oder selbst kleine negative Werte von temp wenig überraschend, aber große
negative Werte sind bei Gültigkeit der Nullhypothese unwahrscheinlich.
Eine wesentliche Frage blieb in der Fisher Formulierung unbeantwortet, wenn für
eine Hypothese mehrere Teststatistiken zur Verfügung stehen, für welche sollte man
sich entscheiden? Können für die Beurteilung der Güte von Teststatistiken ähnliche
Eigenschaften bzw. Gütekriterien gefunden werden wie für Schätzfunktionen?
Im Bemühen eine Antwort auf diese Frage zu finden gelangten Neyman und Pearson
zu der heute üblichen Formulierung von Hypothesentests.
Angewandte Ökonometrie
5.3.2
24
Hypothesentests nach Neyman-Pearson
Jerzy Neyman (polnischer Mathematiker und Statistiker, 1894 – 1981) und Egon
Pearson (1895 – 1980, Sohn von Karl Pearson) kannten Fisher persönlich und waren
mit seiner Arbeit vertraut. Sie verstanden ihren Ansatz vermutlich als eine logische
Weiterentwicklung von Fishers Ideen.
Für Schätzfunktionen existieren bekanntlich Eigenschaften wie z.B. Effizienz und
Konsistenz. Auf der Suche nach vergleichbaren Gütekriterien für Teststatistiken
stießen Neyman und Pearson auf das Konzept der ‘Power’ (Trennschärfe) von
Tests. Diese Überlegungen führten sie in weiterer Folge zur heute üblichen Form
der Neyman-Pearson Hypothesentests.
Wie schon gesagt bauen Neyman-Pearson Hypothesentests auf den Grundlagen von
Fishers Signifikanztests auf, deshalb bleibt alles wesentliche was wir bisher gehört
haben auch für Hypothesentests nach Neyman-Pearson gültig.
Allerdings kommen für Neyman-Pearson Hypothesentests zwei neue Elemente hinzu
1. Der Nullhypothese wird explizit eine Alternativhypothese HA gegenüber gestellt, die immer richtig ist, wenn die Nullhypothese falsch ist, d.h. H0 und HA
schließen sich gegenseitig aus.
Zur Erinnerung, sowohl Null- als auch Alternativhypothese sind stets Aussagen
über unbeobachtbare Parameter der Grundgesamtheit!
2. Es wird a priori ein Signifikanznveau α festgelegt. Im Unterschied zum p-Wert
von Fisher, der eine Zufallsvariable ist (bzw. eine Realisation davon), ist das
Signifikanznveau α ein Parameter, der von der Forscherin a priori festgelegt
wird.
Durch diese beiden Erweiterungen konnten Neyman-Pearson Hypothesentests als
einfache und eindeutige Entscheidungsregel formulieren, die für jede Stichprobe angibt, ob die Nullhypothese verworfen oder beibehalten werden soll. Diese Entscheidung muss natürlich nicht richtig sein, aber wie wir gleich sehen werden erlaubt die
Methodik eine klare Beurteilung der möglichen Fehler.
Wir werden im Folgenden die Testmethodik nach Neyman-Pearson nur für den denkbar einfachsten Fall vorstellen, für den Test einzelner Koeffizienten eines Regressionsmodells, aber diese Testmethodik ist deutlich allgemeiner und wird uns später in
verschiedensten Formen wieder begegnen.
Die wesentlichen Schritte eines Neyman-Pearson Hypothesentests sind:
Problemanalyse Der erste, wichtigste und meist auch schwierigste Schritt jedes
Hypothesentests sollte ein Nachdenken über den datengenerierenden Prozess
sowie über die dahinter liegenden Gesetzmäßigkeiten sein. Wenn möglich sollte
dieses Nachdenken zu einem formalen (mathematischen) Modell führen. In
diesem Rahmen sind auch die zwei zentralen Fragen jedes ökonometrischen
Arbeitens zu klären, nämlich die Spezifikation und die Identifikation. Fehler,
die hier gemacht werden sind meistens fatal und führen zu ungültigen Tests.
Dieser Schritt ist ist für Fisher ebenso zentral und wichtig wie für NeymanPearson.
Angewandte Ökonometrie
25
Festlegung von Null- und Alternativhypothese Auf Grundlage der theoretischen Überlegungen erfolgt die Formulierung der Nullhypothese H0 sowie der
Alternativhypothese HA . Gleich wie bei Fisher ist es üblich, den befürchteten ‘worst case’ als Nullhypothese zu formulieren. In der Alternativhypothese
findet sich deshalb meist die Anfangsvermutung, bzw. der erhoffte Fall. Nullund Alternativhypothese schließen sich gegenseitig aus, es kann nur eine der
beiden Hypothesen richtig sein. Getestet wird immer die Nullhypothese, und
diese muss so formuliert sein, dass sie das ‘=’ (bzw. ‘≤’ oder ‘≥’) enthält.
Die explizite Formulierung der Alternativhypothese wird sich später als wichtig
erweisen für die Definition des Typ II Fehlers.
Wahl der Teststatistik Häufig stehen für den Test einer Nullhypothese mehr als
eine Teststatistik zur Verfügung. Wir haben bisher erst eine einzige Teststatistik kennen gelernt, nämlich die einfache t-Statistik für den Test eines Regressionskoeffizienten. Wie wir später sehen werden stehen selbst für diese
Teststatistik mehrere Alternativen zur Verfügung, die sich in Bezug auf die
erforderlichen Annahmen unterscheiden. Für diesen Test existieren z.B. eine
Reihe von ‘robusten’ Teststatistiken, die weniger empfindlich sind in Bezug auf
die Verletzung der Gauss Markov Annahme der Homoskedastzität, die aber
nur eine asymptotische Rechtfertigung haben.
Vor der Wahl der Teststatistik sollte man bereits eine Vorstellung davon haben, inwieweit die für den Test erforderlichen Annahmen erfüllt sind. Eine
erste Idee von den zu befürchtenden Problemen sollte man schon in der Nachdenkphase gewonnen haben. In vielen Fällen wird man aber vor der Wahl der
Teststatistik andere vorgeschaltete Tests durchführen, inwieweit bestimmte
Annahmen erfüllt sind, z.B. Tests auf Heteroskedastizität. Auch dieser Schritt
unterscheidet sich nicht von der Vorgangsweise bei Hypothesentests nach Fisher, hingegen ist der nächste Schritt neu.
Festlegung eines Signifikanzniveaus α Im Unterschied zur Testmethodik von
Fisher wird hier a priori eine Wahrscheinlichkeit festgelegt, ab der ein Ereignis
als hinreichend unwahrscheinlich beurteilt wird, so dass man bei Überschreitung dieses Schwellenwertes die Nullhypothese auf jeden Fall verwerfen wird.
Diese Entscheidung wird also bereits vor Durchführung des eigentlichen Tests
getroffen, ab diesem Zeitpunkt wird das Testverfahren gewissermaßen ‘auf Autopilot geschaltet’, wir müssen nur noch die restlichen Schritte nach Vorschrift
ausführen und die resultierende Entscheidung akzeptieren.
Annahme- und Verwerfungsbereich Mit Hilfe dieses Signifikanzniveaus und
der gewählten Teststatistik kann man einen kritischen Wert der Teststatistik
ermitteln. Dies wird in Abbildung 5.7 (Seite 26) für einen zweiseitigen Test
gezeigt. Als hinreichend unwahrscheinlich gilt eine mögliche Realisation einer
Teststatistik, wenn sie bei Gültigkeit der Nullhypothese (und wenn alle weiteren Annahmen erfüllt sind) in weniger als α×100% der möglichen Stichproben
eintritt. Wir suchen also in Abbildung 5.7 den kritischen Wert tcrit
α/2,df , sodass
die gesamte schraffierte Fläche exakt gleich α ist, bei einem zweiseitigen Test
crit
also die Summe der Flächen links von −tcrit
α/2,df und rechts von +tα/2,df gleich α
ist. Dieser kritische Wert kann mit Hilfe der Inversen der Verteilungsfunktion
26
Angewandte Ökonometrie
Stichprobenkennwertverteilung
der Teststatistik t(S)
unter H0
f (t)
a priori festgelegtes Signifikanzniveau α (Fläche)
(1 − α)
−tcrit
α/2
Verwerfungsbereich
0
+tcrit
α/2
Annahmebereich
t(S)
Verwerfungsbereich
Abbildung 5.7: Stichprobenkennwertverteilung der Teststatistik t(S) unter der
H0 : β = β0 . Man beachte, dass die der Grafik zugrunde liegende Information ausschließlich aus der statistischen Theorie folgt,
nicht aus den Stichprobendaten! Erst in einem nächsten Schritt
wird aus der vorliegenden Stichprobe der empirische Wert temp
berechnet und überprüft, ob temp in den Annahme- oder Verwerfungsbereich fällt.
einfach berechnet werden. Steht kein Computer zur Verfügung wird man den
kritischen Wert in einer üblichen Tabelle nachschlagen.
Der kritische Wert der Teststatistik erlaubt eine Unterteilung des Parameterraums in einen Annahme- und Verwerfungsbereich, die sich gegenseitig ausschließen.
Unter dem Parameterraum verstehen wir einfach alle möglichen Werte, die ein
interessierender Parameter prinzipiell annehmen kann. In vielen Fällen wird
dies die Menge der reellen Zahlen R sein. Der Annahme- und Verwerfungsbereich sind sich gegenseitig nicht überlappende Teilmengen des Parameterraums.
Man beachte, dass bisher (mit Ausnahme der Freiheitsgrade) keinerlei Information aus der Stichprobe benötigt wurde. Im Idealfall sollte die Stichprobe
bisher nicht in Bezug auf die Hypothese angesehen worden sein.
Empirische Teststatistik Erst jetzt wird aus der Stichprobe die empirische Teststatistik temp berechnet, indem die vorliegenden Stichprobendaten, d.h. die
Realisationen b2 und sβb2 in die Teststatistik
temp =
b2 − β0
sβb2
eingesetzt werden. Das Resultat ist eine Realisation der Teststatistik, also eine
konkrete Zahl.
Angewandte Ökonometrie
27
Wenn die Nullhypothese wahr ist und alle zugrunde liegenden Annahmen
erfüllt sind würden wir bei wiederholten Stichprobenziehungen erwarten, dass
α × 100 Prozent der derart berechneten Teststatistiken in den Verwerfungsbereich fallen.
Entscheidung Die Entscheidungsregel ist nun sehr einfach, wir müssen nur
noch schauen, ob die eine beobachtete empirische Teststatistik temp in den
Annahme- oder in den Verwerfungsbereich fällt. Liegt die empirische Teststatistik temp im Annahmebereich kann die Nullypothese nicht verworfen werden,
liegt temp hingegen im Verwerfungsbereich wird die Nullhypothese verworfen.
Da sich Annahme- und Verwerfungsbereich gegenseitig ausschießen führt dies
immer zu einer eindeutigen Entscheidung.
Mögliche Fehler Die Entscheidung ist zwar eindeutig, aber sie muss deshalb nicht
richtig sein. Konkret können zwei Arten von Fehler auftreten, nämlich
1. Typ I Fehler: Die Nullhypothese ist tatsächlich wahr, aber wir haben
zufällig eine extreme Stichprobe gezogen, weshalb wir die nach dieser
Entscheidungsregel die Nullhypothese trotzdem verwerfen. Bei wiederholten Stichprobenziehungen sollte dieser Fehler nicht öfter als in α × 100
Prozent der Fälle auftreten.
2. Typ II Fehler: Die Nullhypothese ist tatsächlich falsch, die (erhoffte) Alternativhypothese also richtig, aber die Anwendung der Entscheidungsregel führt dazu, dass wir die Nullhypothese nicht verwerfen.
Wie schon erwähnt spielt der Typ II Fehler in der Testmethodik von Fisher
keine Rolle. Tatsächlich liegt in der Unterscheidung dieser beiden Fehler ein
großer Vorteil der Testmethode von Neyman-Pearson, denn wie wir später
zeigen werden erlaubt dies die Definition der Power (Trennschärfe) eines Tests.
Zusammenfassend enthält ein Hypothesentest nach Neyman-Pearson folgende Elemente
1. Eine Nullhypothese H0 und Alternativhypothese HA , die sich gegenseitig ausschließen.
2. Eine Teststatistik t(S), deren Verteilung unter H0 bekannt ist.
3. Ein a priori gewähltes Signifikanzniveau α, und eng damit zusammenhängend,
ein kritischer Wert der Teststatistik tcrit .
4. Mit Hilfe der Teststatistik und des Signifikanzniveaus wird der Parameterraum
in einen Annahme- und Verwerfungsbereich unterteilt.
5. Eine empirische Teststatistik temp , die man durch Einsetzen der gegebenen
Stichprobe in die Teststatistik erhält (temp ist eine Realisation der Zufallsvariable t(S)).
6. Dies liefert eine einfache Entscheidungsregel: fällt temp in den Annahmebereich
wird die Nullhypothese nicht verworfen, fällt temp in den Verwerfungsbereich
wird die Nullhypothese verworfen.
28
Angewandte Ökonometrie
7. Bei dieser Entscheidung können zwei Arten von Fehler auftreten, Typ I und
Typ II Fehler.
Beispiel: Zur Illustration greifen wir wieder zurück auf unser Beispiel mit den
Stundenlöhnen
StdL
=
12.5
(0.747)***
R2 = 0.359,
+ 2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Außerdem nehmen wir an, dass alle Gauss Markov Annahmen erfüllt sind, z.B. auch
εi ∼ N(0, σ 2 ) (was in diesem Fall eine ziemlich verrückte Annahme wäre).
Die am häufigsten getestete Nullyypothese in Regressionsmodellen ist, dass die Parameter β der Grundgesamtheit Null sind, also keinen Einfluss auf die abhängige
Variable haben.
In diesem Beispiel testen wir
H0 : β2 = 0 gegen die Alternativhypothese HA : β2 6= 0
Dies unterteilt den Parameterraum, d.h. die Menge der reellen Zahlen R, in zwei sich
gegenseitig ausschließende Bereiche, in das Element {0} und in alle andern Elemente
R − {0}.
Als Teststatistik wählen wir (derzeit in Ermangelung besserer Alternativen) die
übliche t(S) Statistik mit n − 2 = 10 Freiheitsgraden
t(S) =
βb2 − β0 H0
∼ tn−2
σ̂βbh
und als Signifikanzniveau α wählen wir alten Traditionen folgend 0.05.
Die Stichprobenkennwertverteilung dieser Teststatistik ist in Abbildung 5.7 abgebildet. Man beachte, dass diese Dichtefunktion mit der Anzahl der Freiheitsgrade
vollständig determiniert ist, es wird keine weitere Information aus der Stichprobe
benötigt.
Auf Grundlage des a priori gewählten Signifikanzniveaus α = 0.05 und der Freiheitsgrade können wir die kritischen t-Werte bestimmen.
Da es sich um eine zweiseitige Hypothese handelt suchen wir den Wert tcrit
α/2,df , bei
welchem links und rechts α/2 ∗ 100% der Fläche abgeschnitten werden.
Dieser kritische Wert kann einfach mit Hilfe der inversen Verteilungsfunktion (auch
Quantilfunktion genannt) bestimmt werden.9 Natürlich können die kritischen Werte
auch in einer üblichen t-Tabelle nachgeschlagen werden.
crit
Mit Hilfe der kritischen Werte können wir den Annahmebereich [−tcrit
α/2 , +tα/2 ] und
crit
die Verwerfungsbereiche [−∞, −tcrit
α/2 ) und (+tα/2 , +∞] festlegen, vgl. Abbildung 5.7.
9
In Stata erhalten Sie für 10 Freiheitsgrade und α/2 = 0.025 mit invttail(10, 0.025) den
kritischen Wert 2.2281389, in R erhalten Sie den gleichen Wert mit qt(0.975, 10), in EViews mit
@qtdist(0.975,10).
29
Angewandte Ökonometrie
In unserem Beispiel mit tcrit
0.025,10 = 2.228 ist der Annahmebereich [−2.228; +2.228]
und die Verwerfungsbereiche sind [−∞; −2.228) und (+2.228; +∞].
Auch dazu benötigen wir, abgesehen von den Freiheitsgraden, keine weiteren Informationen aus der Stichprobe.
Erst im nächsten Schritt verwenden wir die vorliegende Stichprobe um die Schätzungen b2 und sβb2 zu berechnen. Durch Einsetzen dieser Schätzungen und der Vermutung β0 in die Teststatistik erhalten wir den empirischen t-Wert
temp =
2.5 − 0
b2 − β0
=
= +2.365
sβb2
1.057
Im letzten Schritt brauchen wir nur noch zu überprüfen, in welchen Bereich temp
fällt.
• Wenn temp in den Verwerfungsbereich fällt ist entweder ein sehr unwahrscheinliches Ereignis eingetreten, oder die Nullhypothese ist falsch. Da unwahrscheinliche Ereignisse selten sind verwerfen wir die Nullhypothese.
• Wenn temp in den Annahmebereich fällt stehen die Stichprobendaten in keinem
starken Widerspruch zur Nullhypothese, wir können die Nullhypothese nicht
verwerfen.
In diesem Beispiel fällt temp = 2.365 in den Verwerfungsbereich, also werden wir die
Nullhypothese auf einem Signifikanzniveau von 5% verwerfen.
Hinweis: Hätten wir a priori ein Signifikanzniveau von 1% (α = 0.01) festgelegt
hätten wir den kritischen Wert tcrit
0.005,10 = 3.1693 erhalten. Der Akzeptanzbereich für
dieses Signifikanzniveau ist [−3.1693; +3.1693], unsere temp = 2.365 fällt also klar
in diesen Akzeptanzbereich und wir hätten die Nullhypothese auf einem Signifikanzniveau von 1% nicht verwerfen können.
Bemerkung: Manche Lehrbücher legen Wert darauf zu betonen, dass die Nullhypothese nie ‘akzeptiert’ werden sollte, sondern dass man sich mit der schwächeren
Aussage begnügen sollte, dass die Nullhypothese “nicht verworfen” wird. Der Grund
ist einfach, wenn wir zum Beispiel die Vermutung hätten β0 = 0 und der wahre Wert
wäre β2 = 0.0001, dann ist die die Nullhypothese H0 : β0 = 0 falsch, obwohl wir sie
vermutlich nicht verwerfen könnten (zumindest wenn der Standardfehler groß genug
ist). Wir werden diesen Fall unter der Bezeichnung ‘Typ II Fehler’ weiter unten
ausführlich diskutieren.
Bereits R.A. Fisher legte großen Wert darauf zu betonen, dass eine verworfene Nullhypothese nicht impliziert, dass die Alternativhypothese wahr ist. Er schreibt:
“For the logical fallacy of believing that a hypothesis has been proved
to be true, merely because it is not contradicted by the available facts,
has no more right to insinuate itself in statistical than in other kinds of
scientific reasoning. [. . . ] It would, therefore, add greatly to the clarity
with which the tests of significance are regarded if it were generally
understood that tests of significance, when used accurately, are capable
of rejecting or invalidating hypotheses, in so far as the are contradicted
by the data: but that they are never capable of establishing them as
certainly true.” (zitiert nach Salsburg, 2002, 107f)
30
Angewandte Ökonometrie
Beispiel Um die Vorgangsweise noch einmal zu veranschaulichen bringen wir ein
weiteres Zahlenbeispiel.
Gegeben sei folgende Schätzung
ŷi
=
10.45 − 2.48 xi
(4.32)
(1.62)
n = 19, R2 = 0.74
(OLS Standardfehler in Klammern)
1. Problemanalyse
2. Bevor wir die Stichprobe, bzw. die darauf beruhende Regressionsgleichung,
überhaupt anschauen bilden wir die Null- und Alternativhypothese. Die Vermutung unter H0 sei β0 = −2, also
H0 : β2 = −2 gegen HA : β2 6= −2
3. Als Signifikanzniveau legen wir α = 0.05 fest.
4. Wenn εi ∼ N(0, σ 2 ) (oder die Stichprobe sehr groß ist) und alle Gauss Markov
Annahmen erfüllt sind ist gilt unter H0
t(S) =
βb2 − (−2) H0
∼ tn−2
σ̂βb2
5. Dieses Wissen nützen wir um die kritischen Werte in einer t-Tabelle nachzuschlagen. Für 17 (= n − 2) Freiheitsgrade ist tcrit
0.025,17 = 2.1098. Mit Hilfe dieses
kritischen Wertes können wir den Annahme- und Verwerfungsbereich festlegen
Annahmebereich:
Verwerfungsbereich:
[−2.1098, 2.1098]
[−∞, −2.1098) und (+2.1098, +∞]
6. Erst zu diesem Zeitpunkt verwenden wir erstmals die auf der Stichprobe beruhende Schätzung, um den empirischen t-Wert temp zu berechnen
temp =
−2.48 + 2
= −0.2963
1.62
Damit der Test gültig ist müssen u.a. alle Gauss Markov Annahmen erfüllt sein;
insbesondere ist darauf zu achten, dass keine Scheinkorrelationen auftreten.
7. Dieser temp fällt klar in den Annahmebereich, deshalb können wir die Nullhypothese nicht verwerfen!
Übungsbeispiel: Testen Sie für obige Regression nach diesem Schema die Nullhypothese H0 : β1 = 0 auf einem Signifikanzniveau α = 0.01. (Lösung: der empirische
t-Wert temp = 2.42 liegt im Annahmebereich [−2.898, +2.898], die H0 kann also nicht
verworfen werden.)
31
Angewandte Ökonometrie
Einseitige Tests
Einseitige Hypothesentests laufen exakt nach dem gleichen Muster ab, nur in zwei
Details unterscheiden sie sich von zweiseitigen Tests. Erstens liegt der Verwerfungsbereich je nach Richtung der Nullhypothese zur Gänze am linken oder rechten Ende
der Dichtefunktion, deshalb ist ein kritischer Wert α statt α/2 zu wählen, und zweitens ist natürlich das Vorzeichen des empirischen und des kritischen Wertes (temp
und tcrit
α ) zu beachten. Im übrigen gilt, was schon zu einseitigen Tests nach Fisher
gesagt wurde.
Abbildung 5.8 soll den Unterschied zwischen ein- und zweiseitigen Hypothesentests
verdeutlichen. Die obere Abbildung zeigt den bisherigen zweiseitigen Test, die untere Abbildung einen rechtsseitigen Test (d.h. einen Test für H0 : β2 ≤ β0 , wenn
der Verwerfungsbereich am rechten Ende der Verteilung liegt). Wenn die einseitige Hypothese ebenfalls auf einem Signifikanzniveau α getestet werden soll muss
offensichtlich der kritische tcrit
α -Wert gefunden werden, der am betreffenden Ende
α*100% der Fläche abschneidet. Deshalb wird man nicht wie bei zweiseitigen Test
crit
den kritischen Wert tcrit
α/2,df verwenden, sondern tα,df wählen!
Alles weitere unterscheidet sich nicht von der Vorgangsweise bei einem zweiseitigen
Test. Trotzdem wiederholen wir kurz die einzelnen Schritte und verdeutlichen sie
anhand einer einfachen Regression
ŷi
=
10.45 − 2.48 xi
(4.32)
(1.62)
n = 19, R2 = 0.74
(Standardfehler in Klammern)
Wir wollen für diese Regression die Nullhypothese H0 : β2 ≤ −1 (d.h. β0 = −1)
gegen HA : β2 > −1 testen.
1. Formulierung von Alternativ- und Nullhypothese. Vor diesem Schritt sollten
die (theoretischen) Grundlagen gründlich überlegt worden sein, und insbesondere sollte klar sein, welche Rolle diese Hypothesen in einem breiteren Theorierahmen einnehmen.
Rechtsseitig:
H0 :
HA :
Linksseitig:
βh ≤ β0
βh > β0
oder
H0 :
HA :
βh ≥ β0
βh < β0
Hinweis: das ‘gleich’ Zeichen (≥ oder ≤) gehört stets zur Nullhypothese, denn
tatsächlich getestet wird jeweils H0 : βh = β0 .
Beispiel: H0 : β2 ≤ −1 bzw. β2 + 1 ≤ 0 gegen HA : β2 > −1
2. Wahl eines Signifikanzniveaus α.
Beispiel: Wir wählen ein Signifikanznveau von ein Prozent (α = 0.01).
H
3. Bestimmung der Teststatistik und der Freiheitsgrade, z.B. t(·) ∼0 tα,n−2
H
Beispiel: Unter H0 ist t(·) = (βb2 − (−1))/σ̂βb2 ∼0 t0.01,17 .
32
Angewandte Ökonometrie
f (t)
Verwerfungsbereich
Verwerfungsbereich
Annahmebereich
Zweiseitig:
H0 : βh 6= β0
(1 − α)
α/2
−tcrit
α/2
0
α/2
t
tcrit
α/2
f (t)
Rechtsseitig:
H0 : βh ≤ β0
α
(1 − α)
0
t
tcrit
α
Verwerfungsbereich
Annahmebereich
f (t)
Linksseitig:
H0 : βh ≥ β0
(1 − α)
α
−tcrit
α
Verwerfungsbereich
t
0
Annahmebereich
Abbildung 5.8: Zweiseitiger und links- bzw. rechtsseitiger Test mit gleichem Signifikanzniveau α.
33
Angewandte Ökonometrie
4. Ermitteln des kritischen Werts tcrit
α aus dieser Verteilung für n−2 Freiheitsgrade mittels einer t-Tabelle und Bestimmung des Annahme- und Verwerfungsbereichs.
Annahmebereich:
Verwerfungsbereich:
H0 : βh ≤ β0
HA : βh > β0
H0 : βh ≥ β0
HA : βh < β0
[−∞, +tcrit
α ]
crit
(+tα , +∞]
[−tcrit
α , +∞]
[−∞, −tcrit
α )
Hinweis: Als Merkhilfe können Sie sich einprägen, dass der Verwerfungsbereich
stets zur Gänze im Bereich der Alternativhypothese liegt!
Beispiel: Für 17 Freiheitsgrade und ein α = 0.01 ist der kritische t-Wert
tcrit
0.01,17 = 2.5669.
Für H0 : β2 ≤ −1 ist der Annahmebereich [−∞, 2.5669] und der Verwerfungsbereich (2.5669, +∞].
5. Berechnung des empirischen Werts der Teststatistik, z.B. aus der auf einer
Stichprobe beruhenden Schätzung
temp =
bh − β0
sβbh
Vorher sollte überprüft werden, ob alle Gauss Markov Annahmen erfüllt sind
(insbesondere (korrekte Spezifikation, unverzerrte Stichprobe, etc.)!
Man beachte, dass sich dieser temp Wert für einseitige Tests nicht vom entsprechenden temp Wert für zweiseitige Tests unterscheidet!
Beispiel: Es genügt wieder β2 = −1 zu testen, denn wenn dies verworfen werden kann, kann für jedes β2 auch β2 < −1 verworfen werden. Nachdem wir uns
versichert haben, dass alle Gauss Markov Annahmen erfüllt sind, berechnen
wir die empirische Teststatistik temp = [−2.48 − (−1)]/1.62 = −0.9136.
6. Überprüfen, ob der empirische Wert der Teststatstik in den Annahme- oder den
Verwerfungsbereich fällt, und dementsprechend die H0 verwerfen oder nicht
verwerfen.
Beispiel: temp = −0.9136 fällt in den Annahmebereich [−∞, 2.5669], deshalb
kann die H0 : β2 ≤ −1 auf einem Signifikanzniveau α = 0.01 nicht verworfen
werden.
Hinweis: Wir haben schon früher erwähnt, dass Forscher häufig an einer einseitigen Nullhypothese interessiert sind, aber trotzdem wird meistens des Ergebnis eines
zweiseitigen Tests angegeben. Der Grund ist einfach, wenn die empirische Teststatistik auf der ‘richtigen’ Seite der Dichtefunktion liegt (also das erwünschte Vorzeichen
aufweist) und die zweiseitige H0 : β2 = 0 verworfen werden kann, dann kann immer
auch die einseitige H0 : β2 ≤ 0 verworfen werden. Das ist aus Abbildung 5.8 (Seite
32) unmittelbar ersichtlich.
Angewandte Ökonometrie
5.3.3
34
Konfidenzintervalle, Fishers p-Wert und Neyman
Pearsons Signifikanzniveau
Konfidenzintervalle, p-Werte und die Entscheidungsregel nach Neyman-Pearson beruhen letztendlich alle auf der gleichen Information, deshalb ist es wenig verwunderlich, dass sie alle zu ähnlichen Schlussfolgerungen führen und in einem gewissen
Sinne auch austauschbar sind.
Wenn wir z.B. ein 1 − α Konfidenzintervall für θ̂ zeichnen, und der Wert θ0 der
H0 : θ = θ0 innerhalb dieses Konfidenzintervalls liegt, so können wir diese H0 nicht
ablehnen, wenn θ0 aber außerhalb dieses Konfidenzintervalls liegt werden wir die H0
ablehnen.
Ähnlich verhält es sich mit den p-Werten. Wenn wir Fishers p-Wert für einen Hypothesentest nach Neyman-Pearson heranziehen wollen brauchen wir nur zu überprüfen, ob der empirische p-Wert größer oder kleiner als das vorher festgelegt Signifikanzniveau α ist. In diesem Fall gibt uns der p-Wert die zusätzliche Information,
‘wie stark’ die Nullhypothese abgelehnt (bzw. akzeptiert) wurde.
Allerdings sollte dies nicht darüber hinweg täuschen, dass diese Methoden für unterschiedliche Zielsetzungen entwickelt wurden. Konfidenzintervalle sollten uns in
erster Linie Information über die Genauigkeit von Schätzern geben, während Hypothesentests uns erlauben zu überprüfen, inwieweit eine a priori vermutete Hypothese
mit den beobachteten Stichprobendaten kompatibel ist.
Die Unterscheidung zwischen der Methodologie von Fisher und der von NeymanPearson erfolgte hier eher aus pädagogischen Gründen, die meisten Lehrbücher
präsentieren eine Hybridform dieser beiden Testmethoden (für eine Diskussion siehe
z.B. Gigerenzer et al., 1990).
Dem war aber nicht immer so, wie schon erwähnt konnte sich Fisher bis zu seinem Lebensende nicht mit der Methode von Neyman-Pearson anfreunden und sah
zwischen diesen beiden Methoden unüberbrückbare Gegensätze. Fisher schreibt
“Moreover, it is a fallacy, so well known as to be a standard example, to
conclude from a test of significance that the null hypothesis is thereby
established; at most it may be said to be confirmed or strengthened. In
an acceptance procedure, on the other hand, acceptance is irreversible,
whether the evidence for it was strong or weak. It is the result of applying mechanically rules laid down in advance; no thought is given to
the particular case, and the tester’s state of mind, or his capacity for
learning, is inoperative. By contrast, the conclusions drawn by a scientific worker from a test of significance are provisional, and involve an
intelligent attempt to understand the experimental situation.” (Fisher,
1955, 73f)
Historisch gesehen hat sich die Vorgangsweise von Neyman-Pearson weitgehend gegenüber Fisher durchgesetzt, und Fishers p-Wert wird heute vielfach für Tests im
Sinne von Neyman-Pearson verwendet, indem er mit einem vorgegebenen α verglichen wird.
35
Angewandte Ökonometrie
Aber es gibt auch kritische Stimmen, Spanos (1999, 720ff) argumentiert zum Beispiel, dass sich die Methode von Neyman-Pearson v.a. für klar strukturierte Probleme eignet, während die Methode von Fisher besser geeignet sei für offenere und
breitere Fragestellungen, wie z.B. Spezifikationstests.
Im Folgenden werden wir einige weitere Teststatistiken vorstellen, die uns das Testen
komplexerer Hypothesen ermöglichen. Die grundsätzliche Methodologie bleibt dabei
völlig gleich, das heißt, die folgenden Tests können wieder nach der Methode von
Fisher oder nach Neyman und Pearson durchgeführt werden.
5.4
t-Test für eine Linearkombination von Parametern
Wir haben bisher nur t-Tests für einzelne Regressionskoeffizienten durchgeführt.
Die Vorgangsweise lässt sich aber einfach für Tests einer Linearkombination von
mehreren Regressionskoeffizienten verallgemeinern.
Beginnen wir mit einer einfachen PRF:
yi = β1 + β2 xi2 + β3 xi3 + εi
Wenn wir zum Beispiel testen möchten, ob die Summe von β2 und β3 den Wert Eins
hat, lauten Null- und Alternativhypothese
H0 : β2 + β3 = 1 gegen HA : β2 + β3 6= 1
Dies ist ein sehr spezieller Fall von Null- und Alternativhypothese.
Lineare zweiseitige Nullhypothesen können etwas allgemeiner geschrieben werden
Etwas allgemeiner können zweiseitige Null- und Alternativhypothesen für dieses
einfache Modell geschrieben werden als
H0 : c1 β2 + c2 β3 = β0
HA : c1 β2 + c2 β3 6= β0
wobei c1 , c2 und β0 ∈ R unter der Nullhypothese vermutete Parameter sind.
Sollte z.B. getestet werden, ob die Parameter β2 und β3 den gleichen Wert haben,
würden wir c1 = +1, c2 = −1 und β0 = 0 wählen, denn daraus folgt H0 : β2 −β3 = 0,
bzw. β2 = β3 .
Wenn wir testen möchten, ob β3 nur halb so groß ist wie β2 , aber ein unterschiedliches
Vorzeichen hat, würden wir c1 = 1, c2 = 2 und β0 = 0 setzen, denn daraus folgt
H0 : β2 + 2β3 = 0, bzw. β2 = −2β3 .
Auf diese Weise lassen sich beliebige lineare Nullhypothesen testen, die zwei oder
auch mehrere Parameter betreffen. Allerdings können auf diese Weise nur einzelne
Hypothesen getestet werden, einen simultanen Test mehrerer Hypothesen werden
wir erst im nächsten Abschnitt kennen lernen.
Das Testprinzip für eine einzelne lineare Hypothese, die mehrere Parameter betrifft,
ist einfach: wenn die Nullhypothese wahr ist gilt in der Grundgesamtheit
c1 β2 + c2 β3 − β0 = 0
36
Angewandte Ökonometrie
Selbst wenn dies in der Grundgesamtheit exakt gilt müssen wir in der Stichprobe
damit rechnen, dass aufgrund von Zufallschwankungen dieser Zusammenhang nicht
exakt erfüllt ist, also
c1 βb2 + c2 βb3 − β0 = v
wobei die Zufallsvariable v ‘relativ nahe’ bei Null liegen sollte, wenn die Nullhypothese wahr ist. Man beachte, dass v eine Linearkombination der Zufallsvariablen
βb2 und βb3 ist. Wenn βb2 und βb3 normalverteilt sind, dann ist auch v normalverteilt.
Außerdem ist bei Gültigkeit der Nullhypothese E(v) = 0. Um eine Teststatistik zu
erhalten brauchen wir also nur durch den Standardfehler von v zu dividieren. Da
v eine Linearkombination der Zufallsvariablen βb2 und βb3 ist gestaltet sich dies sehr
einfach, wir brauchen nur die Rechenregel für das Rechnen mit Varianzen anzuwenden10
var(v)
c
= var(c
c 1 βb2 ± c2 βb3 − β0 ) = c21 var(
c βb2 ) + c22 var(
c βb3 ) ± 2c1 c2 cov(
c βb2 , βb3 )
Wir haben bisher zwar nur für das bivariate Modell einen Schätzer für die Kovarianz
zwischen Interzept und Steigungskoeffizient, d.h. cov(
c βb1 , βb2 ), des bivariaten Modells
hergeleitet, aber wir werden im Kapitel zur Matrixschreibweise zeigen, dass auch
die Kovarianzen zwischen Steigungskoeffizienten ähnlich einfach berechnet werden
können. Die üblichen Programme geben die Varianz-Kovarianzmatrix der Koeffizienten zwar nicht unmittelbar aus, aber man kann einfach mit den entsprechenden
Befehlen darauf zugreifen.11
Da die Varianz des Nenners aus der Stichprobe berechnet werden muss ist die Teststatistik12
v
=q
se(v)
b
c21
c1 βb2 ± c2 βb3 − β0
var(
c βb2 ) + c22 var(
c βb3 ) ± 2c1 c2 cov(
c βb2 , βb3 )
H0
∼ tn−k
unter H0 t-verteilt mit n − k Freiheitsgraden.
Diese Teststatistik (t) hat die Form
t=
Empirisches Analogon zur H0 in impliziter Form H0
∼ tn−k
Standardfehler vom Zähler
Dies ist offensichtlich nur eine kleine Erweiterung der üblichen Tests für einen Koeffizienten für Fälle, in denen eine Hypothese über eine Linearkombination von zwei
(oder mehreren) Koeffizienten getestet werden soll.
Mit Hilfe dieser Teststatistik kann wieder der p-Wert à la Fisher berechnet werden,
oder eine Entscheidung nach der Methode Neyman und Pearson gefällt werden.
10
var(c0 + c1 x ± c2 y) = E[(c0 + c1 x ± c2 y) − E(c0 + c1 x ± c2 y)]2 = c21 var(x) + c22 var(y) ±
2c1 c2 cov(x, y).
11
In EViews erhält man die geschätzte Varianz-Kovarianzmatrix der Koeffizienten mit der Funktion @coefcov; in Stata mit dem postestimation Befehl e(V); in R mit vcov(...).
12
Dieser Test ist ein Spezialfall eines Wald Tests, der 1943 von dem Mathematiker Abraham
Wald entwickelt wurde.
37
Angewandte Ökonometrie
Beispiel: Angenommen wir erhalten folgende Schätzung einer Cobb-Douglas Produktionsfunktion und möchten testen, ob konstante Skalenerträge vorliegen.13
log(Q) =
2.481
(0.129)***
+
0.64 log(K) + 0.257 log(L)
(0.035)***
(0.027)***
R2 = 0.942,
n = 25
(OLS Standardfehler in Klammern)
Die dazugehörige Varianz-Kovarianzmatrix der Koeffizienten (Coefficient Covariance Matrix ) ist14
b1
b1
b2
b3
b2
b3
0.016543 −0.002869 −0.003187
−0.002869
0.001206
0.000300
−0.003187
0.000300
0.000727
Bei Cobb-Douglas Funktionen liegen konstante Skalenerträge vor, wenn β2 + β3 = 1.
Die Nullhypothese ist also
H0 : β2 + β3 = 1
(diese Hypothese ist ein Spezialfall von H0 : c1 β2 + c2 β3 = β0 mit c1 = c2 = β0 = 1)
Die entsprechende t-Statistik ist deshalb
temp = q
b2 + b3 − 1
var(b
c 2 ) + var(
c βb3 r) + 2 cov(b
c 2 , b3 )
0.640 + 0.257 − 1
= √
0.001206 + 0.000727 + 2 × 0.000300
−0.10255
= √
= −2.037595955
0.002533
Der kritische t-Wert für einen zweiseitigen Test mit n − k = 22 Freiheitsgraden ist
tcrit
0.025,22 = 2.0739, deshalb können wir die Nullhypothese konstanter Skalenerträge
(sehr knapp) nicht verwerfen.
Um den p-Wert zu berechnen benötigt man den Wert der Verteilungsfunktion.
Wenn wir mit Φ(x, q) den Wert der Verteilungsfunktion einer t-Verteilung mit
q Freiheitsgraden an der Stelle x bezeichnen errechnet sich der p-Wert als p =
2(1 − Φ(+2.037595955, 22)) = 0.05379.15
13
Eine Cobb-Douglas Funktion hat die Form Q = AK β2 Lβ3 . Durch Logarithmieren erhält man
eine in den Parametern lineare Funktion ln(Q) = β1 + β2 ln(K) + β3 ln(L), mit β1 = ln(A) die
einfach mit OLS geschätzt werden kann.
14
In EViews erhält man die geschätzte Varianz-Kovarianzmatrix der Koeffizienten mit der Funktion @coefcov; in Stata mit dem postestimation Befehl e(V); in R mit vcov.
15
In EViews ist der Befehl dazu coef p = 2*(1-@ctdist(@abs(-2.037596),22)); in Excel
erhalten Sie den p-Wert mit der Funktion ‘=TVERT(ABS(-2.037595955);22;2)’
Angewandte Ökonometrie
38
Code zum Beispiel* Solche Tests sind in fast allen Statistik- und Ökonometrieprogrammen fix implementiert, aber man kann sie auch einfach programmieren.
Zum Beispiel öffnet der folgende EViews Code die Excel Tabelle mit den
Daten und berechnet den dazugehörigen p-Wert16 (die Daten können unter
www.uibk.ac.at/econometrics/data/prodfunkt.xls heruntergeladen werden).
EViews:
wfopen "http://www.uibk.ac.at/econometrics/data/prodfunkt.xls"
equation CD.ls log(Q) c log(K) log(L)
scalar t_Stat = (c(2) + c(3) - 1)/@sqrt(CD.@coefcov(2,2) _
+ CD.@coefcov(3,3) + 2*CD.@coefcov(2,3) )
scalar pval = 2*(1 - @ctdist(@abs(t_Stat),22))
’ oder einfacher
CD.wald c(2) + c(3) = 1
R:
rm(list=ls(all=TRUE))
CD <- read.table("https://www.uibk.ac.at/econometrics/data/prodfunkt.csv",
dec = ".", sep=";", header=TRUE)
eq1 <- lm(log(Q) ~ log(K) + log(L), data = CD)
tstat <- (coef(eq1)[2] + coef(eq1)[3] - 1) /
sqrt(vcov(eq1)[2,2] + vcov(eq1)[3,3] + 2*vcov(eq1)[2,3])
pval <- 2*(1-(pt(abs(tstat),22)))
# oder einfacher
library(car)
linearHypothesis(eq1, "log(K) + log(L) = 1")
Stata:
insheet using "https://www.uibk.ac.at/econometrics/data/prodfunkt.csv", ///
delim(";") names clear
generate logQ = log(q)
generate logK = log(k)
generate logL = log(l)
regress logQ logK logL
matrix V = e(V)
scalar tstat = (_b[logK] + _b[logL] - 1) / ///
sqrt( V[1,1] + V[2,2] + 2*V[1,2])
display "t-statistic: " tstat
display "p-value: " 2*ttail(22,abs(tstat))
* oder einfacher
test logK + logL = 1
16
Selbstverständlich kann dieser Test in EViews weit einfacher durchgeführt werden, dieses Progrämmchen dient nur didaktischen Zwecken.
39
Angewandte Ökonometrie
Exkurs:* Eine alternative und manchmal einfachere Möglichkeit eine einzelne Hypothese für eine Linearkombination von Parametern zu testen besteht darin, ein geeignet transformiertes Modell zu schätzen. Im wesentlichen wird dabei eine geeignete
Form der Nullhypothese in die zu schätzende Gleichung substituiert.
Im obigen Produktionsfunktionsbeispiel lautet die Nullhypothese H0 : β2 + β3 = 1.
Wir definieren einen neuen Parameter θ = β2 + β3 − 1. Mit dieser Definition kann
die Nullhypothese geschrieben werden als
H0 : θ = 0 gegen
H1 : θ 6= 0
und diese kann mit der t-Statistik t = θ̂/σ̂θ̂ einfach getestet werden, wobei θ̂ die
Schätzfunktion für θ bezeichnet.
Der Trick besteht darin, die Regressionsgleichung entsprechend umzuschreiben, dass
auch der dazugehörige Standardfehler direkt aus dem Regressionsoutput abgelesen
werden kann (vgl. Wooldridge, 2012, 134f).
Aus θ = β2 + β3 − 1 folgt β2 = θ + 1 − β3 , und dies kann in die zu schätzende
Gleichung substituiert werden
log(Q) = β1 + β2 log(K) + β3 log(L) + ε
= β1 + (θ + 1 − β3 ) log(K) + β3 log(L) + ε
= β1 + (θ + 1) log(K) + β3 [log(L) − log(K)] + ε
Diese Gleichung kann mit OLS geschätzt werden und gibt
log(Q) = βb1 + (θ̂ + 1) log(K) + βb3 [log(L) − log(K)] + ε̂
Man beachte, dass dazu eine neue Variable [log(L) − log(K)] gebildet werden muss.
Da var(θ̂ + 1) = var(θ̂) kann der Standardfehler von θ̂ direkt aus diesem Regressionsoutput abgelesen werden.17
Für das obige Beispiel erhalten wir
Dependent Variable: log(Q)
Variable
Coefficient Std. Error t-Stat. Prob.
C
βb1 2.481
0.1290 19.290 0.000
log(K)
θ̂ + 1 0.897
0.0503 17.831 0.000
b
log(L)-log(K)
β3 0.257
0.0270
9.545 0.000
R-squared
0.942 S.E. of regression
Included observations: 25
0.092
Die entsprechende t-Statistik ist wieder
t=
θ̂
0.897 − 1
=
= −2.03759
σ̂θ̂
0.0503
wir erhalten natürlich den gleichen Wert wie vorhin. Da der kritische Wert nach
wie vor tcrit = 2.0739 ist kommen wir natürlich auch zur gleichen Schlussfolgerung,
17
Wir erinnern uns: var(a + X) = var(X) wenn a konstant.
40
Angewandte Ökonometrie
d.h. wir können die Nullhypothese (knapp) nicht verwerfen. Beide Methoden führen
natürlich zum gleichen Ergebnis.
Übung: Wie würden Sie für das Modell y = β1 + β2 x2 + β3 x3 + ε die Nullhypothese
β2 = β3 testen? Zeigen Sie dies für für das Beispiel mit der Cobb-Douglas Funktion
(Lösung: temp = 10.48477, p-Wert = 0.0000).
Eine große Einschränkung dieses Tests besteht darin, dass er nicht für den Test
mehrerer Hypothesen verwendet werden kann. Zum Beispiel können wir damit nicht
die Nullhypothese H0 : β2 = 0 und β3 = 0 simultan testen.
Im Folgenden werden wir nun einige Tests kennen lernen, mit deren Hilfe mehr als
eine Hypothese simultan getestet werden kann, z.B. eine Nullhypothese H0 : β2 = 0
und β3 = 0. Wir werden sehen, dass solche Tests sehr häufig auf der (nach R. Fisher
benannten) F-Verteilung beruhen. Die Art der Tests, die wir nun vorstellen werden, sind ein Spezialfall einer ganzen Testfamilie, die in der Statistik als Wald-Tests
bekannt sind.18 Im nächsten Abschnitt werden wir einen Test auf die den gemeinsamen Erklärungsgehalt aller erklärenden Variablen vorstellen, die sogenannte ‘F-total
Statistik’.
5.5
ANOVA-Tafel und die F-total Statistik
Wir erinnern uns, dass wir für die Herleitung des Bestimmtheitsmaßes R2 folgende
Streuungs-Zerlegung vornahmen
X
X
X
(ŷi − ȳ)2 +
ε̂2i
(yi − ȳ)2 =
{z
} |
{z
} | {z }
|
TSS
ESS
SSR
wobei TSS für ‘Total Sum of Squares’, ESS für ‘Explained Sum of Squares’ und SSR
für ‘Sum of Squared Residuals’19 steht.
Dies führt zu folgender ANOVA-Tafel (‘ANalysis Of VAriance Table’ )
Sum of
Squares
Regression
Residuen
Total
ESS
SSR
TSS
df
k−1
n−k
n−1
Mean
Square
ESS/(k − 1)
SSR/(n − k)
wobei df für ‘degrees of freedom’ (Freiheitsgrade) steht.
Mit Hilfe der ANOVA-Tafel, die von den vielen Statistik-Programmen ausgegeben
wird, kann man eine F -Statistik für die Nullhypothese
H0 : β2 = β3 = · · · = βk = 0
18
Dieses Testprinzip ist nach Abraham Wald (1902 – 1950) benannt, ein aus Siebenbürgen stammender deutschsprachiger Mathematiker und einer der bedeutendsten Statistiker des 20. Jahrhunderts. Neben Wald Tests spielen in der Statistik v.a. Likelihood-Ratio Tests und Lagrange-Multiplier
Tests eine wichtige Rolle.
19
Manchmal wird dafür auch RSS für ‘Residual Sum Squared’ geschrieben.
41
Angewandte Ökonometrie
konstruieren; das heißt für die Nullhypothese, dass alle Koeffizienten mit Ausnahme
des Interzepts β1 simultan gleich Null sind, oder in anderen Worten, dass alle k −
1 Steigungskoeffizienten simultan gleich Null sind. Eine andere Möglichkeit diese
Nullhypothese zu interpretieren ist
H0 :
E(y|x2, . . . , xk ) = E(y)
wenn der bedingte Erwartungswert von y gleich dem unbedingten Erwartungswert
ist leisten die erklärenden Variablen auch gemeinsam keinen Erklärungsbeitrag. In
diesem Falle erklärt eine Regression auf die Regressionskonstante y = β1 + ε die
Daten gleich gut wie die ‘lange’ Regression y = β1 + β2 x2 + · · · + βk xk + ε.
Die Alternativhypothese ist
HA : mindestens einer der Steigungskoeffizienten ist ungleich Null
Wenn diese Nullhypothese wahr ist, sollten alle x Variablen auch gemeinsam keinen
Erklärungsbeitrag für y leisten.
Wenn die Störterme der Grundgesamtheit
normalverteilt sind ist bei Zutreffen der
P
2
2
2
Nullhypothese die Quadratsumme
i (ŷi − ȳ) /σ bekanntlich χ -verteilt mit k − 1
P 2 2
Freiheitsgraden, und i ε̂i /σ unabhängig davon χ2 -verteilt mit n − k Freiheitsgraden. Das Verhältnis zweier unabhängig χ2 verteilten Zufallsvariablen, die beide
durch die entsprechenden Freiheitsgrade dividiert wurden, ist F-verteilt (vgl. Statistischen Appendix), deshalb ist die Teststatistik
P
(ŷi − ȳ)2 n − k
ESS/(k − 1) H0
=
∼ F(k−1,n−k)
F -total Statistik = iP 2
k−1
SSR/(n − k)
i ε̂i
F-verteilt mit k − 1 Zähler- und n − k Nennerfreiheitsgraden.
Wenn die durch alle erklärenden x Variablen gemeinsam erklärte Streuung ESS sehr
klein ist im Verhältnis zur unerklärten Streuung SSR würde man einen sehr kleinen
Wert der empirischen Statistik F emp erwarten. Wenn umgekehrt ESS groß ist im
Verhältnis zu SSR leisten alle x Variablen gemeinsam offensichtlich einen großen
Erklärungsbeitrag.
Die Nullhypothese β2 = β3 = · · · = βk = 0 wird deshalb verworfen, wenn der empirische Wert dieser F -Statistik größer ist als der kritische Wert F crit der F -Statistik,
vgl. Abbildung 5.9. Fällt der empirische F emp -Wert in den Verwerfungsbereich wird
H0 verworfen, anderenfalls akzeptiert.
Der zur F -total Statistik gehörende p-Wert ist wieder die Fläche unter der Verteilung
rechts vom berechneten F emp -Wert, und wird standardmäßig von allen statistischen
Programmpaketen ausgewiesen.
Das Programm STATA liefert z.B. den in Tabelle 5.2 wiedergegebenen Regressionsoutput für das Beispiel mit der Produktionsfunktion; im Kopf des Outputs wird die
komplette ANOVA-Tafel wiedergegeben.
Dabei ist Model SS die ESS (‘Explained Sum of Squares’), die Residual SS die SSR
(‘Sum of Squared Residuals’) und Total SS die TSS (‘Total Sum of Squares’).
Für Produktionsfunktions-Beispiel folgt (siehe Tabelle 5.2)
3.01454182/(3 − 1)
= 177.2195
0.187112359/(25 − 3)
EViews und R geben die ESS und TSS nicht automatisch aus, sondern nur die
F -Statistik mit dem dazugehörigen p-Wert.
F -total Stat =
42
Angewandte Ökonometrie
f (F )
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
F crit 3
Akzeptiere H0
4
5
F
Verwirf H0
Abbildung 5.9: F -Test nach Neyman-Pearson (mit 3 Zähler- und 12 Nennerfreiheitsgraden
Tabelle 5.2: STATA Output
Source |
SS
df
MS
----------+-----------------------------Model | 3.01454182
2 1.50727091
Residual | .187112359
22 .008505107
----------+-----------------------------Total | 3.20165418
24 .133402257
Number of obs
F( 2,
22)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
25
177.22
0.0000
0.9416
0.9362
.09222
--------------------------------------------------------------------------log_Q |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------const |
2.481079
.1286189
19.29
0.000
2.21434
2.747819
log_K |
.6401108
.0347308
18.43
0.000
.5680835
.7121381
log_L |
.2573354
.0269591
9.55
0.000
.2014256
.3132451
---------------------------------------------------------------------------
43
Angewandte Ökonometrie
Exkurs* Diese F -total Statistik kann alternativ auch mit Hilfe des Bestimmtheitsmaßes R2 berechnet werden, denn unter Berücksichtigung von TSS = ESS + SSR
und R2 = ESS/TSS
F -total Stat =
=
=
=
=
ESS/(k − 1)
SSR/(n − k)
n − k ESS
k − 1 SSR
n−k
ESS
k − 1 TSS − ESS
ESS/TSS
n−k
k − 1 1 − (ESS/TSS)
n−k
R2
k − 1 1 − R2
Also
F -total Stat =
R2 /(k − 1)
(1 − R2 )/(n − k)
Die Alternativhypothese, dass zumindest für einen der Regressoren der wahre Wert
des Regressionskoeffizienten von Null verschieden ist, wird akzeptiert, wenn die Nullhypothese H0 : β2 = β3 = · · · = βk = 0 (d.h. dass alle Koeffizienten mit Ausnahme
des Interzepts β1 gleich Null sind) verworfen wird.
Man beachte, dass es sich dabei um einen simultanen Test von insgesamt k − 1
Hypothesen handelt, wobei k − 1 die Anzahl der Steigungskoeffizienten ist.
Dies ist also ein Test, ob alle Regressoren gemeinsam einen Beitrag zur ‘Erklärung’
von y leisten. Wenn der p-Wert dieser F -Statistik größer ist als das a priori festgelegte
Signifikanzniveau sollte die Schätzung verworfen werden.
Dieser F -total Test wird häufig auch einfach F -Test genannt, zum Beispiel im Regressionsoutput fast jeder Statistiksoftware, was aber etwas verwirrend ist, da jede
F -verteilte Teststatistik zu einem F -Test führt, und davon gibt es viele.
Achtung: Man beachte, dass es nicht reicht zu überprüfen, ob alle Koeffizienten
individuell signifikant von Null verschieden sind. Es ist sehr gut möglich, dass kein
einziger Koeffizient signifikant von Null verschieden ist, dass aber alle Koeffizienten
gemeinsam trotzdem signifikant von Null verschieden sind! Wie wir später sehen
werden tritt dieser Fall bei Multikollinearität (d.h. wenn die erklärenden Variablen
untereinander hoch korreliert sind) relativ häufig auf.
Konkret, die mit der F -Statistik getestete gemeinsame Nullhypothese H0 : β2 =
β3 = · · · = βk = 0 darf nicht durch eine Reihe individueller t-Tests ersetzt werden!
Der Grund dafür liegt darin, dass die F -Statistik die mögliche Korrelation zwischen
den OLS-Schätzern βb2 , βb3 , . . . , βbk berücksichtigt, während diese bei individuellen tTests unberücksichtigt bleibt.
Dies wird in Abbildung 5.10 veranschaulicht, die zwei bivariate Normalverteilungen
zeigt, links ohne und rechts mit einer Korrelation zwischen den Zufallsvariablen.
44
Angewandte Ökonometrie
ρ = −0.7:
ρ = 0:
Abbildung 5.10: Bivariate Normalverteilungen ohne und mit Korrelation zwischen
den Zufallsvariablen
Wenn die Variablen unkorreliert sind (linke Grafik) wird die gemeinsame Signifikanz durch einen Signifikanzkreis dargestellt, bei Korrelation zwischen den Variablen (rechte Grafik) durch eine Konfidenzellipse, die umso schmaler wird, je höher
die Korrelation ist.
Wir werden später sehen, dass viele der üblichen Teststatistiken für den simultanen
Test mehrerer Hypothesen unter den Standardannahmen F -verteilt sind. Sollten
z.B. im Modell
yi = βb1 + βb2 xi2 + βb3 xi3 + ε̂i
die beiden Koeffizienten βb2 und βb3 simultan getestet werden, so kann man die folgende Teststatistik verwenden:
i
1 h
H
F = 2 S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) + S33 (βb3 − β3 )2 ∼0 F2,n−3
2σ̂
mit
S22 =
X
i
S23 =
X
i
S33 =
X
i
(xi2 − x̄·2 )2
(xi2 − x̄·2 )(xi3 − x̄·3 )
(xi3 − x̄·3 )2
Diese Teststatistik ist unter H0 F -verteilt mit 2 Zähler- und n−3 Nennerfreiheitsgraden. Diese F -Statistik kann für die Konstruktion einer Konfidenzregion verwendet
werden.
Wenn wir mit F crit den kritischen F -Wert mit 2 Zähler- und n − 3 Nennerfreiheitsgraden bezeichnen ist diese Konfidenzregion
h
i
S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) + S33 (βb3 − β3 )2 ≤ F crit(2σ̂ 2 )
Dies definiert eine Ellipsengleichung, das heißt, bei dem simultanen Test zweier
Koeffizienten erhält man anstelle eines Konfidenzintervalls eine Konfidenzellipse.
45
Angewandte Ökonometrie
Sind die Koeffizienten βb2 und
höher die Korrelation zwischen
βb3 unkorreliert erhält man einen Kreis, und umso
βb2 und βb3 ist, umso schmaler ist die Ellipse.
Werden mehr als zwei Hypothesen gleichzeitig getestet erhält man ein höherdimensionales Ellipsoid.
Beispiel: Das folgende Beispiel zeigt einen Fall, bei dem die F -Statistik die gemeinsame Nullhypothese β2 = β3 = 0 ablehnt, die individuellen t-Tests einzeln aber
weder die Ablehnung von β2 = 0 noch von β3 = 0 erlauben (auf dem 5% Niveau).
y
=
7.888 +
(5.028)
0.2 x2
(0.28)
+
0.634 x3
(0.344)*
F-Statistik (df: 2, 47): 34.95, p-Wert: 5.023e-10
R2 = 0.598,
n = 50
Die F -Statistik für die Nullhypothese H0 : β2 = 0 und β3 = 0 ist in diesem Beispiel
34.95 und kann damit mit einer Wahrscheinlichkeit kleiner als 0.0001 verworfen
werden. In diesem Beispiel sind die Regressoren x2 und x3 hoch korreliert, d.h. es
liegt Multikollinearität vor (der Korrelationskoeffizient zwischen x2 und x3 ist 0.95!),
was auch zu einer Korrelation zwischen den geschätzten Koeffizienten führt.
Die geschätzte Varianz-Kovarianzmatrix der Koeffizienten ist
b1
b1
b2
b3
b2
b3
25.27815
0.308261 −0.808990
0.308261
0.078356 −0.091832
−0.808990 −0.091832
0.118481
√
deshalb ist die Korrelation corr(βb2 , βb3 ) = −0.0918/ 0.0784 ∗ 0.1185 = −0.953.
Aufgrund dieser Korrelation ist die Konfidenzellipse in Abbildung 5.11 ziemlich
schmal. Die Konfidenzintervalle für βb2 und βb3 einzeln sind in Abbildung 5.11 strichliert eingezeichnet.
Zur Interpretation von Konfidenzellipsen gilt analoges wie für Konfidenzintervalle, wenn sehr viele Stichproben gezogen würden könnten wir damit rechnen, dass
(1 − α) ∗ 100% der resultierenden Konfidenzregionen die wahren Werte β2 und β3
enthalten würden.
Erinnern wir uns, dass es eine enge Beziehung zwischen Konfidenzintervallen und
Hypothesentests gibt. Wenn wir den unter der Nullhypothese vermuteten Wert des
′
Parameters h mit βh,0
bezeichnen (für h = 1, . . . , k), kann die Nullhypothese ge′
′
schrieben werden als H0 : βh = βh,0
. Wenn der unter H0 vermutete Wert βh,0
im
Konfidenzintervall liegt kann die Nullhypothese nicht verworfen werden, wenn der
′
Wert βh,0
hingegen außerhalb des Konfidenzintervalls liegt darf die Nullhypothese
verworfen werden. Analoges gilt auch für die Konfidenzellipse.
In Abbildung 5.11 ist ersichtlich, dass in diesem Beispiel weder die Nullhypothese
H0 : β2 = 0 noch die Nullhypothese H0 : β3 = 0 einzeln abgelehnt werden kann,
46
Angewandte Ökonometrie
der Nullpunkt liegt innerhalb der beiden individuellen Konfidenzintervalle (als grau
strichlierte Linien eingezeichnet).
Hingegen kann die gemeinsame Nullhypothese, dass beide Steigungskoeffizienten
simultan gleich Null sind H0 : β2 = 0 und β3 = 0, abgelehnt werden, der Nullpunkt
liegt außerhalb der Konfidenzellipse!
Man sieht in Abbildung 5.11, dass es sehr viele Punkte wie z.B. (β2′ , β3′ ) gibt, die
ähnlich wie der Nullpunkt sowohl im Konfidenzintervall von βb2 als auch im Konfidenzintervall von βb3 liegen, aber nicht in der Konfidenzellipse für βb2 und βb3 .
Andererseits sind auch Fälle möglich, wie z.B. Punkt (β2′′ , β3′′ ) in Abbildung 5.11, die
außerhalb der beiden individuellen Konfidenzintervalle für βb2 und βb3 liegen, aber
innerhalb der Konfidenzellipse. Das bedeutet, dass beide Koeffizienten individuell
signifikant von β2′′ und β3′′ verschieden sind (d.h. es kann sowohl H0 : β2 = β2′′
als auch H0 : β3 = β3′′ individuell verworfen werden), aber dass die gemeinsame
Nullhypothese H0 : β2 = β2′′ und β3 = β3′′ nicht verworfen werden kann.
Im Beispiel von Abbildung 5.11 ist der empirische t-Wert für die H0 : β2 = 0.85
gleich temp = 2.32 (mit p = 0.025), für H0 : β3 = −0.1 ist temp = 2.132 (p = 0.038),
beide Nullhypothesen können also auf einem Signifikanzniveau von 5% verworfen
werden. Aber der empirische F-Wert der gemeinsamen Nullhypothese H0 : β2 =
0.85 und β3 = −0.1 ist F emp = 2.74 mit p = 0.075, die gemeinsame Nullhypothese
kann also auf einem Signifikanzniveau von 5% nicht verworfen werden!
Die t-Statistiken der einzelnen Koeffizienten können also signifikant sein, obwohl die
F -Statistik für die gemeinsame Nullhypothese nicht signifikant ist. Solche Fälle sind
allerdings selten und treten meist nur bei hoher Multikollinearität auf.
Als nächstes werden wir eine allgemeinere Möglichkeiten kennen lernen eine F Statistik zu berechnen, die den Test komplexerer Nullhypothesen erlaubt.
5.6
Simultane Tests für mehrere lineare
Restriktionen
Zahlreiche Tests beruhen auf einem Vergleich zweier Modelle. Dabei wird in der
Regel ein Modell ohne Restriktion(en) geschätzt und mit einem anderen Modell
verglichen, das unter Berücksichtigung einer oder mehrerer Restriktionen geschätzt
wurde (vgl. Griffiths et al., 1993, Chapter 11). In diesem Fall lässt sich das restringierte Modell immer als Speziallfall eines allgemeinen (d.h. nicht restringierten)
Modells darstellen. Ein Test zwischen zwei Modellen, bei denen es möglich ist eines
der beiden Modelle durch geeignete Parameterrestriktionen in das andere Modell
überzuführen, wird im Englischen als ‘nested test’ (geschachtelte Hypothesen) bezeichnet. In diesem Abschnitt werden wir uns ausschließlich auf solche ‘nested tests’
beschränken.
Ein ganz einfaches Beispiel für ein Modell ohne Restriktionen sei z.B.
yi = β1 + β2 xi2 + β3 xi3 + εi
Unter der Restriktion β3 = 0 gilt
yi = β1∗ + β2∗ xi2 + ε∗i
47
Angewandte Ökonometrie
1.6
1.2
′
′
(β2,0
, β3,0
)
β3
0.8
0.4
Konfidenzintervall für b3
b
(b2 , b3 )
(0, 0)
0.0
b
b
Konfidenzintervall für b2
-0.4
-0.8
-0.4
0.0
0.4
′′
′′
(β2,0
, β3,0
)
0.8
1.2
β2
Abbildung 5.11: 95%-Konfidenzellipse für beide Koeffizienten und Konfidenzintervalle für die beiden einzelnen Koeffizienten für die Regression
aus dem Beispiel auf Seite 45. Die t-Statistiken der einzelnen
Koeffizienten zeigen, dass die Koeffizienten einzeln nicht signifikant von Null verschieden sind (für α = 0.05), der Nullpunkt
(0, 0) liegt innerhalb der individuellen Konfidenzintervalle. Wie
die F -total-Statistik hingegen zeigt sind Koeffizienten gemeinsam hochsignifikant von Null verschieden, der Nullpunkt liegt
außerhalb der Konfidenzellipse! Zum Beispiel können weder die
H0 : β2 = 0 noch die H0 : β3 = 0 einzeln verworfen werden, aber
die simultane H0 : β2 = 0 und β3 = 0 wird abgelehnt (der Punkt
′
′
(0, 0) liegt wie viele weitere Punkte (z.B. (β2,0
, β3,0
)) innerhalb
der einzelnen Konfidenzintervalle, aber außerhalb der Konfidenzellipse.
Es ist auch möglich, dass die Nullhypothesen einzeln abgelehnt
werden können, aber die simultane H0 nicht abgelehnt werden
′′
′′
kann, z.B. werden die H0 : β2 = β2,0
und die H0 : β3 = β3,0
beide
′′
′′
einzeln verworfen, aber die simultane H0 : β2 = β2,0
und β3 = β3,0
kann nicht verworfen werden!
48
Angewandte Ökonometrie
Wenn das wahre β3 tatsächlich Null ist sollte εi = ε∗i sein, und die beiden Stichprobenregressionsfunktionen (SRF) yi = βb1 + βb2 xi2 + βb3 xi3 + ε̂i und yi = βb1∗ + βb2∗ xi2 + ε̂∗i
sollten ‘sehr ähnliche’ Residuen liefern.
Ein anderes Beispiel: angenommen die Nullhypothese H0 : β3 = 1 sei wahr, dann
kann das Modell unter dieser Restriktion geschrieben werden als
yi = β1∗∗ + β2∗∗ xi2 + 1xi3 + ε∗∗
i
und wir können die entsprechende SRF in der Form
(yi − xi3 ) = βb1∗∗ + βb2∗∗ xi2 + ε̂∗∗
i
schätzen, wozu wir eine neue abhängige Variable (yi − xi3 ) bilden müssen.
Im Prinzip werden für geschachtelte (‘nested’ ) Tests immer zwei Gleichungen
geschätzt, eine Gleichung ohne Restriktion(en), das nicht-restringierte (bzw. unrestringierte) Modell, und eine eine Gleichung mit Restriktion(en) – das restringierte
Modell – das man im wesentlichen durch Einsetzen der Nullhypothese in das nicht
restringierte Modell erhält. Dieser Test ist sehr allgemein einsetzbar und kann auch
für den Test mehrerer Restriktionen verwendet werden.
5.6.1
Beispiele für lineare Restriktionen
Im Folgenden interpretieren wir die H0 als Restriktion(en) und q bezeichnet die
Anzahl der Restriktionen:
• PRF: β1 + β2 x2 + β3 x3 + ε
Restriktion: H0 : β2 = β3 (q = 1)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ (x2 + x3 ) + ε̂∗
Wenn die Nullhypothese β2 = β3 wahr ist würden wir für die Schätzungen
des restringierten und nicht-restringierten Modells zumindest ‘sehr ähnliche’
Ergebnisse erwarten.
• PRF: β1 + β2 x2 + β3 x3 + β4 x4 + ε
Restriktion: H0 : β3 = 0 & β4 = 0 (q = 2)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + βb4 x4 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ x2 + ε̂∗
49
Angewandte Ökonometrie
• PRF: β1 + β2 x2 + β3 x3 + ε
Restriktion: H0 : β2 + β3 = 1 (q = 1)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ x2 + (1 − βb2∗ )x3 + ε̂∗
diese Gleichung kann in der folgenden Form geschätzt werden:
y − x3 = βb1∗ + βb2∗ (x2 − x3 ) + ε̂∗
Man beachte, dass in diesem Fall zwei neue Variablen y − x3 und x2 − x3
angelegt werden müssen.
• PRF: β1 + β2 x2 + β3 x3 + β4 x4 + ε
Restriktion: H0 : β2 = 0.5 × β3
& β4 = −1 (q = 2)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + βb4 x4 + ε̂
Modell mit Restriktionen:
y + x4 = βb1∗ + βb3∗ [0.5x2 + x3 ] + ε̂∗
Wenn die entsprechenden Nullhypothesen wahr sind würden wir für die Schätzungen der Stichprobenregressionsfunktionen des restringierten und nicht-restringierten
Modells sehr ähnliche Ergebnisse erwarten, insbesondere sollten sich auch die Quadratsummen der Residuen des nicht-restringierten und des restringierten Modells
nicht stark unterscheiden.
Tatsächlich kann man zeigen, dass aus diesen Quadratsummen der Residuen eine
einfache Teststatistik konstruiert werden kann, die einen Test der Nullhypothese(n)
erlaubt.
Wenn wir mit SSRu (Sum od Squared Residuals) die Quadratsumme der Residuen
ohne Restriktionen (der Subindex u für unrestricted ) und mit SSRr die Quadratsumme der Residuen des r estringierten Modells bezeichnen, so kann man zeigen,
dass der Skalar
P 2
P 2
(SSRr − SSRu )/q H0
i ε̂r,i −
i ε̂u,i )/q
F -Stat = P 2
=
∼ Fq,n−k
( i ε̂u,i )/(n − k)
SSRu /(n − k)
(
(5.5)
P
unter H0 F -verteilt ist mit q Zähler– und (n−k) Nennerfreiheitsgraden, wobei i ε̂2r,i
die Quadratsumme der Residuen des restringierten Modells sind, und q die Anzahl
der Restriktionen bezeichnet.20
Die Herleitung dieser Teststatistik ist etwas aufwändiger und ist in Matrixnotation
einfacher zu skizzieren.
Zwischenfrage: Warum muss immer gelten SSRr ≥ SSRu ?
Dieser Test ist sehr allgemein und kann für verschiedenste Tests von Restriktionen
auf Koeffizienten verwendet werden.
20
Wenn nur eine einzelne Hypothese getestet wird kann man zeigen, dass diese F-Statistik das
Quadrat der entsprechenden t-Statistik ist.
50
Angewandte Ökonometrie
Mit Hilfe dieser Teststatistik kann wieder der p-Wert nach Fisher berechnet werden,
oder man kann nach Neyman und Pearson vorgehen
1. Formuliere Null- und Alternativhypothese.
2. Lege a priori ein Signifikanzniveau α fest.
3. Verwende die Information über die Teststatistik und die Freiheitsgrade, um den
crit
kritischen Wert Fq,n−k
in einer F-Tabelle nachzuschlagen. Verwende diesen um
Annahme- und Verwerfungsbereich festzulegen.
4. Schätze das Modell ohne Restriktionen mittels OLS.
Berechne aus diesem nicht restringierten Modell die Quadratsumme der Residuen SSRu (in EViews z.B. mit eqname.@ssr; in R mit deviance(eqname);
in Stata mit dem postestimation Befehl e(rss)).
5. Schätze das Modell mit den Restriktionen der Nullhypothese (das restringierte
Modell).
Berechne daraus die restringierte Quadratsumme der Residuen SSRr .
6. Berechne daraus den empirischen Wert der F -Statistik
F emp =
(SSRr − SSRu )/q
SSRu /(n − k)
wobei die Zählerfreiheitsgrade q die Anzahl der Restriktionen sind, n − k die
Nennerfreiheitsgrade.
7. Vergleiche diesen Wert mit dem kritischen Wert der F -Statistik laut Tabelle
crit
crit
Fq,n−k
. Wenn der empirische Wert F emp größer ist als der kritische Wert Fq,n−k
wird die Nullhypothese verworfen, anderenfalls darf sie nicht verworfen werden.
Vorsicht: bei fehlenden Werten ist darauf zu achten, dass restringiertes und nichtrestringiertes Modell auf der gleichen Beobachtungszahl beruhen. Wenn einzelne Beobachtungen einer x Variable fehlen, die im restringierten Modell nicht vorkommt,
kann es passieren, dass restringiertes und nicht-restringiertes Modell auf einer anderen Datengrundlage beruhen und die Statistik deshalb fehlerhaft berechnet wird.
Die übliche ökonometrische Software berücksichtigt dies natürlich automatisch, aber
wenn man die Statistik ‘händisch’ berechnet muss man darauf achtgeben.
Diese Art Tests können mit der üblicher Software natürlich viel einfacher durchgeführt werden.
Beispiel Kehren wir nochmals zum Cobb-Douglas Beispiel (Seite 37) zurück. Die
PRF ist
log(Q) = β1 + β2 log(K) + β3 log(L) + ε
Wir könnten die Hypothese zu den konstanten Skalenerträgen H0 : β2 + β3 = 1 auch
mit Hilfe dieser F -Statistik testen.
Angewandte Ökonometrie
51
Einsetzen dieser H0 in dei PRF führt zum restringierten Modell
log(Q) − log(L) = β1∗ + β2∗ [log(K) − log(L)] + ε∗
Um zu verdeutlichen, dass mit dieser Methode auch mehrere Hypothesen simultan
getestet werden können wollen wir die (inhaltlich nicht sehr sinnvolle) simultane
Nullhypothese
H0 : β2 + β3 = 1 und β1 = 2
testen.
Die restringierte Regression wird deshalb ohne Interzept geschätzt
log(Q) − log(L) − 2 = β2∗∗ [log(K) − log(L)] + ε∗∗
Wir werden nun die Teststatistik 5.5 anwenden und zeigen, wie dieses Ergebnis
einfacher mit den entsprechenden Befehlen der Programme erzielt werden kann.
Stata:
clear
insheet using "https://www.uibk.ac.at/econometrics/data/prodfunkt.csv", ///
delim(";") names clear
generate log_Q = log(q)
generate log_K = log(k)
generate log_L = log(l)
regress log_Q log_K log_L
* Kurz
test log_K + log_L = 1
test _cons = 2, accumulate
* Ergebnis:
* ( 1) log_K + log_L = 1
* ( 2) _cons = 2
*
*
F( 2,
22) =
15.55
*
Prob > F =
0.0001
*
* Ausführlich
* nicht restringiert
regress log_Q log_K log_L
scalar SSR_u = e(rss)
* restringiert
generate y = log_Q - log_L - 2
generate x = log_K - log_L
regress y x, noconstant
scalar SSR_r = e(rss)
scalar F_Stat = ((SSR_r - SSR_u)/2) / (SSR_u/(25-3))
display "F-Statistik: " F_Stat
display "p-Wert: " Ftail(2,22, F_Stat)
Angewandte Ökonometrie
52
R: man kann z.B. den Befehl linearHypothesis() aus dem ‘package’ car verwenden
rm(list=ls(all=TRUE))
CD <- read.table("https://www.uibk.ac.at/econometrics/data/prodfunkt.csv",
dec = ".", sep=";", header=TRUE)
attach(CD)
eq.u <- lm(log(Q) ~ log(K) + log(L))
# Kurz
library(car)
linearHypothesis(eq.u, c("log(K) + log(L) = 1", "(Intercept) = 2"))
# Ausfürhlich; restringiert
eq.r <- lm( I(log(Q)-log(L)-2) ~ I(log(K)-log(L)) -1 )
F.Stat <- ((deviance(eq.r) - deviance(eq.u))/2) / (deviance(eq.u)/(25-3))
p.val <- 1 - pf(F.Stat, 2, 22)
# F.Stat = 15.55485, p.val = 6.162219e-05
EViews:
equation CD.ls log(Q) c log(K) log(L)
CD.wald c(2) + c(3) = 1, c(1) = 2
’ oder
scalar SSR_u = CD.@ssr
equation R.ls log(Q)-log(L)-2 log(K)-log(L)
scalar SSR_r = R.@ssr
scalar F_Stat = ((SSR_r - SSR_u)/2)/(SSR_u/(25-3))
scalar p_Value = 1 - @cfdist(F_Stat,2,22)
5.7
Ein Test auf Strukturbrüche (Chow Test)
Der Chow–Test ist ein nützlicher Test auf Strukturbrüche, oder in anderen Worten,
ein Test Unterschiede zwischen einzelnen Gruppen oder Zeitperioden.
Zum Beispiel kann der Chow Test verwendet werden um zu testen, ob sich die Koeffizienten einer Regression, die über eine Stichprobe von Männern geschätzt wurde,
von den Koeffizienten einer Regression über eine Stichprobe von Frauen unterscheiden. Kann die entsprechende Nullhypothese verworfen werden wird daraus geschlossen, dass in Bezug auf den in der Regressionsgleichung modellierten Zusammenhang
signifikante Unterschiede zwischen Männern und Frauen bestehen.
Manchmal wird er auch für Zeitreihen verwendet um zu untersuchen, ob sich der
modellierte Zusammenhang durch ein Ereignis, welches zu einem bestimmten Zeitpunkt eingetreten ist, geändert hat.
53
Angewandte Ökonometrie
Um den Chow Test durchführen zu können muss der Zeitpunkt des Strukturbruchs
(oder die Gruppenzugehörigkeit) a priori bekannt sein. Natürlich müssen auch alle
anderen Gauss Markov Annahmen erfüllt sein, z.B. dürfen sich die Varianzen der
Störterme nicht zwischen den Gruppen unterscheiden (keine Heteroskedastizität).
Angenommen wir vermuten, dass in der Grundgesamtheit zwischen zwei Gruppen
(oder Perioden) Unterschiede bestehen, d.h.
yi = β1 + β2 xi1 + · · · + βk xik + εi
yj = β1∗ + β2∗ xj1 + · · · + βk∗ xjk + ε∗j
mit i = 1, 2, . . . , n1 , j = n1 + 1, n1 + 2, . . . , n.
Die Nullhypothese ist
H0 :
β1 = β1∗ ,
β2 = β2∗ ,
...,
βk = βk∗
und die Alternativhypothese, dass mindestens eine dieser Bedingungen nicht erfüllt
ist.
Das nicht-restringierte Modell besteht aus den zwei unabhängig geschätzten Gleichungen, d.h. man schätzt zwei getrennte Regressionen für die beiden Gruppen (Subsamples) mit n1 bzw. n2 Beobachtungen (mit n1 + n2 = n), und berechnet daraus
die Quadratsummen der Residuen
yi = βb1 + βb2 xi2 + · · · + βbk xik + ε̂i → SSR1u
mit i = 1, . . . , n1
yj = βb1∗ + βb2∗ xj2 + · · · + βbk∗ xjk + ε̂∗j → SSR2u
mit j = n1 + 1, . . . , n
Man kann zeigen, dass die nicht-restringierte Quadratsumme der Residuen die Summe der Quadratsummen der Residuen der beiden Gleichungen ist, d.h. wenn wir mit
SSRu wieder die Quadratsumme der Residuen des nicht-restringierten Modells bezeichnen
SSRu = SSR1u + SSR2u
mit (n1 − k) + (n − n1 − k) = n − 2k Freiheitsgraden.
Wenn die Nullhypothese wahr ist stimmen alle Koeffizienten der beiden Modelle
überein, das heißt, das restringierte Modell wird einfach über alle n Beobachtungen
(also über beide Gruppen) geschätzt.
mit i = 1, . . . , n.
yi = βb1r + βb2r xi2 + · · · + βbkr xik + ε̂ri
→ RSSr
Chow (1960) hat gezeigt, dass die folgende Teststatistik für diese Nullhypothese
F -verteilt ist
F =
(SSRr − SSRu )/k H0
∼ Fk,n−2k
SSRu /(n − 2k)
54
Angewandte Ökonometrie
wobei n wieder die Anzahl der Beobachtungen und k die Anzahl der geschätzten
Koeffizienten ist.
Die Gültigkeit dieses Test beruht unter anderem auf der Annahme, dass die Varianz
der Störterme σ 2 in allen Gruppen (Subsamples) gleich groß ist (keine Heteroskedastizität).
Dieser Test wird häufig auch angewandt um zu testen, ob in einem Zeitpunkt t
eine Änderung eingetreten ist, indem man eine Regression über den Zeitraum 1 bis
tm schätzt, eine zweite Regression über den Zeitraum tm + 1 bis T , und mittels
der F -Statistik diese beiden Schätzungen mit einer Regression über den gesamten
Zeitraum 1 bis T vergleicht. Zum Beispiel kann damit getestet werden, ob eine
zu einem Zeitpunkt t gesetzte Maßnahme eine Auswirkung auf den untersuchten
Zusammenhang hatte.
Beispiel: Wir möchten testen, ob die Determinanten des Lohneinkommens für verheiratete Menschen gleich sind wie für Singles. Als Determinanten des Lohneinkommens WAGE (= durchschnittlicher Stundenlohn in US-$) verwenden wir die Jahre
der Schulbildung (EDUC) und die Jahre an Berufserfahrung (EXPER).21
Tabelle 5.3 zeigt die Schätzergebnisse für beide Gruppen (Married und Single) einzeln, sowie die Schätzung des restringierten Modells über beide Gruppen.
Tabelle 5.3: Lohngleichungen:
Dependent variable: Wage
restricted
All
unrestricted
Married
Single
(1)
Constant
(2)
−3.391∗∗∗
(0.767)
(3)
−3.122∗∗
(1.220)
−2.352∗∗∗
(0.879)
Educ
0.644∗∗∗
(0.054)
0.668∗∗∗
(0.080)
0.529∗∗∗
(0.066)
Exper
0.070∗∗∗
(0.011)
0.058∗∗∗
(0.017)
0.058∗∗∗
(0.014)
Observations
R2
Residual Std. Error
Sum of Squared Res.
Note:
526
0.225
3.257
5548.16
320
0.182
3.619
4151.37
∗
p<0.1;
206
0.258
2.503
1272.11
∗∗
p<0.05;
∗∗∗
p<0.01
Die Quadratsumme der Residuen des nicht-restringierten Modells ist 4151.370 +
1272.114 = 5423.484. Die oben angeführten Programme berechnen folgende F 21
Die Daten stammen aus dem Begleitmaterial zum Lehrbuch von J. Wooldridge: Introductory
Econometrics.
55
Angewandte Ökonometrie
Statistik
F emp =
(5548.160 − 5423.484)/3
= 3.9846
5423.484/(526 − 6)
Der kritische Wert der F -Statistik für 3 Zähler- und ∞ Nennerfreiheitsgrade und
für ein Signifikanzniveau von 5% ist 2.60, also kann die Nullhypothese
H0 : β1m = β1s ,
β2m = β2s ,
und β3m = β3s
auf einem 5%-Signifikanzniveau verworfen werden (der hochgestellte Index m steht
für ‘married’ und s für ‘single’), d.h. es gibt signifikante Lohnunterschiede zwischen
Verheirateten und Singles, selbst wenn für die Schulbildung und Berufserfahrung
kontrolliert wird!
Der kritische Wert der F -Statistik für ein Signifikanzniveau von 1% ist 3.78, die Nullhypothese kann also auch noch auf einem 1%-Signifikanzniveau verworfen werden.
Das folgende Stata-, R- und EViews Programm schätzt das restringierte und nichtrestringierte Modell und berechnet F emp sowie den dazugehörigen p-Wert.
Stata:
clear
use http://www.hsto.info/econometrics/projekte/wage1, clear
// unrestricted
regress wage exper educ
ereturn list
scalar rss_r = e(rss)
scalar N = e(N)
// Married
regress wage exper educ if married == 1
scalar rss_u1 = e(rss)
scalar N1 = e(N)
// Not married
regress wage exper educ if married == 0
scalar rss_u2 = e(rss)
scalar N2 = e(N)
// unrestricted sum of squared residuals
scalar rss_u = rss_u1 + rss_u2
scalar F_Stat = ((rss_r - rss_u)/3)/(rss_u/(N-2*3))
scalar p_value = Ftail(3,N-6,F_Stat)
dis "F-Stat: " F_Stat ", p-value: " p_value
// F-Stat: 3.9845963, p-value: .00798955
EViews:
Angewandte Ökonometrie
56
wfopen "http://www.uibk.ac.at/econometrics/data/wage1.dta"
’ Regression über alle Beobachtungen, restringiertes Modell
equation eq_r.ls WAGE c EDUC EXPER
scalar SSR_r = eq_r.@ssr
scalar N = eq_r.@regobs
’ Regression über alle Verheirateten
smpl @all if Married = 1
equation eq_u1.ls WAGE c EDUC EXPER
scalar SSR_u1 = eq_u1.@ssr
scalar N1 = eq_u1.@regobs
’ Regression über alle Singles
smpl @all if Married = 0
equation eq_u2.ls WAGE c EDUC EXPER
scalar SSR_u2 = eq_u2.@ssr
scalar N2 = eq_u2.@regobs
smpl @all
scalar SSR_u = SSR_u1 + SSR_u2
scalar F_Stat = ((SSR_r - SSR_u)/3)/(SSR_u/(N - 2*3))
scalar p_value = 1-@cfdist(F_Stat,3,n-6)
R:
rm(list=ls())
library("foreign")
wage1 <- read.dta("http://www.uibk.ac.at/econometrics/data/wage1.dta")
# restringiertes Modell
eq_r <- lm(wage ~ educ + exper,data=wage1)
SSR_r <- deviance(eq_r)
N <- nobs(eq_r)
# nur Verheiratete
eq_u1 <- lm(wage ~ educ + exper, data=subset(wage1,married==1))
SSR_u1 <- deviance(eq_u1)
N1 <- nobs(eq_u1)
# nur Unverheiratete
eq_u2 <- lm(wage ~ educ + exper, data=subset(wage1,married==0))
SSR_u2 <- deviance(eq_u2)
N2 <- nobs(eq_u2)
# SSR für nicht restringiertes Modell
SSR_u <- SSR_u1 + SSR_u2
F_Stat = ((SSR_r - SSR_u)/3)/(SSR_u/(N-2*3))
p_value = 1-pf(F_Stat,3,N-6)
cat("F-Stat: ", F_Stat, ", p-value: ", p_value )
# F-Stat: 3.984596 , p-value: 0.007989545
57
Angewandte Ökonometrie
Natürlich geht das auch viel einfacher, wenn man auf die geeigneten Befehle zurückgreift. In EViews ist dies z.B. der chow Befehl, der v.a. für Zeitreihendaten verwendet
wird, wenn das Datum des Strukturbruchs bekannt ist, und facbreak, der nützlich
ist, wenn eine Datenreihe für die Klassifikation vorliegt (in obigem Beispiel z.B. die
Dummy Variable married ). Obiges Beispiel kann auch einfach mit den zwei Befehlszeilen
equation eq2.ls wage c educ exper
eq2.facbreak married
gelöst werden, diese liefern folgenden Output:
Factor Breakpoint Test: MARRIED
Null Hypothesis: No breaks at specified breakpoints
Varying regressors: All equation variables
Equation Sample: 1 526
F-statistic
3.984596
Prob. F(3,520)
Log likelihood ratio 11.95483
Prob. Chi-Square(3)
Wald Statistic
11.95379
Prob. Chi-Square(3)
Factor values:
MARRIED = 0
MARRIED = 1
0.0080
0.0075
0.0075
Selbst-
verständlich sind diese Tests in EViews auch im im Equation-Menü unter
View/Stability Tests/ . . . verfügbar.
Für R liefert das Packet strucchange von Zeileis u.a. die Option für einen ChowTest. Hier ein Beispiel:
rm(list=ls())
library(strucchange)
library("foreign")
mydata <- read.dta("http://www.uibk.ac.at/econometrics/data/wage1.dta")
# Sortieren
mydata.sort <- mydata[order(mydata$married), ]
# Strukturbruch finden
brk <- which(mydata.sort$married==1)[1]-1
# Chow Strukturbruchtest
sctest(wage ~ educ + exper, type = "Chow", point = brk,
data = mydata.sort)
# F = 3.9846, p-value = 0.00799
Für Stata siehe z.B.
http://www.stata.com/support/faqs/statistics/computing-chow-statistic/
Übung: Wie lautet die Formel der Teststatistik für drei Sub-Samples?
Durch die Einführung einer expliziten Alternativhypothese und eines a priori festgelegten Signifikanzniveaus α kann für Neyman-Pearson Hypothesentests eine eindeutige Entscheidungsregel gefunden werden, ob die Nullhypothese verworfen oder
58
Angewandte Ökonometrie
nicht verworfen werden soll. Diese Entscheidungsregel ist zwar eindeutig, aber das
bedeutet nicht, dass die Entscheidung auch richtig sein muss.
5.8
Typ I und Typ II Fehler
Aufgrund des stochastischen Charakters der Teststatistik sind zwei Arten von Fehlentscheidungen möglich. Zum einen kann eine tatsächlich richtige Nullhypothese
irrtümlich verworfen werden (Typ I Fehler, ‘false positive’, Verwerfungsfehler ), oder
eine tatsächlich falsche Nullhypothese kann irrtümlich nicht verworfen werden (Typ
II Fehler, ‘false negative’, Nicht-Verwerfungsfehler ). Dies wird in Tabelle 5.4 dargestellt.
Tabelle 5.4: Typ I und Typ II Fehler
Entscheidung auf
Grundlage eines
statistischen Tests:
Nullhypothese H0
wird nicht verworfen
Nullhypothese H0
wird verworfen
Wahrer
Sachverhalt:
H0 ist wahr
korrekte Entscheidung
(1 − α)
Typ I Fehler
Wahrer
Sachverhalt:
H0 ist falsch
Typ II Fehler
korrekte Entscheidung
(1 − β: “Power ”)
Für ein Regressionsbeispiel ŷ = βb1 + βb2 x mit der H0 : β2 = 0 bedeutet dies, dass wir
bei einem Typ I Fehler die Nullhypothese irrtümlich verwerfen und deshalb glauben,
dass x einen Einfluss auf y hat, obwohl in Wahrheit kein Zusammenhang besteht
(der wahre Parameter β2 = 0).
Bei einem Typ II Fehler verwerfen wir die H0 : β2 = 0 irrtümlich nicht und glauben
deshalb, dass x keinen Einfluss auf y hat, obwohl tatsächlich ein Zusammenhang
besteht (der wahre Parameter β2 6= 0).
Man beachte, dass die Entscheidung immer auf Grundlage der H0 erfolgt, die
üblicherweise als Gegenhypothese zu unserer Anfangsvermutung formuliert wird.
Dies impliziert eine Asymmetrie zwischen Null- und Alternativhypothese. Um diese
Asymmetrie zu rechtfertigen werden Hypothesentests nach Neyman-Pearson häufig
mit der Unschuldsvermutung bei einem Gerichtsprozess verglichen. In einer Welt ohne Unsicherheit sollten Unschuldige frei gesprochen und Schuldige verurteilt werden.
In einer Welt mit Unsicherheit kann es bei Indizienprozessen allerdings passieren,
dass analog zu einem Typ I Fehler ein Unschuldiger verurteilt wird, oder – analog
zu einem Typ II Fehler – ein Schuldiger freigesprochen wird; vergleiche Tabelle 5.5.
Wenn alle erforderlichen Annahmen erfüllt sind wird die Wahrscheinlichkeit einen
Typ I Fehler zu machen unmittelbar durch das Signifikanzniveau α bestimmt.
Pr [Typ I Fehler] = Pr [H0 ablehnenH0 |H0 wahr]
=α
59
Angewandte Ökonometrie
Tabelle 5.5: Vergleich Typ I und Typ II Fehler mit einem Gerichtsurteil
Gericht fällt
Entscheidung
“unschuldig”
Gericht fällt
Entscheidung
“schuldig”
Angeklagter
ist unschuldig
Angeklagter
ist schuldig
richtige Entscheidung
Schuldiger wird
freigesprochen
Unschuldiger
wird verurteilt
richtige Entscheidung
Deshalb wird in diesem Zusammenhang α häufig auch als ‘Testniveau’ (‘size of
a test’ ) bezeichnet; ein guter Test sollte bei wiederholten Stichprobenziehungen
höchstens in α ∗ 100% der Fälle zu einer ungerechtfertigten Verwerfung der Nullhypothese führen (Typ I Fehler). Wann immer die potentiellen Kosten eines Typ
I Fehlers sehr hoch sind sollte deshalb ein entsprechend kleines Signifikanzniveau
gewählt werden (z.B. α = 0.01).
Es zeigt sich aber, dass dies auch Kosten hat, denn die Wahl eines kleinen α erhöht
automatisch die Wahrscheinlichkeit eines Typ II Fehlers.
Ein Typ II Fehler (manchmal auch β-Fehler genannt) ist ein ‘Nicht-Verwerfungs
Fehler’, eine tatsächlich falsche Nullhypothese wird nicht abgelehnt
Pr [Typ II Fehler] = Pr [H0 nicht ablehnen|H0 falsch]
Dies wird anhand des Vergleichs mit einem Indizienprozess unmittelbar klar. Wenn
man unbedingt vermeiden möchte einen Unschuldigen zu verurteilen (Typ I Fehler)
und deshalb sehr strenge Anforderungen an die Beweise stellt (ein kleines α wählt),
wird dies automatisch dazu führen, dass mancher Schuldige irrtümlich freigesprochen
wird (Typ II Fehler).
Einen Typ II Fehler kann man sich intuitiv als eine verpasste Chance vorstellen,
eine nicht gemachte Entdeckung. Bei einem Typ II Fehler ist die Nullhypothese
tatsächlich falsch, der gesuchte Zusammenhang existiert in Wahrheit, aber unsere
Teststatistik versagt und wir erkennen den Zusammenhang nicht.
Beispiel Stellen Sie sich vor, Sie ziehen in eine neue Gegend, die von interessanten
Menschen und von Langeweilern bewohnt wird. Sie möchten natürlich interessante
Menschen kennen lernen und sich nicht mit Langeweilern abgeben, aber die beiden
Menschengruppen sind auf Anhieb schwer zu entscheiden.
Ein Typ I Fehler (‘false positive’ ) wäre in diesem Beispiel, sich zu täuschen und
sich mit einem Langeweiler einzulassen. Ein Typ II Fehler (‘false negative’ ) besteht
darin, tatsächlich interessante Menschen nicht kennen zu lernen, vgl. Abbildung
5.12.
60
Angewandte Ökonometrie
Abbildung 5.12: Typ II Fehler; Quelle: aus den (Un-)Tiefen des Internets.
Um diese zwei Arten von Fehlern grafisch darstellen zu können wählen wir eine sehr
einfache Null- und Alternativhypothese
H0 : βh = β0
gegen HA : βh = βA
wobei β0 und βA fixe Zahlen sind, d.h. sowohl Null- als auch Alternativhypothese
umfassen nur einen einzelnen Punkt. Abbildung 5.13 zeigt die Stichprobenkennwertverteilungen unter H0 und HA .22
Die linke durchgezogene Verteilung in Abbildung 5.13 ist die Stichprobenkennwertverteilung von βbh unter Gültigkeit der Nullhypothese. Wenn die Nullhypothese
tatsächlich wahr ist fallen bei oftmaliger Wiederholung α×100 Prozent der geschätzten βbh in den Bereich rechts von x (einseitiger Test), und die schraffierte Fläche
darüber gibt die Wahrscheinlichkeit für einen Typ I Fehler an.
Ein Typ II Fehler passiert hingegen, wenn eine tatsächlich falsche Nullypothese
nicht verworfen wird. Wenn die Nullypothese falsch ist muss die Alternativhypothese wahr sein, in diesem einfachen Fall also βh = βA . Die rechte strichlierte Verteilung
in Abbildung 5.13 zeigt die Stichprobenkennwertverteilung von βbh wenn die Alternativhypothese richtig ist. Die Wahrscheinlichkeit eines Typ II Fehlers, also dass die
Alternativhypothese richtig und die Nullhypothese trotzdem nicht abgelehnt wird,
entspricht der horizontal schraffierten Fläche in Abbildung 5.13 (die Fläche unter
der strichliert gezeichneten Verteilung links von x).
Wie man aus dem Vergleich der oberen und unteren Abbildung erkennen kann führt
die Wahl eines kleineren α zwar zu einer Abnahme der Wahrscheinlichkeit eines Typ
I Fehlers, aber gleichzeitig zur Zunahme der Wahrscheinlichkeit eines Typ II Fehlers!
Tatsächlich wissen wir nicht, ob die Null- oder die Alternativhypothese richtig ist,
deshalb wissen wir auch nicht welche der beiden Stichprobenkennwertverteilungen
22
Wir wissen, dass unter dieser H0
"
#
βbh − β0
Pr
≥ tcrit
=α
α
σ̂βbh
Deshalb ist Pr(βbh ≥ β0 + tcrit
bh ) = α. Daraus folgt, dass der kritische Wert x in Abbildung 5.13
α σ̂β
gleich β0 + tcrit
σ̂
ist.
bh
α
β
61
Angewandte Ökonometrie
f (βbh )
Stichprobenkennwertverteilung unter
HA : β = βA
Stichprobenkennwertverteilung unter
H0 : β = β0
bc
β0
βA
bc
x
Typ II
Fehler
Typ I
Fehler
H0 nicht ablehnen
f (βbh )
H0 verwerfen
Stichprobenkennwertverteilung unter
HA : β = βA
Stichprobenkennwertverteilung unter
H0 : β = β0
bc
β0
βb
x
Typ II
Fehler
H0 nicht ablehnen
bc
βA
Typ I
Fehler
H0 verwerfen
βb
Abbildung 5.13: Typ I und Typ II Fehler: Durch die Wahl eines höheren Signifikanzniveaus (d.h. kleineren α) sinkt die Wahrscheinlichkeit eines
Typ I Fehlers, aber dadurch steigt die Wahrscheinlichkeit eines
Typ II Fehlers.[Folien: local]
Angewandte Ökonometrie
62
die wahre ist. Aber wir wissen, dass nur entweder die Nullhypothese oder die Alternativhypothese richtig sein kann.
Wenn die Stichprobenkennwertverteilung unter H0 wahr ist, machen wir bei einem
einseitigen Test in α×100 Prozent der Fälle einen Typ I Fehler. Wenn aber die Alternativhypothese wahr ist machen wir einen Typ II Fehler, dessen Wahrscheinlichkeit
in Abbildung 5.13 durch die Fläche des horizontal schraffierten Bereichs (links von
x) gegeben ist. Man beachte, dass der Wert des Typ II Fehlers auch vom wahren βh
abhängt.
Daraus lassen sich zwei wichtige Schlussfolgerungen ziehen:
1. Die Wahrscheinlichkeit von Typ I und Typ II Fehler sind invers verknüpft, d.h.
die Wahl eines hohen Signifikanzniveaus (kleinen α) reduziert zwar die Wahrscheinlichkeit eines Typ I Fehlers, aber erhöht gleichzeitig die Wahrscheinlichkeit eines Typ II Fehlers (vergleiche obere und untere Grafik in Abbildung
5.13).
2. Die Wahrscheinlichkeit eines Typ II Fehlers ist ceteris paribus umso größer, je
näher βA bei β0 liegt.
Auch wenn es nicht möglich ist beide Arten von Fehlern gleichzeitig zu kontrollieren,
so kann man doch zeigen, dass diese Teststrategie zumindest ‘bestmöglich’ in dem
Sinne ist, dass sie unter bestimmten Annahmen für eine gegebene Wahrscheinlichkeit
eines Typ I Fehlers die Wahrscheinlichkeit eines Typ II Fehlers minimiert.
Trennschärfe (Power ) eines Tests
Erinnern wir uns, Neyman-Pearson entwickelten ihre Methode u.a. um ein Kriterium
zu finden, das eine Beurteilung der Güte von Testfunktionen ermöglichen sollte. Ideal
wäre natürlich ein Test, der falsche Nullhypothesen mit Wahrscheinlichkeit Eins
verwirft und korrekte Nullyhpothesen mit Wahrscheinlichkeit Eins nicht verwirft,
aber eine solche Teststatistik existiert für realistische Situationen natürlich nicht.
Da die Wahrscheinlichkeiten für Typ I und Typ II Fehler invers verknüpft sind ist es
hoffnungslos einen Test zu suchen, der beide Arten von Fehler minimiert. Deshalb
entschieden sich Neyman-Pearson die Wahrscheinlichkeit für einen Typ I Fehler –
das Signifikanzniveau α – vorzugeben und Tests zu suchen, die für ein vorgegebenes
α die Wahrscheinlichkeit eines Typ II Fehlers minimieren. Das impliziert indirekt,
dass Null- und Alternativhypothese asymmetrisch behandelt werden, ähnlich wie bei
der Unschuldsvermutung vor Gericht. Diese Überlegungen führen zur Power eines
Tests.
Die Power eines Tests gibt die Wahrscheinlichkeit dafür an, dass eine tatsächlich
falsche Nullhypothese auch verworfen wird.
Da der Typ II Fehler die Wahrscheinlichkeit angibt, mit der eine falsche Nullhypothese nicht verworfen wird, ist die Power einfach die Gegenwahrscheinlichkeit zum
Typ II Fehler.
63
Angewandte Ökonometrie
f (t)
Verteilung
unter H0
Verteilung
unter HA
‘Power ’
β0
βA
Abbildung 5.14: Die ‘Power’ oder Trennschärfe eines Tests ist Eins minus Wahrscheinlichkeit eines Typ II Fehlers, also die Wahrscheinlichkeit,
mit der eine falsche Nullhypothese tatsächlich verworfen wird.
Power = Pr [Verwerfung H0 |H0 ist falsch]
= 1 − Pr [Akzeptanz H0 |H0 ist falsch]
= 1 − Pr [Typ II Fehler]
Dies wird in Abbildung 5.14 gezeigt.
Da die Power eine Wahrscheinlichkeit ist und als Fläche unter einer Dichtefunktion
gemessen wird kann sie nur Werte zwischen Null und Eins annehmen. Natürlich sollte
der Wert der ‘Power ’, d.h. die Wahrscheinlichkeit mit der eine falsche Nullhypothese
tatsächlich verworfen wird, möglichst nahe bei Eins liegen.
Im vorhergehenden Beispiel hatten wir eine sehr einfache Null- und Alternativhypothese, nämlich H0 : βh = β0 und HA : βh = βA . Nun wollen wir eine etwas
realistischere Alternativhypothese untersuchen, nämlich
H0 :
HA :
βh = β0
βh 6= β0
Dies ändert nichts für den Typ I Fehler (Verwerfungsfehler), dieser wird nach wie
vor durch das gewählte Signifikanzniveau angegeben.
Aber in diesem Fall kann die Wahrscheinlichkeit für einen Typ II Fehler (falsche H0
akzeptieren) nicht mehr durch eine einfache Zahl angegeben werden, sondern hängt
von βh ab. Wenn βh sehr nahe bei β0 liegt wird ceteris paribus die Wahrscheinlichkeit
für einen Typ II Fehler höher sein, und also die Power des Tests niedriger sein.
Dies wird in Abbildung 5.15 gezeigt, die ‘Power’ ist ceteris paribus umso größer, je
weiter der ‘wahre’ Wert βh von β0 entfernt liegt, sie hängt also von βh ab. Wenn man
die Power als Funktion aller möglichen βh darstellt erhält man die Teststärkefunktion
(‘power function’ ), die im untersten Panel von Abbildung 5.15 dargestellt ist.
64
Angewandte Ökonometrie
Verteilung
unter H0
0.4
b
f (β)
Verteilung
unter HA
0.2
Power
−5
−4
−3
−2
1
−1
2
3
4
5
6
Verteilung
unter HA
Verteilung
unter H0
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
3
4
5
6
Verteilung
unter HA
Verteilung
unter H0
Power
−5
−4
−3
−2
1
−1
2
Power
1.0
0.5
α
−5
−4
−3
−2
−1
1
2
3
4
5
6
Abbildung 5.15: Powerfunktion eines zweiseitigen Tests. Die Power ist eine Funktion vom wahren Wert βh .
Angewandte Ökonometrie
65
Effizientere Schätzfunktionen erlauben trennschärfere Tests
Die ‘Power’ eines Tests nimmt mit der Stichprobengröße zu. Abbildung 5.16 zeigt
in der oberen Grafik die Power für eine kleine Stichprobe (kleines n), und in der
unteren Grafik für eine große Stichprobe. Die zugrunde liegende Null- und Alternativhypothese ist in beiden Grafiken gleich. Offensichtlich ist die ‘Power’ bei der
großen Stichprobe deutlich größer!
Man beachte, dass die Power aus zwei Gründen zunimmt: erstens ist die Varianz
der unbeobachtbaren wahren Verteilung bei einer größeren Stichprobe kleiner, und
zweitens liegt der kritische Wert der Verteilung tcrit
αg näher beim β0 .
Abbildung 5.17 zeigt zwei typische Teststärkefunktionen, eine mit kleinerer ‘Power’
(strichlierte Linie) und eine mit größerer ‘Power’.
Frage: Wie sieht die Power-Funktion für einseitige (links- bzw. rechtsseitige) Tests
aus?
5.9
Wie vertrauenswürdig sind publizierte Hypothesentests?
Von Ehen ist bekannt, dass sie im Himmel geschlossen, aber auf Erden ausgetragen
werden. Ähnlich verhält es sich mit Hypothesentests, die Theorie wurde ohne Zweifel
von Genies entwickelt, aber ihre Anwendung auf Erden ist nicht immer über jeden
Zweifel erhaben.
Es gibt eine ganze Reihe von Gründen, warum man bei Hypothesentests, deren
genaues Zustandekommen man nicht kennt – wie bei praktisch allen publizierten
Studien – skeptisch bleiben sollte.
Fehlspezifikationen und nicht identifizierte Modelle: Wir haben schon
früher betont, dass der ‘wahre’ datengenerierende Prozess (DGP) nicht
beobachtbar ist. Um diesen schätzen zu können müssen wir aber Annahmen
darüber treffen, wie er aussieht, wir müssen eine Spezifikation wählen.
Wenn wir dabei wichtige Variablen übersehen, eine falsche Funktionsform
unterstellen, oder ‘feed-back’ Mechanismen übersehen, führt dies zu einer
Fehlspezifikation und die resultierenden Schätzer sind weder erwartungstreu
noch konsistent. Selbstverständlich sind auch die Teststatistiken solcher
fehlspezifizierter Modelle völlig wertlos.
Ein verwandtes Problem sind nicht identifizierte Modelle. Zur Erinnerung, bei
nicht identifizierten Modellen reicht selbst die Kenntnis der ‘wahren’ gemeinsamen Verteilung der relevanten Variablen nicht aus um die interessierenden
Parameter konsistent schätzen zu können. Schätzungen sowie Hypothesentests
solcher nicht identifizierter Modelle können nicht interpretiert werden und sind
ebenfalls wertlos.
Statistische Tests setzen korrekt spezifizierte Modelle voraus. Sind die Modelle falsch spezifiziert sind die Tests nicht interpretierbar. Um Hinweise für
66
Angewandte Ökonometrie
f (βbh )
Verteilung
unter HA
Verteilung
unter H0
‘Power ’
tcαk
β0
f (βbh )
βbh
βA
großes
n
Verteilung
unter HA
Verteilung
unter H0
kleines
n
Power
b
β0
b
tcαg tcαk
βA
βbh
Abbildung 5.16: Die ‘Power’ eines Tests nimmt ceteris paribus mit der Stichprobengröße n zu.
67
Angewandte Ökonometrie
1.0
0.5
α
0
β0
βbh
Abbildung 5.17: Teststärkefunktionen (‘Power Functions’) für zwei Tests (zweiseitig). Die durchgezogene Teststärkefunktion hat eine größere
‘Power’ als die strichlierte.
eine möglichst korrekte Spezifikation zu finden ist theoretisches Nachdenken
unumgänglich.
Ohne theoretischer Vorarbeit kann leicht passieren, was ein berühmter Statistiker einmal einen Typ III Fehler nannte.
“In 1948, Frederick Mosteller (1916-2006) argued that a ‘third kind
of error’ was required to describe circumstances he had observed,
namely:
• Type I error: ‘rejecting the null hypothesis when it is true’.
• Type II error: ‘accepting the null hypothesis when it is false’.
• Type III error: ‘correctly rejecting the null hypothesis for the
wrong reason’.”2324
Ein nettes Beispiel für einen solchen ‘Type III error’ liefert die Medizin25
“Selbstversuche haben in der Medizin Tradition. An die Grenze der
menschlichen Belastbarkeit ging dabei der angehende Arzt Stubbins
Ffirth am Anfang des 19. Jahrhunderts. Er war überzeugt, dass Malaria nicht ansteckend ist, sondern auf übermäßige Hitze, Essen und
Lärm zurückzuführen sei.
Um seine These zu erhärten, setzte er sich selbst der Krankheit
aus. Zuerst brachte er nur kleine Mengen von frischem Erbrochenem in sich selbst zugefügte kleine Kratzer ein. Danach tropfte er
kleine Mengen in seine Augen. Am Ende der Testreihe aß er die frischen Exkremente eines Kranken. Wie durch ein Wunder blieb er
tatsächlich gesund. Er sah seine Behauptung somit belegt.”
23
zitiert aus Wikipedia: http://en.wikipedia.org/wiki/Type_I_error; Quelle: Mosteller, F.,
A k-Sample Slippage Test for an Extreme Population, The Annals of Mathematical Statistics,
Vol.19, No.1, (March 1948), pp.58-65.
24
Ein Vorschlag für einen Typ IV Fehler stammt von dem Harvard Ökonom Howard Raiffa,
“solving the right problem too late”.
25
zitiert aus http://science.orf.at/science/news/149922, [05.11.2007].
68
Angewandte Ökonometrie
“Welt”
(nicht direkt beobachtbar)
Theorie
Modell
Datengenerierender
Prozess (DGP)
te
&
en
eS
en
ätz
sch
rg
eg
eb
(fü
Sp
ez
t en
at i
ifik
Da
on
Forscherin
st e
pe
n
zifi
ka
tio
n!)
Beschreibung
& Erklärung
Beobachtungen
Abbildung 5.18: Die übliche Schätz- und Testtheorie setzt eine korrekte Spezifikation voraus. Wenn die Spezifikationssuche datengetrieben ist und
auf den gleichen Daten wie die Schätzung beruht sind können die
üblichen Verfahren fehlerhafte Ergebnisse liefern; siehe ‘pretest
estimators’, z.B. Danilov and Magnus (2004)
.
Der wackere Stubbins Ffirth konnte damals nicht wissen, dass die Malaria
durch den Biss der weiblichen Stechmücke Anopheles übertragen wird, sein
heldenmütiger Verzehr frischer Exkremente lieferte offensichtlich keinen Beweis
für die Richtigkeit seiner Hypothese, dass Hitze, Lärm und schlechtes Essen
die Ursache für die Malaria sei.
Data- and Estimator Mining: Die Theorie der Hypothesentests beruht darauf,
dass eine a priori festgelegte Nullhypothese einmalig mit den Daten konfrontiert wird. Da der ‘wahre’ DGP nicht beobachtbar ist, ist die Versuchung groß,
verschiedene Spezifikationen ‘zu probieren’. Wenn wir bei einem Signifikanzniveau von 5% hundert Spezifikationen ‘probieren’ müssen wir damit rechnen,
in fünf Fällen die Nullhypothesen irrtümlich zu verwerfen (Typ I Fehler). Es
sollte klar sein, dass derart zustande gekommene Ergebnisse wertlos sind.
Ein verwandtes Problem entsteht, wenn man verschiedene Schätz- und Testverfahren probiert und anschließend die statistisch signifikanten Ergebnisse
selektiert.
Publizierten Resultaten von Hypothesentests kann man nicht ansehen, wie sie
zustande gekommen sind, und es ist klar, dass der ‘publish or perish’ Druck
viele verleitet, ein besonderes Auge auf signifikante Ergebnisse zu haben.
Dies ist natürlich ein altbekanntes Problem, so warnt die American Statistical
Society in ihren ‘Ethical Guidelines for Statistical Practice’
Angewandte Ökonometrie
69
“Running multiple tests on the same data set at the same stage of
an analysis increases the chance of obtaining at least one invalid
result. Selecting the one ‘significant’ result from a multiplicity of
parallel tests poses a grave risk of an incorrect conclusion. Failure
to disclose the full extent of tests and their results in such a case
would be highly misleading.”
(http://www.amstat.org/about/ethicalguidelines.cfm)
Ein verwandtes Problem ist das so genannte ‘outcome switching’. Im Juli 2012
verhängten amerikanische Behörden eine Rekordstrafe von drei Milliarden (!)
US-Dollar über den Pharmakonzern GlaxoSmithKline (GKS). Was war geschehen? In einer Versuchsreihe – der mittlerweile berühmten Studie 329 –
wurde ein Psychopharmaka (Paxil) auf die Wirksamkeit in Bezug auf auf acht
a priori festgelegte Ergebnis-Variablen gemessen. Es zeigte sich, dass das Medikament in keiner dieser acht Variablen signifikant bessere Ergebnisse erzielte
als Plazebos.
Darauf hin entschieden sich die Forscher einen Zusammenhang mit 19 weiteren
Variablen zu testen, und fanden in vier Fällen tatsächlich signifikante Ergebnisse. In der Publikation wurden die früheren Versuchsreihen verschwiegen und
vorgegeben, dass diese vier signifikanten Ergebnisse von vornherein festgelegt
worden wären.
Später zeigte sich, dass dieses Medikament nicht nur wirkungslos in Bezug auf
diese vier selektierten Ergebnisse war, sondern obendrein schwere Nebenwirkungen hatte. (The Economist, Mar 26th 2016, Clinical trials: For my next
trick. . . )
Fehlinterpretationen: Eine spezielle Gefahr des ‘data mining’ besteht darin, dass
ex post fast jedes Resultat ‘plausibel’ erklärt werden kann.
Der Psychologe und Wirtschaftsnobelpreisträger Kahneman (2013, 85) nennt
unser schnelles, intuitives Denken “a machine for jumping to conclusions”.
Dies ist besonders gefährlich, wenn Ergebnisse kausal interpretiert werden.
Hypothesentests alleine können nie Kausalitäten bestätigen, sondern bestenfalls Assoziationen.
Auf diese Gefahr wird manchmal mit dem Schlagwort ‘avoid HARKing’ verwiesen, wobei der Begriff HARKing ein englisches Akronym für “Hypothesizing
After the Results are Known” ist.
Erschwert wird dieses Problem noch dadurch, dass Forscher wie alle anderen
Menschen ‘Fehlwahrnehmungen’ unterliegen, wie z.B. dem berühmten ‘confirmation bias’. Forscher neigen wie Künstler dazu, sich in ihre Modelle zu
verlieben (George Box). Überflüssig zu erwähnen, dass dies den klaren Blick
trüben kann.
Publikationsbias, Typ I Fehler und niedrige Power: Ein spezielles Problem
ist der ‘Publication Bias’, der gemeinsam mit dem Typ I Fehler und einer
niedrigen Power dramatische Auswirkungen haben kann.
Angewandte Ökonometrie
70
Abbildung 5.19: Unreliable research: Trouble at the lab; Quelle: The Economist,
Oct 19th 2013
http://www.economist.com/blogs/graphicdetail/2013/10/daily-chart-2
Der ‘Publication Bias’ besteht darin, dass viele Referees und Zeitschriften
nur signifikante Ergebnisse als publikationswürdig erachten. Dies kann dazu
führen, dass ein verzerrtes Bild der signifikanten Ergebnisse entsteht.
Der Economist (Oct 19th 2013) erklärt das Problem anhand eines einfachen
Zahlenbeispiels, siehe Abbildung 5.19.
Nehmen wir an es gibt 1000 zu testende Hypothesen, und 100 dieser Hypothesen seien tatsächlich wahr, die restlichen 900 falsch.
Die Forscherin weiß dies nicht, sie testet alle 1000 Hypothesen. Von den
tatsächlich falschen 900 Hypothesen wird sie irrtümlich 45 als richtig klassifizieren (5% von 900, Typ I Fehler).
Wenn der gewählte Test eine (sehr gute) Power von 0.8 hat (also 80% der
tatsächlich wahren Hypothesen auch als wahr erkennt) wird sie 20% der 100
tatsächlich richtigen Hypothesen irrtümlich verwerfen. Sie glaubt also 80+45 =
125 richtige Hypothesen vorliegen zu haben, davon sind aber 45, das sind 36%,
tatsächlich falsch!
Ein besseres Ergebnis würde sie erzielen, wenn sie die nicht signifikanten Ergebnisse ansehen würde. In 875 (= 1000 − 125) Fällen wird die Hypothese
verworfen, bei einer Power von 0.8 in nur 20 Fällen davon zu unrecht, was einer Trefferquote von fast 98% entspricht. Aber negative Resultate fallen häufig
dem ‘Publication Bias’ zum Opfer.
Statistische Signifikanz versus ‘Relevanz’ einer Variablen: Manchmal wird
71
Angewandte Ökonometrie
statistische Signifikanz mit der Bedeutung einer Variable verwechselt (Effektstärke). Statistische Signifikanz sagt nichts darüber aus, ob die Größe des
gemessenen Koeffizienten auch praktisch relevant ist. Da der geschätzte Koeffizient auch von der Dimension abhängt, in der die Variablen gemessen wurden,
kann es manchmal nützlich sein, den Koeffizienten einer Variable mit dem
Mittelwert dieser Variable zu multiplizieren (bh x¯h ), um einen Eindruck von
der quantitativen ‘Bedeutung’ einer Variable zu bekommen. Ein Zusammenhang kann zwar statistisch hoch signifikant sein, aber für praktische Zwecke
trotzdem völlig bedeutungslos sein!
Zu beachten ist auch der Zusammenhang zwischen Stichprobengröße und statistischer Signifikanz. In sehr großen Stichproben sind selbst winzige Unterschiede oft statistisch signifikant, und es kann fast jede Nullhypothese verworfen
werden, z.B. für den t-Test
für n → ∞ : t =
βh
βbh
≈
=∞
σ̂βbh
0
Wie bereits erwähnt sind statistische Signifikanz und ökonomische Bedeutung
(Relevanz) zwei verschiedene Paar Schuhe.
Die Gültigkeit von Test hängt von einer Reihe von Annahmen ab, die oft schwer zu
überprüfen sind, z.B.
• ist die vorliegende Stichprobe tatsächlich eine Zufallsstichprobe, oder ist ein
sample selection bias zu befürchten?
• ist die der Hypothese zugrunde liegende Kausalitätsvorstellung tatsächlich angebracht, oder ist simultane Kausalität zu befürchten?
• wurden alle relevanten Einflussfaktoren berücksichtigt, oder könnte das Ergebnis durch eine unbeobachtete Variable verursacht worden sein (omitted variable
bias)?
• usw.
Ein Hypothesentest nach Neyman-Pearson ist in erster Linie eine Entscheidungsregel, aber diese Entscheidungsregel ist nur anwendbar, wenn sie auf zutreffender
Information beruht. Ein simpler Hypothesentest alleine kann nicht zwischen Scheinkorrelationen und Kausalität unterscheiden, dazu bedarf es mehr. Erinnern Sie sich,
die erste Tugend einer Wissenschaftlerin ist Skepsis. Fragen Sie sich stets ‘was könnte das Ergebnis, dass Sie zu sehen glauben, sonst verursacht haben als das, was Sie
zu sehen wünschen?’
Tests können – vernünftig angewandt – ein sehr mächtiges und nützliches Werkzeug
sein, aber man kann damit auch ziemlich viel Unfug treiben.
Zusammenfassend: Blindes Vertrauen ist meistens dumm. Blindes Vertrauen in
einen statistischen Test ist davon keine Ausnahme.
72
Angewandte Ökonometrie
5.10
Prognosen & Prognoseintervalle
“Prediction is very difficult, especially
about the future.”
(Niels Bohr)
Bisher haben wir uns ausschließlich auf die geschätzten Koeffizienten βb1 und βb2
sowie auf deren Standardfehler (bzw. Konfidenzintervalle) konzentriert. Nun wollen
wir einen Schritt weitergehen und sehen, wie wir diese Schätzer für die Erstellung
von Prognosen nützen können.
Nehmen wir wieder an, der ‘wahre’ Zusammenhang in der Grundgesamtheit könne
durch yi = β1 + β2 xi + εi beschrieben werden, und wir schätzen aus der Stichprobe
eine SRF yi = βb1 + βb2 xi + ε̂i . Wie wir gleich sehen werden, können wir die SRF für die
Erstellung von Prognosen nützen. Wir werden uns in den folgenden Ausführungen
auf das bivariate Regressionsmodell beschränken, die Erweiterung für das multiple
Regressionsmodell ist einfach und folgt den gleichen Überlegungen.
Bei einer Prognose geht es darum, die Ausprägung einer Zufallsvariablen vorherzusagen, die nicht beobachtet wurde (z.B. der Wert der abhängigen Variablen y in der
nächsten Periode, oder der Konsum einer Person, die nicht befragt wurde).
Gebräuchlichen Konventionen folgend bezeichnen wir den zu prognostizierenden
Wert der abhängigen Variablen mit y0 . Den entsprechenden Wert der erklärenden
Variable bezeichnen wir mit x0 .
Da Prognosen hauptsächlich für Zeitreihen relevant sind verwenden wir t als Index
über die Beobachtungen, und bezeichnen die Größe der Stichprobe mit T (d.h. t =
1, 2, . . . , T ).
Offensichtlich können Prognosen mit Hilfe einer Regression sehr einfach durchgeführt
werden, es genügt den Wert von x0 in die SRF einzusetzen. Wenn z.B. eine Gleichung
ybt = 15 + 2.5xt
geschätzt wurde, kann für ein x0 = 4 sofort der Wert y0 = 25 prognostiziert werden.
In diesem Abschnitt werden wir nicht nur einfache Prognosen diskutieren, sondern
auch Konfidenzintervalle für die prognostizierten Werte ermitteln.
Bedingte und unbedingte Prognosen Prinzipiell unterscheidet man zwischen
“bedingten” und “unbedingten” Prognosen. Bei einer bedingten Prognose wird von
einem a priori bekannten Wert der erklärenden Variable x0 im Prognosezeitraum
ausgegangen. Eine bedingte Prognose macht also Aussagen über eine interessierende
Variable y, bedingt auf die Annahme, dass die x Variable den Wert x0 annimmt.
Berechnet wird sie einfach, indem man x0 in die geschätzte Regressionsgleichung
einsetzt.
Manchmal möchte man aber einfach eine bestmögliche Prognose für y, ohne den
Wert von x0 a priori zu kennen oder spezifische Annahmen über die x treffen zu
müssen. Eine solche Prognose nennt man eine unbedingte Prognose. Um eine solche unbedingte Prognose machen zu können müssen meist in einem ersten Schritt
Prognosen für die x Variable(n) erstellt werden. Da die ökonomische Theorie für die
Prognose der erklärenden Variable(n) oft wenig hilfreich ist, werden für die Prognose
der x Variable(n) häufig Zeitreihenmethoden eingesetzt.
73
Angewandte Ökonometrie
Mit Hilfe dieser Prognosen für die erklärenden Variable(n) wird dann in einem zweiten Schritt der Wert der abhängigen Variablen y0 prognostiziert. Wir beschäftigen
uns im folgenden ausschließlich mit bedingten Prognosen, einige Hinweise zu unbedingten Prognosen finden sich z.B. bei Pindyck and Rubinfeld (1997, 221f).
Wenn das Regressionsmodell zeitverzögerte abhängige Variablen enthält, z.B.
yt = βb1 + βb2 yt−1 + ε̂i
unterscheidet man außerdem zwischen statischen und dynamischen Prognosen. Bei
einer statischen Prognose werden jeweils die realisierten verzögerten Werte yt−1 für
die Prognose herangezogen, für eine dynamische Prognose werden jeweils die prognostizierten Werte der verzögerten Variable ybt−1 eingesetzt. Dynamische Prognosen
sind v.a. in der Zeitreihenökonometrie von Bedeutung.
Ähnlich wie bei Parameterschätzungen unterscheidet man auch bei Prognosen zwischen Punkt- und Intervallprognosen.
5.10.1
Punktprognose
Wir wollen im Folgenden annehmen, dass alle Gauss-Markov Annahmen erfüllt seien
und dass x0 deterministisch sei. Die PRF sei
y0 = β1 + β2 x0 + ε0
mit ε0 ∼ N(0, σ 2 ) bzw. y0 ∼ N(β1 + β2 x0 , σ 2 ).
Durch Einsetzen von x0 in die Stichprobenregressionsfunktion erhalten wir
yb0 = βb1 + βb2 x0
Für die Realisationen ybt = 6 + 0.8xt würden wir z.B. für x0 = 5 den Prognosewert
yb0 = 10 erhalten.
Man beachte, dass sowohl yb0 = βb1 + βb2 x0 als auch y0 = β1 +β2 x0 +ε0 Zufallsvariablen
sind, da βb1 , βb2 und ε0 Zufallsvariablen sind.
Erwartungstreue Falls die Gauss-Markov Annahmen erfüllt sind kann man einfach erkennen, dass yb0 ein erwartungstreuer und effizienter Schätzer ist
E(b
y0 ) = E(βb1 + βb2 x0 + ε̂0 ) = β1 + β2 x0 = y0
Ein seriöser ‘Wahrsager’ würde yb0 als wahrscheinlichsten Wert für ein gegebenes x0
vorhersagen.
5.10.2
Intervallschätzer
Um etwas über die Genauigkeit dieser Vorhersage aussagen zu können ist es
zweckmäßig einen Intervallschätzer zu berechnen. Im Unterschied zu den Konfidenzintervallen für die einzelnen Koeffizienten βb1 und βb2 müssen wir hier etwas genauer
überlegen, denn es können uns zwei verschiedene Dinge interessieren, nämlich
74
Angewandte Ökonometrie
y
b
PRF
. . . Schätzungen yb0
b
b
rs
b
b
b
y0
unterschiedl.
SRFs
x̄
x0
x
Abbildung 5.20: yb0 ist ein unverzerrtrer Schätzer für y0 , d.h. E(b
y0 ) = y0
1. für das Konfidenzintervall für yb0 = βb1 + βb2 x0 , oder
2. für das Prognoseintervall für y0 = β1 + β2 x0 + ε0
Im ersten Fall interessieren wir uns für die Streuung der ‘mittleren’ y0 , denn wir
können yb0 Erwartungswert einer Stichprobenkennwertverteilung auffassen.
Im zweiten – häufig interessanteren – Fall interessieren wir uns für die Streuung eines
einzelnen, konkreten y0 . In diesem zweiten Fall müssen wir zusätzlich die ‘individuelle’ Unsicherheit in Form von ε0 berücksichtigen. Man beachte, dass wir die wahren
β1 und β2 nicht kennen, sondern dass diese selbst erst geschätzt werden müssen.
Wir beginnen mit dem wichtigeren zweiten Fall, dem Prognoseintervall für y0 . Zur
Berechnung dieses Prognoseintervalls ist es zweckmäßig mit dem Prognosefehler zu
beginnen.
Erwartungswert und Varianz des Prognosefehlers
Der Prognosefehler ist definiert als die Abweichung des tatsächlichen Werts y0 vom
prognostizierten Wert yb0 , d.h.
Prognosefehler = yb0 − y0 = (βb1 − β1 ) + (βb2 − β2 )x0 − ε0
wobei βb1 , βb2 und ε0 Zufallsvariablen sind, und β1 , β2 sowie x0 deterministische
Größen sind.
Nebenbei bemerkt kann man einfach zeigen, dass die Varianz des Prognosefehlers
gleich der Varianz von ỹ0 = βb1 + βb2 x0 + ε0 ist, weil
h
i
var(b
y0 − y0 ) = var (βb1 + βb2 x0 ) − (β1 + β2 x0 + ε0 )
= var[βb1 + βb2 x0 + ε0 ] = var(ỹ0 )
75
Angewandte Ökonometrie
und weil β1 , β2 und x0 deterministische Größen sind.
Der Erwartungswert des Prognosefehlers (b
y0 −y0 ) ist Null, wenn die Schätzer βb1 und
βb2 unverzerrt sind und E(ε0 ) = 0, da
E[b
y0 − y0 ] = E[(βb1 − β1 ) + (βb2 − β2 )x0 − ε0 ]
= E[(βb1 − β1 )] + E[(βb2 − β2 )x0 ] − E[ε0 ]
= 0+0+0=0
wenn die OLS Schätzer βb1 und βb2 erwartungstreu sind.
Die Varianz des Prognosefehlers kann einfach berechnet werden als
#
"
2
(x
−
x̄)
1
0
var(b
y0 − y0 ) = σ 2 1 + + PT
2
T
t=1 (xt − x̄)
Beweis:
var[b
y0 − y0 ] = E[b
y 0 − y 0 ]2
= E[(βb1 − β1 ) + (βb2 − β2 )x0 − ε0 ]2
= var(βb1 ) + x20 var(βb2 ) + σ 2 + 2x0 cov(βb1 , βb2 )
weil ε0 im Erwartungswert mit βb1 und βb2 unkorreliert ist, da die zu prognostizierenden Werte y0 und die x0 nicht in die Berechnung der Koeffizienten βb1 und βb2
eingegangen sind.
Wir erinnern uns, dass
P 2
2
σ
xt
P
var(βb1 ) =
T (xt − x̄)2
σ2
var(βb2 ) = P
(xt − x̄)2
−x̄σ 2
cov(βb1 , βb2 ) = P
(xt − x̄)2
wobei t der Laufindex von 1 . . . T und x̄ der Stichprobenmittelwert der ersten T
Beobachtungen ist.
P
P
P
P
Aus (xt − x̄)2 = (x2t ) − T x̄2 folgt (x2t ) = (xt − x̄)2 + T x̄2 . Deshalb ist
P
P
σ 2 x2t
(xt − x̄)2 + T x̄2
x̄2
2
2 1
b
P
var(β1 ) = P
=σ
=σ
+P
T (xt − x̄)2
T (xt − x̄)2
T
(xt − x̄)2
Wir setzen nun die Varianzen der Schätzer βb1 und βb2 in die Varianz des Prognosefehlers ein
var[b
y0 − y0 ] = var(βb1 ) + x20 var(βb2 ) + σ 2 + 2x0 cov(βb1 , βb2 )
x̄2
x20
−2x0 x̄
2 1
= σ
+P
+P
+1+ P
T
(xt − x̄)2
(xt − x̄)2
(xt − x̄)2
1
x2 − 2x0 x̄ + x̄2
= σ 2 1 + + 0P
T
(xt − x̄)2
1
(x0 − x̄)2
2
= σ 1+ + P
T
(xt − x̄)2
76
Angewandte Ökonometrie
Diese Varianz kann noch nicht geschätzt werden, da sie die unbekannte Varianz
der Störterme σ 2 enthält. Wie üblich können wir die Varianz des Prognosefehlers
aber schätzen, indem wir die unbekannte Fehlervarianz σ 2 durch den unverzerrten
Schätzer für die Fehlervarianz σ̂ 2 ersetzen, also
#
"
(x0 − x̄)2
1
2
var(b
c y0 − y0 ) = σ̂ 1 + + PT
2
T
t=1 (xt − x̄)
P 2
wobei σ̂ 2 =
ε̂i /(T − 2) das Quadrat des Standardfehlers der Regression (standard
error of the regression) und T die Stichprobengröße ist.
Man kann einfach erkennen, dass
1. die Varianz des Prognosefehlers umso größer ist, je weiter x0 vom StichprobenMittelwert x̄ entfernt liegt. Eine Prognose für einen weit entfernt liegenden
x0 -Wert ist deshalb ungenauer;
2. die Varianz des Prognosefehlers
ist umso kleiner, je größer die Streuung der x
P
ist (d.h. je größer (xt − x̄)2 );
3. die Varianz des Prognosefehlers ist umso kleiner, je größer die Anzahl der
Beobachtungen T ist; und
4. die Varianz des Prognosefehlers umso größer, je größer der Standardfehler der
Regression σ̂ ist
Man kann außerdem zeigen, dass yb0 = βb1 + βb2 x0 der beste lineare unverzerrte Prognosewert ist, d.h. yb0 ist ein effizienter Schätzer für y0 !
Beispiel:
Gegeben seien die folgenden 5 Beobachtungen für x und y:
y: 2.6 1.6 4.0
x: 1.2 3.0 4.5
3.0 4.9
5.8 7.2
Eine Regression von x auf y gibt die folgende Regressionsgleichung
Dependent Variable: Y
Included observations: 5
Variable
Coefficient Std. Error t-Stat.
Prob.
C
1.498
1.032
1.451
0.243
x
0.397
0.214
1.853
0.161
R-squared
0.534 SE of regression
1.00427
77
Angewandte Ökonometrie
Tabelle 5.6: Beispiel: Prognosen, Varianzen des Prognosefehlers und Konfidenzintervalle für ganzzahlige xt .
x0
0
1
2
3
4
5
6
7
yb0
var(b
c y0 − y0 )
1.498
2.074
1.895
1.722
2.292
1.461
2.688
1.293
3.085
1.216
3.482
1.230
3.879
1.337
4.275
1.535
yb0 ∓ tcrit
−3.085
−2.281
−1.555
−0.929
−0.423
−0.048
0.200
0.333
p
var(b
c y0 − y0 )
6.081
6.070
6.138
6.306
6.593
7.011
7.558
8.218
Daraus kann man nun die Varianz des Prognosefehlers berechnen
(x0 − x̄)2
1
2
var(b
c y0 − y0 ) = σ̂ 1 + + P
T
(xt − x̄)2
1 (x0 − 4.34)2
2
= (1.00427) 1 + +
5
21.992
P
da x̄ = 4.34 und (xt − x̄)2 = 21.992.
In Tabelle 5.6 wurden die Varianzen des Prognosefehlers für ganzzahlige xt berechnet.
Zum Beispiel erhalten wir für x0 = 7 ein yb0 = 1.498 + 0.397 × 7 = 4.275 und eine
Varianz des Prognosefehlers von
1 (7 − 4.34)2
2
= 1.535
var(b
c y0 − y0 ) = (1.00427) 1 + +
5
21.992
Prognoseintervall für y0
Mit Hilfe der Varianz des Prognosefehlers können wir nun ein Prognoseintervall für
y0 berechnen. Dazu müssen wir wieder wie üblich eine Standardisierung durchführen.
Da annahmegemäß (b
y0 − y0 ) ∼ N (0, var(b
y0 − y0 )) folgt
p
yb0 − y0
∼ N(0, 1)
var(b
y0 − y0 )
Da σ 2 unbekannt ist müssen wir wieder var(b
y0 − y0 ) durch den Schätzer var(b
c y0 − y0 )
ersetzen und erhalten eine t-verteilte Zufallsvariable
yb0 − y0
t= p
∼ tT −2
var(b
c y0 − y0 )
Wenn wir uns für das 95% Prognoseintervall interessieren benötigen wir den kritischen t-Wert tcrit , für den Pr[t(T −2) > tcrit ] = 0.025. Für T = 5 mit T − 2 = 3
Freiheitsgraden ist tcrit = 3.182.
78
Angewandte Ökonometrie
Damit können wir das Prognoseintervall für y0 bestimmen:
Pr −tcrit ≤ tT −2 ≤ tcrit = 0.95
#
"
yb0 − y0
≤ tcrit = 0.95
Pr −tcrit ≤ p
var(b
c y0 − y0 )
h
i
p
p
crit
crit
Pr yb0 − t
var(b
c y0 − y0 ) ≤ y0 ≤ yb0 + t
var(b
c y0 − y0 ) = 0.95
Das Prognoseintervall für y0 ist also
yb0 ± tcrit
p
var(b
c y0 − y0 )
Die Interpretation ist wie üblich, wenn wir sehr viele Stichproben ziehen würden
und für jede Stichprobe ein Prognoseintervall berechnen würden, so könnten wir
damit rechnen, dass (1 − α)100 Prozent dieser Prognoseintervalle den wahren Wert
y0 enthalten würden.
Die letzten beiden Spalten von Tabelle 5.6 zeigen die entsprechenden Prognoseintervalle. Das Konfidenzintervall für y0 = 4.275 (x0 = 7) erhält man z.B.
p
√
yb0 ± tcrit var(b
c y0 − y0 ) = 4.275 ± 3.182 1.535
bzw.
(0.333 ≤ y0 |(x0 =7) ≤ 8.218)
Abbildung 5.21 zeigt die Beobachtungspunkte (schwarz), die Schätzgerade (Prognose) und das Prognoseintervall (blau strichliert).
Da wir nur fünf Beobachtungspunkte haben ist das Prognoseintervall natürlich entsprechend breit.
Konfidenzintervall für yb0
Manchmal sind wir nicht an der Vorhersage eines konkreten y0 interessiert, sondern
wir an der Genauigkeit der Prognose eines ‘mittleren’ y0 , d.h. an einem Konfidenzintervall für yb0 = βb1 + βb2 x0 .
Die Berechnung der Varianz von yb0 erfolgt völlig analog wie im vorhergehenden Fall.
var(b
y0 ) = var(βb1 + βb2 x0 )
= var(βb1 ) + x20 var(βb2 ) + 2 cov(βb1 , βb2 )
(x0 − x̄)2
2 1
+P
= σ
T
(xt − x̄)2
Wenn wir σ 2 wieder durch den Schätzer σ̂ 2 ersetzen und die Wurzel davon nehmen
erhalten wir den Standardfehler von yb0 (d.h. σ̂yb0 ). Mit dem kritischen Wert tcrit
können wir schließlich das Konfidenzintervall yb0 ± tcrit σ̂yb0 berechnen. Dieses Konfidenzintervall für yb0 ist natürlich schmäler als das Prognoseintervall für y0 .
79
Angewandte Ökonometrie
y
b
b
8
b
b
7
b
b
6
tc
b
b
b
5
p
var(b
c y0 − y0 )
b
ybi = 1.5 + 0.4x
bc
4
b
3
b
b
tc
2
b
p
var(b
c y0 − y0 )
1
b
0
b
1
3
4b
5
6
bc
7
b
−1
b
−2
−3
2
b
b
b
b
Abbildung 5.21: Prognose und deren Konfidenzintervalle
8
x
80
Angewandte Ökonometrie
5.11
Beurteilung der Prognosequalität
Meist wird die Qualität einer Regression anhand von statistischen Kenngrößen wie
z.B. dem Bestimmtheitsmaß R2 , den Standardfehlern der Koeffizienten (bzw. den toder p-Werten) oder verschiedenen Spezifikationstests (die in einem späteren Kapitel
diskutiert werden) beurteilt.
Die Prognosequalität einer Regressionsgleichung erlaubt eine davon verschiedene
Einschätzung. Vor allem wenn bei der Spezifikation entsprechendes Data Mining
betrieben wurde ist es nicht ungewöhnlich, dass eine geschätzte Gleichung eine sehr
gute Anpassung in der Stichprobe hat, aber eine lausige Prognosequalität aufweist.
Um die Prognosequalität beurteilen zu können kann man ex-post Prognosen
durchführen, d.h. den Schätzzeitraum einschränken und sich bei der Spezifikationssuche nur auf einen Teil der Stichprobe beschränken. In der folgenden Grafik
beruht die Schätzung auf der Stichprobe T1 bis T2 . Für die Periode T2 bis T3 , für die
die exogenen Variablen x und die tatsächlich beobachteten yt bekannt sind, kann
dann eine ex-post Prognose durchgeführt werden. Anhand des ‘Fits’ dieser ex-post
Prognose kann anschließend die Qualität der Regression beurteilt werden. Ist diese
zufriedenstellend kann man sich an die eigentliche ex-ante Prognose wagen, d.h. an
die Prognose der unbeobachteten Werte yb0 in der Zukunft. Diese beruht natürlich
auf der gesamten Stichprobe T1 bis T3 .
T1
Gegenwart
T3
T2
Schätzperiode
ex-post
Prognose
Zeit t
ex-ante
Prognose
Wenn die Gleichung eine verzögerte abhängige Variable enthält (z.B. yt = βb1 +
βb2 yt−1 + ε̂t ) kann man anstelle der tatsächlichen Beobachtungen yt−1 die prognostizierten Werte ybt−1 einsetzen, also eine dynamische Prognose durchführen.
Häufig wird auch eine Prognose über die gesamte Stichprobe durchgeführt und die
prognostizierten (oder ‘gefitteten’) Werte ytf mit den tatsächlich beobachteten Werten yt verglichen. Für den Vergleich zwischen tatsächlichen und prognostizierten
Werten haben sich einige Kennzahlen eingebürgert, die im folgenden kurz vorgestellt werden.
5.11.1
Root Mean Square Forecast Error (RMS-Fehler)
Der Root Mean Square Error (RMS-Fehler) ist die Wurzel aus dem mittleren quadratischen Prognosefehler und ist eine gebräuchliche Kennzahl um die Abweichung
der prognostizierten Werte von den tatsächlich beobachteten Werten anzugeben.
v
u
T
u1 X
(ytf − yt )2
RMS-Fehler = t
T t=1
81
Angewandte Ökonometrie
mit: ytf = prognostizierter Wert von yt
yt = tatsächlich realisierter Wert von yt
T = Anzahl der Beobachtungen im Prognoseintervall
5.11.2
Mean Absolute Forecast Error (MAE)
Der mittlere absolute Prognosefehler (Mean Absolute Error) ist ein alternatives Maß
mit einer anderen Gewichtung zur Beurteilung der Prognosequalität.
T
1 X f
MAE =
yt − yt T t=1
Sowohl der Root Mean Square Error als auch der Mean Absolute Error sind abhängig
von der Dimension der abhängigen Variablen yt , eignen sich also nur für einen Vergleich verschiedener Modelle zur Prognose der gleichen Datenreihe. Je kleiner der
entsprechende Wert ist, umso besser ist die Prognosequalität.
Im Gegensatz dazu sind die beiden folgenden Kennzahlen unabhängig von der Dimension der prognostizierten Datenreihe und können deshalb für einen Vergleich
von Prognoseverfahren herangezogen werden.
5.11.3
Mean Absolute Percentage Error (MAPE)
Der mittlere absolute prozentuelle Prognosefehler (MAPE) ist definiert als
T
1 X ytf − yt MAPE =
× 100
T t=1 yt 5.11.4
Theil’s Inequality Coefficient (TIC)
Im Zähler von Theil’s Inequality Coefficient (TIC) steht der Root Mean Square
Error, der aber entsprechend gewichtet wird, sodass Theil’s Inequality Coefficient
immer zwischen Null und Eins liegt.
q P
T
f
1
2
t=1 (yt − yt )
T
q P
TIC = q P
T
T
f 2
1
1
2
t=1 (yt ) +
t=1 (yt )
T
T
Umso näher Theil’s Inequality Coefficient bei Null liegt, umso besser ist die Prognosequalität. Bei einem perfekten Fit ist Theil’s Inequality Coefficient gleich Null,
während TIC= 1 das schlechtest mögliche Ergebnis ist.
Mit ein bißchen Algebra kann zeigen, dass
werden kann
T
X
t=1
PT
f
t=1 (yt
− yt )2 folgendermaßen zerlegt
(ytf − yt )2 = (ȳ f − ȳ)2 + (σ̂yf − σ̂y )2 + 2(1 − ρ)σ̂yf σ̂y
Angewandte Ökonometrie
82
wobei ȳ f und ȳ die Mittelwerte und σ̂yf und σ̂y die Standardabweichungen der
Datenreihen ytf und yt sind; und
PT
f
f
t=1 (yt − ȳ )(yt − ȳ)
ρ=
T σ̂yf σ̂y
ist der übliche Korrelationskoeffizient zwischen ytf und yt .
Mit Hilfe dieser Zerlegung kann man folgende Anteile berechnen:
1=
(σ̂yf − σ̂y )2
2(1 − ρ)σ̂yf σ̂y
(ȳ f − ȳ)2
+
+
P
P
PT
T
T
f
f
f
1
1
1
2
2
2
t=1 (yt − yt )
t=1 (yt − yt )
t=1 (yt − yt )
T
T
T
{z
} |
{z
} |
{z
}
|
BiasVarianzKovarianzAnteil
Anteil
Anteil
• Der Bias Anteil zeigt, wie stark sich der Mittelwert der prognostizierten Reihe vom Mittelwert der tatsächlichen Beobachtungen unterscheidet. Ein hoher
Bias Anteil zeigt also, dass sich die prognostizierte Datenreihe stark von den
tatsächlichen Daten unterscheidet.
• Der Varianz Anteil zeigt, wie stark sich die Streuung der prognostizierten
Reihe der Streuung der tatsächlichen Beobachtungen unterscheidet. Wenn der
Varianz-Anteil groß ist bedeutet dies, dass die tatsächlichen Beobachtungen
stark schwanken, während die prognostizierten Werte kaum schwanken, bzw.
umgekehrt.
• Der Kovarianz Anteil ist schließlich ein Maß für den unsystematischen Prognosefehler.
Bei einer guten Prognose sollte der Bias- und der Varianz-Anteil möglichst klein
sein. Da sich die Anteile natürlich auf 1 ergänzen, sollte der unsystematische Kovarianzanteil möglichst nahe bei Eins liegen.
Literaturverzeichnis
Chow, G. C. (1960), ‘Tests of Equality Between Sets of Coefficients in Two Linear
Regressions’, Econometrica 3, 591–605.
Danilov, D. and Magnus, J. R. (2004), ‘On the harm that ignoring pretesting can
cause’, Journal of Econometrics 122(1), 27 – 46.
URL: http://www.sciencedirect.com/science/article/pii/S0304407603002689
Edgeworth, F. (1885), Observations and Statistics: an Essay on the Theory of Errors of Observation and the First Principles of Statistics, Transactions of the
Cambridge Philosophical Society.
URL: http://books.google.at/books?id=9TesGwAACAAJ
Fisher, R. (1925), Statistical Methods For Research Workers, Cosmo study guides,
Cosmo Publications.
URL: http://books.google.at/books?id=4bTttAJR5kEC
Angewandte Ökonometrie
83
Fisher, R. (1955), ‘Statistical methods and scientific induction’, Journal of the Royal
Statistical Society. Series B (Methodological) 17(1), pp. 69–78.
Gigerenzer, G., Swijtink, Z., Porter, T., Daston, L., Beatty, J. and Kruger, L. (1990),
The Empire of Chance: How Probability Changed Science and Everyday Life (Ideas
in Context), reprint edn, Cambridge University Press.
Gosset, W. S. (1908), ‘The probable error of a mean’, Biometrika 6(1), 1–25. Originally published under the pseudonym “Student”.
URL: http://dx.doi.org/10.2307/2331554
Greene, W. H. (2007), Econometric Analysis, 6th edn, Prentice Hall.
Griffiths, W. E., Hill, R. C. and Judge, G. G. (1993), Learning and Practicing Econometrics, 1 edn, Wiley.
Kahneman, D. (2013), Thinking, Fast and Slow, reprint edn, Farrar, Straus and
Giroux.
URL: http://amazon.com/o/ASIN/0374533555/
Lehmann, E. L. (1993), ‘The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two?’, Journal of the American Statistical Association
88(424), pp. 1242–1249.
Neyman, J. and Pearson, E. S. (1928a), ‘On the use and interpretation of certain test
criteria for purposes of statistical inference: Part i’, Biometrika 20A(1/2), 175–
240.
URL: http://www.jstor.org/stable/2331945
Neyman, J. and Pearson, E. S. (1928b), ‘On the use and interpretation of certain test
criteria for purposes of statistical inference: Part ii’, Biometrika 20A(3/4), 263–
294.
URL: http://www.jstor.org/stable/2332112
Pearson, K. (1900), ‘On a criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can reasonably be
supposed to have arisen from random sampling.’, Philosophical Magazine 50, 157–
175.
Pindyck, R. S. and Rubinfeld, D. L. (1997), Econometric Models and Economic
Forecasts, 4 edn, McGraw-Hill/Irwin.
Salsburg, D. (2002), The Lady Tasting Tea: How Statistics Revolutionized Science
in the Twentieth Century, 1st edition edn, Holt Paperbacks.
URL: http://amazon.com/o/ASIN/0805071342/
Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press.
Wooldridge, J. M. (2012), Introductory Econometrics: A Modern Approach, 5 edn,
South-Western College Pub.
Angewandte Ökonometrie
84
Ziliak, S. T. (2008), ‘Retrospectives: Guinnessometrics: The Economic Foundation
of “Student’s” t’, Journal of Economic Perspectives 28, 199–216.
URL: http://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.22.4.199