Kapitel 5 Intervallschätzer, einfache Hypothesentests und Prognosen

Werbung
Kapitel 5
Intervallschätzer, einfache
Hypothesentests und Prognosen
“The greatest enemy of knowledge is not
ignorance, it is the illusion of knowledge.”
(Stephen Hawking)
Bisher haben wir uns im wesentlichen mit der Berechnung der OLS Schätzfunktionen
sowie deren Eigenschaften beschäftigt. Nun gehen wir einen entscheidenden Schritt
weiter und beschäftigen uns mit Konzepten der induktiven Statistik. Nach einer
sehr kurzen Wiederholung der Gauss-Markov Annahmen werden wir das Konzept
der Konfidenzintervalle erläutern, und anschließend relativ ausführlich die Grundidee von Hypothesentests wiederholen. Im Kern handelt es sich bei diesem ganzen
Kapitel um eine bloße Wiederholung einiger grundlegender Konzepte der einführenden Statistik, da aber sehr vieles vom Folgenden auf diesen Ideen aufbaut räumen
wir diesem Kapitel dennoch relativ breiten Raum ein.
5.1
Wiederholung Gauss-Markov Annahmen
Im letzten Kapitel haben wir uns hauptsächlich mit den Eigenschaften der
OLS Schätzer beschäftigt. Diese OLS Schätzer sind Beispiele für so genannte
Punktschätzer, sie ordnen jeder möglichen Stichprobe einen Punkt auf der Zahlengerade zu. Wir benötigen im letzten Kapitel im wesentlichen die folgenden GaussMarkov Annahmen um zu beweisen, dass diese OLS Schätzer effizient sind:
A1 Die PRF yi = β1 + β2 xi2 + · · · + βk xik + εi ist linear in den Parametern βh
(h = 1, . . . , k) und enthält genau die Regressoren, die erforderlich sind um den
datengenerierenden Prozess korrekt zu beschreiben.
Eine Verletzung dieser Annahme führt in der Regel dazu, dass die OLS
Schätzer weder erwartungstreu noch konsistent sind.
0
c [email protected]
1
Angewandte Ökonometrie
2
A2 Es gibt in der Stichprobe keine (exakte) lineare Abhängigkeit zwischen den
insgesamt k Regressoren (inklusive Regressionskonstante). Dies impliziert
corr(xh , xg ) 6= 1 für alle h, g = 1, . . . , k, h 6= g (keine perfekte Multikollinearität). Außerdem ist die Anzahl der Beobachtungen n mindestens so groß
wie die Anzahl der Regressoren (n ≥ k);
Falls diese Annahme verletzt ist, sind die OLS Schätzer nicht eindeutig definiert und können erst gar nicht berechnet werden.
A3 Die Regressoren sind nicht mit den Störtermen korreliert, oder noch stärker,
die Regressoren und Störterme sind stochastisch unabhängig. Dies impliziert
E(εi |xj2 , . . . , xjk ) = 0 für alle i, j = 1, . . . , n (keine endogenen Regressoren).
Diese Annahme spielt in der Ökonometrie eine besonders große Rolle, da sie
für nicht-experimentelle Daten häufig verletzt ist. Bei endogenen Regressoren
sind die OLS Schätzer weder erwartungstreu noch konsistent!
A4 εi ∼ i.i.d.(0, σ 2 ), diese Annahme impliziert, dass alle Störterme εi die gleiche
Verteilung mit Erwartungswert Null und konstanter Varianz σ 2 haben (also
‘identically distributed’ sind), sowie dass die εi untereinander stochastisch unabhängig sind, d.h. E(εi εj |x) = 0 für i 6= j.1 Wenn diese Annahme erfüllt ist,
sind die Störterme weder heteroskedastisch noch autokorreliert.
Wenn Annahmen A1 – A3 erfüllt sind und nur Annahme A4 verletzt ist, sind
die OLS Schätzer zwar erwartungstreu und konsistent, aber nicht effizient.
Ein Modell, das alle Gauss Markov Annahmen erfüllt, wird in der Literatur häufig
‘Klassisches Lineares Regressionsmodell’ genannt (oder CLRM für ‘classical linear
regression model’ ).
OLS Schätzer des ‘Klassischen Linearen Regressionsmodells’ sind effizient, bieten
also in der Klasse der linearen erwartungstreuen Schätzfunktionen die ‘größtmögliche
Genauigkeit’ (sie sind ‘BLUE’).
Eine solche ‘größtmögliche Genauigkeit’ ist zwar beruhigend, aber ‘größtmöglich’
sagt wenig darüber aus, wie präzise die Schätzung tatsächlich ist. Wenn wir auf
Grundlage unserer Schätzungen Entscheidungen treffen müssen wollen wir vermutlich wissen, inwieweit wir den Schätzungen auch ‘vertrauen’ können.
Die bisher verwendeten Punktschätzer, wie z.B. βb2 , können uns diese Information
nicht liefern, sie geben keine Hinweise darüber, wie ‘nahe’ sie beim wahren Wert
liegen, bzw. wie präzise sie sind, und täuschen damit möglicherweise eine Scheingenauigkeit vor.
Wir werden in diesem Kapitel zeigen, dass wir mit Hilfe der Punktschätzer und deren
Standardfehler ein Intervall berechnen können, das zusätzlich den Stichprobenfehler2
1
Zur Erinnerung: Seien U und V zwei diskrete Zufallsvariablen. Allgemein gilt E(U V ) =
P P
i
j ui vj Pr(ui , vj ). Stochastische Unabhängigkeit
P Pbedeutet Pr(ui , vj ) = Pr(ui ) Pr(vj ), bei stochastischer Unabhängigkeit gilt also E(U V ) = i j ui vj Pr(ui ) Pr(vj ), daraus folgt E(U V ) =
E(U ) E(V ). Analoges dazu gilt für stetige Zufallsvariablen.
2
In der deutschen Literatur werden ‘Standardfehler’ und ‘Stichprobenfehler’ manchmal synonym verwendet. Hier verstehen wir unter dem Stichprobenfehler etwas salopp den Fehler, der bei
der Schätzung eines Parameters durch wiederholte Stichprobenziehungen aus der gleichen Grundgesamtheit entsteht.
3
Angewandte Ökonometrie
(‘sampling error’ ) berücksichtigt, und uns damit etwas über die ‘Genauigkeit’ einer
Schätzung verrät.
Allerdings benötigen wir dazu eine zusätzliche Annahme, nämlich dass die Störterme nicht nur εi ∼ i.i.d.(0, σ 2) sind, sondern zusätzlich normalverteilt sind. Diese
Annahme wird häufig geschrieben als
εi ∼ n.i.d.(0, σ 2 )
wobei n.i.d. für ‘normally and independent distributed’ steht (das identically folgt
automatisch aus der Normalverteilungsannahme mit identischen Erwartungswerten
und Varianzen).
Wir werden dies häufig als εi ∼ N(0, σ 2 ) schreiben, wobei das Symbol N die Normalverteilung bezeichnet (diese Schreibweise impliziert nicht notwendigerweise Unabhängigkeit, aber wenn nicht ausdrücklich darauf auf etwas anderes hingewiesen
wird im Folgenden auch Unabhängigkeit, d.h. E(εi εj ) = 0 für i 6= j, angenommen).
Wenn alle Gauss-Markov Annahmen erfüllt sind und die Störterme zusätzlich normalverteilt sind spricht man von einem ‘Klassischen Normalverteilten Linearen Regressionsmodell’ (oder CNLRM für Classical Normal Linear Regression Model ).
Die Normalverteilungsannahme ist nicht ganz so restriktiv wie sie auf den ersten
Blick erscheinen mag, da einerseits die Störterme vieler datengenerierender Prozesse tatsächlich annähernd normalverteilt sind, und in anderen Fällen der zentrale
Grenzwertsatz unter nicht allzu strengen Annahmen sicher stellt, dass die Stichprobenkennwertverteilungen (‘sampling distributions’ ) ziemlich rasch gegen eine Normalverteilung konvergieren, und deshalb zumindest asymptotisch gültig bleiben.
Wir werden nun zeigen, dass uns die zusätzliche Normalverteilungsannahme εi ∼
N(0, σ 2 ) erlaubt Schätzfunktionen zu entwickeln, die jeder möglichen Stichprobe ein
Intervall zuordnen, das zusätzlich den Stichprobenfehler (‘sampling error’ ) berücksichtigt und uns damit etwas über die ‘Genauigkeit’ einer Schätzung verrät.
Solche Schätzfunktionen werden Intervallschätzer genannt. Intervallschätzer sind
natürlich auch Zufallsvariablen, die auf der Idee der wiederholten Stichprobenziehungen (‘repeated sampling’ ) beruhen. Die bekanntesten Intervallschätzer sind Konfidenzintervalle (‘confidence interval’, abgekürzt CI).
Obwohl Konfidenzintervalle ein ziemlich allgemeines Konzept sind werden wir uns im
Folgenden nur mit Konfidenzintervallen für die Regressionskoeffizienten beschäftigen. Noch konkreter werden wir die Ergebnisse nur für den Steigungskoeffizienten βb2
eines bivariaten Regressionsmodells herleiten, aber die prinzipielle Idee ist natürlich
viel allgemeiner anwendbar.
5.2
Ein Konfidenzintervall für βb2
Aus Gründen der Einfachheit werden wir in diesem Kapitel generell annehmen, dass
alle Regressoren x deterministisch sind3 sowie alle Gauss Markov Annahmen erfüllt
und die Störterme normalverteilt seien.
3
Tatsächlich treffen wir diese Annahme nur aus Bequemlichkeit, denn man kann zeigen, dass
alle Konfidenzintervalle und Tests auch bei stochastischen Regressoren gültig bleiben, wenn die
Störterme normalverteilt sind, siehe Greene (2007, 57f).
4
Angewandte Ökonometrie
f (v)
µ2 = −2
σ2 = 0.4
0.8
0.6
µ1 = 1.5
σ1 = 0.5
0.4
0.2
−3
µ2
−2
−1
µ3
0
1
2
α/2 = 0.025
α/2 = 0.025
Fläche:
(1 − α) = 0.95
−1.96
−1
v
Standardisierte
Verteilung mit:
µz = 0
σz = 1
0.2
−2
3
f (z)
0.4
−3
µ1
0
1
+1.96
2
3
z
Abbildung 5.1: Normalverteile Zufallsvariablen v1 , v2 , v3 mit unterschiedlichen Erwartungswerten und Varianzen können standardisiert werden zu
z ∼ N(0, 1).
5.2.1
Implikationen der Normalverteilungsannahme
Die erste zentrale Frage ist, wie wir aus der Normalverteilung der Störterme εi auf die
Verteilung der Schätzfunktion βb2 schließen können. Dazu müssen wir etwas weiter
ausholen.
Aus der einführenden Statistik wissen wir, dass jede lineare Transformation einer
normalverteilten Zufallsvariable wieder normalverteilt ist. Dies gestattet eine Standardisierung normalverteilter Zufallsvariablen, wenn z.B. v eine normalverteilte Zufallsvariable mit E(v) = µ und se(v) = σv ist, dann kann daraus eine standardnormalverteilte Zufallsvariable z = (v − µ)/σv ∼ N(0, 1) erzeugt werden, siehe Abbildung
5.1.
Für standardnormalverteilte Zufallsvariablen z gilt
Pr (−1.96 ≤ z ≤ +1.96) = 0.95
crit
wobei 1.96 der kritische Wert z0.025
der Standardnormalverteilung ist, d.h. 2.5% der
Wahrscheinlichkeitsmasse liegen links von −1.96 und 2.5% der Wahrscheinlichkeitsmasse liegen rechts von +1.96, vgl. Abbildung 5.1.
Wenn wir das der Zufallsvariable z zugrunde liegende Zufallsexperiment unendlich
oft wiederholen würden, so erwarten wir 95% der Realisationen von z im Intervall
[−1.96, +1.96].
Dies wollen wir nun nützen um die Verteilung unserer Schätzfunktion βb2 zu bestimmen. Der Ausgangspunkt ist die Normalverteilungsannahme der Störterme
εi ∼ n.i.d.(0, σ 2 ).
5
Angewandte Ökonometrie
Für deterministische x ist deshalb auch die abhängige Variable yi = β1 + β2 xi + εi
normalverteilt mit yi ∼ n.i.d.(β1 + β2 xi , σ 2 ).
Daraus folgt, dass auch die OLS Schätzer normalverteilt sind, denn wieP
wir bereits
b
früher gezeigt haben sind diese eine lineare Funktion
der
y
,
z.B.
β
=
i
2
i wi yi mit
P
2
den deterministischen Gewichten wi = (xi − x̄)/ j (xj − x̄) .
Damit folgt aus der Normalverteilungsannahme der Störterme
βb2 − β2
∼ N(0, 1)
σβb2
und weiters
"
#
βb2 − β2
Pr −1.96 ≤
≤ +1.96 = 0.95
σβb2
Wenn wir den wahren Wert des Standardfehlers σβb2 kennen würden, könnten wir
daraus ein Konfidenzintervall für den Parameter β2 ermitteln indem wir obigen
Ausdruck umformen zu
h
i
Pr βb2 − 1.96 σβb2 ≤ β2 ≤ βb2 + 1.96 σβb2 = 0.95
Allerdings hilft uns dies wenig, da wir den den wahren Wert des Standardfehlers des
Steigungskoeffizienten σβb2 üblicherweise nicht kennen.
Die erste Idee, den wahren Wert des Standardfehlers, den Parameter σβb2 , durch
dessen Schätzer σ̂βb2 zu ersetzen, führt zu Problemen, denn σ̂βb2 ist im Gegensatz zu
σβb2 eine Zufallsvariable.4 Deshalb ist
βb2 − β2
≁ N(0, 1)
σ̂βb2
das Verhältnis zweier Zufallsvariablen, und es gibt keinen Grund anzunehmen, dass
diese Zufallsvariable wieder normalverteilt sein sollte.
Glücklicherweise konnte W.S. Gosset, Chef-Braumeister der Guinness Brauerei, vor
mehr als hundert Jahren zeigen, dass man die Verteilung des obigen Ausdrucks recht
einfach bestimmen kann (Gosset, 1908), er ist t-verteilt. Da Gosset dieses Ergebnis
unter dem Pseudonym “Student” veröffentlichte, wird die t-Verteilung manchmal
auch Student-Verteilung genannt (vgl. Ziliak, 2008).
5.2.2
Von der Normalverteilung zur t-Verteilung
Wir wollen nun zeigen, dass für das klassische Regressionsmodell mit normalverteilten Störtermen (CNLRM) yi = β1 + β2 xi2 + εi mit εi ∼ n.i.d.(0, σ 2 ) gilt
βb2 − β2
∼ tn−2
σ̂βb2
4
Es ist wichtig zu erkennen, dass σβb2 ein Parameter der Grundgesamtheit ist, also eine fixe
Zahl, während der Schätzer dafür, σ̂βb2 , eine Zufallsvariable ist und als solche wieder eine Stichprobenkennwertverteilung hat.
6
Angewandte Ökonometrie
f (t)
q > 120
q=5
0.4
q=1
0.2
−5
−4
−3
−2
−1
0
1
2
3
4
5 t
Abbildung 5.2: Vergleich der Dichtefunktionen einer t-Verteilung mit q Freiheitsgraden und einer Standard-Normalverteilung
oder in Worten, die mit Hilfe der geschätzten Standardfehler σ̂βb2 standardisierten
Koeffizienten sind t-verteilt mit n − 2 Freiheitsgraden.
Um dies zu zeigen erinnern wir uns aus der einführenden Statistik, dass die Quadratsumme von q unabhängig standardnormalverteilten Zufallsvariablen χ2 verteilt
ist mit q Freiheitsgraden.
Ebenso ist bekannt, dass das Verhältnis einer standardnormalverteilten Zufallsvariable und der Wurzel einer davon unabhängig χ2 -verteilten Zufallsvariable, dividiert
durch die Freiheitsgrade, t-verteilt ist, also
N(0, 1)
q
∼ tq
χ2q /q
Die t-Verteilung ist ähnlich wie die Standardnormalverteilung symmetrisch, hat aber
‘fat tails’ (‘dicke Ränder’); siehe Abbildung 5.2. Für große n konvergiert die tVerteilung gegen die Standardnormalverteilung. De facto macht es ab einer Stichprobengröße n > 30 keinen großen Unterschied, ob man in der t-Verteilungstabelle
oder in der Standardnormalverteilungstabelle nachschlägt.
Um nun zu zeigen, dass (βb2 − β2 )/σ̂βb2 tatsächlich t-verteilt ist, erinnern wir uns,
dass die mit Hilfe des ‘wahren’ Standardfehlers σβbh standardisierten Koeffizienten
standardnormalverteilt sind
βb2 − β2
∼ N(0, 1)
(5.1)
σβb2
wobei β2 und σβb2 fixe, aber unbekannte Parameter der Grundgesamtheit sind (also
keine Zufallsvariablen).
Wenn für alle Störterme gilt εi ∼ N(0, σ 2 ) (mit i = 1, . . . , n) kann man zeigen, dass
die folgende Zufallsvariable χ2 verteilt ist mit n − 2 Freiheitsgraden
P 2
i ε̂i
∼ χ2n−2
σ2
P
wobei i ε̂2i die beobachtbare Quadratsumme der Residuen und σ 2 die unbeobachtbare Varianz der Störterme ist.
7
Angewandte Ökonometrie
Unter Verwendung des Standardfehlers der Regression σ̂ 2 =
wir dies umschreiben zu
P
ε̂i2
σ2
(n − 2)σ̂ 2
=
=
σ2
(n−2)σ̂2
P
(xi −x̄)2
2
P σ
(xi −x̄)2
=
(n − 2)σ̂β2b
2
σβ2b
2
P
ε̂i2 /(n − 2) können
∼ χ2n−2
(5.2)
P
P
(xi −x̄)2 bzw. σβ2b = σ 2 / (xi −x̄)2 . Man beachte, dass σ 2 die Varianz
2
der Störterme ist, und σ 2 die Varianz des Steigungskoeffizienten βb2 ; beide Varianzen
da σ̂β2b = σ̂ 2 /
2
βb2
sind unbeobachtbare Parameter, die aus den Daten geschätzt werden müssen.
Da man obendrein zeigen kann, dass die standardnormalverteilte Zufallsvariable
(5.1) und die χ2 -verteilte Zufallsvariable (5.2) stochastisch unabhängig sind, ist der
Quotient dieser beiden Zufallsvariablen eine t-verteilte Zufallsvariable
N(0, 1)
q 2 ∼ tn−2
χn−2
n−2
⇒
r
βb2 −β2
σβb
2
(n−2)σ̂2b
=
βb2 −β2
σβb
β2
(n−2)σ2b
β2
2
σ̂βb
2
σβb
2
=
βb2 − β2
∼ tn−2
σ̂βb2
Die schöne Überraschung dabei ist, dass sich die unbekannte Populationsvarianz σβ2b
2
herauskürzt.
Wir werden später zeigen, dass dieses wichtige Resultat von Gosset (1908) auch
allgemeiner für einen beliebigen Koeffizienten h des multiplen Regressionsmodells
mit k Regressoren (inkl. Regressionskonstante; mit h ∈ {1, . . . , k}) gilt
βbh − βh
∼ tn−k
σ̂βbh
wobei n − k die Freiheitsgrade sind.
Mit Hilfe dieses Ergebnisses können nun einfach die Konfidenzintervalle der Koeffizienten berechnet werden. Es ist üblich, das gewählte Konfidenzniveau mit (1 − α)
zu bezeichnen, wobei α das frei gewählte Signifikanzniveau ist. Für ein 95% Konfidenzniveau ist z.B. α = 0.05 und 1 − α = 0.95.
Die Bestimmung des Konfidenzintervalls ist nun einfach. Wir wissen, dass
#
"
b
βh − βh
Pr −tcrit
≤ +tcrit
α/2,df ≤
α/2,df = 1 − α
σ̂βbh
wobei tcrit
α/2,df den kritischen Wert der t-Verteilung ist und df die Freiheitsgrade (‘degrees of freedom’ ) bezeichnet. Der kritische Wert tcrit
0.025,25 = 2.06 sagt uns z.B., dass
bei einer t-Verteilung mit 25 Freiheitsgraden 2.5% der Fläche rechts vom Wert 2.06
liegen.5
5
Der kritische Wert kann entweder in einer Tabelle nachgeschlagen werden, oder wenn ein Statistikprogramm zur Verfügung steht, mit Hilfe der Quantilfunktion (inversen Verteilungsfunktion)
berechnet werden.
8
Angewandte Ökonometrie
Wir formen diesen Ausdruck nun so um, dass der unbeobachtbare
Zentrum steht.
h
i
crit
crit
b
Pr −tα/2,df · σ̂βbh ≤ βh − βh ≤ +tα/2,df · σ̂βbh =
h
i
bh + tcrit · σ̂ b
Pr −βbh − tcrit
·
σ̂
≤
−β
≤
−
β
=
b
h
α/2,df
α/2,df
βh
βh
h
i
crit
b
Pr +βbh + tcrit
=
α/2,df · σ̂βbh ≥ βh ≥ βh − tα/2,df · σ̂βbh
Parameter βh im
1−α
1−α
1−α
Wir haben nun gezeigt, dass aus den Gauss Markov Annahmen und der zusätzlichen
Annahme normalverteilter Störterme
βbh − βh
∼ tn−k
σ̂βbh
folgt, und dies erlaubt uns folgende zentrale Wahrscheinlichkeitsaussage
h
i
crit
b
Pr βbh − tcrit
·
σ̂
≤
β
≤
β
+
t
·
σ̂
h
h
α/2,df
α/2,df
βbh
βbh = 1 − α
Dies definiert die untere und obere Grenze des (1 − α) × 100 Prozent Konfidenzintervalls für einen Regressionskoeffizienten h
h
i
crit
b
βbh − tcrit
σ̂
,
β
+
t
σ̂
h
α/2,df βbh
α/2,df βbh
Beispiel: In einem früheren Beispiel haben wir den Preis von Gebrauchtautos auf
Alter und Kilometerstand regressiert.
[ =
Preis
22649.88 − 1896.26 Alter
(411.87)
(235.215)
R2 = 0.907,
− 0.031 km
(0.008)
n = 40
(Standardfehler in Klammern)
Die Koeffizienten weisen das erwartete Vorzeichen auf und haben die übliche Interpretation, z.B. sinkt der erwartete (gefittete) Preis bei konstanter km-Zahl jedes
Jahr um 1896.26 Euro.
Dies ist eine Punktschätzung, der uns nichts über die Genauigkeit der Schätzung
verrät. Um ein 95% Konfidenzintervall zu berechnen benötigen wir den kritischen
t-Wert, und um diesen nachschlagen zu können die Freiheitsgrade.
Wir haben insgesamt 40 Beobachtungen (n = 40) und drei geschätzte Koeffizienten
(b1 , b2 und b3 ), also n − k = 40 − 3 = 37 Freiheitsgrade. Tabelle 5.1 gibt uns
nur die die kritischen Werte für 30 und 40 Freiheitsgrade, der kritische Wert für 40
Freiheitsgrade wäre z.B. tcrit
0.025,40 = 2.021. Wem dies zu ungenau ist kann mit Hilfe der
Quantilfunktion eines geeigneten Programmes den genauen Wert tcrit
0.025,37 = 2.0262
6
berechnen.
6
Die Funktionen sind für R: qt(0.975,37) und für Stata: invttail(37,0.025), und für
EViews: @qtdist(0.975,37).
9
Angewandte Ökonometrie
Tabelle 5.1: Tabelle: t(q) -Verteilung (rechts-seitig)
q
α = 0.1
α = 0.05
α = 0.025
α = 0.01
α = 0.005
1
2
3
..
.
3.078
1.886
1.638
..
.
6.314
2.920
2.353
..
.
12.706
4.303
3.182
..
.
31.821
6.965
4.541
..
.
63.657
9.925
5.841
..
.
30
40
60
∞
1.310
1.303
1.296
1.282
1.697
1.684
1.671
1.645
2.042
2.021
2.000
1.960
2.457
2.423
2.390
2.327
2.750
2.704
2.660
2.576
Die Realisation des 95% Konfidenzintervalls für das Alter ist also
[−1896.26 − 2.0262 ∗ 235.215; −1896.26 + 2.0262 ∗ 235.215]
bzw. [−2372.854; −1419.674].
Für ein 99% Konfidenzintervall wäre der kritische Wert tcrit
0.005,37 = 2.715409 größer,
das Konfidenzintervall also breiter [−2534.968; −1257.56].
Die Realisation des 95% Konfidenzintervalls für km ist [−0.04695; −0.01507].
Da es sich jeweils um Realisationen handelt ist es offensichtlich, dass Wahrscheinlichkeitsaussagen über diese Konfidenzintervalle sinnlos wären.
5.2.3
Interpretation von Konfidenzintervallen
Als Jerzy Neyman seine Idee mit den Konfidenzintervallen 1934 erstmals der Royal
Statistical Society vorstellte stieß er nicht auf ungeteilte Begeisterung. Nach dem
üblichen Dank brachte der Chair der Sitzung seine Skepsis zum Ausdruck:
“I am not certain whether to ask for an explanation or to cast a doubt.
[. . . ] I am referring to Dr. Neyman’s confidence limits. I am not at all
sure that the ‘confidence’ is not a ‘confidence trick’. [. . . ] The statement
of the theory is not convincing, and until I am convinced I am doubtful
of its validity.” (Salsburg, 2002, 121)
Die theoretische Gültigkeit sowie Nützlichkeit der Konfidenzintervalle steht mittlerweile außer Zweifel, sie gehören längst zum unverzichtbaren Standardrepertoire der
statistischen Analyse.
Trotzdem erschließt sich das Konzept der Konfidenzintervalle nicht auf den ersten
Blick, Konfidenzintervalle sind zwar einfach zu berechnen, aber nicht immer ganz so
einfach zu verstehen. Deshalb wollen wir etwas weiter ausholen.
Wann immer wir mit Zufallsvariablen und deren Realisationen operieren müssen wir
vorsichtig sein. Zufallsvariablen beschreiben alle möglichen Ausgänge eines Zufallsexperiments, also gewissermaßen den ex ante Zustand vor Durchführung des dahinter liegenden Zufallsexperiments. Bevor das gedachte Experiment durchgeführt
wurde ist der Ausgang ungewiss, deshalb können wir Wahrscheinlichkeitsaussagen
über die möglichen Ausgänge machen.
Angewandte Ökonometrie
10
Tatsächlich können wir aber nur Realisationen beobachten, Ergebnisse des (gedachten) Zufallsexperiments. Sobald das Experiment durchgeführt wurde ist das Resultat
fix, deshalb können wir über Realisationen keine Wahrscheinlichkeitsaussagen treffen
(außer der trivialen Aussage, dass das beobachtete Ereignis mit Wahrscheinlichkeit
Eins eingetroffen ist).
Was bedeutet dies nun für unser Konfidenzintervall? Wir stellen zuerst fest, dass
in einer ex ante Sichtweise
unsere Schätzer für diei obere und untere Grenze des
h
crit
b
Konfidenzintervalls βbh − tcrit
α/2,df σ̂βbh , βh + tα/2,df σ̂βbh Zufallsvariablen in dem Sinne
sind, dass sie jeder möglichen Stichprobe zwei Zahlenwerte zuordnen.
In dieser ex ante Sichtweise kann die Wahrscheinlichkeitsaussage
h
i
bh + tcrit · σ̂ b = 1 − α
Pr βbh − tcrit
·
σ̂
≤
β
≤
β
b
h
α/2,df
α/2,df
βh
βh
mindestens auf zwei Arten interpretiert werden
• wenn wir – hypothetisch – unendlich viele Stichproben ziehen würden, und für
jede dieser Stichproben ein z.B. 95% Konfidenzintervall berechnen würden, so
würden 95% dieser Konfidenzintervalle den wahren Wert βh überdecken; oder
• das 95% Konfidenzintervall, welches wir aus der nächsten – noch nicht gezogenen – Stichprobe berechnen werden, wird mit 95% Wahrscheinlichkeit das
wahre βh überdecken.
Sobald auf Grundlage der einen vorliegenden Stichprobe die empirischen Realisationen von b2 und sβb2 berechnet wurden erhalten wir eine Realisation der unteren
und oberen Intervallgrenze, ein empirisches Konfidenzintervall, also einfache Zahlen.
Darüber können wir natürlich keine Zufallsaussage treffen (sβb2 ist die Realisation
der Zufallsvariable σ̂ b , also des Standardfehlers des Koeffizienten βb2 ).
β2
Um zu einer Wahrscheinlichkeitsaussage zu kommen müssen wir uns gedanklich in
den Zustand vor Durchführung des Zufallsexperiments versetzen, wir stellen uns
vor, wir könnten beliebig viele Stichproben der gleichen Größe aus der gemeinsamen
Wahrscheinlichkeitsverteilung der Variablen ziehen, und für jede dieser Stichproben
ein Konfidenzintervall berechnen.
Wenn wir die richtige Teststatistik gewählt haben und die entsprechenden Annahmen erfüllt sind können wir sagen, dass 95% der derart (hypothetisch) berechneten
Konfidenzintervalle den wahren Wert überdecken würden.
Kehren wir zurück zu dem vorhin berechneten 95% Konfidenzintervall
[−2372.854; −1419.674] für den Koeffizienten des Alters im Autobeispiel.
Da es sich dabei um eine Realisation handelt, also um eine ex post Sichtweise, erlaubt uns dieses Konfidenzintervall keine Wahrscheinlichkeitsaussage. Eine Aussage
wie “Das Konfidenzintervall [−2372.854; −1419.674] enthält mit 95% Wahrscheinlichkeit den wahren Wert β2 ” ist offensichtlich unsinnig; β2 ist ein unbekannter Parameter und er liegt entweder in diesem Intervall oder er liegt außerhalb, etwas
dazwischen gibt es nicht, vgl. Abbildung 5.3.
Vom realisierten Konfidenzintervall wissen wir aber, dass es (in statistischer Sicht)
nur eines von vielen potentiell möglichen Konfidenzintervallen ist, die alle nach der
11
Angewandte Ökonometrie
b
f (β)
Stichprobenkennwertverteilung
von βb um wahres β
(1 − α)
α/2
α/2
βb
β
bc
Wiederholte
Stichprobenziehungen
(7 Realisationen)
b1
bc
b2
bc
b3
bc
b4
bc
b5
bc
b6
bc
b
7
Abbildung 5.3: ‘Wahres’ β und Konfidenzintervalle für 7 Stichproben. In der praktischen Arbeit beobachten wir nur eine einzige Stichprobe und
deshalb nur eine einzige Realisation eines Konfidenzintervalls. Obwohl wir nie sicher sein können, ob dieses eine Konfidenzintervall
den wahren Wert β enthält, gibt uns die Breite des Konfidenzintervalls wichtige Information über die Genauigkeit der Schätzung!
Quelle: nach Bleymüller et al. 2002, S. 86.
gleichen Regel berechnet werden und die sich nur aufgrund der Stichprobenvariabilität unterscheiden, sowie dass 95% dieser potentiell möglichen Intervalle den wahren
Wert überdecken.
Wir können nur hoffen, dass unsere Stichprobe eine der 95% aller Stichproben ist,
deren Konfidenzintervall den wahren Wert β2 überdeckt, aber wir können uns nie
sicher sein. Abbildung 5.3 verdeutlicht diese Idee.
Was sollen wir dann mit diesem Konfidenzintervall anfangen? Viele Anfänger sind
verunsichert und frustriert, dass die Realisation des Konfidenzintervalls so wenig
über den wahren Parameter β2 verrät, dass sie darüber den wesentlichen Punkt
übersehen, die Breite des Konfidenzintervalls!
Es ist offensichtlich, dass die Breite des Konfidenzintervalls in einer unmittelbaren
Beziehung zum Stichprobenfehler steht, umso enger ein Konfidenzintervall ist, umso
mehr werden wir dieser Schätzung vertrauen.
12
Angewandte Ökonometrie
Eine Frage stellt sich noch: wir beobachten nur eine einzige Stichprobe; wie können
wir aus dieser einen Stichprobe auf die aus der unbekannten Grundgesamtheit resultierende Stichprobenvariabilität schließen? Die Antwort folgt unmittelbar aus den
Annahmen, insbesondere der Annahme, dass alle Störterme unabhängig normalverteilt sind, denn wenn diese Annahmen erfüllt sind gilt das bekannte Ergebnis von
Gosset (1908) t = (βb2 − β2 )/σ̂β2b ∼ tn−2 .
2
Deshalb erlauben Konfidenzintervalle bei Gültigkeit dieser Annahme eine einfache
und unmittelbare Beurteilung des Stichprobenfehlers, der aus der Stichprobenvariablilität resultiert, und verraten uns damit etwas über die Präzision der Schätzung. Dies
gestattet uns im weiteren eine Beurteilung der Vertrauenswürdigkeit der Schätzung.
Aber benötigen wir dafür wirklich ein so kompliziertes Verfahren? Ja! Ein großer
Vorteil von Konfidenzintervallen besteht darin, dass sie nach einer festen und nachvollziehbaren Regel berechnet werden, und dass alle Forscherinnen, die sich an dieses
Regelwerk halten, zu vergleichbaren Ergebnissen kommen. Sie gehören deshalb zum
unverzichtbaren Instrumentarium aller empirisch arbeitenden Wissenschaftler.
Ein kleiner Nachteil von Konfidenzintervallen sei allerdings nicht verschwiegen, es
ist nicht immer ganz einfach einem Laien in wenigen Worten zu erklären, was sie
wirklich aussagen. Aber damit stehen sie nicht ganz alleine da, dieses Problem teilen
sie bekanntlich mit vielen abstrakten Konzepten der Wissenschaft.
5.2.4
Zusammenfassung
Der zentrale Ausgangspunkt dieses Abschnitts war das bekannte Ergebnis von Gosset (1908)
βb2 − β2
∼ tn−2
σ̂βb2
welches die Herleitung von Konfidenzintervallen für die Regressionskoeffizienten erlaubte.
Wir fassen die Schritte zur Bestimmung eines Intervallschätzers für βbh noch einmal
zusammen:
1. Nachdenken über die Forschungsfrage und überlegen, inwieweit vernünftigerweise davon ausgegangen werden kann, dass die Gauss Markov Annahmen und
die Normalverteilungsannahme ‘in einem hinreichenden Ausmaß’ erfüllt sind.
2. Berechnung des Punktschätzers bh und des Standardfehlers dieses Koeffizienten σ̂bh .
3. Festlegung eines Konfidenzniveaus (1−α) und Bestimmung des dazugehörigen
kritischen Wertes tcrit
α/2,n−k für n−k Freiheitsgrade (für eine multiple Regression
mit k Regressoren und unbekanntem σ 2 ).
4. Für das theoretische Konfidentintervall
h
i
bh + tcrit
Pr βbh − tcrit
σ̂
≤
β
≤
β
σ̂
b
b
h
α/2,n−k βh
α/2,n−k βh = 1 − α
Angewandte Ökonometrie
13
berechnen wir die Realisation
crit
bh − tcrit
α/2,n−k sbh ; bh + tα/2,n−k sbh
5. Interpretation des Intervallschätzers: wenn alle Gauss Markov Annahmen
erfüllt sind und die Störterme normalverteilt sind erwarten wir, dass bei wiederholten Stichprobenziehungen (1 − α) × 100% der so berechneten Konfidenzintervalle den ‘wahren’ Wert βh überdecken.
Generell wird die Schätzung umso genauer sein, je enger das so berechnete
Konfidenzintervall ist.
Man beachte, dass die Breite des Konfidenzintervalls sowohl vom frei gewählten
Konfidenzniveau 1 − α abhängt, als auch von allen Faktoren, die sich auf die Größe
des Standardfehlers des Koeffizienten auswirken.
Das Konfidenzintervall ist ceteris paribus umso enger, . . .
• je kleiner das frei gewählte Konfidenzniveau 1 − α ist (d.h. ein 90% Konfidenzintervall ist ceteris paribus enger als ein 99% Konfidenzintervall7 ), und
• umso kleiner der Standardfehler des Koeffizienten ist.
Der Standardfehler ist wiederum umso kleiner, . . .
– umso kleiner die Varianz der Störterme σ 2 ist,
P
– umso größer die Streuung i (xi − x̄)2 der Regressoren ist,
– umso größer die Stichprobe ist, und
– umso kleiner die Korrelation zwischen den Regressoren ist.
Übung:
1. Für unser früheres Beispiel über den den Zusammenhang zwischen Preis (in
Euro) und Alter (in Jahren) von Gebrauchtautos haben wir das 95% Konfidenzintervall [−2372.854; −1419.674] berechnet.
Interpretieren Sie dieses Konfidenzintervall. Wie würden Sie das Ergebnis Ihrem Vater erklären?
2. Benützen Sie
(n − 2)σ̂ 2
∼ χ2n−2
2
σ
um ein 95% Konfidenzintervall für σ 2 zu konstruieren. Berechnen Sie dieses
Intervall für obiges Beispiel.
7
Konfidenzintervalle, die nur in 90% der Fälle den wahren Wert enthalten müssen, können ceteris
paribus schmaler sein als Konfidenzintervalle, die in 99% der Fälle den wahren Wert enthalten
sollen.
Angewandte Ökonometrie
5.3
14
Einfache Hypothesentests
Wir haben uns bisher darauf konzentriert, eine möglichst gute Schätzfunktion βb für
einen ‘wahren’, aber unbekannten Parameter β zu finden, sowie eine Schätzfunktion
für dessen Standardfehler σ̂βb, mit dessen Hilfe wir u.a. Konfidenzintervalle berechnen
konnten.
Tatsächlich läuft der wissenschaftliche Erkenntnisprozess aber häufig anders. Am
Anfang steht meist der Wunsch ein beobachtetes Phänomen zu ‘verstehen’. Aber
was meinen wir mit ‘verstehen’ ? Offensichtlich erklären selbst Experten beobachtete Phänomene höchst unterschiedlich, obwohl sie alle glauben das Phänomen zu
‘verstehen’.
Ein bewährter Ansatz “etwas zu verstehen” besteht darin, den Mechanismus, den
den wir hinter dem Phänomen vermuteten, in einem – häufig mathematischen –
Modell nachzubilden. Wenn dieses Modell ähnliche Ergebnisse produziert wie die
in der Realität beobachteten Phänomene, dann sind wir einem reproduzierbaren
Erklärungsansatz zumindest deutlich näher gekommen.
Was wir dafür aber benötigen ist eine Methode, mit der wir überprüfen können,
inwieweit die Vorhersagen des Modells mit den beobachteten Daten kompatibel sind,
oder auch, inwieweit die dem Modell zugrunde liegenden Annahmen ‘realistisch’
sind.
Dies ist nicht ganz einfach, da Modelle immer Vereinfachungen sind und nie alle Aspekte des datengenerierenden Prozesses abbilden können, deshalb werden die
Vorhersagen der Modelle kaum jemals exakt mit den beobachteten Daten übereinstimmen. Aber wie groß dürfen die Abweichungen sein? Und wie sicher dürfen wir
sein, dass das Modell tatsächlich eine adequate Beschreibung der hinter dem datengenerierenden Prozesses liegenden Gesetzmäßigkeiten liefert? Genau darum geht es
in diesem Kapitel, nämlich um das Testen.
Die Anfänge der Hypothesentests gehen auf Pioniere wie Francis Ysidro Edgeworth
(1885) und Karl Pearson (1900) zurück, die gegen Ende des 19. Jahrhunderts erstmals begannen die Grundlagen statistischer Tests zu formulieren und systematischer
darzustellen.
Die moderne Form von Hypothesentests geht vor allem auf drei Personen zurück, die
in den Jahren zwischen 1915 und 1933 die Grundlagen schufen. Auf der einen Seite
der große Pionier der modernen Statistik, R.A. Fisher (1925), und auf der anderen
Seite Neyman and Pearson (1928a,b).
Obwohl Fisher und Neyman-Pearson überzeugt waren, dass ihre Ansätze sich
grundsätzlich unterscheiden, wird in fast allen modernen Lehrbüchern eine Hybridform dieser beiden Ansätze präsentiert. Für eine Diskussion siehe z.B. Gigerenzer
et al. (1990), Lehmann (1993), Spanos (1999, 688ff).
Hier werden wir eher aus didaktischen Gründen als um der historischen Gerechtigkeit
willen zuerst kurz den Ansatz von Ronald A. Fisher skizzieren, bevor wir den heute
eher gebräuchlichen Ansatz von Neyman-Pearson präsentieren.
5.3.1
Signifikanztest nach R.A. Fisher
Bis herauf zum späten 19. Jahrhundert waren die Überlegungen, wie man Informationen aus der Stichprobe mit den theoretischen Vermutungen konfrontieren könnte,
15
Angewandte Ökonometrie
eher informeller Natur. Die grundlegende Idee könnte man folgendermaßen skizzieren: wenn wir den wahren – aber unbekannten – Wert eines interessierenden Parameters mit θ bezeichnen, und unsere theoretischen Überlegungen einen Wert θ0
erwarten lassen, so hat die Hypothese die Form
θ = θ0
Da θ nicht beobachtbar ist können wir dazu keine Aussage machen, aber wenn diese
Hypothese wahr ist sollte auch der Unterschied zwischen dem Schätzer θ̂ und der
Vermutung θ0 ‘möglichst klein’ oder ungefähr Null sein
|θ̂ − θ0 | ≈ 0
Obwohl in dieser Frühzeit noch nicht dargelegt wurde, was konkret unter ‘näherungsweise Null’ zu verstehen sei, folgen daraus bereits die zwei zentralen Elemente
eines Hypothesentests, nämlich
1. eine Vermutung über die Grundgesamtheit θ = θ0 ; und
2. eine Distanzfunktion |θ̂ − θ0 |
Darauf aufbauend entwickelte R. Fisher seinen Ansatz zu Hypothesentests.
Der erste große Beitrag Fishers in diesem Zusammenhang bestand in der Formulierung einer expliziten Nullhypothese
H0 :
θ = θ0
sowie der Einsicht, welche Implikationen dies für Hypothesentests hat. Man beachte, dass sich die Nullhypothese immer auf die unbeobachtbare Grundgesamtheit –
also die Parameter der PRF – bezieht, und nicht auf die Schätzung (SRF). Die
Schätzungen sind beobachtbar, da gibt es nichts zu vermuten.
Die Nullhypothese wird meist als ‘Negativhypothese’ formuliert, d.h. als Gegenhypothese zur theoretischen Vermutung. Die Nullhypothese beschreibt in diesem Sinne
häufig einen ‘worst case’ für die Vermutung der Forscherin, sodass sie wünscht die
Nullhypothese verwerfen zu können. Durch diese Vorgangsweise soll die Wahrscheinlichkeit für eine irrtümliche Verwerfung der Nullhypothese kontrolliert klein bleiben.
Prinzipiell können Forscher frei entscheiden was sie als ‘worst case’ ansehen, bzw.
wie sie ihre Nullhypothese formulieren, allerdings gibt es – wie wir später zeigen
werden – eine Einschränkung technischer Natur: die Nullhypothese muss stets so
formuliert werden, dass sie das ‘=’ Zeichen (bzw. bei einseitigen Hypothesen das ‘≤’
oder ‘≥’ Zeichen) enthält (d.h., die H0 darf kein 6=, < oder > enthalten).
Im Unterschied zu Neyman-Pearson stellte Fisher seiner Nullhypothese keine explizite Alternativhypothese gegenüber. Die Nullhypothese wird solange als ‘wahr’
angenommen, bis sie in ‘zu starken’ Konflikt mit den beobachtbaren Daten – also
der Stichprobe – gerät.
Auf den Arbeiten von Gosset (1908) aufbauend erkannte Fisher, wie die Distanz
|θ̂ − θ0 | beurteilt werden kann, nämlich durch die Verwendung einer Teststatistik.
16
Angewandte Ökonometrie
Teststatistiken sind neben Nullhypothesen eine zweite unverzichtbare Zutat für
Hypothesentests. Teststatistiken sind spezielle Zufallsvariablen, deren theoretische
Verteilung unter Gültigkeit der Nullhypothese bekannt ist. Ähnlich wie Schätzfunktionen sind Teststatistiken spezielle Funktionen der Stichprobe, d.h. sie ordnen jeder
Stichprobe eine reelle Zahl zu. Im Unterschied zu Schätzern muss die theoretische
Stichprobenkennwertverteilung (‘sampling distribution’ ) einer Teststatistik unter H0
aber von vornherein bekannt sein. Teststatistiken dürfen natürlich keine unbekannten Parameter enthalten, sonst könnte ihr Wert für eine konkrete Stichprobe nicht
berechnet werden.
Die Herleitung von Teststatistiken ist Aufgabe der theoretischen Ökonometrie (bzw.
Statistik) und im allgemeinen kein einfaches Unterfangen. Wie wir später sehen
werden sind viele der gebräuchlichen Teststatistiken asymptotischer Natur, d.h. ihre
Verteilung ist für kleine Stichproben unbekannt, konvergiert aber mit zunehmender
Stichprobengröße gegen eine bekannte theoretische Verteilung.
Wir wollen die prinzipielle Idee von Teststatistiken anhand einer einfachen t-Statistik
erläutern, übrigens eine der eher wenigen Teststatistiken, deren theoretische Verteilung auch für kleine Stichproben bekannt ist. Sie beruht auf dem bekannten Ergebnis
von Gosset (1908) (vgl. Abschnitt 5.2.2, Seite 5), für einen Koeffizienten βbh des Regressionsmodells yi = βb1 + · · · + βbh xih + · · · + βbk xik + ε̂i
βbh − βh
∼ tn−k
σ̂βbh
(5.3)
Dies gilt für den ‘wahren’ Wert βh , der leider unbeobachtbar ist. Aber wenn die
Nullhypothese βh = β0 wahr ist muss gelten
t(S) =
βbh − β0 H0
∼ tn−k
σ̂βbh
(5.4)
wobei S die Menge aller mögliche Stichproben bezeichnet und t(S) ausdrücken soll,
dass die Teststatistik t(S) eine Funktion der Stichproben S ist, also ein ZufallsvaH0
riable. Da dies nur gilt, wenn die Nullhypothese wahr ist, schreiben wir ∼;
dies wird
gelesen als “ist unter H0 verteilt als”. Wenn also H0 : βh = β0 wahr ist und alle Gauss
Markov Annahmen sowie die Normalverteilungsannahme der Störterme erfüllt sind,
ist t(S) t-verteilt mit n − k Freiheitsgraden.
Wenn wir in einer Monte Carlo Simulation unendlich viele Stichproben mit Umfang
n ziehen würden, für jede dieser Stichproben den Wert der Teststatistik t berechnen,
und schließlich ein Histogramm all dieser t Werte zeichnen würden, so könnten wir
feststellen, dass diese empirische Simulation ungefähr einer t-Verteilung folgt. Die
theoretische Stichprobenkennwertverteilung f (t) ist in Abbildung 5.4 eingezeichnet.
Man beachte übrigens den Unterschied zwischen Gleichung (5.4) und Gleichung
(5.3), Gleichung (5.3) enthält den unbekannten Parameter βh und ist deshalb keine
Teststatistik. In Funktion (5.4) wurde der unbekannte Parameter βh durch die beobachtbare Vermutung unter der H0 , d.h. durch das bekannte β0 , ersetzt, deshalb
erfüllt Funktion (5.4) alle Eigenschaften einer Teststatistik, sie ist eine Zufallsvariable, die jeder möglichen Stichprobe eine reelle Zahl zugeordnet, sie enthält keine
unbekannten Parameter, und die theoretische Verteilung von t(S) unter H0 ist bekannt.
17
Angewandte Ökonometrie
Man beachte, dass im Zähler der Teststatistik das Stichproben-Analogon zur Nullhypothese H0 : βh = β0 in impliziter Form steht, d.h. βbh − β0 (= 0), wobei die
Schätzfunktion βbh eine Zufallsvariable und β0 ein Skalar ist.
Offensichtlich ist die Teststatistik t(S) eine Funktion der Distanz |βbh − β0 |, und
um diese Distanz berechnen zu können muss die Nullhypothese das ‘=’ Zeichen
enthalten. Der Wert der Teststatistik wird umso näher bei Null liegen, umso geringer
die Distanz zwischen dem Schätzer βbh und dem unter der Nullhypothese vermuteten
Wert β0 ist. Diese Distanz wird gewichtet mit dem Standardfehler σ̂βbh , einer weiteren
Zufallsvariable.
Unter den getroffenen Annahmen ist die Stichprobenkennwertverteilung von t(S)
unter H0 t-verteilt und wir müssen lediglich die Anzahl der Freiheitsgrade n − k
kennen um die Dichtefunktion der Zufallsvariablen t(S) wie in Abbildung 5.4 zeichnen zu können.
Nun gehen wir einen entscheidenden Schritt weiter und ziehen eine konkrete Stichprobe. Diese Stichprobe erlaubt uns Schätzungen (also Realisationen) für die Schätzfunktionen βbh und σ̂βbh zu berechnen, also bh und sβbh . Mit Hilfe dieser Schätzungen
können wir eine Realisation temp der Teststatistik t(S) berechnen, die wir im Folgenden als ‘empirische t-Statistik’ bezeichnen
temp =
bh − β0
sβbh
Damit ist aber die Frage, inwieweit die beobachtbaren Daten in Konflikt zu unserer
Nullhypothese stehen, noch nicht beantwortet. Hier kommt nun die nächste große
Beitrag Fishers, die p-Werte, welche uns eine statistische Beurteilung der Nullhypothese erlauben werden.
p-Werte für zweiseitige Hypothesentests
Rekapitulieren wir, wir haben nun eine theoretische Teststatistik t(S) für die Nullhypothese H0 : βh − β0 = 0, sowie eine empirische Realisation temp dieser Teststatistik.
Abbildung 5.4 zeigt die Verteilung der theoretischen Teststatistik. Man beachte, dass
wir nur die Stichprobengröße n kennen müssen um diese Dichtefunktion zu zeichnen,
da die Form der t-Verteilung nur von der Anzahl der Freiheitsgrade n − k abhängt.
Die Nullhypothese H0 : βh = β0 ist zweiseitig, sowohl Werte von βbh , die viel größer
als β0 sind, als auch Werte von βbh , die viel kleiner als β0 sind, sind entweder unwahrscheinlich oder sprechen gegen die Nullhypothese.
Im nächsten Schritt nützen wir Realisation temp der vorliegenden Stichprobe. Da die
empirische Teststatistik positiv oder negativ sein kann verwenden wir den Absolutwert |temp |.
Die p–Werte nach Fisher für einen zweiseitigen Test sind die Flächen unter der
Dichtefunktion rechts von +|temp | und links von −|temp |.
Diese Flächen können mit Hilfe der Verteilungsfunktion F (t) einfach berechnet werden.
Z emp
|t
F (t) =
|
f (v) dv
−∞
18
Angewandte Ökonometrie
Stichprobenkennwertverteilung f (t)
der Teststatistik t(S)
unter H0
p-Wert
(Fläche)
−|temp |
0
|temp |
t(S)
Abbildung 5.4: p-Wert nach R. Fisher (rot schraffierte Fläche) für zweiseitigen
Test H0 : β = β0 .
Der Wert der Verteilungsfunktion an der Stelle +|temp | gibt die Fläche unter der
Dichtefunktion links von +|temp | an. Da die gesamte Fläche unter einer Dichtefunktion immer 1 ist erhalten wir die Fläche rechts von +|temp | mit 1 − F (|temp |. Da die
t-Verteilung symmetrisch ist brauchen wir diesen Wert nur zu verdoppeln um den
p-Wert für deinen zweiseitigen Test zu erhalten.
pemp = 2[1 − F (|temp |, df)]
wobei F (t) die Verteilungsfunktion der t-Verteilung ist (nicht die F-Statistik!), |temp |
ist der Absolutwert der empirischen Teststatistik, und und df steht für die Freiheitsgrade (‘degrees of freedom’ ).
Die prinzipielle Idee von Signifikanztests nach R.A. Fisher sind in Abbildung 5.5
dargestellt. Auf Grundlage der Zufallsvariablen ‘hinter’ den Realisationen der Stichprobe wird eine Teststatistik konstruiert, deren Verteilung unter H0 bekannt ist. Da
unter H0 auch die Lage der Stichprobenkennwertverteilung der Teststatistik bekannt
ist kann dies genützt werden, um die empirischen p-Werte zu bestimmen.
Beispiel Im
Kapitel
zur
deskriptiven
Regressionsanalyse
hatten wir ein Beispiel mit den Stundenlöhnen (StdL) und dem Geschlecht (m
=
1 für Männer und Null sonst) von 12 Personen
((http://www.uibk.ac.at/econometrics/data/stdl_bsp1.csv)). Nun interpretieren wir diese Zahlen als Stichprobe aus einer unbekannten Grundgesamtheit. Das
Ergebnis war
StdL
=
12.5
(0.747)***
R2 = 0.359,
+
2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Angewandte Ökonometrie
Datengenerierender
Prozess (DGP)
y = β1 + β2x + ε
f (x, y)
x
n Paare von Zufallsvariablen;
εi identisch & unabhängig verteilt?
y
ε̂1 = y1 − βb1 − βb2 x1 , ε1 ∼ N(0, σ12 )
..
.
..
.
induktiv
(Theorie)
ε̂i = yi − βb1 − βb2 xi ,
..
.
εi ∼ N(0, σi2 )
..
.
ε̂n = yn − βb1 − βb2 xn , εn ∼ N(0, σn2 )
Stichprobenkennwertverteilung
unter H0 : β2 = β0
Teststatistik
t=
βb2 −β0
se(
b βb2 )
f (t)
mit t ∼ tn−k
..
.
n→∞
nicht beobachtbar
b
|
t
0
. . . Asymptotik
Zustände vor dem Zufallsexperiment (ex ante) sind nicht beobachtbar!
ZUFALLSEXPERIMENT
Nach dem Zufallsexperiment (ex post) existiert kein Zufall!
p-Wert
y1
x1
y2
x2
...
yi
xi
...
yn
xn
b2 −β0
sβb
2
|
bc
b
temp 0
emp. Teststatistik
c
H.
Stocker
19
Stichprobe (n Realisationen)
temp =
beobachtbar
deskriptiv
(Empirie)
Abbildung 5.5: Hypothesentest eines Regressionskoeffizienten
Hypothesentest für einen Regressionskoeffizienten
20
Angewandte Ökonometrie
Wir erinnern uns, dass bei eiern regression auf eine Dummy Variable das Interzept
den Wert von y der Referenzkategorie angibt, und der Koeffizient der Dummy Variable den Unterschied zur Referenzkategorie misst. In diesem Beispiel ist also der
durchschnittliche Stundenlohn von Frauen 12.5 Euro, und Männer verdienen um 2.5
Euro mehr. Um zu testen, ob es Unterschiede in den Mittelwerten gibt, brauchen
wir also nur den Koeffizienten der Dummy Variabel testen.
Deshalb ist die empirische t-Statistik für die Nullhypothese, dass es keinen Unterschied im Stundenlohn zwischen Männern und Frauen gibt (d.h. H : β2 = 0)
temp =
2.5
b2 − 0
=
= 2.366
sβb2
1.0567
Computerprogramme geben den entsprechenden empirischen p-Wert gleich aus, man
kann ihn aber auch einfach berechnen, wenn man den Wert der Verteilungsfunktion
F (|2.366|, df = 10) = 0.9802269 kennt8 , pemp = (1 − 0.9802269) ∗ 2 = 0.03955.
Vorsicht ist bei der Interpretation des empirischen p-Wertes geboten, da es sich um
eine Realisation handelt, macht eine Interpretation als Wahrscheinlichkeit keinen
Sinn.
Aber wir können uns fragen wie wahrscheinlich es ist, bei einer hypothetischen neuerlichen Ziehung einer Zufallsstichprobe (oder Wiederholungen des Zufallsexperiments) einen mindestens ebenso extremen oder noch extremeren Wert als temp zu
erhalten.
Interpretation von p-Werten: Wenn die Nullhypothese wahr ist und
alle erforderlichen Annahmen erfüllt sind gibt der p-Wert die Wahrscheinlichkeit dafür an, dass wir bei einer hypothetischen neuerlichen
Durchführung des Zufallsexperiments eine empirische Teststatistik erhalten würden, die noch extremer ist als die vorliegende empirische Teststatistik.
Da p-Werte Wahrscheinlichkeiten sind können sie nur Werte zwischen
Null und Eins annehmen. Wenn alle zugrunde liegenden Annahmen
erfüllt sind deutet ein p-Wert nahe bei Null darauf hin, dass entweder ein sehr unwahrscheinliches Ereignis eingetreten ist, oder dass die
Nullhypothese falsch ist.
Umso kleiner ein p-Wert ist, umso eher wird man geneigt sein die Nullyhpothese zu verwerfen.
Etwas salopp können wir den p-Wert auch einfach als Kennzahl dafür interpretieren, wie gut die Nullhypothese den datengenerierenden Prozess
beschreibt. Ein sehr kleiner p-Wert wird als Evidenz gegen die Nullhypothese interpretiert.
Man beachte, dass der p-Wert nicht die Wahrscheinlichkeit für die Richtigkeit der
Nullhypothese angibt, sondern die Wahrscheinlichkeit dafür, dass bei angenommener
8
Wenn wir mit t den Wert der empirischen t-Statistik und mit df die Freiheitsgrade bezeichnen
erhalten den Wert der Verteilungsfunktion bei t in R mit pt(t,df), in Eviews mit @ctdist(t,
df) und in Stata erhalten wir die Fläche rechts von t mit ttail(df,t).
Angewandte Ökonometrie
21
Gültigkeit der Nullhypothese eine so extreme (oder noch extremere) Zufallsstichprobe
beobachtet wird!
Wir unterstellen dabei von vornherein, dass es sich um eine echte Zufallsstichprobe
handelt, anderenfalls ist der Test ungültig. Man sollte dabei auch nicht vergessen,
wie schwierig es in angewandten Fällen ist, eine echte Zufallsstichprobe zu ziehen!
Für unser Beispiel mit den Stundenlöhnen nahmen wir einfach an, dass wir eine
echte Zufallsstichprobe vorliegen hatten, und erhielten pemp = (1 − 0.9802269) ∗ 2 =
0.03955. Angenommen es gäbe in der Grundgesamtheit keinen Unterschied zwischen
den Stundenlöhnen von Männer und Frauen (d.h. wenn die Nullhypothese wahr ist)
und wir würden eine neuerliche Stichprobe ziehen, dann wäre die Wahrscheinlichkeit
bei dieser neuerlichen Ziehung einen noch extremeren Wert von temp zu erhalten
knapp 4 Prozent.
Oder anders ausgedrückt, wenn die Nullhypothese wahr ist und wir sehr viele Stichproben ziehen würden, dann würden wir in knapp 4 Prozent der Fälle einen so
extremen temp -Wert erwarten.
Dieser kleine p-Wert kann zumindest drei Ursachen haben,
1. die Annahmen, auf denen der Test beruht, sind nicht erfüllt,
2. es handelt sich um ein sehr seltenes (unwahrscheinliches) Ereignis, oder
3. die Nullhypothese ist falsch.
Inwieweit die Annahmen, auf denen der Test beruht, erfüllt sind, sollte vor
Durchführung der Tests überprüft werden; mehr dazu folgt in den späteren Kapiteln.
Die Entscheidung, ob man das Ergebnis als sehr unwahrscheinlich einstufen oder ob
man die Nullhypothese verwerfen soll, ist schwieriger.
In seinen frühen Schriften schlug Fisher vor, bei einem p-Wert kleiner als 5% die
Nullhypothese zu verwerfen, da ein zufälliges Eintreten eines so seltenen Ereignisses
hinreichend unwahrscheinlich sei.
In seinen späteren Lebensjahren hat Fisher einen solchen fixen Wert allerdings entschieden abgelehnt
“. . . no scientific worker has a fixed level of significance at which from
year to year, and in all circumstances, he rejects hypotheses; he rather
gives his mind to each particular case in the light of his evidence and his
ideas.” (R.A. Fisher, 1956)
Wir werden später sehen, dass in der Ablehnung eines solchen von vornherein festgelegten Wertes, ab dem die Nullhypothese verworfen wird, einer der wesentlichen
Unterschiede zur Testmethodik von Neyman und Pearson besteht.
Zuvor wollen wir aber noch kurz den Fall einseitiger Nullhypothesen diskutieren.
22
Angewandte Ökonometrie
p-Werte für einseitige Hypothesentests
Kehren wir nochmals zu unserem Beispiel mit den Stundenlöhnen von Männern
und Frauen zurück. Da haben wir die symmetrische Nullhypothese getestet, dass es
keinen Unterschied gibt, H0 : β2 = 0.
Die geschätzte Gleichung war
StdL
=
12.5
(0.747)***
R2 = 0.359,
+ 2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Wenn wir behaupten, dass Frauen am Arbeitsmarkt diskriminiert werden, möchten
wir die Gegenbehauptung ausschließen, das Frauen gleich viel oder mehr verdienen
als Männer. Da wir in der Regression eine Dummy für Männer haben ist die Nullhypothese, dass Männer gleich viel oder weniger verdienen als Frauen. Wenn wir den
wahren Koeffizienten von m in der obigen Regression wie üblich mit β2 bezeichnen
ist die Nullhypothese also
H0 : β2 ≤ 0
Auf den ersten Blick scheint es unmöglich diese Hypothese zu testen, da β2 ≤ 0
unendlich viele Fälle umfasst. Etwas nachdenken zeigt allerdings, dass es genügt
den Grenzfall β2 = 0 zu testen, denn wenn man H0 : β2 = 0 verwerfen kann, können
automatisch auch alle extremeren Hypothesen β2 < 0 verworfen werden.
Deshalb können wir für einen einseitigen Test die gleiche Teststatistik wie für zweiseitige Tests verwenden, in diesem Fall
temp =
b2 − β0
sβb2
allerdings ist bei einseitigen Tests das Vorzeichen der empirischen Teststatistik zu
beachten.
Im Zähler der empirischen t-Statistik steht das empirische Pendent zur Nullhypothese in impliziter Form. Wenn die Nullhypothese wahr ist würden wir einen Wert
von temp nahe bei Null erwarten. Für eine rechtsseitige Nullhypothese H0 : β2 ≤ 0
würde selbst ein stark negativer Wert von temp nicht im Widerspruch zur Nullhypothese stehen. Selbst leicht positive Werte sind nicht überraschend, erst stark positive
Werte stehen im Widerspruch zur Nullhypothese. Deshalb überprüfen wir, welche
Fläche unter der Dichtefunktion rechts von temp liegt (hier verwenden wir nicht den
Absolutbetrag, das Vorzeichen ist wichtig!).
Dieser Fall ist im rechten Panel von Abbildung 5.6 dargestellt.
Wir haben bereits temp = (b2 − 0)/sβb2 = 2.5/1.057 = 2.366 für den zweiseitigen Test
H0 : β2 = 0 berechnet. Diesen Wert verwenden Wir auch für den einseitigen Test,
allerdings interessieren wir uns nun nur für die Fläche rechts von temp = 2.366, also
pemp = 1 − F (2.366, df = 10) = 0.0198.
Man beachte, dass dieser Wert (für symmetrische Dichtefunktionen) genau halb so
groß ist wie der p-Wert für den zweiseitigen Tests, da wir für den zweiseitigen Test
23
Angewandte Ökonometrie
Linksseitiger Test: H0 : β ≥ β0
Rechtsseitiger Test: H0 : β ≤ β0
f (t)
f (t)
p-Wert für
H0 : β ≤ β0
p-Wert für
H0 : β ≥ β0
temp
0
t
0
temp
t
Abbildung 5.6: p-Wert nach R. Fisher für einseitige Hypothesentests. Für H0 :
β ≥ β0 stellt nur ein stark negativer Wert von temp eine Überraschung dar, für H0 : β ≤ β0 ist erst ein stark positiver Wert temp
überraschend.
diese Fläche nur verdoppelt haben. Wir hätten also ebenso gut den pemp -Wert für
zweiseitige Tests durch zwei dividieren können.
Zur Interpretation: Wenn es sich um eine echte Zufallsstichprobe handelte und die
Löhne beider Gruppen in der Grundgesamtheit normalverteilt sind und wenn die
Nullhypothese wahr ist, d.h. die Durchschnittslöhne von Männern tatsächlich niedriger oder höchstens gleich hoch sind wie die von Frauen, dann ist die Wahrscheinlichkeit bei einer neuerlichen Ziehung einer Zufallsstichprobe einen mindestens so
extremen Wert temp zu erhalten knapp zwei Prozent.
Linksseitige Tests für Nullyhpothesen H0 : β2 ≥ β0 funktionieren analog, nur ist in
diesem Fall die Fläche links von temp relevant, vergleiche linkes Panel von Abbildung
5.6.
Hinweis: Viele finden einseitige Hypothesentests verwirrend, da man das Vorzeichen
beachten muss. Etwas einfacher wird es in diesem einfachen Fall wenn man beachtet,
dass im Zähler dieser Teststatistik das empirische Analogon zur Nullhypothese in
impliziter Form steht.
• Für eine rechtsseitige Nullhypothese H0 : β − β0 ≤ 0 stellen negative Werte
von temp = (b − β0 )/sβb keine Überraschung dar, selbst kleine positive Werte
sind nicht sehr überraschend, erst große positive Werte sind überraschend und
mit der Nullhypothese schwer vereinbar.
• Umgekehrt, für eine linksseitige Nullhypothese H0 : β − β0 ≥ 0 sind positive
oder selbst kleine negative Werte von temp wenig überraschend, aber große
negative Werte sind bei Gültigkeit der Nullhypothese unwahrscheinlich.
Eine wesentliche Frage blieb in der Fisher Formulierung unbeantwortet, wenn für
eine Hypothese mehrere Teststatistiken zur Verfügung stehen, für welche sollte man
sich entscheiden? Können für die Beurteilung der Güte von Teststatistiken ähnliche
Eigenschaften bzw. Gütekriterien gefunden werden wie für Schätzfunktionen?
Im Bemühen eine Antwort auf diese Frage zu finden gelangten Neyman und Pearson
zu der heute üblichen Formulierung von Hypothesentests.
Angewandte Ökonometrie
5.3.2
24
Hypothesentests nach Neyman-Pearson
Jerzy Neyman (polnischer Mathematiker und Statistiker, 1894 – 1981) und Egon
Pearson (1895 – 1980, Sohn von Karl Pearson) kannten Fisher persönlich und waren
mit seiner Arbeit vertraut. Sie verstanden ihren Ansatz vermutlich als eine logische
Weiterentwicklung von Fishers Ideen.
Für Schätzfunktionen existieren bekanntlich Eigenschaften wie z.B. Effizienz und
Konsistenz. Auf der Suche nach vergleichbaren Gütekriterien für Teststatistiken
stießen Neyman und Pearson auf das Konzept der ‘Power’ (Trennschärfe) von
Tests. Diese Überlegungen führten sie in weiterer Folge zur heute üblichen Form
der Neyman-Pearson Hypothesentests.
Wie schon gesagt bauen Neyman-Pearson Hypothesentests auf den Grundlagen von
Fishers Signifikanztests auf, deshalb bleibt alles wesentliche was wir bisher gehört
haben auch für Hypothesentests nach Neyman-Pearson gültig.
Allerdings kommen für Neyman-Pearson Hypothesentests zwei neue Elemente hinzu
1. Der Nullhypothese wird explizit eine Alternativhypothese HA gegenüber gestellt, die immer richtig ist, wenn die Nullhypothese falsch ist, d.h. H0 und HA
schließen sich gegenseitig aus.
Zur Erinnerung, sowohl Null- als auch Alternativhypothese sind stets Aussagen
über unbeobachtbare Parameter der Grundgesamtheit!
2. Es wird a priori ein Signifikanznveau α festgelegt. Im Unterschied zum p-Wert
von Fisher, der eine Zufallsvariable ist (bzw. eine Realisation davon), ist das
Signifikanznveau α ein Parameter, der von der Forscherin a priori festgelegt
wird.
Durch diese beiden Erweiterungen konnten Neyman-Pearson Hypothesentests als
einfache und eindeutige Entscheidungsregel formulieren, die für jede Stichprobe angibt, ob die Nullhypothese verworfen oder beibehalten werden soll. Diese Entscheidung muss natürlich nicht richtig sein, aber wie wir gleich sehen werden erlaubt die
Methodik eine klare Beurteilung der möglichen Fehler.
Wir werden im Folgenden die Testmethodik nach Neyman-Pearson nur für den denkbar einfachsten Fall vorstellen, für den Test einzelner Koeffizienten eines Regressionsmodells, aber diese Testmethodik ist deutlich allgemeiner und wird uns später in
verschiedensten Formen wieder begegnen.
Die wesentlichen Schritte eines Neyman-Pearson Hypothesentests sind:
Problemanalyse Der erste, wichtigste und meist auch schwierigste Schritt jedes
Hypothesentests sollte ein Nachdenken über den datengenerierenden Prozess
sowie über die dahinter liegenden Gesetzmäßigkeiten sein. Wenn möglich sollte
dieses Nachdenken zu einem formalen (mathematischen) Modell führen. In
diesem Rahmen sind auch die zwei zentralen Fragen jedes ökonometrischen
Arbeitens zu klären, nämlich die Spezifikation und die Identifikation. Fehler,
die hier gemacht werden sind meistens fatal und führen zu ungültigen Tests.
Dieser Schritt ist ist für Fisher ebenso zentral und wichtig wie für NeymanPearson.
Angewandte Ökonometrie
25
Festlegung von Null- und Alternativhypothese Auf Grundlage der theoretischen Überlegungen erfolgt die Formulierung der Nullhypothese H0 sowie der
Alternativhypothese HA . Gleich wie bei Fisher ist es üblich, den befürchteten ‘worst case’ als Nullhypothese zu formulieren. In der Alternativhypothese
findet sich deshalb meist die Anfangsvermutung, bzw. der erhoffte Fall. Nullund Alternativhypothese schließen sich gegenseitig aus, es kann nur eine der
beiden Hypothesen richtig sein. Getestet wird immer die Nullhypothese, und
diese muss so formuliert sein, dass sie das ‘=’ (bzw. ‘≤’ oder ‘≥’) enthält.
Die explizite Formulierung der Alternativhypothese wird sich später als wichtig
erweisen für die Definition des Typ II Fehlers.
Wahl der Teststatistik Häufig stehen für den Test einer Nullhypothese mehr als
eine Teststatistik zur Verfügung. Wir haben bisher erst eine einzige Teststatistik kennen gelernt, nämlich die einfache t-Statistik für den Test eines Regressionskoeffizienten. Wie wir später sehen werden stehen selbst für diese
Teststatistik mehrere Alternativen zur Verfügung, die sich in Bezug auf die
erforderlichen Annahmen unterscheiden. Für diesen Test existieren z.B. eine
Reihe von ‘robusten’ Teststatistiken, die weniger empfindlich sind in Bezug auf
die Verletzung der Gauss Markov Annahme der Homoskedastzität, die aber
nur eine asymptotische Rechtfertigung haben.
Vor der Wahl der Teststatistik sollte man bereits eine Vorstellung davon haben, inwieweit die für den Test erforderlichen Annahmen erfüllt sind. Eine
erste Idee von den zu befürchtenden Problemen sollte man schon in der Nachdenkphase gewonnen haben. In vielen Fällen wird man aber vor der Wahl der
Teststatistik andere vorgeschaltete Tests durchführen, inwieweit bestimmte
Annahmen erfüllt sind, z.B. Tests auf Heteroskedastizität. Auch dieser Schritt
unterscheidet sich nicht von der Vorgangsweise bei Hypothesentests nach Fisher, hingegen ist der nächste Schritt neu.
Festlegung eines Signifikanzniveaus α Im Unterschied zur Testmethodik von
Fisher wird hier a priori eine Wahrscheinlichkeit festgelegt, ab der ein Ereignis
als hinreichend unwahrscheinlich beurteilt wird, so dass man bei Überschreitung dieses Schwellenwertes die Nullhypothese auf jeden Fall verwerfen wird.
Diese Entscheidung wird also bereits vor Durchführung des eigentlichen Tests
getroffen, ab diesem Zeitpunkt wird das Testverfahren gewissermaßen ‘auf Autopilot geschaltet’, wir müssen nur noch die restlichen Schritte nach Vorschrift
ausführen und die resultierende Entscheidung akzeptieren.
Annahme- und Verwerfungsbereich Mit Hilfe dieses Signifikanzniveaus und
der gewählten Teststatistik kann man einen kritischen Wert der Teststatistik
ermitteln. Dies wird in Abbildung 5.7 (Seite 26) für einen zweiseitigen Test
gezeigt. Als hinreichend unwahrscheinlich gilt eine mögliche Realisation einer
Teststatistik, wenn sie bei Gültigkeit der Nullhypothese (und wenn alle weiteren Annahmen erfüllt sind) in weniger als α×100% der möglichen Stichproben
eintritt. Wir suchen also in Abbildung 5.7 den kritischen Wert tcrit
α/2,df , sodass
die gesamte schraffierte Fläche exakt gleich α ist, bei einem zweiseitigen Test
crit
also die Summe der Flächen links von −tcrit
α/2,df und rechts von +tα/2,df gleich α
ist. Dieser kritische Wert kann mit Hilfe der Inversen der Verteilungsfunktion
26
Angewandte Ökonometrie
Stichprobenkennwertverteilung
der Teststatistik t(S)
unter H0
f (t)
a priori festgelegtes Signifikanzniveau α (Fläche)
(1 − α)
−tcrit
α/2
Verwerfungsbereich
0
+tcrit
α/2
Annahmebereich
t(S)
Verwerfungsbereich
Abbildung 5.7: Stichprobenkennwertverteilung der Teststatistik t(S) unter der
H0 : β = β0 . Man beachte, dass die der Grafik zugrunde liegende Information ausschließlich aus der statistischen Theorie folgt,
nicht aus den Stichprobendaten! Erst in einem nächsten Schritt
wird aus der vorliegenden Stichprobe der empirische Wert temp
berechnet und überprüft, ob temp in den Annahme- oder Verwerfungsbereich fällt.
einfach berechnet werden. Steht kein Computer zur Verfügung wird man den
kritischen Wert in einer üblichen Tabelle nachschlagen.
Der kritische Wert der Teststatistik erlaubt eine Unterteilung des Parameterraums in einen Annahme- und Verwerfungsbereich, die sich gegenseitig ausschließen.
Unter dem Parameterraum verstehen wir einfach alle möglichen Werte, die ein
interessierender Parameter prinzipiell annehmen kann. In vielen Fällen wird
dies die Menge der reellen Zahlen R sein. Der Annahme- und Verwerfungsbereich sind sich gegenseitig nicht überlappende Teilmengen des Parameterraums.
Man beachte, dass bisher (mit Ausnahme der Freiheitsgrade) keinerlei Information aus der Stichprobe benötigt wurde. Im Idealfall sollte die Stichprobe
bisher nicht in Bezug auf die Hypothese angesehen worden sein.
Empirische Teststatistik Erst jetzt wird aus der Stichprobe die empirische Teststatistik temp berechnet, indem die vorliegenden Stichprobendaten, d.h. die
Realisationen b2 und sβb2 in die Teststatistik
temp =
b2 − β0
sβb2
eingesetzt werden. Das Resultat ist eine Realisation der Teststatistik, also eine
konkrete Zahl.
Angewandte Ökonometrie
27
Wenn die Nullhypothese wahr ist und alle zugrunde liegenden Annahmen
erfüllt sind würden wir bei wiederholten Stichprobenziehungen erwarten, dass
α × 100 Prozent der derart berechneten Teststatistiken in den Verwerfungsbereich fallen.
Entscheidung Die Entscheidungsregel ist nun sehr einfach, wir müssen nur
noch schauen, ob die eine beobachtete empirische Teststatistik temp in den
Annahme- oder in den Verwerfungsbereich fällt. Liegt die empirische Teststatistik temp im Annahmebereich kann die Nullypothese nicht verworfen werden,
liegt temp hingegen im Verwerfungsbereich wird die Nullhypothese verworfen.
Da sich Annahme- und Verwerfungsbereich gegenseitig ausschießen führt dies
immer zu einer eindeutigen Entscheidung.
Mögliche Fehler Die Entscheidung ist zwar eindeutig, aber sie muss deshalb nicht
richtig sein. Konkret können zwei Arten von Fehler auftreten, nämlich
1. Typ I Fehler: Die Nullhypothese ist tatsächlich wahr, aber wir haben
zufällig eine extreme Stichprobe gezogen, weshalb wir die nach dieser
Entscheidungsregel die Nullhypothese trotzdem verwerfen. Bei wiederholten Stichprobenziehungen sollte dieser Fehler nicht öfter als in α × 100
Prozent der Fälle auftreten.
2. Typ II Fehler: Die Nullhypothese ist tatsächlich falsch, die (erhoffte) Alternativhypothese also richtig, aber die Anwendung der Entscheidungsregel führt dazu, dass wir die Nullhypothese nicht verwerfen.
Wie schon erwähnt spielt der Typ II Fehler in der Testmethodik von Fisher
keine Rolle. Tatsächlich liegt in der Unterscheidung dieser beiden Fehler ein
großer Vorteil der Testmethode von Neyman-Pearson, denn wie wir später
zeigen werden erlaubt dies die Definition der Power (Trennschärfe) eines Tests.
Zusammenfassend enthält ein Hypothesentest nach Neyman-Pearson folgende Elemente
1. Eine Nullhypothese H0 und Alternativhypothese HA , die sich gegenseitig ausschließen.
2. Eine Teststatistik t(S), deren Verteilung unter H0 bekannt ist.
3. Ein a priori gewähltes Signifikanzniveau α, und eng damit zusammenhängend,
ein kritischer Wert der Teststatistik tcrit .
4. Mit Hilfe der Teststatistik und des Signifikanzniveaus wird der Parameterraum
in einen Annahme- und Verwerfungsbereich unterteilt.
5. Eine empirische Teststatistik temp , die man durch Einsetzen der gegebenen
Stichprobe in die Teststatistik erhält (temp ist eine Realisation der Zufallsvariable t(S)).
6. Dies liefert eine einfache Entscheidungsregel: fällt temp in den Annahmebereich
wird die Nullhypothese nicht verworfen, fällt temp in den Verwerfungsbereich
wird die Nullhypothese verworfen.
28
Angewandte Ökonometrie
7. Bei dieser Entscheidung können zwei Arten von Fehler auftreten, Typ I und
Typ II Fehler.
Beispiel: Zur Illustration greifen wir wieder zurück auf unser Beispiel mit den
Stundenlöhnen
StdL
=
12.5
(0.747)***
R2 = 0.359,
+ 2.5 m
(1.057)**
n = 12
(OLS Standardfehler in Klammern)
Außerdem nehmen wir an, dass alle Gauss Markov Annahmen erfüllt sind, z.B. auch
εi ∼ N(0, σ 2 ) (was in diesem Fall eine ziemlich verrückte Annahme wäre).
Die am häufigsten getestete Nullyypothese in Regressionsmodellen ist, dass die Parameter β der Grundgesamtheit Null sind, also keinen Einfluss auf die abhängige
Variable haben.
In diesem Beispiel testen wir
H0 : β2 = 0 gegen die Alternativhypothese HA : β2 6= 0
Dies unterteilt den Parameterraum, d.h. die Menge der reellen Zahlen R, in zwei sich
gegenseitig ausschließende Bereiche, in das Element {0} und in alle andern Elemente
R − {0}.
Als Teststatistik wählen wir (derzeit in Ermangelung besserer Alternativen) die
übliche t(S) Statistik mit n − 2 = 10 Freiheitsgraden
t(S) =
βb2 − β0 H0
∼ tn−2
σ̂βbh
und als Signifikanzniveau α wählen wir alten Traditionen folgend 0.05.
Die Stichprobenkennwertverteilung dieser Teststatistik ist in Abbildung 5.7 abgebildet. Man beachte, dass diese Dichtefunktion mit der Anzahl der Freiheitsgrade
vollständig determiniert ist, es wird keine weitere Information aus der Stichprobe
benötigt.
Auf Grundlage des a priori gewählten Signifikanzniveaus α = 0.05 und der Freiheitsgrade können wir die kritischen t-Werte bestimmen.
Da es sich um eine zweiseitige Hypothese handelt suchen wir den Wert tcrit
α/2,df , bei
welchem links und rechts α/2 ∗ 100% der Fläche abgeschnitten werden.
Dieser kritische Wert kann einfach mit Hilfe der inversen Verteilungsfunktion (auch
Quantilfunktion genannt) bestimmt werden.9 Natürlich können die kritischen Werte
auch in einer üblichen t-Tabelle nachgeschlagen werden.
crit
Mit Hilfe der kritischen Werte können wir den Annahmebereich [−tcrit
α/2 , +tα/2 ] und
crit
die Verwerfungsbereiche [−∞, −tcrit
α/2 ) und (+tα/2 , +∞] festlegen, vgl. Abbildung 5.7.
9
In Stata erhalten Sie für 10 Freiheitsgrade und α/2 = 0.025 mit invttail(10, 0.025) den
kritischen Wert 2.2281389, in R erhalten Sie den gleichen Wert mit qt(0.975, 10), in EViews mit
@qtdist(0.975,10).
29
Angewandte Ökonometrie
In unserem Beispiel mit tcrit
0.025,10 = 2.228 ist der Annahmebereich [−2.228; +2.228]
und die Verwerfungsbereiche sind [−∞; −2.228) und (+2.228; +∞].
Auch dazu benötigen wir, abgesehen von den Freiheitsgraden, keine weiteren Informationen aus der Stichprobe.
Erst im nächsten Schritt verwenden wir die vorliegende Stichprobe um die Schätzungen b2 und sβb2 zu berechnen. Durch Einsetzen dieser Schätzungen und der Vermutung β0 in die Teststatistik erhalten wir den empirischen t-Wert
temp =
2.5 − 0
b2 − β0
=
= +2.365
sβb2
1.057
Im letzten Schritt brauchen wir nur noch zu überprüfen, in welchen Bereich temp
fällt.
• Wenn temp in den Verwerfungsbereich fällt ist entweder ein sehr unwahrscheinliches Ereignis eingetreten, oder die Nullhypothese ist falsch. Da unwahrscheinliche Ereignisse selten sind verwerfen wir die Nullhypothese.
• Wenn temp in den Annahmebereich fällt stehen die Stichprobendaten in keinem
starken Widerspruch zur Nullhypothese, wir können die Nullhypothese nicht
verwerfen.
In diesem Beispiel fällt temp = 2.365 in den Verwerfungsbereich, also werden wir die
Nullhypothese auf einem Signifikanzniveau von 5% verwerfen.
Hinweis: Hätten wir a priori ein Signifikanzniveau von 1% (α = 0.01) festgelegt
hätten wir den kritischen Wert tcrit
0.005,10 = 3.1693 erhalten. Der Akzeptanzbereich für
dieses Signifikanzniveau ist [−3.1693; +3.1693], unsere temp = 2.365 fällt also klar
in diesen Akzeptanzbereich und wir hätten die Nullhypothese auf einem Signifikanzniveau von 1% nicht verwerfen können.
Bemerkung: Manche Lehrbücher legen Wert darauf zu betonen, dass die Nullhypothese nie ‘akzeptiert’ werden sollte, sondern dass man sich mit der schwächeren
Aussage begnügen sollte, dass die Nullhypothese “nicht verworfen” wird. Der Grund
ist einfach, wenn wir zum Beispiel die Vermutung hätten β0 = 0 und der wahre Wert
wäre β2 = 0.0001, dann ist die die Nullhypothese H0 : β0 = 0 falsch, obwohl wir sie
vermutlich nicht verwerfen könnten (zumindest wenn der Standardfehler groß genug
ist). Wir werden diesen Fall unter der Bezeichnung ‘Typ II Fehler’ weiter unten
ausführlich diskutieren.
Bereits R.A. Fisher legte großen Wert darauf zu betonen, dass eine verworfene Nullhypothese nicht impliziert, dass die Alternativhypothese wahr ist. Er schreibt:
“For the logical fallacy of believing that a hypothesis has been proved
to be true, merely because it is not contradicted by the available facts,
has no more right to insinuate itself in statistical than in other kinds of
scientific reasoning. [. . . ] It would, therefore, add greatly to the clarity
with which the tests of significance are regarded if it were generally
understood that tests of significance, when used accurately, are capable
of rejecting or invalidating hypotheses, in so far as the are contradicted
by the data: but that they are never capable of establishing them as
certainly true.” (zitiert nach Salsburg, 2002, 107f)
30
Angewandte Ökonometrie
Beispiel Um die Vorgangsweise noch einmal zu veranschaulichen bringen wir ein
weiteres Zahlenbeispiel.
Gegeben sei folgende Schätzung
ŷi
=
10.45 − 2.48 xi
(4.32)
(1.62)
n = 19, R2 = 0.74
(OLS Standardfehler in Klammern)
1. Problemanalyse
2. Bevor wir die Stichprobe, bzw. die darauf beruhende Regressionsgleichung,
überhaupt anschauen bilden wir die Null- und Alternativhypothese. Die Vermutung unter H0 sei β0 = −2, also
H0 : β2 = −2 gegen HA : β2 6= −2
3. Als Signifikanzniveau legen wir α = 0.05 fest.
4. Wenn εi ∼ N(0, σ 2 ) (oder die Stichprobe sehr groß ist) und alle Gauss Markov
Annahmen erfüllt sind ist gilt unter H0
t(S) =
βb2 − (−2) H0
∼ tn−2
σ̂βb2
5. Dieses Wissen nützen wir um die kritischen Werte in einer t-Tabelle nachzuschlagen. Für 17 (= n − 2) Freiheitsgrade ist tcrit
0.025,17 = 2.1098. Mit Hilfe dieses
kritischen Wertes können wir den Annahme- und Verwerfungsbereich festlegen
Annahmebereich:
Verwerfungsbereich:
[−2.1098, 2.1098]
[−∞, −2.1098) und (+2.1098, +∞]
6. Erst zu diesem Zeitpunkt verwenden wir erstmals die auf der Stichprobe beruhende Schätzung, um den empirischen t-Wert temp zu berechnen
temp =
−2.48 + 2
= −0.2963
1.62
Damit der Test gültig ist müssen u.a. alle Gauss Markov Annahmen erfüllt sein;
insbesondere ist darauf zu achten, dass keine Scheinkorrelationen auftreten.
7. Dieser temp fällt klar in den Annahmebereich, deshalb können wir die Nullhypothese nicht verwerfen!
Übungsbeispiel: Testen Sie für obige Regression nach diesem Schema die Nullhypothese H0 : β1 = 0 auf einem Signifikanzniveau α = 0.01. (Lösung: der empirische
t-Wert temp = 2.42 liegt im Annahmebereich [−2.898, +2.898], die H0 kann also nicht
verworfen werden.)
31
Angewandte Ökonometrie
Einseitige Tests
Einseitige Hypothesentests laufen exakt nach dem gleichen Muster ab, nur in zwei
Details unterscheiden sie sich von zweiseitigen Tests. Erstens liegt der Verwerfungsbereich je nach Richtung der Nullhypothese zur Gänze am linken oder rechten Ende
der Dichtefunktion, deshalb ist ein kritischer Wert α statt α/2 zu wählen, und zweitens ist natürlich das Vorzeichen des empirischen und des kritischen Wertes (temp
und tcrit
α ) zu beachten. Im übrigen gilt, was schon zu einseitigen Tests nach Fisher
gesagt wurde.
Abbildung 5.8 soll den Unterschied zwischen ein- und zweiseitigen Hypothesentests
verdeutlichen. Die obere Abbildung zeigt den bisherigen zweiseitigen Test, die untere Abbildung einen rechtsseitigen Test (d.h. einen Test für H0 : β2 ≤ β0 , wenn
der Verwerfungsbereich am rechten Ende der Verteilung liegt). Wenn die einseitige Hypothese ebenfalls auf einem Signifikanzniveau α getestet werden soll muss
offensichtlich der kritische tcrit
α -Wert gefunden werden, der am betreffenden Ende
α*100% der Fläche abschneidet. Deshalb wird man nicht wie bei zweiseitigen Test
crit
den kritischen Wert tcrit
α/2,df verwenden, sondern tα,df wählen!
Alles weitere unterscheidet sich nicht von der Vorgangsweise bei einem zweiseitigen
Test. Trotzdem wiederholen wir kurz die einzelnen Schritte und verdeutlichen sie
anhand einer einfachen Regression
ŷi
=
10.45 − 2.48 xi
(4.32)
(1.62)
n = 19, R2 = 0.74
(Standardfehler in Klammern)
Wir wollen für diese Regression die Nullhypothese H0 : β2 ≤ −1 (d.h. β0 = −1)
gegen HA : β2 > −1 testen.
1. Formulierung von Alternativ- und Nullhypothese. Vor diesem Schritt sollten
die (theoretischen) Grundlagen gründlich überlegt worden sein, und insbesondere sollte klar sein, welche Rolle diese Hypothesen in einem breiteren Theorierahmen einnehmen.
Rechtsseitig:
H0 :
HA :
Linksseitig:
βh ≤ β0
βh > β0
oder
H0 :
HA :
βh ≥ β0
βh < β0
Hinweis: das ‘gleich’ Zeichen (≥ oder ≤) gehört stets zur Nullhypothese, denn
tatsächlich getestet wird jeweils H0 : βh = β0 .
Beispiel: H0 : β2 ≤ −1 bzw. β2 + 1 ≤ 0 gegen HA : β2 > −1
2. Wahl eines Signifikanzniveaus α.
Beispiel: Wir wählen ein Signifikanznveau von ein Prozent (α = 0.01).
H
3. Bestimmung der Teststatistik und der Freiheitsgrade, z.B. t(·) ∼0 tα,n−2
H
Beispiel: Unter H0 ist t(·) = (βb2 − (−1))/σ̂βb2 ∼0 t0.01,17 .
32
Angewandte Ökonometrie
f (t)
Verwerfungsbereich
Verwerfungsbereich
Annahmebereich
Zweiseitig:
H0 : βh 6= β0
(1 − α)
α/2
−tcrit
α/2
0
α/2
t
tcrit
α/2
f (t)
Rechtsseitig:
H0 : βh ≤ β0
α
(1 − α)
0
t
tcrit
α
Verwerfungsbereich
Annahmebereich
f (t)
Linksseitig:
H0 : βh ≥ β0
(1 − α)
α
−tcrit
α
Verwerfungsbereich
t
0
Annahmebereich
Abbildung 5.8: Zweiseitiger und links- bzw. rechtsseitiger Test mit gleichem Signifikanzniveau α.
33
Angewandte Ökonometrie
4. Ermitteln des kritischen Werts tcrit
α aus dieser Verteilung für n−2 Freiheitsgrade mittels einer t-Tabelle und Bestimmung des Annahme- und Verwerfungsbereichs.
Annahmebereich:
Verwerfungsbereich:
H0 : βh ≤ β0
HA : βh > β0
H0 : βh ≥ β0
HA : βh < β0
[−∞, +tcrit
α ]
crit
(+tα , +∞]
[−tcrit
α , +∞]
[−∞, −tcrit
α )
Hinweis: Als Merkhilfe können Sie sich einprägen, dass der Verwerfungsbereich
stets zur Gänze im Bereich der Alternativhypothese liegt!
Beispiel: Für 17 Freiheitsgrade und ein α = 0.01 ist der kritische t-Wert
tcrit
0.01,17 = 2.5669.
Für H0 : β2 ≤ −1 ist der Annahmebereich [−∞, 2.5669] und der Verwerfungsbereich (2.5669, +∞].
5. Berechnung des empirischen Werts der Teststatistik, z.B. aus der auf einer
Stichprobe beruhenden Schätzung
temp =
bh − β0
sβbh
Vorher sollte überprüft werden, ob alle Gauss Markov Annahmen erfüllt sind
(insbesondere (korrekte Spezifikation, unverzerrte Stichprobe, etc.)!
Man beachte, dass sich dieser temp Wert für einseitige Tests nicht vom entsprechenden temp Wert für zweiseitige Tests unterscheidet!
Beispiel: Es genügt wieder β2 = −1 zu testen, denn wenn dies verworfen werden kann, kann für jedes β2 auch β2 < −1 verworfen werden. Nachdem wir uns
versichert haben, dass alle Gauss Markov Annahmen erfüllt sind, berechnen
wir die empirische Teststatistik temp = [−2.48 − (−1)]/1.62 = −0.9136.
6. Überprüfen, ob der empirische Wert der Teststatstik in den Annahme- oder den
Verwerfungsbereich fällt, und dementsprechend die H0 verwerfen oder nicht
verwerfen.
Beispiel: temp = −0.9136 fällt in den Annahmebereich [−∞, 2.5669], deshalb
kann die H0 : β2 ≤ −1 auf einem Signifikanzniveau α = 0.01 nicht verworfen
werden.
Hinweis: Wir haben schon früher erwähnt, dass Forscher häufig an einer einseitigen Nullhypothese interessiert sind, aber trotzdem wird meistens des Ergebnis eines
zweiseitigen Tests angegeben. Der Grund ist einfach, wenn die empirische Teststatistik auf der ‘richtigen’ Seite der Dichtefunktion liegt (also das erwünschte Vorzeichen
aufweist) und die zweiseitige H0 : β2 = 0 verworfen werden kann, dann kann immer
auch die einseitige H0 : β2 ≤ 0 verworfen werden. Das ist aus Abbildung 5.8 (Seite
32) unmittelbar ersichtlich.
Angewandte Ökonometrie
5.3.3
34
Konfidenzintervalle, Fishers p-Wert und Neyman
Pearsons Signifikanzniveau
Konfidenzintervalle, p-Werte und die Entscheidungsregel nach Neyman-Pearson beruhen letztendlich alle auf der gleichen Information, deshalb ist es wenig verwunderlich, dass sie alle zu ähnlichen Schlussfolgerungen führen und in einem gewissen
Sinne auch austauschbar sind.
Wenn wir z.B. ein 1 − α Konfidenzintervall für θ̂ zeichnen, und der Wert θ0 der
H0 : θ = θ0 innerhalb dieses Konfidenzintervalls liegt, so können wir diese H0 nicht
ablehnen, wenn θ0 aber außerhalb dieses Konfidenzintervalls liegt werden wir die H0
ablehnen.
Ähnlich verhält es sich mit den p-Werten. Wenn wir Fishers p-Wert für einen Hypothesentest nach Neyman-Pearson heranziehen wollen brauchen wir nur zu überprüfen, ob der empirische p-Wert größer oder kleiner als das vorher festgelegt Signifikanzniveau α ist. In diesem Fall gibt uns der p-Wert die zusätzliche Information,
‘wie stark’ die Nullhypothese abgelehnt (bzw. akzeptiert) wurde.
Allerdings sollte dies nicht darüber hinweg täuschen, dass diese Methoden für unterschiedliche Zielsetzungen entwickelt wurden. Konfidenzintervalle sollten uns in
erster Linie Information über die Genauigkeit von Schätzern geben, während Hypothesentests uns erlauben zu überprüfen, inwieweit eine a priori vermutete Hypothese
mit den beobachteten Stichprobendaten kompatibel ist.
Die Unterscheidung zwischen der Methodologie von Fisher und der von NeymanPearson erfolgte hier eher aus pädagogischen Gründen, die meisten Lehrbücher
präsentieren eine Hybridform dieser beiden Testmethoden (für eine Diskussion siehe
z.B. Gigerenzer et al., 1990).
Dem war aber nicht immer so, wie schon erwähnt konnte sich Fisher bis zu seinem Lebensende nicht mit der Methode von Neyman-Pearson anfreunden und sah
zwischen diesen beiden Methoden unüberbrückbare Gegensätze. Fisher schreibt
“Moreover, it is a fallacy, so well known as to be a standard example, to
conclude from a test of significance that the null hypothesis is thereby
established; at most it may be said to be confirmed or strengthened. In
an acceptance procedure, on the other hand, acceptance is irreversible,
whether the evidence for it was strong or weak. It is the result of applying mechanically rules laid down in advance; no thought is given to
the particular case, and the tester’s state of mind, or his capacity for
learning, is inoperative. By contrast, the conclusions drawn by a scientific worker from a test of significance are provisional, and involve an
intelligent attempt to understand the experimental situation.” (Fisher,
1955, 73f)
Historisch gesehen hat sich die Vorgangsweise von Neyman-Pearson weitgehend gegenüber Fisher durchgesetzt, und Fishers p-Wert wird heute vielfach für Tests im
Sinne von Neyman-Pearson verwendet, indem er mit einem vorgegebenen α verglichen wird.
35
Angewandte Ökonometrie
Aber es gibt auch kritische Stimmen, Spanos (1999, 720ff) argumentiert zum Beispiel, dass sich die Methode von Neyman-Pearson v.a. für klar strukturierte Probleme eignet, während die Methode von Fisher besser geeignet sei für offenere und
breitere Fragestellungen, wie z.B. Spezifikationstests.
Im Folgenden werden wir einige weitere Teststatistiken vorstellen, die uns das Testen
komplexerer Hypothesen ermöglichen. Die grundsätzliche Methodologie bleibt dabei
völlig gleich, das heißt, die folgenden Tests können wieder nach der Methode von
Fisher oder nach Neyman und Pearson durchgeführt werden.
5.4
t-Test für eine Linearkombination von Parametern
Wir haben bisher nur t-Tests für einzelne Regressionskoeffizienten durchgeführt.
Die Vorgangsweise lässt sich aber einfach für Tests einer Linearkombination von
mehreren Regressionskoeffizienten verallgemeinern.
Beginnen wir mit einer einfachen PRF:
yi = β1 + β2 xi2 + β3 xi3 + εi
Wenn wir zum Beispiel testen möchten, ob die Summe von β2 und β3 den Wert Eins
hat, lauten Null- und Alternativhypothese
H0 : β2 + β3 = 1 gegen HA : β2 + β3 6= 1
Dies ist ein sehr spezieller Fall von Null- und Alternativhypothese.
Lineare zweiseitige Nullhypothesen können etwas allgemeiner geschrieben werden
Etwas allgemeiner können zweiseitige Null- und Alternativhypothesen für dieses
einfache Modell geschrieben werden als
H0 : c1 β2 + c2 β3 = β0
HA : c1 β2 + c2 β3 6= β0
wobei c1 , c2 und β0 ∈ R unter der Nullhypothese vermutete Parameter sind.
Sollte z.B. getestet werden, ob die Parameter β2 und β3 den gleichen Wert haben,
würden wir c1 = +1, c2 = −1 und β0 = 0 wählen, denn daraus folgt H0 : β2 −β3 = 0,
bzw. β2 = β3 .
Wenn wir testen möchten, ob β3 nur halb so groß ist wie β2 , aber ein unterschiedliches
Vorzeichen hat, würden wir c1 = 1, c2 = 2 und β0 = 0 setzen, denn daraus folgt
H0 : β2 + 2β3 = 0, bzw. β2 = −2β3 .
Auf diese Weise lassen sich beliebige lineare Nullhypothesen testen, die zwei oder
auch mehrere Parameter betreffen. Allerdings können auf diese Weise nur einzelne
Hypothesen getestet werden, einen simultanen Test mehrerer Hypothesen werden
wir erst im nächsten Abschnitt kennen lernen.
Das Testprinzip für eine einzelne lineare Hypothese, die mehrere Parameter betrifft,
ist einfach: wenn die Nullhypothese wahr ist gilt in der Grundgesamtheit
c1 β2 + c2 β3 − β0 = 0
36
Angewandte Ökonometrie
Selbst wenn dies in der Grundgesamtheit exakt gilt müssen wir in der Stichprobe
damit rechnen, dass aufgrund von Zufallschwankungen dieser Zusammenhang nicht
exakt erfüllt ist, also
c1 βb2 + c2 βb3 − β0 = v
wobei die Zufallsvariable v ‘relativ nahe’ bei Null liegen sollte, wenn die Nullhypothese wahr ist. Man beachte, dass v eine Linearkombination der Zufallsvariablen
βb2 und βb3 ist. Wenn βb2 und βb3 normalverteilt sind, dann ist auch v normalverteilt.
Außerdem ist bei Gültigkeit der Nullhypothese E(v) = 0. Um eine Teststatistik zu
erhalten brauchen wir also nur durch den Standardfehler von v zu dividieren. Da
v eine Linearkombination der Zufallsvariablen βb2 und βb3 ist gestaltet sich dies sehr
einfach, wir brauchen nur die Rechenregel für das Rechnen mit Varianzen anzuwenden10
var(v)
c
= var(c
c 1 βb2 ± c2 βb3 − β0 ) = c21 var(
c βb2 ) + c22 var(
c βb3 ) ± 2c1 c2 cov(
c βb2 , βb3 )
Wir haben bisher zwar nur für das bivariate Modell einen Schätzer für die Kovarianz
zwischen Interzept und Steigungskoeffizient, d.h. cov(
c βb1 , βb2 ), des bivariaten Modells
hergeleitet, aber wir werden im Kapitel zur Matrixschreibweise zeigen, dass auch
die Kovarianzen zwischen Steigungskoeffizienten ähnlich einfach berechnet werden
können. Die üblichen Programme geben die Varianz-Kovarianzmatrix der Koeffizienten zwar nicht unmittelbar aus, aber man kann einfach mit den entsprechenden
Befehlen darauf zugreifen.11
Da die Varianz des Nenners aus der Stichprobe berechnet werden muss ist die Teststatistik12
v
=q
se(v)
b
c21
c1 βb2 ± c2 βb3 − β0
var(
c βb2 ) + c22 var(
c βb3 ) ± 2c1 c2 cov(
c βb2 , βb3 )
H0
∼ tn−k
unter H0 t-verteilt mit n − k Freiheitsgraden.
Diese Teststatistik (t) hat die Form
t=
Empirisches Analogon zur H0 in impliziter Form H0
∼ tn−k
Standardfehler vom Zähler
Dies ist offensichtlich nur eine kleine Erweiterung der üblichen Tests für einen Koeffizienten für Fälle, in denen eine Hypothese über eine Linearkombination von zwei
(oder mehreren) Koeffizienten getestet werden soll.
Mit Hilfe dieser Teststatistik kann wieder der p-Wert à la Fisher berechnet werden,
oder eine Entscheidung nach der Methode Neyman und Pearson gefällt werden.
10
var(c0 + c1 x ± c2 y) = E[(c0 + c1 x ± c2 y) − E(c0 + c1 x ± c2 y)]2 = c21 var(x) + c22 var(y) ±
2c1 c2 cov(x, y).
11
In EViews erhält man die geschätzte Varianz-Kovarianzmatrix der Koeffizienten mit der Funktion @coefcov; in Stata mit dem postestimation Befehl e(V); in R mit vcov(...).
12
Dieser Test ist ein Spezialfall eines Wald Tests, der 1943 von dem Mathematiker Abraham
Wald entwickelt wurde.
37
Angewandte Ökonometrie
Beispiel: Angenommen wir erhalten folgende Schätzung einer Cobb-Douglas Produktionsfunktion und möchten testen, ob konstante Skalenerträge vorliegen.13
log(Q) =
2.481
(0.129)***
+
0.64 log(K) + 0.257 log(L)
(0.035)***
(0.027)***
R2 = 0.942,
n = 25
(OLS Standardfehler in Klammern)
Die dazugehörige Varianz-Kovarianzmatrix der Koeffizienten (Coefficient Covariance Matrix ) ist14
b1
b1
b2
b3
b2
b3
0.016543 −0.002869 −0.003187
−0.002869
0.001206
0.000300
−0.003187
0.000300
0.000727
Bei Cobb-Douglas Funktionen liegen konstante Skalenerträge vor, wenn β2 + β3 = 1.
Die Nullhypothese ist also
H0 : β2 + β3 = 1
(diese Hypothese ist ein Spezialfall von H0 : c1 β2 + c2 β3 = β0 mit c1 = c2 = β0 = 1)
Die entsprechende t-Statistik ist deshalb
temp = q
b2 + b3 − 1
var(b
c 2 ) + var(
c βb3 r) + 2 cov(b
c 2 , b3 )
0.640 + 0.257 − 1
= √
0.001206 + 0.000727 + 2 × 0.000300
−0.10255
= √
= −2.037595955
0.002533
Der kritische t-Wert für einen zweiseitigen Test mit n − k = 22 Freiheitsgraden ist
tcrit
0.025,22 = 2.0739, deshalb können wir die Nullhypothese konstanter Skalenerträge
(sehr knapp) nicht verwerfen.
Um den p-Wert zu berechnen benötigt man den Wert der Verteilungsfunktion.
Wenn wir mit Φ(x, q) den Wert der Verteilungsfunktion einer t-Verteilung mit
q Freiheitsgraden an der Stelle x bezeichnen errechnet sich der p-Wert als p =
2(1 − Φ(+2.037595955, 22)) = 0.05379.15
13
Eine Cobb-Douglas Funktion hat die Form Q = AK β2 Lβ3 . Durch Logarithmieren erhält man
eine in den Parametern lineare Funktion ln(Q) = β1 + β2 ln(K) + β3 ln(L), mit β1 = ln(A) die
einfach mit OLS geschätzt werden kann.
14
In EViews erhält man die geschätzte Varianz-Kovarianzmatrix der Koeffizienten mit der Funktion @coefcov; in Stata mit dem postestimation Befehl e(V); in R mit vcov.
15
In EViews ist der Befehl dazu coef p = 2*(1-@ctdist(@abs(-2.037596),22)); in Excel
erhalten Sie den p-Wert mit der Funktion ‘=TVERT(ABS(-2.037595955);22;2)’
Angewandte Ökonometrie
38
Code zum Beispiel* Solche Tests sind in fast allen Statistik- und Ökonometrieprogrammen fix implementiert, aber man kann sie auch einfach programmieren.
Zum Beispiel öffnet der folgende EViews Code die Excel Tabelle mit den
Daten und berechnet den dazugehörigen p-Wert16 (die Daten können unter
www.uibk.ac.at/econometrics/data/prodfunkt.xls heruntergeladen werden).
EViews:
wfopen "http://www.uibk.ac.at/econometrics/data/prodfunkt.xls"
equation CD.ls log(Q) c log(K) log(L)
scalar t_Stat = (c(2) + c(3) - 1)/@sqrt(CD.@coefcov(2,2) _
+ CD.@coefcov(3,3) + 2*CD.@coefcov(2,3) )
scalar pval = 2*(1 - @ctdist(@abs(t_Stat),22))
’ oder einfacher
CD.wald c(2) + c(3) = 1
R:
rm(list=ls(all=TRUE))
CD <- read.table("https://www.uibk.ac.at/econometrics/data/prodfunkt.csv",
dec = ".", sep=";", header=TRUE)
eq1 <- lm(log(Q) ~ log(K) + log(L), data = CD)
tstat <- (coef(eq1)[2] + coef(eq1)[3] - 1) /
sqrt(vcov(eq1)[2,2] + vcov(eq1)[3,3] + 2*vcov(eq1)[2,3])
pval <- 2*(1-(pt(abs(tstat),22)))
# oder einfacher
library(car)
linearHypothesis(eq1, "log(K) + log(L) = 1")
Stata:
insheet using "https://www.uibk.ac.at/econometrics/data/prodfunkt.csv", ///
delim(";") names clear
generate logQ = log(q)
generate logK = log(k)
generate logL = log(l)
regress logQ logK logL
matrix V = e(V)
scalar tstat = (_b[logK] + _b[logL] - 1) / ///
sqrt( V[1,1] + V[2,2] + 2*V[1,2])
display "t-statistic: " tstat
display "p-value: " 2*ttail(22,abs(tstat))
* oder einfacher
test logK + logL = 1
16
Selbstverständlich kann dieser Test in EViews weit einfacher durchgeführt werden, dieses Progrämmchen dient nur didaktischen Zwecken.
39
Angewandte Ökonometrie
Exkurs:* Eine alternative und manchmal einfachere Möglichkeit eine einzelne Hypothese für eine Linearkombination von Parametern zu testen besteht darin, ein geeignet transformiertes Modell zu schätzen. Im wesentlichen wird dabei eine geeignete
Form der Nullhypothese in die zu schätzende Gleichung substituiert.
Im obigen Produktionsfunktionsbeispiel lautet die Nullhypothese H0 : β2 + β3 = 1.
Wir definieren einen neuen Parameter θ = β2 + β3 − 1. Mit dieser Definition kann
die Nullhypothese geschrieben werden als
H0 : θ = 0 gegen
H1 : θ 6= 0
und diese kann mit der t-Statistik t = θ̂/σ̂θ̂ einfach getestet werden, wobei θ̂ die
Schätzfunktion für θ bezeichnet.
Der Trick besteht darin, die Regressionsgleichung entsprechend umzuschreiben, dass
auch der dazugehörige Standardfehler direkt aus dem Regressionsoutput abgelesen
werden kann (vgl. Wooldridge, 2012, 134f).
Aus θ = β2 + β3 − 1 folgt β2 = θ + 1 − β3 , und dies kann in die zu schätzende
Gleichung substituiert werden
log(Q) = β1 + β2 log(K) + β3 log(L) + ε
= β1 + (θ + 1 − β3 ) log(K) + β3 log(L) + ε
= β1 + (θ + 1) log(K) + β3 [log(L) − log(K)] + ε
Diese Gleichung kann mit OLS geschätzt werden und gibt
log(Q) = βb1 + (θ̂ + 1) log(K) + βb3 [log(L) − log(K)] + ε̂
Man beachte, dass dazu eine neue Variable [log(L) − log(K)] gebildet werden muss.
Da var(θ̂ + 1) = var(θ̂) kann der Standardfehler von θ̂ direkt aus diesem Regressionsoutput abgelesen werden.17
Für das obige Beispiel erhalten wir
Dependent Variable: log(Q)
Variable
Coefficient Std. Error t-Stat. Prob.
C
βb1 2.481
0.1290 19.290 0.000
log(K)
θ̂ + 1 0.897
0.0503 17.831 0.000
b
log(L)-log(K)
β3 0.257
0.0270
9.545 0.000
R-squared
0.942 S.E. of regression
Included observations: 25
0.092
Die entsprechende t-Statistik ist wieder
t=
θ̂
0.897 − 1
=
= −2.03759
σ̂θ̂
0.0503
wir erhalten natürlich den gleichen Wert wie vorhin. Da der kritische Wert nach
wie vor tcrit = 2.0739 ist kommen wir natürlich auch zur gleichen Schlussfolgerung,
17
Wir erinnern uns: var(a + X) = var(X) wenn a konstant.
40
Angewandte Ökonometrie
d.h. wir können die Nullhypothese (knapp) nicht verwerfen. Beide Methoden führen
natürlich zum gleichen Ergebnis.
Übung: Wie würden Sie für das Modell y = β1 + β2 x2 + β3 x3 + ε die Nullhypothese
β2 = β3 testen? Zeigen Sie dies für für das Beispiel mit der Cobb-Douglas Funktion
(Lösung: temp = 10.48477, p-Wert = 0.0000).
Eine große Einschränkung dieses Tests besteht darin, dass er nicht für den Test
mehrerer Hypothesen verwendet werden kann. Zum Beispiel können wir damit nicht
die Nullhypothese H0 : β2 = 0 und β3 = 0 simultan testen.
Im Folgenden werden wir nun einige Tests kennen lernen, mit deren Hilfe mehr als
eine Hypothese simultan getestet werden kann, z.B. eine Nullhypothese H0 : β2 = 0
und β3 = 0. Wir werden sehen, dass solche Tests sehr häufig auf der (nach R. Fisher
benannten) F-Verteilung beruhen. Die Art der Tests, die wir nun vorstellen werden, sind ein Spezialfall einer ganzen Testfamilie, die in der Statistik als Wald-Tests
bekannt sind.18 Im nächsten Abschnitt werden wir einen Test auf die den gemeinsamen Erklärungsgehalt aller erklärenden Variablen vorstellen, die sogenannte ‘F-total
Statistik’.
5.5
ANOVA-Tafel und die F-total Statistik
Wir erinnern uns, dass wir für die Herleitung des Bestimmtheitsmaßes R2 folgende
Streuungs-Zerlegung vornahmen
X
X
X
(ŷi − ȳ)2 +
ε̂2i
(yi − ȳ)2 =
{z
} |
{z
} | {z }
|
TSS
ESS
SSR
wobei TSS für ‘Total Sum of Squares’, ESS für ‘Explained Sum of Squares’ und SSR
für ‘Sum of Squared Residuals’19 steht.
Dies führt zu folgender ANOVA-Tafel (‘ANalysis Of VAriance Table’ )
Sum of
Squares
Regression
Residuen
Total
ESS
SSR
TSS
df
k−1
n−k
n−1
Mean
Square
ESS/(k − 1)
SSR/(n − k)
wobei df für ‘degrees of freedom’ (Freiheitsgrade) steht.
Mit Hilfe der ANOVA-Tafel, die von den vielen Statistik-Programmen ausgegeben
wird, kann man eine F -Statistik für die Nullhypothese
H0 : β2 = β3 = · · · = βk = 0
18
Dieses Testprinzip ist nach Abraham Wald (1902 – 1950) benannt, ein aus Siebenbürgen stammender deutschsprachiger Mathematiker und einer der bedeutendsten Statistiker des 20. Jahrhunderts. Neben Wald Tests spielen in der Statistik v.a. Likelihood-Ratio Tests und Lagrange-Multiplier
Tests eine wichtige Rolle.
19
Manchmal wird dafür auch RSS für ‘Residual Sum Squared’ geschrieben.
41
Angewandte Ökonometrie
konstruieren; das heißt für die Nullhypothese, dass alle Koeffizienten mit Ausnahme
des Interzepts β1 simultan gleich Null sind, oder in anderen Worten, dass alle k −
1 Steigungskoeffizienten simultan gleich Null sind. Eine andere Möglichkeit diese
Nullhypothese zu interpretieren ist
H0 :
E(y|x2, . . . , xk ) = E(y)
wenn der bedingte Erwartungswert von y gleich dem unbedingten Erwartungswert
ist leisten die erklärenden Variablen auch gemeinsam keinen Erklärungsbeitrag. In
diesem Falle erklärt eine Regression auf die Regressionskonstante y = β1 + ε die
Daten gleich gut wie die ‘lange’ Regression y = β1 + β2 x2 + · · · + βk xk + ε.
Die Alternativhypothese ist
HA : mindestens einer der Steigungskoeffizienten ist ungleich Null
Wenn diese Nullhypothese wahr ist, sollten alle x Variablen auch gemeinsam keinen
Erklärungsbeitrag für y leisten.
Wenn die Störterme der Grundgesamtheit
normalverteilt sind ist bei Zutreffen der
P
2
2
2
Nullhypothese die Quadratsumme
i (ŷi − ȳ) /σ bekanntlich χ -verteilt mit k − 1
P 2 2
Freiheitsgraden, und i ε̂i /σ unabhängig davon χ2 -verteilt mit n − k Freiheitsgraden. Das Verhältnis zweier unabhängig χ2 verteilten Zufallsvariablen, die beide
durch die entsprechenden Freiheitsgrade dividiert wurden, ist F-verteilt (vgl. Statistischen Appendix), deshalb ist die Teststatistik
P
(ŷi − ȳ)2 n − k
ESS/(k − 1) H0
=
∼ F(k−1,n−k)
F -total Statistik = iP 2
k−1
SSR/(n − k)
i ε̂i
F-verteilt mit k − 1 Zähler- und n − k Nennerfreiheitsgraden.
Wenn die durch alle erklärenden x Variablen gemeinsam erklärte Streuung ESS sehr
klein ist im Verhältnis zur unerklärten Streuung SSR würde man einen sehr kleinen
Wert der empirischen Statistik F emp erwarten. Wenn umgekehrt ESS groß ist im
Verhältnis zu SSR leisten alle x Variablen gemeinsam offensichtlich einen großen
Erklärungsbeitrag.
Die Nullhypothese β2 = β3 = · · · = βk = 0 wird deshalb verworfen, wenn der empirische Wert dieser F -Statistik größer ist als der kritische Wert F crit der F -Statistik,
vgl. Abbildung 5.9. Fällt der empirische F emp -Wert in den Verwerfungsbereich wird
H0 verworfen, anderenfalls akzeptiert.
Der zur F -total Statistik gehörende p-Wert ist wieder die Fläche unter der Verteilung
rechts vom berechneten F emp -Wert, und wird standardmäßig von allen statistischen
Programmpaketen ausgewiesen.
Das Programm STATA liefert z.B. den in Tabelle 5.2 wiedergegebenen Regressionsoutput für das Beispiel mit der Produktionsfunktion; im Kopf des Outputs wird die
komplette ANOVA-Tafel wiedergegeben.
Dabei ist Model SS die ESS (‘Explained Sum of Squares’), die Residual SS die SSR
(‘Sum of Squared Residuals’) und Total SS die TSS (‘Total Sum of Squares’).
Für Produktionsfunktions-Beispiel folgt (siehe Tabelle 5.2)
3.01454182/(3 − 1)
= 177.2195
0.187112359/(25 − 3)
EViews und R geben die ESS und TSS nicht automatisch aus, sondern nur die
F -Statistik mit dem dazugehörigen p-Wert.
F -total Stat =
42
Angewandte Ökonometrie
f (F )
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1
2
F crit 3
Akzeptiere H0
4
5
F
Verwirf H0
Abbildung 5.9: F -Test nach Neyman-Pearson (mit 3 Zähler- und 12 Nennerfreiheitsgraden
Tabelle 5.2: STATA Output
Source |
SS
df
MS
----------+-----------------------------Model | 3.01454182
2 1.50727091
Residual | .187112359
22 .008505107
----------+-----------------------------Total | 3.20165418
24 .133402257
Number of obs
F( 2,
22)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
25
177.22
0.0000
0.9416
0.9362
.09222
--------------------------------------------------------------------------log_Q |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------const |
2.481079
.1286189
19.29
0.000
2.21434
2.747819
log_K |
.6401108
.0347308
18.43
0.000
.5680835
.7121381
log_L |
.2573354
.0269591
9.55
0.000
.2014256
.3132451
---------------------------------------------------------------------------
43
Angewandte Ökonometrie
Exkurs* Diese F -total Statistik kann alternativ auch mit Hilfe des Bestimmtheitsmaßes R2 berechnet werden, denn unter Berücksichtigung von TSS = ESS + SSR
und R2 = ESS/TSS
F -total Stat =
=
=
=
=
ESS/(k − 1)
SSR/(n − k)
n − k ESS
k − 1 SSR
n−k
ESS
k − 1 TSS − ESS
ESS/TSS
n−k
k − 1 1 − (ESS/TSS)
n−k
R2
k − 1 1 − R2
Also
F -total Stat =
R2 /(k − 1)
(1 − R2 )/(n − k)
Die Alternativhypothese, dass zumindest für einen der Regressoren der wahre Wert
des Regressionskoeffizienten von Null verschieden ist, wird akzeptiert, wenn die Nullhypothese H0 : β2 = β3 = · · · = βk = 0 (d.h. dass alle Koeffizienten mit Ausnahme
des Interzepts β1 gleich Null sind) verworfen wird.
Man beachte, dass es sich dabei um einen simultanen Test von insgesamt k − 1
Hypothesen handelt, wobei k − 1 die Anzahl der Steigungskoeffizienten ist.
Dies ist also ein Test, ob alle Regressoren gemeinsam einen Beitrag zur ‘Erklärung’
von y leisten. Wenn der p-Wert dieser F -Statistik größer ist als das a priori festgelegte
Signifikanzniveau sollte die Schätzung verworfen werden.
Dieser F -total Test wird häufig auch einfach F -Test genannt, zum Beispiel im Regressionsoutput fast jeder Statistiksoftware, was aber etwas verwirrend ist, da jede
F -verteilte Teststatistik zu einem F -Test führt, und davon gibt es viele.
Achtung: Man beachte, dass es nicht reicht zu überprüfen, ob alle Koeffizienten
individuell signifikant von Null verschieden sind. Es ist sehr gut möglich, dass kein
einziger Koeffizient signifikant von Null verschieden ist, dass aber alle Koeffizienten
gemeinsam trotzdem signifikant von Null verschieden sind! Wie wir später sehen
werden tritt dieser Fall bei Multikollinearität (d.h. wenn die erklärenden Variablen
untereinander hoch korreliert sind) relativ häufig auf.
Konkret, die mit der F -Statistik getestete gemeinsame Nullhypothese H0 : β2 =
β3 = · · · = βk = 0 darf nicht durch eine Reihe individueller t-Tests ersetzt werden!
Der Grund dafür liegt darin, dass die F -Statistik die mögliche Korrelation zwischen
den OLS-Schätzern βb2 , βb3 , . . . , βbk berücksichtigt, während diese bei individuellen tTests unberücksichtigt bleibt.
Dies wird in Abbildung 5.10 veranschaulicht, die zwei bivariate Normalverteilungen
zeigt, links ohne und rechts mit einer Korrelation zwischen den Zufallsvariablen.
44
Angewandte Ökonometrie
ρ = −0.7:
ρ = 0:
Abbildung 5.10: Bivariate Normalverteilungen ohne und mit Korrelation zwischen
den Zufallsvariablen
Wenn die Variablen unkorreliert sind (linke Grafik) wird die gemeinsame Signifikanz durch einen Signifikanzkreis dargestellt, bei Korrelation zwischen den Variablen (rechte Grafik) durch eine Konfidenzellipse, die umso schmaler wird, je höher
die Korrelation ist.
Wir werden später sehen, dass viele der üblichen Teststatistiken für den simultanen
Test mehrerer Hypothesen unter den Standardannahmen F -verteilt sind. Sollten
z.B. im Modell
yi = βb1 + βb2 xi2 + βb3 xi3 + ε̂i
die beiden Koeffizienten βb2 und βb3 simultan getestet werden, so kann man die folgende Teststatistik verwenden:
i
1 h
H
F = 2 S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) + S33 (βb3 − β3 )2 ∼0 F2,n−3
2σ̂
mit
S22 =
X
i
S23 =
X
i
S33 =
X
i
(xi2 − x̄·2 )2
(xi2 − x̄·2 )(xi3 − x̄·3 )
(xi3 − x̄·3 )2
Diese Teststatistik ist unter H0 F -verteilt mit 2 Zähler- und n−3 Nennerfreiheitsgraden. Diese F -Statistik kann für die Konstruktion einer Konfidenzregion verwendet
werden.
Wenn wir mit F crit den kritischen F -Wert mit 2 Zähler- und n − 3 Nennerfreiheitsgraden bezeichnen ist diese Konfidenzregion
h
i
S22 (βb2 − β2 )2 + 2S23 (βb2 − β2 )(βb3 − β3 ) + S33 (βb3 − β3 )2 ≤ F crit(2σ̂ 2 )
Dies definiert eine Ellipsengleichung, das heißt, bei dem simultanen Test zweier
Koeffizienten erhält man anstelle eines Konfidenzintervalls eine Konfidenzellipse.
45
Angewandte Ökonometrie
Sind die Koeffizienten βb2 und
höher die Korrelation zwischen
βb3 unkorreliert erhält man einen Kreis, und umso
βb2 und βb3 ist, umso schmaler ist die Ellipse.
Werden mehr als zwei Hypothesen gleichzeitig getestet erhält man ein höherdimensionales Ellipsoid.
Beispiel: Das folgende Beispiel zeigt einen Fall, bei dem die F -Statistik die gemeinsame Nullhypothese β2 = β3 = 0 ablehnt, die individuellen t-Tests einzeln aber
weder die Ablehnung von β2 = 0 noch von β3 = 0 erlauben (auf dem 5% Niveau).
y
=
7.888 +
(5.028)
0.2 x2
(0.28)
+
0.634 x3
(0.344)*
F-Statistik (df: 2, 47): 34.95, p-Wert: 5.023e-10
R2 = 0.598,
n = 50
Die F -Statistik für die Nullhypothese H0 : β2 = 0 und β3 = 0 ist in diesem Beispiel
34.95 und kann damit mit einer Wahrscheinlichkeit kleiner als 0.0001 verworfen
werden. In diesem Beispiel sind die Regressoren x2 und x3 hoch korreliert, d.h. es
liegt Multikollinearität vor (der Korrelationskoeffizient zwischen x2 und x3 ist 0.95!),
was auch zu einer Korrelation zwischen den geschätzten Koeffizienten führt.
Die geschätzte Varianz-Kovarianzmatrix der Koeffizienten ist
b1
b1
b2
b3
b2
b3
25.27815
0.308261 −0.808990
0.308261
0.078356 −0.091832
−0.808990 −0.091832
0.118481
√
deshalb ist die Korrelation corr(βb2 , βb3 ) = −0.0918/ 0.0784 ∗ 0.1185 = −0.953.
Aufgrund dieser Korrelation ist die Konfidenzellipse in Abbildung 5.11 ziemlich
schmal. Die Konfidenzintervalle für βb2 und βb3 einzeln sind in Abbildung 5.11 strichliert eingezeichnet.
Zur Interpretation von Konfidenzellipsen gilt analoges wie für Konfidenzintervalle, wenn sehr viele Stichproben gezogen würden könnten wir damit rechnen, dass
(1 − α) ∗ 100% der resultierenden Konfidenzregionen die wahren Werte β2 und β3
enthalten würden.
Erinnern wir uns, dass es eine enge Beziehung zwischen Konfidenzintervallen und
Hypothesentests gibt. Wenn wir den unter der Nullhypothese vermuteten Wert des
′
Parameters h mit βh,0
bezeichnen (für h = 1, . . . , k), kann die Nullhypothese ge′
′
schrieben werden als H0 : βh = βh,0
. Wenn der unter H0 vermutete Wert βh,0
im
Konfidenzintervall liegt kann die Nullhypothese nicht verworfen werden, wenn der
′
Wert βh,0
hingegen außerhalb des Konfidenzintervalls liegt darf die Nullhypothese
verworfen werden. Analoges gilt auch für die Konfidenzellipse.
In Abbildung 5.11 ist ersichtlich, dass in diesem Beispiel weder die Nullhypothese
H0 : β2 = 0 noch die Nullhypothese H0 : β3 = 0 einzeln abgelehnt werden kann,
46
Angewandte Ökonometrie
der Nullpunkt liegt innerhalb der beiden individuellen Konfidenzintervalle (als grau
strichlierte Linien eingezeichnet).
Hingegen kann die gemeinsame Nullhypothese, dass beide Steigungskoeffizienten
simultan gleich Null sind H0 : β2 = 0 und β3 = 0, abgelehnt werden, der Nullpunkt
liegt außerhalb der Konfidenzellipse!
Man sieht in Abbildung 5.11, dass es sehr viele Punkte wie z.B. (β2′ , β3′ ) gibt, die
ähnlich wie der Nullpunkt sowohl im Konfidenzintervall von βb2 als auch im Konfidenzintervall von βb3 liegen, aber nicht in der Konfidenzellipse für βb2 und βb3 .
Andererseits sind auch Fälle möglich, wie z.B. Punkt (β2′′ , β3′′ ) in Abbildung 5.11, die
außerhalb der beiden individuellen Konfidenzintervalle für βb2 und βb3 liegen, aber
innerhalb der Konfidenzellipse. Das bedeutet, dass beide Koeffizienten individuell
signifikant von β2′′ und β3′′ verschieden sind (d.h. es kann sowohl H0 : β2 = β2′′
als auch H0 : β3 = β3′′ individuell verworfen werden), aber dass die gemeinsame
Nullhypothese H0 : β2 = β2′′ und β3 = β3′′ nicht verworfen werden kann.
Im Beispiel von Abbildung 5.11 ist der empirische t-Wert für die H0 : β2 = 0.85
gleich temp = 2.32 (mit p = 0.025), für H0 : β3 = −0.1 ist temp = 2.132 (p = 0.038),
beide Nullhypothesen können also auf einem Signifikanzniveau von 5% verworfen
werden. Aber der empirische F-Wert der gemeinsamen Nullhypothese H0 : β2 =
0.85 und β3 = −0.1 ist F emp = 2.74 mit p = 0.075, die gemeinsame Nullhypothese
kann also auf einem Signifikanzniveau von 5% nicht verworfen werden!
Die t-Statistiken der einzelnen Koeffizienten können also signifikant sein, obwohl die
F -Statistik für die gemeinsame Nullhypothese nicht signifikant ist. Solche Fälle sind
allerdings selten und treten meist nur bei hoher Multikollinearität auf.
Als nächstes werden wir eine allgemeinere Möglichkeiten kennen lernen eine F Statistik zu berechnen, die den Test komplexerer Nullhypothesen erlaubt.
5.6
Simultane Tests für mehrere lineare
Restriktionen
Zahlreiche Tests beruhen auf einem Vergleich zweier Modelle. Dabei wird in der
Regel ein Modell ohne Restriktion(en) geschätzt und mit einem anderen Modell
verglichen, das unter Berücksichtigung einer oder mehrerer Restriktionen geschätzt
wurde (vgl. Griffiths et al., 1993, Chapter 11). In diesem Fall lässt sich das restringierte Modell immer als Speziallfall eines allgemeinen (d.h. nicht restringierten)
Modells darstellen. Ein Test zwischen zwei Modellen, bei denen es möglich ist eines
der beiden Modelle durch geeignete Parameterrestriktionen in das andere Modell
überzuführen, wird im Englischen als ‘nested test’ (geschachtelte Hypothesen) bezeichnet. In diesem Abschnitt werden wir uns ausschließlich auf solche ‘nested tests’
beschränken.
Ein ganz einfaches Beispiel für ein Modell ohne Restriktionen sei z.B.
yi = β1 + β2 xi2 + β3 xi3 + εi
Unter der Restriktion β3 = 0 gilt
yi = β1∗ + β2∗ xi2 + ε∗i
47
Angewandte Ökonometrie
1.6
1.2
′
′
(β2,0
, β3,0
)
β3
0.8
0.4
Konfidenzintervall für b3
b
(b2 , b3 )
(0, 0)
0.0
b
b
Konfidenzintervall für b2
-0.4
-0.8
-0.4
0.0
0.4
′′
′′
(β2,0
, β3,0
)
0.8
1.2
β2
Abbildung 5.11: 95%-Konfidenzellipse für beide Koeffizienten und Konfidenzintervalle für die beiden einzelnen Koeffizienten für die Regression
aus dem Beispiel auf Seite 45. Die t-Statistiken der einzelnen
Koeffizienten zeigen, dass die Koeffizienten einzeln nicht signifikant von Null verschieden sind (für α = 0.05), der Nullpunkt
(0, 0) liegt innerhalb der individuellen Konfidenzintervalle. Wie
die F -total-Statistik hingegen zeigt sind Koeffizienten gemeinsam hochsignifikant von Null verschieden, der Nullpunkt liegt
außerhalb der Konfidenzellipse! Zum Beispiel können weder die
H0 : β2 = 0 noch die H0 : β3 = 0 einzeln verworfen werden, aber
die simultane H0 : β2 = 0 und β3 = 0 wird abgelehnt (der Punkt
′
′
(0, 0) liegt wie viele weitere Punkte (z.B. (β2,0
, β3,0
)) innerhalb
der einzelnen Konfidenzintervalle, aber außerhalb der Konfidenzellipse.
Es ist auch möglich, dass die Nullhypothesen einzeln abgelehnt
werden können, aber die simultane H0 nicht abgelehnt werden
′′
′′
kann, z.B. werden die H0 : β2 = β2,0
und die H0 : β3 = β3,0
beide
′′
′′
einzeln verworfen, aber die simultane H0 : β2 = β2,0
und β3 = β3,0
kann nicht verworfen werden!
48
Angewandte Ökonometrie
Wenn das wahre β3 tatsächlich Null ist sollte εi = ε∗i sein, und die beiden Stichprobenregressionsfunktionen (SRF) yi = βb1 + βb2 xi2 + βb3 xi3 + ε̂i und yi = βb1∗ + βb2∗ xi2 + ε̂∗i
sollten ‘sehr ähnliche’ Residuen liefern.
Ein anderes Beispiel: angenommen die Nullhypothese H0 : β3 = 1 sei wahr, dann
kann das Modell unter dieser Restriktion geschrieben werden als
yi = β1∗∗ + β2∗∗ xi2 + 1xi3 + ε∗∗
i
und wir können die entsprechende SRF in der Form
(yi − xi3 ) = βb1∗∗ + βb2∗∗ xi2 + ε̂∗∗
i
schätzen, wozu wir eine neue abhängige Variable (yi − xi3 ) bilden müssen.
Im Prinzip werden für geschachtelte (‘nested’ ) Tests immer zwei Gleichungen
geschätzt, eine Gleichung ohne Restriktion(en), das nicht-restringierte (bzw. unrestringierte) Modell, und eine eine Gleichung mit Restriktion(en) – das restringierte
Modell – das man im wesentlichen durch Einsetzen der Nullhypothese in das nicht
restringierte Modell erhält. Dieser Test ist sehr allgemein einsetzbar und kann auch
für den Test mehrerer Restriktionen verwendet werden.
5.6.1
Beispiele für lineare Restriktionen
Im Folgenden interpretieren wir die H0 als Restriktion(en) und q bezeichnet die
Anzahl der Restriktionen:
• PRF: β1 + β2 x2 + β3 x3 + ε
Restriktion: H0 : β2 = β3 (q = 1)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ (x2 + x3 ) + ε̂∗
Wenn die Nullhypothese β2 = β3 wahr ist würden wir für die Schätzungen
des restringierten und nicht-restringierten Modells zumindest ‘sehr ähnliche’
Ergebnisse erwarten.
• PRF: β1 + β2 x2 + β3 x3 + β4 x4 + ε
Restriktion: H0 : β3 = 0 & β4 = 0 (q = 2)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + βb4 x4 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ x2 + ε̂∗
49
Angewandte Ökonometrie
• PRF: β1 + β2 x2 + β3 x3 + ε
Restriktion: H0 : β2 + β3 = 1 (q = 1)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + ε̂
Modell mit Restriktion:
y = βb1∗ + βb2∗ x2 + (1 − βb2∗ )x3 + ε̂∗
diese Gleichung kann in der folgenden Form geschätzt werden:
y − x3 = βb1∗ + βb2∗ (x2 − x3 ) + ε̂∗
Man beachte, dass in diesem Fall zwei neue Variablen y − x3 und x2 − x3
angelegt werden müssen.
• PRF: β1 + β2 x2 + β3 x3 + β4 x4 + ε
Restriktion: H0 : β2 = 0.5 × β3
& β4 = −1 (q = 2)
Modell ohne Restriktion:
y = βb1 + βb2 x2 + βb3 x3 + βb4 x4 + ε̂
Modell mit Restriktionen:
y + x4 = βb1∗ + βb3∗ [0.5x2 + x3 ] + ε̂∗
Wenn die entsprechenden Nullhypothesen wahr sind würden wir für die Schätzungen der Stichprobenregressionsfunktionen des restringierten und nicht-restringierten
Modells sehr ähnliche Ergebnisse erwarten, insbesondere sollten sich auch die Quadratsummen der Residuen des nicht-restringierten und des restringierten Modells
nicht stark unterscheiden.
Tatsächlich kann man zeigen, dass aus diesen Quadratsummen der Residuen eine
einfache Teststatistik konstruiert werden kann, die einen Test der Nullhypothese(n)
erlaubt.
Wenn wir mit SSRu (Sum od Squared Residuals) die Quadratsumme der Residuen
ohne Restriktionen (der Subindex u für unrestricted ) und mit SSRr die Quadratsumme der Residuen des r estringierten Modells bezeichnen, so kann man zeigen,
dass der Skalar
P 2
P 2
(SSRr − SSRu )/q H0
i ε̂r,i −
i ε̂u,i )/q
F -Stat = P 2
=
∼ Fq,n−k
( i ε̂u,i )/(n − k)
SSRu /(n − k)
(
(5.5)
P
unter H0 F -verteilt ist mit q Zähler– und (n−k) Nennerfreiheitsgraden, wobei i ε̂2r,i
die Quadratsumme der Residuen des restringierten Modells sind, und q die Anzahl
der Restriktionen bezeichnet.20
Die Herleitung dieser Teststatistik ist etwas aufwändiger und ist in Matrixnotation
einfacher zu skizzieren.
Zwischenfrage: Warum muss immer gelten SSRr ≥ SSRu ?
Dieser Test ist sehr allgemein und kann für verschiedenste Tests von Restriktionen
auf Koeffizienten verwendet werden.
20
Wenn nur eine einzelne Hypothese getestet wird kann man zeigen, dass diese F-Statistik das
Quadrat der entsprechenden t-Statistik ist.
50
Angewandte Ökonometrie
Mit Hilfe dieser Teststatistik kann wieder der p-Wert nach Fisher berechnet werden,
oder man kann nach Neyman und Pearson vorgehen
1. Formuliere Null- und Alternativhypothese.
2. Lege a priori ein Signifikanzniveau α fest.
3. Verwende die Information über die Teststatistik und die Freiheitsgrade, um den
crit
kritischen Wert Fq,n−k
in einer F-Tabelle nachzuschlagen. Verwende diesen um
Annahme- und Verwerfungsbereich festzulegen.
4. Schätze das Modell ohne Restriktionen mittels OLS.
Berechne aus diesem nicht restringierten Modell die Quadratsumme der Residuen SSRu (in EViews z.B. mit eqname.@ssr; in R mit deviance(eqname);
in Stata mit dem postestimation Befehl e(rss)).
5. Schätze das Modell mit den Restriktionen der Nullhypothese (das restringierte
Modell).
Berechne daraus die restringierte Quadratsumme der Residuen SSRr .
6. Berechne daraus den empirischen Wert der F -Statistik
F emp =
(SSRr − SSRu )/q
SSRu /(n − k)
wobei die Zählerfreiheitsgrade q die Anzahl der Restriktionen sind, n − k die
Nennerfreiheitsgrade.
7. Vergleiche diesen Wert mit dem kritischen Wert der F -Statistik laut Tabelle
crit
crit
Fq,n−k
. Wenn der empirische Wert F emp größer ist als der kritische Wert Fq,n−k
wird die Nullhypothese verworfen, anderenfalls darf sie nicht verworfen werden.
Vorsicht: bei fehlenden Werten ist darauf zu achten, dass restringiertes und nichtrestringiertes Modell auf der gleichen Beobachtungszahl beruhen. Wenn einzelne Beobachtungen einer x Variable fehlen, die im restringierten Modell nicht vorkommt,
kann es passieren, dass restringiertes und nicht-restringiertes Modell auf einer anderen Datengrundlage beruhen und die Statistik deshalb fehlerhaft berechnet wird.
Die übliche ökonometrische Software berücksichtigt dies natürlich automatisch, aber
wenn man die Statistik ‘händisch’ berechnet muss man darauf achtgeben.
Diese Art Tests können mit der üblicher Software natürlich viel einfacher durchgeführt werden.
Beispiel Kehren wir nochmals zum Cobb-Douglas Beispiel (Seite 37) zurück. Die
PRF ist
log(Q) = β1 + β2 log(K) + β3 log(L) + ε
Wir könnten die Hypothese zu den konstanten Skalenerträgen H0 : β2 + β3 = 1 auch
mit Hilfe dieser F -Statistik testen.
Angewandte Ökonometrie
51
Einsetzen dieser H0 in dei PRF führt zum restringierten Modell
log(Q) − log(L) = β1∗ + β2∗ [log(K) − log(L)] + ε∗
Um zu verdeutlichen, dass mit dieser Methode auch mehrere Hypothesen simultan
getestet werden können wollen wir die (inhaltlich nicht sehr sinnvolle) simultane
Nullhypothese
H0 : β2 + β3 = 1 und β1 = 2
testen.
Die restringierte Regression wird deshalb ohne Interzept geschätzt
log(Q) − log(L) − 2 = β2∗∗ [log(K) − log(L)] + ε∗∗
Wir werden nun die Teststatistik 5.5 anwenden und zeigen, wie dieses Ergebnis
einfacher mit den entsprechenden Befehlen der Programme erzielt werden kann.
Stata:
clear
insheet using "https://www.uibk.ac.at/econometrics/data/prodfunkt.csv", ///
delim(";") names clear
generate log_Q = log(q)
generate log_K = log(k)
generate log_L = log(l)
regress log_Q log_K log_L
* Kurz
test log_K + log_L = 1
test _cons = 2, accumulate
* Ergebnis:
* ( 1) log_K + log_L = 1
* ( 2) _cons = 2
*
*
F( 2,
22) =
15.55
*
Prob > F =
0.0001
*
* Ausführlich
* nicht restringiert
regress log_Q log_K log_L
scalar SSR_u = e(rss)
* restringiert
generate y = log_Q - log_L - 2
generate x = log_K - log_L
regress y x, noconstant
scalar SSR_r = e(rss)
scalar F_Stat = ((SSR_r - SSR_u)/2) / (SSR_u/(25-3))
display "F-Statistik: " F_Stat
display "p-Wert: " Ftail(2,22, F_Stat)
Angewandte Ökonometrie
52
R: man kann z.B. den Befehl linearHypothesis() aus dem ‘package’ car verwenden
rm(list=ls(all=TRUE))
CD <- read.table("https://www.uibk.ac.at/econometrics/data/prodfunkt.csv",
dec = ".", sep=";", header=TRUE)
attach(CD)
eq.u <- lm(log(Q) ~ log(K) + log(L))
# Kurz
library(car)
linearHypothesis(eq.u, c("log(K) + log(L) = 1", "(Intercept) = 2"))
# Ausfürhlich; restringiert
eq.r <- lm( I(log(Q)-log(L)-2) ~ I(log(K)-log(L)) -1 )
F.Stat <- ((deviance(eq.r) - deviance(eq.u))/2) / (deviance(eq.u)/(25-3))
p.val <- 1 - pf(F.Stat, 2, 22)
# F.Stat = 15.55485, p.val = 6.162219e-05
EViews:
equation CD.ls log(Q) c log(K) log(L)
CD.wald c(2) + c(3) = 1, c(1) = 2
’ oder
scalar SSR_u = CD.@ssr
equation R.ls log(Q)-log(L)-2 log(K)-log(L)
scalar SSR_r = R.@ssr
scalar F_Stat = ((SSR_r - SSR_u)/2)/(SSR_u/(25-3))
scalar p_Value = 1 - @cfdist(F_Stat,2,22)
5.7
Ein Test auf Strukturbrüche (Chow Test)
Der Chow–Test ist ein nützlicher Test auf Strukturbrüche, oder in anderen Worten,
ein Test Unterschiede zwischen einzelnen Gruppen oder Zeitperioden.
Zum Beispiel kann der Chow Test verwendet werden um zu testen, ob sich die Koeffizienten einer Regression, die über eine Stichprobe von Männern geschätzt wurde,
von den Koeffizienten einer Regression über eine Stichprobe von Frauen unterscheiden. Kann die entsprechende Nullhypothese verworfen werden wird daraus geschlossen, dass in Bezug auf den in der Regressionsgleichung modellierten Zusammenhang
signifikante Unterschiede zwischen Männern und Frauen bestehen.
Manchmal wird er auch für Zeitreihen verwendet um zu untersuchen, ob sich der
modellierte Zusammenhang durch ein Ereignis, welches zu einem bestimmten Zeitpunkt eingetreten ist, geändert hat.
53
Angewandte Ökonometrie
Um den Chow Test durchführen zu können muss der Zeitpunkt des Strukturbruchs
(oder die Gruppenzugehörigkeit) a priori bekannt sein. Natürlich müssen auch alle
anderen Gauss Markov Annahmen erfüllt sein, z.B. dürfen sich die Varianzen der
Störterme nicht zwischen den Gruppen unterscheiden (keine Heteroskedastizität).
Angenommen wir vermuten, dass in der Grundgesamtheit zwischen zwei Gruppen
(oder Perioden) Unterschiede bestehen, d.h.
yi = β1 + β2 xi1 + · · · + βk xik + εi
yj = β1∗ + β2∗ xj1 + · · · + βk∗ xjk + ε∗j
mit i = 1, 2, . . . , n1 , j = n1 + 1, n1 + 2, . . . , n.
Die Nullhypothese ist
H0 :
β1 = β1∗ ,
β2 = β2∗ ,
...,
βk = βk∗
und die Alternativhypothese, dass mindestens eine dieser Bedingungen nicht erfüllt
ist.
Das nicht-restringierte Modell besteht aus den zwei unabhängig geschätzten Gleichungen, d.h. man schätzt zwei getrennte Regressionen für die beiden Gruppen (Subsamples) mit n1 bzw. n2 Beobachtungen (mit n1 + n2 = n), und berechnet daraus
die Quadratsummen der Residuen
yi = βb1 + βb2 xi2 + · · · + βbk xik + ε̂i → SSR1u
mit i = 1, . . . , n1
yj = βb1∗ + βb2∗ xj2 + · · · + βbk∗ xjk + ε̂∗j → SSR2u
mit j = n1 + 1, . . . , n
Man kann zeigen, dass die nicht-restringierte Quadratsumme der Residuen die Summe der Quadratsummen der Residuen der beiden Gleichungen ist, d.h. wenn wir mit
SSRu wieder die Quadratsumme der Residuen des nicht-restringierten Modells bezeichnen
SSRu = SSR1u + SSR2u
mit (n1 − k) + (n − n1 − k) = n − 2k Freiheitsgraden.
Wenn die Nullhypothese wahr ist stimmen alle Koeffizienten der beiden Modelle
überein, das heißt, das restringierte Modell wird einfach über alle n Beobachtungen
(also über beide Gruppen) geschätzt.
mit i = 1, . . . , n.
yi = βb1r + βb2r xi2 + · · · + βbkr xik + ε̂ri
→ RSSr
Chow (1960) hat gezeigt, dass die folgende Teststatistik für diese Nullhypothese
F -verteilt ist
F =
(SSRr − SSRu )/k H0
∼ Fk,n−2k
SSRu /(n − 2k)
54
Angewandte Ökonometrie
wobei n wieder die Anzahl der Beobachtungen und k die Anzahl der geschätzten
Koeffizienten ist.
Die Gültigkeit dieses Test beruht unter anderem auf der Annahme, dass die Varianz
der Störterme σ 2 in allen Gruppen (Subsamples) gleich groß ist (keine Heteroskedastizität).
Dieser Test wird häufig auch angewandt um zu testen, ob in einem Zeitpunkt t
eine Änderung eingetreten ist, indem man eine Regression über den Zeitraum 1 bis
tm schätzt, eine zweite Regression über den Zeitraum tm + 1 bis T , und mittels
der F -Statistik diese beiden Schätzungen mit einer Regression über den gesamten
Zeitraum 1 bis T vergleicht. Zum Beispiel kann damit getestet werden, ob eine
zu einem Zeitpunkt t gesetzte Maßnahme eine Auswirkung auf den untersuchten
Zusammenhang hatte.
Beispiel: Wir möchten testen, ob die Determinanten des Lohneinkommens für verheiratete Menschen gleich sind wie für Singles. Als Determinanten des Lohneinkommens WAGE (= durchschnittlicher Stundenlohn in US-$) verwenden wir die Jahre
der Schulbildung (EDUC) und die Jahre an Berufserfahrung (EXPER).21
Tabelle 5.3 zeigt die Schätzergebnisse für beide Gruppen (Married und Single) einzeln, sowie die Schätzung des restringierten Modells über beide Gruppen.
Tabelle 5.3: Lohngleichungen:
Dependent variable: Wage
restricted
All
unrestricted
Married
Single
(1)
Constant
(2)
−3.391∗∗∗
(0.767)
(3)
−3.122∗∗
(1.220)
−2.352∗∗∗
(0.879)
Educ
0.644∗∗∗
(0.054)
0.668∗∗∗
(0.080)
0.529∗∗∗
(0.066)
Exper
0.070∗∗∗
(0.011)
0.058∗∗∗
(0.017)
0.058∗∗∗
(0.014)
Observations
R2
Residual Std. Error
Sum of Squared Res.
Note:
526
0.225
3.257
5548.16
320
0.182
3.619
4151.37
∗
p<0.1;
206
0.258
2.503
1272.11
∗∗
p<0.05;
∗∗∗
p<0.01
Die Quadratsumme der Residuen des nicht-restringierten Modells ist 4151.370 +
1272.114 = 5423.484. Die oben angeführten Programme berechnen folgende F 21
Die Daten stammen aus dem Begleitmaterial zum Lehrbuch von J. Wooldridge: Introductory
Econometrics.
55
Angewandte Ökonometrie
Statistik
F emp =
(5548.160 − 5423.484)/3
= 3.9846
5423.484/(526 − 6)
Der kritische Wert der F -Statistik für 3 Zähler- und ∞ Nennerfreiheitsgrade und
für ein Signifikanzniveau von 5% ist 2.60, also kann die Nullhypothese
H0 : β1m = β1s ,
β2m = β2s ,
und β3m = β3s
auf einem 5%-Signifikanzniveau verworfen werden (der hochgestellte Index m steht
für ‘married’ und s für ‘single’), d.h. es gibt signifikante Lohnunterschiede zwischen
Verheirateten und Singles, selbst wenn für die Schulbildung und Berufserfahrung
kontrolliert wird!
Der kritische Wert der F -Statistik für ein Signifikanzniveau von 1% ist 3.78, die Nullhypothese kann also auch noch auf einem 1%-Signifikanzniveau verworfen werden.
Das folgende Stata-, R- und EViews Programm schätzt das restringierte und nichtrestringierte Modell und berechnet F emp sowie den dazugehörigen p-Wert.
Stata:
clear
use http://www.hsto.info/econometrics/projekte/wage1, clear
// unrestricted
regress wage exper educ
ereturn list
scalar rss_r = e(rss)
scalar N = e(N)
// Married
regress wage exper educ if married == 1
scalar rss_u1 = e(rss)
scalar N1 = e(N)
// Not married
regress wage exper educ if married == 0
scalar rss_u2 = e(rss)
scalar N2 = e(N)
// unrestricted sum of squared residuals
scalar rss_u = rss_u1 + rss_u2
scalar F_Stat = ((rss_r - rss_u)/3)/(rss_u/(N-2*3))
scalar p_value = Ftail(3,N-6,F_Stat)
dis "F-Stat: " F_Stat ", p-value: " p_value
// F-Stat: 3.9845963, p-value: .00798955
EViews:
Angewandte Ökonometrie
56
wfopen "http://www.uibk.ac.at/econometrics/data/wage1.dta"
’ Regression über alle Beobachtungen, restringiertes Modell
equation eq_r.ls WAGE c EDUC EXPER
scalar SSR_r = eq_r.@ssr
scalar N = eq_r.@regobs
’ Regression über alle Verheirateten
smpl @all if Married = 1
equation eq_u1.ls WAGE c EDUC EXPER
scalar SSR_u1 = eq_u1.@ssr
scalar N1 = eq_u1.@regobs
’ Regression über alle Singles
smpl @all if Married = 0
equation eq_u2.ls WAGE c EDUC EXPER
scalar SSR_u2 = eq_u2.@ssr
scalar N2 = eq_u2.@regobs
smpl @all
scalar SSR_u = SSR_u1 + SSR_u2
scalar F_Stat = ((SSR_r - SSR_u)/3)/(SSR_u/(N - 2*3))
scalar p_value = 1-@cfdist(F_Stat,3,n-6)
R:
rm(list=ls())
library("foreign")
wage1 <- read.dta("http://www.uibk.ac.at/econometrics/data/wage1.dta")
# restringiertes Modell
eq_r <- lm(wage ~ educ + exper,data=wage1)
SSR_r <- deviance(eq_r)
N <- nobs(eq_r)
# nur Verheiratete
eq_u1 <- lm(wage ~ educ + exper, data=subset(wage1,married==1))
SSR_u1 <- deviance(eq_u1)
N1 <- nobs(eq_u1)
# nur Unverheiratete
eq_u2 <- lm(wage ~ educ + exper, data=subset(wage1,married==0))
SSR_u2 <- deviance(eq_u2)
N2 <- nobs(eq_u2)
# SSR für nicht restringiertes Modell
SSR_u <- SSR_u1 + SSR_u2
F_Stat = ((SSR_r - SSR_u)/3)/(SSR_u/(N-2*3))
p_value = 1-pf(F_Stat,3,N-6)
cat("F-Stat: ", F_Stat, ", p-value: ", p_value )
# F-Stat: 3.984596 , p-value: 0.007989545
57
Angewandte Ökonometrie
Natürlich geht das auch viel einfacher, wenn man auf die geeigneten Befehle zurückgreift. In EViews ist dies z.B. der chow Befehl, der v.a. für Zeitreihendaten verwendet
wird, wenn das Datum des Strukturbruchs bekannt ist, und facbreak, der nützlich
ist, wenn eine Datenreihe für die Klassifikation vorliegt (in obigem Beispiel z.B. die
Dummy Variable married ). Obiges Beispiel kann auch einfach mit den zwei Befehlszeilen
equation eq2.ls wage c educ exper
eq2.facbreak married
gelöst werden, diese liefern folgenden Output:
Factor Breakpoint Test: MARRIED
Null Hypothesis: No breaks at specified breakpoints
Varying regressors: All equation variables
Equation Sample: 1 526
F-statistic
3.984596
Prob. F(3,520)
Log likelihood ratio 11.95483
Prob. Chi-Square(3)
Wald Statistic
11.95379
Prob. Chi-Square(3)
Factor values:
MARRIED = 0
MARRIED = 1
0.0080
0.0075
0.0075
Selbst-
verständlich sind diese Tests in EViews auch im im Equation-Menü unter
View/Stability Tests/ . . . verfügbar.
Für R liefert das Packet strucchange von Zeileis u.a. die Option für einen ChowTest. Hier ein Beispiel:
rm(list=ls())
library(strucchange)
library("foreign")
mydata <- read.dta("http://www.uibk.ac.at/econometrics/data/wage1.dta")
# Sortieren
mydata.sort <- mydata[order(mydata$married), ]
# Strukturbruch finden
brk <- which(mydata.sort$married==1)[1]-1
# Chow Strukturbruchtest
sctest(wage ~ educ + exper, type = "Chow", point = brk,
data = mydata.sort)
# F = 3.9846, p-value = 0.00799
Für Stata siehe z.B.
http://www.stata.com/support/faqs/statistics/computing-chow-statistic/
Übung: Wie lautet die Formel der Teststatistik für drei Sub-Samples?
Durch die Einführung einer expliziten Alternativhypothese und eines a priori festgelegten Signifikanzniveaus α kann für Neyman-Pearson Hypothesentests eine eindeutige Entscheidungsregel gefunden werden, ob die Nullhypothese verworfen oder
58
Angewandte Ökonometrie
nicht verworfen werden soll. Diese Entscheidungsregel ist zwar eindeutig, aber das
bedeutet nicht, dass die Entscheidung auch richtig sein muss.
5.8
Typ I und Typ II Fehler
Aufgrund des stochastischen Charakters der Teststatistik sind zwei Arten von Fehlentscheidungen möglich. Zum einen kann eine tatsächlich richtige Nullhypothese
irrtümlich verworfen werden (Typ I Fehler, ‘false positive’, Verwerfungsfehler ), oder
eine tatsächlich falsche Nullhypothese kann irrtümlich nicht verworfen werden (Typ
II Fehler, ‘false negative’, Nicht-Verwerfungsfehler ). Dies wird in Tabelle 5.4 dargestellt.
Tabelle 5.4: Typ I und Typ II Fehler
Entscheidung auf
Grundlage eines
statistischen Tests:
Nullhypothese H0
wird nicht verworfen
Nullhypothese H0
wird verworfen
Wahrer
Sachverhalt:
H0 ist wahr
korrekte Entscheidung
(1 − α)
Typ I Fehler
Wahrer
Sachverhalt:
H0 ist falsch
Typ II Fehler
korrekte Entscheidung
(1 − β: “Power ”)
Für ein Regressionsbeispiel ŷ = βb1 + βb2 x mit der H0 : β2 = 0 bedeutet dies, dass wir
bei einem Typ I Fehler die Nullhypothese irrtümlich verwerfen und deshalb glauben,
dass x einen Einfluss auf y hat, obwohl in Wahrheit kein Zusammenhang besteht
(der wahre Parameter β2 = 0).
Bei einem Typ II Fehler verwerfen wir die H0 : β2 = 0 irrtümlich nicht und glauben
deshalb, dass x keinen Einfluss auf y hat, obwohl tatsächlich ein Zusammenhang
besteht (der wahre Parameter β2 6= 0).
Man beachte, dass die Entscheidung immer auf Grundlage der H0 erfolgt, die
üblicherweise als Gegenhypothese zu unserer Anfangsvermutung formuliert wird.
Dies impliziert eine Asymmetrie zwischen Null- und Alternativhypothese. Um diese
Asymmetrie zu rechtfertigen werden Hypothesentests nach Neyman-Pearson häufig
mit der Unschuldsvermutung bei einem Gerichtsprozess verglichen. In einer Welt ohne Unsicherheit sollten Unschuldige frei gesprochen und Schuldige verurteilt werden.
In einer Welt mit Unsicherheit kann es bei Indizienprozessen allerdings passieren,
dass analog zu einem Typ I Fehler ein Unschuldiger verurteilt wird, oder – analog
zu einem Typ II Fehler – ein Schuldiger freigesprochen wird; vergleiche Tabelle 5.5.
Wenn alle erforderlichen Annahmen erfüllt sind wird die Wahrscheinlichkeit einen
Typ I Fehler zu machen unmittelbar durch das Signifikanzniveau α bestimmt.
Pr [Typ I Fehler] = Pr [H0 ablehnenH0 |H0 wahr]
=α
59
Angewandte Ökonometrie
Tabelle 5.5: Vergleich Typ I und Typ II Fehler mit einem Gerichtsurteil
Gericht fällt
Entscheidung
“unschuldig”
Gericht fällt
Entscheidung
“schuldig”
Angeklagter
ist unschuldig
Angeklagter
ist schuldig
richtige Entscheidung
Schuldiger wird
freigesprochen
Unschuldiger
wird verurteilt
richtige Entscheidung
Deshalb wird in diesem Zusammenhang α häufig auch als ‘Testniveau’ (‘size of
a test’ ) bezeichnet; ein guter Test sollte bei wiederholten Stichprobenziehungen
höchstens in α ∗ 100% der Fälle zu einer ungerechtfertigten Verwerfung der Nullhypothese führen (Typ I Fehler). Wann immer die potentiellen Kosten eines Typ
I Fehlers sehr hoch sind sollte deshalb ein entsprechend kleines Signifikanzniveau
gewählt werden (z.B. α = 0.01).
Es zeigt sich aber, dass dies auch Kosten hat, denn die Wahl eines kleinen α erhöht
automatisch die Wahrscheinlichkeit eines Typ II Fehlers.
Ein Typ II Fehler (manchmal auch β-Fehler genannt) ist ein ‘Nicht-Verwerfungs
Fehler’, eine tatsächlich falsche Nullhypothese wird nicht abgelehnt
Pr [Typ II Fehler] = Pr [H0 nicht ablehnen|H0 falsch]
Dies wird anhand des Vergleichs mit einem Indizienprozess unmittelbar klar. Wenn
man unbedingt vermeiden möchte einen Unschuldigen zu verurteilen (Typ I Fehler)
und deshalb sehr strenge Anforderungen an die Beweise stellt (ein kleines α wählt),
wird dies automatisch dazu führen, dass mancher Schuldige irrtümlich freigesprochen
wird (Typ II Fehler).
Einen Typ II Fehler kann man sich intuitiv als eine verpasste Chance vorstellen,
eine nicht gemachte Entdeckung. Bei einem Typ II Fehler ist die Nullhypothese
tatsächlich falsch, der gesuchte Zusammenhang existiert in Wahrheit, aber unsere
Teststatistik versagt und wir erkennen den Zusammenhang nicht.
Beispiel Stellen Sie sich vor, Sie ziehen in eine neue Gegend, die von interessanten
Menschen und von Langeweilern bewohnt wird. Sie möchten natürlich interessante
Menschen kennen lernen und sich nicht mit Langeweilern abgeben, aber die beiden
Menschengruppen sind auf Anhieb schwer zu entscheiden.
Ein Typ I Fehler (‘false positive’ ) wäre in diesem Beispiel, sich zu täuschen und
sich mit einem Langeweiler einzulassen. Ein Typ II Fehler (‘false negative’ ) besteht
darin, tatsächlich interessante Menschen nicht kennen zu lernen, vgl. Abbildung
5.12.
60
Angewandte Ökonometrie
Abbildung 5.12: Typ II Fehler; Quelle: aus den (Un-)Tiefen des Internets.
Um diese zwei Arten von Fehlern grafisch darstellen zu können wählen wir eine sehr
einfache Null- und Alternativhypothese
H0 : βh = β0
gegen HA : βh = βA
wobei β0 und βA fixe Zahlen sind, d.h. sowohl Null- als auch Alternativhypothese
umfassen nur einen einzelnen Punkt. Abbildung 5.13 zeigt die Stichprobenkennwertverteilungen unter H0 und HA .22
Die linke durchgezogene Verteilung in Abbildung 5.13 ist die Stichprobenkennwertverteilung von βbh unter Gültigkeit der Nullhypothese. Wenn die Nullhypothese
tatsächlich wahr ist fallen bei oftmaliger Wiederholung α×100 Prozent der geschätzten βbh in den Bereich rechts von x (einseitiger Test), und die schraffierte Fläche
darüber gibt die Wahrscheinlichkeit für einen Typ I Fehler an.
Ein Typ II Fehler passiert hingegen, wenn eine tatsächlich falsche Nullypothese
nicht verworfen wird. Wenn die Nullypothese falsch ist muss die Alternativhypothese wahr sein, in diesem einfachen Fall also βh = βA . Die rechte strichlierte Verteilung
in Abbildung 5.13 zeigt die Stichprobenkennwertverteilung von βbh wenn die Alternativhypothese richtig ist. Die Wahrscheinlichkeit eines Typ II Fehlers, also dass die
Alternativhypothese richtig und die Nullhypothese trotzdem nicht abgelehnt wird,
entspricht der horizontal schraffierten Fläche in Abbildung 5.13 (die Fläche unter
der strichliert gezeichneten Verteilung links von x).
Wie man aus dem Vergleich der oberen und unteren Abbildung erkennen kann führt
die Wahl eines kleineren α zwar zu einer Abnahme der Wahrscheinlichkeit eines Typ
I Fehlers, aber gleichzeitig zur Zunahme der Wahrscheinlichkeit eines Typ II Fehlers!
Tatsächlich wissen wir nicht, ob die Null- oder die Alternativhypothese richtig ist,
deshalb wissen wir auch nicht welche der beiden Stichprobenkennwertverteilungen
22
Wir wissen, dass unter dieser H0
"
#
βbh − β0
Pr
≥ tcrit
=α
α
σ̂βbh
Deshalb ist Pr(βbh ≥ β0 + tcrit
bh ) = α. Daraus folgt, dass der kritische Wert x in Abbildung 5.13
α σ̂β
gleich β0 + tcrit
σ̂
ist.
bh
α
β
61
Angewandte Ökonometrie
f (βbh )
Stichprobenkennwertverteilung unter
HA : β = βA
Stichprobenkennwertverteilung unter
H0 : β = β0
bc
β0
βA
bc
x
Typ II
Fehler
Typ I
Fehler
H0 nicht ablehnen
f (βbh )
H0 verwerfen
Stichprobenkennwertverteilung unter
HA : β = βA
Stichprobenkennwertverteilung unter
H0 : β = β0
bc
β0
βb
x
Typ II
Fehler
H0 nicht ablehnen
bc
βA
Typ I
Fehler
H0 verwerfen
βb
Abbildung 5.13: Typ I und Typ II Fehler: Durch die Wahl eines höheren Signifikanzniveaus (d.h. kleineren α) sinkt die Wahrscheinlichkeit eines
Typ I Fehlers, aber dadurch steigt die Wahrscheinlichkeit eines
Typ II Fehlers.[Folien: local]
Angewandte Ökonometrie
62
die wahre ist. Aber wir wissen, dass nur entweder die Nullhypothese oder die Alternativhypothese richtig sein kann.
Wenn die Stichprobenkennwertverteilung unter H0 wahr ist, machen wir bei einem
einseitigen Test in α×100 Prozent der Fälle einen Typ I Fehler. Wenn aber die Alternativhypothese wahr ist machen wir einen Typ II Fehler, dessen Wahrscheinlichkeit
in Abbildung 5.13 durch die Fläche des horizontal schraffierten Bereichs (links von
x) gegeben ist. Man beachte, dass der Wert des Typ II Fehlers auch vom wahren βh
abhängt.
Daraus lassen sich zwei wichtige Schlussfolgerungen ziehen:
1. Die Wahrscheinlichkeit von Typ I und Typ II Fehler sind invers verknüpft, d.h.
die Wahl eines hohen Signifikanzniveaus (kleinen α) reduziert zwar die Wahrscheinlichkeit eines Typ I Fehlers, aber erhöht gleichzeitig die Wahrscheinlichkeit eines Typ II Fehlers (vergleiche obere und untere Grafik in Abbildung
5.13).
2. Die Wahrscheinlichkeit eines Typ II Fehlers ist ceteris paribus umso größer, je
näher βA bei β0 liegt.
Auch wenn es nicht möglich ist beide Arten von Fehlern gleichzeitig zu kontrollieren,
so kann man doch zeigen, dass diese Teststrategie zumindest ‘bestmöglich’ in dem
Sinne ist, dass sie unter bestimmten Annahmen für eine gegebene Wahrscheinlichkeit
eines Typ I Fehlers die Wahrscheinlichkeit eines Typ II Fehlers minimiert.
Trennschärfe (Power ) eines Tests
Erinnern wir uns, Neyman-Pearson entwickelten ihre Methode u.a. um ein Kriterium
zu finden, das eine Beurteilung der Güte von Testfunktionen ermöglichen sollte. Ideal
wäre natürlich ein Test, der falsche Nullhypothesen mit Wahrscheinlichkeit Eins
verwirft und korrekte Nullyhpothesen mit Wahrscheinlichkeit Eins nicht verwirft,
aber eine solche Teststatistik existiert für realistische Situationen natürlich nicht.
Da die Wahrscheinlichkeiten für Typ I und Typ II Fehler invers verknüpft sind ist es
hoffnungslos einen Test zu suchen, der beide Arten von Fehler minimiert. Deshalb
entschieden sich Neyman-Pearson die Wahrscheinlichkeit für einen Typ I Fehler –
das Signifikanzniveau α – vorzugeben und Tests zu suchen, die für ein vorgegebenes
α die Wahrscheinlichkeit eines Typ II Fehlers minimieren. Das impliziert indirekt,
dass Null- und Alternativhypothese asymmetrisch behandelt werden, ähnlich wie bei
der Unschuldsvermutung vor Gericht. Diese Überlegungen führen zur Power eines
Tests.
Die Power eines Tests gibt die Wahrscheinlichkeit dafür an, dass eine tatsächlich
falsche Nullhypothese auch verworfen wird.
Da der Typ II Fehler die Wahrscheinlichkeit angibt, mit der eine falsche Nullhypothese nicht verworfen wird, ist die Power einfach die Gegenwahrscheinlichkeit zum
Typ II Fehler.
63
Angewandte Ökonometrie
f (t)
Verteilung
unter H0
Verteilung
unter HA
‘Power ’
β0
βA
Abbildung 5.14: Die ‘Power’ oder Trennschärfe eines Tests ist Eins minus Wahrscheinlichkeit eines Typ II Fehlers, also die Wahrscheinlichkeit,
mit der eine falsche Nullhypothese tatsächlich verworfen wird.
Power = Pr [Verwerfung H0 |H0 ist falsch]
= 1 − Pr [Akzeptanz H0 |H0 ist falsch]
= 1 − Pr [Typ II Fehler]
Dies wird in Abbildung 5.14 gezeigt.
Da die Power eine Wahrscheinlichkeit ist und als Fläche unter einer Dichtefunktion
gemessen wird kann sie nur Werte zwischen Null und Eins annehmen. Natürlich sollte
der Wert der ‘Power ’, d.h. die Wahrscheinlichkeit mit der eine falsche Nullhypothese
tatsächlich verworfen wird, möglichst nahe bei Eins liegen.
Im vorhergehenden Beispiel hatten wir eine sehr einfache Null- und Alternativhypothese, nämlich H0 : βh = β0 und HA : βh = βA . Nun wollen wir eine etwas
realistischere Alternativhypothese untersuchen, nämlich
H0 :
HA :
βh = β0
βh 6= β0
Dies ändert nichts für den Typ I Fehler (Verwerfungsfehler), dieser wird nach wie
vor durch das gewählte Signifikanzniveau angegeben.
Aber in diesem Fall kann die Wahrscheinlichkeit für einen Typ II Fehler (falsche H0
akzeptieren) nicht mehr durch eine einfache Zahl angegeben werden, sondern hängt
von βh ab. Wenn βh sehr nahe bei β0 liegt wird ceteris paribus die Wahrscheinlichkeit
für einen Typ II Fehler höher sein, und also die Power des Tests niedriger sein.
Dies wird in Abbildung 5.15 gezeigt, die ‘Power’ ist ceteris paribus umso größer, je
weiter der ‘wahre’ Wert βh von β0 entfernt liegt, sie hängt also von βh ab. Wenn man
die Power als Funktion aller möglichen βh darstellt erhält man die Teststärkefunktion
(‘power function’ ), die im untersten Panel von Abbildung 5.15 dargestellt ist.
64
Angewandte Ökonometrie
Verteilung
unter H0
0.4
b
f (β)
Verteilung
unter HA
0.2
Power
−5
−4
−3
−2
1
−1
2
3
4
5
6
Verteilung
unter HA
Verteilung
unter H0
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
−5
−4
−3
−2
−1
1
2
3
4
5
6
3
4
5
6
Verteilung
unter HA
Verteilung
unter H0
Power
−5
−4
−3
−2
1
−1
2
Power
1.0
0.5
α
−5
−4
−3
−2
−1
1
2
3
4
5
6
Abbildung 5.15: Powerfunktion eines zweiseitigen Tests. Die Power ist eine Funktion vom wahren Wert βh .
Angewandte Ökonometrie
65
Effizientere Schätzfunktionen erlauben trennschärfere Tests
Die ‘Power’ eines Tests nimmt mit der Stichprobengröße zu. Abbildung 5.16 zeigt
in der oberen Grafik die Power für eine kleine Stichprobe (kleines n), und in der
unteren Grafik für eine große Stichprobe. Die zugrunde liegende Null- und Alternativhypothese ist in beiden Grafiken gleich. Offensichtlich ist die ‘Power’ bei der
großen Stichprobe deutlich größer!
Man beachte, dass die Power aus zwei Gründen zunimmt: erstens ist die Varianz
der unbeobachtbaren wahren Verteilung bei einer größeren Stichprobe kleiner, und
zweitens liegt der kritische Wert der Verteilung tcrit
αg näher beim β0 .
Abbildung 5.17 zeigt zwei typische Teststärkefunktionen, eine mit kleinerer ‘Power’
(strichlierte Linie) und eine mit größerer ‘Power’.
Frage: Wie sieht die Power-Funktion für einseitige (links- bzw. rechtsseitige) Tests
aus?
5.9
Wie vertrauenswürdig sind publizierte Hypothesentests?
Von Ehen ist bekannt, dass sie im Himmel geschlossen, aber auf Erden ausgetragen
werden. Ähnlich verhält es sich mit Hypothesentests, die Theorie wurde ohne Zweifel
von Genies entwickelt, aber ihre Anwendung auf Erden ist nicht immer über jeden
Zweifel erhaben.
Es gibt eine ganze Reihe von Gründen, warum man bei Hypothesentests, deren
genaues Zustandekommen man nicht kennt – wie bei praktisch allen publizierten
Studien – skeptisch bleiben sollte.
Fehlspezifikationen und nicht identifizierte Modelle: Wir haben schon
früher betont, dass der ‘wahre’ datengenerierende Prozess (DGP) nicht
beobachtbar ist. Um diesen schätzen zu können müssen wir aber Annahmen
darüber treffen, wie er aussieht, wir müssen eine Spezifikation wählen.
Wenn wir dabei wichtige Variablen übersehen, eine falsche Funktionsform
unterstellen, oder ‘feed-back’ Mechanismen übersehen, führt dies zu einer
Fehlspezifikation und die resultierenden Schätzer sind weder erwartungstreu
noch konsistent. Selbstverständlich sind auch die Teststatistiken solcher
fehlspezifizierter Modelle völlig wertlos.
Ein verwandtes Problem sind nicht identifizierte Modelle. Zur Erinnerung, bei
nicht identifizierten Modellen reicht selbst die Kenntnis der ‘wahren’ gemeinsamen Verteilung der relevanten Variablen nicht aus um die interessierenden
Parameter konsistent schätzen zu können. Schätzungen sowie Hypothesentests
solcher nicht identifizierter Modelle können nicht interpretiert werden und sind
ebenfalls wertlos.
Statistische Tests setzen korrekt spezifizierte Modelle voraus. Sind die Modelle falsch spezifiziert sind die Tests nicht interpretierbar. Um Hinweise für
66
Angewandte Ökonometrie
f (βbh )
Verteilung
unter HA
Verteilung
unter H0
‘Power ’
tcαk
β0
f (βbh )
βbh
βA
großes
n
Verteilung
unter HA
Verteilung
unter H0
kleines
n
Power
b
β0
b
tcαg tcαk
βA
βbh
Abbildung 5.16: Die ‘Power’ eines Tests nimmt ceteris paribus mit der Stichprobengröße n zu.
67
Angewandte Ökonometrie
1.0
0.5
α
0
β0
βbh
Abbildung 5.17: Teststärkefunktionen (‘Power Functions’) für zwei Tests (zweiseitig). Die durchgezogene Teststärkefunktion hat eine größere
‘Power’ als die strichlierte.
eine möglichst korrekte Spezifikation zu finden ist theoretisches Nachdenken
unumgänglich.
Ohne theoretischer Vorarbeit kann leicht passieren, was ein berühmter Statistiker einmal einen Typ III Fehler nannte.
“In 1948, Frederick Mosteller (1916-2006) argued that a ‘third kind
of error’ was required to describe circumstances he had observed,
namely:
• Type I error: ‘rejecting the null hypothesis when it is true’.
• Type II error: ‘accepting the null hypothesis when it is false’.
• Type III error: ‘correctly rejecting the null hypothesis for the
wrong reason’.”2324
Ein nettes Beispiel für einen solchen ‘Type III error’ liefert die Medizin25
“Selbstversuche haben in der Medizin Tradition. An die Grenze der
menschlichen Belastbarkeit ging dabei der angehende Arzt Stubbins
Ffirth am Anfang des 19. Jahrhunderts. Er war überzeugt, dass Malaria nicht ansteckend ist, sondern auf übermäßige Hitze, Essen und
Lärm zurückzuführen sei.
Um seine These zu erhärten, setzte er sich selbst der Krankheit
aus. Zuerst brachte er nur kleine Mengen von frischem Erbrochenem in sich selbst zugefügte kleine Kratzer ein. Danach tropfte er
kleine Mengen in seine Augen. Am Ende der Testreihe aß er die frischen Exkremente eines Kranken. Wie durch ein Wunder blieb er
tatsächlich gesund. Er sah seine Behauptung somit belegt.”
23
zitiert aus Wikipedia: http://en.wikipedia.org/wiki/Type_I_error; Quelle: Mosteller, F.,
A k-Sample Slippage Test for an Extreme Population, The Annals of Mathematical Statistics,
Vol.19, No.1, (March 1948), pp.58-65.
24
Ein Vorschlag für einen Typ IV Fehler stammt von dem Harvard Ökonom Howard Raiffa,
“solving the right problem too late”.
25
zitiert aus http://science.orf.at/science/news/149922, [05.11.2007].
68
Angewandte Ökonometrie
“Welt”
(nicht direkt beobachtbar)
Theorie
Modell
Datengenerierender
Prozess (DGP)
te
&
en
eS
en
ätz
sch
rg
eg
eb
(fü
Sp
ez
t en
at i
ifik
Da
on
Forscherin
st e
pe
n
zifi
ka
tio
n!)
Beschreibung
& Erklärung
Beobachtungen
Abbildung 5.18: Die übliche Schätz- und Testtheorie setzt eine korrekte Spezifikation voraus. Wenn die Spezifikationssuche datengetrieben ist und
auf den gleichen Daten wie die Schätzung beruht sind können die
üblichen Verfahren fehlerhafte Ergebnisse liefern; siehe ‘pretest
estimators’, z.B. Danilov and Magnus (2004)
.
Der wackere Stubbins Ffirth konnte damals nicht wissen, dass die Malaria
durch den Biss der weiblichen Stechmücke Anopheles übertragen wird, sein
heldenmütiger Verzehr frischer Exkremente lieferte offensichtlich keinen Beweis
für die Richtigkeit seiner Hypothese, dass Hitze, Lärm und schlechtes Essen
die Ursache für die Malaria sei.
Data- and Estimator Mining: Die Theorie der Hypothesentests beruht darauf,
dass eine a priori festgelegte Nullhypothese einmalig mit den Daten konfrontiert wird. Da der ‘wahre’ DGP nicht beobachtbar ist, ist die Versuchung groß,
verschiedene Spezifikationen ‘zu probieren’. Wenn wir bei einem Signifikanzniveau von 5% hundert Spezifikationen ‘probieren’ müssen wir damit rechnen,
in fünf Fällen die Nullhypothesen irrtümlich zu verwerfen (Typ I Fehler). Es
sollte klar sein, dass derart zustande gekommene Ergebnisse wertlos sind.
Ein verwandtes Problem entsteht, wenn man verschiedene Schätz- und Testverfahren probiert und anschließend die statistisch signifikanten Ergebnisse
selektiert.
Publizierten Resultaten von Hypothesentests kann man nicht ansehen, wie sie
zustande gekommen sind, und es ist klar, dass der ‘publish or perish’ Druck
viele verleitet, ein besonderes Auge auf signifikante Ergebnisse zu haben.
Dies ist natürlich ein altbekanntes Problem, so warnt die American Statistical
Society in ihren ‘Ethical Guidelines for Statistical Practice’
Angewandte Ökonometrie
69
“Running multiple tests on the same data set at the same stage of
an analysis increases the chance of obtaining at least one invalid
result. Selecting the one ‘significant’ result from a multiplicity of
parallel tests poses a grave risk of an incorrect conclusion. Failure
to disclose the full extent of tests and their results in such a case
would be highly misleading.”
(http://www.amstat.org/about/ethicalguidelines.cfm)
Ein verwandtes Problem ist das so genannte ‘outcome switching’. Im Juli 2012
verhängten amerikanische Behörden eine Rekordstrafe von drei Milliarden (!)
US-Dollar über den Pharmakonzern GlaxoSmithKline (GKS). Was war geschehen? In einer Versuchsreihe – der mittlerweile berühmten Studie 329 –
wurde ein Psychopharmaka (Paxil) auf die Wirksamkeit in Bezug auf auf acht
a priori festgelegte Ergebnis-Variablen gemessen. Es zeigte sich, dass das Medikament in keiner dieser acht Variablen signifikant bessere Ergebnisse erzielte
als Plazebos.
Darauf hin entschieden sich die Forscher einen Zusammenhang mit 19 weiteren
Variablen zu testen, und fanden in vier Fällen tatsächlich signifikante Ergebnisse. In der Publikation wurden die früheren Versuchsreihen verschwiegen und
vorgegeben, dass diese vier signifikanten Ergebnisse von vornherein festgelegt
worden wären.
Später zeigte sich, dass dieses Medikament nicht nur wirkungslos in Bezug auf
diese vier selektierten Ergebnisse war, sondern obendrein schwere Nebenwirkungen hatte. (The Economist, Mar 26th 2016, Clinical trials: For my next
trick. . . )
Fehlinterpretationen: Eine spezielle Gefahr des ‘data mining’ besteht darin, dass
ex post fast jedes Resultat ‘plausibel’ erklärt werden kann.
Der Psychologe und Wirtschaftsnobelpreisträger Kahneman (2013, 85) nennt
unser schnelles, intuitives Denken “a machine for jumping to conclusions”.
Dies ist besonders gefährlich, wenn Ergebnisse kausal interpretiert werden.
Hypothesentests alleine können nie Kausalitäten bestätigen, sondern bestenfalls Assoziationen.
Auf diese Gefahr wird manchmal mit dem Schlagwort ‘avoid HARKing’ verwiesen, wobei der Begriff HARKing ein englisches Akronym für “Hypothesizing
After the Results are Known” ist.
Erschwert wird dieses Problem noch dadurch, dass Forscher wie alle anderen
Menschen ‘Fehlwahrnehmungen’ unterliegen, wie z.B. dem berühmten ‘confirmation bias’. Forscher neigen wie Künstler dazu, sich in ihre Modelle zu
verlieben (George Box). Überflüssig zu erwähnen, dass dies den klaren Blick
trüben kann.
Publikationsbias, Typ I Fehler und niedrige Power: Ein spezielles Problem
ist der ‘Publication Bias’, der gemeinsam mit dem Typ I Fehler und einer
niedrigen Power dramatische Auswirkungen haben kann.
Angewandte Ökonometrie
70
Abbildung 5.19: Unreliable research: Trouble at the lab; Quelle: The Economist,
Oct 19th 2013
http://www.economist.com/blogs/graphicdetail/2013/10/daily-chart-2
Der ‘Publication Bias’ besteht darin, dass viele Referees und Zeitschriften
nur signifikante Ergebnisse als publikationswürdig erachten. Dies kann dazu
führen, dass ein verzerrtes Bild der signifikanten Ergebnisse entsteht.
Der Economist (Oct 19th 2013) erklärt das Problem anhand eines einfachen
Zahlenbeispiels, siehe Abbildung 5.19.
Nehmen wir an es gibt 1000 zu testende Hypothesen, und 100 dieser Hypothesen seien tatsächlich wahr, die restlichen 900 falsch.
Die Forscherin weiß dies nicht, sie testet alle 1000 Hypothesen. Von den
tatsächlich falschen 900 Hypothesen wird sie irrtümlich 45 als richtig klassifizieren (5% von 900, Typ I Fehler).
Wenn der gewählte Test eine (sehr gute) Power von 0.8 hat (also 80% der
tatsächlich wahren Hypothesen auch als wahr erkennt) wird sie 20% der 100
tatsächlich richtigen Hypothesen irrtümlich verwerfen. Sie glaubt also 80+45 =
125 richtige Hypothesen vorliegen zu haben, davon sind aber 45, das sind 36%,
tatsächlich falsch!
Ein besseres Ergebnis würde sie erzielen, wenn sie die nicht signifikanten Ergebnisse ansehen würde. In 875 (= 1000 − 125) Fällen wird die Hypothese
verworfen, bei einer Power von 0.8 in nur 20 Fällen davon zu unrecht, was einer Trefferquote von fast 98% entspricht. Aber negative Resultate fallen häufig
dem ‘Publication Bias’ zum Opfer.
Statistische Signifikanz versus ‘Relevanz’ einer Variablen: Manchmal wird
71
Angewandte Ökonometrie
statistische Signifikanz mit der Bedeutung einer Variable verwechselt (Effektstärke). Statistische Signifikanz sagt nichts darüber aus, ob die Größe des
gemessenen Koeffizienten auch praktisch relevant ist. Da der geschätzte Koeffizient auch von der Dimension abhängt, in der die Variablen gemessen wurden,
kann es manchmal nützlich sein, den Koeffizienten einer Variable mit dem
Mittelwert dieser Variable zu multiplizieren (bh x¯h ), um einen Eindruck von
der quantitativen ‘Bedeutung’ einer Variable zu bekommen. Ein Zusammenhang kann zwar statistisch hoch signifikant sein, aber für praktische Zwecke
trotzdem völlig bedeutungslos sein!
Zu beachten ist auch der Zusammenhang zwischen Stichprobengröße und statistischer Signifikanz. In sehr großen Stichproben sind selbst winzige Unterschiede oft statistisch signifikant, und es kann fast jede Nullhypothese verworfen
werden, z.B. für den t-Test
für n → ∞ : t =
βh
βbh
≈
=∞
σ̂βbh
0
Wie bereits erwähnt sind statistische Signifikanz und ökonomische Bedeutung
(Relevanz) zwei verschiedene Paar Schuhe.
Die Gültigkeit von Test hängt von einer Reihe von Annahmen ab, die oft schwer zu
überprüfen sind, z.B.
• ist die vorliegende Stichprobe tatsächlich eine Zufallsstichprobe, oder ist ein
sample selection bias zu befürchten?
• ist die der Hypothese zugrunde liegende Kausalitätsvorstellung tatsächlich angebracht, oder ist simultane Kausalität zu befürchten?
• wurden alle relevanten Einflussfaktoren berücksichtigt, oder könnte das Ergebnis durch eine unbeobachtete Variable verursacht worden sein (omitted variable
bias)?
• usw.
Ein Hypothesentest nach Neyman-Pearson ist in erster Linie eine Entscheidungsregel, aber diese Entscheidungsregel ist nur anwendbar, wenn sie auf zutreffender
Information beruht. Ein simpler Hypothesentest alleine kann nicht zwischen Scheinkorrelationen und Kausalität unterscheiden, dazu bedarf es mehr. Erinnern Sie sich,
die erste Tugend einer Wissenschaftlerin ist Skepsis. Fragen Sie sich stets ‘was könnte das Ergebnis, dass Sie zu sehen glauben, sonst verursacht haben als das, was Sie
zu sehen wünschen?’
Tests können – vernünftig angewandt – ein sehr mächtiges und nützliches Werkzeug
sein, aber man kann damit auch ziemlich viel Unfug treiben.
Zusammenfassend: Blindes Vertrauen ist meistens dumm. Blindes Vertrauen in
einen statistischen Test ist davon keine Ausnahme.
72
Angewandte Ökonometrie
5.10
Prognosen & Prognoseintervalle
“Prediction is very difficult, especially
about the future.”
(Niels Bohr)
Bisher haben wir uns ausschließlich auf die geschätzten Koeffizienten βb1 und βb2
sowie auf deren Standardfehler (bzw. Konfidenzintervalle) konzentriert. Nun wollen
wir einen Schritt weitergehen und sehen, wie wir diese Schätzer für die Erstellung
von Prognosen nützen können.
Nehmen wir wieder an, der ‘wahre’ Zusammenhang in der Grundgesamtheit könne
durch yi = β1 + β2 xi + εi beschrieben werden, und wir schätzen aus der Stichprobe
eine SRF yi = βb1 + βb2 xi + ε̂i . Wie wir gleich sehen werden, können wir die SRF für die
Erstellung von Prognosen nützen. Wir werden uns in den folgenden Ausführungen
auf das bivariate Regressionsmodell beschränken, die Erweiterung für das multiple
Regressionsmodell ist einfach und folgt den gleichen Überlegungen.
Bei einer Prognose geht es darum, die Ausprägung einer Zufallsvariablen vorherzusagen, die nicht beobachtet wurde (z.B. der Wert der abhängigen Variablen y in der
nächsten Periode, oder der Konsum einer Person, die nicht befragt wurde).
Gebräuchlichen Konventionen folgend bezeichnen wir den zu prognostizierenden
Wert der abhängigen Variablen mit y0 . Den entsprechenden Wert der erklärenden
Variable bezeichnen wir mit x0 .
Da Prognosen hauptsächlich für Zeitreihen relevant sind verwenden wir t als Index
über die Beobachtungen, und bezeichnen die Größe der Stichprobe mit T (d.h. t =
1, 2, . . . , T ).
Offensichtlich können Prognosen mit Hilfe einer Regression sehr einfach durchgeführt
werden, es genügt den Wert von x0 in die SRF einzusetzen. Wenn z.B. eine Gleichung
ybt = 15 + 2.5xt
geschätzt wurde, kann für ein x0 = 4 sofort der Wert y0 = 25 prognostiziert werden.
In diesem Abschnitt werden wir nicht nur einfache Prognosen diskutieren, sondern
auch Konfidenzintervalle für die prognostizierten Werte ermitteln.
Bedingte und unbedingte Prognosen Prinzipiell unterscheidet man zwischen
“bedingten” und “unbedingten” Prognosen. Bei einer bedingten Prognose wird von
einem a priori bekannten Wert der erklärenden Variable x0 im Prognosezeitraum
ausgegangen. Eine bedingte Prognose macht also Aussagen über eine interessierende
Variable y, bedingt auf die Annahme, dass die x Variable den Wert x0 annimmt.
Berechnet wird sie einfach, indem man x0 in die geschätzte Regressionsgleichung
einsetzt.
Manchmal möchte man aber einfach eine bestmögliche Prognose für y, ohne den
Wert von x0 a priori zu kennen oder spezifische Annahmen über die x treffen zu
müssen. Eine solche Prognose nennt man eine unbedingte Prognose. Um eine solche unbedingte Prognose machen zu können müssen meist in einem ersten Schritt
Prognosen für die x Variable(n) erstellt werden. Da die ökonomische Theorie für die
Prognose der erklärenden Variable(n) oft wenig hilfreich ist, werden für die Prognose
der x Variable(n) häufig Zeitreihenmethoden eingesetzt.
73
Angewandte Ökonometrie
Mit Hilfe dieser Prognosen für die erklärenden Variable(n) wird dann in einem zweiten Schritt der Wert der abhängigen Variablen y0 prognostiziert. Wir beschäftigen
uns im folgenden ausschließlich mit bedingten Prognosen, einige Hinweise zu unbedingten Prognosen finden sich z.B. bei Pindyck and Rubinfeld (1997, 221f).
Wenn das Regressionsmodell zeitverzögerte abhängige Variablen enthält, z.B.
yt = βb1 + βb2 yt−1 + ε̂i
unterscheidet man außerdem zwischen statischen und dynamischen Prognosen. Bei
einer statischen Prognose werden jeweils die realisierten verzögerten Werte yt−1 für
die Prognose herangezogen, für eine dynamische Prognose werden jeweils die prognostizierten Werte der verzögerten Variable ybt−1 eingesetzt. Dynamische Prognosen
sind v.a. in der Zeitreihenökonometrie von Bedeutung.
Ähnlich wie bei Parameterschätzungen unterscheidet man auch bei Prognosen zwischen Punkt- und Intervallprognosen.
5.10.1
Punktprognose
Wir wollen im Folgenden annehmen, dass alle Gauss-Markov Annahmen erfüllt seien
und dass x0 deterministisch sei. Die PRF sei
y0 = β1 + β2 x0 + ε0
mit ε0 ∼ N(0, σ 2 ) bzw. y0 ∼ N(β1 + β2 x0 , σ 2 ).
Durch Einsetzen von x0 in die Stichprobenregressionsfunktion erhalten wir
yb0 = βb1 + βb2 x0
Für die Realisationen ybt = 6 + 0.8xt würden wir z.B. für x0 = 5 den Prognosewert
yb0 = 10 erhalten.
Man beachte, dass sowohl yb0 = βb1 + βb2 x0 als auch y0 = β1 +β2 x0 +ε0 Zufallsvariablen
sind, da βb1 , βb2 und ε0 Zufallsvariablen sind.
Erwartungstreue Falls die Gauss-Markov Annahmen erfüllt sind kann man einfach erkennen, dass yb0 ein erwartungstreuer und effizienter Schätzer ist
E(b
y0 ) = E(βb1 + βb2 x0 + ε̂0 ) = β1 + β2 x0 = y0
Ein seriöser ‘Wahrsager’ würde yb0 als wahrscheinlichsten Wert für ein gegebenes x0
vorhersagen.
5.10.2
Intervallschätzer
Um etwas über die Genauigkeit dieser Vorhersage aussagen zu können ist es
zweckmäßig einen Intervallschätzer zu berechnen. Im Unterschied zu den Konfidenzintervallen für die einzelnen Koeffizienten βb1 und βb2 müssen wir hier etwas genauer
überlegen, denn es können uns zwei verschiedene Dinge interessieren, nämlich
74
Angewandte Ökonometrie
y
b
PRF
. . . Schätzungen yb0
b
b
rs
b
b
b
y0
unterschiedl.
SRFs
x̄
x0
x
Abbildung 5.20: yb0 ist ein unverzerrtrer Schätzer für y0 , d.h. E(b
y0 ) = y0
1. für das Konfidenzintervall für yb0 = βb1 + βb2 x0 , oder
2. für das Prognoseintervall für y0 = β1 + β2 x0 + ε0
Im ersten Fall interessieren wir uns für die Streuung der ‘mittleren’ y0 , denn wir
können yb0 Erwartungswert einer Stichprobenkennwertverteilung auffassen.
Im zweiten – häufig interessanteren – Fall interessieren wir uns für die Streuung eines
einzelnen, konkreten y0 . In diesem zweiten Fall müssen wir zusätzlich die ‘individuelle’ Unsicherheit in Form von ε0 berücksichtigen. Man beachte, dass wir die wahren
β1 und β2 nicht kennen, sondern dass diese selbst erst geschätzt werden müssen.
Wir beginnen mit dem wichtigeren zweiten Fall, dem Prognoseintervall für y0 . Zur
Berechnung dieses Prognoseintervalls ist es zweckmäßig mit dem Prognosefehler zu
beginnen.
Erwartungswert und Varianz des Prognosefehlers
Der Prognosefehler ist definiert als die Abweichung des tatsächlichen Werts y0 vom
prognostizierten Wert yb0 , d.h.
Prognosefehler = yb0 − y0 = (βb1 − β1 ) + (βb2 − β2 )x0 − ε0
wobei βb1 , βb2 und ε0 Zufallsvariablen sind, und β1 , β2 sowie x0 deterministische
Größen sind.
Nebenbei bemerkt kann man einfach zeigen, dass die Varianz des Prognosefehlers
gleich der Varianz von ỹ0 = βb1 + βb2 x0 + ε0 ist, weil
h
i
var(b
y0 − y0 ) = var (βb1 + βb2 x0 ) − (β1 + β2 x0 + ε0 )
= var[βb1 + βb2 x0 + ε0 ] = var(ỹ0 )
75
Angewandte Ökonometrie
und weil β1 , β2 und x0 deterministische Größen sind.
Der Erwartungswert des Prognosefehlers (b
y0 −y0 ) ist Null, wenn die Schätzer βb1 und
βb2 unverzerrt sind und E(ε0 ) = 0, da
E[b
y0 − y0 ] = E[(βb1 − β1 ) + (βb2 − β2 )x0 − ε0 ]
= E[(βb1 − β1 )] + E[(βb2 − β2 )x0 ] − E[ε0 ]
= 0+0+0=0
wenn die OLS Schätzer βb1 und βb2 erwartungstreu sind.
Die Varianz des Prognosefehlers kann einfach berechnet werden als
#
"
2
(x
−
x̄)
1
0
var(b
y0 − y0 ) = σ 2 1 + + PT
2
T
t=1 (xt − x̄)
Beweis:
var[b
y0 − y0 ] = E[b
y 0 − y 0 ]2
= E[(βb1 − β1 ) + (βb2 − β2 )x0 − ε0 ]2
= var(βb1 ) + x20 var(βb2 ) + σ 2 + 2x0 cov(βb1 , βb2 )
weil ε0 im Erwartungswert mit βb1 und βb2 unkorreliert ist, da die zu prognostizierenden Werte y0 und die x0 nicht in die Berechnung der Koeffizienten βb1 und βb2
eingegangen sind.
Wir erinnern uns, dass
P 2
2
σ
xt
P
var(βb1 ) =
T (xt − x̄)2
σ2
var(βb2 ) = P
(xt − x̄)2
−x̄σ 2
cov(βb1 , βb2 ) = P
(xt − x̄)2
wobei t der Laufindex von 1 . . . T und x̄ der Stichprobenmittelwert der ersten T
Beobachtungen ist.
P
P
P
P
Aus (xt − x̄)2 = (x2t ) − T x̄2 folgt (x2t ) = (xt − x̄)2 + T x̄2 . Deshalb ist
P
P
σ 2 x2t
(xt − x̄)2 + T x̄2
x̄2
2
2 1
b
P
var(β1 ) = P
=σ
=σ
+P
T (xt − x̄)2
T (xt − x̄)2
T
(xt − x̄)2
Wir setzen nun die Varianzen der Schätzer βb1 und βb2 in die Varianz des Prognosefehlers ein
var[b
y0 − y0 ] = var(βb1 ) + x20 var(βb2 ) + σ 2 + 2x0 cov(βb1 , βb2 )
x̄2
x20
−2x0 x̄
2 1
= σ
+P
+P
+1+ P
T
(xt − x̄)2
(xt − x̄)2
(xt − x̄)2
1
x2 − 2x0 x̄ + x̄2
= σ 2 1 + + 0P
T
(xt − x̄)2
1
(x0 − x̄)2
2
= σ 1+ + P
T
(xt − x̄)2
76
Angewandte Ökonometrie
Diese Varianz kann noch nicht geschätzt werden, da sie die unbekannte Varianz
der Störterme σ 2 enthält. Wie üblich können wir die Varianz des Prognosefehlers
aber schätzen, indem wir die unbekannte Fehlervarianz σ 2 durch den unverzerrten
Schätzer für die Fehlervarianz σ̂ 2 ersetzen, also
#
"
(x0 − x̄)2
1
2
var(b
c y0 − y0 ) = σ̂ 1 + + PT
2
T
t=1 (xt − x̄)
P 2
wobei σ̂ 2 =
ε̂i /(T − 2) das Quadrat des Standardfehlers der Regression (standard
error of the regression) und T die Stichprobengröße ist.
Man kann einfach erkennen, dass
1. die Varianz des Prognosefehlers umso größer ist, je weiter x0 vom StichprobenMittelwert x̄ entfernt liegt. Eine Prognose für einen weit entfernt liegenden
x0 -Wert ist deshalb ungenauer;
2. die Varianz des Prognosefehlers
ist umso kleiner, je größer die Streuung der x
P
ist (d.h. je größer (xt − x̄)2 );
3. die Varianz des Prognosefehlers ist umso kleiner, je größer die Anzahl der
Beobachtungen T ist; und
4. die Varianz des Prognosefehlers umso größer, je größer der Standardfehler der
Regression σ̂ ist
Man kann außerdem zeigen, dass yb0 = βb1 + βb2 x0 der beste lineare unverzerrte Prognosewert ist, d.h. yb0 ist ein effizienter Schätzer für y0 !
Beispiel:
Gegeben seien die folgenden 5 Beobachtungen für x und y:
y: 2.6 1.6 4.0
x: 1.2 3.0 4.5
3.0 4.9
5.8 7.2
Eine Regression von x auf y gibt die folgende Regressionsgleichung
Dependent Variable: Y
Included observations: 5
Variable
Coefficient Std. Error t-Stat.
Prob.
C
1.498
1.032
1.451
0.243
x
0.397
0.214
1.853
0.161
R-squared
0.534 SE of regression
1.00427
77
Angewandte Ökonometrie
Tabelle 5.6: Beispiel: Prognosen, Varianzen des Prognosefehlers und Konfidenzintervalle für ganzzahlige xt .
x0
0
1
2
3
4
5
6
7
yb0
var(b
c y0 − y0 )
1.498
2.074
1.895
1.722
2.292
1.461
2.688
1.293
3.085
1.216
3.482
1.230
3.879
1.337
4.275
1.535
yb0 ∓ tcrit
−3.085
−2.281
−1.555
−0.929
−0.423
−0.048
0.200
0.333
p
var(b
c y0 − y0 )
6.081
6.070
6.138
6.306
6.593
7.011
7.558
8.218
Daraus kann man nun die Varianz des Prognosefehlers berechnen
(x0 − x̄)2
1
2
var(b
c y0 − y0 ) = σ̂ 1 + + P
T
(xt − x̄)2
1 (x0 − 4.34)2
2
= (1.00427) 1 + +
5
21.992
P
da x̄ = 4.34 und (xt − x̄)2 = 21.992.
In Tabelle 5.6 wurden die Varianzen des Prognosefehlers für ganzzahlige xt berechnet.
Zum Beispiel erhalten wir für x0 = 7 ein yb0 = 1.498 + 0.397 × 7 = 4.275 und eine
Varianz des Prognosefehlers von
1 (7 − 4.34)2
2
= 1.535
var(b
c y0 − y0 ) = (1.00427) 1 + +
5
21.992
Prognoseintervall für y0
Mit Hilfe der Varianz des Prognosefehlers können wir nun ein Prognoseintervall für
y0 berechnen. Dazu müssen wir wieder wie üblich eine Standardisierung durchführen.
Da annahmegemäß (b
y0 − y0 ) ∼ N (0, var(b
y0 − y0 )) folgt
p
yb0 − y0
∼ N(0, 1)
var(b
y0 − y0 )
Da σ 2 unbekannt ist müssen wir wieder var(b
y0 − y0 ) durch den Schätzer var(b
c y0 − y0 )
ersetzen und erhalten eine t-verteilte Zufallsvariable
yb0 − y0
t= p
∼ tT −2
var(b
c y0 − y0 )
Wenn wir uns für das 95% Prognoseintervall interessieren benötigen wir den kritischen t-Wert tcrit , für den Pr[t(T −2) > tcrit ] = 0.025. Für T = 5 mit T − 2 = 3
Freiheitsgraden ist tcrit = 3.182.
78
Angewandte Ökonometrie
Damit können wir das Prognoseintervall für y0 bestimmen:
Pr −tcrit ≤ tT −2 ≤ tcrit = 0.95
#
"
yb0 − y0
≤ tcrit = 0.95
Pr −tcrit ≤ p
var(b
c y0 − y0 )
h
i
p
p
crit
crit
Pr yb0 − t
var(b
c y0 − y0 ) ≤ y0 ≤ yb0 + t
var(b
c y0 − y0 ) = 0.95
Das Prognoseintervall für y0 ist also
yb0 ± tcrit
p
var(b
c y0 − y0 )
Die Interpretation ist wie üblich, wenn wir sehr viele Stichproben ziehen würden
und für jede Stichprobe ein Prognoseintervall berechnen würden, so könnten wir
damit rechnen, dass (1 − α)100 Prozent dieser Prognoseintervalle den wahren Wert
y0 enthalten würden.
Die letzten beiden Spalten von Tabelle 5.6 zeigen die entsprechenden Prognoseintervalle. Das Konfidenzintervall für y0 = 4.275 (x0 = 7) erhält man z.B.
p
√
yb0 ± tcrit var(b
c y0 − y0 ) = 4.275 ± 3.182 1.535
bzw.
(0.333 ≤ y0 |(x0 =7) ≤ 8.218)
Abbildung 5.21 zeigt die Beobachtungspunkte (schwarz), die Schätzgerade (Prognose) und das Prognoseintervall (blau strichliert).
Da wir nur fünf Beobachtungspunkte haben ist das Prognoseintervall natürlich entsprechend breit.
Konfidenzintervall für yb0
Manchmal sind wir nicht an der Vorhersage eines konkreten y0 interessiert, sondern
wir an der Genauigkeit der Prognose eines ‘mittleren’ y0 , d.h. an einem Konfidenzintervall für yb0 = βb1 + βb2 x0 .
Die Berechnung der Varianz von yb0 erfolgt völlig analog wie im vorhergehenden Fall.
var(b
y0 ) = var(βb1 + βb2 x0 )
= var(βb1 ) + x20 var(βb2 ) + 2 cov(βb1 , βb2 )
(x0 − x̄)2
2 1
+P
= σ
T
(xt − x̄)2
Wenn wir σ 2 wieder durch den Schätzer σ̂ 2 ersetzen und die Wurzel davon nehmen
erhalten wir den Standardfehler von yb0 (d.h. σ̂yb0 ). Mit dem kritischen Wert tcrit
können wir schließlich das Konfidenzintervall yb0 ± tcrit σ̂yb0 berechnen. Dieses Konfidenzintervall für yb0 ist natürlich schmäler als das Prognoseintervall für y0 .
79
Angewandte Ökonometrie
y
b
b
8
b
b
7
b
b
6
tc
b
b
b
5
p
var(b
c y0 − y0 )
b
ybi = 1.5 + 0.4x
bc
4
b
3
b
b
tc
2
b
p
var(b
c y0 − y0 )
1
b
0
b
1
3
4b
5
6
bc
7
b
−1
b
−2
−3
2
b
b
b
b
Abbildung 5.21: Prognose und deren Konfidenzintervalle
8
x
80
Angewandte Ökonometrie
5.11
Beurteilung der Prognosequalität
Meist wird die Qualität einer Regression anhand von statistischen Kenngrößen wie
z.B. dem Bestimmtheitsmaß R2 , den Standardfehlern der Koeffizienten (bzw. den toder p-Werten) oder verschiedenen Spezifikationstests (die in einem späteren Kapitel
diskutiert werden) beurteilt.
Die Prognosequalität einer Regressionsgleichung erlaubt eine davon verschiedene
Einschätzung. Vor allem wenn bei der Spezifikation entsprechendes Data Mining
betrieben wurde ist es nicht ungewöhnlich, dass eine geschätzte Gleichung eine sehr
gute Anpassung in der Stichprobe hat, aber eine lausige Prognosequalität aufweist.
Um die Prognosequalität beurteilen zu können kann man ex-post Prognosen
durchführen, d.h. den Schätzzeitraum einschränken und sich bei der Spezifikationssuche nur auf einen Teil der Stichprobe beschränken. In der folgenden Grafik
beruht die Schätzung auf der Stichprobe T1 bis T2 . Für die Periode T2 bis T3 , für die
die exogenen Variablen x und die tatsächlich beobachteten yt bekannt sind, kann
dann eine ex-post Prognose durchgeführt werden. Anhand des ‘Fits’ dieser ex-post
Prognose kann anschließend die Qualität der Regression beurteilt werden. Ist diese
zufriedenstellend kann man sich an die eigentliche ex-ante Prognose wagen, d.h. an
die Prognose der unbeobachteten Werte yb0 in der Zukunft. Diese beruht natürlich
auf der gesamten Stichprobe T1 bis T3 .
T1
Gegenwart
T3
T2
Schätzperiode
ex-post
Prognose
Zeit t
ex-ante
Prognose
Wenn die Gleichung eine verzögerte abhängige Variable enthält (z.B. yt = βb1 +
βb2 yt−1 + ε̂t ) kann man anstelle der tatsächlichen Beobachtungen yt−1 die prognostizierten Werte ybt−1 einsetzen, also eine dynamische Prognose durchführen.
Häufig wird auch eine Prognose über die gesamte Stichprobe durchgeführt und die
prognostizierten (oder ‘gefitteten’) Werte ytf mit den tatsächlich beobachteten Werten yt verglichen. Für den Vergleich zwischen tatsächlichen und prognostizierten
Werten haben sich einige Kennzahlen eingebürgert, die im folgenden kurz vorgestellt werden.
5.11.1
Root Mean Square Forecast Error (RMS-Fehler)
Der Root Mean Square Error (RMS-Fehler) ist die Wurzel aus dem mittleren quadratischen Prognosefehler und ist eine gebräuchliche Kennzahl um die Abweichung
der prognostizierten Werte von den tatsächlich beobachteten Werten anzugeben.
v
u
T
u1 X
(ytf − yt )2
RMS-Fehler = t
T t=1
81
Angewandte Ökonometrie
mit: ytf = prognostizierter Wert von yt
yt = tatsächlich realisierter Wert von yt
T = Anzahl der Beobachtungen im Prognoseintervall
5.11.2
Mean Absolute Forecast Error (MAE)
Der mittlere absolute Prognosefehler (Mean Absolute Error) ist ein alternatives Maß
mit einer anderen Gewichtung zur Beurteilung der Prognosequalität.
T
1 X f
MAE =
yt − yt T t=1
Sowohl der Root Mean Square Error als auch der Mean Absolute Error sind abhängig
von der Dimension der abhängigen Variablen yt , eignen sich also nur für einen Vergleich verschiedener Modelle zur Prognose der gleichen Datenreihe. Je kleiner der
entsprechende Wert ist, umso besser ist die Prognosequalität.
Im Gegensatz dazu sind die beiden folgenden Kennzahlen unabhängig von der Dimension der prognostizierten Datenreihe und können deshalb für einen Vergleich
von Prognoseverfahren herangezogen werden.
5.11.3
Mean Absolute Percentage Error (MAPE)
Der mittlere absolute prozentuelle Prognosefehler (MAPE) ist definiert als
T
1 X ytf − yt MAPE =
× 100
T t=1 yt 5.11.4
Theil’s Inequality Coefficient (TIC)
Im Zähler von Theil’s Inequality Coefficient (TIC) steht der Root Mean Square
Error, der aber entsprechend gewichtet wird, sodass Theil’s Inequality Coefficient
immer zwischen Null und Eins liegt.
q P
T
f
1
2
t=1 (yt − yt )
T
q P
TIC = q P
T
T
f 2
1
1
2
t=1 (yt ) +
t=1 (yt )
T
T
Umso näher Theil’s Inequality Coefficient bei Null liegt, umso besser ist die Prognosequalität. Bei einem perfekten Fit ist Theil’s Inequality Coefficient gleich Null,
während TIC= 1 das schlechtest mögliche Ergebnis ist.
Mit ein bißchen Algebra kann zeigen, dass
werden kann
T
X
t=1
PT
f
t=1 (yt
− yt )2 folgendermaßen zerlegt
(ytf − yt )2 = (ȳ f − ȳ)2 + (σ̂yf − σ̂y )2 + 2(1 − ρ)σ̂yf σ̂y
Angewandte Ökonometrie
82
wobei ȳ f und ȳ die Mittelwerte und σ̂yf und σ̂y die Standardabweichungen der
Datenreihen ytf und yt sind; und
PT
f
f
t=1 (yt − ȳ )(yt − ȳ)
ρ=
T σ̂yf σ̂y
ist der übliche Korrelationskoeffizient zwischen ytf und yt .
Mit Hilfe dieser Zerlegung kann man folgende Anteile berechnen:
1=
(σ̂yf − σ̂y )2
2(1 − ρ)σ̂yf σ̂y
(ȳ f − ȳ)2
+
+
P
P
PT
T
T
f
f
f
1
1
1
2
2
2
t=1 (yt − yt )
t=1 (yt − yt )
t=1 (yt − yt )
T
T
T
{z
} |
{z
} |
{z
}
|
BiasVarianzKovarianzAnteil
Anteil
Anteil
• Der Bias Anteil zeigt, wie stark sich der Mittelwert der prognostizierten Reihe vom Mittelwert der tatsächlichen Beobachtungen unterscheidet. Ein hoher
Bias Anteil zeigt also, dass sich die prognostizierte Datenreihe stark von den
tatsächlichen Daten unterscheidet.
• Der Varianz Anteil zeigt, wie stark sich die Streuung der prognostizierten
Reihe der Streuung der tatsächlichen Beobachtungen unterscheidet. Wenn der
Varianz-Anteil groß ist bedeutet dies, dass die tatsächlichen Beobachtungen
stark schwanken, während die prognostizierten Werte kaum schwanken, bzw.
umgekehrt.
• Der Kovarianz Anteil ist schließlich ein Maß für den unsystematischen Prognosefehler.
Bei einer guten Prognose sollte der Bias- und der Varianz-Anteil möglichst klein
sein. Da sich die Anteile natürlich auf 1 ergänzen, sollte der unsystematische Kovarianzanteil möglichst nahe bei Eins liegen.
Literaturverzeichnis
Chow, G. C. (1960), ‘Tests of Equality Between Sets of Coefficients in Two Linear
Regressions’, Econometrica 3, 591–605.
Danilov, D. and Magnus, J. R. (2004), ‘On the harm that ignoring pretesting can
cause’, Journal of Econometrics 122(1), 27 – 46.
URL: http://www.sciencedirect.com/science/article/pii/S0304407603002689
Edgeworth, F. (1885), Observations and Statistics: an Essay on the Theory of Errors of Observation and the First Principles of Statistics, Transactions of the
Cambridge Philosophical Society.
URL: http://books.google.at/books?id=9TesGwAACAAJ
Fisher, R. (1925), Statistical Methods For Research Workers, Cosmo study guides,
Cosmo Publications.
URL: http://books.google.at/books?id=4bTttAJR5kEC
Angewandte Ökonometrie
83
Fisher, R. (1955), ‘Statistical methods and scientific induction’, Journal of the Royal
Statistical Society. Series B (Methodological) 17(1), pp. 69–78.
Gigerenzer, G., Swijtink, Z., Porter, T., Daston, L., Beatty, J. and Kruger, L. (1990),
The Empire of Chance: How Probability Changed Science and Everyday Life (Ideas
in Context), reprint edn, Cambridge University Press.
Gosset, W. S. (1908), ‘The probable error of a mean’, Biometrika 6(1), 1–25. Originally published under the pseudonym “Student”.
URL: http://dx.doi.org/10.2307/2331554
Greene, W. H. (2007), Econometric Analysis, 6th edn, Prentice Hall.
Griffiths, W. E., Hill, R. C. and Judge, G. G. (1993), Learning and Practicing Econometrics, 1 edn, Wiley.
Kahneman, D. (2013), Thinking, Fast and Slow, reprint edn, Farrar, Straus and
Giroux.
URL: http://amazon.com/o/ASIN/0374533555/
Lehmann, E. L. (1993), ‘The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two?’, Journal of the American Statistical Association
88(424), pp. 1242–1249.
Neyman, J. and Pearson, E. S. (1928a), ‘On the use and interpretation of certain test
criteria for purposes of statistical inference: Part i’, Biometrika 20A(1/2), 175–
240.
URL: http://www.jstor.org/stable/2331945
Neyman, J. and Pearson, E. S. (1928b), ‘On the use and interpretation of certain test
criteria for purposes of statistical inference: Part ii’, Biometrika 20A(3/4), 263–
294.
URL: http://www.jstor.org/stable/2332112
Pearson, K. (1900), ‘On a criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can reasonably be
supposed to have arisen from random sampling.’, Philosophical Magazine 50, 157–
175.
Pindyck, R. S. and Rubinfeld, D. L. (1997), Econometric Models and Economic
Forecasts, 4 edn, McGraw-Hill/Irwin.
Salsburg, D. (2002), The Lady Tasting Tea: How Statistics Revolutionized Science
in the Twentieth Century, 1st edition edn, Holt Paperbacks.
URL: http://amazon.com/o/ASIN/0805071342/
Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press.
Wooldridge, J. M. (2012), Introductory Econometrics: A Modern Approach, 5 edn,
South-Western College Pub.
Angewandte Ökonometrie
84
Ziliak, S. T. (2008), ‘Retrospectives: Guinnessometrics: The Economic Foundation
of “Student’s” t’, Journal of Economic Perspectives 28, 199–216.
URL: http://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.22.4.199
Herunterladen