Kapitel 4 Intervallschätzer, einfache Hypothesentests und Prognosen “The greatest enemy of knowledge is not ignorance, it is the illusion of knowledge.” (Stephen Hawking) Im letzten Kapitel haben wir den Erwartungswert und die Varianz des OLSSchätzers berechnet und gezeigt, dass der OLS-Schätzer unter den Gauss-Markov Annahmen erwartungstreu und effizient ist, d.h. nicht nur im Mittel richtig liegt, sondern auch eine ‘größtmögliche Genauigkeit’ bietet. Man beachte, dass die Gauss-Markov Annahmen über die Störterme keine spezifischen Verteilungsannahmen erforderten, sondern nur, dass die Störterme der Grundgesamtheit εi alle aus der gleichen Verteilung mit Mittelwert Null und konstanter Varianz σ 2 stammen (also ‘identically distributed’ sind), und dass die Reihenfolge der Ziehungen keine Rolle spielt, d.h. dass die εi untereinander stochastisch unabhängig sind (E(εi εj ) = 0 für i 6= j).1 Dieses Annahmenset kann kompakt geschrieben werden als εi ∼ iid(0, σ 2 ). Das Modell mit diesem Annahmenset ist in der Literatur als ‘Klassisches Lineares Regressionsmodell’ (CLRM für ‘classical linear regression model’ ) bekannt. Diese ‘größtmögliche Verlässlichkeit’ ist zwar beruhigend, aber für Entscheidungen ist es manchmal trotzdem wichtig zu wissen, wie groß die ‘Genauigkeit’ tatsächlich ist. Um etwas über die Genauigkeit aussagen zu können werden wir eine Formel entwickeln, die es uns erlaubt, aus den Stichprobendaten ein Intervall zu berechnen, das uns zusätzlich etwas über die ‘Genauigkeit’ des Schätzers verrät, einen Intervallschätzer. Die bekanntesten Intervallschätzer sind Konfidenzintervalle (‘confidence interval’, abgekürzt CI). Auch Intervallschätzer beruhen auf der Idee der wiederholten Stichprobenziehungen (repeated sampling). Ein Konfidenzintervall mit einem Signifikanzniveau von 5% (d.h. α = 0.05) erlaubt z.B. die Aussage, dass wir damit rechnen können, dass von 100 Intervallen – die aus 100 Zufallsziehungen berechnet wurden – 95 Intervalle den wahren Wert enthalten. P P Zur Erinnerung: E(U V ) = i j ui vj f (ui , vj ). Stochastische Unabhängigkeit bedeutet f (u , v ) = f (u )f (v ), bei stochastischer Unabhängigkeit gilt also E(U V ) = i j i j P P u v f (u )f (v ), daraus folgt E(U V ) = E(U )E(V ). i j i j i j 1 118 Intervallschätzer, Hypothesentests und Prognosen 119 Für die Berechnung solcher Intervallschätzer benötigen wir erstmals die Annahme der Normalverteilung. Wenn die Störterme εi neben den bereits früher angeführten Gauss-Markov Annahmen zusätzlich noch normalverteilt sind spricht man vom CNLRM (Classical Normal Linear Regression Model ). Dies wird häufig kompakt geschrieben als yi = β0 + β1 xi + εi , εi ∼ nid(0, σ 2 ) wobei nid für ‘normally, independent and identically distributed’ steht. In Zukunft werde ich dies häufig als εi ∼ N (0, σ 2) schreiben, wobei ich das Symbol N für die Normalverteilung verwende (dagegen bezeichnet N die Stichprobengröße). Zusätzlich wird implizit angenommen, dass die Verteilung der εi stochastisch unabhängig von der erklärenden x Variable ist (keine Endogenität). Dies ist auf jeden Fall gewährleistet, wenn die erklärende x Variable deterministisch ist (‘fixed in repeated sampling’ ). In diesem Fall gilt für yi = β0 +β1 xi +εi selbstverständlich auch yi ∼ N (β0 +β1 xi , σ 2 ), denn aus der einführenden Statistik wissen wir, dass jede lineare Funktion einer normalverteilten Zufallsvariable selbst wieder normalverteilt ist. Wenn also die εi (und damit auch die yi ) normalverteilt sind, sind deshalb auch die OLS-Schätzer b normalverteilt, P denn wie wir bereits früherP gezeigt haben sind OLS-Schätzer linear in y (z.B. b1 = i wi yi mit wi = (xi − x̄)/ j (xj − x̄)2 , siehe Seite 93). Wenn die OLS-Schätzer b0 und b1 normalverteilt sind kann man außerdem zeigen, dass sie zudem varianzminimal in der Klasse aller erwartungstreuen Schätzfunktionen sind, unabhängig ob linear oder nicht (siehe C.R. Rao, 1965)! In diesem Kapitel werden wir nun erstmals Gebrauch von der Normalverteilungsannahme machen und die bereits im letzten Kapitel berechneten OLS-Schätzer sowie deren Standardfehler für statistische Tests und für die Bestimmung von Konfidenzintervallen verwenden. Die Normalverteilungsannahme ist nicht ganz so restriktiv wie sie auf den ersten Blick erscheinen mag, da einerseits die Störterme vieler datengenerierender Prozesse tatsächlich annähernd normalverteilt sind, und in anderen Fällen der zentrale Grenzwertsatz unter nicht allzu strengen Annahmen sicher stellt, dass die Stichprobenkennwertverteilungen (sampling distributions) ziemlich rasch gegen eine Normalverteilung konvergieren, und deshalb zumindest asymptotisch gültig bleiben. Sowohl für Hypothesentests als auch für die Berechnung von Konfidenzintervallen ist eine Standardisierung von Zufallsvariablen erforderlich. Für diese Standardisierung sind Erwartungswert und Standardfehler der geschätzten Parameter erforderlich. Für die Berechnung der Standardfehler der Koeffizienten P wird die Varianz von εi (Var(εi ) := σ 2 ) benötigt, da z.B. Var(b1 ) := σb21 = σ 2 / (xi − x̄)2 . Da σ 2 ein unbeobachtbarer Parameter der Grundgesamtheit ist, muss ein Schätzer s2 dafür aus den Stichprobendaten berechnet werden.PIm letzten Kapitel haben wir bereits gezeigt, dass für das bivariate Modell s2 = i e2i /(N − 2) ein solcher erwartungstreuer Schätzer für σ 2 ist. Im nächsten Abschnitt werden wir zunächst zeigen, dass wann immer wir für die Standardisierung den geschätzten Standardfehler s2 anstelle des meist unbekannten ‘wahren’ σ 2 der Grundgesamtheit verwenden, die resultierende Teststatistik nicht mehr normalverteilt ist, sondern t-verteilt ist. Intervallschätzer, Hypothesentests und Prognosen 120 In den beiden darauf folgenden Abschnitten werden wir dies für die Berechnung von Konfidenzintervallen und für Hypothesentests nützen. Im letzten Abschnitt werden wir uns schließlich mit Prognosen beschäftigen. 4.1 Von der Normalverteilung über die Standardisierung zur t-Verteilung Wir beginnen mit einer kurzen Wiederholung der einführenden Statistik. Dort wurP de gezeigt, dass der Stichprobenmittelwert v̄ = 1/N vi einer normalverteilten Zufallsvariable v selbst wieder eine normalverteilte Zufallsvariable ist.2 Wenn vi ∼ N µ, σ 2 dann ist der Mittelwert v̄ = wieder normalverteilt mit N 1 X vi N i=1 v̄ ∼ N σ2 µ, N Sowohl für Hypothesentests als auch für die Bestimmung der Konfidenzintervalle muss eine Standardisierung auf Mittelwert Null und Standardabweichung Eins durchgeführt werden (z-Transformation). Im Falle des Mittelwerts ist diese z-transformierte Zufallsvariable v̄ − µ z = σ ∼ N (0, 1) √ N Wenn σ bekannt ist, ist diese z-transformierte Zufallsvariable selbst wieder normalverteilt, und mit Hilfe der Standardnormalverteilungstabelle können die üblichen Tests durchgeführt werden (vgl. Abbildung 4.1). Das Problem besteht darin, dass die Standardabweichung σ ein Parameter der Grundgesamtheit ist, und deshalb nur in den seltensten Fällen bekannt sein dürfte. Wenn σ unbekannt ist muss es aus den Daten geschätzt werden, und ebenfalls aus der einführenden Statistik ist bekannt, dass v u N u 1 X t s= (vi − v̄)2 N − 1 i=1 ein unverzerrter Schätzer für σ ist. Es scheint also naheliegend, für die z-Transformation einfach σ durch s zu ersetzen, aber leider ist die daraus resultierende Zufallsvariable z̃ nicht mehr normalverteilt v̄ − µ z̃ = s ≁ N (0, 1) √ 2 N Der Mittelwert v̄ ist eine lineare Funktion der einzelnen vi . Deshalb gilt dies auch in kleinen Stichproben. 121 Intervallschätzer, Hypothesentests und Prognosen f (v̄) µ2 = −2 σµ2 = 0.4 0.8 0.6 µ1 = 1.5 σµ1 = 0.5 0.4 0.2 -3 µ2 -2 -1 µ3 0 1 0.4 -2 -1 2 3 v̄ Standardisierte Verteilung mit: µz = 0 σz = 1 0.2 -3 µ1 0 1 2 3 z Abbildung 4.1: Normalverteile Zufallsvariable mit unterschiedlichen Erwartungswerten und Varianzen können auf Erwartungswert Null und Varianz Eins standardisiert werden. Das Problem resultiert daraus, dass der geschätzte Standardfehler s ebenso wie v̄ eine Zufallsvariable ist. Deshalb ist z̃ das Verhältnis zweier Zufallsvariablen, und es gibt keinen Grund anzunehmen, dass das Verhältnis zweier Zufallsvariablen auch wieder normalverteilt ist, auch wenn der Zähler normalverteilt ist. Aber wir erinnern uns in der einführenden Statistik gehört (und hoffentlich auch bewiesen) zu haben, dass das mit Hilfe des geschätzten Standardfehlers s berechnete z̃ einer t-Verteilung folgt. Genau dies wollen wir nun ausführlich für das Regressionsmodell zeigen. Wir starten mit einer Zusammenfassung der Ergebnisse des 3. Kapitels Intervallschätzer, Hypothesentests und Prognosen b1 s2b1 122 P ẍi yi = P 2 ẍi 2 s = P 2 ẍi b0 = ȳ − b1 x̄ P 2 x 2 2 Pi 2 sb0 = s N ẍi s 2 = P e2i N −2 wobei s2 das Quadrat des Standardfehlers der Regression ist, ein unverzerrter Schätzer für die Varianz der Störterme σ 2 . s2b0 und s2b1 sind die geschätzten Varianzen der geschätzten Koeffizienten b0 und b1 . Die Quadratwurzeln dieser Varianzen werden Standardfehler der Koeffizienten genannt. Wir wollen nun zeigen, dass b0 − β0 ∼ tN −2 sb0 und b1 − β1 ∼ tN −2 sb1 das heißt, dass die mit Hilfe der geschätzten Standardfehler standardisierten Koeffizienten t-verteilt mit N − 2 Freiheitsgraden sind. Um dies zu zeigen beginnen wir mit der t-Verteilung. Aus der einführenden Statistik ist bekannt, dass das Verhältnis einer standardnormalverteilten Zufallsvariable und der Wurzel einer davon unabhängig χ2 -verteilten Zufallsvariable, dividiert durch die Freiheitsgrade, t−verteilt ist3 q N (0, 1) χ2N −2 /(N − 2) ∼ tN −2 Eine standardnormalverteilte Zufallsvariable für den Zähler des obigen Bruchs erhalten wir z.B. durch eine Standardisierung (z-Transformation) von b1 b1 − β1 ∼ N (0, 1) σb1 (4.1) p p P wobei σb1 := Var(b1 ) = σ 2 / (xi − x̄)2 . Für den Nenner des obigen Bruchs erinnern wir uns, dass die Quadratsumme einer standardnormalverteilten Zufallsvariable χ2 verteilt ist. Wenn die Stichprobenresiduen normalverteilt sind, d.h. ei ∼ N (0, σ 2 ), folgt P 2 P ei (yi − b0 − b1 xi )2 = ∼ χ2N −2 2 2 σ σ 3 Dieses Ergebnis wurde von W.S. Gosset, dem Chef-Braumeister der Guinness Brauerei, 1919 unter dem Pseudonym “Student” veröffentlicht, vgl. Ziliak (2008). 123 Intervallschätzer, Hypothesentests und Prognosen wobei wir durch σ 2 dividieren müssen damit die Varianz Eins wird. P 2 Unter Verwendung des Standardfehlers der Regression s2 = ei /(N − 2) (siehe Gleichung (3.5), Seite 102) können wir dies umschreiben zu P 2 (N −2)s2 P (N − 2)s2b1 (N − 2)s2 ei (xi −x̄)2 = = = 2 P σ σ2 σ2 σb21 (xi −x̄)2 P P da s2b1 = s2 / (xi − x̄)2 und σb21 = σ 2 / (xi − x̄)2 Deshalb ist der folgende Ausdruck χ2 -verteilt (N − 2)s2b1 ∼ χ2N −2 2 σb1 (4.2) Nun können wir aus der standardnormalverteilten Zufallsvariable (4.1)und der χ2 verteilten Zufallsvariablen (4.2) eine t-verteilte Teststatistik ‘bauen’, da N (0, 1) q 2 ∼ tN −2 χN−2 N −2 ⇒ r b1 −β1 σb1 (N −2)s2b 1 (N −2)σb2 1 = b1 −β1 σb1 sb1 σb1 = b1 − β1 ∼ tN −2 sb1 Die schöne Überraschung dabei ist, dass sich die unbekannte Populationsvarianz σ 2 herauskürzt, und man erhält eine einfache t-verteilte Teststatistik, die unmittelbar aus den Daten berechnet werden kann. b1 − β1 ∼ tN −2 sb1 q p P P s2 / i (xi − x̄)2 , sowie s2 = i e2i /(N − 2). d 1 ) soll andeuten, dass es sich um eine empirische Varianz Das Dach über Var bei Var(b handelt, da die Varianz von b1 mit Hilfe des Schätzers s2 anstelle der wahren Varianz d 1 ) ist also selbst wieder eine Zufallsvariable. σ 2 berechnet wurde; Var(b Ähnlich kann man zeigen, dass mit sb1 := d 1) = Var(b b0 − β0 ∼ tN −2 sb0 Diese Größen sind Beispiele für Teststatistiken. Eine Teststatistik ist – ähnlich wie ein Schätzer – eine Formel, in die man die Stichprobendaten einsetzen kann, und die als Ergebnis eine Kenngröße liefert, deren theoretische Verteilung bekannt ist, und die deshalb für Hypothesentests genützt werden kann. Diese Teststatistiken wollen wir nun für die Bestimmung von Konfidenzintervallen der Koeffizienten und für statistische Tests verwenden. Vorher wollen wir aber noch einmal betonen, dass – wann immer die Standardfehler der Koeffizienten aus den Daten geschätzt werden – der kritische Wert nicht der Standardnormalverteilung entnommen werden darf, sondern einer t Verteilung. Die t-Verteilung ist ähnlich wie die Standardnormalverteilung symmetrisch, hat aber dickere ‘Schwänze’ (‘tails’ ; siehe Abbildung 4.2). Für große N konvergiert die tVerteilung gegen die Standardnormalverteilung. De facto macht es ab einer Stichprobengröße N > 30 kaum einen Unterschied, ob man in der t-Verteilungstabelle oder in der Standardnormalverteilungstabelle nachschlägt. 124 Intervallschätzer, Hypothesentests und Prognosen f (X) ν > 120 0.4 ν=5 0.2 −5 −4 −3 −2 −1 ν=1 0 1 2 3 4 5 Abbildung 4.2: Vergleich der Dichtefunktionen einer t-Verteilung mit ν Freiheitsgraden (blau) und einer Standard-Normalverteilung 4.2 Intervallschätzer und Konfidenzintervalle Punktschätzer dienen zur Schätzung eines unbekannten Parameters einer Grundgesamtheit auf Grundlage einer einzelnen Stichprobe. Die OLS-Punktschätzer b0 und b1 haben wir bereits im letzten Kapitel berechnet. Unter den Gauss-Markov Annahmen und der Normalverteilungsannahme (also den CNLRM Annahmen) gilt σ2 b1 ∼ N β1 , P (xi − x̄)2 P σ 2 x2i b0 ∼ N β0 , P N (xi − x̄)2 Von diesen Punktschätzern wissen wir, dass sie unter den Gauss-Markov Annahmen unverzerrt und effizient sind, also die kleinste Varianz aller linearen Schätzfunktionen haben. Punktschätzer liefern eine Schätzung für den interessierenden Parameter der Grundgesamtheit, aber sie können nicht gleichzeitig die Unsicherheit der Schätzung vermitteln. Für diesen Zweck werden wir nun Intervallschätzer entwickeln, die zusätzlich eine Beurteilung der Unsicherheit (oder Präzision) einer Schätzung erlauben. Intervallschätzer beruhen auf Punktschätzern, erlauben aber darüber hinausgehend eine Abschätzung der Genauigkeit der Schätzung. Er gibt – vereinfacht gesprochen – ein Vertrauensintervall um den geschätzten Wert des Parameters an, das auch eine Beurteilung der Signifikanz erlaubt. Zur Berechnung eines solchen Vertrauensintervalls um die geschätzten Parameter benötigen wir die vorhin hergeleitete Verteilung der standardisierten OLS-Koeffizienten. Wenn die Varianz der Störterme der Grundgesamtheit σ 2 bekannt wäre, könnten wir 125 Intervallschätzer, Hypothesentests und Prognosen wie üblich durch z-Transformation eine standardnormalverteilte Prüfgröße z bilden z-Stat(b0 ) = z-Stat(b1 ) = b0 − β0 b0 − β0 ∼ N (0, 1) = q P 2 xi σb0 P σ N (xi −x̄)2 b1 − β1 b1 − β1 =q 2 σb1 P σ (xi −x̄)2 ∼ N (0, 1) Wenn die Varianz σ 2 aus der Stichprobe geschätzt werden muss sind – wie im letzten Abschnitt gezeigt – die entsprechenden Teststatistiken t-verteilt t-Stat(b0 ) = t-Stat(b1 ) = b0 − β0 b0 − β0 = q P 2 ∼ tN −2 xi sb0 s N P(xi −x̄) 2 b1 − β1 b1 − β1 = ∼ tN −2 √P s sb1 2 (xi −x̄) Für Intervallschätzer wird meist eine konkrete Wahrscheinlichkeit angegeben, ein Konfidenzniveau, das die Angabe eines (1 − α) Konfidenzintervalls (oder Vertrauensbereichs) ermöglicht. Ein 95% Konfidenzintervall (α = 0.05) gibt z.B. an, dass wir bei 100-facher Wiederholung des Versuchs (Ziehungen) damit rechnen können, dass 95 der berechneten Konfidenzintervalle den wahren Parameter enthalten. Für eine standardnormalverteilte Zufallsvariable z gilt bekanntlich P [z ≤ −1.96] = P [z ≥ +1.96] = 0.025 und P [−1.96 ≤ z ≤ +1.96] = 1 − 0.05 = 0.95 wobei 1.96 der kritische Wert z0.025 der Standardnormalverteilung ist.4 Daraus folgt (für k = 0, 1) bk − βk P −1.96 ≤ ≤ +1.96 = 0.95 σbk Dies ermöglicht die Berechnung eines 95% Konfidenzintervalls, aber es kann natürlich auch für jede andere Wahrscheinlichkeit α ein entsprechendes Konfidenzintervall berechnet werden. Der von der Forscherin gewählte Wert von α wird Signifikanzniveau genannt (engl. ‘significance level’ oder auch ‘size of a test’ ; im vorhergehenden Beispiel wurde α = 0.05 gewählt5 ). Der zum α gehörende kritische Wert 4 Die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable einen Wert kleiner als −1.96 annimmt ist 0.025, bzw. 2.5%. Da die Wahrscheinlichkeit, dass sie einen Wert größer als +1.96 annimmt, ebenfalls 2.5% beträgt, ist die Wahrscheinlichkeit dafür, dass sie einen Wert kleiner als −1.96 oder größer als +1.96 annimmt, 0.05, bzw. 5%. 5 Das Signifikanzniveau von α = 5% hat sich traditionell eingebürgert, obwohl Rosnow & Rosenthal (1989) vermutlich Recht haben wenn sie behaupten: “God loves 0.06 nearly as much as 0.05.” 126 Intervallschätzer, Hypothesentests und Prognosen f (b) 0.50 0.25 (1 − α) α/2 −4 −3 −2 −1 0 α/2 1 2 3 4 Abbildung 4.3: Konfidenzintervall für eine standardnormalverteilte Zufallsvariable. der Normalverteilung zα/2 kann in jeder Tabelle für die Standardnormalverteilung nachgeschlagen werden. bk − βk P −zα/2 ≤ ≤ +zα/2 = 1 − α σbk Wenn σ durch die Stichprobenschätzung s ersetzt wird ist der kritische Wert tcα/2 der t-Tabelle zu entnehmen, aber das Prinzip bleibt gleich bk − βk c c ≤ +tα/2 = 1 − α P −tα/2 ≤ sbk Wir lösen den Ausdruck in der Klammer nach dem unbeobachtbaren βk (k = 0, 1), über das wir eine Aussage machen wollen bk − βk c c P −tα/2 ≤ ≤ +tα/2 = 1 − α sbk P −tcα/2 · sbk ≤ bk − βk ≤ +tcα/2 · sbk = 1 − α P −bk − tcα/2 · sbk ≤ −βk ≤ −bk + tcα/2 · sbk = 1 − α P +bk + tcα/2 · sbk ≥ βk ≥ bk − tcα/2 · sbk = 1 − α also Dieses Intervall P bk − tcα/2 · sbk ≤ βk ≤ bk + tcα/2 · sbk = 1 − α bk − tcα/2 · sbk ; bk + tcα/2 · sbk wird allgemein als Konfidenzintervall bezeichnet. Wenn hypothetisch unendlich viele Stichproben gezogen würden, so würden wir bei einem Signifikanzniveau von 5% erwarten, dass 95% der berechneten Konfidenzintervalle den wahren Wert βk enthalten. Abbildung 4.4 veranschaulicht das Prinzip. Die Abbildung zeigt den ‘wahren’ Wert β und die Konfidenzintervalle aus sieben Stichproben. Wir sehen, dass sechs dieser 127 Intervallschätzer, Hypothesentests und Prognosen Konfidenzintervalle den ‘wahren’ Wert β enthalten, nur die fünfte Stichprobe (b5 ) führt zu einem Konfidenzintervall, das den ‘wahren’ Wert β nicht enthält. Bei unendlich oft wiederholten Stichprobenziehungen würden wir ein solches Resultat in nicht mehr als 5% der Fälle erwarten. Man beachte, dass sich die Konfidenzintervalle nicht nur durch die Lage der geschätzten b unterscheiden, sondern auch unterschiedlich breit sind, da auch sb eine Zufallsvariable ist. f (b) Grundgesamtheit (1 − α) α/2 c b b β Wiederholte Stichprobenziehungen b1 c b c b α/2 c b b2 b3 b4 c b b5 c b b6 c b b7 Abbildung 4.4: ‘Wahres’ β [= E(b)] und Konfidenzintervalle für 7 Stichproben. Quelle: nach Bleymüller et al. 2002, S. 86. Beispiel: Angenommen, wir haben eine Regressionsgleichung ŷi = 10.45 − 2.48 xi (4.32) (1.62) N = 19, R2 = 0.74 wobei die q Werte in Klammern unter den Koeffizienten die geschätzten Standardfehler d k ) der Koeffizienten sind. sb := Var(b k Da N = 19 haben wir 17 Freiheitsgrade, und der kritische t-Wert für 17 Freiheitsgrade und ein Signifikanzniveau von 5% ist tc17,0.025 = 2.11 Ein 95% Konfidenzintervall für b0 erhalten wir [10.45 − 2.11 × 4.32; 10.45 + 2.11 × 4.32] 128 Intervallschätzer, Hypothesentests und Prognosen bzw. [1.335; 19.565] Wie ist dies zu interpretieren? Wenn wir hypothetisch unendlich viele Stichproben aus einer normalverteilten Grundgesamtheit von y (bei gegebenen x) ziehen würden, und wir würden für jede dieser Stichproben auf Grundlage des geschätzten b0 und des Standardfehlers von b0 ein z.B. 95% Konfidenzintervall berechnen, dann würden 95% dieser so ermittelten Konfidenzintervalle den wahren Wert β0 enthalten. Ähnlich erhalten wir das Konfidenzintervall für b1 [−2.48 − 2.11 × 1.62; −2.48 + 2.11 × 1.62] bzw. [−5.898; +0.938] Noch einmal: da b1 und sb1 Zufallsvariablen sind erhält man für jede Stichprobe ein anderes Konfidenzintervall. Würden wir z.B. 100 unabhängige Stichproben ziehen würden wir bei einem gewählten Signifikanzniveau von 5% erwarten, dass 95 der berechneten Konfidenzintervalle den ‘wahren’ Wert β1 enthalten. Achtung: Dies erlaubt uns nicht zu sagen, dass der ‘wahre’ Wert β1 mit 95% Wahrscheinlichkeit im Konfidenzintervall [−5.898; +0.938] liegt. Intervallschätzer und Konfidenzintervalle beruhen auf der Idee der wiederholten Stichprobenziehungen (‘repeated sampling’ ). Sobald eine Stichprobe gezogen ist enthält das dazugehörige Konfidenzintervall den wahren Wert β oder es enthält ihn nicht, es gibt keine Möglichkeit dazwischen. Abbildung 4.4 verdeutlicht dies. Wenn wir zufällig Stichprobe 5 (mit b5 ) gezogen hätten liegt das wahre β nicht im Konfidenzintervall. Wenn wir behaupten würden, das wahre β liegt mit 95% Wahrscheinlichkeit in diesem Konfidenzintervall, dann wäre dies offensichtlich Unsinn, denn ganz offensichtlich liegt das wahre β mit 100% Sicherheit außerhalb des fünften Konfidenzintervalls! Wir fassen die Schritte zur Bestimmung eines Intervallschätzers bk für βk (k = 0, 1) noch einmal zusammen: 1. Berechnung des Punktschätzers bk , und – falls σ 2 unbekannt ist – eines Schätzers s2 für σ 2 . 2. Festlegung eines Signifikanzniveaus α und Bestimmung des dazugehörigen kritischen Wertes tcα/2 für N − 2 Freiheitsgrade (für eine bivariate Regression mit unbekanntem σ 2 ). 3. Berechnung des Intervallschätzers P [bk − tcα/2 · sbk ≤ βk ≤ bk + tcα/2 · sbk ] = 1 − α 4. Interpretation des Intervallschätzers; unter den angeführten Annahmen können wir davon ausgehen, dass bei wiederholten Stichprobenziehungen (1 − α)100% der geschätzten Konfidenzintervalle den ‘wahren’ Wert β enthalten. Man beachte, dass das Konfidenzintervall ceteris paribus umso enger ist, je . . . Intervallschätzer, Hypothesentests und Prognosen 129 • größer das frei gewählte Signifikanzniveau α ist, • kleiner die Varianz σ 2 (bzw. dessen Schätzer s2 ), und • größer die Stichprobe (N) ist. 4.3 Einfache Hypothesentests Wir haben bisher Punkt- und Intervallschätzer für unbekannte Parameter der Grundgesamtheit berechnet. Selbstverständlich kann dieses Instrumentarium auch eingesetzt werden um Hypothesen über die Grundgesamtheit empirisch zu testen. 4.3.1 Grundlagen Bei Hypothesentests wird generell von einer Vermutung über eine Eigenschaft (oder einen Zusammenhang in) der Grundgesamtheit ausgegangen. Mit Hilfe von stichprobenartig erhobenen Daten wird überprüft, inwieweit diese Daten mit den postulierten Eigenschaften der Grundgesamtheit (bzw. des datengenerierenden Prozesses) kompatibel sind. Wir werden nun die Stichprobenkennwertverteilung (‘sampling distribution’) von b heranziehen um eine Methode zu entwickeln, die es uns erlaubt zu beurteilen, inwieweit die Stichprobendaten mit einer Hypothese kompatibel sind. Hypothesen werden in der Statistik generell mit der logischen Alternative zur Anfangsvermutung präsentiert, die akzeptiert wird, wenn die Hypothese selbst verworfen werden muss. Die Nullhypothese (H0 ) wird dabei solange als ‘wahr’ betrachtet, bis sie durch einen statistischen Test verworfen werden kann. Die Alternativhypothese (HA oder manchmal auch H1 ) – die logische Alternative zur Nullhypothese – steht dabei für alle Ergebnisse, die der Nullhypothese widersprechen. Sowohl Null- als auch Alternativhypothese sind immer Aussagen über unbeobachtbare Parameter der Grundgesamtheit! Ist das Stichprobenergebnis bei Gültigkeit der Nullhypothese (man sagt auch ‘unter der Nullhypothese’) sehr unwahrscheinlich, so wird die Nullhypothese verworfen; andernfalls wird sie akzeptiert. Es ist üblich die Nullhypothese als ‘Negativhypothese’ zu formulieren, mit der behauptet wird, dass die zur Alternativhypothese komplementäre Aussage wahr sei, d.h. die Nullhypothese behauptet häufig das Gegenteil der Anfangsvermutung. Allerdings ist man in der Wahl, was Null- und was Alternativhypothese sein soll, nicht völlig frei, sondern diese Wahl muss statistisch-technischen Anforderungen genügen. Als Faustregel kann man sich merken, dass die Nullhypothese immer das ‘ist gleich’ (=, bzw. ≥ oder ≤) Zeichen enthalten muss. Bei der Hypothesenformulierung ist insbesondere darauf zu achten, dass der postulierte Zusammenhang in der Grundgesamtheit so präzise wie möglich in die Form einer statistisch testbaren Hypothese überführt wird. Das bedeutet auch, dass die Intervallschätzer, Hypothesentests und Prognosen 130 Stichprobe in allen relevanten Eigenschaften der Grundgesamtheit entsprechen sollte. Ein Hypothesentest in der Tradition von Neyman-Pearson ist schließlich eine Entscheidungsregel, die uns erlaubt, anhand der empirischen Evidenz zwischen Null- und Alternativhypothese zu entscheiden. Achtung: getestet wird die Nullhypothese, nicht die eigentlich interessierende operationalisierte Anfangsvermutung (Alternativhypothese). Fast immer muss die ceteris paribus Bedingung akzeptiert werden. Deshalb sollte man sich unbedingt Klarheit über die spezifischen Annahmen verschaffen (z.B. unterscheiden sich die Stichproben wirklich nur in dem hier interessierenden Zusammenhang oder sind Scheinkorrelationen zu befürchten? Ist die Stichprobe wirklich zufällig gezogen, oder ist ein sample selection bias zu befürchten?). Manchmal wird diese Art des Testens mit einem Indizienprozess in einem Gerichtsverfahren verglichen: Die prinzipiell geltende Unschuldsvermutung (sprich Nullhypothese) darf erst bei entsprechend überzeugenden Indizien verworfen werden. Die Rolle des Staatsanwaltes (der Ökonometrikerin) ist es genügend Indizien zu sammeln, um die Unschuldsvermutung (Nullhypothese) ‘glaubhaft’ verwerfen zu können. Die Ökonometriker suchen ihre Indizien in der Stichprobe, und die Stelle der Geschworenen wird von einem Signifikanzniveau übernommen. Dieser Vergleich hinkt allerdings etwas, da Gerichtsverfahren z.B. nicht auf wiederholten Experimenten beruhen.6 Aber ähnlich wie in einem Indizienprozess von der Unschuldsvermutung wird in der Statistik von der Gültigkeit der Nullhypothese ausgegangen. Es ist offensichtlich nicht das gleiche, ob von der Schuld eines Angeklagten ausgegangen wird und dieser seine Unschuld beweisen muss, oder ob prinzipiell von der Unschuld ausgegangen wird und die Schuld (Vermutung) erst vom Staatsanwalt (Ökonometriker) bewiesen werden muss (Umkehr der Beweislast). Die Nullhypothese stellt bei Hypothesentests die Basis dar, von der aus entschieden wird, ob die Alternativhypothese akzeptiert werden darf oder nicht. Nur wenn die Evidenz aus der Stichprobe ‘kaum’ mit der Nullhypothese in Übereinstimmung zu bringen ist, darf sie zugunsten der Alternativhypothese verworfen werden. Die Rolle der Statistik liegt also nicht darin etwas zu beweisen, sondern darin, die jeweilige Gegenbehauptung mit möglichst überzeugenden Argumenten zu entkräften. Die Hypothesen sollten aus der ökonomischen Theorie gewonnen werden, müssen aber fast immer durch ‘gesunden Menschenverstand’ und ähnliche Quellen ergänzt, bzw. präziser spezifiziert werden. Achtung: Informationen aus der Stichprobe dürfen nie zur Bildung von Hypothesen verwendet werden (‘data mining’ )! Der sicherste Schutz davor ist die Stichprobe erst anzusehen, wenn die Hypothesen bereits gebildet sind. Hypothesen betreffen immer Aussagen über die unbeobachtbare Grundgesamtheit, nie Aussagen über die Stichprobe. 6 siehe z.B. Liu, T. and C. Stone (2006), ‘Law and Statistical Disorder: Statistical Hypothesis Test Procedures And the Criminal Trial Analogy’, Working Papers from Ball State University, Department of Economics, No 200601, http://web.bsu.edu/cob/econ/research/papers/bsuecwp200601r1liu.pdf Intervallschätzer, Hypothesentests und Prognosen 131 Testkriterien: Eine Teststatistik ist ganz allgemein eine Formel die angibt, wie die Nullhypothese mit der Evidenz (den Indizien) aus der Stichprobe konfrontiert werden kann. Sie ist selbst eine Zufallsvariable, deren theoretische Verteilung bekannt ist. Wenn die empirische Teststatistik – d.h. der Wert der Teststatistik, den man erhält, wenn man die Beobachtungen der Stichprobe in die Formel einsetzt – in den Verwerfungsbereich (‘region of rejection’, ‘critical region’ ) fällt, wird die Nullhypothese verworfen, anderenfalls muss sie akzeptiert werden. Der Verwerfungsbereich ist dabei eine Teilmenge aus dem Stichprobenraum, die Komplementärmenge dazu wird Annahmebereich (‘acceptance region’ ) genannt. Ein statistischer Test wird im Idealfall in folgenden Schritten durchgeführt (vgl. Kmenta 1990, S.120ff): Ausgangssituation: Formuliere die Annahmen und nicht zu testenden Hintergrundhypothesen ( z.B. b ist normalverteilt mit . . . ) Schritt 1 Formuliere die Alternativ- und Nullhypothese (z.B. HA : β 6= 0, β = 0) H0 : Schritt 2 Wähle die Teststatistik (z.B. t-Stat = b/sb ). Schritt 3 Bestimme die Verteilung der Teststatistik unter der Annahme, dass die Nullhypothese gilt (z.B. b/sb ∼ tN −2 ) Schritt 4 Wähle das Signifikanzniveau und bestimme den Annahme- und Verwerfungsbereich (z.B. akzeptiere die Nullhypothese wenn −1, 96 ≤ b/sb ≤ +1, 96; anderenfalls verwirf die Nullhypothese) Schritt 5 Ziehe die Stichprobe und werte sie aus (liegt der berechnete Wert der Teststatistik innerhalb/außerhalb des Annahmebereichs?) Schritt 6 Formuliere die Schlussfolgerung (z.B. ‘die Hinweise aus der Stichprobe führen zu einer Beibehaltung/Ablehnung der Nullhypothese’) Achtung: Die Stichprobe wird erst am Ende des Verfahrens analysiert! 4.3.2 Zweiseitige Hypothesentests Bei Hypothesen- bzw. Parametertests wird stets von einer Vermutung bezüglich eines Parameterwertes der Grundgesamtheit ausgegangen. Die im Rahmen der Regressionsanalyse vermutlich häufigste Vermutung ist, dass zwischen zwei Variablen x und y ‘ein Zusammenhang’ besteht, d.h. dass im Modell yi = β0 + β1 xi + εi gilt: β1 6= 0. 132 Intervallschätzer, Hypothesentests und Prognosen Üblicherweise wird die Gegenbehauptung zu dieser ‘Anfangsvermutung’ als Nullhypothese angenommen, und die ‘Anfangsvermutung’ als Alternativhypothese bezeichnet, also H0 : HA : β1 = 0 β1 6= 0 Obwohl dies der mit Abstand häufigste Test ist kann natürlich gegen eine andere Zahl als Null getestet werden, z.B. könnte getestet werden ob der Wert der Einkommenselastizität gleich Eins (Nullhypothese) oder ungleich Eins (Alternativhypothese) ist. Deshalb formulieren wir die Nullhypothese etwas allgemeiner H0 : HA : βk = βk0 βk 6= βk0 wobei k = 0, 1 (für β0 , β1 ) und in βk0 die Anfangsvermutung zum Ausdruck kommt (wie schon erwähnt ist die häufigste Nullhypothese βk0 = 0). Um die Schreibweise zu vereinfachen wollen wir im weiteren den Subindex k weglassen, aber im Gedächtnis behalten, dass dies jeweils für β0 und β1 gilt. Im Folgenden wollen wir mit β 0 den Wert bezeichnen, der mit der Nullhypothese getestet werden soll. Wenn die H0 : β = β 0 wahr ist (d.h. unter der Annahme der Gültigkeit der Nullhypothese) kann man im Konfidenzintervall β durch β 0 ersetzen P [b − tcα/2 · sb ≤ β 0 ≤ b + tcα/2 · sb ] = 1 − α Dies lässt sich wieder umformen in ein um b zentriertes Konfidenzintervall P [β 0 − tcα/2 · sb ≤ b ≤ β 0 + tcα/2 · sb ] = 1 − α oder β 0 − tcα/2 sb ; β 0 + tcα/2 sb Wenn die Nullhypothese β = β 0 wahr ist (!) und wir unendlich viele Stichproben ziehen, dann h würden wir erwarteni in (1 − α) × 100% der Fälle einen Wert für b im Intervall β 0 − tcα/2 sb ; β 0 + tcα/2 sb zu erhalten. Tatsächlich können wir üblicherweise nur eine Stichprobe beobachten. Wenn die Nullhypothese in der Grundgesamtheit wahr ist, dann ist es sehr unwahrscheinlich, dass das für diese Stichprobe berechnete b nicht in dieses Konfidenzintervall fällt. Wenn nun das in dieser Stichprobe berechnete b aber tatsächlich außerhalb des Konfidenzintervalls liegen sollte widerspricht dies der Nullhypothese. Wir können also mit einer Irrtumswahrscheinlichkeit von α × 100% die Nullhypothese verwerfen und deshalb die (eigentlich interessierende) Alternativhypothese akzeptieren. Diese Überlegungen lassen sich auch grafisch demonstrieren. Wenn die GaussMarkov Annahmen erfüllt sind, die Störterme der Grundgesamtheit normalverteilt 133 Intervallschätzer, Hypothesentests und Prognosen sind (εi ∼ N (0, σ 2 )) sowie ein Schätzer s2 für σ 2 aus der Stichprobe berechnet wurde, und wenn die Nullhypothese wahr ist, dann ist der standardisierte Schätzer für die Regressionskoeffizienten t-verteilt mit N − 2 Freiheitsgraden b − β0 ∼ tN −2 sb Abbildung 4.5 zeigt die standardisiere Stichprobenkennwertverteilung von b unter Gültigkeit der Nullhypothese β = β 0 . Die beiden schraffierten Flächen an den Enden der Verteilung decken gemeinsam α×100% der Gesamtfläche ab (in diesem Fall 5%). Wenn eine tatsächliche Realisation von b in den schraffierten Bereich fällt ist dies bei Gültigkeit der Nullhypothese ein sehr unwahrscheinliches Ereignis, deshalb kann man die Nullhypothese mit einer Irrtumswahrscheinlichkeit von α × 100% verwerfen, man sagt, der geschätzte Wert ist auf einem Signifikanzniveau von α × 100% statistisch signifikant vom Wert der Nullhypothese verschieden. f (b) (1 − α) α/2 β 0 − tcα sb 2 Verwerfungsbereich β0 α/2 β 0 + tcα sb Annahmebereich b 2 Verwerfungsbereich Abbildung 4.5: Wahrscheinlichkeitsverteilung eines Schätzers b unter der Prämisse, dass H0 : β = β 0 wahr ist. Man beachte, dass die der Grafik zugrunde liegende Information ausschließlich aus der statistischen Theorie folgt, nicht aus den Stichprobendaten! Erst in einem nächsten Schritt wird aus den Daten der Wert der empirischen tStatistik berechnet und überprüft, in welchen Bereich dieser fällt. Beispiel: Angenommen, wir haben eine Regressionsgleichung ŷi = 10.45 − 2.48 xi (4.32) (1.62) N = 19, R2 = 0.74 wobei die Werte in Klammern unter den Koeffizienten die geschätzten Standardfehler sbk der Koeffizienten sind. Intervallschätzer, Hypothesentests und Prognosen 134 Um zu testen, ob die beiden geschätzten Koeffizienten auf dem 5% Niveau von Null verschieden sind berechnen wir die entsprechende t-Statistiken 10.45 − 0 b0 − β00 = = 2.42 ∼ tN −2 sb0 4.32 −2.48 − 0 b1 − β10 t-Stat(b1 ) = = = −1.531 ∼ tN −2 sb1 1.62 t-Stat(b0 ) = Der kritische t-Wert für 17 Freiheitsgrade und α/2 = 0.025 ist 2.11, deshalb können wir die Nullhypothese β0 = 0 auf einem Signifikanzniveau von 5% verwerfen (|2.42| > tc ), während die Nullhypothese β1 = 0 auf diesem Signifikanznveau nicht verworfen werden kann (| − 1.531| < tc ). Da diese t-Statistiken für die statistische Beurteilung des Regressionsoutputs derart wichtig sind werden sie von allen gängigen statistischen Software Programmen standardmäßig ausgegeben, wobei diesen Statistiken jeweils die Nullhypothese βk = 0 zugrunde liegt. Der Wert der ausgegebenen t-Statistik ist deshalb einfach Koeffizient dividiert durch Standardfehler: t-Stat(bk ) = bk /sbk . Die Vorgangsweise für einen zweiseitigen Parametertest kann folgenderweise zusammengefasst werden: 1. Formulierung von Alternativ- und Nullhypothese H0 : HA : β = β0 β 6= β 0 2. Überprüfen, ob alle zugrunde liegenden Annahmen (korrekte Spezifikation, unverzerrte Stichprobe, etc.) erfüllt sind. 3. Festlegung eines Signifikanzniveaus α und Ermittlung des dazugehörigen kritischen Wertes tcα/2 für N − 2 Freiheitsgrade mittels einer t-Tabelle und Bestimmung des Akzeptanz- und Verwerfungsbereichs, z.B. Akzeptanzbereich: −tcα/2 bis +tcα/2 Verwerfungsbereich: −∞ bis −tcα/2 und +tcα/2 bis +∞. 4. Berechnung des Punktschätzers b und des Standardfehlers von b (sb ) aus der Stichprobe. 5. Berechnung der empirischen Teststatistik, z.B. der t-Statistik t= b − β0 sb 6. Überprüfen, ob der empirische Wert der t-Statistik in den Akzeptanz- oder Verwerfungsbereich fällt. Fällt der berechnete Wert der t-Statitik in den Verwerfungsbereich kann die Nullhypothese verworfen werden. 135 Intervallschätzer, Hypothesentests und Prognosen 4.3.3 Einseitiger Hypothesentest Bisher haben wir die Nullhypothese in einer Form spezifiziert, dass β einen bestimmten Wert β 0 annimmt (z.B. β = 0), und die Ablehnungsbereiche von H0 lagen an beiden Rändern der Verteilung. Häufig hat man es aber mit ‘gerichteten’ Hypothesen der Form H0 : HA : β ≤ β0 β > β0 zu tun. Auf den ersten Blick mag es unmöglich erscheinen diese Hypothese zu testen, da β ≤ β 0 unendlich viele Fälle umfasst. Es zeigt sich allerdings, dass es genügt den aus Sicht der Forscherin potentiell ungünstigsten Fall zu wählen, nämlich dass die Nullhypothese H0 : β = β 0 wahr ist. Wenn diese Nullhypothese verworfen werden kann, so können auch alle β < β 0 verworfen werden, deshalb genügt es H0 : β = β 0 gegen HA : β > β 0 zu testen. Abbildung 4.6 zeigt den Unterschied zwischen ein- und zweiseitigen Hypothesentests. Die obere Abbildung zeigt den bisherigen zweiseitigen Test, die untere Abbildung einen rechtsseitigen Test. Wenn der rechtsseitige Test ebenfalls auf einem 5% Signifikanzniveau durchgeführt werden soll muss offensichtlich die ‘kritische Wahrscheinlichkeitsmasse’ auf der rechten Seite verdoppelt werden, d.h. die schraffierte Fläche am rechten Ende deckt α × 100% der gesamten Fläche ab (in diesem Fall 5%). Deshalb wird man nicht den kritischen Wert tcα/2 , sondern tcα wählen. Wenn wir vermuten β ≤ β 0 und aus einer Stichprobe einen Wert b > β 0 + tcα sb erhalten (also einen t-Wert, der in den schraffierten Verwerfungsbereich fällt), so ist dies nur ‘schwer’ mit der Nullhypothese vereinbar und wir werden die Nullhypothese mit einer Irrtumswahrscheinlichkeit von α × 100% verwerfen. Implizit bedeutet dies, dass wir die Alternativhypothese akzeptieren. Die Vorgangsweise für einen einseitigen t-Test kann folgendermaßen zusammengefasst werden: 1. Formulierung von Alternativ- und Nullhypothese H0 : HA : β ≤ β0 β > β0 oder H0 : HA : β ≥ β0 β < β0 und überprüfen, ob alle zugrunde liegenden Annahmen (korrekte Spezifikation, unverzerrte Stichprobe, etc.) erfüllt sind. Hinweis: das ‘gleich’ Zeichen (≥ oder ≤) gehört stets zur Nullhypothese. 2. Festlegung eines Signifikanzniveaus α und Ermittlung des dazugehörigen kritischen Wertes tcα für N − 2 Freiheitsgrade mittels einer t Tabelle 3. Bestimmung des Akzeptanz- und Verwerfungsbereichs. 136 Intervallschätzer, Hypothesentests und Prognosen f (b) Verwerfungs- Verwerfungsbereich Annahmebereich bereich Zweiseitig: H0 : β 6= β 0 (1 − α) α/2 β0 β 0 − tcα sb 2 α/2 β 0 + tcα sb b 2 f (b) Einseitig: H0 : β ≤ β 0 α (1 − α) β0 β 0 + tcα sb Annahmebereich b Verwerfungsbereich Abbildung 4.6: Zweiseitiger und rechtsseitiger Test mit gleichem Signifikanzniveau α. Akzeptanzbereich: Verwerfungsbereich: H0 : β ≤ β 0 HA : β > β 0 H0 : β ≥ β 0 HA : β < β 0 −∞ bis +tcα +tcα bis +∞ −tcα bis +∞ −∞ bis −tcα Hinweis: Als Merkhilfe können Sie sich einprägen, dass der Verwerfungsbereich stets zur Gänze im Bereich der Alternativhypothese liegt! 4. Berechnung des Punktschätzers b und dessen Standardfehlers aus der Stichprobe. 5. Ermittlung des empirischen Werts der Teststatistik, d.h. des t-Wertes eines Regressionskoeffizienten b b − β0 t= sb 6. Überprüfen, ob der empirische Wert der Teststatstik in den Akzeptanz- oder den Verwerfungsbereich fällt. Intervallschätzer, Hypothesentests und Prognosen 137 Beispiel: Angenommen, wir haben eine Regressionsgleichung ŷi 10.45 − 2.48 xi (4.32) (1.62) N = 19, R2 = 0.74 = wobei die Werte in Klammern unter den Koeffizienten wieder die geschätzten Standardfehler sbk der Koeffizienten sind. Wir vermuten einen negativen Zusammenhang zwischen x und y, deshalb sind Null- und Alternativhypothese H0 : HA : β1 ≥ 0 β1 < 0 Können wir aufgrund dieser Regression die Nullhypothese β1 ≥ 0 auf einem Signifikanzniveau von 5% verwerfen? Der geschätzte Koeffizient ist zwar negativ, aber ist er ‘genügend negativ’ um die Nullhypothese überzeugend verwerfen zu können? Der empirische Wert der t-Statistik ist t-Stat(b1 ) = −2.48 − 0 b1 − β1 = = −1.531 ∼ tN −2 sb1 1.62 Der kritische t-Wert für 17 Freiheitsgrade und ein Signifikanzniveau von 5% ist 1.74. Wenn die Nullhypothese β1 ≥ 0 wahr ist würden wir einen positiven Wert für b1 erwarten, allerdings könnte ein nur leicht negativer Wert noch mit der Nullhypothese kompatibel sein. Der Akzeptanzbereich für die Nullhypothese ist deshalb in diesem Beispiel [−1.74, +∞], und der entsprechende Verwerfungsbereich [−∞, −1.74]. Der empirisch ermittelte Wert t = −1.531 fällt eindeutig in den Akzeptanzbereich, das heißt, die Nullhypothese darf nicht verworfen werden! Was sind Akzeptanz- und Verwerfungsbereich für folgende Null- und Alternativhypothese? H0 : HA : β1 ≥ −1 β1 < −1 Der kritische t-Wert für 17 Freiheitsgrade und ein Signifikanzniveau von 5% ist nach wie vor 1.74. Der Akzeptanzbereich bleibt deshalb unverändert und erstreckt sich von −1.74 bis +∞, und ebenso der Verwerfungsbereich [−∞, −1.74]. Was sich ändert ist der empirische t-Wert, nämlich t-Stat(b1 ) = b1 − β1 −2.48 − (−1) = = −0.91 sb1 1.62 Dieser Wert fällt wieder eindeutig in den Akzeptanzbereich, deshalb kann die Nullhypothese nicht verworfen werden. Analog dazu können Akzeptanz- und Verwerfungsbereich für H0 : HA : β1 ≤ −1 β1 > −1 Intervallschätzer, Hypothesentests und Prognosen 138 angegeben werden. Der Akzeptanzbereich erstreckt sich von −∞ bis +1.74, und der Verwerfungsbereich ist deshalb [+1.74, +∞]. Der bereits vorhin ermittelte empirische t-Wert −0.91 fällt also wieder in den Akzeptanzbereich, die Nullhypothese kann nicht verworfen werden. In diesem Beispiel kann also weder die Nullhypothese β1 ≤ −1 noch die Nullhypothese β1 ≥ −1 verworfen werden. 4.3.4 p-Wert Bisher haben wir ein Signifikanzniveau α vorgegeben und überprüft, ob der aus der Stichprobe ermittelte t-Wert in die Akzeptanz- oder Ablehnungsregion fällt. Lag der aus der Stichprobe ermittelte t-Wert im Verwerfungsbereich wurde die Nullhypothese zugunsten der Alternativhypothese verworfen. Mittlerweile geben so gut wie alle Statistikprogramme einen p -Wert aus, der die Interpretation vereinfachen soll. Der p-Wert gibt die Wahrscheinlichkeit an, dass bei Gültigkeit der Nullhypothese ein zufälliger Versuch (Stichprobenziehung) ein mindestens so ‘extremes’ Ergebnis liefert wie der beobachtete. Der p-Wert wird manchmal auch als marginales Signifikanzniveau bezeichnet, da er das Niveau angibt, ab dem die Nullhypothese gerade zu verwerfen ist. Die Vorgangsweise soll anhand eines rechtsseitigen Tests erläutert werden. Man berechnet zuerst aus der Stichprobe den empirischen t-Wert und benutzt diesen t-Wert um ein Konfidenzintervall (−∞, t] zu bilden (im Unterschied zum vorhergehenden Konfidenzintervall (−∞, tcα ]). Anschließend fragt man, wie groß unter Gültigkeit der Nullhypothese die Wahrscheinlichkeit p ist, bei wiederholten Stichprobenziehungen einen t-Wert außerhalb dieses Intervalls zu erhalten. Die Nullhypothese wird abgelehnt, wenn p < α. Abbildung 4.7 veranschaulicht die Vorgangsweise. Die Vorgangsweise für einen zweiseitigen Test erfolgt analog, in diesem Fall bezeichnet der p -Wert die Wahrscheinlichkeitsmasse, die außerhalb des Intervalls [−t, t] liegt; es ist also einfach die doppelte Fläche eines einseitigen Tests zu verwenden. Die Nullhypothese wird wieder abgelehnt, wenn p-Wert < α (siehe Abbildung 4.8). Computerprogramme berechnen den p-Wert meist mit Hilfe der Verteilungsfunktion Z t F (t) = f (x) dx −∞ Für einen zweiseitigen Test ist der p-Wert p-Wert = 2(1 − F (|t|) wobei |t| der Absolutwert der berechneten Teststatistik ist, und F in diesem Fall die Verteilungsfunktion bezeichnet (nicht die F -Statistik!). Der p-Wert hat im Vergleich mit dem traditionellen t-Wert den Vorteil, dass er ohne Nachschlagen in einer Tabelle interpretiert werden kann und außerdem direkter zum Ausdruck bringt, wie deutlich die Nullhypothese abgelehnt oder akzeptiert worden 139 Intervallschätzer, Hypothesentests und Prognosen f (t) α t t tcα f (t) p -Wert t t Abbildung 4.7: Einseitiger Parameter Test auf Basis des t- und p -Wertes. f (t) p -Wert t t Abbildung 4.8: Zweiseitiger Parameter Test auf Basis des p -Wertes. ist. Andererseits hat der traditionelle t-Wert den Vorteil, dass mit seiner Hilfe auch andere Nullhypothesen als β = 0 getestet werden können, oder dass übliche Konfidenzintervalle berechnet werden können. In der ökonometrischen Literatur werden aus diesem Grund eher die Standardfehler der Koeffizienten (oder t-Statistiken) als die p-Werte angegeben. 4.3.5 Ein numerisches Beispiel Gegeben seien folgende 5 Beobachtungen für x und y: Intervallschätzer, Hypothesentests und Prognosen y: 2.6 1.6 4.0 x: 1.2 3.0 4.5 140 3.0 4.9 5.8 7.2 Berechnen Sie die Punktschätzer b0 und b1 , deren Standardabweichungen sb0 und sb1 , die t-Statistiken und das Bestimmtheitsmaß R2 . y x y ẍ ẍy y2 ẍ2 x2 1 2.60 1.20 −0.62 −3.14 1.95 0.38 9.86 1.44 2 1.60 3.00 −1.62 −1.34 2.17 2.62 1.80 9.00 3 4.00 4.50 0.78 0.16 0.12 0.61 0.03 20.25 4 3.00 5.80 −0.22 1.46 −0.32 0.05 2.13 33.64 5 4.90 7.20 1.68 2.86 4.80 2.82 8.18 51.84 Summe: 16.10 21.70 0.00 0.00 8.73 6.49 21.99 116.17 P wobei ÿi = yi − ȳ, mit ȳ = 1/N 5i=1 yi = 16.10/5 = 3.22, usw. Anhand dieser Tabelle können einfach die Koeffizienten b0 und b1 berechnet werden P ẍi yi 8.73 b1 = Pi 2 = ≈ 0.397 21.99 i ẍi b0 = ȳ − b1 x̄ = (16.1/5) + 0.397 × (21.7/5) ≈ 1.498 Mit Hilfe dieser geschätzten Koeffizienten können nun die gefitteten y (b y ) und die geschätzten Residuen ei berechnet werden: ybi = b0 + b1 xi und ei = yi − ybi = yi − b0 − b1 xi . 1 2 3 4 5 Summe: yb e e2 1.974 0.626 0.392 2.688 -1.088 1.184 3.283 0.717 0.513 3.799 -0.799 0.639 4.355 0.545 0.297 16.100 0.000 3.026 Mit Hilfe der Quadratsumme der Residuen können wir einen Schätzer für die Varianz der Störterme εi berechnen P 2 3.026 2 i ei s = = = 1.008564 N −2 3 und den Standardfehler der Regression sP r 2 3.026 i ei s= = = 1.004273 N −2 3 Dieser gestattet uns nun die Berechnung der Standardabweichungen der Koeffizienten sb0 und sb1 s r s2 1.008564 P 2 = sb1 = = 0.21415 21.99 i ẍi s P r s2 x2i 1.008564 × 116.17 P 2 = sb0 = = 1.03224 N ẍi 5 × 21.99 Intervallschätzer, Hypothesentests und Prognosen 141 Nun haben wir die Koeffizienten b0 und b1 sowie deren Standardabweichungen sb0 und sb1 berechnet und können diese für Hypothesentests nützen. Wenn die Nullhypothese getestet werden soll, ob kein Zusammenhang zwischen x und y besteht, also H0 : β1 = 0 HA : β1 6= 0 erhalten wir die Teststatistik t-Stat(b1 ) = 0.397 b1 − 0 = = 1.853 sb1 0.21415 Der kritische Wert der t-Verteilung für ein 5% Signifikanzniveau ist für 3 Freiheitsgrade tc0.025 = 3.1824. Unser aus der Stichprobe berechneter Wert t-Stat(b1 ) = 1.853 ist deutlich kleiner, also dürfen wir die Nullhypothese β1 = 0 auf einem Signifikanzniveau von 5% nicht verwerfen! Ähnlich können wir die Nullhypothese β0 = 0 testen. Die entsprechende Teststatistik ist b0 1.498 t-Stat(b0 ) = = = 1.451 sb0 1.03224 Da der kritische Wert für ein 5% Signifikanzniveau wieder tc0.025 = 3.1824 ist, darf auch die Nullhypothese β0 = 0 nicht verworfen werden. Um den p-Wert von b0 zu berechnen benötigen wir die Fläche unter der Dichte der t-Verteilung mit 3 Freiheitsgraden, die links von 1.451 liegt. Da diese Fläche gleich dem Wert der Verteilungsfunktion an der Stelle 1.451 ist können wir diese mit einem geeigneten Programm berechnen, in EViews z.B. mit der Funktion @ctdist(1.451,3) (für cumulated t-distribution, Wert, Freiheitsgrade)), und erhalten als Ergebnis Ft (1.451, 3) = 0.8787. Die Fläche unter der t-Verteilung rechts von 1.451 ist 1 − 0.8787 = 0.1213, und da es sich um einen zweiseitigen Test handelt benötigen wir das Doppelte dieser Fläche (links von −1.451 und rechts von +1.451), also ist der p-Wert von b0 gleich 2(1 − 0.8787) = 0.2426. Ähnlich für b1 , Ft (1.853, 3) = 0.9195, der p-Wert von b1 ist also 2(1 − 0.9195) = 0.16098. Schließlich ist noch das Bestimmtheitsmaß R2 zu berechnen P 2 e 3.026 2 R =1− P i i 2 =1− = 0.534 6.49 i (yi − ȳ) Diese Werte können mit einem entsprechenden Computerprogramm natürlich weit einfacher berechnet werden. Mit EViews erhalten wir z.B. folgenden Output: Dependent Variable: Y Included observations: 5 Variable Coefficient Std. Error t-Stat. Prob. C 1.498 1.032 1.451 0.243 X 0.397 0.214 1.853 0.161 R-squared 0.534 SE of regression 1.00427 142 Intervallschätzer, Hypothesentests und Prognosen 4.3.6 Typ I und Typ II Fehler Selbst wenn die Nullhypothese wahr ist, und deshalb nicht verworfen werden sollte, können wir uns irren und sie irrtümlich verwerfen. Selbst wenn alle Annahmen erfüllt sind und wir keine Fehler gemacht haben müssen wir – wenn der Test sehr oft mit unterschiedlichen Stichprobendaten wiederholt wird (repeated sampling) – in α Prozent der Fälle mit einem Wert der Teststatistik rechnen, der uns zur Ablehnung der Nullhypothese veranlasst, obwohl sie richtig ist (Verwerfungsfehler, d.h. unberechtigte Verwerfung der Nullhypothese). Die Wahrscheinlichkeit dafür wird durch den Typ I Fehler beschrieben. Im Falle eines einfachen t-Tests eines Regressionsmodells veranlasst uns ein Typ I Fehler z.B. an einen Zusammenhang zwischen x und y zu glauben, obwohl in der Grundgesamtheit kein solcher Zusammenhang existiert. Das Signifikanzniveau α (auch ‘size of a test’ genannt) ist also definiert als α = P [Typ I Fehler] = P [Verwerfung H0 |H0 wahr] Durch die Wahl des Signifikanzniveaus kann die Wahrscheinlichkeit eines Typ I Fehlers (d.h. eine richtige Nullhypothese zu verwerfen), unmittelbar gesteuert werden. Wann immer die potentiellen Kosten eines Typ I Fehlers sehr hoch sind sollte ein entsprechend kleines Signifikanzniveau gewählt werden (z.B. α ≤ 0.01). Aber es kann auch ein anderer Fehler passieren, nämlich dass eine falsche Nullhypothese irrtümlich nicht verworfen wird. Dies wird als Typ II (oder β-) Fehler bezeichnet. Zum Beispiel, Im Falle eines Typ II Fehlers existiert tatsächlich ein Zusammenhang zwischen x und y, aber wir verwerfen die Nullhypothese nicht, es handelt sich also um einen ‘Nicht-Verwerfungsfehler’. Tabelle 4.1 zeigt Typ I und Typ II Fehler, und Tabelle 4.2 zeigt den Vergleich mit einem Gerichtsurteil. Tabelle 4.1: Typ I und Typ II Fehler Entscheidung auf Grundlage eines statistischen Tests: Nullhypothese H0 wird nicht verworfen Nullhypothese H0 wird verworfen Wahrer Sachverhalt: H0 ist wahr korrekte Entscheidung (1 − α) Typ I Fehler Wahrer Sachverhalt: H0 ist falsch Typ II Fehler korrekte Entscheidung (1 − β: “Power ”) Während die Wahrscheinlichkeit eines Typ I Fehlers durch Wahl des Signifikanzniveaus vorgegeben werden kann, ist dies für den Typ II Fehler nicht so einfach möglich, denn die Wahrscheinlichkeit eines Typ II Fehlers hängt von der Verteilung um das ‘wahre’ β ab. Zur Illustration gehen wir von einer sehr einfachen Null- und Alternativhypothese aus, nämlich H0 : HA : β = β0 β = βA 143 Intervallschätzer, Hypothesentests und Prognosen Tabelle 4.2: Vergleich Typ I und Typ II Fehler mit einem Gerichtsurteil Gericht fällt Entscheidung “unschuldig” Gericht fällt Entscheidung “schuldig” Angeklagter ist unschuldig Angeklagter ist schuldig richtige Entscheidung Schuldiger wird freigesprochen Unschuldiger wird verurteilt richtige Entscheidung f (b) Verteilung unter H0 Verteilung unter HA bc βA bc x b β 0Typ II Typ I Fehler Fehler Akzeptiere H0 Verwirf H0 f (b) Verteilung unter H0 Verteilung unter HA bc β 0 Typ II Fehler Akzeptiere H0 x bc βA Typ I Fehler b Verwirf H0 Abbildung 4.9: Typ I und Typ II Fehler: Durch die Wahl eines höheren Signifikanzniveaus (d.h. kleineren α) sinkt die Wahrscheinlichkeit eines Typ I Fehlers, aber dadurch steigt die Wahrscheinlichkeit eines Typ II Fehlers.[Folien: local, www] Intervallschätzer, Hypothesentests und Prognosen 144 wobei β 0 und β A fixe Zahlen sind. Abbildung 4.9 zeigt diesen Fall. Die linke durchgezogene Verteilung ist die Stichprobenkennwertverteilung von b unter Gültigkeit der Nullhypothese. Wenn die Nullhypothese tatsächlich wahr ist fallen bei oftmaliger Wiederholung α × 100 Prozent der geschätzten b in den Bereich rechts von x (einseitiger Test), und die schraffierte Fläche darüber gibt die Wahrscheinlichkeit für einen Typ I Fehler an. Ein Typ II Fehler passiert hingegen, wenn eine tatsächlich falsche Nullypothese nicht verworfen wird. Wenn die Nullypothese falsch ist muss die Alternativhypothese wahr sein, in diesem einfachen Fall also β = β A . Die rechte strichlierte Verteilung in Abbildung 4.9 zeigt die Stichprobenkennwertverteilung von b wenn tatsächlich die Alternativhypothese richtig ist. Die Wahrscheinlichkeit dafür, dass die Alternativhypothese richtig ist, aber die Nullhypothese nicht abgelehnt wird, entspricht der horizontal schraffierten Fläche in Abbildung 4.9 (die Fläche unter der strichliert gezeichneten Verteilung links von x). In der Realität wissen wir nicht, ob die Null- oder die Alternativhypothese richtig ist, deshalb wissen wir auch nicht welche der beiden Stichprobenkennwertverteilungen die wahre ist. Aber wir wissen, dass nur entweder die Nullhypothese oder die Alternativhypothese richtig sein kann. Wenn die durchgezogene Stichprobenkennwertverteilung (unter H0 ) die wahre Verteilung ist, machen wir bei einem einseitigen Test in α × 100 Prozent der Fälle einen Typ I Fehler. Wenn aber die Alternativhypothese wahr ist und die strichlierte Stichprobenkennwertverteilung (unter HA ) die wahre Verteilung ist, dann machen wir mit einer Wahrscheinlichkeit, die durch die Fläche des horizontal schraffierten Bereichs (links von x) gegeben ist, einen Typ II Fehler. Man beachte, dass der Wert des Typ II Fehlers von der Annahme über das wahre β abhängt. Die untere Grafik von Abbildung 4.9 zeigt den gleichen Zusammenhang für ein kleineres Signifikanzniveau α. Daraus lassen sich zwei wichtige Schlussfolgerungen ziehen: 1. Die Wahrscheinlichkeit von Typ I und Typ II Fehler sind invers verknüpft, d.h. je niedriger die Wahrscheinlichkeit ist einen Typ I Fehler zu machen, umso höher ist die Wahrscheinlichkeit eines Typ II Fehlers. Dies erkennt man, wenn man die obere und untere Grafik in Abbildung 4.9 vergleicht, die für unterschiedliche Signifikanzniveaus gezeichnet sind. 2. Die Wahrscheinlichkeit eines Typ II Fehlers ist umso höher, je näher β A bei β 0 liegt. Auch wenn es nicht möglich ist beide Arten von Fehler zu kontrollieren, so kann man doch zeigen, dass diese Teststrategie zumindest ‘bestmöglich’ in dem Sinne ist, dass sie für eine gegebene Wahrscheinlichkeit eines Typ I Fehlers die Wahrscheinlichkeit eines Typ II Fehlers minimiert. 4.3.7 Trennschärfe eines Tests (‘Power of a Test ’) Wie bereits ausgeführt sind bei einem statistischen Test zwei Fehler möglich: Typ I Fehler – Ablehnung einer wahren Nullhypothese, und Typ II Fehler – Akzeptanz 145 Intervallschätzer, Hypothesentests und Prognosen einer falschen Nullhypothese. Die Wahrscheinlichkeit, mit der eine falsche Nullhypothese tatsächlich abgelehnt wird (also kein Typ II Fehler gemacht wird), wird Trennschärfe oder ‘Power’ eines Tests genannt. Die Trennschärfe eines Tests gibt an, mit welcher Wahrscheinlichkeit tatsächliche Unterschiede durch einen statistischen Test aufgedeckt werden können. Da die Wahrscheinlichkeit einen vorhandenen Unterschied nicht festzustellen durch den Typ II Fehler angegeben wird, ist die Trennschärfe Eins minus die Wahrscheinlichkeit für einen Typ II Fehler (vgl. Abbildung 4.10). Power = P [Verwerfung H0 |H0 ist falsch] = 1 − P [Akzeptanz H0 |H0 ist falsch] = 1 − P [Typ II Fehler] Die ‘Power ’, also die Wahrscheinlichkeit mit der eine falsche Nullhypothese tatsächlich verworfen wird, sollte natürlich möglichst nahe bei Eins liegen. f (b) Verteilung unter H0 Verteilung unter HA ‘Power ’ β0 β b Abbildung 4.10: Die ‘Power’ oder Trennschärfe eines Tests ist Eins minus Wahrscheinlichkeit eines Typ II Fehlers, also die Wahrscheinlichkeit, mit der eine falsche Nullhypothese tatsächlich verworfen wird. Im vorhergehenden Beispiel hatten wir eine sehr einfache Null- und Alternativhypothese, nämlich H0 : β = β 0 und HA : β = β A . Nun wollen wir eine etwas realistischere Alternativhypothese untersuchen, nämlich H0 : HA : β = β0 β 6= β 0 Dies ändert nichts für den Typ I Fehler (wahre H0 verwerfen), dieser wird nach wie vor durch das gewählte Signifikanzniveau angegeben. Aber in diesem Fall kann die Wahrscheinlichkeit für einen Typ II Fehler (falsche H0 akzeptieren) nicht mehr durch eine einfache Zahl angegeben werden, sondern hängt vom wahren und unbeobachtbaren β ab. Wenn β sehr nahe bei β 0 liegt wird ceteris paribus die Wahrscheinlichkeit für einen Typ II Fehler höher sein, und also die Power des Tests niedriger sein. Intervallschätzer, Hypothesentests und Prognosen 146 Wie Abbildung 4.10 zeigt hängt die ‘Power’ außer vom Signifikanzniveau α auch vom unbeobachtbaren ‘wahren’ Wert β der Grundgesamtheit ab, und ist deshalb unbeobachtbar. Aber man kann die Power als Funktion aller möglichen β darstellen. Diese Funktion zwischen Trennschärfe und möglichen ‘wahren’ Parameterwerten der Grundgesamtheit wird Teststärkefunktion (power function) genannt. Beispiel: Gegeben folgende Schätzung yi = 6.505 + 0.31xi (3.02) (0.082) R2 = 0.42, N = 24 (Standardfehler in Klammern) Wir interessieren uns für den Steigungskoeffizienten b, der in dieser Stichprobe den Wert 0.31 hat. Den wahren Wert in der Grundgesamtheit bezeichnen wir mit β. Um die Powerfunktion für b mit α = 0.05 zu berechnen benötigen wir zuerst das 95% Konfidenzintervall für b b − tc(22,α=0.025) × sb ≤ β ≤ b + tc(22,α=0.025) × sb 0.31 − 2.074 × 0.082 ≤ β ≤ 0.31 + 2.074 × 0.082 da der kritischer Wert der t-Verteilung tc(22,α=0.025) = 2.074 ist. Also ist für die H0 : β = 0.31 und α = 0.05 das Konfidenzintervall 0.14 ≤ β ≤ 0.48 Die Größe des Typ II Fehlers hängt von β ab. Für die grafische Darstellung wählen wir eine spezifische Alternativhypothese, nämlich H0 : β = 0.31, HA : β = 0.5 und berechnen für diese den Typ II Fehler und die Power. Abbildung 4.11 zeigt das Prinzip: wenn die Nullhypothese β = 0.31 richtig ist, ist die Stichprobenkennwertverteilung von b die mit durchgezogener Linie gezeichnete Verteilung um 0.31. Wenn hingegen die Alternativhypothese richtig sein sollte ist die Stichprobenkennwertverteilung von b die mit strichlierter Linie gezeichnete Verteilung um β = 0.5 (eine dritte Möglichkeit lassen wir im Moment nicht zu, d.h. wir nehmen an, dass entweder β = 0.31 oder β = 0.5, aber wir wissen nicht, welche der beiden Hypothesen wahr ist). Wenn die Nullhypothese tatsächlich richtig ist, machen wir mit Wahrscheinlichkeit α einen Typ I Fehler. Wenn hingegen die Alternativhypothese (β = 0.5) richtig ist, können wir die Wahrscheinlichkeit für einen Typ II Fehler einfach berechnen P (Typ II Fehler|β = 0.5) = P (0.14 ≤ b ≤ 0.48|β = 0.5) 0.14 − 0.5 0.48 − 0.5 = P ≤t≤ 0.082 0.082 = P (−4.39 ≤ t ≤ −0.244) = Φtdf=22 (−0.244) − Φtdf=22 (−4.39)) = 0.404746 − 0.000116 = 0.40463 147 Intervallschätzer, Hypothesentests und Prognosen f (b) 4 3 2 1 Typ II Fehler 0 0.31 0.5 0.14 b 0.48 Standardisierung: f (t) Typ II Fehler -5 -4 -4.39 -3 -2 -1 Power 0 -0.244 1 2 3 t Abbildung 4.11: Berechnung des Typ II Fehlers für H0 : β = 0.31, HA : β = 0.5; [Folien: local, www] Intervallschätzer, Hypothesentests und Prognosen 148 wobei Φtdf=22 (−0.244) der Wert der Verteilungsfunktion einer t-Verteilung mit 22 Freiheitsgraden an der Stelle −0.244 ist; in EViews: @ctdist(Wert, degrees of freedom); z.B. @ctdist(-0.244,22) = 0.404746 Die Trennschärfe oder Power ist einfach Eins minus die Wahrscheinlichkeit für einen Typ II Fehler: Power = 1 − P (Typ II Fehler) = 1 − 0.40463 = 0.59537 Bisher haben wir die Power nur für eine sehr spezielle Alternativhypothese berechnet, nämlich HA : β = 0.5. Üblicherweise umfasst die Alternativhypothese alle Fälle, die nicht durch die Nullhypothese abgedeckt werden, also z.B. H0 : β = 0.31 und HA : β 6= 0.31. Offensichtlich ist die Power eine Funktion des β, das unter der Alternativhypothese angenommen wurde, und da die Alternativhypothese unendlich viele Fälle enthält scheint die Situation aussichtslos. Man kann aber die Power zumindest für viele verschiedene β berechnen, und den Zusammenhang zwischen β und der Power grafisch darstellen. Diese Vorgangsweise ergibt die Power- oder Trennschärfe-Funktion. Da die händische Berechnung dieser vielen Power’s für die einzelnen β etwas mühsam wäre, lässt man diese Arbeit besser den Computer erledigen. Das folgende EViews Programm berechnet die Power in Schritten von 0.01 für alle β zwischen −0.3 und 1.2 (also für insgesamt 150 verschiedene β) und stellt sie grafisch dar. Abbildung 4.12 zeigt das Ergebnis. wfcreate u 150 series Power series Beta !j = 1 for !i = -0.3 to 1.2 step 0.01 Beta(!j) = !i Power(!j) = 1 - (@ctdist((0.48 - !i)/0.082,22) - _ @ctdist((0.14 - !i)/0.082,22)) !j = !j + 1 next graph POWERFUNKT.xyline Beta Power POWERFUNKT.addtext(t) "Power-Funktion" show POWERFUNKT Wiederholungsfrage: Wie sieht die Power-Funktion für einen einseitigen Test aus? 149 Intervallschätzer, Hypothesentests und Prognosen Power-Funktion 1.0 POWER 0.8 0.6 0.4 0.2 0.0 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 BETA Abbildung 4.12: Power Funktion Effizientere Schätzfunktionen erlauben trennschärfere Tests Die ‘Power’ eines Tests nimmt mit der Stichprobengröße zu. Abbildung 4.13 zeigt in der oberen Grafik die Power für eine kleine Stichprobe (kleines N), und in der unteren Grafik für eine große Stichprobe. Die zugrunde liegende Null- und Alternativhypothese ist in beiden Grafiken gleich. Offensichtlich ist die ‘Power’ bei der großen Stichprobe deutlich größer! Man beachte, dass die Power aus zwei Gründen zunimmt: erstens ist die Varianz der unbeobachtbaren wahren Verteilung bei einer größeren Stichprobe kleiner, und zweitens liegt der kritische Wert der Verteilung tcαg näher beim β 0 . Abbildung 4.14 zeigt zwei typische Teststärkefunktionen, eine mit kleinerer ‘Power’ (strichlierte Linie) und eine mit größerer ‘Power’. 4.3.8 Ein Wort zur Warnung Statistische vs. theoretische Gültigkeit Statistische Tests setzen korrekt spezifizierte Modelle voraus. Sind die Modelle falsch spezifiziert sind die Tests nicht interpretierbar. Typisches Beispiel: Die Zahl der Störche in Österreich korrelierte lange Zeit hoch signifikant mit der Anzahl der Geburten. Warum? Beide folgten einem Trend, die Zahl der Geburten nahm mit dem Einkommen ab, die Zahl der Störche mit der Umweltverschmutzung. Die nicht berücksichtigte Variable Trend (‘omitted variable’) erklärt die Korrelation zwischen den zwei kausal nicht verknüpften Variablen. Dies ist nur ein Beispiel für die altbekannte Tatsache, dass Korrelation, oder eine signifikante Teststatistik, kein Garant für Kausalität ist! 150 Intervallschätzer, Hypothesentests und Prognosen f (b) Verteilung unter H0 Verteilung unter HA ‘Power ’ tcαk β0 β b f (b) großes N Verteilung unter H0 Verteilung unter HA kleines N Power b β b tcαg tcαk 0 b β Abbildung 4.13: Die ‘Power’ eines Tests nimmt mit der Stichprobengröße N zu. 1.0 0.5 α 0 β0 b Abbildung 4.14: Teststärkefunktionen (‘Power Functions’) für zwei Tests (zweiseitig). Die durchgezogene Teststärkefunktion hat eine größere ‘Power’ als die strichlierte. Teststatistiken sind kein Substitut für eine Theorie, sondern ein Komplement, d.h. Teststatistiken sind nur in Kombination mit einer gültigen theoretischen Erklärung Intervallschätzer, Hypothesentests und Prognosen 151 sinnvoll, wie seit langer Zeit bekannt ist “In 1948, Frederick Mosteller (1916-) argued that a ‘third kind of error’ was required to describe circumstances he had observed, namely: • Type I error: ‘rejecting the null hypothesis when it is true’. • Type II error: ‘accepting the null hypothesis when it is false’. • Type III error: ‘correctly rejecting the null hypothesis for the wrong reason’.”7 Ein nettes Beispiel dafür liefert die Medizin8 “Selbstversuche haben in der Medizin Tradition. An die Grenze der menschlichen Belastbarkeit ging dabei der angehende Arzt Stubbins Ffirth am Anfang des 19. Jahrhunderts. Er war überzeugt, dass Malaria nicht ansteckend ist, sondern auf übermäßige Hitze, Essen und Lärm zurückzuführen sei. Um seine These zu erhärten, setzte er sich selbst der Krankheit aus. Zuerst brachte er nur kleine Mengen von frischem Erbrochenem in sich selbst zugefügte kleine Kratzer ein. Danach tropfte er kleine Mengen in seine Augen. Am Ende der Testreihe aß er die frischen Exkremente eines Kranken. Wie durch ein Wunder blieb er tatsächlich gesund. Er sah seine Behauptung somit belegt.” Der wackere Stubbins Ffirth konnte damals nicht wissen, dass die Malaria durch den Biss der weiblichen Stechmücke Anopheles übertragen wird, sein heldenmütiger Verzehr frischer Exkremente lieferte offensichtlich keinen Beweis für die Richtigkeit seiner Hypothese. Ein humorvoller Vorschlag für einen Typ IV Fehler stammt von dem Harvard Ökonom Howard Raiffa, “solving the right problem too late” ;-) Statistische Signifikanz und ‘Relevanz’ einer Variablen Manchmal wird statistische Signifikanz mit der Bedeutung einer Variable verwechselt (Effektstärke). Statistische Signifikanz sagt nichts darüber aus, ob die Größe des gemessenen Koeffizienten auch praktisch relevant ist. Da der geschätzte Koeffizient auch von der Dimension abhängt, in der die Variablen gemessen wurden, kann es manchmal nützlich sein, den Koeffizienten einer Variable mit dem Mittelwert dieser Variable zu multiplizieren (bk x̄k ), um einen Eindruck von der quantitativen ‘Bedeutung’ einer Variable zu bekommen. Ein Zusammenhang kann zwar statistisch hoch signifikant sein, aber für praktische Zwecke völlig bedeutungslos sein! 7 zitiert aus Wikipedia: http://en.wikipedia.org/wiki/Type_I_error; Quelle: Mosteller, F., A k-Sample Slippage Test for an Extreme Population, The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp.58-65. 8 zitiert aus http://science.orf.at/science/news/149922, [05.11.2007]. Intervallschätzer, Hypothesentests und Prognosen 152 Signifikanz und Stichprobengröße Umso größer eine Stichprobe ist, umso eher ist ein t-Test signifikant. Wenn die Stichprobe sehr groß ist kann fast jede Nullhypothese verworfen werden. für N → ∞ : t = β b ≈ =∞ se(b) 0 Trotzdem muss das Resultat nicht von praktischer Bedeutung sein, denn die Signifikanz sagt z.B. nichts über die ökonomische Bedeutung (Relevanz) eines Ergebnisses aus. Mein persönlicher Rat ist in erster Linie auf die geschätzten Koeffizienten und die Konfidenzintervalle zu achten. Die Gültigkeit von Test hängt von einer Reihe von Annahmen ab, die oft schwer zu überprüfen sind, z.B. • ist die vorliegende Stichprobe tatsächlich eine Zufallsstichprobe, oder ist ein sample selection bias zu befürchten? • ist die der Hypothese zugrunde liegende Kausalitätsvorstellung tatsächlich angebracht, oder ist simultane Kausalität zu befürchten? • wurden alle relevanten Einflussfaktoren berücksichtigt, oder könnte das Ergebnis durch eine unbeobachtete Variable verursacht worden sein (omitted variable bias)? • usw. Ein Test ist in erster Linie eine Entscheidungsregel, aber diese Entscheidungsregel ist nur anwendbar, wenn sie auf zutreffender Information beruht. Erinnern Sie sich, die erste Tugend einer Wissenschaftlerin ist Skepsis; fragen Sie sich stets ‘was könnte das Ergebnis, dass Sie zu sehen glauben, sonst verursacht haben als das, was Sie zu sehen wünschen?’ Tests können – vernünftig angewandt – ein sehr mächtiges und nützliches Werkzeug sein, aber man kann damit auch ziemlich viel Unfug anrichten. Ein statistischer Test ist übrigens auch nie ein Beweis für irgendetwas, es gibt keine statistischen Beweise im Sinne der Logik! Zusammenfassend: Blindes Vertrauen ist meistens dumm. Blindes Vertrauen in einen statistischen Test ist davon keine Ausnahme. Intervallschätzer, Hypothesentests und Prognosen 4.4 153 Prognosen “Prediction is very difficult, especially (Niels Bohr) about the future.” “Que Sera, Sera, The future’s not ours, to see Whatever will be, will be (Doris Day) Que Sera, Sera” Eine der wesentlichen Aufgaben von Ökonometrikerinnen ist die Erstellung von Prognosen. Wie kann man die Ausprägung einer Zufallsvariablen prognostizieren, die nicht beobachtet wurde (z.B. der Wert der Variablen y in der nächsten Periode T +1, oder der Konsum einer Person, die nicht befragt wurde)? Gebräuchlichen Konventionen entsprechend bezeichnen wir den zu prognostizierenden Wert der abhängigen Variablen mit y0 . In vielen Fällen wird dies der Wert der nächsten Periode sein, d.h. yT +1 . Den entsprechenden Wert der erklärenden Variablen bezeichnen wir mit x0 . Da Prognosen hauptsächlich für Zeitreihen relevant sind verwenden wir t als Index über die Beobachtungen, und bezeichnen die Größe der Stichprobe mit T . Offensichtlich können Prognosen mit Hilfe einer Regression sehr einfach durchgeführt werden. Wenn z.B. eine Gleichung ybt = 15 + 2.5xt geschätzt wurde, kann für ein x0 = 4 sofort der Wert y0 = 25 prognostiziert werden. In diesem Abschnitt werden wir nicht nur einfache Prognosen diskutieren, sondern auch Konfidenzintervalle für die prognostizierten Werte ermitteln. Prinzipiell unterscheidet man zwischen “bedingten” und “unbedingten” Prognosen. Bei einer bedingten Prognose wird von einem a priori bekannten Wert der erklärenden Variable x0 im Prognosezeitraum ausgegangen. Eine bedingte Prognose macht also Aussagen über eine interessierende Variable y, bedingt auf Annahmen über die x Variable. Berechnet wird sie einfach, indem man x0 in die geschätzte Regressionsgleichung einsetzt. Oft möchte man aber einfach eine bestmögliche Prognose für y, ohne spezifische Annahmen über die x treffen zu müssen. Eine solche Prognose nennt man eine unbedingte Prognose. Um eine solche unbedingte Prognose machen zu können müssen meist in einem ersten Schritt Prognosen für die x Variable(n) erstellt werden. Da die ökonomische Theorie für die Prognose der erklärenden Variable(n) oft wenig hilfreich ist, werden für die Prognose der x Variable(n) oft Zeitreihenmethoden eingesetzt. Mit Hilfe dieser Prognosen für die erklärenden Variable(n) wird dann in einem zweiten Schritt der Wert der abhängigen Variablen y0 prognostiziert. Wir beschäftigen uns im folgenden ausschließlich mit bedingten Prognosen, einige Hinweise zu unbedingten Prognosen finden sich z.B. bei Pindyck/Rubinfeld (1998), S. 221f. Wenn das Regressionsmodell verzögerte abhängige Variablen enthält, also z.B. yt = β0 + β1 yt−1 + εt Intervallschätzer, Hypothesentests und Prognosen 154 unterscheidet man außerdem zwischen statischen und dynamischen Prognosen. Bei einer statischen Prognose werden jeweils die realisierten verzögerten Werte yt−1 für die Prognose herangezogen, für eine dynamische Prognose werden jeweils die prognostizierten Werte der verzögerten Variable ybt−1 verwendet. Dynamische Prognosen sind v.a. in der Zeitreihenökonometrie von Bedeutung. Außerdem unterscheidet man ähnlich wie bei Parameterschätzungen auch bei Prognosen zwischen Punkt- und Intervallprognosen. Das Prognosemodell für den bivariaten Fall sei y0 = β0 + β1 x0 + ε0 mit ε0 ∼ N (0, σ 2) bzw. y0 ∼ N (β0 + β1 x0 , σ 2 ), wobei y0 , x0 und ε0 Skalare sind. 4.4.1 Punktprognose In der Stichprobe gelte y0 = b0 + b1 x0 + e0 , bzw. yb0 = b0 + b1 x0 . Wenn das geschätzte Modell z.B. ybt = 6 + 0.8xt wäre, würden wir für x0 = 5 den Prognosewert yb0 = 10 erhalten. Natürlich ist yb0 = b0 + b1 x0 eine Zufallsvariable und man kann wie üblich den Erwartungswert und die Varianz von yb0 berechnen. Allerdings ist es im Gegensatz zur üblichen Parameterschätzung bei Prognosen üblich Erwartungswert und Varianz des Prognosenfehlers yb0 − y0 anzugeben, nicht der Prognose yb0 selbst. Der Prognosefehler, d.h. die Abweichung des tatsächlichen vom prognostizierten Wert, ist also yb0 − y0 = (b0 − β0 ) + (b1 − β1 )x0 − ε0 wobei ε0 , β0 und β1 wieder unbekannt und unbeobachtbar sind. In diesem Ausdruck für den Prognosefehler gibt es drei Zufallsvariablen, b0 , b1 und ε0 , die alle den Prognosefehler beeinflussen. Dies macht die Berechnung der Varianz des Prognosefehlers leider etwas umständlich. Aber beginnen wir mit dem Erwartungswert. Der Prognosewert ist unverzerrt, wenn der Erwartungswert des Prognosefehlers Null ist. Dies ist unter den gegebenen Annahmen der Fall, da E[b y0 − y0 ] = E[(b0 − β0 ) + (b1 − β1 )x0 − ε0 ] = E[(b0 − β0 )] + E[(b1 − β1 )x0 ] − E[ε0 ] = 0+0+0=0 wenn die OLS Schätzer b0 und b1 erwartungstreu sind. Die Varianz des Prognosefehlers ist im bivariaten Fall " # 2 1 (x0 − x̄) Var(b y0 − y0 ) = σ 2 1 + + PT 2 T t=1 (xt − x̄) Intervallschätzer, Hypothesentests und Prognosen 155 Beweis: Var[b y0 − y0 ] = E[b y 0 − y 0 ]2 = E[(b0 − β0 ) + (b1 − β1 )x0 − ε0 ]2 = E (b0 − β0 )2 + (b1 − β1 )2 x20 + ε20 + 2(b0 − β0 )(b1 − β1 )x0 − 2(b0 − β0 )ε0 − 2(b1 − β1 )x0 ε0 ] = E[(b0 − β0 )2 ] + E[(b1 − β1 )2 x20 ] + E[ε0 ]2 + 2E[(b0 − β0 )(b1 − β1 )x0 ] = Var(b0 ) + x20 Var(b1 ) + σ 2 + 2x0 Cov(b0 , b1 ) weil ε0 im Erwartungswert mit b0 und b1 unkorreliert ist, da die zu prognostizierenden Werte y0 und die x0 nicht in die Berechnung der Koeffizienten b0 und b1 eingegangen sind (Achtung: y0 ist der zu prognostizierende Wert, während b0 das ganz normale Interzept ist). Wir erinnern uns, dass P σ 2 x2t P Var(b0 ) = T (xt − x̄)2 σ2 P Var(b1 ) = (xt − x̄)2 −x̄σ 2 Cov(b0 , b1 ) = P (xt − x̄)2 wobei t der Laufindex von 1 . . . T und x̄ der Stichprobenmittelwert der ersten T Beobachtungen ist. P P P P Aus (xt − x̄)2 = (x2t ) − T x̄2 folgt (x2t ) = (xt − x̄)2 + T x̄2 . Deshalb ist P P σ 2 x2t (xt − x̄)2 + T x̄2 x̄2 2 2 1 P Var(b0 ) = P =σ =σ +P T (xt − x̄)2 T (xt − x̄)2 T (xt − x̄)2 Wir setzen nun die Parametervarianzen in die Varianz des Prognosefehlers ein Var[b y0 − y0 ] = Var(b0 ) + x20 Var(b1 ) + σ 2 + 2x0 Cov(b0 , b1 ) x̄2 x20 −2x0 x̄ 2 1 = σ +P +P +1+ P T (xt − x̄)2 (xt − x̄)2 (xt − x̄)2 1 x20 − 2x0 x̄ + x̄2 2 = σ 1+ + P T (xt − x̄)2 1 (x0 − x̄)2 2 = σ 1+ + P T (xt − x̄)2 Diese Varianz kann aber nicht berechnet werden, da sie die unbekannte Varianz des Störterms σ 2 enthält. Wie üblich können wir die Varianz des Prognosefehlers aber schätzen, indem wir die unbekannte Fehlervarianz σ 2 durch den unverzerrten Schätzer s2 ersetzen, also " # 2 1 (x − x̄) 0 d y 0 − y 0 ) = s2 1 + + P Var(b T 2 T t=1 (xt − x̄) Intervallschätzer, Hypothesentests und Prognosen 156 P 2 wobei s2 := σ b2 = ei /(T − 2) das Quadrat des Standardfehlers der Regression (standard error of the regression, in EViews S.E. of regression) und T die Stichprobengröße ist. Man kann einfach erkennen, dass 1. die Varianz des Prognosefehlers umso größer ist, je weiter x0 vom StichprobenMittelwert x̄ entfernt liegt. Eine Prognose für einen weit entfernt liegenden x0 -Wert ist deshalb ungenauer. 2. die Varianz des Prognosefehlers ist umso kleiner, je größer die Streuung der x P ist (d.h. je größer (xt − x̄)2 ). 3. die Varianz des Prognosefehlers ist umso kleiner, je größer die Anzahl der Beobachtungen T ist, und 4. die Varianz des Prognosefehlers umso größer, je größer der Standardfehler der Regression s ist. Man kann außerdem zeigen, dass yb0 = b0 + b1 x0 der beste lineare unverzerrte Prognosewert ist, d.h. yb0 ist ein effizienter Schätzer für y0 ! Beispiel: Gegeben seien die folgenden 5 Beobachtungen für x und y: y: 2.6 1.6 4.0 x: 1.2 3.0 4.5 3.0 4.9 5.8 7.2 Eine Regression von x auf y gibt die folgende Regressionsgleichung Dependent Variable: Y Included observations: 5 Variable Coefficient Std. Error t-Stat. Prob. C 1.498 1.032 1.451 0.243 x 0.397 0.214 1.853 0.161 R-squared 0.534 SE of regression 1.00427 Daraus kann man nun die Varianz des Prognosefehlers berechnen 1 (x0 − x̄)2 2 d Var(b y0 − y0 ) = s 1 + + P T (xt − x̄)2 1 (x0 − 4.34)2 2 = (1.00427) 1 + + 5 21.992 P da x̄ = 4.34 und (xt − x̄)2 = 21.992. In Tabelle 4.3 wurden die Varianzen des Prognosefehlers für ganzzahlige xt berechnet. Zum Beispiel erhalten wir für x0 = 7 ein yb0 = 1.498 + 0.397 × 7 = 4.275 und eine Varianz des Prognosefehlers von 2 1 (7 − 4.34) 2 d y0 − y0 ) = (1.00427) 1 + + Var(b = 1.535 5 21.992 157 Intervallschätzer, Hypothesentests und Prognosen Tabelle 4.3: Beispiel: Prognosen, Varianzen des Prognosefehlers und Konfidenzintervalle für ganzzahlige xt . x0 0 1 2 3 4 5 6 7 4.4.2 yb0 1.498 1.895 2.292 2.688 3.085 3.482 3.879 4.275 d y0 − y0 ) Var(b 2.074 1.722 1.461 1.293 1.216 1.230 1.337 1.535 q d y0 − y0 ) yb0 ∓ t Var(b −3.085 6.081 −2.281 6.070 −1.555 6.138 −0.929 6.306 −0.423 6.593 −0.048 7.011 0.200 7.558 0.333 8.218 c Prognoseintervall Ähnlich wie bei der Parameterschätzung der Koeffizienten bk können wir nun auch für yb0 ein Prognoseintervall berechnen. Dazu müssen wir wieder wie üblich eine Standardisierung durchführen. Da annahmegemäß (b y0 − y0 ) ∼ N (0, Var(b y0 − y0 )) folgt yb − y0 p 0 ∼ N (0, 1) Var(b y0 − y0 ) d y0 − y0 ) Da σ 2 unbekannt ist müssen wir wieder Var(b y0 − y0 ) durch den Schätzer Var(b ersetzen und erhalten eine t-verteilte Zufallsvariable yb0 − y0 q ∼ tT −2 d Var(b y0 − y0 ) Wenn wir uns für das 95% Prognoseintervall interessieren benötigen wir den kritischen t-Wert tc , für den P [t(T −2) > tc ] = 0.025. Für T = 5 mit T − 2 = 3 Freiheitsgraden ist tc = 3.182. Damit können wir wieder wie üblich das Konfidenzintervall bestimmen: P −tc ≤ t(T −2) ≤ tc = 0.95 yb0 − y0 P −tc ≤ q ≤ tc = 0.95 d y0 − y0 ) Var(b q q c c d d P yb0 − t Var(b y0 − y0 ) ≤ y0 ≤ yb0 + t Var(b y0 − y0 ) = 0.95 Das Prognoseintervall für y0 ist also q d y0 − y0 ) yb0 ± t Var(b c Die letzten beiden Spalten von Tabelle 4.3 zeigen die entsprechenden Konfidenzintervalle. Das Konfidenzintervall für y0 = 4.275 (x0 = 7) erhält man z.B. q √ c d y0 − y0 ) = 4.275 ± 3.182 1.535 yb0 ± t Var(b 158 Intervallschätzer, Hypothesentests und Prognosen bzw. (0.333 ≤ y0 |(x0 =7) ≤ 8.218) Abbildung 4.15 zeigt die Beobachtungspunkte (schwarz), die Schätzgerade (Prognose) und das Prognoseintervall (blau strichliert). b y b 8 b 7 b b b b b b 6 tc 5 q d y0 − y0 ) Var(b b ybi = 1.5 + 0.4x bc 4 b 3 b b 2 tc b q d y0 − y0 ) Var(b 1 b 0 b 1 2 3 4b 5 6 b b 7 8 bc x b -1 b -2 -3 b b Abbildung 4.15: Prognose und deren Konfidenzintervalle Da wir nur fünf Beobachtungspunkte haben ist das Prognoseintervall natürlich entsprechend weit. 4.5 Beurteilung der Prognosequalität Meist wird die Qualität einer Regression anhand von statistischen Kenngrößen wie z.B. dem Bestimmtheitsmaß R2 , den Standardfehlern der Koeffizienten (bzw. den toder p-Werten) oder verschiedenen Spezifikationstests (die in einem späteren Kapitel diskutiert werden) beurteilt. Die Prognosequalität einer Regressionsgleichung erlaubt eine davon verschiedene Einschätzung. Vor allem wenn bei der Spezifikation entsprechendes Data Mining betrieben wurde ist es nicht ungewöhnlich, dass eine geschätzte Gleichung eine sehr gute Anpassung in der Stichprobe hat, aber eine lausige Prognosequalität aufweist. 159 Intervallschätzer, Hypothesentests und Prognosen Um die Prognosequalität beurteilen zu können kann man ex-post Prognosen durchführen, d.h. den Schätzzeitraum einschränken und sich bei der Spezifikationssuche nur auf einen Teil der Stichprobe beschränken. In der folgenden Grafik beruht die Schätzung also auf der Stichprobe T1 bis T2 . Für die Periode T2 bis T3 , für die die exogenen Variablen x und die tatsächlich beobachteten yt bekannt sind, kann dann eine ex-post Prognose durchgeführt werden. Anhand des ‘Fits’ dieser ex-post Prognose kann anschließend die Qualität der Regression beurteilt werden. Ist diese zufriedenstellend kann man sich an die eigentliche ex-ante Prognose wagen, d.h. an die Prognose der unbeobachteten Werte yb0 in der Zukunft. Diese beruht natürlich auf der gesamten Stichprobe T1 bis T3 . T1 Gegenwart T3 T2 Schätzperiode ex-post Prognose Zeit t ex-ante Prognose Wenn die Gleichung eine verzögerte abhängige Variable enthält (z.B. yt = b0 + b1 yt−1 + et ) kann man anstelle der tatsächlichen Beobachtungen yt−1 die prognostizierten Werte ybt−1 einsetzen, also eine dynamische Prognose durchführen. Häufig wird auch eine Prognose über die gesamte Stichprobe durchgeführt und die prognostizierten (oder ‘gefitteten’) Werte ytf mit den tatsächlich beobachteten Werten yt verglichen. Für den Vergleich zwischen tatsächlichen und prognostizierten Werten haben sich einige Kennzahlen eingebürgert, die im folgenden kurz vorgestellt werden. 4.5.1 Root Mean Square Forecast Error (RMS-Fehler) Der Root Mean Square Error (RMS-Fehler) ist die Wurzel aus dem mittleren quadratischen Prognosefehler und ist eine gebräuchliche Kennzahl um die Abweichung der prognostizierten Werte von den tatsächlich beobachteten Werten anzugeben. v u T u1 X RMS-Fehler = t (y f − yt )2 T t=1 t mit: ytf = prognostizierter Wert von yt yt = tatsächlich realisierter Wert von yt T = Anzahl der Beobachtungen im Prognoseintervall 4.5.2 Mean Absolute Forecast Error (MAE) Der mittlere absolute Prognosefehler (Mean Absolute Error) ist ein alternatives Maß mit einer anderen Gewichtung zur Beurteilung der Prognosequalität. T 1 X f MAE = yt − yt T t=1 160 Intervallschätzer, Hypothesentests und Prognosen Sowohl der Root Mean Square Error als auch der Mean Absolute Error sind abhängig von der Dimension der abhängigen Variablen yt , eignen sich also nur für einen Vergleich verschiedener Modelle zur Prognose der gleichen Datenreihe. Je kleiner der entsprechende Wert ist, umso besser ist die Prognosequalität. Im Gegensatz dazu sind die beiden folgenden Kennzahlen unabhängig von der Dimension der prognostizierten Datenreihe und können deshalb für einen Vergleich von Prognoseverfahren herangezogen werden. 4.5.3 Mean Absolute Percentage Error (MAPE) Der mittlere absolute prozentuelle Prognosefehler (MAPE) ist definiert als T 1 X ytf − yt MAPE = × 100 yt T t=1 4.5.4 Theil’s Inequality Coefficient (TIC) Im Zähler von Theil’s Inequality Coefficient (TIC) steht der Root Mean Square Error, der aber entsprechend gewichtet wird, sodass Theil’s Inequality Coefficient immer zwischen Null und Eins liegt. q P T f 1 2 t=1 (yt − yt ) T q P TIC = q P T T f 2 1 1 2 t=1 (yt ) + t=1 (yt ) T T Umso näher Theil’s Inequality Coefficient bei Null liegt, umso besser ist die Prognosequalität. Bei einem perfekten Fit ist Theil’s Inequality Coefficient gleich Null, während TIC= 1 das schlechtest mögliche Ergebnis ist. Mit ein bißchen Algebra kann zeigen, dass werden kann T X t=1 PT f t=1 (yt − yt )2 folgendermaßen zerlegt (ytf − yt )2 = (ȳ f − ȳ)2 + (syf − sy )2 + 2(1 − ρ)syf sy wobei ȳ f und ȳ die Mittelwerte und syf und sy die Standardabweichungen der Datenreihen ytf und yt sind; und PT (y f − ȳ f )(yt − ȳ) ρ = t=1 t T sy f sy ist der übliche Korrelationskoeffizient zwischen ytf und yt . Mit Hilfe dieser Zerlegung kann man folgende Anteile berechnen: 1= (syf − sy )2 2(1 − ρ)syf sy (ȳ f − ȳ)2 + + 1 PT P P T T f f f 1 1 2 2 2 t=1 (yt − yt ) t=1 (yt − yt ) t=1 (yt − yt ) T T T | {z } | {z } | {z } BiasVarianzKovarianzAnteil Anteil Anteil Intervallschätzer, Hypothesentests und Prognosen 161 • Der Bias Anteil zeigt, wie stark sich der Mittelwert der prognostizierten Reihe vom Mittelwert der tatsächlichen Beobachtungen unterscheidet. Ein hoher Bias Anteil zeigt also, dass sich die prognostizierte Datenreihe stark von den tatsächlichen Daten unterscheidet. • Der Varianz Anteil zeigt, wie stark sich die Streuung der prognostizierten Reihe der Streuung der tatsächlichen Beobachtungen unterscheidet. Wenn der Varianz-Anteil groß ist bedeutet dies, dass die tatsächlichen Beobachtungen stark schwanken, während die prognostizierten Werte kaum schwanken, bzw. umgekehrt. • Der Kovarianz Anteil ist schließlich ein Maß für den unsystematischen Prognosefehler. Bei einer guten Prognose sollte der Bias- und der Varianz-Anteil möglichst klein sein. Da sich die Anteile natürlich auf 1 ergänzen, sollte der unsystematische Kovarianzanteil möglichst nahe bei Eins liegen. 4.5.5 Prognosen mit EViews In EViews stehen zwei Befehle für die Erstellung von Prognosen zur Verfügung, • eqname.fit[optionen] YDach YStAbw • eqname.forecast[optionen] YDach YStAbw wobei fit statische und forecast dynamische Prognosen erzeugt. Wenn keine zeitverzögerten Variablen oder ARIMA-Terme vorkommen liefert forecast das gleiche Ergebnis wie fit. Die wichtigsten Optionen sind g . . . erzeugt eine Graphik der Ergebnisse e . . . erzeugt eine Tabelle mit Kennzahlen d . . . wenn als abhängige Variable eine Formel eingegeben wurde wird das Ergebnis der Formel prognstiziert (z.B. wird für Y = @log(Z) nicht Z prognsostiziert, sondern Ŷ =@log(Z)) Das folgende kleine Programm reproduziert die Ergebnisse unseres früheren Beispiels mit EViews. Zuerst wird ein Workfile für 5 (undatierte) Beobachtungen angelegt, die Daten für y und x eingelesen und die Regression yt = b0 + b1 xt + et geschätzt. Da wir wieder Prognosen für alle ganzzahligen x0 zwischen 0 und 7 erstellen wollen müssen wir zuerst mit dem Befehl range den Workfile vergrößern. Anschließend werden in die Werte 0 bis 7 in x hineingeschrieben, beginnend mit der sechsten Beobachtung von x (in x1 bis x5 stehen die tatsächlichen Werte von x). Der Befehl forecast erzeugt die gefitteten Werte von Y0 und die Standardabweichungen des Prognosefehlers Sy0. Anschließend werden Datenreihen mit der Varianz des Prognosefehlers (Var Y0) und den Konfidenzintervallen CI low und CI high erzeugt und als Tabelle sowie als Grafik angezeigt. 162 Intervallschätzer, Hypothesentests und Prognosen wfcreate(wf=Prognose_BSP1) u 1 5 series Y Y.fill 2.6, 1.6, 4, 3, 4.9 series X X.fill 1.2, 3, 4.5, 5.8, 7.2 equation EQ01.ls Y c X ’ Prognose range 1 13 smpl 6 13 X = @trend - 5 smpl @all EQ01.forecast Y0 SY0 series Var_Y0 = SY0^2 series CI_low = Y0 - 3.182*SY0 series CI_high = Y0 + 3.182*SY0 smpl 6 @last group RESULT X Y0 Var_Y0 CI_low CI_high show RESULT graph GRA.line Y0 CI_low CI_high show GRA smpl @all Auf die Wiedergabe der erzeugten Tabelle und Grafik wird hier verzichtet, da sie vorher schon berechnet wurden. Die Kennzahlen für die Beurteilung der Prognosequalität dieser Schätzung sind in der folgenden Tabelle angegeben. Forecast: YF Actual: Y Forecast sample: 1 5 Included observations: 5 Root Mean Squared Error Mean Absolute Error Mean Absolute Percentage Error Theil Inequality Coefficient Bias Proportion Variance Proportion Covariance Proportion 0.777906 0.755045 29.55505 0.115393 0.000000 0.155727 0.844273 Literaturverzeichnis Ziliak, S. T. (2008), ‘Retrospectives: Guinnessometrics: The Economic Foundation of “Student’s” t’, Journal of Economic Perspectives 28, 199–216.