Kapitel 3 Stochastische Regressionsanalyse: Eine erste Intuition “Wer hohe Türme bauen will, muss lange beim Fundament verweilen.” (Anton Bruckner, 1824-1896) 3.1 Deskriptive versus stochastische Regressionsanalyse Bisher haben wir die Regressionsanalyse einzig und allein dazu verwendet, um eine gegebene Datenmenge kompakt zu beschreiben. Im einführenden Beispiel mit den Gebrauchtautos haben wir z.B. gezeigt, dass der Zusammenhang zwischen Alter und Preis von 40 Gebrauchtwagen relativ gut durch die Regressionsgleichung [ i = 22 961 − 2 562 Alteri Preis (n = 40, R2 = 0.91) (3.1) beschrieben werden kann (siehe Abbildung 2.1, Kapitel 2). Jede Forscherin, der die OLS-Formel auf die 40 Beobachtungen anwendet, wird zum exakt gleichen Resultat kommen, in dieser Beschreibung ist kein Zufallselement enthalten! Wann immer die Regressionsanalyse ausschließlich dazu verwendet wird, um den Zusammenhang zwischen zwei Variablen für eine fix gegebene Anzahl von Beobachtungen kompakt zu beschreiben, spricht man von einer deskriptiven Regressionsanalyse. Ähnlich wie der Mittelwert im univariaten Fall verwendet wird um eine Variable zu beschreiben, kann die Regressionsfunktion verwendet werden um Zusammenhänge zwischen zwei (oder mehreren) Variablen kompakt zu beschreiben; das Ziel ist im Wesentlichen eine Informationsverdichtung. Tatsächlich wird die Regressionsanalyse eher selten für deskriptive Zwecke eingesetzt. In den meisten Fällen interessieren wir uns nicht für die konkret beobachteten Einzelfälle, sondern wir interpretieren diese Beobachtungen lediglich als Stichprobe aus einer unbeobachtbaren Grundgesamtheit, und unser eigentliches Interesse gilt den 1 Empirische Wirtschaftsforschung 2 Zusammenhängen in dieser Grundgesamtheit. Wenn die Regressionsanalyse für diesen Zweck eingesetzt wird spricht man von einer stochastischen Regressionsanalyse. Ob eine Regressionsanalyse deskriptiv oder stochastisch ist hängt also nicht von den Daten ab, sondern von unserem Erkenntnisinteresse! Die gleichen Beobachtungen können mit Hilfe einer deskriptiven Regressionsanalyse einfach beschrieben werden, oder als Stichprobe aus einer größeren Grundgesamtheit interpretiert werden. Im zweiten Fall kann mit Hilfe der stochastischen Regressionsanalyse versucht werden, die Information aus der Stichprobe für Rückschlüsse auf die Grundgesamtheit zu nützen. In diesem Kapitel werden wir versuchen eine erste Intuition für das stochastische Regressionsmodell zu geben. Wir werden uns dabei auf sehr einfache Beispiele beschränken und uns darauf konzentrieren, ein erstes intuitives Verständnis für die teilweise etwas ‘tieferen’ Konzepte zu vermitteln. In späteren Kapiteln werden wir viele der Begriffe präziser definieren und einige dieser Konzepte teilweise beträchtlich verallgemeinern. Aber wir werden feststellen, dass die einfache Intuition erstaunlich weit trägt. 3.1.1 Grundgesamtheit und Stichprobe In der stochastischen Regressionsanalyse gehen wir davon aus, dass die Grundgesamtheit unbeobachtbar ist, denn andernfalls würde es sich ja um eine deskriptive Regressionsanalyse handeln. Obwohl die Grundgesamtheit unbekannt ist können wir aber davon ausgehen, dass auch in der Grundgesamtheit ein Zusammenhang zwischen erklärender und abhängiger Variablen besteht, der im einfachsten Fall durch eine lineare Funktion yi = β1 + β2 xi + εi zumindest approximiert werden kann. Da die Grundgesamtheit nicht beobachtet wird können die beiden Koeffizienten β1 und β2 natürlich nicht berechnet werden. Trotzdem wissen wir, dass die unbekannten Koeffizienten existieren müssen und fixe Zahlen sind, allerdings kennen wir die konkreten Werte nicht. Solche unbekannte Größen der Grundgesamtheit werden häufig ‘Parameter’ genannt. Das Wort ‘para’-‘meter’ verweist aber auf etwas, das über das Messen hinausgeht (wie die Parapsychologie auf etwas verweist, was über die Psychologie hinausgeht). In der Mathematik versteht man darunter spezielle Variablen, die im gegenständlichen Fall als konstant angenommen werden, oder in anderen Worten, die ‘beliebig, aber fest’ sind. Ganz in diesem Sinne verwenden wir hier den Begriff ‘Parameter’ für Werte, die in einer unbeobachtbaren Grundgesamtheit als konstant angenommen werden. Eine typische Aufgabe der Statistik ist es solche Parameter aus einer Stichprobe zu schätzen, wie zum Beispiel die Schätzung der unbekannten Parameter β1 und β2 aus einer Stichprobe.1 1 Der Gebrauch des Begriffs Parameter unterscheidet sich hier übrigens von dem, wie er üblicherweise in der ökonomischen Literatur gebraucht wird. Dort werden unter Parametern häufig exogene Einflussgrößen verstanden, die entweder bekannt (z.B. Steuersätze) oder unbekannt (z.B. Zeitpräferenzrate) sein können. 3 Empirische Wirtschaftsforschung Eine Regressionsfunktion, die den Zusammenhang in der Grundgesamtheit beschreibt, wird im Englischen ‘Population Regression Function’ (PRF) genannt. Die deutsche Übersetzung ‘Regressionsfunktion der Grundgesamtheit’ oder noch schlimmer ‘Populationsregressionsfunktion’ klingt leider etwas holprig, deshalb werden wir häufig das englische Akronym ‘PRF’ verwenden. Wir wissen zwar, dass die PRF existiert, aber wir können sie nicht berechnen, weil die Grundgesamtheit nicht beobachtet wird. Aber wenn wir eine Stichprobe aus der Grundgesamtheit beobachten können wir die OLS-Methode auf diese Stichprobenbeobachtungen anwenden, und das Resultat als Schätzung für die unbekannte PRF (‘Population Regression Function’ ) verwenden. Genau dies passiert bei der stochastischen Regressionsanalyse. Eine Regressionsfunktion, die man durch Anwendung der OLS Methode auf Stichprobendaten erhält, wird ‘Stichprobenregressionsfunktion’ (‘Sample Regression Function’, SRF) genannt. Notation Weil die Unterscheidung zwischen Grundgesamtheit und Stichprobe von derart fundamentaler Bedeutung ist, werden für die PRF und SRF unterschiedliche Symbole verwendet. Unbekannte Parameter der Grundgesamtheit werden in der Literatur meist mit griechischen Symbolen bezeichnet. Für die unbekannten Parameter der PRF verwenden wir z.B. die Symbole β1 und β2 , d.h. die Populationsregressionsfunktion schreiben wir als PRF: yi = β1 + β2 xi + εi Dies sind die gleichen Symbole, die wir im letzten Kapitel für die deskriptive Regressionsfunktion verwendet haben, denn dort haben wir allerdings eine beobachtbare Grundgesamtheit im Sinne der deskriptiven Statistik beschrieben. Mit der stochastischen Regressionsanalyse wollen wir von einer beobachteten Stichprobe auf eine unbeobachtbare Grundgesamtheit schließen. Für die aus einer Stichprobe geschätzten Koeffizienten der Stichprobenregressionsfunktion (SRF) werden wir ein Dach über die Koeffizienten setzen.2 Für die SRF schreiben wir also SRF: yi = βb1 + βb2 xi + ε̂i Abbildung 3.1 soll den Unterschied zwischen PRF und SRF verdeutlichen. Im Unterschied zu den Störtermen εi der PRF bezeichnen wir die ε̂i der SRF als Residuen. Während die Störterme εi = yi − β1 − β2 xi der Grundgesamtheit unbeobachtbar sind, können die Residuen ε̂i = yi − βb1 − βb2 xi aus der Stichprobe berechnet werden, nachdem die Koeffizienten βb1 und βb2 berechnet wurden. 2 In der Literatur wird manchmal auch eine alternative Notation verwendet; dabei werden für die geschätzten Koeffizienten der SRF die entsprechenden lateinischen Buchstaben verwendet, z.B. yi = b1 + b2 xi + ei . 4 Empirische Wirtschaftsforschung Grundgesamtheit yi = β1 + β2 xi + εi Stichprobe yi = βb1 + βb2 xi + ε̂i εi ∼ N(0, σ 2 ) Abbildung 3.1: Grundgesamtheit und Stichprobe Die Berechnung der Koeffizienten βb1 und βb2 der SRF erfolgt vollkommen analog wie früher, allerdings minimieren wir nun die Quadratsumme der Residuen min βb1 ,βb2 n X i=1 ε̂i2 = min βb1 ,βb2 n X i=1 (yi − βb1 − βb2 xi )2 Deshalb gelten die Restriktionen der Bedingungen erster Ordnung P X X ∂ i ε̂2i = 2 yi − βb1 − βb2 xi (−1) = 0 ⇒ ε̂i = 0 ∂ βb1 | {z } i ∂ P i i ε̂i ε̂2i ∂ βb2 = 2 X yi − βb1 − βb2 xi (−xi ) = 0 {z } i | ⇒ ε̂i X xi ε̂i = 0 i nur für die Residuen ε̂i der SRF, aber nicht notwendigerweise für die Störterme εi der PRF! Deshalb können wir nicht länger garantieren, dass auch die Summe der Störterme der Grundgesamtheit gleich Null ist, und noch wichtiger, dass auch die Störterme der Grundgesamtheit unkorreliert sind mit der erklärenden x-Variable. Dies wird später noch von Bedeutung sein. Doch vorerst zur Lösung dieses Minimierungsproblems, dieses funktioniert exakt gleich wie im letzten Kapitel gezeigt, die gesuchten Koeffizienten der SRF sind cov(x, c y) βb2 = , var(x) c βb1 = ȳ − βb2 x̄ (3.2) wobei wir mit dem Dach über dem ‘cov’ bzw. ‘var’ Operator ausdrücken, dass es sich um die Stichprobenkovarianz bzw. -varianz handelt. Man beachte, dass der einzige Unterschied zu früher darin besteht, dass wir die gegebenen Daten nun als Stichprobe interpretieren. Diese Stichprobendaten setzen wir wieder in die üblichen OLS Funktionen ein. Wichtig ist zu bemerken, dass die Parameter der Grundgesamtheit β1 und β2 feste, Empirische Wirtschaftsforschung 5 aber unbekannte Zahlen sind3 , während die geschätzten Koeffizienten βb1 und βb2 sich von Stichprobe zu Stichprobe unterscheiden. Wenn wir eine konkrete Stichprobe in die Gleichungen (3.2) einsetzen erhalten wir als Resultat eine konkrete Zahl für βb1 und für βb2 , es handelt sich um Realisationen. Diese beiden Zahlen sind Schätzungen (estimates) für die ‘wahren’ – aber unbekannten – Parameter β1 und β2 der Grundgesamtheit. Wir können Gleichungen (3.2) aber auch anders interpretieren, nämlich als Funktionen, die jeder möglichen Stichprobe einen Zahlenwert zuordnen. In dieser zweiten Interpretation beziehen wir uns auf den Zustand vor der Ziehung einer konkreten Stichprobe. Bevor die Stichprobe gezogen wurde sind viele Ergebnisse möglich, wir können nicht mit Sicherheit sagen, welche Werte von βb1 und βb2 nach der Ziehung der Stichprobe tatsächlich realisiert werden. In dieser zweiten Interpretation werden βb1 und βb2 ‘Schätzfunktionen’ oder kürzer ‘Schätzer’ (estimators) genannt. Man beachte, dass wir hier – einer ebenso alten wie dummen Tradition folgend – für zwei völlig verschiedene Dinge das gleiche Symbol verwenden, βb2 (bzw. βb1 ) kann 1. erstens eine Schätzfunktion (oder einfacher Schätzer, ‘estimator’ ) bezeichnen, d.h. eine Funktion, die jeder möglichen Stichprobe einen Zahlenwert zuordnet. Dies bezieht sich auf den Zustand vor der konkreten Stichprobenziehung, beschreibt also die Ergebnisse für alle möglichen Stichproben; Da die Schätzfunktion βb2 jeder möglichen Stichprobe eine Zahl zuordnet ist diese eine spezielle Zufallsvariable. 2. βb2 kann aber auch eine Schätzung (‘estimate’ ) für eine konkrete Stichprobe bezeichnen; also den konkreten Zahlenwert den man erhält, wenn man die bereits gezogene Stichprobe in die OLS-Formel einsetzt. In diesem zweiten Fall handelt es sich um eine Realisation einer Zufallsvariable und bezieht sich auf den Zustand nach der Stichprobenziehung. Wenn wir das Resultat einer statistischen Analyse vorliegen haben, handelt es sich dabei meist um eine Schätzung, um konkrete Zahlen, die wir für eine gegebene Stichprobe erhalten. Für die folgenden theoretischen Überlegungen sind aber die Schätzfunktionen von größerer Bedeutung. Wir werden später sehen, dass diese Schätzfunktionen ‘Zufallsvariablen’ sind, d.h. spezielle Funktionen, die jedem möglichen Ergebnis eines Zufallsexperiments (z.B. jeder möglichen Stichprobenziehung) einen Zahlenwert zuordnen. Tatsächlich handelt es sich bei Zufallsvariablen um ziemlich komplexe mathematische Gebilde, mehr dazu später. Die Unterscheidung zwischen PRF und SRF sowie Schätzern und Schätzungen sind zentral für alles Folgende. Deshalb werden wir diese einfachen Überlegungen anhand eines etwas umfangreicheren Beispiels nochmals verdeutlichen. 3 Dies gilt genau genommen nur in einer frequentialistischen Sichtweise. In einer bayesianischen Sichtweise werden auch die Parameter der Grundgesamtheit als unsicher angenommen, über die man aber eine a priori Vermutung hat, die anhand der a posteriori Information aus der Stichprobe revidiert wird. In diesem Manuskript folgen wie ausschließlich einem frequentialistischen Ansatz. 6 Empirische Wirtschaftsforschung Tabelle 3.1: Grundgesamtheit mit 20 Beobachtungen Obs. 1 2 3 4 5 6 7 8 9 10 x 1.2 1.3 1.7 1.9 1.9 2.0 2.2 2.4 2.8 2.8 y Stichpr. 0.8 b 2.9 c 0.8 b 0.7 a 3.5 c 3.2 a 2.6 b 3.2 b 3.6 c 1.1 a Obs. 11 12 13 14 15 16 17 18 19 20 x 3.2 3.3 3.4 3.7 4.1 4.1 4.3 4.4 4.5 4.7 y Stichpr. 1.4 b 2.3 a 2.6 a 2.6 a 3.9 b 2.3 c 2.5 c 3.9 c 4.2 c 4.2 b Beispiel Angenommen wir haben eine Grundgesamtheit mit insgesamt 20 Beobachtungen gegeben, deren Beobachtungen in Tabelle 3.1 wiedergegeben sind. Abbildung 3.2 zeigt diese Beobachtungspunkte sowie die entsprechende PRF und Störterme εi . Die eingezeichnete PRF beschreibt die Daten bestmöglich im Sinne des OLS Kriteriums. Im tatsächlichen Forschungsbetrieb ist die Grundgesamtheit und die dazugehörige PRF natürlich unbeobachtbar, wir wollen sie hier im Sinne eines Gedankenexperiments als “nur für unsere Augen” sichtbar annehmen. Wir stellen uns nun eine Forscherin vor, die nicht die gesamte Grundgesamtheit kennt, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen, die in Tabelle 3.1 als Stichprobe “a” gekennzeichnet sind. Die Aufgabe dieser Forscherin besteht darin, aus diesen sechs Beobachtungen der Stichprobe ‘a’ auf die ‘Population Regression Function’ (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen. Wenn Sie klug ist wird sie die OLS Methode auf die sechs Stichprobenbeobachtungen anwenden, und erhält als Ergebnis eine ‘Sample Regression Function’ (SRF), die in Abbildung 3.3 dargestellt ist. Wie man einfach erkennen kann unterscheiden sich die üblicherweise unbeobachtbaren Störterme εi der PRF und die aus der Stichprobe berechneten Residuen ε̂i der SRF. Da unsere Forscherin keinen Zugang zu den Daten der Grundgesamtheit hat sind für sie die Störterme der Grundgesamtheit ebenso unbekannt wie die wahren Parameter β1 und β2 der PRF. Sie kann aber mit ihrer Stichprobe die Koeffizienten βb1 und βb2 berechnen, und damit in weiterer Folge die Residuen ε̂i . Da die Unterscheidung zwischen Störtermen εi und Residuen ε̂i derart wichtig ist, wird der Unterschied in Abbildung 3.4 noch einmal verdeutlicht. Machen wir weiter, nehmen wir an, eine andere Forscherin zieht eine andere Stichprobe ‘b’ aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe ‘b’ durch Anwendung der OLS Methode ebenfalls eine SRF. Da die Stichprobe ‘b’ andere Daten enthält als Stichprobe ‘a’ wird sie natürlich auch eine andere SRF erhalten. Die SRF der zweiten Forscherin ist in Abbildung 3.5 dargestellt. 7 Empirische Wirtschaftsforschung y 5 b b 4 b PRF: yi = 1.03 + 0.53xi + εi b b b 3 b b b b b b b b b 2 b b 1 b b b 0 0 1 2 3 5 x 4 Abbildung 3.2: Die ‘Population Regression Function’ (PRF) ist für die Forscher meist unbeobachtbar. [local www] Zufalls-Stichprobe “a” (na = 6) y 5 bc 4 bc bc PRF: yi = 1.03 + 0.53xi + εi bc bc bcbc 3 bc bc bc bcbc bc bcbc bcbc bc SRF 1: yia = 0.85 + 0.43xi + εbia bc 2 i 4 6 10 12 13 14 bc bcbc 1 bc bc bcbc 0 0 1 2 3 4 5 x Abbildung 3.3: ‘Sample Regression Function’ 1 x 1.9 2.0 2.8 3.3 3.4 3.7 y 0.7 3.2 1.1 2.3 2.6 2.6 S a a a a a a 8 Empirische Wirtschaftsforschung y PRF bc SRF bc εi b εbi (xi , yi ) x Abbildung 3.4: Störterme εi versus Residuen ε̂i y Zufalls-Stichprobe “b” (nb = 7) 5 SRF 2: yib = −0.12 + 0.91xi + εbib bc 4 rsbc rsbc PRF: yi = 1.03 + 0.53xi + εi bc bc bc 3 bc rsbc bc rsbc bc bc bc bc bc 2 i 1 3 7 8 11 15 20 rsbc 1 bc rsbc rsbc bc 0 0 1 2 3 4 5 x Abbildung 3.5: ‘Sample Regression Function’ 2 x 1.2 1.7 2.2 2.4 3.2 4.1 4.7 y 0.8 0.8 2.6 3.2 1.4 3.9 4.2 S b b b b b b b 9 Empirische Wirtschaftsforschung Zufalls-Stichprobe “c” (nc = 7) y 5 bc rs bc 4 bc PRF: yi = 1.03 + 0.53xi + εi rs bc bc rs rs bc bc 3 SRF 3: yic = 3.1 + 0.05xi + εbic bc rs bc bc bc bc rs bc bc rs bc 2 i 2 5 9 16 17 18 19 bc 1 bc bc bc bc 0 0 1 2 3 x 1.3 1.9 2.8 4.1 4.3 4.4 4.5 y 2.9 3.5 3.6 2.3 2.5 3.9 4.2 S c c c c c c c 5 x 4 Abbildung 3.6: ‘Sample Regression Function’ 3 Die SRF einer dritten Stichprobenziehung ‘c’ ist schließlich in Abbildung 3.6 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden ‘Sample Regression Functions’. Abbildung 3.7 zeigt zusammenfassend noch einmal die ‘Population Regression Function’ und die drei unterschiedlichen ‘Sample Regression Functions’, die aus den unterschiedlichen Stichproben geschätzt wurden. y 5 SRF 2: yib = −0.12 + 0.91xi + εbib rs b 4 brs PRF: yi = 1.03 + 0.53xi + εi rs brs b rs rs b bc 3 b SRF 3: yic = 3.1 + 0.05xi + εbic brs rs b bc b SRF 1: yia = 0.85 + 0.43xi + εbia b rs bc rs bc brs 2 brs bc 1 brs brs bc 0 0 1 2 3 4 5 x Abbildung 3.7: ‘Population und ‘Sample Regression Functions’ Man beachte, diese drei ‘Sample Regression Functions’ (SRF) stellen unterschiedliche Schätzungen für den unbeobachtbaren ‘wahren’ Zusammenhang in der Grundgesamtheit dar, z.B. erhalten wir in diesem Beispiel für den ‘wahren’ Steigungskoeffizienten β2 = 0.53 drei unterschiedliche Schätzungen (Realisationen), nämlich βb2a = 0.43, βb2b = 0.91 und βb2c = 0.05. Empirische Wirtschaftsforschung 10 Offensichtlich erhalten wir für jede zufällig gezogene Stichprobe unterschiedliche Schätzungen (Realisationen) von βb2 und βb1 . Die Schätzfunktion (bzw. der Schätzer) βb2 = cov(x, c y)/var(x) c ordnet hingegen jeder möglichen Stichprobe einen Zahlenwert zu und ist deshalb eine spezielle Zufallsvariable. Für Zufallsvariablen existiert eine Wahrscheinlichkeit dafür, dass eine Ausprägung in ein bestimmtes Intervall fällt, d.h. sie haben eine Verteilung. Da man die OLS-Schätzfunktionen βb2 und βb1 auch als spezielle ‘Stichprobenkennwerte’ ansehen kann, werden die Verteilungen dieser Schätzer Stichprobenkennwertverteilungen (‘sampling distributions’ ) genannt, oder auch einfacher Stichprobenverteilungen. Auf der Grundidee solcher Stichprobenkennwertverteilungen beruht die statistische Analyse des stochastischen Regressionsmodells, sie wird uns später die Durchführung statistischer Tests erlauben. Allerdings können wir Stichprobenkennwertverteilungen in der Regel nicht direkt beobachten, denn in aller Regel steht uns nur eine einzige Stichprobe zur Verfügung, d.h. eine einzige Schätzung (Realisation). Aber wir können solche Stichprobenkennwertverteilungen empirisch simulieren, und zwar mit Hilfe so genannter Monte Carlo Simulationen. 3.1.2 Monte Carlo Simulationen Wir haben im Beispiel des vorhergehenden Abschnitts drei verschiedene Stichproben ‘a’, ‘b’ und ‘c’ aus einer Grundgesamtheit mit 20 Beobachtungen gezogen, und aus diesen drei Stichproben drei SRFs mit unterschiedlichen Schätzungen für βb1 und βb2 berechnet. Im Prinzip handelte es sich dabei bereits um eine sehr einfache Monte Carlo Simulation, allerdings werden für Monte Carlo Simulationen die Zufallsexperimente (z.B. Ziehung einer Zufallsstichprobe) viel öfter durchgeführt. In der Praxis lässt man diese Arbeit natürlich den Computer machen, der dies sehr viel schneller und besser kann. Wenn man z.B. tausend Stichproben zieht, und für jede dieser Stichproben einen interessierenden Stichprobenkennwert, z.B. den Steigungskoeffizient βb2 , berechnet, erhält man tausend Schätzungen für den interessierenden Parameter β2 . Diese Schätzungen werden sich vermutlich von Stichprobe zu Stichprobe unterscheiden. Wenn man diese tausend Schätzungen βb2 für den interessierenden Parameter β2 in einem Histogramm darstellt, erhält man eine empirische Simulation einer Stichprobenkennwertverteilung (‘sampling distribution’ ). Den Vorgang der wiederholten Stichprobenziehungen nennt man ‘repeated sampling’. Die prinzipielle Vorgangsweise ist in Abbildung 3.8 dargestellt. Der im Appendix wiedergegebene EViews Programmcode führt eine einfache Monte Carlo Simulation im oben beschriebenen Sinne durch. Das Programm zieht aus der in Tabelle 3.1 (Seite 6) wiedergegebenen Grundgesamtheit 10 000 Stichproben mit jeweils 10 Beobachtungen (natürlich mit Zurücklegen). Für jede dieser 10 000 Stichproben wird eine Schätzung βb2i (mit i = 1, . . . , 10 000) berechnet. Die Tabelle links 11 Empirische Wirtschaftsforschung Daten der Grundgesamtheit einlesen oder DGP festlegen Spezifikation der PRF wiederhole Vorgang sehr oft (z.B. 10,000 Mal) Beginn Schleife Ziehe eine Zufallsstichprobe der Größe n Berechne aus dieser Stichprobe die Schätzung ov(x,y) βb = cd var(x) c Speichere Schätzergebnis βb Ende Schleife Zeichne Histogramm mit allen Schätzergebnissen βb Abbildung 3.8: Wiederholte Stichprobenziehungen aus einer Grundgesamtheit (Monte Carlo Simulation). 12 Empirische Wirtschaftsforschung Ziehung βb2 1 −0.0297 2 0.3090 3 0.1681 4 0.6554 .. .. . . 9999 0.7686 10000 0.7177 Histogramm (N = 10, 10000 Wiederholungen) 1,400 Series: B1 Sample 1 10000 Observations 10000 1,200 1,000 800 600 400 200 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 0.516306 0.529218 2.531646 -1.266001 0.307434 -0.233350 3.728738 Jarque-Bera Probability 312.0283 0.000000 0 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 Abbildung 3.9: Monte Carlo Simulation, aus Tabelle 3.1 wurden 10 000 Stichproben mit n = 10 gezogen (mit Zurücklegen), für jede Ziehung βb2 berechnet, und ein Histogramm aller 10,000 Schätzungen gezeichnet. Der ‘wahre’ Parameter der Grundgesamtheit ist β2 = 0.53031 in Abbildung 3.9 zeigt die Schätzungen βb2i für die ersten vier und die letzten zwei Stichprobenziehungen, das Histogramm rechts zeigt die Häufigkeitsverteilung aller 10 000 Realisationen von βb2i . Diese Monte Carlo Simulation liefert uns eine empirische Simulation einer ‘Stichprobenkennwertverteilung’ (sampling distribution). Das Histogramm in Abbildung 3.9 zeigt uns z.B., dass es sehr unwahrscheinlich ist für diese Grundgesamtheit eine Schätzung βb2 zu erhalten, die kleiner als −0.5 oder größer als +1.5 ist. Wenn wir die Stichprobenkennwertverteilung genau kennen würden könnten wir sogar berechnen, mit welcher Wahrscheinlichkeit der Stichprobenkennwert einer noch nicht gezogenen Stichprobe in ein bestimmtes Intervall fallen wird. Auf dieser grundlegenden Idee beruhen die Hypothesentests, die uns später noch ausführlicher beschäftigen werden. Stichprobenkennwertverteilungen haben meist, d.h. unter wenig strengen Annahmen, zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 3.9 ersichtlich sind: 1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim ‘wahren’ Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an den wahren Wert der Grundgesamtheit annähert. 2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt u.a. die Sonderstellung der Normalverteilung. Empirische Wirtschaftsforschung 13 Man beachte, Stichprobenkennwertverteilungen existieren unabhängig von Monte Carlo Simulationen, wir haben hier die Monte Carlo Simulationen nur vorgeführt um die Grundidee zu veranschaulichen, also aus pädagogischen Gründen, um ein intuitives Verständnis für Stichprobenkennwertverteilungen zu vermitteln. In der Realität haben wir meist nur eine einzige Stichprobe zur Verfügung, aus der wir eine Schätzung für die Parameter der Grundgesamtheit berechnen können. Das Gedankenexperiment mit den wiederholten Stichprobenziehungen zeigt uns aber, dass wir unsere Schätzung als eine Realisation aus einer Stichprobenkennwertverteilung interpretieren können, und auf Grundlage dieser Stichprobenkennwertverteilung können wir später statistische Tests durchführen. 3.2 Standardfehler der Koeffizienten Hinweis: Dieser Abschnitt dient nur für eine erste Orientierung wie ein Regressionsoutput interpretiert werden kann, die Details werden in den folgenden Kapiteln ausführlich erläutert. Alles aus diesem Abschnitt sollte bereits aus der ‘Statistischen Datenanalyse’ bekannt sein. Halten wir fest, die Parameter β1 und β2 beschreiben den Zusammenhang in der Grundgesamtheit und sind fixe – aber unbekannte – Zahlen. Im Gegensatz dazu hängen die Werte der Schätzer βb1 und βb2 von der zufälligen Stichprobenziehung ab, und sind deshalb vor der Ziehung Zufallsvariablen mit einer Stichprobenkennwertverteilung. Mit Hilfe einer Monte Carlo Analyse haben wir versucht zumindest intuitiv zu veranschaulichen, dass der Mittelwert der Stichprobenkennwertverteilung ziemlich nahe beim wahren Wert der Grundgesamtheit liegt (vgl. Abbildung 3.9). Dies ist natürlich kein Zufall, wir werden später zeigen, dass dies unter ziemlich allgemeinen Bedingungen gilt. Hier wollen wir auf einen anderen Punkt hinaus, sehr oft interessieren wir uns nicht nur für den Mittelwert der Stichprobenkennwertverteilung, sondern auch für deren Streuung. Eine Maßzahl für die Streuung ist die Varianz, bzw. deren Wurzel, die Standardabweichung. Die Standardabweichung einer Stichprobenkennwertverteilung werden wir im Folgenden als Standardfehler (‘standard error’ ) bezeichnen.4 Abbildung 3.10 zeigt zwei idealisierte Stichprobenkennwertverteilungen, die dem Histogramm in Abbildung 3.9 entsprechen, die linke mit einem kleinen und die rechte mit einem großen Standardfehler. Halten wir uns vor Augen, dass wir bei einer konkreten Schätzung nur eine einzige Realisation von βb2 und βb1 erhalten, die Überlegungen anhand der Monte Carlo Simulation haben uns aber gezeigt, dass diese als eine Realisation aus einer Stichprobenkennwertverteilung wie in Abbildung 3.10 angesehen werden kann. 4 In der Literatur werden die beiden Bezeichnungen ‘Standardfehler’ und ‘Standardabweichungen’ manchmal auch synonym verwendet. Die Bezeichnung Standardfehler ist eigentlich die historisch ältere und geht auf die ‘Theorie der Fehler’ des 18. Jahrhunderts zurück, die Bezeichnung Standardabweichung wurde erst von Galton (1877) eingeführt (vgl. Spanos, 1999, 379). Wir werden hier dem heute üblichen Sprachgebrauch folgen und die Standardabweichung einer Stichprobenkennwertverteilung als Standardfehler bezeichnen. 14 Empirische Wirtschaftsforschung f (βb2 ) f (βb2 ) β2 βb2 β2 βb2 Abbildung 3.10: Stichprobenkennwertverteilungen mit kleiner und großer Streuung; die linke Stichprobenkennwertverteilung hat einen detlich kleineren Standardfehler als die rechte Stichprobenkennwertverteilung. Offensichtlich liegen Realisationen aus der linken Stichprobenkennwertverteilung von Abbildung 3.10 im Durchschnitt näher beim wahren Wert, die Streuung ist geringer, die Verlässlichkeit größer. Ein Maß für diese Streuung ist der Standardfehler der Stichprobenkennwertverteilung. Der Standardfehler der Stichprobenkennwertverteilung kann deshalb als eine Maßzahl für die Genauigkeit einer Schätzung herangezogen werden. Offensichtlich sind Schätzungen, die auf der im rechten Panel von Abbildung 3.10 gezeigten Stichprobenkennwertverteilung beruhen, um Durchschnitt ungenauer, deren Standardfehler ist größer. Die nächste Frage ist, können wir einen Schätzer für die Standardfehler der Koeffizienten aus einer Stichprobe berechnen? Die empirische Näherung einer Stichprobenkennwertverteilung mittels Monte Carlo Analysen ist in vielen Fällen nicht gangbar und wäre außerordentlich mühselig. Glücklicherweise können Schätzer für die Standardfehler der Koeffizienten sehr einfach aus einer Stichprobe berechnet werden, ähnlich wie wir bereits die Koeffizienten selbst aus den Stichprobendaten berechnet haben. Die Details sind vorerst nicht wichtig, hier sei nur das Ergebnis vorweggenommen, die genaue Herleitung werden wir in einem späteren Kapitel ausführlich zeigen. Die Schätzfunktionen für die Standardfehler von βb2 und βb1 sind s s P 2 σ̂ σ̂ 2 i x2i b b P se( b β2 ) = P , se( b β1 ) = (3.3) 2 n (xi − x̄)2 i (xi − x̄) mit σ̂ 2 = 1 X 2 ε̂ n−2 i i wobei se( b βb2 ) einen Schätzer für den Standardfehler (‘standard error’) des Steigungskoeffizienten βb√ b βb1 ) einen Schätzer für den Standardfehler des Interzepts be2 und se( 2 zeichnet. σ̂ = σ̂ wird als Standardfehler der Regression bezeichnet. Wenn wir die Stichprobendaten in diese Schätzfunktionen einsetzen erhalten wir die entsprechenden Schätzungen. 15 Empirische Wirtschaftsforschung Die konkreten Formeln sind im Moment nicht wichtig, wichtig ist aber zu erkennen, dass es sich dabei um Schätzer handelt, also wieder um Zufallsvariablen, die selbst wieder eine Verteilung haben, und dass diese Schätzungen aus den Stichprobendaten berechnet werden können (wir erinnern uns, dass für die Berechnung der Residuen ε̂i = yi − βb1 − βb2 xi zuerst die Koeffizienten βb1 und βb2 geschätzt werden müssen). Da die Standardfehler wichtige Informationen über die ‘Genauigkeit’ der Schätzungen enthalten müssen sie auch bei Publikationen immer (!) gemeinsam mit den Koeffizienten angegeben werden. Es ist ein absolutes ‘No-Go’ einen Koeffizienten ohne den dazugehörigen Standardfehler anzugeben! In der üblichen Darstellungsform werden sie in Klammern unter den Koeffizienten angegeben, z.B. y = 1.498 + 0.397 x (1.032) (0.214) R2 = 0.534, σ̂ = 1.004, n = 5 (Standardfehler in Klammern) Man beachte, dass nicht die absolute Größe der Standardfehler entscheidend ist, sondern wie groß sie im Verhältnis zum Koeffizienten sind. Generell gilt, dass die Schätzung umso genauer ist, umso größer das Verhältnis Koeffizient zu Standardfehler (βbh /se( b βbh ) für h = 1, 2) ist! Wir werden in einem späteren Kapitel ausführlich zeigen, dass die Standardfehler auch für die Berechnung von Konfidenzintervallen und Hypothesentests verwendet werden können, hier sei nur ein einfaches Ergebnis vorweggenommen. Die erste und wichtigste Frage im Rahmen einer Regressionsanalyse ist meistens, ob überhaupt ein (linearer) Zusammenhang zwischen zwei Variablen x und y besteht. Falls in der Grundgesamtheit kein Zusammenhang besteht, muss der Steigungskoeffizient β2 in yi = β1 + β2 xi + εi gleich Null sein, d.h. β2 = 0. Aber selbst wenn in der Grundgesamtheit kein Zusammenhang bestehen sollte wäre es höchst unwahrscheinlich, in einer SRF yi = βb1 + βb2 xi + ε̂i einen Wert βb2 = 0 zu finden, allerdings würden wir in diesem Fall einen Wert nahe bei Null erwarten. Wir werden später zeigen, dass unter bestimmten Bedingungen der Quotient aus Koeffizient und Standardfehler eine t-verteilte Teststatistik für die Nullhypothese βh = 0 (für h = 1, 2) ist H0 : βh = 0 −→ th = βbh ∼ tn−2 se( b βbh ) Umso größer der Wert dieser Teststatistik ist, umso unwahrscheinlicher ist es, dass kein Zusammenhang zwischen x und y besteht. Als grobe Faustregel kann man sich merken, dass ab einer Stichprobengröße von 30 die Nullhypothese βh = 0 mit einer Wahrscheinlichkeit von mindestens 95% verworfen werden kann, wann immer der Absolutwert dieser t-Statistik größer als zwei ist (|th | > 2). Wenn man es genauer wissen möchte, muss man in einer Tabelle für die t-Statistik nachschlagen. 16 Empirische Wirtschaftsforschung In älteren Publikationen findet man manchmal noch die Werte dieser t-Statistiken anstelle der Standardfehler unter den Koeffizienten angegeben. Dies ist heute kaum noch üblich, und davon ist auch abzuraten, denn dies legt den Fokus auf den Hypothesentest und weniger auf die ‘Genauigkeit’ der Schätzung, obwohl natürlich beide Maßzahlen die gleiche Information wiedergeben. Um Leserinnen die Berechnung der t-Statistik und das Nachschlagen in Tabellen zu ersparen wird häufig mittels hochgestellten Sternen (* ) neben dem Standardfehler kenntlich gemacht, auf welchem Signifikanzniveau α die Nullhypothese βh = 0 verworfen werden kann. Dabei ist es üblich, mit einem Stern (* ) ein erreichtes Signifikanzniveau von 10%, mit zwei Sternen (** ) ein erreichtes Signifikanzniveau 5% und mit drei Sternen (*** ) ein erreichtes Signifikanzniveau von 1% anzugeben. Kann die Nullhypothese auf einem Signifikanzniveau von 5% (d.h. α = 0.05) verworfen werden spricht man verkürzt häufig von einem ‘signifikanten’ Zusammenhang; bei einem Signifikanzniveau von 1% (d.h. α = 0.01) von einem ‘hoch signifikanten’ Zusammenhang. Das folgende Beispiel zeigt den Preis von Gebrauchtautos einer bestimmten Type in Abhängigkeit vom Alter der Autos PREIS = 23 521.484 (385.394)*** − 2 757.766 ALTER (128.276)*** R2 = 0.887, σ̂ = 1367.299, n = 61 (Standardfehler in Klammern) *. . . p < 0.1, **. . . p < 0.05, ***. . . p < 0.01 Häufig werden solche Regressionsgleichungen auch in Tabellenform dargestellt. Folgende Darstellung zeigt die gleiche Regression in dieser alternativen Darstellungsform. Preis Const. Alter R-squared n 23521.484∗∗∗ (385.394) −2757.766∗∗∗ (128.276) 0.887 61 Strikt abzuraten ist davon, in Publikationen direkt den Regressionsoutput des entsprechenden Programms wiederzugeben, wie z.B. in Tabelle 3.2. Aufgrund dieser Regressionsgleichung würden wir erwarten, dass der Preis eines neuwertigen Gebrauchtautos (d.h. eines Gebrauchtautos mit Alter = 0) ungefähr 23500.- Euro beträgt, und dass der Preis mit jedem weiteren Jahr um ungefähr 2758.- Euro fällt (d Preis/d Alter ≈ 2758). Die Standardfehler sind ziemlich klein relativ zu den Koeffizienten, die Schätzung der Koeffizienten ist also ziemlich genau. Etwas präziser sagen uns die Sterne neben den Standardfehlern, dass sowohl das Interzept als auch der Steigungskoeffizient 17 Empirische Wirtschaftsforschung Tabelle 3.2: EViews Output Dependent Variable: PREIS Method: Least Squares Included observations: 61 Variable C ALTER R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Coefficient 23521.48 −2757.766 0.886798 0.884880 1367.299 1.10E + 08 −525.9946 462.1931 0.000000 Std. Error t-Statistic 385.3944 61.03224 128.2761 −21.49868 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat Prob. 0.0000 0.0000 16140.16 4029.835 17.31130 17.38051 17.33842 1.952094 hoch signifikant von Null verschieden sind. Wenn also zum Beispiel in der Grundgesamtheit kein Zusammenhang zwischen Preis und Alter bestehen würde, ist die Wahrscheinlichkeit einen Steigungskoeffizienten βb2 = 2758 zu erhalten kleiner als ein Prozent (dies ist etwas salopp formuliert, wir werden dies später präzisieren). Wir könnten auch die empirischen Werte der t-Statistiken berechnen t1 = 23521.484 = 61.032, 385.394 t2 = 2757.766 = −21.499 128.276 Man kann in einer Tabelle für die t-Verteilung nachschlagen und findet für ein Signifikanzniveau α = 0.005 (zweiseitiger Test) und 59 Freiheitsgrade (n−2 = 61−2 = 59) einen kritischen Wert von tcrit 59 = 2.66. In diesem Fall sind die empirischen Werte t1 und t2 der t-Statistiken offensichtlich weit größer als dieser kritische Wert tc , wir könnten die Nullhypothesen also auch auf einem höheren Niveau verwerfen. Diese Zusatzinformation geben uns die sogenannten p-Werte an, die von allen statistischen Softwarepakete neben Standardfehlern und t-Statistiken ausgegeben werden (vgl. Tabelle 3.2). Die p-Werte können als Wahrscheinlichkeiten interpretiert werden, und können deshalb nur Werte zwischen Null und Eins annehmen. Ganz grob kann man die p-Werte als Hinweis dafür interpretieren, wie gut die Daten mit der Nullhypothese erklärt werden können; umso kleiner der p-Wert ist, umso weniger sind die Daten mit der Nullhypothese kompatibel. Etwas salopp kann man sich unter einem p-Wert die Wahrscheinlichkeit vorstellen, dass bei nochmaliger Durchführung des Zufallsexperiments und bei Gültigkeit der Nullhypothese das vorliegende oder ein noch extremeres Schätzergebnis erhalten wird. Umso kleiner der p-Wert, umso stärker kann die Nullhypothese verworfen werden. Konkret impliziert ein p-Wert p < 0.1, dass die Nullhypothese auf einem 10% Niveau verworfen werden kann, p < 0.05, dass sie auf dem 5% Niveau bzw. p < 0.01, dass sie auf dem 1% Niveau verworfen werden kann. Dieser Abschnitt über Standardfehler und einfache Hypothesentests diente nur als erster intuitiver Einstieg, der es Ihnen ermöglichen sollte zumindest ein grobes Empirische Wirtschaftsforschung 18 Verständnis für einen typischen Regressionsoutput zu erhalten. Keine Sorge, wenn Sie nicht alles verstanden haben, alles was hier erwähnt wurde wird in einem späteren Kapitel ausführlich erklärt und begründet. Empirische Wirtschaftsforschung 3.3 19 Die PRF als Bedingte Erwartungswertfunktion Wir haben bisher versucht eine erste Intuition für die OLS Methode und das stochastische Regressionsmodell zu schaffen. Für ein tieferes Verständnis benötigen wir allerdings ein paar methodische Grundlagen, insbesondere eine klare Vorstellung von Zufallsvariablen, deren Verteilung und insbesondere von bedingten Erwartungswerten. Üblicherweise wird die OLS Methode angewandt, um eine stetige abhängige Variable mit Hilfe einer oder mehrerer x Variablen zu erklären. In unserem Auto-Beispiel waren sowohl die erklärende Variable ‘Alter’ als auch die abhängige Variable ‘Preis’ stetig.5 Außerdem werden wir später regelmäßig davon ausgehen, dass die Stichprobe aus einer unendlich großen Grundgesamtheit gezogen wird. Eine umfassende Einführung dieser stochastischen Konzepte für stetige Zufallsvariablen und unendlich große Grundgesamtheiten ist mathematisch etwas anspruchsvoller und könnte leicht den Blick auf das Wesentliche verstellen. Deshalb beginnen wir diese Konzepte an einem sehr einfachen Beispiel zu erläutern, nämlich für diskrete Zufallsvariablen und eine endlich große Grundgesamtheit. • Diskrete Zufallsvariablen können nur endlich viele oder abzählbar unendlich viele Ausprägungen annehmen. • Stetige Zufallsvariablen können überabzählbar viele Ausprägungen annehmen. Wir bleiben bei dem Auto-Beispiel und nehmen an, die in Tabelle 3.3 wiedergegebenen hundert Beobachtungen die Grundgesamtheit darstellen (die Daten wurden mittels Computer selbst erzeugt). Zur Vereinfachung haben wir das Alter auf ganze Jahre und die Preise auf 5000 Euro gerundet, um die Anzahl der Ausprägungen klein zu halten. Da wir davon ausgehen, dass wir diese Grundgesamtheit kennen, geht es im Folgenden um die PRF (‘Population Regression Function’ ). Wenn wir die OLS Methode auf diese Grundgesamtheit mit 100 Beobachtungen anwenden erhalten wir die PRF Preisi = 24 464.652 − 2 484.161 Alteri + εi Diese PRF zeigt den ‘wahren’ Zusammenhang in der Grundgesamtheit, der für ‘normal Sterbliche’ üblicherweise unbeobachtbar ist. Wir wollen nun zeigen, dass wir diese Grundgesamtheit alternativ auch als gemeinsame Wahrscheinlichkeitsverteilung zweier Zufallsvariablen ‘Preis’ und ‘Alter’ darstellen können. Wir beginnen damit, die Daten von Tabelle 3.3 kompakter darzustellen, indem wir die Häufigkeiten der unterschiedlichen Ausprägungen der Variablen Alter und Preis angeben. Wenn wir in Tabelle 3.3 nachzählen, wie oft z.B. die Kombination Alter = 2 5 Für die Anwendung der OLS Methode sollte die abhängige Variable eigentlich immer stetig sein, für diskrete abhängige Variablen gibt es geeignetere Verfahren, aber dies spielt im Moment keine Rolle. 20 Empirische Wirtschaftsforschung Tabelle 3.3: Grundgesamtheit für Alter und Preis von Gebrauchtautos Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Alter (x) 3 3 4 2 4 6 4 4 3 6 3 1 6 3 6 6 3 6 3 3 2 1 4 2 5 4 4 4 3 6 6 6 6 5 4 3 2 3 2 3 2 4 2 5 4 6 5 1 3 4 Preis (y) 15000 15000 15000 20000 15000 10000 15000 15000 15000 10000 15000 20000 10000 15000 10000 10000 20000 10000 15000 20000 20000 25000 15000 20000 10000 15000 15000 15000 15000 10000 10000 5000 10000 10000 15000 15000 25000 15000 20000 20000 25000 15000 20000 10000 10000 5000 15000 20000 20000 15000 Obs 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 Alter (x) 2 1 5 6 4 2 4 4 4 5 4 5 4 2 5 4 6 2 2 3 2 5 4 4 2 2 4 4 4 1 6 6 5 5 5 6 2 2 3 6 4 3 4 4 4 5 6 2 5 2 Preis (y) 20000 20000 15000 10000 15000 20000 15000 15000 15000 10000 15000 10000 15000 20000 10000 10000 15000 15000 20000 20000 20000 10000 10000 15000 20000 20000 15000 15000 15000 20000 10000 10000 15000 15000 10000 10000 20000 20000 15000 10000 15000 20000 15000 15000 15000 15000 10000 15000 10000 20000 21 Empirische Wirtschaftsforschung Tabelle 3.4: Darstellung der Grundgesamtheit mit 100 Beobachtungen in Form einer Häufigkeitstabelle. Alter (x) 1 2 3 4 5 6 Summe Preis (y) 5000 10000 15000 20000 25000 0 0 0 4 1 0 0 2 15 2 0 0 10 6 0 0 3 25 0 0 0 9 5 0 0 2 15 1 0 0 2 27 43 25 3 Summe 5 19 16 28 14 18 100 Tabelle 3.5: Darstellung der Grundgesamtheit als gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) der Zufallsvariablen Alter und Preis. Alter (x) Pr(y) 1 2 3 4 5 6 5000 10000 0 0 0 0 0 0 0 0.03 0 0.09 0.02 0.15 0.02 0.27 Preis (y) 15000 20000 25000 0 0.04 0.01 0.02 0.15 0.02 0.10 0.06 0 0.25 0 0 0.05 0 0 0.01 0 0 0.43 0.25 0.03 Pr(x) 0.05 0.19 0.16 0.28 0.14 0.18 1 und Preis = 20000 vorkommt, so stellen wir fest, dass diese Kombination 15 Mal vorkommt; die Kombination Alter = 6 und Preis = 15000 kommt hingegen nur ein Mal vor (Beobachtung 67), die Kombination Alter = 1 und Preis = 5000 kommt überhaupt nicht vor. Tabelle 3.4 zeigt diese Häufigkeiten. Selbstverständlich könnten wir aus diesen Häufigkeiten wieder die Grundgesamtheit in Tabelle 3.3 rekonstruieren, die beiden Tabellen sind nur verschiedene Darstellungen der gleichen Grundgesamtheit. Nun dividieren wir die Häufigkeiten in Tabelle 3.4 durch die Anzahl der Beobachtungen (100), das Ergebnis ist in Tabelle 3.5 dargestellt und gibt relative Häufigkeiten an, z.B. weisen 15% der Autos die Merkmalskombination Alter = 2 und Preis = 20000 auf. Tabelle 3.5 gibt einfach die Anteile an, aber wir können die Perspektive wechseln und sie auch als gemeinsame Verteilung zweier Zufallsvariablen ‘Alter’ und ‘Preis’ interpretierten. Hinter Tabelle 3.5 können wir uns auch eine unendlich große Grundgesamtheit vorstellen, und die Anteile in der Tabelle können wir als Wahrscheinlichkeiten interpretieren. Dazu stellen wir ein Gedankenexperiment an, wir stellen uns vor, dass wir ein zufälliges Auto aus der Grundgesamtheit ziehen. Vor der Ziehung gibt uns Tabelle 3.5 die Wahrscheinlichkeiten an, mit der eine bestimmte Merkmalskombination (Preis, Alter) gezogen wird, zum Beispiel beträgt die Wahrscheinlichkeit zufällig ein Auto mit einem Alter von zwei Jahren und einem Preis von 20000 Euro zu ziehen gleich 0.15, 22 Empirische Wirtschaftsforschung Pr(x,y) rs 0.3 rs rs rs 0.2 b rs rs 0.1 b rs rs rs er 1 Alt 3 2 6 5 4 b b rs b bc bc bc 10’ bc b bc bc b b b bc bc b rs 20’ bc b b 25’ y bc bc bc bc b 15’ bc x Preis (e1000) b 5’ bc bc Abbildung 3.11: Grafische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion in Tabelle 3.5 (mit Randverteilungen). Grau eingezeich[ i = 24 465 − 2 484 Alteri . net die PRF: Preis bzw. 15% Pr(Alter = 2, Preis = 25000) = 0.15 In diesem Sinne können wir Tabelle 3.5 als gemeinsame Wahrscheinlichkeitsfunktion interpretieren. Die äußerst rechte Spalte von Tabelle 3.5 (Pr(Alter)) gibt die Randwahrscheinlichkeit der Zufallsvariable ‘Alter’ an, d.h. die Wahrscheinlichkeit bei einer Zufallsziehung ein Auto mit einem Alter von zwei Jahre zu ziehen – unabhängig vom Preis – beträgt 19%. Man erhält diese Randwahrscheinlichkeit, indem man die Wahrscheinlichkeiten für Alter = 2 über alle Ausprägungen von Preis aufsummiert Pr(Alter = 2) = 0 + 0 + 0.02 + 0.15 + 0.02 = 0.19, bzw. allgemeiner Randverteilungen (Marginal Probability Function) X Prx (x) = Pr(x, y) Randverteilung von x y Pry (y) = X x Pr(x, y) Randverteilung von y 23 Empirische Wirtschaftsforschung oder konkret für unser Beispiel 0.05 0.19 X 0.16 Pr(Alter) = Pr(Alter, Preis) = 0.28 Preis 0.14 0.18, für für für für für für Alter Alter Alter Alter Alter Alter = = = = = = 1; 2; 3; 4; 5; 6. Würden wir aus der Grundgesamtheit ein zufälliges Auto herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses zufällige Auto 3 Jahre alt ist, 16%. Analog gibt die unterste Zeile von Tabelle 3.5 (Pr(Preis)) die Randwahrscheinlichkeiten für den Preis an 0.02 für Preis = 5000; 0.27 für Preis = 10000; X 0.43 für Preis = 15000; Pr(Preis) = Pr(Alter, Preis) = Alter 0.25 für Preis = 20000; 0.03 für Preis = 25000. Wiederum, würden wir ein zufälliges Auto aus der Grundgesamtheit herauspicken, so ist die Wahrscheinlichkeit dafür, dass dieses Auto unabhängig vom Alter 5000 Euro kostet, 2%. Bedingte Wahrscheinlichkeitsfunktion Wir wollen den Zusammenhang zwischen Alter und Preis beschreiben, deshalb interessieren wir uns dafür, ob wir aus dem Alter auf den Preis schließen können. Zuerst fragen wir uns, wie groß die Wahrscheinlichkeit für einen bestimmten Preis ist, wenn wir das Alter des Autos vorgeben. Zum Beispiel, wie groß ist die Wahrscheinlichkeit für Preis = 20000 wenn wir wissen, dass Alter = 1. Insgesamt haben wir in der Grundgesamtheit 5 Autos mit Alter = 1, 4 davon kosten 20000 Euro, die Wahrscheinlichkeit beträgt also 4/5 bzw. 80%. Wir können uns auch vorstellen, dass wir nur aus den Autos mit Alter = 1 ein zufälliges Auto ziehen. Diese bedingte Wahrscheinlichkeit können wir natürlich auch aus der gemeinsamen Verteilung berechnen, indem wir die gemeinsame Wahrscheinlichkeit Pr(y = 20000, x = 1) durch die Randwahrscheinlichkeit Prx (x = 1) dividieren. Wenn wir die Zufallsvariablen mit x und y und deren Realisationen mit x und y bezeichnen schreiben wir die bedingte Wahrscheinlichkeit als Pr(y = y|x = x) = Pr(y = y, x = x) Prx (x = x) zum Beispiel 0.04 = 0.8 0.05 Dies erlaubt uns gleich ein weiteres zentrales Konzept zu definieren, nämlich stochastische Unabhängigkeit. Pr(Preis = 20000|Alter = 1) = 24 Empirische Wirtschaftsforschung Stochastische (bzw. statistische) Unabhängigkeit und y sind stochastisch unabhängig, wenn Zwei Zufallsvariablen x Pr(x = x, y = y) = Prx (x = x) Pry (y = y) bzw. mit Hilfe der bedingten Wahrscheinlichkeit Pr(y = y|x = x) = Pry (y = y) oder in Worten, wenn die gemeinsame Wahrscheinlichkeit gleich der Randwahrscheinlichkeit ist. Wir haben Tabelle 3.5 als gemeinsame Verteilung der zwei diskreten Zufallsvariablen ‘Alter’ und ‘Preis’ interpretiert. Zufallsvariablen beziehen sich immer auf ein zugrunde liegendes Zufallsexperiment, z.B. auf die Ziehung eines einzelnen Autos aus der Grundgesamtheit, und beschreiben alle möglichen Ausgänge dieses Zufallsexperiments (z.B. welche Ausprägungen das Alter annehmen kann, bevor die Ziehung tatsächlich durchgeführt wurde). Eine Zufallsvariable kann also mehrere Ausprägungen annehmen, und für diskrete Zufallsvariablen kann jeder dieser möglichen Ausprägungen eine Wahrscheinlichkeit zugeordnet werden. Zufallsvariablen können durch Kennwerte beschrieben werden, die bekanntesten sind die ersten beiden Momente Erwartungswert und Varianz. Um es einfach zu halten beginnen wir mit dem univariaten Fall, also den Randwahrscheinlichkeiten. Erwartungswert Der Erwartungswert einer diskreten Zufallsvariable ist definiert als die Summe aller der mit den Wahrscheinlichkeiten gewichteten Ausprägungen. Wenn die diskrete Zufallsvariable x insgesamt m verschiedene Ausprägungen annehmen kann ist der Erwartungswert definiert als E(x) = m X xj Pr(xj ) j=1 Achtung: Beim Erwartungswert wird über alle möglichen Ausprägungen der Zufallsvariable aufsummiert, gewichtet mit deren Wahrscheinlichkeiten, nicht über Beobachtungen (d.h. Realisationen)! Erwartungswerte beziehen sich auf die Zufallsvariable, niemals auf die Realisationen der Stichprobe! In diesem Beispiel bezieht sich der Erwartungswert der Zufallsvariable auf die Grundgesamtheit, der Mittelwert bezieht sich hingegen auf die Realisationen einer Stichprobe. In diesem Sinne kann man den Mittelwert einer Stichprobe als Analogon für den Erwartungswert einer Zufallsvariable ansehen, aber diese beiden Konzepte sind streng zu unterscheiden. Den Erwartungswert der Zufallsvariable ‘Alter’ können wir unter Verwendung der Randwahrscheinlichkeiten einfach berechnen E(Alter) = 6 X Alterj Pr(Alter = j) j=1 = 1 × 0.05 + 2 × 0.19 + 3 × 0.16 + 4 × 0.28 + 5 × 0.14 + 6 × 0.18 = 3.81 25 Empirische Wirtschaftsforschung Würden wir die hundert Beobachtungen der Grundgesamtheit als Stichprobe interpretieren, so könnten wir sagen, das durchschnittliche Alter P (bzw. der Mittel1 wert) ist 3.81 Jahre. Man beachte, dass der Mittelwert x̄ := n i xi nur für eine endliche P Zahl n von Beobachtungen berechnet werden kann, der Erwartungswert E(x) := j xj Pr(xuj ) ist auch für eine unendlich große Grundgesamtheit definiert. Rechnen mit Erwartungswerten Der Erwartungswert ist ein linearer Operator, d.h. mit Erwartungswerten kann ‘sehr ähnlich’ gerechnet werden wie mit dem Summenzeichen. So gilt z.B. für konstante a E(a) = a für a = konst., weil X Pr(x) = 1 E(ax) = a E(x) für a const. E [E(x)] = E(x) X für eine Funktion g(·) E [g(x)] = g(xj ) Pr(xj ) j Die Varianz σx2 einer Zufallsvariablen x ist definiert als var(x) := σx2 = E [x − E(x)]2 bzw. für diskrete Zufallsvariablen σx2 = X j (xj − µ)2 Pr(xj ) mit µ := E(x) Die Varianz einer Zufallsvariablen x kann auch folgendermaßen berechnet werden: σx2 = = = = also E [x − E(x)]2 = E(x − µ)2 = E(x2 − 2µx + µ2 ) E(x2 ) − 2µ E(x) + µ2 = E(x2 ) − 2µµ + µ2 E(x2 ) − µ2 E(x2 ) − [E(x)]2 var(x) ≡ σx2 = E [x − E(x)]2 = E(x2 ) − [E(x)]2 Analoges gilt auch für stetige Zufallsvariablen. Die Kovarianz ist definiert als cov(x, y) = E [[x − E(x)] [y − E(y)]] = E [xy − y E(x) − x E(y) + E(x) E(y)] = E(xy) − E(x) E(y) 26 Empirische Wirtschaftsforschung y 22.000 b b 20.000 18.000 b Preis 16.000 b 14.000 12.000 b 10.000 b 8.000 x 6.000 0 1 2 3 4 5 6 Alter Abbildung 3.12: Bedingte Erwartungswertfunktion für Auto-Beispiel 3.3.1 Bedingte Erwartungswerte Wir haben bereits eingangs betont, dass die bedingten Erwartungswerte vermutlich das wichtigste Konzept für ein tieferes Verständnis der PRF sind. Für diskrete Zufallsvariablen ist der bedingte Erwartungswert definiert als X E(y|x = x) = y j Pr(y j |x = x) j=1 zum Beispiel E(Preis|Alter = 1) = 20000 = 21000 0.04 0.01 + 25000 0.05 0.05 Die bedingte Erwartungswertfunktion (‘Conditional Expectation Function’, CEF) einer diskreten Zufallsvariable ordnet jeder Ausprägung einer erklärenden Zufallsvariable x den entsprechenden bedingten Erwartungswert der abhängigen Variable y zu, z.B. 21000 für Alter = 1 20000 für Alter = 2 16875 für Alter = 3 E(Preis|Alter = Alter) = 14464.29 für Alter = 4 11785.71 für Alter = 5 9722.222 für Alter = 6 27 Empirische Wirtschaftsforschung In diesem einfachen Beispiel sind die bedingten Erwartungswerte einfach die Mittelwerte der Grundgesamtheit für die entsprechenden Alters-Gruppen, der durchschnittliche Preis von Autos mit Alter = 1 beträgt z.B. 21000 Euro. Die grafische Abbildung dieser bedingten Erwartungswertfunktion (CEF) sind die in Abbildung 3.12 eingezeichneten Punkte (Achtung, nicht die auch eingezeichnete strichlierte Linie). Man beachte, dass für fixierte x diese bedingten Erwartungswerte keine Zufallsvariablen sind, obwohl y eine Zufallsvariable ist. Wer immer auf Grundlage der gemeinsamen Verteilung (Tabelle 3.5) die bedingten Erwartungswert berechnet wird das selbe Ergebnis erhalten, es gibt dabei kein Element der Unsicherheit. Die CEF kann nun verwendet werden, um die y Variable in zwei Teile zu zerlegen, in einen systematischen Teil E(y|x = x) und in einen Störterm ε y = E(y|x = x) + ε und definieren so die Störterme ε = y − E(y|x = x). Die bedingte Erwartungswertfunktion (CEF) ist ein sehr allgemeines Konzept. Wie Abbildung 3.12 zeigt müssen die einzelnen Punkte keineswegs auf einer Gerade liegen. Es gibt zwei Spezialfälle, in denen die Punkte der CEF tatsächlich auf einer Geraden liegen, nämlich 1. in einem gesättigten Dummy Variablen Modell, mehr dazu später im Kapitel über Dummy Variablen; und 2. wenn die Variablen gemeinsam normalverteilt sind, dazu müssen die Zufallsvariablen natürlich stetig sein. Aber auch wenn die Punkte der CEF nicht exakt auf der linearen PRF liegen wie in diesem Beispiel kann man doch zeigen, dass diese Punkte der CEF durch eine lineare Regression bestmöglich approximiert werden! Die eingezeichnete lineare Populationsregressionsfunktion (PRF) Preisi = 24464.652 − 2484.161 Alteri + εi kann auch direkt als eine Funktion der Momente der Zufallsvariablen x und y dargestellt werden. Das OLS Prinzip – die Minimierung der Quadratsummen der Störterme – führt uns nämlich zu den altbekannten Ausdrücken β2 = E[x − E(x)][y − E(y)] cov(x, y) = , var(x) E[x − E(x)]2 β1 = E(y) − β2 E(x) die die PRF y = β1 + β2 x + ε definieren. Man beachte, dass die Parameter der PRF direkt aus der gemeinsamen Wahrscheinlichkeitsfunktion von x und y in Tabelle 3.5 berechnet werden können. Dies funktioniert auch für eine unendlich große Grundgesamtheit. 28 Empirische Wirtschaftsforschung Zur Kontrolle: Wir erinnern uns, dass cov(x, y) = E[x − E(x)] E[y − E(y)] = E(xy) − E(x) E(y) var(x) = E[x − E(x)]2 = E(x2 ) − [E(x)]2 Aus Tabelle 3.5 berechnen wir E(xy) = 51700 E(x) = 3.81 E(x2 ) = 16.71 E(y) = 15000 mit cov(x, y) = 51700 − 3.81 ∗ 15000 = −5450 und var(x) = 16.71 − 3.812 = 2.1939. Daraus folgt β2 = −5450/2.1939 = −2484.161 und β1 = 15000 + 2484.161 ∗ 3.81 = 24464.652 Dies sind natürlich exakt die gleichen Werte die wir erhalten, wenn wir die OLS Methode direkt auf die Daten der Grundgesamtheit in Tabelle 3.3 anwenden. 3.3.2 Stetige Zufallsvariablen Dies funktioniert im Wesentlichen gleich für stetige Zufallsvariablen, nur ist in diesem Fall die Mathematik etwas aufwändiger. Deshalb beschränken wir uns auf einige Grafiken, die das Prinzip hoffentlich klar machen. Abbildungen 3.13 und 3.14 zeigen bedingte Erwartungswertunktionen für zwei normalverteilte Zufallsvariablen x und y. 29 Empirische Wirtschaftsforschung f (y|x = x) = f (x,y) f (x) f (x, y) f (x = x) x y Abbildung 3.13: Gemeinsame Dichtefunktion zweier normalverteilter Zufallsvariablen mit bedingter Wahrscheinlichkeit. 30 Empirische Wirtschaftsforschung bedingte Wahrscheinlichkeiten f (x,y) f (y|x = x) = f (x) f (x, y) x y Abbildung 3.14: Bedingte Erwartungswertefunktionen von y für verschiedene x. f (x, y) x y Abbildung 3.15: Population Regression Function für zwei gemeinsam normalverteilte Zufallsvariablen x und y. Datengenerierender Prozess (DGP) f (x, y) x n Paare von Zufallsvariablen; εi identisch & unabhängig verteilt? y ε̂1 = y1 − βb1 − βb2 x1 , ε1 ∼ N(0, σ12 ) .. . induktiv (Theorie) ε̂i = yi − βb1 − βb2 xi , .. . .. . .. . n→∞ βb2 = εi ∼ N(0, σi2 ) ε̂n = yn − βb1 − βb2 xn , εn ∼ N(0, σn2 ) . . . Asymptotik Stichprobenkennwertverteilung Schätzfunktion .. . cd ov(x,y) var(x) c mit Gauss-M. Ann. E(βb2 ) = β2 var(βb2 ) = f (βb2 ) Empirische Wirtschaftsforschung yi = β1 + β2 xi + εi nicht beobachtbar 2 P σ̂ i (xi −x̄) b 0 β2 | 1 βb2 Zustände vor dem Zufallsexperiment (ex ante) sind nicht beobachtbar! ZUFALLSEXPERIMENT Nach dem Zufallsexperiment (ex post) existiert kein Zufall (Realisationen)! y1 x1 y2 x2 ... yi xi ... yn xn cd ov(x,y) var(x) c | 0 bc βb2 Schätzung (Zahl) c H. Stocker 31 Stichprobe (n Realisationen) βb2 = beobachtbar deskriptiv (Empirie) Abbildung 3.16: Stochastische Regressionsanalyse. Stochastische Regressionsanalyse Empirische Wirtschaftsforschung 32 Literaturverzeichnis Spanos, A. (1999), Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cambridge University Press. 33 Empirische Wirtschaftsforschung 3.A 3.A.1 Appendix EViews Programmcode für Monte Carlo Simulation Das folgende Programm zieht aus einer gegebenen Grundgesamtheit wiederholt Stichproben, berechnet für jede Stichprobe den Koeffizienten β2 und zeichnet ein Histogramm aller Schätzungen. Das Histogramms in Abbildung 3.9 (Seite 12) wurde mit diesem Programm erzeugt. Sie können das Programm auch unter http://www.uibk.ac.at/econometrics/einf/02prg_mc1.prg herunterladen. ’ Ein einfaches Monte Carlo Beispiel ’ Workfile mit Namen MONTECARLO anlegen, undated, 20 Beobachtungen wfcreate(wf=MONTECARLO) u 20 ’ in EViews 4: workfile MONTECARLO u 20 ’ Daten für Grundgesamtheit anlegen und einlesen series Xpop series Ypop Xpop.fill 1.2, 1.3, 1.7, 1.9, 1.9, 2.0, 2.2, 2.4, 2.8, 2.8, _ 3.2, 3.3, 3.4, 3.7, 4.1, 4.1, 4.3, 4.4, 4.5, 4.7 Ypop.fill 0.8, 2.9, 0.8, 0.7, 3.5, 3.2, 2.6, 3.2, 3.6, 1.1, _ 1.4, 2.3, 2.6, 2.6, 3.9, 2.3, 2.5, 3.9, 4.2, 4.2 series Y ’ Datenreihen für SRF anlegen series X series X ’ Skalare und Vektoren anlegen !N = 10 ’ Stichprobengroesse !WH = 10000 ’ Anzahl der Wiederholungen vector(!WH) BV ’ Vektor fuer Ergebnisse anlegen rndseed 123456 ’ Zufallsgenerator init. for !i = 1 to !WH ’ for !j = 1 to !N !ZUFALL = @floor(@runif(1,21)) X(!j) = Xpop(!ZUFALL) Y(!j) = Ypop(!ZUFALL) next equation tmp.ls Y c X ’ BV(!i) = tmp.@coefs(2) ’ next ’ Beginn Schleife über WH ’ Beginn Schleife N Zufallsziehungen ’ gleichvert. Zufallszahl zw. 1 & 20 ’ Zufallsziehungen ’ Ende der Schleife über N SRF schätzen b_1 in Vektor schreiben (2. Koeff.) Ende Schleife über WH ’Grafiken erzeugen und ausgeben range 1 !WH smpl @all mtos(BV,B1) ’ Vektor BV in series BS umwandeln freeze(B_HIST) B1.hist ’ Histogramm anlegen B_HIST.addtext(t) Histogramm (N = !N, !WH Wiederholungen) range 1 20 show B_HIST ’ Histogramm anzeigen