Kapitel 2 Grundlagen der Regressionsanalyse “Physics is like sex. Sure, it may give some practical results, but that’s not why we do it.” (Richard Feynman) 2.1 Einführung In unserem täglichen Leben sind wir ständig darauf angewiesen Zusammenhänge zwischen Phänomenen zu erkennen und zu beurteilen. Exakte Zusammenhänge können einfach mit Hilfe von Funktionen dargestellt werden. Wenn wir zum Beispiel an einer Tankstelle tanken wissen wir, dass sich der zu bezahlende Betrag (y) als Produkt von Preis und der Anzahl der getankten Liter (x) ergibt. Dies ist eine einfache lineare Funktion y = β0 + β1 x wobei hier y den ‘zu bezahlenden Betrag’ und x die Menge an getankten Litern bezeichnet. In diesem Spezialfall wäre das Interzept β0 gleich Null, denn wenn wir nichts tanken (x = 0) müssen wir auch nichts bezahlen. Der Koeffizient β1 ist die Steigung dieser Geraden und würde in diesem Beispiel dem Preis entsprechen, denn wenn wir einen zusätzlichen Liter tanken steigt der zu bezahlende Betrag um β1 Euro. Dieser Zusammenhang gilt bei fixen Preisen exakt und für jede beliebige Menge x. Sehr viele Zusammenhänge gelten aber nicht exakt, sondern sind nur näherungsweise gültig. Wenn wir zum Beispiel untersuchen möchten, wie die Mietpreise von Wohnungen von der Größe (Wohnnutzfläche) abhängen, dann erwarten wir zwar auch einen positiven Zusammenhang, aber dieser Zusammenhang wir kaum exakt gültig sein, da die Mieten in der Regel von einer Vielzahl von Faktoren abhängen, die sich zwischen den Wohnungen unterscheiden (z.B. von der Lage und Ausstattung der Wohnungen), nicht nur von der Wohnnutzfläche. Wenn wir die Miete mit y und die Wohnnutzfläche mit x bezeichnen, können wir nicht wie früher einfach 35 36 Grundlagen der Regressionsanalyse y = β0 + β1 x y yi =β0 + β1 xi + ui =213 + 3.65xi + ui y 1200 60 b 1000 800 40 Miete Betrag 50 30 600 x 0 10 20 30 Liter 40 50 b b b b 200 0 b b b 10 b bb 400 20 b b b b b b b b b b b x 0 0 20 40 60 80 100 120 140 160 180 Wohnnutzfläche Abbildung 2.1: Links ein exakter Zusammenhang zwischen getankten Litern und zu bezahlendem Betrag für einen Preis β1 = 1.1. Rechts ein ‘ungefährer’ Zusammenhang zwischen Wohnnutzflächen und Mieten für eine Stichprobe von 22 Innsbrucker Haushalten (EU-Silc 2008). y = β0 + β1 x schreiben, denn dieser Zusammenhang gilt möglicherweise für keine einzige Wohnung exakt. Abbildung 2.1 soll dies verdeutlichen. Das linke Panel zeigt z.B. den Zusammenhang zwischen getankter Menge in Litern (x) und dem zu bezahlendem Betrag (y) für einen Preis β1 = 1.1 und ein Interzept β0 = 0. Da dies für jedes beliebige x exakt gilt kann man einfach schreiben y = β0 + β1 x. Das rechte Panel in Abbildung 2.1 zeigt 22 Beobachtungen für Mieten und Wohnnutzflächen für Innsbrucker Haushalte (Quelle: EU-Silc Daten 2008, Statistik Austria). Offensichtlich werden für größere Wohnungen in der Regel höhere Mieten bezahlt, aber um diesen ‘ungefähren’ Zusammenhang beschreiben zu können müssen wir die Abweichungen (Fehler) berücksichtigen. Deshalb benötigen wir eigentlich für jeden der hier insgesamt 22 Wohnungen eine eigene Funktion y1 = β0 + β1 x1 + u1 y2 = β0 + β1 x2 + u2 .. . . = .. y22 = β0 + β1 x22 + u22 Da diese Darstellung etwas umständlich wäre wird dies häufig kompakter geschrieben als yi = β0 + β1 xi + ui für i = 1, 2, . . . , N (2.1) wobei N die Anzahl der Beobachtungen bezeichnet (in diesem Beispiel ist N = 22). Für die Variablen y und x haben sich in der Literatur verschiedene Bezeichnungen eingebürgert. Grundlagen der Regressionsanalyse 37 Die links-stehende Variable y Variable (‘left-hand side variable’ ) wird häufig auch abhängige Variable (‘dependent variable’ ), erklärte Variable (‘explained variable’ ), Regressand (‘regressand’ ), Antwortvariable (‘response variable) oder Effektvariable (‘effect variable’ ) genannt. Für die rechts-stehende x Variable (‘right-hand side variable’ ) haben sich die Bezeichnungen erklärende Variable (‘explanatory variable’ ), Regressor (‘regressor ), Kontrollvariable (‘control variable) oder Kovariable (‘covariate’, ‘concomitant variable’ ) eingebürgert. In vielen Lehrbüchern findet sich für die x Variable auch noch die Bezeichnung ‘unabhängige Variable’ (‘independent variable’ ). Während die Bezeichnung ‘abhängige Variable’ für y durchaus zutreffend und üblich ist, ist die Bezeichnung ‘unabhängige Variable’ für x ungünstig, da die x Variable in einem weiteren Sinn nicht unabhängig sein muss. Deshalb werden wir im Folgenden y meist als ‘abhängige Variable’ und x als ‘erklärende Variable’ bezeichnen. Man beachte, dass die Terminologie ‘abhängige’ und ‘erklärende’ Variable alleine noch nichts über die Kausalität zwischen diesen Variablen aussagt! Der letzte Term ui in Gleichung (2.1) bezeichnet den Fehler (‘error’ ) und wird häufig auch Störterm genannt. In unserem Beispiel erklärt die Wohnungsgröße offensichtlich nur einen Teil der Mietausgaben, der unerklärte Teil findet im Störterm seinen Niederschlag. Für das Auftreten solcher Störterme ui sind viele Ursachen denkbar, zum Beispiel • nicht alle Variablen, die eine Auswirkung auf yi haben, können tatsächlich beobachtet werden oder stehen für eine Auswertung zur Verfügung. Der Einfluss aller nicht im systematischen Teil vorkommenden Variablen schlägt sich im Störterm nieder; • oft ist es schlichtweg unmöglich alle potentiell erklärenden Variablen zu berücksichtigen; um das Modell handhabbar zu halten werden manchmal nur die wichtigsten Variablen berücksichtigt;1 • prinzipielle Unbestimmtheiten in der Natur und im menschlichen Verhalten; Dieser Störterm nimmt dabei jeweils den Wert an, sodass die Gleichung exakt erfüllt ist. Wenn man obige Gleichung umschreibt zu ui = yi − β0 − β1 xi erkennt man, dass die Werte ui unmittelbar von β0 und β1 abhängen, also gewissermaßen kein ‘Eigenleben’ haben; dazu später mehr. Man beachte, dass alle Variablen mit einem Subindex i beobachtungsspezifisch sind, sich also zwischen den Haushalten unterscheiden. In diesem Beispiel sind dies die Variablen Miete yi , Wohnnutzfläche xi und der Störterm ui (wenn keine Missverständnisse zu befürchten sind werden wir manchmal den Subindex i weglassen, also z.B. y = β0 + β1 x + u schreiben). Hingegen werden die beiden Größen β0 und β1 als konstant über alle Beobachtungen angenommen. Sie beschreiben – etwas salopp gesprochen – den ‘durchschnittlichen’ Zusammenhang zwischen den beiden Variablen y und x. 1 “Any fool can make things bigger, more complex, and more violent. It takes a touch of genius – and a lot of courage – to move in the opposite direction.” (Albert Einstein). Grundlagen der Regressionsanalyse 38 Es ist wichtig zu erkennen, dass bloß die Variablen y und x direkt beobachtbar sind, nicht hingegen die Störterme ui und die beiden Größen β0 und β1 . Da die beiden Größen β0 und β1 nicht unmittelbar beobachtbar sind und weil sie als konstant angenommen werden, werden sie häufig ‘Parameter’ genannt, oder manchmal auch auch einfach ‘Koeffizienten’. Dabei bezeichnet β0 das Interzept.2 Die Bezeichnung Interzept rührt daher, weil dies in der geometrischen Interpretation den Schnittpunkt der Regressionsgerade mit der y-Achse darstellt, also der der Wert von y für x = 0. Für das Interzept hat sich auch die Bezeichnung Regressionskonstante’ eingebürgert. Der Steigungskoeffizient β1 (‘slope’ ) gibt – wie der Name scjhon sagt – die Steigung der Regressionsgeraden an. In einer inhaltlichen Interpretation misst der Steigungskoeffizient die marginale Reaktion der y Variable auf eine Änderung der x Variable um eine Einheit, deshalb wird er häufig auch als ‘marginaler Effekt’ bezeichnet. Beachten Sie bitte, dass die Subindizes i bei den Variablen y, x und u die i-te Beobachtung von insgesamt N Beobachtungen bezeichnen, während die Subindizes 0 und 1 von β bloß angeben, ob es sich um das Interzept oder um den Steigungskoeffizienten handelt. Kehren wir nochmals kurz zu unserem Beispiel mit den Mieten zurück. Abbildung 2.1 (rechtes Panel) entnehmen wir, dass das Interzept β0 einen Wert von 213 hat, oder in anderen Worten, dass für eine Wohnung der Größe Null (x = 0) durchschnittlich 213 Euro zu bezahlen sind. Dies ist natürlich unsinnig und bloß eine Folge der Tatsache, dass die hier unterstellte lineare Funktionsform den tatsächlichen Zusammenhang nur ungenau beschreibt. In einem späteren Kapitel werden wir sehen, wie solche nichtlinearen Funktionsformen berücksichtigt werden können. Der Steigungskoeffizient β1 gibt an, um wieviele Euro die Miete mit jedem zusätzlichen Quadratmeter Wohnnutzfläche steigt. Abbildung 2.1 entnehmen wir, dass im Jahr 2008 in Innsbruck die Mietausgaben im Durchschnitt mit jedem zusätzlichen Quadratmeter um ca. 3.65 Euro zunahmen. Wenn Ihnen dieser Wert unplausibel niedrig erscheint bedenken Sie, dass es sich hierbei größtenteils nicht um Neuvermietungen handelt, sondern mitunter um lang bestehende und oft gesetzlich regulierte Mietverträge. Selbstverständlich wird auch der Steigungskoeffizient β1 in der Regel nicht konstant sein, aber häufig kann eine lineare Funktionsform den Zusammenhang trotzdem ziemlich gut approximieren. In den beiden Parametern (Koeffizienten) β0 und β1 kommt der systematische Teil des Zusammenhangs zwischen y und x zum Ausdruck, deshalb ist unser Interesse im Folgenden hauptsächlich auf diese Parameter gerichtet. Im nächsten Abschnitt werden wir nun zeigen, wie aus den beobachtbaren Daten y und x die unbekannten Parameter β0 und β1 berechnet werden können, und wie sich daraus schließlich die Störterme ui ergeben. 2 Der Grund dafür, warum man häufig auch das Interzept β0 Koeffizient nennt, liegt darin, dass man sich das Interzept als Koeffizienten eines Einsenvektors vorstellen kann, also β0 1i für i = 1, . . . , N . 39 Grundlagen der Regressionsanalyse 2.2 Die OLS Methode Die Bezeichnung OLS steht für ‘Ordinary Least Squares’, auf deutsch Methode der (Gewöhnlichen) Kleinsten Quadrate. Wir werden hier meist bei dem englischen Akronym bleiben, da sich dies auch in der deutschsprachigen Literatur zunehmend durchsetzt, und weil die meisten Befehle der entsprechenden Software auf den englischen Bezeichnungen beruhen. Unser konkretes Anliegen in diesem Abschnitt ist es eine Formel zu finden, in die wir die beobachteten Daten y und x einsetzen können, und die uns als Resultat ‘bestmögliche’ Zahlenwerte für die unbeobachtbaren Parameter β0 und β1 einer Geradengleichung yi = β0 + β1 xi + ui liefert. Die OLS Methode wird genau dieses Problem lösen. Um diese Methode zu verstehen beginnen wir mit einer vorerst gedanklichen Zerlegung der yi in zwei Teile, in eine systematische Komponente β0 + β1 xi , in der die den Daten zugrunde liegende Gesetzmäßigkeit zum Ausdruck kommt, und in den unsystematischen Störterm ui yi = β0 + β1 xi + ui | {z } |{z} systematische Komponente Störterm Wir wollen uns diese Zerlegung anhand von Abbildung 2.2 veranschaulichen. Das obere Panel zeigt 5 Datenpunkte und eine gedachte Regressionsgerade. Angenommen, wir hätten diese Regressionsgerade bereits, dann könnten wir diese nützen, um jeden y-Wert in zwei Teile zu zerlegen, in einen Wert, der auf der Regressionsgeraden liegt, und in die Abweichung davon, das heißt den den Störterm. Diese Zerlegung ist im unteren Panel dargestellt. Die ‘gefitteten’ Werte, die auf der Regressionsgerade liegen, bezeichnen wir mit ybi (gesprochen y Dach). Diese hängen nur von den (vorerst noch) unbekannten Parametern β0 und β1 sowie von den xi ab ybi = β0 + β1 xi Die systematische Komponente yb beschreibt also den Teil von y, der durch die x ‘erklärt’ wird. Eine ‘gute’ Regressionsgerade sollte auf Grundlage dieser Überlegungen zwei Bedingungen erfüllen, 1. die ‘systematische’, bzw. ‘erklärte’ Komponente sollte möglichst groß sein, was impliziert, dass die Störterme einen möglichst kleinen Erklärungsbeitrag liefern sollten, 2. und die ‘systematische’ Komponente sollte möglichst unkorreliert mit den Störtermen sein. Wir werden gleich sehen, dass uns die OLS Methode genau solche Parameterwerte β0 und β1 liefert, die diese beiden Bedingungen erfüllen. 40 Grundlagen der Regressionsanalyse y i 1 2 3 4 5 6 5 x 1.2 3.0 4.5 5.8 7.2 y 2.6 1.6 4.0 3.0 4.9 b 4 b 3 b b 2 b 1 0 0 1 2 3 4 5 6 7 8 x y ybi = 1.5 + 0.4xi 6 yi = ybi + ui 5 b u5 bc 4 b bc u3 u4 bc 3 ybi = 1.5 + 0.4xi b bc b u1 2 bc b y1 yb1 1 y3 u2 yb2 y2 yb3 yb4 y4 y5 yb5 0 0 1 2 3 4 5 6 7 8 x Abbildung 2.2: Zerlegung von yi in eine systematische Komponente ybi und in einen unsystematischen Störterm ui [local, www] 41 Grundlagen der Regressionsanalyse y 6 y 6 5 5 b 4 b 4 b 3 b 3 b b b b 2 2 b b 1 1 0 0 1 2 3 4 5 6 7 8 x 0 0 1 2 3 4 5 6 7 8 x Abbildung 2.3: Die Summe der Abweichungen hat in beiden Abbildungen den gleichen Wert! Aber warum genügt es nicht einfach, P die Parameterwerte β0 und β1 derart zu wählen, dass die Summe der Störterme i ui möglichst klein wird? Das Problem bei dieser Vorgangsweise besteht darin, dass sich positive und negative Abweichungen in ihrem Vorzeichen aufheben. Dies führt unter anderem dazu, dass die Summe der Störterme für jede Gerade Null ist, die durch die Mittelwerte von x und y gelegt wird, deshalb würde man mit dieser Methode wahrscheinlich eine sehr schlechte Approximation erhalten. Abbildung 2.3 veranschaulicht das Problem: die Summe der Abweichungen hat in der linken und rechten Grafik den gleichen Wert, obwohl die Gerade in der rechten Grafik die Punkte offensichtlich weit besser approximiert. Dieses Problem könnte man vermeiden, wenn man den absoluten Wert der Abweichungen minimiert. Dies wirft jedoch zwei Probleme auf: Zum einen ist dieses Problem numerisch schwieriger zu lösen, zum anderen werden damit größere Abweichungen nicht relativ stärker ‘bestraft’ als kleinere Abweichungen. Tatsächlich sind die meisten Menschen risikoavers und werden große Fehler lieber überproportional stärker ‘bestraft’ sehen als kleine Fehler. Die einfachste Lösung für diese Probleme besteht darin, nicht die absoluten Abweichungen zu minimieren, sondern P β0 und β1 derart zu wählen, dass die Summe 2 der quadrierten Abweichungen (d.h. N i=1 ui ) möglichst klein wird, und genau darin besteht das Prinzip der OLS Methode. Daher erklärt sich auch der Name Methode der Kleinsten Quadrate (‘Ordinary Least Squares’ ). Wir werden nun zeigen, wie man eine Formel formal herleiten kann, die uns die Berechnung der unbeobachtbaren Parameter β0 und β1 aus den beobachtbaren Daten x und y erlaubt. Sie werden sich sich vielleicht fragen, wozu diese ganze nun folgende ‘Rechnerei’ gut sein soll, wenn die fertigen Formeln selbst in Excel bereits fix und fertig implementiert sind und denkbar einfach anzuwenden sind. Nun, wir werden im nächsten Kapitel sehen, dass die Anwendung dieser Formel nur unter ganz 42 Grundlagen der Regressionsanalyse y 6 yi = β0 + β1 xi + ui ybi = β0 + β1 xi 5 ui = yi − ybi 4 y5 b u25 y3 yb4 b u23 3 yb2 y1 b u21 2 u24 b y4 u22 bc yb1 1 yb3 bc yb5 bc bc b y2 min P 2 i ui = P 5 6 i (yi 0 0 1 bc 2 3 4 7 − ybi )2 8 x Abbildung 2.4: Berechnung von β0 und β1 [local, www] bestimmten Voraussetzungen zu den gewünschten Ergebnissen führt. Ein Verständnis der Mechanik dieses OLS-Schätzers (auch Kleinstquadratschätzer genannt) wird es uns erlauben die Grenzen dieses Ansatzes zu verstehen, und in einem weiteren Schritt geeignete Maßnahmen zu ergreifen, wenn die Annahmen verletzt sind, denn eine naive Anwendung dieser Methoden führt häufig zu falschen oder zumindest unnotwendig ungenauen Ergebnissen. Um solche Fehler vermeiden zu können ist ein fundiertes Verständnis der Grundlagen erforderlich. Wir beginnen damit, das Optimierungsproblem, – die Minimierung der Quadratsumme der Störterme – anzuschreiben. Aus yi = β0 + β1 xi + ui folgt durch Umschreiben ui = yi − β0 − β1 xi , also lautet das Minimierungsproblem min β0 ,β1 N X i=1 u2i = min β0 ,β1 N X (yi − β0 − β1 xi )2 i=1 Gesucht sind die Werte von β0 und β1 , für die die Quadratsumme der Störterme minimal ist. Dazu leiten wir partiell nach den gesuchten Parametern β0 und β1 ab und setzen diese beiden Ableitungen gleich Null (Bedingungen erster Ordnung, bzw. notwendige Bedingungen für ein Minimum).3 3 Man kann zeigen, dass die Bedingungen zweiter Ordnung, d.h. die hinreichenden Bedingungen, ebenfalls erfüllt sind. 43 Grundlagen der Regressionsanalyse Dies gibt: ∂ P i u2i = −2 X (yi − β0 − β1 xi ) = −2 | {z } X ui = 0 ∂β0 i i ui P 2 X X ∂ i ui xi ui = 0 = −2 (yi − β0 − β1 xi ) xi = −2 | {z } ∂β1 i i (2.2) (2.3) ui Die Bedingungen erster Ordnung können umgeformt werden zu X X yi = Nβ0 + β1 xi X X X yi xi = β0 xi + β1 x2i (2.4) (2.5) Dies sind die sogenannten Normalgleichungen, die wir nach β0 und β1 lösen können. P Dazu multiplizieren wirP die erste Gleichung mit xi und die zweiten Gleichung mit N (man beachte, dass xi eine Zahl ist). X 2 X X X xi yi = Nβ0 xi + β1 xi X X X N yi xi = Nβ0 xi + β1 N x2i Wir lösen diese beiden Gleichungen nach β1 . Subtraktion der ersten Gleichung von der zweiten und Umformung liefert eine Formel, die es erlaubt den Wert des Koeffizienten β1 aus den Daten zu berechnen: β1 = N P P P yi xi − xi yi P P N x2i − ( xi )2 (2.6) Wenn wir die Beobachtungen yi und xi in diese Formel einsetzen erhalten wir den gesuchten Wert für den Steigungskoeffizienten β1 . Wenn der Parameter β1 ermittelt einmal ist kann auch das Interzept β0 einfach berechnet werden. Aus der Normalgleichung (2.4) folgt 1 X 1 X yi = β0 + β1 xi N N bzw. β0 = ȳ − β1 x̄ (2.7) Diese beiden Formeln lösen unser Problem bereits, aber insbesondere Gleichung (2.6) sieht noch etwas unappetitlich kompliziert aus. Für die Ästhetiker unter Ihnen können wir diese Formel noch etwas weiter vereinfachen. Wir beginnen damit, Zähler und Nenner von Gleichung (2.6) durch N zu dividieren P P P P P 1 P yi xi − N N1 xi N yi xi yi yi xi − N1 β1 = P 2 = P P P 2 2 xi − N1 ( xi ) x2i − N N12 ( xi ) 44 Grundlagen der Regressionsanalyse und berücksichtigen, dass der Mittelwert von x bzw. y definiert ist als4 x̄ = P 1 bzw. ȳ = N i yi . 1 N P i xi , Unter Verwendung der Mittelwerte x̄ und ȳ lässt sich der obige Ausdruck schreiben als P yi xi − N x̄ȳ β1 = Pi 2 2 i xi − N x̄ Anschließend addieren und subtrahieren wir vom Zähler N x̄ȳ und vom Nenner N x̄2 . Dies ergibt P yi xi − N x̄ȳ − N x̄ȳ + N x̄ȳ β1 = i P 2 2 2 i xi − 2N x̄ + N x̄ P Als nächstesP schreiben wir die P Definition der Mittelwerte etwas um, aus x̄ = N1 i xi folgt N x̄ = i xi bzw. N ȳ = i yi , und setzen dies ein P P P xi − x̄ i yi − ȳ i xi + N x̄ȳ i yiP P β1 = 2 2 i xi − 2x̄ i xi + N x̄ ziehen das Summenzeichen heraus P (yi xi − x̄yi − ȳxi + x̄ȳ) β1 = i P 2 2 i (xi − 2x̄xi + x̄ ) und Faktorisieren β1 = P i (xi − x̄) (yi − ȳ) P 2 i (xi − x̄) (2.8) Dies sieht schon deutlich einfacher aus! Noch einfacher zu merken ist die Formel, wenn wir Zähler und Nenner mit 1/N (bzw. 1/(N − 1)) multiplizieren, denn dann erkennt man, dass Gleichung (2.6) einfacher als Verhältnis von Kovarianz zu Varianz geschrieben werden kann: P 1 i (xi − x̄) (yi − ȳ) N β1 = P 2 1 i (xi − x̄) N β1 = 2.2.1 Cov(y, x) Var(x) (2.9) Mittelwerttransformation Dies ist ein günstiger Zeitpunkt eine Datentransformation einzuführen, die sich später oft als nützlich erweisen wird. Diese Datentransformation besteht darin, dass von jeder einzelnen Beobachtung xi P einer Datenreihe der Mittelwert dieser Datenreihe (x̄ ≡ N1 i xi ) subtrahiert wird. 4 Ein Querstrich über einer Variablen wird im Folgenden immer den Mittelwert dieser Variablen bezeichnen. Man beachte, dass die Mittelwerte der Variablen einfache Zahlen sind, und deshalb keinen Subindex i haben. 45 Grundlagen der Regressionsanalyse Die resultierende Zeitreihe besteht einfach aus Abweichungen vom Mittelwert, deshalb wird sie Mittelwerttransformation genannt. Wir werden eine derart transformierte Beobachtung oder Datenreihe im Folgenden mit zwei Punkten über dem betreffenden Symbol kennzeichnen, also z.B. ẍi ≡ xi − x̄ Abbildung 2.5 zeigt eine grafische Interpretation dieser Mittelwerttransformation. Durch diese Transformation “Subtraktion des Mittelwertes” werden die Koordinaten der so transformierten Variable im Verhältnis zu einem neuen Koordinatensystem gemessen, dessen neuer Nullpunkt der Mittelwert der ursprünglichen Variablen (x̄, ȳ) ist. Gewissermaßen bewirkt die Subtraktion des Mittelwertes also eine Verschiebung des Koordinatensystems, so dass der neue Nullpunkt in den Mittelwert der Daten verschoben wird. Solche mittelwerttransformierte Daten werden uns wiederholt begegnen, und sind uns auch schon begegnet; zum Beispiel wird Gleichung (2.8) für β1 aus den mittelwertransformierten Variablen x und y gebildet, d.h. P P ẍi ÿi i (xi − x̄) (yi − ȳ) ≡ Pi 2 β1 = P 2 i ẍi i (xi − x̄) Man beachte auch, dass der Mittelwert einer mittelwertransformierten Variablen stets Null ist, denn 1 X 1 X 1 X 1 X 1 ÿi = (yi − ȳ) = yi − ȳ = ȳ − N ȳ = ȳ − ȳ = 0 ÿ¯i ≡ N i N i N i N N Daraus folgt zum Beispiel auch, dass β1 = Cov(y, x) Cov(ÿ, ẍ) = Var(x) Var(ẍ) Das bedeutet, dass es für die Berechnung des Steigungskoeffizienten β1 keine Rolle spielt, ob man die ursprünglichen Datenreihen oder mittelwerttransformierte Datenreihen verwendet, in beiden Fällen liefert der OLS Schätzer das gleiche Ergebnis. Allerdings kann aus den mittelwerttransformierten Datenreihen das Interzept β0 nicht mehr unmittelbar berechnet werden, denn dies fällt bei der Mittelwerttransformation weg yi = β0 + β1 xi + ui ȳ = β0 + β1 x̄ + ū /− yi − ȳ = β0 − β0 + β1 (xi − x̄) + ui − ū ÿi = β1 ẍi + üi Dies sollte nicht erstaunen, denn wie wir vorhin gesehen haben entspricht die Mittelwerttransformation grafisch einer Verschiebung des Nullpunkts des Koordinatensystems in den Mittelwert der Variablen, und dort in das Interzept per Definition Null. Aber selbstverständlich kann das Interzept aus den nicht-transformierten Daten mit β0 = ȳ − β1 x̄ wieder einfach berechnet werden. 46 Grundlagen der Regressionsanalyse y ÿ 6 5 2 4 1 b (x̄, ȳ) 3 −3 −2 b b bc −1 A 2 E 1 b 2 ẍ 3 −1 b B 1 −2 0 0 1 2 3 4 5 6 7 8 x Daten: A B C D E Mittelwert: y 2.60 1.60 4.00 3.00 4.90 3.22 x 1.20 3.00 4.50 5.80 7.20 4.34 ÿ ẍ −0.62 −3.14 −1.62 −1.34 0.78 0.16 −0.22 1.46 1.68 2.86 0.00 0.00 Abbildung 2.5: Datentransformation, Subtraktion des Mittelwertes. Die Koordinaten des Punktes B im ursprünglichen Koordinatensystem sind (3.0, 1.6); wenn der Mittelwert subtrahiert wird erhält man die Koordinaten in Bezug auf ein neues Koordinatensystem, dessen Ursprung im Mittelwert der Beobachtungen (x̄, ȳ) liegt, für Punkt B also (−1.34, −1.62). [local, www] 47 Grundlagen der Regressionsanalyse Beispiel: Zwischen zwei Variablen x und y bestehe ein linearer Zusammenhang der Form y = β0 + β1 x. Folgende Beobachtungen stehen zur Verfügung: i 1 2 3 4 5 x 1.2 3.0 4.5 5.8 7.2 y 2.6 1.6 4.0 3.0 4.9 Welche Parameter β0 und β1 beschreiben den systematischen Zusammenhang zwischen x und y am ‘besten’ in dem Sinne, dass sie die Quadratsumme der Störterme minimieren? Die Antwort liefert uns die Anwendung der OLS-Formel. Mit unseren Formeln können wir β1 und β0 unmittelbar aus den Daten berechnen. Dazu erweitern wir die Tabelle um die Spalten x×y und x2 und bilden die jeweiligen Summen: i 1 2 3 4 P5 β1 β0 x y 1.2 2.6 3.0 1.6 4.5 4.0 5.8 3.0 7.2 4.9 21.7 16.1 xy 3.1 4.8 18.0 17.4 35.3 78.6 x2 1.4 9.0 20.3 33.6 51.8 116.2 P P P 5 × 78.6 − 21.7 × 16.1 yi xi − xi yi = 0.4 = P 2 P 2 = N xi − ( xi ) 5 × 116.2 − (21.7)2 = y − β1 x = 16.1/5 − 0.4 × 21.7/5 = 1.5 N bzw. mit den alternativen Formeln: i xi − x yi − y ẍ2i ẍi ÿi 1 −3.1 −0.6 9.9 1.9 2 −1.3 −1.6 1.8 2.2 3 0.2 0.8 0.0 0.1 4 1.5 −0.2 2.1 −0.3 2.9 1.7 8.2 4.8 P5 0.0 0.0 22.0 8.7 i P ẍi ÿi Cov(ÿ, ẍ) Cov(y, x) 8.7 β1 = P 2 = = = = 0.4 ẍi Var(ẍ) Var(x) 22 Eine grafische Darstellung dieser Lösungen finden Sie in Abbildung 2.6. 48 Grundlagen der Regressionsanalyse y 6 5 b bc 4 b ∆b y ∆x bc bc 3 β1 = 0.4 bc b ybi = 1.5 + 0.4 xi = 0.4 b ∆x = 1 2 Berechnung der Störterme: bc b 1 0 ui = yi − ybi ui = yi − 1.5 − 0.4xi β0 = 1.5 0 1 2 3 4 5 6 7 8 9 x Abbildung 2.6: Beispiel [local, www] Übungsbeispiele: 1. Zeigen Sie, dass P i ẍi ÿi = P i ẍi yi . 2. Wir werden im Folgenden häufig annehmen, dass der Mittelwert der Störterme Null ist. Leiten Sie für das Modell ÿi = β1 ẍi + ui den OLS Schätzer für β1 her. 2.3 2.3.1 Grundgesamtheit und Stichprobe Deskriptive Regressionsanalyse, oder die ‘Population Regression Function’ (PRF) Wir haben im letzten Abschnitt zwei Formeln hergeleitet, die es uns erlauben, aus beobachteten Daten die Parameter β0 und β1 einer Geradengleichung zu berechnen, die diese Daten ‘bestmöglich’ beschreibt. Bestmöglich bedeutet hier, dass die durch diese Parameter definierte Geradengleichung die Quadratsumme der Störterme minimiert.5 Deshalb werden wir diese zwei Formeln zur Berechnung von β1 und β0 Cov(x, y) β1 = und β0 = ȳ − β1 x̄ Var(x) OLS-Lösungen (für ‘Ordinary Least Squares’ ) nennen. Es ist naheliegend, die Parameter β0 und β1 (bzw. die dadurch definierte Geradengleichung) für eine kompakte Beschreibung des Zusammenhanges zwischen zwei Variablen y und x zu verwenden, ganz ähnlich, wie wir den Mittelwert als deskriptives Maß zur Beschreibung einer Variable heranziehen. 5 Wir werden im nächsten Kapitel eine präzisere Definition von ‘bestmöglich’ erarbeiten. 49 Grundlagen der Regressionsanalyse Tabelle 2.1: Alter und Körpergröße (in cm) Obs Alter Größe 1 5.0 112 2 6.0 127 3 6.9 131 4 7.1 131 5 8.8 139 6 9.0 146 7 9.3 144 8 9.4 143 9 9.9 149 10 10.1 149 11 10.4 156 12 10.5 150 Obs Alter Größe 13 10.8 159 14 10.8 148 15 11.1 153 16 11.2 168 17 11.4 171 18 11.8 169 19 12.7 174 20 13.7 172 21 13.8 180 22 14.1 189 23 14.2 178 24 14.9 192 Körpergröße Alter: 6 Series: ALTER Observations 24 5 Mean Median Maximum Minimum 4 10.53750 10.65000 14.90000 5.000000 7 Series: Groesse Observations 24 6 Mean Median Maximum Minimum 5 4 155.4167 151.5000 192.0000 112.0000 3 3 2 2 1 1 0 5 6 7 8 9 10 11 12 13 14 15 0 110 120 130 140 150 160 170 180 190 200 Abbildung 2.7: Deskriptive Statistik für die Variablen ‘Alter’ und ‘Körpergröße’ Ein sehr einfaches Beispiel soll die zugrunde liegende Idee verdeutlichen. Stellen wir uns vor, wir haben eine Gruppe mit 24 Buben im Alter von 5 bis 15 Jahren vor uns. In Tabelle 2.1 finden Sie die Aufzeichnungen über Alter und Körpergröße dieser 24 Buben. Die deskriptive Statistik versucht diese Variablen durch Lagemaße, wie z.B. Mittelwert oder Median, möglichst kompakt zu beschreiben. Die Idee dahinter ist eine Informationsverdichtung, mit der selbstverständlich ein Informationsverlust einhergeht, der allerdings durch dadurch kompensiert wird, dass die kompakten Informationen einfacher verarbeitet werden können. Abbildung 2.7 zeigt neben den üblichen Lagemaßen auch noch das Histogramm6 für diese beiden Variablen. Analog dazu kann man eine Regressionsgerade dazu benützen, um den Zusammenhang für gegebene Beobachtungen einfach nur zu beschreiben. Abbildung 2.8 zeigt das Streudiagramm für die 24 Buben aus dem obigen Beispiel. Ähnlich wie wir den Mittelwert verwenden um eine einzelne Variable zu beschreiben, können wir die Regressionsgerade verwenden, um den Zusammenhang zwischen Alter und Körpergröße für diese 24 Buben kompakter zu beschreiben. 6 Ein Histogramm zeigt die Häufigkeitsverteilung von Messwerten, also wie viele Beobachtungen jeweils in einen bestimmten Bereich fallen. 50 Grundlagen der Regressionsanalyse Größe b 190 b 180 b b b 170 b 160 b b b b b b 150 b b 140 b b b b b b b 130 b b 120 b 110 100 Alter 4 5 6 7 8 9 10 11 12 13 14 15 Abbildung 2.8: Streudiagramm (Scatterplot) der Variablen ‘Alter’ und ‘Körpergröße’. Die Regressionsgerade ‘Größe = 76.3+7.5Alter’ beschreibt diesen Zusammenhang (R2 = 0.94). Übrigens geht die Bezeichnung Regression auf ein einen ähnlichen Zusammenhang zurück. Der britische Naturforscher Francis Galton (1822 - 1911), ein Halbcousin von Charles Darwin, interessierte sich für den Zusammenhang zwischen der Körpergröße von Söhnen und der Körpergröße von deren Vätern. Die Anwendung dieser Methode zeigt ihm, dass zwischen diesen Variablen ein negativer Zusammenhang besteht, dass große Väter im Durchschnitt also kleinere Söhne haben, und Galton sprach in diesem Zusammenhang von einer “regression towards the mean”. Darauf geht die heute übliche Bezeichnung ‘Regression’ zurück.7 Die Regressionsgerade kann die Daten – je nach der Beschaffenheit der Daten – mehr oder weniger gut beschreiben. Abbildung 2.2 zeigt zwei Extremfälle, im linken Panel liegen die Daten (fast) auf der Regressionsgerade drauf, d.h. der ‘Fit’ ist sehr sehr gut, und die Daten werden durch die Regressionsgerade so gut wie vollständig beschrieben (nicht erklärt!) – der Informationsverlust ist also sehr gering. Im Gegensatz dazu werden die Daten im rechten Panel durch die Regressionsgerade nur sehr schlecht beschrieben, der ‘Fit’ ist sehr schlecht. Wenn man im zweiten Fall nur die Regressionsgerade kennt, erhält man eine sehr schlechte Vorstellung von den zugrunde liegenden Daten, der Informationsverlust ist groß. Praktisch wäre, wenn wir eine einfache Kennzahl hätten, die uns beschreibt, wie gut die Anpassung der Regressionsgeraden an die Beobachtungspunkte ist. Eine solche Kennzahl existiert tatsächlich, nämlich das ‘Bestimmtheitsmaß’ R2 . Diese Kennzahl R2 kann für normale Regressionen mit Interzept Werte zwischen Null und Eins annehmen. Umso besser der ‘Fit’ ist, umso näher liegt das Bestimmt7 Daraus folgt allerdings nicht, dass die Engländer über die Jahrhunderte immer kleiner werden, wie Galton fürchtete, deshalb ging dieses Phänomen als “Galton’s Fallacy” in die Literatur ein. 51 Grundlagen der Regressionsanalyse R2 = 0.028 R2 = 0.9996 Größe Größe 190 190 b b 180 180 170 170 b b b b b b b 160 160 b b b 150 b b 150 b 140 130 b b 120 b b b b b b b b b b b b 140 b b b b 130 b b 120 b b 110 b b b b b b b 110 b b b 100 Alter 4 5 6 7 8 9 10 11 12 13 14 15 100 Alter 4 5 6 7 8 9 10 11 12 13 14 15 Tabelle 2.2: Der Zusammenhang zwischen zwei Variablen kann durch eine Regressionsgerade mehr oder weniger gut beschrieben werden. heitsmaß bei Eins (Abbildung 2.2, linkes Panel); umso schlechter der ‘Fit’ ist, umso näher liegt es bei Null (Abbildung 2.2, rechtes Panel). Wir werden das Bestimmtheitsmaß am Ende des Kapitels ausführlich herleiten und diskutieren, hier sei nur betont, dass das Bestimmtheitsmaß als deskriptives Maß zur Beurteilung der ‘Güte der Anpassung’ der Regressionsgeraden interpretiert werden kann. Kommen wir zurück zum Wichtigen: Wir haben die Regressionsgerade Größe = 76.3 + 7.5Alter bisher ausschließlich dazu benützt, um den Zusammenhang für diese 24 Buben zu beschreiben. Sie sagt uns z.B. dass im der der durchschnittliche Zunahme an Körpergröße für genau diese 24 Buben 7.5 cm pro Jahr betrug. Dies ist eine deskriptive Kennzahl, ähnlich wie der Mittelwert der Körpergröße, der für diese 24 Buben 155.4167 cm ist (siehe Abbildung 2.2, rechtes Panel). Jede Forscherin, die die OLS Formel auf diese 24 Beobachtungen anwendet, wird zu den exakt gleichen Ergebnissen kommen, in dieser Beschreibung ist also kein Zufallselement enthalten. In diesem Beispiel sind diese 24 sind unsere Grundgesamtheit, die wir mit Hilfe einer Regressionsgerade nur kompakter beschreiben. Eine Regressionsgleichung, die den Zusammenhang zwischen zwei Variablen in der Grundgesamtheit beschreibt, wird Regressionsfunktion der Grundgesamtheit (‘Population Regression Function’, kurz PRF) genannt. Eine PRF beschreibt immer den “wahren” Zusammenhang in der Grundgesamtheit, ist also Teil der deskriptiven Statistik. Sie werden sich vermutlich schon gefragt haben, was an diesen 24 Buben so besonders ist, dass wir uns für den Mittelwert der Körpergröße und den Mittelwert der jährlichen Größenzunahme interessieren. Grundlagen der Regressionsanalyse 52 Richtig – gar nichts! In aller Regel interessieren wir uns nicht für die konkreten Untersuchungsobjekte, sondern für den allgemeinen Zusammenhang. Wir möchten eigentlich wissen, wie der Zusammenhang zwischen Alter und Körpergröße generell für Buben in dieser Altersstufe aussieht. Dies mag auf den ersten Blick wie eine kleine Spitzfindigkeit erscheinen, aber Vorsicht, dieser feine Unterschied in der Fragestellung ist von großer Bedeutung für alles Folgende, erst hier kommt die schließende Statistik ins Spiel! Wenn wir uns für den allgemeinen Zusammenhang interessieren, interpretieren wir die gleichen 24 Buben nämlich nicht mehr als Grundgesamtheit, die wir nur beschreiben wollen, sondern als Stichprobe aus einer viel größeren Grundgesamtheit, und wir versuchen aus dieser Stichprobe von 24 Buben auf die viel größere Grundgesamtheit aller Buben dieser Altersstufe zu schließen! Erst wenn wir die Daten als Resultat einer Stichprobenziehung interpretieren kommt ein Zufallselement hinzu, das uns später die Anwendung der Techniken der schließenden Statistik erlauben wird, die uns ihrerseits im übernächsten Kapitel eine Beurteilung der “Verlässlichkeit” der Schätzergebnisse ermöglichen wird. Tatsächlich werden Regressionsanalysen fast nie zur Beschreibung von Grundgesamtheiten eingesetzt, fast immer versucht man aus den Beobachtungen einer Stichprobe etwas über die Grundgesamtheit zu lernen, bzw. auf Grundlage einer Stichprobe auf die Parameter einer unbeobachtbaren Grundgesamtheit zu schließen. Diese Unterscheidung zwischen Grundgesamtheit und Stichprobe führt uns weiter zur Stichprobenregressionsfunktion. 2.3.2 Die Stichprobenregressionsfunktion (‘Sample Regression Function’, SRF) Eine Stichprobenregressionsfunktion (SRF) erhält man, wenn man die früher hergeleiteten OLS-Formel auf Stichprobendaten anwendet mit dem Ziel, eine möglichst gute Schätzung für die PRF (‘Population Regression Function’ ) zu erhalten. In dieser Anwendung wird die bekannte OLS-Formel nun OLS-Schätzer (estimator ) genannt, und die Anwendung dieses OLS Schätzers auf Stichprobendaten liefert uns eine Schätzung (estimation) für die unbekannten Parameter der Grundgesamtheit β0 und β1 . Wenn wir viele Stichproben ziehen, und aus jeder dieser Stichproben Schätzungen für β0 und β1 berechnen, so werden wir vermutlich für jede gezogene Stichprobe eine – hoffentlich nur geringfügig – unterschiedliche Schätzung für die wahren Parameter der Grundgesamtheit erhalten. Die aus den Stichproben berechneten Schätzungen für β0 und β1 sind deshalb Zufallsvariablen, während die wahren Parameter β0 und β1 – die die Grundgesamtheit bestmöglich beschreiben – fixe Zahlen sind, die allerdings in der Regel unbekannt sind. Da diese Unterscheidung zwischen Grundgesamtheit und Stichprobe, bzw. zwischen PRF und SRF, derart wichtig ist, werden wir sie im Folgenden anhand eines umfangreicheren Beispiels ausführlich erläutern. 53 Grundlagen der Regressionsanalyse Tabelle 2.3: Grundgesamtheit mit 20 Beobachtungen (Obs.): Welcher Zusammenhang besteht zwischen y und x? Obs. 1 2 3 4 5 6 7 8 9 10 x 1.2 1.3 1.7 1.9 1.9 2.0 2.2 2.4 2.8 2.8 y Stichpr. 0.8 b 2.9 c 0.8 b 0.7 a 3.5 c 3.2 a 2.6 b 3.2 b 3.6 c 1.1 a Obs. 11 12 13 14 15 16 17 18 19 20 x 3.2 3.3 3.4 3.7 4.1 4.1 4.3 4.4 4.5 4.7 y Stichpr. 1.4 b 2.3 a 2.6 a 2.6 a 3.9 b 2.3 c 2.5 c 3.9 c 4.2 c 4.2 b y 5 b 4 b PRF: yi = 1.03 + 0.53xi + ui b b b 3 b b b b b b b b b b 2 b b 1 b b b 0 0 1 2 3 4 5 x Abbildung 2.9: ‘Population Regression Function’ [local www] Beispiel: Wir gehen von einer Grundgesamtheit mit insgesamt 20 Beobachtungen aus. Die Daten sind in Tabelle 2.3 wiedergegeben und in Abbildung 2.9 (inklusive ‘Population Regression Function’ und Störtermen ui ) grafisch dargestellt. Die eingezeichnete Regressionsgerade beschreibt die Daten bestmöglich im Sinne des OLS Kriteriums. Wir wollen nun annehmen, eine Forscherin kennt nicht die gesamte Grundgesamtheit, sondern nur eine Stichprobe daraus, zum Beispiel die sechs Beobachtungen, die in Tabelle 2.3 als Stichprobe “a” gekennzeichnet sind. Die Aufgabe dieser Forscherin ist, aus diesen 6 Beobachtungen der Stichprobe ‘a’ auf die ‘Population Regression Function’ (PRF) der Grundgesamtheit (d.h. aller 20 Beobachtungen) zu schließen. Wenn Sie klug ist wird sie den OLS Schätzer auf die 6 Stichprobenbeobachtungen anwenden, und erhält als Ergebnis eine ‘Sample Regression Function’ (SRF), die in Abbildung 2.10 dargestellt ist. 54 Grundlagen der Regressionsanalyse Zufalls-Stichprobe “a” (N a = 6) y 5 bc 4 bc PRF: yi = 1.03 + 0.53xi + ui bc bc bcbc 3 bc bc bc bc bcbc bc bcbc bcbc SRF 1: yia = 0.85 + 0.43xi + eai bc bc 2 i 4 6 10 12 13 14 bc bcbc 1 bc bc bcbc 0 0 1 2 3 4 5 x 1.9 2.0 2.8 3.3 3.4 3.7 y 0.7 3.2 1.1 2.3 2.6 2.6 S a a a a a a x Abbildung 2.10: ‘Sample Regression Function’ 1 Man beachte, dass die Störterme ui der PRF nicht gleich groß sind wie die Abweichungen der Beobachtungspunkte von der SRF, schließlich unterscheiden sich PRF und SRF. Um diesen Unterschied zu betonen werden wir im Folgenden die Abweichungen der Stichprobenbeobachtungen von der SRF als Residuen bezeichnen. Die Residuen werden aus der SRF berechnet und heißen Residuen, weil sie gewissermassen ‘übrig bleiben’, wenn man den erklärten (systematischen) Teil von y vom beobachteten y abzieht ei = yi − ŷi = yi − b0 − b1 xi Da unsere Forscherin die PRF nicht kennt, sind für sie auch die Störterme der Grundgesamtheit so unbekannt wie die wahren Parameter β0 und β1 der PRF. Sie kann aber aus den Stichprobendaten die SRF berechnen, und kann deshalb für die Stichprobendaten auch die Residuen berechnen. Gehen wir weiter und nehmen wir an, eine andere Forscherin zieht eine unterschiedliche Stichprobe ‘b’ aus der gleichen Grundgesamtheit, und schätzt aus dieser Stichprobe ‘ b’ durch Anwendung des OLS Schätzers ebenfalls eine SRF. Da die Stichprobe ‘b’ andere Daten enthält als Stichprobe ‘a’ wird sich natürlich auch die SRF der ersten Forscherin von der SRF der zweiten Forscherin unterscheiden. Die SRF der zweiten Forscherin ist in Abbildung 2.11 dargestellt. Die SRF einer dritten Stichprobenziehung “c” ist schließlich in Abbildung 2.12 wiedergegeben, und natürlich unterscheidet sich auch diese von den beiden vorhergehenden ‘Sample Regression Functions’. Abbildung 2.13 zeigt zusammenfassend noch einmal die ‘Population Regression Function’ und die drei unterschiedlichen ‘Sample Regression Functions’, die aus den unterschiedlichen Stichproben geschätzt wurden. Man beachte: die ‘Sample Regression Functions’ (SRF) stellen Schätzungen für den (normalerweise unbeobachtbaren) Zusammenhang in der Grundgesamtheit dar. Ein wesentlicher Teil der ökonometrischen Arbeit besteht darin, aus Stichprobendaten auf die zugrundeliegende ‘Population Regression Function’ zu schließen. 55 Grundlagen der Regressionsanalyse y 5 Zufalls-Stichprobe “b” (N b = 7) SRF 2: yib = −0.12 + 0.91xi + ebi rsbc bc 4 rsbc bc bc bc 3 PRF: yi = 1.03 + 0.53xi + ui bc rsbc bc rsbc bc bc bc bc bc 2 i 1 3 7 8 11 15 20 rsbc 1 bc rsbc rsbc bc 0 0 1 2 3 4 5 x 1.2 1.7 2.2 2.4 3.2 4.1 4.7 y 0.8 0.8 2.6 3.2 1.4 3.9 4.2 S b b b b b b b x Abbildung 2.11: ‘Sample Regression Function’ 2 Zufalls-Stichprobe “c” (N c = 7) y 5 bc bc PRF: yi = 1.03 + 0.53xi + ui rs 4 bc rs bc bc rs bc SRF 3: yic = 3.1 + 0.05xi + eci rs bc 3 bc rs bc bc bc bc rs bc bc rs bc 2 i 2 5 9 16 17 18 19 bc 1 bc bc bc bc 0 0 1 2 3 4 5 x Abbildung 2.12: ‘Sample Regression Function’ 3 x 1.3 1.9 2.8 4.1 4.3 4.4 4.5 y 2.9 3.5 3.6 2.3 2.5 3.9 4.2 S c c c c c c c 56 Grundlagen der Regressionsanalyse y 5 SRF 2: yib = −0.12 + 0.91xi + ebi b rs 4 rsb rsb PRF: yi = 1.03 + 0.53xi + ui rs b b rs rs b bc 3 SRF 3: yic = 3.1 + 0.05xi + eci rsb rs b bc SRF 1: yia = 0.85 + 0.43xi + eai b b rs bc rs bc rsb 2 rsb bc 1 rsb rsb bc 0 0 1 2 3 4 5 x Abbildung 2.13: ‘Population und ‘Sample Regression Functions’ Grundgesamtheit yi = β0 + β1 xi + ui Stichprobe y i = b0 + b1 x i + e i ui ∼ N (0, σ 2 ) Abbildung 2.14: Grundgesamtheit und Stichprobe Notation: Da die Unterscheidung zwischen Grundgesamtheit und Stichprobe, bzw. PRF und SRF, derart wichtig ist, führen wir dafür unterschiedliche Symbole ein. Im Folgenden werden wir Parameter der Grundgesamtheit in aller Regel mit griechischen Buchstaben bezeichnen, die Schätzungen dafür aus der Stichprobe mit lateinischen Buchstaben. Eine Ausnahme von dieser Regel machen wir bei den Störtermen, bzw. Residuen, wo wir die (unbeobachtbaren) Störterme der Grundgesamtheit mit ui und die aus der Stichprobe berechneten (beobachtbaren) Residuen mit ei bezeichnen. Ein Dach über einer Variablen drückt jeweils aus, dass es sich um einen geschätzten Wert handelt (ŷi ist der ‘gefittete’ von yi ). Man bezeichnet übrigens die ui der Grundgesamtheit als Störterme, da sie gewissermaßen den Zusammenhang zwischen den y und x stören, und die aus der Stichprobe berechneten ei als Residuen, da sie als Differenz zwischen beobachteten Werten yi und den gefitteten Werten ŷi = b0 + b1 xi berechnet werden, d.h. ei = yi − b0 − b1 xi . 57 Grundlagen der Regressionsanalyse Für den unbeobachtbaren Zusammenhang in der Grundgesamtheit (die population regression function PRF) schreiben wir also yi = β0 + β1 xi + ui und für den aus der Stichprobe berechneten Zusammenhang (die sample regression function SRF)8 yi = b0 + b1 xi + ei Natürlich können wir die bereits für die ‘Population Regression Function’ hergeleiteten OLS-Formeln auch für die Berechnung der ‘Sample Regression Functions’ verwenden, wir setzen einfach die Stichprobendaten in die Formeln ein. Deshalb erhalten wir als Ergebnis nicht den Zusammenhang in der Grundgesamtheit, sondern Schätzer für die Parameter β1 und β0 der ‘Population Regression Function’ (PRF), das heißt die Parameter der Stichprobenregressionsfunktion b1 und b0 . Die Herleitungen der Formeln für die Schätzer b1 und b0 erfolgt vollkommen parallel wie jene für die Berechnung der Parameter β1 und β0 der PRF (siehe Seite 44), tatsächlich wird ja nur die alte OLS Formel auf die Stichprobendaten angewandt. Aber um dies zu verdeutlichen passen wir die Notation an, anstelle der Störterme ui verwenden wir die Stichproben-Residuen ei , und als Ergebnis erhalten wir die OLS Schätzer b1 und b0 . Da die Rechenschritte völlig gleich wie die zur Herleitung der PRF sind (siehe Seite 44) wollen wir hier nur kurz den Ansatz wiederholen: Für die Residuen ei = yi − ŷi = yi − b0 − b1 xi folgen aus der Minimierung min b0 ,b1 die Schätzer b1 = N X e2i = min i=1 Cov(y, x) Var(x) b0 ,b1 X (yi − b0 − b1 xi )2 und b0 = ȳ − b1 x̄ Aber man beachte, dass die aus der Stichprobe berechneten Parameter b0 und b1 im Gegensatz zu den Parametern der PRF β0 und β1 Zufallsvariablen sind! Mit Hilfe der geschätzten Parameter b0 und b1 können die Residuen ei berechnet werden, ei = yi − b0 − b1 xi . Daraus folgt, dass die Residuen ‘kein eigenes Leben’ haben, ihr Wert hängt unmittelbar von den geschätzten Parametern b0 und b1 ab! Die die Koeffizienten b0 und b1 Zufallsvariablen sind, sind selbstverständlich auch die aus der Stichprobe berechneten Residuen ei stochastisch, also Zufallsvariablen. Deshalb haben die aus einer Stichprobe geschätzten Koeffizienten b0 und b1 sowie die Stichproben-Residuen ei ebenso wie die Störterme der Grundgesamtheit ui – wie alle Zufallsvariablen – eine Verteilung.9 8 In der Literatur wird für die Parameter der SRF häufig anstelle der lateinischen Buchstaben ein Dach über die griechischen Buchstaben gesetzt, d.h. z.B. β̂1 anstelle von b1 , und für den Störterm der Grundgesamtheit wird oft εi verwendet, für das Residuum ε̂i . Eine in der Literatur gebräuchliche Schreibweise für die SRF ist also yi = β̂0 + β̂1 xi + ε̂i . 9 Häufig wird angenommen, dass die Störterme der Grundgesamtheit ui normalverteilt sind. Wir werden später beweisen, dass in diesem Fall die geschätzten Parameter b0 und b1 t-verteilt sind, aber dies spielt im Moment noch keine Rolle. Grundlagen der Regressionsanalyse 58 Diese Verteilungen von b0 und b1 sind sogenannte Stichprobenkennwertverteilungen (‘sampling distributions’ ), und können mehr oder weniger einfach ermittelt werden. Darauf beruhen die statistischen Auswertungen des Regressionsmodells. Die zentrale Grundidee der Stichprobenkennwertverteilungen kann am einfachsten mit Hilfe einer Monte Carlo Simulation veranschaulicht werden. 2.3.3 Monte Carlo Simulationen und ‘Daten Generierende Prozesse’ (DGP) Erinnern wir uns, wir haben im letzten Abschnitt drei verschiedene Stichproben ‘a’, ‘b’ und ‘c’ aus einer Grundgesamtheit gezogen, und aus jeder dieser drei Stichproben eine SRF (bzw. unterschiedliche b0 und b1 ) berechnet. Dies könnten wir natürlich öfter als drei Mal machen. Wenn wir dies viel öfter machen (d.h. sehr viele Stichproben ziehen), daraus jeweils die SRF berechnen, und die Arbeit den Computer machen lassen, so nennt man dies eine Monte Carlo Simulation. Vorsicht: In der Realität haben wir üblicherweise nur eine Stichprobe zur Verfügung, aus der wir eine Schätzung für die Parameter der Grundgesamtheit berechnen können. Eine Monte Carlo Simulation können wir als eine Art Gedankenexperiment interpretieren, das es uns erlaubt, ein intuitives Verständnis für Stichprobenkennwertverteilungen (‘sampling distributions) zu erhalten. Der Grund, warum wir hier Monte Carlo Simulationen einführen, ist also eher pädagogischer Natur, nicht um damit Schätzer zu berechnen. Konkret erzeugt man sich für einer Monte Carlo Simulation eine Grundgesamtheit mit vorgegebenen Eigenschaften (z.b. einem bekannten β1 ), zieht daraus sehr viele Stichproben, und berechnet aus jeder Stichprobe den interessierenden Parameter (z.B. b1 ). Aus den vielen Parameterschätzungen kann man anschließend z.B. Mittelwert und Varianz des Parameters berechnen, und schließlich vergleichen, wie gut der Mittelwert der Stichprobenschätzungen mit dem bekannten Parameter der Grundgesamtheit übereinstimmt. Da die Arbeit der Computer durchzuführen soll muss man dem zuerst Computer Anweisungen geben, d.h. ihn programmieren. Die prinzipielle Vorgangsweise ist in Abbildung 2.15 dargestellt. Der im Appendix wiedergegebene EViews Programmcode tut genau dies. Er zieht aus der Grundgesamtheit der Daten von Tabelle 2.3 (Seite 53) 10,000 Stichproben mit jeweils 10 Beobachtungen (N = 10), berechnet daraus jeweils eine Sample Regression Function, woraus man 10,000 Berechnungen von b1 erhält. Diese 10,000 unterschiedlichen Realisationen von b1 können z.B. in einem Histogramm dargestellt werden, siehe Abbildung 2.16. Der zentrale Punkt dabei ist die Idee der wiederholten Stichprobenziehungen (repeated sampling), aus der die Stichprobenkennwertverteilungen (sampling distributions) folgen. Für Stichprobenkennwertverteilungen kann man wie für jede andere Verteilung auch Erwartungswert und Varianz berechnen, die wir später unter anderem für Hypothesentests benötigen werden. 59 Grundlagen der Regressionsanalyse Daten der Grundgesamtheit einlesen oder DGP festlegen Spezifikation der PRF, weitere Vorarbeiten (Vektoren anlegen, etc.) wiederhole Vorgang sehr oft (z.B. 10,000 Mal) Beginn Schleife Ziehe eine Zufallsstichprobe der Größe N Berechne aus dieser Stichprobe den Parameter b1 der SRF Schreibe den geschätzten Parameter b1 in ein Element von Vektor VB Ende Schleife Zeichne Histogramm von Vektor VB Abbildung 2.15: Wiederholte Stichprobenziehungen aus Grundgesamtheit (Monte Carlo Simulation). 60 Grundlagen der Regressionsanalyse Histogramm von b1 (N = 10, 10000 Wiederholungen) 1,400 Series: B1 Sample 1 10000 Observations 10000 1,200 1,000 800 600 400 200 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 0.506045 0.520003 2.417245 -0.796610 0.311739 -0.140627 3.632459 Jarque-Bera Probability 199.6287 0.000000 0 -0.5 -0.0 0.5 1.0 1.5 2.0 2.5 Abbildung 2.16: Aus den Daten in Tabelle 2.3 wurden 10,000 Stichproben der Größe 10 (mit Zurücklegen) gezogen, jeweils der Parameter b1 der SRF berechnet, und ein Histogramm dieser 10,000 Schätzungen für β1 gezeichnet. Der ‘wahre’ Parameter der Grundgesamtheit ist β1 = 0.53031 Stichprobenkennwertverteilungen haben meist (d.h. unter wenig strengen Annahmen) zwei ganz erstaunliche Eigenschaften, die bereits in Abbildung 2.16 ersichtlich sind: 1. Offensichtlich liegt der Mittelwert der vielen Schätzungen sehr nahe beim ‘wahren’ Wert der Grundgesamtheit. Dies ist kein Zufall, sondern eine Folge des Gesetzes der großen Zahl. Das Gesetz der großen Zahl besagt vereinfacht gesprochen, dass unter sehr allgemeinen Bedingungen der Mittelwert einer großen Zahl von Zufallsvariablen sich mit steigendem Stichprobenumfang an den wahren Wert der Grundgesamtheit annähert. 2. Außerdem erkennt man, dass die Verteilung der Schätzwerte einer Glockenform ähnelt. Auch dies ist kein Zufall, sondern eine Folge des Zentralen Grenzwertsatzes. Der zentrale Grenzwertsatz besagt vereinfacht, dass die Summe einer großen Zahl von unabhängigen, identisch verteilten, zentrierten und normierten Zufallsvariablen gegen die Standardnormalverteilung konvergiert, unabhängig von der Verteilung der Grundgesamtheit. Dies erklärt die Sonderstellung der Normalverteilung. Im nächsten Kapitel werden wir zeigen, dass der Erwartungswert und die Varianz der OLS Regressionskoeffizienten auch ohne Monte Carlo Simulationen auf Grundlage theoretischer Überlegungen sehr allgemein und einfach berechnet werden können. Zuvor wollen wir allerdings noch kurz die Idee von ‘data generating processes’ streifen. Grundlagen der Regressionsanalyse 61 Daten Generierende Prozesse (DGP) Wir haben vorhin die Idee von Monte Carlo Simulationen anhand des Urnenmodells eingeführt. Tatsächlich stehen ÖkonometrikerInnen allerdings nur höchst selten irgendwelche Töpfe mit Grundgesamtheiten zur Verfügung, aus denen sie Zufallsziehungen vornehmen können. Die Vorstellung der Ökonomen geht eher dahin, dass die beobachteten Daten durch die der Natur und Ökonomie zugrunde liegenden Gesetzmäßigkeiten erzeugt wurden. Deshalb sprechen ÖkonometrikerInnen selten von der Grundgesamtheit, sondern meist von datengenerierenden Prozessen (Data Generating Processes, kurz DGP), in dem die grundlegenden Annahmen des ökonometrischen Modells zusammengefasst werden. Unter einem datengenerierenden Prozess (DGP) stellt man sich meist eine Art imaginäre Maschine oder einen Mechanismus vor, der die beobachteten Daten erzeugt hat. Während beim Urnenmodell häufig von einer endlichen Grundgesamtheit ausgegangen wird, hat man bei datengenerierenden Prozessen üblicherweise die Vorstellung einer unendlich großen Grundgesamtheit im Hinterkopf. Ein typischer (und sehr einfacher) DGP wäre z.B. yi E(ui ) Var(ui ) ui = = = ∼ β0 + β1 xi + ui 0 σ2 alle ui sind unabhängig und identisch verteilt (iid) . für i = 1, 2, . . . , N. Dabei kommt in der ersten Zeile die Art des vermuteten Zusammenhangs zwischen x und y zum Ausdruck, und die folgenden Zeilen enthalten Annahmen über die Störterme. Diese Annahmen über die Störterme werden häufig kompakter geschrieben als ui ∼ iid(0, σ 2 ) wobei das Symbol ∼ ‘verteilt’ bedeutet und iid für independent and identically distributed steht (also unabhängig und identisch verteilt). In der Schreibweise ui ∼ iid(0, σ 2 ) gibt der erste Wert in Klammern den Erwartungswert an (in diesem Fall also E(ui ) = 0), und der zweite Wert die Varianz (d.h. Var(ui ) = σ 2 ). Dieser datengenerierende Prozess impliziert also eine lineare Beziehung zwischen y und x, einen Störterm ui mit Erwartungswert Null und Varianz σ 2 , sowie dass alle ui aus der gleichen Verteilung gezogen werden, und dass die einzelnen ui voneinander statistisch unabhängig sind. Wir werden im Laufe der Veranstaltung natürlich komplexere datengenerierende Prozesse untersuchen. Keine Sorge, wenn Ihnen die Bedeutung der einzelnen Annahmen derzeit noch nicht klar ist, das Verständnis wird im Laufe der Veranstaltung wachsen. Hier wollen wir nur noch kurz festhalten, dass der datengenerierende Prozess in der Ökonometrie weitgehend die Rolle spielt, die die Grundgesamtheit in der klassischen Statistik spielt. Tatsächlich wird bei Monte Carlo Simulationen fast immer von einem genau spezifizierten DGP ausgegangen, und nicht von (nur umständlich zu programmierenden) Zufallsziehungen aus einer abzählbaren Grundgesamtheit. Dies ist theoretisch plausibler und vereinfacht die Programmierung. Abbildung 2.17 zeigt noch einmal das Grundprinzip einer sehr einfachen Monte Carlo Simulation. 62 Grundlagen der Regressionsanalyse Allgemein: Beispiel: Wähle das ‘wahre’ Modell ↓ yi = β0 + β1 xi + ui ↓ Wähle Daten für x Wähle Parameterwerte Wähle Verteilung für u x = 1, 2, 3, . . . , 25 β0 = 2 β1 = 0.5 u ist iid & u ∼ N (0, 1) ↓ ‘ökonometrisches’ Modell ↓ yi = 2 + 0.5xi + ui ↓ . ...................................... ↓ .......................................... Berechne Werte für y ↓ Berechne Werte für y ↓ P P b1 = i ẍi ÿi / i ẍ2i Schätze Parameter b1 . ...................................... ↓ Wiederhole die letzten zwei Schritte ‘sehr oft’ für unterschiedliche u und approximiere Stichprobenverteilung .......................................... ↓ Histogramm von b1 für 10,000 Ziehungen wenn β1 = 0.5 900 800 700 600 500 400 300 200 100 0 0.35 0.40 0.45 0.50 0.55 0.60 Abbildung 2.17: Das Grundprinzip einer Monte Carlo Simulation 0.65 63 Grundlagen der Regressionsanalyse Exkurs: Erwartungswert, Mittelwert und Varianzen Der Erwartungswert E(X) einer Zufallsvariable X ist jener Wert, den man bei oftmaliger Wiederholung des zugrundeliegenden Zufallsexperiments (→ ‘repeated sampling’ ) erwarten würde. Der Erwartungswert bezieht sich also auf die zugrunde liegende Grundgesamtheit. Manchmal werden die Begriffe Erwartungswert und ‘Mittelwert’ etwas schlampig synonym verwendet, aber dies ist genau genommen falsch. Der Mittelwert bezieht sich auf eine konkrete Stichprobe, nicht auf das Ergebnis wiederholter Stichprobenziehungen, er dient häufig als ein Schätzer für den Parameter µ der Grundgesamtheit. Wenn f (x) die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariable X bezeichnet, dann ist der Erwartungswert E(X) definiert als X E(X) ≡ xi f (xi ) i wobei i über alle möglichen Ausprägungen von X geht, und die Wahrscheinlichkeitsfunktion angibt, mit welcher Wahrscheinlichkeit ein Ereignis eintritt, also f (x) = P (X = x). Die Varianz wird allgemein mit Hilfe von Erwartungswerten definiert: Var(X) ≡ E [X − E(X)]2 Für den einfachsten Fall einer endlichen gleichverteilten Zufallsvariablen ist die Wahrscheinlichkeitsfunktion 1 f= N wobei N die Anzahl der möglichen Ausprägungen von X bezeichnet, ergeben sich die üblichen Ausdrücke für Mittelwert X 1 X E(X) ≡ xi f (xi ) = xi = X̄ N i i und Varianz Var(X) = E [X − E(X)]2 2 = E X − X̄ (s.o.) X 2 = xi − X̄ f (x) i = 2 1 X xi − X̄ N i Man beachte, dass dies die Varianz der Zufallsvariable X ist, kein Schätzer für eine Varianz der Grundgesamtheit! ¶ 64 Grundlagen der Regressionsanalyse Exkurs: Bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte Zur Vereinfachung gehen wir von zwei diskreten Zufallsvariablen X und Y aus (wie in der Statistik üblich bezeichnen hier Großbuchstaben die Zufallsvariable und Kleinbuchstaben die Ausprägung einer Zufallsvariable). Zum Beispiel könnten wir uns für die politische Gesinnung in Abhängigkeit vom Geschlecht interessieren. Dem Geschlecht X ordnen wir die Ausprägungen X = 1 für weiblich und X = 0 für männlich zu, und der politischen Gesinnung Y ordnen wir Y = 0 für Lila, Y = 1 für Pink und Y = 2 für Andere zu. Die bivariate Wahrscheinlichkeitsverteilung f (x, y) sei zum Beispiel Werte von Y Lila Pink Andere 0 1 2 f (x) Werte von X männl. weibl. 0 1 0.1 0.2 0.4 0.1 0.0 0.2 0.5 0.5 f (y) 0.3 0.5 0.2 1 Die Wahrscheinlichkeit, dass eine Frau Pink wählt, beträgt z.B. 0.1, d.h. P (Y = 1, X = 1) = 0.1. f (x) und f (y) bezeichnet die Randwahrscheinlichkeiten. Die Randwahrscheinlichkeit von Y ist z.B. (für I mögliche Ausprägungen von X) I X f (y) = P (Y = y) = P (X = xi , Y = y) i=1 Die bedingte Wahrscheinlichkeit von Y , gegeben X = x ist P (Y = y|X = x) = P (X = x, Y = y) P (X = x) bzw. einfacher f (y|x) = f (x, y) f (x) Die Wahrscheinlichkeit, dass eine Person Lila wählt, gegeben diese Person ist ein Mann, beträgt z.B. P (Y = 0|X = 0) = 0.1/0.5 = 0.2 oder 20%. Zwei Zufallsvariablen sind stochastisch unabhängig, wenn P (Y = y, X = x) = P (Y = y) P (X = x) bzw. f (y, x) = f (y)f (x) oder alternativ, wenn f (y|x) = f (y), d.h. X enthält keine Information über Y . Der bedingte Erwartungswert von Y , gegeben X, ist schließlich E(Y |X = x) = J X j=1 yj P (Y = yj , X = x) = J X yj f (yj |x) j=1 Zum Beispiel ist E(Y |X = 0) = 0 × 0.1 + 1 × 0.4 + 2 × 0.0 = 0.4, oder E(Y |X = 1) = 0.5, oder E(X|Y = 1) = 0.1. ¶ 65 Grundlagen der Regressionsanalyse Tabelle 2.4: Preise von Gebrauchtautos der Marke Toyota Avensis mit unterschiedlichem Alter (in 1000 Euro) i Preis 1 20.0 2 19.7 3 19.3 4 19.0 5 18.9 6 18.6 7 17.8 8 17.7 9 16.9 10 15.6 11 14.5 12 17.2 13 16.9 14 15.9 15 15.5 16 15.0 2.3.4 Alter 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 i Preis 17 14.5 18 14.0 19 15.3 20 14.0 21 13.3 22 12.5 23 12.5 24 11.5 25 10.0 26 11.9 27 11.1 28 10.5 29 10.2 30 9.0 31 6.7 Alter 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 Regressionsmodell und bedingte Erwartungswerte Da die Regressionskoeffizienten der Stichprobenregressionsfunktion (SRF) selbst Zufallsvariablen sind und eine Stichprobenkennwertverteilung haben, können wir Mittelwert und Varianz dieser Zufallsvariablen berechnen. Dies werden wir im nächsten Kapitel tun. In diesem Abschnitt werden wir noch zeigen, dass die mit Hilfe der SRF berechneten ‘gefitteten’ Werte ŷ als bedingte Erwartungswerte von y interpretiert werden können. Zur Erinnerung, der bedingte Erwartungswert einer diskreten Zufallsvariable Y (mit I Ausprägungen) ist definiert als E(Y |X = x) = I X yi f (yi |X = x) i=1 wobei f (y|X = x) die bedingte Wahrscheinlichkeitsfunktion ist (siehe statistischen Appendix). Um dies zu veranschaulichen kehren wir zu unserem Auto-Beispiel aus dem 1. Kapitel zurück. Tabelle 2.4 zeigt die Daten. Um die Idee der bedingten Erwartungswerte zu veranschaulichen stellen wir die Daten von Tabelle 2.4 in etwas anderer Form dar, nämlich geordnet nach dem Alter der Autos (siehe Tabelle 2.5). Wir haben z.B. 5 Beobachtungen für Autos, die P ein Jahr alt sind; der Mittelwert für den Preis aller einjährigen Autos 1/5 × (Preise aller einjährigen Autos) = 19.4. Dies können wir für jede Altersgruppe wiederholen und erhalten die bedingten 66 Grundlagen der Regressionsanalyse Tabelle 2.5: Preise von Gebrauchtautos mit unterschiedlichem Alter (in 1000 Euro). gebrauchte Autos Preise (y) Summe Alter in Jahren (x) 2 3 4 5 18.6 17.2 15.3 11.9 17.8 16.9 14.0 11.1 17.7 15.9 13.3 10.5 16.9 15.5 12.5 10.2 15.6 15.0 12.5 9.0 14.5 14.5 11.5 6.7 14.0 10.0 96.9 101.1 109.0 89.1 59.4 1 20.0 19.7 19.3 19.0 18.9 Tabelle 2.6: Häufigkeiten als Wahrscheinlichkeiten (Daten von Tabelle 2.5) gebrauchte Autos Bedingte Wahrscheinlichkeiten: f (y|X = xi ) Alter in Jahren (x) 1 2 3 4 5 1 5 1 5 1 5 1 5 1 5 1 6 1 6 1 6 1 6 1 6 1 6 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 7 1 6 1 6 1 6 1 6 1 6 1 6 Grundlagen der Regressionsanalyse 67 Mittelwerte, aus denen einfach der durchschnittliche Wertverlust pro Jahr berechnet werden kann. Tabelle 2.6 zeigt die Häufigkeiten in der Stichprobe, wie sie etwa in einem Histogramm abgebildet werden, d.h. die empirische Verteilung. In Tabelle 2.7 wird diese Information für die Berechnung der bedingten Mittelwerte verwendet. Wenn die Wahrscheinlichkeiten in Tabelle 2.6 für die Grundgesamtheit gelten würden, wäre dies eine Wahrscheinlichkeitsfunktion. Wenn man sich auf eine theoretische Verteilung bezieht (auf die Verteilung einer Grundgesamtheit), spricht man üblicherweise vom Erwartungswert. Mittelwerte werden auf Grundlage der empirischen Verteilung einer Stichprobe berechnet, Erwartungswerte hingegen auf Grundlage der theoretischen Verteilung einer Grundgesamtheit. Allerdings sind hier viele ÖkonometrikerInnen etwas schlampig im Sprachgebrauch. gebrauchte Autos P y Pi i i yi f (yi |X = x) yi f (yi |X = 1) 20.0 1/5 19.7 1/5 19.3 1/5 19.0 1/5 18.9 1/5 96.9 19.4 yi 18.6 17.8 17.7 16.9 15.6 14.5 101.1 16.9 Preise f (yi |X = 2) 1/6 1/6 1/6 1/6 1/6 1/6 nach Alter in Jahren yi f (yi |X = 3) 17.2 1/7 16.9 1/7 15.9 1/7 15.5 1/7 15.0 1/7 14.5 1/7 14.0 1/7 109.0 15.6 (x) yi f (yi |X = 4) 15.3 1/7 14.0 1/7 13.3 1/7 12.5 1/7 12.5 1/7 11.5 1/7 10.0 1/7 89.1 12.7 yi f (yi |X = 5) 11.9 1/6 11.1 1/6 10.5 1/6 10.2 1/6 9.0 1/6 6.7 1/6 Grundlagen der Regressionsanalyse Tabelle 2.7: Bedingte Mittelwerte (Daten von Tabelle 2.5) 59.4 9.9 68 69 Grundlagen der Regressionsanalyse Auf Grundlage der Informationen aus Tabelle 2.7 können wir die bedingten ErwarP tungswerte E(Y |X = x) = i yi f (yi |X = x) berechnen. Der bedingte Erwartungswert10 für den Preis einjähriger Autos ist also 1 1 1X 1 E [Preis × f (Preis|Alter = 1)] = 20.0× +19.7× +· · ·+18.9× = yi = 19.4 5 5 5 5 In Tabelle 2.6 kann man sehen, dass der ‘Durchschnittspreis’ vom ersten auf das zweite Jahr um 2500 Euro (von 19.400 auf 16.900 Euro) fällt, nach einem weiteren Jahr um 1300 Euro auf 15.600 Euro usw. Diese bedingten Mittelwerte liegen normalerweise nicht auf einer Geraden. Abbildung 2.18 zeigt dies, die bedingten Mittelwerte (dargestellt als Kreise) liegen zwar nahe bei, aber nicht auf der Regressionsgerade. Aber wenn wir die (manchmal unrealistische) Annahme treffen, dass der Durchschnittspreis mit einer konstanten Rate fällt – die bedingten Erwartungswerte also auf einer Geraden liegen – können wir dies gewissermaßen erzwingen. Genau dies passiert bei der OLS Methode, denn bei der Minimierung der Quadratsummen der Residuen haben wir implizit eine lineare Funktionsform yi = β0 +β1 xi +ui unterstellt min b0 ,b1 N X i=1 e2i = min b0 ,b1 X (yi − b0 − b1 xi )2 Abbildung 2.18 zeigt die Auto-Daten mit der dazugehörigen Regressionsgeraden. Wieder muss man darauf achten, ob man sich bei der Interpretation auf die Stichprobe oder die Grundgesamtheit bezieht. Wenn man den bedingten Mittelwert der Stichprobe als ‘Schätzung’ für den ‘wahren’ (aber unbeobachtbaren) Mittelwert der Grundgesamtheit interpretiert spricht man vom bedingten Erwartungswert. Die ‘gefitteten’ Werte auf der Regressionsgeraden yˆi ≡ E(y|xi ) können also als bedingte Erwartungswerte 11 interpretiert werden. Diese bedingten Erwartungswerte sind natürlich eine Funktion der xi (in unserem Autobeispiel also vom Alter). Wenn E(y|xi ) linear in den xi ist (wie in den Abbildungen oben) gilt wie vorher yi = β0 + β1 xi +ui | {z } E(y|xi ) Wie bereits mehrmals erwähnt gilt der Zusammenhang E(y|xi ) = yˆi nur im Durchschnitt, nicht für eine einzelne Beobachtung (in unserem Fall Auto). Die Abweichung des Preises eines spezifischen Autos von dem bedingten Erwartungswert ist natürlich der Störterm (error term): yi = E(y|xi ) + ui = ŷi + ui 10 Wenn man die Daten in Tabelle 2.6 als empirische Verteilung interpretiert bezeichnet man dieselbe Zahl als bedingten Mittelwert. 11 Vereinfacht ist der Erwartungswert einer Zufallsvariable jener Wert, von dem man sich “erwartet”, dass er sich bei einer oftmaligen Wiederholung des Experiments durchschnittlich ergibt. 70 Grundlagen der Regressionsanalyse Preis 22 bb bcbb 20 18 16 b b bc b b b b b c b b b b b b 12 b b c bb b 10 b 14 b b b cb b b 8 b 6 4 0 1 2 3 4 5 Alter Abbildung 2.18: Autopreise als bedingte Erwartungswerte (dargestellt als Kreise) wobei die ui wieder die ‘wahren’ – aber unbeobachtbaren – Störterme der Grundgesamtheit sind. Wir werden in den folgenden Kapiteln häufig annehmen, dass der stochastische Teil von yi , d.h. die Störterme ui normalverteilt sind, wie dies in Abbildung 2.19 zum Ausdruck kommt. Abbildung 2.19 zeigt die Regressionsgerade in der Grundebene und die Wahrscheinlichkeiten f (y|X = x) auf der Höhenachse. Abbildung 2.20 zeigt den gleichen Zusammenhang für unser Auto-Beispiel, wobei wir uns vorstellen müssen, dass die Höhenachse mit den Wahrscheinlichkeiten senkrecht auf das Papier steht, d.h. aus dem Papier herausragt. Zusammenfassend halten wir noch einmal fest, dass die Parameter der Grundgesamtheit β0 und β1 deterministische Größen sind, d.h. keine Zufallsvariablen! Die Regressionsfunktion der Grundgesamtheit (‘Population Regression Function’) ist ein Konzept der deskriptiven Statistik, selbst wenn die ui stochastisch sind. Das Zufallselement kommt erst hinzu, wenn wir aus einer Stichprobe auf eine unbekannte Grundgesamtheit schließen wollen. Für die statistische Beurteilung solcher induktiver Schlüsse ist die Idee der wiederholten Stichprobenziehungen (‘reapeated sampling’) essentiell. Aber bevor wir uns in den nächsten Kapiteln ausführlicher mit der schließenden Statistik beschäftigen, kommen wir zurück auf eine sehr bekannte und wichtige deskriptive Kennzahl, die etwas über die ‘Güte der Anpassung’ (fit) der Regressionsgleichung aussagt, nämlich das Bestimmtheitsmaß R2 . Um das Bestimmtheitsmaß her- 71 Grundlagen der Regressionsanalyse f (y|x) f (y|x = 0) y bc bc f (y|x = 1) bc bc bc bc 0 bc f (y|x = 2) ui bc bc 1 f (y|x = 3) bc bc 2 bc bc bc bc E(y|x) 3 x Abbildung 2.19: Bedingte Erwartungswerte und Verteilung von y für gegebene x. [local, www] Preis y 22 20 b b b bb b 18 bb b b b 16 b b b b b b b b 14 b b b 12 b b b b 10 b b b 8 b 6 4 0 1 2 3 4 5 Alter x Abbildung 2.20: Autopreise als bedingte Erwartungswerte 72 Grundlagen der Regressionsanalyse zuleiten benötigen wir einige Resultate, die sich auch in anderen Zusammenhängen als nützlich erweisen werden. 2.4 Einige nützliche Eigenschaften von OLS Schätzern Aus der OLS ‘Mechanik’ folgen einige wichtige Implikationen, die uns später immer wieder begegnen werden. Bevor wir näher darauf eingehen ein wichtiger Hinweis zur Notation. Wir haben bereits im zweiten Abschnitt dieses Kapitels die OLS Formeln für die PRF (‘Population Regression Function’ ) hergeleitet (siehe Seite 43). Nun hat sich unser Interesse aber den Stichprobenregressionen (SRF) zugewandt. Im Kern ist es eine Interpretationsfrage, ob man die gegebenen Beobachtungen als Stichprobe oder als Grundgesamtheit ansieht, die OLS ‘Mechanik’ funktioniert in beiden Fällen gleich, aber für die Interpretation und die Schlussfolgerungen macht es einen Riesenunterschied. Um dies zu verdeutlichen schreiben wir das Problem nochmals in der für die SRF korrekten Notation an. Anstelle der wahren Parameter der Grundgesamtheit β0 und β1 können wir aus der Stichprobe nur Schätzungen b0 und b1 berechnen, und anstelle der Störterme ui erhalten wir die OLS Residuen ei Das Minimierungsproblem für die SRF ist also min b0 ,b1 N X e2i i=1 = min b0 ,b1 N X (yi − b0 − b1 xi )2 i=1 Gesucht sind die Werte von b0 und b1 , für die die Quadratsumme der Residuen minimal ist. Die Bedingungen erster Ordnung erhalten wir wieder – vollkommen analog zur PRF – wenn wir die partiellen Ableitungen nach den gesuchten Parametern b0 und b1 ableiten und Null setzen. ∂ ∂ P 2 i ei ∂b0 P 2 i ei ∂b1 = −2 X i = −2 X i (yi − b0 − b1 xi ) = −2 {z } | ei X ⇒ i (yi − b0 − b1 xi ) xi = −2 {z } | ei ei = 0 X ei = 0 (2.10) i X xi ei = 0 ⇒ i X xi ei =(2.11) 0 i Die Lösung dieser beiden Gleichungen definiert die OLS Schätzer b1 = Cov(x, y) , Var(x) b0 = ȳ − b1 x̄ Da wir diese Parameter aus der Stichprobe berechnet haben, sind b0 und b1 im Gegensatz zu β0 und β1 Zufallsvariablen und haben eine Stichprobenkennwertverteilung. Die zentralen Eigenschaften der OLS Schätzer folgen direkt aus diesen Bedingungen erster Ordnung. 73 Grundlagen der Regressionsanalyse 1. Die Summe der OLS Residuen – und daher auch deren Mittelwert – ist immer gleich Null: X ei = ē = 0 Dies ist eine unmittelbare Implikation von Gleichung (2.10), der ersten Bedingung erster Ordnung. Man beachte, dass dies aus Gleichung (2.10) folgt, also der Bedingung, die sich auf das Interzept b0 bezieht! Für Gleichungen ohne Interzept (yi = b1 xi + ei ) existiert diese Bedingung nicht, deshalb muss die Summe von OLS Residuen, die aus Gleichungen ohne Interzept geschätzt wurden, diese Bedingung nicht erfüllen! ¯ ist gleich dem Mittelwert 2. Der Mittelwert der gefitteten y (also ŷ) der beobachteten y: ¯ = ȳ ŷ Dies impliziert auch, dass die Regressionsgerade immer durch den Mittelwert der y Beobachtungen läuft! Beweis: ei = yi − yˆi X X ei = yi − yˆi 1 X 1 X 1 X ei = yi − yˆi N N N ē = ȳ − ŷ¯ = 0 wenn ē = 0 (siehe 1.) gilt weiter ŷ¯ = ȳ X Da wir von ē = 0 Gebrauch gemacht haben gilt dies wiederum nur für Schätzungen mit Interzept! 3. Die Summe der Produkte der OLS Residuen und der erklärenden x Variablen ist immer Null, bzw., die OLS Residuen sind mit den x Variablen unkorreliert: X xi ei = 0 Diese Bedingung folgt unmittelbar aus aus Gleichung (2.11), d.h. der zweiten Bedingung erster Ordnung, die sich auf den Steigungskoeffizienten b1 bezieht. Diese Bedingung gilt immer, für Gleichungen mit Interzept impliziert sie auch, dass die Kovarianz (und damit auch die Korrelation) zwischen der erklärenden Variablen x und den Residuen e gleich Null ist (Cov(xi , ei ) = 0), da X X X X (xi − x̄)(ei − ē) = xi ei − x̄ ei = 0 wenn ei = ē = 0 i 74 Grundlagen der Regressionsanalyse 4. Die Kovarianz zwischen den gefitteten Werten ŷ und den Stichproben-Residuen ist in einer OLS-Schätzung mit Interzept immer gleich Null: Cov(ŷ, e) = 0 Dies folgt unmittelbar aus der vorhergehenden Bedingung und kann einfach mit Hilfe der Rechenregeln für Varianzen gezeigt werden: Cov(ŷ, e) = Cov([b0 + b1 x], e) = Cov(b0 , e) + Cov(b1 x, e) = 0 + b1 Cov(x, e) = 0 Achtung Erinnern Sie sich, wir haben früher (im 2. Abschnitt dieses Kapitels) für die Schätzung der Parameter der ‘population regression function’ die OLS Formel direkt auf die Daten der Grundgesamtheit P angewandt, deshalb folgte aus den Bedingungen P erster Ordnung unmittelbar i ui = 0 (siehe Gleichung (2.2), Seite 43) und i xi ui (Gleichung (2.3)); also beides Aussagen über die Störterme der Grundgesamtheit! Hier haben wir die OLS Schätzer auf Stichprobendaten angewandt, die Bedingungen erster Ordnung beziehen sich also nicht mehr auf die Störterme ui , sondern auf die Stichproben-Residuen ei . Deshalb können wir zwar sicher sein, dass die resultierenden Stichproben-Residuen die Bedingungen X X ei = 0 und xi ei = 0 i i erfüllen, aber nichts in der Welt garantiert uns weiterhin, dass die Störterme der Grundgesamtheit die Bedingungen X ? X ? ui = 0 und xi ui = 0 i i erfüllen! Deshalb werden wir später häufig annehmen müssen, dass diese Bedingungen für die Störterme erfüllt sind, und werden sehen, dass ziemlich schlimme Konsequenzen zu befürchten sind, wenn diese Annahmen über die ui nicht erfüllt sind – aber mehr dazu später. Diese Ergebnisse werden es uns nun auch erleichtern das Bestimmtheitsmaß R2 herzuleiten, das uns bereits bei der Diskussion der PRF begegnet ist (siehe Seite 50). 2.5 Das Bestimmtheitsmaß R2 Das Bestimmtheitsmaß R2 ist eine der bekanntesten Kennziffern zur Beurteilung der Güte, bzw. des “Fits” einer Regressionsgeraden. Es kann aus einer einfachen Varianzzerlegung hergeleitet werden. 75 Grundlagen der Regressionsanalyse Wir haben schon gezeigt, dass sich y in einen systematischen bzw. “erklärten Teil” (ŷ) und einen stochastischen bzw. “unerklärten Teil” (e) zerlegen lässt. yi = yˆi + ei Die Varianz von y ist also Var(y) = Var(ŷ) + Var(e) + 2Cov(ŷ, e) Var(y) = Var(ŷ) + Var(e) da wir gerade gezeigt haben, dass Cov(ŷ, e) = 0 (dies gilt nur, wenn die Regression ein Interzept (b0 ) enthält). Also X 1 X 1 X ¯ 2+ 1 (yi − ȳ)2 = (ŷi − ŷ) (ei − ē)2 NX N N X X (ŷi − ȳ)2 + e2i (da ē = 0) (yi − ȳ)2 = {z } | {z } | {z } | TSS ESS SSR wobei TSS für ‘Total Sum Squared’, ESS für ‘Explained Sum Squared’ und SSR für ‘Sum of Squared Residuals’ steht. Das Bestimmtheitsmaß ist dann einfach definiert als Anteil der erklärten Streuung ESS an der gesamten Streuung TSS P P 2 ESS SSR (yi − yˆi )2 ei 2 R = =1− =1− P =1− P 2 TSS TSS (yi − ȳ) (yi − ȳ)2 (vgl. Abb. 2.21). Das Bestimmtheitsmaß R2 gibt an, welcher Anteil der Streuung von y (bzw. der Varianz) durch die Regression (bzw. durch die x) erklärt wird. Da es sich um einen Anteil handelt liegt das Bestimmtheitsmaß für Regressionsgleichungen mit Interzept immer zwischen Null und Eins (dies muss nicht für Regressionsgleichungen ohne Interzept gelten! Warum?). Abbildung 2.22 zeigt den Fit von Regressionsgeraden für unterschiedlich große R2 . Die Bedeutung des Bestimmtheitsmaßes R2 sollte nicht überschätzt werden. Insbesondere mit Querschnittsdaten ist das R2 häufig relativ klein (z.B. 0.2), trotzdem kann die Regression wichtige Zusammenhänge aufzeigen. Mit Zeitreihendaten erhält man in der Regel ein höheres R2 , aber dies ist häufig nur Ausdruck einer Scheinkorrelation (‘spurious correlation’), denn Zeitreihen folgen häufig einem ähnlichen Trend. Es ist darauf zu achten, dass das R2 nur ein Maß für lineare Zusammenhänge ist, und nicht interpretiert werden darf, wenn die Regression kein Interzept (d.h. keinen konstanten Term) enthält. Das Bestimmtheitsmaß R2 ist auch nur sehr eingeschränkt für den Vergleich unterschiedlicher Modelle geeignet. Insbesondere darf es nicht für einen Vergleich unterschiedlicher Modelle verwendet werden, wenn 1. die Modelle eine unterschiedliche abhängige Variable y haben. Die Modelle yi = b0 + b1 xi + ei und ln(yi ) = b0 + b1 xi + ei können also nicht anhand des R2 verglichen werden! 2. die Regressionen eine unterschiedliche Anzahl erklärende Variablen x haben. 76 Grundlagen der Regressionsanalyse yi y b ei = yi − ybi ybi = b0 + b1 xi yi − y (Total) bc ybi − y (‘Erklärt durch Regression’) y x xi x Abbildung 2.21: Varianzzerlegung und Bestimmtheitsmaß R2 [local, www] Übungsaufgaben: 1. Gegeben seien folgende Daten: i: y: x: 1 6 1 2 3 4 4 5 3 2 3 4 5 2 5 (a) Berechnen Sie die OLS-Schätzer b0 und b1 für das Modell yi = b0 + b1 xi . (b) Zeigen Sie an diesem Beispiel, dass die Regressionsgerade yi = b0 + b1 xi durch den Mittelwert von x und y [d.h. durch (x̄, ȳ)] verläuft. (c) P Zeigen Sie für diese Daten, dass die Summe der Residuen Null ist, d.h. 5 i=1 ei = 0. 2. (a) Leiten Sie den OLS-Schätzer β für das Modell y = bx (d.h. ohne Interzept!) allgemein her. P (b) Ist die Summe der Residuen wieder Null (d.h. 5i=1 ei = 0), wenn Sie diesen Schätzer auf obige Daten anwenden? (c) Verläuft diese Regressionsgerade wieder durch den Mittelwert von x und y [d.h. durch (x̄, ȳ)]? 3. (a) Leiten Sie den OLS-Schätzer α für das Modell y = α her (α ist eine Konstante). P (b) Berechnen Sie wieder die Summe der Residuen (d.h. 5i=1 ei ) für dieses Modell. . 77 Grundlagen der Regressionsanalyse y y R2 = 0.99 R2 = 0.9 b b b b b b b b b b b b b b b b b bb b b bb b b b b b bb b bb b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b x R2 = 0.5 y b x y R2 = 0.1 b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b x b x Abbildung 2.22: Unterschiedliche R2 , das Bestimmtheitsmaß R2 ist ein Indikator für die Streuung um die Regressionsgerade. 78 Grundlagen der Regressionsanalyse 4. Zeigen Sie, dass das Bestimmtheitsmaß R2 das Quadrat des (Pearsonschen) Korrelationskoeffizienten zwischen den beobachteten Werte y und der gefitteten Werte ŷ ist. Hinweis: Der Pearsonsche Korrelationskoeffizient ist definiert als Cov(y, ŷ) ry,ŷ = p Var(y)Var(ŷ) Berücksichtigen Sie, dass y = ŷ+e und Cov[x, (y+Z)] = Cov(x, y)+Cov(x, Z). 2.A 2.A.1 Appendix EViews Programmcode für Monte Carlo Simulation Das folgende Programm zieht aus einer gegebenen Grundgesamtheit wiederholt Stichproben, berechnet für jede Stichprobe den Parameter b1 und zeichnet ein Histogramm aller Schätzungen. Das Histogramms in Abbildung 2.16 (Seite 60) wurde mit diesem Programm erzeugt. Sie können das Programm auch unter http://www.uibk.ac.at/econometrics/einf/02prg_mc1.prg herunterladen. ’ Ein einfaches Monte Carlo Beispiel ’ Workfile mit Namen MONTECARLO anlegen, undated, 20 Beobachtungen wfcreate(wf=MONTECARLO) u 20 ’ in EViews 4: workfile MONTECARLO u 20 ’ Daten für Grundgesamtheit anlegen und series Xpop series Ypop Xpop.fill 1.2, 1.3, 1.7, 1.9, 1.9, 2.0, 3.2, 3.3, 3.4, 3.7, 4.1, 4.1, Ypop.fill 0.8, 2.9, 0.8, 0.7, 3.5, 3.2, 1.4, 2.3, 2.6, 2.6, 3.9, 2.3, series Y ’ Datenreihen für SRF anlegen series X ’ Skalare und Vektoren anlegen !N = 10 !WH = 10000 vector(!WH) BV einlesen 2.2, 2.4, 4.3, 4.4, 2.6, 3.2, 2.5, 3.9, series X 2.8, 4.5, 3.6, 4.2, 2.8, _ 4.7 1.1, _ 4.2 ’ Stichprobengroesse ’ Anzahl der Wiederholungen ’ Vektor fuer Ergebnisse anlegen for !i = 1 to !WH ’ for !j = 1 to !N !ZUFALL = @floor(@runif(1,21)) X(!j) = Xpop(!ZUFALL) Y(!j) = Ypop(!ZUFALL) next equation tmp.ls Y c X ’ Beginn Schleife über WH ’ Beginn Schleife N Zufallsziehungen ’ gleichvert. Zufallszahl zw. 1 & 20 ’ Zufallsziehungen ’ Ende der Schleife über N SRF schätzen 79 Grundlagen der Regressionsanalyse BV(!i) = tmp.@coefs(2) ’ b_1 in Vektor schreiben (2. Koeff.) ’ Ende Schleife über WH next ’Grafiken erzeugen und ausgeben range 1 !WH smpl @all mtos(BV,B1) ’ Vektor BV in series BS umwandeln freeze(B_HIST) B1.hist ’ Histogramm anlegen B_HIST.addtext(t) Histogramm (N = !N, !WH Wiederholungen) range 1 20 show B_HIST ’ Histogramm anzeigen 2.A.2 Matlab Programmcode für Monte Carlo Simulation Der folgende Matlab Programmcode erzeugt das Histogramm in Abbildung 2.16 (Seite 60). Matlab7 ist am Uni-Server auf K:\Apps\Matlab7\Matlab7.lnk installiert. Mit File – New – M-File ein leeres Programmfenster öffnen und das Programm unten mit CopyPaste hinein kopieren. Bevor Sie es mir F5 starten müssen Sie die Zeilenumbrüche beim Einlesen der Daten entfernen (in Zeilen beginnend mit Xpop und Xpop). M-File: http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_01.m % Ein einfaches Monte Carlo clear clc Xpop = [1.2; 1.3; 1.7; 1.9; 3.2; 3.3; 3.4; 3.7; Ypop = [0.8; 2.9; 0.8; 0.7; 1.4; 2.3; 2.6; 2.6; N=10; WH=1000; Beispiel 1.9; 4.1; 3.5; 3.9; 2.0; 4.1; 3.2; 2.3; 2.2; 4.3; 2.6; 2.5; 2.4; 4.4; 3.2; 3.9; 2.8; 4.5; 3.6; 4.2; 2.8; 4.7]; 1.1; 4.2]; % Stichprobengröße % Wiederholungen for i=1:WH for j=1:N ZUFALL=floor(rand(1,1)*20+1); X(j,1)=Xpop(ZUFALL,1); Y(j,1)={y}pop(ZUFALL,1); end CovMatrix = cov({y},X); b1 = CovMatrix(1,2)/CovMatrix(2,2); BV(i,1)=b1; end hist(BV,50) title(’Histogramm’) ’ENDE’ % Zufallszahl zw. 1 & 20 % Ziehung X % Ziehung {y} % Var-Cov-Matrix X,{y} (2x2) % b1 = Cov(X,{y})/Var(X) % b1 in Vektor schreiben % Histogramm 80 Grundlagen der Regressionsanalyse Das gleiche nochmals in Matrixschreibweise, wobei die Daten aus einer Excel-Datei eingelesen werden (http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_data.xls; M-File: http://www.uibk.ac.at/econometrics/einf/prg_montecarlo_02.m clc; clear all; XYpop=xlsread(’prg_montecarlo_data.xls’,’Tabelle1’,’A2:B21’); N=10; WH=1000; %sample Size %WH for i=1:WH for j=1:N zufall=floor(rand(1,1)*20+1); XYsample(j,:)=XYpop(zufall,:); end X=[ones(N,1) X{y}sample(:,1)]; Y=XYsample(:,end); b = (X’*X)^(-1)*X’*Y; BV(i,1)=b(2,1); end % Zufallszahl zw. 1 und 20 % Ziehung von Zeilenvektor % X-Matrix mit 1er-Spalte % Y Vektor % OLS-Schätzung von b % b ist ein (2x1) Spaltenvektor hist(BV,50); % Histogram mit 50 bins title([’Histogramm (N = ’,num2str(N),’, ’,num2str(WH),’ Wiederholungen)’]) ’ENDE’ Histogramm (N = 10, 1000 Wiederholungen) 140 120 100 80 60 40 20 0 −2 −1.5 −1 −0.5 0 0.5 1 1.5