Empirische Wirtschaftsforschung Prof. Dr. Michael Berlemann BSc. VWL: Empirische Wirtschaftsforschung MSc. VWL: Empirische Wirtschaftsforschung für Fortgeschrittene 15. April 2013 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 1 / 388 Gliederung der Vorlesung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 2 / 388 Gliederung 1. Kapitel 1. Ziel, Konzept und Aufbau der Vorlesung Gliederung 2. Kapitel 2. Gegenstand der Empirischen Wirtschaftsforschung 2.1 Aufgaben der empirischen Wirtschaftsforschung 2.2 Überprüfung modellgestützter Hypothesen 2.3 Evaluierung von Politikmaßnahmen 2.4 Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 3 / 388 Gliederung 3. Kapitel 3. Datentypen und Datenquellen 3.1 Grundbegriffe 3.2 Merkmalstypen 3.3 Skalierung von Merkmalen 3.4 Datenerhebung 3.5 Datensätze 3.6 Sekundärdatenquellen und Datenbanken Gliederung 4. Kapitel 4. Datenverarbeitung und Software Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 4 / 388 Gliederung 5. Kapitel 5. Häufigkeiten und Häufigkeitsverteilungen 5.1 Absolute und relative Häufigkeiten 5.2 Empirische Verteilungsfunktion Gliederung 6. Kapitel 6. Maßzahlen für einzelne Merkmale 6.1 Lagemaße 6.2 Streuungsmaße 6.3 Boxplot 6.4 Schiefe, Wölbung und Exzess 6.5 Konzentrationsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 5 / 388 Gliederung 7. Kapitel 7. Maßzahlen für den Zusammenhang zwischen Merkmalen 7.1 Verteilung zweidimensionaler Merkmale 7.2 Zusammenhang nominaler Merkmale 7.3 Zusammenhang ordinaler Merkmale 7.4 Zusammenhang stetiger Merkmale Gliederung 8. Kapitel 8. Regressionsansatz als deskriptives Verfahren 8.1 Idee des Regressionsansatzes 8.2 Lineare Einfachregression 8.3 Methode der Kleinsten Quadrate 8.4 Beurteilung der Güte einer Regression 8.5 Lineare Mehrfachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 6 / 388 Gliederung 9. Kapitel 9. Stichproben und Zufallszahlen 9.1 Grundgesamtheit und Stichprobe 9.2 Zufallszahlen Gliederung 10. Kapitel 10. Schätzen von Parametern der Grundgesamtheit 10.1 Typen von Schätzern 10.2 Wünschenswerte Eigenschaften von Schätzern 10.3 Momentenmethode 10.4 Maximum Likelihood Methode 10.5 Konfidenzintervalle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 7 / 388 Gliederung 11. Kapitel 11. Grundlagen des Testens von Hypothesen 11.1 Hypothesen und Hypothesenformulierung 11.2 Systematik eines Hypothesentests Gliederung 12. Kapitel 12. Verteilungstests 12.1 Grundlagen 12.2 Grafische Analyse 12.3 Chi-Quadrat-Anpassungstest 12.4 Kolmogorov-Smirnov-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 8 / 388 Gliederung 13. Kapitel 13. Parametrische Mittelwerttests 13.1 Grundlagen 13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe 13.3 Einstichproben-t-Test 13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben 13.5 Zweistichproben-t-Test bei unabhängigen Stichproben Gliederung 14. Kapitel 14. Regressionsanalyse als induktives Verfahren 14.1 Regressionen auf Basis von Stichproben 14.2 Eigenschaften von KQ-Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 9 / 388 Gliederung 15. Kapitel 15. Typen von Querschnittsregressionen Gliederung 16. Kapitel 16. Lineare Regressionsanalyse 16.1 Identifikation von ungewöhnlichen Beobachtungen 16.2 Koeffiziententests 16.3 Gütetests 16.4 Heteroskedastizität 16.5 Multikollinearität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 10 / 388 Gliederung 17. Kapitel 17. Regressionen mit diskreten abhängigen Variablen 17.1 Überblick 17.2 Binäre abhängige Variablen Gliederung 18. Kapitel 18. Nichtlineare Regressionen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 11 / 388 Gliederung 19. Kapitel 19. Grundlagen der Zeitreihenanalyse 19.1 Zeitreihen 19.2 Maßzahlen für Zeitreihen 19.3 Stationarität von Zeitreihen Gliederung 20. Kapitel 20. Univariate Zeitreihenmodelle 20.1 Typen univariater Zeitreihenmodelle 20.2 Schätzung univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 12 / 388 Ziel, Konzept und Aufbau der Vorlesung 1. Ziel, Konzept und Aufbau der Vorlesung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 13 / 388 Gegenstand der Empirischen Wirtschaftsforschung 2. Gegenstand der Empirischen Wirtschaftsforschung 2.1 2.2 2.3 2.4 Aufgaben der empirischen Wirtschaftsforschung Überprüfung modellgestützter Hypothesen Evaluierung von Politikmaßnahmen Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 14 / 388 Gegenstand der Empirischen Wirtschaftsforschung 2.1 Aufgaben der empirischen Wirtschaftsforschung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 15 / 388 Gegenstand der Empirischen Wirtschaftsforschung 2.2 Überprüfung modellgestützter Hypothesen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 16 / 388 Gegenstand der Empirischen Wirtschaftsforschung Sir Karl Popper * 28. Juli 1902 in Wien 17. September 1994 in London Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 17 / 388 Überprüfung modellgestützter Hypothesen Gegenstand der Empirischen Wirtschaftsforschung Optimales Konsumbündel in der Ausgangssituation 009Prof. Menge x2 x2opt U1 x1opt Dr. Dr. Michael Berlemann Prof. (HSU) Menge x1 M. Empirische Berlemann: Wirtschaftsforschung Vorlesung "Empirische Wirtschaftsforschung" 15. April 2013 18 / 388 Überprüfung modellgestützter Hypothesen Gegenstand der Empirischen Wirtschaftsforschung Optimales Konsumbündel bei Erhöhung des Preises von Gut x1 009 Prof. Menge x2 Konsequenzen eines Preisanstiegs bei Gut x1 x2opt U1 x1opt Menge x1 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 19 / 388 Gegenstand der Empirischen Wirtschaftsforschung 2.3 Evaluierung von Politikmaßnahmen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 20 / 388 Gegenstand der Empirischen Wirtschaftsforschung Bundeskanzler Gerhard Schröder Tabaksteuerreform 2004 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 21 / 388 Gegenstand der Empirischen Wirtschaftsforschung Deutsche Tabaksteuer-Einnahmen 1949-2009 in Mio. Euro (Quelle: Statistisches Bundesamt) 16000 14000 12000 10000 8000 6000 4000 2000 0 1949 1954 1959 1964 Prof. Dr. Michael Berlemann (HSU) 1969 1974 1979 1984 1989 Empirische Wirtschaftsforschung 1994 1999 2004 15. April 2013 2009 22 / 388 Gegenstand der Empirischen Wirtschaftsforschung Schaumburger Nachrichten, 11.2.2004 steuererhöhung 2004 ene“ Tabaksteuererhöhung von 2004 als schönes ene es Beispiel für die Folgen mangelnder oder falscher er Abschätzungen der Folgen wirtschaftspolitischer men d der R Raucher" h " kann k man mit it "geringer " i di direkter kt zität der Nachfrage" übersetzen. inanzminister weniger Einnahmen aus der er fürchten muss, kommt der Aussage gleich, dass Markt für Tabakwaren im fallenden Bereich der rve befindet. aus: Schaumburger Nachrichten, 11.2.2004 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 17 15. April 2013 23 / 388 luierung von Politikmaßnahmen Gegenstand der Empirischen Wirtschaftsforschung Laffer-Kurve Steueraufkommen Laffer-Kurve Steuersatz τ=0% Prof. Dr. Michael Berlemann (HSU) τ* Empirische Wirtschaftsforschung τ = 100 % 15. April 2013 24 / 388 Gegenstand der Empirischen Wirtschaftsforschung 2.4 Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 25 / 388 Gegenstand der Empirischen Wirtschaftsforschung Konjunkturprognose des ifo-Instituts für Deutschland (Quelle: ifo) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 26 / 388 Gegenstand der Empirischen Wirtschaftsforschung Bevölkerungsprognose 2007 bis 2025 für Deutschland regional (Quelle: BBSR) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 27 / 388 Gegenstand der Empirischen Wirtschaftsforschung Literaturhinweise Literaturhinweise zum 2. Kapitel Hujer, R. und R. Cremer (1978): Methoden der empirischen Wirtschaftsforschung, Verlag Vahlen, München [insbes. Kapitel 1 Abschnitt I]. Laffer, A. B. (1981): Government Exactions and Revenue Deficiencies, in: Cato Journal, Vol. 1, Nr. 1, S. 1-21. Mosler, K. und F. Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 0]. Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 28 / 388 Datentypen und Datenquellen 3. Datentypen und Datenquellen 3.1 3.2 3.3 3.4 3.5 3.6 Grundbegriffe Merkmalstypen Skalierung von Merkmalen Datenerhebung Datensätze Sekundärdatenquellen und Datenbanken Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 29 / 388 Datentypen und Datenquellen 3.1 Grundbegriffe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 30 / 388 Datentypen und Datenquellen Definition Die Objekte, auf die sich eine empirische Analyse bezieht, werden auch als Untersuchungseinheiten (ω) bezeichnet Definition Alle Untersuchungseinheiten zusammen ergeben die sog. Grundgesamtheit (Ω) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 31 / 388 Datentypen und Datenquellen Definition Bestimmte Eigenschaften der Untersuchungsobjekte bezeichnet man auch als Merkmale (X) (oder auch als statistische Variable) Definition Jedes Merkmal kann in der Regel mehrere (k) unterschiedliche Merkmalsausprägungen a1 , a2 ,· · · , ak aufweisen Definition Als Merkmalsraum (S) (oder auch: Zustandsraum) bezeichnet man die Menge aller möglichen Ausprägungen eines Merkmals (alle Werte, die eine statistische Variable annehmen kann) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 32 / 388 Datentypen und Datenquellen 3.2 Merkmalstypen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 33 / 388 Datentypen und Datenquellen Merkmalstypen Merkmalstypen M k l Merkmale Qualitative Merkmale Quantitative Merkmale Ausprägungen unterscheiden sich artmässig Ausprägungen können durch Zahlen angegeben werden Diskrete Merkmale abzählbarer b ählb Zustandsraum Z t d Stetige Merkmale nicht abzählbarer Zustandsraum Gruppierte Merkmale Ab ählb durch Abzählbar d h Gruppenbildung G bild FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 27 15. April 2013 34 / 388 Datentypen und Datenquellen 3.3 Skalierung von Merkmalen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 35 / 388 Datentypen und Datenquellen Skalierung von Merkmalen Skalierung von Merkmalen Skalentypen Nominalskala Ordinalskala (Rangskala) nur Unterscheidung, keine Ordnung Reihenfolge, aber keine Abstände interpretierbar Metrische Skala Reihenfolge, Abstände interpretierbar Intervallskala nur Abstände interpretierbar Stetige Merkmale natürlicher Nullpunkt, Verhältnisse interpretierbar Absolutskala natürlicher Nullpunkt & natürliche Maßeinheit FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 29 15. April 2013 36 / 388 Datentypen und Datenquellen 3.4 Datenerhebung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 37 / 388 Datentypen und Datenquellen Definition Von einer Vollerhebung spricht man, wenn die relevanten Merkmale aller Untersuchungseinheiten einer Grundgesamtheit erhoben werden Definition Bei einer Teilerhebung werden nur die relevanten Merkmale einer Teilmenge (Stichprobe) aller Untersuchungseinheiten der Grundgesamtheit erhoben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 38 / 388 Datentypen und Datenquellen Definition Von einer Primärerhebung spricht man, wenn die Daten vom Forscher selbst erhoben werden, so z.B. durch Befragung, Beobachtung und Aufzeichnung oder Durchführung von Experimenten Definition Von einer Sekundärerhebung spricht man, wenn die Daten von anderen Personen oder Institutionen erhoben, gesammelt, verifiziert und unter Umständen aggregiert werden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 39 / 388 Datentypen und Datenquellen Definition Sind die Untersuchungseinheiten einzelne Individuen oder vergleichbare Individualobjekte, so spricht man von Mikrodaten Definition Handelt es sich um Daten, die über mehrere Untersuchungseinheiten (z.B. Individuen, Unternehmen, Branchen, Regionen) aggregiert wurden, so spricht man von Makrodaten Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 40 / 388 Datentypen und Datenquellen Formen der Primärerhebung: Befragung schriftlich mündlich Beobachtung Experiment Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 41 / 388 Datentypen und Datenquellen 3.5 Datensätze Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 42 / 388 Datentypen und Datenquellen Typen von Datensätzen: Querschnittsdatensätze Längsschnittsdatensätze Pandeldatensätze Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 43 / 388 Datentypen und Datenquellen Querschnittsdaten Querschnittsdatensatz (Cross section data) (Cross section data) BW BY BE BB HB HH HE MV NI NW RP SL SN ST SH TH D , 3,2 4,9 , 1,4 , 3,2 , 4,9 , 3,5 , 3,2 , 1,0 , 2,4 , 2,3 , 2,7 , 4,8 , 1,3 , 2,5 , 2,4 , 2,7 , 3,1 , 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 37 15. April 2013 44 / 388 Datentypen und Datenquellen Längsschnittdaten Zeitreihe Längsschnittdaten, Längsschnittsdatensatz / Zeitreihe (Time series data) (Time series data) BW BY BE BB HB HH 1992 −0,1 1993 −0,8 1994 08 0,8 1995 1,0 1996 1,2 1997 1,8 1998 1,1 1999 0,8 2000 , 3,5 2001 3,4 2002 −0,2 2003 −3,3 2004 0,3 2005 1,3 2006 2,4 2007 2,1 HE MV NI NW RP SL SN ST SH TH D Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 38 15. April 2013 45 / 388 Datentypen und Datenquellen Paneldaten Paneldatensatz (Panel data) (Panel data) BW BY BE BB HB HH HE MV NI NW RP SL SN ST SH TH D 1992 −0,5 1,3 3,0 10,1 −0,2 −0,1 0,6 11,5 0,4 0,1 −1,4 −0,4 11,3 11,6 0,5 19,9 1,5 1993 −5,3 −2,9 2,2 12,4 −2,8 −0,8 −3,0 12,7 −2,2 −3,1 −4,1 −4,7 13,3 14,1 −1,8 14,1 −1,5 1994 16 1,6 15 1,5 09 0,9 12 3 12,3 17 1,7 08 0,8 06 0,6 13 4 13,4 13 1,3 08 0,8 10 1,0 30 3,0 13 7 13,7 11 4 11,4 06 0,6 13 2 13,2 23 2,3 1995 1,2 0,6 2,0 7,5 0,4 1,0 1,0 8,4 −1,2 1,4 0,9 3,0 8,3 5,1 1,6 3,8 1,6 1996 1,5 1,3 −1,6 2,7 0,2 1,2 2,0 3,2 −0,3 −0,8 −1,2 −2,9 3,4 3,3 0,7 3,3 0,7 1997 2,0 1,9 −1,3 1,3 1,6 3,4 1,8 1,3 2,1 1,2 1,5 1,4 2,4 0,7 3,6 1,0 4,2 1,6 1998 2,3 3,7 0,7 0,3 1,8 1,1 1,4 0,4 2,2 2,1 0,9 3,4 1,3 1,4 0,2 2,3 2,1 1999 2,3 2,6 −0,1 3,6 1,1 0,8 3,1 3,9 1,0 0,8 2,4 2,4 3,0 2,8 1,2 4,0 1,9 2000 , 3,2 4,9 , 1,4 , 3,2 , 4,9 , 3,5 , 3,2 , 1,0 , 2,4 , 2,3 , 2,7 , 4,8 , 1,3 , 2,5 , 2,4 , 2,7 , 3,1 , 2001 2,1 1,4 −1,2 0,6 1,3 3,4 1,4 1,1 −1,1 0,6 −1,4 1,6 2,6 1,4 0,5 2,3 1,1 2002 −1,9 0,8 −1,8 0,2 1,3 −0,2 −1,2 1,0 −1,1 −0,1 0,9 −1,0 3,3 3,4 −2,4 1,1 −0,2 2003 −0,7 0,0 −2,2 0,1 0,3 −3,3 0,4 0,6 −0,0 −0,9 −0,5 −0,5 2,2 1,0 −0,1 2,6 −0,3 2004 0,2 1,8 −2,0 1,4 0,2 0,3 0,2 2,0 0,9 1,2 2,2 3,8 2,3 1,6 0,8 2,5 1,1 2005 0,3 1,5 0,8 1,2 0,2 1,3 0,9 0,6 2,1 0,1 −0,4 3,2 0,8 0,9 0,1 1,0 0,8 2006 4,3 3,1 1,0 1,7 1,8 2,4 3,1 2,2 2,6 2,7 2,6 2,6 3,4 2,9 2,4 3,6 3,0 2007 2,7 2,6 1,8 2,5 2,8 2,1 2,4 3,4 2,0 2,8 2,7 3,0 3,1 3,3 1,3 3,0 2,6 Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 39 15. April 2013 46 / 388 Datentypen und Datenquellen 3.6 Sekundärdatenquellen und Datenbanken Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 47 / 388 Datentypen und Datenquellen Sekundärdatenquellen Sekundärdatenquellen S k dä d Sekundärdaten amtliche Statistik nicht-amtliche Statistik von staatlichen Institutionen erhobene Daten von privaten Institutionen erhobene Daten national national d Inland das I l d betreffend b t ff d d Inland das I l d betreffend b t ff d international international im Ländervergleich im Ländervergleich Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 48 / 388 Datentypen und Datenquellen Nationale amtliche Statistik Statistisches Bundesamt / Statistische Landesämter: Statistisches Jahrbuch, Fachserien, Zeitschriften Wichtigste Daten sind im Internet frei oder gegen geringe Gebühr zugänglich: http://www.destatis.de/ http://www.vgrdl.de/Arbeitskreis VGR/ Deutsche Bundesbank: Monatsberichte, Statistische Beihefte, Geschäftsberichte Internetangebot: http://www.bundesbank.de/statistik/statistik.php Bundesregierung / Landesregierungen: Regelmäßige Berichte (Jahreswirtschaftsbericht, Finanzbericht, Sozialbericht etc.) Internet Bundeswirtschaftsministerium: http://www.bmwi.de/BMWi/Navigation/wirtschaft.html Bundesagentur für Arbeit / Landesarbeitsagenturen: Internet: http://www1.arbeitsamt.de/hst/services/statistik/index.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 49 / 388 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Öffentlich geförderte Wirtschaftsforschungsinstitute Deutsches Institut für Wirtschaftsforschung (DIW), Berlin Internet: http://www.diw.de ifo Institut für Wirtschaftsforschung, München Internet: http://www.ifo.de Institut für Weltwirtschaft (IfW), Kiel Internet: http://www.ifw-kiel.de Rheinisch-Westfälisches Institut für Wirtschaftsforschung (RWI), Essen Internet: http://www.rwi-essen.de Institut für Wirtschaftsforschung Halle (IWH), Halle Internet: http://www.iwh-halle.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 50 / 388 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Privat finanzierte Wirtschaftsforschungsinstitute Zentrum für Europäische Wirtschaftsforschung (ZEW), Mannheim Internet: http://www.zew.de Hamburger Weltwirtschafts-Institut (HWWI), Hamburg Internet: http://www.hwwi.org Institut der Deutschen Wirtschaft (IdW), Köln Internet: http://www.idw.de Institut für Makroökonomie und Konjunkturforschung (IMK), Düsseldorf Internet: http://www.boeckler.de/31923.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 51 / 388 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung Internet: http://www.sachverstaendigenrat-wirtschaft.de Monopolkommission Internet: http://www.monopolkommission.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 52 / 388 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Marktforschungsinstitute Gesellschaft für Konsumforschung (GfK) Internet: http://www.gfk.com/group/index.de.html Meinungsforschungsinstitute Institut für Demoskopie Allensbach Internet: http://www.ifd-allensbach.de Emnid Internet: http://www.tns-emnid.com Forsa Internet: http://www.forsa.de Forschungsgruppe Wahlen http://www.forschungsgruppe.de/Startseite Infas http://www.infas.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 53 / 388 Datentypen und Datenquellen Internationale amtliche Statistik: Statistisches Amt der Europäischen Union (Eurostat) Internet: http://epp.eurostat.ec.europa.eu Europäische Zentralbank (EZB) Internet: http://www.ecb.int/stats/html/index.en.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 54 / 388 Datentypen und Datenquellen Internationale nicht-amtliche Statistik: Organisation for Economic Development and Co-Ordination (OECD): Internet: http://www.oecd.org Weltbank Internet: http://www.worldbank.org Bank für Internationalen Zahlungsausgleich (Basel) Internet: http://www.bis.org Vereinte Nationen (UN): Internet: http://www.un.org/Pubs International Monetary Fund (IMF): Internet: http://www.imf.org/external/data.htm International Labor Organization (ILO): Internet: http://www.ilo.org/global/lang–en/index.htm Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 55 / 388 Datentypen und Datenquellen Sekundärdatenquellen und Datenbanken: Datenbanken sind Sammlungen von Daten, unter Umständen auch aus ganz unterschiedlichen Datenquellen Datenbanken der amtlichen Statistik: Genesis Online (Statistisches Bundesamt) Bundesstatistik: Internet: https://www-genesis.destatis.de/genesis/online/logon Regionalstatistik: Internet: https://www.regionalstatistik.de/genesis/online/logon Arbeitsgruppe VGR der Länder: Internet: http://www.vgrdl.de/Arbeitskreis VGR Sehr umfangreiche Datenbanken: Penn World Tables (Freier Zugang über University of Pennsylvania): http://pwt.econ.upenn.edu Statistik-Netz (Zugang HSU HH über Bibliothek WiSo) Datastream (Zugang HSU HH) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 56 / 388 Datentypen und Datenquellen Literaturhinweise Literaturhinweise zum 3. Kapitel Mosler, K. und F. Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 57 / 388 Datenverarbeitung und Software 4. Datenverarbeitung und Software Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 58 / 388 Datenverarbeitung und Software Literaturhinweise Literaturhinweise zum 4. Kapitel Behr, A. und U. Pötter (2011): Einführung in die Statistik mit R, Verlag Vahlen, München. Crawley, M. (2005): Statistics. An Introduction using R, Wiley Publishers, Hoboken. Field, A., J. Miles und Z. Field (2012): Discovering Statistics using R, Sage Publications, London. Kleiber, C. und A. Zeileis (2008): Applied Econometrics with R, Use R! Series, Springer-Verlag, Berlin. Spector, P. (2008): Data Manipulation with R, Use R! Series, Springer-Verlag, Berlin. Zuur, A.F., E. N. Ieno und H.W.G. Meesters (2009): A Beginner’s Guide to R, Use R! Series, Springer-Verlag, Berlin. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 59 / 388 Häufigkeiten und Häufigkeitsverteilungen 5. Häufigkeiten und Häufigkeitsverteilungen 5.1 Absolute und relative Häufigkeiten 5.2 Empirische Verteilungsfunktion Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 60 / 388 Häufigkeiten und Häufigkeitsverteilungen 5.1 Absolute und relative Häufigkeiten Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 61 / 388 Häufigkeiten und Häufigkeitsverteilungen Seien a1 , a2 , ..., aN die Ausprägungen eines qualitativen Merkmals mit k qualitativ unterscheidbaren Ausprägungen einer Grundgesamtheit der Größe N Definition Die absoluten Häufigkeiten nj geben an, wie oft jede Merkmalsausprägung aj mit j = 1, ..., k eines Merkmals in der Grundgesamtheit auftritt Die Summe der absoluten Häufigkeiten ergibt gerade die Gesamtanzahl der Beobachtungen: k X nj = N j=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 62 / 388 Häufigkeiten und Häufigkeitsverteilungen 0 2 4 6 8 10 12 14 Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1) Arbeitslos Prof. Dr. Michael Berlemann (HSU) Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Empirische Wirtschaftsforschung 15. April 2013 63 / 388 Häufigkeiten und Häufigkeitsverteilungen Definition Die relativen Häufigkeiten fj geben an, welchen Anteil jede Merkmalsausprägung an der Gesamtanzahl der Beobachtungen hat Die Summe der relativen Häufigkeiten ergibt ergibt 100%: k X j=1 Prof. Dr. Michael Berlemann (HSU) fj = k X nj j=1 N =1 Empirische Wirtschaftsforschung 15. April 2013 64 / 388 Häufigkeiten und Häufigkeitsverteilungen Häufigkeitstabelle Berufe (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) Absolute Häufigkeit 9 4 7 10 11 15 5 9 Relative Häufigkeit 0.13 0.06 0.10 0.14 0.16 0.21 0.07 0.13 Empirische Wirtschaftsforschung Prozentuale Häufigkeit 12.90 5.70 10.00 14.30 15.70 21.40 7.10 12.90 15. April 2013 65 / 388 Häufigkeiten und Häufigkeitsverteilungen Kuchendiagramm relative Häufigkeit Berufe (Datensatz 1) Verkaeufer (12.9%) Arbeitslos (12.9%) Arzt (5.7%) Sonstiges (7.1%) Ingenieur (10%) Schueler (21.4%) Lehrer (14.3%) Rentner (15.7%) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 66 / 388 Häufigkeiten und Häufigkeitsverteilungen 15 10 0 5 Absolute Häufigkeit 20 25 Histogramm klassifizierte Jahreseinkommen (Datensatz 1) 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 67 / 388 Häufigkeiten und Häufigkeitsverteilungen 5.2 Empirische Verteilungsfunktion Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 68 / 388 Häufigkeiten und Häufigkeitsverteilungen Definition Die empirische Verteilungsfunktion eines Merkmals ergibt sich aus den kumulierten relativen Häufigkeiten Um den Wert der empirischen Verteilungsfunktion zu berechnen, müssen zunächst die Beobachtungen ihrer Größe nach von klein nach groß geordnet werden Der Wert der empirischen Verteilungsfunktion für die Beobachtung x ergibt sich dann als die Summe der kumulierten relativen Häufigkeiten aller Merkmalsausprägungen, die kleiner oder gleich x sind: X F (x) = f (aj ) aj ≤x Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 69 / 388 Häufigkeiten und Häufigkeitsverteilungen 1.0 Empirische Verteilungsfunktion Zahl der Kinder (Datensatz 1) ● ● 0.6 ● 0.4 ● 0.0 0.2 Kumulierte relative Häufigkeit 0.8 ● 0 1 2 3 4 5 Zahl der Kinder Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 70 / 388 Häufigkeiten und Häufigkeitsverteilungen 1.0 Empirische Verteilungsfunktion Alter (Datensatz 1) ● ● ● ● ● ● ● ● 0.6 ● ● ● ● ● ● ● ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 Kumulierte relative Häufigkeit 0.8 ● ● ● ● ● ● ● 0.0 ● ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 71 / 388 Häufigkeiten und Häufigkeitsverteilungen Literaturhinweise Literaturhinweise zum 5. Kapitel Behr, A. und U. Pötter (2011): Einfühung in die Statistik mit R, 2. Auflage, Verlag Vahlen, München [insbes. Kapitel 5]. Duller, C. (2006): Einführung in die Statistik mit Excel und SPSS, Physica-Verlag, Heidelberg [insbes. Kapitel 6]. Kazmier, L. J. (1996): Wirtschaftsstatistik, Übersetzung der 3. Auflage, McGraw-Hill International Ltd., London [insbes. Kapitel 2]. Quatember, A. (2005): Statistik ohne Angst vor Formeln. Ein Lehrbuch für Wirtschafts- und Sozialwissenschaftler [insbes. Kapitel 1.2]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 72 / 388 Maßzahlen für einzelne Merkmale 6. Maßzahlen für einzelne Merkmale 6.1 6.2 6.3 6.4 6.5 Lagemaße Streuungsmaße Boxplot Schiefe, Wölbung und Exzess Konzentrationsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 73 / 388 Maßzahlen für einzelne Merkmale 6.1 Lagemaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 74 / 388 Maßzahlen für einzelne Merkmale Definition Als Modus bezeichnet man diejenige Merkmalsausprägung, die am häufigsten auftritt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 75 / 388 Maßzahlen für einzelne Merkmale 0 2 4 6 8 10 12 14 Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1) Arbeitslos Prof. Dr. Michael Berlemann (HSU) Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Empirische Wirtschaftsforschung 15. April 2013 76 / 388 Maßzahlen für einzelne Merkmale 15 10 0 5 Absolute Häufigkeit 20 25 Histogramm klassifizierte Jahreseinkommen (Datensatz 1) 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 77 / 388 Maßzahlen für einzelne Merkmale Definition Sei α eine Zahl zwischen null und eins. Als α-Quantil wird dann derjenige Wert x̃α bezeichnet, für den die Verteilungsfunktion F gerade den Wert α annimmt, d.h. F (x̃α ) = α. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 78 / 388 Maßzahlen für einzelne Merkmale Ausgewählte Quantile des Jahreseinkommens (Datensatz 1) α-Quantil 10% 20% 30% 40% 50% 60% 70% 80% 90% Prof. Dr. Michael Berlemann (HSU) Wert 350 2500 15000 20000 28000 33000 40000 45000 75000 Empirische Wirtschaftsforschung 15. April 2013 79 / 388 Maßzahlen für einzelne Merkmale Definition Als Quartile bezeichnet man diejenigen Quantilswerte, die zu einer Unterteilung der Daten in vier gleich große Gruppen führen: F (x̃α=0,25 ) = 0, 25 F (x̃α=0,50 ) = 0, 50 F (x̃α=0,75 ) = 0, 75 Dabei bezeichnet man das 0,25-Quartil auch als unteres und das 0,75-Quartil als oberes Quartil Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 80 / 388 Maßzahlen für einzelne Merkmale Quartile des Jahreseinkommens (Datensatz 1) Quartil 25% 50% 75% Prof. Dr. Michael Berlemann (HSU) Wert 11000.00 28000.00 42750.00 Empirische Wirtschaftsforschung 15. April 2013 81 / 388 Maßzahlen für einzelne Merkmale Definition Der Median (auch: Zentralwert) beschreibt das Zentrum einer geordneten Reihe aller Beobachtungen (aufsteigend, absteigend) und ist ein Spezialfall eines Quantils. Für den Median gilt, dass höchstens 50 % der Beobachtungen kleiner oder gleich und höchstens 50% größer oder gleich diesem Wert sein dürfen (d.h. α = 0.5). Median-Jahreseinkommen (Datensatz 1) Der Median des Jahreseinkommens aus Datensatz 1 beträgt 28.000 Euro. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 82 / 388 Maßzahlen für einzelne Merkmale Definition Das arithmetische Mittel ist der ungewichtete Durchschnittswert aller Beobachtungen N 1 X X̄ = xi N i=1 Durchschnittliches Jahreseinkommen (Datensatz 1) Das durchschnittliche Jahreseinkommen aus Datensatz 1 beträgt: X̄ = 34.451, 79 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 83 / 388 Maßzahlen für einzelne Merkmale 6.2 Streuungsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 84 / 388 Maßzahlen für einzelne Merkmale Definition Bei einer der Größe nach geordneten Beobachtungsreihe berechnet sich die Spannweite S als S = xN − x1 Spannweite Jahreseinkommen (Datensatz 1) Die Spannweite des Jahreseinkommens aus Datensatz 1 beträgt: S = 199.950 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 85 / 388 Maßzahlen für einzelne Merkmale Definition Der Quartilsabstand misst die Differenz zwischen dem oberen und dem unteren Quartilswert und somit den zentralen Teil der Verteilung der Beobachtungen: dQ = x̃0,75 − x̃0,25 Quartilsabstand Jahreseinkommen (Datensatz 1) Der Quartilsabstand des Jahreseinkommens aus Datensatz 1 beträgt: dQ = 31.750 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 86 / 388 Maßzahlen für einzelne Merkmale Definition Die Varianz misst die mittlere quadratische Abweichung der beobachteten Merkmalsausprägungen vom arithmetischen Mittel V ar[X] = σ 2 = N 1 X · (xi − X̄)2 N i=1 Varianz des Jahreseinkommens (Datensatz 1) Die Varianz des Jahreseinkommens aus Datensatz 1 beträgt: σ 2 = 1.320.667.180 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 87 / 388 Maßzahlen für einzelne Merkmale Definition Die Standardabweichung ergibt sich als Wurzel aus der Varianz v u N u1 X (xi − X̄)2 Stdabw[X] = σ = t · N i=1 Standardabweichung des Jahreseinkommens (Datensatz 1) Die Standardabweichung des Jahreseinkommens aus Datensatz 1 beträgt: σ == 36.340, 98 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 88 / 388 Maßzahlen für einzelne Merkmale 6.3 Boxplot Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 89 / 388 Maßzahlen für einzelne Merkmale 200000 ● 150000 Boxplot Jahreseinkommen (Datensatz 1) ● 0 50000 100000 ● ● Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 90 / 388 Maßzahlen für einzelne Merkmale 6.4 Schiefe, Wölbung und Exzess Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 91 / 388 Maßzahlen für einzelne Merkmale Definition Die Schiefe einer Verteilung ist definiert als 1 g1 = rN · 1 N PN · i=1 (xi − X̄)3 PN 2 i=1 (xi − X̄) 3 Schiefe der Verteilung des Jahreseinkommens (Datensatz 1) Die Schiefe der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g1 = 2, 14 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 92 / 388 Maßzahlen für einzelne Merkmale Definition Die Wölbung (Kurtosis) einer Verteilung ist definiert als 1 N g2 = r · 1 N PN − X̄)4 PN − X̄)2 · i=1 (xi i=1 (xi 4 Kurtosis der Verteilung des Jahreseinkommens (Datensatz 1) Die Kurtosis der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g2 = 5, 87 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 93 / 388 Maßzahlen für einzelne Merkmale Definition Der Exzess einer Verteilung misst die Abweichung einer empirischen Verteilung von der Normalverteilung mit gleichem arithmetischen Mittel und gleicher Varianz: g3 = g2 − 3 Exzess der Verteilung des Jahreseinkommens (Datensatz 1) Der Exzess der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g3 = 2, 87 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 94 / 388 Maßzahlen für einzelne Merkmale 6.5 Konzentrationsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 95 / 388 Maßzahlen für einzelne Merkmale Berechnung der Lorenzkurve 1 Ordnung der Beobachtungen nach ihrer Größe, wobei mit dem kleinsten Wert begonnen wird 2 Berechnung der Gesamtsumme aller Merkmalswerte: N X xi = n · X̄ i=1 3 Berechnung der kumulierten Summe der Beobachtungen für jede Merkmalsausprägung, Bildung der Relation zur Gesamtsumme der Beobachtungen: Pi j=1 x(j) j=1 x(j) υi = PN 4 mit i = 1, ..., N υ0 := 0 Wiederholung des Vorgehens für den Fall einer Gleichverteilung mit identischer Gesamtsumme der Beobachtungen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 96 / 388 Maßzahlen für einzelne Merkmale Beispiel: Berechnung einer Lorenzkurve für kleinen Datensatz Haushalt 1 2 3 4 5 6 7 8 9 10 Summe Tatsächliche Verteilung Eink. Kumul. Eink. kumul. Anteil 0 0 0 150 150 0,03 240 390 0,08 270 660 0,14 300 960 0,21 400 1360 0,29 670 2030 0,43 800 2830 0,6 800 3630 0,78 1050 4680 1 4680 Prof. Dr. Michael Berlemann (HSU) Gleichverteilung Eink. Kumul. Eink. kumul. Anteil 468 468 0,1 468 936 0,2 468 1404 0,3 468 1872 0,4 468 2340 0,5 468 2808 0,6 468 3276 0,7 468 3744 0,8 468 4212 0,9 468 4680 1 4680 Empirische Wirtschaftsforschung 15. April 2013 97 / 388 Maßzahlen für einzelne Merkmale Lorenzkurve für kleinen Datensatz 5000 4500 kumuliertes Einkommen k 4000 3500 3000 2500 2000 1500 1000 500 0 0,00 1 2 3 4 5 6 7 8 9 10 Haushalt Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 98 / 388 Maßzahlen für einzelne Merkmale Lorenzkurve für Jahreseinkommen (Datensatz 1) 1.0 kumuliertes Einkommen 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Einkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 99 / 388 Maßzahlen für einzelne Merkmale Definition Der Gini-Koeffizient lässt sich berechnen als G=1− Prof. Dr. Michael Berlemann (HSU) N 1 X · (υi−1 + υi ) N i=1 Empirische Wirtschaftsforschung 15. April 2013 100 / 388 Maßzahlen für einzelne Merkmale Gini-Koeffizient für kleinen Datensatz Der Gini-Koeffizient für den kleinen Beispieldatensatz beträgt: G = 0, 387 Gini-Koeffizient für die Verteilung des Jahreseinkommens (Datensatz 1) Der Gini-Koeffizient der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: G = 0, 505 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 101 / 388 Maßzahlen für einzelne Merkmale Literaturhinweise Literaturhinweise zum 6. Kapitel Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 102 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 7. Maßzahlen für den Zusammenhang zwischen Merkmalen 7.1 7.2 7.3 7.4 Verteilung zweidimensionaler Merkmale Zusammenhang nominaler Merkmale Zusammenhang ordinaler Merkmale Zusammenhang stetiger Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 103 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.1 Verteilung zweidimensionaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 104 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Randverteilung Zahl der Kinder (Datensatz 1) Kinder 0 1 2 3 4 Prof. Dr. Michael Berlemann (HSU) Anzahl 31 11 18 7 3 Empirische Wirtschaftsforschung 15. April 2013 105 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Kontingenztabelle mit Randverteilungen, Beruf versus Kinder (Datensatz 1) Beruf Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Summe Prof. Dr. Michael Berlemann (HSU) 0 2 2 3 2 2 15 0 5 31 Zahl der Kinder 1 2 3 4 Summe 1 4 0 2 9 1 1 0 0 4 3 1 0 0 7 1 4 3 0 10 3 4 2 0 11 0 0 0 0 15 0 3 1 1 5 2 1 1 0 9 11 18 7 3 70 Empirische Wirtschaftsforschung 15. April 2013 106 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 0.0 0 0.2 1 0.4 2 Zahl der Kinder 0.6 3 0.8 4 1.0 Spineplot Verteilung Kinder nach Berufen (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Berufe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 107 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Scatterplot Einkommen versus Alter (Datensatz 1) ● ● ● 80 ● ● ● ● ● ● ● ● ● 60 ● ● ● ●● ● ● ● Alter ● ● ● ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● 0 ● ● ● ● 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 108 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.2 Zusammenhang nominaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 109 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Die χ2 -Statistik berechnet sich als χ2 = N · K X L X i=1 j=1 Ni+ = L X 2 Ni,j − 1 Ni+ · N+j Ni,j j=1 Nj+ = K X Ni,j i=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 110 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Entsprechen die beobachteten relativen Häufigkeiten den erwarteten relativen Häufigkeiten, so nimmt die χ2 -Statistik den Wert null an. Die beiden Merkmale sind dann unabhängig. Im Falle eines exakten systematischen Zusammenhangs hingegen nimmt die χ2 -Statistik ihren Maximalwert an, der sich wie folgt berechnen lässt: χ2 = N · (min(K, L) − 1) Pearsons χ2 -Statistik für Berufe und Geschlecht (Datensatz 1) Die χ2 -Statistik für die beiden nominalen Variablen Berufe und Geschlecht beträgt χ2 =16.15268. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 111 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Zu erwartende Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m 5.01 2.23 3.90 5.57 6.13 8.36 2.79 5.01 w 3.99 1.77 3.10 4.43 4.87 6.64 2.21 3.99 Empirische Wirtschaftsforschung 15. April 2013 112 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Tatsächliche Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m 4 4 4 10 6 6 1 4 w 5 0 3 0 5 9 4 5 Empirische Wirtschaftsforschung 15. April 2013 113 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Pearson-Residuen der Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m -0.45 1.19 0.05 1.88 -0.05 -0.82 -1.07 -0.45 w 0.51 -1.33 -0.06 -2.10 0.06 0.91 1.20 0.51 Empirische Wirtschaftsforschung 15. April 2013 114 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.3 Zusammenhang ordinaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 115 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Für den Fall, dass keine Bindungen auftreten, lautet der Rangkorrelationskoeffizient von Spearman: rS = 1 − Prof. Dr. Michael Berlemann (HSU) 6· PN i=1 (R(xi ) − R(yi )) N · (N 2 − 1) Empirische Wirtschaftsforschung 15. April 2013 116 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Rangkorrelation von Jahreseinkommen und Ausbildungsjahren (Datensatz 1) Die Rangkorrelation nach Spearman zwischen Jahreseinkommen und Ausbildungjahren beträgt rS = 0.64. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 117 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.4 Zusammenhang stetiger Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 118 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Das einfachste Maß des Zusammenhangs der Ausprägungen zweier stetiger Merkmale, die Kovarianz, ist definiert als Cov[X, Y ] = Prof. Dr. Michael Berlemann (HSU) N 1 X · (xi − X̄) · (yi − Ȳ ) N i=1 Empirische Wirtschaftsforschung 15. April 2013 119 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Positive Kovarianz: Alter versus Berufsjahre (Datensatz 1) ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● Alter ● ● 40 ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 10 20 30 40 Berufsjahre Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 120 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 100 Negative Kovarianz: Alter versus Gesundheitszustand (Datensatz 1) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80 ● ● ● ●● ● ● ● ●● ● ● ● 60 ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ●● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 121 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen 100 Keine Kovarianz: Jahreseinkommen versus Gesundheitszustand (Datensatz 1) ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● 80 ● ● ● ● ●● ● ● ● ● ● ● ● ● 60 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 122 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Der Korrelationskoeffizient von Bravais-Pearson ist definiert als PN (xi − X̄) · (yi − Ȳ ) BP Corr[X, Y ] = r = qP i=1 PN N 2 2 i=1 (yi − Ȳ ) i=1 (xi − X̄) · = Prof. Dr. Michael Berlemann (HSU) Cov[X, Y ] p V ar[X] · V ar[Y ] Empirische Wirtschaftsforschung 15. April 2013 123 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Diverse Korrelationskoeffizienten nach Bravais-Pearson (Datensatz 1) Alter vs. Gesundheitszustand Jahreseinkommen vs. Gesundheitszustand Berufsjahre vs. Alter Prof. Dr. Michael Berlemann (HSU) Korrelationskoeffizient -0.95 -0.31 0.94 Empirische Wirtschaftsforschung 15. April 2013 124 / 388 Maßzahlen für den Zusammenhang zwischen Merkmalen Literaturhinweise Literaturhinweise zum 7. Kapitel Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag, Heidelberg [insbes. Kapitel 8]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 125 / 388 Regressionsansatz als deskriptives Verfahren 8. Regressionsansatz als deskriptives Verfahren 8.1 8.2 8.3 8.4 8.5 Idee des Regressionsansatzes Lineare Einfachregression Methode der Kleinsten Quadrate Beurteilung der Güte einer Regression Lineare Mehrfachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 126 / 388 Regressionsansatz als deskriptives Verfahren 8.1 Idee des Regressionsansatzes Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 127 / 388 Regressionsansatz als deskriptives Verfahren Grundlegende Regressionsgleichung Y = f (X) + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 128 / 388 Regressionsansatz als deskriptives Verfahren 8.2 Lineare Einfachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 129 / 388 Regressionsansatz als deskriptives Verfahren Punktwolke ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Prof. Dr. Michael Berlemann (HSU) 10 20 30 Empirische Wirtschaftsforschung 40 15. April 2013 130 / 388 Regressionsansatz als deskriptives Verfahren Geradengleichung Y = β0 + β1 · X Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 131 / 388 Regressionsansatz als deskriptives Verfahren Schematischer Verlauf einer Regressionsgerade 180,0 160 0 160,0 Y = 10 + 1,5 ⋅ X zu erklärend de Variable (Y) 140,0 Steigung = β1 = ΔY/ΔX 120,0 100,0 Achsenabschnitt = β0 = 10 80,0 ΔY 60,0 ΔX 40,0 20,0 00 0,0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 132 / 388 Regressionsansatz als deskriptives Verfahren Punktwolke mit Regressionsgerade ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Prof. Dr. Michael Berlemann (HSU) 10 20 30 Empirische Wirtschaftsforschung 40 15. April 2013 133 / 388 Regressionsansatz als deskriptives Verfahren 8.3 Methode der kleinsten Quadrate Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 134 / 388 Regressionsansatz als deskriptives Verfahren Regressionsgleichung Die Regressionsgleichung einer linearen Einfachregression lautet: y i = β0 + β1 · x i + i Dabei ist i ein Beobachtungsindex Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 135 / 388 Regressionsansatz als deskriptives Verfahren Nicht erklärtes Residuum einer linearen Einfachregression 180,0 160 0 160,0 zu erklärend de Variable (Y) 140,0 120,0 100,0 80,0 60,0 ε1 40,0 ε2 20,0 0,0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 136 / 388 Regressionsansatz als deskriptives Verfahren Die Geradengleichung ist durch die zwei Parameter β0 , β1 eindeutig bestimmt Wählen wir die Werte β̂0 , β̂1 für die beiden Parameter, so können wir für jedes Beobachtungspaar xi , yi die sich bei dieser Geradengleichung ergebenden Störterme berechnen: i = yi − β̂0 − β̂1 · xi Kleinste-Quadrate-Schätzung Die Kleinste-Quadrate-Methode wählt nun die beiden Parameter gerade so, dass die Summe der quadrierten Störterme (d.h. die Prognosefehler bzw. die vertikalen Abweichungen der einzelnen Beobachtungspunkte im Scatterplot von der Regressionsgerade) minimiert wird ! N N X X min i = (yi − ŷi ) β0 ,β1 i=1 i=1 wobei N die Anzahl der Beobachtungen darstellt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 137 / 388 Regressionsansatz als deskriptives Verfahren Berechnung der KQ-Schätzer für β̂0 und β̂1 Diejenigen Parameter, die zu einer Minimierung der quadrierten Störterme führen, lassen sich berechnen als β̂1 = Cov[X, Y ] = V ar[X] PN i=1 (xi − X̄) · (yi − PN 2 i=1 (xi − X̄) Ȳ ) β̂0 = Ȳ − β̂1 · X̄ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 138 / 388 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + i β0 = 104, 3685 β1 = −0, 9872 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 139 / 388 Regressionsansatz als deskriptives Verfahren 8.4 Beurteilung der Güte einer Regression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 140 / 388 Regressionsansatz als deskriptives Verfahren Maß für die beobachtete Variation der zu erklärenden Variable: Summe der quadratischen Abweichungen der tatsächlichen Ausprägungen von Y vom Mittelwert (Total sum of squares, TSS): PN T SS = i=1 (yi − Ȳ )2 Maß für die erklärte Abweichung der zu erklärenden Variable: Summe der quadratischen Abweichungen der für Y prognostizierten Abweichungen vom Mittelwert (Explained Sum of Squares, ESS): PN ESS = i=1 (ŷi − Ȳ )2 Maß für die nicht erklärte Abweichung der zu erklärenden Variable: Summe der quadratischen Abweichungen der für Y prognostizierten Abweichungen von den tatsächlichen Ausprägungen (Residual Sum of Squares, RSS): PN PN RSS = i=1 (ŷi − yi )2 = i=1 2i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 141 / 388 Regressionsansatz als deskriptives Verfahren Die Abweichung eines jeden Wertes von seinem Mittelwert lässt sich darstellen als die Summe der Abweichung der tatsächlichen Werte von den geschätzten Werten und der Abweichung der geschätzten Werte vom Mittelwert. Dies gilt auch für die summierten Werte: T SS N X ⇔ (yi − Ȳ )2 i=1 i=1 N X ⇔ (yi − Ȳ )2 i=1 Prof. Dr. Michael Berlemann (HSU) = RSS + ESS N N X X = (ŷi − yi )2 + (ŷi − Ȳ )2 i=1 N N X X 2 = (ŷi − yi ) + 2i i=1 Empirische Wirtschaftsforschung i=1 15. April 2013 142 / 388 Regressionsansatz als deskriptives Verfahren Varianzzerlegung 180,0 160 0 160,0 zu erklärend de Variable (Y) 140,0 Tatsächliche Beobachtung Y = βˆ0 + βˆ1 ⋅ X 120,0 100,0 Prognostizierter Wert Unerklärte Abweichung Mittelwert Mittelwertabweichung 80,0 Erklärte Abweichung 60,0 Y 40,0 X 20,0 0,0 00 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 143 / 388 Regressionsansatz als deskriptives Verfahren Definition Das Bestimmtheitsmaß (R2 ) einer linearen Regression ist definiert als R2 = PN 2 ESS RSS =1− = 1 − PN i=1 i 2 T SS T SS i=1 (yi − Ȳ ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 144 / 388 Regressionsansatz als deskriptives Verfahren Beispiel für hohes Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + i β0 = 104, 3685 β1 = −0, 9872 R2 = 0, 907 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 145 / 388 Regressionsansatz als deskriptives Verfahren 100 Beispiel: Regression mit hohem Bestimmtheitsmaß ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80 ● ● ● ●● ● ● ● ●● ● ● ● 60 ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ●● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 146 / 388 Regressionsansatz als deskriptives Verfahren Beispiel für niedriges Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1) Jahreseinkommeni = β0 + β1 · Alteri + i β0 = 14926, 0 β1 = 498, 7 R2 = 0, 102 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 147 / 388 Regressionsansatz als deskriptives Verfahren 200000 Beispiel: Regression mit niedrigem Bestimmtheitsmaß ● ● ● 100000 Jahreseinkommen 150000 ● ● ● ● ● ● 50000 ● ● ● ● ● 0 ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ●●●●● ● 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 148 / 388 Regressionsansatz als deskriptives Verfahren 8.5 Lineare Mehrachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 149 / 388 Regressionsansatz als deskriptives Verfahren Regressionsgleichung einer linearen Mehrfachregression Die Regressionsgleichung einer linearen Mehrfachregression mit k erklärenden Variablen lautet: Y = β0 + β1 · X1,i + β2,i · X2 + · · · + βk · Xk,i + i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 150 / 388 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i β0 = 102, 61 β1 = −1, 01254 β2 = 0.27168 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 151 / 388 Regressionsansatz als deskriptives Verfahren Standardisierter Regressionskoeffizient Wird ein Regressionskoeffizient mit der Standardabweichung der zugehörigen erklärenden Variablen multipliziert und durch die Standardabweichung der zu erklärenden Variable geteilt, so erhält man den standardisierten Regressionskoeffizienten βks = βk · Prof. Dr. Michael Berlemann (HSU) Stdabw[Xk ] Stdabw[Y ] Empirische Wirtschaftsforschung 15. April 2013 152 / 388 Regressionsansatz als deskriptives Verfahren Bestimmtheitsmaß R2 = PN 2 ESS RSS =1− = 1 − PN i=1 i T SS T SS (y − Ȳ )2 i=1 i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 153 / 388 Regressionsansatz als deskriptives Verfahren Definition Das adjustierte Bestimmtheitsmaß (adj.R2 ) ist definiert als: 2 adj.R = 1 − RSS N −(K+1) T SS N −1 =1− PN 2 i=1 i N −(K+1) PN 2 i=1 (yi −Ȳ ) N −1 mit N als Anzahl der Beobachtungen und K + 1 als Anzahl der geschätzten Koeffizienten (inkl. Konstante). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 154 / 388 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung des adjustierten Bestimmtheitsmaßes (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i β0 = 102, 61 β1 = −1, 01254 β2 = 0.27168 Adj.R2 = 0.9074 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 155 / 388 Regressionsansatz als deskriptives Verfahren Literaturhinweise Literaturhinweise zum 8. Kapitel Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4]. Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2 und 3]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 156 / 388 Stichproben und Zufallszahlen 9. Stichproben und Zufallszahlen 9.1 Grundgesamtheit und Stichprobe 9.2 Zufallszahlen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 157 / 388 Stichproben und Zufallszahlen 9.1 Grundgesamtheit und Stichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 158 / 388 Stichproben und Zufallszahlen Reine (uneingeschränkte) Zufallsauswahl Von einer reinen Zufallsauswahl spricht man, wenn jedes Objekt aus der Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu gelangen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 159 / 388 Stichproben und Zufallszahlen Echte Zufallsstichproben: 1 Lotterieverfahren Alle Elemente der Grundgesamtheit kommen in die Lostrommel und daraus wird gezogen (mit oder ohne Zurücklegen). 2 Zufallszahlenverfahren Generierung von Zufallszahlen (mit Hilfe von Computern erzeugt). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 160 / 388 Stichproben und Zufallszahlen Unechte Zufallsstichproben: Schichtenauswahl Klumpenauswahl Quotenstichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 161 / 388 Stichproben und Zufallszahlen Stichprobenfunktion Eine Stichprobenfunktion (auch: Statistik) ist eine Zufallsvariable, die als Funktion der Stichprobenvariablen definiert ist. Stichprobenfunktionen dienen dazu, eine oder mehrere Stichproben zu verdichten. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 162 / 388 Stichproben und Zufallszahlen Wichtige Stichprobenfunktionen und ihre Momente Stichprobenfunktion PN i=1 xi P 1 X̄s = N · N x √i=1 i X̄s −µ · N Pσ 1 · N (xi − µ)2 N P i=1 1 (xi − X̄s )2 · N i=1P N 1 V ars = n−1 · N (x − X̄s )2 i=1 √ i stdabws = V ars Bezeichnung Erwartungswert Varianz Merkmalssumme Stichprobenmittel Gauß-Statistik MQA bezüglich µ MQA Varianz Stdabw. N ·µ µ 0 σ2 N −1 · σ2 N 2 σ σ N · σ2 σ2 N 1 MQA: mittlere quadratische Abweichung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 163 / 388 Stichproben und Zufallszahlen 9.2 Zufallszahlen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 164 / 388 Stichproben und Zufallszahlen Definition Für eine diskrete Zufallsvariable X ist der Wert der Wahrscheinlichkeitsfunktion f (x) die Wahrscheinlichkeit, dass die Zufallsvariable X gerade die Ausprägung x annimmt: f (x) = P (X = x) mit 0 ≤ f (x) ≤ 1 Für die Summe der Eintrittswahrscheinlichkeiten der einzelnen Zustände j (Anzahl der Ausprägungen: J) muss gelten: J X f (xj ) = 1 ⇔ f (x1 ) + f (x2 ) + ... + f (xJ ) = 1 j=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 165 / 388 Stichproben und Zufallszahlen Definition Die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen Wert zwischen x0 und x1 annimmt, lässt sich über die Dichtefunktion berechnen als: Z x 1 P (x0 ≤ X ≤ x1 ) = f (x) · dx ≥ 0. x0 Die Dichtefunktion ist an jeder Stelle positiv: f (x) ≥ 0. Zudem muss das Integral über die Dichtefunktion stets eins betragen: Z ∞ f (x) · dx = 1. −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 166 / 388 Stichproben und Zufallszahlen Definition Die kumulierte Dichtefunktion an der Stelle x1 ist definiert als Z x1 F (x1 ) = P (X ≤ x1 ) = f (x) · dx −∞ Die Ableitung der kumulierten Dichtefunktion an der Stelle x1 ist gerade der Wert der Dichtefunktion an der Stelle x1 : f (x1 ) = Prof. Dr. Michael Berlemann (HSU) dF (x1 ) dx Empirische Wirtschaftsforschung 15. April 2013 167 / 388 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer hypothetischen, stetigen Zufallsvariable −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 168 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer hypothetischen, stetigen Zufallsvariable −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 169 / 388 Stichproben und Zufallszahlen Der Erwartungswert einer Zufallsvariablen lässt sich immer numerisch berechnen, wenn die Wahrscheinlichkeits- (bei diskreten Variablen) bzw. die Dichtefunktion (bei stetigen Variablen) bekannt ist Definition Bei diskreten Zufallsvariablen kann der Erwartungswert als Summe der mit den Eintrittswahrscheinlichkeiten gewichteten Zustände berechnet werden: E[X] = J X xj · P (X = xj ) = j=1 J X xj · f (xj ) j=1 Definition Bei stetigen Zufallsvariablen errechnet sich der Erwartungswert als Integral über die mit den Zuständen multiplizierte Dichtefunktion Z ∞ E[X] = x · f (x) · dx −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 170 / 388 Stichproben und Zufallszahlen Definition Die Varianz einer diskreten Zufallsvariable berechnet sich als 2 V ar[X] = σX = J X P (X = xj ) · (xj − E[X])2 = j=1 J X f (xj ) · (xj − E[X])2 j=1 Definition Die Varianz einer stetigen Zufallsvariable ergibt sich als Z ∞ 2 V ar[X] = σX = (xj − E[x])2 · f (x) · dx −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 171 / 388 Stichproben und Zufallszahlen Definition Die Standardabweichung von diskreten und stetigen Zufallsvariablen ergibt sich als Quadratwurzel aus der Varianz q p 2 Stdabw[X] = σX = V ar[X] = σX Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 172 / 388 Stichproben und Zufallszahlen Definition Für diskrete Zufallsvariablen X und Y mit der gemeinsamen Wahrscheinlichkeitsfunktion f (x, y) ist die Kovarianz definiert als Cov(X, Y ) = J X K X (xj − E[X]) · (yk − E[Y ]) · f (X = xj , Y = yk ) j=1 k=1 Definition Für stetige Zufallsvariablen X und Y mit der gemeinsamen Dichtefunktion f (x, y) ist die Kovarianz definiert als Z ∞Z ∞ (x − E[X]) · (y − E[Y ]) · f (x, y) · dx · dy Cov(X, Y ) = −∞ Prof. Dr. Michael Berlemann (HSU) −∞ Empirische Wirtschaftsforschung 15. April 2013 173 / 388 Stichproben und Zufallszahlen Definition Der Korrelationskoeffizient (nach Bravais-Pearson) zweier Zufallsvariablen X und Y ist definiert als Corr(X, Y ) = p Prof. Dr. Michael Berlemann (HSU) Cov(X, Y ) V ar[X] · V ar[Y ] Empirische Wirtschaftsforschung 15. April 2013 174 / 388 Stichproben und Zufallszahlen 0.35 0.30 0.20 0.25 Wert der Dichtefunktion 0.40 0.45 Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4] 0 1 2 3 4 5 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 175 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4] 0 1 2 3 4 5 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 176 / 388 Stichproben und Zufallszahlen Definition Eine normalverteilte Zufallsvariable mit dem Erwartungswert µX 2 und der Varianz σX 2 X ∼ N (µX , σX ) hat die über den gesamten reellen Wertebereich definierte Dichtefunktion: f (x) = Prof. Dr. Michael Berlemann (HSU) σX · 1 √ x−µX 2 −0.5· σ 2·π ·e Empirische Wirtschaftsforschung X 15. April 2013 177 / 388 Stichproben und Zufallszahlen 0.15 0.10 0.00 0.05 Wert der Dichtefunktion 0.20 0.25 Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 178 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 179 / 388 Stichproben und Zufallszahlen Definition Die Verteilung 2 X ∼ N (µX = 0, σX = 1) bezeichnet man auch als Standardnormalverteilung. Die Standardnormalverteilung hat die Dichtefunktion: f (x) = √ 2 1 · e−0.5·x 2·π Transformationsregel Jede normalverteilte Zufallsvariable X lässt sich in eine standardnormalverteilte Zufallsvariable Z transformieren: Z= Prof. Dr. Michael Berlemann (HSU) X − µX σX Empirische Wirtschaftsforschung 15. April 2013 180 / 388 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 181 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 182 / 388 Stichproben und Zufallszahlen Definition Die Dichtefunktion der Exponentialverteilung ist nur über den positiven Wertebereich definiert und lautet: f (x) = λ · e−λ·x für x ≥ 0 Definition Die kumulierte Dichtefunktion der Exponentialverteilung ist gegeben durch: Z x Z x f (t) · dt = λ · e−λ·t · dt = −e−λ·x F (x) = 0 Prof. Dr. Michael Berlemann (HSU) 0 Empirische Wirtschaftsforschung 15. April 2013 183 / 388 Stichproben und Zufallszahlen 0.4 0.0 0.2 Wert der Dichtefunktion 0.6 Dichtefunktion einer Exponentialverteilung [λ = 0, 75] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 184 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Exponentialverteilung [λ = 0, 75] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 185 / 388 Stichproben und Zufallszahlen Definition Die Dichtefunktion der t-Verteilung lautet: f (x) = Γ Γ v 2 v+1 2 x2 · 1− √ v · π·v − v+1 2 wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen. Für viele Beobachtungen, d.h. eine große Zahl von Freiheitsgraden, konvergiert die t-Verteilung gegen die Standardnormalverteilung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 186 / 388 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer t-Verteilung [20 Freiheitsgrade] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 187 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer t-Verteilung [20 Freiheitsgrade] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 188 / 388 Stichproben und Zufallszahlen Definition Die Dichtefunktion der F-Verteilung lautet: f (x) = Γ Γ v1 2 v1 +v2 2 ·Γ v2 · 2 v1 v2 v21 · 1+ x v1 2 v1 v2 −1 ·x 2 v1 +v 2 wobei Γ die Gammafunktion und v1 sowie v2 die Zahl der Freiheitsgrade bezeichnen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 189 / 388 Stichproben und Zufallszahlen 0.6 0.4 0.0 0.2 Wert der Dichtefunktion 0.8 1.0 Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 190 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 191 / 388 Stichproben und Zufallszahlen Definition Die Dichtefunktion der Chi-Quadrat-Verteilung lautet: f (x) = 1 2 ·Γ v 2 v v 2 x · x 2 −1 · e− 2 wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 192 / 388 Stichproben und Zufallszahlen 0.06 0.04 0.00 0.02 Wert der Dichtefunktion 0.08 0.10 Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade] 0 5 10 15 20 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 193 / 388 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade] 0 5 10 15 20 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 194 / 388 Stichproben und Zufallszahlen Literaturhinweise Literaturhinweise zum 9. Kapitel Bamberg, G. und F. Baur (2006): Statistik, 12. Auflage, Oldenbourg Verlag, München [insbes. Kapitel 8,9]. Bauer, T., M. Fertig und C. Schmidt (2009): Empirische Wirtschaftsforschung. Eine Einführung, Springer-Verlag, Berlin u.a. [insbes. Kapitel 1]. Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag, Heidelberg [insbes. Kapitel 11,12]. Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1,2 und 4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 195 / 388 Schätzen von Parametern der Grundgesamtheit 10. Schätzen von Parametern der Grundgesamtheit 10.1 Typen von Schätzern 10.2 Wünschenswerte Eigenschaften von Schätzern 10.3 Momentenmethode 10.4 Maximum Likelihood Methode 10.5 Konfidenzintervalle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 196 / 388 Schätzen von Parametern der Grundgesamtheit 10.1 Typen von Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 197 / 388 Schätzen von Parametern der Grundgesamtheit Typen von Schätzern: Punktschätzer Intervallschätzer (Konfindenzintervalle) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 198 / 388 Schätzen von Parametern der Grundgesamtheit 10.2 Wünschenswerte Eigenschaften von Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 199 / 388 Schätzen von Parametern der Grundgesamtheit Wünschenswerte Eigenschaften von Schätzern: 1 Erwartungstreue (auch: Unverzerrtheit) 2 Konsistenz 3 Effizienz Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 200 / 388 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion ΘˆN eines Parameters Θ heißt erwartungstreu (unverzerrt), wenn ihr Erwartungswert gerade dem zu schätzenden Parameter entspricht: E[Θ̂N ] = Θ. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 201 / 388 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion Θ̂ eines Parameters Θ heißt konsistent, wenn sie stochastisch gegen den zu schätzenden Parameter konvergiert: lim Θ̂ = Θ. N →∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 202 / 388 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion Θ̂ eines Parameters Θ heißt effizient, wenn es keine andere Schätzfunktion für den Parameter gibt, die eine geringere Varianz hat. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 203 / 388 Schätzen von Parametern der Grundgesamtheit Zur Schätzung der Parameter der Grundgesamtheit gibt es verschiedene Verfahren: 1 Momentenmethode 2 Maximum-Likelihood-Methode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 204 / 388 Schätzen von Parametern der Grundgesamtheit 10.3 Momentenmethode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 205 / 388 Schätzen von Parametern der Grundgesamtheit Mittelwert Um den Mittelwert einer Grundgesamtheit zu schätzen, verwendet die Momentenmethode das Stichprobenmittel: X̄N = N 1 X · xi N i=1 Diese Schätzfunktion ist erwartungstreu, konsistent und effizient. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 206 / 388 Schätzen von Parametern der Grundgesamtheit 60 Moment-Schätzer für den Mittelwert des Alters bei zunehmender Stichprobengröße (Datensatz 1) ● 50 ● ● ●● ● ● 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ● ● ● ● ● ● 30 Stichprobenmittel ● ● ● 20 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 207 / 388 Schätzen von Parametern der Grundgesamtheit Varianz Um die Varianz einer Grundgesamtheit zu schätzen, wird die Stichprobenvarianz verwendet: V arN = N X 1 · (xi − X̄N )2 N − 1 i=1 Auch diese Schätzfunktion ist erwartungstreu, konsistent und effizient. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 208 / 388 Schätzen von Parametern der Grundgesamtheit Moment-Schätzer für die Varianz des Alters bei zunehmender Stichprobengröße (Datensatz 1) 1000 ● ● ● ● ● ● ● ● ●● ● ● ● 500 Stichprobenvarianz 1500 ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●● ●● ●● ● ●● ●● ●●● ●● ●●●●● ●●● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 209 / 388 Schätzen von Parametern der Grundgesamtheit 10.4 Maximum Likelihood Methode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 210 / 388 Schätzen von Parametern der Grundgesamtheit 8 6 0 2 4 Absolute Häufigkeit 10 12 Histogramm Alter (Datensatz 1) 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 211 / 388 Schätzen von Parametern der Grundgesamtheit 60 Maximum-Likelihood-Schätzer für den Mittelwert des Alters bei zunehmender Stichprobengröße (Datensatz 1) ● 50 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● 40 Stichprobenmittel ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● 30 ● 20 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 212 / 388 Schätzen von Parametern der Grundgesamtheit Maximum-Likelihood-Schätzer für die Varianz des Alters bei zunehmender Stichprobengröße (Datensatz 1) 800 ● ● ● 600 ● ● ● ● ● ● ● ●● ● ● 400 Stichprobenvarianz 1000 1200 ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● 200 ● ● ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 213 / 388 Schätzen von Parametern der Grundgesamtheit 10.5 Konfidenzintervalle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 214 / 388 Schätzen von Parametern der Grundgesamtheit Konfidenzintervall Bei einer Intervallschätzung wird für einen unbekannten Parameter Θ zunächst aus einer Stichprobe eine Punktschätzung Θ̂N berechnet, um die dann ein (zumeist symmetrisches) (1 − α)-Konfidenzintervall konstruiert wird: h i K1−α (Θ) = Θ̂N − δK ; Θ̂N + δK . Dabei wird der Stichprobenfehler δK so bestimmt, dass das Konfidenzintervall den unbekannten Parameter Θ mit einer vorgegebenen (i.d.R. hohen) Wahrscheinlichkeit (1 − α) überdeckt: P (Θ ∈ K1−α (Θ)) = 1 − α. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 215 / 388 Schätzen von Parametern der Grundgesamtheit Nehmen wir an, wir wollen das 95%-Konfidenzintervall des Mittelwerts des Alters aus Datensatz 1 berechnen Dabei gehen wir von einer Größe der Stichprobe von N = 35 aus, wir ziehen also gerade die Hälfte aller Beobachtungen aus der Grundgesamtheit Hierzu schätzen wir aus einer Stichprobe zunächst den Mittelwert Ā und die Varianz σA des Alters Die Intervallgrenzen lassen sich dann berechnen nach α σA Āu = Ā − t N − 1, 1 − · √ = 31, 16 2 N und α σA Āo = Ā + t N − 1, 1 − · √ = 47, 15 2 N Werden also 100 Stichproben der Größe 30 aus der Grundgesamtheit gezogen und hieraus der Mittelwert geschätzt, so werden 95 dieser Mittelwertschätzungen zwischen 31,16 und 47,15 Jahren liegen Falsche Interpretation: Die Wahrscheinlichkeit, dass der Mittelwert der Grundgesamtheit zwischen 31,16 und 47,15 Jahren liegt, ist 95% Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 216 / 388 Schätzen von Parametern der Grundgesamtheit Literaturhinweise Literaturhinweise zum 10. Kapitel Kennedy, P. (2008): A Guide to Econometrics, 6. Auflage, Wiley-Blackwell, Malden [insbes. Kapitel 2]. Sachs, L. und J. Hedderich (2009): Angewandte Statistik. Methodensammlung mit R, 13. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Wewel, M. C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson-Studium, München [insbes. Kapitel 9]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 217 / 388 Grundlagen des Testens von Hypothesen 11. Grundlagen des Testens von Hypothesen 11.1 Hypothesen und Hypothesenformulierung 11.2 Systematik eines Hypothesentests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 218 / 388 Grundlagen des Testens von Hypothesen 11.1 Hypothesen und Hypothesenformulierung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 219 / 388 Grundlagen des Testens von Hypothesen Stichprobe von Schafen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 220 / 388 Grundlagen des Testens von Hypothesen Blick in die Grundgesamtheit der Schafe... Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 221 / 388 Grundlagen des Testens von Hypothesen Definition Als Arbeitshypothese bezeichnet man diejenige Hypothese, die man ex ante, also vor Durchführung eines Hypothesentests, für korrekt hält. Definition Als Nullhypothese (H0 ) formuliert man die Gegenhypothese der Arbeitshypothese, also gerade das Gegenteil dessen, was man ex ante für korrekt hält. Mit Hilfe des Hypothesentests versucht man, die Nullhypothese zu verwerfen. Definition Die Alternativhypothese (HA ) ist die Gegenhypothese der Nullhypothese. Wird die Nullhypothese verworfen, so erlangt die Alternativhypothese Gültigkeit. Die Alternativhypothese ist identisch mit der Arbeitshypothese. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 222 / 388 Grundlagen des Testens von Hypothesen 11.2 Systematik eines Hypothesentests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 223 / 388 Grundlagen des Testens von Hypothesen Definition Wird die Nullhypothese fälschlicherweise abgelehnt, so handelt es sich um einen sog. Fehler 1. Art (α-Fehler). Definition Wird hingegen eine Nullhypothese fälschlicherweise angenommen, so handelt es sich um einen Fehler 2. Art (β-Fehler). Fehler 1. und 2. Art H0 angenommen H0 abgelehnt H0 korrekt kein Fehler 1−α Fehler 1. Art (α-Fehler) α Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung H0 falsch Fehler 2. Art (β-Fehler) β kein Fehler 1−β 15. April 2013 224 / 388 Grundlagen des Testens von Hypothesen Definition Die Wahrscheinlichkeit eines statistischen Tests, eine korrekte Arbeitshypothese (=Alternativhypothese) auch als korrekt zu erkennen, bezeichnet man auch als Power (Teststärke) eines Tests. Diese Wahrscheinlichkeit entspricht derjenigen, keinen Fehler 2. Art zu begehen: G=1−β Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 225 / 388 Grundlagen des Testens von Hypothesen Literaturhinweise Literaturhinweise zum 11. Kapitel Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Sachs, L. und J. Hedderich (2006): Angewandte Statistik, 12. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 7]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 5]. Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson-Studium, München [insbes. Kapitel 10]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 226 / 388 Verteilungstests 12. Verteilungstests 12.1 Grundlagen 12.2 Grafische Analyse 12.3 Chi-Quadrat-Anpassungstest 12.4 Kolmogorov-Smirnov-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 227 / 388 Verteilungstests 12.1 Grundlagen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 228 / 388 Verteilungstests 12.2 Grafische Analyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 229 / 388 Verteilungstests 0.010 0.000 0.005 Dichte 0.015 Grafische Analyse für Normalverteilungshypothese Alter (Stichprobe aus Datensatz 1, N=35) 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 230 / 388 Verteilungstests Quantil-Quantil-Plot (QQ-Plot) zur Normalverteilungshypothese Alter (Stichprobe aus Datensatz 1, N=35) ● ● 80 ● ● ● 60 ●●● ● ● ● ● 40 Stichprobenquantile ● ●● ● ● ● ● ● ● ● ● 20 ● ● ●● ● ● ● ● ● ● 0 ● ● −2 −1 0 1 2 Theoretische Quantile Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 231 / 388 Verteilungstests 12.3 Chi-Quadrat-Anpassungstest Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 232 / 388 Verteilungstests Stichprobe Ausbildungsjahre (Datensatz 1, N=50) Ausbildungsjahre 0 1 2 4 5 6 7 8 9 10 11 13 14 15 16 17 18 20 22 Prof. Dr. Michael Berlemann (HSU) Anzahl 3 2 1 2 1 4 4 7 2 4 3 2 2 2 6 1 1 2 1 Empirische Wirtschaftsforschung 15. April 2013 233 / 388 Verteilungstests Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50) Klasse Anzahl Prof. Dr. Michael Berlemann (HSU) 1 0-4 8 2 5-8 16 3 9-12 9 4 13-16 12 Empirische Wirtschaftsforschung 5 17-22 5 15. April 2013 234 / 388 Verteilungstests Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50) versus gruppierte Normalverteilung Klasse Stichprobe Normalverteilung Prof. Dr. Michael Berlemann (HSU) 1 0-4 8 7 2 5-8 16 11 3 9-12 9 14 Empirische Wirtschaftsforschung 4 13-16 12 11 5 17-22 5 7 15. April 2013 235 / 388 Verteilungstests R-Output Chi-Quadrat-Test auf Normalverteilung Ausbildungsjahre (Stichprobe aus Datensatz 1, N=50) Pearson’s Chi-squared test data: Stichprobe and Normalverteilung X-squared = 10, df = 8, p-value = 0.265 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 236 / 388 Verteilungstests 12.4 Kolmogorov-Smirnov-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 237 / 388 Verteilungstests 1.0 Illustration des Kolmogorov-Smirnov-Tests auf Normalverteilung Alter (Stichprobe aus Datensatz 1, N=35) ● ● ● ● ● ● 0.8 ● ● 0.6 ● ● ● ● ● ● ● ● 0.4 kumulierte Dichte ● ● ● ● 0.2 ● ● ● Kolmogorov−Smirnov−Differenz ● ● ● ● ● 0.0 ● 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 238 / 388 Verteilungstests R-Output Kolmogorov-Smirnov-Test auf Normalverteilung Alter (Stichprobe aus Datensatz 1, N=35) One-sample Kolmogorov-Smirnov test data: Stichprobe D = 0.1277, p-value = 0.6178 alternative hypothesis: two-sided Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 239 / 388 Verteilungstests Literaturhinweise Literaturhinweise zum 12. Kapitel Bleymüller, J., G. Gehlert und H. Gülicher (2002): Statistik für Wirtschaftswissenschaftler, 13. Auflage, Vahlen, München [insbes. Abschnitte 19.1 und 19.4]. Hatzinger, R., K. Hornik und H. Nagel (2011): R. Einführung in die angewandte Statistik, Pearson Studium, München [insbes. Abschnitt 8.4]. Sachs, L. und J. Hedderich (2006): Angewandte Statistik. Methodensammlung mit R, 12. Auflage, Springer Verlag, Berlin u.a. [insbes. Kapitel 7.2]. Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson Studium, München [insbes. Kapitel 10.3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 240 / 388 Parametrische Mittelwerttests 13. Parametrische Mittelwerttests 13.1 Grundlagen 13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe 13.3 Einstichproben-t-Test 13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben 13.5 Zweistichproben-t-Test bei unabhängigen Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 241 / 388 Parametrische Mittelwerttests 13.1 Grundlagen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 242 / 388 Parametrische Mittelwerttests Zentraler Grenzwertsatz Der Zentrale Grenzwertsatz besagt, dass sich die Verteilung des Mittelwerts von n unabhängigen Zufallszahlen aus einer beliebigen Verteilung mit endlichem Mittelwert µ und endlicher Standardabweichung σ mit zunehmender Beobachtungsanzahl N einer Normalverteilung mit Mittelwert µ und Standardabweichung √σN annähert. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 243 / 388 Parametrische Mittelwerttests 13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 244 / 388 Parametrische Mittelwerttests Dichtefunktion der Prüfgröße Dichte und Erwartungswert der Prüfgröße Erwartungswert 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 245 / 388 Parametrische Mittelwerttests Kritische Werte für die Prüfgröße eines zweiseitigen Hypothesentests oberer kritischer Wert Dichtefunktion der Prüfgröße unterer kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 246 / 388 Parametrische Mittelwerttests Annahme- und Ablehnungsbereich bei zweiseitigem Hypothesentest Ablehnungsbereich Ablehnungsbereich Annahmebereich oberer kritischer Wert Dichtefunktion der Prüfgröße unterer kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 247 / 388 Parametrische Mittelwerttests Dichtefunktion der Prüfgröße Dichte und Erwartungswert der Prüfgröße Erwartungswert 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 248 / 388 Parametrische Mittelwerttests Kritische Werte für die Prüfgröße eines einseitigen Hypothesentests Dichtefunktion der Prüfgröße kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 249 / 388 Parametrische Mittelwerttests Annahme- und Ablehnungsbereich bei einseitigem Hypothesentest Ablehnungsbereich Annahmebereich Dichtefunktion der Prüfgröße kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 250 / 388 Parametrische Mittelwerttests 13.3 Einstichproben-t-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 251 / 388 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Einstichproben-t-Test: Nullhypothese H0 : µ = µ0 Alternativhypothese HA : µ 6= µ0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 252 / 388 Parametrische Mittelwerttests Prüfgröße des t-Tests: Beim t-Test wird das standardisierte Stichprobenmittel als Prüfgröße verwendet: √ √ (X̄ − µ0 ) · N (X̄ − µ0 ) · N qP T (x1 , x2 , · · · , xN ) = p = ∼ t(N − 1) N 1 V ar[X] (x − X̄)2 N −1 i=1 i (1) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 253 / 388 Parametrische Mittelwerttests Prüfgrößen und Ablehnungsbereiche beim t-Test: Annahmen: H0 : HA : Prüfgröße: Grundgesamtheit normalverteilt, µ unbekannt, σ unbekannt µ = µ0 µ ≤ µ0 µ ≥ µ0 µ 6= µ0 µ > µ0 √ µ < µ0 (X̄−µ0 )· N √ T = H0 wird abgelehnt, wenn: |T | größer als T größer als T kleiner als (1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1) der t-Verteilung (N-1 Freiheitsgrade) V ar[X] Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 254 / 388 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) −4.1 −0.86 0 3.9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: −0.86 df: 19 H0 µ tfitted α conf.int 9.24 ● 6 8.37 10.1 11.83 14 Ausbildungsjahre (Datenquelle: Stichprobe 1 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 255 / 388 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) One Sample t-test t = -0.8592, df = 19, p-value = 0.4009 alternative hypothesis: true mean is not equal to 10.1 90 percent confidence interval: 7.238155 11.061845 sample estimates: mean of x 9.15 (Datenquelle: Stichprobe 1 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 256 / 388 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) −4.1 0 2.08 3.9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: 2.08 df: 19 H0 µ tfitted α conf.int 12.18 ● 6 8.37 10.1 11.83 14 Ausbildungsjahre (Datenquelle: Stichprobe 2 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 257 / 388 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) One Sample t-test t = 2.076, df = 19, p-value = 0.05171 alternative hypothesis: true mean is not equal to 10.1 90 percent confidence interval: 10.4425 13.8575 sample estimates: mean of x 12.15 (Datenquelle: Stichprobe 2 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 258 / 388 Parametrische Mittelwerttests Einseitiger Einstichproben-t-Test H0 : Alter ≤ 40, (α = 0, 10) −4 0 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: 0.28 df: 29 H0 µ tfitted α 40.28 ● 36 38 40 41.31 44 Alter (Datenquelle: Stichprobe aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 259 / 388 Parametrische Mittelwerttests Einseitiger Einstichproben-t-Test H0 : Alter ≤ 40 (α = 0, 10) One Sample t-test t = 0.2772, df = 29, p-value = 0.3918 alternative hypothesis: true mean is greater than 40 sample estimates: mean of x 40.96667 (Datenquelle: Stichprobe aus Datensatz 1, N=30) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 260 / 388 Parametrische Mittelwerttests 13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 261 / 388 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Zweistichproben-t-Test: Nullhypothese H0 : µ̄ = µ1 − µ2 = µ0 Alternativhypothese HA : µ̄ 6= µ0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 262 / 388 Parametrische Mittelwerttests 13.5 Zweistichproben-t-Test bei unabhängigen Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 263 / 388 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Zweistichproben-t-Test: Nullhypothese H0 : µ1 = µ2 Alternativhypothese HA : µ1 6= µ2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 264 / 388 Parametrische Mittelwerttests Prüfgröße des Zweistichproben-t-Tests: Beim t-Test lautet das standardisierte Stichprobenmittel, welches als Prüfgröße verwendet wird: p N · M · (N + M − 2) T = N +M X̄1 − X̄2 −p ∼ t(N + M − 2) (N − 1) · V ar[X1 ] + (M − 1) · V ar[X2 ] Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 265 / 388 Parametrische Mittelwerttests Prüfgrößen und Ablehnungsbereiche beim Zweistichproben-t-Test: Annahmen: H0 : HA : Prüfgröße: H0 wird abgelehnt, wenn Grundges. normalvert., µ unbekannt, σ unbekannt, unabhängig µ1 = µ2 µ1 ≤ µ2 µ1 ≥ µ2 µ1 6=√µ2 µ1 > µ 2 µ1 < µ 2 T = N ·M ·(N +M −2) N +M −√ X¯1 −X¯2 (N −1)·V ar[X1 ]+(M −1)·V ar[X2 ] |T | größer als T größer als T kleiner als (1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1) der t-Verteilung mit N+M-2 Freiheitsgraden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 266 / 388 Parametrische Mittelwerttests Zweiseitiger Zweistichproben-t-Test H0 : Einkommenf = Einkommenm (α = 0, 10) −4 −2.16 0 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: −2.16 df: 27.81 H0 µ tfitted α −2.16 ● −4 −1.7 0 1.7 4 t−Wert Test auf Mittelwertgleichheit Jahreseinkommen Frauen versus Männer (Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 267 / 388 Parametrische Mittelwerttests Zweiseitiger Zweistichproben-t-Test H0 : Einkommenf = Einkommenm (α = 0, 10) Welch Two Sample t-test t = -2.1577, df = 27.806, p-value = 0.03974 alternative hypothesis: true difference in means is not equal to 0 90 percent confidence interval: -43911.858 -5190.642 sample estimates: mean of x mean of y 19696.25 44247.50 (Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 268 / 388 Parametrische Mittelwerttests Literaturhinweise Literaturhinweise zum 13. Kapitel Bühl, A. (2006): SPSS 14. Einführung in die moderne Datenanalyse, 10. Auflage, Pearson Studium, München u.a. [insbes. Kapitel 12]. Field, A., J. Miles und Z. Field (2011): Discovering Statistics Using R, Sage Publications, Los Angeles u.a. [insbes. Kapitel 9]. Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 269 / 388 Regressionsanalyse als induktives Verfahren 14. Regressionsanalyse als induktives Verfahren 14.1 Regressionen auf Basis von Stichproben 14.2 Eigenschaften von KQ-Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 270 / 388 Regressionsanalyse als induktives Verfahren 14.1 Regressionen auf Basis von Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 271 / 388 Regressionsanalyse als induktives Verfahren 14.2 Eigenschaften von KQ-Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 272 / 388 Regressionsanalyse als induktives Verfahren 1. Gauß-Markov-Bedingung Es handelt sich um ein korrekt spezifiziertes lineares Regressionsmodell des Typs: yi = β0 + β1 · x1,i + · · · + βK · xK,i + i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 273 / 388 Regressionsanalyse als induktives Verfahren 2. Gauß-Markov-Bedingung Der Störterm hat den Erwartungswert null: E[i ] = 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 274 / 388 Regressionsanalyse als induktives Verfahren 3. Gauß-Markov-Bedingung Der Störterm hat (genauso wie die zu erklärende Variable) eine konstante Varianz (Homoskedastizität): σY2 = σ2 = konst Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 275 / 388 Regressionsanalyse als induktives Verfahren 4. Gauß-Markov-Bedingung Es gibt keine serielle Korrelation der Störterme (und damit auch keine serielle Korrelation der zu erklärenden Variable) E[i · j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N Die Bedingung impliziert, dass die Beobachtungen stochastisch unabhängig sein müssen Ist diese Bedingung gegeben, so gilt auch: Cov[yi , yj ] = Cov[i , j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 276 / 388 Regressionsanalyse als induktives Verfahren 5. Gauß-Markov-Bedingung Die erklärenden Variablen X sind deterministisch, d.h. sie werden bei wiederholten Stichprobenziehungen als fest gegebene (deterministische) Größen angenommen und nicht aus einem neuen Zufallsprozess generiert. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 277 / 388 Regressionsanalyse als induktives Verfahren 6. Gauß-Markov-Bedingung Die erklärenden Variablen X sind linear unabhängig voneinander (d.h. es besteht keine perfekte Multikollinearität). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 278 / 388 Regressionsanalyse als induktives Verfahren 7. Gauß-Markov-Bedingung Die Varianzen der erklärenden Variablen X sind endlich und positiv. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 279 / 388 Regressionsanalyse als induktives Verfahren 8. Gauß-Markov-Bedingung Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden Parameter k + 1. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 280 / 388 Regressionsanalyse als induktives Verfahren Gauß-Markov-Theorem Bei Gültigkeit der Gauß-Markov-Bedingungen hat der Kleinste-Quadrate-Schätzer (OLS) innerhalb der Klasse aller linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz (BLUE-Eigenschaft). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 281 / 388 Regressionsanalyse als induktives Verfahren Erweitertes Gauß-Markov-Theorem Sind die Gauß-Markov-Bedingungen erfüllt und ist zudem der Störterm i normalverteilt, so führt der Kleinste-Quadrate-Schätzer (OLS) immer zu unverzerrten, varianzminimierenden Schätzern für die Koeffizienten (BUE-Eigenschaft). Die Schätzer sind zudem dann konsistent (d.h. sie konvergieren mit zunehmender Stichprobengröße gegen die Werte der Grundgesamtheit) und folgen einer Normalverteilung: β̂0 ∼ N (β0 , σβ̂2 ) ∧ β̂1 ∼ N (β1 , σβ̂2 ) 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 1 15. April 2013 282 / 388 Regressionsanalyse als induktives Verfahren Literaturhinweise Literaturhinweise zum 14. Kapitel Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 283 / 388 Typen von Querschnittsregressionen 15. Typen von Querschnittsregressionen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 284 / 388 Typen von Querschnittsregressionen Typen von zu erklärenden Variablen in Querschnittsregressionen: Stetige abhängige Variable Binäre abhängige Variable Nominale abhängige Variable Ordinale abhängige Variable Zählvariable Null-inflationierte Variable Zensierte Variable Trunkierte Variable Wie wir später sehen werden, ist in allen anderen Fällen als dem der stetigen zu erklärenden Variable die Methode der Kleinsten Quadrate zur Schätzung einer Regressionsbeziehung ungeeignet Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 285 / 388 Typen von Querschnittsregressionen Literaturhinweise Literaturhinweise zum 15. Kapitel Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons [insbes. Kapitel 4.1 und 4.2]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 17]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 7]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 286 / 388 Lineare Regressionsanalyse 16. Lineare Regressionsanalyse 16.1 Identifikation von ungewöhnlichen Beobachtungen 16.2 Koeffiziententests 16.3 Gütetests 16.4 Heteroskedastizität 16.5 Multikollinearität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 287 / 388 Lineare Regressionsanalyse 16.1 Identifikation von ungewöhnlichen Beobachtungen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 288 / 388 Lineare Regressionsanalyse Vorgehen bei einem Ausreißer-Test mit Bonferonni-Korrektur 1 Schätzung einer Regressionsgleichung für jede (N − 1)-Submenge der Stichprobe 2 Berechnung des Residuums für den jeweils ausgelassenen Wert 3 Berechnung der studentisierten leave-one-out Residuen ri (Standardisierung) Aufstellen der Hypothesen: 4 H0 : Die Stichprobe enthält keinen Ausreißer HA : Die Stichprobe enthält mindestens einen Ausreißer 5 Der Prüfwert des Tests lässt sich berechnen nach: 0.5 N −K −1 Ti = ri · t(N − K − 1) N − K − ri2 6 Da der Ausreißer-Test nicht einen einzelnen Wert, sondern alle Werte gleichzeitig überprüfen soll, muss für den sich für ein vorgegebenes Signifikanzniveau α aus der t-Verteilung ergebende Wert noch eine sog. Bonferonni-Korrektur durchgeführt werden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 289 / 388 Lineare Regressionsanalyse Ausreißer-Test mit Bonferonni-Korrektur No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: 14 rstudent: -2.860342 unadjusted p-value: 0.0063441 Bonferonni p: 0.3172 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 290 / 388 Lineare Regressionsanalyse Definition Der Hebelwert (Leverage) einer Beobachtung gibt an, wie stark sich die Modellanpassung einer Regression (betragsmäßig) ändert, wenn die Beobachtung aus der Schätzung der Regressionsgleichung ausgeschlossen wird. Der Hebelwert der Beobachtung i lässt sich berechnen als hi = Prof. Dr. Michael Berlemann (HSU) σ 2 − ˆi σ2 Empirische Wirtschaftsforschung 15. April 2013 291 / 388 Lineare Regressionsanalyse Daumenregel: Ein Leverage ist problematisch, wenn gilt: h̄i > Prof. Dr. Michael Berlemann (HSU) 2·K N Empirische Wirtschaftsforschung 15. April 2013 292 / 388 Lineare Regressionsanalyse Verteilung der Leverages 10 0 5 Absolute Häufigkeit 15 Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 0.05 0.10 0.15 0.20 Hebelwerte (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 293 / 388 Lineare Regressionsanalyse Leverages versus Quantile der positiven Normalverteilung Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 39 0.15 8 ● 0.10 Leverages ● ● ● ●● ● ● ● ● ● ● ●● ● 0.00 0.05 ●● ●●● ●●●● ●●● ●●●● ●● ● ● ● ●●● ●● ●●● ●● ●● 0.0 0.5 1.0 1.5 2.0 Quantile der positiven Normalverteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 294 / 388 Lineare Regressionsanalyse Quantile der Verteilung der studentisierten Leverages versus Quantile der t-Verteilung Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre ● ●● ● ● ● ● 1 ●● ● ● 0 ● ●● ●● ●● ●●● ● ●●● ●●● ● ●● ●●●● ●●●● ● ● −1 ●● ● ● ● −2 Quantile der Verteilung der studentisierten Leverages 2 ● ● ● ● −2 −1 0 1 2 Quantile der t−Verteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 295 / 388 Lineare Regressionsanalyse Definition Die Cook-Distanz einer Beobachtung gibt an, um wieviel sich die Residuen aller Fälle ändern, wenn dieser Fall aus der Schätzung der Regressionsgleichung ausgeschlossen wird. Die Cook-Distanz der Beobachtung i lässt sich berechnen als Di = Prof. Dr. Michael Berlemann (HSU) hi 1 · r2 · K i 1 − hi Empirische Wirtschaftsforschung 15. April 2013 296 / 388 Lineare Regressionsanalyse Cook-Distanzen versus Quantile der positiven Normalverteilung 0.07 Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 38 15 0.06 ● ● 0.05 ● ● 0.04 ● ● 0.03 Cook Distanzen ● ● ● ●●● ● 0.02 ● ●● 0.00 0.01 ● ● ● ● ● ● ● ●●●● ●● ●● ●●●●●● ●●●●●●●●●●● 0.0 0.5 1.0 1.5 2.0 Quantile der positiven Normalverteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 297 / 388 Lineare Regressionsanalyse 16.2 Koeffiziententests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 298 / 388 Lineare Regressionsanalyse Koeffiziententests werden für jeden Koeffizienten getrennt durchgeführt! Koeffiziententest ohne Vorzeichenhypothese H0 : βk = 0 HA : βk 6= 0 Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist negativ) H0 : βk ≥ 0 HA : βk < 0 Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist positiv) H0 : βk ≤ 0 HA : βk > 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 299 / 388 Lineare Regressionsanalyse Typische Signifikanzniveaus in der Regressionsanalyse α = 0.1: schwach signifikanten Zusammenhang Solch schwach signifikante Zusammenhänge werden oft in Tabellen dadurch gekennzeichnet, dass der geschätzte Koeffizient mit einem Stern versehen wird ”*” α = 0.05: signifikanten Zusammenhang Signifikante Zusammenhänge werden oft in Tabellen durch zwei Sterne gekennzeichnet ”**” α = 0.01: hoch signifikanten Zusammenhang Hoch signifikante Zusammenhänge werden oft in Tabellen durch drei Sterne gekennzeichnet ”***” Kann die Nullhypothese nicht zurück gewiesen werden, so spricht man von einem insignifikanten Koeffizienten Nicht signifikante Zusammenhänge hingegen werden nicht mit Sternen versehen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 300 / 388 Lineare Regressionsanalyse Koeffiziententests multiple lineare Regression Schätzer Std. Fehler Gesundheitszustand (Konstante) 102.3942 Alter -1.0244 Ausbildungsjahre 0.2819 Adj. R-Quadrat 0.8862 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) 2.6225 0.0585 0.2295 Empirische Wirtschaftsforschung t-Wert p-Wert 39.04 -17.50 1.23 0.0000 0.0000 0.2254 15. April 2013 301 / 388 Lineare Regressionsanalyse 16.3 Gütetests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 302 / 388 Lineare Regressionsanalyse F-Test als Spezifikationstest einer linearen Regression Zur Überprüfung des Erklärungsgehalts einer auf einer Stichprobe beruhenden linearen Regression wird die Nullhypothese überprüft, dass alle geschätzten Koeffizienten der erklärenden Variablen (nicht die Konstante) gleichzeitig null sind: H0 : β1 = β2 = · · · = βK = 0 HA : H0 ist falsch Die Prüfgröße des F-Tests lautet: F = ESS K RSS N −K−1 Prof. Dr. Michael Berlemann (HSU) PN i=1 (ŷi −Ȳ =1− K PN 2i N −K−1 )2 ∼ F (N − K − 1) i=1 Empirische Wirtschaftsforschung 15. April 2013 303 / 388 Lineare Regressionsanalyse Koeffiziententests multiple lineare Regression mit F-Test Schätzer Std. Fehler t-Wert Gesundheitszustand (Konstante) 102.3942 2.6225 39.04 Alter -1.0244 0.0585 -17.50 Ausbildungsjahre 0.2819 0.2295 1.23 Adj. R-Quadrat 0.8862 F-Wert 191.9 (dF = 47), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.0000 0.0000 0.2254 15. April 2013 304 / 388 Lineare Regressionsanalyse 16.4 Heteroskedastizität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 305 / 388 Lineare Regressionsanalyse Scatterplot geschätzte Werte versus Residuen (Heteroskedastischer Fall) Gesundheitszustand =β0+β1 Ausbildungsjahre ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −20 Residuen 0 ● ● ● ● ● ● −40 ● ● ● ● ● −60 ● 50 55 60 65 70 75 Geschätzte Werte Gesundheitszustand (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 306 / 388 Lineare Regressionsanalyse Scatterplot geschätzte Werte versus Residuen (Homoskedastischer Fall) Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre ● 10 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −10 ● ● ● 0 Residuen ● ● ● ● ● ● ● ● ● ● ● ● ● −20 ● ● 20 40 60 80 100 Geschätzte Werte Gesundheitszustand (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 307 / 388 Lineare Regressionsanalyse Statistische Tests auf Heteroskedastizität 1 Goldfeldt-Quandt-Test 2 Breusch-Pagan-Test 3 White-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 308 / 388 Lineare Regressionsanalyse Vorgehen beim Goldfeldt-Quandt-Test 1 2 3 4 Teilen des Samples S in zwei Sub-Samples S1 und S2 . Schätzung einer linearen Regressionsgerade für jedes Sub-Sample. PN1 2 PN2 2 Berechnung der Summe der quadrierten Residuen i=1 i,1 und i=1 i,2 . Aufstellen der Hypothesen: H0 : Quadratsummen der Residuen ist identisch. HA : Quadratsummen der Residuen unterscheiden sich. 5 Vergleich der Varianzen der Residuen mit Hilfe eines F-Tests (größere Quadratsumme im Zähler): PN1 F = 6 i=1 i,1 N1 −K PN2 i=1 i,2 N2 −K F (N1 − K, N2 − K) Übersteigt nun der Wert der Teststatistik den kritischen Wert der F-Verteilung mit N1 − K und N2 − K Freitheitsgraden, kann die Nullhypothese abgelehnt und die Alternativhypothese angenommen werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 309 / 388 Lineare Regressionsanalyse Goldfeldt-Quandt-Test Goldfeld-Quandt test data: Regression GQ = 1.5842, df1 = 23, df2 = 23, p-value = 0.2772 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 310 / 388 Lineare Regressionsanalyse Goldfeldt-Quandt-Test Goldfeld-Quandt test data: Regression GQ = 0.742, df1 = 22, df2 = 22, p-value = 0.4898 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 311 / 388 Lineare Regressionsanalyse Vorgehen beim Breusch-Pagan-Test 1 Aufstellen der Hypothesen: H0 : Es liegt Homoskedastizität vor. HA : Es liegt keine Homoskedastizität vor. 2 Schätzung einer linearen Regression. 3 Festlegung, welche Variablen für eine mögliche Heteroskedasie verantwortlich sein könnten 4 Schätzung einer weiteren Regressionsgerade, bei der die quadrierten Residuen aus der ersten Regression durch diese Variablen erklärt werden. 5 Berechnung des Bestimmtheitsmaß R2 für diese Regression. 6 Die Prüfgröße N · R2 ist asymptotisch χ2 -verteilt mit K Freiheitsgraden. 7 Übersteigt die Prüfgröße den kritischen Wert der χ2 -Verteilung, kann die Nullhypothese der Homoskedastizität abgelehnt werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 312 / 388 Lineare Regressionsanalyse Breusch-Pagan-Test studentized Breusch-Pagan test data: Regression BP = 6.2663, df = 1, p-value = 0.01231 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 313 / 388 Lineare Regressionsanalyse Breusch-Pagan-Test studentized Breusch-Pagan test data: Regression BP = 1.3044, df = 2, p-value = 0.5209 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 314 / 388 Lineare Regressionsanalyse White-Test studentized Breusch-Pagan test data: Regression BP = 7.6331, df = 1, p-value = 0.005731 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 315 / 388 Lineare Regressionsanalyse White-Test studentized Breusch-Pagan test data: Regression BP = 5.8472, df = 5, p-value = 0.3214 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 316 / 388 Lineare Regressionsanalyse Es existiert eine Vielzahl an Schätzmethoden, die dem Problem der Heteroskedastie begegnen. Lösungsansätze für Hetroskedastizität 1 Varianztransformation (bei bekannter Varianz) 2 Weighted Least Squares 3 Feasible Generalized Least Squares 4 White-Korrektur (heteroskedastieresistente Standardfehler) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 317 / 388 Lineare Regressionsanalyse Regression mit White-Korrektur der Standardabweichung Schätzer Std. Fehler t-Wert Gesundheitszustand (Konstante) 102.39 1.82 56.24 Alter -1.02 0.05 -22.04 Ausbildungsjahre 0.28 0.18 1.54 Adj. R-Quadrat 0.8862 F-Wert 191.9 (dF = 47), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.00 0.00 0.12 15. April 2013 318 / 388 Lineare Regressionsanalyse 16.5 Multikollinearität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 319 / 388 Lineare Regressionsanalyse Definition Liegt zwischen zwei Regressoren einer multiplen linearen Regression yi = β0 + β1 · x1,i + β2 · x2,i + i eine lineare Beziehung vor, d.h. x2 = c + γ · x1 bzw. x1 = c x2 − γ γ so liegt perfekte Multikollinearität vor. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 320 / 388 Lineare Regressionsanalyse Folgen perfekter Multikollinearität Einsetzen von x2 = c + γ · x1 in die Regressionsgleichung ergibt y = β0 + β1 · x1 + β2 · (c + γ1 · x1 ) + ⇔y = (β0 + β2 · c) + (β1 + β2 · γ) · x1 + Einsetzen von x1 = x2 γ − c γ in die Regressionsgleichung ergibt y ⇔y Prof. Dr. Michael Berlemann (HSU) x2 c = β0 + β1 · − + β2 · x 2 + γ γ c β1 = β0 − β1 · + + β2 · x 2 + γ γ Empirische Wirtschaftsforschung 15. April 2013 321 / 388 Lineare Regressionsanalyse Venn-Diagramme Fall 1: keine Multikollinearität Fall 2 / 3: imperfekte Multikollinearität (geringe: Fall 2 / hohe: Fall 3) Fall 4: perfekte Multikollinearität 1. 2. stdabw(Y) stdabw(X1) stdabw(Y) stdabw(X2) 3. stdabw(X1) stdabw(X2) 4. stdabw(Y) stdabw(Y) stdabw(X2)= stdabw(X1) stdabw(X1) Prof. Dr. Michael Berlemann (HSU) stdabw(X2) Empirische Wirtschaftsforschung 15. April 2013 322 / 388 Lineare Regressionsanalyse Hilfsregressionen Beispiel: drei erklärende Variablen x1 , x2 und x3 : yi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i Hilfsregressionen: x1,i = α0 + α1 · x2,i + α2 · x3,i + 1,i x2,i = δ0 + δ1 · x1,i + δ2 · x3,i + 2,i x3,i = γ0 + γ1 · x1,i + γ2 · x2,i + 3,i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 323 / 388 Lineare Regressionsanalyse Variance Inflation Factors Häufig wird auch der V ariance Inf lation F actor (VIF) jeder Hilfsregression k zur Diagnose von Multikollinearität genutzt: V IFk = 1 1 − Rk2 Faustregel: Ist der V IF größer als zehn (Rk2 > 0, 9), deutet das auf sehr starke Multikollinearität. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 324 / 388 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) -17432.5 72085.2 -0.242 0.8100 Alter 911.0 703.7 703.7 0.2019 Gesundheitszustand 387.5 684.0 0.566 0.5738 Geschlecht(w) -20749.3 10851.0 -1.912 0.0621 Adj. R-Quadrat 0.1574 F-Wert 4.051 (dF = 46), p-Wert = 0.0123 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 325 / 388 Lineare Regressionsanalyse Korrelationskoeffizient Gesundheitszustand und Alter Korrelationskoeffizient(Gesundheitszustand,Alter) = -0.94 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Variance Inflation Factors VIF(Alter) = 8.676669 VIF(Gesundheitszustand) = 8.671815 VIF(Geschlecht(w)) = 1.112734 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 326 / 388 Lineare Regressionsanalyse Möglichkeiten der Ausschaltung von Multikollinearität 1 Ausschluß von Variablen 2 Zusammenfassung von Variablen 3 Einbindung zusätzlicher Informationen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 327 / 388 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Ausschluß Gesundheitszustand Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) 22716.6 13065.3 1.739 0.0886 Alter 538.7 249.8 2.157 0.0362 Geschlecht(w) -20408.4 10755.8 -1.897 0.0639 Adj. R-Quadrat 0.1695 F-Wert 6.002 (dF = 47), p-Wert = 0.004771 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 328 / 388 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Ausschluß Alter Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) 73552.3 16151.7 4.554 0.0007 Gesundheitszustand -439.5 246.3 -1.784 0.0808 Geschlecht(w) -21596.0 10908.9 -1.980 0.0536 Adj. R-Quadrat 0.1453 F-Wert 5.163 (dF = 47), p-Wert = 0.009394 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 329 / 388 Lineare Regressionsanalyse Berechnung einer kombinierten Variable Kombination = 0.5 · Prof. Dr. Michael Berlemann (HSU) Alter Gesundheitszustand + 0.5 · (−1) · σAlter σGesundheitszustand Empirische Wirtschaftsforschung 15. April 2013 330 / 388 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Kombinationsvariable Schätzer Std. Fehler t-Wert Jahreseinkommen (Konstante) 50492.0 6701.0 7.534 Kombination 10917.0 5446 2.005 Geschlecht(w) -20775.0 10839 -1.917 Adj. R-Quadrat 0.1592 F-Wert 5.64 (dF = 47), p-Wert = 0.006374 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.0000 0.0508 0.0614 15. April 2013 331 / 388 Lineare Regressionsanalyse Literaturhinweise Literaturhinweise zum 16. Kapitel, Teil I Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4, 17-21]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 1]. Faraway, J. J. (2005): Linear Models with R, Texts in Statistical Science, Chapman & Hall/CRC Boca Raton. Fahrmeir, L., T. Kneib und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, Springer Verlag, Berlin [insbes. Kapitel 3]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 332 / 388 Lineare Regressionsanalyse Literaturhinweise Literaturhinweise zum 16. Kapitel, Teil II Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 8]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 333 / 388 Regressionen mit diskreten abhängigen Variablen 17. Regressionen mit diskreten abhängigen Variablen 17.1 Überblick 17.2 Binäre abhängige Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 334 / 388 Regressionen mit diskreten abhängigen Variablen Überblick 17.1 Überblick Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 335 / 388 Regressionen mit diskreten abhängigen Variablen 17.2 Binäre abhängige Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 336 / 388 Regressionen mit diskreten abhängigen Variablen Grundidee binärer Regressionsmodelle Die Wahrscheinlichkeit πi , mit der die Ausprägung einer binären Variable die Ausprägung ”1” annimmt, entspricht gerade dem bedingten Erwartungswert der binären Variable. Dies lässt sich zeigen, wenn zunächst der bedingte Erwartungswert berechnet wird: E[yi |x1,i , x2,i , x3,i ] = 1 · P (yi = 1 |x1,i , x2,i , x3,i ) +0 · P (yi = 0 |x1,i , x2,i , x3,i ) = 1 · P (yi = 1 |x1,i , x2,i , x3,i ) = πi Um einen Schätzwert für πi zu erhalten, wird üblicherweise zunächst ein linearer Prädiktor ηi verwendet: ηi Prof. Dr. Michael Berlemann (HSU) = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i Empirische Wirtschaftsforschung 15. April 2013 337 / 388 Regressionen mit diskreten abhängigen Variablen Grundidee binärer Regressionsmodelle Im nächsten Schritt wird der lineare Prädiktor über eine sog. Responsefunktion h mit der Wahrscheinlichkeit π verbunden: πi = h (ηi ) = h (β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i ) Die Umkehrfunktion der Responsefunktion g = h−1 nennt man auch Linkfunktion. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 338 / 388 Regressionen mit diskreten abhängigen Variablen 17.2.1 Lineares Wahrscheinlichkeitsmodell bei binär abhängigen Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 339 / 388 Regressionen mit diskreten abhängigen Variablen Wird die Identitätsfunktion verwendet, so führt dies zum einfachen linearen Wahrscheinlichkeitsmodell: πi = ηi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i Das lineare Wahrscheinlichkeitmodell kann mit OLS geschätzt werden. Die Koeffizienten βk können nun als geschätzte, marginale Wahrscheinlichkeitsänderungen interpretiert werden, z.B. für β2 ∂y ∂πi = = β2 ∂x2 ∂x2 Der geschätzte Wert für β2 beschreibt also, wie eine marginale Veränderung der Variable x2 die Wahrscheinlichkeit beeinflusst, dass die binäre Variable y den Wert 1 annimmt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 340 / 388 Regressionen mit diskreten abhängigen Variablen Beispiel: Promotion Fragestellung: Welche Faktoren erklären, ob eine Person promoviert ist? Stichprobe aus Datensatz 1 als Datengrundlage P romovierti = 0 1 wenn Individuum i nicht promoviert ist wenn Individuum i promoviert ist Als erklärende Variablen sollen das Alter, das Jahreseinkommen und das Geschlecht verwendet werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 341 / 388 Regressionen mit diskreten abhängigen Variablen Lineares Wahrscheinlichkeitsmodell Promotion Schätzer Std. Fehler t-Wert Promoviert (Konstante) -0.129436 0.1324 -0.98 Alter 0.006671 0.0023 2.85 Jahreseinkommen 0.000006 0.0000 3.95 Weiblich -0.019986 0.1141 -0.18 Adj. R-Quadrat 0.4056 F-Wert 12.15 (dF = 3 & 46), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.3332 0.0064 0.0003 0.8618 15. April 2013 342 / 388 Regressionen mit diskreten abhängigen Variablen Rechenbeispiel: Promotion Die Wahrscheinlichkeit, dass eine 18-jährige Frau, die kein Einkommen bezieht, promoviert ist, beträgt nach dem linearen Wahrscheinlichkeitsmodell: P (P romovierti = 1) = −0.129436 + 0.006671 · 18 +0.000006 · 0 − 0.019986 · 1 = −0.02933674 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 343 / 388 Regressionen mit diskreten abhängigen Variablen 6 0 2 4 Häufigkeit 8 10 12 Histogramm Residuen lineares Wahrscheinlichkeitsmodell (Datensatz 1) −0.5 0.0 0.5 Residuen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 344 / 388 Regressionen mit diskreten abhängigen Variablen 17.2.2 Logit-Modell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 345 / 388 Regressionen mit diskreten abhängigen Variablen Eine der am häufigsten verwendeten Responsefunktionen in binären Regressionen ist die logistische Responsefunktion: π = h (η) = exp(η) 1 + exp(η) Die zugehörige Umkehrfunktion (Linkfunktion) ist die logarithmische Funktion π g(π) = log = η = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i 1−π Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 346 / 388 Regressionen mit diskreten abhängigen Variablen 0.0 0.2 0.4 Response 0.6 0.8 1.0 Logistische Response-Funktion −4 −2 0 2 4 Linearer Prädiktor Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 347 / 388 Regressionen mit diskreten abhängigen Variablen Ergebnisse Logit-Schätzung Koeff. Promoviert Konstante -6.24724 Alter 0.06303 Jahreseinkommen 0.00007 Geschlechtw -0.36767 Hosmer/Lemeshow R-Square 0.48 Cox/Snell R-Square 0.46 Nagelkerke R-Square 0.64 Beobachtungen 50.00 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Std. Abw. Z-Wert P(Z>|Z|) 2.08 0.03 0.00 0.97 -3.00 2.43 2.82 -0.38 0.00 0.02 0.00 0.70 Empirische Wirtschaftsforschung 15. April 2013 348 / 388 Regressionen mit diskreten abhängigen Variablen Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe) Alter: 40.18 Jahreseinkommen: 37181.50 Geschlecht: Mann Berechnung des linearen Prädiktors η: η = −6.24724 + 0.06303 · 40.18 + 0.00007 · 37181.50 − 0.36767 · 0 = −1.278087 Berechnung der Promotionswahrscheinlichkeit π: π= exp(−1.278087) = 0.217876 1 + exp(−1.278087) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 349 / 388 Regressionen mit diskreten abhängigen Variablen Berechnung marginaler Effekte des Logit-Modells Koeff. Marg. Eff. Marg. Eff. Änd. Ref. Wert Änd. Promoviert Alter 0.06303 0.01 Jahreseinkommen 0.00007 0.00 Geschlechtw -0.36767 -0.06 (Datenquelle: Stichprobe aus Datensatz 1, N=50) 0.11 0.11 -0.06 40.18 37181.50 0.00 10.00 10000.00 1.00 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 350 / 388 Regressionen mit diskreten abhängigen Variablen 17.2.3 Probit-Modell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 351 / 388 Regressionen mit diskreten abhängigen Variablen Alternativ zur logistische Responsefunktion wird häufig auch die Verteilungsfunktion der Standardnormalverteilung (Φ) verwendet: π Prof. Dr. Michael Berlemann (HSU) = h (η) = Φ(η) Empirische Wirtschaftsforschung 15. April 2013 352 / 388 Regressionen mit diskreten abhängigen Variablen 0.6 0.4 0.0 0.2 Response 0.8 1.0 Standard-Normalverteilte Response-Funktion −4 −2 0 2 4 Linearer Prädiktor Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 353 / 388 Regressionen mit diskreten abhängigen Variablen Ergebnisse Probit-Schätzung Koeff. Promoviert Konstante -3.62785 Alter 0.03570 Jahreseinkommen 0.00004 Geschlechtw -0.16510 Hosmer/Lemeshow R-Square 0.49 Cox/Snell R-Square 0.47 Nagelkerke R-Square 0.65 Beobachtungen 50.00 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Std. Abw. Z-Wert P(Z>|Z|) 1.12 0.01 0.00 0.56 -3.23 2.52 3.03 -0.30 0.00 0.01 0.00 0.77 Empirische Wirtschaftsforschung 15. April 2013 354 / 388 Regressionen mit diskreten abhängigen Variablen Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe) Alter: 40.18 Jahreseinkommen: 37181.50 Geschlecht: Mann Berechnung des linearen Prädiktors η: η = −3.62785 + 0.03570 · 40.18 + 0.00004 · 37181.50 − 0.16510 · 0 = −0.7535629 Berechnung der Promotionswahrscheinlichkeit π: π = Φ(−0.7535629) = 0.2255559 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 355 / 388 Regressionen mit diskreten abhängigen Variablen Berechnung marginaler Effekte des Probit-Modells Koeff. Marg. Eff. Marg. Eff. Änd. Ref. Wert Änd. Promoviert Alter 0.03570 0.01 Jahreseinkommen 0.00004 0.00 Geschlechtw -0.16510 -0.03 (Datenquelle: Stichprobe aus Datensatz 1, N=50) 0.06 0.07 -0.03 40.18 37181.50 0.00 10.00 10000.00 1.00 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 356 / 388 Regressionen mit diskreten abhängigen Variablen Literaturhinweise Literaturhinweise zum 17. Kapitel Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons [insbes. Kapitel 4.1 und 4.2]. Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 4]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 17]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 7]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 357 / 388 Nichtlineare Regressionen 18. Nichtlineare Regressionen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 358 / 388 Nichtlineare Regressionen Literaturhinweise Literaturhinweise zum 18. Kapitel Fahrmeir, L., T. Kneib und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, Springer Verlag, Berlin. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 359 / 388 Grundlagen der Zeitreihenanalyse 19. Grundlagen der Zeitreihenanalyse 19.1 Zeitreihen 19.2 Maßzahlen für Zeitreihen 19.3 Stationarität von Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 360 / 388 Grundlagen der Zeitreihenanalyse 19.1 Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 361 / 388 Grundlagen der Zeitreihenanalyse Definition Eine Zeitreihe ist eine Realisation eines stochastischen Prozesses in diskreter Zeit yt mit t ∈ Z Der Prozess beginnt in −∞ und geht bis +∞. Die yt sind Ausprägungen von Zufallsvariablen. Der Prozess ist eine Folge von Zufallsvariablen, die stets dasselbe aber zu unterschiedlichen, äquidistanten Zeitpunkten messen. Eine Realisation hat einen Anfang, t = 1, und ein Ende, t = T yt Prof. Dr. Michael Berlemann (HSU) mit t = 1, ..., T Empirische Wirtschaftsforschung 15. April 2013 362 / 388 Grundlagen der Zeitreihenanalyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 363 / 388 Beobachtungsvariable Grundlagen der Zeitreihenanalyse Zeit Saison Prof. Dr. Michael Berlemann (HSU) Zyklus Trend irreguläres Element Realität Empirische Wirtschaftsforschung 15. April 2013 364 / 388 Grundlagen der Zeitreihenanalyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 365 / 388 Grundlagen der Zeitreihenanalyse 19.2 Maßzahlen für Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 366 / 388 Grundlagen der Zeitreihenanalyse Definition Die Autokorrelation k-ter Ordnung misst die Korrelation zwischen Werten einer Zeitreihe, die k Perioden voneinander entfernt sind. In einer Stichprobe ist der Autokorrelationskoeffizient k-ter Ordnung definiert als PT (yt − ȳ) · (yt−k − ȳ) rk = t=k+1 PT 2 t=1 (yt − ȳ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 367 / 388 Grundlagen der Zeitreihenanalyse 19.3 Stationarität von Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 368 / 388 Grundlagen der Zeitreihenanalyse Definition Ein stochastischer Prozess yt heisst mittelwertstationär wenn der Erwartungswert seiner Ausprägung zu jedem Zeitpunkt gleich groß ist. Definition Ein stochastischer Prozess yt heisst varianzstationär wenn seine Varianz zu jedem Zeitpunkt gleich groß ist. Definition Ein stochastischer Prozess yt heisst kovarianzstationär wenn seine Kovarianz zu jedem Zeitpunkt gleich groß ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 369 / 388 Grundlagen der Zeitreihenanalyse Literaturhinweise Literaturhinweise zum 19. Kapitel Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 1 und 5]. Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag, München [insbes. Kapitel 2]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 370 / 388 20 Univariate Zeitreihenmodelle 20.1 Typen univariater Zeitreihenmodelle 20.2 Schätzung univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 371 / 388 20.1 Typen univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 372 / 388 Typen univariater Zeitreihenmodelle 1 White-Noise-Prozesse (WN) 2 Moving-Average-Prozesse (MA) 3 Random-Walk-Prozesse mit und ohne Drift (RW) 4 Autoregressive Prozesse (AR) 5 Autoregressive Moving-Average-Prozesse (ARMA) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 373 / 388 Definition Ein stochastischer Prozess yt heisst Weisses Rauschen (White Noise) wenn sein Erwartungswert null ist, er eine endliche Varianz σy2 aufweist und unkorreliert mit allen vorausgegangenen Ausprägungen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 374 / 388 Weisses Rauschen 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 375 / 388 Definition Ein stochastischer Prozess yt heisst Moving-Average-Prozess des Grades q wenn er dem folgenden Muster folgt: yt = c + t + β1 · t−1 + · · · + βq · t−q wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 376 / 388 Moving-Average-Prozess 1.Ordnung 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 377 / 388 Definition Ein stochastischer Prozess yt mit yt = yt−1 + t heisst Random Walk ohne Drift wenn selbst Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 378 / 388 Random Walk ohne Drift 0 0 5 10 15 20 25 30 35 40 -1 -2 -3 -4 -5 -6 -7 -8 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 379 / 388 Definition Ein stochastischer Prozess yt mit yt = c + yt−1 + t heisst Random Walk mit Drift wenn selbst Weisses Rauschen ist. Den Parameter c bezeichnet man auch als Drift. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 380 / 388 Random Walk mit Drift 14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 381 / 388 Definition Ein stochastischer Prozess yt heisst autoregressiver Prozess des Grades p wenn er dem folgenden Muster folgt: yt = c + α1 · yt−1 + · · · + αp · yt−p + t wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 382 / 388 Autoregressiver Prozess 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 383 / 388 Definition Ein stochastischer Prozess yt heisst autoregressiver Moving-Average-Prozess des Grades (p,q) wenn er dem folgenden Muster folgt: yt = c + α1 · yt−1 + · · · + αp · yt−p +t + β1 · t−1 + · · · + βq · t−q wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 384 / 388 Autoregressiver Moving-Average-Prozess (1,1) 14 12 10 8 6 4 2 0 0 5 Prof. Dr. Michael Berlemann (HSU) 10 15 20 25 Empirische Wirtschaftsforschung 30 35 40 15. April 2013 385 / 388 20.2 Schätzung univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 386 / 388 Informationskriterien Schwarz-Informationskriterium Akaike-Informationskriterium Hannan-Quinn-Informationskriterium Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 387 / 388 Literaturhinweise Literaturhinweise zum 20. Kapitel Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 2]. Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag, München [insbes. Kapitel 3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 15. April 2013 388 / 388