Empirische Wirtschaftsforschung Prof. Dr. Michael Berlemann BSc. VWL: Empirische Wirtschaftsforschung MSc. VWL: Empirische Wirtschaftsforschung für Fortgeschrittene 25. Juni 2014 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 1 / 446 Gliederung der Vorlesung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 2 / 446 Gliederung 1. Kapitel 1. Ziel, Konzept und Aufbau der Vorlesung Gliederung 2. Kapitel 2. Gegenstand der Empirischen Wirtschaftsforschung 2.1 Aufgaben der empirischen Wirtschaftsforschung 2.2 Überprüfung modellgestützter Hypothesen 2.3 Evaluierung von Politikmaßnahmen 2.4 Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 3 / 446 Gliederung 3. Kapitel 3. Datentypen und Datenquellen 3.1 Grundbegriffe 3.2 Merkmalstypen 3.3 Skalierung von Merkmalen 3.4 Datenerhebung 3.5 Datensätze 3.6 Sekundärdatenquellen und Datenbanken Gliederung 4. Kapitel 4. Datenverarbeitung und Software Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 4 / 446 Gliederung 5. Kapitel Gliederung 6. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 5 / 446 Gliederung 7. Kapitel Gliederung 8. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 6 / 446 Gliederung 9. Kapitel Gliederung 10. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 7 / 446 Gliederung 11. Kapitel Gliederung 12. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 8 / 446 Gliederung 13. Kapitel Gliederung 14. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 9 / 446 Gliederung 15. Kapitel Gliederung 16. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 10 / 446 Gliederung 17. Kapitel Gliederung 18. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 11 / 446 Gliederung 19. Kapitel Gliederung 20. Kapitel Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 12 / 446 Ziel, Konzept und Aufbau der Vorlesung 1. Ziel, Konzept und Aufbau der Vorlesung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 13 / 446 Gegenstand der Empirischen Wirtschaftsforschung 2. Gegenstand der Empirischen Wirtschaftsforschung 2.1 2.2 2.3 2.4 Aufgaben der empirischen Wirtschaftsforschung Überprüfung modellgestützter Hypothesen Evaluierung von Politikmaßnahmen Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 14 / 446 Gegenstand der Empirischen Wirtschaftsforschung 2.1 Aufgaben der empirischen Wirtschaftsforschung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 15 / 446 Gegenstand der Empirischen Wirtschaftsforschung 2.2 Überprüfung modellgestützter Hypothesen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 16 / 446 Gegenstand der Empirischen Wirtschaftsforschung Sir Karl Popper * 28. Juli 1902 in Wien 17. September 1994 in London Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 17 / 446 Überprüfung modellgestützter Hypothesen Gegenstand der Empirischen Wirtschaftsforschung Optimales Konsumbündel in der Ausgangssituation 009Prof. Menge x2 x2opt U1 x1opt Dr. Dr. Michael Berlemann Prof. (HSU) Menge x1 M. Empirische Berlemann: Wirtschaftsforschung Vorlesung "Empirische Wirtschaftsforschung" 25. Juni 2014 18 / 446 Überprüfung modellgestützter Hypothesen Gegenstand der Empirischen Wirtschaftsforschung Optimales Konsumbündel bei Erhöhung des Preises von Gut x1 009 Prof. Menge x2 Konsequenzen eines Preisanstiegs bei Gut x1 x2opt U1 x1opt Menge x1 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 19 / 446 Gegenstand der Empirischen Wirtschaftsforschung 2.3 Evaluierung von Politikmaßnahmen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 20 / 446 Gegenstand der Empirischen Wirtschaftsforschung Bundeskanzler Gerhard Schröder Tabaksteuerreform 2004 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 21 / 446 Gegenstand der Empirischen Wirtschaftsforschung Deutsche Tabaksteuer-Einnahmen 1949-2009 in Mio. Euro (Quelle: Statistisches Bundesamt) 16000 14000 12000 10000 8000 6000 4000 2000 0 1949 1954 1959 1964 Prof. Dr. Michael Berlemann (HSU) 1969 1974 1979 1984 1989 Empirische Wirtschaftsforschung 1994 1999 2004 25. Juni 2014 2009 22 / 446 Gegenstand der Empirischen Wirtschaftsforschung Schaumburger Nachrichten, 11.2.2004 steuererhöhung 2004 ene“ Tabaksteuererhöhung von 2004 als schönes ene es Beispiel für die Folgen mangelnder oder falscher er Abschätzungen der Folgen wirtschaftspolitischer men d der R Raucher" h " kann k man mit it "geringer " i di direkter kt zität der Nachfrage" übersetzen. inanzminister weniger Einnahmen aus der er fürchten muss, kommt der Aussage gleich, dass Markt für Tabakwaren im fallenden Bereich der rve befindet. aus: Schaumburger Nachrichten, 11.2.2004 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 17 25. Juni 2014 23 / 446 luierung von Politikmaßnahmen Gegenstand der Empirischen Wirtschaftsforschung Laffer-Kurve Steueraufkommen Laffer-Kurve Steuersatz τ=0% Prof. Dr. Michael Berlemann (HSU) τ* Empirische Wirtschaftsforschung τ = 100 % 25. Juni 2014 24 / 446 Gegenstand der Empirischen Wirtschaftsforschung 2.4 Prognose Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 25 / 446 Gegenstand der Empirischen Wirtschaftsforschung Konjunkturprognose des ifo-Instituts für Deutschland (Quelle: ifo) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 26 / 446 Gegenstand der Empirischen Wirtschaftsforschung Bevölkerungsprognose 2007 bis 2025 für Deutschland regional (Quelle: BBSR) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 27 / 446 Gegenstand der Empirischen Wirtschaftsforschung Literaturhinweise Literaturhinweise zum 2. Kapitel Hujer, R. und R. Cremer (1978): Methoden der empirischen Wirtschaftsforschung, Verlag Vahlen, München [insbes. Kapitel 1 Abschnitt I]. Laffer, A. B. (1981): Government Exactions and Revenue Deficiencies, in: Cato Journal, Vol. 1, Nr. 1, S. 1-21. Mosler, K. und F. Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 0]. Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 28 / 446 Datentypen und Datenquellen 3. Datentypen und Datenquellen 3.1 3.2 3.3 3.4 3.5 3.6 Grundbegriffe Merkmalstypen Skalierung von Merkmalen Datenerhebung Datensätze Sekundärdatenquellen und Datenbanken Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 29 / 446 Datentypen und Datenquellen 3.1 Grundbegriffe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 30 / 446 Datentypen und Datenquellen Definition Die Objekte, auf die sich eine empirische Analyse bezieht, werden auch als Untersuchungseinheiten (ω) bezeichnet Definition Alle Untersuchungseinheiten zusammen ergeben die sog. Grundgesamtheit (Ω) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 31 / 446 Datentypen und Datenquellen Definition Bestimmte Eigenschaften der Untersuchungsobjekte bezeichnet man auch als Merkmale (X) (oder auch als statistische Variable) Definition Jedes Merkmal kann in der Regel mehrere (k) unterschiedliche Merkmalsausprägungen a1 , a2 ,· · · , ak aufweisen Definition Als Merkmalsraum (S) (oder auch: Zustandsraum) bezeichnet man die Menge aller möglichen Ausprägungen eines Merkmals (alle Werte, die eine statistische Variable annehmen kann) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 32 / 446 Datentypen und Datenquellen 3.2 Merkmalstypen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 33 / 446 Datentypen und Datenquellen Merkmalstypen Merkmalstypen M k l Merkmale Qualitative Merkmale Quantitative Merkmale Ausprägungen unterscheiden sich artmässig Ausprägungen können durch Zahlen angegeben werden Diskrete Merkmale abzählbarer b ählb Zustandsraum Z t d Stetige Merkmale nicht abzählbarer Zustandsraum Gruppierte Merkmale Ab ählb durch Abzählbar d h Gruppenbildung G bild FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 27 25. Juni 2014 34 / 446 Datentypen und Datenquellen 3.3 Skalierung von Merkmalen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 35 / 446 Datentypen und Datenquellen Skalierung von Merkmalen Skalierung von Merkmalen Skalentypen Nominalskala Ordinalskala (Rangskala) nur Unterscheidung, keine Ordnung Reihenfolge, aber keine Abstände interpretierbar Metrische Skala Reihenfolge, Abstände interpretierbar Intervallskala nur Abstände interpretierbar Stetige Merkmale natürlicher Nullpunkt, Verhältnisse interpretierbar Absolutskala natürlicher Nullpunkt & natürliche Maßeinheit FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 29 25. Juni 2014 36 / 446 Datentypen und Datenquellen 3.4 Datenerhebung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 37 / 446 Datentypen und Datenquellen Definition Von einer Vollerhebung spricht man, wenn die relevanten Merkmale aller Untersuchungseinheiten einer Grundgesamtheit erhoben werden Definition Bei einer Teilerhebung werden nur die relevanten Merkmale einer Teilmenge (Stichprobe) aller Untersuchungseinheiten der Grundgesamtheit erhoben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 38 / 446 Datentypen und Datenquellen Definition Von einer Primärerhebung spricht man, wenn die Daten vom Forscher selbst erhoben werden, so z.B. durch Befragung, Beobachtung und Aufzeichnung oder Durchführung von Experimenten Definition Von einer Sekundärerhebung spricht man, wenn die Daten von anderen Personen oder Institutionen erhoben, gesammelt, verifiziert und unter Umständen aggregiert werden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 39 / 446 Datentypen und Datenquellen Definition Sind die Untersuchungseinheiten einzelne Individuen oder vergleichbare Individualobjekte, so spricht man von Mikrodaten Definition Handelt es sich um Daten, die über mehrere Untersuchungseinheiten (z.B. Individuen, Unternehmen, Branchen, Regionen) aggregiert wurden, so spricht man von Makrodaten Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 40 / 446 Datentypen und Datenquellen Formen der Primärerhebung: Befragung schriftlich mündlich Beobachtung Experiment Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 41 / 446 Datentypen und Datenquellen 3.5 Datensätze Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 42 / 446 Datentypen und Datenquellen Typen von Datensätzen: Querschnittsdatensätze Längsschnittsdatensätze Pandeldatensätze Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 43 / 446 Datentypen und Datenquellen Querschnittsdaten Querschnittsdatensatz (Cross section data) (Cross section data) BW BY BE BB HB HH HE MV NI NW RP SL SN ST SH TH D , 3,2 4,9 , 1,4 , 3,2 , 4,9 , 3,5 , 3,2 , 1,0 , 2,4 , 2,3 , 2,7 , 4,8 , 1,3 , 2,5 , 2,4 , 2,7 , 3,1 , 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 37 25. Juni 2014 44 / 446 Datentypen und Datenquellen Längsschnittdaten Zeitreihe Längsschnittdaten, Längsschnittsdatensatz / Zeitreihe (Time series data) (Time series data) BW BY BE BB HB HH 1992 −0,1 1993 −0,8 1994 08 0,8 1995 1,0 1996 1,2 1997 1,8 1998 1,1 1999 0,8 2000 , 3,5 2001 3,4 2002 −0,2 2003 −3,3 2004 0,3 2005 1,3 2006 2,4 2007 2,1 HE MV NI NW RP SL SN ST SH TH D Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 38 25. Juni 2014 45 / 446 Datentypen und Datenquellen Paneldaten Paneldatensatz (Panel data) (Panel data) BW BY BE BB HB HH HE MV NI NW RP SL SN ST SH TH D 1992 −0,5 1,3 3,0 10,1 −0,2 −0,1 0,6 11,5 0,4 0,1 −1,4 −0,4 11,3 11,6 0,5 19,9 1,5 1993 −5,3 −2,9 2,2 12,4 −2,8 −0,8 −3,0 12,7 −2,2 −3,1 −4,1 −4,7 13,3 14,1 −1,8 14,1 −1,5 1994 16 1,6 15 1,5 09 0,9 12 3 12,3 17 1,7 08 0,8 06 0,6 13 4 13,4 13 1,3 08 0,8 10 1,0 30 3,0 13 7 13,7 11 4 11,4 06 0,6 13 2 13,2 23 2,3 1995 1,2 0,6 2,0 7,5 0,4 1,0 1,0 8,4 −1,2 1,4 0,9 3,0 8,3 5,1 1,6 3,8 1,6 1996 1,5 1,3 −1,6 2,7 0,2 1,2 2,0 3,2 −0,3 −0,8 −1,2 −2,9 3,4 3,3 0,7 3,3 0,7 1997 2,0 1,9 −1,3 1,3 1,6 3,4 1,8 1,3 2,1 1,2 1,5 1,4 2,4 0,7 3,6 1,0 4,2 1,6 1998 2,3 3,7 0,7 0,3 1,8 1,1 1,4 0,4 2,2 2,1 0,9 3,4 1,3 1,4 0,2 2,3 2,1 1999 2,3 2,6 −0,1 3,6 1,1 0,8 3,1 3,9 1,0 0,8 2,4 2,4 3,0 2,8 1,2 4,0 1,9 2000 , 3,2 4,9 , 1,4 , 3,2 , 4,9 , 3,5 , 3,2 , 1,0 , 2,4 , 2,3 , 2,7 , 4,8 , 1,3 , 2,5 , 2,4 , 2,7 , 3,1 , 2001 2,1 1,4 −1,2 0,6 1,3 3,4 1,4 1,1 −1,1 0,6 −1,4 1,6 2,6 1,4 0,5 2,3 1,1 2002 −1,9 0,8 −1,8 0,2 1,3 −0,2 −1,2 1,0 −1,1 −0,1 0,9 −1,0 3,3 3,4 −2,4 1,1 −0,2 2003 −0,7 0,0 −2,2 0,1 0,3 −3,3 0,4 0,6 −0,0 −0,9 −0,5 −0,5 2,2 1,0 −0,1 2,6 −0,3 2004 0,2 1,8 −2,0 1,4 0,2 0,3 0,2 2,0 0,9 1,2 2,2 3,8 2,3 1,6 0,8 2,5 1,1 2005 0,3 1,5 0,8 1,2 0,2 1,3 0,9 0,6 2,1 0,1 −0,4 3,2 0,8 0,9 0,1 1,0 0,8 2006 4,3 3,1 1,0 1,7 1,8 2,4 3,1 2,2 2,6 2,7 2,6 2,6 3,4 2,9 2,4 3,6 3,0 2007 2,7 2,6 1,8 2,5 2,8 2,1 2,4 3,4 2,0 2,8 2,7 3,0 3,1 3,3 1,3 3,0 2,6 Quelle: Arbeitsgruppe VGR der Länder (2009) FT 2009 Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung" Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 39 25. Juni 2014 46 / 446 Datentypen und Datenquellen 3.6 Sekundärdatenquellen und Datenbanken Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 47 / 446 Datentypen und Datenquellen Sekundärdatenquellen Sekundärdatenquellen S k dä d Sekundärdaten amtliche Statistik nicht-amtliche Statistik von staatlichen Institutionen erhobene Daten von privaten Institutionen erhobene Daten national national d Inland das I l d betreffend b t ff d d Inland das I l d betreffend b t ff d international international im Ländervergleich im Ländervergleich Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 48 / 446 Datentypen und Datenquellen Nationale amtliche Statistik Statistisches Bundesamt / Statistische Landesämter: Statistisches Jahrbuch, Fachserien, Zeitschriften Wichtigste Daten sind im Internet frei oder gegen geringe Gebühr zugänglich: http://www.destatis.de/ http://www.vgrdl.de/Arbeitskreis VGR/ Deutsche Bundesbank: Monatsberichte, Statistische Beihefte, Geschäftsberichte Internetangebot: http://www.bundesbank.de/statistik/statistik.php Bundesregierung / Landesregierungen: Regelmäßige Berichte (Jahreswirtschaftsbericht, Finanzbericht, Sozialbericht etc.) Internet Bundeswirtschaftsministerium: http://www.bmwi.de/BMWi/Navigation/wirtschaft.html Bundesagentur für Arbeit / Landesarbeitsagenturen: Internet: http://www1.arbeitsamt.de/hst/services/statistik/index.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 49 / 446 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Öffentlich geförderte Wirtschaftsforschungsinstitute Deutsches Institut für Wirtschaftsforschung (DIW), Berlin Internet: http://www.diw.de ifo Institut für Wirtschaftsforschung, München Internet: http://www.ifo.de Institut für Weltwirtschaft (IfW), Kiel Internet: http://www.ifw-kiel.de Rheinisch-Westfälisches Institut für Wirtschaftsforschung (RWI), Essen Internet: http://www.rwi-essen.de Institut für Wirtschaftsforschung Halle (IWH), Halle Internet: http://www.iwh-halle.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 50 / 446 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Privat finanzierte Wirtschaftsforschungsinstitute Zentrum für Europäische Wirtschaftsforschung (ZEW), Mannheim Internet: http://www.zew.de Hamburger Weltwirtschafts-Institut (HWWI), Hamburg Internet: http://www.hwwi.org Institut der Deutschen Wirtschaft (IdW), Köln Internet: http://www.idw.de Institut für Makroökonomie und Konjunkturforschung (IMK), Düsseldorf Internet: http://www.boeckler.de/31923.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 51 / 446 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen Entwicklung Internet: http://www.sachverstaendigenrat-wirtschaft.de Monopolkommission Internet: http://www.monopolkommission.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 52 / 446 Datentypen und Datenquellen Nationale nicht-amtliche Statistik: Marktforschungsinstitute Gesellschaft für Konsumforschung (GfK) Internet: http://www.gfk.com/group/index.de.html Meinungsforschungsinstitute Institut für Demoskopie Allensbach Internet: http://www.ifd-allensbach.de Emnid Internet: http://www.tns-emnid.com Forsa Internet: http://www.forsa.de Forschungsgruppe Wahlen http://www.forschungsgruppe.de/Startseite Infas http://www.infas.de Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 53 / 446 Datentypen und Datenquellen Internationale amtliche Statistik: Statistisches Amt der Europäischen Union (Eurostat) Internet: http://epp.eurostat.ec.europa.eu Europäische Zentralbank (EZB) Internet: http://www.ecb.int/stats/html/index.en.html Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 54 / 446 Datentypen und Datenquellen Internationale nicht-amtliche Statistik: Organisation for Economic Development and Co-Ordination (OECD): Internet: http://www.oecd.org Weltbank Internet: http://www.worldbank.org Bank für Internationalen Zahlungsausgleich (Basel) Internet: http://www.bis.org Vereinte Nationen (UN): Internet: http://www.un.org/Pubs International Monetary Fund (IMF): Internet: http://www.imf.org/external/data.htm International Labor Organization (ILO): Internet: http://www.ilo.org/global/lang–en/index.htm Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 55 / 446 Datentypen und Datenquellen Sekundärdatenquellen und Datenbanken: Datenbanken sind Sammlungen von Daten, unter Umständen auch aus ganz unterschiedlichen Datenquellen Datenbanken der amtlichen Statistik: Genesis Online (Statistisches Bundesamt) Bundesstatistik: Internet: https://www-genesis.destatis.de/genesis/online/logon Regionalstatistik: Internet: https://www.regionalstatistik.de/genesis/online/logon Arbeitsgruppe VGR der Länder: Internet: http://www.vgrdl.de/Arbeitskreis VGR Sehr umfangreiche Datenbanken: Penn World Tables (Freier Zugang über University of Pennsylvania): http://pwt.econ.upenn.edu Statistik-Netz (Zugang HSU HH über Bibliothek WiSo) Datastream (Zugang HSU HH) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 56 / 446 Datentypen und Datenquellen Literaturhinweise Literaturhinweise zum 3. Kapitel Mosler, K. und F. Schmid (2006): Beschreibende Statistik und Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 57 / 446 Datenverarbeitung und Software 4. Datenverarbeitung und Software Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 58 / 446 Datenverarbeitung und Software Literaturhinweise Literaturhinweise zum 4. Kapitel Behr, A. und U. Pötter (2011): Einführung in die Statistik mit R, Verlag Vahlen, München. Crawley, M. (2005): Statistics. An Introduction using R, Wiley Publishers, Hoboken. Field, A., J. Miles und Z. Field (2012): Discovering Statistics using R, Sage Publications, London. Kleiber, C. und A. Zeileis (2008): Applied Econometrics with R, Use R! Series, Springer-Verlag, Berlin. Spector, P. (2008): Data Manipulation with R, Use R! Series, Springer-Verlag, Berlin. Zuur, A.F., E. N. Ieno und H.W.G. Meesters (2009): A Beginner’s Guide to R, Use R! Series, Springer-Verlag, Berlin. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 59 / 446 Häufigkeiten und Häufigkeitsverteilungen 5. Häufigkeiten und Häufigkeitsverteilungen 5.1 Absolute und relative Häufigkeiten 5.2 Empirische Verteilungsfunktion Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 60 / 446 Häufigkeiten und Häufigkeitsverteilungen 5.1 Absolute und relative Häufigkeiten Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 61 / 446 Häufigkeiten und Häufigkeitsverteilungen Seien a1 , a2 , ..., aN die Ausprägungen eines qualitativen Merkmals mit k qualitativ unterscheidbaren Ausprägungen einer Grundgesamtheit der Größe N Definition Die absoluten Häufigkeiten nj geben an, wie oft jede Merkmalsausprägung aj mit j = 1, ..., k eines Merkmals in der Grundgesamtheit auftritt Die Summe der absoluten Häufigkeiten ergibt gerade die Gesamtanzahl der Beobachtungen: k X nj = N j=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 62 / 446 Häufigkeiten und Häufigkeitsverteilungen 0 2 4 6 8 10 12 14 Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1) Arbeitslos Prof. Dr. Michael Berlemann (HSU) Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Empirische Wirtschaftsforschung 25. Juni 2014 63 / 446 Häufigkeiten und Häufigkeitsverteilungen Definition Die relativen Häufigkeiten fj geben an, welchen Anteil jede Merkmalsausprägung an der Gesamtanzahl der Beobachtungen hat Die Summe der relativen Häufigkeiten ergibt ergibt 100%: k X j=1 Prof. Dr. Michael Berlemann (HSU) fj = k X nj j=1 N =1 Empirische Wirtschaftsforschung 25. Juni 2014 64 / 446 Häufigkeiten und Häufigkeitsverteilungen Häufigkeitstabelle Berufe (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) Absolute Häufigkeit 9 4 7 10 11 15 5 9 Relative Häufigkeit 0.13 0.06 0.10 0.14 0.16 0.21 0.07 0.13 Empirische Wirtschaftsforschung Prozentuale Häufigkeit 12.90 5.70 10.00 14.30 15.70 21.40 7.10 12.90 25. Juni 2014 65 / 446 Häufigkeiten und Häufigkeitsverteilungen Kuchendiagramm relative Häufigkeit Berufe (Datensatz 1) Verkaeufer (12.9%) Arbeitslos (12.9%) Arzt (5.7%) Sonstiges (7.1%) Ingenieur (10%) Schueler (21.4%) Lehrer (14.3%) Rentner (15.7%) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 66 / 446 Häufigkeiten und Häufigkeitsverteilungen 15 10 0 5 Absolute Häufigkeit 20 25 Histogramm klassifizierte Jahreseinkommen (Datensatz 1) 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 67 / 446 Häufigkeiten und Häufigkeitsverteilungen 5.2 Empirische Verteilungsfunktion Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 68 / 446 Häufigkeiten und Häufigkeitsverteilungen Definition Die empirische Verteilungsfunktion eines Merkmals ergibt sich aus den kumulierten relativen Häufigkeiten Um den Wert der empirischen Verteilungsfunktion zu berechnen, müssen zunächst die Beobachtungen ihrer Größe nach von klein nach groß geordnet werden Der Wert der empirischen Verteilungsfunktion für die Beobachtung x ergibt sich dann als die Summe der kumulierten relativen Häufigkeiten aller Merkmalsausprägungen, die kleiner oder gleich x sind: X F (x) = f (aj ) aj ≤x Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 69 / 446 Häufigkeiten und Häufigkeitsverteilungen 1.0 Empirische Verteilungsfunktion Zahl der Kinder (Datensatz 1) ● ● 0.6 ● 0.4 ● 0.0 0.2 Kumulierte relative Häufigkeit 0.8 ● 0 1 2 3 4 5 Zahl der Kinder Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 70 / 446 Häufigkeiten und Häufigkeitsverteilungen 1.0 Empirische Verteilungsfunktion Alter (Datensatz 1) ● ● ● ● ● ● ● ● 0.6 ● ● ● ● ● ● ● ● ● ● ● ● ● 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 Kumulierte relative Häufigkeit 0.8 ● ● ● ● ● ● ● 0.0 ● ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 71 / 446 Häufigkeiten und Häufigkeitsverteilungen Literaturhinweise Literaturhinweise zum 5. Kapitel Behr, A. und U. Pötter (2011): Einfühung in die Statistik mit R, 2. Auflage, Verlag Vahlen, München [insbes. Kapitel 5]. Duller, C. (2006): Einführung in die Statistik mit Excel und SPSS, Physica-Verlag, Heidelberg [insbes. Kapitel 6]. Kazmier, L. J. (1996): Wirtschaftsstatistik, Übersetzung der 3. Auflage, McGraw-Hill International Ltd., London [insbes. Kapitel 2]. Quatember, A. (2005): Statistik ohne Angst vor Formeln. Ein Lehrbuch für Wirtschafts- und Sozialwissenschaftler [insbes. Kapitel 1.2]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 72 / 446 Maßzahlen für einzelne Merkmale 6. Maßzahlen für einzelne Merkmale 6.1 6.2 6.3 6.4 6.5 Lagemaße Streuungsmaße Boxplot Schiefe, Wölbung und Exzess Konzentrationsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 73 / 446 Maßzahlen für einzelne Merkmale 6.1 Lagemaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 74 / 446 Maßzahlen für einzelne Merkmale Definition Als Modus bezeichnet man diejenige Merkmalsausprägung, die am häufigsten auftritt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 75 / 446 Maßzahlen für einzelne Merkmale 0 2 4 6 8 10 12 14 Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1) Arbeitslos Prof. Dr. Michael Berlemann (HSU) Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Empirische Wirtschaftsforschung 25. Juni 2014 76 / 446 Maßzahlen für einzelne Merkmale 15 10 0 5 Absolute Häufigkeit 20 25 Histogramm klassifizierte Jahreseinkommen (Datensatz 1) 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 77 / 446 Maßzahlen für einzelne Merkmale Definition Sei α eine Zahl zwischen null und eins. Als α-Quantil wird dann derjenige Wert x̃α bezeichnet, für den die Verteilungsfunktion F gerade den Wert α annimmt, d.h. F (x̃α ) = α. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 78 / 446 Maßzahlen für einzelne Merkmale Ausgewählte Quantile des Jahreseinkommens (Datensatz 1) α-Quantil 10% 20% 30% 40% 50% 60% 70% 80% 90% Prof. Dr. Michael Berlemann (HSU) Wert 350 2500 15000 20000 28000 33000 40000 45000 75000 Empirische Wirtschaftsforschung 25. Juni 2014 79 / 446 Maßzahlen für einzelne Merkmale Definition Als Quartile bezeichnet man diejenigen Quantilswerte, die zu einer Unterteilung der Daten in vier gleich große Gruppen führen: F (x̃α=0,25 ) = 0, 25 F (x̃α=0,50 ) = 0, 50 F (x̃α=0,75 ) = 0, 75 Dabei bezeichnet man das 0,25-Quartil auch als unteres und das 0,75-Quartil als oberes Quartil Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 80 / 446 Maßzahlen für einzelne Merkmale Quartile des Jahreseinkommens (Datensatz 1) Quartil 25% 50% 75% Prof. Dr. Michael Berlemann (HSU) Wert 11000.00 28000.00 42750.00 Empirische Wirtschaftsforschung 25. Juni 2014 81 / 446 Maßzahlen für einzelne Merkmale Definition Der Median (auch: Zentralwert) beschreibt das Zentrum einer geordneten Reihe aller Beobachtungen (aufsteigend, absteigend) und ist ein Spezialfall eines Quantils. Für den Median gilt, dass höchstens 50 % der Beobachtungen kleiner oder gleich und höchstens 50% größer oder gleich diesem Wert sein dürfen (d.h. α = 0.5). Median-Jahreseinkommen (Datensatz 1) Der Median des Jahreseinkommens aus Datensatz 1 beträgt 28.000 Euro. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 82 / 446 Maßzahlen für einzelne Merkmale Definition Das arithmetische Mittel ist der ungewichtete Durchschnittswert aller Beobachtungen N 1 X X̄ = xi N i=1 Durchschnittliches Jahreseinkommen (Datensatz 1) Das durchschnittliche Jahreseinkommen aus Datensatz 1 beträgt: X̄ = 34.451, 79 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 83 / 446 Maßzahlen für einzelne Merkmale 6.2 Streuungsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 84 / 446 Maßzahlen für einzelne Merkmale Definition Bei einer der Größe nach geordneten Beobachtungsreihe berechnet sich die Spannweite S als S = xN − x1 Spannweite Jahreseinkommen (Datensatz 1) Die Spannweite des Jahreseinkommens aus Datensatz 1 beträgt: S = 199.950 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 85 / 446 Maßzahlen für einzelne Merkmale Definition Der Quartilsabstand misst die Differenz zwischen dem oberen und dem unteren Quartilswert und somit den zentralen Teil der Verteilung der Beobachtungen: dQ = x̃0,75 − x̃0,25 Quartilsabstand Jahreseinkommen (Datensatz 1) Der Quartilsabstand des Jahreseinkommens aus Datensatz 1 beträgt: dQ = 31.750 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 86 / 446 Maßzahlen für einzelne Merkmale Definition Die Varianz misst die mittlere quadratische Abweichung der beobachteten Merkmalsausprägungen vom arithmetischen Mittel V ar[X] = σ 2 = N 1 X · (xi − X̄)2 N i=1 Varianz des Jahreseinkommens (Datensatz 1) Die Varianz des Jahreseinkommens aus Datensatz 1 beträgt: σ 2 = 1.320.667.180 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 87 / 446 Maßzahlen für einzelne Merkmale Definition Die Standardabweichung ergibt sich als Wurzel aus der Varianz v u N u1 X (xi − X̄)2 Stdabw[X] = σ = t · N i=1 Standardabweichung des Jahreseinkommens (Datensatz 1) Die Standardabweichung des Jahreseinkommens aus Datensatz 1 beträgt: σ == 36.340, 98 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 88 / 446 Maßzahlen für einzelne Merkmale 6.3 Boxplot Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 89 / 446 Maßzahlen für einzelne Merkmale 200000 ● 150000 Boxplot Jahreseinkommen (Datensatz 1) ● 0 50000 100000 ● ● Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 90 / 446 Maßzahlen für einzelne Merkmale 6.4 Schiefe, Wölbung und Exzess Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 91 / 446 Maßzahlen für einzelne Merkmale Definition Die Schiefe einer Verteilung ist definiert als 1 g1 = rN · 1 N PN · i=1 (xi − X̄)3 PN 2 i=1 (xi − X̄) 3 Schiefe der Verteilung des Jahreseinkommens (Datensatz 1) Die Schiefe der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g1 = 2, 14 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 92 / 446 Maßzahlen für einzelne Merkmale Definition Die Wölbung (Kurtosis) einer Verteilung ist definiert als 1 N g2 = r · 1 N PN − X̄)4 PN − X̄)2 · i=1 (xi i=1 (xi 4 Kurtosis der Verteilung des Jahreseinkommens (Datensatz 1) Die Kurtosis der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g2 = 5, 87 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 93 / 446 Maßzahlen für einzelne Merkmale Definition Der Exzess einer Verteilung misst die Abweichung einer empirischen Verteilung von der Normalverteilung mit gleichem arithmetischen Mittel und gleicher Varianz: g3 = g2 − 3 Exzess der Verteilung des Jahreseinkommens (Datensatz 1) Der Exzess der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: g3 = 2, 87 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 94 / 446 Maßzahlen für einzelne Merkmale 6.5 Konzentrationsmaße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 95 / 446 Maßzahlen für einzelne Merkmale Berechnung der Lorenzkurve 1 Ordnung der Beobachtungen nach ihrer Größe, wobei mit dem kleinsten Wert begonnen wird 2 Berechnung der Gesamtsumme aller Merkmalswerte: N X xi = n · X̄ i=1 3 Berechnung der kumulierten Summe der Beobachtungen für jede Merkmalsausprägung, Bildung der Relation zur Gesamtsumme der Beobachtungen: Pi j=1 x(j) j=1 x(j) υi = PN 4 mit i = 1, ..., N υ0 := 0 Wiederholung des Vorgehens für den Fall einer Gleichverteilung mit identischer Gesamtsumme der Beobachtungen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 96 / 446 Maßzahlen für einzelne Merkmale Beispiel: Berechnung einer Lorenzkurve für kleinen Datensatz Haushalt 1 2 3 4 5 6 7 8 9 10 Summe Tatsächliche Verteilung Eink. Kumul. Eink. kumul. Anteil 0 0 0 150 150 0,03 240 390 0,08 270 660 0,14 300 960 0,21 400 1360 0,29 670 2030 0,43 800 2830 0,6 800 3630 0,78 1050 4680 1 4680 Prof. Dr. Michael Berlemann (HSU) Gleichverteilung Eink. Kumul. Eink. kumul. Anteil 468 468 0,1 468 936 0,2 468 1404 0,3 468 1872 0,4 468 2340 0,5 468 2808 0,6 468 3276 0,7 468 3744 0,8 468 4212 0,9 468 4680 1 4680 Empirische Wirtschaftsforschung 25. Juni 2014 97 / 446 Maßzahlen für einzelne Merkmale Lorenzkurve für kleinen Datensatz 5000 4500 kumuliertes Einkommen k 4000 3500 3000 2500 2000 1500 1000 500 0 0,00 1 2 3 4 5 6 7 8 9 10 Haushalt Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 98 / 446 Maßzahlen für einzelne Merkmale Lorenzkurve für Jahreseinkommen (Datensatz 1) 1.0 kumuliertes Einkommen 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 Einkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 99 / 446 Maßzahlen für einzelne Merkmale Definition Der Gini-Koeffizient lässt sich berechnen als G=1− Prof. Dr. Michael Berlemann (HSU) N 1 X · (υi−1 + υi ) N i=1 Empirische Wirtschaftsforschung 25. Juni 2014 100 / 446 Maßzahlen für einzelne Merkmale Gini-Koeffizient für kleinen Datensatz Der Gini-Koeffizient für den kleinen Beispieldatensatz beträgt: G = 0, 387 Gini-Koeffizient für die Verteilung des Jahreseinkommens (Datensatz 1) Der Gini-Koeffizient der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt: G = 0, 505 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 101 / 446 Maßzahlen für einzelne Merkmale Literaturhinweise Literaturhinweise zum 6. Kapitel Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 102 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 7. Maßzahlen für den Zusammenhang zwischen Merkmalen 7.1 7.2 7.3 7.4 Verteilung zweidimensionaler Merkmale Zusammenhang nominaler Merkmale Zusammenhang ordinaler Merkmale Zusammenhang stetiger Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 103 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.1 Verteilung zweidimensionaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 104 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Randverteilung Zahl der Kinder (Datensatz 1) Kinder 0 1 2 3 4 Prof. Dr. Michael Berlemann (HSU) Anzahl 31 11 18 7 3 Empirische Wirtschaftsforschung 25. Juni 2014 105 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Kontingenztabelle mit Randverteilungen, Beruf versus Kinder (Datensatz 1) Beruf Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Summe Prof. Dr. Michael Berlemann (HSU) 0 2 2 3 2 2 15 0 5 31 Zahl der Kinder 1 2 3 4 Summe 1 4 0 2 9 1 1 0 0 4 3 1 0 0 7 1 4 3 0 10 3 4 2 0 11 0 0 0 0 15 0 3 1 1 5 2 1 1 0 9 11 18 7 3 70 Empirische Wirtschaftsforschung 25. Juni 2014 106 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 0.0 0 0.2 1 0.4 2 Zahl der Kinder 0.6 3 0.8 4 1.0 Spineplot Verteilung Kinder nach Berufen (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Berufe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 107 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Scatterplot Einkommen versus Alter (Datensatz 1) ● ● ● 80 ● ● ● ● ● ● ● ● ● 60 ● ● ● ●● ● ● ● Alter ● ● ● ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● 0 ● ● ● ● 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 108 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.2 Zusammenhang nominaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 109 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Die χ2 -Statistik berechnet sich als χ2 = N · K X L X i=1 j=1 Ni+ = L X 2 Ni,j − 1 Ni+ · N+j Ni,j j=1 Nj+ = K X Ni,j i=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 110 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Entsprechen die beobachteten relativen Häufigkeiten den erwarteten relativen Häufigkeiten, so nimmt die χ2 -Statistik den Wert null an. Die beiden Merkmale sind dann unabhängig. Im Falle eines exakten systematischen Zusammenhangs hingegen nimmt die χ2 -Statistik ihren Maximalwert an, der sich wie folgt berechnen lässt: χ2 = N · (min(K, L) − 1) Pearsons χ2 -Statistik für Berufe und Geschlecht (Datensatz 1) Die χ2 -Statistik für die beiden nominalen Variablen Berufe und Geschlecht beträgt χ2 =16.15268. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 111 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Zu erwartende Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m 5.01 2.23 3.90 5.57 6.13 8.36 2.79 5.01 w 3.99 1.77 3.10 4.43 4.87 6.64 2.21 3.99 Empirische Wirtschaftsforschung 25. Juni 2014 112 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Tatsächliche Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m 4 4 4 10 6 6 1 4 w 5 0 3 0 5 9 4 5 Empirische Wirtschaftsforschung 25. Juni 2014 113 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Pearson-Residuen der Verteilung von Berufen auf Geschlechter (Datensatz 1) Arbeitslos Arzt Ingenieur Lehrer Rentner Schueler Sonstiges Verkaeufer Prof. Dr. Michael Berlemann (HSU) m -0.45 1.19 0.05 1.88 -0.05 -0.82 -1.07 -0.45 w 0.51 -1.33 -0.06 -2.10 0.06 0.91 1.20 0.51 Empirische Wirtschaftsforschung 25. Juni 2014 114 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.3 Zusammenhang ordinaler Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 115 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Für den Fall, dass keine Bindungen auftreten, lautet der Rangkorrelationskoeffizient von Spearman: rS = 1 − Prof. Dr. Michael Berlemann (HSU) 6· PN i=1 (R(xi ) − R(yi )) N · (N 2 − 1) Empirische Wirtschaftsforschung 25. Juni 2014 116 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Rangkorrelation von Jahreseinkommen und Ausbildungsjahren (Datensatz 1) Die Rangkorrelation nach Spearman zwischen Jahreseinkommen und Ausbildungjahren beträgt rS = 0.64. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 117 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 7.4 Zusammenhang stetiger Merkmale Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 118 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Das einfachste Maß des Zusammenhangs der Ausprägungen zweier stetiger Merkmale, die Kovarianz, ist definiert als Cov[X, Y ] = Prof. Dr. Michael Berlemann (HSU) N 1 X · (xi − X̄) · (yi − Ȳ ) N i=1 Empirische Wirtschaftsforschung 25. Juni 2014 119 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Positive Kovarianz: Alter versus Berufsjahre (Datensatz 1) ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● Alter ● ● 40 ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 10 20 30 40 Berufsjahre Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 120 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 100 Negative Kovarianz: Alter versus Gesundheitszustand (Datensatz 1) ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80 ● ● ● ●● ● ● ● ●● ● ● ● 60 ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ●● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 121 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen 100 Keine Kovarianz: Jahreseinkommen versus Gesundheitszustand (Datensatz 1) ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● 80 ● ● ● ● ●● ● ● ● ● ● ● ● ● 60 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ● ● ● ● ● ● ● 20 ● ● ● ● ● ● 0 50000 100000 150000 200000 Jahreseinkommen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 122 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Definition Der Korrelationskoeffizient von Bravais-Pearson ist definiert als PN (xi − X̄) · (yi − Ȳ ) BP Corr[X, Y ] = r = qP i=1 PN N 2 2 i=1 (yi − Ȳ ) i=1 (xi − X̄) · = Prof. Dr. Michael Berlemann (HSU) Cov[X, Y ] p V ar[X] · V ar[Y ] Empirische Wirtschaftsforschung 25. Juni 2014 123 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Diverse Korrelationskoeffizienten nach Bravais-Pearson (Datensatz 1) Alter vs. Gesundheitszustand Jahreseinkommen vs. Gesundheitszustand Berufsjahre vs. Alter Prof. Dr. Michael Berlemann (HSU) Korrelationskoeffizient -0.95 -0.31 0.94 Empirische Wirtschaftsforschung 25. Juni 2014 124 / 446 Maßzahlen für den Zusammenhang zwischen Merkmalen Literaturhinweise Literaturhinweise zum 7. Kapitel Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag, Heidelberg [insbes. Kapitel 8]. Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 125 / 446 Regressionsansatz als deskriptives Verfahren 8. Regressionsansatz als deskriptives Verfahren 8.1 8.2 8.3 8.4 8.5 Idee des Regressionsansatzes Lineare Einfachregression Methode der Kleinsten Quadrate Beurteilung der Güte einer Regression Lineare Mehrfachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 126 / 446 Regressionsansatz als deskriptives Verfahren 8.1 Idee des Regressionsansatzes Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 127 / 446 Regressionsansatz als deskriptives Verfahren Grundlegende Regressionsgleichung Y = f (X) + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 128 / 446 Regressionsansatz als deskriptives Verfahren 8.2 Lineare Einfachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 129 / 446 Regressionsansatz als deskriptives Verfahren Punktwolke ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Prof. Dr. Michael Berlemann (HSU) 10 20 30 Empirische Wirtschaftsforschung 40 25. Juni 2014 130 / 446 Regressionsansatz als deskriptives Verfahren Geradengleichung Y = β0 + β1 · X Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 131 / 446 Regressionsansatz als deskriptives Verfahren Schematischer Verlauf einer Regressionsgerade 180,0 160 0 160,0 Y = 10 + 1,5 ⋅ X zu erklärend de Variable (Y) 140,0 Steigung = β1 = ΔY/ΔX 120,0 100,0 Achsenabschnitt = β0 = 10 80,0 ΔY 60,0 ΔX 40,0 20,0 00 0,0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 132 / 446 Regressionsansatz als deskriptives Verfahren Punktwolke mit Regressionsgerade ● ● ● 80 ● ● ● ● ● ●● ● ● 60 ● ● ● ● ● ● 40 ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 Prof. Dr. Michael Berlemann (HSU) 10 20 30 Empirische Wirtschaftsforschung 40 25. Juni 2014 133 / 446 Regressionsansatz als deskriptives Verfahren 8.3 Methode der kleinsten Quadrate Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 134 / 446 Regressionsansatz als deskriptives Verfahren Regressionsgleichung Die Regressionsgleichung einer linearen Einfachregression lautet: y i = β0 + β1 · x i + i Dabei ist i ein Beobachtungsindex Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 135 / 446 Regressionsansatz als deskriptives Verfahren Nicht erklärtes Residuum einer linearen Einfachregression 180,0 160 0 160,0 zu erklärend de Variable (Y) 140,0 120,0 100,0 80,0 60,0 ε1 40,0 ε2 20,0 0,0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 136 / 446 Regressionsansatz als deskriptives Verfahren Die Geradengleichung ist durch die zwei Parameter β0 , β1 eindeutig bestimmt Wählen wir die Werte β̂0 , β̂1 für die beiden Parameter, so können wir für jedes Beobachtungspaar xi , yi die sich bei dieser Geradengleichung ergebenden Störterme berechnen: i = yi − β̂0 − β̂1 · xi Kleinste-Quadrate-Schätzung Die Kleinste-Quadrate-Methode wählt nun die beiden Parameter gerade so, dass die Summe der quadrierten Störterme (d.h. die Prognosefehler bzw. die vertikalen Abweichungen der einzelnen Beobachtungspunkte im Scatterplot von der Regressionsgerade) minimiert wird ! N N X X min i = (yi − ŷi ) β0 ,β1 i=1 i=1 wobei N die Anzahl der Beobachtungen darstellt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 137 / 446 Regressionsansatz als deskriptives Verfahren Berechnung der KQ-Schätzer für β̂0 und β̂1 Diejenigen Parameter, die zu einer Minimierung der quadrierten Störterme führen, lassen sich berechnen als β̂1 = Cov[X, Y ] = V ar[X] PN i=1 (xi − X̄) · (yi − PN 2 i=1 (xi − X̄) Ȳ ) β̂0 = Ȳ − β̂1 · X̄ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 138 / 446 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + i β0 = 104, 3685 β1 = −0, 9872 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 139 / 446 Regressionsansatz als deskriptives Verfahren 8.4 Beurteilung der Güte einer Regression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 140 / 446 Regressionsansatz als deskriptives Verfahren Maß für die beobachtete Variation der zu erklärenden Variable: Summe der quadratischen Abweichungen der tatsächlichen Ausprägungen von Y vom Mittelwert (Total sum of squares, TSS): PN T SS = i=1 (yi − Ȳ )2 Maß für die erklärte Abweichung der zu erklärenden Variable: Summe der quadratischen Abweichungen der für Y prognostizierten Abweichungen vom Mittelwert (Explained Sum of Squares, ESS): PN ESS = i=1 (ŷi − Ȳ )2 Maß für die nicht erklärte Abweichung der zu erklärenden Variable: Summe der quadratischen Abweichungen der für Y prognostizierten Abweichungen von den tatsächlichen Ausprägungen (Residual Sum of Squares, RSS): PN PN RSS = i=1 (ŷi − yi )2 = i=1 2i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 141 / 446 Regressionsansatz als deskriptives Verfahren Die Abweichung eines jeden Wertes von seinem Mittelwert lässt sich darstellen als die Summe der Abweichung der tatsächlichen Werte von den geschätzten Werten und der Abweichung der geschätzten Werte vom Mittelwert. Dies gilt auch für die summierten Werte: T SS N X ⇔ (yi − Ȳ )2 i=1 i=1 N X ⇔ (yi − Ȳ )2 i=1 Prof. Dr. Michael Berlemann (HSU) = RSS + ESS N N X X = (ŷi − yi )2 + (ŷi − Ȳ )2 i=1 N N X X 2 = (ŷi − yi ) + 2i i=1 Empirische Wirtschaftsforschung i=1 25. Juni 2014 142 / 446 Regressionsansatz als deskriptives Verfahren Varianzzerlegung 180,0 160 0 160,0 zu erklärend de Variable (Y) 140,0 Tatsächliche Beobachtung Y = βˆ0 + βˆ1 ⋅ X 120,0 100,0 Prognostizierter Wert Unerklärte Abweichung Mittelwert Mittelwertabweichung 80,0 Erklärte Abweichung 60,0 Y 40,0 X 20,0 0,0 00 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 erklärende Variable (X) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 143 / 446 Regressionsansatz als deskriptives Verfahren Definition Das Bestimmtheitsmaß (R2 ) einer linearen Regression ist definiert als R2 = PN 2 ESS RSS =1− = 1 − PN i=1 i 2 T SS T SS i=1 (yi − Ȳ ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 144 / 446 Regressionsansatz als deskriptives Verfahren Beispiel für hohes Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + i β0 = 104, 3685 β1 = −0, 9872 R2 = 0, 907 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 145 / 446 Regressionsansatz als deskriptives Verfahren 100 Beispiel: Regression mit hohem Bestimmtheitsmaß ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 80 ● ● ● ●● ● ● ● ●● ● ● ● 60 ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 Gesundheitszustand ● ●● ● ● ● ● ● ● ● ● ● ● ● 20 ● ● ● ● 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 146 / 446 Regressionsansatz als deskriptives Verfahren Beispiel für niedriges Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1) Jahreseinkommeni = β0 + β1 · Alteri + i β0 = 14926, 0 β1 = 498, 7 R2 = 0, 102 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 147 / 446 Regressionsansatz als deskriptives Verfahren 200000 Beispiel: Regression mit niedrigem Bestimmtheitsmaß ● ● ● 100000 Jahreseinkommen 150000 ● ● ● ● ● ● 50000 ● ● ● ● ● 0 ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ●●●●● ● 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 148 / 446 Regressionsansatz als deskriptives Verfahren 8.5 Lineare Mehrachregression Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 149 / 446 Regressionsansatz als deskriptives Verfahren Regressionsgleichung einer linearen Mehrfachregression Die Regressionsgleichung einer linearen Mehrfachregression mit k erklärenden Variablen lautet: Y = β0 + β1 · X1,i + β2,i · X2 + · · · + βk · Xk,i + i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 150 / 446 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung einer Regressionsgerade (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i β0 = 102, 61 β1 = −1, 01254 β2 = 0.27168 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 151 / 446 Regressionsansatz als deskriptives Verfahren Standardisierter Regressionskoeffizient Wird ein Regressionskoeffizient mit der Standardabweichung der zugehörigen erklärenden Variablen multipliziert und durch die Standardabweichung der zu erklärenden Variable geteilt, so erhält man den standardisierten Regressionskoeffizienten βks = βk · Prof. Dr. Michael Berlemann (HSU) Stdabw[Xk ] Stdabw[Y ] Empirische Wirtschaftsforschung 25. Juni 2014 152 / 446 Regressionsansatz als deskriptives Verfahren Bestimmtheitsmaß R2 = PN 2 ESS RSS =1− = 1 − PN i=1 i T SS T SS (y − Ȳ )2 i=1 i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 153 / 446 Regressionsansatz als deskriptives Verfahren Definition Das adjustierte Bestimmtheitsmaß (adj.R2 ) ist definiert als: 2 adj.R = 1 − RSS N −(K+1) T SS N −1 =1− PN 2 i=1 i N −(K+1) PN 2 i=1 (yi −Ȳ ) N −1 mit N als Anzahl der Beobachtungen und K + 1 als Anzahl der geschätzten Koeffizienten (inkl. Konstante). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 154 / 446 Regressionsansatz als deskriptives Verfahren Beispiel für Berechnung des adjustierten Bestimmtheitsmaßes (Datensatz 1) Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i β0 = 102, 61 β1 = −1, 01254 β2 = 0.27168 Adj.R2 = 0.9074 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 155 / 446 Regressionsansatz als deskriptives Verfahren Literaturhinweise Literaturhinweise zum 8. Kapitel Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4]. Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2 und 3]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 156 / 446 Stichproben und Zufallszahlen 9. Stichproben und Zufallszahlen 9.1 Grundgesamtheit und Stichprobe 9.2 Zufallszahlen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 157 / 446 Stichproben und Zufallszahlen 9.1 Grundgesamtheit und Stichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 158 / 446 Stichproben und Zufallszahlen Reine (uneingeschränkte) Zufallsauswahl Von einer reinen Zufallsauswahl spricht man, wenn jedes Objekt aus der Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu gelangen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 159 / 446 Stichproben und Zufallszahlen Echte Zufallsstichproben: 1 Lotterieverfahren Alle Elemente der Grundgesamtheit kommen in die Lostrommel und daraus wird gezogen (mit oder ohne Zurücklegen). 2 Zufallszahlenverfahren Generierung von Zufallszahlen (mit Hilfe von Computern erzeugt). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 160 / 446 Stichproben und Zufallszahlen Unechte Zufallsstichproben: Schichtenauswahl Klumpenauswahl Quotenstichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 161 / 446 Stichproben und Zufallszahlen Stichprobenfunktion Eine Stichprobenfunktion (auch: Statistik) ist eine Zufallsvariable, die als Funktion der Stichprobenvariablen definiert ist. Stichprobenfunktionen dienen dazu, eine oder mehrere Stichproben zu verdichten. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 162 / 446 Stichproben und Zufallszahlen Wichtige Stichprobenfunktionen und ihre Momente Stichprobenfunktion PN i=1 xi P 1 X̄s = N · N x √i=1 i X̄s −µ · N Pσ 1 · N (xi − µ)2 N P i=1 1 (xi − X̄s )2 · N i=1P N 1 V ars = n−1 · N (x − X̄s )2 i=1 √ i stdabws = V ars Bezeichnung Erwartungswert Varianz Merkmalssumme Stichprobenmittel Gauß-Statistik MQA bezüglich µ MQA Varianz Stdabw. N ·µ µ 0 σ2 N −1 · σ2 N 2 σ σ N · σ2 σ2 N 1 MQA: mittlere quadratische Abweichung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 163 / 446 Stichproben und Zufallszahlen 9.2 Zufallszahlen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 164 / 446 Stichproben und Zufallszahlen Definition Für eine diskrete Zufallsvariable X ist der Wert der Wahrscheinlichkeitsfunktion f (x) die Wahrscheinlichkeit, dass die Zufallsvariable X gerade die Ausprägung x annimmt: f (x) = P (X = x) mit 0 ≤ f (x) ≤ 1 Für die Summe der Eintrittswahrscheinlichkeiten der einzelnen Zustände j (Anzahl der Ausprägungen: J) muss gelten: J X f (xj ) = 1 ⇔ f (x1 ) + f (x2 ) + ... + f (xJ ) = 1 j=1 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 165 / 446 Stichproben und Zufallszahlen Definition Die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen Wert zwischen x0 und x1 annimmt, lässt sich über die Dichtefunktion berechnen als: Z x 1 P (x0 ≤ X ≤ x1 ) = f (x) · dx ≥ 0. x0 Die Dichtefunktion ist an jeder Stelle positiv: f (x) ≥ 0. Zudem muss das Integral über die Dichtefunktion stets eins betragen: Z ∞ f (x) · dx = 1. −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 166 / 446 Stichproben und Zufallszahlen Definition Die kumulierte Dichtefunktion an der Stelle x1 ist definiert als Z x1 F (x1 ) = P (X ≤ x1 ) = f (x) · dx −∞ Die Ableitung der kumulierten Dichtefunktion an der Stelle x1 ist gerade der Wert der Dichtefunktion an der Stelle x1 : f (x1 ) = Prof. Dr. Michael Berlemann (HSU) dF (x1 ) dx Empirische Wirtschaftsforschung 25. Juni 2014 167 / 446 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer hypothetischen, stetigen Zufallsvariable −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 168 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer hypothetischen, stetigen Zufallsvariable −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 169 / 446 Stichproben und Zufallszahlen Der Erwartungswert einer Zufallsvariablen lässt sich immer numerisch berechnen, wenn die Wahrscheinlichkeits- (bei diskreten Variablen) bzw. die Dichtefunktion (bei stetigen Variablen) bekannt ist Definition Bei diskreten Zufallsvariablen kann der Erwartungswert als Summe der mit den Eintrittswahrscheinlichkeiten gewichteten Zustände berechnet werden: E[X] = J X xj · P (X = xj ) = j=1 J X xj · f (xj ) j=1 Definition Bei stetigen Zufallsvariablen errechnet sich der Erwartungswert als Integral über die mit den Zuständen multiplizierte Dichtefunktion Z ∞ E[X] = x · f (x) · dx −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 170 / 446 Stichproben und Zufallszahlen Definition Die Varianz einer diskreten Zufallsvariable berechnet sich als 2 V ar[X] = σX = J X P (X = xj ) · (xj − E[X])2 = j=1 J X f (xj ) · (xj − E[X])2 j=1 Definition Die Varianz einer stetigen Zufallsvariable ergibt sich als Z ∞ 2 V ar[X] = σX = (xj − E[x])2 · f (x) · dx −∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 171 / 446 Stichproben und Zufallszahlen Definition Die Standardabweichung von diskreten und stetigen Zufallsvariablen ergibt sich als Quadratwurzel aus der Varianz q p 2 Stdabw[X] = σX = V ar[X] = σX Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 172 / 446 Stichproben und Zufallszahlen Definition Für diskrete Zufallsvariablen X und Y mit der gemeinsamen Wahrscheinlichkeitsfunktion f (x, y) ist die Kovarianz definiert als Cov(X, Y ) = J X K X (xj − E[X]) · (yk − E[Y ]) · f (X = xj , Y = yk ) j=1 k=1 Definition Für stetige Zufallsvariablen X und Y mit der gemeinsamen Dichtefunktion f (x, y) ist die Kovarianz definiert als Z ∞Z ∞ (x − E[X]) · (y − E[Y ]) · f (x, y) · dx · dy Cov(X, Y ) = −∞ Prof. Dr. Michael Berlemann (HSU) −∞ Empirische Wirtschaftsforschung 25. Juni 2014 173 / 446 Stichproben und Zufallszahlen Definition Der Korrelationskoeffizient (nach Bravais-Pearson) zweier Zufallsvariablen X und Y ist definiert als Corr(X, Y ) = p Prof. Dr. Michael Berlemann (HSU) Cov(X, Y ) V ar[X] · V ar[Y ] Empirische Wirtschaftsforschung 25. Juni 2014 174 / 446 Stichproben und Zufallszahlen 0.35 0.30 0.20 0.25 Wert der Dichtefunktion 0.40 0.45 Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4] 0 1 2 3 4 5 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 175 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4] 0 1 2 3 4 5 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 176 / 446 Stichproben und Zufallszahlen Definition Eine normalverteilte Zufallsvariable mit dem Erwartungswert µX 2 und der Varianz σX 2 X ∼ N (µX , σX ) hat die über den gesamten reellen Wertebereich definierte Dichtefunktion: f (x) = Prof. Dr. Michael Berlemann (HSU) σX · 1 √ x−µX 2 −0.5· σ 2·π ·e Empirische Wirtschaftsforschung X 25. Juni 2014 177 / 446 Stichproben und Zufallszahlen 0.15 0.10 0.00 0.05 Wert der Dichtefunktion 0.20 0.25 Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 178 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 179 / 446 Stichproben und Zufallszahlen Definition Die Verteilung 2 X ∼ N (µX = 0, σX = 1) bezeichnet man auch als Standardnormalverteilung. Die Standardnormalverteilung hat die Dichtefunktion: f (x) = √ 2 1 · e−0.5·x 2·π Transformationsregel Jede normalverteilte Zufallsvariable X lässt sich in eine standardnormalverteilte Zufallsvariable Z transformieren: Z= Prof. Dr. Michael Berlemann (HSU) X − µX σX Empirische Wirtschaftsforschung 25. Juni 2014 180 / 446 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 181 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 182 / 446 Stichproben und Zufallszahlen Definition Die Dichtefunktion der Exponentialverteilung ist nur über den positiven Wertebereich definiert und lautet: f (x) = λ · e−λ·x für x ≥ 0 Definition Die kumulierte Dichtefunktion der Exponentialverteilung ist gegeben durch: Z x Z x f (t) · dt = λ · e−λ·t · dt = −e−λ·x F (x) = 0 Prof. Dr. Michael Berlemann (HSU) 0 Empirische Wirtschaftsforschung 25. Juni 2014 183 / 446 Stichproben und Zufallszahlen 0.4 0.0 0.2 Wert der Dichtefunktion 0.6 Dichtefunktion einer Exponentialverteilung [λ = 0, 75] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 184 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Exponentialverteilung [λ = 0, 75] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 185 / 446 Stichproben und Zufallszahlen Definition Die Dichtefunktion der t-Verteilung lautet: f (x) = Γ Γ v 2 v+1 2 x2 · 1− √ v · π·v − v+1 2 wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen. Für viele Beobachtungen, d.h. eine große Zahl von Freiheitsgraden, konvergiert die t-Verteilung gegen die Standardnormalverteilung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 186 / 446 Stichproben und Zufallszahlen 0.2 0.0 0.1 Wert der Dichtefunktion 0.3 0.4 Dichtefunktion einer t-Verteilung [20 Freiheitsgrade] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 187 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer t-Verteilung [20 Freiheitsgrade] −4 −2 0 2 4 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 188 / 446 Stichproben und Zufallszahlen Definition Die Dichtefunktion der F-Verteilung lautet: f (x) = Γ Γ v1 2 v1 +v2 2 ·Γ v2 · 2 v1 v2 v21 · 1+ x v1 2 v1 v2 −1 ·x 2 v1 +v 2 wobei Γ die Gammafunktion und v1 sowie v2 die Zahl der Freiheitsgrade bezeichnen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 189 / 446 Stichproben und Zufallszahlen 0.6 0.4 0.0 0.2 Wert der Dichtefunktion 0.8 1.0 Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 190 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade] 0 2 4 6 8 10 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 191 / 446 Stichproben und Zufallszahlen Definition Die Dichtefunktion der Chi-Quadrat-Verteilung lautet: f (x) = 1 2 ·Γ v 2 v v 2 x · x 2 −1 · e− 2 wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 192 / 446 Stichproben und Zufallszahlen 0.06 0.04 0.00 0.02 Wert der Dichtefunktion 0.08 0.10 Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade] 0 5 10 15 20 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 193 / 446 Stichproben und Zufallszahlen 0.8 0.6 0.4 0.2 0.0 Wert der kumulierten Dichtefunktion (Verteilungsfunktion) 1.0 Kumulierte Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade] 0 5 10 15 20 Ausprägung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 194 / 446 Stichproben und Zufallszahlen Literaturhinweise Literaturhinweise zum 9. Kapitel Bamberg, G. und F. Baur (2006): Statistik, 12. Auflage, Oldenbourg Verlag, München [insbes. Kapitel 8,9]. Bauer, T., M. Fertig und C. Schmidt (2009): Empirische Wirtschaftsforschung. Eine Einführung, Springer-Verlag, Berlin u.a. [insbes. Kapitel 1]. Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag, Heidelberg [insbes. Kapitel 11,12]. Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1,2 und 4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 195 / 446 Schätzen von Parametern der Grundgesamtheit 10. Schätzen von Parametern der Grundgesamtheit 10.1 Typen von Schätzern 10.2 Wünschenswerte Eigenschaften von Schätzern 10.3 Momentenmethode 10.4 Maximum Likelihood Methode 10.5 Konfidenzintervalle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 196 / 446 Schätzen von Parametern der Grundgesamtheit 10.1 Typen von Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 197 / 446 Schätzen von Parametern der Grundgesamtheit Typen von Schätzern: Punktschätzer Intervallschätzer (Konfindenzintervalle) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 198 / 446 Schätzen von Parametern der Grundgesamtheit 10.2 Wünschenswerte Eigenschaften von Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 199 / 446 Schätzen von Parametern der Grundgesamtheit Wünschenswerte Eigenschaften von Schätzern: 1 Erwartungstreue (auch: Unverzerrtheit) 2 Konsistenz 3 Effizienz Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 200 / 446 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion ΘˆN eines Parameters Θ heißt erwartungstreu (unverzerrt), wenn ihr Erwartungswert gerade dem zu schätzenden Parameter entspricht: E[Θ̂N ] = Θ. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 201 / 446 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion Θ̂ eines Parameters Θ heißt konsistent, wenn sie stochastisch gegen den zu schätzenden Parameter konvergiert: lim Θ̂ = Θ. N →∞ Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 202 / 446 Schätzen von Parametern der Grundgesamtheit Definition Eine Schätzfunktion Θ̂ eines Parameters Θ heißt effizient, wenn es keine andere Schätzfunktion für den Parameter gibt, die eine geringere Varianz hat. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 203 / 446 Schätzen von Parametern der Grundgesamtheit Zur Schätzung der Parameter der Grundgesamtheit gibt es verschiedene Verfahren: 1 Momentenmethode 2 Maximum-Likelihood-Methode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 204 / 446 Schätzen von Parametern der Grundgesamtheit 10.3 Momentenmethode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 205 / 446 Schätzen von Parametern der Grundgesamtheit Mittelwert Um den Mittelwert einer Grundgesamtheit zu schätzen, verwendet die Momentenmethode das Stichprobenmittel: X̄N = N 1 X · xi N i=1 Diese Schätzfunktion ist erwartungstreu, konsistent und effizient. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 206 / 446 Schätzen von Parametern der Grundgesamtheit 60 Moment-Schätzer für den Mittelwert des Alters bei zunehmender Stichprobengröße (Datensatz 1) ● 50 ● ● ●● ● ● 40 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ● ● ● ● ● ● 30 Stichprobenmittel ● ● ● 20 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 207 / 446 Schätzen von Parametern der Grundgesamtheit Varianz Um die Varianz einer Grundgesamtheit zu schätzen, wird die Stichprobenvarianz verwendet: V arN = N X 1 · (xi − X̄N )2 N − 1 i=1 Auch diese Schätzfunktion ist erwartungstreu, konsistent und effizient. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 208 / 446 Schätzen von Parametern der Grundgesamtheit Moment-Schätzer für die Varianz des Alters bei zunehmender Stichprobengröße (Datensatz 1) 1000 ● ● ● ● ● ● ● ● ●● ● ● ● 500 Stichprobenvarianz 1500 ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●● ●● ●● ● ●● ●● ●●● ●● ●●●●● ●●● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 209 / 446 Schätzen von Parametern der Grundgesamtheit 10.4 Maximum Likelihood Methode Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 210 / 446 Schätzen von Parametern der Grundgesamtheit 8 6 0 2 4 Absolute Häufigkeit 10 12 Histogramm Alter (Datensatz 1) 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 211 / 446 Schätzen von Parametern der Grundgesamtheit 60 Maximum-Likelihood-Schätzer für den Mittelwert des Alters bei zunehmender Stichprobengröße (Datensatz 1) ● 50 ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● 40 Stichprobenmittel ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● 30 ● 20 ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 212 / 446 Schätzen von Parametern der Grundgesamtheit Maximum-Likelihood-Schätzer für die Varianz des Alters bei zunehmender Stichprobengröße (Datensatz 1) 800 ● ● ● 600 ● ● ● ● ● ● ● ●● ● ● 400 Stichprobenvarianz 1000 1200 ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●●●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● 200 ● ● ● ● 0 10 20 30 40 50 60 70 Stichprobengröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 213 / 446 Schätzen von Parametern der Grundgesamtheit 10.5 Konfidenzintervalle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 214 / 446 Schätzen von Parametern der Grundgesamtheit Konfidenzintervall Bei einer Intervallschätzung wird für einen unbekannten Parameter Θ zunächst aus einer Stichprobe eine Punktschätzung Θ̂N berechnet, um die dann ein (zumeist symmetrisches) (1 − α)-Konfidenzintervall konstruiert wird: h i K1−α (Θ) = Θ̂N − δK ; Θ̂N + δK . Dabei wird der Stichprobenfehler δK so bestimmt, dass das Konfidenzintervall den unbekannten Parameter Θ mit einer vorgegebenen (i.d.R. hohen) Wahrscheinlichkeit (1 − α) überdeckt: P (Θ ∈ K1−α (Θ)) = 1 − α. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 215 / 446 Schätzen von Parametern der Grundgesamtheit Nehmen wir an, wir wollen das 95%-Konfidenzintervall des Mittelwerts des Alters aus Datensatz 1 berechnen Dabei gehen wir von einer Größe der Stichprobe von N = 35 aus, wir ziehen also gerade die Hälfte aller Beobachtungen aus der Grundgesamtheit Hierzu schätzen wir aus einer Stichprobe zunächst den Mittelwert Ā und die Varianz σA des Alters Die Intervallgrenzen lassen sich dann berechnen nach α σA Āu = Ā − t N − 1, 1 − · √ = 31, 16 2 N und α σA Āo = Ā + t N − 1, 1 − · √ = 47, 15 2 N Werden also 100 Stichproben der Größe 30 aus der Grundgesamtheit gezogen und hieraus der Mittelwert geschätzt, so werden 95 dieser Mittelwertschätzungen zwischen 31,16 und 47,15 Jahren liegen Falsche Interpretation: Die Wahrscheinlichkeit, dass der Mittelwert der Grundgesamtheit zwischen 31,16 und 47,15 Jahren liegt, ist 95% Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 216 / 446 Schätzen von Parametern der Grundgesamtheit Literaturhinweise Literaturhinweise zum 10. Kapitel Kennedy, P. (2008): A Guide to Econometrics, 6. Auflage, Wiley-Blackwell, Malden [insbes. Kapitel 2]. Sachs, L. und J. Hedderich (2009): Angewandte Statistik. Methodensammlung mit R, 13. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Wewel, M. C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson-Studium, München [insbes. Kapitel 9]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 217 / 446 Grundlagen des Testens von Hypothesen 11. Grundlagen des Testens von Hypothesen 11.1 Hypothesen und Hypothesenformulierung 11.2 Systematik eines Hypothesentests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 218 / 446 Grundlagen des Testens von Hypothesen 11.1 Hypothesen und Hypothesenformulierung Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 219 / 446 Grundlagen des Testens von Hypothesen Stichprobe von Schafen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 220 / 446 Grundlagen des Testens von Hypothesen Blick in die Grundgesamtheit der Schafe... Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 221 / 446 Grundlagen des Testens von Hypothesen Definition Als Arbeitshypothese bezeichnet man diejenige Hypothese, die man ex ante, also vor Durchführung eines Hypothesentests, für korrekt hält. Definition Als Nullhypothese (H0 ) formuliert man die Gegenhypothese der Arbeitshypothese, also gerade das Gegenteil dessen, was man ex ante für korrekt hält. Mit Hilfe des Hypothesentests versucht man, die Nullhypothese zu verwerfen. Definition Die Alternativhypothese (HA ) ist die Gegenhypothese der Nullhypothese. Wird die Nullhypothese verworfen, so erlangt die Alternativhypothese Gültigkeit. Die Alternativhypothese ist identisch mit der Arbeitshypothese. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 222 / 446 Grundlagen des Testens von Hypothesen 11.2 Systematik eines Hypothesentests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 223 / 446 Grundlagen des Testens von Hypothesen Definition Wird die Nullhypothese fälschlicherweise abgelehnt, so handelt es sich um einen sog. Fehler 1. Art (α-Fehler). Definition Wird hingegen eine Nullhypothese fälschlicherweise angenommen, so handelt es sich um einen Fehler 2. Art (β-Fehler). Fehler 1. und 2. Art H0 angenommen H0 abgelehnt H0 korrekt kein Fehler 1−α Fehler 1. Art (α-Fehler) α Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung H0 falsch Fehler 2. Art (β-Fehler) β kein Fehler 1−β 25. Juni 2014 224 / 446 Grundlagen des Testens von Hypothesen Definition Die Wahrscheinlichkeit eines statistischen Tests, eine korrekte Arbeitshypothese (=Alternativhypothese) auch als korrekt zu erkennen, bezeichnet man auch als Power (Teststärke) eines Tests. Diese Wahrscheinlichkeit entspricht derjenigen, keinen Fehler 2. Art zu begehen: G=1−β Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 225 / 446 Grundlagen des Testens von Hypothesen Literaturhinweise Literaturhinweise zum 11. Kapitel Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Sachs, L. und J. Hedderich (2006): Angewandte Statistik, 12. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 7]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 5]. Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson-Studium, München [insbes. Kapitel 10]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 226 / 446 Verteilungstests 12. Verteilungstests 12.1 Grundlagen 12.2 Grafische Analyse 12.3 Chi-Quadrat-Anpassungstest 12.4 Kolmogorov-Smirnov-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 227 / 446 Verteilungstests 12.1 Grundlagen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 228 / 446 Verteilungstests 12.2 Grafische Analyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 229 / 446 Verteilungstests 0.010 0.000 0.005 Dichte 0.015 Grafische Analyse für Normalverteilungshypothese Alter (Stichprobe aus Datensatz 1, N=35) 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 230 / 446 Verteilungstests Quantil-Quantil-Plot (QQ-Plot) zur Normalverteilungshypothese Alter (Stichprobe aus Datensatz 1, N=35) ● ● 80 ● ● ● 60 ●●● ● ● ● ● 40 Stichprobenquantile ● ●● ● ● ● ● ● ● ● ● 20 ● ● ●● ● ● ● ● ● ● 0 ● ● −2 −1 0 1 2 Theoretische Quantile Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 231 / 446 Verteilungstests 12.3 Chi-Quadrat-Anpassungstest Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 232 / 446 Verteilungstests Stichprobe Ausbildungsjahre (Datensatz 1, N=50) Ausbildungsjahre 0 1 2 4 5 6 7 8 9 10 11 13 14 15 16 17 18 20 22 Prof. Dr. Michael Berlemann (HSU) Anzahl 3 2 1 2 1 4 4 7 2 4 3 2 2 2 6 1 1 2 1 Empirische Wirtschaftsforschung 25. Juni 2014 233 / 446 Verteilungstests Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50) Klasse Anzahl Prof. Dr. Michael Berlemann (HSU) 1 0-4 8 2 5-8 16 3 9-12 9 4 13-16 12 Empirische Wirtschaftsforschung 5 17-22 5 25. Juni 2014 234 / 446 Verteilungstests Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50) versus gruppierte Normalverteilung Klasse Stichprobe Normalverteilung Prof. Dr. Michael Berlemann (HSU) 1 0-4 8 7 2 5-8 16 11 3 9-12 9 14 Empirische Wirtschaftsforschung 4 13-16 12 11 5 17-22 5 7 25. Juni 2014 235 / 446 Verteilungstests R-Output Chi-Quadrat-Test auf Normalverteilung Ausbildungsjahre (Stichprobe aus Datensatz 1, N=50) Pearson’s Chi-squared test data: Stichprobe and Normalverteilung X-squared = 10, df = 8, p-value = 0.265 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 236 / 446 Verteilungstests 12.4 Kolmogorov-Smirnov-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 237 / 446 Verteilungstests 1.0 Illustration des Kolmogorov-Smirnov-Tests auf Normalverteilung Alter (Stichprobe aus Datensatz 1, N=35) ● ● ● ● ● ● 0.8 ● ● 0.6 ● ● ● ● ● ● ● ● 0.4 kumulierte Dichte ● ● ● ● 0.2 ● ● ● Kolmogorov−Smirnov−Differenz ● ● ● ● ● 0.0 ● 0 20 40 60 80 100 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 238 / 446 Verteilungstests R-Output Kolmogorov-Smirnov-Test auf Normalverteilung Alter (Stichprobe aus Datensatz 1, N=35) One-sample Kolmogorov-Smirnov test data: Stichprobe D = 0.1277, p-value = 0.6178 alternative hypothesis: two-sided Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 239 / 446 Verteilungstests Literaturhinweise Literaturhinweise zum 12. Kapitel Bleymüller, J., G. Gehlert und H. Gülicher (2002): Statistik für Wirtschaftswissenschaftler, 13. Auflage, Vahlen, München [insbes. Abschnitte 19.1 und 19.4]. Hatzinger, R., K. Hornik und H. Nagel (2011): R. Einführung in die angewandte Statistik, Pearson Studium, München [insbes. Abschnitt 8.4]. Sachs, L. und J. Hedderich (2006): Angewandte Statistik. Methodensammlung mit R, 12. Auflage, Springer Verlag, Berlin u.a. [insbes. Kapitel 7.2]. Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL, Pearson Studium, München [insbes. Kapitel 10.3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 240 / 446 Parametrische Mittelwerttests 13. Parametrische Mittelwerttests 13.1 Grundlagen 13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe 13.3 Einstichproben-t-Test 13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben 13.5 Zweistichproben-t-Test bei unabhängigen Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 241 / 446 Parametrische Mittelwerttests 13.1 Grundlagen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 242 / 446 Parametrische Mittelwerttests Zentraler Grenzwertsatz Der Zentrale Grenzwertsatz besagt, dass sich die Verteilung des Mittelwerts von n unabhängigen Zufallszahlen aus einer beliebigen Verteilung mit endlichem Mittelwert µ und endlicher Standardabweichung σ mit zunehmender Beobachtungsanzahl N einer Normalverteilung mit Mittelwert µ und Standardabweichung √σN annähert. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 243 / 446 Parametrische Mittelwerttests 13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 244 / 446 Parametrische Mittelwerttests Dichtefunktion der Prüfgröße Dichte und Erwartungswert der Prüfgröße Erwartungswert 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 245 / 446 Parametrische Mittelwerttests Kritische Werte für die Prüfgröße eines zweiseitigen Hypothesentests oberer kritischer Wert Dichtefunktion der Prüfgröße unterer kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 246 / 446 Parametrische Mittelwerttests Annahme- und Ablehnungsbereich bei zweiseitigem Hypothesentest Ablehnungsbereich Ablehnungsbereich Annahmebereich oberer kritischer Wert Dichtefunktion der Prüfgröße unterer kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 247 / 446 Parametrische Mittelwerttests Dichtefunktion der Prüfgröße Dichte und Erwartungswert der Prüfgröße Erwartungswert 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 248 / 446 Parametrische Mittelwerttests Kritische Werte für die Prüfgröße eines einseitigen Hypothesentests Dichtefunktion der Prüfgröße kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 249 / 446 Parametrische Mittelwerttests Annahme- und Ablehnungsbereich bei einseitigem Hypothesentest Ablehnungsbereich Annahmebereich Dichtefunktion der Prüfgröße kritischer Wert Erwartungswert Wahrscheinlichkeit Fehler 1. Art 5 6 7 8 9 10 11 12 13 14 15 Ausprägung der Prüfgröße Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 250 / 446 Parametrische Mittelwerttests 13.3 Einstichproben-t-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 251 / 446 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Einstichproben-t-Test: Nullhypothese H0 : µ = µ0 Alternativhypothese HA : µ 6= µ0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 252 / 446 Parametrische Mittelwerttests Prüfgröße des t-Tests: Beim t-Test wird das standardisierte Stichprobenmittel als Prüfgröße verwendet: √ √ (X̄ − µ0 ) · N (X̄ − µ0 ) · N qP T (x1 , x2 , · · · , xN ) = p = ∼ t(N − 1) N 1 V ar[X] (x − X̄)2 N −1 i=1 i (1) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 253 / 446 Parametrische Mittelwerttests Prüfgrößen und Ablehnungsbereiche beim t-Test: Annahmen: H0 : HA : Prüfgröße: Grundgesamtheit normalverteilt, µ unbekannt, σ unbekannt µ = µ0 µ ≤ µ0 µ ≥ µ0 µ 6= µ0 µ > µ0 √ µ < µ0 (X̄−µ0 )· N √ T = H0 wird abgelehnt, wenn: |T | größer als T größer als T kleiner als (1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1) der t-Verteilung (N-1 Freiheitsgrade) V ar[X] Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 254 / 446 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) −4.1 −0.86 0 3.9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: −0.86 df: 19 H0 µ tfitted α conf.int 9.24 ● 6 8.37 10.1 11.83 14 Ausbildungsjahre (Datenquelle: Stichprobe 1 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 255 / 446 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) One Sample t-test t = -0.8592, df = 19, p-value = 0.4009 alternative hypothesis: true mean is not equal to 10.1 90 percent confidence interval: 7.238155 11.061845 sample estimates: mean of x 9.15 (Datenquelle: Stichprobe 1 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 256 / 446 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) −4.1 0 2.08 3.9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: 2.08 df: 19 H0 µ tfitted α conf.int 12.18 ● 6 8.37 10.1 11.83 14 Ausbildungsjahre (Datenquelle: Stichprobe 2 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 257 / 446 Parametrische Mittelwerttests Zweiseitiger Einstichproben-t-Test H0 : Ausbildungsjahre = 10, 1 (α = 0, 10) One Sample t-test t = 2.076, df = 19, p-value = 0.05171 alternative hypothesis: true mean is not equal to 10.1 90 percent confidence interval: 10.4425 13.8575 sample estimates: mean of x 12.15 (Datenquelle: Stichprobe 2 aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 258 / 446 Parametrische Mittelwerttests Einseitiger Einstichproben-t-Test H0 : Alter ≤ 40, (α = 0, 10) −4 0 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: 0.28 df: 29 H0 µ tfitted α 40.28 ● 36 38 40 41.31 44 Alter (Datenquelle: Stichprobe aus Datensatz 1, N=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 259 / 446 Parametrische Mittelwerttests Einseitiger Einstichproben-t-Test H0 : Alter ≤ 40 (α = 0, 10) One Sample t-test t = 0.2772, df = 29, p-value = 0.3918 alternative hypothesis: true mean is greater than 40 sample estimates: mean of x 40.96667 (Datenquelle: Stichprobe aus Datensatz 1, N=30) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 260 / 446 Parametrische Mittelwerttests 13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 261 / 446 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Zweistichproben-t-Test: Nullhypothese H0 : µ̄ = µ1 − µ2 = µ0 Alternativhypothese HA : µ̄ 6= µ0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 262 / 446 Parametrische Mittelwerttests 13.5 Zweistichproben-t-Test bei unabhängigen Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 263 / 446 Parametrische Mittelwerttests (Zweiseitiges) Testproblem beim Zweistichproben-t-Test: Nullhypothese H0 : µ1 = µ2 Alternativhypothese HA : µ1 6= µ2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 264 / 446 Parametrische Mittelwerttests Prüfgröße des Zweistichproben-t-Tests: Beim t-Test lautet das standardisierte Stichprobenmittel, welches als Prüfgröße verwendet wird: p N · M · (N + M − 2) T = N +M X̄1 − X̄2 −p ∼ t(N + M − 2) (N − 1) · V ar[X1 ] + (M − 1) · V ar[X2 ] Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 265 / 446 Parametrische Mittelwerttests Prüfgrößen und Ablehnungsbereiche beim Zweistichproben-t-Test: Annahmen: H0 : HA : Prüfgröße: H0 wird abgelehnt, wenn Grundges. normalvert., µ unbekannt, σ unbekannt, unabhängig µ1 = µ2 µ1 ≤ µ2 µ1 ≥ µ2 µ1 6=√µ2 µ1 > µ 2 µ1 < µ 2 T = N ·M ·(N +M −2) N +M −√ X¯1 −X¯2 (N −1)·V ar[X1 ]+(M −1)·V ar[X2 ] |T | größer als T größer als T kleiner als (1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1) der t-Verteilung mit N+M-2 Freiheitsgraden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 266 / 446 Parametrische Mittelwerttests Zweiseitiger Zweistichproben-t-Test H0 : Einkommenf = Einkommenm (α = 0, 10) −4 −2.16 0 4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● t−value: −2.16 df: 27.81 H0 µ tfitted α −2.16 ● −4 −1.7 0 1.7 4 t−Wert Test auf Mittelwertgleichheit Jahreseinkommen Frauen versus Männer (Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 267 / 446 Parametrische Mittelwerttests Zweiseitiger Zweistichproben-t-Test H0 : Einkommenf = Einkommenm (α = 0, 10) Welch Two Sample t-test t = -2.1577, df = 27.806, p-value = 0.03974 alternative hypothesis: true difference in means is not equal to 0 90 percent confidence interval: -43911.858 -5190.642 sample estimates: mean of x mean of y 19696.25 44247.50 (Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 268 / 446 Parametrische Mittelwerttests Literaturhinweise Literaturhinweise zum 13. Kapitel Bühl, A. (2006): SPSS 14. Einführung in die moderne Datenanalyse, 10. Auflage, Pearson Studium, München u.a. [insbes. Kapitel 12]. Field, A., J. Miles und Z. Field (2011): Discovering Statistics Using R, Sage Publications, Los Angeles u.a. [insbes. Kapitel 9]. Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 6]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 269 / 446 Regressionsanalyse als induktives Verfahren 14. Regressionsanalyse als induktives Verfahren 14.1 Regressionen auf Basis von Stichproben 14.2 Eigenschaften von KQ-Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 270 / 446 Regressionsanalyse als induktives Verfahren 14.1 Regressionen auf Basis von Stichproben Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 271 / 446 Regressionsanalyse als induktives Verfahren 14.2 Eigenschaften von KQ-Schätzern Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 272 / 446 Regressionsanalyse als induktives Verfahren 1. Gauß-Markov-Bedingung Es handelt sich um ein korrekt spezifiziertes lineares Regressionsmodell des Typs: yi = β0 + β1 · x1,i + · · · + βK · xK,i + i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 273 / 446 Regressionsanalyse als induktives Verfahren 2. Gauß-Markov-Bedingung Der Störterm hat den Erwartungswert null: E[i ] = 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 274 / 446 Regressionsanalyse als induktives Verfahren 3. Gauß-Markov-Bedingung Der Störterm hat (genauso wie die zu erklärende Variable) eine konstante Varianz (Homoskedastizität): σY2 = σ2 = konst Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 275 / 446 Regressionsanalyse als induktives Verfahren 4. Gauß-Markov-Bedingung Es gibt keine serielle Korrelation der Störterme (und damit auch keine serielle Korrelation der zu erklärenden Variable) E[i · j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N Die Bedingung impliziert, dass die Beobachtungen stochastisch unabhängig sein müssen Ist diese Bedingung gegeben, so gilt auch: Cov[yi , yj ] = Cov[i , j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 276 / 446 Regressionsanalyse als induktives Verfahren 5. Gauß-Markov-Bedingung Die erklärenden Variablen X sind deterministisch, d.h. sie werden bei wiederholten Stichprobenziehungen als fest gegebene (deterministische) Größen angenommen und nicht aus einem neuen Zufallsprozess generiert. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 277 / 446 Regressionsanalyse als induktives Verfahren 6. Gauß-Markov-Bedingung Die erklärenden Variablen X sind linear unabhängig voneinander (d.h. es besteht keine perfekte Multikollinearität). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 278 / 446 Regressionsanalyse als induktives Verfahren 7. Gauß-Markov-Bedingung Die Varianzen der erklärenden Variablen X sind endlich und positiv. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 279 / 446 Regressionsanalyse als induktives Verfahren 8. Gauß-Markov-Bedingung Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden Parameter k + 1. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 280 / 446 Regressionsanalyse als induktives Verfahren Gauß-Markov-Theorem Bei Gültigkeit der Gauß-Markov-Bedingungen hat der Kleinste-Quadrate-Schätzer (OLS) innerhalb der Klasse aller linearen und erwartungstreuen Schätzfunktionen die kleinste Varianz (BLUE-Eigenschaft). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 281 / 446 Regressionsanalyse als induktives Verfahren Erweitertes Gauß-Markov-Theorem Sind die Gauß-Markov-Bedingungen erfüllt und ist zudem der Störterm i normalverteilt, so führt der Kleinste-Quadrate-Schätzer (OLS) immer zu unverzerrten, varianzminimierenden Schätzern für die Koeffizienten (BUE-Eigenschaft). Die Schätzer sind zudem dann konsistent (d.h. sie konvergieren mit zunehmender Stichprobengröße gegen die Werte der Grundgesamtheit) und folgen einer Normalverteilung: β̂0 ∼ N (β0 , σβ̂2 ) ∧ β̂1 ∼ N (β1 , σβ̂2 ) 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 1 25. Juni 2014 282 / 446 Regressionsanalyse als induktives Verfahren Literaturhinweise Literaturhinweise zum 14. Kapitel Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 283 / 446 Typen von Querschnittsregressionen 15. Typen von Querschnittsregressionen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 284 / 446 Typen von Querschnittsregressionen Typen von zu erklärenden Variablen in Querschnittsregressionen: Stetige abhängige Variable Binäre abhängige Variable Nominale abhängige Variable Ordinale abhängige Variable Zählvariable Null-inflationierte Variable Zensierte Variable Trunkierte Variable Wie wir später sehen werden, ist in allen anderen Fällen als dem der stetigen zu erklärenden Variable die Methode der Kleinsten Quadrate zur Schätzung einer Regressionsbeziehung ungeeignet Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 285 / 446 Typen von Querschnittsregressionen Literaturhinweise Literaturhinweise zum 15. Kapitel Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons [insbes. Kapitel 4.1 und 4.2]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 17]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 7]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 286 / 446 Lineare Regressionsanalyse 16. Lineare Regressionsanalyse 16.1 Identifikation von ungewöhnlichen Beobachtungen 16.2 Koeffiziententests 16.3 Gütetests 16.4 Heteroskedastizität 16.5 Multikollinearität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 287 / 446 Lineare Regressionsanalyse 16.1 Identifikation von ungewöhnlichen Beobachtungen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 288 / 446 Lineare Regressionsanalyse Vorgehen bei einem Ausreißer-Test mit Bonferonni-Korrektur 1 Schätzung einer Regressionsgleichung für jede (N − 1)-Submenge der Stichprobe 2 Berechnung des Residuums für den jeweils ausgelassenen Wert 3 Berechnung der studentisierten leave-one-out Residuen ri (Standardisierung) Aufstellen der Hypothesen: 4 H0 : Die Stichprobe enthält keinen Ausreißer HA : Die Stichprobe enthält mindestens einen Ausreißer 5 Der Prüfwert des Tests lässt sich berechnen nach: 0.5 N −K −1 Ti = ri · t(N − K − 1) N − K − ri2 6 Da der Ausreißer-Test nicht einen einzelnen Wert, sondern alle Werte gleichzeitig überprüfen soll, muss für den sich für ein vorgegebenes Signifikanzniveau α aus der t-Verteilung ergebende Wert noch eine sog. Bonferonni-Korrektur durchgeführt werden Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 289 / 446 Lineare Regressionsanalyse Ausreißer-Test mit Bonferonni-Korrektur No Studentized residuals with Bonferonni p < 0.05 Largest |rstudent|: 14 rstudent: -2.860342 unadjusted p-value: 0.0063441 Bonferonni p: 0.3172 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 290 / 446 Lineare Regressionsanalyse Definition Der Hebelwert (Leverage) einer Beobachtung gibt an, wie stark sich die Modellanpassung einer Regression (betragsmäßig) ändert, wenn die Beobachtung aus der Schätzung der Regressionsgleichung ausgeschlossen wird. Der Hebelwert der Beobachtung i lässt sich berechnen als hi = Prof. Dr. Michael Berlemann (HSU) σ 2 − ˆi σ2 Empirische Wirtschaftsforschung 25. Juni 2014 291 / 446 Lineare Regressionsanalyse Daumenregel: Ein Leverage ist problematisch, wenn gilt: h̄i > Prof. Dr. Michael Berlemann (HSU) 2·K N Empirische Wirtschaftsforschung 25. Juni 2014 292 / 446 Lineare Regressionsanalyse Verteilung der Leverages 10 0 5 Absolute Häufigkeit 15 Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 0.05 0.10 0.15 0.20 Hebelwerte (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 293 / 446 Lineare Regressionsanalyse Leverages versus Quantile der positiven Normalverteilung Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 39 0.15 8 ● 0.10 Leverages ● ● ● ●● ● ● ● ● ● ● ●● ● 0.00 0.05 ●● ●●● ●●●● ●●● ●●●● ●● ● ● ● ●●● ●● ●●● ●● ●● 0.0 0.5 1.0 1.5 2.0 Quantile der positiven Normalverteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 294 / 446 Lineare Regressionsanalyse Quantile der Verteilung der studentisierten Leverages versus Quantile der t-Verteilung Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre ● ●● ● ● ● ● 1 ●● ● ● 0 ● ●● ●● ●● ●●● ● ●●● ●●● ● ●● ●●●● ●●●● ● ● −1 ●● ● ● ● −2 Quantile der Verteilung der studentisierten Leverages 2 ● ● ● ● −2 −1 0 1 2 Quantile der t−Verteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 295 / 446 Lineare Regressionsanalyse Definition Die Cook-Distanz einer Beobachtung gibt an, um wieviel sich die Residuen aller Fälle ändern, wenn dieser Fall aus der Schätzung der Regressionsgleichung ausgeschlossen wird. Die Cook-Distanz der Beobachtung i lässt sich berechnen als Di = Prof. Dr. Michael Berlemann (HSU) hi 1 · r2 · K i 1 − hi Empirische Wirtschaftsforschung 25. Juni 2014 296 / 446 Lineare Regressionsanalyse Cook-Distanzen versus Quantile der positiven Normalverteilung 0.07 Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre 38 15 0.06 ● ● 0.05 ● ● 0.04 ● ● 0.03 Cook Distanzen ● ● ● ●●● ● 0.02 ● ●● 0.00 0.01 ● ● ● ● ● ● ● ●●●● ●● ●● ●●●●●● ●●●●●●●●●●● 0.0 0.5 1.0 1.5 2.0 Quantile der positiven Normalverteilung (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 297 / 446 Lineare Regressionsanalyse 16.2 Koeffiziententests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 298 / 446 Lineare Regressionsanalyse Koeffiziententests werden für jeden Koeffizienten getrennt durchgeführt! Koeffiziententest ohne Vorzeichenhypothese H0 : βk = 0 HA : βk 6= 0 Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist negativ) H0 : βk ≥ 0 HA : βk < 0 Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist positiv) H0 : βk ≤ 0 HA : βk > 0 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 299 / 446 Lineare Regressionsanalyse Typische Signifikanzniveaus in der Regressionsanalyse α = 0.1: schwach signifikanten Zusammenhang Solch schwach signifikante Zusammenhänge werden oft in Tabellen dadurch gekennzeichnet, dass der geschätzte Koeffizient mit einem Stern versehen wird ”*” α = 0.05: signifikanten Zusammenhang Signifikante Zusammenhänge werden oft in Tabellen durch zwei Sterne gekennzeichnet ”**” α = 0.01: hoch signifikanten Zusammenhang Hoch signifikante Zusammenhänge werden oft in Tabellen durch drei Sterne gekennzeichnet ”***” Kann die Nullhypothese nicht zurück gewiesen werden, so spricht man von einem insignifikanten Koeffizienten Nicht signifikante Zusammenhänge hingegen werden nicht mit Sternen versehen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 300 / 446 Lineare Regressionsanalyse Koeffiziententests multiple lineare Regression Schätzer Std. Fehler Gesundheitszustand (Konstante) 102.3942 Alter -1.0244 Ausbildungsjahre 0.2819 Adj. R-Quadrat 0.8862 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) 2.6225 0.0585 0.2295 Empirische Wirtschaftsforschung t-Wert p-Wert 39.04 -17.50 1.23 0.0000 0.0000 0.2254 25. Juni 2014 301 / 446 Lineare Regressionsanalyse 16.3 Gütetests Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 302 / 446 Lineare Regressionsanalyse F-Test als Spezifikationstest einer linearen Regression Zur Überprüfung des Erklärungsgehalts einer auf einer Stichprobe beruhenden linearen Regression wird die Nullhypothese überprüft, dass alle geschätzten Koeffizienten der erklärenden Variablen (nicht die Konstante) gleichzeitig null sind: H0 : β1 = β2 = · · · = βK = 0 HA : H0 ist falsch Die Prüfgröße des F-Tests lautet: F = ESS K RSS N −K−1 Prof. Dr. Michael Berlemann (HSU) PN i=1 (ŷi −Ȳ =1− K PN 2i N −K−1 )2 ∼ F (N − K − 1) i=1 Empirische Wirtschaftsforschung 25. Juni 2014 303 / 446 Lineare Regressionsanalyse Koeffiziententests multiple lineare Regression mit F-Test Schätzer Std. Fehler t-Wert Gesundheitszustand (Konstante) 102.3942 2.6225 39.04 Alter -1.0244 0.0585 -17.50 Ausbildungsjahre 0.2819 0.2295 1.23 Adj. R-Quadrat 0.8862 F-Wert 191.9 (dF = 47), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.0000 0.0000 0.2254 25. Juni 2014 304 / 446 Lineare Regressionsanalyse 16.4 Heteroskedastizität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 305 / 446 Lineare Regressionsanalyse Scatterplot geschätzte Werte versus Residuen (Heteroskedastischer Fall) Gesundheitszustand =β0+β1 Ausbildungsjahre ● ● ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −20 Residuen 0 ● ● ● ● ● ● −40 ● ● ● ● ● −60 ● 50 55 60 65 70 75 Geschätzte Werte Gesundheitszustand (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 306 / 446 Lineare Regressionsanalyse Scatterplot geschätzte Werte versus Residuen (Homoskedastischer Fall) Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre ● 10 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −10 ● ● ● 0 Residuen ● ● ● ● ● ● ● ● ● ● ● ● ● −20 ● ● 20 40 60 80 100 Geschätzte Werte Gesundheitszustand (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 307 / 446 Lineare Regressionsanalyse Statistische Tests auf Heteroskedastizität 1 Goldfeldt-Quandt-Test 2 Breusch-Pagan-Test 3 White-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 308 / 446 Lineare Regressionsanalyse Vorgehen beim Goldfeldt-Quandt-Test 1 2 3 4 Teilen des Samples S in zwei Sub-Samples S1 und S2 . Schätzung einer linearen Regressionsgerade für jedes Sub-Sample. PN1 2 PN2 2 Berechnung der Summe der quadrierten Residuen i=1 i,1 und i=1 i,2 . Aufstellen der Hypothesen: H0 : Quadratsummen der Residuen ist identisch. HA : Quadratsummen der Residuen unterscheiden sich. 5 Vergleich der Varianzen der Residuen mit Hilfe eines F-Tests (größere Quadratsumme im Zähler): PN1 F = 6 i=1 i,1 N1 −K PN2 i=1 i,2 N2 −K F (N1 − K, N2 − K) Übersteigt nun der Wert der Teststatistik den kritischen Wert der F-Verteilung mit N1 − K und N2 − K Freitheitsgraden, kann die Nullhypothese abgelehnt und die Alternativhypothese angenommen werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 309 / 446 Lineare Regressionsanalyse Goldfeldt-Quandt-Test Goldfeld-Quandt test data: Regression GQ = 1.5842, df1 = 23, df2 = 23, p-value = 0.2772 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 310 / 446 Lineare Regressionsanalyse Goldfeldt-Quandt-Test Goldfeld-Quandt test data: Regression GQ = 0.742, df1 = 22, df2 = 22, p-value = 0.4898 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 311 / 446 Lineare Regressionsanalyse Vorgehen beim Breusch-Pagan-Test 1 Aufstellen der Hypothesen: H0 : Es liegt Homoskedastizität vor. HA : Es liegt keine Homoskedastizität vor. 2 Schätzung einer linearen Regression. 3 Festlegung, welche Variablen für eine mögliche Heteroskedasie verantwortlich sein könnten 4 Schätzung einer weiteren Regressionsgerade, bei der die quadrierten Residuen aus der ersten Regression durch diese Variablen erklärt werden. 5 Berechnung des Bestimmtheitsmaß R2 für diese Regression. 6 Die Prüfgröße N · R2 ist asymptotisch χ2 -verteilt mit K Freiheitsgraden. 7 Übersteigt die Prüfgröße den kritischen Wert der χ2 -Verteilung, kann die Nullhypothese der Homoskedastizität abgelehnt werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 312 / 446 Lineare Regressionsanalyse Breusch-Pagan-Test studentized Breusch-Pagan test data: Regression BP = 6.2663, df = 1, p-value = 0.01231 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 313 / 446 Lineare Regressionsanalyse Breusch-Pagan-Test studentized Breusch-Pagan test data: Regression BP = 1.3044, df = 2, p-value = 0.5209 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 314 / 446 Lineare Regressionsanalyse White-Test studentized Breusch-Pagan test data: Regression BP = 7.6331, df = 1, p-value = 0.005731 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 315 / 446 Lineare Regressionsanalyse White-Test studentized Breusch-Pagan test data: Regression BP = 5.8472, df = 5, p-value = 0.3214 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 316 / 446 Lineare Regressionsanalyse Es existiert eine Vielzahl an Schätzmethoden, die dem Problem der Heteroskedastie begegnen. Lösungsansätze für Hetroskedastizität 1 Varianztransformation (bei bekannter Varianz) 2 Weighted Least Squares 3 Feasible Generalized Least Squares 4 White-Korrektur (heteroskedastieresistente Standardfehler) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 317 / 446 Lineare Regressionsanalyse Regression mit White-Korrektur der Standardabweichung Schätzer Std. Fehler t-Wert Gesundheitszustand (Konstante) 102.39 1.82 56.24 Alter -1.02 0.05 -22.04 Ausbildungsjahre 0.28 0.18 1.54 Adj. R-Quadrat 0.8862 F-Wert 191.9 (dF = 47), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.00 0.00 0.12 25. Juni 2014 318 / 446 Lineare Regressionsanalyse 16.5 Multikollinearität Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 319 / 446 Lineare Regressionsanalyse Definition Liegt zwischen zwei Regressoren einer multiplen linearen Regression yi = β0 + β1 · x1,i + β2 · x2,i + i eine lineare Beziehung vor, d.h. x2 = c + γ · x1 bzw. x1 = c x2 − γ γ so liegt perfekte Multikollinearität vor. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 320 / 446 Lineare Regressionsanalyse Folgen perfekter Multikollinearität Einsetzen von x2 = c + γ · x1 in die Regressionsgleichung ergibt y = β0 + β1 · x1 + β2 · (c + γ1 · x1 ) + ⇔y = (β0 + β2 · c) + (β1 + β2 · γ) · x1 + Einsetzen von x1 = x2 γ − c γ in die Regressionsgleichung ergibt y ⇔y Prof. Dr. Michael Berlemann (HSU) x2 c = β0 + β1 · − + β2 · x 2 + γ γ c β1 = β0 − β1 · + + β2 · x 2 + γ γ Empirische Wirtschaftsforschung 25. Juni 2014 321 / 446 Lineare Regressionsanalyse Venn-Diagramme Fall 1: keine Multikollinearität Fall 2 / 3: imperfekte Multikollinearität (geringe: Fall 2 / hohe: Fall 3) Fall 4: perfekte Multikollinearität 1. 2. stdabw(Y) stdabw(X1) stdabw(Y) stdabw(X2) 3. stdabw(X1) stdabw(X2) 4. stdabw(Y) stdabw(Y) stdabw(X2)= stdabw(X1) stdabw(X1) Prof. Dr. Michael Berlemann (HSU) stdabw(X2) Empirische Wirtschaftsforschung 25. Juni 2014 322 / 446 Lineare Regressionsanalyse Hilfsregressionen Beispiel: drei erklärende Variablen x1 , x2 und x3 : yi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i Hilfsregressionen: x1,i = α0 + α1 · x2,i + α2 · x3,i + 1,i x2,i = δ0 + δ1 · x1,i + δ2 · x3,i + 2,i x3,i = γ0 + γ1 · x1,i + γ2 · x2,i + 3,i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 323 / 446 Lineare Regressionsanalyse Variance Inflation Factors Häufig wird auch der V ariance Inf lation F actor (VIF) jeder Hilfsregression k zur Diagnose von Multikollinearität genutzt: V IFk = 1 1 − Rk2 Faustregel: Ist der V IF größer als zehn (Rk2 > 0, 9), deutet das auf sehr starke Multikollinearität. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 324 / 446 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) -17432.5 72085.2 -0.242 0.8100 Alter 911.0 703.7 703.7 0.2019 Gesundheitszustand 387.5 684.0 0.566 0.5738 Geschlecht(w) -20749.3 10851.0 -1.912 0.0621 Adj. R-Quadrat 0.1574 F-Wert 4.051 (dF = 46), p-Wert = 0.0123 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 325 / 446 Lineare Regressionsanalyse Korrelationskoeffizient Gesundheitszustand und Alter Korrelationskoeffizient(Gesundheitszustand,Alter) = -0.94 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Variance Inflation Factors VIF(Alter) = 8.676669 VIF(Gesundheitszustand) = 8.671815 VIF(Geschlecht(w)) = 1.112734 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 326 / 446 Lineare Regressionsanalyse Möglichkeiten der Ausschaltung von Multikollinearität 1 Ausschluß von Variablen 2 Zusammenfassung von Variablen 3 Einbindung zusätzlicher Informationen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 327 / 446 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Ausschluß Gesundheitszustand Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) 22716.6 13065.3 1.739 0.0886 Alter 538.7 249.8 2.157 0.0362 Geschlecht(w) -20408.4 10755.8 -1.897 0.0639 Adj. R-Quadrat 0.1695 F-Wert 6.002 (dF = 47), p-Wert = 0.004771 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 328 / 446 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Ausschluß Alter Schätzer Std. Fehler t-Wert p-Wert Jahreseinkommen (Konstante) 73552.3 16151.7 4.554 0.0007 Gesundheitszustand -439.5 246.3 -1.784 0.0808 Geschlecht(w) -21596.0 10908.9 -1.980 0.0536 Adj. R-Quadrat 0.1453 F-Wert 5.163 (dF = 47), p-Wert = 0.009394 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 329 / 446 Lineare Regressionsanalyse Berechnung einer kombinierten Variable Kombination = 0.5 · Prof. Dr. Michael Berlemann (HSU) Alter Gesundheitszustand + 0.5 · (−1) · σAlter σGesundheitszustand Empirische Wirtschaftsforschung 25. Juni 2014 330 / 446 Lineare Regressionsanalyse Regression mit Multikollinearitätsproblem, Kombinationsvariable Schätzer Std. Fehler t-Wert Jahreseinkommen (Konstante) 50492.0 6701.0 7.534 Kombination 10917.0 5446 2.005 Geschlecht(w) -20775.0 10839 -1.917 Adj. R-Quadrat 0.1592 F-Wert 5.64 (dF = 47), p-Wert = 0.006374 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.0000 0.0508 0.0614 25. Juni 2014 331 / 446 Lineare Regressionsanalyse Literaturhinweise Literaturhinweise zum 16. Kapitel, Teil I Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1-4, 17-21]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 1]. Faraway, J. J. (2005): Linear Models with R, Texts in Statistical Science, Chapman & Hall/CRC Boca Raton. Fahrmeir, L., T. Kneib und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, Springer Verlag, Berlin [insbes. Kapitel 3]. Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill, International Edition, New York [insbes. Kapitel 2-4]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 332 / 446 Lineare Regressionsanalyse Literaturhinweise Literaturhinweise zum 16. Kapitel, Teil II Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München [insbes. Kapitel 3-5]. Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4 und 6]. Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th Edition, Pearson/Addison Welsey, International Edition, Boston [insbes. Kapitel 1,2 und 4]. Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley & Sons, Hoboken [insbes. Kapitel 1]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 8]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 333 / 446 Regressionen mit diskreten abhängigen Variablen 17. Regressionen mit diskreten abhängigen Variablen 17.1 Überblick 17.2 Binäre abhängige Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 334 / 446 Regressionen mit diskreten abhängigen Variablen Überblick 17.1 Überblick Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 335 / 446 Regressionen mit diskreten abhängigen Variablen 17.2 Binäre abhängige Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 336 / 446 Regressionen mit diskreten abhängigen Variablen Grundidee binärer Regressionsmodelle Die Wahrscheinlichkeit πi , mit der die Ausprägung einer binären Variable die Ausprägung ”1” annimmt, entspricht gerade dem bedingten Erwartungswert der binären Variable. Dies lässt sich zeigen, wenn zunächst der bedingte Erwartungswert berechnet wird: E[yi |x1,i , x2,i , x3,i ] = 1 · P (yi = 1 |x1,i , x2,i , x3,i ) +0 · P (yi = 0 |x1,i , x2,i , x3,i ) = 1 · P (yi = 1 |x1,i , x2,i , x3,i ) = πi Um einen Schätzwert für πi zu erhalten, wird üblicherweise zunächst ein linearer Prädiktor ηi verwendet: ηi Prof. Dr. Michael Berlemann (HSU) = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i Empirische Wirtschaftsforschung 25. Juni 2014 337 / 446 Regressionen mit diskreten abhängigen Variablen Grundidee binärer Regressionsmodelle Im nächsten Schritt wird der lineare Prädiktor über eine sog. Responsefunktion h mit der Wahrscheinlichkeit π verbunden: πi = h (ηi ) = h (β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i ) Die Umkehrfunktion der Responsefunktion g = h−1 nennt man auch Linkfunktion. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 338 / 446 Regressionen mit diskreten abhängigen Variablen 17.2.1 Lineares Wahrscheinlichkeitsmodell bei binär abhängigen Variablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 339 / 446 Regressionen mit diskreten abhängigen Variablen Wird die Identitätsfunktion verwendet, so führt dies zum einfachen linearen Wahrscheinlichkeitsmodell: πi = ηi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i Das lineare Wahrscheinlichkeitmodell kann mit OLS geschätzt werden. Die Koeffizienten βk können nun als geschätzte, marginale Wahrscheinlichkeitsänderungen interpretiert werden, z.B. für β2 ∂y ∂πi = = β2 ∂x2 ∂x2 Der geschätzte Wert für β2 beschreibt also, wie eine marginale Veränderung der Variable x2 die Wahrscheinlichkeit beeinflusst, dass die binäre Variable y den Wert 1 annimmt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 340 / 446 Regressionen mit diskreten abhängigen Variablen Beispiel: Promotion Fragestellung: Welche Faktoren erklären, ob eine Person promoviert ist? Stichprobe aus Datensatz 1 als Datengrundlage P romovierti = 0 1 wenn Individuum i nicht promoviert ist wenn Individuum i promoviert ist Als erklärende Variablen sollen das Alter, das Jahreseinkommen und das Geschlecht verwendet werden. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 341 / 446 Regressionen mit diskreten abhängigen Variablen Lineares Wahrscheinlichkeitsmodell Promotion Schätzer Std. Fehler t-Wert Promoviert (Konstante) -0.129436 0.1324 -0.98 Alter 0.006671 0.0023 2.85 Jahreseinkommen 0.000006 0.0000 3.95 Weiblich -0.019986 0.1141 -0.18 Adj. R-Quadrat 0.4056 F-Wert 12.15 (dF = 3 & 46), p-Wert = 0.000 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung p-Wert 0.3332 0.0064 0.0003 0.8618 25. Juni 2014 342 / 446 Regressionen mit diskreten abhängigen Variablen Rechenbeispiel: Promotion Die Wahrscheinlichkeit, dass eine 18-jährige Frau, die kein Einkommen bezieht, promoviert ist, beträgt nach dem linearen Wahrscheinlichkeitsmodell: P (P romovierti = 1) = −0.129436 + 0.006671 · 18 +0.000006 · 0 − 0.019986 · 1 = −0.02933674 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 343 / 446 Regressionen mit diskreten abhängigen Variablen 6 0 2 4 Häufigkeit 8 10 12 Histogramm Residuen lineares Wahrscheinlichkeitsmodell (Datensatz 1) −0.5 0.0 0.5 Residuen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 344 / 446 Regressionen mit diskreten abhängigen Variablen 17.2.2 Logit-Modell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 345 / 446 Regressionen mit diskreten abhängigen Variablen Eine der am häufigsten verwendeten Responsefunktionen in binären Regressionen ist die logistische Responsefunktion: π = h (η) = exp(η) 1 + exp(η) Die zugehörige Umkehrfunktion (Linkfunktion) ist die logarithmische Funktion π g(π) = log = η = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i 1−π Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 346 / 446 Regressionen mit diskreten abhängigen Variablen 0.0 0.2 0.4 Response 0.6 0.8 1.0 Logistische Response-Funktion −4 −2 0 2 4 Linearer Prädiktor Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 347 / 446 Regressionen mit diskreten abhängigen Variablen Ergebnisse Logit-Schätzung Koeff. Promoviert Konstante -6.24724 Alter 0.06303 Jahreseinkommen 0.00007 Geschlechtw -0.36767 Hosmer/Lemeshow R-Square 0.48 Cox/Snell R-Square 0.46 Nagelkerke R-Square 0.64 Beobachtungen 50.00 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Std. Abw. Z-Wert P(Z>|Z|) 2.08 0.03 0.00 0.97 -3.00 2.43 2.82 -0.38 0.00 0.02 0.00 0.70 Empirische Wirtschaftsforschung 25. Juni 2014 348 / 446 Regressionen mit diskreten abhängigen Variablen Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe) Alter: 40.18 Jahreseinkommen: 37181.50 Geschlecht: Mann Berechnung des linearen Prädiktors η: η = −6.24724 + 0.06303 · 40.18 + 0.00007 · 37181.50 − 0.36767 · 0 = −1.278087 Berechnung der Promotionswahrscheinlichkeit π: π= exp(−1.278087) = 0.217876 1 + exp(−1.278087) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 349 / 446 Regressionen mit diskreten abhängigen Variablen Berechnung marginaler Effekte des Logit-Modells Koeff. Marg. Eff. Marg. Eff. Änd. Ref. Wert Änd. Promoviert Alter 0.06303 0.01 Jahreseinkommen 0.00007 0.00 Geschlechtw -0.36767 -0.06 (Datenquelle: Stichprobe aus Datensatz 1, N=50) 0.11 0.11 -0.06 40.18 37181.50 0.00 10.00 10000.00 1.00 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 350 / 446 Regressionen mit diskreten abhängigen Variablen 17.2.3 Probit-Modell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 351 / 446 Regressionen mit diskreten abhängigen Variablen Alternativ zur logistische Responsefunktion wird häufig auch die Verteilungsfunktion der Standardnormalverteilung (Φ) verwendet: π Prof. Dr. Michael Berlemann (HSU) = h (η) = Φ(η) Empirische Wirtschaftsforschung 25. Juni 2014 352 / 446 Regressionen mit diskreten abhängigen Variablen 0.6 0.4 0.0 0.2 Response 0.8 1.0 Standard-Normalverteilte Response-Funktion −4 −2 0 2 4 Linearer Prädiktor Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 353 / 446 Regressionen mit diskreten abhängigen Variablen Ergebnisse Probit-Schätzung Koeff. Promoviert Konstante -3.62785 Alter 0.03570 Jahreseinkommen 0.00004 Geschlechtw -0.16510 Hosmer/Lemeshow R-Square 0.49 Cox/Snell R-Square 0.47 Nagelkerke R-Square 0.65 Beobachtungen 50.00 (Datenquelle: Stichprobe aus Datensatz 1, N=50) Prof. Dr. Michael Berlemann (HSU) Std. Abw. Z-Wert P(Z>|Z|) 1.12 0.01 0.00 0.56 -3.23 2.52 3.03 -0.30 0.00 0.01 0.00 0.77 Empirische Wirtschaftsforschung 25. Juni 2014 354 / 446 Regressionen mit diskreten abhängigen Variablen Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe) Alter: 40.18 Jahreseinkommen: 37181.50 Geschlecht: Mann Berechnung des linearen Prädiktors η: η = −3.62785 + 0.03570 · 40.18 + 0.00004 · 37181.50 − 0.16510 · 0 = −0.7535629 Berechnung der Promotionswahrscheinlichkeit π: π = Φ(−0.7535629) = 0.2255559 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 355 / 446 Regressionen mit diskreten abhängigen Variablen Berechnung marginaler Effekte des Probit-Modells Koeff. Marg. Eff. Marg. Eff. Änd. Ref. Wert Änd. Promoviert Alter 0.03570 0.01 Jahreseinkommen 0.00004 0.00 Geschlechtw -0.16510 -0.03 (Datenquelle: Stichprobe aus Datensatz 1, N=50) 0.06 0.07 -0.03 40.18 37181.50 0.00 10.00 10000.00 1.00 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 356 / 446 Regressionen mit diskreten abhängigen Variablen Literaturhinweise Literaturhinweise zum 17. Kapitel Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons [insbes. Kapitel 4.1 und 4.2]. Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle, Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes. Kapitel 4]. Wooldridge, J.M. (2006): Introductury Econometrics: A Modern Approach, 3. Auflage, Thomson [insbes. Kapitel 17]. Backhaus et al. (2006): Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 11. Auflage, Springer, Berlin-Heidelberg [insbes. Kapitel 7]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 357 / 446 Räumliche Regressionen 18. Räumliche Regressionen 18.1 Räumliche Korrelation 18.2 Erscheinungsformen räumlicher Korrelation 18.3 Folgen räumlicher Korrelation 18.4 Diagnose räumlicher Korrelation 18.5 Schätzmodelle für räumlich korrelierte Daten 18.6 Beispiel für räumliches Schätzmodell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 358 / 446 Räumliche Regressionen 18.1 Räumliche Korrelation Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 359 / 446 Räumliche Regressionen Erstes Gesetz der Geographie (Tobler, 1979): ”Everything is related to everything else, but near things are more related than distant things” (zitiert nach: Anselin 1988, p. 8) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 360 / 446 Räumliche Regressionen Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 361 / 446 Räumliche Regressionen Nachbarschaftsmatrix ”Rook” (Turm) b Prof. Dr. Michael Berlemann (HSU) b a b b Empirische Wirtschaftsforschung 25. Juni 2014 362 / 446 Räumliche Regressionen Nachbarschaftsmatrix ”Bishop” (Läufer) c c a c Prof. Dr. Michael Berlemann (HSU) c Empirische Wirtschaftsforschung 25. Juni 2014 363 / 446 Räumliche Regressionen Nachbarschaftsmatrix ”Queen” (Königin) c b c Prof. Dr. Michael Berlemann (HSU) b a b c b c Empirische Wirtschaftsforschung 25. Juni 2014 364 / 446 Räumliche Regressionen Nachbarschaftsmatrix 2. Ordnung ”Queen” (Königin) d d d d d Prof. Dr. Michael Berlemann (HSU) d c b c d d b a b d d c b c d d d d d d Empirische Wirtschaftsforschung 25. Juni 2014 365 / 446 Räumliche Regressionen Erstellen einer Nachbarschaftsmatrix W ∗ ∗ wi,j ={ 1, 0, Prof. Dr. Michael Berlemann (HSU) f alls sonst i und j benachbart Empirische Wirtschaftsforschung sind 25. Juni 2014 366 / 446 Räumliche Regressionen Beispiel: Anordnung der Regionen im Raum 1 4 7 2 5 8 3 6 9 Nachbarschaftsmatrix erster Ordnung vom Typ ”Queen” 1 2 3 4 5 6 7 8 9 Prof. Dr. Michael Berlemann (HSU) 1 0 1 0 1 1 0 0 0 0 2 1 0 1 1 1 1 0 0 0 3 0 1 0 0 1 1 0 0 0 4 1 1 0 0 1 0 1 1 0 5 1 1 1 1 0 1 1 1 1 6 0 1 1 0 1 0 0 1 1 7 0 0 0 1 1 0 0 1 0 Empirische Wirtschaftsforschung 8 0 0 0 1 1 1 1 0 1 9 0 0 0 0 1 1 0 1 0 25. Juni 2014 367 / 446 Räumliche Regressionen Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 368 / 446 Räumliche Regressionen Erstellen einer zeilenstandardisierten Nachbarschaftsmatrix W ∗ wi,j wi,j = P ∗ j wi,j Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 369 / 446 Räumliche Regressionen Zeilennormierte Nachbarschaftsmatrix (Beispiel) 1 2 3 4 5 6 7 8 9 1 0 1/5 0 1/5 1/8 0 0 0 0 2 1/3 0 1/3 1/5 1/8 1/5 0 0 0 Prof. Dr. Michael Berlemann (HSU) 3 0 1/5 0 0 1/8 1/5 0 0 0 4 1/3 1/5 0 0 1/8 0 1/3 1/5 0 5 1/3 1/5 1/3 1/5 0 1/5 1/3 1/5 1/3 6 0 1/5 1/3 0 1/8 0 0 1/5 1/3 Empirische Wirtschaftsforschung 7 0 0 0 1/5 1/8 0 0 1/5 0 8 0 0 0 1/5 1/8 1/5 1/3 0 1/3 9 0 0 0 0 1/8 1/5 0 1/5 0 25. Juni 2014 370 / 446 Räumliche Regressionen 18.2 Erscheinungsformen räumlicher Korrelation Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 371 / 446 Räumliche Regressionen 3 grundlegende Formen von räumlicher Korrelation: 1 Räumliche Korrelation in der abhängigen Variable (Spatial lag in dependent variable) 2 Räumliche Korrelation in den unabhängigen Variablen (Spatial lag in independent variables) 3 Räumliche Korrelation im Störterm (Spatial error) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 372 / 446 Räumliche Regressionen Beispiel Einfaches lineares Schätzmodell: Y =α+β·X + mit: Y: Anzahl der Innovationen in einem Kreis X: Anteil gut ausgebildeter Arbeitnehmer in einem Kreis Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 373 / 446 Räumliche Regressionen Räumliche Korrelation in der abhängigen Variable (Spatial lag) Y =ρ·W ·Y +α+β·X + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 374 / 446 Räumliche Regressionen Räumliche Korrelation in der unabhängigen Variable (Spatial lag) Y =α+θ·W ·X +β·X + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 375 / 446 Räumliche Regressionen Räumliche Korrelation im Störterm (Spatial error) Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 376 / 446 Räumliche Regressionen 18.3 Folgen räumlicher Korrelation Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 377 / 446 Räumliche Regressionen 18.4 Diagnose räumlicher Korrelation Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 378 / 446 Räumliche Regressionen Diagnoseverfahren räumlicher Korrelation 1 Grafische Inspektion 2 Moran Scatter Plot 3 Moran’s I Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 379 / 446 Räumliche Regressionen Anteil Hochqualifizierter an sozialversicherungspflichtig Beschäftigten auf Kreisebene in % (30.6.2008) Quelle: BBSR (2010) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 380 / 446 Räumliche Regressionen 14 Moran Scatterplot Hochqualifizierte 9563 ● 6436 ● 14628 ● 6414 ● 8221 ● 9162 ● 9179 ● 12 16071 ●6438 ● ● 9174 ● ● ● ● 9173 ● ● ● ● ● ●● ● ● ● 10 8 4 6 Hochqualifizierte.lag 8236 ● ● ●● 7315 ● 6412 ● ● ● ● ●● ● ● ● ●● ● ● ● 531514511 12054 ● ● ●● ● ● ●● ● ● ●●●● ● ● ● ●● 8226●5111 ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● 14713 ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● 16055 ● ●● ● ● ● ●●● ● ● 5313 ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ● ● ●●● ● ●●● ● ●●● ●● ●● ● ●● ●● ● ●● ●●● ●●● ● ● ●●● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● 8311 ● ●● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●●● ●● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ●●●● ● ●● ● ● ● ● ● ● ● ●7211 ● 9262 9662 ● ● ● ● ● 9463 ● ●● ● ● 5 8111 ● 14612 ● ● 10 15 9184 ● 9562 ● 6411 ● 16053 ● 5314 ● 20 25 Hochqualifizierte Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 381 / 446 Räumliche Regressionen Dritte Möglichkeit: Moran’s I als formales Maß für räumliche Korrelation Berechnung Moran’s I N I=P P i j P P i wi,j j wi,j (Xi − X̄)(Xj − X̄) P 2 i (Xi − X̄) I ∈ [−1; 1] Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 382 / 446 Räumliche Regressionen Moran’s I-Test für Hochqualifizierte Moran’s I test under randomisation Moran I statistic standard deviate = 8.709 p-value < 0.01 alternative hypothesis: two.sided sample estimates: Moran I statistic Expectation Variance 0.284977 -0.002427 0.001089 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 383 / 446 Räumliche Regressionen 18.5 Schätzmodelle für räumlich korrelierte Daten Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 384 / 446 Räumliche Regressionen Räumliche Schätzmodelle im Überblick Quelle: Eigene Grafik nach Elhorst (2010, p. 13). Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 385 / 446 Räumliche Regressionen Grundlegende Modelle mit räumlicher Korrelation (Wiederholung) Räumliche Korrelation in der abhängigen Variable (Spatial lag) Y =ρ·W ·Y +α+β·X + Räumliche Korrelation in der unabhängigen Variable (Spatial lag) Y =α+θ·W ·X +β·X + Räumliche Korrelation im Störterm (Spatial error) Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 386 / 446 Räumliche Regressionen Spatial Durbin model Räumliche Abhängigkeiten in der Abhängigen und in den Unabhängigen: Y = ρ W Y + α + θ W X + β X + , ∼ N (0, σ 2 ) Kelejian-Prucha model Räumliche Abhängigkeiten in der Abhängigen und im Störterm: Y = ρ W Y + α + β X + u, u = λW u + , ∼ N (0, σ 2 ) Spatial Durbin error model Räumliche Abhängigkeiten in den Unabhängigen und im Störterm: Y = α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 387 / 446 Räumliche Regressionen Manski model Räumliche Abhängigkeiten in der Abhängigen, in den Unabhängigen und im Störterm: Y = ρ W Y + α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 388 / 446 Räumliche Regressionen 18.6 Beispiel für räumliches Schätzmodell Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 389 / 446 Räumliche Regressionen Datensatz (Dataset2 ) KKZ 1001 1002 1003 1004 1051 Innovationskraft -0.013432469 -0.002601189 -0.030241515 -0.024823903 -0.032083965 Hochqualifizierte 6.27 10.82 7.16 5.31 4.68 FuEAusgaben 3.0436 4.0568 11.4683 3.7437 0.7973 Daten aus dem Jahr 2008 für 413 deutsche Kreise KKZ: Kreiskennziffer, erste Ziffer steht für das Bundesland Innovationskraft: relative Innovationskraft einer Region basierend auf Patentanmeldungen Hochqualifizierte: Anteil Hochqualifizierter (Abschluss an Hochschule, Fachhochschule oder Uni) an sozialversicherungspflichtig Beschäftigten in Prozent FuEAusgaben: FuE-Ausgaben pro Unternehmen in tausend Euro Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 390 / 446 Räumliche Regressionen OLS und räumliche Regressionen im Vergleich OLS (Intercept) Hochqualifizierte FuEAusgaben Hochqualifizierte.lag FuEAusgaben.lag adj. R2 Nagelkerke ρ λ -0.0185*** 0.0008*** 0.0001* Spatial error -0.0188*** 0.0008*** 0.0001*** Spatial lag (Abhängige) -0.0121*** 0.0007*** 0.0001*** 0.3201 0.3215 0.4722*** 0.219 Spatial lag (Unabhängige) -0.0178*** 0.0008*** 0.0001* -0.0002 0.0001** 0.225 0.4874*** *** 1%, ** 5%, * 10% OLS und Spatial lag (Unabhängige) mit White-Korrektur geschätzt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 391 / 446 Räumliche Regressionen OLS und räumliche Regressionen im Vergleich OLS (Intercept) Hochqualifizierte FuEAusgaben Hochqualifizierte.lag FuEAusgaben.lag adj. R2 Nagelkerke ρ λ -0.0185*** 0.0008*** 0.0001* Spatial Durbin -0.0105*** 0.0008*** 0.0001*** -0.0003 0.0000 Manski model -0.0100** 0.0008*** 0.0001*** -0.0003 0.0000 0.324 0.4807*** 0.324 0.5022** -0.03015 0.219 *** 1%, ** 5%, * 10% OLS mit White-Korrektur geschätzt. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 392 / 446 Räumliche Regressionen Literaturhinweise zum 18. Kapitel Anselin, Luc (1988): Spatial Econometrics: Methods and Models, Studies in operational regional siences, Kluwer Academic Publishers, Dordrecht. Elhorst, J. P. (2010): Applied spatial econometrics: Raising the bar, Spatial Econometric Analysis 5 (1), 9-28. Keilbach, M. C. (2000): Spatial knowledge spillovers and the dynamics of agglomeration and regional growth, Physica Verlag, Heidelberg. Lerbs, O. and C. Oberst (2012): Explaining the spatial variation in homeownership rates: Results for German regions, CESifo working paper no. 3377. Bivand et al. (2008): Applied Spatial Data Analysis with R, Springer Verlag, New York, Heidelberg. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 393 / 446 Schätzung nicht-linearer Zusammenhänge 19. Schätzung nicht-linearer Zusammenhänge 19.1 Datensatz zur Aktienanlage 19.2 Schätzung eines linearen Erklärungsmodells 19.3 Schätzung einer linearen Regression mit geeigneten Dummyvariablen 19.4 Schätzung eines linear-quadratischen Erklärungsmodells mit OLS 19.5 Anpassung einer konkreten nicht-linearen Funktion 19.6 Schätzung eines nicht-parametrischen Erklärungsmodells Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 394 / 446 Schätzung nicht-linearer Zusammenhänge 19.1 Datensatz zur Aktienanlage Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 395 / 446 Schätzung nicht-linearer Zusammenhänge Beschreibung Dataset 3 200 Beobachtungen Datensatz enthält die folgenden Variablen: Beobachtungsnummer Geschlecht (Dummy: männlich (0), weiblich (1)) Alter in Jahren Wert des Aktiendepots in Euro Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 396 / 446 Schätzung nicht-linearer Zusammenhänge Deskriptive Statistik Person Geschlecht Alter Aktien Mittelwert 100.50 0.50 44.88 4656.88 Prof. Dr. Michael Berlemann (HSU) Standardabw. 57.88 0.50 24.94 8322.28 Min. 1.00 0.00 1.00 0.00 Empirische Wirtschaftsforschung Max. 200.00 1.00 92.00 70000.00 Median 100.50 0.50 46.00 1000.00 25. Juni 2014 397 / 446 Schätzung nicht-linearer Zusammenhänge 19.2 Schätzung eines linearen Erklärungsmodells Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 398 / 446 Schätzung nicht-linearer Zusammenhänge Lineare Mehrfachregression (mit White-Korrektur) Konstante Alter Geschlecht Prof. Dr. Michael Berlemann (HSU) Schätzer 4550.49 29.14 -2264.01 Std.-Fehler 1274.36 14.74 1353.55 t Wert 3.57 1.98 -1.67 Empirische Wirtschaftsforschung Pr(>|t|) 0.00 0.05 0.09 25. Juni 2014 399 / 446 Schätzung nicht-linearer Zusammenhänge Residuenanalyse des linearen Modells 40000 30000 ● 20000 ● ● 10000 residuals(Regression) 50000 60000 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ●● ●●● ● ●● ● ●●●●● ●●● ●●● ●●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ● ●● ●● ●●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● 0 50 100 150 Index Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 400 / 446 Schätzung nicht-linearer Zusammenhänge 70000 Scatterplot Alter versus Wert des Aktiendepost 50000 40000 ● 30000 ● ● 20000 ● 0 10000 Wert des Aktiendepots 60000 ● ● ● ● ● 0 20 ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●●●●●● ●●●●●●●●●●●●●● ●●●● ●● ●● ●● ● ●● ● ● ● ● ● ● 40 ● ● ●● ●● ● ● ● ●● ● ● ● ●● ● ● ●● ●● ● ●● ● ●● ●● ● ●●●● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ●●●● ●● ● ●●●● 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 401 / 446 Schätzung nicht-linearer Zusammenhänge 19.3 Schätzung einer linearen Regression mit geeigneten Dummyvariablen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 402 / 446 Schätzung nicht-linearer Zusammenhänge OLS-Regression mit Alters-Dummies (mit White-Korrektur) Konstante Geschlecht Mittleres Alter (40 bis 60) Hohes Alter (über 60) Prof. Dr. Michael Berlemann (HSU) Schätzer 2802.90 -1983.05 11460.69 96.33 Std.-Fehler 613.08 877.54 1683.83 609.06 Empirische Wirtschaftsforschung t Wert 4.57 -2.26 6.81 0.16 Pr(>|t|) 0.00 0.02 0.00 0.87 25. Juni 2014 403 / 446 Schätzung nicht-linearer Zusammenhänge 19.4 Schätzung eines linear-quadratischen Erklärungsmodells mit OLS Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 404 / 446 Schätzung nicht-linearer Zusammenhänge Linear-quadratische Mehrfachregression (mit White-Korrektur) Konstante Alter Alter2 Geschlecht Prof. Dr. Michael Berlemann (HSU) Schätzer -4562.19 624.04 -6.76 -1819.59 Std.-Fehler 877.75 80.06 0.89 971.09 t Wert -5.20 7.79 -7.56 -1.87 Empirische Wirtschaftsforschung Pr(>|t|) 0.00 0.00 0.00 0.06 25. Juni 2014 405 / 446 Schätzung nicht-linearer Zusammenhänge 19.5 Anpassung einer konkreten nicht-linearen Funktion Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 406 / 446 Schätzung nicht-linearer Zusammenhänge Parabelgleichung Y = A · X2 + B · X + C Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 407 / 446 Schätzung nicht-linearer Zusammenhänge Anzupassende Funktion Aktien = A · Alter2 + B · Alter + C + D · Geschlecht Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 408 / 446 Schätzung nicht-linearer Zusammenhänge Angepasstes Modell A (Alter2 ) B (Alter) C (Konstante) D (Geschlecht) Prof. Dr. Michael Berlemann (HSU) Schätzer -6.76 624.04 -4562.19 -1819.59 Std.-Fehler 0.8606 78.80 1605.05 996.13 Empirische Wirtschaftsforschung t Wert -7.85 7.92 -2.84 -1.83 Pr(>|t|) 0.00 0.00 0.01 0.07 25. Juni 2014 409 / 446 Schätzung nicht-linearer Zusammenhänge 50000 Darstellung der geschätzten Parabel 40000 ● 30000 ● Aktien ● ● 20000 ● 10000 0 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●●●●●● ● ●●●●●●●● ●●● ● ●● ● ● 0 20 ● ● ● ● ● ● ● ●● ● ● ● 40 ● ● ● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ●● ● ●●●● ● ●● ●●● ●● ●● ● 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 410 / 446 Schätzung nicht-linearer Zusammenhänge 19.6 Schätzung eines nicht-parametrischen Erklärungsmodells Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 411 / 446 Schätzung nicht-linearer Zusammenhänge Schätzmodell Aktieni = α + β · Geschlechti + f (Alteri ) + i Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 412 / 446 Schätzung nicht-linearer Zusammenhänge Parametrische Effekte Konstante Geschlecht Prof. Dr. Michael Berlemann (HSU) Schätzer 4429.3 581.9 Std.-Fehler 513.7 732.2 t Wert 8.622 0.795 Empirische Wirtschaftsforschung Pr(>|t|) 0.00 0.43 25. Juni 2014 413 / 446 Schätzung nicht-linearer Zusammenhänge 0 −10000 −5000 s(Alter,6.75) 5000 10000 Nicht-parametrischer Effekt Alter 0 20 40 60 80 Alter Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 414 / 446 Schätzung nicht-linearer Zusammenhänge Residuenanalyse des nicht-parametrischen Modells 30000 20000 ● ● ● 10000 residuals(nl_regression) 40000 50000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ●● ● ● ●●●●● ● ● ●● ●● ● ● ● ● ●● ●● ●●●● ● ●● ●●● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● −10000 0 ● ● ● ● 0 50 100 150 Index Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 415 / 446 Schätzung nicht-linearer Zusammenhänge Literaturhinweise Literaturhinweise zum 19. Kapitel Ritz, Chr. und J. C. Streibig (2008): Nonlinear Regression with R, Use R!, Springer Verlag, Berlin. Wood, S. N. (2006): Generalized Additive Models, An Introduction with R, Texts in Statistical Science, Taylor & Francis Group, Boca Raton. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 416 / 446 Grundlagen der Zeitreihenanalyse 20. Grundlagen der Zeitreihenanalyse 20.1 Zeitreihen 20.2 Maßzahlen für Zeitreihen 20.3 Stationarität von Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 417 / 446 Grundlagen der Zeitreihenanalyse 20.1 Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 418 / 446 Grundlagen der Zeitreihenanalyse Definition Eine Zeitreihe ist eine Realisation eines stochastischen Prozesses in diskreter Zeit yt mit t ∈ Z Der Prozess beginnt in −∞ und geht bis +∞. Die yt sind Ausprägungen von Zufallsvariablen. Der Prozess ist eine Folge von Zufallsvariablen, die stets dasselbe aber zu unterschiedlichen, äquidistanten Zeitpunkten messen. Eine Realisation hat einen Anfang, t = 1, und ein Ende, t = T yt Prof. Dr. Michael Berlemann (HSU) mit t = 1, ..., T Empirische Wirtschaftsforschung 25. Juni 2014 419 / 446 Grundlagen der Zeitreihenanalyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 420 / 446 Beobachtungsvariable Grundlagen der Zeitreihenanalyse Zeit Saison Prof. Dr. Michael Berlemann (HSU) Zyklus Trend irreguläres Element Realität Empirische Wirtschaftsforschung 25. Juni 2014 421 / 446 Grundlagen der Zeitreihenanalyse Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 422 / 446 Grundlagen der Zeitreihenanalyse 20.2 Maßzahlen für Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 423 / 446 Grundlagen der Zeitreihenanalyse Definition Die Autokorrelation k-ter Ordnung misst die Korrelation zwischen Werten einer Zeitreihe, die k Perioden voneinander entfernt sind. In einer Stichprobe ist der Autokorrelationskoeffizient k-ter Ordnung definiert als PT (yt − ȳ) · (yt−k − ȳ) rk = t=k+1 PT 2 t=1 (yt − ȳ) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 424 / 446 Grundlagen der Zeitreihenanalyse 20.3 Stationarität von Zeitreihen Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 425 / 446 Grundlagen der Zeitreihenanalyse Tests auf Stationarität (Augmented) Dickey-Fuller-Test Phillips-Perron-Test Elliott-Rothenberg-Stock Test Schmidt-Phillips-Test Kwiatkowski-Phillips-Schmidt-Shin-Test Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 426 / 446 Grundlagen der Zeitreihenanalyse Literaturhinweise Literaturhinweise zum 20. Kapitel Cowpertwait, S.P./Metcalfe, A.V. (2009): Introductory Times Series with R, Use R!, Springer Verlag, Berlin. Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 1 und 5]. Pfaff, B. (2008): Analysis of Integrated and Cointegrated Time Series with R, Use R!, Springer Verlag, Berlin. Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag, München [insbes. Kapitel 2]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 427 / 446 21 Univariate Zeitreihenmodelle 21.1 Typen univariater Zeitreihenmodelle 21.2 Schätzung univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 428 / 446 21.1 Typen univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 429 / 446 Typen univariater Zeitreihenmodelle 1 White-Noise-Prozesse (WN) 2 Moving-Average-Prozesse (MA) 3 Random-Walk-Prozesse mit und ohne Drift (RW) 4 Autoregressive Prozesse (AR) 5 Autoregressive Moving-Average-Prozesse (ARMA) Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 430 / 446 Definition Ein stochastischer Prozess yt heisst Weisses Rauschen (White Noise) wenn sein Erwartungswert null ist, er eine endliche Varianz σy2 aufweist und unkorreliert mit allen vorausgegangenen Ausprägungen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 431 / 446 Weisses Rauschen 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 432 / 446 Definition Ein stochastischer Prozess yt heisst Moving-Average-Prozess des Grades q wenn er dem folgenden Muster folgt: yt = c + t + β1 · t−1 + · · · + βq · t−q wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 433 / 446 Moving-Average-Prozess 1.Ordnung 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 434 / 446 Definition Ein stochastischer Prozess yt mit yt = yt−1 + t heisst Random Walk ohne Drift wenn selbst Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 435 / 446 Random Walk ohne Drift 0 0 5 10 15 20 25 30 35 40 -1 -2 -3 -4 -5 -6 -7 -8 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 436 / 446 Definition Ein stochastischer Prozess yt mit yt = c + yt−1 + t heisst Random Walk mit Drift wenn selbst Weisses Rauschen ist. Den Parameter c bezeichnet man auch als Drift. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 437 / 446 Random Walk mit Drift 14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 438 / 446 Definition Ein stochastischer Prozess yt heisst autoregressiver Prozess des Grades p wenn er dem folgenden Muster folgt: yt = c + α1 · yt−1 + · · · + αp · yt−p + t wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 439 / 446 Autoregressiver Prozess 2 1.5 1 0.5 0 0 5 10 15 20 25 30 35 40 -0.5 -1 -1.5 -2 Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 440 / 446 Definition Ein stochastischer Prozess yt heisst autoregressiver Moving-Average-Prozess des Grades (p,q) wenn er dem folgenden Muster folgt: yt = c + α1 · yt−1 + · · · + αp · yt−p +t + β1 · t−1 + · · · + βq · t−q wobei Weisses Rauschen ist. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 441 / 446 Autoregressiver Moving-Average-Prozess (1,1) 14 12 10 8 6 4 2 0 0 5 Prof. Dr. Michael Berlemann (HSU) 10 15 20 25 Empirische Wirtschaftsforschung 30 35 40 25. Juni 2014 442 / 446 21.2 Schätzung univariater Zeitreihenmodelle Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 443 / 446 Informationskriterien Schwarz-Informationskriterium Akaike-Informationskriterium Hannan-Quinn-Informationskriterium Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 444 / 446 Literaturhinweise Literaturhinweise zum 21. Kapitel Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 2]. Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag, München [insbes. Kapitel 3]. Prof. Dr. Michael Berlemann (HSU) Empirische Wirtschaftsforschung 25. Juni 2014 445 / 446