Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung
Prof. Dr. Michael Berlemann
BSc. VWL: Empirische Wirtschaftsforschung
MSc. VWL: Empirische Wirtschaftsforschung für Fortgeschrittene
25. Juni 2014
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
1 / 446
Gliederung der Vorlesung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
2 / 446
Gliederung 1. Kapitel
1. Ziel, Konzept und Aufbau der Vorlesung
Gliederung 2. Kapitel
2. Gegenstand der Empirischen Wirtschaftsforschung
2.1 Aufgaben der empirischen Wirtschaftsforschung
2.2 Überprüfung modellgestützter Hypothesen
2.3 Evaluierung von Politikmaßnahmen
2.4 Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
3 / 446
Gliederung 3. Kapitel
3. Datentypen und Datenquellen
3.1 Grundbegriffe
3.2 Merkmalstypen
3.3 Skalierung von Merkmalen
3.4 Datenerhebung
3.5 Datensätze
3.6 Sekundärdatenquellen und Datenbanken
Gliederung 4. Kapitel
4. Datenverarbeitung und Software
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
4 / 446
Gliederung 5. Kapitel
Gliederung 6. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
5 / 446
Gliederung 7. Kapitel
Gliederung 8. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
6 / 446
Gliederung 9. Kapitel
Gliederung 10. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
7 / 446
Gliederung 11. Kapitel
Gliederung 12. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
8 / 446
Gliederung 13. Kapitel
Gliederung 14. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
9 / 446
Gliederung 15. Kapitel
Gliederung 16. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
10 / 446
Gliederung 17. Kapitel
Gliederung 18. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
11 / 446
Gliederung 19. Kapitel
Gliederung 20. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
12 / 446
Ziel, Konzept und Aufbau der Vorlesung
1. Ziel, Konzept und Aufbau der Vorlesung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
13 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2. Gegenstand der Empirischen
Wirtschaftsforschung
2.1
2.2
2.3
2.4
Aufgaben der empirischen Wirtschaftsforschung
Überprüfung modellgestützter Hypothesen
Evaluierung von Politikmaßnahmen
Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
14 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.1 Aufgaben der empirischen Wirtschaftsforschung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
15 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.2 Überprüfung modellgestützter Hypothesen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
16 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Sir Karl Popper
* 28. Juli 1902 in Wien
17. September 1994 in London
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
17 / 446
Überprüfung modellgestützter Hypothesen
Gegenstand der Empirischen Wirtschaftsforschung
Optimales Konsumbündel in der Ausgangssituation
009Prof.
Menge x2
x2opt
U1
x1opt
Dr.
Dr. Michael Berlemann Prof.
(HSU)
Menge x1
M. Empirische
Berlemann: Wirtschaftsforschung
Vorlesung "Empirische Wirtschaftsforschung"
25. Juni 2014
18 / 446
Überprüfung modellgestützter Hypothesen
Gegenstand der Empirischen Wirtschaftsforschung
Optimales Konsumbündel bei Erhöhung des Preises von Gut x1
009
Prof.
Menge x2
Konsequenzen eines Preisanstiegs bei Gut x1
x2opt
U1
x1opt
Menge x1
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
19 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.3 Evaluierung von Politikmaßnahmen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
20 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Bundeskanzler Gerhard Schröder
Tabaksteuerreform 2004
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
21 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Deutsche Tabaksteuer-Einnahmen 1949-2009 in Mio. Euro (Quelle:
Statistisches Bundesamt)
16000
14000
12000
10000
8000
6000
4000
2000
0
1949
1954
1959
1964
Prof. Dr. Michael Berlemann (HSU)
1969
1974
1979
1984
1989
Empirische Wirtschaftsforschung
1994
1999
2004
25. Juni 2014
2009
22 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Schaumburger Nachrichten, 11.2.2004
steuererhöhung 2004
ene“ Tabaksteuererhöhung von 2004 als schönes
ene
es Beispiel für die Folgen mangelnder oder falscher
er Abschätzungen der Folgen wirtschaftspolitischer
men
d
der R
Raucher"
h " kann
k
man mit
it "geringer
" i
di
direkter
kt
zität der Nachfrage" übersetzen.
inanzminister weniger Einnahmen aus der
er fürchten muss, kommt der Aussage gleich, dass
Markt für Tabakwaren im fallenden Bereich der
rve befindet.
aus: Schaumburger Nachrichten, 11.2.2004
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
17
25. Juni 2014
23 / 446
luierung von Politikmaßnahmen
Gegenstand der Empirischen Wirtschaftsforschung
Laffer-Kurve
Steueraufkommen
Laffer-Kurve
Steuersatz
τ=0%
Prof. Dr. Michael Berlemann (HSU)
τ*
Empirische Wirtschaftsforschung
τ = 100 %
25. Juni 2014
24 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.4 Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
25 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Konjunkturprognose des ifo-Instituts für Deutschland (Quelle: ifo)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
26 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Bevölkerungsprognose 2007 bis 2025 für Deutschland regional (Quelle: BBSR)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
27 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Literaturhinweise
Literaturhinweise zum 2. Kapitel
Hujer, R. und R. Cremer (1978): Methoden der empirischen
Wirtschaftsforschung, Verlag Vahlen, München [insbes. Kapitel 1
Abschnitt I].
Laffer, A. B. (1981): Government Exactions and Revenue Deficiencies, in:
Cato Journal, Vol. 1, Nr. 1, S. 1-21.
Mosler, K. und F. Schmid (2006): Beschreibende Statistik und
Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
0].
Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2.
Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
28 / 446
Datentypen und Datenquellen
3. Datentypen und Datenquellen
3.1
3.2
3.3
3.4
3.5
3.6
Grundbegriffe
Merkmalstypen
Skalierung von Merkmalen
Datenerhebung
Datensätze
Sekundärdatenquellen und Datenbanken
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
29 / 446
Datentypen und Datenquellen
3.1 Grundbegriffe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
30 / 446
Datentypen und Datenquellen
Definition
Die Objekte, auf die sich eine empirische Analyse bezieht, werden auch als
Untersuchungseinheiten (ω) bezeichnet
Definition
Alle Untersuchungseinheiten zusammen ergeben die sog. Grundgesamtheit
(Ω)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
31 / 446
Datentypen und Datenquellen
Definition
Bestimmte Eigenschaften der Untersuchungsobjekte bezeichnet man auch als
Merkmale (X) (oder auch als statistische Variable)
Definition
Jedes Merkmal kann in der Regel mehrere (k) unterschiedliche
Merkmalsausprägungen a1 , a2 ,· · · , ak aufweisen
Definition
Als Merkmalsraum (S) (oder auch: Zustandsraum) bezeichnet man die
Menge aller möglichen Ausprägungen eines Merkmals (alle Werte, die eine
statistische Variable annehmen kann)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
32 / 446
Datentypen und Datenquellen
3.2 Merkmalstypen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
33 / 446
Datentypen und Datenquellen
Merkmalstypen
Merkmalstypen
M k l
Merkmale
Qualitative Merkmale
Quantitative Merkmale
Ausprägungen unterscheiden sich artmässig
Ausprägungen können durch Zahlen angegeben werden
Diskrete Merkmale
abzählbarer
b ählb
Zustandsraum
Z t d
Stetige Merkmale
nicht abzählbarer Zustandsraum
Gruppierte Merkmale
Ab ählb durch
Abzählbar
d h Gruppenbildung
G
bild
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
27
25. Juni 2014
34 / 446
Datentypen und Datenquellen
3.3 Skalierung von Merkmalen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
35 / 446
Datentypen und Datenquellen
Skalierung
von Merkmalen
Skalierung
von Merkmalen
Skalentypen
Nominalskala
Ordinalskala (Rangskala)
nur Unterscheidung, keine Ordnung
Reihenfolge, aber keine Abstände interpretierbar
Metrische Skala
Reihenfolge, Abstände interpretierbar
Intervallskala
nur Abstände interpretierbar
Stetige Merkmale
natürlicher Nullpunkt, Verhältnisse interpretierbar
Absolutskala
natürlicher Nullpunkt & natürliche Maßeinheit
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
29
25. Juni 2014
36 / 446
Datentypen und Datenquellen
3.4 Datenerhebung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
37 / 446
Datentypen und Datenquellen
Definition
Von einer Vollerhebung spricht man, wenn die relevanten Merkmale aller
Untersuchungseinheiten einer Grundgesamtheit erhoben werden
Definition
Bei einer Teilerhebung werden nur die relevanten Merkmale einer Teilmenge
(Stichprobe) aller Untersuchungseinheiten der Grundgesamtheit erhoben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
38 / 446
Datentypen und Datenquellen
Definition
Von einer Primärerhebung spricht man, wenn die Daten vom Forscher
selbst erhoben werden, so z.B. durch Befragung, Beobachtung und
Aufzeichnung oder Durchführung von Experimenten
Definition
Von einer Sekundärerhebung spricht man, wenn die Daten von anderen
Personen oder Institutionen erhoben, gesammelt, verifiziert und unter
Umständen aggregiert werden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
39 / 446
Datentypen und Datenquellen
Definition
Sind die Untersuchungseinheiten einzelne Individuen oder vergleichbare
Individualobjekte, so spricht man von Mikrodaten
Definition
Handelt es sich um Daten, die über mehrere Untersuchungseinheiten (z.B.
Individuen, Unternehmen, Branchen, Regionen) aggregiert wurden, so spricht
man von Makrodaten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
40 / 446
Datentypen und Datenquellen
Formen der Primärerhebung:
Befragung
schriftlich
mündlich
Beobachtung
Experiment
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
41 / 446
Datentypen und Datenquellen
3.5 Datensätze
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
42 / 446
Datentypen und Datenquellen
Typen von Datensätzen:
Querschnittsdatensätze
Längsschnittsdatensätze
Pandeldatensätze
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
43 / 446
Datentypen und Datenquellen
Querschnittsdaten
Querschnittsdatensatz
(Cross section data)
(Cross section data)
BW
BY
BE
BB
HB
HH
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
,
3,2
4,9
,
1,4
,
3,2
,
4,9
,
3,5
,
3,2
,
1,0
,
2,4
,
2,3
,
2,7
,
4,8
,
1,3
,
2,5
,
2,4
,
2,7
,
3,1
,
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
37
25. Juni 2014
44 / 446
Datentypen und Datenquellen
Längsschnittdaten Zeitreihe
Längsschnittdaten,
Längsschnittsdatensatz
/ Zeitreihe (Time series data)
(Time series data)
BW
BY
BE
BB
HB
HH
1992
−0,1
1993
−0,8
1994
08
0,8
1995
1,0
1996
1,2
1997
1,8
1998
1,1
1999
0,8
2000
,
3,5
2001
3,4
2002
−0,2
2003
−3,3
2004
0,3
2005
1,3
2006
2,4
2007
2,1
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
38
25. Juni 2014
45 / 446
Datentypen und Datenquellen
Paneldaten
Paneldatensatz
(Panel data)
(Panel data)
BW
BY
BE
BB
HB
HH
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
1992
−0,5
1,3
3,0
10,1
−0,2
−0,1
0,6
11,5
0,4
0,1
−1,4
−0,4
11,3
11,6
0,5
19,9
1,5
1993
−5,3
−2,9
2,2
12,4
−2,8
−0,8
−3,0
12,7
−2,2
−3,1
−4,1
−4,7
13,3
14,1
−1,8
14,1
−1,5
1994
16
1,6
15
1,5
09
0,9
12 3
12,3
17
1,7
08
0,8
06
0,6
13 4
13,4
13
1,3
08
0,8
10
1,0
30
3,0
13 7
13,7
11 4
11,4
06
0,6
13 2
13,2
23
2,3
1995
1,2
0,6
2,0
7,5
0,4
1,0
1,0
8,4
−1,2
1,4
0,9
3,0
8,3
5,1
1,6
3,8
1,6
1996
1,5
1,3
−1,6
2,7
0,2
1,2
2,0
3,2
−0,3
−0,8
−1,2
−2,9
3,4
3,3
0,7
3,3
0,7
1997
2,0
1,9
−1,3
1,3
1,6
3,4
1,8
1,3
2,1
1,2
1,5
1,4
2,4
0,7
3,6
1,0
4,2
1,6
1998
2,3
3,7
0,7
0,3
1,8
1,1
1,4
0,4
2,2
2,1
0,9
3,4
1,3
1,4
0,2
2,3
2,1
1999
2,3
2,6
−0,1
3,6
1,1
0,8
3,1
3,9
1,0
0,8
2,4
2,4
3,0
2,8
1,2
4,0
1,9
2000
,
3,2
4,9
,
1,4
,
3,2
,
4,9
,
3,5
,
3,2
,
1,0
,
2,4
,
2,3
,
2,7
,
4,8
,
1,3
,
2,5
,
2,4
,
2,7
,
3,1
,
2001
2,1
1,4
−1,2
0,6
1,3
3,4
1,4
1,1
−1,1
0,6
−1,4
1,6
2,6
1,4
0,5
2,3
1,1
2002
−1,9
0,8
−1,8
0,2
1,3
−0,2
−1,2
1,0
−1,1
−0,1
0,9
−1,0
3,3
3,4
−2,4
1,1
−0,2
2003
−0,7
0,0
−2,2
0,1
0,3
−3,3
0,4
0,6
−0,0
−0,9
−0,5
−0,5
2,2
1,0
−0,1
2,6
−0,3
2004
0,2
1,8
−2,0
1,4
0,2
0,3
0,2
2,0
0,9
1,2
2,2
3,8
2,3
1,6
0,8
2,5
1,1
2005
0,3
1,5
0,8
1,2
0,2
1,3
0,9
0,6
2,1
0,1
−0,4
3,2
0,8
0,9
0,1
1,0
0,8
2006
4,3
3,1
1,0
1,7
1,8
2,4
3,1
2,2
2,6
2,7
2,6
2,6
3,4
2,9
2,4
3,6
3,0
2007
2,7
2,6
1,8
2,5
2,8
2,1
2,4
3,4
2,0
2,8
2,7
3,0
3,1
3,3
1,3
3,0
2,6
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
39
25. Juni 2014
46 / 446
Datentypen und Datenquellen
3.6 Sekundärdatenquellen und Datenbanken
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
47 / 446
Datentypen und Datenquellen
Sekundärdatenquellen
Sekundärdatenquellen
S k dä d
Sekundärdaten
amtliche Statistik
nicht-amtliche Statistik
von staatlichen Institutionen erhobene Daten
von privaten Institutionen erhobene Daten
national
national
d Inland
das
I l d betreffend
b t ff d
d Inland
das
I l d betreffend
b t ff d
international
international
im Ländervergleich
im Ländervergleich
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
48 / 446
Datentypen und Datenquellen
Nationale amtliche Statistik
Statistisches Bundesamt / Statistische Landesämter:
Statistisches Jahrbuch, Fachserien, Zeitschriften
Wichtigste Daten sind im Internet frei oder gegen geringe Gebühr
zugänglich:
http://www.destatis.de/
http://www.vgrdl.de/Arbeitskreis VGR/
Deutsche Bundesbank:
Monatsberichte, Statistische Beihefte, Geschäftsberichte
Internetangebot:
http://www.bundesbank.de/statistik/statistik.php
Bundesregierung / Landesregierungen:
Regelmäßige Berichte (Jahreswirtschaftsbericht, Finanzbericht,
Sozialbericht etc.)
Internet Bundeswirtschaftsministerium:
http://www.bmwi.de/BMWi/Navigation/wirtschaft.html
Bundesagentur für Arbeit / Landesarbeitsagenturen:
Internet:
http://www1.arbeitsamt.de/hst/services/statistik/index.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
49 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik: Öffentlich geförderte
Wirtschaftsforschungsinstitute
Deutsches Institut für Wirtschaftsforschung (DIW), Berlin
Internet: http://www.diw.de
ifo Institut für Wirtschaftsforschung, München
Internet: http://www.ifo.de
Institut für Weltwirtschaft (IfW), Kiel
Internet: http://www.ifw-kiel.de
Rheinisch-Westfälisches Institut für Wirtschaftsforschung (RWI), Essen
Internet: http://www.rwi-essen.de
Institut für Wirtschaftsforschung Halle (IWH), Halle
Internet: http://www.iwh-halle.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
50 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik: Privat finanzierte
Wirtschaftsforschungsinstitute
Zentrum für Europäische Wirtschaftsforschung (ZEW), Mannheim
Internet: http://www.zew.de
Hamburger Weltwirtschafts-Institut (HWWI), Hamburg
Internet: http://www.hwwi.org
Institut der Deutschen Wirtschaft (IdW), Köln
Internet: http://www.idw.de
Institut für Makroökonomie und Konjunkturforschung (IMK), Düsseldorf
Internet: http://www.boeckler.de/31923.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
51 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik:
Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen
Entwicklung
Internet: http://www.sachverstaendigenrat-wirtschaft.de
Monopolkommission
Internet: http://www.monopolkommission.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
52 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik:
Marktforschungsinstitute
Gesellschaft für Konsumforschung (GfK)
Internet: http://www.gfk.com/group/index.de.html
Meinungsforschungsinstitute
Institut für Demoskopie Allensbach
Internet: http://www.ifd-allensbach.de
Emnid
Internet: http://www.tns-emnid.com
Forsa
Internet: http://www.forsa.de
Forschungsgruppe Wahlen
http://www.forschungsgruppe.de/Startseite
Infas
http://www.infas.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
53 / 446
Datentypen und Datenquellen
Internationale amtliche Statistik:
Statistisches Amt der Europäischen Union (Eurostat)
Internet: http://epp.eurostat.ec.europa.eu
Europäische Zentralbank (EZB)
Internet: http://www.ecb.int/stats/html/index.en.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
54 / 446
Datentypen und Datenquellen
Internationale nicht-amtliche Statistik:
Organisation for Economic Development and Co-Ordination (OECD):
Internet: http://www.oecd.org
Weltbank
Internet: http://www.worldbank.org
Bank für Internationalen Zahlungsausgleich (Basel)
Internet: http://www.bis.org
Vereinte Nationen (UN):
Internet: http://www.un.org/Pubs
International Monetary Fund (IMF):
Internet: http://www.imf.org/external/data.htm
International Labor Organization (ILO):
Internet: http://www.ilo.org/global/lang–en/index.htm
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
55 / 446
Datentypen und Datenquellen
Sekundärdatenquellen und Datenbanken:
Datenbanken sind Sammlungen von Daten, unter Umständen auch aus
ganz unterschiedlichen Datenquellen
Datenbanken der amtlichen Statistik:
Genesis Online (Statistisches Bundesamt)
Bundesstatistik: Internet:
https://www-genesis.destatis.de/genesis/online/logon
Regionalstatistik: Internet:
https://www.regionalstatistik.de/genesis/online/logon
Arbeitsgruppe VGR der Länder:
Internet: http://www.vgrdl.de/Arbeitskreis VGR
Sehr umfangreiche Datenbanken:
Penn World Tables (Freier Zugang über University of Pennsylvania):
http://pwt.econ.upenn.edu
Statistik-Netz (Zugang HSU HH über Bibliothek WiSo)
Datastream (Zugang HSU HH)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
56 / 446
Datentypen und Datenquellen
Literaturhinweise
Literaturhinweise zum 3. Kapitel
Mosler, K. und F. Schmid (2006): Beschreibende Statistik und
Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
1].
Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2.
Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
57 / 446
Datenverarbeitung und Software
4. Datenverarbeitung und Software
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
58 / 446
Datenverarbeitung und Software
Literaturhinweise
Literaturhinweise zum 4. Kapitel
Behr, A. und U. Pötter (2011): Einführung in die Statistik mit R, Verlag
Vahlen, München.
Crawley, M. (2005): Statistics. An Introduction using R, Wiley
Publishers, Hoboken.
Field, A., J. Miles und Z. Field (2012): Discovering Statistics using R,
Sage Publications, London.
Kleiber, C. und A. Zeileis (2008): Applied Econometrics with R, Use R!
Series, Springer-Verlag, Berlin.
Spector, P. (2008): Data Manipulation with R, Use R! Series,
Springer-Verlag, Berlin.
Zuur, A.F., E. N. Ieno und H.W.G. Meesters (2009): A Beginner’s Guide
to R, Use R! Series, Springer-Verlag, Berlin.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
59 / 446
Häufigkeiten und Häufigkeitsverteilungen
5. Häufigkeiten und Häufigkeitsverteilungen
5.1 Absolute und relative Häufigkeiten
5.2 Empirische Verteilungsfunktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
60 / 446
Häufigkeiten und Häufigkeitsverteilungen
5.1 Absolute und relative Häufigkeiten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
61 / 446
Häufigkeiten und Häufigkeitsverteilungen
Seien a1 , a2 , ..., aN die Ausprägungen eines qualitativen Merkmals mit k
qualitativ unterscheidbaren Ausprägungen einer Grundgesamtheit der Größe
N
Definition
Die absoluten Häufigkeiten nj geben an, wie oft jede Merkmalsausprägung
aj mit j = 1, ..., k eines Merkmals in der Grundgesamtheit auftritt
Die Summe der absoluten Häufigkeiten ergibt gerade die Gesamtanzahl der
Beobachtungen:
k
X
nj = N
j=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
62 / 446
Häufigkeiten und Häufigkeitsverteilungen
0
2
4
6
8
10
12
14
Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1)
Arbeitslos
Prof. Dr. Michael Berlemann (HSU)
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges Verkaeufer
Empirische Wirtschaftsforschung
25. Juni 2014
63 / 446
Häufigkeiten und Häufigkeitsverteilungen
Definition
Die relativen Häufigkeiten fj geben an, welchen Anteil jede
Merkmalsausprägung an der Gesamtanzahl der Beobachtungen hat
Die Summe der relativen Häufigkeiten ergibt ergibt 100%:
k
X
j=1
Prof. Dr. Michael Berlemann (HSU)
fj =
k
X
nj
j=1
N
=1
Empirische Wirtschaftsforschung
25. Juni 2014
64 / 446
Häufigkeiten und Häufigkeitsverteilungen
Häufigkeitstabelle Berufe (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
Absolute
Häufigkeit
9
4
7
10
11
15
5
9
Relative
Häufigkeit
0.13
0.06
0.10
0.14
0.16
0.21
0.07
0.13
Empirische Wirtschaftsforschung
Prozentuale
Häufigkeit
12.90
5.70
10.00
14.30
15.70
21.40
7.10
12.90
25. Juni 2014
65 / 446
Häufigkeiten und Häufigkeitsverteilungen
Kuchendiagramm relative Häufigkeit Berufe (Datensatz 1)
Verkaeufer
(12.9%)
Arbeitslos
(12.9%)
Arzt
(5.7%)
Sonstiges
(7.1%)
Ingenieur
(10%)
Schueler
(21.4%)
Lehrer
(14.3%)
Rentner
(15.7%)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
66 / 446
Häufigkeiten und Häufigkeitsverteilungen
15
10
0
5
Absolute Häufigkeit
20
25
Histogramm klassifizierte Jahreseinkommen (Datensatz 1)
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
67 / 446
Häufigkeiten und Häufigkeitsverteilungen
5.2 Empirische Verteilungsfunktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
68 / 446
Häufigkeiten und Häufigkeitsverteilungen
Definition
Die empirische Verteilungsfunktion eines Merkmals ergibt sich aus
den kumulierten relativen Häufigkeiten
Um den Wert der empirischen Verteilungsfunktion zu berechnen, müssen
zunächst die Beobachtungen ihrer Größe nach von klein nach groß
geordnet werden
Der Wert der empirischen Verteilungsfunktion für die
Beobachtung x ergibt sich dann als die Summe der kumulierten
relativen Häufigkeiten aller Merkmalsausprägungen, die kleiner oder
gleich x sind:
X
F (x) =
f (aj )
aj ≤x
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
69 / 446
Häufigkeiten und Häufigkeitsverteilungen
1.0
Empirische Verteilungsfunktion Zahl der Kinder (Datensatz 1)
●
●
0.6
●
0.4
●
0.0
0.2
Kumulierte relative Häufigkeit
0.8
●
0
1
2
3
4
5
Zahl der Kinder
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
70 / 446
Häufigkeiten und Häufigkeitsverteilungen
1.0
Empirische Verteilungsfunktion Alter (Datensatz 1)
●
●
●
●
●
●
●
●
0.6
●
●
●
●
●
●
●
●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
Kumulierte relative Häufigkeit
0.8
●
●
●
●
●
●
●
0.0
●
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
71 / 446
Häufigkeiten und Häufigkeitsverteilungen
Literaturhinweise
Literaturhinweise zum 5. Kapitel
Behr, A. und U. Pötter (2011): Einfühung in die Statistik mit R, 2.
Auflage, Verlag Vahlen, München [insbes. Kapitel 5].
Duller, C. (2006): Einführung in die Statistik mit Excel und SPSS,
Physica-Verlag, Heidelberg [insbes. Kapitel 6].
Kazmier, L. J. (1996): Wirtschaftsstatistik, Übersetzung der 3. Auflage,
McGraw-Hill International Ltd., London [insbes. Kapitel 2].
Quatember, A. (2005): Statistik ohne Angst vor Formeln. Ein Lehrbuch
für Wirtschafts- und Sozialwissenschaftler [insbes. Kapitel 1.2].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 2].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
72 / 446
Maßzahlen für einzelne Merkmale
6. Maßzahlen für einzelne Merkmale
6.1
6.2
6.3
6.4
6.5
Lagemaße
Streuungsmaße
Boxplot
Schiefe, Wölbung und Exzess
Konzentrationsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
73 / 446
Maßzahlen für einzelne Merkmale
6.1 Lagemaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
74 / 446
Maßzahlen für einzelne Merkmale
Definition
Als Modus bezeichnet man diejenige Merkmalsausprägung, die am häufigsten
auftritt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
75 / 446
Maßzahlen für einzelne Merkmale
0
2
4
6
8
10
12
14
Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1)
Arbeitslos
Prof. Dr. Michael Berlemann (HSU)
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges Verkaeufer
Empirische Wirtschaftsforschung
25. Juni 2014
76 / 446
Maßzahlen für einzelne Merkmale
15
10
0
5
Absolute Häufigkeit
20
25
Histogramm klassifizierte Jahreseinkommen (Datensatz 1)
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
77 / 446
Maßzahlen für einzelne Merkmale
Definition
Sei α eine Zahl zwischen null und eins. Als α-Quantil wird dann derjenige
Wert x̃α bezeichnet, für den die Verteilungsfunktion F gerade den Wert α
annimmt, d.h. F (x̃α ) = α.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
78 / 446
Maßzahlen für einzelne Merkmale
Ausgewählte Quantile des Jahreseinkommens (Datensatz 1)
α-Quantil
10%
20%
30%
40%
50%
60%
70%
80%
90%
Prof. Dr. Michael Berlemann (HSU)
Wert
350
2500
15000
20000
28000
33000
40000
45000
75000
Empirische Wirtschaftsforschung
25. Juni 2014
79 / 446
Maßzahlen für einzelne Merkmale
Definition
Als Quartile bezeichnet man diejenigen Quantilswerte, die zu einer
Unterteilung der Daten in vier gleich große Gruppen führen:
F (x̃α=0,25 ) = 0, 25
F (x̃α=0,50 ) = 0, 50
F (x̃α=0,75 ) = 0, 75
Dabei bezeichnet man das 0,25-Quartil auch als unteres und das 0,75-Quartil
als oberes Quartil
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
80 / 446
Maßzahlen für einzelne Merkmale
Quartile des Jahreseinkommens (Datensatz 1)
Quartil
25%
50%
75%
Prof. Dr. Michael Berlemann (HSU)
Wert
11000.00
28000.00
42750.00
Empirische Wirtschaftsforschung
25. Juni 2014
81 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Median (auch: Zentralwert) beschreibt das Zentrum einer geordneten
Reihe aller Beobachtungen (aufsteigend, absteigend) und ist ein Spezialfall
eines Quantils. Für den Median gilt, dass höchstens 50 % der Beobachtungen
kleiner oder gleich und höchstens 50% größer oder gleich diesem Wert sein
dürfen (d.h. α = 0.5).
Median-Jahreseinkommen (Datensatz 1)
Der Median des Jahreseinkommens aus Datensatz 1 beträgt 28.000 Euro.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
82 / 446
Maßzahlen für einzelne Merkmale
Definition
Das arithmetische Mittel ist der ungewichtete Durchschnittswert aller
Beobachtungen
N
1 X
X̄ =
xi
N i=1
Durchschnittliches Jahreseinkommen (Datensatz 1)
Das durchschnittliche Jahreseinkommen aus Datensatz 1 beträgt:
X̄ = 34.451, 79
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
83 / 446
Maßzahlen für einzelne Merkmale
6.2 Streuungsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
84 / 446
Maßzahlen für einzelne Merkmale
Definition
Bei einer der Größe nach geordneten Beobachtungsreihe berechnet sich die
Spannweite S als
S = xN − x1
Spannweite Jahreseinkommen (Datensatz 1)
Die Spannweite des Jahreseinkommens aus Datensatz 1 beträgt:
S = 199.950
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
85 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Quartilsabstand misst die Differenz zwischen dem oberen und dem
unteren Quartilswert und somit den zentralen Teil der Verteilung der
Beobachtungen:
dQ = x̃0,75 − x̃0,25
Quartilsabstand Jahreseinkommen (Datensatz 1)
Der Quartilsabstand des Jahreseinkommens aus Datensatz 1 beträgt:
dQ = 31.750
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
86 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Varianz misst die mittlere quadratische Abweichung der beobachteten
Merkmalsausprägungen vom arithmetischen Mittel
V ar[X] = σ 2 =
N
1 X
·
(xi − X̄)2
N i=1
Varianz des Jahreseinkommens (Datensatz 1)
Die Varianz des Jahreseinkommens aus Datensatz 1 beträgt:
σ 2 = 1.320.667.180
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
87 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Standardabweichung ergibt sich als Wurzel aus der Varianz
v
u
N
u1 X
(xi − X̄)2
Stdabw[X] = σ = t ·
N i=1
Standardabweichung des Jahreseinkommens (Datensatz 1)
Die Standardabweichung des Jahreseinkommens aus Datensatz 1 beträgt:
σ == 36.340, 98
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
88 / 446
Maßzahlen für einzelne Merkmale
6.3 Boxplot
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
89 / 446
Maßzahlen für einzelne Merkmale
200000
●
150000
Boxplot Jahreseinkommen (Datensatz 1)
●
0
50000
100000
●
●
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
90 / 446
Maßzahlen für einzelne Merkmale
6.4 Schiefe, Wölbung und Exzess
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
91 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Schiefe einer Verteilung ist definiert als
1
g1 = rN
·
1
N
PN
·
i=1 (xi
− X̄)3
PN
2
i=1 (xi − X̄)
3
Schiefe der Verteilung des Jahreseinkommens (Datensatz 1)
Die Schiefe der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g1 = 2, 14
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
92 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Wölbung (Kurtosis) einer Verteilung ist definiert als
1
N
g2 = r
·
1
N
PN
− X̄)4
PN
− X̄)2
·
i=1 (xi
i=1 (xi
4
Kurtosis der Verteilung des Jahreseinkommens (Datensatz 1)
Die Kurtosis der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g2 = 5, 87
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
93 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Exzess einer Verteilung misst die Abweichung einer empirischen
Verteilung von der Normalverteilung mit gleichem arithmetischen Mittel und
gleicher Varianz:
g3 = g2 − 3
Exzess der Verteilung des Jahreseinkommens (Datensatz 1)
Der Exzess der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g3 = 2, 87
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
94 / 446
Maßzahlen für einzelne Merkmale
6.5 Konzentrationsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
95 / 446
Maßzahlen für einzelne Merkmale
Berechnung der Lorenzkurve
1
Ordnung der Beobachtungen nach ihrer Größe, wobei mit dem kleinsten
Wert begonnen wird
2
Berechnung der Gesamtsumme aller Merkmalswerte:
N
X
xi = n · X̄
i=1
3
Berechnung der kumulierten Summe der Beobachtungen für jede
Merkmalsausprägung, Bildung der Relation zur Gesamtsumme der
Beobachtungen:
Pi
j=1
x(j)
j=1
x(j)
υi = PN
4
mit i = 1, ..., N υ0 := 0
Wiederholung des Vorgehens für den Fall einer Gleichverteilung mit
identischer Gesamtsumme der Beobachtungen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
96 / 446
Maßzahlen für einzelne Merkmale
Beispiel: Berechnung einer Lorenzkurve für kleinen Datensatz
Haushalt
1
2
3
4
5
6
7
8
9
10
Summe
Tatsächliche Verteilung
Eink.
Kumul.
Eink. kumul.
Anteil
0
0
0
150
150
0,03
240
390
0,08
270
660
0,14
300
960
0,21
400
1360
0,29
670
2030
0,43
800
2830
0,6
800
3630
0,78
1050
4680
1
4680
Prof. Dr. Michael Berlemann (HSU)
Gleichverteilung
Eink.
Kumul.
Eink. kumul.
Anteil
468
468
0,1
468
936
0,2
468
1404
0,3
468
1872
0,4
468
2340
0,5
468
2808
0,6
468
3276
0,7
468
3744
0,8
468
4212
0,9
468
4680
1
4680
Empirische Wirtschaftsforschung
25. Juni 2014
97 / 446
Maßzahlen für einzelne Merkmale
Lorenzkurve für kleinen Datensatz
5000
4500
kumuliertes Einkommen
k
4000
3500
3000
2500
2000
1500
1000
500
0
0,00
1
2
3
4
5
6
7
8
9
10
Haushalt
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
98 / 446
Maßzahlen für einzelne Merkmale
Lorenzkurve für Jahreseinkommen (Datensatz 1)
1.0
kumuliertes Einkommen
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Einkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
99 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Gini-Koeffizient lässt sich berechnen als
G=1−
Prof. Dr. Michael Berlemann (HSU)
N
1 X
·
(υi−1 + υi )
N i=1
Empirische Wirtschaftsforschung
25. Juni 2014
100 / 446
Maßzahlen für einzelne Merkmale
Gini-Koeffizient für kleinen Datensatz
Der Gini-Koeffizient für den kleinen Beispieldatensatz beträgt:
G = 0, 387
Gini-Koeffizient für die Verteilung des Jahreseinkommens (Datensatz 1)
Der Gini-Koeffizient der Verteilung des Jahreseinkommens aus Datensatz 1
beträgt:
G = 0, 505
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
101 / 446
Maßzahlen für einzelne Merkmale
Literaturhinweise
Literaturhinweise zum 6. Kapitel
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
102 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7. Maßzahlen für den Zusammenhang zwischen
Merkmalen
7.1
7.2
7.3
7.4
Verteilung zweidimensionaler Merkmale
Zusammenhang nominaler Merkmale
Zusammenhang ordinaler Merkmale
Zusammenhang stetiger Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
103 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.1 Verteilung zweidimensionaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
104 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Randverteilung Zahl der Kinder (Datensatz 1)
Kinder
0
1
2
3
4
Prof. Dr. Michael Berlemann (HSU)
Anzahl
31
11
18
7
3
Empirische Wirtschaftsforschung
25. Juni 2014
105 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Kontingenztabelle mit Randverteilungen, Beruf versus Kinder (Datensatz 1)
Beruf
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Summe
Prof. Dr. Michael Berlemann (HSU)
0
2
2
3
2
2
15
0
5
31
Zahl der Kinder
1
2 3 4 Summe
1
4 0 2
9
1
1 0 0
4
3
1 0 0
7
1
4 3 0
10
3
4 2 0
11
0
0 0 0
15
0
3 1 1
5
2
1 1 0
9
11 18 7 3
70
Empirische Wirtschaftsforschung
25. Juni 2014
106 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
0.0
0
0.2
1
0.4
2
Zahl der Kinder
0.6
3
0.8
4
1.0
Spineplot Verteilung Kinder nach Berufen (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Berufe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
107 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Scatterplot Einkommen versus Alter (Datensatz 1)
●
●
●
80
●
●
●
●
●
●
●
●
●
60
●
●
●
●●
●
●
●
Alter
● ●
●
●
●
●
●
●
●
40
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
0
●
●
●
●
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
108 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.2 Zusammenhang nominaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
109 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Die χ2 -Statistik berechnet sich als

χ2
= N ·
K X
L
X
i=1 j=1
Ni+
=
L
X

2
Ni,j
− 1
Ni+ · N+j
Ni,j
j=1
Nj+
=
K
X
Ni,j
i=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
110 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Entsprechen die beobachteten relativen Häufigkeiten den erwarteten
relativen Häufigkeiten, so nimmt die χ2 -Statistik den Wert null an. Die
beiden Merkmale sind dann unabhängig.
Im Falle eines exakten systematischen Zusammenhangs hingegen nimmt
die χ2 -Statistik ihren Maximalwert an, der sich wie folgt berechnen lässt:
χ2 = N · (min(K, L) − 1)
Pearsons χ2 -Statistik für Berufe und Geschlecht (Datensatz 1)
Die χ2 -Statistik für die beiden nominalen Variablen Berufe und Geschlecht
beträgt χ2 =16.15268.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
111 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Zu erwartende Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
5.01
2.23
3.90
5.57
6.13
8.36
2.79
5.01
w
3.99
1.77
3.10
4.43
4.87
6.64
2.21
3.99
Empirische Wirtschaftsforschung
25. Juni 2014
112 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Tatsächliche Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
4
4
4
10
6
6
1
4
w
5
0
3
0
5
9
4
5
Empirische Wirtschaftsforschung
25. Juni 2014
113 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Pearson-Residuen der Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
-0.45
1.19
0.05
1.88
-0.05
-0.82
-1.07
-0.45
w
0.51
-1.33
-0.06
-2.10
0.06
0.91
1.20
0.51
Empirische Wirtschaftsforschung
25. Juni 2014
114 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.3 Zusammenhang ordinaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
115 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Für den Fall, dass keine Bindungen auftreten, lautet der
Rangkorrelationskoeffizient von Spearman:
rS = 1 −
Prof. Dr. Michael Berlemann (HSU)
6·
PN
i=1 (R(xi ) − R(yi ))
N · (N 2 − 1)
Empirische Wirtschaftsforschung
25. Juni 2014
116 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Rangkorrelation von Jahreseinkommen und Ausbildungsjahren (Datensatz 1)
Die Rangkorrelation nach Spearman zwischen Jahreseinkommen und
Ausbildungjahren beträgt rS = 0.64.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
117 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.4 Zusammenhang stetiger Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
118 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Das einfachste Maß des Zusammenhangs der Ausprägungen zweier
stetiger Merkmale, die Kovarianz, ist definiert als
Cov[X, Y ] =
Prof. Dr. Michael Berlemann (HSU)
N
1 X
·
(xi − X̄) · (yi − Ȳ )
N i=1
Empirische Wirtschaftsforschung
25. Juni 2014
119 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Positive Kovarianz: Alter versus Berufsjahre (Datensatz 1)
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
Alter
●
●
40
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
10
20
30
40
Berufsjahre
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
120 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
100
Negative Kovarianz: Alter versus Gesundheitszustand (Datensatz 1)
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
80
●
●
●
●●
●
●
●
●●
●
●
●
60
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
Gesundheitszustand
●
●●
●
●
●
●
●
●
●
●
●
●
●
20
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
121 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
100
Keine Kovarianz: Jahreseinkommen versus Gesundheitszustand (Datensatz 1)
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
80
●
●
●
●
●● ●
●
●
●
●
● ●
●
60
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
40
Gesundheitszustand
●
●
●
●
●
●
●
●
20
●
●
●
●
●
●
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
122 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Der Korrelationskoeffizient von Bravais-Pearson ist definiert als
PN
(xi − X̄) · (yi − Ȳ )
BP
Corr[X, Y ] = r
= qP i=1
PN
N
2
2
i=1 (yi − Ȳ )
i=1 (xi − X̄) ·
=
Prof. Dr. Michael Berlemann (HSU)
Cov[X, Y ]
p
V ar[X] · V ar[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
123 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Diverse Korrelationskoeffizienten nach Bravais-Pearson (Datensatz 1)
Alter vs. Gesundheitszustand
Jahreseinkommen vs. Gesundheitszustand
Berufsjahre vs. Alter
Prof. Dr. Michael Berlemann (HSU)
Korrelationskoeffizient
-0.95
-0.31
0.94
Empirische Wirtschaftsforschung
25. Juni 2014
124 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Literaturhinweise
Literaturhinweise zum 7. Kapitel
Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein
anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag,
Heidelberg [insbes. Kapitel 8].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
125 / 446
Regressionsansatz als deskriptives Verfahren
8. Regressionsansatz als deskriptives Verfahren
8.1
8.2
8.3
8.4
8.5
Idee des Regressionsansatzes
Lineare Einfachregression
Methode der Kleinsten Quadrate
Beurteilung der Güte einer Regression
Lineare Mehrfachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
126 / 446
Regressionsansatz als deskriptives Verfahren
8.1 Idee des Regressionsansatzes
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
127 / 446
Regressionsansatz als deskriptives Verfahren
Grundlegende Regressionsgleichung
Y = f (X) + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
128 / 446
Regressionsansatz als deskriptives Verfahren
8.2 Lineare Einfachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
129 / 446
Regressionsansatz als deskriptives Verfahren
Punktwolke
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
●
●
40
●
●
●
●
●
● ●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Prof. Dr. Michael Berlemann (HSU)
10
20
30
Empirische Wirtschaftsforschung
40
25. Juni 2014
130 / 446
Regressionsansatz als deskriptives Verfahren
Geradengleichung
Y = β0 + β1 · X
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
131 / 446
Regressionsansatz als deskriptives Verfahren
Schematischer Verlauf einer Regressionsgerade
180,0
160 0
160,0
Y = 10 + 1,5 ⋅ X
zu erklärend
de Variable (Y)
140,0
Steigung = β1 = ΔY/ΔX
120,0
100,0
Achsenabschnitt = β0 = 10
80,0
ΔY
60,0
ΔX
40,0
20,0
00
0,0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
132 / 446
Regressionsansatz als deskriptives Verfahren
Punktwolke mit Regressionsgerade
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
●
●
40
●
●
●
●
●
● ●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Prof. Dr. Michael Berlemann (HSU)
10
20
30
Empirische Wirtschaftsforschung
40
25. Juni 2014
133 / 446
Regressionsansatz als deskriptives Verfahren
8.3 Methode der kleinsten Quadrate
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
134 / 446
Regressionsansatz als deskriptives Verfahren
Regressionsgleichung
Die Regressionsgleichung einer linearen Einfachregression lautet:
y i = β0 + β1 · x i + i
Dabei ist i ein Beobachtungsindex
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
135 / 446
Regressionsansatz als deskriptives Verfahren
Nicht erklärtes Residuum einer linearen Einfachregression
180,0
160 0
160,0
zu erklärend
de Variable (Y)
140,0
120,0
100,0
80,0
60,0
ε1
40,0
ε2
20,0
0,0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
136 / 446
Regressionsansatz als deskriptives Verfahren
Die Geradengleichung ist durch die zwei Parameter β0 , β1 eindeutig
bestimmt
Wählen wir die Werte β̂0 , β̂1 für die beiden Parameter, so können wir für
jedes Beobachtungspaar xi , yi die sich bei dieser Geradengleichung
ergebenden Störterme berechnen:
i = yi − β̂0 − β̂1 · xi
Kleinste-Quadrate-Schätzung
Die Kleinste-Quadrate-Methode wählt nun die beiden Parameter gerade so,
dass die Summe der quadrierten Störterme (d.h. die Prognosefehler bzw. die
vertikalen Abweichungen der einzelnen Beobachtungspunkte im Scatterplot
von der Regressionsgerade) minimiert wird
!
N
N
X
X
min
i =
(yi − ŷi )
β0 ,β1
i=1
i=1
wobei N die Anzahl der Beobachtungen darstellt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
137 / 446
Regressionsansatz als deskriptives Verfahren
Berechnung der KQ-Schätzer für β̂0 und β̂1
Diejenigen Parameter, die zu einer Minimierung der quadrierten Störterme
führen, lassen sich berechnen als
β̂1 =
Cov[X, Y ]
=
V ar[X]
PN
i=1 (xi − X̄) · (yi −
PN
2
i=1 (xi − X̄)
Ȳ )
β̂0 = Ȳ − β̂1 · X̄
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
138 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + i
β0 = 104, 3685
β1 = −0, 9872
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
139 / 446
Regressionsansatz als deskriptives Verfahren
8.4 Beurteilung der Güte einer Regression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
140 / 446
Regressionsansatz als deskriptives Verfahren
Maß für die beobachtete Variation der zu erklärenden Variable:
Summe der quadratischen Abweichungen der tatsächlichen Ausprägungen von
Y vom Mittelwert (Total sum of squares, TSS):
PN
T SS = i=1 (yi − Ȳ )2
Maß für die erklärte Abweichung der zu erklärenden Variable:
Summe der quadratischen Abweichungen der für Y prognostizierten
Abweichungen vom Mittelwert (Explained Sum of Squares, ESS):
PN
ESS = i=1 (ŷi − Ȳ )2
Maß für die nicht erklärte Abweichung der zu erklärenden Variable:
Summe der quadratischen Abweichungen der für Y prognostizierten
Abweichungen von den tatsächlichen Ausprägungen (Residual Sum of
Squares, RSS):
PN
PN
RSS = i=1 (ŷi − yi )2 = i=1 2i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
141 / 446
Regressionsansatz als deskriptives Verfahren
Die Abweichung eines jeden Wertes von seinem Mittelwert lässt sich
darstellen als die Summe der Abweichung der tatsächlichen Werte von
den geschätzten Werten und der Abweichung der geschätzten Werte vom
Mittelwert.
Dies gilt auch für die summierten Werte:
T SS
N
X
⇔
(yi − Ȳ )2
i=1
i=1
N
X
⇔
(yi − Ȳ )2
i=1
Prof. Dr. Michael Berlemann (HSU)
= RSS + ESS
N
N
X
X
=
(ŷi − yi )2 +
(ŷi − Ȳ )2
i=1
N
N
X
X
2
=
(ŷi − yi ) +
2i
i=1
Empirische Wirtschaftsforschung
i=1
25. Juni 2014
142 / 446
Regressionsansatz als deskriptives Verfahren
Varianzzerlegung
180,0
160 0
160,0
zu erklärend
de Variable (Y)
140,0
Tatsächliche Beobachtung
Y = βˆ0 + βˆ1 ⋅ X
120,0
100,0 Prognostizierter Wert
Unerklärte Abweichung
Mittelwert
Mittelwertabweichung
80,0
Erklärte Abweichung
60,0
Y
40,0
X
20,0
0,0
00
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
143 / 446
Regressionsansatz als deskriptives Verfahren
Definition
Das Bestimmtheitsmaß (R2 ) einer linearen Regression ist definiert als
R2 =
PN 2
ESS
RSS
=1−
= 1 − PN i=1 i
2
T SS
T SS
i=1 (yi − Ȳ )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
144 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für hohes Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + i
β0 = 104, 3685
β1 = −0, 9872
R2 = 0, 907
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
145 / 446
Regressionsansatz als deskriptives Verfahren
100
Beispiel: Regression mit hohem Bestimmtheitsmaß
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
80
●
●
●
●●
●
●
●
●●
●
●
●
60
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
Gesundheitszustand
●
●●
●
●
●
●
●
●
●
●
●
●
●
20
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
146 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für niedriges Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1)
Jahreseinkommeni = β0 + β1 · Alteri + i
β0 = 14926, 0
β1 = 498, 7
R2 = 0, 102
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
147 / 446
Regressionsansatz als deskriptives Verfahren
200000
Beispiel: Regression mit niedrigem Bestimmtheitsmaß
●
●
●
100000
Jahreseinkommen
150000
●
●
●
●
●
●
50000
●
●
●
●
●
0
●
0
●
●
●
●
● ●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●● ●●●●● ●
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
148 / 446
Regressionsansatz als deskriptives Verfahren
8.5 Lineare Mehrachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
149 / 446
Regressionsansatz als deskriptives Verfahren
Regressionsgleichung einer linearen Mehrfachregression
Die Regressionsgleichung einer linearen Mehrfachregression mit k erklärenden
Variablen lautet:
Y = β0 + β1 · X1,i + β2,i · X2 + · · · + βk · Xk,i + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
150 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i
β0 = 102, 61
β1 = −1, 01254
β2 = 0.27168
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
151 / 446
Regressionsansatz als deskriptives Verfahren
Standardisierter Regressionskoeffizient
Wird ein Regressionskoeffizient mit der Standardabweichung der zugehörigen
erklärenden Variablen multipliziert und durch die Standardabweichung der zu
erklärenden Variable geteilt, so erhält man den standardisierten
Regressionskoeffizienten
βks = βk ·
Prof. Dr. Michael Berlemann (HSU)
Stdabw[Xk ]
Stdabw[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
152 / 446
Regressionsansatz als deskriptives Verfahren
Bestimmtheitsmaß
R2 =
PN 2
ESS
RSS
=1−
= 1 − PN i=1 i
T SS
T SS
(y
−
Ȳ )2
i=1 i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
153 / 446
Regressionsansatz als deskriptives Verfahren
Definition
Das adjustierte Bestimmtheitsmaß (adj.R2 ) ist definiert als:
2
adj.R = 1 −
RSS
N −(K+1)
T SS
N −1
=1−
PN
2
i=1 i
N −(K+1)
PN
2
i=1 (yi −Ȳ )
N −1
mit N als Anzahl der Beobachtungen und K + 1 als Anzahl der geschätzten
Koeffizienten (inkl. Konstante).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
154 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung des adjustierten Bestimmtheitsmaßes (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i
β0 = 102, 61
β1 = −1, 01254
β2 = 0.27168
Adj.R2 = 0.9074
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
155 / 446
Regressionsansatz als deskriptives Verfahren
Literaturhinweise
Literaturhinweise zum 8. Kapitel
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4].
Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 2 und 3].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
156 / 446
Stichproben und Zufallszahlen
9. Stichproben und Zufallszahlen
9.1 Grundgesamtheit und Stichprobe
9.2 Zufallszahlen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
157 / 446
Stichproben und Zufallszahlen
9.1 Grundgesamtheit und Stichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
158 / 446
Stichproben und Zufallszahlen
Reine (uneingeschränkte) Zufallsauswahl
Von einer reinen Zufallsauswahl spricht man, wenn jedes Objekt aus der
Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu gelangen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
159 / 446
Stichproben und Zufallszahlen
Echte Zufallsstichproben:
1
Lotterieverfahren
Alle Elemente der Grundgesamtheit kommen in die Lostrommel und
daraus wird gezogen (mit oder ohne Zurücklegen).
2
Zufallszahlenverfahren
Generierung von Zufallszahlen (mit Hilfe von Computern erzeugt).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
160 / 446
Stichproben und Zufallszahlen
Unechte Zufallsstichproben:
Schichtenauswahl
Klumpenauswahl
Quotenstichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
161 / 446
Stichproben und Zufallszahlen
Stichprobenfunktion
Eine Stichprobenfunktion (auch: Statistik) ist eine Zufallsvariable, die
als Funktion der Stichprobenvariablen definiert ist.
Stichprobenfunktionen dienen dazu, eine oder mehrere Stichproben zu
verdichten.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
162 / 446
Stichproben und Zufallszahlen
Wichtige Stichprobenfunktionen und ihre Momente
Stichprobenfunktion
PN
i=1 xi
P
1
X̄s = N · N
x
√i=1 i
X̄s −µ
·
N
Pσ
1
· N (xi − µ)2
N P i=1
1
(xi − X̄s )2
· N
i=1P
N
1
V ars = n−1 · N
(x − X̄s )2
i=1
√ i
stdabws = V ars
Bezeichnung
Erwartungswert
Varianz
Merkmalssumme
Stichprobenmittel
Gauß-Statistik
MQA bezüglich µ
MQA
Varianz
Stdabw.
N ·µ
µ
0
σ2
N −1
· σ2
N
2
σ
σ
N · σ2
σ2
N
1
MQA: mittlere quadratische Abweichung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
163 / 446
Stichproben und Zufallszahlen
9.2 Zufallszahlen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
164 / 446
Stichproben und Zufallszahlen
Definition
Für eine diskrete Zufallsvariable X ist der Wert der
Wahrscheinlichkeitsfunktion f (x) die Wahrscheinlichkeit, dass die
Zufallsvariable X gerade die Ausprägung x annimmt:
f (x) = P (X = x) mit 0 ≤ f (x) ≤ 1
Für die Summe der Eintrittswahrscheinlichkeiten der einzelnen Zustände
j (Anzahl der Ausprägungen: J) muss gelten:
J
X
f (xj ) = 1 ⇔ f (x1 ) + f (x2 ) + ... + f (xJ ) = 1
j=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
165 / 446
Stichproben und Zufallszahlen
Definition
Die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen Wert
zwischen x0 und x1 annimmt, lässt sich über die Dichtefunktion berechnen
als:
Z x
1
P (x0 ≤ X ≤ x1 ) =
f (x) · dx ≥ 0.
x0
Die Dichtefunktion ist an jeder Stelle positiv:
f (x) ≥ 0.
Zudem muss das Integral über die Dichtefunktion stets eins betragen:
Z ∞
f (x) · dx = 1.
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
166 / 446
Stichproben und Zufallszahlen
Definition
Die kumulierte Dichtefunktion an der Stelle x1 ist definiert als
Z x1
F (x1 ) = P (X ≤ x1 ) =
f (x) · dx
−∞
Die Ableitung der kumulierten Dichtefunktion an der Stelle x1 ist
gerade der Wert der Dichtefunktion an der Stelle x1 :
f (x1 ) =
Prof. Dr. Michael Berlemann (HSU)
dF (x1 )
dx
Empirische Wirtschaftsforschung
25. Juni 2014
167 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer hypothetischen, stetigen Zufallsvariable
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
168 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer hypothetischen, stetigen Zufallsvariable
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
169 / 446
Stichproben und Zufallszahlen
Der Erwartungswert einer Zufallsvariablen lässt sich immer numerisch
berechnen, wenn die Wahrscheinlichkeits- (bei diskreten Variablen) bzw.
die Dichtefunktion (bei stetigen Variablen) bekannt ist
Definition
Bei diskreten Zufallsvariablen kann der Erwartungswert als Summe der
mit den Eintrittswahrscheinlichkeiten gewichteten Zustände berechnet werden:
E[X] =
J
X
xj · P (X = xj ) =
j=1
J
X
xj · f (xj )
j=1
Definition
Bei stetigen Zufallsvariablen errechnet sich der Erwartungswert als
Integral über die mit den Zuständen multiplizierte Dichtefunktion
Z ∞
E[X] =
x · f (x) · dx
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
170 / 446
Stichproben und Zufallszahlen
Definition
Die Varianz einer diskreten Zufallsvariable berechnet sich als
2
V ar[X] = σX
=
J
X
P (X = xj ) · (xj − E[X])2 =
j=1
J
X
f (xj ) · (xj − E[X])2
j=1
Definition
Die Varianz einer stetigen Zufallsvariable ergibt sich als
Z ∞
2
V ar[X] = σX
=
(xj − E[x])2 · f (x) · dx
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
171 / 446
Stichproben und Zufallszahlen
Definition
Die Standardabweichung von diskreten und stetigen Zufallsvariablen
ergibt sich als Quadratwurzel aus der Varianz
q
p
2
Stdabw[X] = σX = V ar[X] = σX
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
172 / 446
Stichproben und Zufallszahlen
Definition
Für diskrete Zufallsvariablen X und Y mit der gemeinsamen
Wahrscheinlichkeitsfunktion f (x, y) ist die Kovarianz definiert als
Cov(X, Y ) =
J X
K
X
(xj − E[X]) · (yk − E[Y ]) · f (X = xj , Y = yk )
j=1 k=1
Definition
Für stetige Zufallsvariablen X und Y mit der gemeinsamen Dichtefunktion
f (x, y) ist die Kovarianz definiert als
Z ∞Z ∞
(x − E[X]) · (y − E[Y ]) · f (x, y) · dx · dy
Cov(X, Y ) =
−∞
Prof. Dr. Michael Berlemann (HSU)
−∞
Empirische Wirtschaftsforschung
25. Juni 2014
173 / 446
Stichproben und Zufallszahlen
Definition
Der Korrelationskoeffizient (nach Bravais-Pearson) zweier Zufallsvariablen
X und Y ist definiert als
Corr(X, Y ) = p
Prof. Dr. Michael Berlemann (HSU)
Cov(X, Y )
V ar[X] · V ar[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
174 / 446
Stichproben und Zufallszahlen
0.35
0.30
0.20
0.25
Wert der Dichtefunktion
0.40
0.45
Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4]
0
1
2
3
4
5
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
175 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer stetigen Gleichverteilung über dem Intervall
[1:4]
0
1
2
3
4
5
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
176 / 446
Stichproben und Zufallszahlen
Definition
Eine normalverteilte Zufallsvariable mit dem Erwartungswert µX
2
und der Varianz σX
2
X ∼ N (µX , σX
)
hat die über den gesamten reellen Wertebereich definierte
Dichtefunktion:
f (x) =
Prof. Dr. Michael Berlemann (HSU)
σX ·
1
√
x−µX 2
−0.5·
σ
2·π
·e
Empirische Wirtschaftsforschung
X
25. Juni 2014
177 / 446
Stichproben und Zufallszahlen
0.15
0.10
0.00
0.05
Wert der Dichtefunktion
0.20
0.25
Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
178 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
179 / 446
Stichproben und Zufallszahlen
Definition
Die Verteilung
2
X ∼ N (µX = 0, σX
= 1)
bezeichnet man auch als Standardnormalverteilung.
Die Standardnormalverteilung hat die Dichtefunktion:
f (x) = √
2
1
· e−0.5·x
2·π
Transformationsregel
Jede normalverteilte Zufallsvariable X lässt sich in eine
standardnormalverteilte Zufallsvariable Z transformieren:
Z=
Prof. Dr. Michael Berlemann (HSU)
X − µX
σX
Empirische Wirtschaftsforschung
25. Juni 2014
180 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
181 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
182 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der Exponentialverteilung ist nur über den positiven
Wertebereich definiert und lautet:
f (x) = λ · e−λ·x für x ≥ 0
Definition
Die kumulierte Dichtefunktion der Exponentialverteilung ist gegeben durch:
Z x
Z x
f (t) · dt =
λ · e−λ·t · dt = −e−λ·x
F (x) =
0
Prof. Dr. Michael Berlemann (HSU)
0
Empirische Wirtschaftsforschung
25. Juni 2014
183 / 446
Stichproben und Zufallszahlen
0.4
0.0
0.2
Wert der Dichtefunktion
0.6
Dichtefunktion einer Exponentialverteilung [λ = 0, 75]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
184 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Exponentialverteilung [λ = 0, 75]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
185 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der t-Verteilung lautet:
f (x) =
Γ
Γ
v
2
v+1
2
x2
· 1−
√
v
· π·v
− v+1
2
wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen.
Für viele Beobachtungen, d.h. eine große Zahl von Freiheitsgraden,
konvergiert die t-Verteilung gegen die Standardnormalverteilung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
186 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer t-Verteilung [20 Freiheitsgrade]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
187 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer t-Verteilung [20 Freiheitsgrade]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
188 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der F-Verteilung lautet:
f (x) =
Γ
Γ
v1
2
v1 +v2
2
·Γ
v2 ·
2
v1
v2
v21
·
1+
x
v1
2
v1
v2
−1
·x
2
v1 +v
2
wobei Γ die Gammafunktion und v1 sowie v2 die Zahl der Freiheitsgrade
bezeichnen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
189 / 446
Stichproben und Zufallszahlen
0.6
0.4
0.0
0.2
Wert der Dichtefunktion
0.8
1.0
Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
190 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
191 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der Chi-Quadrat-Verteilung lautet:
f (x) =
1
2 ·Γ
v
2
v
v
2
x
· x 2 −1 · e− 2
wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
192 / 446
Stichproben und Zufallszahlen
0.06
0.04
0.00
0.02
Wert der Dichtefunktion
0.08
0.10
Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade]
0
5
10
15
20
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
193 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade]
0
5
10
15
20
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
194 / 446
Stichproben und Zufallszahlen
Literaturhinweise
Literaturhinweise zum 9. Kapitel
Bamberg, G. und F. Baur (2006): Statistik, 12. Auflage, Oldenbourg
Verlag, München [insbes. Kapitel 8,9].
Bauer, T., M. Fertig und C. Schmidt (2009): Empirische
Wirtschaftsforschung. Eine Einführung, Springer-Verlag, Berlin u.a.
[insbes. Kapitel 1].
Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein
anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag,
Heidelberg [insbes. Kapitel 11,12].
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
1,2 und 4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
195 / 446
Schätzen von Parametern der Grundgesamtheit
10. Schätzen von Parametern der
Grundgesamtheit
10.1 Typen von Schätzern
10.2 Wünschenswerte Eigenschaften von Schätzern
10.3 Momentenmethode
10.4 Maximum Likelihood Methode
10.5 Konfidenzintervalle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
196 / 446
Schätzen von Parametern der Grundgesamtheit
10.1 Typen von Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
197 / 446
Schätzen von Parametern der Grundgesamtheit
Typen von Schätzern:
Punktschätzer
Intervallschätzer (Konfindenzintervalle)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
198 / 446
Schätzen von Parametern der Grundgesamtheit
10.2 Wünschenswerte Eigenschaften von Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
199 / 446
Schätzen von Parametern der Grundgesamtheit
Wünschenswerte Eigenschaften von Schätzern:
1
Erwartungstreue (auch: Unverzerrtheit)
2
Konsistenz
3
Effizienz
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
200 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion ΘˆN eines Parameters Θ heißt erwartungstreu
(unverzerrt), wenn ihr Erwartungswert gerade dem zu schätzenden
Parameter entspricht:
E[Θ̂N ] = Θ.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
201 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion Θ̂ eines Parameters Θ heißt konsistent, wenn sie
stochastisch gegen den zu schätzenden Parameter konvergiert:
lim Θ̂ = Θ.
N →∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
202 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion Θ̂ eines Parameters Θ heißt effizient, wenn es keine
andere Schätzfunktion für den Parameter gibt, die eine geringere Varianz hat.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
203 / 446
Schätzen von Parametern der Grundgesamtheit
Zur Schätzung der Parameter der Grundgesamtheit gibt es verschiedene
Verfahren:
1
Momentenmethode
2
Maximum-Likelihood-Methode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
204 / 446
Schätzen von Parametern der Grundgesamtheit
10.3 Momentenmethode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
205 / 446
Schätzen von Parametern der Grundgesamtheit
Mittelwert
Um den Mittelwert einer Grundgesamtheit zu schätzen, verwendet die
Momentenmethode das Stichprobenmittel:
X̄N =
N
1 X
·
xi
N i=1
Diese Schätzfunktion ist erwartungstreu, konsistent und effizient.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
206 / 446
Schätzen von Parametern der Grundgesamtheit
60
Moment-Schätzer für den Mittelwert des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
●
50
●
●
●●
●
●
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●●●●●
●
● ●
●
●
●
30
Stichprobenmittel
●
●
●
20
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
207 / 446
Schätzen von Parametern der Grundgesamtheit
Varianz
Um die Varianz einer Grundgesamtheit zu schätzen, wird die
Stichprobenvarianz verwendet:
V arN =
N
X
1
·
(xi − X̄N )2
N − 1 i=1
Auch diese Schätzfunktion ist erwartungstreu, konsistent und effizient.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
208 / 446
Schätzen von Parametern der Grundgesamtheit
Moment-Schätzer für die Varianz des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
1000
●
●
●
●
●
●
●
●
●● ●
●
●
500
Stichprobenvarianz
1500
●
●
●
●
● ●
● ●
●
●
●●●
●
●
●●
● ●
●●
●●
●●
● ●● ●●
●●● ●● ●●●●●
●●● ●
●
●
● ● ●
●
●
●
●
●
0
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
209 / 446
Schätzen von Parametern der Grundgesamtheit
10.4 Maximum Likelihood Methode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
210 / 446
Schätzen von Parametern der Grundgesamtheit
8
6
0
2
4
Absolute Häufigkeit
10
12
Histogramm Alter (Datensatz 1)
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
211 / 446
Schätzen von Parametern der Grundgesamtheit
60
Maximum-Likelihood-Schätzer für den Mittelwert des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
●
50
●
●
● ● ●
●
●
●
●●
●
● ●
●
●
●
●
●
● ●
●
●
40
Stichprobenmittel
●
●
●
● ●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
● ● ●
●
●
● ●
●
●
●
●
●●
30
●
20
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
212 / 446
Schätzen von Parametern der Grundgesamtheit
Maximum-Likelihood-Schätzer für die Varianz des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
800
●
●
●
600
●
●
●
●
●
●
●
●●
●
●
400
Stichprobenvarianz
1000
1200
●
●
●
●
● ●
● ●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●● ●● ●●●●
● ●
● ●● ●
●●
●
●
●
●
●
●
●
●
200
●
●
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
213 / 446
Schätzen von Parametern der Grundgesamtheit
10.5 Konfidenzintervalle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
214 / 446
Schätzen von Parametern der Grundgesamtheit
Konfidenzintervall
Bei einer Intervallschätzung wird für einen unbekannten Parameter Θ
zunächst aus einer Stichprobe eine Punktschätzung Θ̂N berechnet, um die
dann ein (zumeist symmetrisches) (1 − α)-Konfidenzintervall konstruiert
wird:
h
i
K1−α (Θ) = Θ̂N − δK ; Θ̂N + δK .
Dabei wird der Stichprobenfehler δK so bestimmt, dass das
Konfidenzintervall den unbekannten Parameter Θ mit einer vorgegebenen
(i.d.R. hohen) Wahrscheinlichkeit (1 − α) überdeckt:
P (Θ ∈ K1−α (Θ)) = 1 − α.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
215 / 446
Schätzen von Parametern der Grundgesamtheit
Nehmen wir an, wir wollen das 95%-Konfidenzintervall des Mittelwerts
des Alters aus Datensatz 1 berechnen
Dabei gehen wir von einer Größe der Stichprobe von N = 35 aus, wir
ziehen also gerade die Hälfte aller Beobachtungen aus der
Grundgesamtheit
Hierzu schätzen wir aus einer Stichprobe zunächst den Mittelwert Ā und
die Varianz σA des Alters
Die Intervallgrenzen lassen sich dann berechnen nach
α σA
Āu = Ā − t N − 1, 1 −
· √ = 31, 16
2
N
und
α σA
Āo = Ā + t N − 1, 1 −
· √ = 47, 15
2
N
Werden also 100 Stichproben der Größe 30 aus der Grundgesamtheit
gezogen und hieraus der Mittelwert geschätzt, so werden 95 dieser
Mittelwertschätzungen zwischen 31,16 und 47,15 Jahren liegen
Falsche Interpretation: Die Wahrscheinlichkeit, dass der Mittelwert
der Grundgesamtheit zwischen 31,16 und 47,15 Jahren liegt, ist 95%
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
216 / 446
Schätzen von Parametern der Grundgesamtheit
Literaturhinweise
Literaturhinweise zum 10. Kapitel
Kennedy, P. (2008): A Guide to Econometrics, 6. Auflage,
Wiley-Blackwell, Malden [insbes. Kapitel 2].
Sachs, L. und J. Hedderich (2009): Angewandte Statistik.
Methodensammlung mit R, 13. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 6].
Wewel, M. C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson-Studium, München [insbes. Kapitel 9].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
217 / 446
Grundlagen des Testens von Hypothesen
11. Grundlagen des Testens von Hypothesen
11.1 Hypothesen und Hypothesenformulierung
11.2 Systematik eines Hypothesentests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
218 / 446
Grundlagen des Testens von Hypothesen
11.1 Hypothesen und Hypothesenformulierung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
219 / 446
Grundlagen des Testens von Hypothesen
Stichprobe von Schafen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
220 / 446
Grundlagen des Testens von Hypothesen
Blick in die Grundgesamtheit der Schafe...
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
221 / 446
Grundlagen des Testens von Hypothesen
Definition
Als Arbeitshypothese bezeichnet man diejenige Hypothese, die man ex
ante, also vor Durchführung eines Hypothesentests, für korrekt hält.
Definition
Als Nullhypothese (H0 ) formuliert man die Gegenhypothese der
Arbeitshypothese, also gerade das Gegenteil dessen, was man ex ante für
korrekt hält. Mit Hilfe des Hypothesentests versucht man, die Nullhypothese
zu verwerfen.
Definition
Die Alternativhypothese (HA ) ist die Gegenhypothese der Nullhypothese.
Wird die Nullhypothese verworfen, so erlangt die Alternativhypothese
Gültigkeit. Die Alternativhypothese ist identisch mit der Arbeitshypothese.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
222 / 446
Grundlagen des Testens von Hypothesen
11.2 Systematik eines Hypothesentests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
223 / 446
Grundlagen des Testens von Hypothesen
Definition
Wird die Nullhypothese fälschlicherweise abgelehnt, so handelt es sich um
einen sog. Fehler 1. Art (α-Fehler).
Definition
Wird hingegen eine Nullhypothese fälschlicherweise angenommen, so handelt
es sich um einen Fehler 2. Art (β-Fehler).
Fehler 1. und 2. Art
H0 angenommen
H0 abgelehnt
H0 korrekt
kein Fehler
1−α
Fehler 1. Art (α-Fehler)
α
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
H0 falsch
Fehler 2. Art (β-Fehler)
β
kein Fehler
1−β
25. Juni 2014
224 / 446
Grundlagen des Testens von Hypothesen
Definition
Die Wahrscheinlichkeit eines statistischen Tests, eine korrekte
Arbeitshypothese (=Alternativhypothese) auch als korrekt zu erkennen,
bezeichnet man auch als Power (Teststärke) eines Tests. Diese
Wahrscheinlichkeit entspricht derjenigen, keinen Fehler 2. Art zu begehen:
G=1−β
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
225 / 446
Grundlagen des Testens von Hypothesen
Literaturhinweise
Literaturhinweise zum 11. Kapitel
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
6].
Sachs, L. und J. Hedderich (2006): Angewandte Statistik, 12. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 7].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 5].
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson-Studium, München [insbes. Kapitel 10].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
226 / 446
Verteilungstests
12. Verteilungstests
12.1 Grundlagen
12.2 Grafische Analyse
12.3 Chi-Quadrat-Anpassungstest
12.4 Kolmogorov-Smirnov-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
227 / 446
Verteilungstests
12.1 Grundlagen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
228 / 446
Verteilungstests
12.2 Grafische Analyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
229 / 446
Verteilungstests
0.010
0.000
0.005
Dichte
0.015
Grafische Analyse für Normalverteilungshypothese Alter
(Stichprobe aus Datensatz 1, N=35)
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
230 / 446
Verteilungstests
Quantil-Quantil-Plot (QQ-Plot) zur Normalverteilungshypothese Alter
(Stichprobe aus Datensatz 1, N=35)
●
●
80
●
●
●
60
●●●
●
●
●
●
40
Stichprobenquantile
●
●● ●
●
●
●
●
●
●
●
20
●
●
●●
●
●
●
●
●
●
0
●
●
−2
−1
0
1
2
Theoretische Quantile
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
231 / 446
Verteilungstests
12.3 Chi-Quadrat-Anpassungstest
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
232 / 446
Verteilungstests
Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
Ausbildungsjahre
0
1
2
4
5
6
7
8
9
10
11
13
14
15
16
17
18
20
22
Prof. Dr. Michael Berlemann (HSU)
Anzahl
3
2
1
2
1
4
4
7
2
4
3
2
2
2
6
1
1
2
1
Empirische Wirtschaftsforschung
25. Juni 2014
233 / 446
Verteilungstests
Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
Klasse
Anzahl
Prof. Dr. Michael Berlemann (HSU)
1
0-4
8
2
5-8
16
3
9-12
9
4
13-16
12
Empirische Wirtschaftsforschung
5
17-22
5
25. Juni 2014
234 / 446
Verteilungstests
Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
versus gruppierte Normalverteilung
Klasse
Stichprobe
Normalverteilung
Prof. Dr. Michael Berlemann (HSU)
1
0-4
8
7
2
5-8
16
11
3
9-12
9
14
Empirische Wirtschaftsforschung
4
13-16
12
11
5
17-22
5
7
25. Juni 2014
235 / 446
Verteilungstests
R-Output Chi-Quadrat-Test auf Normalverteilung Ausbildungsjahre
(Stichprobe aus Datensatz 1, N=50)
Pearson’s Chi-squared test
data: Stichprobe and Normalverteilung
X-squared = 10, df = 8, p-value = 0.265
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
236 / 446
Verteilungstests
12.4 Kolmogorov-Smirnov-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
237 / 446
Verteilungstests
1.0
Illustration des Kolmogorov-Smirnov-Tests auf Normalverteilung Alter
(Stichprobe aus Datensatz 1, N=35)
●
●
●
●
●
●
0.8
●
●
0.6
●
●
●
●
●
●
●
●
0.4
kumulierte Dichte
●
●
●
●
0.2
●
●
●
Kolmogorov−Smirnov−Differenz
●
●
●
●
●
0.0
●
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
238 / 446
Verteilungstests
R-Output Kolmogorov-Smirnov-Test auf Normalverteilung Alter
(Stichprobe aus Datensatz 1, N=35)
One-sample Kolmogorov-Smirnov test
data: Stichprobe
D = 0.1277, p-value = 0.6178
alternative hypothesis: two-sided
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
239 / 446
Verteilungstests
Literaturhinweise
Literaturhinweise zum 12. Kapitel
Bleymüller, J., G. Gehlert und H. Gülicher (2002): Statistik für
Wirtschaftswissenschaftler, 13. Auflage, Vahlen, München [insbes.
Abschnitte 19.1 und 19.4].
Hatzinger, R., K. Hornik und H. Nagel (2011): R. Einführung in die
angewandte Statistik, Pearson Studium, München [insbes. Abschnitt 8.4].
Sachs, L. und J. Hedderich (2006): Angewandte Statistik.
Methodensammlung mit R, 12. Auflage, Springer Verlag, Berlin u.a.
[insbes. Kapitel 7.2].
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson Studium, München [insbes. Kapitel 10.3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
240 / 446
Parametrische Mittelwerttests
13. Parametrische Mittelwerttests
13.1 Grundlagen
13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe
13.3 Einstichproben-t-Test
13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben
13.5 Zweistichproben-t-Test bei unabhängigen Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
241 / 446
Parametrische Mittelwerttests
13.1 Grundlagen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
242 / 446
Parametrische Mittelwerttests
Zentraler Grenzwertsatz
Der Zentrale Grenzwertsatz besagt, dass sich die Verteilung des
Mittelwerts von n unabhängigen Zufallszahlen aus einer beliebigen Verteilung
mit endlichem Mittelwert µ und endlicher Standardabweichung σ mit
zunehmender Beobachtungsanzahl N einer Normalverteilung mit Mittelwert µ
und Standardabweichung √σN annähert.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
243 / 446
Parametrische Mittelwerttests
13.2 Systematik von Mittelwerttests auf der Basis einer
Stichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
244 / 446
Parametrische Mittelwerttests
Dichtefunktion der Prüfgröße
Dichte und Erwartungswert der Prüfgröße
Erwartungswert
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
245 / 446
Parametrische Mittelwerttests
Kritische Werte für die Prüfgröße eines zweiseitigen Hypothesentests
oberer kritischer Wert
Dichtefunktion der Prüfgröße
unterer kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
246 / 446
Parametrische Mittelwerttests
Annahme- und Ablehnungsbereich bei zweiseitigem Hypothesentest
Ablehnungsbereich
Ablehnungsbereich
Annahmebereich
oberer kritischer Wert
Dichtefunktion der Prüfgröße
unterer kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
247 / 446
Parametrische Mittelwerttests
Dichtefunktion der Prüfgröße
Dichte und Erwartungswert der Prüfgröße
Erwartungswert
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
248 / 446
Parametrische Mittelwerttests
Kritische Werte für die Prüfgröße eines einseitigen Hypothesentests
Dichtefunktion der Prüfgröße
kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
249 / 446
Parametrische Mittelwerttests
Annahme- und Ablehnungsbereich bei einseitigem Hypothesentest
Ablehnungsbereich
Annahmebereich
Dichtefunktion der Prüfgröße
kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
250 / 446
Parametrische Mittelwerttests
13.3 Einstichproben-t-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
251 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Einstichproben-t-Test:
Nullhypothese H0 : µ = µ0
Alternativhypothese HA : µ 6= µ0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
252 / 446
Parametrische Mittelwerttests
Prüfgröße des t-Tests:
Beim t-Test wird das standardisierte Stichprobenmittel als Prüfgröße
verwendet:
√
√
(X̄ − µ0 ) · N
(X̄ − µ0 ) · N
qP
T (x1 , x2 , · · · , xN ) = p
=
∼ t(N − 1)
N
1
V ar[X]
(x − X̄)2
N −1
i=1
i
(1)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
253 / 446
Parametrische Mittelwerttests
Prüfgrößen und Ablehnungsbereiche beim t-Test:
Annahmen:
H0 :
HA :
Prüfgröße:
Grundgesamtheit normalverteilt, µ unbekannt, σ unbekannt
µ = µ0
µ ≤ µ0
µ ≥ µ0
µ 6= µ0
µ > µ0 √
µ < µ0
(X̄−µ0 )· N
√
T =
H0 wird
abgelehnt,
wenn:
|T | größer als
T größer als
T kleiner als
(1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1)
der t-Verteilung (N-1 Freiheitsgrade)
V ar[X]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
254 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
−4.1
−0.86 0
3.9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: −0.86
df: 19
H0
µ
tfitted
α
conf.int
9.24
●
6
8.37
10.1
11.83
14
Ausbildungsjahre
(Datenquelle: Stichprobe 1 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
255 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
One Sample t-test
t = -0.8592, df = 19, p-value = 0.4009
alternative hypothesis: true mean is not equal to 10.1
90 percent confidence interval:
7.238155 11.061845
sample estimates:
mean of x
9.15
(Datenquelle: Stichprobe 1 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
256 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
−4.1
0
2.08
3.9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: 2.08
df: 19
H0
µ
tfitted
α
conf.int
12.18
●
6
8.37
10.1
11.83
14
Ausbildungsjahre
(Datenquelle: Stichprobe 2 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
257 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
One Sample t-test
t = 2.076, df = 19, p-value = 0.05171
alternative hypothesis: true mean is not equal to 10.1
90 percent confidence interval:
10.4425 13.8575
sample estimates:
mean of x
12.15
(Datenquelle: Stichprobe 2 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
258 / 446
Parametrische Mittelwerttests
Einseitiger Einstichproben-t-Test
H0 : Alter ≤ 40, (α = 0, 10)
−4
0
4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: 0.28
df: 29
H0
µ
tfitted
α
40.28
●
36
38
40
41.31
44
Alter
(Datenquelle: Stichprobe aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
259 / 446
Parametrische Mittelwerttests
Einseitiger Einstichproben-t-Test
H0 : Alter ≤ 40 (α = 0, 10)
One Sample t-test
t = 0.2772, df = 29, p-value = 0.3918
alternative hypothesis: true mean is greater than 40
sample estimates:
mean of x
40.96667
(Datenquelle: Stichprobe aus Datensatz 1, N=30)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
260 / 446
Parametrische Mittelwerttests
13.4 Systematik von Mittelwerttests auf der Basis
zweier Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
261 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Zweistichproben-t-Test:
Nullhypothese H0 : µ̄ = µ1 − µ2 = µ0
Alternativhypothese HA : µ̄ 6= µ0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
262 / 446
Parametrische Mittelwerttests
13.5 Zweistichproben-t-Test bei unabhängigen
Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
263 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Zweistichproben-t-Test:
Nullhypothese H0 : µ1 = µ2
Alternativhypothese HA : µ1 6= µ2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
264 / 446
Parametrische Mittelwerttests
Prüfgröße des Zweistichproben-t-Tests:
Beim t-Test lautet das standardisierte Stichprobenmittel, welches als
Prüfgröße verwendet wird:
p
N · M · (N + M − 2)
T =
N +M
X̄1 − X̄2
−p
∼ t(N + M − 2)
(N − 1) · V ar[X1 ] + (M − 1) · V ar[X2 ]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
265 / 446
Parametrische Mittelwerttests
Prüfgrößen und Ablehnungsbereiche beim Zweistichproben-t-Test:
Annahmen:
H0 :
HA :
Prüfgröße:
H0 wird
abgelehnt,
wenn
Grundges. normalvert., µ unbekannt, σ unbekannt, unabhängig
µ1 = µ2
µ1 ≤ µ2
µ1 ≥ µ2
µ1 6=√µ2
µ1 > µ 2
µ1 < µ 2
T =
N ·M ·(N +M −2)
N +M
−√
X¯1 −X¯2
(N −1)·V ar[X1 ]+(M −1)·V ar[X2 ]
|T | größer als
T größer als
T kleiner als
(1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1)
der t-Verteilung mit N+M-2 Freiheitsgraden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
266 / 446
Parametrische Mittelwerttests
Zweiseitiger Zweistichproben-t-Test
H0 : Einkommenf = Einkommenm (α = 0, 10)
−4
−2.16
0
4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: −2.16
df: 27.81
H0
µ
tfitted
α
−2.16
●
−4
−1.7
0
1.7
4
t−Wert Test auf Mittelwertgleichheit Jahreseinkommen Frauen versus Männer
(Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
267 / 446
Parametrische Mittelwerttests
Zweiseitiger Zweistichproben-t-Test
H0 : Einkommenf = Einkommenm (α = 0, 10)
Welch Two Sample t-test
t = -2.1577, df = 27.806, p-value = 0.03974
alternative hypothesis: true difference in means is not equal to
0
90 percent confidence interval:
-43911.858 -5190.642
sample estimates:
mean of x mean of y
19696.25 44247.50
(Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
268 / 446
Parametrische Mittelwerttests
Literaturhinweise
Literaturhinweise zum 13. Kapitel
Bühl, A. (2006): SPSS 14. Einführung in die moderne Datenanalyse, 10.
Auflage, Pearson Studium, München u.a. [insbes. Kapitel 12].
Field, A., J. Miles und Z. Field (2011): Discovering Statistics Using R,
Sage Publications, Los Angeles u.a. [insbes. Kapitel 9].
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
6].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
269 / 446
Regressionsanalyse als induktives Verfahren
14. Regressionsanalyse als induktives Verfahren
14.1 Regressionen auf Basis von Stichproben
14.2 Eigenschaften von KQ-Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
270 / 446
Regressionsanalyse als induktives Verfahren
14.1 Regressionen auf Basis von Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
271 / 446
Regressionsanalyse als induktives Verfahren
14.2 Eigenschaften von KQ-Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
272 / 446
Regressionsanalyse als induktives Verfahren
1. Gauß-Markov-Bedingung
Es handelt sich um ein korrekt spezifiziertes lineares Regressionsmodell des
Typs:
yi = β0 + β1 · x1,i + · · · + βK · xK,i + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
273 / 446
Regressionsanalyse als induktives Verfahren
2. Gauß-Markov-Bedingung
Der Störterm hat den Erwartungswert null:
E[i ] = 0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
274 / 446
Regressionsanalyse als induktives Verfahren
3. Gauß-Markov-Bedingung
Der Störterm hat (genauso wie die zu erklärende Variable) eine konstante
Varianz (Homoskedastizität):
σY2 = σ2 = konst
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
275 / 446
Regressionsanalyse als induktives Verfahren
4. Gauß-Markov-Bedingung
Es gibt keine serielle Korrelation der Störterme (und damit auch keine serielle
Korrelation der zu erklärenden Variable)
E[i · j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N
Die Bedingung impliziert, dass die Beobachtungen stochastisch
unabhängig sein müssen
Ist diese Bedingung gegeben, so gilt auch:
Cov[yi , yj ] = Cov[i , j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
276 / 446
Regressionsanalyse als induktives Verfahren
5. Gauß-Markov-Bedingung
Die erklärenden Variablen X sind deterministisch, d.h. sie werden bei
wiederholten Stichprobenziehungen als fest gegebene (deterministische)
Größen angenommen und nicht aus einem neuen Zufallsprozess generiert.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
277 / 446
Regressionsanalyse als induktives Verfahren
6. Gauß-Markov-Bedingung
Die erklärenden Variablen X sind linear unabhängig voneinander (d.h. es
besteht keine perfekte Multikollinearität).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
278 / 446
Regressionsanalyse als induktives Verfahren
7. Gauß-Markov-Bedingung
Die Varianzen der erklärenden Variablen X sind endlich und positiv.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
279 / 446
Regressionsanalyse als induktives Verfahren
8. Gauß-Markov-Bedingung
Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden
Parameter k + 1.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
280 / 446
Regressionsanalyse als induktives Verfahren
Gauß-Markov-Theorem
Bei Gültigkeit der Gauß-Markov-Bedingungen hat der
Kleinste-Quadrate-Schätzer (OLS) innerhalb der Klasse aller linearen und
erwartungstreuen Schätzfunktionen die kleinste Varianz
(BLUE-Eigenschaft).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
281 / 446
Regressionsanalyse als induktives Verfahren
Erweitertes Gauß-Markov-Theorem
Sind die Gauß-Markov-Bedingungen erfüllt und ist zudem der Störterm i
normalverteilt, so führt der Kleinste-Quadrate-Schätzer (OLS) immer zu
unverzerrten, varianzminimierenden Schätzern für die Koeffizienten
(BUE-Eigenschaft). Die Schätzer sind zudem dann konsistent (d.h. sie
konvergieren mit zunehmender Stichprobengröße gegen die Werte der
Grundgesamtheit) und folgen einer Normalverteilung:
β̂0 ∼ N (β0 , σβ̂2 ) ∧ β̂1 ∼ N (β1 , σβ̂2 )
0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
1
25. Juni 2014
282 / 446
Regressionsanalyse als induktives Verfahren
Literaturhinweise
Literaturhinweise zum 14. Kapitel
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
283 / 446
Typen von Querschnittsregressionen
15. Typen von Querschnittsregressionen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
284 / 446
Typen von Querschnittsregressionen
Typen von zu erklärenden Variablen in Querschnittsregressionen:
Stetige abhängige Variable
Binäre abhängige Variable
Nominale abhängige Variable
Ordinale abhängige Variable
Zählvariable
Null-inflationierte Variable
Zensierte Variable
Trunkierte Variable
Wie wir später sehen werden, ist in allen anderen Fällen als dem der
stetigen zu erklärenden Variable die Methode der Kleinsten
Quadrate zur Schätzung einer Regressionsbeziehung ungeeignet
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
285 / 446
Typen von Querschnittsregressionen
Literaturhinweise
Literaturhinweise zum 15. Kapitel
Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons
[insbes. Kapitel 4.1 und 4.2].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 17].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 7].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
286 / 446
Lineare Regressionsanalyse
16. Lineare Regressionsanalyse
16.1 Identifikation von ungewöhnlichen Beobachtungen
16.2 Koeffiziententests
16.3 Gütetests
16.4 Heteroskedastizität
16.5 Multikollinearität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
287 / 446
Lineare Regressionsanalyse
16.1 Identifikation von ungewöhnlichen Beobachtungen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
288 / 446
Lineare Regressionsanalyse
Vorgehen bei einem Ausreißer-Test mit Bonferonni-Korrektur
1
Schätzung einer Regressionsgleichung für jede (N − 1)-Submenge der
Stichprobe
2
Berechnung des Residuums für den jeweils ausgelassenen Wert
3
Berechnung der studentisierten leave-one-out Residuen ri
(Standardisierung)
Aufstellen der Hypothesen:
4
H0 : Die Stichprobe enthält keinen Ausreißer
HA : Die Stichprobe enthält mindestens einen Ausreißer
5
Der Prüfwert des Tests lässt sich berechnen nach:
0.5
N −K −1
Ti = ri ·
t(N − K − 1)
N − K − ri2
6
Da der Ausreißer-Test nicht einen einzelnen Wert, sondern alle Werte
gleichzeitig überprüfen soll, muss für den sich für ein vorgegebenes
Signifikanzniveau α aus der t-Verteilung ergebende Wert noch eine sog.
Bonferonni-Korrektur durchgeführt werden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
289 / 446
Lineare Regressionsanalyse
Ausreißer-Test mit Bonferonni-Korrektur
No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|: 14
rstudent: -2.860342
unadjusted p-value: 0.0063441
Bonferonni p: 0.3172
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
290 / 446
Lineare Regressionsanalyse
Definition
Der Hebelwert (Leverage) einer Beobachtung gibt an, wie stark sich die
Modellanpassung einer Regression (betragsmäßig) ändert, wenn die
Beobachtung aus der Schätzung der Regressionsgleichung ausgeschlossen wird.
Der Hebelwert der Beobachtung i lässt sich berechnen als
hi =
Prof. Dr. Michael Berlemann (HSU)
σ 2 − ˆi
σ2
Empirische Wirtschaftsforschung
25. Juni 2014
291 / 446
Lineare Regressionsanalyse
Daumenregel: Ein Leverage ist problematisch, wenn gilt:
h̄i >
Prof. Dr. Michael Berlemann (HSU)
2·K
N
Empirische Wirtschaftsforschung
25. Juni 2014
292 / 446
Lineare Regressionsanalyse
Verteilung der Leverages
10
0
5
Absolute Häufigkeit
15
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
0.05
0.10
0.15
0.20
Hebelwerte
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
293 / 446
Lineare Regressionsanalyse
Leverages versus Quantile der positiven Normalverteilung
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
39
0.15
8
●
0.10
Leverages
●
●
●
●●
● ●
●
●
●
●
●●
●
0.00
0.05
●●
●●●
●●●●
●●●
●●●●
●●
●
●
●
●●●
●●
●●●
●●
●●
0.0
0.5
1.0
1.5
2.0
Quantile der positiven Normalverteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
294 / 446
Lineare Regressionsanalyse
Quantile der Verteilung der studentisierten Leverages versus Quantile der
t-Verteilung
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
●
●● ● ●
●
●
1
●●
●
●
0
●
●●
●●
●●
●●●
●
●●●
●●●
●
●●
●●●●
●●●●
●
●
−1
●●
● ●
●
−2
Quantile der Verteilung der studentisierten Leverages
2
●
●
●
●
−2
−1
0
1
2
Quantile der t−Verteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
295 / 446
Lineare Regressionsanalyse
Definition
Die Cook-Distanz einer Beobachtung gibt an, um wieviel sich die Residuen
aller Fälle ändern, wenn dieser Fall aus der Schätzung der
Regressionsgleichung ausgeschlossen wird.
Die Cook-Distanz der Beobachtung i lässt sich berechnen als
Di =
Prof. Dr. Michael Berlemann (HSU)
hi
1
· r2 ·
K i 1 − hi
Empirische Wirtschaftsforschung
25. Juni 2014
296 / 446
Lineare Regressionsanalyse
Cook-Distanzen versus Quantile der positiven Normalverteilung
0.07
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
38
15
0.06
●
●
0.05
●
●
0.04
●
●
0.03
Cook Distanzen
●
●
●
●●●
●
0.02
●
●●
0.00
0.01
●
●
●
●
●
●
●
●●●●
●●
●●
●●●●●●
●●●●●●●●●●●
0.0
0.5
1.0
1.5
2.0
Quantile der positiven Normalverteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
297 / 446
Lineare Regressionsanalyse
16.2 Koeffiziententests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
298 / 446
Lineare Regressionsanalyse
Koeffiziententests werden für jeden Koeffizienten getrennt durchgeführt!
Koeffiziententest ohne Vorzeichenhypothese
H0 : βk = 0
HA : βk 6= 0
Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist negativ)
H0 : βk ≥ 0
HA : βk < 0
Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist positiv)
H0 : βk ≤ 0
HA : βk > 0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
299 / 446
Lineare Regressionsanalyse
Typische Signifikanzniveaus in der Regressionsanalyse
α = 0.1: schwach signifikanten Zusammenhang
Solch schwach signifikante Zusammenhänge werden oft in Tabellen dadurch
gekennzeichnet, dass der geschätzte Koeffizient mit einem Stern versehen
wird ”*”
α = 0.05: signifikanten Zusammenhang
Signifikante Zusammenhänge werden oft in Tabellen durch zwei Sterne
gekennzeichnet ”**”
α = 0.01: hoch signifikanten Zusammenhang
Hoch signifikante Zusammenhänge werden oft in Tabellen durch drei
Sterne gekennzeichnet ”***”
Kann die Nullhypothese nicht zurück gewiesen werden, so spricht man
von einem insignifikanten Koeffizienten
Nicht signifikante Zusammenhänge hingegen werden nicht mit Sternen
versehen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
300 / 446
Lineare Regressionsanalyse
Koeffiziententests multiple lineare Regression
Schätzer
Std. Fehler
Gesundheitszustand
(Konstante) 102.3942
Alter
-1.0244
Ausbildungsjahre
0.2819
Adj. R-Quadrat
0.8862
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
2.6225
0.0585
0.2295
Empirische Wirtschaftsforschung
t-Wert
p-Wert
39.04
-17.50
1.23
0.0000
0.0000
0.2254
25. Juni 2014
301 / 446
Lineare Regressionsanalyse
16.3 Gütetests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
302 / 446
Lineare Regressionsanalyse
F-Test als Spezifikationstest einer linearen Regression
Zur Überprüfung des Erklärungsgehalts einer auf einer Stichprobe
beruhenden linearen Regression wird die Nullhypothese überprüft, dass
alle geschätzten Koeffizienten der erklärenden Variablen (nicht die
Konstante) gleichzeitig null sind:
H0 : β1 = β2 = · · · = βK = 0
HA : H0 ist falsch
Die Prüfgröße des F-Tests lautet:
F =
ESS
K
RSS
N −K−1
Prof. Dr. Michael Berlemann (HSU)
PN
i=1 (ŷi −Ȳ
=1−
K
PN
2i
N −K−1
)2
∼ F (N − K − 1)
i=1
Empirische Wirtschaftsforschung
25. Juni 2014
303 / 446
Lineare Regressionsanalyse
Koeffiziententests multiple lineare Regression mit F-Test
Schätzer Std. Fehler t-Wert
Gesundheitszustand
(Konstante) 102.3942
2.6225
39.04
Alter
-1.0244
0.0585 -17.50
Ausbildungsjahre
0.2819
0.2295
1.23
Adj. R-Quadrat
0.8862
F-Wert 191.9 (dF = 47), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.0000
0.0000
0.2254
25. Juni 2014
304 / 446
Lineare Regressionsanalyse
16.4 Heteroskedastizität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
305 / 446
Lineare Regressionsanalyse
Scatterplot geschätzte Werte versus Residuen (Heteroskedastischer Fall)
Gesundheitszustand =β0+β1 Ausbildungsjahre
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−20
Residuen
0
●
●
●
●
●
●
−40
●
●
●
●
●
−60
●
50
55
60
65
70
75
Geschätzte Werte Gesundheitszustand
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
306 / 446
Lineare Regressionsanalyse
Scatterplot geschätzte Werte versus Residuen (Homoskedastischer Fall)
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
●
10
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
−10
●
●
●
0
Residuen
●
●
●
●
●
●
●
●
●
●
●
●
●
−20
●
●
20
40
60
80
100
Geschätzte Werte Gesundheitszustand
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
307 / 446
Lineare Regressionsanalyse
Statistische Tests auf Heteroskedastizität
1
Goldfeldt-Quandt-Test
2
Breusch-Pagan-Test
3
White-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
308 / 446
Lineare Regressionsanalyse
Vorgehen beim Goldfeldt-Quandt-Test
1
2
3
4
Teilen des Samples S in zwei Sub-Samples S1 und S2 .
Schätzung einer linearen Regressionsgerade für jedes Sub-Sample.
PN1 2
PN2 2
Berechnung der Summe der quadrierten Residuen i=1
i,1 und i=1
i,2 .
Aufstellen der Hypothesen:
H0 : Quadratsummen der Residuen ist identisch.
HA : Quadratsummen der Residuen unterscheiden sich.
5
Vergleich der Varianzen der Residuen mit Hilfe eines F-Tests (größere
Quadratsumme im Zähler):
PN1
F =
6
i=1 i,1
N1 −K
PN2
i=1 i,2
N2 −K
F (N1 − K, N2 − K)
Übersteigt nun der Wert der Teststatistik den kritischen Wert der
F-Verteilung mit N1 − K und N2 − K Freitheitsgraden, kann die
Nullhypothese abgelehnt und die Alternativhypothese angenommen
werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
309 / 446
Lineare Regressionsanalyse
Goldfeldt-Quandt-Test
Goldfeld-Quandt test
data: Regression
GQ = 1.5842, df1 = 23, df2 = 23, p-value = 0.2772
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
310 / 446
Lineare Regressionsanalyse
Goldfeldt-Quandt-Test
Goldfeld-Quandt test
data: Regression
GQ = 0.742, df1 = 22, df2 = 22, p-value = 0.4898
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
311 / 446
Lineare Regressionsanalyse
Vorgehen beim Breusch-Pagan-Test
1
Aufstellen der Hypothesen:
H0 : Es liegt Homoskedastizität vor.
HA : Es liegt keine Homoskedastizität vor.
2
Schätzung einer linearen Regression.
3
Festlegung, welche Variablen für eine mögliche Heteroskedasie
verantwortlich sein könnten
4
Schätzung einer weiteren Regressionsgerade, bei der die quadrierten
Residuen aus der ersten Regression durch diese Variablen erklärt werden.
5
Berechnung des Bestimmtheitsmaß R2 für diese Regression.
6
Die Prüfgröße N · R2 ist asymptotisch χ2 -verteilt mit K Freiheitsgraden.
7
Übersteigt die Prüfgröße den kritischen Wert der χ2 -Verteilung, kann die
Nullhypothese der Homoskedastizität abgelehnt werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
312 / 446
Lineare Regressionsanalyse
Breusch-Pagan-Test
studentized Breusch-Pagan test
data: Regression
BP = 6.2663, df = 1, p-value = 0.01231
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
313 / 446
Lineare Regressionsanalyse
Breusch-Pagan-Test
studentized Breusch-Pagan test
data: Regression
BP = 1.3044, df = 2, p-value = 0.5209
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
314 / 446
Lineare Regressionsanalyse
White-Test
studentized Breusch-Pagan test
data: Regression
BP = 7.6331, df = 1, p-value = 0.005731
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
315 / 446
Lineare Regressionsanalyse
White-Test
studentized Breusch-Pagan test
data: Regression
BP = 5.8472, df = 5, p-value = 0.3214
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
316 / 446
Lineare Regressionsanalyse
Es existiert eine Vielzahl an Schätzmethoden, die dem Problem der
Heteroskedastie begegnen.
Lösungsansätze für Hetroskedastizität
1
Varianztransformation (bei bekannter Varianz)
2
Weighted Least Squares
3
Feasible Generalized Least Squares
4
White-Korrektur (heteroskedastieresistente Standardfehler)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
317 / 446
Lineare Regressionsanalyse
Regression mit White-Korrektur der Standardabweichung
Schätzer Std. Fehler t-Wert
Gesundheitszustand
(Konstante)
102.39
1.82
56.24
Alter
-1.02
0.05 -22.04
Ausbildungsjahre
0.28
0.18
1.54
Adj. R-Quadrat
0.8862
F-Wert 191.9 (dF = 47), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.00
0.00
0.12
25. Juni 2014
318 / 446
Lineare Regressionsanalyse
16.5 Multikollinearität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
319 / 446
Lineare Regressionsanalyse
Definition
Liegt zwischen zwei Regressoren einer multiplen linearen Regression
yi = β0 + β1 · x1,i + β2 · x2,i + i
eine lineare Beziehung vor, d.h.
x2 = c + γ · x1
bzw.
x1 =
c
x2
−
γ
γ
so liegt perfekte Multikollinearität vor.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
320 / 446
Lineare Regressionsanalyse
Folgen perfekter Multikollinearität
Einsetzen von x2 = c + γ · x1 in die Regressionsgleichung ergibt
y
=
β0 + β1 · x1 + β2 · (c + γ1 · x1 ) + ⇔y
=
(β0 + β2 · c) + (β1 + β2 · γ) · x1 + Einsetzen von x1 =
x2
γ
−
c
γ
in die Regressionsgleichung ergibt
y
⇔y
Prof. Dr. Michael Berlemann (HSU)
x2
c
= β0 + β1 ·
−
+ β2 · x 2 + γ
γ
c
β1
=
β0 − β1 ·
+
+ β2 · x 2 + γ
γ
Empirische Wirtschaftsforschung
25. Juni 2014
321 / 446
Lineare Regressionsanalyse
Venn-Diagramme
Fall 1: keine Multikollinearität
Fall 2 / 3: imperfekte Multikollinearität (geringe: Fall 2 / hohe: Fall 3)
Fall 4: perfekte Multikollinearität
1. 2.
stdabw(Y) stdabw(X1) stdabw(Y) stdabw(X2) 3. stdabw(X1)
stdabw(X2) 4.
stdabw(Y)
stdabw(Y) stdabw(X2)= stdabw(X1) stdabw(X1) Prof. Dr. Michael Berlemann (HSU)
stdabw(X2) Empirische Wirtschaftsforschung
25. Juni 2014
322 / 446
Lineare Regressionsanalyse
Hilfsregressionen
Beispiel: drei erklärende Variablen x1 , x2 und x3 :
yi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i
Hilfsregressionen:
x1,i
= α0 + α1 · x2,i + α2 · x3,i + 1,i
x2,i
= δ0 + δ1 · x1,i + δ2 · x3,i + 2,i
x3,i
= γ0 + γ1 · x1,i + γ2 · x2,i + 3,i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
323 / 446
Lineare Regressionsanalyse
Variance Inflation Factors
Häufig wird auch der V ariance Inf lation F actor (VIF) jeder
Hilfsregression k zur Diagnose von Multikollinearität genutzt:
V IFk =
1
1 − Rk2
Faustregel: Ist der V IF größer als zehn (Rk2 > 0, 9), deutet das auf sehr
starke Multikollinearität.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
324 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante) -17432.5
72085.2 -0.242
0.8100
Alter
911.0
703.7
703.7
0.2019
Gesundheitszustand
387.5
684.0
0.566
0.5738
Geschlecht(w) -20749.3
10851.0 -1.912
0.0621
Adj. R-Quadrat
0.1574
F-Wert 4.051 (dF = 46), p-Wert = 0.0123
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
325 / 446
Lineare Regressionsanalyse
Korrelationskoeffizient Gesundheitszustand und Alter
Korrelationskoeffizient(Gesundheitszustand,Alter) = -0.94
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Variance Inflation Factors
VIF(Alter) = 8.676669
VIF(Gesundheitszustand) = 8.671815
VIF(Geschlecht(w)) = 1.112734
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
326 / 446
Lineare Regressionsanalyse
Möglichkeiten der Ausschaltung von Multikollinearität
1
Ausschluß von Variablen
2
Zusammenfassung von Variablen
3
Einbindung zusätzlicher Informationen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
327 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Ausschluß Gesundheitszustand
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante)
22716.6
13065.3
1.739
0.0886
Alter
538.7
249.8
2.157
0.0362
Geschlecht(w) -20408.4
10755.8 -1.897
0.0639
Adj. R-Quadrat
0.1695
F-Wert 6.002 (dF = 47), p-Wert = 0.004771
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
328 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Ausschluß Alter
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante)
73552.3
16151.7
4.554
0.0007
Gesundheitszustand
-439.5
246.3 -1.784
0.0808
Geschlecht(w) -21596.0
10908.9 -1.980
0.0536
Adj. R-Quadrat
0.1453
F-Wert 5.163 (dF = 47), p-Wert = 0.009394
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
329 / 446
Lineare Regressionsanalyse
Berechnung einer kombinierten Variable
Kombination = 0.5 ·
Prof. Dr. Michael Berlemann (HSU)
Alter
Gesundheitszustand
+ 0.5 · (−1) ·
σAlter
σGesundheitszustand
Empirische Wirtschaftsforschung
25. Juni 2014
330 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Kombinationsvariable
Schätzer Std. Fehler t-Wert
Jahreseinkommen
(Konstante)
50492.0
6701.0
7.534
Kombination
10917.0
5446
2.005
Geschlecht(w) -20775.0
10839 -1.917
Adj. R-Quadrat
0.1592
F-Wert 5.64 (dF = 47), p-Wert = 0.006374
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.0000
0.0508
0.0614
25. Juni 2014
331 / 446
Lineare Regressionsanalyse
Literaturhinweise
Literaturhinweise zum 16. Kapitel, Teil I
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4, 17-21].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 1].
Faraway, J. J. (2005): Linear Models with R, Texts in Statistical Science,
Chapman & Hall/CRC Boca Raton.
Fahrmeir, L., T. Kneib und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, Springer Verlag, Berlin [insbes. Kapitel 3].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
332 / 446
Lineare Regressionsanalyse
Literaturhinweise
Literaturhinweise zum 16. Kapitel, Teil II
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 8].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
333 / 446
Regressionen mit diskreten abhängigen Variablen
17. Regressionen mit diskreten abhängigen
Variablen
17.1 Überblick
17.2 Binäre abhängige Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
334 / 446
Regressionen mit diskreten abhängigen Variablen
Überblick
17.1 Überblick
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
335 / 446
Regressionen mit diskreten abhängigen Variablen
17.2 Binäre abhängige Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
336 / 446
Regressionen mit diskreten abhängigen Variablen
Grundidee binärer Regressionsmodelle
Die Wahrscheinlichkeit πi , mit der die Ausprägung einer binären Variable
die Ausprägung ”1” annimmt, entspricht gerade dem bedingten
Erwartungswert der binären Variable.
Dies lässt sich zeigen, wenn zunächst der bedingte Erwartungswert
berechnet wird:
E[yi |x1,i , x2,i , x3,i ]
=
1 · P (yi = 1 |x1,i , x2,i , x3,i )
+0 · P (yi = 0 |x1,i , x2,i , x3,i )
=
1 · P (yi = 1 |x1,i , x2,i , x3,i )
=
πi
Um einen Schätzwert für πi zu erhalten, wird üblicherweise zunächst ein
linearer Prädiktor ηi verwendet:
ηi
Prof. Dr. Michael Berlemann (HSU)
= β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i
Empirische Wirtschaftsforschung
25. Juni 2014
337 / 446
Regressionen mit diskreten abhängigen Variablen
Grundidee binärer Regressionsmodelle
Im nächsten Schritt wird der lineare Prädiktor über eine sog.
Responsefunktion h mit der Wahrscheinlichkeit π verbunden:
πi
=
h (ηi ) = h (β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i )
Die Umkehrfunktion der Responsefunktion g = h−1 nennt man auch
Linkfunktion.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
338 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.1 Lineares Wahrscheinlichkeitsmodell bei binär
abhängigen Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
339 / 446
Regressionen mit diskreten abhängigen Variablen
Wird die Identitätsfunktion verwendet, so führt dies zum einfachen
linearen Wahrscheinlichkeitsmodell:
πi = ηi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i
Das lineare Wahrscheinlichkeitmodell kann mit OLS geschätzt werden.
Die Koeffizienten βk können nun als geschätzte, marginale
Wahrscheinlichkeitsänderungen interpretiert werden, z.B. für β2
∂y
∂πi
=
= β2
∂x2
∂x2
Der geschätzte Wert für β2 beschreibt also, wie eine marginale
Veränderung der Variable x2 die Wahrscheinlichkeit beeinflusst, dass die
binäre Variable y den Wert 1 annimmt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
340 / 446
Regressionen mit diskreten abhängigen Variablen
Beispiel: Promotion
Fragestellung: Welche Faktoren erklären, ob eine Person promoviert ist?
Stichprobe aus Datensatz 1 als Datengrundlage
P romovierti =
0
1
wenn Individuum i nicht promoviert ist
wenn Individuum i promoviert ist
Als erklärende Variablen sollen das Alter, das Jahreseinkommen und das
Geschlecht verwendet werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
341 / 446
Regressionen mit diskreten abhängigen Variablen
Lineares Wahrscheinlichkeitsmodell Promotion
Schätzer Std. Fehler t-Wert
Promoviert
(Konstante) -0.129436
0.1324
-0.98
Alter
0.006671
0.0023
2.85
Jahreseinkommen
0.000006
0.0000
3.95
Weiblich -0.019986
0.1141
-0.18
Adj. R-Quadrat
0.4056
F-Wert 12.15 (dF = 3 & 46), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.3332
0.0064
0.0003
0.8618
25. Juni 2014
342 / 446
Regressionen mit diskreten abhängigen Variablen
Rechenbeispiel: Promotion
Die Wahrscheinlichkeit, dass eine 18-jährige Frau, die kein Einkommen
bezieht, promoviert ist, beträgt nach dem linearen
Wahrscheinlichkeitsmodell:
P (P romovierti = 1)
= −0.129436 + 0.006671 · 18
+0.000006 · 0 − 0.019986 · 1
= −0.02933674
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
343 / 446
Regressionen mit diskreten abhängigen Variablen
6
0
2
4
Häufigkeit
8
10
12
Histogramm Residuen lineares Wahrscheinlichkeitsmodell (Datensatz 1)
−0.5
0.0
0.5
Residuen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
344 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.2 Logit-Modell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
345 / 446
Regressionen mit diskreten abhängigen Variablen
Eine der am häufigsten verwendeten Responsefunktionen in binären
Regressionen ist die logistische Responsefunktion:
π
= h (η) =
exp(η)
1 + exp(η)
Die zugehörige Umkehrfunktion (Linkfunktion) ist die logarithmische
Funktion
π
g(π) = log
= η = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i
1−π
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
346 / 446
Regressionen mit diskreten abhängigen Variablen
0.0
0.2
0.4
Response
0.6
0.8
1.0
Logistische Response-Funktion
−4
−2
0
2
4
Linearer Prädiktor
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
347 / 446
Regressionen mit diskreten abhängigen Variablen
Ergebnisse Logit-Schätzung
Koeff.
Promoviert
Konstante -6.24724
Alter
0.06303
Jahreseinkommen
0.00007
Geschlechtw -0.36767
Hosmer/Lemeshow R-Square
0.48
Cox/Snell R-Square
0.46
Nagelkerke R-Square
0.64
Beobachtungen
50.00
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Std. Abw.
Z-Wert
P(Z>|Z|)
2.08
0.03
0.00
0.97
-3.00
2.43
2.82
-0.38
0.00
0.02
0.00
0.70
Empirische Wirtschaftsforschung
25. Juni 2014
348 / 446
Regressionen mit diskreten abhängigen Variablen
Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe)
Alter: 40.18
Jahreseinkommen: 37181.50
Geschlecht: Mann
Berechnung des linearen Prädiktors η:
η = −6.24724 + 0.06303 · 40.18 + 0.00007 · 37181.50 − 0.36767 · 0 = −1.278087
Berechnung der Promotionswahrscheinlichkeit π:
π=
exp(−1.278087)
= 0.217876
1 + exp(−1.278087)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
349 / 446
Regressionen mit diskreten abhängigen Variablen
Berechnung marginaler Effekte des Logit-Modells
Koeff.
Marg.
Eff.
Marg. Eff.
Änd.
Ref.
Wert
Änd.
Promoviert
Alter
0.06303
0.01
Jahreseinkommen
0.00007
0.00
Geschlechtw -0.36767
-0.06
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
0.11
0.11
-0.06
40.18
37181.50
0.00
10.00
10000.00
1.00
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
350 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.3 Probit-Modell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
351 / 446
Regressionen mit diskreten abhängigen Variablen
Alternativ zur logistische Responsefunktion wird häufig auch die
Verteilungsfunktion der Standardnormalverteilung (Φ) verwendet:
π
Prof. Dr. Michael Berlemann (HSU)
=
h (η) = Φ(η)
Empirische Wirtschaftsforschung
25. Juni 2014
352 / 446
Regressionen mit diskreten abhängigen Variablen
0.6
0.4
0.0
0.2
Response
0.8
1.0
Standard-Normalverteilte Response-Funktion
−4
−2
0
2
4
Linearer Prädiktor
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
353 / 446
Regressionen mit diskreten abhängigen Variablen
Ergebnisse Probit-Schätzung
Koeff.
Promoviert
Konstante -3.62785
Alter
0.03570
Jahreseinkommen
0.00004
Geschlechtw -0.16510
Hosmer/Lemeshow R-Square
0.49
Cox/Snell R-Square
0.47
Nagelkerke R-Square
0.65
Beobachtungen
50.00
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Std. Abw.
Z-Wert
P(Z>|Z|)
1.12
0.01
0.00
0.56
-3.23
2.52
3.03
-0.30
0.00
0.01
0.00
0.77
Empirische Wirtschaftsforschung
25. Juni 2014
354 / 446
Regressionen mit diskreten abhängigen Variablen
Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe)
Alter: 40.18
Jahreseinkommen: 37181.50
Geschlecht: Mann
Berechnung des linearen Prädiktors η:
η = −3.62785 + 0.03570 · 40.18 + 0.00004 · 37181.50 − 0.16510 · 0 = −0.7535629
Berechnung der Promotionswahrscheinlichkeit π:
π = Φ(−0.7535629) = 0.2255559
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
355 / 446
Regressionen mit diskreten abhängigen Variablen
Berechnung marginaler Effekte des Probit-Modells
Koeff.
Marg.
Eff.
Marg. Eff.
Änd.
Ref.
Wert
Änd.
Promoviert
Alter
0.03570
0.01
Jahreseinkommen
0.00004
0.00
Geschlechtw -0.16510
-0.03
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
0.06
0.07
-0.03
40.18
37181.50
0.00
10.00
10000.00
1.00
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
356 / 446
Regressionen mit diskreten abhängigen Variablen
Literaturhinweise
Literaturhinweise zum 17. Kapitel
Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons
[insbes. Kapitel 4.1 und 4.2].
Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 4].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 17].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 7].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
357 / 446
Räumliche Regressionen
18. Räumliche Regressionen
18.1 Räumliche Korrelation
18.2 Erscheinungsformen räumlicher Korrelation
18.3 Folgen räumlicher Korrelation
18.4 Diagnose räumlicher Korrelation
18.5 Schätzmodelle für räumlich korrelierte Daten
18.6 Beispiel für räumliches Schätzmodell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
358 / 446
Räumliche Regressionen
18.1 Räumliche Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
359 / 446
Räumliche Regressionen
Erstes Gesetz der Geographie (Tobler, 1979):
”Everything is related to everything else, but near things are more related
than distant things”
(zitiert nach: Anselin 1988, p. 8)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
360 / 446
Räumliche Regressionen
Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
361 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Rook” (Turm)
b
Prof. Dr. Michael Berlemann (HSU)
b
a
b
b
Empirische Wirtschaftsforschung
25. Juni 2014
362 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Bishop” (Läufer)
c
c
a
c
Prof. Dr. Michael Berlemann (HSU)
c
Empirische Wirtschaftsforschung
25. Juni 2014
363 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Queen” (Königin)
c
b
c
Prof. Dr. Michael Berlemann (HSU)
b
a
b
c
b
c
Empirische Wirtschaftsforschung
25. Juni 2014
364 / 446
Räumliche Regressionen
Nachbarschaftsmatrix 2. Ordnung ”Queen” (Königin)
d
d
d
d
d
Prof. Dr. Michael Berlemann (HSU)
d
c
b
c
d
d
b
a
b
d
d
c
b
c
d
d
d
d
d
d
Empirische Wirtschaftsforschung
25. Juni 2014
365 / 446
Räumliche Regressionen
Erstellen einer Nachbarschaftsmatrix W ∗
∗
wi,j
={
1,
0,
Prof. Dr. Michael Berlemann (HSU)
f alls
sonst
i
und
j
benachbart
Empirische Wirtschaftsforschung
sind
25. Juni 2014
366 / 446
Räumliche Regressionen
Beispiel: Anordnung der Regionen im Raum
1
4
7
2
5
8
3
6
9
Nachbarschaftsmatrix erster Ordnung vom Typ ”Queen”
1
2
3
4
5
6
7
8
9
Prof. Dr. Michael Berlemann (HSU)
1
0
1
0
1
1
0
0
0
0
2
1
0
1
1
1
1
0
0
0
3
0
1
0
0
1
1
0
0
0
4
1
1
0
0
1
0
1
1
0
5
1
1
1
1
0
1
1
1
1
6
0
1
1
0
1
0
0
1
1
7
0
0
0
1
1
0
0
1
0
Empirische Wirtschaftsforschung
8
0
0
0
1
1
1
1
0
1
9
0
0
0
0
1
1
0
1
0
25. Juni 2014
367 / 446
Räumliche Regressionen
Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
368 / 446
Räumliche Regressionen
Erstellen einer zeilenstandardisierten Nachbarschaftsmatrix W
∗
wi,j
wi,j = P ∗
j wi,j
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
369 / 446
Räumliche Regressionen
Zeilennormierte Nachbarschaftsmatrix (Beispiel)
1
2
3
4
5
6
7
8
9
1
0
1/5
0
1/5
1/8
0
0
0
0
2
1/3
0
1/3
1/5
1/8
1/5
0
0
0
Prof. Dr. Michael Berlemann (HSU)
3
0
1/5
0
0
1/8
1/5
0
0
0
4
1/3
1/5
0
0
1/8
0
1/3
1/5
0
5
1/3
1/5
1/3
1/5
0
1/5
1/3
1/5
1/3
6
0
1/5
1/3
0
1/8
0
0
1/5
1/3
Empirische Wirtschaftsforschung
7
0
0
0
1/5
1/8
0
0
1/5
0
8
0
0
0
1/5
1/8
1/5
1/3
0
1/3
9
0
0
0
0
1/8
1/5
0
1/5
0
25. Juni 2014
370 / 446
Räumliche Regressionen
18.2 Erscheinungsformen räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
371 / 446
Räumliche Regressionen
3 grundlegende Formen von räumlicher Korrelation:
1
Räumliche Korrelation in der abhängigen Variable (Spatial lag in
dependent variable)
2
Räumliche Korrelation in den unabhängigen Variablen (Spatial lag in
independent variables)
3
Räumliche Korrelation im Störterm (Spatial error)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
372 / 446
Räumliche Regressionen
Beispiel
Einfaches lineares Schätzmodell:
Y =α+β·X +
mit:
Y: Anzahl der Innovationen in einem Kreis
X: Anteil gut ausgebildeter Arbeitnehmer in einem Kreis
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
373 / 446
Räumliche Regressionen
Räumliche Korrelation in der abhängigen Variable (Spatial lag)
Y =ρ·W ·Y +α+β·X +
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
374 / 446
Räumliche Regressionen
Räumliche Korrelation in der unabhängigen Variable (Spatial lag)
Y =α+θ·W ·X +β·X +
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
375 / 446
Räumliche Regressionen
Räumliche Korrelation im Störterm (Spatial error)
Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
376 / 446
Räumliche Regressionen
18.3 Folgen räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
377 / 446
Räumliche Regressionen
18.4 Diagnose räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
378 / 446
Räumliche Regressionen
Diagnoseverfahren räumlicher Korrelation
1
Grafische Inspektion
2
Moran Scatter Plot
3
Moran’s I Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
379 / 446
Räumliche Regressionen
Anteil Hochqualifizierter an sozialversicherungspflichtig Beschäftigten auf
Kreisebene in % (30.6.2008)
Quelle: BBSR (2010)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
380 / 446
Räumliche Regressionen
14
Moran Scatterplot Hochqualifizierte
9563 ●
6436 ●
14628 ●
6414 ●
8221 ●
9162 ●
9179 ●
12
16071 ●6438 ●
●
9174 ●
●
● ●
9173 ●
● ● ●
●
●●
●
●
●
10
8
4
6
Hochqualifizierte.lag
8236 ●
●
●●
7315 ●
6412 ●
●
●
●
●● ●
●
● ●● ●
●
●
531514511
12054 ●
●
●●
●
● ●● ●
●
●●●●
●
●
● ●● 8226●5111 ●
● ●
●
●
●
●●
●
●●
● ●
●
● ●
●
●
●● ● ●
●
●
14713 ●
●● ●
●
●●
● ● ● ●● ●
●
●
●
●
● ● ● ●
●● 16055 ●
●●
● ● ● ●●● ●
●
5313 ●
● ●
●●
● ● ●● ●
●
● ●
●● ● ●
●
●●●
● ●
●●
●
●
●●●
●
●●● ●
●●● ●●
●●
● ●●
●●
●
●●
●●● ●●● ●
●
●●●
● ●
● ●
●
●
●●
●
●●●
●
●●
●
●
●
●●● ●
●
● ●
●
● ●
●
●●
● ● ●
●
●●
●● ●●●
●
●● ●
● ●
●
●
● ●
● ●● ●
●
● ● ●
●●
●
●
●
●
●●
●
●● ●
●●
●
●
●
8311 ●
●●
●● ●
●
● ● ● ● ● ● ●●●
●
●
●
●
●
●
●● ●
● ● ● ●● ●●
●
● ●
● ●
●
● ● ●●
●
●
●
●●
●
●●●●
●●
●
●●
●
●
●
●
●
●●
●●
●
● ● ●
● ●
●
●●
●
●
●
●
●
●
●
●
●●●
● ●●
●● ●
●
●
●● ●
●
● ● ● ●
●●●
●
●●●● ●
●●
● ● ● ●
●
●
●
●7211
●
9262
9662
●
●
● ●
●
9463 ●
●●
●
●
5
8111 ●
14612 ●
●
10
15
9184 ●
9562 ●
6411 ●
16053 ●
5314 ●
20
25
Hochqualifizierte
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
381 / 446
Räumliche Regressionen
Dritte Möglichkeit: Moran’s I als formales Maß für räumliche Korrelation
Berechnung Moran’s I
N
I=P P
i
j
P P
i
wi,j
j
wi,j (Xi − X̄)(Xj − X̄)
P
2
i (Xi − X̄)
I ∈ [−1; 1]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
382 / 446
Räumliche Regressionen
Moran’s I-Test für Hochqualifizierte
Moran’s I test under randomisation
Moran I statistic standard deviate = 8.709
p-value < 0.01
alternative hypothesis: two.sided
sample estimates:
Moran I statistic Expectation Variance
0.284977
-0.002427
0.001089
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
383 / 446
Räumliche Regressionen
18.5 Schätzmodelle für räumlich korrelierte Daten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
384 / 446
Räumliche Regressionen
Räumliche Schätzmodelle im Überblick
Quelle: Eigene Grafik nach Elhorst (2010, p. 13).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
385 / 446
Räumliche Regressionen
Grundlegende Modelle mit räumlicher Korrelation (Wiederholung)
Räumliche Korrelation in der abhängigen Variable (Spatial lag)
Y =ρ·W ·Y +α+β·X +
Räumliche Korrelation in der unabhängigen Variable (Spatial lag)
Y =α+θ·W ·X +β·X +
Räumliche Korrelation im Störterm (Spatial error)
Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
386 / 446
Räumliche Regressionen
Spatial Durbin model
Räumliche Abhängigkeiten in der Abhängigen und in den Unabhängigen:
Y = ρ W Y + α + θ W X + β X + ,
∼ N (0, σ 2 )
Kelejian-Prucha model
Räumliche Abhängigkeiten in der Abhängigen und im Störterm:
Y = ρ W Y + α + β X + u, u = λW u + , ∼ N (0, σ 2 )
Spatial Durbin error model
Räumliche Abhängigkeiten in den Unabhängigen und im Störterm:
Y = α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
387 / 446
Räumliche Regressionen
Manski model
Räumliche Abhängigkeiten in der Abhängigen, in den Unabhängigen und im
Störterm:
Y = ρ W Y + α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
388 / 446
Räumliche Regressionen
18.6 Beispiel für räumliches Schätzmodell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
389 / 446
Räumliche Regressionen
Datensatz (Dataset2 )
KKZ
1001
1002
1003
1004
1051
Innovationskraft
-0.013432469
-0.002601189
-0.030241515
-0.024823903
-0.032083965
Hochqualifizierte
6.27
10.82
7.16
5.31
4.68
FuEAusgaben
3.0436
4.0568
11.4683
3.7437
0.7973
Daten aus dem Jahr 2008 für 413 deutsche Kreise
KKZ: Kreiskennziffer, erste Ziffer steht für das Bundesland
Innovationskraft: relative Innovationskraft einer Region basierend auf
Patentanmeldungen
Hochqualifizierte: Anteil Hochqualifizierter (Abschluss an Hochschule,
Fachhochschule oder Uni) an sozialversicherungspflichtig Beschäftigten in
Prozent
FuEAusgaben: FuE-Ausgaben pro Unternehmen in tausend Euro
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
390 / 446
Räumliche Regressionen
OLS und räumliche Regressionen im Vergleich
OLS
(Intercept)
Hochqualifizierte
FuEAusgaben
Hochqualifizierte.lag
FuEAusgaben.lag
adj. R2
Nagelkerke
ρ
λ
-0.0185***
0.0008***
0.0001*
Spatial
error
-0.0188***
0.0008***
0.0001***
Spatial lag
(Abhängige)
-0.0121***
0.0007***
0.0001***
0.3201
0.3215
0.4722***
0.219
Spatial lag
(Unabhängige)
-0.0178***
0.0008***
0.0001*
-0.0002
0.0001**
0.225
0.4874***
*** 1%, ** 5%, * 10%
OLS und Spatial lag (Unabhängige) mit White-Korrektur geschätzt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
391 / 446
Räumliche Regressionen
OLS und räumliche Regressionen im Vergleich
OLS
(Intercept)
Hochqualifizierte
FuEAusgaben
Hochqualifizierte.lag
FuEAusgaben.lag
adj. R2
Nagelkerke
ρ
λ
-0.0185***
0.0008***
0.0001*
Spatial
Durbin
-0.0105***
0.0008***
0.0001***
-0.0003
0.0000
Manski
model
-0.0100**
0.0008***
0.0001***
-0.0003
0.0000
0.324
0.4807***
0.324
0.5022**
-0.03015
0.219
*** 1%, ** 5%, * 10%
OLS mit White-Korrektur geschätzt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
392 / 446
Räumliche Regressionen
Literaturhinweise zum 18. Kapitel
Anselin, Luc (1988): Spatial Econometrics: Methods and Models, Studies
in operational regional siences, Kluwer Academic Publishers, Dordrecht.
Elhorst, J. P. (2010): Applied spatial econometrics: Raising the bar,
Spatial Econometric Analysis 5 (1), 9-28.
Keilbach, M. C. (2000): Spatial knowledge spillovers and the dynamics of
agglomeration and regional growth, Physica Verlag, Heidelberg.
Lerbs, O. and C. Oberst (2012): Explaining the spatial variation in
homeownership rates: Results for German regions, CESifo working paper
no. 3377.
Bivand et al. (2008): Applied Spatial Data Analysis with R, Springer
Verlag, New York, Heidelberg.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
393 / 446
Schätzung nicht-linearer Zusammenhänge
19. Schätzung nicht-linearer Zusammenhänge
19.1 Datensatz zur Aktienanlage
19.2 Schätzung eines linearen Erklärungsmodells
19.3 Schätzung einer linearen Regression mit geeigneten Dummyvariablen
19.4 Schätzung eines linear-quadratischen Erklärungsmodells mit OLS
19.5 Anpassung einer konkreten nicht-linearen Funktion
19.6 Schätzung eines nicht-parametrischen Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
394 / 446
Schätzung nicht-linearer Zusammenhänge
19.1 Datensatz zur Aktienanlage
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
395 / 446
Schätzung nicht-linearer Zusammenhänge
Beschreibung Dataset 3
200 Beobachtungen
Datensatz enthält die folgenden Variablen:
Beobachtungsnummer
Geschlecht (Dummy: männlich (0), weiblich (1))
Alter in Jahren
Wert des Aktiendepots in Euro
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
396 / 446
Schätzung nicht-linearer Zusammenhänge
Deskriptive Statistik
Person
Geschlecht
Alter
Aktien
Mittelwert
100.50
0.50
44.88
4656.88
Prof. Dr. Michael Berlemann (HSU)
Standardabw.
57.88
0.50
24.94
8322.28
Min.
1.00
0.00
1.00
0.00
Empirische Wirtschaftsforschung
Max.
200.00
1.00
92.00
70000.00
Median
100.50
0.50
46.00
1000.00
25. Juni 2014
397 / 446
Schätzung nicht-linearer Zusammenhänge
19.2 Schätzung eines linearen Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
398 / 446
Schätzung nicht-linearer Zusammenhänge
Lineare Mehrfachregression (mit White-Korrektur)
Konstante
Alter
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
4550.49
29.14
-2264.01
Std.-Fehler
1274.36
14.74
1353.55
t Wert
3.57
1.98
-1.67
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.05
0.09
25. Juni 2014
399 / 446
Schätzung nicht-linearer Zusammenhänge
Residuenanalyse des linearen Modells
40000
30000
●
20000
●
●
10000
residuals(Regression)
50000
60000
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●●
●●
●
●
● ●●
●
● ●
●●
●●● ●
●● ●
●●●●● ●●●
●●● ●●● ● ●
●
●
●●● ●
●
●
●
●
●● ●
●
●
●
●
●
● ●
●● ●
● ● ●● ● ●●●
● ●
●
●●
●●
●●● ●● ● ●● ●
●
●
●●
●
● ● ●
●
●
●
●
●
0
50
100
150
Index
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
400 / 446
Schätzung nicht-linearer Zusammenhänge
70000
Scatterplot Alter versus Wert des Aktiendepost
50000
40000
●
30000
●
●
20000
●
0
10000
Wert des Aktiendepots
60000
●
●
●
●
●
0
20
●
●
●
●
●
●●
● ●
● ● ● ●
●●●
●
●
●●
●●
●
●
●● ●
●
●
●●
● ●
●● ● ●
●
●
●
●
●
●
●●●●●● ●●●●●●●●●●●●●●
●●●● ●● ●● ●●
●
●●
●
●
●
●
●
●
40
●
●
●●
●●
● ● ●
●●
●
●
●
●●
●
● ●●
●●
●
●●
●
●● ●●
● ●●●● ● ●
●
● ● ●●
●● ● ●
●●●
●
● ●● ●● ●
● ● ● ● ● ●●●●
●●
● ●●●●
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
401 / 446
Schätzung nicht-linearer Zusammenhänge
19.3 Schätzung einer linearen Regression mit geeigneten
Dummyvariablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
402 / 446
Schätzung nicht-linearer Zusammenhänge
OLS-Regression mit Alters-Dummies (mit White-Korrektur)
Konstante
Geschlecht
Mittleres Alter (40 bis 60)
Hohes Alter (über 60)
Prof. Dr. Michael Berlemann (HSU)
Schätzer
2802.90
-1983.05
11460.69
96.33
Std.-Fehler
613.08
877.54
1683.83
609.06
Empirische Wirtschaftsforschung
t Wert
4.57
-2.26
6.81
0.16
Pr(>|t|)
0.00
0.02
0.00
0.87
25. Juni 2014
403 / 446
Schätzung nicht-linearer Zusammenhänge
19.4 Schätzung eines linear-quadratischen
Erklärungsmodells mit OLS
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
404 / 446
Schätzung nicht-linearer Zusammenhänge
Linear-quadratische Mehrfachregression (mit White-Korrektur)
Konstante
Alter
Alter2
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
-4562.19
624.04
-6.76
-1819.59
Std.-Fehler
877.75
80.06
0.89
971.09
t Wert
-5.20
7.79
-7.56
-1.87
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.00
0.00
0.06
25. Juni 2014
405 / 446
Schätzung nicht-linearer Zusammenhänge
19.5 Anpassung einer konkreten nicht-linearen Funktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
406 / 446
Schätzung nicht-linearer Zusammenhänge
Parabelgleichung
Y = A · X2 + B · X + C
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
407 / 446
Schätzung nicht-linearer Zusammenhänge
Anzupassende Funktion
Aktien = A · Alter2 + B · Alter + C + D · Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
408 / 446
Schätzung nicht-linearer Zusammenhänge
Angepasstes Modell
A (Alter2 )
B (Alter)
C (Konstante)
D (Geschlecht)
Prof. Dr. Michael Berlemann (HSU)
Schätzer
-6.76
624.04
-4562.19
-1819.59
Std.-Fehler
0.8606
78.80
1605.05
996.13
Empirische Wirtschaftsforschung
t Wert
-7.85
7.92
-2.84
-1.83
Pr(>|t|)
0.00
0.00
0.01
0.07
25. Juni 2014
409 / 446
Schätzung nicht-linearer Zusammenhänge
50000
Darstellung der geschätzten Parabel
40000
●
30000
●
Aktien
●
●
20000
●
10000
0
●
●
●
●
●●
●
●
● ●
● ●
●
●
● ●
●
●
●●
●
●
● ●
●
●
● ● ●●
●
●
● ●●●
●
●
●●●●●● ● ●●●●●●●● ●●● ● ●● ●
●
0
20
●
●
●
●
●
● ● ●● ●
●
●
40
●
●
●
●●
●
●
●
●●
●● ●●
● ●
●
● ●
●● ● ● ●
● ●●●●
● ● ● ●●
● ●●●●
● ●● ●●●
●● ●● ●
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
410 / 446
Schätzung nicht-linearer Zusammenhänge
19.6 Schätzung eines nicht-parametrischen
Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
411 / 446
Schätzung nicht-linearer Zusammenhänge
Schätzmodell
Aktieni = α + β · Geschlechti + f (Alteri ) + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
412 / 446
Schätzung nicht-linearer Zusammenhänge
Parametrische Effekte
Konstante
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
4429.3
581.9
Std.-Fehler
513.7
732.2
t Wert
8.622
0.795
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.43
25. Juni 2014
413 / 446
Schätzung nicht-linearer Zusammenhänge
0
−10000
−5000
s(Alter,6.75)
5000
10000
Nicht-parametrischer Effekt Alter
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
414 / 446
Schätzung nicht-linearer Zusammenhänge
Residuenanalyse des nicht-parametrischen Modells
30000
20000
●
●
●
10000
residuals(nl_regression)
40000
50000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
● ● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●● ●● ●●
●
● ●●●●● ● ● ●●
●●
● ●
●
● ●● ●● ●●●●
●
●● ●●● ●
● ●
●
● ●● ● ●
● ●●
● ●● ●
● ●●
●
● ●● ●
●● ● ●
● ●
●
●
● ●● ●
● ●
●
●
●
●
●
●
●●
●
●
● ●●
● ●
●
●
●●
● ●
●
●
−10000
0
●
●
●
●
0
50
100
150
Index
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
415 / 446
Schätzung nicht-linearer Zusammenhänge
Literaturhinweise
Literaturhinweise zum 19. Kapitel
Ritz, Chr. und J. C. Streibig (2008): Nonlinear Regression with R, Use
R!, Springer Verlag, Berlin.
Wood, S. N. (2006): Generalized Additive Models, An Introduction with
R, Texts in Statistical Science, Taylor & Francis Group, Boca Raton.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
416 / 446
Grundlagen der Zeitreihenanalyse
20. Grundlagen der Zeitreihenanalyse
20.1 Zeitreihen
20.2 Maßzahlen für Zeitreihen
20.3 Stationarität von Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
417 / 446
Grundlagen der Zeitreihenanalyse
20.1 Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
418 / 446
Grundlagen der Zeitreihenanalyse
Definition
Eine Zeitreihe ist eine Realisation eines stochastischen Prozesses in
diskreter Zeit
yt mit t ∈ Z
Der Prozess beginnt in −∞ und geht bis +∞.
Die yt sind Ausprägungen von Zufallsvariablen.
Der Prozess ist eine Folge von Zufallsvariablen, die stets dasselbe aber zu
unterschiedlichen, äquidistanten Zeitpunkten messen.
Eine Realisation hat einen Anfang, t = 1, und ein Ende, t = T
yt
Prof. Dr. Michael Berlemann (HSU)
mit
t = 1, ..., T
Empirische Wirtschaftsforschung
25. Juni 2014
419 / 446
Grundlagen der Zeitreihenanalyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
420 / 446
Beobachtungsvariable
Grundlagen der Zeitreihenanalyse
Zeit
Saison
Prof. Dr. Michael Berlemann (HSU)
Zyklus
Trend
irreguläres Element
Realität
Empirische Wirtschaftsforschung
25. Juni 2014
421 / 446
Grundlagen der Zeitreihenanalyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
422 / 446
Grundlagen der Zeitreihenanalyse
20.2 Maßzahlen für Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
423 / 446
Grundlagen der Zeitreihenanalyse
Definition
Die Autokorrelation k-ter Ordnung misst die Korrelation zwischen
Werten einer Zeitreihe, die k Perioden voneinander entfernt sind.
In einer Stichprobe ist der Autokorrelationskoeffizient k-ter Ordnung
definiert als
PT
(yt − ȳ) · (yt−k − ȳ)
rk = t=k+1
PT
2
t=1 (yt − ȳ)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
424 / 446
Grundlagen der Zeitreihenanalyse
20.3 Stationarität von Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
425 / 446
Grundlagen der Zeitreihenanalyse
Tests auf Stationarität
(Augmented) Dickey-Fuller-Test
Phillips-Perron-Test
Elliott-Rothenberg-Stock Test
Schmidt-Phillips-Test
Kwiatkowski-Phillips-Schmidt-Shin-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
426 / 446
Grundlagen der Zeitreihenanalyse
Literaturhinweise
Literaturhinweise zum 20. Kapitel
Cowpertwait, S.P./Metcalfe, A.V. (2009): Introductory Times Series with
R, Use R!, Springer Verlag, Berlin.
Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne
Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 1 und 5].
Pfaff, B. (2008): Analysis of Integrated and Cointegrated Time Series
with R, Use R!, Springer Verlag, Berlin.
Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag,
München [insbes. Kapitel 2].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
427 / 446
21 Univariate Zeitreihenmodelle
21.1 Typen univariater Zeitreihenmodelle
21.2 Schätzung univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
428 / 446
21.1 Typen univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
429 / 446
Typen univariater Zeitreihenmodelle
1
White-Noise-Prozesse (WN)
2
Moving-Average-Prozesse (MA)
3
Random-Walk-Prozesse mit und ohne Drift (RW)
4
Autoregressive Prozesse (AR)
5
Autoregressive Moving-Average-Prozesse (ARMA)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
430 / 446
Definition
Ein stochastischer Prozess yt heisst Weisses Rauschen (White Noise) wenn
sein Erwartungswert null ist, er eine endliche Varianz σy2 aufweist und
unkorreliert mit allen vorausgegangenen Ausprägungen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
431 / 446
Weisses Rauschen
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
432 / 446
Definition
Ein stochastischer Prozess yt heisst Moving-Average-Prozess des Grades
q wenn er dem folgenden Muster folgt:
yt = c + t + β1 · t−1 + · · · + βq · t−q
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
433 / 446
Moving-Average-Prozess 1.Ordnung
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
434 / 446
Definition
Ein stochastischer Prozess yt mit
yt = yt−1 + t
heisst Random Walk ohne Drift wenn selbst Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
435 / 446
Random Walk ohne Drift
0
0
5
10
15
20
25
30
35
40
-1
-2
-3
-4
-5
-6
-7
-8
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
436 / 446
Definition
Ein stochastischer Prozess yt mit
yt = c + yt−1 + t
heisst Random Walk mit Drift wenn selbst Weisses Rauschen ist. Den
Parameter c bezeichnet man auch als Drift.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
437 / 446
Random Walk mit Drift
14
12
10
8
6
4
2
0
0
5
10
15
20
25
30
35
40
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
438 / 446
Definition
Ein stochastischer Prozess yt heisst autoregressiver Prozess des Grades p
wenn er dem folgenden Muster folgt:
yt = c + α1 · yt−1 + · · · + αp · yt−p + t
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
439 / 446
Autoregressiver Prozess
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
440 / 446
Definition
Ein stochastischer Prozess yt heisst autoregressiver
Moving-Average-Prozess des Grades (p,q) wenn er dem folgenden
Muster folgt:
yt
=
c + α1 · yt−1 + · · · + αp · yt−p
+t + β1 · t−1 + · · · + βq · t−q
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
441 / 446
Autoregressiver Moving-Average-Prozess (1,1)
14
12
10
8
6
4
2
0
0
5
Prof. Dr. Michael Berlemann (HSU)
10
15
20
25
Empirische Wirtschaftsforschung
30
35
40
25. Juni 2014
442 / 446
21.2 Schätzung univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
443 / 446
Informationskriterien
Schwarz-Informationskriterium
Akaike-Informationskriterium
Hannan-Quinn-Informationskriterium
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
444 / 446
Literaturhinweise
Literaturhinweise zum 21. Kapitel
Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne
Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 2].
Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag,
München [insbes. Kapitel 3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
445 / 446