Empirische Wirtschaftsforschung

Werbung
Empirische Wirtschaftsforschung
Prof. Dr. Michael Berlemann
BSc. VWL: Empirische Wirtschaftsforschung
MSc. VWL: Empirische Wirtschaftsforschung für Fortgeschrittene
25. Juni 2014
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
1 / 446
Gliederung der Vorlesung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
2 / 446
Gliederung 1. Kapitel
1. Ziel, Konzept und Aufbau der Vorlesung
Gliederung 2. Kapitel
2. Gegenstand der Empirischen Wirtschaftsforschung
2.1 Aufgaben der empirischen Wirtschaftsforschung
2.2 Überprüfung modellgestützter Hypothesen
2.3 Evaluierung von Politikmaßnahmen
2.4 Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
3 / 446
Gliederung 3. Kapitel
3. Datentypen und Datenquellen
3.1 Grundbegriffe
3.2 Merkmalstypen
3.3 Skalierung von Merkmalen
3.4 Datenerhebung
3.5 Datensätze
3.6 Sekundärdatenquellen und Datenbanken
Gliederung 4. Kapitel
4. Datenverarbeitung und Software
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
4 / 446
Gliederung 5. Kapitel
Gliederung 6. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
5 / 446
Gliederung 7. Kapitel
Gliederung 8. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
6 / 446
Gliederung 9. Kapitel
Gliederung 10. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
7 / 446
Gliederung 11. Kapitel
Gliederung 12. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
8 / 446
Gliederung 13. Kapitel
Gliederung 14. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
9 / 446
Gliederung 15. Kapitel
Gliederung 16. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
10 / 446
Gliederung 17. Kapitel
Gliederung 18. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
11 / 446
Gliederung 19. Kapitel
Gliederung 20. Kapitel
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
12 / 446
Ziel, Konzept und Aufbau der Vorlesung
1. Ziel, Konzept und Aufbau der Vorlesung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
13 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2. Gegenstand der Empirischen
Wirtschaftsforschung
2.1
2.2
2.3
2.4
Aufgaben der empirischen Wirtschaftsforschung
Überprüfung modellgestützter Hypothesen
Evaluierung von Politikmaßnahmen
Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
14 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.1 Aufgaben der empirischen Wirtschaftsforschung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
15 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.2 Überprüfung modellgestützter Hypothesen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
16 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Sir Karl Popper
* 28. Juli 1902 in Wien
„ 17. September 1994 in London
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
17 / 446
Überprüfung modellgestützter Hypothesen
Gegenstand der Empirischen Wirtschaftsforschung
Optimales Konsumbündel in der Ausgangssituation
009Prof.
Menge x2
x2opt
U1
x1opt
Dr.
Dr. Michael Berlemann Prof.
(HSU)
Menge x1
M. Empirische
Berlemann: Wirtschaftsforschung
Vorlesung "Empirische Wirtschaftsforschung"
25. Juni 2014
18 / 446
Überprüfung modellgestützter Hypothesen
Gegenstand der Empirischen Wirtschaftsforschung
Optimales Konsumbündel bei Erhöhung des Preises von Gut x1
009
Prof.
Menge x2
Konsequenzen eines Preisanstiegs bei Gut x1
x2opt
U1
x1opt
Menge x1
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
19 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.3 Evaluierung von Politikmaßnahmen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
20 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Bundeskanzler Gerhard Schröder
Tabaksteuerreform 2004
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
21 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Deutsche Tabaksteuer-Einnahmen 1949-2009 in Mio. Euro (Quelle:
Statistisches Bundesamt)
16000
14000
12000
10000
8000
6000
4000
2000
0
1949
1954
1959
1964
Prof. Dr. Michael Berlemann (HSU)
1969
1974
1979
1984
1989
Empirische Wirtschaftsforschung
1994
1999
2004
25. Juni 2014
2009
22 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Schaumburger Nachrichten, 11.2.2004
steuererhöhung 2004
ene“ Tabaksteuererhöhung von 2004 als schönes
ene
es Beispiel für die Folgen mangelnder oder falscher
er Abschätzungen der Folgen wirtschaftspolitischer
men
d
der R
Raucher"
h " kann
k
man mit
it "geringer
" i
di
direkter
kt
zität der Nachfrage" übersetzen.
inanzminister weniger Einnahmen aus der
er fürchten muss, kommt der Aussage gleich, dass
Markt für Tabakwaren im fallenden Bereich der
rve befindet.
aus: Schaumburger Nachrichten, 11.2.2004
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
17
25. Juni 2014
23 / 446
luierung von Politikmaßnahmen
Gegenstand der Empirischen Wirtschaftsforschung
Laffer-Kurve
Steueraufkommen
Laffer-Kurve
Steuersatz
τ=0%
Prof. Dr. Michael Berlemann (HSU)
τ*
Empirische Wirtschaftsforschung
τ = 100 %
25. Juni 2014
24 / 446
Gegenstand der Empirischen Wirtschaftsforschung
2.4 Prognose
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
25 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Konjunkturprognose des ifo-Instituts für Deutschland (Quelle: ifo)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
26 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Bevölkerungsprognose 2007 bis 2025 für Deutschland regional (Quelle: BBSR)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
27 / 446
Gegenstand der Empirischen Wirtschaftsforschung
Literaturhinweise
Literaturhinweise zum 2. Kapitel
Hujer, R. und R. Cremer (1978): Methoden der empirischen
Wirtschaftsforschung, Verlag Vahlen, München [insbes. Kapitel 1
Abschnitt I].
Laffer, A. B. (1981): Government Exactions and Revenue Deficiencies, in:
Cato Journal, Vol. 1, Nr. 1, S. 1-21.
Mosler, K. und F. Schmid (2006): Beschreibende Statistik und
Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
0].
Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2.
Auflage, Springer-Verlag, Berlin [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
28 / 446
Datentypen und Datenquellen
3. Datentypen und Datenquellen
3.1
3.2
3.3
3.4
3.5
3.6
Grundbegriffe
Merkmalstypen
Skalierung von Merkmalen
Datenerhebung
Datensätze
Sekundärdatenquellen und Datenbanken
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
29 / 446
Datentypen und Datenquellen
3.1 Grundbegriffe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
30 / 446
Datentypen und Datenquellen
Definition
Die Objekte, auf die sich eine empirische Analyse bezieht, werden auch als
Untersuchungseinheiten (ω) bezeichnet
Definition
Alle Untersuchungseinheiten zusammen ergeben die sog. Grundgesamtheit
(Ω)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
31 / 446
Datentypen und Datenquellen
Definition
Bestimmte Eigenschaften der Untersuchungsobjekte bezeichnet man auch als
Merkmale (X) (oder auch als statistische Variable)
Definition
Jedes Merkmal kann in der Regel mehrere (k) unterschiedliche
Merkmalsausprägungen a1 , a2 ,· · · , ak aufweisen
Definition
Als Merkmalsraum (S) (oder auch: Zustandsraum) bezeichnet man die
Menge aller möglichen Ausprägungen eines Merkmals (alle Werte, die eine
statistische Variable annehmen kann)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
32 / 446
Datentypen und Datenquellen
3.2 Merkmalstypen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
33 / 446
Datentypen und Datenquellen
Merkmalstypen
Merkmalstypen
M k l
Merkmale
Qualitative Merkmale
Quantitative Merkmale
Ausprägungen unterscheiden sich artmässig
Ausprägungen können durch Zahlen angegeben werden
Diskrete Merkmale
abzählbarer
b ählb
Zustandsraum
Z t d
Stetige Merkmale
nicht abzählbarer Zustandsraum
Gruppierte Merkmale
Ab ählb durch
Abzählbar
d h Gruppenbildung
G
bild
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
27
25. Juni 2014
34 / 446
Datentypen und Datenquellen
3.3 Skalierung von Merkmalen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
35 / 446
Datentypen und Datenquellen
Skalierung
von Merkmalen
Skalierung
von Merkmalen
Skalentypen
Nominalskala
Ordinalskala (Rangskala)
nur Unterscheidung, keine Ordnung
Reihenfolge, aber keine Abstände interpretierbar
Metrische Skala
Reihenfolge, Abstände interpretierbar
Intervallskala
nur Abstände interpretierbar
Stetige Merkmale
natürlicher Nullpunkt, Verhältnisse interpretierbar
Absolutskala
natürlicher Nullpunkt & natürliche Maßeinheit
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
29
25. Juni 2014
36 / 446
Datentypen und Datenquellen
3.4 Datenerhebung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
37 / 446
Datentypen und Datenquellen
Definition
Von einer Vollerhebung spricht man, wenn die relevanten Merkmale aller
Untersuchungseinheiten einer Grundgesamtheit erhoben werden
Definition
Bei einer Teilerhebung werden nur die relevanten Merkmale einer Teilmenge
(Stichprobe) aller Untersuchungseinheiten der Grundgesamtheit erhoben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
38 / 446
Datentypen und Datenquellen
Definition
Von einer Primärerhebung spricht man, wenn die Daten vom Forscher
selbst erhoben werden, so z.B. durch Befragung, Beobachtung und
Aufzeichnung oder Durchführung von Experimenten
Definition
Von einer Sekundärerhebung spricht man, wenn die Daten von anderen
Personen oder Institutionen erhoben, gesammelt, verifiziert und unter
Umständen aggregiert werden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
39 / 446
Datentypen und Datenquellen
Definition
Sind die Untersuchungseinheiten einzelne Individuen oder vergleichbare
Individualobjekte, so spricht man von Mikrodaten
Definition
Handelt es sich um Daten, die über mehrere Untersuchungseinheiten (z.B.
Individuen, Unternehmen, Branchen, Regionen) aggregiert wurden, so spricht
man von Makrodaten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
40 / 446
Datentypen und Datenquellen
Formen der Primärerhebung:
Befragung
schriftlich
mündlich
Beobachtung
Experiment
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
41 / 446
Datentypen und Datenquellen
3.5 Datensätze
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
42 / 446
Datentypen und Datenquellen
Typen von Datensätzen:
Querschnittsdatensätze
Längsschnittsdatensätze
Pandeldatensätze
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
43 / 446
Datentypen und Datenquellen
Querschnittsdaten
Querschnittsdatensatz
(Cross section data)
(Cross section data)
BW
BY
BE
BB
HB
HH
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
,
3,2
4,9
,
1,4
,
3,2
,
4,9
,
3,5
,
3,2
,
1,0
,
2,4
,
2,3
,
2,7
,
4,8
,
1,3
,
2,5
,
2,4
,
2,7
,
3,1
,
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
37
25. Juni 2014
44 / 446
Datentypen und Datenquellen
Längsschnittdaten Zeitreihe
Längsschnittdaten,
Längsschnittsdatensatz
/ Zeitreihe (Time series data)
(Time series data)
BW
BY
BE
BB
HB
HH
1992
−0,1
1993
−0,8
1994
08
0,8
1995
1,0
1996
1,2
1997
1,8
1998
1,1
1999
0,8
2000
,
3,5
2001
3,4
2002
−0,2
2003
−3,3
2004
0,3
2005
1,3
2006
2,4
2007
2,1
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
38
25. Juni 2014
45 / 446
Datentypen und Datenquellen
Paneldaten
Paneldatensatz
(Panel data)
(Panel data)
BW
BY
BE
BB
HB
HH
HE
MV
NI
NW
RP
SL
SN
ST
SH
TH
D
1992
−0,5
1,3
3,0
10,1
−0,2
−0,1
0,6
11,5
0,4
0,1
−1,4
−0,4
11,3
11,6
0,5
19,9
1,5
1993
−5,3
−2,9
2,2
12,4
−2,8
−0,8
−3,0
12,7
−2,2
−3,1
−4,1
−4,7
13,3
14,1
−1,8
14,1
−1,5
1994
16
1,6
15
1,5
09
0,9
12 3
12,3
17
1,7
08
0,8
06
0,6
13 4
13,4
13
1,3
08
0,8
10
1,0
30
3,0
13 7
13,7
11 4
11,4
06
0,6
13 2
13,2
23
2,3
1995
1,2
0,6
2,0
7,5
0,4
1,0
1,0
8,4
−1,2
1,4
0,9
3,0
8,3
5,1
1,6
3,8
1,6
1996
1,5
1,3
−1,6
2,7
0,2
1,2
2,0
3,2
−0,3
−0,8
−1,2
−2,9
3,4
3,3
0,7
3,3
0,7
1997
2,0
1,9
−1,3
1,3
1,6
3,4
1,8
1,3
2,1
1,2
1,5
1,4
2,4
0,7
3,6
1,0
4,2
1,6
1998
2,3
3,7
0,7
0,3
1,8
1,1
1,4
0,4
2,2
2,1
0,9
3,4
1,3
1,4
0,2
2,3
2,1
1999
2,3
2,6
−0,1
3,6
1,1
0,8
3,1
3,9
1,0
0,8
2,4
2,4
3,0
2,8
1,2
4,0
1,9
2000
,
3,2
4,9
,
1,4
,
3,2
,
4,9
,
3,5
,
3,2
,
1,0
,
2,4
,
2,3
,
2,7
,
4,8
,
1,3
,
2,5
,
2,4
,
2,7
,
3,1
,
2001
2,1
1,4
−1,2
0,6
1,3
3,4
1,4
1,1
−1,1
0,6
−1,4
1,6
2,6
1,4
0,5
2,3
1,1
2002
−1,9
0,8
−1,8
0,2
1,3
−0,2
−1,2
1,0
−1,1
−0,1
0,9
−1,0
3,3
3,4
−2,4
1,1
−0,2
2003
−0,7
0,0
−2,2
0,1
0,3
−3,3
0,4
0,6
−0,0
−0,9
−0,5
−0,5
2,2
1,0
−0,1
2,6
−0,3
2004
0,2
1,8
−2,0
1,4
0,2
0,3
0,2
2,0
0,9
1,2
2,2
3,8
2,3
1,6
0,8
2,5
1,1
2005
0,3
1,5
0,8
1,2
0,2
1,3
0,9
0,6
2,1
0,1
−0,4
3,2
0,8
0,9
0,1
1,0
0,8
2006
4,3
3,1
1,0
1,7
1,8
2,4
3,1
2,2
2,6
2,7
2,6
2,6
3,4
2,9
2,4
3,6
3,0
2007
2,7
2,6
1,8
2,5
2,8
2,1
2,4
3,4
2,0
2,8
2,7
3,0
3,1
3,3
1,3
3,0
2,6
Quelle: Arbeitsgruppe VGR der Länder (2009)
FT 2009
Prof. Dr. M. Berlemann: Vorlesung "Empirische Wirtschaftsforschung"
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
39
25. Juni 2014
46 / 446
Datentypen und Datenquellen
3.6 Sekundärdatenquellen und Datenbanken
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
47 / 446
Datentypen und Datenquellen
Sekundärdatenquellen
Sekundärdatenquellen
S k dä d
Sekundärdaten
amtliche Statistik
nicht-amtliche Statistik
von staatlichen Institutionen erhobene Daten
von privaten Institutionen erhobene Daten
national
national
d Inland
das
I l d betreffend
b t ff d
d Inland
das
I l d betreffend
b t ff d
international
international
im Ländervergleich
im Ländervergleich
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
48 / 446
Datentypen und Datenquellen
Nationale amtliche Statistik
Statistisches Bundesamt / Statistische Landesämter:
Statistisches Jahrbuch, Fachserien, Zeitschriften
Wichtigste Daten sind im Internet frei oder gegen geringe Gebühr
zugänglich:
http://www.destatis.de/
http://www.vgrdl.de/Arbeitskreis VGR/
Deutsche Bundesbank:
Monatsberichte, Statistische Beihefte, Geschäftsberichte
Internetangebot:
http://www.bundesbank.de/statistik/statistik.php
Bundesregierung / Landesregierungen:
Regelmäßige Berichte (Jahreswirtschaftsbericht, Finanzbericht,
Sozialbericht etc.)
Internet Bundeswirtschaftsministerium:
http://www.bmwi.de/BMWi/Navigation/wirtschaft.html
Bundesagentur für Arbeit / Landesarbeitsagenturen:
Internet:
http://www1.arbeitsamt.de/hst/services/statistik/index.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
49 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik: Öffentlich geförderte
Wirtschaftsforschungsinstitute
Deutsches Institut für Wirtschaftsforschung (DIW), Berlin
Internet: http://www.diw.de
ifo Institut für Wirtschaftsforschung, München
Internet: http://www.ifo.de
Institut für Weltwirtschaft (IfW), Kiel
Internet: http://www.ifw-kiel.de
Rheinisch-Westfälisches Institut für Wirtschaftsforschung (RWI), Essen
Internet: http://www.rwi-essen.de
Institut für Wirtschaftsforschung Halle (IWH), Halle
Internet: http://www.iwh-halle.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
50 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik: Privat finanzierte
Wirtschaftsforschungsinstitute
Zentrum für Europäische Wirtschaftsforschung (ZEW), Mannheim
Internet: http://www.zew.de
Hamburger Weltwirtschafts-Institut (HWWI), Hamburg
Internet: http://www.hwwi.org
Institut der Deutschen Wirtschaft (IdW), Köln
Internet: http://www.idw.de
Institut für Makroökonomie und Konjunkturforschung (IMK), Düsseldorf
Internet: http://www.boeckler.de/31923.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
51 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik:
Sachverständigenrat zur Begutachtung der gesamtwirtschaftlichen
Entwicklung
Internet: http://www.sachverstaendigenrat-wirtschaft.de
Monopolkommission
Internet: http://www.monopolkommission.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
52 / 446
Datentypen und Datenquellen
Nationale nicht-amtliche Statistik:
Marktforschungsinstitute
Gesellschaft für Konsumforschung (GfK)
Internet: http://www.gfk.com/group/index.de.html
Meinungsforschungsinstitute
Institut für Demoskopie Allensbach
Internet: http://www.ifd-allensbach.de
Emnid
Internet: http://www.tns-emnid.com
Forsa
Internet: http://www.forsa.de
Forschungsgruppe Wahlen
http://www.forschungsgruppe.de/Startseite
Infas
http://www.infas.de
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
53 / 446
Datentypen und Datenquellen
Internationale amtliche Statistik:
Statistisches Amt der Europäischen Union (Eurostat)
Internet: http://epp.eurostat.ec.europa.eu
Europäische Zentralbank (EZB)
Internet: http://www.ecb.int/stats/html/index.en.html
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
54 / 446
Datentypen und Datenquellen
Internationale nicht-amtliche Statistik:
Organisation for Economic Development and Co-Ordination (OECD):
Internet: http://www.oecd.org
Weltbank
Internet: http://www.worldbank.org
Bank für Internationalen Zahlungsausgleich (Basel)
Internet: http://www.bis.org
Vereinte Nationen (UN):
Internet: http://www.un.org/Pubs
International Monetary Fund (IMF):
Internet: http://www.imf.org/external/data.htm
International Labor Organization (ILO):
Internet: http://www.ilo.org/global/lang–en/index.htm
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
55 / 446
Datentypen und Datenquellen
Sekundärdatenquellen und Datenbanken:
Datenbanken sind Sammlungen von Daten, unter Umständen auch aus
ganz unterschiedlichen Datenquellen
Datenbanken der amtlichen Statistik:
Genesis Online (Statistisches Bundesamt)
Bundesstatistik: Internet:
https://www-genesis.destatis.de/genesis/online/logon
Regionalstatistik: Internet:
https://www.regionalstatistik.de/genesis/online/logon
Arbeitsgruppe VGR der Länder:
Internet: http://www.vgrdl.de/Arbeitskreis VGR
Sehr umfangreiche Datenbanken:
Penn World Tables (Freier Zugang über University of Pennsylvania):
http://pwt.econ.upenn.edu
Statistik-Netz (Zugang HSU HH über Bibliothek WiSo)
Datastream (Zugang HSU HH)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
56 / 446
Datentypen und Datenquellen
Literaturhinweise
Literaturhinweise zum 3. Kapitel
Mosler, K. und F. Schmid (2006): Beschreibende Statistik und
Wirtschaftsstatistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
1].
Winker, P. (2007): Empirische Wirtschaftsforschung und Ökonometrie, 2.
Auflage, Springer-Verlag, Berlin [insbes. Kapitel 2].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
57 / 446
Datenverarbeitung und Software
4. Datenverarbeitung und Software
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
58 / 446
Datenverarbeitung und Software
Literaturhinweise
Literaturhinweise zum 4. Kapitel
Behr, A. und U. Pötter (2011): Einführung in die Statistik mit R, Verlag
Vahlen, München.
Crawley, M. (2005): Statistics. An Introduction using R, Wiley
Publishers, Hoboken.
Field, A., J. Miles und Z. Field (2012): Discovering Statistics using R,
Sage Publications, London.
Kleiber, C. und A. Zeileis (2008): Applied Econometrics with R, Use R!
Series, Springer-Verlag, Berlin.
Spector, P. (2008): Data Manipulation with R, Use R! Series,
Springer-Verlag, Berlin.
Zuur, A.F., E. N. Ieno und H.W.G. Meesters (2009): A Beginner’s Guide
to R, Use R! Series, Springer-Verlag, Berlin.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
59 / 446
Häufigkeiten und Häufigkeitsverteilungen
5. Häufigkeiten und Häufigkeitsverteilungen
5.1 Absolute und relative Häufigkeiten
5.2 Empirische Verteilungsfunktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
60 / 446
Häufigkeiten und Häufigkeitsverteilungen
5.1 Absolute und relative Häufigkeiten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
61 / 446
Häufigkeiten und Häufigkeitsverteilungen
Seien a1 , a2 , ..., aN die Ausprägungen eines qualitativen Merkmals mit k
qualitativ unterscheidbaren Ausprägungen einer Grundgesamtheit der Größe
N
Definition
Die absoluten Häufigkeiten nj geben an, wie oft jede Merkmalsausprägung
aj mit j = 1, ..., k eines Merkmals in der Grundgesamtheit auftritt
Die Summe der absoluten Häufigkeiten ergibt gerade die Gesamtanzahl der
Beobachtungen:
k
X
nj = N
j=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
62 / 446
Häufigkeiten und Häufigkeitsverteilungen
0
2
4
6
8
10
12
14
Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1)
Arbeitslos
Prof. Dr. Michael Berlemann (HSU)
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges Verkaeufer
Empirische Wirtschaftsforschung
25. Juni 2014
63 / 446
Häufigkeiten und Häufigkeitsverteilungen
Definition
Die relativen Häufigkeiten fj geben an, welchen Anteil jede
Merkmalsausprägung an der Gesamtanzahl der Beobachtungen hat
Die Summe der relativen Häufigkeiten ergibt ergibt 100%:
k
X
j=1
Prof. Dr. Michael Berlemann (HSU)
fj =
k
X
nj
j=1
N
=1
Empirische Wirtschaftsforschung
25. Juni 2014
64 / 446
Häufigkeiten und Häufigkeitsverteilungen
Häufigkeitstabelle Berufe (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
Absolute
Häufigkeit
9
4
7
10
11
15
5
9
Relative
Häufigkeit
0.13
0.06
0.10
0.14
0.16
0.21
0.07
0.13
Empirische Wirtschaftsforschung
Prozentuale
Häufigkeit
12.90
5.70
10.00
14.30
15.70
21.40
7.10
12.90
25. Juni 2014
65 / 446
Häufigkeiten und Häufigkeitsverteilungen
Kuchendiagramm relative Häufigkeit Berufe (Datensatz 1)
Verkaeufer
(12.9%)
Arbeitslos
(12.9%)
Arzt
(5.7%)
Sonstiges
(7.1%)
Ingenieur
(10%)
Schueler
(21.4%)
Lehrer
(14.3%)
Rentner
(15.7%)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
66 / 446
Häufigkeiten und Häufigkeitsverteilungen
15
10
0
5
Absolute Häufigkeit
20
25
Histogramm klassifizierte Jahreseinkommen (Datensatz 1)
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
67 / 446
Häufigkeiten und Häufigkeitsverteilungen
5.2 Empirische Verteilungsfunktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
68 / 446
Häufigkeiten und Häufigkeitsverteilungen
Definition
Die empirische Verteilungsfunktion eines Merkmals ergibt sich aus
den kumulierten relativen Häufigkeiten
Um den Wert der empirischen Verteilungsfunktion zu berechnen, müssen
zunächst die Beobachtungen ihrer Größe nach von klein nach groß
geordnet werden
Der Wert der empirischen Verteilungsfunktion für die
Beobachtung x ergibt sich dann als die Summe der kumulierten
relativen Häufigkeiten aller Merkmalsausprägungen, die kleiner oder
gleich x sind:
X
F (x) =
f (aj )
aj ≤x
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
69 / 446
Häufigkeiten und Häufigkeitsverteilungen
1.0
Empirische Verteilungsfunktion Zahl der Kinder (Datensatz 1)
●
●
0.6
●
0.4
●
0.0
0.2
Kumulierte relative Häufigkeit
0.8
●
0
1
2
3
4
5
Zahl der Kinder
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
70 / 446
Häufigkeiten und Häufigkeitsverteilungen
1.0
Empirische Verteilungsfunktion Alter (Datensatz 1)
●
●
●
●
●
●
●
●
0.6
●
●
●
●
●
●
●
●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.2
Kumulierte relative Häufigkeit
0.8
●
●
●
●
●
●
●
0.0
●
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
71 / 446
Häufigkeiten und Häufigkeitsverteilungen
Literaturhinweise
Literaturhinweise zum 5. Kapitel
Behr, A. und U. Pötter (2011): Einfühung in die Statistik mit R, 2.
Auflage, Verlag Vahlen, München [insbes. Kapitel 5].
Duller, C. (2006): Einführung in die Statistik mit Excel und SPSS,
Physica-Verlag, Heidelberg [insbes. Kapitel 6].
Kazmier, L. J. (1996): Wirtschaftsstatistik, Übersetzung der 3. Auflage,
McGraw-Hill International Ltd., London [insbes. Kapitel 2].
Quatember, A. (2005): Statistik ohne Angst vor Formeln. Ein Lehrbuch
für Wirtschafts- und Sozialwissenschaftler [insbes. Kapitel 1.2].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 2].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
72 / 446
Maßzahlen für einzelne Merkmale
6. Maßzahlen für einzelne Merkmale
6.1
6.2
6.3
6.4
6.5
Lagemaße
Streuungsmaße
Boxplot
Schiefe, Wölbung und Exzess
Konzentrationsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
73 / 446
Maßzahlen für einzelne Merkmale
6.1 Lagemaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
74 / 446
Maßzahlen für einzelne Merkmale
Definition
Als Modus bezeichnet man diejenige Merkmalsausprägung, die am häufigsten
auftritt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
75 / 446
Maßzahlen für einzelne Merkmale
0
2
4
6
8
10
12
14
Balkendiagramm absolute Häufigkeit Berufe (Datensatz 1)
Arbeitslos
Prof. Dr. Michael Berlemann (HSU)
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges Verkaeufer
Empirische Wirtschaftsforschung
25. Juni 2014
76 / 446
Maßzahlen für einzelne Merkmale
15
10
0
5
Absolute Häufigkeit
20
25
Histogramm klassifizierte Jahreseinkommen (Datensatz 1)
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
77 / 446
Maßzahlen für einzelne Merkmale
Definition
Sei α eine Zahl zwischen null und eins. Als α-Quantil wird dann derjenige
Wert x̃α bezeichnet, für den die Verteilungsfunktion F gerade den Wert α
annimmt, d.h. F (x̃α ) = α.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
78 / 446
Maßzahlen für einzelne Merkmale
Ausgewählte Quantile des Jahreseinkommens (Datensatz 1)
α-Quantil
10%
20%
30%
40%
50%
60%
70%
80%
90%
Prof. Dr. Michael Berlemann (HSU)
Wert
350
2500
15000
20000
28000
33000
40000
45000
75000
Empirische Wirtschaftsforschung
25. Juni 2014
79 / 446
Maßzahlen für einzelne Merkmale
Definition
Als Quartile bezeichnet man diejenigen Quantilswerte, die zu einer
Unterteilung der Daten in vier gleich große Gruppen führen:
F (x̃α=0,25 ) = 0, 25
F (x̃α=0,50 ) = 0, 50
F (x̃α=0,75 ) = 0, 75
Dabei bezeichnet man das 0,25-Quartil auch als unteres und das 0,75-Quartil
als oberes Quartil
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
80 / 446
Maßzahlen für einzelne Merkmale
Quartile des Jahreseinkommens (Datensatz 1)
Quartil
25%
50%
75%
Prof. Dr. Michael Berlemann (HSU)
Wert
11000.00
28000.00
42750.00
Empirische Wirtschaftsforschung
25. Juni 2014
81 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Median (auch: Zentralwert) beschreibt das Zentrum einer geordneten
Reihe aller Beobachtungen (aufsteigend, absteigend) und ist ein Spezialfall
eines Quantils. Für den Median gilt, dass höchstens 50 % der Beobachtungen
kleiner oder gleich und höchstens 50% größer oder gleich diesem Wert sein
dürfen (d.h. α = 0.5).
Median-Jahreseinkommen (Datensatz 1)
Der Median des Jahreseinkommens aus Datensatz 1 beträgt 28.000 Euro.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
82 / 446
Maßzahlen für einzelne Merkmale
Definition
Das arithmetische Mittel ist der ungewichtete Durchschnittswert aller
Beobachtungen
N
1 X
X̄ =
xi
N i=1
Durchschnittliches Jahreseinkommen (Datensatz 1)
Das durchschnittliche Jahreseinkommen aus Datensatz 1 beträgt:
X̄ = 34.451, 79
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
83 / 446
Maßzahlen für einzelne Merkmale
6.2 Streuungsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
84 / 446
Maßzahlen für einzelne Merkmale
Definition
Bei einer der Größe nach geordneten Beobachtungsreihe berechnet sich die
Spannweite S als
S = xN − x1
Spannweite Jahreseinkommen (Datensatz 1)
Die Spannweite des Jahreseinkommens aus Datensatz 1 beträgt:
S = 199.950
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
85 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Quartilsabstand misst die Differenz zwischen dem oberen und dem
unteren Quartilswert und somit den zentralen Teil der Verteilung der
Beobachtungen:
dQ = x̃0,75 − x̃0,25
Quartilsabstand Jahreseinkommen (Datensatz 1)
Der Quartilsabstand des Jahreseinkommens aus Datensatz 1 beträgt:
dQ = 31.750
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
86 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Varianz misst die mittlere quadratische Abweichung der beobachteten
Merkmalsausprägungen vom arithmetischen Mittel
V ar[X] = σ 2 =
N
1 X
·
(xi − X̄)2
N i=1
Varianz des Jahreseinkommens (Datensatz 1)
Die Varianz des Jahreseinkommens aus Datensatz 1 beträgt:
σ 2 = 1.320.667.180
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
87 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Standardabweichung ergibt sich als Wurzel aus der Varianz
v
u
N
u1 X
(xi − X̄)2
Stdabw[X] = σ = t ·
N i=1
Standardabweichung des Jahreseinkommens (Datensatz 1)
Die Standardabweichung des Jahreseinkommens aus Datensatz 1 beträgt:
σ == 36.340, 98
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
88 / 446
Maßzahlen für einzelne Merkmale
6.3 Boxplot
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
89 / 446
Maßzahlen für einzelne Merkmale
200000
●
150000
Boxplot Jahreseinkommen (Datensatz 1)
●
0
50000
100000
●
●
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
90 / 446
Maßzahlen für einzelne Merkmale
6.4 Schiefe, Wölbung und Exzess
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
91 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Schiefe einer Verteilung ist definiert als
1
g1 = rN
·
1
N
PN
·
i=1 (xi
− X̄)3
PN
2
i=1 (xi − X̄)
3
Schiefe der Verteilung des Jahreseinkommens (Datensatz 1)
Die Schiefe der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g1 = 2, 14
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
92 / 446
Maßzahlen für einzelne Merkmale
Definition
Die Wölbung (Kurtosis) einer Verteilung ist definiert als
1
N
g2 = r
·
1
N
PN
− X̄)4
PN
− X̄)2
·
i=1 (xi
i=1 (xi
4
Kurtosis der Verteilung des Jahreseinkommens (Datensatz 1)
Die Kurtosis der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g2 = 5, 87
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
93 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Exzess einer Verteilung misst die Abweichung einer empirischen
Verteilung von der Normalverteilung mit gleichem arithmetischen Mittel und
gleicher Varianz:
g3 = g2 − 3
Exzess der Verteilung des Jahreseinkommens (Datensatz 1)
Der Exzess der Verteilung des Jahreseinkommens aus Datensatz 1 beträgt:
g3 = 2, 87
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
94 / 446
Maßzahlen für einzelne Merkmale
6.5 Konzentrationsmaße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
95 / 446
Maßzahlen für einzelne Merkmale
Berechnung der Lorenzkurve
1
Ordnung der Beobachtungen nach ihrer Größe, wobei mit dem kleinsten
Wert begonnen wird
2
Berechnung der Gesamtsumme aller Merkmalswerte:
N
X
xi = n · X̄
i=1
3
Berechnung der kumulierten Summe der Beobachtungen für jede
Merkmalsausprägung, Bildung der Relation zur Gesamtsumme der
Beobachtungen:
Pi
j=1
x(j)
j=1
x(j)
υi = PN
4
mit i = 1, ..., N υ0 := 0
Wiederholung des Vorgehens für den Fall einer Gleichverteilung mit
identischer Gesamtsumme der Beobachtungen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
96 / 446
Maßzahlen für einzelne Merkmale
Beispiel: Berechnung einer Lorenzkurve für kleinen Datensatz
Haushalt
1
2
3
4
5
6
7
8
9
10
Summe
Tatsächliche Verteilung
Eink.
Kumul.
Eink. kumul.
Anteil
0
0
0
150
150
0,03
240
390
0,08
270
660
0,14
300
960
0,21
400
1360
0,29
670
2030
0,43
800
2830
0,6
800
3630
0,78
1050
4680
1
4680
Prof. Dr. Michael Berlemann (HSU)
Gleichverteilung
Eink.
Kumul.
Eink. kumul.
Anteil
468
468
0,1
468
936
0,2
468
1404
0,3
468
1872
0,4
468
2340
0,5
468
2808
0,6
468
3276
0,7
468
3744
0,8
468
4212
0,9
468
4680
1
4680
Empirische Wirtschaftsforschung
25. Juni 2014
97 / 446
Maßzahlen für einzelne Merkmale
Lorenzkurve für kleinen Datensatz
5000
4500
kumuliertes Einkommen
k
4000
3500
3000
2500
2000
1500
1000
500
0
0,00
1
2
3
4
5
6
7
8
9
10
Haushalt
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
98 / 446
Maßzahlen für einzelne Merkmale
Lorenzkurve für Jahreseinkommen (Datensatz 1)
1.0
kumuliertes Einkommen
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Einkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
99 / 446
Maßzahlen für einzelne Merkmale
Definition
Der Gini-Koeffizient lässt sich berechnen als
G=1−
Prof. Dr. Michael Berlemann (HSU)
N
1 X
·
(υi−1 + υi )
N i=1
Empirische Wirtschaftsforschung
25. Juni 2014
100 / 446
Maßzahlen für einzelne Merkmale
Gini-Koeffizient für kleinen Datensatz
Der Gini-Koeffizient für den kleinen Beispieldatensatz beträgt:
G = 0, 387
Gini-Koeffizient für die Verteilung des Jahreseinkommens (Datensatz 1)
Der Gini-Koeffizient der Verteilung des Jahreseinkommens aus Datensatz 1
beträgt:
G = 0, 505
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
101 / 446
Maßzahlen für einzelne Merkmale
Literaturhinweise
Literaturhinweise zum 6. Kapitel
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
102 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7. Maßzahlen für den Zusammenhang zwischen
Merkmalen
7.1
7.2
7.3
7.4
Verteilung zweidimensionaler Merkmale
Zusammenhang nominaler Merkmale
Zusammenhang ordinaler Merkmale
Zusammenhang stetiger Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
103 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.1 Verteilung zweidimensionaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
104 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Randverteilung Zahl der Kinder (Datensatz 1)
Kinder
0
1
2
3
4
Prof. Dr. Michael Berlemann (HSU)
Anzahl
31
11
18
7
3
Empirische Wirtschaftsforschung
25. Juni 2014
105 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Kontingenztabelle mit Randverteilungen, Beruf versus Kinder (Datensatz 1)
Beruf
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Summe
Prof. Dr. Michael Berlemann (HSU)
0
2
2
3
2
2
15
0
5
31
Zahl der Kinder
1
2 3 4 Summe
1
4 0 2
9
1
1 0 0
4
3
1 0 0
7
1
4 3 0
10
3
4 2 0
11
0
0 0 0
15
0
3 1 1
5
2
1 1 0
9
11 18 7 3
70
Empirische Wirtschaftsforschung
25. Juni 2014
106 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
0.0
0
0.2
1
0.4
2
Zahl der Kinder
0.6
3
0.8
4
1.0
Spineplot Verteilung Kinder nach Berufen (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Berufe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
107 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Scatterplot Einkommen versus Alter (Datensatz 1)
●
●
●
80
●
●
●
●
●
●
●
●
●
60
●
●
●
●●
●
●
●
Alter
● ●
●
●
●
●
●
●
●
40
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
0
●
●
●
●
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
108 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.2 Zusammenhang nominaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
109 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Die χ2 -Statistik berechnet sich als

χ2
= N ·
K X
L
X
i=1 j=1
Ni+
=
L
X

2
Ni,j
− 1
Ni+ · N+j
Ni,j
j=1
Nj+
=
K
X
Ni,j
i=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
110 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Entsprechen die beobachteten relativen Häufigkeiten den erwarteten
relativen Häufigkeiten, so nimmt die χ2 -Statistik den Wert null an. Die
beiden Merkmale sind dann unabhängig.
Im Falle eines exakten systematischen Zusammenhangs hingegen nimmt
die χ2 -Statistik ihren Maximalwert an, der sich wie folgt berechnen lässt:
χ2 = N · (min(K, L) − 1)
Pearsons χ2 -Statistik für Berufe und Geschlecht (Datensatz 1)
Die χ2 -Statistik für die beiden nominalen Variablen Berufe und Geschlecht
beträgt χ2 =16.15268.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
111 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Zu erwartende Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
5.01
2.23
3.90
5.57
6.13
8.36
2.79
5.01
w
3.99
1.77
3.10
4.43
4.87
6.64
2.21
3.99
Empirische Wirtschaftsforschung
25. Juni 2014
112 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Tatsächliche Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
4
4
4
10
6
6
1
4
w
5
0
3
0
5
9
4
5
Empirische Wirtschaftsforschung
25. Juni 2014
113 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Pearson-Residuen der Verteilung von Berufen auf Geschlechter (Datensatz 1)
Arbeitslos
Arzt
Ingenieur
Lehrer
Rentner
Schueler
Sonstiges
Verkaeufer
Prof. Dr. Michael Berlemann (HSU)
m
-0.45
1.19
0.05
1.88
-0.05
-0.82
-1.07
-0.45
w
0.51
-1.33
-0.06
-2.10
0.06
0.91
1.20
0.51
Empirische Wirtschaftsforschung
25. Juni 2014
114 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.3 Zusammenhang ordinaler Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
115 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Für den Fall, dass keine Bindungen auftreten, lautet der
Rangkorrelationskoeffizient von Spearman:
rS = 1 −
Prof. Dr. Michael Berlemann (HSU)
6·
PN
i=1 (R(xi ) − R(yi ))
N · (N 2 − 1)
Empirische Wirtschaftsforschung
25. Juni 2014
116 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Rangkorrelation von Jahreseinkommen und Ausbildungsjahren (Datensatz 1)
Die Rangkorrelation nach Spearman zwischen Jahreseinkommen und
Ausbildungjahren beträgt rS = 0.64.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
117 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
7.4 Zusammenhang stetiger Merkmale
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
118 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Das einfachste Maß des Zusammenhangs der Ausprägungen zweier
stetiger Merkmale, die Kovarianz, ist definiert als
Cov[X, Y ] =
Prof. Dr. Michael Berlemann (HSU)
N
1 X
·
(xi − X̄) · (yi − Ȳ )
N i=1
Empirische Wirtschaftsforschung
25. Juni 2014
119 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Positive Kovarianz: Alter versus Berufsjahre (Datensatz 1)
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
Alter
●
●
40
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
10
20
30
40
Berufsjahre
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
120 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
100
Negative Kovarianz: Alter versus Gesundheitszustand (Datensatz 1)
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
80
●
●
●
●●
●
●
●
●●
●
●
●
60
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
Gesundheitszustand
●
●●
●
●
●
●
●
●
●
●
●
●
●
20
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
121 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
100
Keine Kovarianz: Jahreseinkommen versus Gesundheitszustand (Datensatz 1)
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
80
●
●
●
●
●● ●
●
●
●
●
● ●
●
60
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
40
Gesundheitszustand
●
●
●
●
●
●
●
●
20
●
●
●
●
●
●
0
50000
100000
150000
200000
Jahreseinkommen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
122 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Definition
Der Korrelationskoeffizient von Bravais-Pearson ist definiert als
PN
(xi − X̄) · (yi − Ȳ )
BP
Corr[X, Y ] = r
= qP i=1
PN
N
2
2
i=1 (yi − Ȳ )
i=1 (xi − X̄) ·
=
Prof. Dr. Michael Berlemann (HSU)
Cov[X, Y ]
p
V ar[X] · V ar[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
123 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Diverse Korrelationskoeffizienten nach Bravais-Pearson (Datensatz 1)
Alter vs. Gesundheitszustand
Jahreseinkommen vs. Gesundheitszustand
Berufsjahre vs. Alter
Prof. Dr. Michael Berlemann (HSU)
Korrelationskoeffizient
-0.95
-0.31
0.94
Empirische Wirtschaftsforschung
25. Juni 2014
124 / 446
Maßzahlen für den Zusammenhang zwischen Merkmalen
Literaturhinweise
Literaturhinweise zum 7. Kapitel
Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein
anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag,
Heidelberg [insbes. Kapitel 8].
Toutenburg, H. und C. Heumann (2006): Deskriptive Statistik. Eine
Einführung in Methoden und Anwendungen mit SPSS, 5. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
125 / 446
Regressionsansatz als deskriptives Verfahren
8. Regressionsansatz als deskriptives Verfahren
8.1
8.2
8.3
8.4
8.5
Idee des Regressionsansatzes
Lineare Einfachregression
Methode der Kleinsten Quadrate
Beurteilung der Güte einer Regression
Lineare Mehrfachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
126 / 446
Regressionsansatz als deskriptives Verfahren
8.1 Idee des Regressionsansatzes
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
127 / 446
Regressionsansatz als deskriptives Verfahren
Grundlegende Regressionsgleichung
Y = f (X) + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
128 / 446
Regressionsansatz als deskriptives Verfahren
8.2 Lineare Einfachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
129 / 446
Regressionsansatz als deskriptives Verfahren
Punktwolke
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
●
●
40
●
●
●
●
●
● ●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Prof. Dr. Michael Berlemann (HSU)
10
20
30
Empirische Wirtschaftsforschung
40
25. Juni 2014
130 / 446
Regressionsansatz als deskriptives Verfahren
Geradengleichung
Y = β0 + β1 · X
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
131 / 446
Regressionsansatz als deskriptives Verfahren
Schematischer Verlauf einer Regressionsgerade
180,0
160 0
160,0
Y = 10 + 1,5 ⋅ X
zu erklärend
de Variable (Y)
140,0
Steigung = β1 = ΔY/ΔX
120,0
100,0
Achsenabschnitt = β0 = 10
80,0
ΔY
60,0
ΔX
40,0
20,0
00
0,0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
132 / 446
Regressionsansatz als deskriptives Verfahren
Punktwolke mit Regressionsgerade
●
●
●
80
●
●
●
●
●
●●
●
●
60
●
●
●
●
●
●
40
●
●
●
●
●
● ●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
Prof. Dr. Michael Berlemann (HSU)
10
20
30
Empirische Wirtschaftsforschung
40
25. Juni 2014
133 / 446
Regressionsansatz als deskriptives Verfahren
8.3 Methode der kleinsten Quadrate
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
134 / 446
Regressionsansatz als deskriptives Verfahren
Regressionsgleichung
Die Regressionsgleichung einer linearen Einfachregression lautet:
y i = β0 + β1 · x i + i
Dabei ist i ein Beobachtungsindex
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
135 / 446
Regressionsansatz als deskriptives Verfahren
Nicht erklärtes Residuum einer linearen Einfachregression
180,0
160 0
160,0
zu erklärend
de Variable (Y)
140,0
120,0
100,0
80,0
60,0
ε1
40,0
ε2
20,0
0,0
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
136 / 446
Regressionsansatz als deskriptives Verfahren
Die Geradengleichung ist durch die zwei Parameter β0 , β1 eindeutig
bestimmt
Wählen wir die Werte β̂0 , β̂1 für die beiden Parameter, so können wir für
jedes Beobachtungspaar xi , yi die sich bei dieser Geradengleichung
ergebenden Störterme berechnen:
i = yi − β̂0 − β̂1 · xi
Kleinste-Quadrate-Schätzung
Die Kleinste-Quadrate-Methode wählt nun die beiden Parameter gerade so,
dass die Summe der quadrierten Störterme (d.h. die Prognosefehler bzw. die
vertikalen Abweichungen der einzelnen Beobachtungspunkte im Scatterplot
von der Regressionsgerade) minimiert wird
!
N
N
X
X
min
i =
(yi − ŷi )
β0 ,β1
i=1
i=1
wobei N die Anzahl der Beobachtungen darstellt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
137 / 446
Regressionsansatz als deskriptives Verfahren
Berechnung der KQ-Schätzer für β̂0 und β̂1
Diejenigen Parameter, die zu einer Minimierung der quadrierten Störterme
führen, lassen sich berechnen als
β̂1 =
Cov[X, Y ]
=
V ar[X]
PN
i=1 (xi − X̄) · (yi −
PN
2
i=1 (xi − X̄)
Ȳ )
β̂0 = Ȳ − β̂1 · X̄
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
138 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + i
β0 = 104, 3685
β1 = −0, 9872
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
139 / 446
Regressionsansatz als deskriptives Verfahren
8.4 Beurteilung der Güte einer Regression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
140 / 446
Regressionsansatz als deskriptives Verfahren
Maß für die beobachtete Variation der zu erklärenden Variable:
Summe der quadratischen Abweichungen der tatsächlichen Ausprägungen von
Y vom Mittelwert (Total sum of squares, TSS):
PN
T SS = i=1 (yi − Ȳ )2
Maß für die erklärte Abweichung der zu erklärenden Variable:
Summe der quadratischen Abweichungen der für Y prognostizierten
Abweichungen vom Mittelwert (Explained Sum of Squares, ESS):
PN
ESS = i=1 (ŷi − Ȳ )2
Maß für die nicht erklärte Abweichung der zu erklärenden Variable:
Summe der quadratischen Abweichungen der für Y prognostizierten
Abweichungen von den tatsächlichen Ausprägungen (Residual Sum of
Squares, RSS):
PN
PN
RSS = i=1 (ŷi − yi )2 = i=1 2i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
141 / 446
Regressionsansatz als deskriptives Verfahren
Die Abweichung eines jeden Wertes von seinem Mittelwert lässt sich
darstellen als die Summe der Abweichung der tatsächlichen Werte von
den geschätzten Werten und der Abweichung der geschätzten Werte vom
Mittelwert.
Dies gilt auch für die summierten Werte:
T SS
N
X
⇔
(yi − Ȳ )2
i=1
i=1
N
X
⇔
(yi − Ȳ )2
i=1
Prof. Dr. Michael Berlemann (HSU)
= RSS + ESS
N
N
X
X
=
(ŷi − yi )2 +
(ŷi − Ȳ )2
i=1
N
N
X
X
2
=
(ŷi − yi ) +
2i
i=1
Empirische Wirtschaftsforschung
i=1
25. Juni 2014
142 / 446
Regressionsansatz als deskriptives Verfahren
Varianzzerlegung
180,0
160 0
160,0
zu erklärend
de Variable (Y)
140,0
Tatsächliche Beobachtung
Y = βˆ0 + βˆ1 ⋅ X
120,0
100,0 Prognostizierter Wert
Unerklärte Abweichung
Mittelwert
Mittelwertabweichung
80,0
Erklärte Abweichung
60,0
Y
40,0
X
20,0
0,0
00
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
erklärende Variable (X)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
143 / 446
Regressionsansatz als deskriptives Verfahren
Definition
Das Bestimmtheitsmaß (R2 ) einer linearen Regression ist definiert als
R2 =
PN 2
ESS
RSS
=1−
= 1 − PN i=1 i
2
T SS
T SS
i=1 (yi − Ȳ )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
144 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für hohes Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + i
β0 = 104, 3685
β1 = −0, 9872
R2 = 0, 907
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
145 / 446
Regressionsansatz als deskriptives Verfahren
100
Beispiel: Regression mit hohem Bestimmtheitsmaß
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
80
●
●
●
●●
●
●
●
●●
●
●
●
60
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
Gesundheitszustand
●
●●
●
●
●
●
●
●
●
●
●
●
●
20
●
●
●
●
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
146 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für niedriges Bestimmtheitsmaß einer Regressionsgerade (Datensatz 1)
Jahreseinkommeni = β0 + β1 · Alteri + i
β0 = 14926, 0
β1 = 498, 7
R2 = 0, 102
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
147 / 446
Regressionsansatz als deskriptives Verfahren
200000
Beispiel: Regression mit niedrigem Bestimmtheitsmaß
●
●
●
100000
Jahreseinkommen
150000
●
●
●
●
●
●
50000
●
●
●
●
●
0
●
0
●
●
●
●
● ●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●● ●●●●● ●
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
148 / 446
Regressionsansatz als deskriptives Verfahren
8.5 Lineare Mehrachregression
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
149 / 446
Regressionsansatz als deskriptives Verfahren
Regressionsgleichung einer linearen Mehrfachregression
Die Regressionsgleichung einer linearen Mehrfachregression mit k erklärenden
Variablen lautet:
Y = β0 + β1 · X1,i + β2,i · X2 + · · · + βk · Xk,i + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
150 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung einer Regressionsgerade (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i
β0 = 102, 61
β1 = −1, 01254
β2 = 0.27168
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
151 / 446
Regressionsansatz als deskriptives Verfahren
Standardisierter Regressionskoeffizient
Wird ein Regressionskoeffizient mit der Standardabweichung der zugehörigen
erklärenden Variablen multipliziert und durch die Standardabweichung der zu
erklärenden Variable geteilt, so erhält man den standardisierten
Regressionskoeffizienten
βks = βk ·
Prof. Dr. Michael Berlemann (HSU)
Stdabw[Xk ]
Stdabw[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
152 / 446
Regressionsansatz als deskriptives Verfahren
Bestimmtheitsmaß
R2 =
PN 2
ESS
RSS
=1−
= 1 − PN i=1 i
T SS
T SS
(y
−
Ȳ )2
i=1 i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
153 / 446
Regressionsansatz als deskriptives Verfahren
Definition
Das adjustierte Bestimmtheitsmaß (adj.R2 ) ist definiert als:
2
adj.R = 1 −
RSS
N −(K+1)
T SS
N −1
=1−
PN
2
i=1 i
N −(K+1)
PN
2
i=1 (yi −Ȳ )
N −1
mit N als Anzahl der Beobachtungen und K + 1 als Anzahl der geschätzten
Koeffizienten (inkl. Konstante).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
154 / 446
Regressionsansatz als deskriptives Verfahren
Beispiel für Berechnung des adjustierten Bestimmtheitsmaßes (Datensatz 1)
Gesundheitszustandi = β0 + β1 · Alteri + β2 · Jahreseinkommeni + i
β0 = 102, 61
β1 = −1, 01254
β2 = 0.27168
Adj.R2 = 0.9074
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
155 / 446
Regressionsansatz als deskriptives Verfahren
Literaturhinweise
Literaturhinweise zum 8. Kapitel
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4].
Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 2 und 3].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
156 / 446
Stichproben und Zufallszahlen
9. Stichproben und Zufallszahlen
9.1 Grundgesamtheit und Stichprobe
9.2 Zufallszahlen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
157 / 446
Stichproben und Zufallszahlen
9.1 Grundgesamtheit und Stichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
158 / 446
Stichproben und Zufallszahlen
Reine (uneingeschränkte) Zufallsauswahl
Von einer reinen Zufallsauswahl spricht man, wenn jedes Objekt aus der
Grundgesamtheit die gleiche Chance hat, in die Stichprobe zu gelangen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
159 / 446
Stichproben und Zufallszahlen
Echte Zufallsstichproben:
1
Lotterieverfahren
Alle Elemente der Grundgesamtheit kommen in die Lostrommel und
daraus wird gezogen (mit oder ohne Zurücklegen).
2
Zufallszahlenverfahren
Generierung von Zufallszahlen (mit Hilfe von Computern erzeugt).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
160 / 446
Stichproben und Zufallszahlen
Unechte Zufallsstichproben:
Schichtenauswahl
Klumpenauswahl
Quotenstichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
161 / 446
Stichproben und Zufallszahlen
Stichprobenfunktion
Eine Stichprobenfunktion (auch: Statistik) ist eine Zufallsvariable, die
als Funktion der Stichprobenvariablen definiert ist.
Stichprobenfunktionen dienen dazu, eine oder mehrere Stichproben zu
verdichten.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
162 / 446
Stichproben und Zufallszahlen
Wichtige Stichprobenfunktionen und ihre Momente
Stichprobenfunktion
PN
i=1 xi
P
1
X̄s = N · N
x
√i=1 i
X̄s −µ
·
N
Pσ
1
· N (xi − µ)2
N P i=1
1
(xi − X̄s )2
· N
i=1P
N
1
V ars = n−1 · N
(x − X̄s )2
i=1
√ i
stdabws = V ars
Bezeichnung
Erwartungswert
Varianz
Merkmalssumme
Stichprobenmittel
Gauß-Statistik
MQA bezüglich µ
MQA
Varianz
Stdabw.
N ·µ
µ
0
σ2
N −1
· σ2
N
2
σ
σ
N · σ2
σ2
N
1
MQA: mittlere quadratische Abweichung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
163 / 446
Stichproben und Zufallszahlen
9.2 Zufallszahlen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
164 / 446
Stichproben und Zufallszahlen
Definition
Für eine diskrete Zufallsvariable X ist der Wert der
Wahrscheinlichkeitsfunktion f (x) die Wahrscheinlichkeit, dass die
Zufallsvariable X gerade die Ausprägung x annimmt:
f (x) = P (X = x) mit 0 ≤ f (x) ≤ 1
Für die Summe der Eintrittswahrscheinlichkeiten der einzelnen Zustände
j (Anzahl der Ausprägungen: J) muss gelten:
J
X
f (xj ) = 1 ⇔ f (x1 ) + f (x2 ) + ... + f (xJ ) = 1
j=1
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
165 / 446
Stichproben und Zufallszahlen
Definition
Die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen Wert
zwischen x0 und x1 annimmt, lässt sich über die Dichtefunktion berechnen
als:
Z x
1
P (x0 ≤ X ≤ x1 ) =
f (x) · dx ≥ 0.
x0
Die Dichtefunktion ist an jeder Stelle positiv:
f (x) ≥ 0.
Zudem muss das Integral über die Dichtefunktion stets eins betragen:
Z ∞
f (x) · dx = 1.
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
166 / 446
Stichproben und Zufallszahlen
Definition
Die kumulierte Dichtefunktion an der Stelle x1 ist definiert als
Z x1
F (x1 ) = P (X ≤ x1 ) =
f (x) · dx
−∞
Die Ableitung der kumulierten Dichtefunktion an der Stelle x1 ist
gerade der Wert der Dichtefunktion an der Stelle x1 :
f (x1 ) =
Prof. Dr. Michael Berlemann (HSU)
dF (x1 )
dx
Empirische Wirtschaftsforschung
25. Juni 2014
167 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer hypothetischen, stetigen Zufallsvariable
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
168 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer hypothetischen, stetigen Zufallsvariable
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
169 / 446
Stichproben und Zufallszahlen
Der Erwartungswert einer Zufallsvariablen lässt sich immer numerisch
berechnen, wenn die Wahrscheinlichkeits- (bei diskreten Variablen) bzw.
die Dichtefunktion (bei stetigen Variablen) bekannt ist
Definition
Bei diskreten Zufallsvariablen kann der Erwartungswert als Summe der
mit den Eintrittswahrscheinlichkeiten gewichteten Zustände berechnet werden:
E[X] =
J
X
xj · P (X = xj ) =
j=1
J
X
xj · f (xj )
j=1
Definition
Bei stetigen Zufallsvariablen errechnet sich der Erwartungswert als
Integral über die mit den Zuständen multiplizierte Dichtefunktion
Z ∞
E[X] =
x · f (x) · dx
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
170 / 446
Stichproben und Zufallszahlen
Definition
Die Varianz einer diskreten Zufallsvariable berechnet sich als
2
V ar[X] = σX
=
J
X
P (X = xj ) · (xj − E[X])2 =
j=1
J
X
f (xj ) · (xj − E[X])2
j=1
Definition
Die Varianz einer stetigen Zufallsvariable ergibt sich als
Z ∞
2
V ar[X] = σX
=
(xj − E[x])2 · f (x) · dx
−∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
171 / 446
Stichproben und Zufallszahlen
Definition
Die Standardabweichung von diskreten und stetigen Zufallsvariablen
ergibt sich als Quadratwurzel aus der Varianz
q
p
2
Stdabw[X] = σX = V ar[X] = σX
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
172 / 446
Stichproben und Zufallszahlen
Definition
Für diskrete Zufallsvariablen X und Y mit der gemeinsamen
Wahrscheinlichkeitsfunktion f (x, y) ist die Kovarianz definiert als
Cov(X, Y ) =
J X
K
X
(xj − E[X]) · (yk − E[Y ]) · f (X = xj , Y = yk )
j=1 k=1
Definition
Für stetige Zufallsvariablen X und Y mit der gemeinsamen Dichtefunktion
f (x, y) ist die Kovarianz definiert als
Z ∞Z ∞
(x − E[X]) · (y − E[Y ]) · f (x, y) · dx · dy
Cov(X, Y ) =
−∞
Prof. Dr. Michael Berlemann (HSU)
−∞
Empirische Wirtschaftsforschung
25. Juni 2014
173 / 446
Stichproben und Zufallszahlen
Definition
Der Korrelationskoeffizient (nach Bravais-Pearson) zweier Zufallsvariablen
X und Y ist definiert als
Corr(X, Y ) = p
Prof. Dr. Michael Berlemann (HSU)
Cov(X, Y )
V ar[X] · V ar[Y ]
Empirische Wirtschaftsforschung
25. Juni 2014
174 / 446
Stichproben und Zufallszahlen
0.35
0.30
0.20
0.25
Wert der Dichtefunktion
0.40
0.45
Dichtefunktion einer stetigen Gleichverteilung über dem Intervall [1:4]
0
1
2
3
4
5
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
175 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer stetigen Gleichverteilung über dem Intervall
[1:4]
0
1
2
3
4
5
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
176 / 446
Stichproben und Zufallszahlen
Definition
Eine normalverteilte Zufallsvariable mit dem Erwartungswert µX
2
und der Varianz σX
2
X ∼ N (µX , σX
)
hat die über den gesamten reellen Wertebereich definierte
Dichtefunktion:
f (x) =
Prof. Dr. Michael Berlemann (HSU)
σX ·
1
√
x−µX 2
−0.5·
σ
2·π
·e
Empirische Wirtschaftsforschung
X
25. Juni 2014
177 / 446
Stichproben und Zufallszahlen
0.15
0.10
0.00
0.05
Wert der Dichtefunktion
0.20
0.25
Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
178 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Normalverteilung [µ = 5, σ = 1.5]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
179 / 446
Stichproben und Zufallszahlen
Definition
Die Verteilung
2
X ∼ N (µX = 0, σX
= 1)
bezeichnet man auch als Standardnormalverteilung.
Die Standardnormalverteilung hat die Dichtefunktion:
f (x) = √
2
1
· e−0.5·x
2·π
Transformationsregel
Jede normalverteilte Zufallsvariable X lässt sich in eine
standardnormalverteilte Zufallsvariable Z transformieren:
Z=
Prof. Dr. Michael Berlemann (HSU)
X − µX
σX
Empirische Wirtschaftsforschung
25. Juni 2014
180 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
181 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Standardnormalverteilung [µ = 0, σ = 1]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
182 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der Exponentialverteilung ist nur über den positiven
Wertebereich definiert und lautet:
f (x) = λ · e−λ·x für x ≥ 0
Definition
Die kumulierte Dichtefunktion der Exponentialverteilung ist gegeben durch:
Z x
Z x
f (t) · dt =
λ · e−λ·t · dt = −e−λ·x
F (x) =
0
Prof. Dr. Michael Berlemann (HSU)
0
Empirische Wirtschaftsforschung
25. Juni 2014
183 / 446
Stichproben und Zufallszahlen
0.4
0.0
0.2
Wert der Dichtefunktion
0.6
Dichtefunktion einer Exponentialverteilung [λ = 0, 75]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
184 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Exponentialverteilung [λ = 0, 75]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
185 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der t-Verteilung lautet:
f (x) =
Γ
Γ
v
2
v+1
2
x2
· 1−
√
v
· π·v
− v+1
2
wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen.
Für viele Beobachtungen, d.h. eine große Zahl von Freiheitsgraden,
konvergiert die t-Verteilung gegen die Standardnormalverteilung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
186 / 446
Stichproben und Zufallszahlen
0.2
0.0
0.1
Wert der Dichtefunktion
0.3
0.4
Dichtefunktion einer t-Verteilung [20 Freiheitsgrade]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
187 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer t-Verteilung [20 Freiheitsgrade]
−4
−2
0
2
4
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
188 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der F-Verteilung lautet:
f (x) =
Γ
Γ
v1
2
v1 +v2
2
·Γ
v2 ·
2
v1
v2
v21
·
1+
x
v1
2
v1
v2
−1
·x
2
v1 +v
2
wobei Γ die Gammafunktion und v1 sowie v2 die Zahl der Freiheitsgrade
bezeichnen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
189 / 446
Stichproben und Zufallszahlen
0.6
0.4
0.0
0.2
Wert der Dichtefunktion
0.8
1.0
Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
190 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer F-Verteilung [20 und 20 Freiheitsgrade]
0
2
4
6
8
10
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
191 / 446
Stichproben und Zufallszahlen
Definition
Die Dichtefunktion der Chi-Quadrat-Verteilung lautet:
f (x) =
1
2 ·Γ
v
2
v
v
2
x
· x 2 −1 · e− 2
wobei Γ die Gammafunktion und v die Zahl der Freiheitsgrade bezeichnen.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
192 / 446
Stichproben und Zufallszahlen
0.06
0.04
0.00
0.02
Wert der Dichtefunktion
0.08
0.10
Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade]
0
5
10
15
20
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
193 / 446
Stichproben und Zufallszahlen
0.8
0.6
0.4
0.2
0.0
Wert der kumulierten Dichtefunktion (Verteilungsfunktion)
1.0
Kumulierte Dichtefunktion einer Chi-Quadrat-Verteilung [10 Freiheitsgrade]
0
5
10
15
20
Ausprägung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
194 / 446
Stichproben und Zufallszahlen
Literaturhinweise
Literaturhinweise zum 9. Kapitel
Bamberg, G. und F. Baur (2006): Statistik, 12. Auflage, Oldenbourg
Verlag, München [insbes. Kapitel 8,9].
Bauer, T., M. Fertig und C. Schmidt (2009): Empirische
Wirtschaftsforschung. Eine Einführung, Springer-Verlag, Berlin u.a.
[insbes. Kapitel 1].
Duller, C. (2006): Einführung in die Statistik mit EXCEL und SPSS. Ein
anwendungsorientiertes Lehr- und Arbeitsbuch, Physica-Verlag,
Heidelberg [insbes. Kapitel 11,12].
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
1,2 und 4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
195 / 446
Schätzen von Parametern der Grundgesamtheit
10. Schätzen von Parametern der
Grundgesamtheit
10.1 Typen von Schätzern
10.2 Wünschenswerte Eigenschaften von Schätzern
10.3 Momentenmethode
10.4 Maximum Likelihood Methode
10.5 Konfidenzintervalle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
196 / 446
Schätzen von Parametern der Grundgesamtheit
10.1 Typen von Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
197 / 446
Schätzen von Parametern der Grundgesamtheit
Typen von Schätzern:
Punktschätzer
Intervallschätzer (Konfindenzintervalle)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
198 / 446
Schätzen von Parametern der Grundgesamtheit
10.2 Wünschenswerte Eigenschaften von Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
199 / 446
Schätzen von Parametern der Grundgesamtheit
Wünschenswerte Eigenschaften von Schätzern:
1
Erwartungstreue (auch: Unverzerrtheit)
2
Konsistenz
3
Effizienz
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
200 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion ΘˆN eines Parameters Θ heißt erwartungstreu
(unverzerrt), wenn ihr Erwartungswert gerade dem zu schätzenden
Parameter entspricht:
E[Θ̂N ] = Θ.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
201 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion Θ̂ eines Parameters Θ heißt konsistent, wenn sie
stochastisch gegen den zu schätzenden Parameter konvergiert:
lim Θ̂ = Θ.
N →∞
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
202 / 446
Schätzen von Parametern der Grundgesamtheit
Definition
Eine Schätzfunktion Θ̂ eines Parameters Θ heißt effizient, wenn es keine
andere Schätzfunktion für den Parameter gibt, die eine geringere Varianz hat.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
203 / 446
Schätzen von Parametern der Grundgesamtheit
Zur Schätzung der Parameter der Grundgesamtheit gibt es verschiedene
Verfahren:
1
Momentenmethode
2
Maximum-Likelihood-Methode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
204 / 446
Schätzen von Parametern der Grundgesamtheit
10.3 Momentenmethode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
205 / 446
Schätzen von Parametern der Grundgesamtheit
Mittelwert
Um den Mittelwert einer Grundgesamtheit zu schätzen, verwendet die
Momentenmethode das Stichprobenmittel:
X̄N =
N
1 X
·
xi
N i=1
Diese Schätzfunktion ist erwartungstreu, konsistent und effizient.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
206 / 446
Schätzen von Parametern der Grundgesamtheit
60
Moment-Schätzer für den Mittelwert des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
●
50
●
●
●●
●
●
40
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●●●●●
●
● ●
●
●
●
30
Stichprobenmittel
●
●
●
20
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
207 / 446
Schätzen von Parametern der Grundgesamtheit
Varianz
Um die Varianz einer Grundgesamtheit zu schätzen, wird die
Stichprobenvarianz verwendet:
V arN =
N
X
1
·
(xi − X̄N )2
N − 1 i=1
Auch diese Schätzfunktion ist erwartungstreu, konsistent und effizient.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
208 / 446
Schätzen von Parametern der Grundgesamtheit
Moment-Schätzer für die Varianz des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
1000
●
●
●
●
●
●
●
●
●● ●
●
●
500
Stichprobenvarianz
1500
●
●
●
●
● ●
● ●
●
●
●●●
●
●
●●
● ●
●●
●●
●●
● ●● ●●
●●● ●● ●●●●●
●●● ●
●
●
● ● ●
●
●
●
●
●
0
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
209 / 446
Schätzen von Parametern der Grundgesamtheit
10.4 Maximum Likelihood Methode
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
210 / 446
Schätzen von Parametern der Grundgesamtheit
8
6
0
2
4
Absolute Häufigkeit
10
12
Histogramm Alter (Datensatz 1)
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
211 / 446
Schätzen von Parametern der Grundgesamtheit
60
Maximum-Likelihood-Schätzer für den Mittelwert des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
●
50
●
●
● ● ●
●
●
●
●●
●
● ●
●
●
●
●
●
● ●
●
●
40
Stichprobenmittel
●
●
●
● ●
●
●
● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●
●
● ● ●
●
●
● ●
●
●
●
●
●●
30
●
20
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
212 / 446
Schätzen von Parametern der Grundgesamtheit
Maximum-Likelihood-Schätzer für die Varianz des Alters bei zunehmender
Stichprobengröße (Datensatz 1)
800
●
●
●
600
●
●
●
●
●
●
●
●●
●
●
400
Stichprobenvarianz
1000
1200
●
●
●
●
● ●
● ●
● ●●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●● ●● ●●●●
● ●
● ●● ●
●●
●
●
●
●
●
●
●
●
200
●
●
●
●
0
10
20
30
40
50
60
70
Stichprobengröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
213 / 446
Schätzen von Parametern der Grundgesamtheit
10.5 Konfidenzintervalle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
214 / 446
Schätzen von Parametern der Grundgesamtheit
Konfidenzintervall
Bei einer Intervallschätzung wird für einen unbekannten Parameter Θ
zunächst aus einer Stichprobe eine Punktschätzung Θ̂N berechnet, um die
dann ein (zumeist symmetrisches) (1 − α)-Konfidenzintervall konstruiert
wird:
h
i
K1−α (Θ) = Θ̂N − δK ; Θ̂N + δK .
Dabei wird der Stichprobenfehler δK so bestimmt, dass das
Konfidenzintervall den unbekannten Parameter Θ mit einer vorgegebenen
(i.d.R. hohen) Wahrscheinlichkeit (1 − α) überdeckt:
P (Θ ∈ K1−α (Θ)) = 1 − α.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
215 / 446
Schätzen von Parametern der Grundgesamtheit
Nehmen wir an, wir wollen das 95%-Konfidenzintervall des Mittelwerts
des Alters aus Datensatz 1 berechnen
Dabei gehen wir von einer Größe der Stichprobe von N = 35 aus, wir
ziehen also gerade die Hälfte aller Beobachtungen aus der
Grundgesamtheit
Hierzu schätzen wir aus einer Stichprobe zunächst den Mittelwert Ā und
die Varianz σA des Alters
Die Intervallgrenzen lassen sich dann berechnen nach
α σA
Āu = Ā − t N − 1, 1 −
· √ = 31, 16
2
N
und
α σA
Āo = Ā + t N − 1, 1 −
· √ = 47, 15
2
N
Werden also 100 Stichproben der Größe 30 aus der Grundgesamtheit
gezogen und hieraus der Mittelwert geschätzt, so werden 95 dieser
Mittelwertschätzungen zwischen 31,16 und 47,15 Jahren liegen
Falsche Interpretation: Die Wahrscheinlichkeit, dass der Mittelwert
der Grundgesamtheit zwischen 31,16 und 47,15 Jahren liegt, ist 95%
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
216 / 446
Schätzen von Parametern der Grundgesamtheit
Literaturhinweise
Literaturhinweise zum 10. Kapitel
Kennedy, P. (2008): A Guide to Econometrics, 6. Auflage,
Wiley-Blackwell, Malden [insbes. Kapitel 2].
Sachs, L. und J. Hedderich (2009): Angewandte Statistik.
Methodensammlung mit R, 13. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 6].
Wewel, M. C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson-Studium, München [insbes. Kapitel 9].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
217 / 446
Grundlagen des Testens von Hypothesen
11. Grundlagen des Testens von Hypothesen
11.1 Hypothesen und Hypothesenformulierung
11.2 Systematik eines Hypothesentests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
218 / 446
Grundlagen des Testens von Hypothesen
11.1 Hypothesen und Hypothesenformulierung
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
219 / 446
Grundlagen des Testens von Hypothesen
Stichprobe von Schafen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
220 / 446
Grundlagen des Testens von Hypothesen
Blick in die Grundgesamtheit der Schafe...
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
221 / 446
Grundlagen des Testens von Hypothesen
Definition
Als Arbeitshypothese bezeichnet man diejenige Hypothese, die man ex
ante, also vor Durchführung eines Hypothesentests, für korrekt hält.
Definition
Als Nullhypothese (H0 ) formuliert man die Gegenhypothese der
Arbeitshypothese, also gerade das Gegenteil dessen, was man ex ante für
korrekt hält. Mit Hilfe des Hypothesentests versucht man, die Nullhypothese
zu verwerfen.
Definition
Die Alternativhypothese (HA ) ist die Gegenhypothese der Nullhypothese.
Wird die Nullhypothese verworfen, so erlangt die Alternativhypothese
Gültigkeit. Die Alternativhypothese ist identisch mit der Arbeitshypothese.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
222 / 446
Grundlagen des Testens von Hypothesen
11.2 Systematik eines Hypothesentests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
223 / 446
Grundlagen des Testens von Hypothesen
Definition
Wird die Nullhypothese fälschlicherweise abgelehnt, so handelt es sich um
einen sog. Fehler 1. Art (α-Fehler).
Definition
Wird hingegen eine Nullhypothese fälschlicherweise angenommen, so handelt
es sich um einen Fehler 2. Art (β-Fehler).
Fehler 1. und 2. Art
H0 angenommen
H0 abgelehnt
H0 korrekt
kein Fehler
1−α
Fehler 1. Art (α-Fehler)
α
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
H0 falsch
Fehler 2. Art (β-Fehler)
β
kein Fehler
1−β
25. Juni 2014
224 / 446
Grundlagen des Testens von Hypothesen
Definition
Die Wahrscheinlichkeit eines statistischen Tests, eine korrekte
Arbeitshypothese (=Alternativhypothese) auch als korrekt zu erkennen,
bezeichnet man auch als Power (Teststärke) eines Tests. Diese
Wahrscheinlichkeit entspricht derjenigen, keinen Fehler 2. Art zu begehen:
G=1−β
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
225 / 446
Grundlagen des Testens von Hypothesen
Literaturhinweise
Literaturhinweise zum 11. Kapitel
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
6].
Sachs, L. und J. Hedderich (2006): Angewandte Statistik, 12. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 7].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 5].
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson-Studium, München [insbes. Kapitel 10].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
226 / 446
Verteilungstests
12. Verteilungstests
12.1 Grundlagen
12.2 Grafische Analyse
12.3 Chi-Quadrat-Anpassungstest
12.4 Kolmogorov-Smirnov-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
227 / 446
Verteilungstests
12.1 Grundlagen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
228 / 446
Verteilungstests
12.2 Grafische Analyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
229 / 446
Verteilungstests
0.010
0.000
0.005
Dichte
0.015
Grafische Analyse für Normalverteilungshypothese Alter
(Stichprobe aus Datensatz 1, N=35)
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
230 / 446
Verteilungstests
Quantil-Quantil-Plot (QQ-Plot) zur Normalverteilungshypothese Alter
(Stichprobe aus Datensatz 1, N=35)
●
●
80
●
●
●
60
●●●
●
●
●
●
40
Stichprobenquantile
●
●● ●
●
●
●
●
●
●
●
20
●
●
●●
●
●
●
●
●
●
0
●
●
−2
−1
0
1
2
Theoretische Quantile
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
231 / 446
Verteilungstests
12.3 Chi-Quadrat-Anpassungstest
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
232 / 446
Verteilungstests
Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
Ausbildungsjahre
0
1
2
4
5
6
7
8
9
10
11
13
14
15
16
17
18
20
22
Prof. Dr. Michael Berlemann (HSU)
Anzahl
3
2
1
2
1
4
4
7
2
4
3
2
2
2
6
1
1
2
1
Empirische Wirtschaftsforschung
25. Juni 2014
233 / 446
Verteilungstests
Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
Klasse
Anzahl
Prof. Dr. Michael Berlemann (HSU)
1
0-4
8
2
5-8
16
3
9-12
9
4
13-16
12
Empirische Wirtschaftsforschung
5
17-22
5
25. Juni 2014
234 / 446
Verteilungstests
Gruppierte Stichprobe Ausbildungsjahre (Datensatz 1, N=50)
versus gruppierte Normalverteilung
Klasse
Stichprobe
Normalverteilung
Prof. Dr. Michael Berlemann (HSU)
1
0-4
8
7
2
5-8
16
11
3
9-12
9
14
Empirische Wirtschaftsforschung
4
13-16
12
11
5
17-22
5
7
25. Juni 2014
235 / 446
Verteilungstests
R-Output Chi-Quadrat-Test auf Normalverteilung Ausbildungsjahre
(Stichprobe aus Datensatz 1, N=50)
Pearson’s Chi-squared test
data: Stichprobe and Normalverteilung
X-squared = 10, df = 8, p-value = 0.265
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
236 / 446
Verteilungstests
12.4 Kolmogorov-Smirnov-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
237 / 446
Verteilungstests
1.0
Illustration des Kolmogorov-Smirnov-Tests auf Normalverteilung Alter
(Stichprobe aus Datensatz 1, N=35)
●
●
●
●
●
●
0.8
●
●
0.6
●
●
●
●
●
●
●
●
0.4
kumulierte Dichte
●
●
●
●
0.2
●
●
●
Kolmogorov−Smirnov−Differenz
●
●
●
●
●
0.0
●
0
20
40
60
80
100
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
238 / 446
Verteilungstests
R-Output Kolmogorov-Smirnov-Test auf Normalverteilung Alter
(Stichprobe aus Datensatz 1, N=35)
One-sample Kolmogorov-Smirnov test
data: Stichprobe
D = 0.1277, p-value = 0.6178
alternative hypothesis: two-sided
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
239 / 446
Verteilungstests
Literaturhinweise
Literaturhinweise zum 12. Kapitel
Bleymüller, J., G. Gehlert und H. Gülicher (2002): Statistik für
Wirtschaftswissenschaftler, 13. Auflage, Vahlen, München [insbes.
Abschnitte 19.1 und 19.4].
Hatzinger, R., K. Hornik und H. Nagel (2011): R. Einführung in die
angewandte Statistik, Pearson Studium, München [insbes. Abschnitt 8.4].
Sachs, L. und J. Hedderich (2006): Angewandte Statistik.
Methodensammlung mit R, 12. Auflage, Springer Verlag, Berlin u.a.
[insbes. Kapitel 7.2].
Wewel, M.C. (2006): Statistik im Bachelor-Studium der BWL und VWL,
Pearson Studium, München [insbes. Kapitel 10.3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
240 / 446
Parametrische Mittelwerttests
13. Parametrische Mittelwerttests
13.1 Grundlagen
13.2 Systematik von Mittelwerttests auf der Basis einer Stichprobe
13.3 Einstichproben-t-Test
13.4 Systematik von Mittelwerttests auf der Basis zweier Stichproben
13.5 Zweistichproben-t-Test bei unabhängigen Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
241 / 446
Parametrische Mittelwerttests
13.1 Grundlagen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
242 / 446
Parametrische Mittelwerttests
Zentraler Grenzwertsatz
Der Zentrale Grenzwertsatz besagt, dass sich die Verteilung des
Mittelwerts von n unabhängigen Zufallszahlen aus einer beliebigen Verteilung
mit endlichem Mittelwert µ und endlicher Standardabweichung σ mit
zunehmender Beobachtungsanzahl N einer Normalverteilung mit Mittelwert µ
und Standardabweichung √σN annähert.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
243 / 446
Parametrische Mittelwerttests
13.2 Systematik von Mittelwerttests auf der Basis einer
Stichprobe
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
244 / 446
Parametrische Mittelwerttests
Dichtefunktion der Prüfgröße
Dichte und Erwartungswert der Prüfgröße
Erwartungswert
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
245 / 446
Parametrische Mittelwerttests
Kritische Werte für die Prüfgröße eines zweiseitigen Hypothesentests
oberer kritischer Wert
Dichtefunktion der Prüfgröße
unterer kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
246 / 446
Parametrische Mittelwerttests
Annahme- und Ablehnungsbereich bei zweiseitigem Hypothesentest
Ablehnungsbereich
Ablehnungsbereich
Annahmebereich
oberer kritischer Wert
Dichtefunktion der Prüfgröße
unterer kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
247 / 446
Parametrische Mittelwerttests
Dichtefunktion der Prüfgröße
Dichte und Erwartungswert der Prüfgröße
Erwartungswert
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
248 / 446
Parametrische Mittelwerttests
Kritische Werte für die Prüfgröße eines einseitigen Hypothesentests
Dichtefunktion der Prüfgröße
kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
249 / 446
Parametrische Mittelwerttests
Annahme- und Ablehnungsbereich bei einseitigem Hypothesentest
Ablehnungsbereich
Annahmebereich
Dichtefunktion der Prüfgröße
kritischer Wert
Erwartungswert
Wahrscheinlichkeit
Fehler 1. Art
5
6
7
8
9
10
11
12
13
14
15
Ausprägung der Prüfgröße
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
250 / 446
Parametrische Mittelwerttests
13.3 Einstichproben-t-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
251 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Einstichproben-t-Test:
Nullhypothese H0 : µ = µ0
Alternativhypothese HA : µ 6= µ0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
252 / 446
Parametrische Mittelwerttests
Prüfgröße des t-Tests:
Beim t-Test wird das standardisierte Stichprobenmittel als Prüfgröße
verwendet:
√
√
(X̄ − µ0 ) · N
(X̄ − µ0 ) · N
qP
T (x1 , x2 , · · · , xN ) = p
=
∼ t(N − 1)
N
1
V ar[X]
(x − X̄)2
N −1
i=1
i
(1)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
253 / 446
Parametrische Mittelwerttests
Prüfgrößen und Ablehnungsbereiche beim t-Test:
Annahmen:
H0 :
HA :
Prüfgröße:
Grundgesamtheit normalverteilt, µ unbekannt, σ unbekannt
µ = µ0
µ ≤ µ0
µ ≥ µ0
µ 6= µ0
µ > µ0 √
µ < µ0
(X̄−µ0 )· N
√
T =
H0 wird
abgelehnt,
wenn:
|T | größer als
T größer als
T kleiner als
(1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1)
der t-Verteilung (N-1 Freiheitsgrade)
V ar[X]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
254 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
−4.1
−0.86 0
3.9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: −0.86
df: 19
H0
µ
tfitted
α
conf.int
9.24
●
6
8.37
10.1
11.83
14
Ausbildungsjahre
(Datenquelle: Stichprobe 1 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
255 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
One Sample t-test
t = -0.8592, df = 19, p-value = 0.4009
alternative hypothesis: true mean is not equal to 10.1
90 percent confidence interval:
7.238155 11.061845
sample estimates:
mean of x
9.15
(Datenquelle: Stichprobe 1 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
256 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
−4.1
0
2.08
3.9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: 2.08
df: 19
H0
µ
tfitted
α
conf.int
12.18
●
6
8.37
10.1
11.83
14
Ausbildungsjahre
(Datenquelle: Stichprobe 2 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
257 / 446
Parametrische Mittelwerttests
Zweiseitiger Einstichproben-t-Test
H0 : Ausbildungsjahre = 10, 1 (α = 0, 10)
One Sample t-test
t = 2.076, df = 19, p-value = 0.05171
alternative hypothesis: true mean is not equal to 10.1
90 percent confidence interval:
10.4425 13.8575
sample estimates:
mean of x
12.15
(Datenquelle: Stichprobe 2 aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
258 / 446
Parametrische Mittelwerttests
Einseitiger Einstichproben-t-Test
H0 : Alter ≤ 40, (α = 0, 10)
−4
0
4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: 0.28
df: 29
H0
µ
tfitted
α
40.28
●
36
38
40
41.31
44
Alter
(Datenquelle: Stichprobe aus Datensatz 1, N=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
259 / 446
Parametrische Mittelwerttests
Einseitiger Einstichproben-t-Test
H0 : Alter ≤ 40 (α = 0, 10)
One Sample t-test
t = 0.2772, df = 29, p-value = 0.3918
alternative hypothesis: true mean is greater than 40
sample estimates:
mean of x
40.96667
(Datenquelle: Stichprobe aus Datensatz 1, N=30)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
260 / 446
Parametrische Mittelwerttests
13.4 Systematik von Mittelwerttests auf der Basis
zweier Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
261 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Zweistichproben-t-Test:
Nullhypothese H0 : µ̄ = µ1 − µ2 = µ0
Alternativhypothese HA : µ̄ 6= µ0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
262 / 446
Parametrische Mittelwerttests
13.5 Zweistichproben-t-Test bei unabhängigen
Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
263 / 446
Parametrische Mittelwerttests
(Zweiseitiges) Testproblem beim Zweistichproben-t-Test:
Nullhypothese H0 : µ1 = µ2
Alternativhypothese HA : µ1 6= µ2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
264 / 446
Parametrische Mittelwerttests
Prüfgröße des Zweistichproben-t-Tests:
Beim t-Test lautet das standardisierte Stichprobenmittel, welches als
Prüfgröße verwendet wird:
p
N · M · (N + M − 2)
T =
N +M
X̄1 − X̄2
−p
∼ t(N + M − 2)
(N − 1) · V ar[X1 ] + (M − 1) · V ar[X2 ]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
265 / 446
Parametrische Mittelwerttests
Prüfgrößen und Ablehnungsbereiche beim Zweistichproben-t-Test:
Annahmen:
H0 :
HA :
Prüfgröße:
H0 wird
abgelehnt,
wenn
Grundges. normalvert., µ unbekannt, σ unbekannt, unabhängig
µ1 = µ2
µ1 ≤ µ2
µ1 ≥ µ2
µ1 6=√µ2
µ1 > µ 2
µ1 < µ 2
T =
N ·M ·(N +M −2)
N +M
−√
X¯1 −X¯2
(N −1)·V ar[X1 ]+(M −1)·V ar[X2 ]
|T | größer als
T größer als
T kleiner als
(1 − 0, 5 · α)-Quantil (1 − α)-Quantil (1 − α)-Quantil·(−1)
der t-Verteilung mit N+M-2 Freiheitsgraden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
266 / 446
Parametrische Mittelwerttests
Zweiseitiger Zweistichproben-t-Test
H0 : Einkommenf = Einkommenm (α = 0, 10)
−4
−2.16
0
4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
t−value: −2.16
df: 27.81
H0
µ
tfitted
α
−2.16
●
−4
−1.7
0
1.7
4
t−Wert Test auf Mittelwertgleichheit Jahreseinkommen Frauen versus Männer
(Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
267 / 446
Parametrische Mittelwerttests
Zweiseitiger Zweistichproben-t-Test
H0 : Einkommenf = Einkommenm (α = 0, 10)
Welch Two Sample t-test
t = -2.1577, df = 27.806, p-value = 0.03974
alternative hypothesis: true difference in means is not equal to
0
90 percent confidence interval:
-43911.858 -5190.642
sample estimates:
mean of x mean of y
19696.25 44247.50
(Datenquelle: 2 Stichproben aus Datensatz 1, N=M=20)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
268 / 446
Parametrische Mittelwerttests
Literaturhinweise
Literaturhinweise zum 13. Kapitel
Bühl, A. (2006): SPSS 14. Einführung in die moderne Datenanalyse, 10.
Auflage, Pearson Studium, München u.a. [insbes. Kapitel 12].
Field, A., J. Miles und Z. Field (2011): Discovering Statistics Using R,
Sage Publications, Los Angeles u.a. [insbes. Kapitel 9].
Mosler, K. und F. Schmid (2008): Wahrscheinlichkeitsrechnung und
schließende Statistik, 3. Auflage, Springer-Verlag, Berlin [insbes. Kapitel
6].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
269 / 446
Regressionsanalyse als induktives Verfahren
14. Regressionsanalyse als induktives Verfahren
14.1 Regressionen auf Basis von Stichproben
14.2 Eigenschaften von KQ-Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
270 / 446
Regressionsanalyse als induktives Verfahren
14.1 Regressionen auf Basis von Stichproben
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
271 / 446
Regressionsanalyse als induktives Verfahren
14.2 Eigenschaften von KQ-Schätzern
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
272 / 446
Regressionsanalyse als induktives Verfahren
1. Gauß-Markov-Bedingung
Es handelt sich um ein korrekt spezifiziertes lineares Regressionsmodell des
Typs:
yi = β0 + β1 · x1,i + · · · + βK · xK,i + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
273 / 446
Regressionsanalyse als induktives Verfahren
2. Gauß-Markov-Bedingung
Der Störterm hat den Erwartungswert null:
E[i ] = 0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
274 / 446
Regressionsanalyse als induktives Verfahren
3. Gauß-Markov-Bedingung
Der Störterm hat (genauso wie die zu erklärende Variable) eine konstante
Varianz (Homoskedastizität):
σY2 = σ2 = konst
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
275 / 446
Regressionsanalyse als induktives Verfahren
4. Gauß-Markov-Bedingung
Es gibt keine serielle Korrelation der Störterme (und damit auch keine serielle
Korrelation der zu erklärenden Variable)
E[i · j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N
Die Bedingung impliziert, dass die Beobachtungen stochastisch
unabhängig sein müssen
Ist diese Bedingung gegeben, so gilt auch:
Cov[yi , yj ] = Cov[i , j ] = 0 ∀i 6= j ∧ i, j = 1, ..., N
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
276 / 446
Regressionsanalyse als induktives Verfahren
5. Gauß-Markov-Bedingung
Die erklärenden Variablen X sind deterministisch, d.h. sie werden bei
wiederholten Stichprobenziehungen als fest gegebene (deterministische)
Größen angenommen und nicht aus einem neuen Zufallsprozess generiert.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
277 / 446
Regressionsanalyse als induktives Verfahren
6. Gauß-Markov-Bedingung
Die erklärenden Variablen X sind linear unabhängig voneinander (d.h. es
besteht keine perfekte Multikollinearität).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
278 / 446
Regressionsanalyse als induktives Verfahren
7. Gauß-Markov-Bedingung
Die Varianzen der erklärenden Variablen X sind endlich und positiv.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
279 / 446
Regressionsanalyse als induktives Verfahren
8. Gauß-Markov-Bedingung
Die Anzahl der Beobachtungen N ist größer als die Anzahl der zu schätzenden
Parameter k + 1.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
280 / 446
Regressionsanalyse als induktives Verfahren
Gauß-Markov-Theorem
Bei Gültigkeit der Gauß-Markov-Bedingungen hat der
Kleinste-Quadrate-Schätzer (OLS) innerhalb der Klasse aller linearen und
erwartungstreuen Schätzfunktionen die kleinste Varianz
(BLUE-Eigenschaft).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
281 / 446
Regressionsanalyse als induktives Verfahren
Erweitertes Gauß-Markov-Theorem
Sind die Gauß-Markov-Bedingungen erfüllt und ist zudem der Störterm i
normalverteilt, so führt der Kleinste-Quadrate-Schätzer (OLS) immer zu
unverzerrten, varianzminimierenden Schätzern für die Koeffizienten
(BUE-Eigenschaft). Die Schätzer sind zudem dann konsistent (d.h. sie
konvergieren mit zunehmender Stichprobengröße gegen die Werte der
Grundgesamtheit) und folgen einer Normalverteilung:
β̂0 ∼ N (β0 , σβ̂2 ) ∧ β̂1 ∼ N (β1 , σβ̂2 )
0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
1
25. Juni 2014
282 / 446
Regressionsanalyse als induktives Verfahren
Literaturhinweise
Literaturhinweise zum 14. Kapitel
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
283 / 446
Typen von Querschnittsregressionen
15. Typen von Querschnittsregressionen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
284 / 446
Typen von Querschnittsregressionen
Typen von zu erklärenden Variablen in Querschnittsregressionen:
Stetige abhängige Variable
Binäre abhängige Variable
Nominale abhängige Variable
Ordinale abhängige Variable
Zählvariable
Null-inflationierte Variable
Zensierte Variable
Trunkierte Variable
Wie wir später sehen werden, ist in allen anderen Fällen als dem der
stetigen zu erklärenden Variable die Methode der Kleinsten
Quadrate zur Schätzung einer Regressionsbeziehung ungeeignet
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
285 / 446
Typen von Querschnittsregressionen
Literaturhinweise
Literaturhinweise zum 15. Kapitel
Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons
[insbes. Kapitel 4.1 und 4.2].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 17].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 7].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
286 / 446
Lineare Regressionsanalyse
16. Lineare Regressionsanalyse
16.1 Identifikation von ungewöhnlichen Beobachtungen
16.2 Koeffiziententests
16.3 Gütetests
16.4 Heteroskedastizität
16.5 Multikollinearität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
287 / 446
Lineare Regressionsanalyse
16.1 Identifikation von ungewöhnlichen Beobachtungen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
288 / 446
Lineare Regressionsanalyse
Vorgehen bei einem Ausreißer-Test mit Bonferonni-Korrektur
1
Schätzung einer Regressionsgleichung für jede (N − 1)-Submenge der
Stichprobe
2
Berechnung des Residuums für den jeweils ausgelassenen Wert
3
Berechnung der studentisierten leave-one-out Residuen ri
(Standardisierung)
Aufstellen der Hypothesen:
4
H0 : Die Stichprobe enthält keinen Ausreißer
HA : Die Stichprobe enthält mindestens einen Ausreißer
5
Der Prüfwert des Tests lässt sich berechnen nach:
0.5
N −K −1
Ti = ri ·
t(N − K − 1)
N − K − ri2
6
Da der Ausreißer-Test nicht einen einzelnen Wert, sondern alle Werte
gleichzeitig überprüfen soll, muss für den sich für ein vorgegebenes
Signifikanzniveau α aus der t-Verteilung ergebende Wert noch eine sog.
Bonferonni-Korrektur durchgeführt werden
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
289 / 446
Lineare Regressionsanalyse
Ausreißer-Test mit Bonferonni-Korrektur
No Studentized residuals with Bonferonni p < 0.05
Largest |rstudent|: 14
rstudent: -2.860342
unadjusted p-value: 0.0063441
Bonferonni p: 0.3172
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
290 / 446
Lineare Regressionsanalyse
Definition
Der Hebelwert (Leverage) einer Beobachtung gibt an, wie stark sich die
Modellanpassung einer Regression (betragsmäßig) ändert, wenn die
Beobachtung aus der Schätzung der Regressionsgleichung ausgeschlossen wird.
Der Hebelwert der Beobachtung i lässt sich berechnen als
hi =
Prof. Dr. Michael Berlemann (HSU)
σ 2 − ˆi
σ2
Empirische Wirtschaftsforschung
25. Juni 2014
291 / 446
Lineare Regressionsanalyse
Daumenregel: Ein Leverage ist problematisch, wenn gilt:
h̄i >
Prof. Dr. Michael Berlemann (HSU)
2·K
N
Empirische Wirtschaftsforschung
25. Juni 2014
292 / 446
Lineare Regressionsanalyse
Verteilung der Leverages
10
0
5
Absolute Häufigkeit
15
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
0.05
0.10
0.15
0.20
Hebelwerte
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
293 / 446
Lineare Regressionsanalyse
Leverages versus Quantile der positiven Normalverteilung
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
39
0.15
8
●
0.10
Leverages
●
●
●
●●
● ●
●
●
●
●
●●
●
0.00
0.05
●●
●●●
●●●●
●●●
●●●●
●●
●
●
●
●●●
●●
●●●
●●
●●
0.0
0.5
1.0
1.5
2.0
Quantile der positiven Normalverteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
294 / 446
Lineare Regressionsanalyse
Quantile der Verteilung der studentisierten Leverages versus Quantile der
t-Verteilung
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
●
●● ● ●
●
●
1
●●
●
●
0
●
●●
●●
●●
●●●
●
●●●
●●●
●
●●
●●●●
●●●●
●
●
−1
●●
● ●
●
−2
Quantile der Verteilung der studentisierten Leverages
2
●
●
●
●
−2
−1
0
1
2
Quantile der t−Verteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
295 / 446
Lineare Regressionsanalyse
Definition
Die Cook-Distanz einer Beobachtung gibt an, um wieviel sich die Residuen
aller Fälle ändern, wenn dieser Fall aus der Schätzung der
Regressionsgleichung ausgeschlossen wird.
Die Cook-Distanz der Beobachtung i lässt sich berechnen als
Di =
Prof. Dr. Michael Berlemann (HSU)
hi
1
· r2 ·
K i 1 − hi
Empirische Wirtschaftsforschung
25. Juni 2014
296 / 446
Lineare Regressionsanalyse
Cook-Distanzen versus Quantile der positiven Normalverteilung
0.07
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
38
15
0.06
●
●
0.05
●
●
0.04
●
●
0.03
Cook Distanzen
●
●
●
●●●
●
0.02
●
●●
0.00
0.01
●
●
●
●
●
●
●
●●●●
●●
●●
●●●●●●
●●●●●●●●●●●
0.0
0.5
1.0
1.5
2.0
Quantile der positiven Normalverteilung
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
297 / 446
Lineare Regressionsanalyse
16.2 Koeffiziententests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
298 / 446
Lineare Regressionsanalyse
Koeffiziententests werden für jeden Koeffizienten getrennt durchgeführt!
Koeffiziententest ohne Vorzeichenhypothese
H0 : βk = 0
HA : βk 6= 0
Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist negativ)
H0 : βk ≥ 0
HA : βk < 0
Koeffiziententest mit Vorzeichenhypothese (HA : Koeffizient ist positiv)
H0 : βk ≤ 0
HA : βk > 0
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
299 / 446
Lineare Regressionsanalyse
Typische Signifikanzniveaus in der Regressionsanalyse
α = 0.1: schwach signifikanten Zusammenhang
Solch schwach signifikante Zusammenhänge werden oft in Tabellen dadurch
gekennzeichnet, dass der geschätzte Koeffizient mit einem Stern versehen
wird ”*”
α = 0.05: signifikanten Zusammenhang
Signifikante Zusammenhänge werden oft in Tabellen durch zwei Sterne
gekennzeichnet ”**”
α = 0.01: hoch signifikanten Zusammenhang
Hoch signifikante Zusammenhänge werden oft in Tabellen durch drei
Sterne gekennzeichnet ”***”
Kann die Nullhypothese nicht zurück gewiesen werden, so spricht man
von einem insignifikanten Koeffizienten
Nicht signifikante Zusammenhänge hingegen werden nicht mit Sternen
versehen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
300 / 446
Lineare Regressionsanalyse
Koeffiziententests multiple lineare Regression
Schätzer
Std. Fehler
Gesundheitszustand
(Konstante) 102.3942
Alter
-1.0244
Ausbildungsjahre
0.2819
Adj. R-Quadrat
0.8862
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
2.6225
0.0585
0.2295
Empirische Wirtschaftsforschung
t-Wert
p-Wert
39.04
-17.50
1.23
0.0000
0.0000
0.2254
25. Juni 2014
301 / 446
Lineare Regressionsanalyse
16.3 Gütetests
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
302 / 446
Lineare Regressionsanalyse
F-Test als Spezifikationstest einer linearen Regression
Zur Überprüfung des Erklärungsgehalts einer auf einer Stichprobe
beruhenden linearen Regression wird die Nullhypothese überprüft, dass
alle geschätzten Koeffizienten der erklärenden Variablen (nicht die
Konstante) gleichzeitig null sind:
H0 : β1 = β2 = · · · = βK = 0
HA : H0 ist falsch
Die Prüfgröße des F-Tests lautet:
F =
ESS
K
RSS
N −K−1
Prof. Dr. Michael Berlemann (HSU)
PN
i=1 (ŷi −Ȳ
=1−
K
PN
2i
N −K−1
)2
∼ F (N − K − 1)
i=1
Empirische Wirtschaftsforschung
25. Juni 2014
303 / 446
Lineare Regressionsanalyse
Koeffiziententests multiple lineare Regression mit F-Test
Schätzer Std. Fehler t-Wert
Gesundheitszustand
(Konstante) 102.3942
2.6225
39.04
Alter
-1.0244
0.0585 -17.50
Ausbildungsjahre
0.2819
0.2295
1.23
Adj. R-Quadrat
0.8862
F-Wert 191.9 (dF = 47), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.0000
0.0000
0.2254
25. Juni 2014
304 / 446
Lineare Regressionsanalyse
16.4 Heteroskedastizität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
305 / 446
Lineare Regressionsanalyse
Scatterplot geschätzte Werte versus Residuen (Heteroskedastischer Fall)
Gesundheitszustand =β0+β1 Ausbildungsjahre
●
●
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−20
Residuen
0
●
●
●
●
●
●
−40
●
●
●
●
●
−60
●
50
55
60
65
70
75
Geschätzte Werte Gesundheitszustand
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
306 / 446
Lineare Regressionsanalyse
Scatterplot geschätzte Werte versus Residuen (Homoskedastischer Fall)
Gesundheitszustand =β0+β1 Alter + β2 Ausbildungsjahre
●
10
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
−10
●
●
●
0
Residuen
●
●
●
●
●
●
●
●
●
●
●
●
●
−20
●
●
20
40
60
80
100
Geschätzte Werte Gesundheitszustand
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
307 / 446
Lineare Regressionsanalyse
Statistische Tests auf Heteroskedastizität
1
Goldfeldt-Quandt-Test
2
Breusch-Pagan-Test
3
White-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
308 / 446
Lineare Regressionsanalyse
Vorgehen beim Goldfeldt-Quandt-Test
1
2
3
4
Teilen des Samples S in zwei Sub-Samples S1 und S2 .
Schätzung einer linearen Regressionsgerade für jedes Sub-Sample.
PN1 2
PN2 2
Berechnung der Summe der quadrierten Residuen i=1
i,1 und i=1
i,2 .
Aufstellen der Hypothesen:
H0 : Quadratsummen der Residuen ist identisch.
HA : Quadratsummen der Residuen unterscheiden sich.
5
Vergleich der Varianzen der Residuen mit Hilfe eines F-Tests (größere
Quadratsumme im Zähler):
PN1
F =
6
i=1 i,1
N1 −K
PN2
i=1 i,2
N2 −K
F (N1 − K, N2 − K)
Übersteigt nun der Wert der Teststatistik den kritischen Wert der
F-Verteilung mit N1 − K und N2 − K Freitheitsgraden, kann die
Nullhypothese abgelehnt und die Alternativhypothese angenommen
werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
309 / 446
Lineare Regressionsanalyse
Goldfeldt-Quandt-Test
Goldfeld-Quandt test
data: Regression
GQ = 1.5842, df1 = 23, df2 = 23, p-value = 0.2772
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
310 / 446
Lineare Regressionsanalyse
Goldfeldt-Quandt-Test
Goldfeld-Quandt test
data: Regression
GQ = 0.742, df1 = 22, df2 = 22, p-value = 0.4898
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
311 / 446
Lineare Regressionsanalyse
Vorgehen beim Breusch-Pagan-Test
1
Aufstellen der Hypothesen:
H0 : Es liegt Homoskedastizität vor.
HA : Es liegt keine Homoskedastizität vor.
2
Schätzung einer linearen Regression.
3
Festlegung, welche Variablen für eine mögliche Heteroskedasie
verantwortlich sein könnten
4
Schätzung einer weiteren Regressionsgerade, bei der die quadrierten
Residuen aus der ersten Regression durch diese Variablen erklärt werden.
5
Berechnung des Bestimmtheitsmaß R2 für diese Regression.
6
Die Prüfgröße N · R2 ist asymptotisch χ2 -verteilt mit K Freiheitsgraden.
7
Übersteigt die Prüfgröße den kritischen Wert der χ2 -Verteilung, kann die
Nullhypothese der Homoskedastizität abgelehnt werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
312 / 446
Lineare Regressionsanalyse
Breusch-Pagan-Test
studentized Breusch-Pagan test
data: Regression
BP = 6.2663, df = 1, p-value = 0.01231
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
313 / 446
Lineare Regressionsanalyse
Breusch-Pagan-Test
studentized Breusch-Pagan test
data: Regression
BP = 1.3044, df = 2, p-value = 0.5209
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
314 / 446
Lineare Regressionsanalyse
White-Test
studentized Breusch-Pagan test
data: Regression
BP = 7.6331, df = 1, p-value = 0.005731
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
315 / 446
Lineare Regressionsanalyse
White-Test
studentized Breusch-Pagan test
data: Regression
BP = 5.8472, df = 5, p-value = 0.3214
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
316 / 446
Lineare Regressionsanalyse
Es existiert eine Vielzahl an Schätzmethoden, die dem Problem der
Heteroskedastie begegnen.
Lösungsansätze für Hetroskedastizität
1
Varianztransformation (bei bekannter Varianz)
2
Weighted Least Squares
3
Feasible Generalized Least Squares
4
White-Korrektur (heteroskedastieresistente Standardfehler)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
317 / 446
Lineare Regressionsanalyse
Regression mit White-Korrektur der Standardabweichung
Schätzer Std. Fehler t-Wert
Gesundheitszustand
(Konstante)
102.39
1.82
56.24
Alter
-1.02
0.05 -22.04
Ausbildungsjahre
0.28
0.18
1.54
Adj. R-Quadrat
0.8862
F-Wert 191.9 (dF = 47), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.00
0.00
0.12
25. Juni 2014
318 / 446
Lineare Regressionsanalyse
16.5 Multikollinearität
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
319 / 446
Lineare Regressionsanalyse
Definition
Liegt zwischen zwei Regressoren einer multiplen linearen Regression
yi = β0 + β1 · x1,i + β2 · x2,i + i
eine lineare Beziehung vor, d.h.
x2 = c + γ · x1
bzw.
x1 =
c
x2
−
γ
γ
so liegt perfekte Multikollinearität vor.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
320 / 446
Lineare Regressionsanalyse
Folgen perfekter Multikollinearität
Einsetzen von x2 = c + γ · x1 in die Regressionsgleichung ergibt
y
=
β0 + β1 · x1 + β2 · (c + γ1 · x1 ) + ⇔y
=
(β0 + β2 · c) + (β1 + β2 · γ) · x1 + Einsetzen von x1 =
x2
γ
−
c
γ
in die Regressionsgleichung ergibt
y
⇔y
Prof. Dr. Michael Berlemann (HSU)
x2
c
= β0 + β1 ·
−
+ β2 · x 2 + γ
γ
c
β1
=
β0 − β1 ·
+
+ β2 · x 2 + γ
γ
Empirische Wirtschaftsforschung
25. Juni 2014
321 / 446
Lineare Regressionsanalyse
Venn-Diagramme
Fall 1: keine Multikollinearität
Fall 2 / 3: imperfekte Multikollinearität (geringe: Fall 2 / hohe: Fall 3)
Fall 4: perfekte Multikollinearität
1. 2.
stdabw(Y) stdabw(X1) stdabw(Y) stdabw(X2) 3. stdabw(X1)
stdabw(X2) 4.
stdabw(Y)
stdabw(Y) stdabw(X2)= stdabw(X1) stdabw(X1) Prof. Dr. Michael Berlemann (HSU)
stdabw(X2) Empirische Wirtschaftsforschung
25. Juni 2014
322 / 446
Lineare Regressionsanalyse
Hilfsregressionen
Beispiel: drei erklärende Variablen x1 , x2 und x3 :
yi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i
Hilfsregressionen:
x1,i
= α0 + α1 · x2,i + α2 · x3,i + 1,i
x2,i
= δ0 + δ1 · x1,i + δ2 · x3,i + 2,i
x3,i
= γ0 + γ1 · x1,i + γ2 · x2,i + 3,i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
323 / 446
Lineare Regressionsanalyse
Variance Inflation Factors
Häufig wird auch der V ariance Inf lation F actor (VIF) jeder
Hilfsregression k zur Diagnose von Multikollinearität genutzt:
V IFk =
1
1 − Rk2
Faustregel: Ist der V IF größer als zehn (Rk2 > 0, 9), deutet das auf sehr
starke Multikollinearität.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
324 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante) -17432.5
72085.2 -0.242
0.8100
Alter
911.0
703.7
703.7
0.2019
Gesundheitszustand
387.5
684.0
0.566
0.5738
Geschlecht(w) -20749.3
10851.0 -1.912
0.0621
Adj. R-Quadrat
0.1574
F-Wert 4.051 (dF = 46), p-Wert = 0.0123
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
325 / 446
Lineare Regressionsanalyse
Korrelationskoeffizient Gesundheitszustand und Alter
Korrelationskoeffizient(Gesundheitszustand,Alter) = -0.94
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Variance Inflation Factors
VIF(Alter) = 8.676669
VIF(Gesundheitszustand) = 8.671815
VIF(Geschlecht(w)) = 1.112734
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
326 / 446
Lineare Regressionsanalyse
Möglichkeiten der Ausschaltung von Multikollinearität
1
Ausschluß von Variablen
2
Zusammenfassung von Variablen
3
Einbindung zusätzlicher Informationen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
327 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Ausschluß Gesundheitszustand
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante)
22716.6
13065.3
1.739
0.0886
Alter
538.7
249.8
2.157
0.0362
Geschlecht(w) -20408.4
10755.8 -1.897
0.0639
Adj. R-Quadrat
0.1695
F-Wert 6.002 (dF = 47), p-Wert = 0.004771
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
328 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Ausschluß Alter
Schätzer Std. Fehler t-Wert
p-Wert
Jahreseinkommen
(Konstante)
73552.3
16151.7
4.554
0.0007
Gesundheitszustand
-439.5
246.3 -1.784
0.0808
Geschlecht(w) -21596.0
10908.9 -1.980
0.0536
Adj. R-Quadrat
0.1453
F-Wert 5.163 (dF = 47), p-Wert = 0.009394
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
329 / 446
Lineare Regressionsanalyse
Berechnung einer kombinierten Variable
Kombination = 0.5 ·
Prof. Dr. Michael Berlemann (HSU)
Alter
Gesundheitszustand
+ 0.5 · (−1) ·
σAlter
σGesundheitszustand
Empirische Wirtschaftsforschung
25. Juni 2014
330 / 446
Lineare Regressionsanalyse
Regression mit Multikollinearitätsproblem, Kombinationsvariable
Schätzer Std. Fehler t-Wert
Jahreseinkommen
(Konstante)
50492.0
6701.0
7.534
Kombination
10917.0
5446
2.005
Geschlecht(w) -20775.0
10839 -1.917
Adj. R-Quadrat
0.1592
F-Wert 5.64 (dF = 47), p-Wert = 0.006374
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.0000
0.0508
0.0614
25. Juni 2014
331 / 446
Lineare Regressionsanalyse
Literaturhinweise
Literaturhinweise zum 16. Kapitel, Teil I
Von Auer, L. (2007): Ökonometrie. Eine Einführung, 4. Auflage,
Springer-Verlag, Berlin [insbes. Kapitel 1-4, 17-21].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 1].
Faraway, J. J. (2005): Linear Models with R, Texts in Statistical Science,
Chapman & Hall/CRC Boca Raton.
Fahrmeir, L., T. Kneib und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, Springer Verlag, Berlin [insbes. Kapitel 3].
Gujarati, D. N. (1995): Basic Econometrics, 3rd. Edition, McGraw-Hill,
International Edition, New York [insbes. Kapitel 2-4].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
332 / 446
Lineare Regressionsanalyse
Literaturhinweise
Literaturhinweise zum 16. Kapitel, Teil II
Hackl, P. (2005): Einführung in die Ökonometrie, Pearson, München
[insbes. Kapitel 3-5].
Hill, R. C., W. E. Griffiths und G. G. Judge (2001): Undergraduate
Econometrics, 2nd Edition, Wiley & Sons, Hoboken [insbes. Kapitel 3,4
und 6].
Studenmund, A. H. (2006): Using Econometrics. A Practical Guide, 5th
Edition, Pearson/Addison Welsey, International Edition, Boston [insbes.
Kapitel 1,2 und 4].
Verbeek, M. (2004): A Guide to Modern Econometrics, 2. Auflage, Wiley
& Sons, Hoboken [insbes. Kapitel 1].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 8].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
333 / 446
Regressionen mit diskreten abhängigen Variablen
17. Regressionen mit diskreten abhängigen
Variablen
17.1 Überblick
17.2 Binäre abhängige Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
334 / 446
Regressionen mit diskreten abhängigen Variablen
Überblick
17.1 Überblick
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
335 / 446
Regressionen mit diskreten abhängigen Variablen
17.2 Binäre abhängige Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
336 / 446
Regressionen mit diskreten abhängigen Variablen
Grundidee binärer Regressionsmodelle
Die Wahrscheinlichkeit πi , mit der die Ausprägung einer binären Variable
die Ausprägung ”1” annimmt, entspricht gerade dem bedingten
Erwartungswert der binären Variable.
Dies lässt sich zeigen, wenn zunächst der bedingte Erwartungswert
berechnet wird:
E[yi |x1,i , x2,i , x3,i ]
=
1 · P (yi = 1 |x1,i , x2,i , x3,i )
+0 · P (yi = 0 |x1,i , x2,i , x3,i )
=
1 · P (yi = 1 |x1,i , x2,i , x3,i )
=
πi
Um einen Schätzwert für πi zu erhalten, wird üblicherweise zunächst ein
linearer Prädiktor ηi verwendet:
ηi
Prof. Dr. Michael Berlemann (HSU)
= β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i
Empirische Wirtschaftsforschung
25. Juni 2014
337 / 446
Regressionen mit diskreten abhängigen Variablen
Grundidee binärer Regressionsmodelle
Im nächsten Schritt wird der lineare Prädiktor über eine sog.
Responsefunktion h mit der Wahrscheinlichkeit π verbunden:
πi
=
h (ηi ) = h (β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i )
Die Umkehrfunktion der Responsefunktion g = h−1 nennt man auch
Linkfunktion.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
338 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.1 Lineares Wahrscheinlichkeitsmodell bei binär
abhängigen Variablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
339 / 446
Regressionen mit diskreten abhängigen Variablen
Wird die Identitätsfunktion verwendet, so führt dies zum einfachen
linearen Wahrscheinlichkeitsmodell:
πi = ηi = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i + i
Das lineare Wahrscheinlichkeitmodell kann mit OLS geschätzt werden.
Die Koeffizienten βk können nun als geschätzte, marginale
Wahrscheinlichkeitsänderungen interpretiert werden, z.B. für β2
∂y
∂πi
=
= β2
∂x2
∂x2
Der geschätzte Wert für β2 beschreibt also, wie eine marginale
Veränderung der Variable x2 die Wahrscheinlichkeit beeinflusst, dass die
binäre Variable y den Wert 1 annimmt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
340 / 446
Regressionen mit diskreten abhängigen Variablen
Beispiel: Promotion
Fragestellung: Welche Faktoren erklären, ob eine Person promoviert ist?
Stichprobe aus Datensatz 1 als Datengrundlage
P romovierti =
0
1
wenn Individuum i nicht promoviert ist
wenn Individuum i promoviert ist
Als erklärende Variablen sollen das Alter, das Jahreseinkommen und das
Geschlecht verwendet werden.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
341 / 446
Regressionen mit diskreten abhängigen Variablen
Lineares Wahrscheinlichkeitsmodell Promotion
Schätzer Std. Fehler t-Wert
Promoviert
(Konstante) -0.129436
0.1324
-0.98
Alter
0.006671
0.0023
2.85
Jahreseinkommen
0.000006
0.0000
3.95
Weiblich -0.019986
0.1141
-0.18
Adj. R-Quadrat
0.4056
F-Wert 12.15 (dF = 3 & 46), p-Wert = 0.000
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
p-Wert
0.3332
0.0064
0.0003
0.8618
25. Juni 2014
342 / 446
Regressionen mit diskreten abhängigen Variablen
Rechenbeispiel: Promotion
Die Wahrscheinlichkeit, dass eine 18-jährige Frau, die kein Einkommen
bezieht, promoviert ist, beträgt nach dem linearen
Wahrscheinlichkeitsmodell:
P (P romovierti = 1)
= −0.129436 + 0.006671 · 18
+0.000006 · 0 − 0.019986 · 1
= −0.02933674
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
343 / 446
Regressionen mit diskreten abhängigen Variablen
6
0
2
4
Häufigkeit
8
10
12
Histogramm Residuen lineares Wahrscheinlichkeitsmodell (Datensatz 1)
−0.5
0.0
0.5
Residuen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
344 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.2 Logit-Modell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
345 / 446
Regressionen mit diskreten abhängigen Variablen
Eine der am häufigsten verwendeten Responsefunktionen in binären
Regressionen ist die logistische Responsefunktion:
π
= h (η) =
exp(η)
1 + exp(η)
Die zugehörige Umkehrfunktion (Linkfunktion) ist die logarithmische
Funktion
π
g(π) = log
= η = β0 + β1 · x1,i + β2 · x2,i + β3 · x3,i
1−π
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
346 / 446
Regressionen mit diskreten abhängigen Variablen
0.0
0.2
0.4
Response
0.6
0.8
1.0
Logistische Response-Funktion
−4
−2
0
2
4
Linearer Prädiktor
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
347 / 446
Regressionen mit diskreten abhängigen Variablen
Ergebnisse Logit-Schätzung
Koeff.
Promoviert
Konstante -6.24724
Alter
0.06303
Jahreseinkommen
0.00007
Geschlechtw -0.36767
Hosmer/Lemeshow R-Square
0.48
Cox/Snell R-Square
0.46
Nagelkerke R-Square
0.64
Beobachtungen
50.00
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Std. Abw.
Z-Wert
P(Z>|Z|)
2.08
0.03
0.00
0.97
-3.00
2.43
2.82
-0.38
0.00
0.02
0.00
0.70
Empirische Wirtschaftsforschung
25. Juni 2014
348 / 446
Regressionen mit diskreten abhängigen Variablen
Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe)
Alter: 40.18
Jahreseinkommen: 37181.50
Geschlecht: Mann
Berechnung des linearen Prädiktors η:
η = −6.24724 + 0.06303 · 40.18 + 0.00007 · 37181.50 − 0.36767 · 0 = −1.278087
Berechnung der Promotionswahrscheinlichkeit π:
π=
exp(−1.278087)
= 0.217876
1 + exp(−1.278087)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
349 / 446
Regressionen mit diskreten abhängigen Variablen
Berechnung marginaler Effekte des Logit-Modells
Koeff.
Marg.
Eff.
Marg. Eff.
Änd.
Ref.
Wert
Änd.
Promoviert
Alter
0.06303
0.01
Jahreseinkommen
0.00007
0.00
Geschlechtw -0.36767
-0.06
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
0.11
0.11
-0.06
40.18
37181.50
0.00
10.00
10000.00
1.00
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
350 / 446
Regressionen mit diskreten abhängigen Variablen
17.2.3 Probit-Modell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
351 / 446
Regressionen mit diskreten abhängigen Variablen
Alternativ zur logistische Responsefunktion wird häufig auch die
Verteilungsfunktion der Standardnormalverteilung (Φ) verwendet:
π
Prof. Dr. Michael Berlemann (HSU)
=
h (η) = Φ(η)
Empirische Wirtschaftsforschung
25. Juni 2014
352 / 446
Regressionen mit diskreten abhängigen Variablen
0.6
0.4
0.0
0.2
Response
0.8
1.0
Standard-Normalverteilte Response-Funktion
−4
−2
0
2
4
Linearer Prädiktor
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
353 / 446
Regressionen mit diskreten abhängigen Variablen
Ergebnisse Probit-Schätzung
Koeff.
Promoviert
Konstante -3.62785
Alter
0.03570
Jahreseinkommen
0.00004
Geschlechtw -0.16510
Hosmer/Lemeshow R-Square
0.49
Cox/Snell R-Square
0.47
Nagelkerke R-Square
0.65
Beobachtungen
50.00
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
Prof. Dr. Michael Berlemann (HSU)
Std. Abw.
Z-Wert
P(Z>|Z|)
1.12
0.01
0.00
0.56
-3.23
2.52
3.03
-0.30
0.00
0.01
0.00
0.77
Empirische Wirtschaftsforschung
25. Juni 2014
354 / 446
Regressionen mit diskreten abhängigen Variablen
Eigenschaften eines ”durchschnittlichen Individuums” (Stichprobe)
Alter: 40.18
Jahreseinkommen: 37181.50
Geschlecht: Mann
Berechnung des linearen Prädiktors η:
η = −3.62785 + 0.03570 · 40.18 + 0.00004 · 37181.50 − 0.16510 · 0 = −0.7535629
Berechnung der Promotionswahrscheinlichkeit π:
π = Φ(−0.7535629) = 0.2255559
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
355 / 446
Regressionen mit diskreten abhängigen Variablen
Berechnung marginaler Effekte des Probit-Modells
Koeff.
Marg.
Eff.
Marg. Eff.
Änd.
Ref.
Wert
Änd.
Promoviert
Alter
0.03570
0.01
Jahreseinkommen
0.00004
0.00
Geschlechtw -0.16510
-0.03
(Datenquelle: Stichprobe aus Datensatz 1, N=50)
0.06
0.07
-0.03
40.18
37181.50
0.00
10.00
10000.00
1.00
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
356 / 446
Regressionen mit diskreten abhängigen Variablen
Literaturhinweise
Literaturhinweise zum 17. Kapitel
Agresti, A. (1990): Categorical Data Analysis, 4. Auflage, Wiley & Sons
[insbes. Kapitel 4.1 und 4.2].
Fahrmeir, L., T. Kneip und S. Lang (2009): Regression. Modelle,
Methoden und Anwendungen, 2. Auflage, Springer-Verlag, Berlin [insbes.
Kapitel 4].
Wooldridge, J.M. (2006): Introductury Econometrics: A Modern
Approach, 3. Auflage, Thomson [insbes. Kapitel 17].
Backhaus et al. (2006): Multivariate Analysemethoden: eine
anwendungsorientierte Einführung, 11. Auflage, Springer,
Berlin-Heidelberg [insbes. Kapitel 7].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
357 / 446
Räumliche Regressionen
18. Räumliche Regressionen
18.1 Räumliche Korrelation
18.2 Erscheinungsformen räumlicher Korrelation
18.3 Folgen räumlicher Korrelation
18.4 Diagnose räumlicher Korrelation
18.5 Schätzmodelle für räumlich korrelierte Daten
18.6 Beispiel für räumliches Schätzmodell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
358 / 446
Räumliche Regressionen
18.1 Räumliche Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
359 / 446
Räumliche Regressionen
Erstes Gesetz der Geographie (Tobler, 1979):
”Everything is related to everything else, but near things are more related
than distant things”
(zitiert nach: Anselin 1988, p. 8)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
360 / 446
Räumliche Regressionen
Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
361 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Rook” (Turm)
b
Prof. Dr. Michael Berlemann (HSU)
b
a
b
b
Empirische Wirtschaftsforschung
25. Juni 2014
362 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Bishop” (Läufer)
c
c
a
c
Prof. Dr. Michael Berlemann (HSU)
c
Empirische Wirtschaftsforschung
25. Juni 2014
363 / 446
Räumliche Regressionen
Nachbarschaftsmatrix ”Queen” (Königin)
c
b
c
Prof. Dr. Michael Berlemann (HSU)
b
a
b
c
b
c
Empirische Wirtschaftsforschung
25. Juni 2014
364 / 446
Räumliche Regressionen
Nachbarschaftsmatrix 2. Ordnung ”Queen” (Königin)
d
d
d
d
d
Prof. Dr. Michael Berlemann (HSU)
d
c
b
c
d
d
b
a
b
d
d
c
b
c
d
d
d
d
d
d
Empirische Wirtschaftsforschung
25. Juni 2014
365 / 446
Räumliche Regressionen
Erstellen einer Nachbarschaftsmatrix W ∗
∗
wi,j
={
1,
0,
Prof. Dr. Michael Berlemann (HSU)
f alls
sonst
i
und
j
benachbart
Empirische Wirtschaftsforschung
sind
25. Juni 2014
366 / 446
Räumliche Regressionen
Beispiel: Anordnung der Regionen im Raum
1
4
7
2
5
8
3
6
9
Nachbarschaftsmatrix erster Ordnung vom Typ ”Queen”
1
2
3
4
5
6
7
8
9
Prof. Dr. Michael Berlemann (HSU)
1
0
1
0
1
1
0
0
0
0
2
1
0
1
1
1
1
0
0
0
3
0
1
0
0
1
1
0
0
0
4
1
1
0
0
1
0
1
1
0
5
1
1
1
1
0
1
1
1
1
6
0
1
1
0
1
0
0
1
1
7
0
0
0
1
1
0
0
1
0
Empirische Wirtschaftsforschung
8
0
0
0
1
1
1
1
0
1
9
0
0
0
0
1
1
0
1
0
25. Juni 2014
367 / 446
Räumliche Regressionen
Deutsche Landkreise und kreisfreie Städte (Gebietsstand 31.12.2008)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
368 / 446
Räumliche Regressionen
Erstellen einer zeilenstandardisierten Nachbarschaftsmatrix W
∗
wi,j
wi,j = P ∗
j wi,j
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
369 / 446
Räumliche Regressionen
Zeilennormierte Nachbarschaftsmatrix (Beispiel)
1
2
3
4
5
6
7
8
9
1
0
1/5
0
1/5
1/8
0
0
0
0
2
1/3
0
1/3
1/5
1/8
1/5
0
0
0
Prof. Dr. Michael Berlemann (HSU)
3
0
1/5
0
0
1/8
1/5
0
0
0
4
1/3
1/5
0
0
1/8
0
1/3
1/5
0
5
1/3
1/5
1/3
1/5
0
1/5
1/3
1/5
1/3
6
0
1/5
1/3
0
1/8
0
0
1/5
1/3
Empirische Wirtschaftsforschung
7
0
0
0
1/5
1/8
0
0
1/5
0
8
0
0
0
1/5
1/8
1/5
1/3
0
1/3
9
0
0
0
0
1/8
1/5
0
1/5
0
25. Juni 2014
370 / 446
Räumliche Regressionen
18.2 Erscheinungsformen räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
371 / 446
Räumliche Regressionen
3 grundlegende Formen von räumlicher Korrelation:
1
Räumliche Korrelation in der abhängigen Variable (Spatial lag in
dependent variable)
2
Räumliche Korrelation in den unabhängigen Variablen (Spatial lag in
independent variables)
3
Räumliche Korrelation im Störterm (Spatial error)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
372 / 446
Räumliche Regressionen
Beispiel
Einfaches lineares Schätzmodell:
Y =α+β·X +
mit:
Y: Anzahl der Innovationen in einem Kreis
X: Anteil gut ausgebildeter Arbeitnehmer in einem Kreis
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
373 / 446
Räumliche Regressionen
Räumliche Korrelation in der abhängigen Variable (Spatial lag)
Y =ρ·W ·Y +α+β·X +
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
374 / 446
Räumliche Regressionen
Räumliche Korrelation in der unabhängigen Variable (Spatial lag)
Y =α+θ·W ·X +β·X +
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
375 / 446
Räumliche Regressionen
Räumliche Korrelation im Störterm (Spatial error)
Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
376 / 446
Räumliche Regressionen
18.3 Folgen räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
377 / 446
Räumliche Regressionen
18.4 Diagnose räumlicher Korrelation
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
378 / 446
Räumliche Regressionen
Diagnoseverfahren räumlicher Korrelation
1
Grafische Inspektion
2
Moran Scatter Plot
3
Moran’s I Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
379 / 446
Räumliche Regressionen
Anteil Hochqualifizierter an sozialversicherungspflichtig Beschäftigten auf
Kreisebene in % (30.6.2008)
Quelle: BBSR (2010)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
380 / 446
Räumliche Regressionen
14
Moran Scatterplot Hochqualifizierte
9563 ●
6436 ●
14628 ●
6414 ●
8221 ●
9162 ●
9179 ●
12
16071 ●6438 ●
●
9174 ●
●
● ●
9173 ●
● ● ●
●
●●
●
●
●
10
8
4
6
Hochqualifizierte.lag
8236 ●
●
●●
7315 ●
6412 ●
●
●
●
●● ●
●
● ●● ●
●
●
531514511
12054 ●
●
●●
●
● ●● ●
●
●●●●
●
●
● ●● 8226●5111 ●
● ●
●
●
●
●●
●
●●
● ●
●
● ●
●
●
●● ● ●
●
●
14713 ●
●● ●
●
●●
● ● ● ●● ●
●
●
●
●
● ● ● ●
●● 16055 ●
●●
● ● ● ●●● ●
●
5313 ●
● ●
●●
● ● ●● ●
●
● ●
●● ● ●
●
●●●
● ●
●●
●
●
●●●
●
●●● ●
●●● ●●
●●
● ●●
●●
●
●●
●●● ●●● ●
●
●●●
● ●
● ●
●
●
●●
●
●●●
●
●●
●
●
●
●●● ●
●
● ●
●
● ●
●
●●
● ● ●
●
●●
●● ●●●
●
●● ●
● ●
●
●
● ●
● ●● ●
●
● ● ●
●●
●
●
●
●
●●
●
●● ●
●●
●
●
●
8311 ●
●●
●● ●
●
● ● ● ● ● ● ●●●
●
●
●
●
●
●
●● ●
● ● ● ●● ●●
●
● ●
● ●
●
● ● ●●
●
●
●
●●
●
●●●●
●●
●
●●
●
●
●
●
●
●●
●●
●
● ● ●
● ●
●
●●
●
●
●
●
●
●
●
●
●●●
● ●●
●● ●
●
●
●● ●
●
● ● ● ●
●●●
●
●●●● ●
●●
● ● ● ●
●
●
●
●7211
●
9262
9662
●
●
● ●
●
9463 ●
●●
●
●
5
8111 ●
14612 ●
●
10
15
9184 ●
9562 ●
6411 ●
16053 ●
5314 ●
20
25
Hochqualifizierte
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
381 / 446
Räumliche Regressionen
Dritte Möglichkeit: Moran’s I als formales Maß für räumliche Korrelation
Berechnung Moran’s I
N
I=P P
i
j
P P
i
wi,j
j
wi,j (Xi − X̄)(Xj − X̄)
P
2
i (Xi − X̄)
I ∈ [−1; 1]
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
382 / 446
Räumliche Regressionen
Moran’s I-Test für Hochqualifizierte
Moran’s I test under randomisation
Moran I statistic standard deviate = 8.709
p-value < 0.01
alternative hypothesis: two.sided
sample estimates:
Moran I statistic Expectation Variance
0.284977
-0.002427
0.001089
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
383 / 446
Räumliche Regressionen
18.5 Schätzmodelle für räumlich korrelierte Daten
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
384 / 446
Räumliche Regressionen
Räumliche Schätzmodelle im Überblick
Quelle: Eigene Grafik nach Elhorst (2010, p. 13).
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
385 / 446
Räumliche Regressionen
Grundlegende Modelle mit räumlicher Korrelation (Wiederholung)
Räumliche Korrelation in der abhängigen Variable (Spatial lag)
Y =ρ·W ·Y +α+β·X +
Räumliche Korrelation in der unabhängigen Variable (Spatial lag)
Y =α+θ·W ·X +β·X +
Räumliche Korrelation im Störterm (Spatial error)
Y = α + β · X + u und u = λ · W · u + Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
386 / 446
Räumliche Regressionen
Spatial Durbin model
Räumliche Abhängigkeiten in der Abhängigen und in den Unabhängigen:
Y = ρ W Y + α + θ W X + β X + ,
∼ N (0, σ 2 )
Kelejian-Prucha model
Räumliche Abhängigkeiten in der Abhängigen und im Störterm:
Y = ρ W Y + α + β X + u, u = λW u + , ∼ N (0, σ 2 )
Spatial Durbin error model
Räumliche Abhängigkeiten in den Unabhängigen und im Störterm:
Y = α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
387 / 446
Räumliche Regressionen
Manski model
Räumliche Abhängigkeiten in der Abhängigen, in den Unabhängigen und im
Störterm:
Y = ρ W Y + α + θ W X + β X + u, u = λW u + , ∼ N (0, σ 2 )
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
388 / 446
Räumliche Regressionen
18.6 Beispiel für räumliches Schätzmodell
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
389 / 446
Räumliche Regressionen
Datensatz (Dataset2 )
KKZ
1001
1002
1003
1004
1051
Innovationskraft
-0.013432469
-0.002601189
-0.030241515
-0.024823903
-0.032083965
Hochqualifizierte
6.27
10.82
7.16
5.31
4.68
FuEAusgaben
3.0436
4.0568
11.4683
3.7437
0.7973
Daten aus dem Jahr 2008 für 413 deutsche Kreise
KKZ: Kreiskennziffer, erste Ziffer steht für das Bundesland
Innovationskraft: relative Innovationskraft einer Region basierend auf
Patentanmeldungen
Hochqualifizierte: Anteil Hochqualifizierter (Abschluss an Hochschule,
Fachhochschule oder Uni) an sozialversicherungspflichtig Beschäftigten in
Prozent
FuEAusgaben: FuE-Ausgaben pro Unternehmen in tausend Euro
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
390 / 446
Räumliche Regressionen
OLS und räumliche Regressionen im Vergleich
OLS
(Intercept)
Hochqualifizierte
FuEAusgaben
Hochqualifizierte.lag
FuEAusgaben.lag
adj. R2
Nagelkerke
ρ
λ
-0.0185***
0.0008***
0.0001*
Spatial
error
-0.0188***
0.0008***
0.0001***
Spatial lag
(Abhängige)
-0.0121***
0.0007***
0.0001***
0.3201
0.3215
0.4722***
0.219
Spatial lag
(Unabhängige)
-0.0178***
0.0008***
0.0001*
-0.0002
0.0001**
0.225
0.4874***
*** 1%, ** 5%, * 10%
OLS und Spatial lag (Unabhängige) mit White-Korrektur geschätzt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
391 / 446
Räumliche Regressionen
OLS und räumliche Regressionen im Vergleich
OLS
(Intercept)
Hochqualifizierte
FuEAusgaben
Hochqualifizierte.lag
FuEAusgaben.lag
adj. R2
Nagelkerke
ρ
λ
-0.0185***
0.0008***
0.0001*
Spatial
Durbin
-0.0105***
0.0008***
0.0001***
-0.0003
0.0000
Manski
model
-0.0100**
0.0008***
0.0001***
-0.0003
0.0000
0.324
0.4807***
0.324
0.5022**
-0.03015
0.219
*** 1%, ** 5%, * 10%
OLS mit White-Korrektur geschätzt.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
392 / 446
Räumliche Regressionen
Literaturhinweise zum 18. Kapitel
Anselin, Luc (1988): Spatial Econometrics: Methods and Models, Studies
in operational regional siences, Kluwer Academic Publishers, Dordrecht.
Elhorst, J. P. (2010): Applied spatial econometrics: Raising the bar,
Spatial Econometric Analysis 5 (1), 9-28.
Keilbach, M. C. (2000): Spatial knowledge spillovers and the dynamics of
agglomeration and regional growth, Physica Verlag, Heidelberg.
Lerbs, O. and C. Oberst (2012): Explaining the spatial variation in
homeownership rates: Results for German regions, CESifo working paper
no. 3377.
Bivand et al. (2008): Applied Spatial Data Analysis with R, Springer
Verlag, New York, Heidelberg.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
393 / 446
Schätzung nicht-linearer Zusammenhänge
19. Schätzung nicht-linearer Zusammenhänge
19.1 Datensatz zur Aktienanlage
19.2 Schätzung eines linearen Erklärungsmodells
19.3 Schätzung einer linearen Regression mit geeigneten Dummyvariablen
19.4 Schätzung eines linear-quadratischen Erklärungsmodells mit OLS
19.5 Anpassung einer konkreten nicht-linearen Funktion
19.6 Schätzung eines nicht-parametrischen Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
394 / 446
Schätzung nicht-linearer Zusammenhänge
19.1 Datensatz zur Aktienanlage
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
395 / 446
Schätzung nicht-linearer Zusammenhänge
Beschreibung Dataset 3
200 Beobachtungen
Datensatz enthält die folgenden Variablen:
Beobachtungsnummer
Geschlecht (Dummy: männlich (0), weiblich (1))
Alter in Jahren
Wert des Aktiendepots in Euro
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
396 / 446
Schätzung nicht-linearer Zusammenhänge
Deskriptive Statistik
Person
Geschlecht
Alter
Aktien
Mittelwert
100.50
0.50
44.88
4656.88
Prof. Dr. Michael Berlemann (HSU)
Standardabw.
57.88
0.50
24.94
8322.28
Min.
1.00
0.00
1.00
0.00
Empirische Wirtschaftsforschung
Max.
200.00
1.00
92.00
70000.00
Median
100.50
0.50
46.00
1000.00
25. Juni 2014
397 / 446
Schätzung nicht-linearer Zusammenhänge
19.2 Schätzung eines linearen Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
398 / 446
Schätzung nicht-linearer Zusammenhänge
Lineare Mehrfachregression (mit White-Korrektur)
Konstante
Alter
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
4550.49
29.14
-2264.01
Std.-Fehler
1274.36
14.74
1353.55
t Wert
3.57
1.98
-1.67
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.05
0.09
25. Juni 2014
399 / 446
Schätzung nicht-linearer Zusammenhänge
Residuenanalyse des linearen Modells
40000
30000
●
20000
●
●
10000
residuals(Regression)
50000
60000
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●●
●●
●
●
● ●●
●
● ●
●●
●●● ●
●● ●
●●●●● ●●●
●●● ●●● ● ●
●
●
●●● ●
●
●
●
●
●● ●
●
●
●
●
●
● ●
●● ●
● ● ●● ● ●●●
● ●
●
●●
●●
●●● ●● ● ●● ●
●
●
●●
●
● ● ●
●
●
●
●
●
0
50
100
150
Index
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
400 / 446
Schätzung nicht-linearer Zusammenhänge
70000
Scatterplot Alter versus Wert des Aktiendepost
50000
40000
●
30000
●
●
20000
●
0
10000
Wert des Aktiendepots
60000
●
●
●
●
●
0
20
●
●
●
●
●
●●
● ●
● ● ● ●
●●●
●
●
●●
●●
●
●
●● ●
●
●
●●
● ●
●● ● ●
●
●
●
●
●
●
●●●●●● ●●●●●●●●●●●●●●
●●●● ●● ●● ●●
●
●●
●
●
●
●
●
●
40
●
●
●●
●●
● ● ●
●●
●
●
●
●●
●
● ●●
●●
●
●●
●
●● ●●
● ●●●● ● ●
●
● ● ●●
●● ● ●
●●●
●
● ●● ●● ●
● ● ● ● ● ●●●●
●●
● ●●●●
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
401 / 446
Schätzung nicht-linearer Zusammenhänge
19.3 Schätzung einer linearen Regression mit geeigneten
Dummyvariablen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
402 / 446
Schätzung nicht-linearer Zusammenhänge
OLS-Regression mit Alters-Dummies (mit White-Korrektur)
Konstante
Geschlecht
Mittleres Alter (40 bis 60)
Hohes Alter (über 60)
Prof. Dr. Michael Berlemann (HSU)
Schätzer
2802.90
-1983.05
11460.69
96.33
Std.-Fehler
613.08
877.54
1683.83
609.06
Empirische Wirtschaftsforschung
t Wert
4.57
-2.26
6.81
0.16
Pr(>|t|)
0.00
0.02
0.00
0.87
25. Juni 2014
403 / 446
Schätzung nicht-linearer Zusammenhänge
19.4 Schätzung eines linear-quadratischen
Erklärungsmodells mit OLS
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
404 / 446
Schätzung nicht-linearer Zusammenhänge
Linear-quadratische Mehrfachregression (mit White-Korrektur)
Konstante
Alter
Alter2
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
-4562.19
624.04
-6.76
-1819.59
Std.-Fehler
877.75
80.06
0.89
971.09
t Wert
-5.20
7.79
-7.56
-1.87
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.00
0.00
0.06
25. Juni 2014
405 / 446
Schätzung nicht-linearer Zusammenhänge
19.5 Anpassung einer konkreten nicht-linearen Funktion
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
406 / 446
Schätzung nicht-linearer Zusammenhänge
Parabelgleichung
Y = A · X2 + B · X + C
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
407 / 446
Schätzung nicht-linearer Zusammenhänge
Anzupassende Funktion
Aktien = A · Alter2 + B · Alter + C + D · Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
408 / 446
Schätzung nicht-linearer Zusammenhänge
Angepasstes Modell
A (Alter2 )
B (Alter)
C (Konstante)
D (Geschlecht)
Prof. Dr. Michael Berlemann (HSU)
Schätzer
-6.76
624.04
-4562.19
-1819.59
Std.-Fehler
0.8606
78.80
1605.05
996.13
Empirische Wirtschaftsforschung
t Wert
-7.85
7.92
-2.84
-1.83
Pr(>|t|)
0.00
0.00
0.01
0.07
25. Juni 2014
409 / 446
Schätzung nicht-linearer Zusammenhänge
50000
Darstellung der geschätzten Parabel
40000
●
30000
●
Aktien
●
●
20000
●
10000
0
●
●
●
●
●●
●
●
● ●
● ●
●
●
● ●
●
●
●●
●
●
● ●
●
●
● ● ●●
●
●
● ●●●
●
●
●●●●●● ● ●●●●●●●● ●●● ● ●● ●
●
0
20
●
●
●
●
●
● ● ●● ●
●
●
40
●
●
●
●●
●
●
●
●●
●● ●●
● ●
●
● ●
●● ● ● ●
● ●●●●
● ● ● ●●
● ●●●●
● ●● ●●●
●● ●● ●
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
410 / 446
Schätzung nicht-linearer Zusammenhänge
19.6 Schätzung eines nicht-parametrischen
Erklärungsmodells
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
411 / 446
Schätzung nicht-linearer Zusammenhänge
Schätzmodell
Aktieni = α + β · Geschlechti + f (Alteri ) + i
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
412 / 446
Schätzung nicht-linearer Zusammenhänge
Parametrische Effekte
Konstante
Geschlecht
Prof. Dr. Michael Berlemann (HSU)
Schätzer
4429.3
581.9
Std.-Fehler
513.7
732.2
t Wert
8.622
0.795
Empirische Wirtschaftsforschung
Pr(>|t|)
0.00
0.43
25. Juni 2014
413 / 446
Schätzung nicht-linearer Zusammenhänge
0
−10000
−5000
s(Alter,6.75)
5000
10000
Nicht-parametrischer Effekt Alter
0
20
40
60
80
Alter
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
414 / 446
Schätzung nicht-linearer Zusammenhänge
Residuenanalyse des nicht-parametrischen Modells
30000
20000
●
●
●
10000
residuals(nl_regression)
40000
50000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
● ● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●● ●● ●●
●
● ●●●●● ● ● ●●
●●
● ●
●
● ●● ●● ●●●●
●
●● ●●● ●
● ●
●
● ●● ● ●
● ●●
● ●● ●
● ●●
●
● ●● ●
●● ● ●
● ●
●
●
● ●● ●
● ●
●
●
●
●
●
●
●●
●
●
● ●●
● ●
●
●
●●
● ●
●
●
−10000
0
●
●
●
●
0
50
100
150
Index
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
415 / 446
Schätzung nicht-linearer Zusammenhänge
Literaturhinweise
Literaturhinweise zum 19. Kapitel
Ritz, Chr. und J. C. Streibig (2008): Nonlinear Regression with R, Use
R!, Springer Verlag, Berlin.
Wood, S. N. (2006): Generalized Additive Models, An Introduction with
R, Texts in Statistical Science, Taylor & Francis Group, Boca Raton.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
416 / 446
Grundlagen der Zeitreihenanalyse
20. Grundlagen der Zeitreihenanalyse
20.1 Zeitreihen
20.2 Maßzahlen für Zeitreihen
20.3 Stationarität von Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
417 / 446
Grundlagen der Zeitreihenanalyse
20.1 Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
418 / 446
Grundlagen der Zeitreihenanalyse
Definition
Eine Zeitreihe ist eine Realisation eines stochastischen Prozesses in
diskreter Zeit
yt mit t ∈ Z
Der Prozess beginnt in −∞ und geht bis +∞.
Die yt sind Ausprägungen von Zufallsvariablen.
Der Prozess ist eine Folge von Zufallsvariablen, die stets dasselbe aber zu
unterschiedlichen, äquidistanten Zeitpunkten messen.
Eine Realisation hat einen Anfang, t = 1, und ein Ende, t = T
yt
Prof. Dr. Michael Berlemann (HSU)
mit
t = 1, ..., T
Empirische Wirtschaftsforschung
25. Juni 2014
419 / 446
Grundlagen der Zeitreihenanalyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
420 / 446
Beobachtungsvariable
Grundlagen der Zeitreihenanalyse
Zeit
Saison
Prof. Dr. Michael Berlemann (HSU)
Zyklus
Trend
irreguläres Element
Realität
Empirische Wirtschaftsforschung
25. Juni 2014
421 / 446
Grundlagen der Zeitreihenanalyse
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
422 / 446
Grundlagen der Zeitreihenanalyse
20.2 Maßzahlen für Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
423 / 446
Grundlagen der Zeitreihenanalyse
Definition
Die Autokorrelation k-ter Ordnung misst die Korrelation zwischen
Werten einer Zeitreihe, die k Perioden voneinander entfernt sind.
In einer Stichprobe ist der Autokorrelationskoeffizient k-ter Ordnung
definiert als
PT
(yt − ȳ) · (yt−k − ȳ)
rk = t=k+1
PT
2
t=1 (yt − ȳ)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
424 / 446
Grundlagen der Zeitreihenanalyse
20.3 Stationarität von Zeitreihen
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
425 / 446
Grundlagen der Zeitreihenanalyse
Tests auf Stationarität
(Augmented) Dickey-Fuller-Test
Phillips-Perron-Test
Elliott-Rothenberg-Stock Test
Schmidt-Phillips-Test
Kwiatkowski-Phillips-Schmidt-Shin-Test
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
426 / 446
Grundlagen der Zeitreihenanalyse
Literaturhinweise
Literaturhinweise zum 20. Kapitel
Cowpertwait, S.P./Metcalfe, A.V. (2009): Introductory Times Series with
R, Use R!, Springer Verlag, Berlin.
Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne
Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 1 und 5].
Pfaff, B. (2008): Analysis of Integrated and Cointegrated Time Series
with R, Use R!, Springer Verlag, Berlin.
Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag,
München [insbes. Kapitel 2].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
427 / 446
21 Univariate Zeitreihenmodelle
21.1 Typen univariater Zeitreihenmodelle
21.2 Schätzung univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
428 / 446
21.1 Typen univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
429 / 446
Typen univariater Zeitreihenmodelle
1
White-Noise-Prozesse (WN)
2
Moving-Average-Prozesse (MA)
3
Random-Walk-Prozesse mit und ohne Drift (RW)
4
Autoregressive Prozesse (AR)
5
Autoregressive Moving-Average-Prozesse (ARMA)
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
430 / 446
Definition
Ein stochastischer Prozess yt heisst Weisses Rauschen (White Noise) wenn
sein Erwartungswert null ist, er eine endliche Varianz σy2 aufweist und
unkorreliert mit allen vorausgegangenen Ausprägungen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
431 / 446
Weisses Rauschen
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
432 / 446
Definition
Ein stochastischer Prozess yt heisst Moving-Average-Prozess des Grades
q wenn er dem folgenden Muster folgt:
yt = c + t + β1 · t−1 + · · · + βq · t−q
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
433 / 446
Moving-Average-Prozess 1.Ordnung
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
434 / 446
Definition
Ein stochastischer Prozess yt mit
yt = yt−1 + t
heisst Random Walk ohne Drift wenn selbst Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
435 / 446
Random Walk ohne Drift
0
0
5
10
15
20
25
30
35
40
-1
-2
-3
-4
-5
-6
-7
-8
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
436 / 446
Definition
Ein stochastischer Prozess yt mit
yt = c + yt−1 + t
heisst Random Walk mit Drift wenn selbst Weisses Rauschen ist. Den
Parameter c bezeichnet man auch als Drift.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
437 / 446
Random Walk mit Drift
14
12
10
8
6
4
2
0
0
5
10
15
20
25
30
35
40
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
438 / 446
Definition
Ein stochastischer Prozess yt heisst autoregressiver Prozess des Grades p
wenn er dem folgenden Muster folgt:
yt = c + α1 · yt−1 + · · · + αp · yt−p + t
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
439 / 446
Autoregressiver Prozess
2
1.5
1
0.5
0
0
5
10
15
20
25
30
35
40
-0.5
-1
-1.5
-2
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
440 / 446
Definition
Ein stochastischer Prozess yt heisst autoregressiver
Moving-Average-Prozess des Grades (p,q) wenn er dem folgenden
Muster folgt:
yt
=
c + α1 · yt−1 + · · · + αp · yt−p
+t + β1 · t−1 + · · · + βq · t−q
wobei Weisses Rauschen ist.
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
441 / 446
Autoregressiver Moving-Average-Prozess (1,1)
14
12
10
8
6
4
2
0
0
5
Prof. Dr. Michael Berlemann (HSU)
10
15
20
25
Empirische Wirtschaftsforschung
30
35
40
25. Juni 2014
442 / 446
21.2 Schätzung univariater Zeitreihenmodelle
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
443 / 446
Informationskriterien
Schwarz-Informationskriterium
Akaike-Informationskriterium
Hannan-Quinn-Informationskriterium
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
444 / 446
Literaturhinweise
Literaturhinweise zum 21. Kapitel
Kirchgässner, G./Wolter, J. (2005): Einführung in die moderne
Zeitreihenanalyse, Verlag Vahlen, München [insbes. Kapitel 2].
Schlittgen, R. (2001): Angewandte Zeitreihenanalyse, Oldenbourg Verlag,
München [insbes. Kapitel 3].
Prof. Dr. Michael Berlemann (HSU)
Empirische Wirtschaftsforschung
25. Juni 2014
445 / 446
Herunterladen