Statistik für Ökonomen, Wintersemester 2010/2011

Werbung
Statistik für Ökonomen
Wintersemester 2010/2011
Dr. Hendrik Hansen
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Was ist Statistik
Umfassendes methodisch-quantitatives Instrumentarium zur
”
Charakterisierung und Auswertung empirischer Befunde [...] mit
universellen Einsatzmöglichkeiten in Politik, Wirtschaft und
Gesellschaft und allen Geistes-, Sozial- und Naturwissenschaften
einschließlich Medizin und Technik, in denen mit Zahlen gearbeitet
wird.“
(Gabler Wirtschaftslexikon)
→ Wissenschaftsdisziplin, die Methoden entwickelt, um aus Zahlen
( Daten“) Informationen, Wissen zu extrahieren
”
Dr. Hendrik Hansen
2
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Ruf der Statistik
Dr. Hendrik Hansen
3
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Ruf der Statistik
Dr. Hendrik Hansen
4
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Wozu Statistik?
Hilfreich/notwendig bei...
I
...der Erstellung von Mietspiegeln
I
...der Prüfung von Kreditwürdigkeiten
I
...der Auswertung der Sonntagsfrage
I
...klinischen Studien ( Medikament A besser als Medikament
”
B?“)
I
...der Beantwortung grundlegender Fragen von Politik und
Gesellschaft
• Verringert regelmäßiges Rauchen Lebenserwartung?
• Verursachen Kernkraftwerke Leukämie?
I
...
Dr. Hendrik Hansen
5
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Wozu Statistik?
Prominentes Beispiel, wo Statistik lebensrettend gewesen wäre:
Challenger-Katastrophe (1986, verursacht durch Dichtungsringe)
Quelle: www.rp-online.de
weitere Infos: Dalal, Fowlkes & Hoadley; JASA (84), S.945-957, 1989
Dr. Hendrik Hansen
6
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Wozu Statistik?
Statistische Unkenntnis → Fehlinterpretationen/ Blamagen drohen
I
Mitteilung der Universität Virginia im Jahr 1984: Absolventen
des Bachelor-Studiengangs Rhetorik und Kommunikation“
”
haben durchschnittliches Einstiegsgehalt von 55.000 Dollar
→ wertlose/irreführende Info, denn einer der Studenten:
R. Sampson, später Houston Rockets (Quelle: Washington Post)
Dr. Hendrik Hansen
7
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Wozu Statistik?
Auch hier wären gewisse Statistikkenntnisse hilfreich gewesen...
Quelle: http://myhome.iolfree.ie
Weitere Beispiele: W. Krämer: So lügt man mit Statistik, Piper, 2008.
Dr. Hendrik Hansen
8
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Prominenter Statistik-Fürsprecher
The ability to take data – to be able to understand it, to process
it, to extract value from it, to visualize it, to communicate it –
that’s going to be a hugely important skill in the next decades.
(H. R. Varian, US-amerikanischer Ökonom, geb. 1947)
Dr. Hendrik Hansen
9
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Themengebiete
Teil A: Deskriptive Statistik
(Komprimierung/übersichtliche Darstellung von Daten)
I
Grafische Darstellung von Daten
I
Lage-, Streuungs- und Zusammenhangsmaße
I
Preisindizes
Teil B: Wahrscheinlichkeitsrechnung
(Beschreibung/Modellierung zufälliger Ereignisse, notw. für Teil C)
I
Zufällige Ereignisse und ihre Wahrscheinlichkeiten
I
Zufallsvariablen
I
Erwartungswert, Varianz und Kovarianz von Zufallsvariablen
I
Ausgewählte Verteilungen
Dr. Hendrik Hansen
10
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Themengebiete
Teil C: Schließende Statistik
(allgemeine Frage wird auf Basis einer Stichprobe beantwortet)
I
Punkt- und Intervallschätzung
I
Statistische Signifikanztests
I
Regressionsanalyse
Dr. Hendrik Hansen
11
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Zur Struktur/Nummerierung
Themengebiete A-C (s.o.)
I
Unterteilung in Kapitel
• Kapitel 1: Grundlegende Begriffe
• Kapitel 2: Grafische Darstellung von Daten
• ...
Dr. Hendrik Hansen
12
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Zur Struktur/Nummerierung
Dem jeweiligen Kapitel entsprechend werden Definitionen und
Beispiele nummeriert
I
Kapitel 1
• Beispiel 1.1, Beispiel 1.2, Definition 1.1,...
I
Kapitel 2
• Beispiel 2.1, Definition 2.1, Definition 2.2,...
I
...
Keine Nummerierung von Bemerkungen
I
Querverweise haben die Form gemäß der Bemerkung nach
”
Definition 1.1 gilt...“
Dr. Hendrik Hansen
13
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Organisatorisches
Termine:
V? Mi
8.30 – 10.00
EF50/HS 1
Hendrik Hansen
?
Ü
Mo
10.00 – 11.00
C/HS 2
Vera Rieder
?
Ü
Mo
11.00 – 12.00
C/HS 2
Vera Rieder
?
Ü
Di
14.00 – 15.00
M/E 29
Natalie Reckmann
?
Ü
Di
15.00 – 16.00
M/E 29
Natalie Reckmann
S? Mi
11.00 – 12.00
CDI/R. 4
Hendrik Hansen
?
V? =Vorlesung, Ü =Übung (Beginn: 18.10.2010), S? =Sprechstunde
Individuelle Terminvergabe außerhalb der Sprechstunde nach
Absprache (telefonisch oder per Mail): 0231/7555419 bzw.
[email protected]
Dr. Hendrik Hansen
14
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Organisatorisches
Wöchentlicher Ablauf
I
Folien zur Mittwochsveranstaltung bis Dienstagmittag im
Netz
I
Übungszettel zum Stoff der Vorlesung bis Mittwochabend
(spätestens Donnerstagmorgen) im Netz → wird in Übungen
der darauffolgenden Woche besprochen
Seite des Instituts für Wirtschafts- und Sozialstatistik:
http://www.statistik.tu-dortmund.de/iwus.html
Folien, Korrekturen und Aufgaben:
http://www.statistik.tu-dortmund.de/iwus-lehre-201011.html
Dr. Hendrik Hansen
15
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Literatur
• Bamberg, G., Baur, F. und Krapp, M. (2009), Statistik, 15.
Auflage, Oldenbourg, München.
• Bleymüller, J., Gehlert, G. und Gülicher, H. (2008), Statistik für
Wirtschaftswissenschaftler, 15. Auflage, Verlag Vahlen, München.
• Krämer, W. (2008), Statistik verstehen – Eine Gebrauchsanweisung,
7. Auflage, Piper, München.
• Pflaumer, P., Heine, B. und Hartung, J. (2005), Statistik für
Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik, 3.
Auflage, Oldenbourg, München.
• Pflaumer, P., Heine, B. und Hartung, J. (2001), Statistik für
Wirtschafts- und Sozialwissenschaften: Induktive Statistik,
Oldenbourg, München.
• Schira, J. (2009), Statistische Methoden der VWL und BWL –
Theorie und Praxis, 3. Auflage, Pearson Studium, München.
Dr. Hendrik Hansen
16
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Teil A: Deskriptive Statistik
Dr. Hendrik Hansen
17
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Aufgaben der deskriptiven Statistik
I
Erhebung von Daten
I
Tabellarische und grafische Darstellung von Daten
I
Charakterisierung großer Datenmengen durch aussagekräftige
Maßzahlen
Dr. Hendrik Hansen
18
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 1: Grundlegende Begriffe
Beispiel 1.1
a) Farben der Fahrzeuge auf dem Uniparkplatz (1. Wagen rot; 2.
Wagen blau,...)
b) Schulnoten einer Grundschulklasse (sehr gut bis ungenügend)
c) Einwohnerzahlen in deutschen Städten (Stadt 1: 581.308; Stadt
2: 376.319,...)
d) Körpergröße der Studenten (in cm) in diesem Hörsaal (Student
1: 175,3; Student 2: 163,8;...)
→ Eigenschaften von Objekten werden durch Daten
wiedergegeben
Objekte hier: Fahrzeug, Schüler, Stadt, Student
Eigenschaften hier: Farbe, Note, Einwohnerzahl, Körpergröße
Dr. Hendrik Hansen
19
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bezeichnungen
I
Die Eigenschaften (der Objekte) werden auch Merkmale oder
Variablen genannt
I
Die zugehörigen Objekte heißen Merkmalsträger
I
Das notierte Merkmal an einem bestimmten Merkmalsträger
heißt Merkmalsausprägung oder Beobachtung
I
Merkmale werden mit großen Buchstaben bezeichnet
I
Merkmalsausprägungen werden mit kleinen Buchstaben und
der Nummer des Merkmalsträgers bezeichnet
Dr. Hendrik Hansen
20
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 1.2
(vgl. Beispiel 1.1)
a) Merkmal W =Fahrzeugfarbe; Merkmalsträger=Fahrzeug;
Merkmalsausprägung von Merkmalsträger 5 : w5 =rot
b) Merkmal X=Note; Merkmalsträger=Schüler;
Merkmalsausprägung von Merkmalsträger 3 : x3 =befriedigend
c) Merkmal Y =Einwohnerzahl; Merkmalsträger=Stadt;
Merkmalsausprägung von Merkmalsträger 10 : y10 =150.386
d) Merkmal Z=Körpergröße; Merkmalsträger=Student;
Merkmalsausprägung von Merkmalsträger 40 : z40 =181,6
Ersichtlich außerdem: Art/Typ der Daten ist unterschiedlich!
Dr. Hendrik Hansen
21
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 1.1
Betrachte abermals Beispiel 1.1
I
Daten vom Typ a) sind keine Zahlen und lassen sich nicht
ordnen; Derartige Merkmale heißen qualitativ oder
nominal skaliert (Datenausprägungen als Namen auffassbar)
I
Daten vom Typ b) können in eine Rangordnung gebracht
werden (sehr gut, gut,...,ungenügend) und sind numerisch
kodierbar: 1 < 2 < ... < 6; Solche Merkmale heißen
ordinal skaliert (nicht qualitativ; Merkmalsausprägungen
lassen sich in natürlicher Reihenfolge anordnen, wobei die
Abstände zwischen den Beobachtungen nicht sinnvoll
interpretierbar sind)
Dr. Hendrik Hansen
22
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 1.1 (Fortsetzung)
I
In c) entsprechen die Merkmalsausprägungen Zahlen →
derartige Merkmale heißen kardinal skaliert oder quantitativ;
Merkmalsausprägungen lassen sich in natürlicher Reihenfolge
anordnen, Abstände ebenfalls interpretierbar
I
Datenstruktur von d) ähnlich zu c)
I
Unterschied c) und d): In d) könnte Körpergröße theoretisch
beliebig genau gemessen werden → Merkmalsausprägung
kann jeden reellen Zahlenwert im Intervall [0,210] annehmen
(Unterstellung hier: 210 cm=Maximalgröße) → derartige
Merkmale heißen quantitativ stetig; In c) können die
Beobachtungen nur ganzzahlige Werte annehmen → derartige
Merkmale heißen quantitativ diskret
Dr. Hendrik Hansen
23
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Jede Messung eines stetigen Merkmals ist aufgrund
begrenzter Messgenauigkeit praktisch diskret; Die Stetigkeit,
das heißt die Annahme, dass jede beliebige Zahl realisierbar
ist, ist eine Idealisierung
I
In der Praxis werden diskrete Merkmale mit vielen“
”
Merkmalsausprägungen oft wie stetige Merkmale behandelt
(Beispiel: Einkommen); auch umgekehrter Fall (durch
Klassieren der Daten) möglich
Beispiel 1.3
I
Weitere nominal skalierte Merkmale: Geschlecht (w/m),
Geburtsort, Konfession, Familienstand der Studenten in
diesem Hörsaal,...
I
Weitere ordinal skalierte Merkmale: Sozialer Status,
Aggressivität, Kundenzufriedenheit, Tabellenplätze,...
Dr. Hendrik Hansen
24
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 1.3 (Fortsetzung)
I
Weitere quantitativ diskrete Merkmale: Einkommen, Anzahl
geschossener Tore, Anzahl Krankschreibungen pro Person und
Jahr,...
I
Weitere quantitativ stetige Merkmale: Zeit, Gewicht,
Temperatur,...
Definition 1.2
Gegeben sei ein Merkmal X
I
Die Menge N aller möglichen Merkmalsträger heißt
Grundgesamtheit (x1 , ..., xN zugehörige Beobachtungen)
I
Erhebung aller N Beobachtungen ↔ Vollerhebung
I
Meist jedoch: Betrachtung einer Stichprobe von n
Merkmalsträgern wobei n < N
Dr. Hendrik Hansen
25
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 2: Grafische Darstellung von Daten
Beispiel 2.1
I
Heimtore Borussia Dortmund, Saison 2009/2010 (17 Spiele):
1, 1, 1, 0, 2, 2, 0, 4, 1, 1, 2, 4, 3, 3, 2, 1, 1
Quelle: www.spox.com
Dr. Hendrik Hansen
26
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.1 (Fortsetzung)
I
Was sieht man?
I
Betrachte z.B., wie oft sich die fünf auftretenden Anzahlen an
Toren (0-4) über die Saison verteilt realisieren
Anzahl Tore
Wie oft aufgetreten
0
2
1
7
2
4
3
2
4
2
→ Eins ist der (mit Abstand) am häufigsten auftretende Wert
Dr. Hendrik Hansen
27
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 2.1
I
Gegeben sei ein Merkmal X mit k möglichen
Merkmalsausprägungen a1 , ..., ak
I
Beobachte nun n Ausprägungen x1 , ..., xn
I
Die Anzahl der xi mit xi = aj wird mit H(aj ) bezeichnet und
heißt absolute Häufigkeit der Ausprägung aj
I
h(aj ) = H(aj )/n heißt relative Häufigkeit von aj
Dr. Hendrik Hansen
28
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.2
(BVB-Tore, vgl. Beispiel 2.1)
Tore aj
0
1
2
3
4
Dr. Hendrik Hansen
H(aj )
2
7
4
2
2
P
= 17
h(aj )
2/17=0,117
7/17=0,412
4/17=0,235
2/17=0,117
2/17=0,117
P
=1
29
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.2 (Fortsetzung)
Möglichkeiten der grafischen Darstellung?
z.B. Säulendiagramm
0.3
0.2
0.0
0.1
rel. Häufigkeit h(aj)
0.4
0.5
I
0
1
2
3
4
Tore aj
I
Säulendiagramm auch mit absoluten Häufigkeiten erstellbar;
Stäbe statt Rechtecken → Stabdiagramm
Dr. Hendrik Hansen
30
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.2 (Fortsetzung)
Vertausche im Säulendiagramm x− und y−Achse →
Balkendiagramm
2
0
1
Tore aj
3
4
I
0
1
2
3
4
5
6
7
Abs. Häufigkeit H(aj)
Dr. Hendrik Hansen
31
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.2 (Fortsetzung)
I
Andere Möglichkeit zur grafischen Darstellung der BVB-Tore:
Kreisdiagramm
1
0
4
2
3
I
Größe des einzelnen Tortenstücks“ ist proportional zur
”
entsprechenden Häufigkeit
Dr. Hendrik Hansen
32
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 2.2
I
Situation wie in Definition 2.1 (Merkmal X, mögliche
Ausprägungen a1 , ..., ak , Beobachtung von n Ausprägungen
x1 , ..., xn )
I
X mindestens ordinal skaliert
I
Die empirische Verteilungsfunktion Fn (x) ist gleich der
Summe der relativen Häufigkeiten aller
Merkmalsausprägungen kleiner oder gleich x
I
Formell:
Fn (x) =
X
h(ai )
(x ∈ R)
ai ≤x
I
Fn (x) entspricht dem Anteil an Beobachtungen, die höchstens
den Wert x haben
Dr. Hendrik Hansen
33
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.3
(BVB-Tore, vgl. die Beispiele 2.1 und 2.2)


0








h(0) = 2/17







2/17 + h(1) = 9/17
F17 (x) =


9/17 + h(2) = 13/17








13/17 + h(3) = 15/17







1
Dr. Hendrik Hansen
für x < 0
für 0 ≤ x < 1
für 1 ≤ x < 2
für 2 ≤ x < 3
für 3 ≤ x < 4
für x ≥ 4
34
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.3 (Fortsetzung)
1.0
Fn(x) der BVB−Tore
●
0.6
●
0.4
●
0.2
F17(x)
0.8
●
0.0
●
−1
0
1
2
3
4
5
BVB−Tore x
Dr. Hendrik Hansen
35
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.3 (Fortsetzung)
1.0
Fn(x) der BVB−Tore − Ablesebeispiel
●
0.6
●
0.4
●
0.2
F17(x)
0.8
●
0.0
●
−1
0
1
2
3
4
5
BVB−Tore x
→ In ca. 80 Prozent der Spiele (genauer: in F17 (2) · 100 = 76, 5
Prozent) sind weniger als drei Tore gefallen
Dr. Hendrik Hansen
36
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Eigenschaften von Fn (x))
I
Fn (x) ∈ [0, 1] für alle x
I
Fn (x) ist monoton nicht fallend
I
Fn (x) ist rechtsseitig stetig
I
Es gilt:
lim Fn (x) = 0
x→−∞
Dr. Hendrik Hansen
und
lim Fn (x) = 1.
x→∞
37
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.4
Lebensdauer (in Betriebsstunden) von Ventilen in
kunststoffverarbeitendem Betrieb, vgl. Bamberg et al. (2007)
I
110, 520, 490, 30, 120, 290, 370, 305, 415, 170, 280, 70, 540,
460, 260, 345, 150, 220, 435, 425, 470, 350, 130, 380, 230,
320, 360, 240, 330, 580
I
30 unterschiedliche Beobachtungen → Säulen/Kreisdiagramm
bringen keinen Informationsgewinn
0.8
1.0
I
240
230
220
170
150
260
130
280
120
0.6
290
110
305
70
320
30
0.4
330
580
345
540
350
520
360
490
0.2
370
470
415
425
435
460
0.0
380
30
Dr. Hendrik Hansen
120
170
240
290
330
360
415
460
520
38
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.4 (Fortsetzung)
I
Empirische Verteilungsfunktion konstruierbar
1.0
Fn(x) der Ventillebensdauern
●
●
●
●
●
0.8
●
●
●
●
●
●
0.6
●
●
F30(x)
●
●
●
●
0.4
●
●
●
●
●
●
0.2
●
●
●
●
●
●
0.0
●
0
100
200
300
400
500
600
Lebensdauer der Ventile x (in Stunden)
Dr. Hendrik Hansen
39
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.4 (Fortsetzung)
I
Weitere Möglichkeit: Klassierung der Daten in Intervalle (jetzt
H(ai ) bzw. h(ai ) absolute bzw. relative Klassenhäufigkeit)
Klasse
Nr.
1
2
3
4
Dr. Hendrik Hansen
von ... bis
unter ... Stunden
0 - 200
200 - 300
300 - 400
400 - 600
H(aj )
7
6
8
9
h(ai )
7/30
6/30
8/30
9/30
h(ai )
Klassenbreite
7/6000
6/3000
8/3000
9/6000
40
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.4 (Fortsetzung)
Histogramm: Betrachte aneinander angrenzende Rechtecke
in Klassenbreite; Höhe der Rechtecke: h(ai )/Klassenbreite
0.0015
0.0000
0.0005
0.0010
Balkenhöhe
0.0020
0.0025
0.0030
I
0
100
200
300
400
500
600
Lebensdauer der Ventile x (in Stunden)
Dr. Hendrik Hansen
41
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Die Fläche der einzelnen Balken im Histogramm ist
proportional zur relativen Häufigkeit im entsprechenden
Intervall:
Balkenhöhe=h(ai )/Klassenbreite
→ h(ai ) = Balkenhöhe · Klassenbreite = Balkenfläche
I
Probleme bei zu grober Klasseneinteilung: Zu viel
Informationsverlust
I
Probleme bei zu feiner Klasseneinteilung: Unübersichtlichkeit,
da viele Klassen gering/gar nicht besetzt sind
I
Bei großer Variation der Daten können unterschiedliche
Klassenbreiten sinnvoll sein, wenn möglich sind jedoch Klassen
mit gleicher Breite wünschenswert
Dr. Hendrik Hansen
42
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.5
(Lebensdauer Ventile, vgl. Beispiel 2.4)
0.0020
0.0015
0.0010
0.0000
0.0005
Balkenhöhe
0.0025
0.0030
Histogramm der Ventillebensdauern, andere Klassierung
0
100
200
300
400
500
600
Lebensdauer der Ventile x (in Stunden)
Dr. Hendrik Hansen
43
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 2.5 (Fortsetzung)
1.0
Fn(x) Ventile, unklassierte & klassierte Daten
●
0.8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
F30(x)
0.6
●
0.4
●
0.2
●
●
0.0
●
0
●
●
●
●
100
●
●
●
●
●
200
●
300
400
500
600
Lebensdauer der Ventile x (in Stunden)
Sprungstelle hier: Klassenuntergrenze; weitere Möglichkeiten:
Klassenobergrenze, Klassenmitte,...
Dr. Hendrik Hansen
44
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Säulen/Stab-, Balken- und Kreisdiagramm für nominal,
ordinal und kardinal skalierte Merkmale geeignet
I
Empirische Verteilungsfunktion für ordinal und kardinal
skalierte Merkmale geeignet
I
Histogramm nur für kardinal skalierte Merkmale geeignet
Dr. Hendrik Hansen
45
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 3: Lagemaße
Ziel
Komprimierung der Daten zu einer Kenngröße, welche die Lage,
das Zentrum der Daten beschreibt
Dr. Hendrik Hansen
46
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 3.1
Seien x1 , ..., xn Ausprägungen eines kardinal skalierten Merkmals
X, dann heißt
n
1X
x̄a =
xi
n
i=1
arithmetisches Mittel von X.
Beispiel 3.1
(Ventillebensdauern, vgl. Kapitel 2)
n
x̄a =
1
1X
xi =
· (110 + 520 + ... + 580) = 313, 17
n
30
i=1
Dr. Hendrik Hansen
47
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.1 (Fortsetzung)
I
Vorgehen, wenn Daten lediglich in klassierter Form vorliegen?
I
Betrachte etwa Klassierung wie in Beispiel 2.5
Klasse (von ... bis
unter ... Stunden)
0 - 100
100 - 200
200 - 300
300 - 400
400 - 500
500 - 600
Dr. Hendrik Hansen
h(aj )
2/30
5/30
6/30
8/30
6/30
3/30
Klassenmittel
50
136
253,33
345
449,17
546,67
Klassenmitte
50
150
250
350
450
550
48
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 3.2
Gegeben sei ein kardinal skaliertes Merkmal X mit Ausprägungen
x1 , ..., xn und zugehörigen Gewichten g1 , ..., gn , für die
gi ≥ 0 für alle i = 1, ..., n und
n
X
gi = 1
i=1
gelte. Dann heißt
x̄ga =
n
X
gi xi = g1 x1 + ... + gn xn
i=1
gewichtetes arithmetisches Mittel von X.
Dr. Hendrik Hansen
49
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.2
(Ventillebensdauern, Klassierung wie in Beispiel 3.1)
I
Verwende relative Häufigkeiten h(ai ) als Gewichte gi
a) Annahme: Klassenmittel bekannt
x̄ga =
2
5
3
· 50 +
· 136 + ... +
· 546, 67 = 313, 17 = x̄a
30
30
30
klar, da
2
1
5
1
30 · [ 2 (30 + 70)] + 30 · [ 5 (110 + ... + 170)] + ...
3
1
+ 30
· [ 13 (520 + 540 + 580)] = 30
· (30 + 70 + ... +
x̄a
x̄ga =
=
Dr. Hendrik Hansen
580)
50
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.2 (Fortsetzung)
b) Annahme: Klassenmittel unbekannt
x̄ga =
2
5
3
· 50 +
· 150 + ... +
· 550 = 316, 67
30
30
30
bei unbekanntem Klassenmittel stimmen x̄a und x̄ga in der
Regel nicht überein
Dr. Hendrik Hansen
51
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.3
a) Betrachte für die letzten 15 Jahre die Platzierungen des BVB
in der Bundesliga-Abschlusstabelle: 5, 6, 13, 9, 7, 7, 6, 3, 1, 3,
11, 4, 10, 3, 1 → Durchschnittlicher Tabellenplatz (gemäß des
arithmetischen Mittels): x̄a = 5, 93̄ → ???
Dr. Hendrik Hansen
I
Derartige Angabe nicht sinnvoll interpretierbar, da
Tabellenplätze normalerweise ganzzahlig
I
Tabellenplätze außerdem ordinal skaliert → die möglichen
Platzierungen (1-18) sind nicht naturgegeben, könnten daher
(unter Beibehaltung der Reihenfolge) auch willkürlich in
andere Zahlen transformiert werden (z.B. 1; 2,5; 3; 5; 7,7; ... ;
99); x̄a und x̄ga gegenüber derlei Umskalierungen nicht robust
52
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.3 (Fortsetzung)
b) Betrachte 10 Personen, 9 davon haben ein Jahreseinkommen
von 40.000 Euro; Person 10: Jahreseinkommen von 500.000
Euro (fiktive Zahlen) → x̄a = 86.000 Euro → x̄a (und auch
x̄ga ) sehr anfällig gegenüber Ausreissern“
”
Definition 3.3
Sei X ein mindestens ordinal skaliertes Merkmal mit beobachteten
Ausprägungen x1 , x2 , . . . , xn . Mit x(i) ist der i-te Wert der
aufsteigend geordneten Daten bezeichnet. Dann heißt

x( n+1 ) ,
n ungerade
2
x̄m =
1 · x n + x n
2
(2)
( 2 +1) , n gerade
Median von X.
Dr. Hendrik Hansen
53
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.4
(vgl. Beispiel 3.3)
a) Im Durchschnitt hat der BVB in der
Bundesliga-Abschlusstabelle auf Basis der letzten 15 Jahre
den 6. Platz belegt, denn
n = 15 = ungerade → x̄m = x(8)
und
x(1) = x(2) = 1, x(3) = ... = x(5) = 3, x(6) = 4, x(7) = 5,
x(8) = x(9) = 6, x(10) = x(11) = 7, x(12) = 9, x(13) = 10,
x(14) = 11, x(15) = 13
Dr. Hendrik Hansen
54
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.4 (Fortsetzung)
b) Das Durchschnittseinkommen der 10 Personen im fiktiven
Beispiel aus Beispiel 3.3 b) beträgt (gemäß des Medians)
40.000 Euro, denn
n = 10 = gerade → x̄m =
1
· (x(5) + x(6) )
2
und
x(1) = ... = x(9) = 40.000, x(10) = 500.000
80.000
→ x̄m =
= 40.000
2
Dr. Hendrik Hansen
55
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
I
Der Median stimmt oft mit einer beobachteten Ausprägung
überein
I
Der Median ist robuster gegenüber Ausreissern als x̄a und x̄ga
I
Nachteil des Medians: Häufig großer Informationsverlust, da
nur die mittleren Beobachtungen relevant sind
Dr. Hendrik Hansen
56
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Eigenschaften von arithm. Mittel und Median)
I
Bei linearen Datentransformationen der Form
yi = a · xi + b mit
a 6= 0
(i = 1, . . . , n)
gilt:
ȳ a = a · x̄a + b und ȳ m = a · x̄m + b.
I
Beide Lagemaße minimieren jeweils eine Zielfunktion:
!
!
n
n
X
X
x̄a = argmin
(xi − z)2 und x̄m = argmin
|xi − z|
z∈R
Dr. Hendrik Hansen
i=1
z∈R
i=1
57
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.5
I
Kardinal skaliertes Merkmal: Arithmetisches Mittel; Ordinal
skaliertes Merkmal: Median; Nominale Skalierung: ???
I
Notiere etwa Farbe der Fahrzeuge auf dem Uniparkplatz:
rot, grün, grün, blau, blau, rot, schwarz, weiss, rot, schwarz
(vergleiche Beispiel 1.1) → sinnvolles Lagemaß?
Definition 3.4
Als Modalwert bzw. Modus wird die Ausprägung eines beliebig
skalierten Merkmals X bezeichnet, die am häufigsten auftritt;
Bezeichnung: x̄mod
Dr. Hendrik Hansen
58
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.6
(vgl. Beispiel 3.5, Fahrzeugfarben)
I
Häufigkeiten der beobachteten Farben: 3×rot, 2×blau,
2×grün, 2×schwarz, 1×weiss → x̄mod =rot
Bemerkung (Nachteile des Modus)
I
Modalwert muss nicht eindeutig sein
I
Bei quantitativ stetigen Daten sind oft sämtliche
Beobachtungen unterschiedlich voneinander; hier liefert der
Modus keine Informationen → Klassierung der Daten; als
Modus kann die Mitte der Klasse mit der größten
Klassenhäufigkeit aufgefasst werden (im Rahmen der
Klassierung von Beispiel 3.1 gilt also x̄mod = 350)
Dr. Hendrik Hansen
59
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.7
I
Aktienkurse zu drei Zeitpunkten (fiktiv)
Zeitpunkt i
Aktienkurs xi
Wachstumsrate ri
Wachstumsfaktor (1 + ri )
0
100
wobei ri =
I
1
160
0,6
1,6
2
100
-0,375
0,625
xi − xi−1
xi−1
Durchschnittliche Wachstumsrate?
r̄a =
1
· (0, 6 + (−0, 375)) = 0, 1125
2
→ Unsinn, da (wegen x0 = x2 ) r̄ = 0 gelten muss
(r̄ = sinnvolles Lagemaß)
Dr. Hendrik Hansen
60
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 3.5
I
Sei X ein kardinal skaliertes Merkmal mit Ausprägungen
x1 , ..., xn ≥ 0. Dann heißt
√
x̄geo = n x1 · x2 · · · xn
das geometrische Mittel von x1 , ..., xn .
Beispiel 3.8
(vgl. Beispiel 3.7)
I
Auch negative Wachstumsraten möglich (hier etwa
geo
r2 = −0, 375) → berechne geometrisches Mittel (1 + r)
geo
aus den Wachstumsfaktoren → r̄geo = (1 + r) − 1
p
geo
(1 + r) = 1, 6 · 0, 625 = 1 → r̄geo = 1 − 1 = 0
Dr. Hendrik Hansen
61
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
a) Herleitung des geometrischen Mittels (exemplarisch anhand
Situation aus Beispiel 3.7 bzw. 3.8)
I
Kurs z. Zeitpkt. 0 : x0
Kurs z. Zeitpkt. 1 : x0 + r1 · x0 = x0 · (1 + r1 ) = x1
Kurs z. Zeitpkt. 2 : x2 = x1 · (1 + r2 ) = x0 · (1 + r1 ) · (1 + r2 )
I
Gesucht: Geeigneter Durchschnitt von r1 , r2 (= r̄)
I
Anforderungen an r̄ :
!
x0 · (1 + r1 ) · (1 + r2 ) = x0 · (1 + r̄) · (1 + r̄) = x0 · (1 + r̄)2
→ Division durch x0 und Auflösung nach r̄ :
p
p
(1 + r̄) = 2 (1 + r1 ) · (1 + r2 ) → r̄ = 2 (1 + r1 ) · (1 + r2 ) − 1
Dr. Hendrik Hansen
62
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1 (Fortsetzung)
b) Allgemein gilt x̄geo ≤ x̄a (x̄geo = x̄a genau dann, wenn
x1 = ... = xn )
c) Verwende x̄geo , falls Merkmalsausprägungen relativen
Änderungen entsprechen
Dr. Hendrik Hansen
63
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2
I
Andere Lagemaße, die nicht unbedingt dem Durchschnitt der
Merkmalsausprägungen entsprechen: Quantile
I
Sei 0 < p < 1; Jeder Wert xp , für den mindestens ein Anteil
p · 100 Prozent der Daten kleiner/gleich xp , und mindestens
ein Anteil (1 − p) · 100 Prozent größer/gleich xp ist, heißt
p−Quantil, d.h.
Fn (xp ) ≥ p
Dr. Hendrik Hansen
und
Anzahl(x−Werte ≥ xp )
≥1−p
n
64
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
I
Problem: xp muss nicht eindeutig sein - betrachte etwa ein
beliebiges Merkmal mit Ausprägungen 1 bis 10; gesucht:
0, 2−Quantil
→ Fn (x) = 0, 2 für 2 ≤ x < 3, Fn (3) = 0, 3 und
(
0, 9 x = 2
Anzahl(Beobachtungen ≥ x)
=
10
0, 8 2 < x ≤ 3
→ sämtliche x ∈ [2, 3] erfüllen die Bedingungen des
0,2-Quantils
Dr. Hendrik Hansen
65
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 3.6
(eindeutige Definition des p−Quantils)
Für 0 < p < 1 und ein mindestens ordinal skaliertes Merkmal X
mit den beobachteten Ausprägungen x1 , x2 , . . . , xn heißt
(
x
xp = 1 (bnpc+1)
2 · x(np) + x(np+1)
np
np
nicht ganzzahlig
ganzzahlig
p−Quantil von X (bnpc = größter ganzzahliger Wert mit
bnpc ≤ np).
Dr. Hendrik Hansen
66
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Fiktives Zahlenbeispiel aus Bemerkung 2 vor Definition 3.6
(Merkmal X mit Ausprägungen 1-10):
n = 10, p = 0.2 → n · p = 2 ganzzahlig → nach Definition
3.6 ist x0,2 = 1/2 · (x(2) + x(3) ) = 2, 5
b) Besonders gebräuchliche Quantile
I
0,25-Quantil x0,25 (unteres Quartil)
I
0,75-Quantil x0,75 (oberes Quartil)
I
Median x̄m = x0,5
→ x(1) , x0,25 , x̄m , x0,75 , x(n) = 5-Punkte-Zusammenfassung
Dr. Hendrik Hansen
67
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Grafische Darstellung der 5-Punkte-Zusammenfassung durch
Box-Plot
Dr. Hendrik Hansen
I
Schachtel (Box): beinhaltet 50 Prozent der mittleren Daten;
Anfang der Box: x0,25 ; Ende der Box: x0,75
I
Strich in der Box: markiert den Median
I
Whiskers“ (Barthaare): Linien, welche Anfang bzw. Ende der
”
Box mit x(1) bzw. x(n) verbinden
68
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.9
(BVB-Abschlussplatzierungen,vgl. Beispiel 3.3)
I
x(1) , ..., x(15) = 1, 1, 3, 3, 3, 4, 5, 6, 6, 7, 7, 9, 10, 11, 13
I
p = 0, 25 → n · p = 15 · 0, 25 = 3, 75 nicht ganzzahlig
→ x0,25 = x(4) = 3
I
p = 0, 5 → x̄m = x(8) = 6, vgl. Beispiel 3.4
I
p = 0, 75 → n · p = 15 · 0, 75 = 11, 25 nicht ganzzahlig
→ x0,75 = x(12) = 9
Dr. Hendrik Hansen
69
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 3.9 (Fortsetzung)
Boxplot der BVB−Platzierungen
2
4
6
8
10
12
Platzierung
Dr. Hendrik Hansen
70
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
12
10
8
6
4
2
Platzierung Schalke 04
8
6
4
2
Platzierung BVB
10
12
Beispiel 3.9 (Fortsetzung)
Dr. Hendrik Hansen
71
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
(Fazit zu Lagemaßen)
I
(Gewichtetes) arithmetisches Mittel nur für kardinal skalierte
Merkmale geeignet
I
Geometrisches Mittel ebenfalls nur bei kardinalem
Messniveau; bei relativen Änderungen (z.B. durchschnittlichen
Wachstumsraten) zu verwenden
I
Median/Quantile für ordinal und kardinal skalierte Merkmale
geeignet
I
Modus für alle Skalenniveaus verwendbar (bei stetigen,
unklassierten Daten allerdings oft ohne Aussagekraft)
Dr. Hendrik Hansen
72
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 4: Streuungsmaße
Motivation
Lagemaß fasst Zentrum/Schwerpunkt der Daten in einer
Kenngröße zusammen; wie weit sich die Daten um dieses Zentrum
herum bewegen wird durch Lagemaß jedoch nicht deutlich
Dr. Hendrik Hansen
73
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 4.1
I
Zwei (fiktive) Aktienkurse X und Y , zu fünf
aufeinanderfolgenden Zeitpunkten beobachtet
Zeitpunkt
Kurs X
Kurs Y
I
1
90
80
2
105
130
3
102,5
90
4
95
85
5
107,5
115
x̄a = 100 und ȳ a = 100 → Lagemaß allein zur Beschreibung
eines Datensatzes oft nicht ausreichend
Dr. Hendrik Hansen
74
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
120
130
Beispiel 4.1 (Fortsetzung)
110
Aktie Y
80
90
100
Kurs
Aktie X
1
2
3
4
5
6
Zeitpunkt
Dr. Hendrik Hansen
75
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 4.1
Betrachte ein kardinal skaliertes Merkmal X mit Ausprägungen
x1 , ..., xn . Dann heißt
Rx = max {xi } − min {xi }
i
i
= x(n) − x(1)
Spannweite von X und
Qx = x0,75 − x0,25
Quartilsabstand von X.
Dr. Hendrik Hansen
76
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 4.2
(vgl. Beispiel 4.1, Börsenkurse)
I
Geordnete Reihe x(1) , ..., x(n) von Kurs X : 90 ; 95 ; 102, 5 ;
105 ; 107, 5 ; Kurs Y : 80 ; 85 ; 90 ; 115 ; 130 ⇒
Rx = 107, 5 − 90 = 17, 5
und
Ry = 130 − 80 = 50
I
0, 25 × 5 = 1, 25 → x0,25 = x(2) = 95, y0,25 = y(2) = 85;
0, 75 × 5 = 3, 75 → x0,75 = x(4) = 105, y0,75 = y(4) = 115,
also ist
Qx = 105 − 95 = 10 und
Qy = 115 − 85 = 30
Dr. Hendrik Hansen
77
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Spannweite einfachstes Streuungsmaß, leicht zu berechnen;
findet Anwendung in Bereichen, wo Extremwerte interessant
sind (Börsenkurse, Warenpreise,...)
I
Nachteil Spannweite: Sehr empfindlich gegenüber Ausreissern,
da nur größte und kleinste Beobachtung berücksichtigt
werden
I
Quartilsabstand gegenüber Ausreissern robuster, beschreibt
zentralen“ Bereich der Daten
”
Weder Spannweite noch Quartilsabstand beziehen sich auf ein
Lagemaß
I
Dr. Hendrik Hansen
78
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 4.2
Betrachte ein kardinal skaliertes Merkmal X mit Ausprägungen
x1 , ..., xn . Dann heißt
n
dx =
1X
| xi − x̄m |
n
i=1
mittlere absolute Abweichung (vom Median) von X und
∆x =
n
n
1 XX
| xi − xj |
n2
i=1 j=1
mittlere absolute Differenz von X.
Dr. Hendrik Hansen
79
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 4.3
(vgl. Beispiele 4.1 & 4.2, Börsenkurse)
I
x̄m = 102, 5 und ȳ m = 90 →
dx
=
1
(| 90 − 102, 5 | + | 105 − 102, 5 | + | 102, 5 − 102, 5 |
5
+ | 95 − 102, 5 | + | 107, 5 − 102, 5 |) = 5, 5
und
dy
Dr. Hendrik Hansen
=
1
(| 80 − 90 | + | 85 − 90 | + | 90 − 90 |
5
+ | 115 − 90 | + | 130 − 90 |) = 16 > dx
80
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 4.3 (Fortsetzung)
∆x
=
=
1
(| 90 − 90 | + | 90 − 105 | + | 90 − 102, 5 | + · · ·
25
· · · + | 107, 5 − 95 | + | 107, 5 − 107, 5 |)
7, 2
und
∆y
=
=
1
(| 80 − 80 | + | 80 − 130 | + | 80 − 90 | + · · ·
25
· · · + | 130 − 115 | + | 130 − 130 |)
20, 8 > ∆x
→ Es gilt dx < dy und ∆x < ∆y ,
→ Beide Streuungsmaße entsprechen der Grafik in Beispiel 4.1
(größere Streuung von Kurs Y im Vergleich zu X)
Dr. Hendrik Hansen
81
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Mittlere absolute Abweichung und mittlere absolute Differenz
sind feinere Streuungsmaße als Spannweite und der
Quartilsabstand, da alle Beobachtungen berücksichtigt werden
I
Im Gegensatz zu Spannweite, Quartilsabstand und mittlerer
absoluter Differenz bezieht sich dx auf ein Lagemaß, nämlich
den Median
I
Ebenfalls berechenbar: Mittlere absolute Abweichung von
einem anderen Lagemaß (z.B. arithmetischem Mittel)
I
Nachteil von dx und ∆x im Vergleich zu Spannweite und
Quartilsabstand: Erheblich höherer Rechenaufwand (die
Doppelsumme in Beispiel 4.3 etwa resultiert in 25
Summanden)
Dr. Hendrik Hansen
82
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 4.3
Betrachte ein Merkmal X mit kardinalem Skalenniveau und
Ausprägungen x1 , ..., xn . Dann heißt
n
s2x =
1X
(xi − x̄a )2
n
i=1
Varianz oder mittlere quadratische Abweichung von X und
sx =
p
s2x
Standardabweichung von X.
Dr. Hendrik Hansen
83
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 4.4
(vgl. Beispiele 4.1, 4.2 & 4.3, Börsenkurse)
I
x̄a = ȳ a = 100 (vgl. Beispiel 4.1) →
s2x
=
=
1 (90 − 100)2 + (105 − 100)2 + (102, 5 − 100)2
5
+ (95 − 100)2 + (107, 5 − 100)2
p
42, 5 und sx = s2x = 6, 519
und
s2y
=
=
1 (80 − 100)2 + (130 − 100)2 + (90 − 100)2
5
+ (85 − 100)2 + (115 − 100)2
q
370 > s2x und sy = s2y = 19, 235 > sx
→ Größere Streuung von Kurs Y im Vergleich zu Kurs X wird
durch beide Maße ebenfalls wiedergegeben
Dr. Hendrik Hansen
84
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Varianz bzw. Standardabweichung populärste Streuungsmaße
b) Standardabweichung hat gleiche Dimension/Maßeinheit wie
die Ausprägungen → wird manchmal gegenüber der Varianz
bevorzugt; betrachte etwa Aktie X aus Beispiel 4.4:
sx = 6, 519 Euro, s2x = 42, 5 Euro2
c) s2x = 0 ↔ xi = x̄a für alle i = 1, ..., n
d) Definition 4.3: Dividiere die summierten und quadrierten
Differenzen durch n → häufig auch Division durch n − 1;
Grund: später
Dr. Hendrik Hansen
85
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
e) Alternative Berechnung von s2x (immer mit Formel aus
Definition 4.3 übereinstimmend):
n
s2x =
1X 2
xi − (x̄a )2
n
i=1
I
Überprüfe e) anhand Aktie X (vgl. die Beispiele 4.1 bis 4.4)
s2x
1
902 + 1052 + 102, 52 + 952 + 107, 52 − 1002
5
= 10042, 5 − 10000 = 42, 5
=
→ gleiches Ergebnis wie in Beispiel 4.4 (dort Verwendung der
Formel aus Definition 4.3)
Dr. Hendrik Hansen
86
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
f) Seien yi transformierte Werte von xi mit yi = a · xi + b
(a, b ∈ R, i = 1, ..., n). Dann gilt
I
Ry = |a| · Rx
I
Qy = |a| · Qx
I
dy = |a| · dx
I
∆y = |a| · ∆x
I
s2y = a2 · s2x bzw. sy = |a| · sx ,
außerdem sind alle Streuungsmaße immer nicht negativ!
Dr. Hendrik Hansen
87
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
g) Fazit zu Streuungsmaßen
Dr. Hendrik Hansen
I
Sämtliche Streuungsmaße (Spannweite, Quartilsabstand,
mittlere Absolute Abweichung, mittlere absolute Differenz,
Varianz und Standardabweichung) nur für kardinal skalierte
Merkmale geeignet
I
Neben Lagemaß liefert Streuungsmaß weitere Infos über die
Datenbeschaffenheit → Streuungsmaß kann als Ergänzung zu
Lagemaß angesehen werden (Varianz kennzeichnet etwa
Repräsentativität des Mittelwertes)
I
Beispiel 4.1, Aktienkurse: Betrachte Lagemaß (Mittelwert)
alleine → Beide Datensätze erscheinen ähnlich/gleich
(Trugschluß, vergleiche Grafik in Beispiel 4.1) → zusätzliche
Angabe eines Streuungsmaßes klärt den Sachverhalt auf
88
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 5: Zusammenhangsmaße
Beispiel 5.1
I
Werbeausgaben und Umsätze verschiedener Firmen (fiktiv)
Firma
Nr. i
1
2
3
4
5
6
7
Werbeausgaben Xi
(in 1.000 Euro)
100
200
300
400
500
600
700
Umsatz Yi
(in Mio. Euro)
38
45
52
62
72
70
81
→ Struktur der Daten?
Dr. Hendrik Hansen
89
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.1 (Fortsetzung)
I
Kapitel 1-4: Betrachte für Merkmal X und Merkmal Y etwa
die empirischen Verteilungsfunktionen
Fn(y) des Umsatzes
1.0
1.0
Fn(x) der Werbeausgaben
●
●
0.8
●
0.8
●
●
0.6
0.6
●
●
0.4
●
0.4
●
F7(y)
F7(x)
●
0.2
●
0.2
●
0.0
●
0.0
●
0
200
400
600
Werbeausgaben X (in 1.000 Euro)
Dr. Hendrik Hansen
800
30
40
50
60
70
80
90
Umsatz Y (in Mio Euro)
90
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.1 (Fortsetzung)
I
Mittelwert und Varianz der Merkmale X und Y :
x̄a = 400, s2x = 40.000; ȳ a = 60, s2y = 208, 86
I
Trage Ausprägung xi gegen Ausprägung yi ab
●
70
●
60
●
●
50
Umsatz Y (in Mio Euro)
80
●
40
●
●
100
200
300
400
500
600
700
Werbeausgaben X (in 1.000 Euro)
→ (positiver) Zusammenhang von X und Y , der weder von
emp. Verteilungsfunktion, Mittelwert noch Varianz
berücksichtigt wird → Zusammenhangsmaß vonnöten
Dr. Hendrik Hansen
91
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Bisher: Ein Merkmal pro Merkmalsträger
I
Jetzt: Zwei Merkmale pro Merkmalsträger
I
Gesucht: Maßzahlen, die den Zusammenhang zwischen diesen
beiden Merkmalen beschreiben
Dr. Hendrik Hansen
92
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.2
(Umsätze & Werbeausgaben von Firma i, vgl. Beispiel 5.1)
Eine Möglichkeit: Einteilung des Koordinatensystems in vier
Quadranten durch Mittelwerte
●
60
70
xa = 400
●
II
III
ya = 60
●
●
I
IV
●
50
Umsatz Y (in Mio Euro)
80
I
40
●
●
100
200
300
400
500
600
700
Werbeausgaben X (in 1.000 Euro)
Dr. Hendrik Hansen
93
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.2 (Fortsetzung)
I
I
Idee nun
I
Häufung der Beobachtungen in den Quadranten I und III →
positiver Zusammenhang
I
Häufung der Beobachtungen in den Quadranten II und IV →
negativer Zusammenhang
I
Ähnlich große Beobachtungszahlen in den Quadrantenpaaren
(I,III) und (II,IV) → kein Zusammenhang
Hier:
I +
II +
III
IV
=
=
3,5
0,5
+
+
3
0
=
=
6,5
0,5
→ stark“ positiver Zusammenhang (fasse hierbei die
”
Beobachtung (x4 , y4 ) = (400, 62) als halb zum ersten und
halb zum zweiten Quadranten zugehörig auf)
Dr. Hendrik Hansen
94
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Kriterium aus Beispiel 5.2 recht grob, Entfernung der
Beobachtungen vom Zentrum“ (x̄a , ȳ a ) wird nicht
”
berücksichtigt →
I
Betrachte abermals Umsätze und Werbeausgaben aus Beispiel
5.1 und 5.2
I
Beobachtung y3 = 52 Mio. Euro verändere sich zu y3neu = 38
Mio. Euro
I
Beobachtung y5 = 72 Mio. Euro verändere sich zu y5neu = 86
Mio. Euro
a
→ ȳneu
= ȳ a = 60 Mio. Euro (x̄aneu = x̄a = 400.000 Euro
sowieso)
Dr. Hendrik Hansen
95
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
a) (Fortsetzung)
90
Daten mit verändertem y3 & y5
90
Originaldaten aus Bsp 5.2
●
●
I
IV
●
80
●
70
60
ya = 60
●
xa = 400
II
III
200
●
I
IV
●
40
40
●
●
100
ya = 60
50
II
III
●
Umsatz Y (in Mio Euro)
60
70
xa = 400
●
50
Umsatz Y (in Mio Euro)
80
●
300
400
500
600
Werbeausgaben X (in 1.000 Euro)
700
●
100
●
200
300
400
500
600
700
Werbeausgaben X (in 1.000 Euro)
→ Gemäß des Kriteriums aus Beispiel 5.2 ist es egal, ob sich
Beobachtungen y3 und y5 oder y3neu und y5neu realisieren,
der Zusammenhang bleibt gleich stark
Dr. Hendrik Hansen
96
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Motiviert durch Teil a): Fordere unterschiedliche Gewichtung
der Daten, je nach Entfernung von (x̄a , ȳ a ) → Gewicht für
Beobachtungspaar i : (xi − x̄a )(yi − ȳ a )
I
xi > x̄a und yi > ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) > 0
I
xi < x̄a und yi < ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) > 0 (Quadr. III)
I
xi < x̄a und yi > ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) < 0
I
xi > x̄a und yi < ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) < 0 (Quadr. IV)
I
xi = x̄a oder yi = ȳ a ⇒ (xi − x̄a )(yi − ȳ a ) = 0
(Quadr. I)
(Quadr. II)
→ Berechne (xi − x̄a )(yi − ȳ a ) für alle Beobachtungspaare
und betrachte den Durchschnitt
Dr. Hendrik Hansen
97
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 5.1
Für zwei kardinal skalierte Merkmale X und Y mit den
beobachteten Ausprägungen x1 , x2 , . . . , xn und y1 , y2 , . . . , yn heißt
n
sxy
1X
=
(xi − x̄a )(yi − ȳ a )
n
i=1
Kovarianz (oder gemeinsame Streuung) von X und Y .
Dr. Hendrik Hansen
98
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.3
(Umsätze & Werbeausgaben von Firma i, vgl. Beispiele 5.1 und
5.2)
xi
100
200
300
400
500
600
700
P
2.800
yi
38
45
52
62
72
70
81
420
xi − x̄a
-300
-200
-100
0
100
200
300
0
yi − ȳ a
-22
-15
-8
2
12
10
21
0
(xi − x̄a ) · (yi − ȳ a )
6.600
3.000
800
0
1.200
2.000
6.300
19.900
→ sxy = 1/7 × 19.900 = 2.842, 86
Dr. Hendrik Hansen
99
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.3 (Fortsetzung)
I
Für die veränderten Daten aus Bemerkung b) nach Beispiel
5.2 (y3 → y3neu , y5 → y5neu ) ergibt sich sneu
xy = 3242, 86
Bemerkung
a) Für die Kovarianz gilt sxy =
1
n
Pn
i=1 xi
· yi − x̄a · ȳ a
b) Betrachte lineare Transformationen der Form
x?i = a · xi + b und yi? = c · yi + d (a, b, c, d ∈ R, i = 1, ..., n),
dann gilt sx? y? = a · c · sxy
→ Kovarianz ist abhängig von der Maßeinheit
c) sxy repräsentiert Richtung des Zusammenhangs zwischen zwei
Variablen (positiv → sxy > 0, negativ → sxy < 0); keine
Aussage über Stärke des Zusammenhangs möglich
Dr. Hendrik Hansen
100
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.4
(Umsätze & Werbung, vgl. Beispiele 5.1 bis 5.3)
a) Messe Werbeausgaben nun in 100(= 1.000/10) Euro, Umsatz
in 100.000(= 1.000.000/10) Euro
xi
1.000
2.000
3.000
4.000
5.000
6.000
7.000
P
28.000
yi
380
450
520
620
720
700
810
4.200
xi − x̄a
-3.000
-2.000
-1.000
0
1.000
2.000
3.000
0
yi − ȳ a
-220
-150
-80
20
120
100
210
0
(xi − x̄a ) · (yi − ȳ a )
660.000
300.000
80.000
0
120.000
200.000
630.000
1.990.000
→ sxy = 1/7 × 1.990.000 = 284285, 7 = 10 × 10 × 2.842, 86
Dr. Hendrik Hansen
101
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.4 (Fortsetzung)
b) Betrachte (neben Daten aus Bsp. 5.1 und 5.2) noch einmal
die veränderten Ausprägungen aus Bem. a) nach Bsp. 5.2
90
Daten mit verändertem y3 & y5
90
Originaldaten aus Bsp 5.2
●
●
I
IV
●
80
●
70
60
y = 60
●
●
xa = 400
II
III
●
200
●
I
IV
●
40
40
●
100
y = 60
a
50
II
III
a
Umsatz Y (in Mio Euro)
60
70
xa = 400
●
50
Umsatz Y (in Mio Euro)
80
●
300
400
500
600
Werbeausgaben X (in 1.000 Euro)
700
●
100
●
200
300
400
500
600
700
Werbeausgaben X (in 1.000 Euro)
→ Grafik: Positiver Zusammenhang bei Originaldaten stärker;
dies durch Kovarianzen nicht quantifiziert (sxy = 2.842, 86
und sneu
xy = 3242, 86), vgl. Bem. c) nach Bsp. 5.3
Dr. Hendrik Hansen
102
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 5.2
Für zwei kardinal skalierte Merkmale X und Y mit den
beobachteten Ausprägungen x1 , . . . , xn und y1 , . . . , yn heißt
n
P
rxy
(xi − x̄a ) (yi − ȳ a )
sxy
=
= s i=1
sx · sy
n
n
P
P
(xi − x̄a )2 ·
(yi − ȳ a )2
i=1
i=1
Bravais-Pearson-Korrelationskoeffizient von X und Y .
Dr. Hendrik Hansen
103
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.5
(Umsätze & Werbung, vgl. Beispiele 5.1 bis 5.4)
a) Für die Originaldaten aus den Beispielen 5.1 und 5.2 ergibt
sich
s2x = 40.000 und s2y = 208, 86
2842, 86
rxy = √
= 0, 984
40.000 · 208, 86
→ Umrechnung der Maßeinheiten in 100 Euro (Werbung)
bzw. 100.000 Euro (Umsatz) verändert diesen Wert nicht
rx? y?
Dr. Hendrik Hansen
=
√
284285, 7
= 0, 984
4.000.000 · 20886
104
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.5 (Fortsetzung)
b) Datenvariation aus Bemerkung a) nach Beispiel 5.2
s2,neu
= 40.000 und s2,neu
= 344, 86
x
y
3242, 86
neu
rxy
= √
= 0, 873 < 0, 984 = rxy
40.000 · 344, 86
→ Zusammenhang der veränderten Daten schwächer“
”
Dr. Hendrik Hansen
105
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
(Eigenschaften von sxy , rxy )
a) Für die Kovarianz gilt
(I)
| sxy |
≤
sx · sy
(II)
| sxy |
=
sx · sy
⇔ yi = a · xi + b mit a 6= 0,
also gilt für den Bravais-Pearson-Korrelationskoeffizienten
(III)
−1 ≤ rxy ≤ 1
(IV)
rxy = 1 ⇔ yi = a · xi + b mit a > 0
(V)
rxy = −1 ⇔ yi = a · xi + b mit a < 0
Dr. Hendrik Hansen
106
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Bedeutung von Bemerkung a), (IV) & (V)
rxy = 1
●
●
Y
Y
●
●
rxy = − 1
●
●
●
●
●
●
X
Dr. Hendrik Hansen
X
107
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Vorsicht: rxy = 0 heißt nicht, dass kein Zusammenhang
besteht, sondern dass kein linearer Zusammenhang vorliegt;
Betrachte Merkmal X mit Ausprägungen −2, −1, 0, 1, 2 und
Merkmal Y mit Ausprägungen yi = 0.5 × x2i (d.h. Merkmal X
erklärt Merkmal Y komplett) → rxy = 0!
2.0
I
●
●
Y
0.5
1.0
1.5
rxy = 0
0.0
●
●
●
−2
−1
0
1
2
X
Dr. Hendrik Hansen
108
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
d) Vorsicht: Korrelation ist nicht gleich Kausalität,
Zusammenhang kann etwa durch dritte Einflussgröße
Verursacht werden
I
Beispiel 1 (aus www.statistics4u.info): Schuhgröße und
Kalziumgehalt der Knochen positiv korreliert; Grund: Kinder
haben weniger Kalzium in den Knochen als Erwachsene, und
natürlich geringere Schuhgrößen
I
Beispiel 2: Zahl der Störche und Kinderanzahl pro Ehepaar
positiv korreliert; Grund: Je ländlicher die Gegend, umso mehr
Störche gibt es, und umso mehr Kinder werden pro Ehepaar
geboren
→ halte den dritten Faktor (in Bsp. 1 etwa das Alter und in
Bsp. 2 die Größe der untersuchten Stadt) konstant
→ beide Korrelationen“ verschwinden
”
Dr. Hendrik Hansen
109
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.6
I
Erhebe an 11 Studenten die Punktezahlen in der Statistikbzw. Mathematik-Klausur (vgl. Bamberg et al., 2007)
Student
Mathe
Statistik
A
38
39
B
47
34
C
44
31
D
51
48
E
35
46
F
29
23
G
22
17
H
14
12
I
12
16
J
19
28
K
9
10
→ Zusammenhang der Merkmale?
I
Problem bei Bravais-Pearson-Koeffizient: Kardinales
Skalenniveau hier zumindest fragwürdig
Dr. Hendrik Hansen
I
Annahme: Ab 20 Punkten ist die Mathematikklausur
bestanden → Abstand zwischen 19 und 20 Punkten sicherlich
größer, als etwa zwischen 35 und 36 Punkten
I
Umskalierungen bei Punktevergabe möglich
110
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 5.3
Betrachte zwei Merkmale X und Y mit mindestens ordinalem
Skalenniveau und Ausprägungen x1 , ..., xn bzw. y1 , ..., yn . Die
Beobachtung xk stehe in der Reihe x(1) , ..., x(n) der aufsteigend
geordneten Daten an Stelle l (d.h. xk = x(l) ). Dann heißt
R(xk ) = l
Rang von xk (R(yi ) analog) und
n
P
R
rxy
=s
R(xi ) − R̄xa
R(yi ) − R̄ya
i=1
n
P
i=1
R(xi ) − R̄xa
n
2
2 P
R(yi ) − R̄ya
·
i=1
Rangkorrelationskoeffizient nach Spearman
Dr. Hendrik Hansen
111
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.7
(Klausurpunkte Mathe & Statistik, vgl. Bsp. 5.6)
Student
xi
R(xi )
yi
r(yi )
A
38
8
39
9
B
47
10
34
8
C
44
9
31
7
D
51
11
48
11
E
35
7
46
10
F
29
6
23
5
G
22
5
17
4
H
14
3
12
2
I
12
2
16
3
J
19
4
28
6
K
9
1
10
1
→ R̄xa = R̄ya = 6
Dr. Hendrik Hansen
112
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.7 (Fortsetzung)
Stud.
A
B
C
D
E
F
G
H
I
J
K
P
R(xi ) − R̄xa = Mi
2
4
3
5
1
0
-1
-3
-4
-2
-5
0
Mi2
4
16
9
25
1
0
1
9
16
4
25
110
R
→ rxy
=√
Dr. Hendrik Hansen
R(yi ) − R̄ya = Si
3
2
1
5
4
-1
-2
-4
-3
0
-5
0
Si2
9
4
1
25
16
1
4
16
9
0
25
110
Mi · Si
6
8
3
25
4
0
2
12
12
0
25
97
97
= 0, 88
110 · 110
113
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
(Eigenschaften des Rangkorrelationskoeffizienten nach Spearman)
R ≤1
a) −1 ≤ rxy
R = 1 ⇔ R(x ) = R(y ) für alle i
b) rxy
i
i
R = −1 ⇔ R(x ) = n − R(y ) + 1 für alle i
c) rxy
i
i
Dr. Hendrik Hansen
114
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
R den monotonen Zusammend) Gemäß Teil b) und c) misst rxy
hang zweier Merkmale (im Gegensatz zum Bravais-PearsonKoeffizienten, der den linearen Zusammenhang misst)
rxy = 1
rRxy = 1
●
●
●
●
●
●
●
→
y
R(y)
●
●
●
●
●
●
●
●
●
●
●
●
●
x
R(x)
rvw < 1
●
rRvw
=1
●
●
●
●
w
→
R(w)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
v
Dr. Hendrik Hansen
R(v)
115
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.8
I
Zwei Personen testen 10 italienische Rotweine und bewerten
sie mit Noten von 1 bis 5 (vgl. www.statistics4u.info)
Wein Nr.
1
2
3
4
5
6
7
8
9
10
Dr. Hendrik Hansen
Note xi Pers. 1
1
2
4
5
2
2
4
3
1
4
Note yi Pers. 2
2
3
5
4
2
2
3
4
3
2
116
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.8 (Fortsetzung)
I
Noten ordinal skaliert → Spearman
I
Problem: Bindungen (d.h. eine Ausprägung tritt mehrfach auf:
Person 1 vergibt z.B. 2× die Note 1) → Durchschnittsränge
I
Betrachte sortierte Ausprägungen x(i) von Person 1:
1, 1, 2, 2, 2, 3, 4, 4, 4, 5 → R(x(1) ) = R(x(2) ) =
1+2
= 1, 5
2
3+4+5
= 4, R(x(6) ) = 6
3
7+8+9
R(x(7) ) = ... = R(x(9) ) =
= 8, R(x(10) ) = 10
3
R(x(3) ) = ... = R(x(5) ) =
I
Analoges Vorgehen mit sortierten Ausprägungen y(i) von
Person 2
Dr. Hendrik Hansen
117
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 5.8 (Fortsetzung)
Wein Nr.
1
2
3
4
5
6
7
8
9
10
xi
1
2
4
5
2
2
4
3
1
4
R(xi )
1,5
4
8
10
4
4
8
6
1,5
8
yi
2
3
5
4
2
2
3
4
3
2
R(yi )
2,5
6
10
8,5
2,5
2,5
6
8,5
6
2,5
R
→ rxy
= 0, 5
Dr. Hendrik Hansen
118
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Treten keine Bindungen auf, so gilt
R
rxy
=1−
n
X
6
n (n2
− 1)
(R(xi ) − R(yi ))2
i=1
b) Fazit zu Zusammenhangsmaßen
Dr. Hendrik Hansen
I
Kovarianz nicht normiert
I
Bravais-Pearson-Korrelationskoeffizient normierte Kennzahl für
linearen Zusammenhang
I
rxy = 0 9 kein Zusammenhang zwischen X und Y , sondern:
rxy = 0 → kein linearer Zusammenhang zwischen X und Y
I
Rangkorrelationskoeffizient nach Spearman misst monotonen
Zusammenhang
I
Korrelation 6= Kausalität
119
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 6: Elementare Regressionsrechnung
Beispiel 6.1
Produkt wird in Supermarkt auf Regalen unterschiedlicher Höhen
positioniert → Tagesabsätze des Produktes:
i
1
2
3
4
5
6
7
xi (Regalhöhe in m)
0,9
1,0
1,25
1,3
1,1
1,35
1,4
yi (Tagesabsatz)
7
8
10
11
8
12
13
Linearer Zusammenhang zwischen X und Y ? Kardinales
Skalenniveau → Bravais-Pearson-Koeffizient: rxy = 0, 97
→ stark positiver linearer Zusammenhang
Dr. Hendrik Hansen
120
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.1 (Fortsetzung)
13
●
11
●
10
●
9
Tagesabsatz Y
12
●
7
8
●
●
●
0.9
1.0
1.1
1.2
1.3
1.4
Regalhöhe X (in m)
Dr. Hendrik Hansen
121
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.1 (Fortsetzung)
Frage nun: Was ist erwarteter Tagesabsatz bei einer Regalhöhe
von 1,18 m? → Ermittlung einer Geraden, die den linearen
Zusammenhang zwischen X und Y gut“ beschreibt
”
I Eine Möglichkeit: Über Extrempunkte → erwarteter
Tagesabsatz=10
13
●
11
●
●
9
10
O
●
7
8
Tagesabsatz Y
12
●
●
●
0.9
1.0
1.1
1.2
1.3
1.4
Regalhöhe X (in m)
Dr. Hendrik Hansen
122
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.1 (Fortsetzung)
Weitere Möglichkeit: Augenmaß → erwarteter Tagesabsatz=9
●
13
I
12
●
10
●
9
O
●
●
●
6
7
8
Tagesabsatz Y
11
●
0.9
1.0
1.1
1.2
1.3
1.4
Regalhöhe X (in m)
Dr. Hendrik Hansen
123
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
⇒ Ziel der Elementaren Regressionsrechnung
Erfassung des Zusammenhangs zweier kardinal skalierter Merkmale
X und Y durch eine Gerade der Form
yi = a + b xi
(i = 1, . . . , n)
Vorteile einer linearen Modellierung:
I
einfacher und leicht berechenbarer Zusammenhang
I
ausführlich erforschte Theorie
I
kompliziertere Zusammenhänge oft linearisierbar bzw. (auf
bestimmten Bereichen) gut durch lineare Funktion
approximierbar
Dr. Hendrik Hansen
124
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 6.1
a) Seien X und Y kardinal skalierte Merkmale mit Ausprägungen
x1 , ..., xn bzw. y1 , ..., yn , außerdem a, b ∈ R. Das Modell
yi = a + b xi + ui ,
i = 1, . . . , n,
heißt einfaches lineares Regressionsmodell. Hierbei bezeichnet
ui = yi − a − b xi die i−te Störgröße (notwendig, da perfekt
linearer Zusammenhang fast nie auftritt, vgl. Beispiel 6.1)
Dr. Hendrik Hansen
125
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 6.1 (Fortsetzung)
b) Krit. zur Best. von a und b : Minimiere Summe der quadrierten (vertikalen) Abstände zwischen Beob. und Geraden.
|c| =Länge der Linie c (|d| − |g| analog) → â und b̂ so dass
|c|2 + |d|2 + |e|2 + |f |2 + |g|2 =min!
Dr. Hendrik Hansen
126
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 6.1 (Fortsetzung)
b) Kriterium zur Bestimmung von a und b (Fortsetzung)
Die Koeffizienten der Geraden, die dieses Kriterium erfüllen,
sind gegeben durch
n
P
b̂ =
sxy
=
s2x
(xi − x̄a )(yi − ȳ a )
i=1
n
P
und
(xi − x̄a )2
i=1
a
â = ȳ − b̂ · x̄
a
Die Gerade
ŷi = â + b̂ xi ,
i = 1, . . . , n,
heißt KQ-Gerade (KQ=Kleinste Quadrate, da quadrierte
Abstände minimiert werden).
Dr. Hendrik Hansen
127
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.2
(Tagesabsätze & Regalhöhen eines Produkts, vgl. Bsp. 6.1)
Beschreibe linearen Zusammenhang von X (Regalhöhe) und Y
(Tagesabsatz) durch KQ-Gerade → für die Koeffizienten gilt
gemäß Def. 6.1 b)
b̂ =
sxy
0, 355
= 11, 639
=
2
sx
0, 03
und
â = 9, 857 − 11.639 · 1, 186 = −3, 943
Die KQ-Gerade lautet damit
ŷi = −3, 943 + 11, 639 · xi
Dr. Hendrik Hansen
128
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.2 (Fortsetzung)
Ausprägungen (xi,yi)+KQ−Gerade
13
●
12
●
9
10
●
●
●
●
6
7
8
Tagesabsatz Y
11
●
0.9
1.0
1.1
1.2
1.3
1.4
Regalhöhe X (in m)
Dr. Hendrik Hansen
129
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.2 (Fortsetzung)
Frage Bsp. 6.1: Erwarteter Tagesabsatz bei Regalhöhe von 1,18 m?
→ über KQ-Gerade: erwarteter Tagesabsatz=9
Ausprägungen (xi,yi)+KQ−Gerade
13
●
12
●
●
9
10
O
●
●
●
6
7
8
Tagesabsatz Y
11
●
0.9
1.0
1.1
1.2
1.3
1.4
Regalhöhe X (in m)
Dr. Hendrik Hansen
130
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Definition 6.1 → KQ-Gerade ŷi = â + b̂ xi im Sinne der Fehlerquadratsumme unter allen möglichen Geraden optimal.
Frage: Wieviel Informationen über Originaldaten liefert
KQ-Gerade?
→Betrachte Varianz der yi ,
n
s2y =
1X
(yi − ȳ a )2
n
i=1
Dr. Hendrik Hansen
131
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
Es gilt (nur bei KQ-Gerade)
n
s2y =
n
n
1X
1X
1X
(yi − ȳ a )2 =
(ŷi − ȳ a )2 +
(yi − ŷi )2
n
n
n
| i=1 {z
} | i=1 {z
} | i=1 {z
}
A
B
C
A = Gesamtstreuung s2y
B = Teil von s2y , der durch Gerade ŷi = â + b̂ xi erklärt wird
C = Teil von s2y , der durch ŷi = â + b̂ xi nicht erklärt wird
Je kleiner C, umso besser beschreibt ŷi = â + b̂ xi die Daten
→ Idee: Betrachte B/A ∈ [0, 1]
Dr. Hendrik Hansen
132
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 6.2
Betrachte einfaches lineares Regressionsmodell yi = a + bxi + ui ,
(i = 1, ..., n) und â, b̂ ∈ R die Koeffizienten der KQ-Geraden. Die
Größe
n
P
R2 =
(ŷi − ȳ a )2
i=1
n
P
(yi − ȳ a )2
i=1
heißt Bestimmtheitsmaß.
Dr. Hendrik Hansen
133
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Für das Bestimmtheitsmaß gilt:
a) 0 ≤ R2 ≤ 1
b) Je näher R2 bei 1, desto besser erklärt KQ-Gerade den
linearen Zusammenhang zwischen X und Y
c) Je näher R2 bei 0, desto schlechter erklärt KQ-Gerade den
linearen Zusammenhang zwischen X und Y
Dr. Hendrik Hansen
134
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.3
(Tagesabsatz Y in Abh. von Regalhöhe X, vgl. Bsp. 6.1 & 6.2)
KQ-Gerade (Bsp. 6.2): ŷi = −3, 943 + 11, 639 · xi →
xi
0,9
1,0
1,25
1,3
1,1
1,35
1,4
Dr. Hendrik Hansen
yi
7
8
10
11
8
12
13
ŷi
6,53
7,70
10,61
11,19
8,86
11,77
12,35
(ŷi − ȳ a )2
11,06
4,67
0,56
1,77
1,00
3,66
6,22
P
= 28, 93
(yi − ȳ a )2
8,16
3,45
0,02
1,31
3,45
4,60
9,88
P
= 30, 86
135
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.3 (Fortsetzung)
Es ergibt sich somit ein Bestimmtheitsmaß von
→ R2 =
28, 93
= 0, 937
30, 86
Die KQ-Gerade erklärt also 93,7% der Varianz der yi
Dr. Hendrik Hansen
136
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 6.4
Lineares Regressionsmodell bei nichtlinearen Zusammenhängen
a) X = Alter des PKWs, Y = Wert des PKWs
Y =a+b
1
X
⇒
Y = a + b X?
mit
X? =
1
X
b) Cobb-Douglas-Produktionsfunktion:
Y = Produktionsmenge, X1 = Arbeit, X2 = Kapital
Y = α X1b X2c
⇒
Y ? = a + b X1? + c X2?
mit Y ? = log Y , a = log α, X1? = log X1 , X2? = log X2
Dr. Hendrik Hansen
137
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit zur elementaren Regressionsrechnung
I
Modelliert linearen Zusammenhang zwischen zwei metrisch
skalierten Merkmalen
I
Ursache“ (X) und Wirkung“ (Y ) dabei bekannt
”
”
I
Modellierter Zusammenhang auf gegebenen Datenbereich
beschränkt
Dr. Hendrik Hansen
138
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 7: Preisindizes
Beispiel 7.1
I
(Fiktive) wöchentliche Ausgaben für Freizeitgestaltung
Benzin
Kino
Schwimmbad
Sep. 2009
Preis
Menge
1,40 Euro/l
10 l
6,00 Euro
2
3,50 Euro
1
Sep. 2010
Preis
Menge
1,35 Euro/l
12 l
7,00 Euro
1
5,00 Euro
1
→ Veränderung des Preisniveaus?
Dr. Hendrik Hansen
139
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 7.1 (Fortsetzung)
a) 1. Idee: Vergleich der Durchschnittspreise
I
2009 : p̄a = 3, 63; 2010 : p̄a = 4, 45 → Durchschnittspreis
von 3,63 Euro um ca. 23 Prozent auf 4,45 Euro gestiegen
I
Problem - konsumierte Mengen werden nicht berücksichtigt:
Benzin wird zu beiden Zeitpunkten am häufigsten konsu”
miert“ → hier verringert sich Preis sogar!
b) 2. Idee: Vergleich der Gesamtausgaben
I
2009 : 10 × 1, 4 + 2 × 6 + 3, 5 = 29, 50 Euro;
2010 : 12 × 1, 35 + 7 + 5 = 28, 20 Euro
→ Gesamtausgaben sind 2010 geringer als 2009
→ wie lassen sich a) und b) in Einklang bringen?
Dr. Hendrik Hansen
140
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 7.1 (Fortsetzung)
c) Ausweg: Mengen gleich lassen, vergleiche z.B. Kosten der
Mengen von 2009 bei Preisniveau von 2010 mit
Gesamtausgaben von 2009
I
Gesamtausgaben 2009=29,5 Euro, vgl. b)
I
Kosten der Mengen von 2009 im Jahr 2010:
10 × 1, 35 + 2 × 7 + 5 = 32, 5 Euro
→ Mengen von 2009 kosten im Jahr 2010
Prozent mehr
Dr. Hendrik Hansen
32,5−29,5
29,5
× 100 = 10, 17
141
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 7.1
Bezeichne mit
I
p0 (i) den Preis von Gut Nr. i in Periode 0
I
pt (i) den Preis von Gut Nr. i in Periode t
I
q0 (i) die konsumierte Menge von Gut Nr. i in Periode 0.
Dann heißt
n
P
L
P0t
=
i=1
n
P
pt (i) · q0 (i)
p0 (i) · q0 (i)
i=1
Preisindex nach Laspeyres für die Berichtsperiode t zur
Basisperiode 0.
Dr. Hendrik Hansen
142
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Der Preisindex nach Laspeyres vergleicht hypothetische
Gesamtausgaben in Berichtsperiode mit tatsächlichen
Gesamtausgaben in Basisperiode; Beantwortet die Frage,
wieviel Warenkorb der Basisperiode in Berichtsperiode kostet
b) Beispiel 7.1, c) → für Warenkorb Freizeitgestaltung“ ergibt
”
sich
L
P09,10
=
32, 5
= 1, 1017
29, 5
(Berichtsperiode 2010, Basisperiode 2009)
Dr. Hendrik Hansen
143
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Preisindex nach Laspeyres als gewichtetes arithmetisches
Mittel der individuellen Preisverhältnisse darstellbar. Genauer:
L
P0t
=
n
X
g0 (i) ·
i=1
pt (i)
p0 (i)
mit
g0 (i) =
=
Ausgaben für Gut i in Basisperiode
Gesamtausgaben in Basisperiode
p0 (i) · q0 (i)
n
P
p0 (j) · q0 (j)
j=1
Dr. Hendrik Hansen
144
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 7.2
(Ausgaben für Freizeitgestaltung, vgl. Beispiel 7.1)
L , vgl. Bem. c) nach Def. 6.1
Alternative Berechnung von P0t
g0 (1) =
14
,
29, 5
g0 (2) =
12
29, 5
und g0 (3) =
3, 5
,
29, 5
also:
L
=
P09,10
14 1, 35
12 7, 00
3, 5 5, 00
·
+
·
+
·
29, 5 1, 40 29, 5 6, 00 29, 5 3, 50
= 1, 1017.
Dr. Hendrik Hansen
145
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 7.2
Notationen wie in Definition 7.2, außerdem bezeichne qt (i) die
konsumierte Menge von Gut Nr. i in Periode t. Dann heißt
n
P
P
P0t
=
i=1
n
P
pt (i) · qt (i)
p0 (i) · qt (i)
i=1
Preisindex nach Paasche für die Berichtsperiode t zur Basisperiode 0.
Dr. Hendrik Hansen
146
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Der Preisindex nach Paasche
I
verwendet Mengen der Berichtsperiode und bestimmt
durchschnittliche Preisänderung (Laspeyres-Index: Gleiches
Vorgehen, verwendet allerdings Mengen der Basisperiode)
I
vergleicht tatsächliche Gesamtausgaben in Berichtsperiode
mit hypothetischen Gesamtausgaben in Basisperiode
I
beantwortet Frage, wieviel Warenkorb aus Berichtsperiode in
Basisperiode gekostet hätte
Dr. Hendrik Hansen
147
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 7.3
(Ausgaben für Freizeitgestaltung, vgl. Beispiel 7.1 & 7.2)
Für den Warenkorb Freizeitgestaltung“ ergibt sich
”
P
P09,10
=
1, 35 · 12 + 7, 00 · 1 + 5, 00 · 1
28, 2
=
1, 40 · 12 + 6, 00 · 1 + 3, 50 · 1
26, 3
= 1, 072.
→ Gemäß Paasche-Index beträgt mittlerer Preisanstieg 7,2 %
Dr. Hendrik Hansen
148
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
I
L > P P ; Grund: Bei allgemeiner Preissteigerung
Häufig gilt P0t
0t
werden verhältnismäßig günstige Güter stärker konsumiert als
teure Artikel (Substitution teurer durch günstige Güter) →
wird durch Laspeyres-Index nicht berücksichtigt
I
Paasche-Index benötigt wesentlich mehr Informationen
(Mengenangaben aus allen Berichtsperioden) als
Laspeyres-Index (Mengenangaben aus Basisperiode)
I
Laspeyres-Index in Praxis weiter verbreitet
Dr. Hendrik Hansen
149
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1 (Fortsetzung)
I
Auch Paasche-Index als gewichtetes arithmetisches Mittel der
individuellen Preisverhältnisse darstellbar:
P
P0t
=
n
X
i=1
gt (i) ·
pt (i)
p0 (i)
mit
gt (i) =
=
hypothetische Ausgaben für Gut i in Basisperiode
hypothetische Gesamtausgaben in Basisperiode
p0 (i) · qt (i)
n
P
p0 (j) · qt (j)
j=1
Dr. Hendrik Hansen
150
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Preisindex in der Praxis)
Der Verbraucherpreisindex (VPI) in Deutschland
I
Monatlich vom Statistischen Bundesamt berechnet
I
Aufgabe:
• Beschreibung der Preisentwicklung aller Waren &
Dienstleistungen, die von privaten Haushalten konsumiert
werden
• Orientierung (Inflation, Lohnverhandlungen,...)
I
Datengrundlage:
• Warenkorb enthält alle relevanten Güter und Dienstleistungen,
Aktualisierung alle 5 Jahre → Laspeyres-Index
• Preise der Güter im Warenkorb werden monatlich in denselben
Geschäften (repräsentative Stichprobe) erhoben, außerdem
zentrale Preiserfassung (Versandhäuser...)
Dr. Hendrik Hansen
151
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
I
Berechnung: Mehrfaches (gewichtetes) arithmetisches Mitteln
• Elementarindex pro Gut/Dienstleistung und pro Bundesland
(arithmetisches Mittel der Preisreihen)
• Gesamtdeutscher Teilindex pro Gut/Dienstleistung
(gewichtetes arithmetisches Mittel der Elementarindizes über
die Bundesländer)
⇒ VPI: Gewichtetes arithmetisches Mittel der gesamtdeutschen
Teilindizes
Dr. Hendrik Hansen
152
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
I
Gewichte der Bundesländer, Basisjahr 2000 (entspricht
landesspezifischem Anteil an gesamtdeutschen privaten
Konsumausgaben) → gesamtdeutscher Teilindex pro Gut;
Angaben in % (Quelle: Statistisches Bundesamt):
Nordrhein-Westfalen
Bayern
Baden-Württemberg
Niedersachsen
Hessen
Rheinland-Pfalz
Sachsen
Berlin
Dr. Hendrik Hansen
23,5
15,4
13,5
9,5
7,3
4,8
4,6
3,8
Schleswig-Holstein
Brandenburg
Sachsen-Anhalt
Thüringen
Hamburg
Mecklenburg-Vorpommern
Saarland
Bremen
3,3
2,7
2,7
2,5
2,3
1,8
1,3
1,0
153
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
I
Zusammensetzung VPI-Warenkorb, Basisjahr 2005 → entspricht Gewichten bei Berechnung des VPIs aus Teilindizes;
Angaben in % (Quelle: Statistisches Bundesamt):
Nahrungsmittel
Alkoholische Getränke
& Tabakwaren
Bekleidung & Schuhe
10,4
3,9
Verkehr
Nachrichtenübermittlung
13,2
3,1
4,9
11,6
Wohnung & Energie
Einrichtungsgegenstände
Gesundheitspflege
30,8
5,6
4,0
Freizeit, Unterhaltung
& Kultur
Bildungswesen
Beherbergung & Gaststätten
Sonstiges
Dr. Hendrik Hansen
0,7
4,4
7,4
154
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
110
VPI für Deutschland, 1991−2009 (Jahresdurchschnitte); 2005=100%
●
100
●
●
●
95
●
●
●
90
●
●
●
●
●
●
●
85
Wert des Indizes
105
●
●
75
80
●
●
●
1991
1995
2000
2005
2009
Jahr
Dr. Hendrik Hansen
155
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
I
Praktische Probleme beim VPI
• Wahl geeigneter Produkte aus Gütergruppe
( Preisrepräsentanten“)
”
• Umgang mit Produktvariationen zwischen zwei Umbasierungen
des Warenkorbs (Produkte verschwinden & kommen hinzu;
Qualitätsänderungen, z.B. Veränderung der Packungsgröße,...)
• Wahl der Preise (Discount- , Aktionspreise, in- oder exklusive
Steuern,...)
• Beschaffung von Infos über Konsummuster (Bei Aufstellung
des Warenkorbes)
• ...
Dr. Hendrik Hansen
156
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Teil B:
Wahrscheinlichkeitsrechnung
Dr. Hendrik Hansen
157
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 8: Zufällige Ereignisse und ihre
Wahrscheinlichkeiten
Motivation
Bisher:
I
Beschreibung/Komprimierung/Vereinfachung von
Datensätzen (beobachteten Merkmalsausprägungen) durch
• Grafiken
• Tabellen
• Kennzahlen
Jetzt:
I
Treffe auf Basis beobachteter Merkmalsausprägungen
Aussagen über zukünftige, unsichere“ Beobachtungen
”
Dr. Hendrik Hansen
158
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Die Theorie der Wahrscheinlichkeit ist ein System,
”
das uns beim Raten hilft.“
R. Feynman, US-amerikanischer Physiker und Nobelpreisträger
(1918 – 1988)
Dr. Hendrik Hansen
159
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.1
Ein Investitionsprojekt ist in Gefahr, wenn es während der
Bauphase zu viel regnet oder der Dollarkurs steigt. Bekannt ist:
Regenwahrscheinlichkeit
Wahrscheinlichkeit dass Dollar steigt
=
=
10%
40%
→ wie wahrscheinlich ist Gefährdung des Investitionsprojekts?
Dr. Hendrik Hansen
160
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.1
Ein Zufallsexperiment ist ein Vorgang,
I
der mehrere, sich gegenseitig ausschließende mögliche
Ausgänge besitzt
I
dessen Ausgang nicht mit Sicherheit vorhergesagt werden
kann
I
der unter identischen Rahmenbedingungen beliebig oft
wiederholbar ist;
Dr. Hendrik Hansen
161
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.1 (Fortsetzung)
I
Die n möglichen Ausgänge ω1 , ω2 , . . . , ωn eines Zufallsexperiments heißen Elementarereignisse
I
Die Menge
Ω = {ω1 , ω2 , . . . , ωn }
aller Elementarereignisse heißt Ergebnismenge
I
Teilmengen A, B ⊆ Ω der Ergebnismenge heißen Ereignisse
Dr. Hendrik Hansen
162
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.2
a) Einmaliges Würfeln entspricht Zufallsexperiment mit
Ausgängen 1,...,6
Ergebnismenge Ω
Elementarereignisse
Ereignis A : gerade Zahl“
”
Ereignis B : ungerade Zahl“
”
Ereignis C : Primzahl“
”
Ereignis D : Zahl größer 3“
”
Dr. Hendrik Hansen
{1, 2, 3, 4, 5, 6}
{1}, {2}, {3}, {4}, {5}, {6}
{2, 4, 6}
{1, 3, 5}
{2, 3, 5}
{4, 5, 6}
163
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.2 (Fortsetzung)
b) Zweimaliges Würfeln → Elementarereignisse jetzt
Zahlenpaare, die sich aus {1, ..., 6} zusammensetzen
Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3),
(2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3),
(5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}
= {1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6}
(⊗ =Kartesisches Produkt=Menge aller geordneten Paare (a, b)
mit a ∈ A, b ∈ B)
Dr. Hendrik Hansen
164
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.2 (Fortsetzung)
b) Zweimaliges Würfeln (Fortsetzung)
Ergebnismenge Ω
Elementarereignisse
Ereignis A : Augensumme=10“
”
B : nur ungerade Zahlen“
”
C : gerade Zahl in Wurf 1“
”
Dr. Hendrik Hansen
{(1, 1), (1, 2), ..., (1, 6),
(2, 1), ..., (6, 5), (6, 6)}
{(1, 1)}, ..., {(6, 6)}
{(4, 6), (5, 5), (6, 4)}
{(1, 1), (1, 3), (1, 5),
(3, 1), ..., (5, 3), (5, 5)}
{(2, 1), (2, 2), ..., (2, 6),
(4, 1), ..., (6, 5), (6, 6)}
165
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.2
Betrachte Zufallsexperiment mit Ergebnismenge Ω und Ereignisse
A, B ⊆ Ω. Die Menge der Elementarereignisse ωi , die
a) sowohl in A als auch in B liegen, heißt Schnittmenge von A
und B (kurz: A ∩ B)
b) in A oder in B liegen, heißt Vereinigungsmenge von A und B
(kurz: A ∪ B)
c) in A aber nicht in B liegen, heißt Differenzmenge von A und
B (kurz: A \ B)
d) nicht in A liegen, heißt Komplementärereignis zu A (kurz: Ā);
Weiterhin heißen A und B disjunkt, falls ihre Schnittmenge die
leere Menge ist (A ∩ B = ∅)
Dr. Hendrik Hansen
166
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Venn-Diagramm: A ∩ B, vgl. Definition 8.2 a)
Dr. Hendrik Hansen
167
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Venn-Diagramm: A ∪ B, vgl. Definition 8.2 b)
Dr. Hendrik Hansen
168
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Venn-Diagramm: A \ B, vgl. Definition 8.2 c)
Dr. Hendrik Hansen
169
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
d) Venn-Diagramm: Ā, vgl. Definition 8.2 d)
Dr. Hendrik Hansen
170
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
e) Venn-Diagramm: A und B disjunkt, vgl. Definition 8.2
Dr. Hendrik Hansen
171
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.3
a) Einmaliges Würfeln, vgl. Beispiel 8.2 a);
Für die betrachteten Ereignisse ergibt sich:
A ∩ B = gerade und ungerade Zahl
= ∅
A ∩ C = gerade Zahl und Primahl
= {2}
B ∪ D = ungerade Zahl oder Zahl größer als 3 = {1, 3, 4, 5, 6}
C \ D = Primzahl, die nicht größer als 3 ist
Ā = ungerade Zahl
Dr. Hendrik Hansen
= {2, 3}
= B
172
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.3 (Fortsetzung)
b) Zweimaliges Würfeln, vgl. Beispiel 8.2 b);
Für die betrachteten Ereignisse ergibt sich:
A ∩ B = Augensumme=10
+nur ungerade Zahlen
= {(5, 5)}
A ∩ C = Augensumme=10
+gerade Zahl in Wurf 1
= {(4, 6), (6, 4)}
B ∩ C = nur ungerade Zahlen
+gerade Zahl in Wurf 1
= ∅
A ∪ C = Augensumme=10
oder gerade Zahl in Wurf 1
= {C, (5, 5)}
A \ B = Augensumme=10
+mindestens eine gerade Zahl = {(4, 6), (6, 4)}
Dr. Hendrik Hansen
173
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Wiederhole Zufallsexperiment mit K Elementarereignissen
n-mal → das zusammengesetzte Zufallsexperiment besitzt K n
Elementarereignisse
I
Betrachte etwa Beispiel 8.2 b), n = 2maliges Würfeln (K = 6)
→ {1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6} Elementarereignisse:
(1, 1), ..., (1, 6), (2, 1), ..., (2, 6), ..., (6, 1), ..., (6, 6)
{z
} |
{z
}
|
{z
}
|
6 Ereignisse
6 Ereignisse
6 Ereignisse
|
{z
}
=6×6=62 =K n Elementarereignisse
→ Ω enthält 36 Elementarereignisse (Bezeichnung: | Ω | = 36)
Dr. Hendrik Hansen
174
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Bisher: Definition von Ereignissen, Mengen, Vereinigungen,
Schnitten,...
→ Jetzt von Interesse: Wie wahrscheinlich ist Eintritt eines
bestimmten Ereignisses?
I
Dr. Hendrik Hansen
Beispiel 8.2 b), zweimaliges Würfeln: Wahrscheinlichkeit des
Eintritts von Ereignis A (Augensumme 10), B (nur ungerade
Zahlen), A ∪ B,...?
175
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.3
Ein Zufallsexperiment, bei dem alle Elementarereignisse mit
gleicher Wahrscheinlichkeit eintreten, heißt Laplace-Experiment. In
einem solchen Experiment ist die Wahrscheinlichkeit für das
Eintreten eines Ereignisses A ⊆ Ω gegeben durch
P (A) =
=
Dr. Hendrik Hansen
|A|
|Ω|
Anzahl der in A enthaltenen Elementarereignisse
Anzahl aller möglichen Elementarereignisse
176
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.4
Zweimaliges Würfeln wie in Beispiel 8.2 b) entspricht einem Laplace-Experiment, da jedes Elementarereignis mit Wahrscheinlichkeit (1/36) × 100 Prozent eintritt →
Ereignis
verbal
mengentheoretisch
A : Augensumme=10 “
{(4, 6), (5, 5), (6, 4)}
”
|·|
3
P (·)
3/36
B : nur ungerade Zahlen “
”
{(1, 1), ..., (5, 5)}
9
9/36
C : gerade Zahl in Wurf 1 “
”
{(2, 1), ..., (6, 6)}
18
18/36
Einmaliges Würfeln, vgl. Beispiel 8.2 a): Analog
Dr. Hendrik Hansen
177
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Problem: Nicht immer liegt Laplace-Experiment vor
I
Beispiel: Gezinkter Würfel mit
P(Augenzahl=6) = 1/3 und
P(Augenzahl=i) =
2/3
= 2/15, i = 1, ..., 5
5
→ allgemeinerer Wahrscheinlichkeitsbegriff notwendig
Dr. Hendrik Hansen
178
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.4
Eine Abbildung P, die allen Ereignissen A ⊆ Ω eines
Zufallsexperiments eine Zahl P (A) zuordnet und die
Kolmogoroff’schen Axiome
I
0 ≤ P (A) ≤ 1 für alle A ⊆ Ω
I
P (Ω) = 1
I
P (A ∪ B) = P (A) + P (B) für alle A, B ⊆ Ω mit A ∩ B = ∅
erfüllt, heißt Wahrscheinlichkeitsmaß
Dr. Hendrik Hansen
179
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Rechenregeln für Wahrscheinlichkeiten (ergeben sich aus
Kolmogoroff’schen Axiomen)
P (∅)
= 0
P (Ā)
= 1 − P (A)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
P (A)
=
P
P ({ωi })
ωi ∈A
Dr. Hendrik Hansen
180
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.5
Landtag NRW (Zusammensetzung nach Partei und Geschlecht)
P
CDU SPD Grüne FDP Linke
männlich
57
48
11
11
5
132
weiblich
10
19
12
2
6
49
P
67
67
23
13
11
181
I
zufällige Auswahl eines Landtagsmitglieds → LaplaceExperiment, jedes Elementarereignis (=Landtagsmitglied)
kann mit gleicher Wahrscheinlichkeit ausgewählt werden
I
Ω = Alle Mitglieder des Landtags“ → |Ω| = 181
”
Dr. Hendrik Hansen
181
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.5 (Fortsetzung)
I
Definiere nun Ereignisse
• A = weibliche Person“
”
• B = SPD-zugehörig“
”
→ P (B) = 67/181 ≈ 0, 37; P (A ∪ B) = 97/181 ≈ 0, 54;
P (A ∩ B) = 19/181 ≈ 0, 1; ...
I
Frage jedoch: Wie wahrscheinlich ist SPD-Zugehörigkeit bei
weiblichen Landtagsmitgliedern
• Formell: → P (B gegeben A) bzw. P (B | A)
• So genannte bedingte Wahrscheinlichkeit: Beschränkung der
möglichen Ereignisse auf eine Teilmenge von Ω (hier: A)
Dr. Hendrik Hansen
182
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.5 (Fortsetzung)
I
Venn-Diagramm: Bedingte Wahrscheinlichkeit
• Hellgrau: Reduzierte Ergebnismenge (hier: weibliche Personen)
• Dunkelgrau: Teilmenge der reduzierten Ergebnismenge, dessen
Eintrittswahrscheinlichkeit gesucht wird (hier: SPD-Mitgl., w.)
• Rest (weißer Bereich): Uninteressant
Dr. Hendrik Hansen
183
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.5
Sei P (A) > 0. Dann heißt
P (B | A) =
P (A ∩ B)
P (A)
bedingte Wahrscheinlichkeit von B gegeben A.
Beispiel 8.6
(Landtag NRW, vgl. Beispiel 8.5)
P (SPD | weiblich) = P (B | A) =
=
Dr. Hendrik Hansen
P (A ∩ B)
19/181
=
P (A)
49/181
19
= 0, 388
49
184
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.7
a) Dreimaliger Münzwurf
Ω = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z), (K, K, K),
(K, K, Z), (K, Z, K), (Z, K, K)}
I
Ereignis A : Mindestens 1× Zahl
I
Ereignis B : Mindestens 2× Kopf
I
Gesucht: P (B | A) → reduzierte Ergebnismenge A
A = {(Z, Z, Z), (Z, Z, K), (Z, K, Z), (K, Z, Z),
(K, K, Z), (K, Z, K), (Z, K, K)}
{z
}
|
Ereignisse mit 2× Kopf
→ P (B | A) = 3/7 (da |A| = 7)
Dr. Hendrik Hansen
185
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.7 (Fortsetzung)
a) Dreimaliger Münzwurf (Fortsetzung)
Alternative Berechnung von P (B | A) mit Def. 8.5
• |Ω| = 8
• P (A) = 7/8
• A ∩ B = {(K, K, Z), (K, Z, K), (Z, K, K)}
→ P (A ∩ B) = 3/8
→ P (B | A) =
Dr. Hendrik Hansen
3
3/8
=
7/8
7
186
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.7 (Fortsetzung)
b) Zweimaliges Würfeln, vergleiche Beispiel 8.2 b)
I
Neben Ereignissen A − C definiere D = ungerade Zahl in
”
Wurf 2“
I
Zur Erinnerung: C = gerade Zahl in Wurf 1“
”
C
=
{(2, 1), ..., (2, 6), (4, 1), ..., (6, 6)}
→ |C| = 18 → P(C) = 1/2 (|Ω| = 36)
D
=
{(1, 1), ..., (1, 5), (2, 1), ..., (6, 5)}
→ |D| = 18 → P(D) = 1/2
C ∩D
=
{(2, 1), (2, 3), (2, 5), (4, 1), ..., (6, 5)}
→ |C ∩ D| = 9 → P(C ∩ D) = 1/4
Dr. Hendrik Hansen
187
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.7 (Fortsetzung)
b) Zweimaliges Würfeln (Fortsetzung)
I
Gesucht: P( Wurf 2 ungerade“| Wurf 1 gerade“) :
”
”
P (D | C) =
1/4
1
P (D ∩ C)
=
= = P (D)
P (C)
1/2
2
→ Ereignis C hat keinen Einfluß auf Ereignis D, beide
Ereignisse hängen nicht voneinander ab
Dr. Hendrik Hansen
188
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 8.6
Gilt für zwei Ereignisse A und B mit P (A) > 0 und P (B) > 0
P (A | B) = P (A)
und
P (B | A) = P (B),
so heißen diese stochastisch unabhängig.
Bemerkung
Die Aussage A und B stochastisch unabhängig“ ist äquivalent zu
”
P (A ∩ B) = P (A) · P (B)
Dr. Hendrik Hansen
189
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.8
(Investitionsprojekt, vergleiche Beispiel 8.1)
I
A = zuviel Regen“ mit P (A) = 0, 1; B = Dollarkurs
”
”
steigt“ mit P (B) = 0, 4
→ P (Investitionsprojekt in Gefahr) = P (A ∪ B)
?
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
??
= P (A) + P (B) − P (A) · P (B)
= 0, 1 + 0, 4 − 0, 1 · 0, 4
= 0, 46
I
Zu ? : Siehe Bemerkung nach Definition 8.4
Zu ?? : A und B stochastisch unabhängig (klar) → wende
Bemerkung nach Definition 8.6 an
Dr. Hendrik Hansen
190
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.9
a) Stochastische Unabhängigkeit in der Öffentlichkeit: Mann für
Millionen (Westdeutsche Allgemeine Zeitung, 30.09.2010)
Bereits zum zweiten Mal in diesem Jahr hat ein Mann aus
”
dem US-Staat Missouri einen Millionengewinn mit
Rubbellosen einkassiert. Im Juni hatte der 57-Jährige beim
’100 Million Dollar Blockbuster’ eine Million gewonnen. Nun
gelang ihm die Sensation erneut, diesmal waren es gleich zwei
Millionen, die er beim ’Mega Monopoly’ gewann. Die
Chancen, bei einem der beiden Spiele den Höchstbetrag zu
gewinnen, lägen bei 1:2,28 Millionen, heißt es. Die Chancen,
gleich bei beiden Spielen abzusahnen, seien kaum zu
berechnen, da sie unabhängig voneinander seien.“
Dr. Hendrik Hansen
191
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.9 (Fortsetzung)
a) Mann für Millionen (Fortsetzung)
Definiere
A = Gewinn beim 100 Million Dollar Blockbuster“
”
B = Gewinn beim Mega Monopoly“
”
Bekannt: P (A) = P (B) = 1 : 2, 28 Mio. und A und B
unabhängig
→ P (Gewinn bei beiden Spielen) = P (A ∩ B)
= P (A) · P (B)
∼ 1 : 5, 2 Billionen
Dr. Hendrik Hansen
192
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 8.9 (Fortsetzung)
b) Prozess gegen O. J. Simpson (1995)
• M. Dershowitz (Strafverteidiger): ...an infinitesimal
”
percentage - certainly fewer than 1 out of 2.500 - of men who
slap or beat their domestic partners go on to murder them“:
→ P (M |S) < 1/2.500
(M= Mann ermordet Ehefrau“, S= Mann schlägt Ehefrau“)
”
”
• Definiere zusätzlich m= Ehefrau wird ermordet“
”
→ P (M |{S ∩ m}) ≈ 0, 9 (vgl. Good, 1996)
• Details:
Dershowitz (1996), Reasonable Doubts: The O.J. Simpson
Case and the Criminal Justice System, New York, 1996;
Good (1996), When batterer becomes murderer, Nature 381
• Prozessurteil: Freispruch
Dr. Hendrik Hansen
193
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 8
I
Zufallsexperiment, Ergebnismenge, Ereignisse
I
klassischer (Laplace) und axiomatischer (Kolmogoroff)
Wahrscheinlichkeitsbegriff
I
bedingte Wahrscheinlichkeit und stochastische
Unabhängigkeit
I
Vorsicht bei der Interpretation bedingter Wahrscheinlichkeiten
Dr. Hendrik Hansen
194
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 9: Zufallsvariablen
Kapitel 8: Betrachtung von Ereignissen ωi , ωj , A, B, ... ⊂ Ω
Jetzt: Ordne Ereignissen Zahlen zu
Dr. Hendrik Hansen
195
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 9.1
Eine Abbildung X, deren mögliche Werte vom Ausgang eines
Zufallsexperiments abhängen, heißt Zufallsvariable. Formell
X:Ω→R
X ordnet somit jedem Elementarereignis eine reelle Zahl zu. Die
möglichen Werte ω → X(ω) einer Zufallsvariablen nennt man
Realisationen. Weiterhin heißt X
I
diskrete Zufallsvariable, falls sie nur endlich viele oder
abzählbar viele Werte annehmen kann
I
stetige Zufallsvariable, wenn sie - eventuell innerhalb gewisser
Grenzen - alle möglichen reellen Zahlen als Werte annehmen
kann
Dr. Hendrik Hansen
196
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.1
a) Zweimaliger Münzwurf
→ Ω = {(Z, K), (K, Z), (K, K), (Z, Z)}
I
Definiere Zufallsvariable X = Anzahl Würfe mit Kopf“
”
→ X(Z, K) = X(K, Z) = 1, X(K, K) = 2, X(Z, Z) = 0
→ X ∈ {0, 1, 2} diskrete Zufallsvariable
Dr. Hendrik Hansen
197
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.1 (Fortsetzung)
b) Verschiedene Zufallsvariablen+Typ (stetig/diskret)
Zufallsvariable
Augensumme zweimaliges Würfeln
Wertebereich
{2, 3, 4, . . . , 12}
Typ
diskret
Lebensdauer eines Prozessors
[0, ∞)
stetig
Anzahl erfolgloser Lottotipps bis
zum ersten Hauptgewinn
{0, 1, 2, 3, . . .}
diskret
Logarithmierte Aktienrendite
an zufälligem Börsentag
(−∞, ∞)
stetig
Dr. Hendrik Hansen
198
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Funktionen von Zufallsvariablen sind wieder Zufallsvariablen.
Betrachte etwa zweimaligen Würfelwurf (vgl. Beispiel 8.2 b)) und
definiere Zufallsvariablen: X1 = Augenzahl Wurf 1“;
”
X2 = Augenzahl Wurf 2“. Dann sind
”
Z1 = min {X1 , X2 }
Z2 = max {X1 , X2 }
Z3 = X1 + X2
ebenfalls Zufallsvariablen
b) Im Folgenden von Interesse: Wie lassen sich Wahrscheinlichkeiten angeben, dass Zufallsvariable X Wert xi annimmt?
Zunächst lediglich Betrachtung diskreter Zufallsvariablen.
Dr. Hendrik Hansen
199
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 9.2
Sei X diskrete Zufallsvariable mit möglichen Realisationen
x1 , x2 , ..., xk . Dann heißt die Funktion f (·), die angibt, mit welcher
Wahrscheinlichkeit X die Realisation xi annimmt,
f (xi ) = P (X = xi ),
i = 1, . . . , k,
Wahrscheinlichkeitsfunktion von X.
Dr. Hendrik Hansen
200
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.2
(Zweimaliges Würfeln, vgl. Beispiel 8.2 b))
I
Definiere X =Augensumme beider Würfe
I
8.2 b) bzw. 8.4: Zweimaliges Würfeln entspricht Laplace
Experiment mit |Ω| = 36 →
X(ω) = xi
X=2
X=3
X=4
..
.
X = 12
Dr. Hendrik Hansen
{zugehörige ω}
{(1, 1)}
{(1, 2), (2, 1)}
{(1, 3), (2, 2), (3, 1)}
..
.
⇒
⇒
⇒
⇒
{(6, 6)}
⇒ P (X = 12) = 1/36
P (X
P (X
P (X
P (X
..
.
= xi )
= 2) = 1/36
= 3) = 2/36
= 4) = 3/36
201
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.2 (Fortsetzung)
Realisation xi
P (X = xi )
2
1/36
3
2/36
4
3/36
5
4/36
6
5/36
Realisation xi
P (X = xi )
8
5/36
9
4/36
10
3/36
11
2/36
12
1/36
⇒
P
7
6/36
P (X = xi ) = 1 (klar, da sich eine Augensumme zwischen
i
2 und 12 auf jeden Fall realisieren wird!)
Dr. Hendrik Hansen
202
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
3/36
0
1/36
2/36
P(X = xi)
4/36
5/36
6/36
Beispiel 9.2 (Fortsetzung)
2
3
4
5
6
7
8
9
10
11
12
xi
Dr. Hendrik Hansen
203
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.2 (Fortsetzung)
I
Frage: Wie wahrscheinlich überschreitet Zufallsvariable einen
bestimmten Wert nicht?
I
Hier etwa: Mit welcher Wahrscheinlichkeit ist Augensumme
≤ 3?
P(X ≤ 3) = P({(1, 1)} ∪ {(1, 2), (2, 1)})
= P({(1, 1)}) + P({(1, 2), (2, 1)})
−P({(1, 1)} ∩ {(1, 2), (2, 1)})
= P({(1, 1)}) + P({(1, 2), (2, 1)}) − P(∅)
=
2
1
+
−0
36 36
= P(X = 2) + P(X = 3)
Dr. Hendrik Hansen
204
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 9.3
Für eine Zufallsvariable X heißt die Funktion F (·), die angibt, mit
welcher Wahrscheinlichkeit X einen Wert x nicht überschreitet,
F (x) = P (X ≤ x),
x ∈ R,
Verteilungsfunktion von X.
Bemerkung
Für eine diskrete Zufallsvariable X gilt
X
F (x) =
f (xi ), x ∈ R
xi ≤x
(vergleiche Definition 2.2: F (x) theoretisches Gegenstück“ zu
”
empirischer Verteilungsfunktion Fn (x))
Dr. Hendrik Hansen
205
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.3
(Zweimaliges Würfeln, vgl. Beispiel 9.2)
Weiterhin sei X =Augensumme beider Würfe
I
In Bsp. 9.2 berechnet: F (3) = P(X = 2) + P(X = 3) =
3
36
I
Bem. nach Def. 9.3:
6
F (4) = P(X = 2) + P(X = 3) + P(X = 4) = 36
,
F (5) = P(X = 2)+P(X = 3)+P(X = 4)+P(X = 5) =
10
36 , ...
x∈
F (x)
(−∞, 2)
0
[2, 3)
1/36
[3, 4)
3/36
[4, 5)
6/36
[5, 6)
10/36
[6, 7)
15/36
x∈
F (x)
[7, 8)
21/36
[8, 9)
26/36
[9, 10)
30/36
[10, 11)
33/36
[11, 12)
35/36
[12, ∞)
1
Dr. Hendrik Hansen
206
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
1
Beispiel 9.3 (Fortsetzung)
●
●
5/6
●
●
1/2
●
●
1/3
P(X ≤ x)
2/3
●
1/6
●
●
●
0
●
−1
0
1
2
3
4
5
6
7
8
9
10
11
12
13
x
→ F (x) Treppenfunktion; Sprungstellen x = 2, 3, ..., 12, Sprunghöhen den Werten der Wahrscheinlichkeitsfunktion entsprechend
(1/36, 2/36, 3/36, ..., 1/36)
Dr. Hendrik Hansen
207
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Betrachte nun stetige Zufallsvariable X; Hier Definition der
Wahrscheinlichkeitsfunktion durch f (xi ) = P(X = xi ) analog zu
Definition 9.2 nicht sinnvoll
I
Grund: X stetig → Sämtliche xi ∈ R können sich realisieren
(zumindest auf Intervall, vergleiche Definition 9.1)
I
Stetigkeit in Praxis jedoch Idealisierung, da Messungen
diskret
I
Sei etwa X = Körpergewicht (in kg) einer zufällig
ausgewählten Person i → P(X = 82, 514367842312) ???
→ deswegen:
P(X = x) = 0 für alle x ∈ R
Dr. Hendrik Hansen
208
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 9.4
Sei X stetige Zufallsvariable mit möglichen Realisationen im
Intervall (a, b), a = −∞ und/oder b = ∞ erlaubt, und
differenzierbarer Verteilungsfunktion F (x). Dann heißt die erste
Ableitung
f (x) = F 0 (x),
x ∈ R,
Dichtefunktion (kurz Dichte) von X.
Dr. Hendrik Hansen
209
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
a) Zusammenhang zwischen Verteilungs- und Dichtefunktion
Zx
f (x) = F 0 (x) (vgl. Def. 9.4) und F (x) =
f (t) dt
−∞
b) Interpretation der Dichtefunktion
schraffiert:
Ra
f (t) dt = F (a) = P(X ≤ a)
−∞
→ gesamter Flächeninhalt unter der Dichte=1
Dr. Hendrik Hansen
210
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2
a) Eigenschaften der Verteilungsfunktion ( Gegenstück“ zur
”
Bemerkung nach Beispiel 2.3): Sei X beliebige Zufallsvariable
mit Verteilungsfunktion F (x). Dann gilt
I
F (x) ist monoton nicht fallend
I
0 ≤ F (x) ≤ 1 für alle x ∈ R
I
lim F (x) = 0 und
x→−∞
I
Dr. Hendrik Hansen
lim F (x) = 1
x→∞
P (a < X ≤ b) = F (b) − F (a)
211
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
b) Eigenschaften der Wahrscheinlichkeits-/Dichtefunktion:
Sei f (x) die der Zufallsvariablen X aus a) zugehörige
Wahrscheinlichkeits-/Dichtefunktion. Dann gilt
I
I
f (x) ≥ 0
lim f (x) = lim f (x) = 0
x→−∞
I
P
x→∞
f (xi ) = 1 falls X diskret (I Indexmenge, z.B.
i∈I
I = {1, ..., n}), bzw.
R∞
f (x) dx = 1 falls X stetig
−∞
I
F (b) − F (a) =
Rb
f (x) dx,
falls X stetig
a
Dr. Hendrik Hansen
212
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.4
a) Gleich-/Rechteckverteilung (einfachste stetige Verteilung)
I
X gleichverteilt auf Intervall [a, b] →
(
1
x ∈ [a, b]
f (x) = b−a
0
sonst
→ Werte auf Intervall gleichmäßig“ verteilt
”
Dr. Hendrik Hansen
213
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.4 (Fortsetzung)
0.00
0.01
0.02
f(x)
0.03
0.04
0.05
b) Sei X = Verspätung der S1 an der Haltestelle Universität
”
Dortmund“; Annahme: X auf Intervall [0, 20] gleichverteilt
(
1
x ∈ [0, 20]
→ f (x) = 20
0 sonst
−5
0
5
10
15
20
25
Verspätung x in Minuten
Dr. Hendrik Hansen
214
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.4 (Fortsetzung)
b) (Fortsetzung)
I
Frage: Mit welcher Wahrscheinlichkeit beträgt S1-Verspätung
zwischen fünf und zehn Minuten?
P (5 < X ≤ 10) = F (10) − F (5)
(vgl. Bem. 2 a) nach Def. 9.4) → Berechnung von F (x) :
Zx
F (x)
=
Zx
f (t) dt =
0
→ Insgesamt: F (x)
=


0,
x
,
 20

1,
Dr. Hendrik Hansen
0
x
1 x
1
dt =
t =
20
20 0
20
x<0
0 ≤ x ≤ 20
x > 20
215
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.4 (Fortsetzung)
b) (Fortsetzung)
P (5 < X ≤ 10) = F (10) − F (5) =
10
20
−
5
20
= 0, 25
F(x)
0
0.25=F(5)
0.5=F(10)
0.75
1
→ P(S1 fünf bis zehn Minuten zu spät)=25 %
−5
0
5
10
15
20
25
Verspätung x in Minuten
Dr. Hendrik Hansen
216
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 9.5
Gilt für zwei Zufallsvariablen X und Y und alle x, y ∈ R
P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y) = FX (x) · FY (y),
so heißen X und Y stochastisch unabhängig.
Beispiel 9.5
(zweimaliges Würfeln, vgl. u.a. Beispiel 9.2)
X =Augenzahl erster Wurf
Y =Augenzahl zweiter Wurf
Dr. Hendrik Hansen
217
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.5 (Fortsetzung)
P (X ≤ 3, Y ≤ 5) = P (X ≤ 3 und Y ≤ 5)
= P ( {(1, 1), (1, 2), ..., (1, 6), (2, 1), ..., (3, 6)}
|
{z
}
A mit |A|=18
und {(1, 1), ..., (1, 5), (2, 1), ..., (6, 5)} )
|
{z
}
B mit |B|=30
= P (A ∩ B)
= P ({(1, 1), (1, 2), ..., (1, 5), (2, 1), ..., (3, 5)})
|
{z
}
C mit |C|=15
=
Dr. Hendrik Hansen
15
5
=
36
12
218
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 9.5 (Fortsetzung)
Außerdem gilt:
P (X ≤ 3) = P (A) =
18
1
=
36
2
P (Y ≤ 5) = P(B) =
30
5
=
36
6
Und somit
P (X ≤ 3) · P (Y ≤ 5) =
5
1 5
· =
= P (X ≤ 3, Y ≤ 5)
2 6
12
Für alle (x, y) ∈ R nachweisbar → X und Y stochastisch
unabhängig
Dr. Hendrik Hansen
219
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 9
I
Zufallsvariablen zur vereinfachten Berechnung von
Wahrscheinlichkeiten; Quantifizierung von Ereignissen
I
Diskrete Zufallsvariablen besitzen Wahrscheinlichkeits- und
Verteilungsfunktion
I
stetige Zufallsvariablen besitzen Dichte und
Verteilungsfunktion
Dr. Hendrik Hansen
220
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 10: Erwartungswert, Varianz und Kovarianz
von Zufallsvariablen
Motivation Erwartungswert: Welchen Wert nimmt
Zufallsvariable durchschnittlich an?
Populärstes Lagemaß aus Teil A: Arithmetisches Mittel
I
Ausgangslage: Metrisch skaliertes Merkmal X mit möglichen
Ausprägungen a1 , ..., ak , die mit relativen Häufigkeiten
h(a1 ), ..., h(ak ) auftreten. Es gilt (vergleiche Definition 3.1
und Beispiel 3.2 a))
a
x̄ =
k
X
ai · h(ai )
i=1
→ Idee: Ersetze relative Häufigkeiten durch bekannte
Wahrscheinlichkeiten
Dr. Hendrik Hansen
221
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 10.1
a) Sei X diskrete Zufallsvariable mit möglichen Realisationen
x1 , ..., xn und f (xi ) = P(X = xi ) Wahrscheinlichkeitsfunktion. Dann heißt
X
E (X) =
xi · f (xi )
i∈I
Erwartungswert von X (I =Indexmenge).
b) Sei X stetige Zufallsvariable mit Dichte f (x). Dann heißt
Z∞
x · f (x) dx
E (X) =
−∞
Erwartungswert von X.
Dr. Hendrik Hansen
222
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.1
a) X = Augensumme zweimaliges Würfeln“, vgl. u.a. Bsp. 9.2
”
E (X) =
X
xi · f (xi ) =
xi · f (xi )
i=1
i∈I
= 2·
11
X
1
2
3
1
+3·
+4·
+ . . . + 12 ·
=7
36
36
36
36
b) X = Anzahl Kopf bei zweimaligem Münzwurf“, vgl. Bsp. 9.1
”
E (X) =
X
i∈I
xi · f (xi ) =
3
X
xi · f (xi )
i=1
1
2
1
= 0· +1· +2· =1
4
4
4
Dr. Hendrik Hansen
223
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.1 (Fortsetzung)
c) X = Verspätung der S1“, vgl. Bsp. 9.4
”
Z∞
Z20
x · f (x) dx =
E (X) =
−∞
0
1
1 2 20
x·
dx =
x
= 10
20
40 0
Bemerkung
a) Ist Wahrscheinlichkeitsfunktion/Dichte einer Zufallsvariablen
X symmetrisch um x? , dann gilt E (X) = x?
b) Der Erwartungswert einer diskreten Zufallsvariablen X muss
nicht unbedingt mögliche Realisation xi von X sein
c) Der Erwartungswert muss nicht notwendigerweise existieren,
d. h. E (X) = ∞ ist möglich
Dr. Hendrik Hansen
224
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
d) Eigenschaften des Erwartungswertes: X1 , ..., Xn beliebige
Zufallsvariablen; a1 , a2 , . . . , an , b ∈ R beliebige Konstanten;
g : R → R beliebige Funktion. Dann gilt:
I
E (a1 X1 + b) = a1 E (X1 ) + b
I
E
n
P
ai Xi
=
i=1
I
E (g(X1 )) =
n
P
ai E (Xi )
i=1
P

g(xi ) f (xi ),





i
R∞
falls X1 diskret
g(x) f (x) dx, falls X1 stetig
−∞
I
Dr. Hendrik Hansen
Falls X1 , ..., Xn stochastisch unabhängig, so gilt außerdem
E (X1 · ... · Xn ) = E (X1 ) · ... · E (Xn )
225
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
e) (Schwaches) Gesetz der großen Zahlen:
X1 , ..., Xn unabhängige Zufallsvariablen, die alle die gleiche
Verteilung (d.h. gleiche Dichte/Wahrscheinlichkeitsfunktion
und gleiche Verteilungsfunktion) wie X besitzen. Dann gilt für
ein beliebiges ε > 0:
lim P (| X̄n − E (X) | < ε) = 1
n→∞
f) Interpretation des (schwachen) Gesetzes der großen Zahlen:
Seien x1 , ..., xn Realisationen der Zufallsvariablen aus Teil e).
Dann gilt
n
1X
xi = E (X).
lim
n→∞ n
i=1
Dr. Hendrik Hansen
226
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.2
1.5
●
●
●
●
●
1.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0.5
●
0.0
Durchschnittliche Anzahl Kopf
2.0
a) X = Anzahl Kopf bei zweimaligem Münzwurf“
”
→ E (X) = 1, vgl. Bsp. 10.1
●
0
5
10
15
20
25
Anzahl n der (zweimaligen) Münzwürfe
Dr. Hendrik Hansen
227
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.2 (Fortsetzung)
b) Betrachte abermals Beispiel 2.4 bzw. 3.1: Lebensdauer (in
Betriebsstudien) von Ventilen in kunststoffverarbeitendem
Betrieb
Dr. Hendrik Hansen
I
Lebensdauern als unabhängige Zufallsvariablen mit gleicher
Verteilung auffassbar → bei wachsendem Stichprobenumfang
konvergiert arithmetisches Mittel gegen Erwartungswert dieser
Verteilung (Grund: Gesetz der großen Zahlen)
I
Bei vorliegenden Daten (n = 30) gilt: x̄a = 313, 17 (vgl.
Beispiel 3.1)
228
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Weiteres Lagemaß aus Kapitel 3: p−Quantil (Wert xp , für den
mindestens ein Anteil p · 100 Prozent der Daten kleiner/gleich xp ,
und mindestens ein Anteil (1 − p) · 100 Prozent der Daten
größer/gleich xp ist) → definiere nun p−Quantil einer Verteilung
(zunächst lediglich stetiger Fall)
Definition 10.2
Für eine stetige Zufallsvariable X und ein p ∈ [0, 1] heißt der Wert
xp mit
P (X ≤ xp ) = p
p-Quantil der Verteilung von X.
Dr. Hendrik Hansen
229
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3
a) X = S1-Verspätung Haltestelle Universität Dortmund“, vgl.
”
Beispiel 9.4 b) bzw. 10.1 c); Frage: Welche Verspätung wird
in 4 von 5 Fällen nicht überschritten?
I
Suche also das 0, 8−Quantil x0,8 der Gleichverteilung aus
Beispiel 9.4 b)
I
X stetig → x0,8 so, dass P (X ≤ x0,8 ) = 0, 8
P (X ≤ x0,8 )
⇔ x0,8
= F (x0,8 ) =
=
x0,8
= 0, 8
20
20 · 0, 8 = 16
→ Mit 80 prozentiger Wahrscheinlichkeit beträgt die
Verspätung nicht mehr als 16 Minuten
Dr. Hendrik Hansen
230
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3 (Fortsetzung)
0
0.2
0.4
F(x)
0.6
0.8
1
a) Verspätung S-1 (Fortsetzung)
−8
0
8
X0,8=16
24
Verspätung x in Minuten
Dr. Hendrik Hansen
231
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3 (Fortsetzung)
0
(d.h. 80% Wahrscheinlichkeitsmasse)
−5
0
X0,8=16
(d.h. 20% Wahrscheinlichkeitsmasse)
Flächeninhalt links vom 0,8−Quantil=0,8
Flächeninhalt rechts vom 0,8−Quantil=0,2
f(x)
0.05
a) Verspätung S-1 (Fortsetzung)
20
25
Verspätung x in Minuten
Dr. Hendrik Hansen
232
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3 (Fortsetzung)
b) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a.
”
Beispiel 9.3
I
Auch hier gesucht: 0, 8−Quantil → Versuch, obwohl X
diskret, Definition 10.2 anzuwenden
I
Nach Beispiel 9.3 gilt
(
P (X ≤ x) = F (x) =
26/36 = 0, 72 für 8 ≤ x < 9
30/36 = 0, 83 für 9 ≤ x < 10
→ ein x0,8 mit P (X ≤ x0,8 ) = 0, 8 existiert nicht
Dr. Hendrik Hansen
233
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3 (Fortsetzung)
b) Zweimaliges Würfeln (Fortsetzung)
1.0
Verteilungsfunktion zweifaches Würfeln
●
●
●
0.8
●
0.6
●
F(x)
●
0.4
●
0.2
●
●
0.0
●
●
2
4
6
8
10
12
Augensumme x
Dr. Hendrik Hansen
234
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.3 (Fortsetzung)
b) Zweimaliges Würfeln (Fortsetzung)
Dr. Hendrik Hansen
235
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fasse, für eine diskrete Zufallsvariable X und ein p ∈ [0, 1], den
Wert xp mit
F (xp ) ≥ p und F (x) < p für x < xp
als p−Quantil der Verteilung von X auf
Beispiel 10.4
(Augensumme zweimaliges Würfeln, vgl. Beispiel 10.3 b))
Es gilt
P (X ≤ x) = F (x) =

26/36 = 0, 72
für 8 ≤ x < 9
30/36 = 0, 83
für 9 ≤ x < 10
→ Gemäß der Bemerkung nach Beispiel 10.3 gilt x0,8 = 9
Dr. Hendrik Hansen
236
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Neben Lagemaßen in Teil A von Interesse: Streuungsmaße
(siehe etwa Bsp. 4.1: Zwei unterschiedlich schwankende
Aktienkurse X, Y mit x̄a = ȳ a )
I
Jetzt: Wie weit streuen Realisierungen einer Zufallsvariablen
X um E(X) herum; Betrachte etwa Zufallsvariablen X und
Y mit E(X) = E(Y ) → folgendes Bild möglich
f(y)
f(x)
E(X)=E(Y)
Dr. Hendrik Hansen
237
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 10.3
Sei X beliebige Zufallsvariable. Dann heißt
2
σX
= Var (X) = E (X − E (X))2
Varianz von X und
σX =
q
2
σX
Standardabweichung von X.
Bemerkung
Sei X beliebige Zufallsvariable. Dann gilt (vgl. Bem. e) nach Bsp.
4.4):
Var (X) = E X 2 − [E (X)]2
Dr. Hendrik Hansen
238
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.5
a) X = Augensumme bei zweimaligem Würfeln“, vgl. u.a.
”
Beispiel 10.4; Gesucht: Var (X)
Var (X) = E X 2 − [E (X)]2
=
11
X
x2i · f (xi ) − 72 (da E (X) = 7, vgl. Bsp. 10.1 a))
i=1
= 22 ·
=
2
3
1
1
+ 32 ·
+ 42 ·
+ . . . + 122 ·
− 49
36
36
36
36
1974
210
− 49 =
36
36
≈ 5, 833
Dr. Hendrik Hansen
239
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.5 (Fortsetzung)
b) Varianz & Standardabweichung der Zufallsvariablen
X = S1-Verspätung Hst. Uni Dortmund“, s. u.a. Bsp. 10.3 a)
”
20
Z∞
Z20
1
x3 1
2
2
= 133
E (X ) =
x · f (x)dx = x2 · dx =
20
60 0
3
−∞
0
Außerdem ist E (X) = 10, vgl. Bsp. 10.1 c), also gilt:
1
1
Var (X) = E X 2 − [E (X)]2 = 133 − 100 = 33
3
3
r
1
→ σX =
33 = 5, 774 ∼ 5 Minuten & 46 Sekunden
3
Dr. Hendrik Hansen
240
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Eigenschaften der Varianz: Für beliebige Zufallsvariablen
X1 , ..., Xn gilt
i) Var (Xi ) ≥ 0
ii) Var (a Xi + b) = a2 Var (Xi ) für a, b ∈ R
iii) Sind die Zufallsvariablen X1 , X2 , . . . , Xn außerdem
unabhängig, so gilt weiter
!
n
n
X
X
Var
ai Xi =
a2i Var (Xi ) für a1 , a2 , . . . , an ∈ R
i=1
Dr. Hendrik Hansen
i=1
241
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
b) Vorsicht: Für unabhängige Zufallsvariablen X und Y folgt
aus Teil a), Punkt iii) nicht, dass
Var (X − Y ) = Var (X) − Var (Y )
Grund:
Var (X − Y ) = Var (X + (−Y ))
= 12 · Var (X) + (−1)2 · Var (Y )
= Var (X) + Var (Y )
Dr. Hendrik Hansen
242
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.6
X = Anzahl Kopf bei zweimaligem Münzwurf“, s. u.a. Bsp. 10.2
”
a)
definiere außerdem Y = Anzahl Zahl bei zweimaligem Münzwurf“
”
→ Zufallsexperiment mit Ω = {(K, K), (K, Z), (Z, K), (Z, Z)}
ωi
X(ωi )
(K, K)
2
(K, Z)
1
(Z, K)
1
(Z, Z)
0
Y (ωi )
0
1
1
2
→ Zusammenhang zwischen X und Y (offensichtlich negativ, da
X % wenn Y & und umgekehrt)?
Dr. Hendrik Hansen
243
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 10.4
Für zwei Zufallsvariablen X und Y heißt
σXY = Cov (X, Y ) = E [(X − E (X))(Y − E (Y ))]
Kovarianz von X und Y sowie
ρXY =
σXY
σX · σY
Korrelation von X und Y (vgl. Teil A: Definition 5.1 & 5.2).
Bemerkung
X und Y beliebige Zufallsvariablen. Dann gilt (vgl. Bem. a) nach
Beispiel 5.3)
Cov (X, Y ) = E (X Y ) − E (X) E (Y )
Dr. Hendrik Hansen
244
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.7
X = Anzahl Kopf bei zweimaligem Münzwurf“,
”
Y = Anzahl Zahl bei zweimaligem Münzwurf“, s. u.a. Bsp. 10.6
”
Dr. Hendrik Hansen
ωi
X(ωi )
(K, K)
2
(K, Z)
1
(Z, K)
1
(Z, Z)
0
Y (ωi )
0
1
1
2
X(ωi ) · Y (ωi )
0
1
1
0
245
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.7 (Fortsetzung)
Es gilt
E (X) = 0 · P (X = 0) + 1 · P (X = 1) + 2 · P (X = 2)
1
1
1
= 0 · + 1 · + 2 · = 1 = E (Y )
4
2
4
E (X · Y ) = 0 · P (X · Y = 0) + 1 · P (X · Y = 1)
1
1
1
= 0· +1· =
2
2
2
Cov (X, Y ) =
1
1
−1·1 = −
2
2
→ Negativer, linearer Zusammenhang zwischen X und Y , über
Stärke kann jedoch keine Aussage getroffen werden (siehe
Bem. c) nach Beispiel 5.3)
Dr. Hendrik Hansen
246
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 10.7 (Fortsetzung)
Bestimme Stärke des linearen Zusammenhangs über Korrelation
Var (X) = E X 2 − [E (X)]2 (und E (X) = 1, vgl. Bsp. 10.1 b))
= 02 · P (X = 0) + 12 · P (X = 1) + 22 · P (X = 2) − 12
= 0·
1
1
1
1
+1· +4· −1 =
= Var (Y )
4
2
4
2
− 12
→ ρXY = q q
1
2
= −1
1
2
D.h. perfekt negativer linearer Zusammenhang (siehe Bem. nach
Bsp. 5.5); Plausibles Ergebnis: X + Y = 2 ⇔ Y = 2 − X
Dr. Hendrik Hansen
247
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
a) Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn
σXY = 0 gilt
b) Wenn X und Y unabhängig, dann gilt σXY = 0 (also auch
ρXY = 0); Umkehrung gilt i.A. nicht (Grund: Nichtlineare
Abhängigkeiten zwischen X und Y möglich, werden durch
σXY jedoch nicht erfasst)
Weiterhin gilt:
c) −1 ≤ ρXY ≤ 1
d) ρXY = 1 ⇔ Y = a X + b mit a > 0 und b ∈ R
e) ρXY = −1 ⇔ Y = a X + b mit a < 0 und b ∈ R
f) Var (a X + b Y ) = a2 Var (X) + b2 Var (Y ) + 2ab Cov (X, Y )
(a, b ∈ R, sie Bem. a), Punkt iii) nach Bsp. 10.5)
Dr. Hendrik Hansen
248
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2
Fazit zu Erwartungswert, Varianz & Kovarianz/Korrelation
• Wichtige charakteristische Kennzahlen einer bzw. zweier
Zufallsvariablen
• Theoretische Gegenstücke zu arithmetischem Mittel,
empirischer Varianz und empirischer Kovarianz/Korrelation
aus Teil A
Dr. Hendrik Hansen
249
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 11: Ausgewählte Verteilungen
Beispiel 11.1
a) Flugzeugmotoren einer bestimmten Marke fallen bei einem
gegebenen Flug mit einer Wahrscheinlichkeit von 1/10 aus.
Bei mehrmotorigen Maschinen dieser Firma treten die Ausfälle
unabhängig voneinander auf. Ein Flugzeug erreicht sein Ziel,
wenn wenigstens die Hälfte der Motoren läuft. Für einen Flug
steht wahlweise eine zwei- oder eine viermotorige Maschine
zur Verfügung.
Mit welcher Maschine werden Sie fliegen, wenn Ihnen
Ihr Leben lieb ist?
Dr. Hendrik Hansen
250
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.1 (Fortsetzung)
b) Jedes zweite Los gewinnt!“ verspricht der Vereinsvorsitzende,
”
als er vor 100 geladenen Gästen die Tombola der
Jahresabschlussfeier eröffnet. Nach der Preisvergabe
beschweren sich 10 Personen, die jeweils fünf Lose gekauft
haben, dass sie nicht einmal gewonnen haben.
Wie ist die Aussage des Vorsitzenden zu beurteilen?
Dr. Hendrik Hansen
251
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 11.1
Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt
Bernoulli-Experiment.
Beispiel 11.2
Beispiele für Bernoulli-Experimente
a) Einfacher Münzwurf: Ω = { Kopf“, Zahl“}
”
”
b) Elfmeter: Ω = { Schütze trifft“, Schütze trifft nicht“}
”
”
c) Wahlverhalten einer Person: Ω = { CDU ja“, CDU nein“}
”
”
d) Börse im Vergleich zum Vortag:
Ω = { DAX gestiegen“, DAX gefallen“}
”
”
e) ...
Dr. Hendrik Hansen
252
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 11.2
Wiederhole Bernoulli-Experiment n−Mal, wobei Wahrscheinlichkeit
für Erfolg“ oder Misserfolg“ konstant & Wiederholungen
”
”
unabhängig voneinander; definiere nun X = Anzahl der ’Erfolge’
”
bei diesen n Wiederholungen“ (diskrete Zufallsvariable), dann heißt
X binomialverteilt mit Parametern n und p (kurz: X ∼Bin(n, p)),
wobei
n x
f (x) = P (X = x) =
p (1 − p)n−x
x
E (X) = np
n
x
[
n
n
=
=
Dr. Hendrik Hansen
und
Var (X) = np (1 − p)
n!
x!·(n−x)! ”Binomialkoeffizient“,
n
n
0 = 1, 1 = n ]
n
x
= 0 für x > n,
253
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.3
a) Motorenausfälle bei Flugzeugen, vgl. Bsp. 11.1 a)
X1 = Anzahl ausfallende Motoren in zweimotoriger Maschine
X2 = Anzahl ausfallende Motoren in viermotoriger Maschine
Bsp. 11.1 a): Ausfälle unabhängig voneinander mit Wahrscheinlichkeit 1/10 ⇒ X1 ∼ Bin (2; 0, 1) & X2 ∼ Bin (4; 0, 1)
Für die Absturzwahrscheinlichkeiten gilt somit
P (Absturz Fl. 1) = P (X1 > 1) = P (X1 = 2)
=
2
2
· 0, 12 (1 − 0, 1)0
= 1 · 0, 12 · 0, 90 = 0, 01
Dr. Hendrik Hansen
254
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.3 (Fortsetzung)
a) Motorenausfälle bei Flugzeugen (Fortsetzung)
P (Absturz Fl. 2) = P (X2 > 2) = P (X2 = 3) + P (X2 = 4)
=
4
3
· 0, 13 (1 − 0, 1)1 +
4
4
· 0, 14 (1 − 0, 1)0
= 4 · 0, 13 · 0, 91 + 1 · 0, 14 · 0, 90
= 0, 0036 + 0, 0001 = 0, 0037
→ Absturzwahrscheinlichkeit Flugzeug 1 = 1% vs. Absturzwahrscheinlichkeit Flugzeug 2 = 0,37% → Flugzeug 2
sollte bevorzugt werden!
Dr. Hendrik Hansen
255
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.3 (Fortsetzung)
b) Tombola, vgl. Bsp. 11.1 b)
X = Anzahl der Gewinne bei fünf gekauften Losen
Vorsitzender: P (Los gewinnt) = 0, 5 ⇒ X ∼ Bin (5; 0, 5)
Wahrscheinlichkeit, bei fünf Losen keinen Gewinn zu erzielen
5
P (5 Lose, kein Gewinn) = P (X = 0) =
· 0, 50 (1 − 0, 5)5
0
= 1 · 0, 50 · 0, 55
= 0, 03125 ≈ 3, 1%
→ zieht eine Person 5 Lose, so ist Wahrscheinlichkeit für 5
Nieten 3,1% (wenn Aussage des Vorsitzenden wahr); es haben
jedoch bereits 10% der Gäste (10 von 100) bei 5 Losen nur
Nieten gezogen → Aussage des Vorsitzenden fragwürdig
Dr. Hendrik Hansen
256
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Sei X Bin(n, p)−verteilt, dann ist eine Zufallsvariable
Y = n − X Bin(n, 1 − p)−verteilt
I
Dr. Hendrik Hansen
Beispiel n−maliges Würfeln; X = Anzahl Würfe mit
”
Augenzahl<3“ → X ∼Bin(n, 1/3); Y = n − X = Anzahl
”
Würfe mit Augenzahl≥3“ → Y ∼Bin(n, 2/3)
257
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) f (x) Binomialverteilung für verschiedene n und p
0.5
0.4
0.3
f(x)
0.0
0.1
0.2
0.3
0.0
0.1
0.2
f(x)
0.4
0.5
0.6
n=5,p=0.3
0.6
n=5,p=0.1
0
1
2
x
3
4
5
0
1
3
4
5
4
5
0.6
0.5
0.0
0.1
0.2
0.3
f(x)
0.4
0.5
0.4
0.3
f(x)
0.2
0.1
0.0
0
Dr. Hendrik Hansen
x
n=5,p=0.8
0.6
n=5,p=0.5
2
1
2
x
3
4
5
0
1
2
x
3
258
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) f (x) Binomialverteilung für verschiedene n & p (Fortsetzung)
0.3
0.2
f(x)
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
n=10,p=0.3
0.4
n=10,p=0.1
0
2
4
x
6
8
10
0
2
6
8
10
8
10
0.4
0.3
0.0
0.1
0.2
f(x)
0.3
0.2
f(x)
0.1
0.0
0
Dr. Hendrik Hansen
x
n=10,p=0.8
0.4
n=10,p=0.5
4
2
4
x
6
8
10
0
2
4
x
6
259
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Tabellierte Verteilungsfunktion der Bin (n; 0, 5)−Verteilung
n
x
0
1
0,5000
2
0,2500
3
0,1250
4
0,0625
5
0,0313
1
1
0,7500
0,5000
0,3125
0,1875
1
0,8750
0,6875
0,5000
1
0,9375
0,8125
1
0,9688
2
3
4
5
Dr. Hendrik Hansen
1
260
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 11.3
Stetige Gleichverteilung, siehe u.a. Beispiel 9.4
Gemäß Bsp. 9.4 a) heißt eine stetige Zufallsvariable X
gleich-/rechteckverteilt auf Intervall [a, b] (kurz: X ∼ R [a, b]), falls
(
f (x) =
1
b−a
a≤x≤b
sonst
0
Weiterhin gilt
F (x) =


0
x−a
 b−a

E (X) =
Dr. Hendrik Hansen
a+b
2
und
1
x<a
a≤x≤b
x>b
Var (X) =
(b − a)2
12
261
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.4
a) Abfüllanlage für Getränkedosen ist auf 0,33 Liter eingestellt
Abweichungen von ±0, 004 L. akzeptabel
Befürchtung/Vermutung/Wissen: Anlage weicht um ±0, 009
L. vom Sollwert ab, Abweichungen auf diesem Intervall
gleichverteilt
Frage: Falls Befürchtung wahr,
Dr. Hendrik Hansen
I
mit welcher Wahrscheinlichkeit liegt abgefüllte Menge einer
Dose im akzeptablen Bereich?
I
Erwartungswert/Standardabweichung?
262
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.4
a) Abfüllanlage für Getränkedosen (Fortsetzung)
Annahme also: X ∼ R [0, 321; 0, 339]
Gesucht: P (0, 326 < X ≤ 0, 334) = F (0, 334) − F (0, 326)
(siehe Bem. 2a) nach Definition 9.4); Nach Def. 11.3 gilt
F (x) =
x − 0, 321
x − 0, 321
=
für 0, 321 ≤ x ≤ 0, 339
0, 339 − 0, 321
0, 018
Also ist
F (0, 334) − F (0, 326) =
=
Dr. Hendrik Hansen
0, 334 − 0, 321 0, 326 − 0, 321
−
0, 018
0, 018
0, 008
= 0, 444
0, 018
263
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.4
a) Abfüllanlage für Getränkedosen (Fortsetzung)
Weiterhin gilt
E (X) =
Var (X) =
0, 321 + 0, 339
= 0, 33 und
2
(0, 339 − 0, 321)2
= 0, 000027 → σX = 0, 0052 Lit.
12
→ Obwohl Erwartungswert=0,33 Liter=Sollwert, beträgt
Wahrscheinlichkeit, im Toleranzbereich ±0, 004 Litern zu
liegen, lediglich 44,4 %; Grund: σX = 0, 0052 > 0, 004
→ viele Abfüllmengen außerhalb des Toleranzbereiches
b) Anderes Beispiel für stetige Gleichverteilung: S1-Verspätung
(siehe Kapitel 9 & 10)
Dr. Hendrik Hansen
264
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 11.4
Sei µ ∈ R und 0 < σ 2 ∈ R. Besitzt eine stetige Zufallsvariable X
die Dichte
f (x) = √
1
1
2 πσ 2
e− 2 (
x−µ 2
σ
) ,
x ∈ R,
so heißt X normalverteilt mit Parametern µ und σ 2
(kurz: X ∼ N (µ, σ 2 )), wobei
E (X) = µ
und
Var (X) = σ 2
Falls µ = 0 und σ 2 = 1, so heißt X standardnormalverteilt.
Dr. Hendrik Hansen
265
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
0.6
0.5
µ=0
σ2 = 1
0.3
f(x)
0.0
0.1
0.2
0.3
0.0
0.1
0.2
f(x)
µ=2
0.4
σ2 = 1
0.4
0.5
0.6
a) Dichte der Normalverteilung für verschiedene µ und σ 2
−4
−2
0
2
4
−4
−2
0.6
0.5
µ=0
4
2
4
µ=2
σ2 = 0.5
0.3
f(x)
0.0
0.1
0.2
0.3
0.0
0.1
0.2
f(x)
2
0.4
σ2 = 2
−4
−2
0
x
Dr. Hendrik Hansen
0
x
0.4
0.5
0.6
x
2
4
−4
−2
0
x
266
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) X ∼ N (µ, σ 2 ) → Dichte von X symmetrisch um µ, d.h.
f (µ − x) = f (µ + x)
für alle
x∈R
c) X ∼ N (µ, σ 2 ), dann gilt
X −µ
∼ N (0, 1)
σ
d) X1 , ..., Xn unabhängig mit Xi ∼ N (µi , σi2 ), dann gilt
!
n
n
n
X
X
X
2
Xi ∼ N
µi ,
σi
i=1
Dr. Hendrik Hansen
i=1
i=1
267
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.5
Angenommen, die monatliche Rendite (in %) einer Aktie ist eine
normalverteilte Zufallsvariable mit Erwartungswert 0,5 und Varianz
4. Mit welcher Wahrscheinlichkeit steigt der Kurs dieser Aktie dann
in einem Monat um mehr als 5%?
X = monatliche Rendite in %“
”
⇒
X ∼ N (0, 5; 4)
Z5
P (X > 5) = 1 − P (X ≤ 5) = 1 −
−∞
1 x−0,5 2
1
√
· e− 2 ( 2 ) dx
2π · 4
Schwer zu berechnen → Anwendung von Bem. c) nach Def. 11.4
Dr. Hendrik Hansen
268
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.5 (Fortsetzung)


 X − 0, 5
5 − 0, 5 

P (X > 5) = 1 − P (X ≤ 5) = 1 − P 
≤


2
2
| {z }
∼N (0,1)
= 1 − FN (0,1) (2, 25) = 1 − Φ(2, 25)
= 1 − 0, 9878
= 0, 0122 = 1, 22%.
(Hierbei bezeichnet Φ(x) die Verteilungsfunktion der
N (0, 1)-Verteilung)
→ Eine monatliche Kurssteigerung um mehr als 5% ist lediglich
mit einer Wahrscheinlichkeit von 1,22% zu erwarten.
Dr. Hendrik Hansen
269
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Tabellierte Verteilungsfunktion Φ(x) der N (0, 1)-Verteilung
an der Stelle x = x1 + x2
x2
x1
0,0
0,00
0,5000
···
···
0,04
0,5160
0,05
0,5199
0,06
0,5239
···
···
..
.
..
.
..
..
.
..
.
..
.
..
.
2,1
0,9821
···
0,9838
0,9842
0,9846
···
2,2
0,9861
···
0,9875
0,9878
0,9881
···
2,3
0,9893
···
0,9904
0,9906
0,9909
···
..
.
..
.
..
.
..
.
..
.
..
.
..
Dr. Hendrik Hansen
.
.
270
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Zentraler Grenzwertsatz (Grund für enorme Bedeutung der
Normalverteilung): X1 , ..., Xn seien unabhängig identisch
verteilte (uiv) Zufallsvariablen mit E (Xi ) = µ und
Var (Xi ) = σ 2 . Dann gilt:
P
n

X − nµ
 i=1 i

√
lim P 
≤ x

 = Φ (x)
n→∞
σ n
bzw.
√ X̄n − µ
lim P
n
≤ x = Φ (x).
n→∞
σ
Dr. Hendrik Hansen
271
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Mit Hilfe von b) lassen sich also hinreichend große Scharen
unabhängiger Zufallsvariablen mit gleicher Verteilung (egal
welcher!) an die Standardnormalverteilung annähern.
Spezialfall: X1 , ..., Xn uiv mit Xi ∼ Bin (1, p). Somit ist
µ = p, σ 2 = p · (1 − p) und es gilt

 P
n
X − np

 i=1 i
p
≤ x
lim P 
 = Φ (x).

n→∞
np (1 − p)
Faustregel“: Approximation aus b) akzeptabel, wenn
”
(1) n ≥ 30,
Dr. Hendrik Hansen
(2) np ≥ 10,
(3) n (1 − p) ≥ 10
272
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6
Angenommen, die täglichen Änderungen des Deutschen
Aktienindexes (DAX) seien unabhängige Zufallsvariablen, wobei
P (DAX steigt) = P (DAX fällt) = 1/2
Mit welcher Wahrscheinlichkeit steigt dann der DAX an mehr als
120 von insgesamt 200 Börsentagen?
(
1
Definiere Xi =
0
DAX steigt an Börsentag i
(i = 1, ..., 200)
sonst
Dann gilt:
X1 , ..., X200
Dr. Hendrik Hansen
1
∼ Bin 1,
2
uiv
⇒
X=
200
X
i=1
1
Xi ∼ Bin 200,
2
273
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6 (Fortsetzung)
Gesucht:
P (X > 120) = 1 − P (X ≤ 120) (nicht tabelliert)
= 1−
120
X
P (X = k)
k=0
= 1−
k 200−k
120 X
200
1
1
k=0
k
2
2
(kaum berechenbar)
→ wende Bemerkung c) nach Beispiel 11.5 an
Dr. Hendrik Hansen
274
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 11.6 (Fortsetzung)
Faustregeln“ erfüllt?
”
n = 200 ≥ 30 X,
Also:
P (X > 120)
np = 100 ≥ 10 X,
n (1 − p) = 100 ≥ 10 X


 X − 100

= 1 − P (X ≤ 120) = 1 − P  √
≤

50
| {z }


120−100
√

50 
≈N (0,1)
≈ 1 − Φ (2, 83) = 1 − 0, 9977 = 0, 0023 = 0, 23%
→ Unter gegebenen Annahmen steigt der DAX an mehr als 120
von insgesamt 200 Börsentagen mit einer Wahrscheinlichkeit
von (lediglich) 0,23%
Dr. Hendrik Hansen
275
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 11
I
Unabhängige Wiederholungen eines Bernoulliexperiments →
Binomialverteilung
I
Wichtigste stetige Verteilung: Normalverteilung
I
Berechnung von Wahrscheinlichkeiten für normalverteilte
Zufallsvariablen immer über Standardnormalverteilung (siehe
Bem. c) nach Def. 11.4)
I
Approximation beliebiger Verteilungen durch
Standardnormalverteilung bei großem Stichprobenumfang
möglich (siehe Bem.b) bzw. c) nach Bsp. 11.5)
Dr. Hendrik Hansen
276
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Teil C: Induktive Statistik
Dr. Hendrik Hansen
277
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Motivation
Teil B: Verteilung F einer Zufallsvariablen X ist bekannt
⇒
sämtliche Parameter“ von F (Erwartungswert, Varianz,
”
Quantile, . . . ) lassen sich direkt angeben
Teil C: Verteilung F einer Zufallsvariablen X ist unbekannt
uiv
⇒
Stichprobe X1 , ..., Xn ∼ F
⇒
Realisationen x1 , ..., xn sollen Rückschlüsse auf
unbekannte Parameter“ von F liefern
”
Dr. Hendrik Hansen
278
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Motivation (Fortsetzung)
Dr. Hendrik Hansen
279
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 12: Punktschätzung
Beispiel 12.1
(S1-Verspätung, vgl. u.a. Beispiel 10.5 b))
X = S1-Verspätung (in min) Haltestelle Dortmund Universität“
”
Kapitel 9&10: X ∼ R [0, 20]
Jetzt: X ∼ F, wobei F unbekannt
Messe nun stichprobenartig folgende Verspätungen (in Min.):
2,
20,
14,
8,
10,
2,
0,
3,
9,
2
→ gesucht: Durchschnittliche Verspätung, also E (X) → ???
Dr. Hendrik Hansen
280
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.1
X1 , ..., Xn Stichprobenvariablen aus Grundgesamtheit mit
unbekannter Verteilung F = Fθ . Dann heißt eine Funktion
θ̂ = g (X1 , ..., Xn )
Schätzfunktion (kurz Schätzer) für den unbekannten Parameter θ.
Der sich aus den Realisationen x1 , ..., xn ergebende Wert
g (x1 , ..., xn ) heißt Schätzwert für θ.
Dr. Hendrik Hansen
281
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.2
(S1-Verspätung, Situation wie in Beispiel 12.1)
Xi = S1-Verspätung (in min) bei i−ter Messung“
”
uiv
⇒ X1 , ..., X10 ∼ X ∼ F (F unbekannt)
Von Interesse: µ = E (Xi ) → einige mögliche Kandidaten:
µ̂1 = X̄
=
7
µ̂2 = X1
=
2
µ̂3 = 3 · X8
=
6
P
µ̂4 = 19 9i=1 Xi = 7, 56
→ Welcher Schätzer ist am besten“?
”
Dr. Hendrik Hansen
282
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.2
Ein Schätzer θ̂, für den
E (θ̂) = θ
gilt, heißt erwartungstreu (oder unverzerrt) für θ.
Für einen Schätzer θ̂ heißt
Bias (θ̂) = E (θ̂) − θ
Verzerrung (oder Bias) von θ̂.
Dr. Hendrik Hansen
283
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Grafische Darstellung erwartungstreue Schätzung
f(θ^)
θ
Dr. Hendrik Hansen
284
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Grafische Darstellung verzerrte Schätzung
f(θ^)
θ
Dr. Hendrik Hansen
285
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.3
(S1-Verspätung, Situation wie in Beispiel 12.2)
Für die vier vorgeschlagenen Schätzer gilt:
10
10
1 P
1 P
E (µ̂1 ) = E 10
Xi = 10
E (Xi ) =
i=1
i=1
1
10
· 10 · µ = µ
E (µ̂2 ) = E (X1 )
= µ
E (µ̂3 ) = E (3 · X8 ) = 3 · E (X8 ) = 3 · µ
6= µ
E (µ̂4 ) = E
1
9
9
P
i=1
Xi
=
1
9
9
P
i=1
E (Xi ) =
1
9
·9·µ
= µ
µ̂1 , µ̂2 und µ̂4 erwartungstreu → welchen Schätzer bevorzugen?
Dr. Hendrik Hansen
286
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 12.3
Seien θ̂1 und θ̂2 erwartungstreue Schätzer für θ. Wenn
Var (θ̂1 ) < Var (θ̂2 ),
so heißt θ̂1 effizienter zur Schätzung von θ als θ̂2 .
Bemerkung
Grafische Darstellung Effizienz (hier θ̂1 effizienter als θ̂2 )
^ )
f(θ
1
^ )
f(θ
2
θ
Dr. Hendrik Hansen
287
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.4
(S1-Verspätung, Situation wie in Beispiel 12.3)
Für die erwartungstreuen Schätzer µ̂1 , µ̂2 und µ̂4 gilt:
10
10
1 P
1 P
Var (µ̂1 ) = Var 10
Xi = 100
Var (Xi )
i=1
=
1
100
i=1
1
10
· 10 · σ 2 =
· σ2
Var (µ̂2 ) = Var (X1 ) = σ 2
Var (µ̂4 ) = Var
=
1
81
1
9
·9·
9
P
Xi
i=1
σ 2 = 19
=
1
81
9
P
Var (Xi )
i=1
· σ2
→ Güte der Schätzer (gemäß Effizienzkrit.): 1) µ̂1 , 2) µ̂4 , 3) µ̂2
Dr. Hendrik Hansen
288
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ.
Gemäß Beispiel 12.4 ist µ̂1 = X̄ effizienter als zwei andere
erwartungstreue Schätzer für µ.
Allgemein ist X̄ der effizienteste Schätzer unter allen
erwartungstreuen Schätzern für µ, d. h. es gilt:
Var (X̄) ≤ Var (µ̂)
für alle µ̂ mit E (µ̂) = µ.
b) Spezialfall von a) bei Bernoulliverteilung:
uiv
X1 , ..., Xn ∼ Bin(1, p) → E (Xi ) = p
→ X̄ erwartungstreuer (und außerdem effizientester)
Schätzer für p
Dr. Hendrik Hansen
289
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ
bekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
n
2
σ̂ 2 = SX
=
1X
(Xi − µ)2
n
i=1
ein erwartungstreuer Schätzer für σ 2 .
d) Betrachte Zufallsvariablen X1 , ..., Xn (uiv) mit E (Xi ) = µ
unbekannt und σ 2 = Var (Xi ) unbekannt. Dann ist
n
2
σ̂ 2 = S̃X
=
1 X
(Xi − X̄)2
n−1
i=1
ein erwartungstreuer Schätzer für σ 2 .
Dr. Hendrik Hansen
290
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5
(S1-Verspätung, Situation wie in 12.1)
a) Xi = S1-Verspätung bei i−ter Messung“ (i = 1, ..., 10),
”
Xi ∼ F (unbekannt) → Schätze Varianz σ 2 (gem. Bem. d)
2
nach Bsp. 12.1) erwartungstreu mit S̃X
2
S̃X
1
(2 − 7)2 + (14 − 7)2 + (10 − 7)2 + (0 − 7)2 + (9 − 7)2
9
+(20 − 7)2 + (8 − 7)2 + (2 − 7)2 + (3 − 7)2 + (2 − 7)2 )
1
=
(25 + 49 + 9 + 49 + 4 + 169 + 1 + 25 + 16 + 25)
9
1
=
· 372 = 41, 34
9
=
Dr. Hendrik Hansen
291
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5 (Fortsetzung)
b) Situation wie in a), unterstelle jedoch, dass der aus den zehn
Messungen resultierende Mittelwert (x̄ = 7) dem wahren
Erwartungswert entspricht → verwende diese Zusatzinfo und
schätze die Varianz σ 2 (gem. Bem. c) nach Bsp. 12.1)
2
erwartungstreu mit SX
n
2
SX
=
1
1X
(Xi − µ)2 =
· 372 = 37, 2
n
10
i=1
Dr. Hendrik Hansen
292
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 12.5 (Fortsetzung)
c) Mit welcher Wahrscheinlichkeit verspätet sich S1 um
höchstens 5 Minuten?
(
1 Verspätung ≤ 5 min
Definiere Yi =
0 sonst
uiv
Also Y1 , ..., Y10 ∼ Bin(1, p); Von Interesse: p (Wahrscheinlichkeit, dass S1 max. 5 min. zu spät) → Gemäß Bem. b) nach
Bsp. 12.1 ist X̄ effizientester Schätzer für p
p̂ =
1
1
(1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 + 1) =
10
2
(Zur Erinnerung: P(Versp. max. 5 min) = 0, 25 bei
Unterstellung einer Gleichverteilung)
Dr. Hendrik Hansen
293
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit/Zusammenfassung Kapitel 12
I
Schätzer = Funktion der Stichprobenvariablen, selbst
ebenfalls Zufallsvariable
I
Erwartungstreue als Konzept zum Vergleich von Schätzern
I
Effizienz als Konzept zum Vergleich von erwartungstreuen
Schätzern
Dr. Hendrik Hansen
294
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 13: Intervallschätzung
Motivation
I
Bisher: Schätzung des unbekannten Parameters θ durch θ̂
auf einen Punkt“
”
→ P(θ̂ = θ) = 0 (falls θ̂ stetig verteilt), darüber hinaus keine
Informationen, wie wahrscheinlich sich θ̂ zumindest in der
”
Nähe“von θ realisiert
I
Jetzt: Konstruiere (basierend auf Punktschätzer) Intervall,
das unbekannten Parameter mit hoher Wahrscheinlichkeit“
”
überdeckt → liefert Information über Präzision des Schätzers
Dr. Hendrik Hansen
295
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 13.1
X1 , ..., Xn Stichpr. aus Grundges. mit Xi ∼ Fθ (unbekannt).
Vu = g(X1 , X2 , . . . , Xn ) und Vo = h(X1 , X2 , . . . , Xn )
Stichprobenfunktionen mit Vu < Vo . Dann heißt das Intervall
[Vu , Vo ] Konfidenzintervall für den unbekannten Parameter θ.
Weiter heißt
α = P (θ ∈
/ [Vu , Vo ])
Irrtumswahrscheinlichkeit und
1 − α = P (θ ∈ [Vu , Vo ])
Vertrauenswahrscheinlichkeit oder Konfidenzniveau.
Dr. Hendrik Hansen
296
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.1
Das Zentrum für Studienangelegenheiten an der TU Dortmund
behauptet, dass die mittlere Wartezeit von Besuchern nicht mehr
als zehn Minuten beträgt. Eine Befragung von 16 zufällig
ausgewählten Besuchern ergab folgende Wartezeiten (in Minuten):
12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2.
Annahme: Wartezeiten Stichprobenrealisationen einer normalverteilten Grundgesamtheit mit Standardabweichung σ = 5 bekannt.
Gesucht: 95%-Konfidenzintervall für die mittlere Wartezeit
Dr. Hendrik Hansen
297
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Herleitung eines Konfidenzintervalls für µ bei bekannter Varianz
(normalverteilte Grundgesamtheit)
uiv
Ausgangssituation: X1 , ..., Xn ∼ N µ, σ 2
Pn
2 (vgl. Bem. d) nach Def. 11.4)
→
i=1 Xi ∼ N n · µ, n · σ
2
→ X̄ ∼ N µ, σn (vgl. Bem. d) nach Bsp. 10.1 und Bem. a),
Punkt ii), nach Beispiel 10.5)
→
√ X̄−µ
n σ ∼ N (0, 1) (vgl. Bem. c) nach Def. 11.4)
√ X̄ − µ
→ P u α2 ≤ n
≤ u1− α2 = 1 − α
σ
mit uγ = γ-Quantil der N (0, 1)-Verteilung
Dr. Hendrik Hansen
298
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
uiv
Herleitung Konfidenzintervall für µ bei Xi ∼ N µ, σ 2 , σ 2
bekannt (Fortsetzung)
√
1 − α = P −u1− α2 σ ≤ n (X̄ − µ) ≤ u1− α2 σ
= P
σ
σ
−u1− α2 √ ≤ X̄ − µ ≤ u1− α2 √
n
n
= P
σ
σ
−u1− α2 √ − X̄ ≤ −µ ≤ u1− α2 √ − X̄
n
n



σ
σ 


= P X̄ − u1− α2 √ ≤ µ ≤ X̄ + u1− α2 √ 

n
n
|
|
{z
}
{z
}
= Vu
Dr. Hendrik Hansen
= Vo
299
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
uiv
Somit gilt: Wenn X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 bekannt,
dann ist ein Konfidenzintervall für den unbekannten Erwartungswert µ zum Konfidenzniveau 1 − α gegeben durch
σ
σ
KI1−α (µ) = X̄ − u1− α2 √ , X̄ + u1− α2 √
n
n
Beispiel 13.2
(Wartezeiten ZfS, vgl. Bsp. 13.1)
Xi = Wartezeit i-ter Besucher (in Minuten)“, dann gilt
”
uiv
X1 , X2 , . . . , X16 ∼ N (µ, 25)
Dr. Hendrik Hansen
300
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.2 (Fortsetzung)
Weiter ist
X̄ =
1
(12 + 20 + 5 + . . . + 6 + 2) = 12, 25
16
und
1 − α = 0, 95
→ KI0,95 (µ) =
⇒
u1− α2 = u0,975 = 1, 96
5
5
12, 25 − 1, 96 · √ ; 12, 25 + 1, 96 · √
16
16
= [12, 25 − 2, 45; 12, 25 + 2, 45]
= [9, 8; 14, 7] = [9 Min.&48 Sek.; 14 Min.&42 Sek.]
Unter getroffenen Annahmen liegt die mittlere Wartezeit beim ZfS
mit 95 % Wahrscheinlichkeit in obigem Intervall
Dr. Hendrik Hansen
301
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
I
Frage: Wie lässt sich analoges Konfidenzintervall für mittlere
Wartezeit finden, wenn Varianz σ 2 unbekannt?
I
Idee: Ersetze in Bemerkung nach Beispiel 13.1 die unbekannte
2 (siehe
Varianz σ 2 durch erwartungstreuen Schätzer, z.B. S̃X
Bem. d) nach Bsp. 12.4)
I
Problem:
I
Aber:
√ X̄ − µ
n
N (0, 1)
S̃X
√ X̄ − µ
n
besitzt andere, leicht handhabbare Verteilung
S̃X
Dr. Hendrik Hansen
302
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 13.2
uiv
X1 , ..., Xn ∼ N (0, 1), dann heißt die Zufallsvariable
Y =
n
X
Xi2
i=1
χ2 -verteilt mit n Freiheitsgraden, kurz: Y ∼ χ2n .
Weiter sei W ebenfalls N (0, 1) verteilt und Y wie oben definiert
(also Y ∼ χ2n ). Sind W und Y stochastisch unabhängig, so heißt
die Zufallsvariable
W
Z=q
1
nY
t-verteilt mit n Freiheitsgraden, kurz: Z ∼ tn .
Dr. Hendrik Hansen
303
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1
0.5
a) Dichten ausgesuchter χ2n −Verteilungen
n=1
n=2
0.4
n=3
n=4
0.3
n=6
0.0
0.1
0.2
f(x)
n=9
0
2
4
6
8
x
Dr. Hendrik Hansen
304
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 1 (Fortsetzung)
0.4
0.4
b) Dichten ausgesuchter tn −Verteilungen
n=5
0.3
0.2
f(x)
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
n=2
−4
−2
0
2
4
−4
−2
0
2
0.4
0.2
f(x)
0.0
0.1
0.2
0.0
0.1
f(x)
0.3
n = 25
0.3
n = 10
−4
−2
0
x
Dr. Hendrik Hansen
4
x
0.4
x
2
4
−4
−2
0
2
4
x
305
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2
a) Konfidenzintervall für µ bei Normalverteilung, σ 2 unbekannt
uiv
Betrachte Problem aus Bem. nach Bsp. 13.2: Xi ∼ N (µ, σ 2 )
mit µ und σ 2 unbekannt; Gesucht: Konfidenzintervall für µ
√
Bekannt:
außerdem leicht zu zeigen:
n X̄−µ
σ ∼ N (0, 1);
(n − 1)
2
S̃X
σ2
∼ χ2n−1
2 stochastisch unabhängig
Weiter sind X̄ und S̃X
√ X̄−µ
√ X̄−µ
√ X̄ − µ
n σ
n σ
n
⇒ q
=
=
∼ tn−1 (vgl. Def. 13.2)
2
S̃X
S̃X
n−1 S̃X
σ
n−1 σ 2
und somit P
Dr. Hendrik Hansen
tn−1, α2
√ X̄ − µ
≤ n
≤ tn−1,1− α2
S̃X
=1−α
306
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung 2 (Fortsetzung)
a) Konfidenzintervall bei N (µ, σ 2 ), σ 2 unbekannt (Fortsetzung)
uiv
Somit gilt: X1 , ..., Xn ∼ N (µ, σ 2 ), Varianz σ 2 unbekannt,
dann ist Konfidenzintervall für unbekannten Erwartungswert µ
zum Konfidenzniveau 1 − α gegeben durch
"
#
S̃X
S̃X
KI1−α (µ) = X̄ − tn−1,1− α2 √ , X̄ + tn−1,1− α2 √
n
n
(hierbei tn−1,γ das γ-Quantil der tn−1 -Verteilung)
b) Für n → ∞ konvergiert tn −Verteilung gegen N (0, 1)−Verteilung; Faustregel: Approximation bei n ≥ 30 akzeptabel
→ wenn n ≥ 30, so kann im Konfidenzintervall aus Teil a)
anstelle des (1 − α/2)−Quantils der tn −Verteilung das entsprechende N (0, 1)−Quantil verwendet werden
Dr. Hendrik Hansen
307
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.3
(Wartezeiten ZfS, vgl. Bsp. 13.1 und 13.2)
Xi = Wartezeit i-ter Besucher (in Minuten)“; unterstelle
”
weiterhin Normalverteilung, nehme nun jedoch an dass σ
uiv
unbekannt → X1 , ..., X16 ∼ N (µ, σ 2 )
Gesucht: Konfidenzintervall für µ → wende Bem. 2 a) nach Def.
13.2 an
X̄ = 12, 25 und n = 16 (vgl. Bsp. 13.2), weiterhin gilt
2
t15,0.975 = 2, 131; berechne nun außerdem S̃X
2
S̃X
=
1
(12 − 12, 25)2 + (20 − 12, 25)2 + . . . + (2 − 12, 25)2
15
= 69, 933
Dr. Hendrik Hansen
308
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.3 (Fortsetzung)
Somit gilt
r
KI0,95 (µ) = 12, 25 ± t15,0.975 ·
"
=
r
12, 25 − 2, 131 ·
69, 933
16
69, 933
; 12, 25 + 2, 131 ·
16
r
69, 933
16
#
= [12, 25 − 4, 455; 12, 25 + 4, 455]
= [7, 795; 16, 705] = [7 Min.&48 Sek.; 16 Min.&42 Sek.]
Beachte: σ 2 bekannt → KI0,95 (µ) = [9, 8; 14, 7] ⊂ [7, 8; 16, 7]
= KI0,95 (µ) bei σ 2 unbekannt
2 = 69, 33 ∼ 3 × 25(=σ 2 bei bekannter Varianz)
Gründe: 1) S̃X
2) Weniger Informationen → größere Unsicherheit
Dr. Hendrik Hansen
309
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.4
Bei einer Umfrage unter 65 mittelständischen Unternehmen geben
26 Betriebe an, zusätzliche Mitarbeiter einstellen zu wollen, falls
der Kündigungsschutz gelockert wird.
Gesucht: 90%-Konfidenzintervall für den unbekannten Anteil der
Betriebe, die nach einer Gesetzesänderung zusätzliche Arbeitsplätze schaffen wollen
(
1 i-ter Betrieb möchte zusätzl. Mitarb. einstellen
Definiere Xi =
0 sonst
uiv
→ X1 , ..., X65 ∼ Bin (1, p) →
65
X
Xi ∼ Bin (65, p)
i=1
Gemäß Fragestellung also benötigt: Konfidenzintervall für p
Dr. Hendrik Hansen
310
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
uiv
Seien X1 , ..., Xn ∼ Bin (1, p), dann ist ein (approximatives) Konfidenzintervall für den unbekannten Anteil p zum Konfidenzniveau
1 − α gegeben durch:
σ̂
σ̂
KI1−α (p) = p̂ − u1− α2 √ , p̂ + u1− α2 √
n
n
p
Dabei ist p̂ = X̄, σ̂ = p̂ (1 − p̂) und uγ das γ-Quantil der
Standardnormalverteilung.
Weiterhin gilt die Approximation als akzeptabel, wenn
(1) n ≥ 30,
Dr. Hendrik Hansen
(2) np̂ ≥ 10,
(3) n (1 − p̂) ≥ 10
311
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.5
(Umfrage in mittelständischen Unternehmen, vgl. Bsp. 13.4)
uiv
Xi wie in Bsp. 13.4 → X1 , ..., X65 ∼ Bin (1, p)
Gesucht: Konfidenzintervall für p → Nutze Bem. nach Bsp. 13.4:
65
X
Xi = 26 → p̂ = X̄ =
i=1
26
= 0, 4
65
Überprüfung der Voraussetzungen:
(1)
n = 65 ≥ 30 X
(2)
n p̂ = 26 ≥ 10 X
(3) n (1 − p̂) = 39 ≥ 10 X
Dr. Hendrik Hansen
312
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.5 (Fortsetzung)
Weiter gilt
σ̂ =
p
p
0, 4 (1 − 0, 4) = 0, 24 = 0, 49
1 − α = 0, 9
⇒
u1− α2 = u0,95 = 1, 645
und somit
KI0,9 (p) =
0, 49
0, 49
0, 4 − 1, 645 √ ; 0, 4 + 1, 645 √
65
65
= [0, 4 − 0, 1; 0, 4 + 0, 1]
= [0, 3; 0, 5]
→ Mit 90 % Wahrscheinlichkeit liegt der Anteil an Betrieben, die
nach einer Gesetzesänderung zusätzliches Personal einstellen
würden, zwischen 30 % und 50 %.
Dr. Hendrik Hansen
313
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Alle in Kapitel 13 betrachteten Konfidenzintervalle haben die Form
σ̃
σ̃
X̄ − c √ , X̄ + c √
n
n
hierbei
I
c = u1− α2 (Normalvtlg. bei bekannter Varianz; Binomialvtlg.) bzw. c = tn−1,1− α2 (Normalvtlg., Varianz unbek.)
I
σ̃ = σ (Normalvtlg., Varianz
p bek.), σ̃ = S̃X (Normalvtlg.,
Varianz unbek.) bzw. σ̃ = X̄ (1 − X̄) (Binomialvtlg.)
Die Länge der Konfidenzintervalle beträgt somit
σ̃
σ̃
σ̃
=2·c· √
L = X̄ + c √ − X̄ − c √
n
n
n
Dr. Hendrik Hansen
314
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
L = 2 · c · √σ̃n → die hier betrachteten Konfidenzintervalle für
unbekannte Erwartungswerte sind umso schmaler
I
je größer der Stichprobenumfang n ist
I
je kleiner die (geschätzte) Standardabweichung σ (bzw. σ̂) ist
I
je kleiner das Konfidenzniveau 1 − α ist
Nutzen in der Praxis: Gebe L vor und verwende
σ̃ · c 2
n= 2·
L
zur Bestimmung des notwendigen Stichprobenumfangs
Dr. Hendrik Hansen
315
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.6
a) Wartezeiten ZfS: Wieviele Studierende müssen befragt werden, damit das 95%-Konfidenzintervall für die mittlere Wartezeit nicht breiter ist als vier Minuten (Vorauss. wie in Bsp.
13.1, d.h. Normalvtlg. mit σ = 5 bekannt)?
b) Umfrage in Betrieben, vgl. Bsp. 13.4 und Bsp. 13.5: Wieviele
mittelständische Unternehmen müssen befragt werden, damit
das 90%-Konfidenzintervall für den Anteil der Betriebe, die
bei Lockerung des Kündigungsschutzes zusätzliche Mitarbeiter
einstellen wollen, nicht breiter als zehn Prozentpunkte ist?
Dr. Hendrik Hansen
316
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.6 (Fortsetzung)
Bisher: n fest, α fest → L = L(n, α)
Jetzt: L fest, α fest → n = n(L, α)
Zu a)
Bsp. 13.1: L = 14, 7 − 9, 8 = 4, 9 = 4 Minuten & 54 Sekunden
!
Jetzt: L ≤ 4
Bem. nach Bsp. 13.5: n ≥
σ̃ · c
2·
L
2
Hier: σ̃ = 5, c = u0,975 = 1, 96, L = 4
Dr. Hendrik Hansen
317
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.6 (Fortsetzung)
Zu a) (Fortsetzung)
Somit gilt:
!
L≤4
⇔
n≥
2 · 1, 96 · 5
4
2
= 24, 01
Es müssen also mindestens 25 Studierende befragt werden.
Zu b)
Bsp. 13.5: L = 0, 5 − 0, 3 = 0, 2 = 20 Prozentpunkte
!
Jetzt: L ≤ 0, 1 → abermals Abschätzung wie in a) (vgl. Bem.
nach Bsp. 13.5)
Dr. Hendrik Hansen
318
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.6 (Fortsetzung)
Zu b) (Fortsetzung)
Hier: c = u0,95 = 1, 645, L = 0, 1, σ̃ =
p
X̄(1 − X̄)
1
2
~
σ
0
0.25
0.5
→ Problem: X̄ (und damit auch σ̃) ebenfalls von n abhängig;
i
hp
Ausweg: Abschätzung von σ̃ durch max
X̄(1 − X̄) =
0
0.25
0.5
0.75
1
X
Dr. Hendrik Hansen
319
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 13.6 (Fortsetzung)
Zu b) (Fortsetzung)
Gemäß der Bem. nach Bsp. 13.5 gilt somit:
!
L ≤ 0, 1
⇔
n≥
2 · 1, 645 · 1/2
0, 1
2
= 270, 6025
Es müssen mindestens 271 mittelständische Unternehmen befragt
werden.
Dr. Hendrik Hansen
320
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Fazit zur Intervallschätzung
I
Konfidenzintervall für µ bei N (µ, σ 2 ), σ 2 bekannt
→ Quantile der Standardnormalverteilung
I
Konfidenzintervall für µ bei N (µ, σ 2 ), σ 2 unbekannt
→ Quantile der tn−1 -Verteilung
I
Approximatives Konfidenzintervall für p bei Bin (n, p)
→ Quantile der Standardnormalverteilung
I
Bestimmung des notwendigen Stichprobenumfangs bei fester
Intervalllänge → Bemerkung nach Beispiel 13.5
Dr. Hendrik Hansen
321
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Kapitel 14: Statistische Signifikanztests
Motivation
I
Bisher: Punkt- und Intervallschätzungen für unbekannte
Parameter einer Verteilung, dabei keine Verwendung von
Vorinformationen
I
Jetzt: Vorinformationen/Vermutungen/Behauptungen über
Verteilung bzw. einzelne Parameter → formuliere Hypothese
H0 und überprüfe diese anhand einer Stichprobe; Verwerfe H0
(d.h. Entscheidung für eine Alternative H1 ), wenn Stichprobenergebnis in deutlichem(=signifikantem) Gegensatz zu H0
steht → Überprüfungsverfahren heißt Signifikanztest
Dr. Hendrik Hansen
322
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.1
a) Wartezeiten ZfS (vgl. Bsp. 13.1)
Behauptung ZfS: Mittlere Wartezeit maximal 10 Minuten
Wartezeiten (in Min.) von 16 zufällig ausgew. Besuchern:
12, 20, 5, 15, 8, 1, 30, 25, 10, 4, 17, 11, 20, 10, 6, 2
Annahme: Wartezeiten normalverteilt mit σ = 5 bekannt
Überprüfe ZfS-Behauptung mit statistischem Signifikanztest
→ Situation:
uiv
X1 , ..., X16 ∼ N (µ, 25)
Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10
Dr. Hendrik Hansen
323
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.1 (Fortsetzung)
b) Salz in der Suppe
Ein skeptischer Mensagänger möchte an einem bestimmten
Tag die Nullhypothese Mindestens die Hälfte aller Suppen ist
”
versalzen.“ überprüfen. Er will diese Nullhypothese verwerfen,
wenn von fünf zufällig ausgewählten Suppen keine einzige
versalzen ist.
(
1 Suppe i versalzen
uiv
→ X1 , ..., X5 ∼ Bin (1, p) mit Xi =
0 sonst
H0 : p ≥ 0, 5 gegen H1 : p < 0, 5
P5
Testentscheidung: T = i=1 Xi = 0 ↔ Entscheidung für H1
Testproblem:
Dr. Hendrik Hansen
324
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Mögliche Konsequenzen einer Testentscheidung
H0 wahr
Testentscheidung
Lehne H0 nicht ab Lehne H0 ab
X
Fehler 1. Art
Realität
H0 falsch
Fehler 2. Art
X
⇒
No test based upon a theory of probability can by itself
”
provide any valuable evidence of the truth or falsehood of a
hypothesis.“
(Neyman & Pearson (1933), On the problem of the most efficient
tests of statistical hypotheses, Phil Trans R Soc Lond A 231, 289
– 337.)
Dr. Hendrik Hansen
325
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.2
Suppe in der Mensa versalzen ja/nein? Testentscheidung wie in
Bsp. 14.1
Die Wahrscheinlichkeit, weniger als die Hälfte aller Suppen als
versalzen einzuordnen, obwohl mindestens die Hälfte aller Suppen
versalzen ist, beträgt:
P (Fehler 1. Art) = P (H0 ablehnen | H0 wahr)
= max P (T = 0 | p ≥ 0, 5)
p
= P (T = 0 | p = 0, 5), da T ∼ Bin (5, p)
5
=
· 0, 50 · 0, 55 = 0, 55
0
= 0, 03125 = 3, 125%
Dr. Hendrik Hansen
326
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.2 (Fortsetzung)
Die Wahrscheinlichkeit, mindestens die Hälfte aller Suppen als
versalzen einzuordnen, obwohl weniger als die Hälfte aller Suppen
versalzen ist, beträgt:
P (Fehler 2. Art) = P (H0 nicht ablehnen | H0 falsch)
= P (T > 0 | p < 0, 5)
= P (0 < T ≤ 5 | p < 0, 5)
= 1 − P (T = 0 | p < 0, 5), s. Bem. 2 nach Def. 9.4
5
= 1−
· p0 · (1 − p)5 , da T ∼ Bin (5, p)
0
= 1 − (1 − p)5
Dr. Hendrik Hansen
327
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.2 (Fortsetzung)
Fehler 2. Art für p = 0, 49 ∈ H1
P (T > 0 | p = 0, 49) = 1 − P (T = 0 | p = 0, 49)
= 1 − 0, 035 = 0, 9655
Fehler 2. Art für weitere p ∈ H1
p ∈ H1
P (Fehler 2. Art)
Dr. Hendrik Hansen
0,49
96,55%
0,45
94,97%
0,35
88,4%
0,25,
76,27%
0,05
22,62%
328
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
0.75
0.5
0.25
P(H0 nicht ablehnen)
1
Beispiel 14.2 (Fortsetzung)
H0
0
H1
0
0.5
1
p
Dr. Hendrik Hansen
329
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
H0
0.25
0.5
0.75
H1
0
P(H0 ablehnen)
1
Beispiel 14.2 (Fortsetzung)
0
0.5
1
p
P(Fehler 1. Art) bei der Testentscheidung des Mensagängers erscheint akzeptabel (< 3, 125%), jedoch ist P(Fehler 2. Art) immens hoch (selbst beim weit von H0 entfernten“ p = 0, 25 ∈ H1
”
wird die Nullhypothese immernoch mit 76, 27% Wahrscheinlichkeit
beibehalten)
Dr. Hendrik Hansen
330
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Definition 14.1
Betrachte Mengen Θ0 und Θ1 mit Θ0 ∩ Θ1 = ∅ und
θ ∈ Θ = Θ0 ∪ Θ1 . Gegeben sei nun ein Test für das Testproblem
H0 : θ ∈ Θ0
gegen
H1 : θ ∈ Θ1 .
Dann heißt die Funktion
g(θ) = P (H0 ablehnen | θ)
Gütefunktion des Tests.
Dr. Hendrik Hansen
331
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) In Beispiel 14.1 a) (Wartezeiten ZfS) entspricht
Θ0 = {Mittlere Wartezeit≤ 10 Min.} = {µ0 |µ0 ≤ 10}
Θ1 = {Mittlere Wartezeit> 10 Min.} = {µ1 |µ1 > 10}
In Beispiel 14.1 b) (Salz in der Suppe) entspricht
Θ0 = {≥ 50% der Suppen versalzen} = {p0 |p0 ≥ 0, 5}
Θ1 = {< 50% der Suppen versalzen} = {p1 |p1 < 0, 5}
b) Interpretation Gütefunktion
Unter H0 : Gütefunktion = P (Fehler 1. Art)
Unter H1 : Gütefunktion = 1 − P (Fehler 2. Art)
Dr. Hendrik Hansen
332
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) Gleichzeitiges Minimieren beider Fehlerwahrscheinlichkeiten
unmöglich
→ gebe maximale Wahrscheinlichkeit für Fehler 1. Art vor
( Signifikanzniveau“) und minimiere Wahrscheinlichkeit
”
für Fehler 2. Art
→ die abzusichernde Behauptung muss in die Alternative, da
nur Fehlerwahrscheinlichkeit 1. Art kontrolliert wird
Dr. Hendrik Hansen
333
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
d) Jeder statistische Signifikanztest kann nach folgendem
Standardschema durchgeführt werden:
1. Aufstellen des Testproblems, Festlegung des Signifikanzniveaus α
2. Bestimmung einer geeigneten Prüfgröße sowie deren Verteilung unter H0
3. Festlegung des kritischen Bereichs (Verwerfungs- oder
Ablehnbereichs)
4. Berechnung der Realisation der Prüfgröße anhand der
gezogenen Stichprobe
5. Ablehnen von H0 , wenn sich die Realisation der Prüfgröße im kritischen Bereich befindet
Dr. Hendrik Hansen
334
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
e) Kritischer Wert/Bereich anhand f (T ) (Dichte der Prüfgröße
unter H0 )
Dr. Hendrik Hansen
335
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
f) Gauß-Test
uiv
Seien X1 , ..., Xn ∼ N (µ, σ 2 ), σ 2 > 0 bekannt. Zu
überprüfen sei eines der folgenden Testprobleme:
Dr. Hendrik Hansen
(1)
H0
µ ≤ µ0
gegen
gegen
H1
µ > µ0
(2)
µ = µ0
gegen
µ 6= µ0
(3)
µ ≥ µ0
gegen
µ < µ0
336
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
f) Gauß-Test (Fortsetzung)
Die Nullhypothese wird zum Niveau α abgelehnt, wenn die
Prüfgröße
T =
√ X̄ − µ0
n
σ
H
T ∼0 N (0, 1)
in folgendem kritischen Bereich liegt:
(1)
(u1−α , ∞)
(2)
(−∞, −u1− α2 ) ∪ (u1− α2 , ∞)
(3)
(−∞, −u1−α )
Dabei ist uγ das γ-Quantil der Standardnormalverteilung.
Dr. Hendrik Hansen
337
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.3
(Wartezeiten ZfS)
Situation wie in Bsp. 14.1 a), d.h.
uiv
I
X1 , ..., X16 ∼ N (µ, 25)
I
Xi = Wartezeit des i-ten Studierenden (in Minuten)“
”
I
Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10
→ Gauß-Test aus Bem. f) nach Def. 14.1 anwendbar (Problem
hier entspricht dem ersten der drei dort präsentierten Tests)
→ verwerfe H0 wenn T ∈ (u1−α , ∞)
Dr. Hendrik Hansen
338
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.3 (Fortsetzung)
Hier:
T =
√ X̄ − µ0 √ 12, 25 − 10
n
= 16
= 1, 8
σ
5
und
u1−α = u0.95 = 1, 645,
da α = 0, 05
Testentscheidung:
T = 1, 8 ∈ (1, 645; ∞) = (u1−α , ∞)
→ H0 wird zum 5%-Niveau abgelehnt
Dr. Hendrik Hansen
339
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Wiederholung Kapitel 13:
uiv
i) X1 , ..., Xn ∼ N (0, 1) →
Pn
i=1 Xi
∼ χ2n
ii) W ∼ N (0, 1), Y ∼ χ2n , außerdem W & Y stochastisch
p
unabhängig → W/ Y /n ∼ tn
b) t-Test
uiv
Seien X1 , ..., Xn ∼ N (µ, σ 2 ), σ 2 > 0 unbekannt. Zu
überprüfen sei eines der folgenden Testprobleme:
Dr. Hendrik Hansen
(1)
H0
µ ≤ µ0
gegen
gegen
H1
µ > µ0
(2)
µ = µ0
gegen
µ 6= µ0
(3)
µ ≥ µ0
gegen
µ < µ0
340
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) t-Test (Fortsetzung)
Die Nullhypothese wird zum Niveau α abgelehnt, wenn die
Prüfgröße
√ X̄ − µ0 H0
T ∼ tn−1
T = n
S̃X
in folgendem kritischen Bereich liegt:
(1)
(tn−1,1−α , ∞)
(2)
(−∞, −tn−1,1− α2 ) ∪ (tn−1,1− α2 , ∞)
(3)
(−∞, −tn−1,1−α )
Dabei ist tn−1,γ das γ-Quantil der t-Verteilung mit n − 1
Freiheitsgraden.
Dr. Hendrik Hansen
341
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.4
a) Wartezeiten ZfS
Testproblem wie in Bsp. 14.1 a), jedoch sei Varianz nun
unbekannt (vgl. Bsp. 13.3) → Ausgangslage:
uiv
I
X1 , ..., X16 ∼ N (µ, σ 2 )
I
Xi = Wartezeit des i-ten Studierenden (in Minuten)“
”
Testproblem: H0 : µ ≤ 10 gegen H1 : µ > 10
I
→ t-Test aus Bem. nach Bsp. 14.3 anwendbar (Problem hier
entspricht dem ersten der drei dort präsentierten Tests)
→ verwerfe H0 wenn T ∈ (tn−1,1−α , ∞)
Dr. Hendrik Hansen
342
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.4 (Fortsetzung)
a) Wartezeiten ZfS (Fortsetzung)
Hier:
T =
√ X̄ − µ0 √ 12, 25 − 10
= 16 √
= 1, 076
n
69, 933
S̃X
und
tn−1,1−α = t15,0.95 = 1, 753,
da n = 16 und α = 0, 05
Testentscheidung:
T = 1, 076 ∈
/ (1, 753; ∞) = (tn−1,1−α , ∞)
→ H0 wird zum 5%-Niveau nicht abgelehnt
Dr. Hendrik Hansen
343
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.4 (Fortsetzung)
b) Kündigungsschutz, vgl. Bsp. 13.4
Umfrage unter 65 mittelständischen Unternehmen → 26
Betriebe geben an, bei Lockerung des Kündigunsschutzes
zusätzliche Mitarbeiter einzustellen
Behauptung Gewerkschaft: Auch nach Gesetzesänderung
werden max. 30% der Unternehmen zus. Personal einstellen
(
1 i-ter Betrieb möchte zusätzl. Mitarb. einst.
Definiere Xi =
0 sonst
→
Testproblem:
Dr. Hendrik Hansen
uiv
X1 , ..., X65 ∼ Bin (1, p)
H0 : p ≤ 0, 3 gegen H1 : p > 0, 3
344
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
uiv
Seien X1 , ..., Xn ∼ Bin (1, p). Zu überprüfen ist eines der
folgenden Testprobleme:
Dr. Hendrik Hansen
(1)
H0
p ≤ p0
gegen
gegen
H1
p > p0
(2)
p = p0
gegen
p 6= p0
(3)
p ≥ p0
gegen
p < p0
345
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
Approximative Tests für die drei Testprobleme lehnen H0 jeweils
ab, wenn die Prüfgröße
√
H0
X̄ − p0
T = np
T ≈ N (0, 1)
p0 (1 − p0 )
in folgenden kritischen Bereichen liegt:
(1)
(u1−α , ∞)
(2)
(−∞, −u1− α2 ) ∪ (u1− α2 , ∞)
(3)
(−∞, −u1−α )
Die Approximation gilt als akzeptabel, wenn
(1) n ≥ 30,
Dr. Hendrik Hansen
(2) nX̄ ≥ 10,
(3) n (1 − X̄) ≥ 10
346
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.5
(Kündigunsschutz)
uiv
Situation wie in Bsp. 14.4 b), d.h. X1 , ..., X65 ∼ Bin (1, p)
Testproblem: H0 : p ≤ 0, 3 gegen H1 : p > 0, 3
→ der erste der drei Tests aus der Bem. nach Bsp. 14.4 entspricht
diesem Problem (Approximation akzeptabel, vgl. Bsp. 13.5)
Hier:
und
T =
√
n √ X̄−p0
p0 (1−p0 )
=
√
0,4−0,3
65 √
= 1, 759
0,3·0,7
u1−α = u0.95 = 1, 645, da α = 0, 05
→ Testentscheidung: T = 1, 759 ∈ (1, 645; ∞) = (u1−α , ∞)
Also wird H0 zum 5%-Niveau verworfen
Dr. Hendrik Hansen
347
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
Zwischenfazit zu statistischen Signifikanztests
I
Fehler 1. Art = H0 ablehnen, obwohl H0 richtig
I
Fehler 2. Art = H0 nicht ablehnen, obwohl H0 falsch
I
Gauß-Test = Test auf unbekannten Erwartungswert einer
Normalverteilung mit bekannter Varianz
I
t-Test = Test auf unbekannten Erwartungswert einer
Normalverteilung mit unbekannter Varianz
I
Approximativer Test auf p bei Bin (n, p) über
Standardnormalverteilung möglich
I
Testentscheidung sagt nichts über die Richtigkeit von H0 aus,
da Fehler 2. Art nicht kontrolliert wird
Dr. Hendrik Hansen
348
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.6
Ein Marktforschungsinstitut behauptet, dass erwerbstätige Personen eher eine Verlängerung der Ladenöffnungszeiten befürworten
als nicht erwerbstätige. Angenommen, eine entsprechende Umfrage
ergibt folgendes Meinungsbild:
ja
Verlängerung der Ladenöffnungszeiten
befürwortet
nicht befürwortet
200
100
Erwerbstätigkeit
nein
100
100
Spricht Umfrage für Behauptung des Instituts?
→ mit den bisher eingeführten Signifikanztests nicht beantwortbar!
Dr. Hendrik Hansen
349
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Motivation für Tests auf Unabhängigkeit
Bisher: Konstruktion von Konfidenzintervallen und
Signifikanztests, dabei wichtige Voraussetzungen:
I
Unabhängigkeit der Zufallsvariablen X1 , ..., Xn
I
Unterstellung einer bestimmten Verteilung an X1 , ..., Xn
Jetzt: Test auf Unabhängigkeit zweier Zufallsvariablen
(später: Test auf eine bestimmte Verteilung einer
Zufallsvariablen)
Dr. Hendrik Hansen
350
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) Allgemeine Kontingenztafel
Sei X Zufallsvariable mit k möglichen Ausprägungen, Y
Zufallsvariable mit l möglichen Ausprägungen, X und Y an
einem
gemessen. Betrachte Stichprobe
Merkmalsträger
X1
Xn
Y1 , ..., Yn ; weiter sei Hij =”Anzahl an Beobachtungen mit
X = i und Y = j“ ; Kontingenztafel=Tabelle der Form
Y
X
Dr. Hendrik Hansen
P
1
1
H11
2
H12
···
···
l
H1l
H1•
2
..
.
H21
..
.
H22
..
.
···
..
.
H2l
..
.
H2•
..
.
k
P
Hk1
H•1
Hk2
H•2
···
···
Hkl
H•l
Hk•
n
351
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) χ2 -Unabhängigkeitstest
Situation wie in b) (X, Y Zufallsvariablen mit k (bei X) bzw.
l (bei Y ) möglichen Ausprägungen, an einem Merkmal
gemessen; Stichprobe der Größe n)
H0 : X und Y stochastisch unabhängig
gegen
H1 :
X und Y abhängig
Weiter sei
H̃ij =
Dr. Hendrik Hansen
Hi• · H•j
,
n
i = 1, ..., k, j = 1, ..., l
352
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
c) χ2 -Unabhängigkeitstest (Fortsetzung)
k X
l
X
(Hij − H̃ij )2
unter H0 approx. χ2 −verteilt
H̃
ij
i=1 j=1
H0
V ≈ χ2(k−1)(l−1) ; verwerfe H0 wenn V ∈ (χ2(k−1)(l−1),1−α , ∞)
Prüfgr. V =
(χ2n,γ = γ-Quantil der χ2 -Verteilung mit n Freiheitsgraden)
Approx. χ2 −Verteilung von V unter H0 akzeptabel, falls
H̃ij ≥ 5 für alle i = 1, ..., k, j = 1, ..., l
Dr. Hendrik Hansen
353
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.7
(Ladenöffnungszeiten, vgl. Bsp. 14.6)
X = Erwerbstätigkeit (1 = ja, 2 = nein), Y = Verlängerung der
Ladenöffnungszeiten (1 = befürwortet, 2 = nicht befürwortet)
Y
P
1
1
200
2
100
300
2
P
100
300
100
200
200
500
X
H0 : Erwerbstätige Personen befürworten verlängerte Ladenöffnungszeiten im Vergleich zu nicht erwerbstätigen Personen nicht
↔ X und Y stochastisch unabhängig
H1 : X & Y abhängig (=Behauptung Marktforschungsinstitut)
Dr. Hendrik Hansen
354
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.7 (Fortsetzung)
Berechnung der unter H0 erwarteten Häufigkeiten:
H̃11 =
H̃21 =
→ V =
300·300
500
200·300
500
= 180
H̃12 =
= 120
H̃22 =
300·200
500
200·200
500
= 120
= 80
(200 − 180)2
(100 − 120)2 (100 − 80)2
+2·
+
= 13, 889
180
120
80
α = 5% → χ2(k−1)(l−1),1−α = χ21;0,95 = 3, 841
Insgesamt: V = 13, 889 ∈ (3, 841; ∞) = (χ2(k−1)(l−1),1−α , ∞)
→ H0 wird zum 5%- Niveau verworfen
Dr. Hendrik Hansen
355
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Gilt in der Situation von Bem. c) nach Bsp. 14.6 k = l = 2, so
vereinfacht sich die Prüfgröße des χ2 -Unabhängigkeitstests zu
V =n
(H11 H22 − H12 H21 )2
H1• H2• H•1 H•2
(in Bsp. 14.7 (Ladenöffnungszeiten) gilt k = l = 2 →
V = 500 ·
(200 · 100 − 100 · 100)2
500
=
= 13, 889)
300 · 200 · 300 · 200
36
b) Bei stetigen Zufallsvariablen X, Y ist χ2 -Unabhängigkeitstest nach geeigneter Klassierung ebenfalls anwendbar. Hij
entspricht nun der Anzahl Beobachtungen, für die X in Klasse
i und gleichzeitig Y in Klasse j fällt.
Dr. Hendrik Hansen
356
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.8
Der Personalchef eines großen Unternehmens vermutet, dass die
Wahrscheinlichkeit für eine Krankmeldung im Unternehmen montags bis donnerstags gleich und freitags doppelt so groß ist wie an
einem der übrigen Wochentage. Innerhalb eines Jahres registriert er
folgende Häufigkeiten von Krankmeldungen:
Wochentag
Mo
Di
Mi
Do
Fr
Anzahl der Krankmeldungen
70
40
40
50
100
Stützen diese Beobachtungen seine Vermutung?
→ mit den bisherigen eingeführten Tests auf Lage bzw. Unabhängigkeit nicht beantwortbar!
Dr. Hendrik Hansen
357
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Motivation für Tests auf Verteilung
(vgl. Bem. a) nach Bsp. 14.6)
Bisher:
Zunächst Konstruktion von Konfidenzintervallen und
Signifikanztests, dabei wichtige Voraussetzung:
I
Unabhängigkeit der Zufallsvariablen X1 , ..., Xn
→ χ2 −Test auf Unabhängigkeit zweier Zufallsvariablen
Ebenfalls jedoch notwendig bei Konstruktion von
Konfidenzintervallen und Signifikanztests:
I
Unterstellung einer bestimmten Verteilung an X1 , ..., Xn
→ Jetzt: Test auf eine bestimmte Verteilung einer
Zufallsvariablen
Dr. Hendrik Hansen
358
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) χ2 −Anpassungstest
Seien X1 , ..., Xn uiv Zufallsvariablen P
mit k möglichen
Ausprägungen, p1 , ..., pk ∈ [0, 1] mit ki=1 pi = 1 fest
vorgegeben. Testproblem:
H0 : P (Xj = i) = pi
für alle
i ∈ {1, . . . , k}
gegen
H1 : P (Xj = i) 6= pi für mind. ein i ∈ {1, . . . , k}
Weiter sei Hi die Anzahl Beobachtungen j mit Xj = i
(i ∈ {1, ..., k})
Dr. Hendrik Hansen
359
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung (Fortsetzung)
b) χ2 -Anpassungstest (Fortsetzung)
Prüfgr. V =
k
X
(Hi − n pi )2
i=1
n pi
unter H0 approx. χ2 −verteilt
H0 2
V ≈ χk−1 ; verwerfe H0 wenn V ∈ (χ2k−1,1−α , ∞)
(χ2n,γ = γ-Quantil der χ2 -Verteilung mit n Freiheitsgraden)
Approx. χ2 −Verteilung von V unter H0 akzeptabel, falls
Dr. Hendrik Hansen
(1)
n pi ≥ 1
für alle
(2)
n pi ≥ 5
für mindestens 80% aller Klassen i
i = 1, . . . , k
360
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.9
(Krankmeldungen, vgl. Bsp. 14.8)
Aufstellung des Testproblems:
Vermutung Personalchef: P(Krankmeldung) montags bis
donnerstags gleich und freitags doppelt so groß ist wie an einem
der übrigen Wochentage
Definiere pi = P(Wochentag i krank|krank während der Woche),
i = 1, ..., 5, 1 =Mo, 2 =Di usw.
D.h. Vermutung Personalchef ↔ p1 = p2 = p3 = p4 & p5 = 2p1
|
{z
}
?
Weiter ist 1 =
5
P
?
pi = p1 + p2 + p3 + p4 + p5 = 6p1 → p1 = 1/6
i=1
Dr. Hendrik Hansen
361
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.9 (Fortsetzung)
→ Testproblem:
H0 : p1 = p2 = p3 = p4 =
1
6
und
p5 =
1
3
p5 6=
1
3
gegen
H1 : pj 6=
1
für ein j ∈ {1, ..., 4}
6
oder
Prüfgröße:
V
=
(40 − 300 · 16 )2 (50 − 300 · 16 )2
(70 − 300 · 61 )2
+
2
·
+
300 · 16
300 · 16
300 · 16
+
(100 − 300 · 13 )2
(70 − 50)2
(40 − 50)2
=
+
2
·
+0+0
50
50
300 · 13
= 12
Dr. Hendrik Hansen
362
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Beispiel 14.9 (Fortsetzung)
Niveau 5%, d.h.
χ2k−1,1−α = χ24;0,95 = 9, 49
Also Testentscheidung
V = 12 ∈ (9, 49; ∞) = (χ2k−1,1−α , ∞)
→ Somit kann zum 5%-Niveau gezeigt werden, dass der
Personalchef unrecht hat (H0 wird verworfen)
Dr. Hendrik Hansen
363
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Bemerkung
a) Für stetige Zufallsvariablen X1 , ..., Xn ist χ2 -Anpassungstest
nach geeigneter Klassierung ebenfalls anwendbar. Hi entspricht nun der Anzahl an Beobachtungen, für die X in Klasse
i fällt.
b) Zweites Fazit zu statistischen Signifikanztests (vgl. auch Bem.
nach Bsp. 14.5)
Dr. Hendrik Hansen
I
χ2 -Unabhängigkeitstest zur Überprüfung der Unabhängigkeit
zweier Zufallsvariablen
I
χ2 -Anpassungstest als Test auf eine bestimmte Verteilung
einer Zufallsvariablen
364
TU Dortmund
Wintersemester 2010/2011 - Statistik für Ökonomen
Ende der Vorlesung
Dr. Hendrik Hansen
365
Herunterladen