„Statistik für Bachelor- und Masterstudenten – Eine Einführung für

Werbung
Vorlesungsfolien zu
„Statistik für Bachelor- und Masterstudenten –
Eine Einführung für Wirtschafts- und Sozialwissenschaftler“
Oleg Nenadić ( [email protected] ),
Walter Zucchini ( [email protected] ),
Institut für Statistik und Ökonometrie,
Georg-August-Universität Göttingen
Version WS
1.032009/10
(17. Aug.- 2010)
Statistik,
Organisatorisches
0
Kapitel 1
Der Zufall in unserer Welt –
Einführende Beispiele und Grundbegriffe
Kapitel I – Einführende Beispiele und Grundbegriffe
I-0
Was ist Statistik
Statistik beinhaltet nicht nur Tabellen und Graphiken!
Deskriptive Statistik:
Beschreibung von Datensätzen mit Hilfe von Tabellen, Graphiken und
Kennzahlen.
Induktive Statistik:
Ziehen von Schlussfolgerungen aus vorliegenden Datensätzen auf
größere Gesamtheiten.
Kapitel I – Einführende Beispiele und Grundbegriffe
I-1
Deterministische und Stochastische Modelle
Ein Modell lässt sich als eine vereinfachte Beschreibung der Realität
definieren.
Im Rahmen der Statistik ist folgende Definition sinnvoller:
Ein Modell ist die Beschreibung eines quantitativ erfassbaren
Phänomens.
Die Beschreibung kann dabei beispielsweise durch Formeln, Zahlen
und/oder Graphiken erfolgen.
Kapitel I – Einführende Beispiele und Grundbegriffe
I-2
Schwingungsdauer eines Pendels
Beispiel 1.1, „Schwingungsdauer eines Pendels“:
Die Schwingungsdauer T eines Pendels mit Länge L lässt sich durch
folgende Gleichung beschreiben:
s
L
T = 2π
.
g
Die Erdbeschleunigung g beträgt z.B. für Göttingen 9.81 m/s2; somit erhält
man für ein 7.5 Meter langes Pendel folgende Schwingungsdauer:
s
7.5 m
T = 2π
= 5.5 s .
2
9.81 m/s
Kapitel I – Einführende Beispiele und Grundbegriffe
I-3
Schwingungsdauer eines Pendels
Das (mathematische) Pendel ist ein Beispiel für eine deterministische
Beziehung, d.h. dass es für jeden Wert der Länge L genau einen Wert
für die Schwingungsdauer T gibt:
8
Schwingungsdauer (s)
7
6
5.5
5
4
3
2
1
0
0
1
2
3
4
5
6
7
7.5
8
9
10
Länge (m)
Kapitel I – Einführende Beispiele und Grundbegriffe
I-4
Schwingungsdauer eines Pendels
Für das Pendel können die Formel und die Graphik als Modell für die
Schwingungsdauer benutzt werden.
Hierbei handelt es sich um eine deterministische Beziehung zwischen
zwei Größen:
Die Schwingungsdauer ist durch die Länge des Pendels determiniert.
Für jeden Wert von L gibt es genau einen Wert von T, somit liegt
keine Unsicherheit oder Unbestimmtheit vor.
Kapitel I – Einführende Beispiele und Grundbegriffe
I-5
Blockzeiten von Linienflügen
Beispiel 1.2, „Blockzeiten von Linienflügen“:
Im Folgenden werden die Blockzeiten t (die Zeit vom Losrollen bis zum
Stillstand am Ziel) in Abhängigkeit von der Flugstrecke d (in nautischen
Meilen) von 100 zufällig ausgewählten Flügen von American Airlines im
Februar 2006 betrachtet:
d
t
d
t
d
t
d
t
d
t
d
t
d
t
258
64
748
126
1 145
204
1 171
173
569
89
551
82
762
141
1 189 1 145
258
403
612
175
733
337
761
783
468
762
195
178
72
78
146
46
138
70
144
100
79
175
733
416 1 437
950
888 1 121 1 235
988 1 055
583 1 217
868
105
98
220
154
143
193
193
168
174
106
207
160
1 062 1 389
733 1 045 1 440
190
175 1 313
175
950
868
190
203
197
148
158
210
67
50
182
53
147
155
63
1 045
236
583 1 035 1 471
867 1 162 1 017 1 055 1 171
551 1 235
142
65
124
179
195
126
185
172
183
196
102
181
1 431
190
733 1 464 1 235
177
190
247
786
551 1 055
592
243
49
131
199
165
62
59
82
124
96
162
115
1 302 1 372
448
190
867
762
987
678
334
964
612 1 144
182
197
86
58
167
128
164
110
86
140
142
167
612
603 1 456 1 189
861
522 1 005
733 1 438
128
95
222
177
149
114
159
149
212
1 017
888
137
150
1 235 1 171
170
182
1 205
551
199
115
641 1 068
118
168
1 182 1 213
189
166
177
551
59
96
(Quelle: http://www.transtats.bts.gov)
Kapitel I – Einführende Beispiele und Grundbegriffe
I-6
Blockzeiten von Linienflügen
Die Beziehung zwischen Flugstrecke und Flugdauer ist anders als im Fall
des Pendels. So gibt es z.B. 5 Flüge mit einer Flugstrecke von 733 Meilen
und dazugehörigen Blockzeiten von 138, 105, 148, 131 und 149 Minuten:
250
Blockzeit (Minuten)
200
150
100
50
0
733
0
500
1000
1500
Entfernung (Meilen)
Kapitel I – Einführende Beispiele und Grundbegriffe
I-7
Blockzeiten von Linienflügen
Die Flugdauer ist nicht eindeutig durch die Flugstrecke bestimmt!
Es gibt unterschiedliche Flugdauern für die gleiche Strecke; die Punkte
liegen nur annähernd auf einer Geraden.
Die Flugdauer unterliegt zufälligen Schwankungen, somit ist die
Beziehung nicht deterministisch, sondern stochastisch!
Auch wenn die tatsächlichen Blockzeiten schwanken, ist es dennoch
nützlich, die annähernde Gerade zu kennen. Somit kann z.B. die
Flugdauer ungefähr abgeschätzt werden.
Kapitel I – Einführende Beispiele und Grundbegriffe
I-8
Blockzeiten von Linienflügen, II
Blockzeiten von 174 Flügen von Dallas / Fort Worth nach Philadelphia:
[150;160]
(160;170]
(170;180]
(180;190]
(190;200]
(200;210]
(210;220]
(220;230]
(230;240]
7
24
42
54
29
11
5
1
1
– Es gab z.B. 7 Flüge mit einer Blockzeit zwischen 150 und 160 Minuten, 24
Flüge mit einer Blockzeit zwischen 160 und 170 Minuten, usw.
Darstellung der Blockzeiten als Histogramm:
relative Häufigkeit / Klassenbreite
0.04
0.03
0.02
0.01
0.00
140
160
180
200
220
240
Blockzeit (Minuten)
Kapitel I – Einführende Beispiele und Grundbegriffe
I-9
Blockzeiten von Linienflügen, II
Ein Histogramm vermittelt einen Eindruck von der Verteilung der
Blockzeiten. (Histogramme werden in Kapitel 2 näher besprochen.)
Laut Flugplan betrug die Blockzeit zwischen 180 und 189 Minuten bei
einer Flugstrecke von 1302 Meilen.
Zwar schwanken die tatsächlichen Blockzeiten, jedoch weisen sie
gewisse Muster auf:
– Viele Beobachtungen liegen in der Mitte und
– relativ wenige Beobachtungen liegen am Rand.
Es ist wahrscheinlicher, dass die tatsächliche Blockzeit zwischen 180 und
190 Minuten beträgt, als dass sie unter 160 Minuten oder über 210
Minuten liegt.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 10
Zusammenfassung, deterministisch und stochastisch
Beispiel 1.1 („Schwingungsdauer eines Pendels“):
Für jeden Wert der Länge gibt es genau einen Wert für die
Schwingungsdauer, somit ist dieser Zusammenhang deterministisch!
Beispiel 1.2 („Blockzeiten von Linienflügen“):
Für eine gegebene Flugstrecke gibt es unterschiedliche Flugdauern, d.h.
dass die Flugdauer für eine Strecke nicht nur von der Strecke, sondern
auch von anderen Einflüssen abhängt. Dieser Zusammenhang ist
stochastisch!
Deterministisches Modell:
Zufällige Schwankungen spielen keine Rolle.
Stochastisches Modell:
Treten bei den betrachteten Phänomenen zufällige Schwankungen auf,
so ist damit der Begriff Wahrscheinlichkeiten verbunden. Zur
Beschreibung ist ein stochastisches Modell erforderlich.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 11
Zusammenfassung, deterministisch und stochastisch
Viele interessante Phänomene sind von Natur aus eher stochastisch, wie
z.B.
–
–
–
–
–
das wirtschaftliche Wachstum,
die Entwicklung der Arbeitslosigkeit,
die Zahl der zukünftigen Auftragseingänge,
die Inflationsrate oder
der morgige Wechsel- oder Aktienkurs.
Werden beispielsweise potentielle Käufer eines Produktes betrachtet,
weiß man nicht, wie sie auf
–
–
–
–
eine bestimmte Werbung,
eine neue Verpackung des Produkts,
eine Preisänderung oder
eine andere Platzierung des Produkts im Regal
reagieren werden.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 12
Zusammenfassung, deterministisch und stochastisch
Beispiele für deterministische und für stochastische Aussagen:
Deterministische Aussage:
„Dieses Individuum wird positiv auf die Behandlung reagieren.“
Stochastische Aussage:
„Mit einer Wahrscheinlichkeit von 0.9 (= 90 %) wird dieses
Individuum positiv auf die Behandlung reagieren.“
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 13
Aspirin und Herzanfälle
Beispiel 1.3 („Aspirin und Herzanfälle“):
Eine Schlagzeile von der Titelseite der New York Times vom 27.01.1988:
Berichtet wird über die Ergebnisse einer Untersuchung, ob geringe Dosen
Aspirin vorbeugend gegen Herzanfälle bei gesunden Männern mittleren
Alters wirken.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 14
Aspirin und Herzanfälle
In diesem Fall wurde an 22071 Männern eine Doppelblindstudie
durchgeführt:
Die Personen wurden zufällig in zwei Gruppen eingeteilt, wobei einer Gruppe,
der Behandlungsgruppe, regelmäßig Aspirin verabreicht wurde. Die andere
Gruppe, die Placebogruppe, erhielt eine Substanz ohne Wirkstoffe.
Sowohl die Probanden als auch die behandelnden Ärzte wussten nicht, ob
das Präparat Aspirin enthielt oder nicht („Doppelblind“).
Aufgezeichnet wurde, wer welche Behandlung erhielt und bei wem im
Laufe der Zeit ein Herzanfall aufgetreten war:
Aspirin-Gruppe
Placebo-Gruppe
Personen
11 037
11 034
Herzanfälle
104
189
Herzanfälle pro 1 000 Personen
9.4
17.1
Es scheint einen stochastischen Zusammenhang zwischen Behandlung
und Häufigkeit von Herzanfällen zu geben.
(Jedoch sollten mache Zusammenhänge vorsichtig interpretiert werden!)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 15
Weinkonsum und Herzkrankheiten
Beispiel 1.4 („Weinkonsum und Herzkrankheiten“):
– Die folgende Abbildung zeigt den Zusammenhang zwischen dem jährlichen
Weinkonsum (Liter pro Person) und der Todesrate durch Herzkrankheiten
(Anzahl / 100 000 Einwohner) in 21 Industrienationen:
Herzkrankheiten
(Todesfälle p.a. / 100 000 Personen)
350
Irland
300
Großbritannien
250
USA
200
Deutschland (West)
150
Belgien
100
Spanien
Italien
Frankreich
50
0
0
2
4
6
8
10
jährlicher Weinkonsum (Liter Alkohol / Person)
Hinweis: Stochastische Beziehungen müssen nicht automatisch auch kausal sein!
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 16
Fettkonsum und Brustkrebsrisiko
Beispiel 1.5 („Fettkonsum und Brustkrebsrisiko“):
– Die folgende Abbildung zeigt den Zusammenhang zwischen dem täglichen
Fettkonsum (Gramm pro Person) und der Todesrate durch Brustkrebs
(Anzahl / 100 000 Einwohner) in 39 Ländern:
Brustkrebsrisiko
(Todesfälle p.a. / 100 000 Personen)
30
Großbritannien
25
Irland
USA
Belgien
20
Deutschland (West)
Frankreich
Italien
15
10
Spanien
5
Japan
Thailand
0
0
50
100
150
200
täglicher Fettkonsum (Gramm / Person)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 17
Entwicklung von Aktienkursen
Beispiel 1.6 („Entwicklung von Aktienkursen“)
– Betrachtung der Entwicklung des Deutschen Aktienindex (DAX) sowie des
Aktienkurses der Deutschen Bank von Anfang 2006 bis Ende 2007:
Datum
02. Jan
03. Jan
04. Jan
05. Jan
06. Jan
09. Jan
10. Jan
11. Jan
12. Jan
13. Jan
...
06
06
06
06
06
06
06
06
06
06
DAX
5 449.98
5 460.68
5 523.62
5 516.53
5 536.32
5 537.11
5 494.71
5 532.89
5 542.13
5 483.09
...
Deutsche Bank
81.93
81.74
83.47
83.50
84.24
84.55
84.70
86.71
86.78
85.64
...
Datum
...
12. Dez
13. Dez
14. Dez
17. Dez
18. Dez
19. Dez
20. Dez
21. Dez
27. Dez
28. Dez
07
07
07
07
07
07
07
07
07
07
DAX
...
8 076.12
7 928.31
7 948.36
7 825.44
7 850.74
7 837.32
7 869.19
8 002.67
8 038.60
8 067.32
Deutsche Bank
...
91.16
88.75
89.15
87.79
87.73
87.45
87.15
87.87
89.14
89.40
Einige Fragestellungen in diesem Zusammenhang:
– Wie entwickelt sich der Kurs der Deutsche Bank Aktie mit der Zeit?
– Wie entwickelt sich der Stand des DAX mit der Zeit?
– Hängt die Entwicklung von DAX und Deutsche Bank Aktie zusammen?
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 18
Entwicklung von Aktienkursen
Graphische Darstellung der zeitlichen Entwicklung des DAX:
9000
I/06
II/06
III/06
IV/06
I/07
II/07
III/07
IV/07
DAX Schlussstand
8000
7000
6000
5000
100
200
300
400
500
Handelstag (02.01.06 - 28.12.07)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 19
Entwicklung von Aktienkursen
Graphische Darstellung der zeitlichen Entwicklung der Deutsche Bank
Aktie:
Deutsche Bank Schlusskurs (€)
120
I/06
II/06
III/06
IV/06
I/07
II/07
III/07
IV/07
110
100
90
80
100
200
300
400
500
Handelstag (02.01.06 - 28.12.07)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 20
Entwicklung von Aktienkursen
Zusammenhang zwischen Eröffnungskurs und Schlusskurs am Vortag
(Deutsche Bank Aktie):
120
Eröffnungskurs (€)
110
100
19. Sep. 07
90
16. Aug. 07
80
80
90
100
110
120
Schlusskurs am Vortag (€)
Dieser Zusammenhang ist stochastisch; der Markt reagiert z.B. auf
Nachrichten, deren Vorkommen und Auswirkungen auf die
Kursentwicklung sich nicht exakt abschätzen lassen.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 21
Entwicklung von Aktienkursen
120
120
110
110
Eröffnungskurs (€)
Eröffnungskurs (€)
Zusammenhang zwischen Eröffnungskurs der Deutschen Bank Aktie und
dem Schlusskurs vor 2 Tagen (links) und vor 5 Tagen (rechts):
100
100
90
90
80
80
80
90
100
110
Schlusskurs 2 Tage zuvor (€)
120
80
90
100
110
120
Schlusskurs 5 Tage zuvor (€)
Die Abweichungen von der Winkelhalbierenden scheinen größer zu
werden, je mehr Tage zwischen Eröffnungs- und Schlusskurs liegen.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 22
Entwicklung von Aktienkursen
Ein weiterer Aspekt liegt in der Betrachtung von Renditen, d.h. der
täglichen Veränderungen in Prozent.
Zum Beispiel ergibt sich für die Rendite der Deutschen Bank Aktie am
04.01.2006 folgender Wert:
– Schlussstand am 03.01.2006:
– Schlussstand am 04.01.2006:
– Differenz (= Gewinn):
einfache Rendite = 100 ·
81.74 €
83.47 €
1.56 €
(83.47 − 81.74)
≈ 2.12 % .
81.74
In der Statistik und Finanzwirtschaft werden stattdessen oft die
kontinuierlichen Renditen verwendet:
µ
¶
83.47
kontinuierliche Rendite = 100 · log
≈ 2.09% .
81.74
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 23
Entwicklung von Aktienkursen
Darstellung der Renditen als Histogramm:
relative Häufigkeit / Klassenbreite
0.4
0.3
0.2
0.1
0.0
-6
-4
-2
0
2
4
6
Deutsche Bank Tagesrendite (%)
– Die Renditen sind nicht deterministisch, sondern sie variieren zufällig.
– Die Renditen zeigen bestimmte Muster: Z.B. sind Werte nahe Null am häufigsten, und die Häufigkeit nimmt ab, je weiter die Renditen von Null entfernt
sind.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 24
Entwicklung von Aktienkursen
Vergleich der Entwicklung der Deutschen Bank Aktie und der Entwicklung
des DAX:
Deutsche Bank Tagesrendite (%)
6
4
2
0
-2
-4
-6
-6
-4
-2
0
2
4
6
DAX Tagesrendite (%)
(Betrachtung des Aktienindex als Maßstab zur Messung der Kursentwicklung
einzelner Aktien; vgl. Capital Asset Pricing Model [CAPM].)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 25
Versicherungen und stochastische Modelle
Stochastische Modelle spielen auch im Versicherungsbereich eine
bedeutende Rolle, z.B. in der
Krankenversicherung:
Mit welcher Wahrscheinlichkeit wird eine Person krank?
Kfz-Haftpflichtversicherung:
Mit welcher Wahrscheinlichkeit verursacht eine Person einen Unfall?
Rückversicherung:
Mit welcher Wahrscheinlichkeit treten Naturkatastrophen auf?
→ Stochastische Modelle als Grundlage für die Risiko- und
Prämienkalkulation.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 26
Erdbeben und Tsunamis
Beispiel 1.7 („Erdbeben und Tsunamis“):
– Die folgenden Histogramme zeigen die Zeit zwischen zwei Tsunamis (oben)
sowie die Zeit zwischen zwei Erdbeben der Stärke 7.0 oder größer (unten):
relative Häufigkeit /
Klassenbreite
0.020
0.015
0.010
0.005
0.000
0
50
100
150
200
250
300
Tage zwischen zwei Tsunamis
relative Häufigkeit /
Klassenbreite
0.04
0.03
0.02
0.01
0.00
0
50
100
150
Tage zwischen zwei Erdbeben der Stärke ≥ 7
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 27
Erdbeben und Tsunamis
Darstellung der Anzahl an monatlich beobachteten Erdbeben der Stärke
7.0 oder größer und eine angepasste Poissonverteilung:
150
Häufigkeit
beobachtet
Modell
100
50
0
0
1
2
3
4
5
6
7
monatliche Anzahl von Erdbeben der Stärke ≥ 7
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 28
Preis und Absatz von Traubensaft
Beispiel 1.8 („Preis und Absatz von Traubensaft“):
– Die folgende Abbildung stellt den Absatz einer Traubensaftsorte in Abhängigkeit
des Verkaufspreises dar (Erhebung von 1992 bis 1996 in einem Supermarkt im
Großraum Chicago; es werden nur die Wochen ohne Werbeaktionen betrachtet):
50
Verkaufsmenge
40
30
20
10
0
0.95
1.00
1.05
1.10
1.15
1.20
Verkaufspreis (US$)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 29
Verkaufspreis bei Online-Auktionen
Beispiel 1.9 („Verkaufspreis bei Online-Auktionen“):
Betrachtet werden alle erfolgreichen Auktionen neuer Handys (Nokia
8310) auf der Online-Plattform ricardo.ch im Zeitraum von Oktober 2001
bis Januar 2002. Es werden nur diejenigen Auktionen berücksichtigt, bei
denen genau ein neues Handy erfolgreich zum Verkauf angeboten wurde.
Einige Fragestellungen in diesem Zusammenhang:
– Wie hängt die Höhe des Maximalgebots von der Zeit ab?
– Hängt die Höhe des Maximalgebots vom Wochentag ab?
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 30
Verkaufspreis bei Online-Auktionen
Darstellung des Maximalgebots in Abhängigkeit von der Zeit:
erfolgreiches Maximalgebot (CHF)
800
700
600
500
400
0
20
40
60
80
100
120
Tage seit der ersten beobachteten Auktion
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 31
Verkaufspreis bei Online-Auktionen
Darstellung des Maximalgebots in Abhängigkeit vom Wochentag:
erfolgreiches Maximalgebot (CHF)
800
700
600
500
400
Mo
Di
Mi
Do
Fr
Sa
So
Wochentag
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 32
Anrufe in einem Call-Center
Beispiel 1.10 („Anrufe in einem Call-Center“):
Betrachtet werden 711 Anrufe im Call-Center einer israelischen Bank am
Mittwoch, 20.01.1999, zwischen 10 und 17 Uhr:
- Anzahl der Anrufe pro 5 Minuten:
Anzahl Anrufe
Häufigkeit
4
6
5
6
7
8
8 11 13 11
9
3
10
9
11
8
12 13
6
4
14
3
15
1
16
1
Summe
711
- Dauer der Anrufe in Sekunden:
[0;100]
271
(100;200]
160
(200;300]
65
(300;400]
36
(400;500]
18
(500;600]
15
(600;700]
9
(700;800]
2
(800;1 400]
14
Der Anteil extrem langer Anrufe beträgt 14/711 = 2 %, d.h. im Durchschnitt
dauert jeder 50. Anruf extrem lang.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 33
Anrufe in einem Call-Center
Darstellung der Anzahl der Anrufe und angepasste Poissonverteilung:
14
beobachtet
Modell
12
Häufigkeit
10
8
6
4
2
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18
Anzahl der Anrufe
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 34
Anrufe in einem Call-Center
Darstellung der Anrufdauer mit angepasster Exponentialverteilung:
relative Häufigkeit / Klassenbreite
0.006
0.005
0.004
0.003
0.002
0.001
0.000
0
200
400
600
800
Anrufdauer (Sekunden)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 35
Arbeitslosenquote in Deutschland
Beispiel 1.11 („Entwicklung der Arbeitslosenquote in Deutschland“):
13
Arbeitslosenquote (%)
12
11
10
9
8
7
2002
2003
2004
2005
2006
2007
Die Untersuchung von Zeitreihen (z.B. die Zerlegung einer Zeitreihe in
Komponenten wie Trend und Saison) wird in Kapitel 13 betrachtet.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 36
Brenndauer von Glühbirnen
Beispiel 1.12 („Brenndauer von Glühbirnen“):
– Die folgende Tabelle gibt die Brenndauer in Stunden von 30 Glühbirnen an:
699
1 049
1 197
756
1 055
1 204
814
1 058
1 222
827
1 061
1 252
863
1 063
1 255
889
1 068
1 262
924
1 085
1 303
956
1 134
1 310
1 003
1 160
1 550
1 028
1 178
1 562
– Alternativ können die Daten auch gruppiert dargestellt werden:
[600;800]
(800;1 000]
(1 000;1 200]
(1 200;1 400]
2
6
13
7
(1 400;1 600]
2
In diesem Zusammenhang stellt sich folgende Frage:
„Wie groß ist die Brenndauer einer Glühbirne?“
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 37
Brenndauer von Glühbirnen
Graphische Darstellung der Brenndauer als Histogramm:
relative Häufigkeit / Klassenbreite
0.0020
0.0015
0.0010
0.0005
0.0000
500
1000
1500
2000
Brenndauer (Stunden)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 38
Brenndauer von Glühbirnen
Die Frage nach der Brenndauer lässt sich nicht mit einer Zahl
beantworten; jede Glühbirne hat eine andere bzw. zufällige Brenndauer.
Somit kann die Frage nur mit Aussagen über Wahrscheinlichkeiten
beantwortet werden.
Eine statistische Analyse besteht in der Regel aus dem Suchen,
Anpassen, Überprüfen und Interpretieren stochastischer Modelle.
Grundbegriffe:
– Zufall
– Wahrscheinlichkeit
– Variation
– Schätzung
– UNCERTAINTY
- Unbestimmtheit
- Unsicherheit
- Ungewissheit
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 39
Brenndauer von Glühbirnen
Viele wichtige Entscheidungen werden unter Ungewissheit getroffen:
–
–
–
–
Ist eine gewisse Maßnahme zum Umweltschutz effektiv oder nicht?
Ist ein neuer Impfstoff verträglich genug, um freigegeben zu werden?
Sollte man in ein bestimmtes Projekt investieren oder nicht?
Wie wird der Markt auf eine gewisse Produktänderung reagieren?
Auch im praktischen Leben tauchen Entscheidungen unter Ungewissheit
auf, wie z.B.
– Ist es sinnvoll, Lotto zu spielen?
– Lohnt sich die Investition in bestimmte Zertifikate?
– Wie groß ist die Chance, Karten für die WM zu bekommen?
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 40
Schwingungsdauer eines Pendels
In Beispiel 1.1 wurde die Schwingungsdauer eines (mathematischen
Pendels) als deterministischer Zusammenhang betrachtet.
In der Realität unterliegt die Bewegung des Pendels jedoch auch
zufälligen Einflüssen (z.B. Wind):
Schwingungsdauer (s)
8
6
4
2
0
0
2
4
6
8
10
Länge (m)
Dennoch funktioniert das deterministische Modell in der Praxis „gut“ (vgl.
die Anwendung in der Zeitmessung).
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 41
Grundgesamtheit und Stichprobe
Zwei möglich Antworten auf „Wie lange wird diese Glühbirne brennen?“:
– Es ist nicht möglich, die Frage nach der Brenndauer für eine bestimmte
Glühbirne zu beantworten, weil jede Glühbirne eine andere Lebensdauer hat!
– Erst wenn die Glühbirne durchgebrannt ist, kann die Frage eindeutig
beantwortet werden!
Beide Antworten sind nicht besonders hilfreich.
Eine Möglichkeit besteht darin, ähnliche Glühbirnen zu testen, um
Schlussfolgerungen über unsere Glühbirne zu ziehen.
Zu diesem Zweck muss entschieden werden, welche Glühbirnen der
betrachteten Glühbirne ähnlich sind.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 42
Grundgesamtheit und Stichprobe
Die Grundgesamtheit ist die Menge der Objekte, Personen oder
anderer Dinge, über die man Informationen gewinnen möchte.
Die Abgrenzung der Grundgesamtheit ist jedoch nicht nicht immer einfach,
z.B. kommen als Grundgesamtheit in diesem Beispiel in Frage:
– Alle Glühbirnen dieses Typs, die jemals hergestellt wurden.
– Nur diejenigen Glühbirnen, die in einem bestimmten Jahr produziert wurden.
– Nur diejenigen Glühbirnen, die in einer bestimmten Produktionsperiode
hergestellt wurden.
– Alle Glühbirnen (eines Herstellers / aller Hersteller), die es in einem
bestimmten Geschäft gibt.
Weiterhin stellt sich die Frage, wie viele Glühbirnen untersucht werden
sollen.
In der Regel wird nur eine Teilmenge untersucht (z.B. aus
Kostengründen); der Umfang der Stichprobe ergibt sich aus den Kosten
und der gewünschten Genauigkeit.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 43
Grundgesamtheit und Stichprobe
Angenommen, man hat sich für eine Stichprobengröße von 30 Glühbirnen
aus einer Grundgesamtheit von 100 Glühbirnen im Regal eines
Supermarktes entschieden.
Die Frage ist, welche 30 Glühbirnen für die Stichprobe ausgewählt
werden:
– Alle 30 von vorne?
– 30 Glühbirnen von hinten?
– 15 von vorne und 15 von hinten?
Ein Ansatz besteht darin, die Glühbirnen zufällig auszuwählen, um somit
systematische Verfälschungen zu vermeiden (z.B. wenn nur alte
Glühbirnen vorne im Regal liegen).
Bei einer einfachen Zufallsstichprobe haben alle Mitglieder der
Grundgesamtheit die gleiche Chance in die Stichprobe zu kommen;
einfache Zufallsstichproben sind in der Regel repräsentativ.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 44
Grundgesamtheit und Stichprobe
Schematische Darstellung der Grundgesamtheit (links) und der Stichprobe
(rechts):
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99 100
91
92
93
94
95
96
97
98
99 100
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 45
Lebensmittelausgaben Göttinger Studenten
Beispiel 1.13 („Lebensmittelausgaben Göttinger Studenten“).
Grundgesamtheit: „Göttinger Studenten“
– Sollen alle Studenten betrachtet werden? Also auch diejenigen, die in der
letzten Woche nicht in Göttingen waren oder die, die bei ihren Eltern leben?
Angenommen, es sollen 50 Studenten befragt werden. Welche 50
Göttinger Studenten sollten in die Stichprobe kommen?
– Die ersten 50 vor der Mensa?
In diesem Fall werden z.B. diejenigen nicht erfasst, die nicht zu Mittag bzw.
woanders zu Mittag essen.
Benötigt wird ein Verfahren zur Zufallsauswahl, welches praktisch
durchführbar und nicht systematisch verfälscht ist.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 46
Stichprobentheorie
Die Stichprobentheorie befasst sich mit den unterschiedlichen
Möglichkeiten, Stichproben zu ziehen, ohne einen systematischen Fehler
zu begehen (oder diesen zumindestens zu kontrollieren).
Einige Möglichkeiten sind
–
–
–
–
Einfache Zufallsstichprobe
Geschichtete Zufallsstichprobe
Klumpenstichprobe
Bewusste Auswahlverfahren
(Simple random sampling)
(Stratified sampling)
(Cluster sampling)
(quota sampling)
Vorgehen bei der geschichteten Zufallsstichprobe:
– Die Grundgesamtheit wird in Gruppen („Strata“) zerlegt, z.B. MännlichWeiblich, BWL-VWL, Deutsche-Ausländer, etc.
– Aus jeder Gruppe wird eine einfache Zufallsstichprobe gezogen.
Der Vorteil hierbei ist, dass die betrachteten Gruppen im repräsentativen
Verhältnis in die Stichprobe gelangen. Dazu muss allerdings das
Verhältnis der Teilgruppen in der Grundgesamtheit bekannt sein!
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 47
Stichprobentheorie
Vorgehen bei der Klumpenstichprobe:
– Die Grundgesamtheit wird in geographische Gruppen zerlegt, z.B. die
Ortsteile in Göttingen oder die Wälder in Niedersachsen.
– Eine einfache Zufallsstichprobe von Gruppen wird gezogen.
– Aus jeder der gezogenen Gruppen wird eine einfache Zufallsstichprobe
gezogen.
In vielen Fällen ist dieses Vorgehen kostengünstiger als eine einfache
Stichprobe der gleichen Größe. Jedoch werden zur Analyse kompliziertere
Methoden benötigt.
Bei den bewussten Auswahlverfahren werden bestimmte Quoten in der
Stichprobe von vornherein festgelegt. Wenn z.B. bekannt ist, dass 40 %
der Göttinger Studenten weiblich sind, wäre es möglich, genau 20 Frauen
und 30 Männer in die Stichprobe aufzunehmen.
Jedoch besteht die Gefahr, dass nicht alle Merkmale erfasst werden und
die Stichprobe die Grundgesamtheit somit nicht repräsentiert.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 48
Stichprobentheorie
In einigen Fällen kann es zu teuer sein, eine große Stichprobe zu ziehen;
auch kann es unmöglich sein, eine repräsentative Stichprobe zu ziehen.
Im Beispiel der Flugzeiten können beispielsweise nur die vergangenen
Flüge beobachtet werden, aber die Aussagen sollen über zukünftige Flüge
getroffen werden.
Die Wahl der Grundgesamtheit bestimmt die Allgemeingültigkeit der
Ergebnisse und Schlussfolgerungen:
– Wenn die Grundgesamtheit zu stark eingegrenzt wird, sind die Ergebnisse
u.U. uninteressant.
– Führt man die Aspirin-Studie (Beispiel 1.3) nur mit 40-jährigen, männlichen,
ledigen Linkshändern aus Niedersachsen durch, sind die Ergebnisse für die
meisten Personen irrelevant.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 49
Zufallsvariablen
Eines der wichtigsten statistischen Konzepte ist das der Zufallsvariablen.
Im Folgenden wird wieder das Glühbirnen-Beispiel (Beispiel 1.12)
betrachtet. Die folgende Abbildung zeigt ein Histogramm der Brenndauer
mit einer angepassten glatten Kurve:
relative Häufigkeit / Klassenbreite
0.0020
0.0015
0.0010
0.0005
0.0000
500
1000
1500
2000
Brenndauer (Stunden)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 50
Zufallsvariablen
Die glatte Kurve ist unsere Vorstellung bzw. unser Modell für die
Brenndauer in der Grundgesamtheit, das wir aus der Stichprobe erhalten.
Diese Kurve kann als geglättete Version des Histogramms aufgefasst
werden.
Die Kurve sagt uns (wie auch das Histogramm), wo die Punkte
konzentriert („dicht“) sind.
Diese Kurve ist eine Dichtefunktion.
Charakteristisch für eine Dichtefunktion ist, dass die Fläche zwischen ihr
und der x - Achse immer genau 1 beträgt.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 51
Zufallsvariablen
Dichtefunktion der Brenndauer:
0.0020
Dichte
0.0015
0.0010
Fläche = 1
0.0005
0.0000
500
1000
1500
Brenndauer (Stunden)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 52
Zufallsvariablen
Angenommen, man möchte schätzen wie viele Glühbirnen eine
Brenndauer zwischen 1000 und 1500 Stunden haben. Dieser Wert wird
durch die Fläche unter der Kurve zwischen 1000 und 1500 bestimmt:
0.0020
Dichte
0.0015
0.0010
0.0005
Fläche
= 0.65
0.0000
500
1000
1500
Brenndauer (Stunden)
In diesem Fall schätzt man, dass ca. 65 % (= 0.65) der Glühbirnen eine
Brenndauer zwischen 1000 und 1500 Stunden haben werden.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 53
Zufallsvariablen
„Wie lange wird diese Glühbirne brennen?“:
– Die Antwort auf diese Frage ist keine einzelne Zahl.
– Die Antwort auf diese Frage ist eine Zufallsvariable.
– Das Verhalten dieser Zufallsvariable wird durch eine Dichtefunktion
beschrieben.
Die Zufallsvariable X ist hier die Brenndauer einer Glühbirne.
Bevor die Glühbirne nicht durchgebrannt ist, kann man keine eindeutige
Antwort geben.
Die Brenndauer X hat einen ganzen Bereich möglicher Werte.
Das Verhalten der Zufallsvariable X kann durch Wahrscheinlichkeiten
beschrieben werden (Dichtefunktion).
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 54
Zufallsvariablen
Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne mindestens 1 600
Stunden brennt?
0.0020
Dichte
0.0015
0.0010
0.0005
Fläche = 0.01
0.0000
500
1000
1500
Brenndauer (Stunden)
Die Wahrscheinlichkeit beträgt ca. 1 %.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 55
Zufallsvariablen
Wie groß ist die Wahrscheinlichkeit, dass die Glühbirne mindestens 800
Stunden brennt?
0.0020
Dichte
0.0015
0.0010
0.0005
Fläche = 0.92
0.0000
500
1000
1500
Brenndauer (Stunden)
Die Wahrscheinlichkeit beträgt ca. 92 %.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 56
Zufallsvariablen
Die Frage nach der Brenndauer einer Glühbirne wird durch
Wahrscheinlichkeiten beschrieben (Brenndauer als Zufallsvariable).
Nachdem die Glühbirne durchgebrannt ist, ist die Antwort auf diese Frage
eine einfache Zahl; d.h. man hat eine Realisation einer Zufallsvariablen.
Somit gibt es zwei Antworten auf die Frage nach der Brenndauer:
– Bevor die Glühbirne kaputt geht, kann die Antwort nur durch das Nennen
möglicher Werte und ihrer Wahrscheinlichkeiten gegeben werden
(Brenndauer als Zufallsvariable).
– Nachdem die Glühbirne kaputt ist, wird die Antwort zu einer gewöhnlichen
Zahl (Realisation einer Zufallsvariablen).
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 57
Investition von 1000 €
Beispiel 1.14 („Investition von 1000 €“):
Angenommen, man möchte 1000 € für ein Jahr anlegen:
(i) Feste (sichere) Anlage zu 5% Zinsen (deterministisch), oder
(ii) Anlage in Aktien (stochastisch).
0.0030
1050 €
0.0025
Dichte
0.0020
0.0015
0.0010
0.0005
Großes Pech hier
Großes Glück hier
Pech Glück
0.0000
500
1000
1500
2000
Auszahlung (€)
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 58
Investition von 1000 €
X (der Wert der Aktien in einem Jahr) ist eine Zufallsvariable.
Angenommen, man hätte am 02.01.2006 in Aktien der Deutschen Bank
investiert (d.h. 12.21 Aktien zu 81.93 €), dann wäre der Wert der Aktien am
29.12.2006 um 236.91 € auf 1236.91 € gestiegen.
Hätte man andererseits erst am 02.01.2007 Aktien der Deutschen Bank
gekauft (9.72 Aktien zu 102.89 €), dann wäre das Aktienpaket am
28.12.2007 nur noch 868.89 € Wert gewesen.
Kapitel I – Einführende Beispiele und Grundbegriffe
I - 59
Kapitel 2
Fakten in Zahlen –
Deskriptive Statistik
Kapitel II – Deskriptive Statistik
II - 0
Deskriptive Statistik
Die deskriptive Statistik beinhaltet alle Methoden, Formeln und graphische
Verfahren zur Beschreibung beobachteter Werte eines Merkmals in einer
Grundgesamtheit oder Stichprobe.
Die Grundgesamtheiten (Populationen) oder Stichproben bestehen aus
(Untersuchungs-) Einheiten, z.B. Menschen, Glühbirnen oder Aktien.
Von Interesse sind ein oder mehrere Merkmale dieser Einheiten:
Beispiel
– Glühbirnen
– Aspirin
Kapitel II – Deskriptive Statistik
Merkmal
Brenndauer
Aspirin (Ja - Nein), Herzanfall (Ja - Nein)
II - 1
Merkmale
Die Merkmale lassen sich wie folgt klassifizieren:
qualitativ
rangskaliert
quantitativ
nominalskaliert
ordinalskaliert
metrisch
Geschlecht
Augenfarbe
Automarke
Schulnote
Rangplatz
Güteklasse
Gewicht
Verkaufszahl
Lebensdauer
Qualitative Merkmale sind Eigenschaften, die nur der Qualität nach
bestimmt werden können.
Rangskalierte Merkmale besitzen eine eindeutige Ordnung, jedoch lässt
sich kein absoluter Zahlenwert zuordnen.
Die Ausprägungen von quantitativen Merkmalen lassen sich durch
Zahlen beschreiben.
Je nach Art des Merkmals werden verschiedene statistische Methoden
eingesetzt.
Kapitel II – Deskriptive Statistik
II - 2
Merkmale
Quantitative Merkmale können weiterhin in diskrete und stetige Merkmale
eingeteilt werden:
– Diskrete Merkmale haben eine abzählbare Anzahl möglicher Ausprägungen.
– Stetige Merkmale haben eine nicht abzählbare (= überabzählbare) Anzahl
möglicher Ausprägungen.
Merkmale mit endlich vielen Ausprägungen sind diskret, also sind auch
qualitative und rangskalierte Merkmale diskret.
Manche Merkmale können, je nach Kontext, sowohl als stetig als auch
als diskret betrachtet werden (z.B. Alter und Geld):
– Stetige Merkmale, die stark abgerundet sind, werden auch als diskret
betrachtet.
– Diskrete Merkmale, die viele Ausprägungen haben, werden auch als stetig
betrachtet.
Kapitel II – Deskriptive Statistik
II - 3
Merkmale
Beispiel 2.1 („6 Kinder mit 3 Merkmalen“):
Folgende Merkmale von 6 Kindern wurden aufgezeichnet:
– Merkmal 1: Geschlecht (nominal-skaliert)
– Merkmal 2: Reaktion auf Fischgerichte (ordinal-skaliert)
– Merkmal 3: Alter (quantitative Variable)
Zusammenfassende Darstellung der Daten:
Merkmal / Kind
Geschlecht (nominal)
Reaktion auf Fischgerichte (ordinal)
Alter (quantitativ)
Kapitel II – Deskriptive Statistik
Lars
Laura
Tilman
Tina
Julia
Leon
M
W
M
W
W
M
º∙
¹¸
13
º∙
¥
¹̈¸
13
º∙
§¦
¹¸
15
º∙
§¦
¹¸
15
º∙
§¦
¹¸
15
º∙
¹¸
16
II - 4
Häufigkeiten
Für das Alter wurden 6 Werte aufgezeichnet, darunter sind aber nur 3
unterschiedliche Werte :
x1 = 13,
x2 = 15,
x3 = 16.
Diese Werte kommen mit unterschiedlichen Häufigkeiten Ni vor:
N1 = 2,
N2 = 3,
N3 = 1.
Die Summe der Häufigkeiten, also die Anzahl der Mitglieder der
Grundgesamtheit, wird mit N bezeichnet:
N = N1 + N2 + N3 =
3
X
Ni = 2 + 3 + 1 = 6 .
i=1
Die relativen Häufigkeiten sind die Anteile Ni / N :
N1/N = 2/6,
Kapitel II – Deskriptive Statistik
N2/N = 3/6,
N3/N = 1/6.
II - 5
Häufigkeiten
Die kumulierten absoluten Häufigkeiten zeigen, wie viele Werte der
Grundgesamtheit kleiner oder gleich einem bestimmten Wert xi sind:
K1 = N1 = 2 ,
K2 = N1 + N2 = 2 + 3 = 5 ,
K3 = N1 + N2 + N3 = 2 + 3 + 1 = 6 .
Also ist Ki =
i
P
j=1
Nj
für i = 1, 2, 3.
Die kumulierten relativen Häufigkeiten sind als Ki / N, i = 1, 2, ..., k,
definiert:
K1/N = 2/6,
Kapitel II – Deskriptive Statistik
K2/N = 5/6,
K3/N = 6/6.
II - 6
Häufigkeiten
Tabellarische Zusammenfassung der Häufigkeitsarten für die
Grundgesamtheit der 6 Kinder:
i
Alter
Alter
(xi)
abs.
Häufigk.
(Ni)
rel.
Häufigk.
(Ni/N )
kum. abs.
Häufigk.
(Ki)
kum. rel.
Häufigk.
(Ki/N )
1
2
3
13
15
16
2
3
1
2/6
3/6
1/6
2
5
6
2/6
5/6
6/6
Die absoluten und relativen Häufigkeiten können als Säulendiagramm
dargestellt werden.
Die kumulierten absoluten oder relativen Häufigkeiten werden als
Treppenkurve dargestellt.
Kapitel II – Deskriptive Statistik
II - 7
Grafische Darstellungen
Säulendiagramme zeigen auf der x - Achse die möglichen Werte und auf
der y - Achse die entsprechenden Häufigkeiten:
6
1.0
5
relative Häufigkeit
0.8
Häufigkeit
4
3
2
0.6
0.4
0.2
1
0
0.0
10 11 12 13 14 15 16 17 18 19 20
10 11 12 13 14 15 16 17 18 19 20
Alter
Alter
Zur Darstellung relativer Häufigkeiten wird nur die Skala der y - Achse
geändert.
Kapitel II – Deskriptive Statistik
II - 8
Grafische Darstellungen
Kumulierte Häufigkeiten werden als Treppenkurve dargestellt; auch hier
erhält man durch eine Transformation der y - Achse die Treppenkurve der
kumulierten relativen Häufigkeiten:
6
kumulierte relative Häufigkeit
1.0
kumulierte Häufigkeit
5
4
3
2
0.8
0.6
0.4
0.2
1
0
0.0
10 11 12 13 14 15 16 17 18 19 20
10 11 12 13 14 15 16 17 18 19 20
Alter
Alter
Kapitel II – Deskriptive Statistik
II - 9
Statistiken
Kennzahlen beschreiben den Datensatz auf jeweils unterschiedliche
zusammenfassende Art.
Solche Kennzahlen werden als Statistiken bezeichnet.
Lage-Statistiken beschreiben „typische Werte“ (d.h. die Lage) der
Beobachtungen:
– Mittelwert ,
– Modalwert und
– Median .
Streuungsparameter beschreiben die Streuung der Beobachtungen:
– Spannweite,
– Varianz und Standardabweichung .
Kapitel II – Deskriptive Statistik
II - 10
Lage-Statistiken
Der Mittelwert wird mit µ oder Ma bezeichnet; in unserem Beispiel
erhalten wir für das Alter folgenden Mittelwert:
μ (oder Ma) = (13 + 13 + 15 + 15 + 15 + 16)/6
= (2 · 13 + 3 · 15 + 1 · 16)/6
= 87/6 = 14.5 .
Das durchschnittliche Alter (d.h. der Mittelwert) liegt bei 14.5 Jahren.
Mit den bereits vorgestellten Symbolen erhält man folgenden Ausdruck:
3
1 X
μ = (N1 · x1 + N2 · x2 + N3 · x3)/N =
Nixi .
N i=1
Im allgemeinen Fall (d.h. bei k statt nur 3 möglicher Werte) ergibt sich für
den Mittelwert:
k
1 X
μ=
N i xi .
N i=1
Kapitel II – Deskriptive Statistik
II - 11
Lage-Statistiken
Der Modalwert MM ist definiert als der am häufigsten vorkommende Wert.
In unserem Beispiel kommt das Alter 15 am häufigsten vor, d.h.:
MM = 15 .
Der Modalwert (als Wert mit der größten Häufigkeit) sagt etwas über die
Lage der Daten aus.
In manchen Fällen kann es mehr als einen Modalwert geben, z.B. bei
13
13
15
15
15
16
16
16
sind die 15 und die 16 die häufigsten Werte, da beide drei Mal vorkommen.
Folglich ist hier der Modalwert nicht eindeutig.
Kapitel II – Deskriptive Statistik
II - 12
Lage-Statistiken
Der Median (bzw. Zentralwert) MZ ist der Wert, der „in der Mitte liegt“,
wenn alle Werte der Größe nach geordnet sind.
Falls N (die Anzahl der Beobachtungen) ungerade ist, gibt es genau
einen Wert, der in der Mitte liegt.
Falls N gerade ist, nimmt man den Mittelwert von den zwei Werten, die in
der Mitte liegen.
Für das Alter erhält man folgenden Median:
geordnete Werte:
13
13
15
15
15
16
MZ = (15 + 15)/2 = 15 .
Da (etwa) 50 % der Werte kleiner und 50 % der Werte größer als der
Median sind, beschreibt dieser auch die Lage der Beobachtungen.
Kapitel II – Deskriptive Statistik
II - 13
Lage-Statistiken
Die drei Statistiken Mittelwert, Modalwert und Median haben etwas mit
dem Begriff „typischer Wert“ (d.h. Lage) zu tun.
Jedoch beschreiben die drei Lage-Statistiken unterschiedliche Aspekte.
Der Mittelwert lässt sich auch als Schwerpunkt der Werte in der
Grundgesamtheit oder der Stichprobe auffassen:
13
14
14.5
15
16
Der Mittelwert muss keiner der ursprünglichen Werte sein.
Kapitel II – Deskriptive Statistik
II - 14
Lage-Statistiken
Der Median hat die Eigenschaft, dass er nicht empfindlich auf Ausreißer
(ungewöhnliche, extreme Werte) reagiert; der Median ist robust
gegenüber Ausreißern.
Der Unterschied zwischen Mittelwert und Median kann interessante
Informationen liefern, z.B. wenn der Median des Einkommens einer
bestimmten Region 125 $ bei einem Mittelwert von 2050 $ beträgt.
Wird ein Mitglied zufällig aus der Grundgesamtheit ausgewählt, so hat
man mit dem Modalwert die besten Chancen für eine richtige Voraussage.
Kapitel II – Deskriptive Statistik
II - 15
Streuungsparameter
Die Spannweite bzw. Spanne ist als Differenz zwischen dem größten und
dem kleinsten Wert definiert:
Spanne = max(xi) − min(xi) .
Die Spanne ist nicht robust gegen Ausreißer, sie kann täuschen, wenn es
ungewöhnlich extreme Werte in der Population gibt.
Ein weiterer, wichtiger Streuungsparameter ist die Varianz σ 2.
Zur Betrachtung der Varianz definieren wir die Werte des Alters wie folgt:
z1 = 13 = x1,
z2 = 13 = x1
z3 = 15 = x2,
z4 = 15 = x2,
z5 = 15 = x2
z6 = 16 = x3
Kapitel II – Deskriptive Statistik
II - 16
Streuungsparameter
Die Abweichungen der einzelnen Werte vom Mittelwert charakterisieren
die Streuung der Daten:
z1 − μ = 13 − 14.5 = −1.5
z2 − μ = 13 − 14.5 = −1.5
z3 − μ = 15 − 14.5 =
0.5
z5 − μ = 15 − 14.5 =
0.5
z4 − μ = 15 − 14.5 =
0.5
z6 − μ = 16 − 14.5 =
1.5
Dabei ist die Summe der Abweichungen gleich Null, da sich die Werte
gegenseitig aufrechnen:
S=
6
X
(zi − μ) = 0 .
i=1
Kapitel II – Deskriptive Statistik
II - 17
Streuungsparameter
Alternativ können die quadratischen Abweichungen betrachtet werden:
(z1 − μ)2 = (13 − 14.5)2 = (−1.5)2 = 2.25
(z2 − μ)2 = (13 − 14.5)2 = (−1.5)2 = 2.25
(z3 − μ)2 = (15 − 14.5)2 =
(0.5)2 = 0.25
(z5 − μ)2 = (15 − 14.5)2 =
(0.5)2 = 0.25
(z4 − μ)2 = (15 − 14.5)2 =
(0.5)2 = 0.25
(z6 − μ)2 = (16 − 14.5)2 =
(1.5)2 = 2.25
Die Summe der quadratischen Abweichungen (SQ) ist gegeben durch:
SQ =
6
X
(zi − μ)2 = 7.5 .
i=1
Kapitel II – Deskriptive Statistik
II - 18
Streuungsparameter
Der Durchschnitt der quadratischen Abweichungen beträgt
SQ/N = 7.5/6 = 1.25 .
Diese Zahl wird als Varianz bezeichnet, allgemein ist sie definiert als
N
1 X
2
σ =
(zi − μ)2 = 1.25 .
N i=1
Alternativ lässt sich die Varianz in unserem Beispiel auch wie folgt
berechnen:
o
1n
2
2
2
2 · (13 − 14.5) + 3 · (15 − 14.5) + 1 · (16 − 14.5)
6
= 1.25 .
σ2 =
Kapitel II – Deskriptive Statistik
II - 19
Streuungsparameter
Somit kann die Varianz auch wie folgt definiert werden:
3
X
1
σ2 =
Ni · (xi − μ)2 ,
N i=1
bzw. im allgemeinen Fall für k statt 3 unterschiedlicher Werte:
k
X
1
σ2 =
Ni · (xi − μ)2 .
N i=1
Die Berechnung der Varianz ist i.d.R. mit der folgenden Formel einfacher:
⎛
⎞
k
X
1
2
⎠
σ2 = ⎝
Nix2
i −μ .
N i=1
Die Wurzel aus der Varianz bezeichnet man als Standardabweichung σ :
Standardabweichung =
Kapitel II – Deskriptive Statistik
√
Varianz .
II - 20
Streuungsparameter
Übersicht zur Berechnung der Varianz:
N
X
1
σ2 =
(zi − μ)2
N i=1
k
1 X
=
Ni · (xi − μ)2
N i=1
⎛
⎞
k
X
1
2
⎠
= ⎝
Nix2
i −μ .
N i=1
Kapitel II – Deskriptive Statistik
II - 21
Streuungsparameter
Berechnung der Varianz für das Alter:
σ2 =
1
[(13 − 14.5)2 + (13 − 14.5)2 + (15 − 14.5)2
6
+(15 − 14.5)2 + (15 − 14.5)2 + (16 − 14.52)]
1
=
[2 · (13 − 14.5)2 + 3 · (15 − 14.5)2 + 1 · (16 − 14.5)2]
6
=
µ
¶
1
[2 · 132 + 3 · 152 + 1 · 162] − 14.52
6
= 1.25 .
Kapitel II – Deskriptive Statistik
II - 22
Besonderheiten für nominal- und ordinal-skalierte Merkmale
Gegenüberstellung von Merkmalsarten und deskriptiven Instrumenten:
Geschlecht
(nominal)
Reaktion auf Fischgerichte
(ordinal)
Alter
(quantitativ)
ja
ja
ja
kum. Häufigkeiten
kum. rel. Häufigkeiten
Treppenkurve
nein
ja
ja
Mittelwert
nein
nein
ja
Median
nein
ja
ja
ja
ja
ja
Spanne
nein
ja
ja
Varianz
Standardabweichung
nein
nein
ja
Häufigkeiten
rel. Häufigkeiten
Säulendiagramm
Modalwert
Kapitel II – Deskriptive Statistik
II - 23
Besonderheiten für nominal- und ordinal-skalierte Merkmale
Für das Merkmal Geschlecht erhalten wir folgende Häufigkeiten:
Ausprägung
männlich
weiblich
Häufigkeit
relative Häufigkeit
3
3
0.5
0.5
Für das Merkmal „Reaktion auf Fischgerichte“ ergeben sich folgende
Häufigkeiten:
Ausprägung
Häufigkeit
º∙
¥
¹̈¸
kum. Häufigkeit
rel. Häufigkeit
kum. rel. Häufigk.
1
1
1/6
1/6
º∙
2
3
2/6
3/6
º∙
3
6
3/6
6/6
¹¸
§¦
¹¸
Kapitel II – Deskriptive Statistik
II - 24
Besonderheiten für nominal- und ordinal-skalierte Merkmale
Darstellung der absoluten Häufigkeiten und der kumulierten relativen
Häufigkeiten als Säulendiagramm (links) und als Treppenkurve (rechts):
6/6
kumulierte relative Häufigkeit
5
Häufigkeit
4
3
2
1
4/6
3/6
2/6
1/6
0
0
Reaktion
Kapitel II – Deskriptive Statistik
5/6
Reaktion
II - 25
Besonderheiten für nominal- und ordinal-skalierte Merkmale
Bestimmung des Medians und des Modalwertes von ordinal-skalierten
Merkmalen am Beispiel des Merkmals „Reaktion auf Fischgerichte“:
Die 6 Beobachtungen geordnet nach Größe (bzw. Präferenz) :
º∙ º∙ º∙ º∙ º∙ º∙
¥
§¦
§¦
§¦
¹̈¸ ¹¸ ¹¸ ¹¸ ¹¸ ¹¸
Somit liegt der Median zwischen
º∙
¹¸
und
º∙
§¦
¹¸
.
Der Modalwert, also der am häufigsten vorkommende Wert, ist in diesem
Beispiel
º∙
§¦
¹¸
Kapitel II – Deskriptive Statistik
.
II - 26
Müsli
Beispiel 2.2 („Anzahl gekaufter Müslipakete“):
Betrachtet wird die Anzahl der von 2000 Konsumenten in einem Zeitraum
von 13 Wochen gekauften Müslipakete:
Anzahl
Häufigk.
rel.
Häufigk. (%)
kum.
Häufigk.
kum. rel.
Häufigk. (%)
0
1
2
3
4
5
6
7
8
...
30
39
52
1 149
199
129
87
71
43
49
46
44
...
1
1
1
57.45
9.95
6.45
4.35
3.55
2.15
2.45
2.30
2.20
...
0.05
0.05
0.05
1 149
1 348
1 477
1 564
1 635
1 678
1 727
1 773
1 817
...
1 998
1 999
2 000
57.45
67.40
73,85
78.20
81.75
83.90
86.35
88.65
90.85
...
99.90
99.95
100.00
Kapitel II – Deskriptive Statistik
II - 27
Müsli
Grafische Darstellung der Häufigkeiten als Säulendiagramm (links) und
modifizierte Darstellung (rechts):
250
1200
1149
1000
200
Häufigkeit
Häufigkeit
800
600
150
100
400
Zusätzliche Werte:
1x39 1x52
50
200
0
0
0
10
20
30
40
50
Anzahl gekaufter Müslipakete
Kapitel II – Deskriptive Statistik
60
0
5
10
15
20
25
30
Anzahl gekaufter Müslipakete
II - 28
Müsli
Darstellung der kumulierten relativen Häufigkeiten als Treppenkurve:
kumulierte relative Häufigkeit
1.0
0.9
0.8
0.7
0.6
0.5
0
5
10
15
20
25
Anzahl verkaufter Müslipakete
Kapitel II – Deskriptive Statistik
II - 29
Müsli
Einige Statistiken für die Müsli-Untersuchung:
Mittelwert: 2.3
– Im Durchschnitt kauften die Konsumenten 2.3 Pakete in 13 Wochen.
– Wie muss eine geeignete Werbestrategie aussehen, um den Mittelwert von
2.3 auf 3.5 zu erhöhen?
Säulendiagramm, Median oder Modalwert:
– Der Mittelwert charakterisiert nicht den typischen Konsumenten.
– Die meisten Konsumenten haben kein Müsli gekauft, weshalb?
→ Nie von Müsli gehört oder schlechtes Image?
→ Werbestrategie ändern, um Bekanntheitsgrad zu erhöhen oder das Image
zu verbessern.
– Es gibt einen Konsumenten, der sehr große Mengen kauft.
Kapitel II – Deskriptive Statistik
II - 30
Deskriptive Statistik für stetige Merkmale
Histogramm der Brenndauer von Glühbirnen (Beispiel 1.12):
14
12
Häufigkeit
10
8
6
4
2
0
400
600
800
1000
1200
1400
1600
1800
Brenndauer (Stunden)
– Auf der y - Achse ist die absolute Häufigkeit abgetragen, die für die Intervalle
der x - Achse beobachtet wurden.
– Alle Intervalle besitzen die gleiche Breite.
Kapitel II – Deskriptive Statistik
II - 31
Deskriptive Statistik für stetige Merkmale
Beispiel 2.3 („Anbaufläche landwirtschaftlicher Betriebe“):
Die folgende Tabelle zeigt die Häufigkeiten für Anbauflächen (in ha) in
bestimmten Intervallen (landwirtschaftliche Betriebe in der Wesermarsch
in 1995):
Anbaufläche
in ha
xi
Absolute
Häufigkeit
Ni
0 < x ≤ 10
10 < x ≤ 20
20 < x ≤ 30
30 < x ≤ 50
50 < x ≤ 75
75 < x ≤ 100
100 < x ≤ 125
125 < x ≤ 150
150 < x ≤ 200
421
127
134
302
365
159
38
14
5
0.2690
0.0812
0.0856
0.1930
0.2332
0.1016
0.0243
0.0089
0.0032
1 565
1.0000
Summe
Kapitel II – Deskriptive Statistik
Relative
Häufigkeit
Ni/N
II - 32
Deskriptive Statistik für stetige Merkmale
Darstellung der Größe landwirtschaftlicher Anbauflächen als
Säulendiagramm:
400
Diese Darstellung
Häufigkeit
300
ist irreführend
200
100
0
0
20
40
60
80
100
120
140
160
180
200
Anbaufläche
Kapitel II – Deskriptive Statistik
II - 33
Deskriptive Statistik für stetige Merkmale
Beim Säulendiagramm sind die Höhen der Rechtecke proportional zu den
absoluten Häufigkeiten.
Das Säulendiagramm gibt einen verfälschten Eindruck, da die Klassen
unterschiedlich breit sind.
Das Auge assoziiert die Fläche mit der Häufigkeit und nicht die Höhe.
Die absoluten Häufigkeiten sind durch die entsprechenden Klassenbreiten
zu dividieren.
– Dann entspricht die Fläche einer Säule der absoluten bzw. relativen
Häufigkeit.
Ein Histogramm ist eine flächenproportionale Darstellung der
Häufigkeiten.
Kapitel II – Deskriptive Statistik
II - 34
Deskriptive Statistik für stetige Merkmale
Zwei unterschiedliche Säulendiagramme für identische Daten:
Fall A:
Klassen gleich breit
3.0
2.5
2.5
2.0
2.0
Häufigkeit
Häufigkeit
3.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
0.0
0.5
1.0
1.5
Werte
Kapitel II – Deskriptive Statistik
2.0
Fall B:
Klassen unterschiedlich breit
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Werte
II - 35
Deskriptive Statistik für stetige Merkmale
Histogramme der Anbauflächen mit absoluten (oben) und relativen (unten)
Häufigkeiten:
Häufigkeit /
Klassenbreite
40
Gesamtfläche = N = 1565
30
20
10
0
0
20
40
60
80
100
120
140
160
180
200
140
160
180
200
relative Häufigkeit /
Klassenbreite
Anbaufläche
0.025
Gesamtfläche = 1
0.020
0.015
0.010
0.005
0.000
0
20
40
60
80
100
120
Anbaufläche
Kapitel II – Deskriptive Statistik
II - 36
Deskriptive Statistik für stetige Merkmale
Die Konstruktion eines Histogramms ergibt sich wie folgt:
Höhe der Rechtecke
= Häufigkeit/Klassenbreite
Höhe des i-ten Rechtecks = Ni/bi
für i = 1, 2, . . . , k,
(bi: Breite der Klasse i.)
Tabelle zur Konstruktion eines Histogramms der Anbaufläche:
xi
Ni
Ni/N
bi
Ni/bi
(Ni/N )/bi
0 < x ≤ 10
10 < x ≤ 20
20 < x ≤ 30
30 < x ≤ 50
50 < x ≤ 75
75 < x ≤ 100
100 < x ≤ 125
125 < x ≤ 150
150 < x ≤ 200
421
127
134
302
365
159
38
14
5
0.2690
0.0812
0.0856
0.1930
0.2332
0.1016
0.0243
0.0089
0.0032
10
10
10
20
25
25
25
25
50
42.10
12.70
13.40
15.10
14.60
6.36
1.52
0.56
0.10
0.0269
0.0081
0.0086
0.0096
0.0093
0.0041
0.0010
0.0004
0.0001
Kapitel II – Deskriptive Statistik
II - 37
Deskriptive Statistik für stetige Merkmale
Histogramme können zur Schätzung von absoluten und relativen
Häufigkeiten verwendet werden.
Bei absoluten Häufigkeiten ist die Fläche des Histogramms gleich N, somit
kann diese Skala zur Schätzung von Häufigkeiten benutzt werden:
– Die Anzahl der Anbauflächen zwischen z.B. 80 und 110 ha wird durch die
Fläche über diesem Intervall geschätzt:
6.36 · 20 + 1.52 · 10 = 142.2
Bei relativen Häufigkeiten ist die Fläche des Histogramms gleich Eins.
– Der Anteil der Anbauflächen zwischen z.B. 80 und 110 ha wird durch die
Fläche über diesem Intervall geschätzt:
0.0041 · 20 + 0.001 · 10 = 0.092 = 9.2 % der Betriebe.
R-Befehle für Histogramme:
hist(x)
hist(x, prob = TRUE)
Kapitel II – Deskriptive Statistik
# absolute Häufigkeiten
# relative Häufigkeiten
II - 38
Deskriptive Statistik für stetige Merkmale
Anzahl und Anteil von Anbauflächen zwischen 80 und 110 ha:
Häufigkeit /
Klassenbreite
40
30
Fläche = 142.4
20
10
0
0
20
40
60
80
100
120
140
160
180
200
180
200
relative Häufigkeit /
Klassenbreite
Anbaufläche
0.025
0.020
Fläche = 0.092 = 9.2%
0.015
0.010
0.005
0.000
0
20
40
60
80
100
120
140
160
Anbaufläche
Kapitel II – Deskriptive Statistik
II - 39
Deskriptive Statistik für stetige Merkmale
Das Pendant zur Treppenkurve im diskreten Fall ist die Summenkurve
für stetige Daten:
Die Summenkurve kumuliert die Fläche unter dem Histogramm von
links nach rechts.
Übersicht über die grafische Darstellung von Häufigkeiten für diskrete bzw.
stetige Merkmale:
Häufigkeiten
kumulierte Häufigkeiten
Kapitel II – Deskriptive Statistik
Diskrete Merkmale
Stetige Merkmale
Säulendiagramm
Treppenkurve
Histogramm
Summenkurve
II - 40
Deskriptive Statistik für stetige Merkmale
Tabelle zur Konstruktion der Summenkurve für die Anbaufläche:
xi
Ni
Ni/N
Ki
0 < x ≤ 10
10 < x ≤ 20
20 < x ≤ 30
30 < x ≤ 50
50 < x ≤ 75
75 < x ≤ 100
100 < x ≤ 125
125 < x ≤ 150
150 < x ≤ 200
421
127
134
302
365
159
38
14
5
0.2690
0.0812
0.0856
0.1930
0.2332
x
0.1016
0.0243
0.0089
0.0032
421
548
682
984
1 349
1 508
1 546
1 560
1 565
Ki/N
0.2690
0.3502
0.4358
0.6288
0.8620
0.9636
0.9879
0.9968
1.0000
Der Wert der Summenkurve an der Stelle x ist gleich der Fläche unter dem
Histogramm im Bereich (− ∞, x] .
Kapitel II – Deskriptive Statistik
II - 41
Deskriptive Statistik für stetige Merkmale
relative Häufigkeit /
Klassenbreite
Bestimmung des Anteils der Betriebe mit einer Fläche kleiner oder gleich
40 ha:
0.025
0.020
Fläche = 0.53
0.015
0.010
0.005
0.000
0
20
40
60
80
100
120
140
160
180
200
120
140
160
180
200
Anbaufläche
kum. rel. Häufigkeit
1.0
0.8
0.6
0.53
0.4
0.2
0.0
0
20
40
60
80
100
Anbaufläche
Ca. 53 % (0.53) der Betriebe sind kleiner oder gleich 40 ha.
Kapitel II – Deskriptive Statistik
II - 42
Deskriptive Statistik für stetige Merkmale
relative Häufigkeit /
Klassenbreite
Anteil der Betriebe zwischen 80 und 110 ha:
0.025
0.020
0.015
Fläche = 0.09
0.010
0.005
0.000
0
20
40
60
80
100
120
140
160
180
200
120
140
160
180
200
kum. rel. Häufigkeit
Anbaufläche
0.97 1.0
0.88
0.8
0.6
0.4
0.2
0.0
0
20
40
60
80
100
Anbaufläche
Ca. 9 % (0.97 – 0.88 = 0.09) der Betriebe.
Kapitel II – Deskriptive Statistik
II - 43
Statistiken für stetige Daten
Der Modalwert kann für stetige Daten die nur in Gruppen vorliegen nicht
bestimmt werden.
Die Modalklasse ist die Klasse mit den meisten Beobachtungen je
x - Einheit, d.h. die Modalklasse besitzt das höchste Rechteck des
Histogramms, wenn durch die Klassenbreite dividiert wurde.
Da die Ausgangsdaten nicht vorliegen, kann auch der Median nicht exakt
bestimmt werden.
Der Median kann mit der Summenkurve geschätzt werden:
Der Median ist der x - Wert, für den die Summenkurve den Wert 0.5
annimmt.
Für die Anbauflächen ergibt sich ein Median von 36.65 ha, d.h. die Hälfte
der Betriebe besitzt eine Anbaufläche kleiner/gleich 36.65 ha.
Kapitel II – Deskriptive Statistik
II - 44
Statistiken für stetige Daten
Die Hälfte (= 50 %) der Betriebe besitzt eine Anbaufläche kleiner oder
gleich dem Median.
Die Quartile sind analog konzipiert:
Das 1. Quartil (Symbol Q1) ist der x - Wert, für den die Summenkurve
den Wert 0.25 annimmt; d.h. 25 % der Werte sind kleiner/gleich Q1.
Das 2. Quartil (Symbol Q2) ist der Median.
Das 3. Quartil (Symbol Q3) ist der x - Wert, für den die Summenkurve
den Wert 0.75 annimmt; d.h. 75 % der Werte sind kleiner/gleich Q3.
Kapitel II – Deskriptive Statistik
II - 45
Statistiken für stetige Daten
Bestimmung der Quartile für die Anbaufläche:
1.0
0.8
kum. rel. Häufigkeit
0.75
0.6
0.5
1. Quartil = 9.3
0.4
Median
= 36.7
3. Quartil = 63.0
0.25
0.2
0.0
0
20
Q1
40
Median
60
80
100
120
140
160
180
200
Q3
Anbaufläche
Kapitel II – Deskriptive Statistik
II - 46
Boxplots
Eine weitere Möglichkeit zur Darstellung von stetigen Daten sind Boxplots.
Es besteht eine enge Verbindung zu dem Konzept der Quartile.
240
Rechts ist ein Boxplot der Blockzeiten
(Beispiel 1.2) dargestellt.
Das erste und das dritte Quartil bestimmen
die Grenzen der Box.
Der Median ist als horizontaler Strich in der
Box eingezeichnet.
Maxima und Minima werden als als horizontaler Strich bzw. als Punkte dargestellt.
Ausreißer werden als Punkte dargestellt.
Kapitel II – Deskriptive Statistik
Blockzeit (Minuten)
220
200
180
160
140
II - 47
Boxplots
Boxplots sind besonders nützlich zum Vergleich von Verteilungen, z.B.
zum Vergleich der Blockzeiten für Hin- und Rückflüge:
300
280
Blockzeit (Minuten)
260
240
220
200
180
160
140
DFW - PHL
Kapitel II – Deskriptive Statistik
PHL - DFW
II - 48
Boxplots
Darstellung der Ankunftsverspätung in Abhängigkeit vom Wochentag
(Flüge von Dallas nach Philadelphia):
Ankunftsverspätung (Minuten)
100
80
60
40
20
0
-20
Mo
Kapitel II – Deskriptive Statistik
Di
Mi
Do
Fr
Sa
So
II - 49
Statistiken für gruppierte Daten
Der Mittelwert lässt sich für gruppierte Daten nicht exakt bestimmen.
Den Mittelwert kann man aber approximieren, indem man sich vorstellt,
dass die Werte einer Klasse durch den Wert, der in der Mitte liegt, „gut“
repräsentiert werden:
Repräsentativer Wert für die Klasse i:
xM
i
k
1 X
μ=
NixM
i .
N i=1
Analog lässt sich auch die Varianz bei gruppierten Daten approximativ
bestimmen:
k
³
´2
X
1
2
M
σ =
Ni xi − μ
N i=1
Kapitel II – Deskriptive Statistik
bzw.
⎛
⎞
k
³
´2
X
N
i
2
M
⎠ − μ2 .
σ =⎝
xi
i=1 N
II - 50
Statistiken für gruppierte Daten
Bestimmung des approximativen
Mittelwertes der⎞Anbaufläche:
⎛
9
9
X
1 X
Ni M ⎠
M
⎝
xi
μ =
Ni x i
oder μ =
N i=1
i=1 N
1
(421 · 5 + 127 · 15 + . . . + 14 · 137.5 + 5 · 175) ≈ 40.4ha
=
1565
Arbeitstabelle zur Berechnung des approximativen Mittelwertes:
xi
Ni/N
0 < x ≤ 10
10 < x ≤ 20
20 < x ≤ 30
30 < x ≤ 50
50 < x ≤ 75
75 < x ≤ 100
100 < x ≤ 125
125 < x ≤ 150
150 < x ≤ 200
0.2690
0.0812
0.0856
0.1930
0.2332
0.1016
0.0243
0.0089
0.0032
5.0
15.0
25.0
40.0
62.5
87.5
112.5
137.5
175.0
Ni/N · xM
i
1.3450
1.2173
2.1406
7.7188
14.5767
8.8898
2.7316
1.2300
0.5591
1.0000
–
40.4090
Summe
Kapitel II – Deskriptive Statistik
xM
i
II - 51
Statistiken für gruppierte Daten
Berechnung der approximativen Varianz der Anbaufläche:
k
X
Ni ³ M ´2
2
σ =
xi
− μ2
i=1 N
421
127
=
· 52 +
· 152 + . . . +
14
5
· 137.52 +
· 1752 − 40.4092
1565
1565
1565
1565
= 2650.431 − 40.4092 ≈ 1017.5ha2 .
Arbeitstabelle zur Berechnung der approximativen Varianz:
³
´2
M
xi
xi
Ni/N
xM
i
0 < x ≤ 10
10 < x ≤ 20
20 < x ≤ 30
30 < x ≤ 50
50 < x ≤ 75
75 < x ≤ 100
100 < x ≤ 125
125 < x ≤ 150
150 < x ≤ 200
0.2690
0.0812
0.0856
0.1930
0.2332
0.1016
0.0243
0.0089
0.0032
5.0
15.0
25.0
40.0
62.5
87.5
112.5
137.5
175.0
25.00
225.00
625.00
1 600.00
3 906.25
7 656.25
12 656.25
18 906.25
30 625.00
1.0000
–
–
Summe
Kapitel II – Deskriptive Statistik
³
´2
M
Ni/N · xi
6.7250
18.2588
53.5144
308.7540
911.0423
777.8554
307.3083
169.1294
97.8435
2 650.4310
II - 52
Notation in Grundgesamtheit und Stichprobe
Die betrachteten Methoden gelten sowohl für Grundgesamtheiten als auch
für Stichproben.
Die Notation wird allerdings bezüglich des betrachteten Sachverhalts
unterschieden:
Statistik
Mittelwert
Varianz
Kapitel II – Deskriptive Statistik
Grundgesamtheit
μ
σ2
Stichprobe
μ̂
σ̂ 2
oder
oder
x̄
s2
II - 53
Kapitel 3
Den Zufall quantifizieren –
Wahrscheinlichkeiten
Kapitel III – Wahrscheinlichkeiten
III - 0
Wahrscheinlichkeiten
Wahrscheinlichkeiten – Den Zufall quantifizieren
Viele interessierende Phänomene sind eher stochastischer als
deterministischer Art.
Bei stochastischen Phänomenen sind zufällige Variation und
Ungewissheit, im Sinne des englischen Wortes „uncertainty“, beteiligt.
Wir können stochastische Phänomene durch Wahrscheinlichkeiten
beschreiben.
Kapitel III – Wahrscheinlichkeiten
III - 1
Gliederung
Gliederung:
Zufallsexperimente, Ereignismenge, Ergebnisse, zufällige Ereignisse.
Definition der Wahrscheinlichkeit.
Berechnung der Wahrscheinlichkeit.
Interpretation der Wahrscheinlichkeit.
Bedingte Wahrscheinlichkeiten.
Unabhängigkeit.
Kapitel III – Wahrscheinlichkeiten
III - 2
Wahrscheinlichkeiten
Wahrscheinlichkeiten im täglichen Sprachgebrauch:
„Es ist unwahrscheinlich, dass es morgen regnet.“
„Deutschland hat eine Chance, Weltmeister zu werden.“
„Es ist sicherer, mit einem Flugzeug als mit einem Auto zu reisen.“
„Alle, die fleißig üben, können zu 99 % sicher sein, die Klausur zu
bestehen.“
Kapitel III – Wahrscheinlichkeiten
III - 3
Zufallsexperiment
Ein Zufallsexperiment ist ein „gedachtes“ oder tatsächliches Experiment,
dessen Ausgang nicht mit Sicherheit vorhergesagt werden kann.
Die Menge aller möglichen Ausgänge eines Zufallsexperiments heißt
Ergebnismenge und wird mit dem Symbol Ω bezeichnet.
Teilmengen der Ergebnismenge Ω werden zufällige Ereignisse genannt.
Beispiel: Würfel
Ω = {1, 2, 3, 4, 5, 6, }
A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6}
F = {Die Augenzahl ist Fünf} = {5}
Beispiel: Glühbirne
Ω = {x|x ≥ 0} = [0, ∞)
B = {Die Brenndauer ist länger als 500 Stunden} = (500, ∞)
D = {Die Brenndauer liegt unter 200 Stunden} = [0, 200)
Kapitel III – Wahrscheinlichkeiten
III - 4
Zufallsexperiment
Beispiele für Zufallsexperimente:
Eine normale Münze mit zwei Ausgängen:
Ω = {Kopf,Zahl}
Ein normaler Würfel mit sechs Ausgängen:
Ω = {1,2,3,4,5,6,}
Eine Münze, die so dick ist, dass sie auch auf der Kante landen kann:
Ω = {Kopf,Zahl,Kante}
Ein Flug nach Rom mit zwei Ausgängen:
Ω = {Ich lande in Rom, Ich lande nicht in Rom}
Anzahl der Fahrraddiebstähle, die im Jahr 2001 in Göttingen begangen
wurden:
Ω = {0,1,2,3,...}
Die Brenndauer einer Glühbirne, die überabzählbar viele mögliche
Ausgänge hat:
Ω = {x|x ≥ 0} = [0, ∞)
Kapitel III – Wahrscheinlichkeiten
III - 5
Ereignisse
Ω heißt (auch) sicheres Ereignis.
Elemente von Ω heißen (auch) Ergebnisse.
Die leere Menge ∅ heißt unmögliches Ereignis.
Eine Teilmenge A von Ω heißt zufälliges Ereignis.
Man sagt, das Ereignis A sei eingetreten, wenn der Ausgang des
Zufallsexperiments einem Element der Teilmenge A entspricht.
Bezeichnungen in der Mengenlehre und der Wahrscheinlichkeitsrechnung:
Mengenlehre
Wahrscheinlichkeitsrechnung
Element
Menge
Gesamtmenge
leere Menge
Ergebnis
zufälliges Ereignis
sicheres Ereignis oder Ergebnismenge
unmögliches Ereignis
Kapitel III – Wahrscheinlichkeiten
III - 6
Elementarereignisse
Zufällige Ereignisse, die nur aus einem Element bestehen, heißen
Elementarereignisse.
Ergebnismenge mit n (endlich vielen) Ausgängen:
Ergebnismenge:
Ω = {e1, e2, ..., en}
Elementarereignisse:
{e1}, {e2}, . . . , {en}
Ergebnismenge und Elementarereignisse im Würfelbeispiel:
Ergebnismenge:
Ω = {1, 2, 3, 4, 5, 6}
Elementarereignisse:
{1} {2} {3} {4} {5} {6}
Kapitel III – Wahrscheinlichkeiten
III - 7
Komplementäres Ereignis
Das komplementäre Ereignis Ā eines Ereignisses A tritt genau dann ein,
wenn A nicht eintritt.
In manchen Büchern wird Ac oder auch A′ statt Ā geschrieben.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5} D̄ = {2, 4, 6}
F = {5, 6}
∅ = {}
Kapitel III – Wahrscheinlichkeiten
F̄ = {1, 2, 3, 4}
¯ = Ω = {1, 2, 3, 4, 5, 6}
∅
III - 8
Teilmenge
Wenn jedes a ∈ A auch in B liegt, schreibt man A ⊂ B und sagt, A ist eine
Teilmenge von B, oder auch A impliziert B.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
D impliziert E
D ⊂E
F impliziert E
F ⊂ E
G impliziert D nicht
G 6⊂ D
Kapitel III – Wahrscheinlichkeiten
F = {5, 6}
G = {2, 4}
III - 9
Durchschnitt
Der Durchschnitt A ∩ B zweier Ereignisse tritt genau dann ein, wenn A
und B gleichzeitig eintreten.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
G = {2, 4}
D ∩ E = {1, 3, 5}
F ∩ D = {5 }
F ∩G = ∅
Kapitel III – Wahrscheinlichkeiten
III - 10
Vereinigung
Die Vereinigung A ∪ B zweier Ereignisse tritt genau dann ein, wenn A
oder B eintritt.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
G = {2, 4}
D ∪ E = {1, 3, 5, 6}
F ∪ G = {2, 4, 5, 6}
E ∪ G = {1, 2, 3, 4, 5, 6} = Ω
Kapitel III – Wahrscheinlichkeiten
III - 11
Differenz
Die Differenz zweier Ereignisse A \ B = A ∩ B̄ tritt ein, wenn A aber nicht
B eintritt.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
G = {2, 4}
E \ D = {6}
D\E = ∅
F \ G = {5, 6}
Kapitel III – Wahrscheinlichkeiten
III - 12
Disjunkte Ereignisse
Zwei Ereignisse heißen disjunkt, wenn ihr Durchschnitt leer ist, die
Ereignisse sich also gegenseitig ausschließen.
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
E ∩ G = ∅,
d.h. E und G sind disjunkt.
F ∩ G = ∅,
d.h. F und G sind disjunkt.
D ∩ E = {1, 3, 5} 6= ∅,
Kapitel III – Wahrscheinlichkeiten
G = {2, 4}
d.h. D und E sind nicht disjunkt.
III - 13
Wahrscheinlichkeit
Eine Wahrscheinlichkeit ist eine Funktion P, die allen Ereignissen aus Ω
eine reelle Zahl zuordnet.
Dabei muss P die drei folgenden Axiome erfüllen:
A1:
0 ≤ P (A) ≤ 1
A2:
P (Ω) = 1
A3:
Wenn A ∩ B = ∅, gilt P (A ∪ B) = P (A) + P (B)
Beispiele mit Ω = {1, 2, 3, 4, 5, 6}:
D = {1, 3, 5}
E = {1, 3, 5, 6}
F = {5, 6}
G = {2, 4}
Da F ∩ G = ∅, gilt
P (F ∪ G) = P (F ) + P (G) = P ({5, 6}) + P ({2, 4})
Kapitel III – Wahrscheinlichkeiten
III - 14
Beispiel: Münzwurf
Betrachtet wird eine Münze mit zwei Ausgängen: Ω = {Kopf, Zahl}.
Wahrscheinlichkeiten für Ereignisse:
Ereignisse
∅
{Kopf}
{Zahl}
Ω
Wahrscheinlichkeit P (∅) P ({Kopf}) P ({Zahl}) P (Ω)
Fall 1
0.0
0.5
0.5
1.0
ok
Fall 2
0.0
0.6
0.4
1.0
ok
Fall 3
0.0
0.0
1.0
1.0
ok
Fall 4
0.0
0.5
0.6
1.0
falsch
Fall 5
0.1
0.4
0.5
1.0
falsch
Kapitel III – Wahrscheinlichkeiten
III - 15
Endlicher Ergebnisraum
Bei endlichen Ergebnismengen reicht es aus, wenn man die
Wahrscheinlichkeiten für die Elementarereignisse kennt.
Alle anderen Wahrscheinlichkeiten kann man dann nach Axiom A3
berechnen.
Beispiel
Elemente (n)
Münze
Würfel
Dicke-Münze
Flug nach Rom
(n = 2)
(n = 6)
(n = 3)
(n = 2)
Ω = {e1, e2, . . . , en}
{Kopf, Zahl}
{1,2,3,4,5,6}
{Kopf, Zahl, Kante}
{Ich lande in Rom, ich lande da nicht}
Zu überprüfen ist:
A1:
0 ≤ P ({ei}) ≤ 1
A2:
P ({e1}) + P ({e2}) + ... + P ({en}) = 1
Kapitel III – Wahrscheinlichkeiten
für i = 1, 2, . . . , n
III - 16
Beispiel: Würfelexperiment
Beispiel: Ω = {1, 2, 3, 4, 5, 6}.
Elementarereignisse:
{1} {2} {3} {4} {5} {6}
Wahrscheinlichkeiten P :
0.1
0.3
0.1
0.4
0.1
0.0
Mit den Wahrscheinlichkeiten der Elementarereignisse können die
Wahrscheinlichkeiten aller anderen Ereignisse berechnet werden, z.B.:
P ({1, 2, 6}) = P ({1})+P ({2})+P ({6}) = 0.1+0.3+0.0 = 0.4
Kapitel III – Wahrscheinlichkeiten
III - 17
Folgerungen aus den Axiomen
Satz: P (Ā) = 1 − P (A)
Beispiel: Ω = {1, 2, 3, 4, 5, 6}
Elementarereignisse:
{1 }
{ 2}
{3 }
{4 }
{ 5}
{6 }
Wahrscheinlichkeiten P :
1/6 1/6
1/6
1/6
1/6
1/6
A = {2, 4, 6}
P (A) = 1/6 + 1/6 + 1/6 = 3/6
P (Ā) = 1 − P (A) = 1 - 3/6 = 3/6
B = {2, 3}
P (B) = 1/6 + 1/6 = 2/6
P (B̄) = 1 − P (B) = 1 - 2/6 = 4/6
Kapitel III – Wahrscheinlichkeiten
III - 18
Folgerungen aus den Axiomen
Satz: Falls B ⊂ A, so gilt P (B) ≤ P (A)
Beispiel: Ω = {1, 2, 3, 4, 5, 6}
Elementarereignisse:
{1}
{2 }
{3}
{4}
{ 5}
{6 }
Wahrscheinlichkeiten P :
1/6
1/6
1/6 1/6
1/6
1/6
A = {1, 3, 4} P (A)
= 1/6 + 1/6 + 1/6
= 3/6
B = {1, 4}
= 1/6 + 1/6
= 2/6
P (B)
P (B) ≤ P (A)
Kapitel III – Wahrscheinlichkeiten
III - 19
Folgerungen aus den Axiomen
Satz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beispiel: Ω = {1, 2, 3, 4, 5, 6}
Elementarereignisse:
{1}
{2 }
{3}
{4}
{ 5}
{6 }
Wahrscheinlichkeiten P :
1/6
1/6
1/6 1/6
1/6
1/6
A
= {2, 4, 6}
P (A)
= 3/6
B
= {1, 4}
P (B)
= 2/6
A∩B
= {4}
P (A ∩ B)
= 1/6
A∪B
= {1, 2, 4, 6}
P (A ∪ B)
= 4/6
P (A ∪ B) = 4/6 = 3/6 + 2/6 - 1/6
Kapitel III – Wahrscheinlichkeiten
III - 20
Wie berechnet man Wahrscheinlichkeiten?
(1) Vermutungen (Annahmen und theoretische Überlegungen)
(2) Erfahrungen (Beobachtungen)
Beispiel: Eine normale Münze mit Ω = {Kopf, Zahl} .
Annahme (Symmetrie):
P ({Kopf}) = P ({Zahl}) .
Axiome:
P ({Kopf}) + P ({Zahl}) = 1 .
Theoretische Überlegung: P ({Kopf}) = P ({Zahl}) = 1/2 .
Beispiel: Ein normaler Würfel mit Ω = {1, 2, 3, 4, 5, 6} .
Annahme (Symmetrie):
Axiome:
Theoretische Überlegung:
Kapitel III – Wahrscheinlichkeiten
Alle 6 Augenzahlen sind gleich
wahrscheinlich.
Die Summe aller sechs Wahrscheinlichkeiten muss eins sein.
P ({1}) = P ({2}) = P ({3}) = P ({4})
= P ({5}) = P ({6}) = 1/6 .
III - 21
Symmetrische Zufallsexperimente
Ein Zufallsexperiment heißt symmetrisch, wenn alle Elementarereignisse
dieselbe Wahrscheinlichkeit besitzen.
Gegeben ist eine Ergebnismenge mit n (endlich vielen) Ausgängen:
Ω = {e1, e2, ..., en}
Elementarereignisse: {e1}, {e2}, . . . , {en}
Ergebnismenge:
Wahrscheinlichkeiten im symmetrischen Zufallsexperiment:
P ({ei}) = 1/n,
i = 1, 2, . . . , n.
Beispiele: Münzwurf, Würfel, Lotto, Roulette, Kartenspiele, ...
Kapitel III – Wahrscheinlichkeiten
III - 22
Beispiel: Wurf mit zwei Münzen
Beispiel: Wurf mit zwei Münzen
Ω = {(K, K), (K, Z), (Z, K), (Z, Z)}
P ({(K, K)}) = P ({(K, Z)}) = P ({(Z, K)}) = P ({(Z, Z)}) = 1/4.
A = {Mindestens eine der beiden Münzen zeigt ,,Kopf”}
P (A) = P ({(K, K)}) + P ({(K, Z)}) + P ({(Z, K)})
= 1/4 + 1/4 + 1/4 = 3/4
der Elementarereignisse in A
P (A) = Anzahl
Anzahl der Elementarereignisse in Ω
Kapitel III – Wahrscheinlichkeiten
III - 23
Wahrscheinlichkeiten schätzen
(1) Vermutungen (Annahmen und theoretische Überlegungen)
(2) Erfahrungen (Beobachtungen)
Wenn man das Zufallsexperiment unter gleichen (oder ähnlichen)
Bedingungen wiederholen kann, dann kann man beobachten, wie oft das
interessierende Ereignis eintritt und somit dessen Wahrscheinlichkeit
schätzen.
Kapitel III – Wahrscheinlichkeiten
III - 24
Interpretation von Wahrscheinlichkeiten
Wie interpretiere ich die Aussagen:
– Die Wahrscheinlichkeit, dass eine Münze Kopf zeigt, ist 0.53.
– Die Wahrscheinlichkeit, dass ich heil nach Rom komme, ist 0.9998.
Erweiterung der Notation:
Sachverhalt
Ergebnismenge
Ereignis
Anzahl der Wiederholungen
Absolute Häufigkeit von A
Relative Häufigkeit von A
Kapitel III – Wahrscheinlichkeiten
Notation
Ω
A
n
n(A)
hn(A) = n(A)/n
III - 25
Beispiel: Würfel
Ergebnismenge Ω = {1,2,3,4,5,6}
A = {2,4,6}
F = {5}
A ∪ F = {2,4,5,6}
n = 30 Wiederholungen:
624164134561411513141215652143
Häufigkeiten:
n(A) = 13
Relative Häufigkeiten: hn(A) = 13
30
hn(A ∪ F ) = hn(A) + hn(F )
hn(Ω) = 30/30 = 1
hn(∅) = 0/30 = 0
Kapitel III – Wahrscheinlichkeiten
n(F ) = 4
n(A ∪ F ) = 17
4
hn(F ) = 30
hn(A ∪ F ) = 17
30
(A ∩ F = ∅)
III - 26
Eigenschaften relativer Häufigkeiten
Relative Häufigkeiten erfüllen die Axiome der Wahrscheinlichkeit:
a1) 0 ≤ hn(A) ≤ 1
a2) hn(Ω) = 1
a3) hn(A ∪ B) = hn(A) + hn(B), wenn A ∩ B = ∅
Kapitel III – Wahrscheinlichkeiten
III - 27
Entwicklung der relativen Häufigkeiten
Die relative Häufigkeit des Elementarereignisses 6 bei zunehmender
Anzahl von Wiederholungen:
Ergebnis
6
2
4
1
6
4
1
3
4
5
6
1
4
1
1
n({6})
1
1
1
1
2
2
2
2
2
2
3
3
3
3
3
1
1
1
2
1
3
1
4
2
5
2
6
2
7
2
8
2
9
2
10
3
11
3
12
3
13
3
14
3
15
hn({6})
Ergebnis
5
1
3
1
4
1
2
1
5
6
5
2
1
4
3
n({6})
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
3
16
3
17
3
18
3
19
3
20
3
21
3
22
3
23
3
24
4
25
4
26
4
27
4
28
4
29
4
30
hn({6})
Kapitel III – Wahrscheinlichkeiten
III - 28
Relative Häufigkeit: Interpretation
Pfad der relativen Häufigkeiten des Ergebnisses „sechs“:
Ergebnis: 6 2 4 1 6 4 1 3 4 5 6 1 4 1 1 5 1 3 1 4 1 2 1 5 6 5 2 1 4 3
1.0
0.9
relative Häufigkeit
0.8
0.7
0.6
0.5
0.4
0.3
0.2
1/6
0.1
0.0
0
5
10
15
20
25
30
Anzahl der Würfe
Kapitel III – Wahrscheinlichkeiten
III - 29
Subjektive Interpretation
Relative Häufigkeitsinterpretation:
Die Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist
der Wert P (A), auf den sich die relative Häufigkeit hn(A) bei
wachsender Anzahl der Versuchswiederholungen einpendelt.
Subjektive Interpretation:
Wahrscheinlichkeiten sind nur subjektiv zu interpretieren.
Wir wägen die Information, über die wir verfügen, ab.
Eine Wahrscheinlichkeit repräsentiert, in welchem Grad/Maß
wir an das Eintreten eines bestimmten Ereignisses glauben
oder nicht.
Kapitel III – Wahrscheinlichkeiten
III - 30
Interpretationen beim Münzwurf
Mittels relativer Häufigkeiten:
– Wenn ich diese Münze viele Millionen mal werfen würde, dann wäre der
Anteil von „Kopf“ ungefähr 1/2.
Mittels der Subjektivisten:
– Niemand wird diese Münze viele Millionen mal werfen. Also, was soll dieser
Unsinn?
– Wenn ich Ihnen 1 € gebe, falls „Kopf“ erscheint, wäre die Wette fair, wenn
Sie mir 1 € geben, falls „Zahl“ erscheint.
Kapitel III – Wahrscheinlichkeiten
III - 31
Axiome der Wahrscheinlichkeit
Eine Wahrscheinlichkeit ist eine Funktion P, die allen Ereignissen aus Ω
eine reelle Zahl zuordnet, wobei die Funktion die drei folgenden Axiome
erfüllen muss:
A1 : 0 ≤ P (A) ≤ 1
A2 : P (Ω) = 1
A3 : Wenn A ∩ B = ∅ , gilt P (A ∪ B) = P (A) + P (B)
Wenn es unendlich viele Ereignisse gibt, muss man A 3 verallgemeinern:
A3 : Wenn A1, A2, A3, ... alle disjunkt sind, d.h.
Ai ∩ Aj = ∅ für alle i, j, so gilt
P (A1 ∪ A2 ∪ A3 ∪ . . .) = P (A1) + P (A2) + P (A3) + . . .
Kapitel III – Wahrscheinlichkeiten
III - 32
Bedingte Wahrscheinlichkeit und Unabhägigkeit
Beispiel „Flug nach Rom“:
Betrachtet wird die Chance gut, heil in Rom zu landen.
Doch,
– einer der Motoren macht ein merkwürdiges Geräusch und
– der Pilot torkelt durch die Kabine und grölt Schlagerlieder.
Die Chance, heil in Rom zu landen, ist gesunken.
– Ich habe Zusatzinformationen bekommen, die die Wahrscheinlichkeit
verändert haben.
– Ich muss jetzt die Wahrscheinlichkeit unter Berücksichtigung dieser
Zusatzinformation neu einschätzen.
– Diese modifizierte Wahrscheinlichkeit, nennt man eine bedingte
Wahrscheinlichkeit.
Kapitel III – Wahrscheinlichkeiten
III - 33
Flug nach Rom, Zusammenfassung
Zufallsexperiment:
Flug nach Rom.
Ereignis von Interesse:
Ich komme heil in Rom an.
Erste Einschätzung:
Meine Chance, heil anzukommen, ist gut
(hohe Wahrscheinlichkeit).
Zusatzinformationen:
– Ein Motor scheint defekt zu sein.
– Der Pilot ist zweifelhaft.
Neue Einschätzung:
Kapitel III – Wahrscheinlichkeiten
Meine Chancen sind schlechter geworden
(geringere bedingte Wahrscheinlichkeit).
III - 34
Definition der bedingten Wahrscheinlichkeit
Ergebnismenge Ω
Zwei zufällige Ereignisse A und B, wobei P (B) > 0
Die bedingte Wahrscheinlichkeit von A, gegeben B, ist
definiert durch:
P (A ∩ B)
P (A|B) =
P (B)
Kapitel III – Wahrscheinlichkeiten
mit P (B) > 0.
III - 35
Bedingte Wahrscheinlichkeiten beim Würfeln
Beispiel: Ein normaler Würfel: Ω = {1, 2, 3, 4, 5, 6}
A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6}
B = {Die Augenzahl ist nicht 6} = {1, 2, 3, 4, 5}
A = {2, 4, 6}
B = {1, 2, 3, 4, 5}
A ∩ B = {2, 4}
P (A) = 3/6
P (B) = 5/6
P (A ∩ B) = 2/6
P (A ∩ B)
2/6
P (A|B) =
=
= 2/5
P (B)
5/6
Kapitel III – Wahrscheinlichkeiten
III - 36
Interpretation der bedingten Wahrscheinlichkeit
Beispiel: Ein normaler Würfel: Ω = {1, 2, 3, 4, 5, 6}
A = {Die Augenzahl ist eine gerade Zahl} = {2, 4, 6}
Ich werfe einen fairen Würfel, zeige Ihnen nicht das Ergebnis und frage
Sie:
— Frage: Wie groß ist die Wahrscheinlichkeit, dass A
eingetreten ist?
— Antwort: P (A) = 3/6
Jetzt sage ich Ihnen: Das Ergebnis ist keine 6, d.h., das Ereignis
B = {1, 2, 3, 4, 5} ist eingetreten.
— Frage: Wie groß ist die Wahrscheinlichkeit, dass A
eingetreten ist, wenn Sie wissen, dass B eingetreten ist?
— Antwort: P (A|B) = 2/5
Kapitel III – Wahrscheinlichkeiten
III - 37
Interpretation der bedingten Wahrscheinlichkeit
Je nach Informationsstand ist die Wahrscheinlichkeit für das Ereignis A
verschieden:
• Ohne Zusatzinformation ist die Wahrscheinlichkeit von A:
P (A) = 0.5
• Mit Zusatzinformation (nämlich dass B eingetreten ist) ist
die Wahrscheinlichkeit von A gegeben B:
P (A|B) = 0.4
Die bedingte Wahrscheinlichkeit von A gegeben B, ist also die korrigierte
Wahrscheinlichkeit von A, wenn wir die zusätzliche Information haben,
dass B eingetreten ist.
Kapitel III – Wahrscheinlichkeiten
III - 38
Weitere Beispiele
Zusatzinformation:
C = {Die Augenzahl ist kleiner gleich 3} =
{1, 2, 3} ist eingetreten.
A = {2, 4, 6}
C = {1, 2, 3}
A ∩ C = {2}
P (A) = 3/6
P (C) = 3/6
P (A ∩ C) = 1/6
Bedingte Wahrscheinlichkeit:
P (A|C) =
Kapitel III – Wahrscheinlichkeiten
P (A ∩ C)
1/6
=
= 1/3
P (C)
3/6
III - 39
Weitere Beispiele
Zusatzinformation:
D = {Die Augenzahl ist 2 oder 4} =
{2, 4} ist eingetreten.
A = {2, 4, 6}
D = {2, 4}
A ∩ D = {2, 4}
P (A) = 3/6
P (D) = 2/6
P (A ∩ D) = 2/6
Bedingte Wahrscheinlichkeit:
P (A ∩ D)
2/6
P (A|D) =
=
=1
P (D)
2/6
Kapitel III – Wahrscheinlichkeiten
III - 40
Weitere Beispiele
Zusatzinformation:
E = {Die Augenzahl ist ungerade} =
{1, 3, 5} ist eingetreten.
A = {2, 4, 6}
E = {1, 3, 5}
A∩E = ∅
P (A) = 3/6
P (E) = 3/6
P (A ∩ E) = 0
Bedingte Wahrscheinlichkeit für A gegeben E:
P (A ∩ E)
0
P (A|E) =
=
=0
P (E)
3/6
Kapitel III – Wahrscheinlichkeiten
III - 41
P (A) bei unterschiedlichen Zusatzinformationen
P (A) bei unterschiedlichen Zusatzinformationen:
Zusatzinformation
Keine Zusatzinformation
Das Ergebnis ist keine 6
Das Ergebnis ist kleiner gleich 3
Das Ergebnis ist 2 oder 4
Das Ergebnis ist eine ungerade Zahl
Kapitel III – Wahrscheinlichkeiten
P (A|Zusatzinformation)
P (A) = 0.5
P (A|B) = 0.4
P (A|C) = 0.3̄
P (A|D) = 1.0
P (A|E) = 0.0
III - 42
Beispiel
Wahrscheinlichkeiten sind wichtig für Lebensversicherer.
A = Die Person wird das 65. Lebensjahr erreichen
Annahme: P (A) = 0.7
Wie ändert sich diese Wahrscheinlichkeit unter den folgenden
Zusatzinformationen?
1. Die Person hat bereits das 20. Lebensjahr erreicht.
2. Die Person isst ungesund, raucht täglich 60 Zigaretten und
praktiziert Bungee-Jumping.
3. Die Person ist weiblich.
4. Die Person ist deutsch.
5. Die Person hat schwere Herzprobleme.
Kapitel III – Wahrscheinlichkeiten
III - 43
Zusammenfassung, Bedingte Wahrscheinlichkeit
Zusammenfassung, bedingte Wahrscheinlichkeit:
• (Unbedingte) Wahrscheinlichkeit: P (A):
Wahrscheinlichkeit für das Eintreten des Ereignisses A.
• Bedingte Wahrscheinlichkeit: P (A|B) = P (A ∩ B)/P (B)
Zusatzinformation B ist eingetreten;
Wahrscheinlichkeit für das Eintreten des Ereignisses A gegeben,
dass das Ereignis B eingetreten ist.
Was passiert, wenn die Zusatzinformation gar nichts bringt?
Kapitel III – Wahrscheinlichkeiten
III - 44
Was passiert, wenn die Zusatzinformation gar nichts bringt?
Zwei-Münzen-Beispiel: Ich werfe zwei Münzen, einen Euro und
einen Cent, die fair sind.
Elementarereignisse: (KK), (KZ), (Z,K) (Z,Z)
Ereignis: A = {Der Euro zeigt ,,Kopf”}
P (A) = 2/4 = 0.5
Zusatzinformation: B = {Der Cent zeigt ,,Kopf”}
.
P (A|B) = (1/4) (1/2) = 0.5
Also P (A) = P (A|B) = 0.5 !
Kapitel III – Wahrscheinlichkeiten
III - 45
Unabhängigkeit von Ereignissen
Die Zusatzinformation B hat die Wahrscheinlichkeit nicht verändert.
Gilt P (A|B) = P (A) , so sind die Ereignisse A und B unabhängig:
P (A ∩ B)
P (A|B) =
P (B)
P (A ∩ B) = P (A|B)P (B)
Aus der Unabhängigkeit von A und B, d.h. P (A|B) = P (A), folgt somit
P (A ∩ B) = P (A)P (B).
Kapitel III – Wahrscheinlichkeiten
III - 46
Alternative Definition der Unabhängigkeit
Die Ereignisse A und B sind unabhängig, wenn
P (A ∩ B) = P (A)P (B) .
Wenn die Ereignisse A und B unabhängig sind, dann sind die folgenden
Ereignisse auch unabhängig:
– A und B̄,
– Ā und B,
– Ā und B̄.
Kapitel III – Wahrscheinlichkeiten
III - 47
Weitere Beispiele
Ist das Ereignis, dass ein Mensch einen Herzinfarkt erleidet, unabhängig
davon, ob dieser Mensch einen hohen Cholesterinspiegel hat?
Ist die Menge verkaufter Güter unabhängig von dem Betrag, der für
Werbung ausgegeben wird?
Ist die Chance, einen bestimmten Arbeitsplatz zu erhalten, unabhängig
vom Geschlecht? Mit anderen Worten, sind die bedingten
Wahrscheinlichkeiten, dass eine Person einen Arbeitsplatz erhält,
gegeben, dass die Person eine Frau bzw. ein Mann ist, die gleichen?
Ist das Ereignis, an Krebs zu erkranken, unabhängig davon, ob sich in der
Nähe ein Kernkraftwerk befindet?
Kapitel III – Wahrscheinlichkeiten
III - 48
Kapitel 4
Wie viel sind meine Aktien morgen wert –
Verteilungen und ihre Eigenschaften
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 0
Zufallsvariablen und ihre Verteilung
Übersicht:
Einführung:
– Was ist eine Zufallsvariable,
– Beispiel einer diskreten Zufallsvariable,
– Beispiel einer stetigen Zufallsvariable.
Stetige Zufallsvariablen:
– Dichtefunktion,
– Verteilungsfunktion,
– Beispiele.
Diskrete Zufallsvariablen:
– Wahrscheinlichkeitsfunktion,
– Verteilungsfunktion,
– Beispiele.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 1
Beispiel: Glühbirne
Frage: Wie lange wird diese Glühbirne brennen?
Antwort:
– Bevor die Glühbirne benutzt wird: Eine Zufallsvariable.
– Nachdem die Glühbirne kaputt ist: Eine gewöhnliche Zahl.
Wahrscheinlichkeiten über mögliche Brenndauern der Glühbirne können
mit Hilfe der Dichtefunktion beantwortet werden.
Bei allen Dichtefunktionen ist die Fläche unter der Kurve eins.
Um die Wahrscheinlichkeit eines Ereignisses zu berechnen, ermittelt man
die Größe der Fläche unterhalb der Dichtefunktion.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 2
Zufallsvariablen
Zufallsvariablen werden mit großen lateinischen Buchstaben bezeichnet:
Z.B. X sei die Brenndauer meiner Glühbirne.
Eigenschaften von X:
X steht für eine Reihe von möglichen Werten, nämlich die
Ergebnismenge.
Das Verhalten von X kann durch Wahrscheinlichkeiten beschrieben
werden.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 3
Weitere Beispiele für Zufallsvariablen
Sei X die Anzahl der Krankenhausbetten, die im nächsten Monat in
Göttingen benötigt werden.
Sei Y das Alter, in dem Sie Ihr Studium beenden werden oder eine
Anstellung bekommen oder auch in Rente gehen.
Sei Z die Menge Öl (Weizen, Papier, Waschmittel), die im nächsten Jahr
in Deutschland verbraucht wird.
Sei V der Gewinn (der Umsatz, die Steuer) eines Unternehmens im
nächsten Jahr.
Sei U die Anzahl der Autos (Tennisschläger, Atomkraftwerke), die im
nächsten Jahr verkauft werden.
...
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 4
Weitere Beispiele
Es gibt auch Zufallsvariablen, die sich auf Ereignisse beziehen, die schon
stattgefunden haben:
Sei V die Anzahl der Personen in Deutschland, die gestern ein bestimmtes
Fernsehprogramm gesehen haben.
Sei X die Anzahl der Personen in Europa, die eine bestimmte Eigenschaft
haben (z.B. Diabetes haben, ein Fahrrad besitzen, gestern Müsli
gegessen haben, ein Buch gelesen haben, usw.)
Sei Y der Anteil der Buchen in Niedersachsen, die durch sauren Regen
geschädigt sind, die durch Rehe verbissen sind, die höher als 5 Meter
sind, usw.
Sei Z die gesamte Arbeitszeit, die gestern in Deutschland durch Krankheit
verlorengegangen ist.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 5
Zufallsvariable
Jedes der Beispiele kann auf ein Zufallsexperiment zurückgeführt werden.
Das Ergebnis, an dem wir interessiert sind, kann nicht vorhergesagt
werden.
Das interessierende Ergebnis ist in jedem Fall ein numerischer Wert.
Mathematisch können wir eine Zufallsvariable durch eine Funktion
beschreiben, die jedem möglichen Ergebnis des zugehörigen
Zufallsexperiments eine reelle Zahl zuordnet.
Eine Zufallsvariable ist eine Funktion, die jedem möglichen Ergebnis
eines Zufallsexperiments eine reelle Zahl zuordnet.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 6
Münzwurf-Spiel
Ich werde eine faire Münze einmal werfen. Ω = {Kopf, Zahl}.
Spielregeln:
Zeigt die Münze Kopf, zahle ich Ihnen 1 €,
zeigt die Münze Zahl, zahlen Sie mir 3 €.
Wie hoch ist mein Gewinn? → Eine Zufallsvariable!
Sei X mein Gewinn:
Ergebnis
Kopf
Zahl
mein Gewinn
X (Kopf) = —1 C
X (Zahl) = +3 C
Wahrscheinlichkeit
0.5
0.5
Die Zufallsvariable X ordnet jedem Ergebnis in der Ergebnismenge einen
numerischen Wert (hier -1 € bzw. 3 €) zu, d.h. X ist eine Funktion:
X : Ω → IR
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 7
Ihr Gewinn - Wahrscheinlichkeitsfunktion
Ihr Gewinn ist ebenfalls eine Zufallsvariable.
Sei Y Ihr Gewinn:
Y =
(
+1 C mit Wahrscheinlichkeit 0.5,
−3 C mit Wahrscheinlichkeit 0.5.
Die Wahrscheinlichkeitsfunktion gibt für jeden möglichen Wert der
Zufallsvariablen die zugehörige Wahrscheinlichkeit an, d.h. die
Wahrscheinlichkeit, mit der dieser Wert eintritt.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 8
Ihr Gewinn - Wahrscheinlichkeitsfunktion
Wahrscheinlichkeit
Wahrscheinlichkeitsfunktionen für das Münzwurf-Gewinnspiel:
1.0
0.8
0.6
0.4
0.2
Wahrscheinlichkeit
0.0
-2
-1
0
1
Mein Gewinn (€)
2
3
4
-4
-3
-2
-1
Ihr Gewinn (€)
0
1
2
1.0
0.8
0.6
0.4
0.2
0.0
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 9
Stetige Zufallsvariablen
Dichtefunktion: f(x) .
Für stetige Zufallsvariablen verwenden wir eine Dichtefunktion (englisch:
probability density function), um Wahrscheinlichkeiten zu berechnen.
Die Wahrscheinlichkeit des interessierenden Ereignisses wird durch die
entsprechende Fläche unter der Dichtefunktion angegeben.
Eine Fläche unterhalb der Dichtefunktion kann als Integral berechnet
werden, z.B.
P (100 ≤ X ≤ 200) =
P (x1 ≤ X ≤ x2) =
Kapitel IV – Verteilungen und ihre Eigenschaften
Zx2
200
Z
f (x) dx
100
f (x) dx
x1
IV - 10
Dichtefunktion, Notation
Zwei stetige Zufallsvariablen:
X sei die Brenndauer der Glühbirne.
W sei der Anschaffungspreis pro Brennstunde der Glühbirne:
Preis der Glühbirne
W =
Brenndauer der Glühbirne
Notation:
– Dichtefunktion von X : fX (x) .
– Dichtefunktion von W : fW (x) .
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 11
Berechnung der Fläche unterhalb der Dichtefunktion
Um eine Wahrscheinlichkeit für eine stetige Zufallsvariable auszurechnen,
muss man also eine Fläche unter der Dichtefunktion berechnen.
Berechung der Fläche:
– Integration
- falls man f (x) integrieren kann,
– Computerprogramme
- falls verfügbar,
– Spezielle Tabellen
- falls verfügbar,
– Abzählen von Rechtecken
- falls alles andere nicht geht.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 12
Gauss'sche - oder Normalverteilung für die Brenndauer
f (x) = √
1
−(x−1092.9)2 /(2·206.12 )
e
2π · 206.1
P (1000 < X < 1500)
=
1500
Z
1000
√
2 /(2·206.12 )
1
−(x−1092.9)
e
dx
2π · 206.1
Dies ist analytisch nicht zu integrieren!
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 13
Gauss'sche - oder Normalverteilung für die Brenndauer
Wahrscheinlichkeiten als Fläche unterhalb der Dichtefunktion:
0.0020
0.0015
0.0010
Fläche
= 0.65
0.0005
0.0000
400
600
800
1000
1200
1400
1600
1800
1400
1600
1800
Brenndauer (Stunden)
0.0020
0.0015
0.0010
Fläche
= 0.7
0.0005
0.0000
400
600
800
1000
1200
Brenndauer (Stunden)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 14
Bestimmung der Fläche per Hand
Dimension eines Rechtecks:
Breite
Höhe
Fläche
= 50
= 0.0001
= 50 · 0.0001 = 0.005
Einheiten
Einheiten
Einheiten2
Es gibt etwa 128 Rechtecke unter f (x) im Intervall (1000, 1500):
P (1000 < X < 1500) ≈ 128 · 0.005 = 0.64 .
(Mit R erhält man 0.65.)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 15
Dichtefunktion des Maximums dreier Zufallszahlen
Drei Zufallszahlen sind gleichmäßig über [0,1] verteilt.
Sei X das Maximum von drei solchen Zahlen.
X hat die folgende Dichtefunktion:
f (x) =
⎧
⎨3x2
⎩0
0≤x≤1
sonst
P (0.1 < X < 0.5) =
=
Kapitel IV – Verteilungen und ihre Eigenschaften
0.5
Z
f (x) dx =
0.1
·
¸0.5
0.5
Z
3x2 dx
0.1
3 3
x
= 0.53 − 0.13 = 0.124
3
0.1
IV - 16
Dichtefunktion des Maximums dreier Zufallszahlen
Dichtefunktion für das Maximum von drei Zufallszahlen aus dem
Bereich [0, 1]:
3.0
2.5
Dichte
2.0
1.5
1.0
0.5
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x (Maximum von 3 Zufallszahlen)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 17
Weitere Wahrscheinlichkeiten, Maximum dreier Zufallszahlen
P (X < 0.4)
=
=
=
=
=
=
=
=
=
Z0.4
P (1.2 < X < 1.5)
f (x) dx
−∞
Z0
=
=
0 dx +
−∞
·
3 3
0+ x
3
0.43 − 03
0.064
Z0.4
=
3x2 dx
0
=
¸0.4
=
0
P (X = 0.5)
=
=
=
Z1.5
f (x) dx
1.2
Z1.5
0 dx
1.2
0
Z0.5
f (x) dx
0.5
Z0.5
3x2 dx = 0
0.5
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 18
Eigenschaften einer Dichtefunktion
Eigenschaften einer Dichtefunktion:
(1)
(2)
f (x) ≥ 0 für alle x ∈ IR
∞
R
−∞
f (x) dx = 1
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 19
Beispiel einer weiteren Dichtefunktion
X sei die Dauer (in Sekunden) eines Call-Center-Anrufes (Beispiel 1.10),
d.h X ist die Antwort auf die Frage:
Wie lange wird ein beliebiger Anruf in dem Call-Center dauern?
f (x) =
⎧
⎨0.006e−0.006x
⎩0
x≥0
sonst
Beispiel einer Exponentialverteilung:
Überprüfung der Eigenschaften einer Dichtefunktion.
Z∞
f (x) dx =
−∞
=
=
Z0
−∞
0 dx +
Z∞
0.006e−0.006x dx
0
·
¸
0.006 −0.006x ∞
e
= 0+ −
0.006
0
= [−e−0.006(∞)] − [−e−0.006(0)] = (−0) − (−e0)
= 0 − (−1) = 1
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 20
Dichtefunktion für die Dauer von Anrufen
Dichtefunktion für die Dauer von Call-Center-Anrufen:
0.006
0.005
0.004
0.003
0.002
0.001
0.000
0
200
400
600
800
1000
Anrufdauer (Sekunden)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 21
P(Dauer < 200 Sekunden)
Bestimmung von P (X < 200):
200
Z
P (X < 200) =
=
f (x) dx
−∞
Z0
−∞
=
·
0 dx +
200
Z
0.006e−0.006x dx
0
¸
0.006 −0.006x 200
−
e
0.006
0
= [−e−0.006(200) ] − [−e−0.006(0)]
= −0.301 − (−1) = 0.699
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 22
Verteilungsfunktion
Verteilungsfunktion:
F (t) = P (X ≤ t).
Der Funktionswert der Verteilungsfunktion an der Stelle t entspricht der
Fläche unterhalb der Dichtefunktion links von t.
Die Summenkurve an der Stelle t gibt die Fläche unterhalb des
Histogramms links von t an.
Die Verteilungsfunktion an der Stelle t gibt die Fläche unterhalb der
Dichtefunktion links von t an.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 23
Verteilungsfunktion
Zusammenhang zwischen Dichte- und Verteilungsfunktion
(Brenndauer von Glühbirnen):
Dichtefunktion f(x)
0.0020
0.0015
0.0010
0.7
0.0005
0.0000
400
600
800
1000
1200
1400
1600
1800
1400
1600
1800
Brenndauer (Stunden)
Verteilungsfunktion F(t)
1.0
0.8
0.7
0.6
0.4
0.2
0.0
400
600
800
1000
1200
Brenndauer (Stunden)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 24
Verteilungsfunktion, Beispiel
Dichtefunktion:
Verteilungsfunktion:
Fall t < 0: F (t) =
0 ≤ t ≤ 1: F (t) =
f (x) =
⎧
⎨3x2
⎩0
P (X ≤ t) =
Rt
−∞
R0
−∞
0 dx = 0
0 dx +
Rt
0
R0
für 0 ≤ x ≤ 1
sonst
Zt
(zwei Fälle)
f (x) dx
−∞
h
it
3
2
3
3x dx = 3 x
= t3 − 03 = t3
0
R1
Rt
2
Fall t > 1: F (t) =
0 dx + 3x dx + 0 dx = 0 + 1 + 0 = 1
−∞
0
1
⎧
⎪
für t < 0
⎪
⎨0
F (t) = t3 für 0 ≤ t ≤ 1
(drei Fälle)
⎪
⎪
⎩
1
Kapitel IV – Verteilungen und ihre Eigenschaften
für t > 1
IV - 25
Verteilungsfunktion
Dichte- und Verteilungsfunktion für das Maximum von drei Zufallszahlen:
Dichte
Dichtefunktion f(x)
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.0
1.2
x (Maximum von 3 Zufallszahlen)
Verteilungsfunktion F(t)
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
t (Maximum von 3 Zufallszahlen)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 26
Wahrscheinlichkeitsberechnung mit der Verteilungsfunktion
Die Wahrscheinlichkeit, dass X zwischen 0.5 und 0.7 liegt ist die Fläche
zwischen 0.5 und 0.7 unter der Dichtefunktion:
P (0.5 < X < 0.7) =
0.7
Z
f (x) dx
0.5
=
0.7
Z
−∞
f (x) dx −
0.5
Z
f (x) dx
−∞
= F (0.7) − F (0.5)
Um die Fläche zwischen 0.5 und 0.7 zu berechnen, subtrahiert man die
Fläche links von 0.5 von der Fläche, die links von 0.7 liegt.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 27
Call-Center Beispiel: Exponentialverteilung
⎧
⎨0.006e−0.006x
Exponentialverteilung: f (x) = ⎩
Fall t < 0:
Fall t ≥ 0:
F (t) =
Rt
−∞
F (t) =
=
Zt
0
x≥0
.
sonst
0 dx = 0
0.006e−0.006x dx
0
·
¸
0.006 −0.006x t
−
e
0.006
0
= 1 − e−0.006 t
Verteilungsfunktion: F (t) =
Kapitel IV – Verteilungen und ihre Eigenschaften
⎧
⎨0
⎩1 − e−0.006 t
t<0
.
t≥0
IV - 28
Verteilungsfunktion
Dichte- und Verteilungsfunktion für die Dauer von Call-Center-Anrufen:
Dichtefunktion f(x)
0.006
0.005
0.004
0.003
0.002
0.001
0.000
0
200
400
600
800
1000
800
1000
Anrufdauer (Sekunden)
Verteilungsfunktion F(t)
1.0
0.8
0.6
0.4
0.2
0.0
0
200
400
600
Anrufdauer (Sekunden)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 29
Wahrscheinlichkeitsberechnung mit der Verteilungsfunktion
Berechnung der Wahrscheinlichkeit, dass ein Anruf im Call-Center
zwischen 100 und 200 Sekunden dauert:
• F (200)
= 1 − e−0.006·(200) = 1 − e−1.2
= 0.699
• F (100)
= 1 − e−0.006·(100) = 1 − e−0.6
= 0.451
• P (100 < X < 200) = F (200) − F (100)
= 0.699 − 0.451
= 0.248
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 30
Eigenschaften einer Verteilungsfunktion
Eigenschaften einer Verteilungsfunktion:
F (t) = P (X ≤ t) =
Rt
−∞
f (x) dx
(1)
0 ≤ F (t) ≤ 1
(2)
F (t) ist eine nichtfallende Funktion
(3)
(4)
(5)
lim F (t) = 0
t→−∞
lim F (t) = 1
t→∞
f (x) = F 0(x)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 31
Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen
Die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen gibt für
alle möglichen Werte dieser Zufallsvariablen die Wahrscheinlichkeit an,
dass dieser Wert angenommen wird:
P (x) = P (X = x)
Beispiel: Münzwurfspiel
Spielregeln:
⎧
⎨Kopf, zahle ich Ihnen 1 C,
Zeigt die Münze
⎩Zahl, zahlen Sie mir 3 C.
Die Zufallsvariable X sei mein Gewinn:
Mögliche Werte von X
−1
+3
Kapitel IV – Verteilungen und ihre Eigenschaften
Wahrscheinlichkeit
P (X = −1) = 0.5
P (X = +3) = 0.5
Wahrscheinlichkeitsfunktion
P (−1) = 0.5
P (3) = 0.5
IV - 32
Eigenschaften einer Wahrscheinlichkeitsfunktion
Eigenschaften einer Wahrscheinlichkeitsfunktion:
1. P (x) ≥ 0 für alle x
(0 ≤ P (x) ≤ 1)
2. Wenn x1, x2, . . . , xn die möglichen Werte einer diskreten
Zufallsvariablen sind, so gilt:
P (x1) + P (x2) + . . . + P (xn) =
n
X
P (xi) = 1
i=1
Auch wenn es eine unendliche Anzahl möglicher Werte gibt, x1, x2, x3, ...,
muss die Summe aller Wahrscheinlichkeiten gleich 1 sein:
P (x1) + P (x2) + P (x3) + . . . =
∞
X
P (xi) = 1
i=1
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 33
Münzwurf bis zum 1. „Kopf“
Sei X die Anzahl der Würfe, bis die Münze zum ersten mal ,,Kopf" zeigt:
P (1) = P (X = 1) = P ({Kopf beim 1. Wurf}) = 0.5
P (2) = P (X = 2)
= P ({Zahl beim 1. Wurf} ∩ {Kopf beim 2. Wurf})
= P ({Zahl beim 1. Wurf}) · P ({Kopf beim 2. Wurf})
= (0.5)(0.5) = 0.52
P (3) = P (X = 3)
= P ({Zahl beim 1. Wurf} ∩ {Zahl beim 2. Wurf}
∩{Kopf beim 3. Wurf})
= P ({Zahl beim 1. Wurf}) · P ({Zahl beim 2. Wurf})
·P ({Kopf beim 3. Wurf})
= (0.5)(0.5)(0.5) = 0.53
... = ...
P (x) =
⎧
⎨0.5x
⎩0
für x = 1, 2, 3, ...
sonst
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 34
Münzwurf bis zum 1. „Kopf“
Wahrscheinlichkeitsfunktion für die Anzahl der Münzwürfe bis zum ersten
Mal „Kopf“:
1.0
0.8
P(x)
0.6
0.4
0.2
0.0
0
1
2
3
4
5
6
7
8
9
x (Anzahl der Würfe)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 35
Verteilungsfunktion für diskrete Zufallsvariablen
Die Verteilungsfunktion kumuliert die Wahrscheinlichkeiten der
Wahrscheinlichkeitsfunktion, wenn t sich von links nach rechts bewegt:
F (t) = P (X ≤ t)
Beispiel: Mein Gewinn beim Münzwurfspiel
F (t) =
⎧
⎪
⎪
⎨0
⎪
⎪
⎩
0.5
1
für t < −1
für − 1 ≤ t < 3
für t ≥ 3
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 36
Verteilungsfunktion für diskrete Zufallsvariablen
Wahrscheinlichkeits- und Verteilungsfunktion für meinen Gewinn:
Wahrscheinlichkeitsfunktion P(x)
P(x)
1.0
0.8
0.6
0.4
0.2
0.0
-2
-1
0
1
2
3
4
2
3
4
x (mein Gewinn in €)
Verteilungsfunktion F(t)
F(t)
1.0
0.8
0.6
0.4
0.2
0.0
-2
-1
0
1
t (mein Gewinn in €)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 37
Berechnung der Verteilungsfunktion
1. Die möglichen Werte der Zufallsvariablen X seien (der
Größe nach vom kleinsten zum größten Wert) x1, x2, ..., xn.
2. Die zugehörigen Wahrscheinlichkeiten seien
P (x1), P (x2), P (x3), ..., P (xn).
3. Dann ist
⎧
⎪
⎪
0
⎪
⎪
⎪
⎪
⎪
P (x1)
⎪
⎪
⎪
⎪
⎨P (x ) + P (x )
1
2
F (t) =
⎪
P (x1) + P (x2) + P (x3)
⎪
⎪
⎪
⎪
...
⎪
⎪
⎪
⎪
⎪
⎪
⎩P (x ) + P (x ) + P (x ) + ... + P (xn) = 1
1
2
3
Kapitel IV – Verteilungen und ihre Eigenschaften
für
für
für
für
...
für
t < x1
x1 ≤ t < x2
x2 ≤ t < x3
x3 ≤ t < x4
xn ≤ t
IV - 38
Eigenschaften einer Verteilungsfunktion
Die Verteilungsfunktion F (t) = P (X ≤ t)
einer diskreten Zufallsvariablen ist eine Treppenfunktion, die
einer stetigen Zufallsvariablen ist eine stetige Funktion:
1. 0 ≤ F (t) ≤ 1
F (t) ist eine Wahrscheinlichkeit.
2. F (t) ist eine nichtfallende Funktion.
Entweder wächst F (t) oder bleibt konstant. Sie wird aber niemals
kleiner.
3.
lim F (t) = 0
t→−∞
Je kleiner t wird, desto mehr nähert sich F (t) dem Wert 0 an.
4. lim F (t) = 1
t→∞
Je größer t wird, desto mehr nähert sich F (t) dem Wert 1 an.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 39
Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto
Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto:
Wahrscheinlichkeitsfunktion für
die Anzahl Richtiger im Lotto:
Beispiel: Lotto
Lotto 6 aus 49
1
8
15
22
29
36
43
2
9
16
23
30
37
44
3
10
17
24
31
38
45
4
11
18
25
32
39
46
5
12
19
26
33
40
47
Kapitel IV – Verteilungen und ihre Eigenschaften
6
13
20
27
34
41
48
7
14
21
28
35
42
49
x
P(x)
0
1
2
3
4
5
6
0.435 964 975
0.413 019 450
0.132 378 029
0.017 650 404
0.000 968 620
0.000 018 450
0.000 000 072
Summe
1.000 000 000
IV - 40
Wahrscheinlichkeitsfunktion für die Anzahl Richtiger im Lotto
Wahrscheinlichkeits- und Verteilungsfunktion für die Anzahl Richtiger
im Lotto:
Wahrscheinlichkeitsfunktion P(x)
P(x)
1.0
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
5
6
5
6
x (Anzahl Richtige)
Verteilungsfunktion F(t)
F(t)
1.0
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
t (Anzahl Richtige)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 41
Summe der Augenzahlen von zwei Würfeln
Sei X die Summe der Augenzahlen von zwei fairen Würfeln:
(1, 1)
(1, 2)
(2, 1)
.
(3, 1)
.
(4, 1)
.
(5, 1)
.
(6, 1)
.
(1, 3)
(2, 2)
.
(3, 2)
.
(4, 2)
.
(5, 2)
.
(6, 2)
.
Kapitel IV – Verteilungen und ihre Eigenschaften
(1, 4)
(2, 3)
.
(3, 3)
.
(4, 3)
.
(5, 3)
.
(6, 3)
.
(1, 5)
(2, 4)
.
(3, 4)
.
(4, 4)
.
(5, 4)
.
(6, 4)
.
(1, 6)
(2, 5)
.
(2, 6)
(3, 5)
.
(3, 6)
(4, 5)
.
(4, 6)
(5, 5)
.
(5, 6)
(6, 5)
.
(6, 6)
IV - 42
Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen
Die Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen:
x
2
3
4
5
6
7
8
9
10
11
12
Summe
Kapitel IV – Verteilungen und ihre Eigenschaften
P(x)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
36/36=1
IV - 43
Wahrscheinlichkeitsfunktion für die Summe der Augenzahlen
Wahrscheinlichkeits- und Verteilungsfunktion für die Summe der
Augenzahlen:
Wahrscheinlichkeitsfunktion P(x)
P(x)
0.3
0.2
0.1
0.0
0
2
4
6
8
10
12
14
10
12
14
x (Augensumme)
Verteilungsfunktion F(t)
F(t)
1.0
0.8
0.6
0.4
0.2
0.0
0
2
4
6
8
t (Augensumme)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 44
Kennzahlen einer Zufallsvariablen
Definitionen, Interpretationen und Beispiele für die wichtigsten Kennzahlen
einer Zufallsvariable:
Kennzahl
Englisch
Der Erwartungswert Expectation
Die Varianz
Die Schiefe
Die Kurtosis
Value at Risk“
”
E(X j ) : j-te Moment
Kapitel IV – Verteilungen und ihre Eigenschaften
Bezeichung
Symbol
E(X)
μ
Variance
Var(X)
Skewness
Schiefe(X)
Kurtosis
Kurtosis(X)
Value at Risk VaR
σ2
α3
α4
E(X − μ)j : j-te zentrierte Moment
IV - 45
Erwartungswert einer Zufallsvariablen
Erwartungswert einer Zufallsvariablen:
Diskrete Zufallsvariable
X mit möglichen Werten
x1, x2, ..., xn
Wahrscheinlichkeitsfunktion
P (x)
Erwartungswert
E(X) =
n
P
i=1
Stetige Zufallsvariable
X
Dichtefunktion
f (x)
Erwartungswert
E(X) =
∞
R
xi P (xi)
xf (x)dx
−∞
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 46
Erwartungswert meines Gewinns beim Münzwurf-Spiel
Beispiel: Münzwurfspiel
⎧
⎨Kopf, zahle ich Ihnen 1 C,
Spielregeln: Zeigt die Münze
⎩Zahl, zahlen Sie mir 3 C.
Zufallsvariable
X
Mögliche Werte
-1
Wahrscheinlichkeiten
0.5
Erwartungswert
E(X) = (−1) · 0.5 + (3) · 0.5 = 1 C
Kapitel IV – Verteilungen und ihre Eigenschaften
(Mein Gewinn)
+3
0.5
IV - 47
Interpretationen des Erwartungswertes
Zwei Interpretationen des Erwartungswertes:
1. Der Erwartungswert E(X) ist die x—Koordinate des
Schwerpunktes der Wahrscheinlichkeitsfunktion P (x)
2. Der Erwartungswert E(X) ist der Mittelwert sehr
vieler Realisationen von X .
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 48
Interpretationen des Erwartungswertes
Ausbalancieren von Wahrscheinlichkeitsfunktionen auf den
Erwartungswert:
hält die Balance
bei E(X)=1
kippt nach links
kippt nach rechts
1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.5 kg
0.5 kg
0.6
0.5 kg
0.5 kg
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
-2
-1
0
1
2
3
4
Kapitel IV – Verteilungen und ihre Eigenschaften
-2
-1
0
1
2
3
4
0.5 kg
-2
-1
0
0.5 kg
1
2
3
4
IV - 49
Durchschnittlicher Gewinn beim Münzwurf-Spiel
Typische Folge von Spielergebnissen:
Spiel
Nr.
1
2
3
4
5
6
7
8
9
10
..
998
999
1000
Mein
Gewinn (C)
-1
-1
3
3
-1
-1
3
-1
3
-1
..
3
-1
3
Kapitel IV – Verteilungen und ihre Eigenschaften
Kumulierter Durchschnittlicher
Gewinn (C)
Gewinn (C)
-1
-1.00
-2
-1.00
1
0.33
4
1.00
3
0.60
2
0.33
5
0.71
4
0.50
7
0.78
6
0.60
..
..
978
0.98
977
0.98
980
0.98
IV - 50
Durchschnittlicher Gewinn beim Münzwurf-Spiel
Pfad des Durchschnitts der Variable „mein Gewinn“:
durchschnittlicher Gewinn
2
E(X) = 1 €
1
0
-1
-2
1
5
10
50
100
500
1000
Anzahl der Würfe
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 51
Erwartungswert der Anzahl Richtiger im Lotto
Erwartungswert der Anzahl Richtiger im Lotto:
x
0
1
2
3
4
5
6
Summe
E(X) =
P(x)
0.435 964 975
0.413 019 450
0.132 378 029
0.017 650 404
0.000 968 620
0.000 018 450
0.000 000 072
1.000 000 000
0(0.435964975) + 1(0.413019450) + 2(0.132378029)
+3(0.017650404) + 4(0.000968620) + 5(0.000018450)
+6(0.000000072)
= 0.7346939
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 52
Durchschnittliche Anzahl Richtiger im Lotto
Ergebnisse im simulierten Lottospiel:
Spiel
Ergebnis:
Nr.
Anzahl Richtige“
”
1
2
2
2
3
1
4
1
5
1
6
1
7
0
8
1
9
0
10
0
...
...
998
3
999
3
1000
2
Kapitel IV – Verteilungen und ihre Eigenschaften
Kumulierte
Anzahl Richtige“
”
2
4
5
6
7
8
8
9
9
9
...
702
705
707
Durchschnittliche
Anzahl Richtige“
”
2.00
2.00
1.67
1.50
1.40
1.33
1.14
1.12
1.00
0.90
...
0.70
0.71
0.71
IV - 53
Durchschnittliche Anzahl Richtiger im Lotto
Ausbalancieren der Wahrscheinlichkeitsfunktion und Pfad der
durchschnittlichen Werte für die Anzahl Richtiger bei 1 000 Lottospielen:
P(x)
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
E(X)=0.735
3
x (Anzahl Richtige)
4
5
6
durchschnittliche
Anzahl Richtige
2.0
1.5
1.0
E(X)=0.735
0.5
0.0
1
5
Kapitel IV – Verteilungen und ihre Eigenschaften
10
50
100
Anzahl der Spiele
500
1000
IV - 54
Erwartungswert der Augensumme bei zwei Würfeln
Wahrscheinlichkeitsfunktion der Augensumme:
x
2
3
4
5
6
7
8
9
10
11
12
Summe
P(x)
1/36
2/36
3/36
4/36
5/36
6/36
5/36
4/36
3/36
2/36
1/36
36/36=1
E(X) = (2)(1/36) + (3)(2/36) + (4)(3/36) + (5)(4/36)
+(6)(5/36) + (7)(6/36) + (8)(5/36) + (9)(4/36)
+(10)(3/36) + (11)(2/36) + (12)(1/36)
= 7
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 55
Wahrscheinlichkeiten: Den Zufall quantifizieren
Ergebnisse im simulierten Würfelwurf (Augensumme):
Spiel
Nr.
1
2
3
4
5
6
7
8
9
10
..
998
999
1000
Ergebnis:
Kumulierte
Durchschnittliche
Augensumme Augensumme
Augensumme
3
3
3.00
12
15
7.50
6
21
7.00
11
32
8.00
5
37
7.40
10
47
7.83
8
55
7.86
9
64
8.00
7
71
7.89
7
78
7.80
..
..
..
2
7038
7.05
2
7040
7.05
3
7043
7.04
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 56
Wahrscheinlichkeiten: Den Zufall quantifizieren
Ausbalancieren der Wahrscheinlichkeitsfunktion und Pfad der
durchschnittlichen Werte für die Augensumme zweier Würfel:
P(x)
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
x (Augensumme)
E(X)= 7
9
10
11
12
13
14
durchschnittliche
Augensumme
9
8
E(X)=7
7
6
5
4
3
1
5
10
Anzahl der Würfe
Kapitel IV – Verteilungen und ihre Eigenschaften
50
100
500
1000
IV - 57
Erwartungswert für das Maximum von drei Zufallszahlen
Erwartungswert für das Maximum von drei Zufallszahlen:
f (x) =
E(X) =
⎧
⎨3x2
⎩0
Z ∞
−∞
=
Z 0
=
Z 1
=
·
−∞
0
für 0 ≤ x ≤ 1
sonst
xf (x)dx
x · 0 dx +
Z 1
0
x · 3x2 dx +
Z ∞
1
x · 0 dx
3x3 dx
¸
3
3 4 1
=
x
4
4
0
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 58
Durchschnittliches Maximum
Drei Zufallszahlen:
Maximum:
0.8913076 0.4247647
0.8913076. = 0.891
Spiel
Ergebnis:
Nr.
Das Maximum
1
0.891
2
0.987
3
0.760
4
0.943
5
0.770
6
0.916
7
0.620
8
0.822
9
0.493
10
0.472
..
..
998
0.996
999
0.996
1000
0.980
Kapitel IV – Verteilungen und ihre Eigenschaften
0.3165629
Kumulierte Durchschnitt
Maxima
der Maxima
0.891
0.891
1.878
0.939
2.638
0.879
3.581
0.895
4.351
0.870
5.267
0.878
5.887
0.841
6.709
0.839
7.202
0.800
7.674
0.767
..
..
741.826
0.743
742.822
0.744
743.802
0.744
IV - 59
Durchschnittliches Maximum
Ausbalancieren der Dichte des Maximums und Pfad des Durchschnitts des
Maximums von drei Zufallszahlen:
Dichte
3.0
2.5
2.0
1.5
1.0
0.5
0.0
durchschnittliches
Maximum
0.0
0.2
0.4
0.6
0.8
x (Maximum von 3 Zufallszahlen)
E(X)=0.75
1.0
1.2
1.0
0.9
0.8
E(X)=0.75
0.7
0.6
0.5
0.4
1
5
10
Anzahl der Maxima
Kapitel IV – Verteilungen und ihre Eigenschaften
50
100
500
1000
IV - 60
Die Varianz einer Zufallsvariablen
Notation: Var(X) oder σ 2
Die Varianz
einer diskreten Zufallsvariable:
Var(X) =
n
P
(xi − E(X))2 P (xi)
n
P
(xi − μ)2 P (xi)
i=1
oder
Var(X) =
i=1
einer stetigen Zufallsvariable:
Var(X) =
∞
R
(x − E(X))2 f (x) dx
∞
R
(x − μ)2 f (x) dx
−∞
oder
Var(X) =
−∞
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 61
Die Varianz für meinen Gewinn beim Münzwurf-Spiel
Die Varianz für meinen Gewinn beim Münzwurf-Spiel:
Mögliche Werte:
x1 = −1
Wahrscheinlichkeiten: P (x1) = 0.5
Erwartungswert
x2 = 3
P (x2) = 0.5
μ = (−1) 0.5 + (3) 0.5 = 1
Varianz:
Var(X) = (x1 − μ)2 P (x1) + (x2 − μ)2 P (x2)
= (−1 − 1)2 0.5 + (3 − 1)2 0.5
= 4
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 62
Interpretation der Varianz
Die Varianz ist ein Maß für die Breite der Wahrscheinlichkeitsfunktion.
• Spiel A sei die bisherige Version:
Bei Kopf zahle ich Ihnen 1 C, bei Zahl zahlen Sie mir 3 C.
Sei XA mein Gewinn im Spiel A.
• Spiel B sei die neue Version:
Bei Kopf zahle ich Ihnen 6 C, bei Zahl zahlen Sie mir 8 C.
Sei XB mein Gewinn im Spiel B.
Erwartungswert:
E(XA) = (−1)0.5 + (3)0.5 = 1
E(XB ) = (−6)0.5 + (8)0.5 = 1
Varianz:
Var(XA) = (−1 − 1)2 0.5 + (3 − 1)2 0.5 = 4
Var(XB ) = (−6 − 1)2 0.5 + (8 − 1)2 0.5 = 49
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 63
Interpretation der Varianz
Unterschiedliche Varianz bei gleichem Erwartungswert:
Mein Gewinn: Fall A
1.0
0.8
0.6
0.4
0.2
0.0
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
3
4
5
6
7
8
9
E(X)=1
Mein Gewinn: Fall B
1.0
0.8
0.6
0.4
0.2
0.0
-7
-6
-5
-4
-3
-2
-1
0
1
2
E(X)=1
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 64
Varianz für eine stetige Zufallsvariable
Beispiel: Maximum von drei Zufallszahlen
f (x) =
⎧
⎨3x2
⎩0
0≤x≤1
sonst
Erwartungswert: μ = 0.75
Var(X) =
=
=
Z∞
(x − μ)2 f (x) dx =
−∞
Z1 µ
0
·
Z1 µ
0
¶
3 2
x−
3x2 dx
4
¶
6
9
2
x − x+
3x2 dx =
4
16
¸1
Z1
0
18 3
27 2
3x −
x +
x dx
4
16
4
27
3
18 4
27 3
3 18
3 5
x −
x +
x
+
=
= −
5
4·4
16 · 3
5 16
48
80
0
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 65
Rechenregel für die Varianz
Rechenregel für die Varianz:
Var(X) = E(X 2) − (E(X))2
Beispiel: Maximum von drei Zufallszahlen.
2= 9
E(X) = 3
=⇒
(E(X))
4
16
E(X 2) =
Z1
0
x2 · 3x2dx =
Z1
0
·
¸1
3
3
4
5
3x dx = x
=
5
5
0
9
48 − 45
3
3
=
=
Var(X) = −
5 16
80
80
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 66
Die Standardabweichung einer Zufallsvariable
Die Standardabweichung ist die Quadratwurzel der Varianz:
√
p
Var(X) = σ 2 = σ
Beispiel: Münzwurf-Spiel
• Standardabweichung von XA : σA = 2
• Standardabweichung von XB : σB = 7
Beispiel: Maximum von drei Zufallszahlen
• Standardabweichung von X : σ =
Kapitel IV – Verteilungen und ihre Eigenschaften
p
(3/80) ≈ 0.194
IV - 67
Interpretation der Varianz
Die Varianz beschreibt die Breite einer Wahrscheinlichkeitsfunktion bzw.
einer Dichtefunktion.
Die Breite ist ein Maß für die Unsicherheit, die mit einer Zufallsvariablen
verbunden ist.
Beispiel: Sei X der Gewinn einer Firma im kommenden Jahr (in Mio. €)
und nehmen wir an, dass μ = 30.
Fall A:
Fall B:
σ 2 = 402
σ 2 = 152
Je schmaler die Dichtefunktion ist, desto genauer kann man den Wert
von X vorhersagen.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 68
Interpretation der Varianz
Sei X der Gewinn einer Firma im kommenden Jahr (in Mio. €).
Fall
Fall
Fall
Fall
A:
B:
C:
D:
σ2
σ2
σ2
σ2
=
=
=
=
402
152
42
02
Der Wert von X ist sehr schwer vorherzusagen.
Der Wert von X ist fast bekannt.
Der Wert von X ist bekannt. (Deterministisch)
Die Varianz beschreibt, ,,wie stochastisch" oder ,,wie deterministisch" ein
betrachtetes Phänomen ist:
• Wenn die Varianz groß ist, haben wir eher eine stochastische Situation.
• Wenn die Varianz sehr klein ist, haben wir eher eine deterministische Situation.
• Wenn die Varianz gleich Null ist, haben wir eine vollständig
deterministische Situation.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 69
Interpretation der Varianz
Gleicher Erwartungswert und unterschiedliche Varianz bei
Dichtefunktionen:
0.10
2
2
2
2
A: σ = 40
0.08
B: σ = 15
2
2
C: σ = 4
f(x)
0.06
0.04
0.02
0.00
-100
-50
0
50
100
150
x (Gewinn)
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 70
Anwendungsgebiete für die Varianz bzw. Standardabweichung
Anwendungsgebiete für die Varianz bzw. Standardabweichung:
Risikomanagement:
Beschreibung des Verhaltens von Renditen (Volatilität)
Qualitätsmanagement:
1
Qualität ∝ Varianz
— Eigenschaften von Produkten
— Produktionsprozesse
— Servicequalität
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 71
Die Schiefe einer Zufallsvariablen
E(X−μ)3
α3 =
.
σ3
Die Schiefe einer Zufallsvariablen:
Diskreter Fall:
Stetiger Fall:
n
X
E(X − μ)3 =
(xi − μ)3P (xi)
i=1
E(X − μ)3 =
Z ∞
−∞
(x − μ)3f (x)dx
Ist die Wahrscheinlichkeitsfunktion bzw. Dichtefunktion symmetrisch um
ihren Erwartungswert, so ist α3 = 0.
Ist α3 > 0, so sagt man, die Verteilung sei rechtsschief.
Ist α3 < 0, so sagt man, die Verteilung sei linkssschief.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 72
Die Schiefe einer Zufallsvariablen
Dichtefunktionen mit unterschiedlicher Schiefe:
Schiefe > 0
(rechtsschief)
Schiefe = 0
(symmetrisch)
Schiefe < 0
(linksschief)
0.04
0.04
0.04
0.03
0.03
0.03
0.02
0.02
0.02
0.01
0.01
0.01
0.00
0.00
0.00
0
20
40
60
80
100
Kapitel IV – Verteilungen und ihre Eigenschaften
0
20
40
60
80
100
0
20
40
60
80
100
IV - 73
Die Kurtosis einer Zufallsvariablen
Die Kurtosis einer Zufallsvariablen:
Diskreter Fall:
Stetiger Fall:
E(X−μ)4
α4 =
.
σ4
Pn
4
E(X − μ) = i=1(xi − μ)4P (xi) .
R∞
4
E(X − μ) = −∞(x − μ)4f (x)dx .
Die Kurtosis der Dichtefunktion einer beliebigen normalverteilten
Zufallsvariablen ist 3.
Ist α4 < 3, so ist die Dichtefunktion flacher als die einer Normalverteilung
mit derselben Varianz.
Ist α4 > 3, so ist die Dichtefunktion spitzer als die der Normalverteilung mit
derselben Varianz.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 74
Die Kurtosis einer Zufallsvariablen
Die Kurtosis einer Dichtefunktion:
Kurtosis < 3
(platykurtic)
Kurtosis = 3
(mesokurtic)
Kurtosis > 3
(leptocurtic)
0.06
0.06
0.06
0.05
0.05
0.05
0.04
0.04
0.04
0.03
0.03
0.03
0.02
0.02
0.02
0.01
0.01
0.01
0.00
0.00
0
20
40
60
80
100
Kapitel IV – Verteilungen und ihre Eigenschaften
0.00
0
20
40
60
80
100
0
20
40
60
80
100
IV - 75
Beispiel für die Berechnung der Schiefe und Kurtosis
Beispiel: Maximum von drei Zufallszahlen
f (x) =
⎧
⎨3x2
⎩0
0≤x≤1
sonst
μ = 3/4 und σ 2 = 3/80
¶
Z µ
E(X − μ)3
1 1
3 3
2 dx ≈ −0.861
α3 =
=
x
−
·
3x
σ3
σ3 0
4
¶
Z µ
E(X − μ)4
1 1
3 4
2 dx ≈ 3.095
α4 =
=
x
−
·
3x
σ4
σ4 0
4
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 76
Value at Risk: VaR
Der Wert Ihres Aktienpakets heute:
1 000 C
Der Wert am Folgetag ist eine Zufallsvariable: X
Nominaler Wert am Folgetag:
1 000 C
VaR = Verlust
VaR = Nominaler Wert — realisierter Wert, wenn Sie Pech haben.
Wie viel Pech?
95% VaR:
Der Verlust, der mit einer Wahrscheinlichkeit von 95% nicht eintreten wird.
99% VaR:
Der Verlust, der mit einer Wahrscheinlichkeit von 99% nicht eintreten wird.
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 77
Value at Risk: VaR
Value at Risk für die Tagesrendite der Deutschen Bank Aktie:
0.4
Dichte
0.3
0.2
0.1
Fläche = 0.95
0.0
-4
-2
0
2
4
Deutsche Bank Tagesrendite (%)
95 % VaR = -2.27 %
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 78
Zusammenfassung: Zufallsvariablen und ihre Verteilung
Es gibt zwei Arten von Zufallsvariablen, diskrete und stetige:
Wahrscheinlichkeitsfunktion
P (x)
Dichtefunktion
f (x)
Verteilungsfunktion
F (x) = P (X ≤ x)
Erwartungswert
μ oder E(X)
Varianz
σ 2 oder Var(X )
Schiefe
α3
Kurtosis
α4
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 79
Funktionen zur Beschreibung einer Zufallsvariablen
Funktionen zur Beschreibung von Zufallsvariablen im Überblick:
Dichtefunktion f(x)
Verteilungsfunktion F(x)
1.0
0.002
F(x)
f(x)
0.8
0.001
0.6
0.4
0.2
0.000
0.0
400
600
800
1000
1200
1400
1600
1800
400
600
Wahrscheinlichkeitsfunktion P(x)
800
1000
1200
1400
1600
1800
Verteilungsfunktion F(x)
0.30
1.0
0.25
0.8
F(x)
P(x)
0.20
0.15
0.6
0.4
0.10
0.05
0.2
0.00
0.0
0
1
2
3
4
5
6
7
8
Kapitel IV – Verteilungen und ihre Eigenschaften
9
10 11 12 13 14
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
IV - 80
Wie bekommt man die Dichte- oder Wahrscheinlichkeitsfunktion?
Wie erhält man die Dichte- bzw. Wahrscheinlichkeitsfunktion?
(1) Vermutungen, die man durch Überlegungen erhält bzw.
durch
(2) Erfahrungen, die auf Beobachtungen basieren, oder auch
durch
(3) eine Kombination aus (1) und (2).
Kapitel IV – Verteilungen und ihre Eigenschaften
IV - 81
Kapitel 5
Eins, Zwei oder Drei –
Diskrete Verteilungen
Kapitel V – Diskrete Verteilungen
V-0
Diskrete Verteilungen
Übersicht:
Vier wichtige Modelle für die Wahrscheinlichkeitsfunktion:
– Bernoulli-Verteilung,
– Binomialverteilung,
– Hypergeometrische Verteilung,
– Poissonverteilung.
Zu jedem Modell: Definition, Interpretation, Eigenschaften und Anwendung.
Neue Begriffe:
– Modelle für diskrete Zufallsvariablen,
– Parameter einer Verteilung.
Kapitel V – Diskrete Verteilungen
V-1
Bernoulli-Verteilung
Eine Zufallsvariable X heißt Bernoulli-verteilt, wenn sie zwei mögliche
Werte annehmen kann:
— X=1
— X=0
Erfolg“
”
Misserfolg“
”
Die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung:
P (x) =
⎧
⎪
⎪
⎨π
⎪
⎪
⎩
1−π
0
für x = 1
für x = 0
sonst
π ist der Parameter der Verteilung:
– π ist eine Konstante aus dem Intervall [0,1].
– π ist die Erfolgswahrscheinlichkeit.
X ∼ Be(π) steht für X ist Bernoulli-verteilt mit Parameter π.
Kapitel V – Diskrete Verteilungen
V-2
Bernoulli-Verteilung
Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit π = 0.25:
1.0
0.8
P(x)
0.6
0.4
0.2
0.0
0
1
x
Kapitel V – Diskrete Verteilungen
V-3
Bernoulli-Verteilung
Wahrscheinlichkeitsfunktionen einer Bernoulli-Verteilung mit
verschiedenen π:
π = 0.1
π = 0.5
π = 0.62
0.8
0.8
0.8
0.6
0.6
0.6
P(x)
1.0
P(x)
1.0
P(x)
1.0
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0
x
Kapitel V – Diskrete Verteilungen
1
0.0
0
x
1
0
x
1
V-4
Bernoulli-Verteilung: Beispiele und die Verteilungsfunktion
Beispiele:
Erfolg
Misserfolg
Kauft das Produkt
Patient wird geheilt
Wählt Kandidat A
TV—Werbung gesehen
Kunde zufrieden
Kauft es nicht
Patient wird nicht geheilt
Wählt nicht Kandidat A
TV—Werbung nicht gesehen
Kunde unzufrieden
Die Verteilungsfunktion einer Bernoulli-verteilten Zufallsvariable:
F (t) =
⎧
⎪
⎪
⎨0
1−π
1
⎪
⎪
⎩
Kapitel V – Diskrete Verteilungen
t<0
0≤t<1
t≥1
V-5
Bernoulli-Verteilung
Wahrscheinlichkeits- und Verteilungsfunktion einer Bernoulli-Verteilung:
Wahrscheinlichkeitsfunktion P(x)
1.0
P(x)
0.8
0.6
0.4
0.2
0.0
0
1
x
Verteilungsfunktion F(t)
1.0
F(t)
0.8
0.6
0.4
0.2
0.0
0
1
t
Kapitel V – Diskrete Verteilungen
V-6
Notation: „x Fakultät“
„x Fakultät“ ist wie folgt definiert:
x! = x · (x − 1) · (x − 2) · . . . · 2 · 1
Einige Beispiele:
3! = 3 · 2 · 1 = 6
7! = 7 · 6 · 5 · 4 · 3 · 2 · 1 = 5040
1! = 1
0! = 1
Kapitel V – Diskrete Verteilungen
(per Definition)
V-7
Der Binomialkoeffizient
n und x seien ganze Zahlen mit n > 0 und 0 ≤ x ≤ n.
Notation:
Definition:
³ ´
n
x
³ ´
(,,n über x”)
n
n!
=
x
x!(n−x)!
Beispiele:
³5´
2
³4´
4
³52´
20
=
=
=
5!
5!
5·4·3·2·1
=
=
= 10
2!(5 − 2)!
2!3!
(2 · 1)(3 · 2 · 1)
4!
4!
4·3·2·1
=
=
=1
4!(4 − 4)!
4!0!
(4 · 3 · 2 · 1)1
52!
52!
52 · 51 · . . . · 2 · 1
=
=
= 1.259 946·1014
20!(52 − 20)!
20!32!
20!32!
Kapitel V – Diskrete Verteilungen
V-8
Binomialverteilung mit den Parametern n und π
Die Binomialverteilung hat zwei Parameter:
— Eine positive ganze Zahl, n, Anzahl der Versuche
— Eine Konstante 0 < π < 1, die Erfolgswahrscheinlichkeit
X ∼ b(n, π) steht für X ist binomial-verteilt mit Parameter
n und π.
Die Wahrscheinlichkeitsfunktion von X ist:
⎧³ ´
⎨ n π x(1 − π)n−x
x
P (x) =
⎩0
Kapitel V – Diskrete Verteilungen
für x = 0, 1, 2, . . . , n
sonst
V-9
Beispiel einer binomial-verteilten Zufallsvariable
Beispiel:
Ich würfele einen fairen Würfel viermal. Wie oft erhalte ich eine 6?
Sei X die Anzahl der Augenzahl 6.
Wir werden später sehen, dass X ∼ b(4, 1
6 ).
Die zwei Parameter in diesem Fall sind:
– Anzahl der Versuch (Würfe): n = 4
– Die Erfolgswahrscheinlichkeit: π = 1/6
Die Wahrscheinlichkeitsfunktion:
⎧³ ´³ ´x
⎨ 4 1 (1 − 1 )4−x
x 6
6
P (x) =
⎩0
Kapitel V – Diskrete Verteilungen
für
x = 0, 1, 2, 3, 4
sonst
V - 10
Berechnung der Wahrscheinlichkeiten für das Würfelbeispiel
Berechnung von Wahrscheinlichkeiten im Würfelbeispiel:
P (0)
³ ´³ ´0 ³ ´4−0
³ ´4
4 1
5
5
= 0 6
=
1
(1)
6
6
= 0.482 253
P (1)
³ ´³ ´1 ³ ´4−1
³ ´³ ´3
4 1
5
1
5
=
4
= 1 6
6
6
6
= 0.385 802
P (2)
³ ´³ ´2 ³ ´4−2
³ ´2³ ´2
4 1
5
1
5
= 2 6
=
6
6
6
6
= 0.115 741
P (3)
³ ´³ ´3 ³ ´4−3
³ ´3³ ´1
4 1
5
1
5
=
4
= 3 6
6
6
6
= 0.015 432
P (4)
³ ´³ ´4 ³ ´4−4
³ ´4
4 1
5
1 (1)
= 4 6
=
1
6
6
= 0.000 772
Kapitel V – Diskrete Verteilungen
V - 11
Wahrscheinlichkeitsfunktion für das Würfelbeispiel
Wahrscheinlichkeitsfunktion einer Binomialverteilung mit n = 4 und π = 1/6:
0.5
0.4
P(x)
0.3
0.2
0.1
0.0
0
1
2
3
4
x
Kapitel V – Diskrete Verteilungen
V - 12
Bedingungen für die Verwendung der Binomialverteilung
Drei Bedingungen für die Verwendung der Binomialverteilung:
(1) Ein Zufallsexperiment besteht aus n unabhängigen Versuchen.
(2) Jeder Versuch hat zwei mögliche Ausgänge: Erfolg und Misserfolg.
(3) Die Wahrscheinlichkeit für einen Erfolg ist in jedem Versuch die gleiche.
Frage: Wie viele Erfolge wird es in n Versuchen geben?
D.h. Sei X die Anzahl der Erfolge.
Satz: Wenn (1) – (3) erfüllt sind, ist X ∼ b(n, π) .
Kapitel V – Diskrete Verteilungen
V - 13
Überprüfung der Bedingungen für das Würfelbeispiel
Überprüfung der Bedingungen für das Würfelbeispiel:
Zufallsexperiment
– n = 4 Versuche (vier Würfe).
– Unabhängigkeit? (s. nächste Folie)
Jeder Versuch des Zufallsexperimentes hat zwei mögliche Ausgänge:
– Erfolg ist hier das Ereignis, dass eine 6 gewürfelt wird.
– Misserfolg ist das Ereignis, dass keine 6 gewürfelt wird.
Der Würfel ist fair:
– π = P (Erfolg) = 1/6 .
Kapitel V – Diskrete Verteilungen
V - 14
Überprüfung der Unabhängigkeit für das Würfelbeispiel
Die Frage nach Unabhängigkeit bedeutet hier:
Gibt mir das Ergebnis des ersten Versuchs irgendeine Information über
die Erfolgswahrscheinlichkeit im zweiten Versuch?
Ist
P (Erfolg im 2. Versuch | Erfolg im 1. Versuch)
6= P (Erfolg im 2. Versuch | Misserfolg im 1. Versuch) ?
Im Fall des mehrfachen Würfelns scheint die Annahme vernünftig zu sein,
dass die Versuche unabhängig sind, d.h. dass keiner der Versuche durch
das Ergebnis eines anderen Versuchs beeinflusst wird.
Kapitel V – Diskrete Verteilungen
V - 15
Zusammenfassung: Binomialverteilung
Zusammenfassung: Binomialverteilung
Die Binomialverteilung hat zwei Parameter n und π.
Der Parameter n wird Anzahl der Versuche genannt und
π heißt Erfolgswahrscheinlichkeit.
Die interessierende Zufallsvariable X ist die Anzahl der Erfolge in n
unabhängigen Versuchen.
Die Wahrscheinlichkeitsfunktion von X ist:
⎧³ ´
⎨ n π x(1 − π)n−x
x
P (x) =
⎩0
Kapitel V – Diskrete Verteilungen
für x = 0, 1, 2, . . . , n
sonst
V - 16
Bedeutung der Begriffe „Erfolg“ und „Misserfolg“
Das Ergebnis eines Versuches wird genau in zwei mögliche Kategorien
eingeordnet.
Es ist völlig beliebig, welche der beiden Kategorien wir Erfolg und welche
wir Misserfolg nennen, da
— Sei X die Anzahl der Erfolge und sei X ∼ b(n, π).
— Sei Y die Anzahl der Misserfolge: Y = n − X.
— Dann ist Y ∼ b(n, 1 − π).
Der Begriff Erfolg wird dem Versuchsergebnis zugewiesen, das von
Interesse ist.
Das muss kein wünschenswertes oder gutes Ergebnis sein und auch kein
Erfolg in der herkömmlichen Bedeutung des Wortes.
Kapitel V – Diskrete Verteilungen
V - 17
Beispiele für die Verwendung der Begriffe Erfolg und Misserfolg
Beispiele für „Erfolg“ und „Misserfolg“:
Erfolg
Misserfolg
Kauft das Produkt
Kauft es nicht
Patient wird geheilt
Patient wird nicht geheilt
Wählt Kandidat A
Wählt nicht Kandidat A
TV—Werbung gesehen
TV—Werbung nicht gesehen
Kunde zufrieden
Kunde unzufrieden
Kapitel V – Diskrete Verteilungen
V - 18
Anzahl funktionierender Prozessoren bei 5 Käufen
Annahme:
– 80 % aller Prozessoren sind einwandfrei
– 20 % sind defekt
Ich kaufe fünf Prozessoren und frage mich
„Wie viele werden funktionieren?“
Somit haben wir fünf Versuche mit zwei möglichen Ausgängen:
– Der Prozessor funktioniert (Erfolg) mit Wahrscheinlichkeit
π = 0.8.
– Der Prozessor ist defekt (Misserfolg) mit Wahrscheinlichkeit
1 – π = 0.2.
Es gilt hier: X ∼ b(5, 0.8) .
Kapitel V – Diskrete Verteilungen
V - 19
Wahrscheinlichkeitsfunktion für die Anzahl
Berechnung von Wahrscheinlichkeiten für die Anzahl funktionierender
Prozessoren:
P (0) =
P (1) =
P (2) =
P (3) =
P (4) =
P (5) =
Kapitel V – Diskrete Verteilungen
³5´
0.80 0.25 = 0.000 32
0
³5´
0.81 0.24
1
³5´
0.82 0.23
2
³5´
0.83 0.22
3
³5´
0.84 0.21
4
³5´
0.85 0.20
5
= 0.006 40
= 0.051 20
= 0.204 80
= 0.409 60
= 0.327 68
V - 20
Wahrscheinlichkeitsfunktion für die Anzahl
Binomialverteilung mit n = 5 und π = 0.8 für die Anzahl funktionierender
Prozessoren:
0.5
0.4
P(x)
0.3
0.2
0.1
0.0
0
1
2
3
4
5
x
Kapitel V – Diskrete Verteilungen
V - 21
Berechnung von Wahrscheinlichkeiten
Wie groß ist die Wahrscheinlichkeit, dass mindestens 3 der 5 Prozessoren
funktionieren?
P (X ≥ 3) = P (3) + P (4) + P (5)
= 0.204 80 + 0.409 60 + 0.327 68
= 0.942 08
Wie groß ist die Wahrscheinlichkeit, dass mindestens einer der
Prozessoren funktioniert?
P (X ≥ 1) = P (1) + P (2) + P (3) + P (4) + P (5)
= 0.006 40 + 0.051 20 + 0.204 80 + 0.409 60 + 0.327 68
= 0.999 68
Kapitel V – Diskrete Verteilungen
V - 22
Wahrscheinlichkeit, dass mindestens einer der Prozessoren funktioniert
Die Wahrscheinlichkeit, dass mindestens einer der Prozessoren
funktioniert ist:
P (X ≥ 1) = P (1) + P (2) + P (3) + P (4) + P (5)
= 0.006 40 + 0.051 20 + 0.204 80 + 0.409 60 + 0.327 68
= 0.999 68
Die Berechnung ist einfacher wenn man bedenkt, dass
P (0) + P (1) + P (2) + P (3) + P (4) + P (5) = 1
gilt und somit auch
P (1) + P (2) + P (3) + P (4) + P (5) = 1 − P (0) .
Für die Berechnung der Wahrscheinlichkeit ergibt sich:
P (X ≥ 1) = 1 − P (0) = 1 − 0.000 32 = 0.999 68 .
Kapitel V – Diskrete Verteilungen
V - 23
R-Befehle für die Binomialverteilung
dbinom(x, size, prob):
Berechnet die Wahrscheinlichkeit P (x) einer Binomialverteilung mit den
Parametern n = size und π = prob.
pbinom(q, size, prob):
Berechnet den Wert der Verteilungsfunktion einer Binomialverteilung mit
den Parametern n = size und π = prob an der Stelle q.
rbinom(n, size, prob):
Erzeugt n Zufallszahlen einer Binomialverteilung mit den Parametern
n = size und π = prob.
Beispiele:
dbinom(1, 3, 0.5) liefert den Wert 0.375,
pbinom(1, 3, 0.5) liefert den Wert 0.5,
rbinom(3, 3, 0.5) liefert drei Werte, wie z.B. 3
Kapitel V – Diskrete Verteilungen
0
1.
V - 24
Beispiel, in dem die Versuche nicht unabhängig sind
Beispiel:
Wir wählen 2 von 10 Prozessoren aus, von denen 7 funktionieren und 3
defekt sind.
Wir wissen nicht, welches die defekten und welches die funktionierenden
Prozessoren sind.
Wir ziehen eine einfache Zufallsstichprobe der Größe 2.
Frage: Wie viele der ausgewählten Prozessoren funktionieren?
→ Die Binomialverteilung ist hier nicht anwendbar!
Kapitel V – Diskrete Verteilungen
V - 25
Beispiel: Prozessoren
Grundgesamtheit: N = 10 Prozessoren.
Erfolg: „Funktioniert“
Ne = 7
Misserfolg: „Funktioniert nicht“
Nm = 3
Zufällige Stichprobe
ohne Zurücklegen:
n=2
Mögliche Werte von X:
0, 1, 2
Kapitel V – Diskrete Verteilungen
V - 26
Warum ist die Biomialverteilung nicht anwendbar?
Wir haben n = 2 Versuche mit zwei möglichen Ausgängen:
– Prozessor funktioniert (Erfolg)
– Prozessor funktioniert nicht (Misserfolg)
Die Erfolgswahrscheinlichkeit ist in beiden Versuchen nicht gleich groß!
Erfolgswahrscheinlichkeiten in den 2 Versuchen:
1. Versuch: Ω = {7 ok und 3 defekt} =⇒ π = 7/10
2. Versuch:
Erfolg beim 1. Versuch: Ω = {6 ok und 3 defekt}
=⇒ π = 6/9
Misserfolg beim 1. Versuch: Ω = {7 ok und 2 defekt}
=⇒ π = 7/9
Kapitel V – Diskrete Verteilungen
V - 27
Warum ist die Biomialverteilung nicht anwendbar?
Die Wahrscheinlichkeit eines Erfolges im zweiten Versuch hängt vom
Ausgang des ersten Versuchs ab:
– Bei Erfolg im ersten Versuch:
– Bei Misserfolg im ersten Versuch:
0.667
0.778
6= P (Erfolg im 2. Versuch | Erfolg im 1. Versuch)
6= P (Erfolg im 2. Versuch | Misserfolg im 1. Versuch)
Daraus folgt:
– Die Versuche sind nicht unabhängig.
– Die Erfolgswahrscheinlichkeit ist nicht konstant.
– Die Binomialverteilung gilt nicht, weil wir ohne Zurücklegen aus der
Grundgesamtheit gezogen haben.
Kapitel V – Diskrete Verteilungen
V - 28
Ziehen mit und ohne Zurücklegen
Es gibt Ne Erfolge und Nm Misserfolge in der Grundgesamtheit.
Wir ziehen eine zufällige Stichprobe der Größe n.
X bezeichnet die Anzahl der Erfolge in der Stichprobe.
Wird die Stichprobe
mit Zurücklegen gezogen, so gilt
Ne
X ∼ b(n, π) mit π =
.
Ne + Nm
ohne Zurücklegen gezogen, so ist X nicht binomialverteilt,
X ist dann hypergeometrisch verteilt: X ∼ h(Ne, Nm, n).
Kapitel V – Diskrete Verteilungen
V - 29
Die hypergeometrische Verteilung
Die hypergeometrische Verteilung besitzt 3 Parameter:
Ne die Anzahl der Erfolge in der Grundgesamtheit,
Nm die Anzahl der Misserfolge in der Grundgesamtheit,
n
die Anzahl der Versuche.
Die Anzahl der Individuen in der Grundgesamtheit ist N = Ne + Nm .
Sei X die Anzahl der Erfolge, wenn man eine zufällige Stichprobe der
Größe n ohne Zurücklegen zieht:
X ist hypergeometrisch verteilt: X ∼ h(Ne, Nm, n) .
Kapitel V – Diskrete Verteilungen
V - 30
Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung
Die Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung:
P (x) =
⎧
Ne
Nm
⎪
(
)(
⎪
⎨ x n−x)
⎪
⎪
⎩0
(Nn )
max(0, n − Nm) ≤ x ≤ min(n, Ne),
sonst
Die möglichen Werte von X sind alle ganzen Zahlen
zwischen max(0, n − Nm) und min(n, Ne)
???
Kapitel V – Diskrete Verteilungen
.
???
V - 31
Mögliche Werte einer hypergeometrischen Verteilung
Betrachtung der möglichen Werte einer hypergeometrischen Verteilung:
X sei die Anzahl der Erfolge in einer Stichprobe von n Elementen aus
einer Grundgesamtheit mit Ne Erfolgen und Nm Misserfolgen:
1.
X ≤ Ne
2.
X≤n
3.
0≤X
4.
n − Nm ≤ X
(weil n − X ≤ Nm)
Daraus folgt:
max(0, n − Nm) ≤ X ≤ min(n, Ne)
Kapitel V – Diskrete Verteilungen
V - 32
Fall n = 2
Grundgesamtheit: N = 10 Prozessoren.
Erfolg: „Funktioniert“
Ne = 7
Zufällige Stichprobe
ohne Zurücklegen
Misserfolg: „Funktioniert nicht“
Nm = 3
n=2
Kleinstmöglicher Wert von X:
Größtmöglicher Wert von X:
max(0, n – Nm) = max(0, 2 - 3)
min(n, Ne)
= min(2, 7)
Mögliche Werte von X:
0, 1, 2
Kapitel V – Diskrete Verteilungen
=0
=2
V - 33
Fall n = 4
Grundgesamtheit: N = 10 Prozessoren.
Erfolg: „Funktioniert“
Ne = 7
Zufällige Stichprobe
ohne Zurücklegen
Misserfolg: „Funktioniert nicht“
Nm = 3
n=4
Kleinstmöglicher Wert von X:
Größtmöglicher Wert von X:
max(0, n – Nm) = max(0, 4 - 3)
min(n, Ne)
= min(4, 7)
Mögliche Werte von X:
1, 2, 3, 4
Kapitel V – Diskrete Verteilungen
=1
=4
V - 34
Fall n = 8
Grundgesamtheit: N = 10 Prozessoren.
Erfolg: „Funktioniert“
Ne = 7
Zufällige Stichprobe
ohne Zurücklegen
Misserfolg: „Funktioniert nicht“
Nm = 3
n=8
Kleinstmöglicher Wert von X:
Größtmöglicher Wert von X:
max(0, n – Nm) = max(0, 8 - 3)
min(n, Ne)
= min(8, 7)
Mögliche Werte von X:
5, 6, 7
Kapitel V – Diskrete Verteilungen
=5
=7
V - 35
Fall n = 10
Grundgesamtheit: N = 10 Prozessoren.
Erfolg: „Funktioniert“
Ne = 7
Zufällige Stichprobe
ohne Zurücklegen
Misserfolg: „Funktioniert nicht“
Nm = 3
n = 10
Kleinstmöglicher Wert von X:
Größtmöglicher Wert von X:
max(0, n – Nm) = max(0, 10 - 3) = 7
min(n, Ne)
= min(10, 7)
=7
Mögliche Werte von X:
7
Kapitel V – Diskrete Verteilungen
V - 36
Beispiele für die Hypergeometrische Verteilung
Wahrscheinlichkeitsfunktionen für verschiedene hypergeometrischverteilte Zufallsvariablen:
Fall 2: h(Ne=7; Nm =3; n=4)
1.0
1.0
0.8
0.8
0.6
0.6
P(x)
P(x)
Fall 1: h(Ne=7; Nm =3; n=2)
0.4
0.4
0.2
0.2
0.0
0.0
0
1
2
3
4
5
x (Anzahl der Erfolge)
6
7
0
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.2
0.0
0.0
1
Kapitel V – Diskrete Verteilungen
2
3
4
5
x (Anzahl der Erfolge)
6
6
7
0.4
0.2
0
2
3
4
5
x (Anzahl der Erfolge)
Fall 4: h(Ne=7; Nm =3; n=10)
P(x)
P(x)
Fall 3: h(Ne=7; Nm =3; n=8)
1
7
0
1
2
3
4
5
x (Anzahl der Erfolge)
6
7
V - 37
Samstags-Lotto: 6 aus 49
Grundgesamtheit: N = 49 Zahlen
Erfolge: Ne = 6
Zufällige Stichprobe
ohne Zurücklegen
Misserfolge: Nm = 43
n=6
Wie viele meiner Zahlen werden richtig sein?
Die Antwort ist eine Zufallsvariable X mit den möglichen Werten 0, 1, ..., 6.
X ist hypergeometrisch verteilt: X ∼ h(6, 43, 6) .
Kapitel V – Diskrete Verteilungen
V - 38
Berechnung von P(2) beim Lotto
Wahrscheinlichkeitsfunktion von X:
⎧³ ´³
´ ³ ´
43
49
⎨ 6
/
x 6−x
6
P (x) =
⎩0
für x = 0, 1, 2, 3, 4, 5, 6
sonst
P (zwei „Richtige“):
P (2) =
³6´³ 43 ´ ³49´
2
Kapitel V – Diskrete Verteilungen
6−2
/
6
= 0.132378029 ≈ 13%
V - 39
R-Befehle für die hypergeometrische Verteilung
dhyper(x, m, n, k):
Berechnet die Wahrscheinlichkeit P (x) einer hypergeometrischen
Verteilung mit den Parametern Ne = m, Nm = n und n = k.
phyper(q, m, n, k):
Berechnet den Wert der Verteilungsfunktion einer hypergeometrischen
Verteilung mit den Parametern Ne = m, Nm = n und n = k an der Stelle q.
rhyper(n, m, n, k):
Erzeugt n Zufallszahlen einer hypergeometrischen Verteilung mit den
Parametern Ne = m, Nm = n und n = k.
Beispiele:
dhyper(2, 4, 6, 3) liefert den Wert 0.3,
phyper(2, 4, 6, 3) liefert den Wert 0.9666667,
rhyper(3, 4, 6, 3) liefert drei Werte, wie z.B. 2
Kapitel V – Diskrete Verteilungen
0
1.
V - 40
Die Binomialverteilung als Approximation für die hypergeometrische Verteilung
Grundgesamtheit mit Ne Erfolgen und Nm Misserfolgen.
Zufällige Stichprobe der Größe n.
X sei die Anzahl der Erfolge in der Stichprobe.
Ziehen ohne Zurücklegen: X ist exakt hypergeometrisch verteilt:
X ∼ h(Ne, Nm, n)
Sind Ne und Nm groß im Vergleich zu n, ist X annähernd binomialverteilt:
X ∼ b(n, π)
Kapitel V – Diskrete Verteilungen
mit
Ne
Ne
=
.
π=
(Ne + Nm)
N
V - 41
Wann ist die Approximation gut?
Als Faustregel für eine „gute“ Approximation gilt:
n ≤ 5% · min(Ne, Nm) .
Zwei Beispiele für n = 10:
1.
Ne = 200, Nm = 300
Dann ist 5% · min(Ne, Nm) = 10
2.
Approximation
gut“
”
Ne = 20, Nm = 30
Dann ist 5% · min(Ne, Nm) = 1
Kapitel V – Diskrete Verteilungen
Approximation ungenau
V - 42
Experiment A
Experiment A:
Gegeben sind 10 Prozessoren: 7 sind in Ordnung und 3 sind defekt.
Experiment: n = 2 Prozessoren werden zufällig ausgewählt.
X = Anzahl der ausgewählten, funktionierenden Prozessoren.
Wahrscheinlichkeiten in den Versuchen:
Ergebnis des 1. Versuchs
Erfolg
Misserfolg
Inhalt der Box vor dem 2. Versuch
6 o.k. und 3 defekt
7 o.k. und 2 defekt
P(Erfolg im 1. Versuch)
= 7/10 = 0.7
P(Erfolg im 2. Versuch| Erfolg im 1. Versuch)
= 6/9
= 0.6̄
P(Erfolg im 2. Versuch| Misserfolg im 1. Versuch) = 7/9
= 0.7̄
Kapitel V – Diskrete Verteilungen
V - 43
Experiment B
Experiment B:
Gegeben sind 10000 Prozessoren: 7000 sind in Ordnung und 3000 sind
defekt.
Experiment: n = 2 Prozessoren werden zufällig ausgewählt.
X = Anzahl der ausgewählten, funktionierenden Prozessoren.
Wahrscheinlichkeiten in den Versuchen:
Ergebnis des 1. Versuchs
Erfolg
Misserfolg
Inhalt der Box vor dem 2. Versuch
6 999 o.k. und 3 000 defekt
7 000 o.k. und 2 999 defekt
P(Erfolg im 1. Versuch)
= 7 000/10 000 = 0.7
P(Erfolg im 2. Versuch| Erfolg im 1. Versuch)
= 6 999/9 999 ≈ 0.7
P(Erfolg im 2. Versuch| Misserfolg im 1. Versuch) = 7 000/9 999 ≈ 0.7
Kapitel V – Diskrete Verteilungen
V - 44
Wahrscheinlichkeiten für die Experimente A und B
Wahrscheinlichkeiten für die beiden Experimente:
P (0)
P (1)
P (2)
Experiment A
Experiment B
0.066 667
0.089 979
0.466 667
0.466 667
0.420 042
0.489 979
Binomialverteilung
³ ´
2
0
2
0 (0.7) (0.3) = 0.09
³ ´
2
1(0.3)1 = 0.42
(0.7)
1
³ ´
2
2(0.3)0 = 0.49
(0.7)
2
Die Binomialverteilung galt nicht, weil wir ohne Zurücklegen aus der
Grundgesamtheit gezogen haben.
Ohne Zurücklegen bedeutet, dass wir das ausgewählte Stück nicht
wieder in die Box zurückgelegt haben, so dass wir es beim zweiten
Versuch nicht noch einmal auswählen können.
Kapitel V – Diskrete Verteilungen
V - 45
Wahrscheinlichkeiten für die Experimente A und B
Vergleich der exakten Wahrscheinlichkeiten mit den Wahrscheinlichkeiten
der Binomialverteilung:
0.5
0.4
Experiment A
Experiment B
Binomial
P(x)
0.3
0.2
0.1
0.0
0
1
2
x (Anzahl der Erfolge)
Kapitel V – Diskrete Verteilungen
V - 46
Approximation der Hypergeometrischen Verteilung
Approximation der Hypergeometrischen Verteilung durch die
Binomialverteilung bei gültiger (oben) und bei ungültiger Faustregel
(unten):
P(x)
0.3
h(Ne=200; Nm=300; n=10)
b(n=10; π=0.4)
0.2
0.1
0.0
0
1
2
3
4
5
6
x (Anzahl der Erfolge)
7
8
9
10
P(x)
0.3
h(Ne=20; Nm=30; n=10)
b(n=10; π=0.4)
0.2
0.1
0.0
0
Kapitel V – Diskrete Verteilungen
1
2
3
4
5
6
x (Anzahl der Erfolge)
7
8
9
10
V - 47
Erwartungswert und Varianz für diskrete Zufallsvariablen
Bestimmung von Erwartungswert und Varianz einer diskreten
Zufallsvariable:
Diskrete Zufallsvariable X mit den möglichen Werten x1, x2, x3, ...,xn.
Erwartungswert: μ = E(X) =
n
P
i=1
xi P (xi)
= x1 P (x1) + x2 P (x2) + · · · + xn P (xn)
Varianz:
σ 2 = Var(X)
=
n
P
i=1
(xi − μ)2 P (xi)
= (x1 − μ)2 P (x1) + · · · + (xn − μ)2 P (xn)
Kapitel V – Diskrete Verteilungen
V - 48
Erwartungswert und Varianz für die Bernoulli-Verteilung
Erwartungswert und Varianz für die Bernoulli-Verteilung:
⎧
⎪
⎪
⎨π
x=1
x=0
sonst
Wahrscheinlichkeitsfunktion: P (x) = ⎪1 − π
⎪
⎩
0
+ 1 P(1)
Erwartungswert: μ = 0 P(0)
= 0 (1 − π) + 1 π
= π
Varianz:
σ2
Erwartungswert:
Varianz:
Kapitel V – Diskrete Verteilungen
= (0 − μ)2 P (0)
= (0 − π)2 (1 − π)
= π(1 − π)
E(X) = μ2
Var(X) = σ 2
+
+
(1 − μ)2 P (1)
(1 − π)2 π
= π
= π(1 − π)
V - 49
Erwartungswert und Varianz für die Binomialverteilung
Erwartungswert und Varianz für die Binomialverteilung:
Wahrscheinlichkeitsfunktion:
⎧³ ´
⎨ n π x(1 − π)n−x für x = 0, 1, 2, . . . , n
x
P (x) =
⎩0
sonst
Erwartungswert: μ = 0 P(0) + 1 P(1) + 2 P(2) + . . . + n P(n)
=
n
P
x=0
Varianz:
σ2
=
n
P
³ ´
x(1 − π)n−x = nπ
x n
π
x
(x − μ)2 P (x)
x=0
n
P
³ ´
2
x(1 − π)n−x = nπ(1 − π)
=
(x − nπ) n
π
x
x=0
Erwartungswert:
E(X) = μ2
Varianz:
Var(X) = σ 2
Kapitel V – Diskrete Verteilungen
= nπ
= nπ(1 − π)
V - 50
Beispiele für die Binomialverteilung
Einige Beispiele für die Wahrscheinlichkeitsfunktionen binomialverteilter
Zufallsvariablen:
b(10;0.1)
-> E(X)=1 Var(X)=0.9
b(10;0.5)
-> E(X)=5 Var(X)=2.5
b(10;0.9)
-> E(X)=9 Var(X)=0.9
0.4
0.4
0.4
0.3
0.3
0.3
P(x)
0.5
P(x)
0.5
P(x)
0.5
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0
2
4
6
x
Kapitel V – Diskrete Verteilungen
8
10
0.0
0
2
4
6
x
8
10
0
2
4
6
8
10
x
V - 51
Beispiele für die Binomialverteilung
Weitere Beispiele für die Wahrscheinlichkeitsfunktionen binomialverteilter
Zufallsvariablen:
b(10;0.5) -> E(X)=5 Var(X)=2.5
P(x)
0.3
0.2
0.1
0.0
0
10
20
30
40
50
60
70
50
60
70
50
60
70
b(50;0.5) -> E(X)=25 Var(X)=12.5
P(x)
0.3
0.2
0.1
0.0
0
10
20
30
40
b(100;0.5) -> E(X)=50 Var(X)=25
P(x)
0.3
0.2
0.1
0.0
0
10
Kapitel V – Diskrete Verteilungen
20
30
40
V - 52
Die Poissonverteilung
Die Poissonverteilung besitzt einen Parameter: λ > 0 .
λ wird die „erwartete Rate“ von X genannt.
Wahrscheinlichkeitsfunktion:
⎧
⎨ λx e−λ
P (x) = x!
⎩0
für x = 0, 1, 2, . . .
sonst
Dabei ist e ≈ 2.71828 die Eulersche Zahl.
Notation: X ∼ P o(λ)
Kapitel V – Diskrete Verteilungen
V - 53
Beispiel: Anzahl schwerer Erdbeben (Beispiel 1.7)
Erdbeben-Beispiel:
X sei die Anzahl der weltweiten Erdbeben der Stärke 7.0 oder größer im
nächsten Monat:
⎧
⎨ 1.2x e−1.2
für x = 0, 1, 2, . . .
x!
X ∼ P o(1.2)
P (x) =
⎩0
sonst
P (0) =
1.20 e−1.2
0!
P (1) =
1.21 e−1.2
1!
P (2) =
P (3) =
P (4) =
..
Kapitel V – Diskrete Verteilungen
1.22
2!
1.23
3!
≈ 0.3012
≈ 0.3614
e−1.2
≈ 0.2169
e−1.2
≈ 0.0867
1.24 e−1.2
4!
≈ 0.0260
V - 54
Beispiel: Anzahl schwerer Erdbeben (Beispiel 1.7)
Wahrscheinlichkeitsfunktion für die monatliche Anzahl starker Erdbeben:
0.4
P(x)
0.3
0.2
0.1
0.0
0
Kapitel V – Diskrete Verteilungen
1
2
3
4
x
5
6
7
8
V - 55
Beantwortung zweier Fragen über die Anzahl der Erdbeben
Zwei Fragen über die Anzahl der Erdbeben:
Wie groß ist die Wahrscheinlichkeit, dass sich im nächsten Monat
höchstens ein starkes Erdbeben ereignen wird?
P (X ≤ 1) = P (0) + P (1) = 0.3012 + 0.3614 = 0.6626
Wie groß ist die Wahrscheinlichkeit, dass sich im nächsten Monat zwei
oder mehr starke Erdbeben ereignen werden?
P (2) + P (3) + P (4) + . . . = P (X ≥ 2)
P (0) + P (1) + P (2) + P (3) + P (4) + . . . = 1
P (X ≥ 2) = 1 − (P (0) + P (1)) = 1 − (0.3012 + 0.3614) = 0.3374
Kapitel V – Diskrete Verteilungen
V - 56
R-Befehle für die Poissonverteilung
dpois(x, lambda):
Berechnet die Wahrscheinlichkeit P (x) einer Poissonverteilung mit
Parameter λ = lambda.
ppois(q, lambda):
Berechnet den Wert der Verteilungsfunktion einer Poissonverteilung mit
Parameter λ = lambda an der Stelle q.
rpois(n, lambda):
Erzeugt n Zufallszahlen einer Poissonverteilung mit Parameter
λ = lambda.
Beispiele:
dpois(1, 3) liefert den Wert 0.1493612,
ppois(1, 3) liefert den Wert 0.1991483,
rpois(3, 3) liefert drei Werte, wie z.B. 5
Kapitel V – Diskrete Verteilungen
4
2 .
V - 57
Erwartungswert und Varianz einer Poissonverteilung
Erwartungswert und Varianz einer Poissonverteilung:
Wahrscheinlichkeitsfunktion:
Erwartungswert:
Varianz:
σ2
μ
=
⎧
⎨ λx e−λ
P (x) = x!
⎩0
für x = 0, 1, 2, . . .
sonst
= 0 P(0) + 1 P(1) + 2 P(2) + . . .
∞
x
P
λ
=
x x! e−λ = λ
x=0
∞
P
(x − μ)2 P (x)
x=0
∞
P
x
λ
2
(x − λ) x! e−λ = λ
=
x=0
Erwartungswert:
E(X) = μ2
Varianz:
Var(X) = σ 2
Kapitel V – Diskrete Verteilungen
= λ
= λ
V - 58
Beispiele, Poissonverteilung
Einige Beispiele für Wahrscheinlichkeitsfunktionen poissonverteilter
Zufallsvariablen:
Po(2) -> E(X) = Var(X) = 2
P(x)
0.3
0.2
0.1
0.0
0
5
10
15
20
25
30
35
25
30
35
25
30
35
Po(10) -> E(X) = Var(X) = 10
P(x)
0.3
0.2
0.1
0.0
0
5
10
15
20
Po(20) -> E(X) = Var(X) = 20
P(x)
0.3
0.2
0.1
0.0
0
Kapitel V – Diskrete Verteilungen
5
10
15
20
V - 59
Approximation der Binomialverteilung durch die Poissonverteilung
Approximation der Binomialverteilung durch die Poissonverteilung:
Sei X binomialverteilt:
Wenn n groß und π klein ist, dann ist X annähernd poissonverteilt:
X ∼ P o(λ) mit λ = nπ.
Faustregel:
Die Poissonapproximation der Binomialverteilung liefert eine hinreichend
genaue Approximation für
n ≥ 30
Kapitel V – Diskrete Verteilungen
und
π ≤ 0.1 .
V - 60
Exakte und approximierte Wahrscheinlichkeiten (n = 10, π = 0.2)
Exakte und approximierte Wahrscheinlichkeiten für n = 10 und π = 0.2:
x
P(x)
0
1
2
3
4
5
6
7
..
P(0)
P(1)
P(2)
P(3)
P(4)
P(5)
P(6)
P(7)
..
Kapitel V – Diskrete Verteilungen
Binomial
Poisson
(exakte Verteilung) (angenäherte Verteilung)
b(10, 0.2)
Po(2)
0.11
0.14
0.27
0.27
0.30
0.27
0.20
0.18
0.09
0.09
0.03
0.04
0.01
0.01
0.00
0.00
..
..
V - 61
Approximation der Binomialverteilung durch die Poissonverteilung
Beispiel einer Approximation der Binomial- durch die Poissonverteilung:
0.35
b(n=10; π =0.2)
0.30
Po(λ=2)
P(x)
0.25
0.20
0.15
0.10
0.05
0.00
0
Kapitel V – Diskrete Verteilungen
2
4
x (Anzahl der Erfolge)
6
8
V - 62
Exakte und approximierte Wahrscheinlichkeiten (n = 20, π = 0.05)
Exakte und approximierte Wahrscheinlichkeiten für n = 20 und π = 0.05:
x
P(x)
0
1
2
3
4
5
..
P(0)
P(1)
P(2)
P(3)
P(4)
P(5)
..
Kapitel V – Diskrete Verteilungen
Binomial
Poisson
(exakte Verteilung) (angenäherte Verteilung)
b(20, 0.05)
Po(1)
0.36
0.37
0.38
0.37
0.19
0.18
0.06
0.06
0.01
0.02
0.00
0.00
..
..
V - 63
Approximation der Binomialverteilung durch die Poissonverteilung
Beispiel für Approximationen der Binomial- durch die Poissonverteilung:
b(n=20; π=0.05)
Po(λ=1)
P(x)
0.4
0.2
0.0
0
1
2
3
4
5
x (Anzahl der Erfolge)
6
8
b(n=200; π=0.005)
Po(λ=1)
0.4
P(x)
7
0.2
0.0
0
Kapitel V – Diskrete Verteilungen
1
2
3
4
5
x (Anzahl der Erfolge)
6
7
8
V - 64
Exkurs: Binomialkoeffizienten
(a + b)2
=
b2
+
2ab
+
a2
=
1 a0 b2
+
2 a1 b1
+
1 a2 b0
=
³ ´
2
0 b2
a
0
+
³ ´
2
1 b1
a
1
+
³ ´
2
2 b0
a
2
Allgemein gilt:
³1´
³1´
1
0
1
(a + b) =
a b +
a1 b0
0
³2´
(a + b)2=
0
³3´
(a + b)3=
1
a0 b2 +
a0 b3 +
³2´
1
³3´
³2´
1
1
a b +
a2 b0
2
a1 b2 +
³3´
³3´
2
1
a b +
a3 b0
0
1
2
3
³4´
³4´
³4´
³4´
³4´
4
0
4
1
3
2
2
3
1
(a + b) =
a b +
a b +
a b +
a b +
a4 b0
0
1
2
3
4
³5´
³5´
³5´
³5´
³5´
³5´
5
0
5
1
4
2
3
3
2
4
1
(a + b) =
a b +
a b +
a b +
a b +
a b +
a5 b0
0
1
2
3
4
5
..
Kapitel V – Diskrete Verteilungen
V - 65
Binomialkoeffizienten - Pascalsches Dreieck
µ ¶
µ ¶
µ ¶
µ ¶
n
n
n
n
n
0
n
1
n−1
2
n−2
(a+b) =
a b +
a b
+
a b
+ . . .+
an b0
0
1
2
n
µ ¶
n x n−x
a b
x
x-ter Term:
x = 0, 1, 2, . . . , n
x
n
0
0
1
2
3
4
5
6
..
1
1
1
1
1
1
1
6
Kapitel V – Diskrete Verteilungen
1
2
3
4
5
2
1
3
6
10
15
1
1
4
10
20
3
4
1
5
15
5
1
6
6
1
·
V - 66
Kapitel 6
Gaußglocke und andere Kurven –
Stetige Verteilungen
Kapitel VI – Stetige Verteilungen
VI - 0
Modelle für stetige Zufallsvariablen
Übersicht:
Rechteckverteilung:
X ∼ U (a, b)
(Uniform distribution)
Exponentialverteilung:
X ∼ Exp(λ)
(Exponential distribution)
Normalverteilung:
X ∼ N (μ, σ 2)
(Normal distribution)
Chiquadratverteilung:
X ∼ χ2(ν)
(Chi-squared distribution)
F-Verteilung:
X ∼ F (ν1, ν2)
(Fisher‘s F distribution)
t-Verteilung:
X ∼ t(ν)
(Student-t distribution)
Lognormalverteilung:
X ∼ LN (μ, σ 2)
(Lognormal distribution)
Kapitel VI – Stetige Verteilungen
VI - 1
Die Rechteckverteilung mit den Parametern a und b (a < b)
X sei rechteckverteilt mit Parametern a und b: X ∼ U (a, b)
Dichtefunktion:
⎧
⎪
⎨
1
f (x) = b − a
⎪
⎩0
a≤x≤b
sonst
Verteilungsfunktion:
F (t) =
⎧
⎪
⎪
0
⎪
⎪
⎨t − a
⎪
b−a
⎪
⎪
⎪
⎩1
Kapitel VI – Stetige Verteilungen
t<a
a≤t≤b
b<t<∞
VI - 2
Die Dichtefunktion der Rechteckverteilung
Allgemeine Darstellung der Dichtefunktion einer Recheckverteilung:
f(x)
1/(b-a)
Fläche = 1
a
b
x
Kapitel VI – Stetige Verteilungen
VI - 3
Die Dichtefunktion der Rechteckverteilung
Beispiele für die Dichtefunktion einer Rechteckverteilung:
a = -0.5; b = 2.5
a = 0.2; b = 1.8
1.2
1.2
1.0
1.0
1.0
0.8
0.8
0.8
0.6
f(x)
1.2
f(x)
f(x)
a = 0; b = 1
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
-2
-1
0
1
x
Kapitel VI – Stetige Verteilungen
2
3
0.0
-2
-1
0
1
x
2
3
-2
-1
0
1
2
3
x
VI - 4
Dichte- und Verteilungsfunktion der Rechteckverteilung
Dichte- und Verteilungsfunktion einer U(-1, 2)- verteilten Zufallsvariable:
Dichtefunktion f(x)
1.0
f(x)
0.8
0.6
0.4
0.2
Fläche = 0.67
0.0
-2
-1
0
1
2
3
2
3
x
Verteilungsfunktion F(t)
F(t)
1.0
0.8
0.67
0.6
0.4
0.2
0.0
-2
-1
0
1
t
Kapitel VI – Stetige Verteilungen
VI - 5
Erwartungswert und Varianz der Rechteckverteilung
E(X) =
Z ∞
−∞
Z a
x f (x) dx
Z b
Z
∞
1
=
x · 0 dx +
x
x · 0 dx
dx +
b−a
−∞
a
b
Z b
1
=
x dx
b−a a
1
=
b−a
"
#b
2
x
2 a
!
2
2
b −a
1
(b − a)(b + a)
=
=
b−a
2
2(b − a)
E(X) =
Ã
a+b
2
Z b
1
Var(X) =
(x − E(X))
dx
b−a
a
Kapitel VI – Stetige Verteilungen
2
(b − a)2
=
12
VI - 6
R-Befehle für die Rechteckverteilung
dunif(x, min, max):
Berechnet den Funktionswert der Dichtefunktion f (x) einer
Rechteckverteilung mit den Parametern a = min und b = max.
punif(q, min, max):
Berechnet den Wert der Verteilungsfunktion einer Rechteckverteilung mit
den Parametern a = min und b = max an der Stelle q.
runif(n, min, max):
Erzeugt n Zufallszahlen einer Rechteckverteilung mit den Parametern
a = min und b = max.
Beispiele:
dunif(1, 0, 2) liefert den Wert 0.5,
punif(1.5, 0, 2) liefert den Wert 0.75,
runif(3, 0, 1) oder runif(3) liefert drei Werte, wie
z.B. 0.054209 0.709255 0.432684.
Kapitel VI – Stetige Verteilungen
VI - 7
Die Exponentialverteilung mit Parameter λ (λ > 0)
X sei exponentialverteilt mit Parameter λ: X ∼ Exp(λ) .
Dichtefunktion:
f (x) =
⎧
⎨λe−λx
⎩0
für
sonst
x≥0
Verteilungsfunktion:
F (t) =
⎧
⎨0
⎩1 − e−λt
Kapitel VI – Stetige Verteilungen
t<0
t≥0
VI - 8
Die Exponentialverteilung
Einige Beispiele für die Dichtefunktion der Exponentialverteilung:
λ=2
λ=4
4
4
3
3
3
2
f(x)
4
f(x)
f(x)
λ = 0.5
2
2
1
1
1
0
0
0
0
1
2
3
x
Kapitel VI – Stetige Verteilungen
4
5
0
1
2
3
x
4
5
0
1
2
3
4
5
x
VI - 9
Call-Center Beispiel: Dauer eines Anrufs
Die Anrufdauer X sei exponentialverteilt mit λ = 0.006:
X ∼ Exp(0.006) .
Dichtefunktion:
Verteilungsfunktion:
f (x) =
⎧
⎨0.006e−0.006x
F (t) =
⎧
⎨0
⎩0
⎩1 − e−0.006 t
x≥0
sonst
t<0
t≥0
Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden
dauert:
P (100 < X < 200) = F (200) − F (100)
=
³
´
³
´
−0.006·(200)
−0.006·(100)
1−e
− 1−e
= 0.699 − 0.451
= 0.248
Kapitel VI – Stetige Verteilungen
VI - 10
Call-Center Beispiel: Dauer eines Anrufs
Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden
dauert (Dichtefunktion):
0.006
0.005
0.004
Fläche = 0.248
0.003
0.002
0.001
0.000
0
200
400
600
800
1000
Anrufdauer (Sekunden)
Kapitel VI – Stetige Verteilungen
VI - 11
Call-Center Beispiel: Dauer eines Anrufs
Wahrscheinlichkeit, dass ein Anruf zwischen 100 und 200 Sekunden
dauert (Verteilungsfunktion):
Dichtefunktion f(x)
0.006
0.005
0.004
Fläche = 0.248
0.003
0.002
0.001
0.000
0
200
400
600
800
1000
800
1000
Anrufdauer (Sekunden)
Verteilungsfunktion F(t)
1.0
0.8
0.699
0.6
0.451
0.4
0.2
0.0
0
200
400
600
Anrufdauer (Sekunden)
Kapitel VI – Stetige Verteilungen
VI - 12
Erwartungswert und Varianz der Exponentialverteilung
Erwartungswert: E(X) =
Varianz:
Z ∞
0
=
Z ∞
Var(X) =
Z ∞
=
0
0
Z∞
0
x f (x) dx
x λe−λx dx =
1
λ
(x − E(X))2 f (x) dx
1 2 −λx
1
(x − ) λe
dx = 2
λ
λ
Im Call-Center Beispiel erhalten wir:
1
= 0.006
≈ 167
Sekunden
1
2
≈
27778
Sekunden
Var(X) = σ 2 = 0.006
2
E(X) = μ
Standardabweichung(X) = σ
Kapitel VI – Stetige Verteilungen
1
= 0.006
≈ 167
Sekunden
VI - 13
Wann ist eine Zufallsvariable X exponentialverteilt?
Zur Erinnerung: Bedingungen für eine Binomialverteilung:
(1) Das Zufallsexperiment besteht aus n unabhängigen Versuchen.
(2) Jeder Versuch hat zwei mögliche Ausgänge: Erfolg oder Misserfolg.
(3) Die Erfolgswahrscheinlichkeit ist in jedem Versuch die gleiche.
Für die Exponentialverteilung sind die Bedingungen weniger einfach, denn
– Sie lassen sich nicht leicht in die Alltagssprache übersetzen.
– Selbst wenn man ihre Bedeutung verstanden hat, ist es schwierig zu
entscheiden, ob die Bedingungen erfüllt sind oder nicht.
Kapitel VI – Stetige Verteilungen
VI - 14
Poissonapproximation der Binomialverteilung
X sei binomialverteilt:
X ∼ b(n, π).
Wenn n groß und π klein ist, dann ist X annähernd poissonverteilt:
X ∼ P o(λ) mit λ = nπ.
Beispiel:
Ist X ∼ b(50, 0.02) dann ist X annähernd
poissonverteilt: X ∼ P o(1).
b(50, 0.02) Po(1)
0
1
2
3
4
5
Kapitel VI – Stetige Verteilungen
P(0)
P(1)
P(2)
P(3)
P(4)
P(5)
0.364
0.372
0.186
0.061
0.015
0.003
0.368
0.368
0.184
0.061
0.015
0.003
VI - 15
Der Poisson-Prozess
Ein Poisson-Prozess beschreibt das Eintreten von Ereignissen im
Zeitablauf, die nicht gleichzeitig eintreten können:
(1) Betrachtet man sehr kleine Zeitintervalle, gibt es entweder einen
Erfolg oder einen Misserfolg.
(2) Die Ereignisse sind unabhängig.
(3) Die Erfolgswahrscheinlichkeit π ist konstant.
Dann gilt:
(a) Die Anzahl X der Erfolge in n Zeitintervallen ist eine binomialverteilte Zufallsvariable: X ∼ b(n, π)
(b) Wenn π klein ist und n groß ist, haben wir X ∼ P o(λ) mit
λ = nπ
(c) Der Abstand zwischen zwei Ankünften (bzw. Ereignissen) ist
eine stetige Zufallsvariable Y , die exponentialverteilt ist:
Y ∼ Exp(λ)
Kapitel VI – Stetige Verteilungen
VI - 16
Beispiel: Ankünfte von Autos an einer Tankstelle
Sei X das Intervall zwischen zwei Ankünften.
Die Bedingungen (1) – (3) seien erfüllt und λ = 1/10 (Autos pro Minute).
Die Wahrscheinlichkeit, dass der Abstand zwischen zwei Ankünften
kleiner als 20 Minuten ist:
P (X < 20) = F (20) = 1 − e
= 0.86
Kapitel VI – Stetige Verteilungen
−λ·20
=1−e
1 20
− 10
= 1 − e−2
VI - 17
R-Befehle für die Exponentialverteilung
dexp(x, rate):
Berechnet den Funktionswert der Dichtefunktion f (x) einer
Exponentialverteilung mit Parameter λ = rate.
pexp(q, rate):
Berechnet den Wert der Verteilungsfunktion einer Exponentialverteilung
mit Parameter λ = rate an der Stelle q.
rexp(n, rate):
Erzeugt n Zufallszahlen einer Exponentialverteilung mit Parameter
λ = rate.
Beispiel: Sei X ~ Exp(λ = 0.006)
Gesucht:
P (100 < X < 200) = F (200) – F (100)
R-Befehl:
pexp(200, 0.006) – pexp(100, 0.006)
Ergebnis:
0.2476174
Kapitel VI – Stetige Verteilungen
VI - 18
Die Normalverteilung bzw. Gaußverteilung
X sei normalverteilt mit Parametern μ und σ2: X ∼ N (μ, σ 2) .
Dichtefunktion:
Erwartungswert:
Varianz:
f (x) = √ 1
2πσ
E(X) =
Var(X) =
∞
R
−∞
∞
R
−∞
Schiefe:
α3 = 0 (vgl. Kap. 4)
Kurtosis:
α4 = 3 (vgl. Kap. 4)
Kapitel VI – Stetige Verteilungen
(x−μ)2
−
e 2σ2
x √1
2πσ
für x ∈ IR
(x−μ)2
−
e 2σ2 dx
(x − μ)2 √ 1
2πσ
e
=μ
− (x−μ)
2
2σ
2
dx = σ 2
VI - 19
Die Normalverteilung
Einige Beispiele für die Dichtefunktionen normalverteilter Zufallsvariablen:
1.4
2
μ = -6; σ = 2
2
μ = 0; σ = 1
1.2
2
μ = 7; σ = 0.09
1.0
f(x)
0.8
0.6
0.4
0.2
0.0
-10
-8
-6
-4
-2
0
2
4
6
8
10
x
Kapitel VI – Stetige Verteilungen
VI - 20
Sigma-Regeln für die Normalverteilung
Sigma- Regeln für die Normalverteilung:
Etwa 68 % der Fläche liegen zwischen μ – σ und μ + σ.
Etwa 95 % der Fläche liegen zwischen μ – 2σ und μ + 2σ.
Etwa 99.7 % der Fläche liegen zwischen μ – 3σ und μ + 3σ.
Etwa 99.9997 % der Fläche liegen zwischen μ – 6σ und μ + 6σ.
Der letzte Fall liegt in Beziehung zu den „six-sigma“ Methoden.
Kapitel VI – Stetige Verteilungen
VI - 21
Sigma-Regeln für die Normalverteilung
Darstellung der 68 %- und der 95 %-Regel:
68%-Regel
0.12
0.10
f(x)
0.08
0.06
68%
0.04
0.02
0.00
-5
0
5
μ-σ
10
(11 - 4)
15
μ
μ+σ
(11)
(11 + 4)
20
25
30
20
25
30
95%-Regel
0.12
f(x)
0.10
0.08
0.06
95%
0.04
0.02
0.00
-5
0
μ-2σ
(11 - 2*4)
Kapitel VI – Stetige Verteilungen
5
10
μ
(11)
15
μ+2σ
(11 + 2*4)
VI - 22
Die Standardnormalverteilung
Die Standardnormalverteilung ist die Normalverteilung mit
Parametern μ = 0 und σ2 = 1:
X ∼ N (0, 1) .
Dichtefunktion:
f (x) = √1
2π
2
x
e− 2
für x ∈ IR .
Die Verteilungsfunktion der Standardnormalverteilung wird mit Φ (statt F)
bezeichnet:
Rt
√1
Φ(t) = P (X ≤ t) =
2π
−∞
2
e
− x2
dx .
Die Werte der Verteilungsfunktion Φ(t) werden
– aus einer Tabelle abgelesen, oder
– mit Software berechnet.
Kapitel VI – Stetige Verteilungen
VI - 23
Die Standardnormalverteilung
Dichte- und Verteilungsfunktion der Standardnormalverteilung:
Dichtefunktion f (x)
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-4
-3
-2
-1
0
x
1
2
3
4
2
3
4
Verteilungsfunktion Φ (t)
1.0
Φ (t)
0.8
0.6
0.4
0.2
0.0
-4
-3
Kapitel VI – Stetige Verteilungen
-2
-1
0
t
1
VI - 24
Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung
X sei standardnormalverteilt: X ∼ N (0, 1) .
Gesucht: P (0.5 < X < 1.5) = P (X < 1.5) − P (X < 0.5)
=
Φ(1.5)
−
Φ(0.5)
=
0.933
−
0.691
=
0.242
Gesucht: P (X > 1.7) = 1
Kapitel VI – Stetige Verteilungen
−
P (X ≤ 1.7)
=
1
−
Φ(1.7)
=
1
−
0.955
=
0.045
(Tabelle)
(Tabelle)
VI - 25
Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung
Bestimmung von P (0.5 < X < 1.5) mit Hilfe der Verteilungsfunktion der
Standardnormalverteilung:
Dichtefunktion f (x)
0.5
f(x)
0.4
0.3
Fläche = 0.242
0.2
0.1
0.0
-4
-3
-2
-1
0
1
2
3
4
2
3
4
x
Φ (t)
Verteilungsfunktion Φ (t)
1.0
0.933
0.8
0.691
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
t
Kapitel VI – Stetige Verteilungen
VI - 26
Berechnung von Wahrscheinlichkeiten für die Standardnormalverteilung
Bestimmung von P (X > 1.7) mit Hilfe der Verteilungsfunktion der
Standardnormalverteilung:
Dichtefunktion f (x)
0.5
f(x)
0.4
0.3
Fläche = 1 - 0.955 = 0.045
0.2
Fläche = 0.955
0.1
0.0
-4
-3
-2
-1
0
1
2
3
4
2
3
4
x
Verteilungsfunktion Φ (t)
Φ (t)
1.0
0.955
0.8
0.6
0.4
0.2
0.0
-4
-3
-2
-1
0
1
t
Kapitel VI – Stetige Verteilungen
VI - 27
Berechnung von Wahrscheinlichkeiten für eine beliebige Normalverteilung
Ein Modell für die Blockzeiten der American Airlines Flüge von Dallas nach
Philadelphia sei: X ∼ N(183, 142).
Frage: Wie groß ist die Wahrscheinlichkeit, dass die Blockzeit eines
beliebigen Fluges zwischen 180 und 190 Minuten beträgt?
Antwort: P(180 < X < 190) = F(190) – F(180) = ??
Problem: Für die N (185, 142) - Verteilung gibt es
– keine Formel für die Verteilungsfunktion F
– und keine Tabelle.
Wir müssen trotzdem keine Rechtecke zählen!
Kapitel VI – Stetige Verteilungen
VI - 28
Berechnung von Wahrscheinlichkeiten für eine beliebige Normalverteilung
Dichtefunktion der Blockzeiten und gesuchte Wahrscheinlichkeit:
0.04
f(x)
0.03
0.02
≈ 0.27
0.01
0.00
140
150
Kapitel VI – Stetige Verteilungen
160
170
180
190
200
210
220
230
VI - 29
Die standardisierte Zufallsvariable
F : Verteilungsfunktion der N (μ, σ2) – Verteilung,
Φ: Verteilungsfunktion der N (0, 1) – Verteilung.
Satz: Ist X ∼ N (μ, σ 2), so ist Z =
X−μ
∼ N (0, 1) .
σ
X −μ
Die standardisierte Zufallsvariable Z =
besitzt eine
σ
Standardnormalverteilung.
µ
¶
t−μ
Satz: F (t) = Φ
.
σ
F (t) kann mit Hilfe der Tabelle für Φ bestimmt werden.
Kapitel VI – Stetige Verteilungen
VI - 30
Wahrscheinlichkeit einer Blockzeit zwischen 180 und 190 Minuten
Ein Modell für die Blockzeiten der American Airlines Flüge von Dallas
nach Philadelphia sei: X ∼ N(183, 142).
Frage: Wie groß ist die Wahrscheinlichkeit, dass die Blockzeit eines
beliebigen Fluges zwischen 180 und 190 Minuten beträgt?
Antwort: P (180 < X < 190) = F (190) – F (180)
Aus F (t) = Φ
µ
t−μ
σ
µ
¶
folgt:
190 − 183
F (190) = Φ
14
µ
180 − 183
F (180) = Φ
14
¶
= Φ(0.5)
¶
= Φ(−0.21) = 0.417
= 0.691
P (180 < X < 190) = 0.691 – 0.417 = 0.274.
Kapitel VI – Stetige Verteilungen
VI - 31
R-Befehle für die Normalverteilung
dnorm(x, mean, sd):
Berechnet den Funktionswert der Dichtefunktion f (x) einer
Normalverteilung mit den Parametern μ = mean und σ = sd.
pnorm(q, mean, sd):
Berechnet den Wert der Verteilungsfunktion einer Normalverteilung mit
den Parametern μ = mean und σ = sd an der Stelle q.
rnorm(n, mean, sd):
Erzeugt n Zufallszahlen einer Normalverteilung mit den Parametern
μ = mean und σ = sd.
Beispiel: Sei X ~ N (183, 142).
Gesucht:
P (180 < X < 190) = F (190) – F (180)
R-Befehl:
pnorm(190, 183, 14) – pnorm(180, 183, 14)
Ergebnis:
0.2763003
Kapitel VI – Stetige Verteilungen
VI - 32
Approximation der Binomialverteilung durch die Normalverteilung
X sei binomialverteilt: X ∼ b(n, π).
Wenn n groß und π klein ist, dann ist X annähernd Poisson-verteilt:
X ∼ Po (λ) mit λ = n·π.
Unter bestimmten Umständen lässt sich die Binomialverteilung auch durch
die Normalverteilung approximieren:
Wenn n groß und π nicht zu nahe bei 0 oder 1 liegt, dann ist X
approximativ Normal-verteilt:
X ∼ N (μ, σ2) mit μ = n·π und σ2 = n·π·(1 – π).
Kapitel VI – Stetige Verteilungen
VI - 33
Beispiel: Binomialverteilung mit Parametern n = 30 und π = 0.4
Beispiel:
X sei binomialverteilt mit n = 30 und π = 0.4: X ∼ b (30, 0.4).
X ist dann approximativ Normalverteilt N (μ, σ2) mit:
μ
σ2
σ
=
=
=
nπ
nπ(1 − π)
√
7.2
=
=
30 · 0.4
= 12.0
30 · 0.4 · 0.6 =
7.2
= 2.68
d.h. X ∼ N (12.0, 7.2).
Kapitel VI – Stetige Verteilungen
VI - 34
Beispiel: Approximation einer Binomialverteilung
Approximation einer Binomialverteilung durch eine Normalverteilung für
n = 30, π = 0.4 (oben) und für n = 200 und π = 0.56 (unten):
1.0
F(t)
0.8
0.6
0.4
b(n = 30; π = 0.4)
0.2
N(μ = 12; σ = 7.2
2
0.0
0
5
10
15
t
20
25
30
1.0
b(n = 200; π = 0.56)
F(t)
0.8
2
N(μ = 112; σ = 49.28
0.6
0.4
0.2
0.0
0
Kapitel VI – Stetige Verteilungen
50
100
t
150
200
VI - 35
Beispiel aus der Meinungsforschung
Beispiel: In der US-Präsidentenwahl 2001 im Bundesstaat New Jersey
errangen Gore 56 % und Bush 40 % der Stimmen.
Angenommen, in einer Meinungsumfrage sollen 200 Wähler befragt
werden, d.h. sei X die Anzahl der Befragten, die Al Gore wählen wollen:
X ∼ b(200, 0.56) .
Gesucht ist die Wahrscheinlichkeit, dass unter den 200 befragten
Personen weniger als 100 Al Gore wählen wollen:
P (X < 100) = P (X ≤ 99) .
Die exakte Wahrscheinlichkeit ist gegeben durch:
P (X ≤ 99) =
Kapitel VI – Stetige Verteilungen
99
X
x=0
P (x) =
99 ³
X
200´
x=0
x
(0.56)x(0.44)200−x = 0.038
VI - 36
Beispiel aus der Meinungsforschung
Die exakte Verteilung
X ∼ b(200, 0.56)
mit
n = 200 und π = 0.56
lässt sich durch eine Normalverteilung annähern:
X ∼ N (μ, σ 2)
mit
= nπ
μ
X ∼ N (μ, σ 2) mit
σ2
= 112,
= nπ(1 − π) = 49.28
d.h. als Approximation erhalten wir X ∼ N (112, 49.28) .
Somit ergibt sich als approximierte Wahrscheinlichkeit:
µ
99 − μ
P (X ≤ 99) = Φ
σ
¶
= Φ(−1.852)
Ã
99 − 112
=Φ √
49.28
!
= 0.032
(vgl. Exakte Wahrscheinlichkeit: 0.038)
Kapitel VI – Stetige Verteilungen
VI - 37
Annäherung der Binomialverteilung durch Normalverteilung
Sei X ∼ b(n, π).
Wenn n groß und π nicht zu nah bei 0 oder 1 liegt, dann gilt:
µ
t−μ
P (X ≤ t) ≈ Φ
σ
¶
mit
μ = n π und σ 2 = n π(1 − π) .
Die genauesten Ergebnisse erhält man für π = 0.5, da die
Binomialverteilung dann symmetrisch ist.
Die Approximation ist auch für andere Werte von π in Ordnung, wenn n
hinreichend groß ist.
Je weiter π von 0.5 entfernt ist, desto größer muss n sein.
Kapitel VI – Stetige Verteilungen
VI - 38
Beispiel für eine schlechte Approximation n = 4 und π = 0.6
Beispiel für eine schlechte Approximation:
Die exakte Verteilung sei X ∼ b(4, 0.6) , d.h. wir haben folgende (exakte)
Wahrscheinlichkeiten:
Wahrscheinlichkeitsfunktion b(4, 0.6)
0
P(0)
1
P(1)
2
P(2)
3
P(3)
4
P(4)
³ ´
4
00.44
0.6
³0´
4
10.43
0.6
³1´
4
20.42
0.6
³2´
4
30.41
0.6
³3´
4
40.40
0.6
4
0.0256
0.1536
0.3456
0.3456
0.1296
Die Parameter der approximierenden Normalverteilung ergeben sich durch
μ
= nπ
= 2.4
σ 2 = nπ(1 − π) = 0.96
d.h. X ∼ N (2.4, 0.96) .
Kapitel VI – Stetige Verteilungen
VI - 39
Beispiel für eine schlechte Approximation n = 4 und π = 0.6
Vergleich der exakten mit der approximierten Wahrscheinlichkeit:
- Exakte Wahrscheinlichkeit:
P (X ≤ 2) = P (0) + P (1) + P (2) = 0.5248 .
- Approximierte Wahrscheinlichkeit durch N (μ = 2.4, σ2 = 0.96):
µ
¶
2 − 2.4
P (X ≤ 2) = Φ
= Φ(−0.41) = 0.341 .
0.980
Verbesserung:
Verteilungsfunktion um eine halbe Einheit nach links verschieben!
Kapitel VI – Stetige Verteilungen
VI - 40
Approximation mit Stetigkeitskorrektur
Die ursprüngliche Approximation ist gegeben durch:
µ
x−μ
P (X ≤ x) ≈ Φ
σ
¶
.
Die Approximation mit Stetigkeitskorrektur ist gegeben durch:
µ
x + 0.5 − μ
P (X ≤ x) ≈ Φ
σ
¶
.
In beiden Fällen verwendet man
μ = nπ
Kapitel VI – Stetige Verteilungen
und
σ 2 = nπ(1 − π) .
VI - 41
Approximation mit Stetigkeitskorrektur
Verbesserung der Approximation durch eine Stetigkeitskorrektur:
1.0
0.8
F(t)
0.6
0.4
0.2
b(4; 0.6)
N(2.4; 0.96) ohne Korrektur
N(2.4; 0.96) mit Korrektur
0.0
0
1
2
3
4
5
t
Kapitel VI – Stetige Verteilungen
VI - 42
Beispiel für eine schlechte Approximation n = 4 und π = 0.6
Beispiel: Schlechte Approximation von X ∼ b(4, 0.6) .
Die exakte Wahrscheinlichkeit beträgt:
P (X ≤ 2) = P (0) + P (1) + P (2) = 0.5248 .
Ohne Stetigkeitskorrektur erhalten wir durch die Approximation:
µ
¶
2 − 2.4
P (X ≤ 2) = Φ
= Φ(−0.41) = 0.341 .
0.980
Mit Stetigkeitskorrektur hingegen erhalten wir mit der Approximation
folgenden Wert:
µ
¶
2 + 0.5 − 2.4
P (X ≤ 2) ≈ Φ
= Φ(0.10) = 0.540 .
0.980
Kapitel VI – Stetige Verteilungen
VI - 43
Normalapproximation für einzelne Ausprägungen der Binomialverteilung
Betrachtet wird jetzt die Approximation von Wahrscheinlichkeiten für
einzelne Ausprägungen der Binomialverteilung, z.B.:
P (X = 2) = 0.3456 .
Die Approximation durch die Normalverteilung:
P (X = 2) = P (X ≤ 2) − P (X ≤ 1) = F (2) − F (1) .
Ohne Stetigkeitskorrektur erhalten wir:
³
´
2−μ
F (2) ≈ Φ σ
³
´
1−μ
F (1) ≈ Φ σ
P (X = 2)
=
Φ(−0.41)
=
Φ(−1.43)
= 0.076
0.341 − 0.076 = 0.265
≈
=
0.341
Mit Stetigkeitskorrektur ergibt sich:
³
´
2.5−μ
F (2) ≈ Φ
³ σ ´
F (1) ≈ Φ 1.5−μ
σ
P (X = 2)
Kapitel VI – Stetige Verteilungen
=
Φ(−0.10)
=
Φ(−0.92)
= 0.179
0.540 − 0.179 = 0.361
≈
= 0.540
VI - 44
Normalapproximation für einzelne Ausprägungen der Binomialverteilung
Approximation von P (X = 2) ohne (oben) und mit Stetigkeitskorrektur
(unten):
ohne Korrektur
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-2
-1
0
1
2
x
3
4
5
6
3
4
5
6
mit Korrektur
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
-2
Kapitel VI – Stetige Verteilungen
-1
0
1
2
x
VI - 45
Approximation der Binomialverteilung durch die Normalverteilung
Approximation von Wahrscheinlichkeiten für einzelne Ausprägungen von
P (x) mit und ohne Stetigkeitskorrektur:
— Binomialverteilung:
b(4, 0.6)
— Normalapproximation: N (2.4, 0.96)
Tabellarische Zusammenfassung der exakten und approximierten
Wahrscheinlichkeiten:
Approximation durch Normalverteilung
x
P (x)
exakt
ohne Korrektur
mit Korrektur
0
1
2
3
4
P(0)
P(1)
P(2)
P(3)
P(4)
0.026
0.154
0.346
0.346
0.130
0.007
0.069
0.265
0.388
0.219
0.025
0.153
0.361
0.329
0.115
Kapitel VI – Stetige Verteilungen
VI - 46
Approximation der Binomialverteilung durch die Normalverteilung
Approximation von P (x) ohne (links) und mit (rechts) Stetigkeitskorrektur:
b(4; 0.6)-Verteilung
0.5
0.5
0.4
0.4
0.3
0.3
P(x)
P(x)
b(4; 0.6)-Verteilung
0.2
0.2
0.1
0.1
0.0
0.0
-2
-1
0
1
2
x
3
4
5
6
-2
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
-2
-1
0
Kapitel VI – Stetige Verteilungen
1
2
x
3
4
5
0
1
2
x
3
4
5
6
Approximation mit Korrektur
f(x)
f(x)
Approximation ohne Korrektur
-1
6
-2
-1
0
1
2
x
3
4
5
6
VI - 47
Die Chiquadratverteilung
X sei χ2-verteilt mit Parameter ν : X ∼ χ2(ν) .
Der Parameter ν ist eine natürliche Zahl (Freiheitsgrad FG bzw. degree of
freedom df). Die Dichtefunktion ist gegeben durch:
⎧
⎪
⎨ xν/2−1 e−x/2
f (x) = 2ν/2 Γ(ν/2)
⎪
⎩0
x≥0
sonst
(Dabei steht Γ für die Gammafunktion.)
Einige Resultate für die χ2-Verteilung:
E(X) = ν
Var(X) = 2ν
- Wenn ν groß ist, dann ist X annähernd N(ν, 2ν)-verteilt.
Kapitel VI – Stetige Verteilungen
VI - 48
Die Chiquadratverteilung
Einige Beispiele für Dichtefunktionen der χ2-Verteilung:
ν=2
ν=4
ν = 10
0.4
0.4
0.4
0.3
0.3
0.3
f(x)
0.5
f(x)
0.5
f(x)
0.5
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0
5
10
x
Kapitel VI – Stetige Verteilungen
15
20
0.0
0
5
10
x
15
20
0
5
10
15
20
x
VI - 49
R-Befehle für die Chiquadratverteilung
dchisq(x, df):
Berechnet den Funktionswert der Dichtefunktion f (x) einer χ2-Verteilung
mit Parameter ν = df.
pchisq(q, df):
Berechnet den Wert der Verteilungsfunktion einer χ2-Verteilung mit
Parameter ν = df an der Stelle q.
qchisq(p, df):
Berechnet den Wert der Umkehrfunktion der Verteilungsfunktion einer χ2Verteilung mit Parameter ν = df an der Stelle p.
rchisq(n, min, max):
Erzeugt n Zufallszahlen einer χ2-Verteilung mit Parameter ν = df.
Beispiele:
dchisq(1, 2) liefert den Wert 0.3032653,
pchisq(1, 2) liefert den Wert 0.3934693,
rchisq(3, 2) liefert drei Werte, wie
z.B. 6.091237 1.054890 1.603789.
Kapitel VI – Stetige Verteilungen
VI - 50
Die F-Verteilung (Fisher-Verteilung)
X sei F-verteilt mit Parametern ν1 und ν2 : X ∼ F (ν1, ν2) .
Die Parameter ν1 und ν2 sind natürliche Zahlen (Freiheitsgrade FG bzw.
degrees of freedom df). Die Dichtefunktion ist gegeben durch:
⎧ ³
´
ν
+ν
1
2
⎪
³
´
³ ´
⎪
⎨ Γ¡ ¢ 2 ¡ ¢ ν1 ν1/2−1 ν1/2−1
ν1x −(ν1 +ν2)/2
x
1+ ν
f (x) = Γ ν21 Γ ν22 ν2
2
⎪
⎪
⎩0
x>0
sonst
R-Befehle zur F-Verteilung:
df(x, df1, df2): Berechnet den Funktionswert der Dichtefunktion f (x) einer
F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2.
pf(q, df1, df2): Berechnet den Wert der Verteilungsfunktion einer F-Verteilung mit
den Parametern ν1 = df1 und ν2 = df2 an der Stelle q.
qf(p, df1, df2): Berechnet den Wert der Umkehrfunktion der Verteilungsfunktion
einer F-Verteilung mit den Parametern ν1 = df1 und ν2 = df2 an der Stelle q.
rf(n, df1, df2): Erzeugt n Zufallszahlen einer F-Verteilung mit den Parametern
ν1 = df1 und ν2 = df2.
Kapitel VI – Stetige Verteilungen
VI - 51
Die F-Verteilung
Einige Beispiele für die Dichtefunktionen F-verteilter Zufallsvariablen:
ν 1 = 2; ν 2 = 1
ν 1 = 4; ν 2 = 5
ν 1 = 9; ν 2 = 1
0.8
0.8
0.8
0.6
0.6
0.6
f(x)
1.0
f(x)
1.0
f(x)
1.0
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
-1
0
1
2
3
x
Kapitel VI – Stetige Verteilungen
4
5
6
0.0
-1 0
1
2
3
x
4
5
6
-1
0
1
2
3
4
5
6
x
VI - 52
Die Student t-Verteilung
X sei t-verteilt mit Parameter ν : X ∼ t(ν) .
Der Parameter ν ist eine natürliche Zahl (Freiheitsgrad FG bzw. degree of
freedom df). Die Dichtefunktion ist gegeben durch:
³
´
2/ν)−(ν+1)/2
Γ ν+1
(1
+
x
2
f (x) =
√
νπΓ(ν/2)
x ∈ IR
R-Befehle zur t-Verteilung:
dt(x, df): Berechnet den Funktionswert der Dichtefunktion f (x) einer
t-Verteilung mit Parameter ν = df1.
pt(q, df): Berechnet den Wert der Verteilungsfunktion einer
t-Verteilung mit Parameter ν = df an der Stelle q.
qt(p, df): Berechnet den Wert der Umkehrfunktion der
Verteilungsfunktion einer t-Verteilung mit Parameter ν = df an der Stelle p.
rt(n, min, max): Erzeugt n Zufallszahlen einer t-Verteilung mit
Parameter ν = df1.
Kapitel VI – Stetige Verteilungen
VI - 53
Die Student t-Verteilung
Einige Beispiele für Dichtefunktionen t-verteilter Zufallsvariablen:
ν=1
ν=2
0.5
ν = 10
0.5
0.5
t(1)
N(0;1)
t(2)
N(0;1)
t(10)
N(0;1)
0.3
0.3
0.3
f(x)
0.4
f(x)
0.4
f(x)
0.4
0.2
0.2
0.2
0.1
0.1
0.1
0.0
0.0
-6
-4
-2
0
x
Kapitel VI – Stetige Verteilungen
2
4
6
0.0
-6
-4
-2
0
x
2
4
6
-6
-4
-2
0
2
4
6
x
VI - 54
Die Lognormalverteilung
X sei Lognormal-verteilt mit den Parametern μ und σ2 : X ∼ LN (μ, σ2) .
Die Dichtefunktion ist gegeben durch:
⎧
2 /2σ 2
−(log(x)−μ)
⎨ √1
e
2
x
2πσ
f (x) =
⎩0
x>0
sonst
Satz: X ∼ LN (μ, σ 2) =⇒ Y = log(X) ∼ N (μ, σ 2)
R-Befehle zur Lognormalverteilung:
dlnorm(x, meanlog, sdlog): Berechnet den Funktionswert der
Dichtefunktion f (x) einer Lognormalverteilung mit den Parametern μ = meanlog
und σ = sdlog.
plnorm(q, meanlog, sdlog): Berechnet den Wert der Verteilungs-funktion
einer Lognormalverteilung mit den Parametern μ = meanlog und σ = sdlog an
der Stelle q.
rlnorm(n, meanlog, sdlog): Erzeugt n Zufallszahlen einer
Lognormalverteilung mit den Parametern μ = meanlog und σ = sdlog.
Kapitel VI – Stetige Verteilungen
VI - 55
Die Lognormalverteilung
Beispiel für die Dichtefunktion einer lognormalverteilten Zufallsvariable:
0.5
0.4
f(x)
0.3
0.2
0.1
0.0
0
5
10
15
20
x
Kapitel VI – Stetige Verteilungen
VI - 56
Kapitel 7
Ein Modell für meine Daten –
Modellanpassung und Parameterschätzung
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 0
Anpassung von Modellen in der Praxis
Das Verhalten von Zufallsvariablen wird durch eine Wahrscheinlichkeitsbzw. Dichtefunktion beschrieben:
Dichtefunktion f(x)
Verteilungsfunktion F(x)
1.0
0.002
F(x)
f(x)
0.8
0.001
0.6
0.4
0.2
0.000
0.0
400
600
800
1000
1200
1400
1600
1800
400
600
Wahrscheinlichkeitsfunktion P(x)
800
1000
1200
1400
1600
1800
Verteilungsfunktion F(x)
0.30
1.0
0.25
0.8
F(x)
P(x)
0.20
0.15
0.6
0.4
0.10
0.05
0.2
0.00
0.0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
Wie bestimmt man die Wahrscheinlichkeits- bzw. Dichtefunktion in der
Praxis?
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 1
Bestimmung der Wahrscheinlichkeitsfunktion und der Dichtefunktion
Wie werden diese Funktionen in der Praxis bestimmt?
(a) Durch theoretische Überlegungen und Annahmen.
(b) Durch Erfahrungen, d.h. Beobachtungen und Schätzungen.
(c) Durch eine Kombination aus (a) und (b).
Welche Familie von Modellen sollen wir wählen?
Z.B. Normal, Exponential, Binomial?
Wie bestimmt man den oder die Parameter des Modells?
Z.B. μ und σ2 bei der Normalverteilung N (μ, σ2),
λ bei der Exponentialverteilung Exp(λ),
π bei der Binomialverteilung b(n, π)?
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 2
Histogramme als Schätzer für Dichtefunktionen
Neue Konzepte:
– Die Parameter eines Histogramms.
– Wie viele Klassen sollen gewählt werden?
– Fehler durch Approximation und Fehler durch Schätzung.
Beispiel: Der Benzinverbrauch eines Autos.
Frage: Wie hoch ist der Benzinverbrauch meines Autos?
Antwort: Er variiert von Zeit zu Zeit. Der Benzinverbrauch ist eine (stetige)
Zufallsvariable.
Welche Dichtefunktion beschreibt das Verhalten dieser Zufallsvariablen?
Gegeben seien folgende Verbrauchsdaten nach 10-maligem Tanken (in
Litern pro 100 km):
8.7
8.4
8.3
8.8
Kapitel VII – Modellanpassung und Parameterschätzung
8.8
7.8
9.2
8.2
9.1
7.9
VII - 3
Histogramm für den Benzinverbrauch
Verbrauchsdaten nach 10-maligem Tanken (in Litern pro 100 km):
8.7
8.4
8.3
8.8
8.8
7.8
9.2
8.2
9.1
7.9
Der Größe nach geordnete Daten:
7.8
7.9
8.2
8.3
8.4
8.7
8.8
8.8
9.1
9.2
Ein Histogramm mit den Intervallen
(7.5-8.0] (8.0-8.5] (8.5-9.0] (9.0-9.5]
kann mit folgender Arbeitstabelle erstellt werden:
Arbeitstabelle
Intervall
(7.5 − 8.0]
Häufigkeit
2
rel. Häufigkeit
0.2
rel. Häuf./Klassenbreite
0.4
Kapitel VII – Modellanpassung und Parameterschätzung
(8.0 − 8.5]
3
0.3
0.6
(8.5 − 9.0]
3
0.3
0.6
(9.0 − 9.5]
2
0.2
0.4
VII - 4
Histogramm für den Benzinverbrauch
Histogramm für den Benzinverbrauch:
relative Häufigkeit / Klassenbreite
1.0
0.8
0.6
0.4
0.2
0.0
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Benzinverbrauch (Liter/100km)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 5
Normiertes Histogramm als Schätzer der Dichtefunktion
Ein normiertes Histogramm besitzt die Eigenschaften einer Dichtefunktion:
– Ein normiertes Histogramm ist nichtnegativ.
– Die Fläche unter der Kurve ist gleich eins.
Ein normiertes Histogramm kann somit als Schätzer der Dichtefunktion
betrachtet werden.
Notation: Dichtefunktion: f
Geschätzte Dichtefunktion: fb
Für den Benzinverbrauch erhalten wir:
fb(x) =
⎧
⎪
0.4
⎪
⎪
⎪
⎪
⎪
⎨ 0.6
0.6
⎪
⎪
⎪
0.4
⎪
⎪
⎪
⎩ 0
für 7.5 < x ≤ 8.0
für 8.0 < x ≤ 8.5
für 8.5 < x ≤ 9.0
für 9.0 < x ≤ 9.5
sonst
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 6
Beantwortung von Fragen über den Benzinverbrauch
Frage:
Mit welcher Wahrscheinlichkeit wird mein Benzinverbrauch X zwischen
8.8 und 9.2 (l / 100 km) liegen?
Antwort:
Die Größe der Fläche des Histogramms zwischen 8.8 und 9.2:
P (8.8 < X < 9.2) = (0.2 · 0.6) + (0.2 · 0.4)
= 0.12 + 0.08
= 0.20
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 7
Beantwortung von Fragen über den Benzinverbrauch
Die Wahrscheinlichkeit, dass der Benzinverbrauch zwischen 8.8 und 9.2
l / 100 km liegt, als Fläche unter dem Histogramm:
relative Häufigkeit / Klassenbreite
1.0
0.8
0.6
0.4
0.20
0.2
0.0
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Benzinverbrauch (Liter/100km)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 8
Parameter eines Histogramms
Die Parameter eines Histogramms sind die Zahlen, die wir bestimmen
müssen, um die Dichtefunktion zu spezifizieren.
Die Parameter sind die Höhen der einzelnen Rechtecke des Histogramms.
Im Benzinverbrauch-Beispiel haben wir folgende Parameter:
⎧
⎪
θ1
⎪
⎪
⎪
⎪
⎪
⎨ θ2
f (x) = θ3
⎪
⎪
⎪
θ4
⎪
⎪
⎪
⎩ 0
7.5 < x ≤ 8.0
8.0 < x ≤ 8.5
8.5 < x ≤ 9.0
9.0 < x ≤ 9.5
sonst
Ein normiertes Histogramm mit K Klassen hat K – 1 freie Parameter.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 9
Parameter eines Histogramms
Die Parameter eines Histogramms:
relative Häufigkeit /
Klassenbreite
4 Parameter (davon 3 frei wählbar)
1.0
0.8
0.6
0.4
θ1
0.2
θ2
θ3
θ4
0.0
7.0
7.5
8.0
8.5
9.0
Benzinverbrauch (Liter/100km)
9.5
10.0
9.5
10.0
relative Häufigkeit /
Klassenbreite
2 Parameter (davon 1 frei wählbar)
1.0
0.8
0.6
0.4
θ1
0.2
θ2
0.0
7.0
7.5
Kapitel VII – Modellanpassung und Parameterschätzung
8.0
8.5
9.0
Benzinverbrauch (Liter/100km)
VII - 10
Wie groß ist P (8.8 < X < 9.2) - Antwort mit verschiedenen Histogrammen
Verschiedene Schätzungen für P (8.8 < X < 9.2):
Schätzung für P (8.8 < X < 9.2)
2 Klassen
4 Klassen
8 Klassen
0.5 · 0.4
= 0.20
0.6 · 0.2 + 0.4 · 0.2 = 0.20
0.8 · 0.2 + 0.8 · 0.2 = 0.32
Frage: Welche Antwort ist die richtige?
Antwort: Keine Antwort ist exakt. Sie sind alle Schätzungen!
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 11
Wie groß ist P (8.8 < X < 9.2) - Antwort mit verschiedenen Histogrammen
Verschiedene Schätzungen für P (8.8 < X < 9.2):
4 Parameter
0.0
7.0 7.5 8.0 8.5 9.0 9.5
0.0
7.0 7.5 8.0 8.5 9.0 9.5
Benzinverbrauch (Liter/100km)
Kapitel VII – Modellanpassung und Parameterschätzung
Benzinverbrauch (Liter/100km)
0.8
0.8
0.8
0.2
0.0
0.32
0.4
0.0
0.2
0.6
0.4
0.4
0.4
0.8
0.4
0.6
0.6
0.6
relative Häufigkeit / Klassenbreite
0.2
0.20
0.4
0.8
0.20
0.5
0.6
1.0
0.4
0.8
relative Häufigkeit / Klassenbreite
1.0
0.5
relative Häufigkeit / Klassenbreite
1.0
8 Parameter
0.8
2 Parameter
0.0
7.0 7.5 8.0 8.5 9.0 9.5
Benzinverbrauch (Liter/100km)
VII - 12
Schätzung einer Dichtefunktion - Zwei Möglichkeiten
Zwei Möglichkeiten zur Schätzung einer Dichtefunktion:
Das normierte Histogramm als Schätzer für die Dichtefunktion verwenden.
Es bleibt folgendes Problem: Wie viele Klassen (Parameter) soll man
wählen?
Betrachtung der Form des Histogramms und Auswahl eines Modells, z.B.
eine Normalverteilung oder eine Exponentialverteilung, das etwa die
gleiche Form hat.
Es bleibt zu klären, wie man die Parameter der Verteilung schätzt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 13
Schätzung einer Dichtefunktion
Histogramm des Benzinverbrauchs und angepasste Normalverteilung:
relative Häufigkeit / Klassenbreite
1.0
0.8
0.6
0.4
0.2
0.0
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Benzinverbrauch (Liter/100km)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 14
Wie viele Klassen bzw. Parameter soll man für das Histogramm verwenden?
Für die Anzahl der Klassen in einem Histogramm gibt es folgende Regel:
L n1/3
Anzahl der Klassen =
3.49 S
mit
– L Länge eines geeigneten Intervalls, das alle Beobachtungen enthält.
– n Anzahl der Beobachtungen
– S ist die Standardabweichung der Beobachtungen, wobei
n
P
1
2
S =n
(xi − x̄)2.
i=1
Für den Benzinverbrauch erhalten wir:
– Intervall (7.5, 9.5] → L = 2
– n = 10
– S2 = 0.2056
Kapitel VII – Modellanpassung und Parameterschätzung
1/3
L
n
⇒ 3.49 S = 2.74 ≈ 3
VII - 15
Grundmodell - Fehler durch Approximation - Fehler durch Schätzung
Neue Begriffe:
- Grundmodell
- Fehler durch Approximation
- Fehler durch Schätzung
- Gesamtfehler
Grundmodell:
- Die „wahre“ Dichtefunktion.
- Die Dichte der Grundgesamtheit.
Beispiel:
- Approximation durch ein Histogramm.
Grundmodell:
- Die Altersverteilung in Göttingen, d.h.
das Alter aller Bewohner Göttingens.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 16
Grundmodell
Grundmodell: Die Altersverteilung (aller Bewohner) in Göttingen.
0.04
Dichte
0.03
0.02
0.01
0
0
10
20
30
Kapitel VII – Modellanpassung und Parameterschätzung
40
50
60
70
80
90
100
VII - 17
Fehler durch Approximation
Approximationsfehler:
Fehler durch Approximation entstehen, weil wir unpräzise Verfahren
benutzen.
In dem Beispiel approximieren wir eine Kurve durch gerade Linien.
Je größer die Anzahl der Parameter ist, desto kleiner wird der Fehler
durch Approximation.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 18
Fehler durch Approximation
Approximationsfehler in Abhängigkeit von der Parameteranzahl:
20 Klassen
0.04
0.04
0.03
0.03
Dichte
Dichte
50 Klassen
0.02
0.02
0.01
0.01
0
0
0
10
20
30
40
50 60
Alter
70
80
90
100
0
10
20
30
0.04
0.03
0.03
0.02
0.01
0
0
10
20
30
40
50 60
Alter
70
80
90
100
70
80
90
100
0.02
0.01
0
50 60
Alter
5 Klassen
0.04
Dichte
Dichte
10 Klassen
40
70
Kapitel VII – Modellanpassung und Parameterschätzung
80
90
100
0
10
20
30
40
50 60
Alter
VII - 19
Fehler durch Schätzung
Wir können die Dichtefunktion nur schätzen, z.B. aus einer Stichprobe von
100 zufällig ausgewählten Bewohnern:
Alter von 100 Bewohnern
Göttingens in der Stichprobe:
26
61
70
95
40
27
10
70
33
48
44
42
28
64
83
19
27
65
4
26
27 59 26 26
25 32
4 28
26 30 35 28
37 29 31 57
50 23 57 79
1 42 10 49
58 33 86 52
27 32 23 88
50 47 77
5
60 23 33 48
Kapitel VII – Modellanpassung und Parameterschätzung
22
17
30
26
26
29
38
37
34
39
1
2 48
31 46 34
5 50
9
86
6 29
97 24 74
32 52 27
52 25 28
43 29 58
46 33 30
82 35 40
VII - 20
Fehler durch Schätzung
Wir schätzen
das Histogramm der Totalerhebung durch
das Histogramm der Stichprobe mit der gleichen Klassenanzahl.
Schätzfehler:
Fehler, die durch Schätzung entstehen, weil wir nur unvollständige
Informationen zur Verfügung haben.
In diesem Beispiel kennen wir nur das Alter von 100 Personen in der
Stichprobe.
Je größer die Anzahl der Parameter ist, desto größer wird der
durchschnittliche Fehler durch Schätzung.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 21
Fehler durch Schätzung
Schätzfehler (durch unvollständige Informationen):
20 Klassen
0.04
0.04
0.03
0.03
Dichte
Dichte
50 Klassen
0.02
0.02
0.01
0.01
0
0
0
10
20
30
40
50 60
Alter
70
80
90
100
0
10
20
30
0.04
0.03
0.03
0.02
0.01
0
0
10
20
30
40
50 60
Alter
70
80
90
100
70
80
90
100
0.02
0.01
0
50 60
Alter
5 Klassen
0.04
Dichte
Dichte
10 Klassen
40
70
Kapitel VII – Modellanpassung und Parameterschätzung
80
90
100
0
10
20
30
40
50 60
Alter
VII - 22
Der Gesamtfehler
Je größer die Anzahl der Parameter,
– desto kleiner wird der Approximationsfehler,
– desto größer wird der durchschnittliche Schätzfehler.
Der gesamte Fehler, der beim Schätzen entsteht, besteht also aus zwei
Komponenten:
dem Fehler durch Approximation, sichtbar als Abweichung des
Histogramms der Grundgesamtheit vom Grundmodell, und
dem Fehler durch Schätzung, sichtbar als Abweichung des Histogramms
der Stichprobe vom Histogramm der Grundgesamtheit.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 23
Approximations-, Schätz- und Gesamtfehler
Beide Fehlerkomponenten müssen ausbalanciert werden, um den
Gesamtfehler zu minimieren.
Übersicht über den Approximations-, Schätz- und den Gesamtfehler in
Abhängigkeit von Stichprobenumfang und Parameterzahl:
n↑
Approximationsfehler
Schätzfehler
Gesamt
fehler
—
↓
↓
n↓
—
↑
↑
Anzahl Parameter ↑
↓
↑
%
&
Anzahl Parameter ↓
Kapitel VII – Modellanpassung und Parameterschätzung
↑
↓
%
&
VII - 24
Gesamtfehler
Illustration des Gesamtfehlers (für n = 100):
20 Klassen
0.04
0.04
0.03
0.03
Dichte
Dichte
50 Klassen
0.02
0.02
0.01
0.01
0
0
0
10
20
30
40
50 60
Alter
70
80
90
100
0
10
20
30
0.04
0.03
0.03
0.02
0.01
0
0
10
20
30
40
50 60
Alter
70
80
90
100
70
80
90
100
0.02
0.01
0
50 60
Alter
5 Klassen
0.04
Dichte
Dichte
10 Klassen
40
70
Kapitel VII – Modellanpassung und Parameterschätzung
80
90
100
0
10
20
30
40
50 60
Alter
VII - 25
Gesamtfehler
Illustration des Gesamtfehlers (für n = 200):
20 Klassen
0.04
0.04
0.03
0.03
Dichte
Dichte
50 Klassen
0.02
0.02
0.01
0.01
0
0
0
10
20
30
40
50 60
Alter
70
80
90
100
0
10
20
30
0.04
0.03
0.03
0.02
0.01
0
0
10
20
30
40
50 60
Alter
70
80
90
100
70
80
90
100
0.02
0.01
0
50 60
Alter
5 Klassen
0.04
Dichte
Dichte
10 Klassen
40
70
Kapitel VII – Modellanpassung und Parameterschätzung
80
90
100
0
10
20
30
40
50 60
Alter
VII - 26
Gesamtfehler
Illustration des Gesamtfehlers (für n = 1000):
20 Klassen
0.04
0.04
0.03
0.03
Dichte
Dichte
50 Klassen
0.02
0.02
0.01
0.01
0
0
0
10
20
30
40
50 60
Alter
70
80
90
100
0
10
20
30
0.04
0.03
0.03
0.02
0.01
0
0
10
20
30
40
50 60
Alter
70
80
90
100
70
80
90
100
0.02
0.01
0
50 60
Alter
5 Klassen
0.04
Dichte
Dichte
10 Klassen
40
70
Kapitel VII – Modellanpassung und Parameterschätzung
80
90
100
0
10
20
30
40
50 60
Alter
VII - 27
Schätzung von Parametern
Beispiel: Benzinverbrauch.
Das Histogramm ist symmetrisch und glockenförmig:
– Beides sind typische Eigenschaften einer Normalverteilung.
– Es liegt nahe, eine Normalverteilung an die Daten anzupassen.
Wie schätzt man die Parameter μ und σ2 ?
Zwei Methoden zur Schätzung von Parametern:
Methode der Momente
Maximum-Likelihood-Methode
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 28
Ausgaben in einem Supermarkt
Beispiel:
Ausgaben in einem Supermarkt.
Gegeben seien folgende Beobachtungen:
30.21
55.49
Ausgaben in US $
10.57 25.99 84.22 11.16
9.39 29.58
3.01
0.58
Das Histogramm der Daten hat Ähnlichkeit mit der Dichtefunktion einer
Exponentialverteilung:
f (x) =
(
λe−λx
0
für
sonst
x≥0
Erwartungswert und Schätzer für die Exponentialverteilung:
1
1
Erwartungswert:
E(X) =
=⇒ λ =
λ
E(X)
1
1
b
x̄ = b =⇒ λ =
Schätzer:
x̄
λ
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 29
Methode der Momente für einparametrige Verteilungen
Vorgehensweise bei einparametrigen Verteilungen:
(1) Schreibe den Erwartungswert als Funktion des Parameters:
Für die Exponentialverteilung heißt das: E(X) =
1
.
λ
(2) Schreibe die gleiche Funktion für den Mittelwert in der
Stichprobe und den Schätzer des Parameters.
1
Für die Exponentialverteilung heißt das: x̄ = 26.02 = b .
λ
(3) Löse die Gleichung aus (2) nach dem Parameterschätzer auf.
b =
Für die Exponentialverteilung: λ
Kapitel VII – Modellanpassung und Parameterschätzung
1
≈ 0.0384 .
26.02
VII - 30
Ausgaben in einem Supermarkt
Histogramm der Ausgaben und angepasste Exponentialverteilung:
relative Häufigkeit / Klassenbreite
0.05
0.04
0.03
0.02
0.01
0.00
0
20
40
60
80
100
120
Ausgaben ($)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 31
Methode der Momente für die Poissonverteilung
Wahrscheinlichkeitsfunktion der Poissonverteilung:
(
P (x) =
λx e−λ
x!
0
für x = 0, 1, 2, . . .
sonst
Bestimmung des Schätzer nach der Methode der Momente:
Erwartungswert:
E(X) = λ
=⇒
λ = E(X)
b
=λ
=⇒
b = x̄
λ
x̄
Schätzer:
Beispiel:
Beobachtungen: 4
Schätzer:
6
6
5
7
14
λ̂ = x̄ = 42/6 = 7
Geschätzte Wahrscheinlichkeitsfunktion:
P̂ (x) =
(
7x e−7
x!
0
für x = 0, 1, 2, . . .
sonst
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 32
Methode der Momente für die Binomialverteilung
Wahrscheinlichkeitsfunktion der Binomialverteilung
( ³ ´
n x
n−x
π
(1
−
π)
x
P (x) =
0
Erwartungswert:
für x = 0, 1, 2, . . . , n
sonst
E(X) = nπ
=⇒
π = E(X)
n
b
= nπ
=⇒
b = x̄
π
n
b
= nπ
=⇒
Schätzer:
x̄
Häufig steht nur ein einziger Wert x zur Verfügung, d.h.
x
b = x
π
n
Die n Versuche lassen sich als n Wiederholungen eines BernoulliExperiments mit Erfolgswahrscheinlichkeit π auffassen.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 33
Reservierung von Sitzplätzen in Flugzeugen
Beispiel: Reservierung von Sitzplätzen in Flugzeugen
In der Regel werden nicht alle Personen, die einen Flug gebucht haben,
tatsächlich fliegen.
Fluggesellschaften verkaufen mehr Tickets als sie Sitzplätze zur
Verfügung haben.
Das Risiko dabei ist, dass unter Umständen mehr Personen zum Flug
erscheinen als Sitzplätze vorhanden sind.
Andererseits wären mehr Sitzplätze leer, wenn die Gesellschaften dieses
Risiko nicht eingingen.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 34
Reservierung von Sitzplätzen in Flugzeugen
Angenommen, für einen Flug mit 300 Sitzplätzen werden 320 Tickets
verkauft.
Die Anzahl der Passagiere, die kommen ist eine Zufallsvariable:
X ∼ b(n, π) ,
d.h. wir betrachten: - Erfolg
Passagier kommt zum Flug,
- Misserfolg
Passagier kommt nicht zum Flug,
wobei die Anzahl der Versuche n = 320 beträgt.
P (Überbuchungen)= P (X > 300)
Gesucht ist die Erfolgswahrscheinlichkeit: π = ?
Angenommen, bisher sind bei 40 000 Reservierungen nur 37 560
Passagiere zum Flug erschienen. Daraus ergibt sich folgender Schätzer:
560 = 0.939
π̂ = 37
40 000
Die geschätzte Verteilung ist somit: X ∼ b(320, 0.939) .
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 35
Wahrscheinlichkeit von Überbuchungen
Die geschätzte Wahrscheinlichkeitsfunktion von X lautet:
Pb (x) =
( ³
´
320
x (1 − 0.939)320−x
0.939
x
0
für x = 0, 1, . . . , 320
sonst
Somit erhält man für die gesuchte Wahrscheinlichkeit:
Pb (Überbuchungen) =
=
≈
Pb (X > 300)
Pb (301) + Pb (302) + . . . + Pb (320)
0.5119
P (Überbuchungen) hängt von der Anzahl verkaufter Tickets ab:
Tickets n
Pb (X > 300)
305
310
315
320
325
0.0000
0.0078
0.1318
0.5119
0.8599
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 36
Wahrscheinlichkeit von Überbuchungen
Die Wahrscheinlichkeit einer Überbuchung in Abhängigkeit von der Anzahl
verkaufter Tickets:
1.0
P(X > 300)
0.8
0.6
0.4
0.2
0.0
300
305
310
315
320
325
330
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 37
Methode der Momente für Verteilungen mit zwei Parametern
Bei Verteilungen mit zwei Parametern benötigen wir jetzt zwei
Gleichungen, um zwei Parameter zu schätzen:
Gleichung 1: E(X) als Funktion der Parameter schreiben, und
E(X) durch x̄ ersetzen.
Gleichung 2: Var(X) als Funktion der Parameter schreiben, und
Var(X) durch S 2 ersetzen.
Beide Gleichungen zusammen sind dann nach den Parametern
aufzulösen, um die Schätzer der Parameter zu erhalten.
n
1 X
x̄ =
xi
n i=1
n
n
X
X
1
1
2
S2 =
(xi − x̄)2 =
x2
−
x̄
n i=1
n i=1 i
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 38
Angepasste Normalverteilung für den Benzinverbrauch
Gegeben seien folgende Verbrauchsdaten nach 10-maligem Tanken:
8.7
8.4
8.3
8.8
8.8
7.8
9.2
8.2
9.1
7.9
E(X) = μ
Gleichung 1:
Var(X) = σ 2
Gleichung 2:
b
x̄ = μ
b2
S2 = σ
=⇒
=⇒
=⇒
b = 8.52
μ
b 2 = 0.2056
σ
b = 0.4534
σ
b σ
b 2), d.h. N (8.52, 0.45342) .
Geschätzte Verteilung: N (μ,
Die Wahrscheinlichkeit, dass der Verbrauch zwischen 8.8 und 9.2
Litern / 100 km liegt:
µ
¶
µ
¶
9.2
−
μ̂
8.8
−
μ̂
Pb (8.8 < X < 9.2) = Φ
−Φ
σ̂
σ̂
= Φ(1.50) − Φ(0.62)
= 0.20
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 39
Angepasste Normalverteilung für den Benzinverbrauch
Mit der angepassten Normalverteilung geschätzte Wahrscheinlichkeit für
einen Benzinverbrauch zwischen 8.8 und 9.2 Litern.
relative Häufigkeit / Klassenbreite
1.0
0.8
0.6
0.4
0.20
0.2
0.0
7.0
7.5
8.0
8.5
9.0
9.5
10.0
Benzinverbrauch (Liter/100km)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 40
Schätzer nach der Methode der Momente
Übersicht über einige Schätzer nach der Momentenmethode:
Verteilungen
E(X)
Schätzer
Exp(λ)
E(X) = 1/λ
λ̂ = 1/x̄
Po(λ)
E(X) = λ
λ̂ = x̄
b(n, π)
E(X) = nπ
π̂ = x/n
N (μ, σ 2)
E(X) = μ
μ̂ = x̄
Var(X) = σ 2
σ̂ 2 = S 2
Kapitel VII – Modellanpassung und Parameterschätzung
(Anteil der Erfolge)
VII - 41
Maximum-Likelihood-Methode
Beispiel: Asymmetrische Münze.
Wie groß ist π = P („Kopf“) ?
Gegeben seien folgende Beobachtungen:
K
1
Z
0
K
1
K
1
Z
0
K
1
K
1
Z
0
Z
0
K (6 Erfolge und 4 Misserfolge)
1 (6 Erfolge und 4 Misserfolge)
Die Wahrscheinlichkeit für dieses Ereignis nach der Binomialverteilung:
³10´
P (6) =
π 6(1 − π)10−6 .
6
Die Wahrscheinlichkeit ist eine Funktion des unbekannten Parameters π.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 42
Likelihoodfunktion: Eine Funktion des Parameters
Die Wahrscheinlichkeit für unsere Beobachtung, P (6), ist eine Funktion
des unbekannten Parameters π.
Früher kannten wir π und wollten die Wahrscheinlichkeit eines Ereignisses
bestimmen.
Jetzt kennen wir das Ergebnis, wir haben es beobachtet: sechs mal
''Kopf'' bzw. sechs Erfolge.
Jetzt interessiert uns der Wert von π, der zu diesem Ergebnis geführt
haben könnte.
Wir wollen π, die Erfolgswahrscheinlichkeit, schätzen.
→ Likelihoodfunktion:
Kapitel VII – Modellanpassung und Parameterschätzung
L(π) =
³10´
6
π 6(1 − π)10−6 .
VII - 43
Werte der Likelihoodfunktion L(π)
Likelihoodfunktion für verschiedene Werte von π:
π
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
L(π)
³ ´
10
6(1 − 0.1)4
(0.1)
6
³ ´
10
6(1 − 0.2)4
(0.2)
6
³ ´
10
6(1 − 0.3)4
(0.3)
6
³ ´
10
6(1 − 0.4)4
(0.4)
6
³ ´
10
6(1 − 0.5)4
(0.5)
6
³ ´
10
6(1 − 0.6)4
(0.6)
6
³ ´
10
6(1 − 0.7)4
(0.7)
6
³ ´
10
6
4
6 (0.8) (1 − 0.8)
³ ´
10
6(1 − 0.9)4
(0.9)
6
Kapitel VII – Modellanpassung und Parameterschätzung
=
0.0001
=
0.0055
=
0.0368
=
0.1115
=
0.2051
=
0.2508
=
0.2001
=
0.0881
=
0.0112
VII - 44
Maximum-Likelihood-Schätzer - Loglikelihood
Der Maximum-Likelihood-Schätzer von π ist der Wert von π, der den
Beobachtungen die größte Wahrscheinlichkeit zuordnet.
b = 0.6 .
Im Münzwurf-Beispiel erhalten wir: π
b maximiert L(π) genau dann, wenn es log(L(π)) maximiert:
π
L(π) =
³10´
6
π 6(1 − π)10−6
µ³
¶
10´ 6
log(L(π)) = log
π (1 − π)10−6
6
³10´
= log
+ 6 log(π) + 4 log(1 − π)
6
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 45
Maximum-Likelihood-Schätzer - Loglikelihood
Vergleich: Likelihoodfunktion und Log-Likelihoodfunktion (für sechs Erfolge
bei 10-maligem Werfen einer Münze):
0.30
Maximum
0.25
L(π )
0.20
0.15
0.10
0.05
0.00
0.0
0.2
0.4
0.6
0.8
1.0
π
log(L(π ))
0
Maximum
-5
-10
-15
-20
0.0
0.2
0.4
0.6
0.8
1.0
π
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 46
Münzwurfbeispiel: Bestimmung des Maximums der Loglikelihoodfunktion
Maximierung der Loglikelihoodfunktion:
³10´
log(L(π)) = log
+ 6 log (π) + 4 log (1 − π)
6
Ableitung nach π:
1
−1
d log(L(π))
= 0+6 +4
dπ
π
1−π
4
6
−
=
π 1−π
Nullsetzen und Auflösen der Gleichung:
d log(L(π)) !
=0
dπ
=⇒
6− 4 =0
π̂
1−π̂
=⇒
6 = 4
1−π̂
π
b
=⇒
6(1 − π̂) = 4π̂
=⇒
6 = 10 π̂
=⇒
b = 0.6
π
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 47
Maximum-Likelihood-Schätzer des Parameters π der Binomialverteilung
Anzahl der Versuche:
n
Anzahl der beobachteten Erfolge: x
Likelihoodfunktion:
³ ´
x(1 − π)n−x .
L(π) = n
π
x
Log-Likelihoodfunktion:
³ ´
log(L(π)) = log n
x + x log (π) + (n − x) log (1 − π)
Schätzer des Parameters π:
d log(L(π))
=0
dπ
=⇒
x − n−x = 0
π̂
1−π̂
=⇒
x(1 − π̂) = (n − x)π̂
=⇒
x = n π̂
=⇒
x
b =n
π
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 48
Die Likelihoodfunktion
Betrachtet wird die Likelihoodfunktion für eine Stichprobe unabhängiger
Beobachtungen x1, x2, ..., xn .
Diskreter Fall: Produkt von Wahrscheinlichkeitsfunktionen.
Likelihoodfunktion = P (x1) · P (x2) · ... · P (xn)
Stetiger Fall: Produkt von Dichtefunktionen.
Likelihoodfunktion = f (x1) · f (x2) · ... · f (xn)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 49
ML-Schätzer für die Poissonverteilung
Wahrscheinlichkeitsfunktion der Poissonverteilung:
P (x) =
(
λx e−λ
x!
für x = 0, 1, 2, . . .
sonst
0
Likelihoodfunktion:
L(λ) =
Ã
λx1
x1!
e−λ
! Ã
λx2
x2 !
e−λ
!
...
Ã
λxn
xn!
e−λ
!
λx1+x2+...+xn e−nλ
=
x1 ! x2 ! · · · x n !
Log-Likelihoodfunktion:
log(L(λ))
= (x1 + x2 + . . . + xn) log(λ) − λ n −
=
Ã
n
P
i=1
xi
Kapitel VII – Modellanpassung und Parameterschätzung
!
log(λ) − λ n −
n
P
i=1
log(xi!)
n
P
i=1
log(xi!)
VII - 50
ML-Schätzer für die Poissonverteilung
Bestimmung des Schätzers für λ :
P
Pn
log(L(λ)) = ( n
x
)
log(λ)
−
λ
n
−
i=1 i
i=1 log(xi!)
Ableitung nach λ :
Pn
xi
d log(L(λ))
= i=1 − n
dλ
λ
Nullsetzen der Ableitung und Auflösen ergibt:
d log(L(λ))
=0
dλ
=⇒
=⇒
=⇒
Kapitel VII – Modellanpassung und Parameterschätzung
n
P
i=1
b
λ
xi
b =
λ
−n=0
n
P
i=1
xi
n
b = x̄
λ
VII - 51
Likelihoodfunktion für die Exponentialverteilung
Dichtefunktion der Exponentialverteilung:
f (x) =
(
λe−λ x
0
für
sonst
x≥0
Likelihoodfunktion:
L(λ) =
³
λe−λ x1
−λ
= λn e
´ ³
n
P
i=1
λe−λ x2
xi
´
...
³
λe−λ xn
´
Log-Likelihoodfunktion:
log(L(λ)) = n log(λ) − λ
Kapitel VII – Modellanpassung und Parameterschätzung
n
X
xi
i=1
VII - 52
ML-Schätzer für die Exponentialverteilung
Bestimmung des Schätzers für λ :
log(L(λ)) = n log(λ) − λ
n
X
xi
i=1
Ableitung nach λ :
n
X
d log(L(λ))
n
xi
= −
dλ
λ i=1
Nullsetzen der Ableitung und Auflösen:
d log(L(λ))
=0
dλ
=⇒
=⇒
n
n− P x =0
i
b
λ
i=1
b = n
λ
n
P
xi
i=1
=⇒
Kapitel VII – Modellanpassung und Parameterschätzung
b = 1/x̄
λ
VII - 53
Beispiel: Ausgaben von 10 Kunden
Beispiel: Anpassung einer Exponentialverteilung.
Folgende Ausgaben von 10 Kunden wurden beobachtet:
30.21 10.57 25.99 84.22 11.16 55.49 9.39 29.58 3.01 0.58
Mittelwert der Stichprobe:
x̄ = 26.02
Schätzer von λ :
b = 0.0384
λ
Angepasste Verteilung:
Exp(0.0384)
Angepasste Dichtefunktion:
f (x) =
(
0.0384 e−0.0384 x
0
Kapitel VII – Modellanpassung und Parameterschätzung
für
sonst
x≥0
VII - 54
Beispiel: Ausgaben von 10 Kunden
Likelihood- und Log-Likelihoodfunktion der Exponentialverteilung für die
zehn Beobachtungen der Ausgaben:
19
L(λ) [mal 10 ]
4
Maximum
3
2
1
0
0.00
0.02
0.04
0.06
0.08
0.10
λ
log(L(λ))
-30
-40
Maximum
-50
-60
-70
0.00
0.02
0.04
0.06
0.08
0.10
λ
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 55
Eigenschaften von Schätzern
Ein Schätzer ist eine Zufallsvariable!
Zur Betrachtung des Verhaltens von Schätzern werden folgende
Eigenschaften definiert:
Der Standardfehler eines Schätzers
(Engl.: Standard Error)
SE(θ̂)
Der Bias eines Schätzers
(Engl.: Bias)
Bias(θ̂)
Der mittlere quadratische Fehler eines Schätzers
(Engl.: Mean Squared Error)
MQF(θ̂)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 56
Ausgaben von 10 Kunden im Supermarkt
Beispiel: Ausgaben von 10 Kunden im Supermarkt.
Ausgaben von 10 Kunden in der 1. Stichprobe:
1. Stichprobe
x1
x2
x3
x4
x5
x6
x7
x8
x9
30.21 10.57 25.99 84.22 11.16 55.49 9.39 29.58 3.01
x̄ = 26.02
=⇒
x10
0.58
b = 1/26.02 = 0.0384
λ
Ausgaben von 10 Kunden in der 2. Stichprobe:
x1
3.37
x2
x3
53.95 1.88
x̄ = 18.46
=⇒
2. Stichprobe
x4
x5
x6
x7
11.16 34.89 27.04 10.89
x8
x9
x10
12.85 9.68 18.91
b = 1/18.46 = 0.0542
λ
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 57
Ausgaben von 10 Kunden im Supermarkt
relative Häufigkeit /
Klassenbreite
Histogramme und angepasste Exponentialverteilung für zwei Stichproben
(Ausgaben in einem Supermarkt):
^
Stichprobe 1: λ = 0.0384
0.05
0.04
0.03
0.02
0.01
0.00
0
20
40
60
Ausgaben ($)
80
100
120
80
100
120
relative Häufigkeit /
Klassenbreite
^
Stichprobe 2: λ = 0.0542
0.05
0.04
0.03
0.02
0.01
0.00
0
20
Kapitel VII – Modellanpassung und Parameterschätzung
40
60
Ausgaben ($)
VII - 58
Ausgaben von zehn Kunden in einem Supermarkt - 1000 Stichproben
Was passiert, wenn sehr viele (z.B. 1000) Stichproben gezogen werden:
Stichprobe
1
2
3
4
5
...
998
999
1 000
Beobachtungen
30.21 10.57 · · ·
0.58
3.37 53.95 · · · 18.91
7.94
4.90 · · · 12.21
22.17
3.06 · · · 11.57
7.17
5.95 · · · 14.09
...
...
...
74.23 13.15 · · · 35.11
27.44 15.23 · · · 19.57
35.54
6.95 · · · 23.52
Kapitel VII – Modellanpassung und Parameterschätzung
Mittel- Schätzer
wert x̄
λ̂
26.02 0.0384
18.46 0.0542
12.21 0.0819
11.57 0.0864
14.09 0.0710
...
...
35.11 0.0285
19.57 0.0511
23.52 0.0425
VII - 59
Ausgaben von zehn Kunden in einem Supermarkt - 1000 Stichproben
relative Häufigkeit /
Klassenbreite
Histogramme von 1000 Schätzern aus Stichproben der Größe n = 10 bzw.
n = 25:
0.00
relative Häufigkeit /
Klassenbreite
Stichproben der Größe n = 10
30
25
20
15
10
5
0
0.05
0.15
0.20
0.15
0.20
Stichproben der Größe n = 25
30
25
20
15
10
5
0
0.00
0.10
λ^
0.05
Kapitel VII – Modellanpassung und Parameterschätzung
0.10
λ^
VII - 60
Ein Schätzer ist eine Zufallsvariable
Es ist nicht möglich, im Voraus zu sagen, welchen Wert der Schätzer
annehmen wird.
b ist eine Zufallsvariable .
Mit anderen Worten: λ
Daher hat λ̂ eine Dichtefunktion,
einen Erwartungswert, E(λ̂) , und
eine Varianz, Var(λ̂) .
Die Standardabweichung eines Schätzers heißt auch Standardfehler des
Schätzers (Engl. Standard Error):
b =
SE(λ)
q
b
Var(λ)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 61
Zusammenfassung: Schätzer eines Parameters
Zusammenfassung, Schätzer eines Parameters:
Der exakte Wert eines Parameters kann nur bestimmt werden, wenn alle
Werte der Population bekannt sind.
Wenn nur eine Stichprobe aus der Population bekannt ist, kann nur ein
Schätzer des Parameters bestimmt werden.
Verschiedene Stichproben führen zu verschiedenen Schätzern.
Bevor man die Stichprobe zieht, kann man nicht sagen, welchen Wert des
Schätzers man erhalten wird.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 62
Standardfehler des Schätzers von λ einer Poissonverteilung
Standardfehler des Schätzers von λ einer Poissonverteilung:
Die Poissonverteilung: Po (λ)
Parameter:
λ
Schätzer:
b = x̄
λ
Varianz:
Standardfehler:
b
Var(λ)=
λ/n
b
SE(λ)=
q
b =
d λ)
Geschätzter Standardfehler: SE(
Kapitel VII – Modellanpassung und Parameterschätzung
λ/n
q
b
λ/n
=
q
x̄/n
VII - 63
Standardfehler des Schätzers von μ bei einer Exponentialverteilung
Standardfehler des Schätzers von μ einer Exponentialverteilung:
Die Exponentialverteilung: Exp (λ = 1 / μ)
Parameter:
μ = 1/λ
Schätzer:
b = x̄
μ
b
1/(λ2n)
Var(μ)=
√
b
Standardfehler:
SE(μ)=
1/(λ n)
√
√
b
d
b = 1/(λ n) = x̄/ n
Geschätzter Standardfehler: SE(μ)
Varianz:
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 64
Geschätzter Standardfehler: Poissonverteilung Beispiel
Anpassung einer Poissonverteilung Po (λ) an folgende Beobachtungen:
7; 9; 12; 9 .
7 + 9 + 12 + 9
= 9.25
x̄ =
4
Parameter:
λ
Schätzer:
b = x̄ = 9.25
λ
Varianz:
Standardfehler:
λ
b
Var(λ)=
n
b
SE(λ)=
q
b =
d λ)
Geschätzter Standardfehler: SE(
Kapitel VII – Modellanpassung und Parameterschätzung
λ/n
q
b
λ/n
=
q
9.25/4 = 1.52
VII - 65
Geschätzter Standardfehler: Exponentialverteilung Beispiel
Anpassung einer Exponentialverteilung Exp (λ) an folgende
Beobachtungen:
30.21; 10.57; 25.99; 84.22; 11.16; 55.49; 9.39; 29.58; 3.01; 0.58.
x̄ = (30.21 + 10.57 + 25.99 + . . . + 3.01 + 0.58)/10 = 26.02
Parameter:
μ = 1/λ
Schätzer:
b = x̄ = 26.02
μ
b
Var(μ)=
1/(λ2n)
√
b
Standardfehler:
SE(μ)= 1/(λ n)
√
√
d
b = x̄/ n = 26.02/ 10 = 8.23
Geschätzter Standardfehler: SE(μ)
Varianz:
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 66
Parameterschätzer, deren Standardfehler und Schätzer der Standardfehler
Zusammenfassung: Parameterschätzer, deren Standardfehler und
Schätzer der Standardfehler.
Verteilung
Normal
Exponential
Binomial
Poisson
Parameter
Schätzer
SE(θ̂)
μ
x̄
√σ
n
r
d θ̂)
SE(
√S
n
r
σ2
S2
σ 2 2(n−1)
n2
S 2 2(n−1)
n2
μ=1
λ
x̄
1
√μ = √
n
λ n
√x̄
n
π
λ
Kapitel VII – Modellanpassung und Parameterschätzung
x
n
x̄
r
π(1−π)
n
q
λ
n
r
π̂(1−π̂)
n
q
x̄
n
VII - 67
Bedeutung des Standardfehlers eines Schätzers
Der Standardfehler eines Schätzers ist ein Maß für die Breite der
Verteilung eines Schätzers:
Standardfehler groß → Verteilung des Schätzers breit.
Standardfehler klein → Verteilung des Schätzers schmal.
Mit steigender Stichprobengröße wird der Standardfehler des
Schätzers kleiner.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 68
Der Bias eines Schätzers
Der Bias eines Schätzers ist definiert durch:
Bias(θ̂) = E(θ̂) − θ
Der Bias misst die erwartete Abweichung des Schätzers vom zu
schätzenden Parameter.
Der Bias sagt aus, ob ein Schätzer den Parameter im Durchschnitt überbzw. unterschätzt.
Ist der Bias Null, wird der Schätzer als erwartungstreu bezeichnet.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 69
Beispiel: Zwei Schätzer für den Parameter einer Poissonverteilung
Betrachtet werden zwei Schätzer für den Parameter einer Poissonverteilung:
Realisationen einer Poissonverteilung mit λ = 2.5 :
2
2
2
2
3
3
2
0
0
2
4
3
1
4
0
3
1
2
3
2
3
5
7
2
2
3
1
3
7
4
Schätzer A:
b = Mittelwert der Stichprobe
λ
A
b = 2.63
λ
B
Schätzer B:
b = Durchschnitt von Maximum und Minimum der Stichprobe
λ
B
b = (0 + 7)/2 = 3.5
λ
B
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 70
Eigenschaften der beiden Schätzer für den Parameter einer Poissonverteilung
Es kann bewiesen werden, dass
b ist kleiner als der von λ
b .
Der Standardfehler von λ
A
B
b ist unverzerrt,
Der Schätzer λ
A
b den Parameter im Durchschnitt um 0.6 überschätzt:
während λ
B
Bias(λ̂A) = E(λ̂A) − λ = 2.50 − 2.50 = 0
Bias(λ̂B ) = E(λ̂B ) − λ = 3.14 − 2.50 = 0.64
Wir sollten λ̂A (statt λ̂B ) zur Schätzung verwenden, da
er einen geringeren Standardfehler besitzt
und zudem unverzerrt ist.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 71
Eigenschaften der beiden Schätzer für den Parameter einer Poissonverteilung
relative Häufigkeit /
Klassenbreite
Histogramme von 1000 simulierten Schätzern A und B:
Schätzer A
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
relative Häufigkeit /
Klassenbreite
0
1
2
3
λ=2.5 E(λ^ A )=2.5
4
5
6
4
5
6
Schätzer B
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0
1
Kapitel VII – Modellanpassung und Parameterschätzung
2
λ=2.5
3
E(λ^B)=3.1
VII - 72
Der mittlere quadratische Fehler eines Schätzers
Beide Maße, Standardfehler und Bias, sagen etwas über die Güte eines
Schätzers aus.
Wünschenswert wäre ein erwartungstreuer Schätzer mit möglichst kleinem
Standardfehler.
Er schätzt den Parameter im Mittel richtig und schwankt nur wenig um den
wahren Wert des Parameters.
Der mittlere quadratische Fehler ist definiert als
M QF (θ̂) = E[(θ̂−θ)2]= [Bias(θ̂)]2 +Var(θ̂) = [Bias(θ̂)]2 +[SE(θ̂)]2
Beispiel (Schätzer A und B):
M QF (λ̂A) = (0.00)2 + (0.29)2 = 0.08
M QF (λ̂B ) = (0.64)2 + (0.57)2 = 0.73
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 73
Beispiel: Gesamtwert des Holzes in einem Wald mit 1276 Bäumen
Es soll der Gesamtwert eines Waldes geschätzt werden:
Durchschnittlicher Wert der Bäume ( C)
Gesamtwert aller Bäume ( C)
μ
1276 · μ
Stichprobe der Größe (n)
10
Stichprobenmittelwert x̄ ( C)
94
Geschätzter Gesamtwert ( C)
119 944
Wie genau ist die Schätzung?
Könnte der Schätzfehler 1000 € oder etwa 10000 € sein?
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 74
Resultate für eine normalverteilte Grundgesamtheit
Einige Resultate für normalverteilte Grundgesamtheiten:
Grundgesamtheit
N (μ, σ 2)
Stichprobe (n unabhängige Beobachtungen) x1, x2, . . . , xn
Schätzer von μ
x̄
Eigenschaften der Zufallsvariable x̄ :
Erwartungswert E(x̄)
μ
E(x̄) − μ = 0
Bias
Bias(x̄)
Standardfehler
SE(x̄)
√σ
n
MQF(x̄)
Bias(x̄)2 + SE(x̄)2
σ2
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 75
Normalverteilung: Verteilung des Stichprobenmittelwerts
Für den Stichprobenmittelwert einer normalverteilten Grundgesamtheit,
Grundgesamtheit
N (μ, σ 2)
Stichprobe (n unabhängige Beobachtungen) x1, x2, . . . , xn
Schätzer von μ
x̄
erhalten wir folgende Verteilung der Zufallsvariable x̄ :
x̄ ∼ N (μ,
σ2
n)
Beispiel:
Stichproben aus einer N (15, 25)-verteilten Grundgesamtheit:
n = 10 Beobachtungen: x̄ ∼ N (15, 25
10 ) = N (15, 2.5)
n = 50 Beobachtungen: x̄ ∼ N (15, 25
50 ) = N (15, 0.5)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 76
Normalverteilung: Verteilung des Stichprobenmittelwerts
Verteilung des Stichprobenmittelwertes einer normalverteilten
Grundgesamtheit für n = 10 und n = 50:
0.6
n = 1: N(15;25/1)
n = 10: N(15;25/10)
n = 50: N(15;25/50)
0.5
f(x)
0.4
0.3
0.2
0.1
0.0
0
5
10
15
20
25
30
x
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 77
Schätzer der Varianz in einer normalverteilten Grundgesamtheit
Für die Varianz in einer normalverteilten Grundgesamtheit ergibt sich:
Grundgesamtheit
N (μ, σ 2)
Stichprobe (n unab. Beobachtungen) x1, x2, . . . , xn
n
1 P
2
2
Schätzer von σ
S =
(xi − x̄)2
n i=1
Betrachtung des Bias der Zufallsvariable S 2:
n−1 2
2
σ
E(S ) =
=⇒ Bias(S 2) = E(S 2) − σ 2
n
n−1 2 n 2
σ − σ
=
n
n
1 2
Nicht
= − σ
n
erwartungstreu!
Ein erwartungstreuer Schätzer der Varianz ist gegeben durch:
n
1
P
2
S∗ =
(xi − x̄)2 =⇒ E(S∗2) = σ 2
Erwartungstreu
n − 1 i=1
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 78
Vergleich: S2 und S*2
Welcher Schätzer von σ2 ist besser? S 2 oder S∗2 ?
Eigenschaft
Bias
Gewinner
Bias(S 2) 6= 0
S∗2
SE(S 2)
≤
SE(S∗2)
S2
MQF(S 2)
≤
MFQ(S∗2)
S2
Standardfehler
MQF
Bias(S∗2) = 0
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 79
Der Stichprobenmittelwert als Schätzer des Mittelwerts der Grundgesamtheit
Der Stichprobenmittelwert als Schätzer des Mittelwerts der
Grundgesamtheit:
Grundgesamtheit (beliebige Verteilung) E(X) = μ
Var(X) = σ 2
Stichprobe (n unab. Beobachtungen)
x1, x2, . . . , xn
Schätzer von μ
x̄
E(X)
Var(X)
Verteilung
Abkürzung
Normal
X ∼ N(μ, σ 2) μ
σ2
Poisson
X ∼ Po(λ)
μ=λ
σ2 = λ
Binomial
X ∼ b(n, π)
μ = nπ
σ 2 = nπ(1 − π)
Exponential
X ∼ Exp(λ)
1
μ=λ
σ 2 = λ12
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 80
Zentraler Grenzwertsatz
Eigenschaften der Zufallsvariable x̄ als Schätzer von μ :
2
σ
E(x̄) = μ
Var(x̄) = n
Zentraler Grenzwertsatz:
x̄ ist asymptotisch normalverteilt:
.
x̄ ∼
σ2
N (μ, n )
x̄ ist exakt normalverteilt, wenn die Werte in der Grundgesamtheit normalverteilt sind.
x̄ ist annährend normalverteilt, wenn die Werte in der Grundgesamtheit nicht normalverteilt sind:
— Die Annäherung wird mit wachsendem n genauer.
— Die Annäherung kann auch für ein kleineres n gut sein.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 81
Zentraler Grenzwertsatz - Beispiel: Fairer Würfel
X sei die geworfene Augenzahl in einem Versuch.
Wahrscheinlichkeitsfunktion von X :
⎧
⎨1
P (x) = 6
⎩0
x = 1, 2, 3, 4, 5, 6
sonst
Erwartungswert: μ = 3.5
Varianz:
σ 2 = 2.92
n
P
1
Sei x1, x2, . . . , xn das Ergebnis von n Würfen und x̄ = n
xi
i=1
Zentraler Grenzwertsatz: x̄ ist asymptotisch normalverteilt.
x̄ ∼ N (3.5; 2.92/n)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 82
Zentraler Grenzwertsatz - Beispiel: Fairer Würfel
Wahrscheinlichkeitsfunktion für die Augenzahl eines fairen Würfels:
0.20
P(x)
0.15
0.10
0.05
0.00
1
2
3
4
5
6
Augenzahl x
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 83
1000 Stichproben der Größe n = 5 für die Augenzahl eines fairen Würfels
1000 Stichproben (n = 5) für die Augenzahl eines fairen Würfels:
Stichprobe 1
Stichprobe 2
Stichprobe 3
..
Stichprobe 1000
5 2 6 4 5
1 5 4 1 5
6 1 4 4 3
..
3 3 3 4 2
x̄ = 4.4
x̄ = 3.2
x̄ = 3.6
..
x̄ = 3.0
Die Histogramme der Stichprobenmittelwerte haben ihren Schwerpunkt
etwa an der Stelle μ = 3.5.
Die Streuung der Stichprobenmittelwerte nimmt mit wachsendem
Stichprobenumfang ab.
Die Histogramme haben eine symmetrische, glockenförmige Gestalt.
Je größer n ist, desto besser ist die Approximation durch die
Normalverteilung.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 84
1000 Stichproben für die Augenzahl eines fairen Würfels
relative Häufigkeit /
Klassenbreite
Histogramm von 1000 Stichprobenmittelwerten (n = 5 und n = 20):
Stichproben der Größe n = 5
1.2
1.0
N(3.5;2.92/5)
0.8
0.6
0.4
0.2
0.0
relative Häufigkeit /
Klassenbreite
1
2
3
4
Stichprobenmittelwert
5
6
5
6
Stichproben der Größe n = 20
1.2
1.0
N(3.5;2.92/20)
0.8
0.6
0.4
0.2
0.0
1
2
Kapitel VII – Modellanpassung und Parameterschätzung
3
4
Stichprobenmittelwert
VII - 85
Zentraler Grenzwertsatz - Beispiel: Altersverteilung
Histogramme von 1000 Stichprobenmittelwerten (n = 5 und n = 10) aus
der Göttinger Altersverteilung:
n=5
0.06
Dichte
0.05
0.04
0.03
0.02
0.01
0.00
0
10
20
30
40
50
Stichprobenmittelwert
60
70
80
60
70
80
n = 10
0.06
Dichte
0.05
0.04
0.03
0.02
0.01
0.00
0
10
20
Kapitel VII – Modellanpassung und Parameterschätzung
30
40
50
Stichprobenmittelwert
VII - 86
Konfidenzintervalle
Konfidenzintervalle, Übersicht:
Einführung: Was ist ein Konfidenzintervall?
Herleitung für einen einfachen Fall.
Formeln und Beispiele für Konfidenzintervalle für
– den Mittelwert μ einer Grundgesamtheit (2 Fälle),
– den Anteilswert π einer Grundgesamtheit und
– die Varianz σ2 einer Grundgesamtheit.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 87
Beispiel: Gesamtwert des Holzes in einem Wald mit 1276 Bäumen
Gesamtwert des Holzes in einem Wald mit 1276 Bäumen:
Durchschnittlicher Wert der Bäume
Gesamtwert aller Bäume ( C)
Stichprobe der Größe (n)
Stichprobenmittelwert x̄ ( C)
μ
1276 · μ
10
94
Geschätzter Gesamtwert (1000 C)
ca. 120
C
Wie genau ist die Schätzung?
Könnte der Schätzfehler 1000 € oder etwa 10000 € sein?
Konfidenzintervall:
Mit einer Wahrscheinlichkeit von 95% enthält das Intervall (106; 134) T€
den wahren Wert.
Punktschätzung:
Intervallschätzung:
120 T€
(106; 134) T€
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 88
Konfidenzintervall - Vertrauensbereich
Interpretation:
Konfidenzintervall oder „Vertrauensbereich“:
Ein Bereich, der den zu schätzenden Parameter mit einer vorgegebenen
hohen Wahrscheinlichkeit enthält.
Diese Wahrscheinlichkeit wird Konfidenzniveau genannt.
In der Praxis wird das Konfidenzniveau meistens bei 90 %, 95 % oder 99 %
gesetzt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 89
Konstruktion eines Konfidenzintervalls bei normalverteilter Grundgesamtheit
Betrachtet wird der Stichprobenmittelwert einer normalverteilten
2
σ
Grundgesamtheit: x̄ ∼ N (μ, n ) .
Normalverteilte Grundgesamtheit
Zufällige Stichprobe
Stichprobenmittelwert
=⇒
=⇒
N (μ,σ 2)
x1, x2, . . . , xn
x̄
x̄ − μ
Z= r
∼ N (0, 1)
σ2
n
x̄ − μ
Z=
√ ∼ N (0, 1)
σ/ n
Bei der Standardnormalverteilung liegt ca. 90 % der Fläche zwischen
–1.64 und 1.64, d.h.:
P (−1.64 < Z < 1.64) = 0.90
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 90
Konstruktion eines 90 % Konfidenzintervalls
Die Gleichung kann wie folgt umgeformt werden:
Ã
!
x̄ − μ
P −1.64 <
√ < +1.64 = 0.90
σ/ n
Ã
!
σ
σ
P −1.64 · √ < x̄ − μ < +1.64 · √
= 0.90
n
n
Ã
!
σ
σ
= 0.90
P −x̄ − 1.64 · √ < −μ < −x̄ + 1.64 · √
n
n
Bei Multiplikation einer Ungleichung mit –1 drehen sich die Vorzeichen um:
Ã
!
σ
σ
P x̄ + 1.64 · √ > μ > x̄ − 1.64 · √
= 0.90
n
n
Ã
!
σ
σ
P x̄ − 1.64 · √ < μ < x̄ + 1.64 · √
= 0.90
n
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 91
Konstruktion eines 90 % Konfidenzintervalls
Ausgehend von
µ
¶
x̄−μ
√ < +1.64 = 0.90
P −1.64 < σ/
n
erhält man
µ
σ
σ
P x̄ − 1.64 √ < μ < x̄ + 1.64 √
n}
n}
|
{z
|
{z
C−
¶
= 0.90
C+
Zur Verdeutlichung wird C – und C + definiert:
P
³
C− < μ < C+
´
= 0.90 .
(C −,C +) ist ein 90% Konfidenzintervall für μ.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 92
Konstruktion eines 100(1- α) Konfidenzintervalls
Ausgangsgleichungen für verschiedene Konfidenzniveaus:
P
Ã
P
Ã
P
Ã
x̄ − μ
−1.64 <
√ < +1.64
σ/ n
!
= 0.90
x̄ − μ
−1.96 <
√ < +1.96
σ/ n
!
= 0.95
x̄ − μ
−2.58 <
√ < +2.58
σ/ n
!
= 0.99
Allgemein gilt:
P
Ã
−zα/2 <
x̄ − μ
√ < +zα/2
σ/ n
Kapitel VII – Modellanpassung und Parameterschätzung
!
=1−α
VII - 93
Konstruktion eines 100(1- α) Konfidenzintervalls
Resultierende Konfidenzintervalle (C −, C +) :
⎧
⎨ C − = x̄ − 1.64 √σ
n
90% Konfidenzintervall:
⎩ C + = x̄ + 1.64 √σ
n
⎧
⎨ C − = x̄ − 1.96 √σ
n
95% Konfidenzintervall:
⎩ C + = x̄ + 1.96 √σ
n
⎧
⎨ C − = x̄ − 2.58 √σ
n
99% Konfidenzintervall:
⎩ C + = x̄ + 2.58 √σ
n
Allgemein gilt:
⎧
⎨ C − = x̄ − zα/2 √σ
n
100(1 − α)% Konfidenzintervall:
⎩ C + = x̄ + zα/2 √σ
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 94
Konfidenzintervall für μ (Varianz σ2 bekannt)
Konfidenzintervall für µ:
⎧
⎨ C − = x̄ − zα/2 √σ
n
100(1 − α)% Konfidenzintervall:
⎩ C + = x̄ + zα/2 √σ
n
Konfidenzniveau: (1 – α) bzw. 100(1 – α)% .
Ein Konfidenzintervall zum Niveau (1 – α) enthält den wahren Parameter μ
mit einer Wahrscheinlichkeit von (1 – α).
Annahme: Die Varianz σ2 ist bekannt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 95
Konfidenzintervall für μ (Varianz σ2 unbekannt)
Bei bekannter Varianz σ2 haben wir folgendes:
Normalverteilte Grundgesamtheit
Zufällige Stichprobe
Stichprobenmittelwert
2
σ
x̄ ∼ N (μ, n )
⇒
N (μ,σ 2)
x1, x2, . . . , xn
x̄
x̄−μ
√ ∼ N (0, 1)
Z = σ/
n
⎧
⎨ C − = x̄ − zα/2 √σ
n
→ 100(1 − α)% Konfidenzintervall:
⎩ C + = x̄ + zα/2 √σ
n
Aber: Falls σ2 unbekannt ist, müssen wir es schätzen:
b 2 = S∗2 = 1
Unverfälschter Schätzer: σ
n−1
Satz: T =
x̄ − μ
√ ∼ t(ν)
S∗ / n
Kapitel VII – Modellanpassung und Parameterschätzung
Pn
2
(x
−
x̄)
i
i=1
mit ν = n − 1
VII - 96
Konfidenzintervall für μ (Varianz σ2 unbekannt)
Somit gibt es zwei Möglichkeiten:
Normalverteilte Grundgesamtheit
Zufällige Stichprobe
Stichprobenmittelwert
N (μ,σ 2)
x1, x2, . . . , xn
x̄
Die Varianz σ2 ist bekannt:
⎧
σ
⎪
⎨ C − = x̄ − zα/2 √n
100(1 − α)% Konfidenzintervall:
⎪
⎩ C + = x̄ + zα/2 √σ
n
Die Varianz σ2 ist unbekannt:
⎧
S∗
⎪
⎨ C − = x̄ − tn−1,α/2 √
n
100(1 − α)% Konfidenzintervall:
S∗
⎪
⎩ C + = x̄ + tn−1,α/2 √
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 97
Beispiel 1.12: Brenndauer von Glühbirnen
Gegeben sei eine Stichprobe (n = 30) von Brenndauern:
699
756
814
827
1 049 1 055 1 058 1 061
1 197 1 204 1 222 1 252
863
889
924
956
1 063 1 068 1 085 1 134
1 255 1 262 1 303 1 310
1 003
1 160
1 550
1 028
1 178
1 562
Ziel:
Ein 90 % Konfidenzintervall für μ bestimmen,
d.h. für die mittlere Brenndauer
aller Glühbirnen in der Grundgesamtheit.
Annahme: Die Brenndauer ist normalverteilt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 98
Beispiel 1.12: Brenndauer von Glühbirnen
Die Varianz σ2 ist unbekannt:
⎧
S∗
⎪
⎨ C − = x̄ − tn−1,α/2 √
n
100(1 − α)% Konfidenzintervall:
S∗
⎪
⎩ C + = x̄ + tn−1,α/2 √
n
Gegeben ist:
.
n = 30
.
.
.
1 − α = 0.9
=⇒
α/2 = 0.05
tn−1, α/2 = t29, 0.05 = 1.70 (Tabelle)
⇒
S∗ = 206.12
x̄ = 1 092.9
S∗2 = 42 484
Somit erhalten wir folgendes Konfidenzintervall:
90% KI:
⎧
⎪
⎨ C−
√
= 1 092.9 − 1.70 206.12
= 1 028.9
30
⎪
√
⎩ C + = 1 092.9 + 1.70 206.12
= 1 156.9
30
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 99
Beispiel 1.12: Brenndauer von Glühbirnen
Konfidenzintervall für (1 – α) = 0.99 :
⎧
⎪
⎨ C−
√
= 1 092.9 − 1.70 206.12
30
90% KI:
⎪
√
⎩ C + = 1 092.9 + 1.70 206.12
30
99% KI:
⎧
⎪
⎨ C−
√
= 1 092.9 − 2.76 206.12
30
⎪
√
⎩ C + = 1 092.9 + 2.76 206.12
30
.
1 − α = 0.99
.
tn−1, 1−α/2 = t29, 0.005 = 2.76 (Tabelle)
.
.
=⇒
= 1 028.9
= 1 156.9
=
989.0
= 1 196.8
α/2 = 0.005
Der R-Befehl: qt(0.005, 29) liefert -2.756386,
Der R-Befehl: qt(0.995, 29) liefert 2.756386.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 100
Beispiel 1.12: Brenndauer von Glühbirnen
Histogramm der Brenndauer und Konfidenzintervalle:
relative Häufigkeit / Klassenbreite
0.002
0.001
90% Konfidenzintervall
99% Konfidenzintervall
0.000
400
600
800
1000
1200
1400
1600
1800
Brenndauer (Stunden)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 101
Beispiel 1.12: Brenndauer von Glühbirnen
Konfidenzintervalle für verschiedene Stichproben:
Stichprobe
μ = 1045.4
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
900
950
1000
1050
1100
1150
1200
Brenndauer
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 102
Beispiel: Füllmenge von Grießpackungen
Beispiel: Füllmenge von Grießpackungen.
Stichprobe: n = 80 Grießpackungen
Beobachtungen: Füllmenge
Soll-Füllmenge: 1 000 g
Ziel:
Ein 90% Konfidenzintervall für μ bestimmen,
d.h. für die mittlere Füllmenge
aller Packungen in der Grundgesamtheit.
Annahme: Die Füllmenge ist normalverteilt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 103
Beispiel: Füllmenge von Grießpackungen
Histogramm und Dichtefunktion der Füllmenge von 80 Grießpackungen:
0.15
f(x)
0.10
0.05
0.00
992
994
996
998
1000
1002
1004
1006
1008
1010
Füllmenge (Gramm)
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 104
Konfidenzintervalle für μ bei bekannter Varianz
Die Varianz σ2 = 8.0 (g2) sei bekannt:
⎧
⎨ C − = x̄ − zα/2 √σ
n
100(1 − α)% KI:
⎩ C + = x̄ + zα/2 √σ
n
.
.
.
.
n = 80
1 − α = 0.9
=⇒
α/2 = 0.05
zα/2 = z0.05 = 1.64 (Tabelle)
√
x̄ = 1 001.6
σ = 8.0 = 2.83
90% KI:
⎧
⎪
⎨ C−
√
= 1 001.6 − 1.64 2.83
= 1 001.08
80
⎪
√
⎩ C + = 1 001.6 + 1.64 2.83
= 1 002.12
80
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 105
Konfidenzintervalle für den Anteilswert in einer Grundgesamtheit
Für den Anteilswert π in einer Grundgesamtheit ergibt sich:
Grundgesamtheit mit Anteil ,,Erfolge” π
Größe der Zufallsstichprobe
n
b = Anzahl Erfolge
Anteil Erfolge in der Stichprobe
π
n
Als Konfidenzintervall für π zum Niveau 100(1 – α)% erhält man:
b − zα/2
C− = π
C
+
b + zα/2
= π
s
b (1 − π
b)
π
n
s
b (1 − π
b)
π
n
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 106
Beispiel: US-Präsidentenwahl im Jahr 2000 (Gore gegen Bush)
Beispiel: Eine Umfrage in New Jersey (Oktober 2000).
Die Grundgesamtheit besteht aus allen Wählern in New Jersey. Als Erfolg
wird hier die Antwort „werde Bush meine Stimme geben“ betrachtet.
Grundgesamtheit mit Anteil ,,Erfolge” π
Größe der Zufallsstichprobe
n = 383
b = 146 = 0.38
Anteil Erfolge in der Stichproben
π
383
Als 90% Konfidenzintervall für π erhält man:
b − zα/2
C− = π
r
π
b (1−π
b)
n
s
C − = 0.38 − 1.64
C − = 0.339
0.38(1 − 0.38)
383
|
{z
}
≈0.025
Kapitel VII – Modellanpassung und Parameterschätzung
b + zα/2
C+ = π
r
π
b (1−π
b)
n
s
C + = 0.38 + 1.64
C + = 0.421
0.38(1 − 0.38)
383
|
{z
}
≈0.025
VII - 107
Beispiel: US-Präsidentenwahl im Jahr 2000 (Gore gegen Bush)
Konfidenzintervalle zu verschiedenen Niveaus:
90% Konfidenzintervall:
(
C − = 0.38 − 1.64 (0.025) = 0.339
C + = 0.38 + 1.64 (0.025) = 0.421
95% Konfidenzintervall:
(
C − = 0.38 − 1.96 (0.025) = 0.331
C + = 0.38 + 1.96 (0.025) = 0.429
99% Konfidenzintervall:
(
C − = 0.38 − 2.58 (0.025) = 0.316
C + = 0.38 + 2.58 (0.025) = 0.445
Mit steigendem Konfidenzniveau wird das Intervall breiter:
90% KI
95% KI
99% KI
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 108
Konfidenzintervalle in Abhängigkeit von n
90% Konfidenzintervall für n = 383:
C − = 0.38 − 1.64
C − = 0.339
s
0.38(1 − 0.38)
383
|
{z
}
≈0.025
C + = 0.38 + 1.64
C + = 0.421
s
0.38(1 − 0.38)
383
|
{z
}
≈0.025
90% Konfidenzintervall für n = 3830:
C − = 0.38 − 1.64
C − = 0.367
s
0.38(1 − 0.38)
3830
|
{z
}
≈0.0078
C + = 0.38 + 1.64
C + = 0.393
s
0.38(1 − 0.38)
3830
|
{z
}
≈0.0078
Mit steigendem n wird das Intervall schmaler:
90% KI mit n = 383
90% KI mit n = 3 830
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 109
Konfidenzintervalle für die Varianz einer Grundgesamtheit
Betrachtung von Schätzern für die Varianz σ2:
Maximum Likelihood Schätzer:
Unverzerrter Schätzer:
=⇒
n
X
1
S2 =
(xi − x̄)2
n i=1
S∗2 =
n
1 X
(xi − x̄)2
n − 1 i=1
(n − 1)S∗2 = nS 2
Bei einer normalverteilten Grundgesamtheit erhalten wir folgendes
100(1 – α) % Konfidenzintervall für σ2:
C− =
C+ =
nS 2
χ2
n−1, α/2
nS 2
χ2
n−1, 1−α/2
Kapitel VII – Modellanpassung und Parameterschätzung
oder
(n−1)S∗2
χ2
n−1, α/2
oder
(n−1)S∗2
χ2
n−1, 1−α/2
VII - 110
Beispiel: Füllmenge von Grießpackungen
Beispiel: Füllmenge von Grießpackungen.
Für eine Stichprobe (n = 80) beobachten wir die Füllmenge.
Die Varianz σ2 sei unbekannt.
Ziel:
Ein 90 % Konfidenzintervall für σ2 bestimmen,
d.h. für die Varianz der Füllmenge
aller Packungen in der Grundgesamtheit.
Annahme: Die Füllmenge ist normalverteilt.
Kapitel VII – Modellanpassung und Parameterschätzung
VII - 111
Beispiel: Füllmenge von Grießpackungen
90% Konfidenzintervall für σ2:
.
.
.
n = 80
S 2 = 7.95
1 − α = 0.9
.
.
χ2
n−1, α/2
⇒
⇒
=
α/2
1 − α/2
χ2
79, 0.05
=
=
=
0.05
0.95
100.75
(qchisq(1-0.05, 79))
χ2
n−1, 1−α/2
=
χ2
79, 0.95
=
59.52
(qchisq(1-0.95, 79))
Somit erhalten wir folgende Intervallgrenzen:
C−
C+
=
=
nS 2
χ2
n−1, α/2
nS 2
χ2
n−1, 1−α/2
Kapitel VII – Modellanpassung und Parameterschätzung
=
80·7.95
100.75
=
=
80·7.95
59.52
= 10.69
6.31
VII - 112
Bestimmung von Quantilen
Bestimmung von Quantilen der Normalverteilung mit Hilfe der Tabelle:
zα/2 = z0.10 = 1.28
φ(x)
Φ(z)
z
z
−3.00
−2.99
−2.98
−2.97
−2.96
−2.95
−2.94
−2.93
−2.92
−2.91
−2.90
−2.89
−2.88
−2.87
−2.86
−2.85
−2.84
−2.83
−2.82
−2.81
N(0, 1)-verteilte Zufallsvariable kleiner oder gleich z ist.
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
z
Φ(z)
0.001
0.001
0.001
0.001
0.002
0.002
0.002
0.002
0.002
0.002
−2.40
−2.39
−2.38
−2.37
−2.36
−2.35
−2.34
−2.33
−2.32
−2.31
0.008
0.008
0.009
0.009
0.009
0.009
0.010
0.010
0.010
0.010
−1.80
−1.79
−1.78
−1.77
−1.76
−1.75
−1.74
−1.73
−1.72
−1.71
0.036
0.037
0.038
0.038
0.039
0.040
0.041
0.042
0.043
0.044
−1.20
−1.19
−1.18
−1.17
−1.16
−1.15
−1.14
−1.13
−1.12
−1.11
0.115
0.117
0.119
0.121
0.123
0.125
0.127
0.129
0.131
0.133
−0.60
−0.59
−0.58
−0.57
−0.56
−0.55
−0.54
−0.53
−0.52
−0.51
0.274
0.278
0.281
0.284
0.288
0.291
0.295
0.298
0.302
0.305
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.500
0.504
0.508
0.512
0.516
0.520
0.524
0.528
0.532
0.536
0.60
0.61
0.62
0.63
0.64
0.65
0.66
0.67
0.68
0.69
0.726
0.729
0.732
0.736
0.739
0.742
0.745
0.749
0.752
0.755
1.20
1.21
1.22
1.23
1.24
1.25
1.26
1.27
1.28
1.29
0.885
0.887
0.889
0.891
0.893
0.894
0.896
0.898
0.900
0.901
1.80
1.81
1.82
1.83
1.84
1.85
1.86
1.87
1.88
1.89
0.964
0.965
0.966
0.966
0.967
0.968
0.969
0.969
0.970
0.971
2.40
2.41
2.42
2.43
2.44
2.45
2.46
2.47
2.48
2.49
0.992
0.992
0.992
0.992
0.993
0.993
0.993
0.993
0.993
0.994
0.309
0.312
0.316
0.319
0.323
0.326
0.330
0.334
0.337
0.341
0.10
0.11
0.12
0.13
0.14
0.15
0.16
0.17
0.18
0.19
0.540
0.544
0.548
0.552
0.556
0.560
0.564
0.567
0.571
0.575
0.70
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.758
0.761
0.764
0.767
0.770
0.773
0.776
0.779
0.782
0.785
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
0.903
0.905
0.907
0.908
0.910
0.911
0.913
0.915
0.916
0.918
1.90
1.91
1.92
1.93
1.94
1.95
1.96
1.97
1.98
1.99
0.971
0.972
0.973
0.973
0.974
0.974
0.975
0.976
0.976
0.977
2.50
2.51
2.52
2.53
2.54
2.55
2.56
2.57
2.58
2.59
0.994
0.994
0.994
0.994
0.994
0.995
0.995
0.995
0.995
0.995
0.002
0.002
0.002
0.002
0.002
0.002
0.002
0.002
0.002
0.002
−2.80
−2.79
−2.78
−2.77
−2.76
−2.75
−2.74
−2.73
−2.72
−2.71
0.003
0.003
0.003
0.003
0.003
0.003
0.003
0.003
0.003
0.003
−2.70
−2.69
−2.68
−2.67
−2.66
−2.65
−2.64
−2.63
−2.62
−2.61
0.003
0.004
0.004
0.004
0.004
0.004
0.004
0.004
0.004
0.005
−2.50
−2.49
−2.48
−2.47
−2.46
−2.45
−2.44
−2.43
−2.42
−2.41
0.006
0.006
0.007
0.007
0.007
0.007
0.007
0.008
0.008
0.008
−2.60
−2.59
−2.58
−2.57
−2.56
−2.55
−2.54
−2.53
−2.52
−2.51
Die Tabelle gibt Φ(z), die Wahrscheinlichkeit, dass eine
x
0.005
0.005
0.005
0.005
0.005
0.005
0.006
0.006
0.006
0.006
−2.30
−2.29
−2.28
−2.27
−2.26
−2.25
−2.24
−2.23
−2.22
−2.21
0.011
0.011
0.011
0.012
0.012
0.012
0.013
0.013
0.013
0.014
−1.70
−1.69
−1.68
−1.67
−1.66
−1.65
−1.64
−1.63
−1.62
−1.61
0.045
0.046
0.046
0.047
0.048
0.049
0.051
0.052
0.053
0.054
−1.10
−1.09
−1.08
−1.07
−1.06
−1.05
−1.04
−1.03
−1.02
−1.01
0.136
0.138
0.140
0.142
0.145
0.147
0.149
0.152
0.154
0.156
−0.50
−0.49
−0.48
−0.47
−0.46
−0.45
−0.44
−0.43
−0.42
−0.41
−2.20
−2.19
−2.18
−2.17
−2.16
−2.15
−2.14
−2.13
−2.12
−2.11
0.014
0.014
0.015
0.015
0.015
0.016
0.016
0.017
0.017
0.017
−1.60
−1.59
−1.58
−1.57
−1.56
−1.55
−1.54
−1.53
−1.52
−1.51
0.055
0.056
0.057
0.058
0.059
0.061
0.062
0.063
0.064
0.066
−1.00
−0.99
−0.98
−0.97
−0.96
−0.95
−0.94
−0.93
−0.92
−0.91
0.159
0.161
0.164
0.166
0.169
0.171
0.174
0.176
0.179
0.181
−0.40
−0.39
−0.38
−0.37
−0.36
−0.35
−0.34
−0.33
−0.32
−0.31
0.345
0.348
0.352
0.356
0.359
0.363
0.367
0.371
0.374
0.378
0.20
0.21
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.579
0.583
0.587
0.591
0.595
0.599
0.603
0.606
0.610
0.614
0.80
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
0.788
0.791
0.794
0.797
0.800
0.802
0.805
0.808
0.811
0.813
1.40
1.41
1.42
1.43
1.44
1.45
1.46
1.47
1.48
1.49
0.919
0.921
0.922
0.924
0.925
0.926
0.928
0.929
0.931
0.932
2.00
2.01
2.02
2.03
2.04
2.05
2.06
2.07
2.08
2.09
0.977
0.978
0.978
0.979
0.979
0.980
0.980
0.981
0.981
0.982
2.60
2.61
2.62
2.63
2.64
2.65
2.66
2.67
2.68
2.69
0.995
0.995
0.996
0.996
0.996
0.996
0.996
0.996
0.996
0.996
−2.10
−2.09
−2.08
−2.07
−2.06
−2.05
−2.04
−2.03
−2.02
−2.01
0.018
0.018
0.019
0.019
0.020
0.020
0.021
0.021
0.022
0.022
−1.50
−1.49
−1.48
−1.47
−1.46
−1.45
−1.44
−1.43
−1.42
−1.41
0.067
0.068
0.069
0.071
0.072
0.074
0.075
0.076
0.078
0.079
−0.90
−0.89
−0.88
−0.87
−0.86
−0.85
−0.84
−0.83
−0.82
−0.81
0.184
0.187
0.189
0.192
0.195
0.198
0.200
0.203
0.206
0.209
−0.30
−0.29
−0.28
−0.27
−0.26
−0.25
−0.24
−0.23
−0.22
−0.21
0.382
0.386
0.390
0.394
0.397
0.401
0.405
0.409
0.413
0.417
0.30
0.31
0.32
0.33
0.34
0.35
0.36
0.37
0.38
0.39
0.618
0.622
0.626
0.629
0.633
0.637
0.641
0.644
0.648
0.652
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
0.816
0.819
0.821
0.824
0.826
0.829
0.831
0.834
0.836
0.839
1.50
1.51
1.52
1.53
1.54
1.55
1.56
1.57
1.58
1.59
0.933
0.934
0.936
0.937
0.938
0.939
0.941
0.942
0.943
0.944
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
0.982
0.983
0.983
0.983
0.984
0.984
0.985
0.985
0.985
0.986
2.70
2.71
2.72
2.73
2.74
2.75
2.76
2.77
2.78
2.79
0.997
0.997
0.997
0.997
0.997
0.997
0.997
0.997
0.997
0.997
0.421
0.425
0.429
0.433
0.436
0.440
0.444
0.448
0.452
0.456
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49
0.655
0.659
0.663
0.666
0.670
0.674
0.677
0.681
0.684
0.688
1.00
1.01
1.02
1.03
1.04
1.05
1.06
1.07
1.08
1.09
0.841
0.844
0.846
0.848
0.851
0.853
0.855
0.858
0.860
0.862
1.60
1.61
1.62
1.63
1.64
1.65
1.66
1.67
1.68
1.69
0.945
0.946
0.947
0.948
0.949
0.951
0.952
0.953
0.954
0.954
2.20
2.21
2.22
2.23
2.24
2.25
2.26
2.27
2.28
2.29
0.986
0.986
0.987
0.987
0.987
0.988
0.988
0.988
0.989
0.989
2.80
2.81
2.82
2.83
2.84
2.85
2.86
2.87
2.88
2.89
0.997
0.998
0.998
0.998
0.998
0.998
0.998
0.998
0.998
0.998
−1.90
−1.89
−1.88
−1.87
−1.86
−1.85
−1.84
−1.83
−1.82
−1.81
0.029
0.029
0.030
0.031
0.031
0.032
0.033
0.034
0.034
0.035
−1.30
−1.29
−1.28
−1.27
−1.26
−1.25
−1.24
−1.23
−1.22
−1.21
0.097
0.099
0.100
0.102
0.104
0.106
0.107
0.109
0.111
0.113
−0.70
−0.69
−0.68
−0.67
−0.66
−0.65
−0.64
−0.63
−0.62
−0.61
0.242
0.245
0.248
0.251
0.255
0.258
0.261
0.264
0.268
0.271
−0.10
−0.09
−0.08
−0.07
−0.06
−0.05
−0.04
−0.03
−0.02
−0.01
0.460
0.464
0.468
0.472
0.476
0.480
0.484
0.488
0.492
0.496
0.50
0.51
0.52
0.53
0.54
0.55
0.56
0.57
0.58
0.59
0.691
0.695
0.698
0.702
0.705
0.709
0.712
0.716
0.719
0.722
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
0.864
0.867
0.869
0.871
0.873
0.875
0.877
0.879
0.881
0.883
1.70
1.71
1.72
1.73
1.74
1.75
1.76
1.77
1.78
1.79
0.955
0.956
0.957
0.958
0.959
0.960
0.961
0.962
0.962
0.963
2.30
2.31
2.32
2.33
2.34
2.35
2.36
2.37
2.38
2.39
0.989
0.990
0.990
0.990
0.990
0.991
0.991
0.991
0.991
0.992
2.90
2.91
2.92
2.93
2.94
2.95
2.96
2.97
2.98
2.99
0.998
0.998
0.998
0.998
0.998
0.998
0.998
0.999
0.999
0.999
−2.00
−1.99
−1.98
−1.97
−1.96
−1.95
−1.94
−1.93
−1.92
−1.91
0.023
0.023
0.024
0.024
0.025
0.026
0.026
0.027
0.027
0.028
−1.40
−1.39
−1.38
−1.37
−1.36
−1.35
−1.34
−1.33
−1.32
−1.31
0.081
0.082
0.084
0.085
0.087
0.089
0.090
0.092
0.093
0.095
−0.80
−0.79
−0.78
−0.77
−0.76
−0.75
−0.74
−0.73
−0.72
−0.71
0.212
0.215
0.218
0.221
0.224
0.227
0.230
0.233
0.236
0.239
−0.20
−0.19
−0.18
−0.17
−0.16
−0.15
−0.14
−0.13
−0.12
−0.11
Kapitel VII – Modellanpassung und Parameterschätzung
z
1.28
Φ(z)
0.900
zα/2 = z0.05 = 1.64
z
1.64
Φ(z)
0.950
zα/2 = z0.01 = 2.33
z
2.33
Φ(z)
0.990
Alternative Bestimmung mit R:
qnorm(1 - 0.10)
[1] 1.281552
qnorm(1 - 0.05)
[1] 1.644854
qnorm(1 - 0.01)
[1] 2.326348
VII - 113
Bestimmung von Quantilen
Bestimmung von Quantilen der t-Verteilung mit Hilfe der Tabelle:
f(x|ν)
α
tν|α
Die Tabelle gibt die oberen Prozentpunkte tν|α in
x
Abhängigkeit von α und den Freiheitsgraden ν an.
α
0.15
0.1
0.05
0.025
0.01
1
2
3
4
5
1.96
1.39
1.25
1.19
1.16
3.08
1.89
1.64
1.53
1.48
6.31
2.92
2.35
2.13
2.02
12.71
4.30
3.18
2.78
2.57
31.82
6.96
4.54
3.75
3.36
63.66
9.92
5.84
4.60
4.03
6
7
8
9
10
1.13
1.12
1.11
1.10
1.09
1.44
1.41
1.40
1.38
1.37
1.94
1.89
1.86
1.83
1.81
2.45
2.36
2.31
2.26
2.23
3.14
3.00
2.90
2.82
2.76
11
12
13
14
15
1.09
1.08
1.08
1.08
1.07
1.36
1.36
1.35
1.35
1.34
1.80
1.78
1.77
1.76
1.75
2.20
2.18
2.16
2.14
2.13
2.72
2.68
2.65
2.62
2.60
ν
0.005
α
Niveau α bzw. α/2
0.15
0.1
0.05
0.025
0.01
0.005
16
17
18
19
20
1.07
1.07
1.07
1.07
1.06
1.34
1.33
1.33
1.33
1.33
1.75
1.74
1.73
1.73
1.72
2.12
2.11
2.10
2.09
2.09
2.58
2.57
2.55
2.54
2.53
2.92
2.90
2.88
2.86
2.85
3.71
3.50
3.36
3.25
3.17
21
22
23
24
25
1.06
1.06
1.06
1.06
1.06
1.32
1.32
1.32
1.32
1.32
1.72
1.72
1.71
1.71
1.71
2.08
2.07
2.07
2.06
2.06
2.52
2.51
2.50
2.49
2.49
2.83
2.82
2.81
2.80
2.79
3.11
3.05
3.01
2.98
2.95
26
27
28
29
30
1.06
1.06
1.06
1.06
1.05
1.31
1.31
1.31
1.31
1.31
1.71
1.70
1.70
1.70
1.70
2.06
2.05
2.05
2.05
2.04
2.48
2.47
2.47
2.46
2.46
2.78
2.77
2.76
2.76
2.75
40
60
120
1.05
1.05
1.04
1.30
1.30
1.29
1.68
1.67
1.66
2.02
2.00
1.98
2.42
2.39
2.36
2.70
2.66
2.62
ν
t29, 0.05 = 1.70
t29, 0.005 = 2.76
Freiheitsgrade ν
Alternative Bestimmung mit R:
qt(1 - 0.050, 29)
qt(1 - 0.005, 29)
...
Kapitel VII – Modellanpassung und Parameterschätzung
[1] 1.699127
[1] 2.756386
VII - 114
Bestimmung von Quantilen
Bestimmung von Quantilen der χ2 -Verteilung mit Hilfe der Tabelle:
f(x|ν)
Niveau α bzw. α/2
α
2
χν|α
Die Tabelle gibt die oberen Prozentpunkte χ2ν;α in
x
Abhängigkeit von α und den Freiheitsgraden ν an.
α
0.99
0.95
0.90
0.50
0.10
0.05
0.01
1
2
3
4
5
0.00
0.02
0.11
0.30
0.55
0.00
0.10
0.35
0.71
1.15
0.02
0.21
0.58
1.06
1.61
0.45
1.39
2.37
3.36
4.35
2.71
4.61
6.25
7.78
9.24
3.84
5.99
7.81
9.49
11.07
6.63
9.21
11.34
13.28
15.09
6
7
8
9
10
0.87
1.24
1.65
2.09
2.56
1.64
2.17
2.73
3.33
3.94
2.20
2.83
3.49
4.17
4.87
5.35
6.35
7.34
8.34
9.34
10.64
12.02
13.36
14.68
15.99
12.59
14.07
15.51
16.92
18.31
11
12
13
14
15
3.05
3.57
4.11
4.66
5.23
4.57
5.23
5.89
6.57
7.26
5.58
6.30
7.04
7.79
8.55
10.34
11.34
12.34
13.34
14.34
17.28
18.55
19.81
21.06
22.31
19.68
21.03
22.36
23.68
25.00
ν
α
0.99
0.95
0.90
0.50
0.10
0.05
0.01
16
17
18
19
20
5.81
6.41
7.01
7.63
8.26
7.96
8.67
9.39
10.12
10.85
9.31
10.09
10.86
11.65
12.44
15.34
16.34
17.34
18.34
19.34
23.54
24.77
25.99
27.20
28.41
26.30
27.59
28.87
30.14
31.41
32.00
33.41
34.81
36.19
37.57
16.81
18.48
20.09
21.67
23.21
21
22
23
24
25
8.90
9.54
10.20
10.86
11.52
11.59
12.34
13.09
13.85
14.61
13.24
14.04
14.85
15.66
16.47
20.34
21.34
22.34
23.34
24.34
29.62
30.81
32.01
33.20
34.38
32.67
33.92
35.17
36.42
37.65
38.93
40.29
41.64
42.98
44.31
24.72
26.22
27.69
29.14
30.58
26
27
28
29
30
12.20
12.88
13.56
14.26
14.95
15.38
16.15
16.93
17.71
18.49
17.29
18.11
18.94
19.77
20.60
25.34
26.34
27.34
28.34
29.34
35.56
36.74
37.92
39.09
40.26
38.89
40.11
41.34
42.56
43.77
45.64
46.96
48.28
49.59
50.89
ν
χ2
29, 0.95 = 17.71
χ2
29, 0.05 = 42.56
Freiheitsgrade ν
Alternative Bestimmung mit R:
qchisq(1 - 0.95, 29)
qchisq(1 - 0.05, 29)
...
Kapitel VII – Modellanpassung und Parameterschätzung
[1] 17.70837
[1] 42.55697
VII - 115
Kapitel 8
Richtig oder falsch –
Hypothesentests
Kapitel VIII – Hypothesentests
VIII - 0
Klassischer Signifikanztest
Übersicht:
Einführung in den klassischen Signifikanztest
Herleitung für einen einfachen Fall
Hypothesen über
– den Mittelwert μ einer Grundgesamtheit (2 Fälle),
– den Anteilswert π einer Grundgesamtheit,
– die Varianz σ2 einer Grundgesamtheit.
Kapitel VIII – Hypothesentests
VIII - 1
Klassischer Signifikanztest
Neue Begriffe:
Nullhypothese und alternative Hypothese
Prüfgröße
Signifikanzniveau
Ablehnungsbereich
α-Fehler und β-Fehler
Einseitiger und zweiseitiger Test
P-Werte
Kapitel VIII – Hypothesentests
VIII - 2
Behauptungen als Hypothesen
Behauptungen als Hypothesen:
„Die meisten Konsumenten ziehen ein neues Produkt einem altbekannten
vor.“
„Das Auftreten einer Krankheit hat zugenommen.“
„Das Klima hat sich in den letzten 10 Jahren geändert.“
„Der Marktanteil eines Produkts hat sich erhöht.“
„Das neue Medikament vermindert das Risiko eines Herzinfarktes.“
...
Kapitel VIII – Hypothesentests
VIII - 3
Entscheidungen über Hypothesen
Hypothese:
„Die meisten Konsumenten ziehen ein neues Produkt einem altbekannten
vor.“
Die Hypothese ist entweder richtig oder falsch.
Unmöglich:
Alle Konsumenten befragen.
Machbar:
Eine Stichprobe von Konsumenten befragen.
Wir müssen aufgrund unvollständiger Informationen entscheiden, ob die
Hypothese wahr oder falsch ist.
Kapitel VIII – Hypothesentests
VIII - 4
Wann soll eine Hypothese verworfen werden?
Münzwurf-Spiel:
Zeigt die Münze Kopf, zahle ich Ihnen 1 €,
zeigt die Münze Zahl, zahlen Sie mir 1 €.
Hypothese:
Die Münze sei fair, d.h. P („Kopf“) = 0.5.
Experiment: Die Münze wird 20 mal geworfen.
Ergebnis:
Die Münze hat alle 20 mal „Zahl“ gezeigt.
Würden Sie spielen?
Ergebnis:
Die Münze hat 15 mal „Zahl“ gezeigt.
Würden Sie spielen?
Ab wann wird die Hypothese verworfen?
Kapitel VIII – Hypothesentests
VIII - 5
Nullhypothese und Alternativhypothese
Behauptung (G. Bush):
„Die Mehrheit der Wähler in New Jersey unterstützt mich.“
Grundgesamtheit: Alle Wähler in New Jersey.
„Erfolg“: Unterstützt G. Bush.
Sei π der wahre Anteil der Erfolge in der Grundgesamtheit:
H0: π ≥ 0.5
(Allgemein: π ≥ π0)
Alternativhypothese: H1: π < 0.5
(Allgemein: π < π0).
Nullhypothese:
Ziel: H0 testen mit Hilfe einer Meinungsumfrage.
Kapitel VIII – Hypothesentests
VIII - 6
Ablehnungsbereich
Gegeben sei eine Stichprobe von n = 9 Wählern:
X ist die Anzahl der Erfolge in der Stichprobe.
Wenn X „klein“ ist, werden wir H0 ablehnen,
wenn X nicht „klein“ ist, können wir H0 nicht ablehnen.
Ablehnungsbereich:
A = {0} ?
A = {0, 1} ?
A = {0, 1, 2} ?
etwas anderes?
Wir betrachten A = {0, 1, 2}.
Entscheidungsregel:
- H0 wird verworfen, wenn X ≤ 2,
- H0 wird nicht verworfen, wenn X > 2.
Die Zufallsvariable X ist die Prüfgröße.
Kapitel VIII – Hypothesentests
VIII - 7
Verteilung der Prüfgröße
X ist binomialverteilt: X ∼ b(9, π)
Wahrscheinlichkeitsfunktion von X:
⎧³ ´
⎨ 9 π x(1 − π)9−x
x
P (x) =
⎩0
für x = 0, 1, 2, . . . , 9
sonst
Problem: π ist unbekannt.
Wir betrachten den Fall:
H0 ist „knapp“ richtig, d.h. π = 0.5.
Wahrscheinlichkeitsfunktion von X:
⎧³ ´
⎨ 9 0.5x(1 − 0.5)9−x
x
P (x) =
⎩0
Kapitel VIII – Hypothesentests
für x = 0, 1, 2, . . . , 9
sonst
VIII - 8
Verteilung der Prüfgröße
Wahrscheinlichkeitsfunktion für X, die Anzahl der Bush-Befürworter in der
Stichprobe:
0.4
P(x)
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
x (Anzahl der Bush-Wähler)
Kapitel VIII – Hypothesentests
VIII - 9
α-Fehler und β-Fehler
Ablehnungsbereich: A = {0, 1, 2}.
Zwei Arten von Fehlern bzw. Irrtümern:
α-Fehler: H0 verwerfen, obwohl sie wahr ist.
X ∈ A, obwohl π ≥ 0.5 (Fehler 1. Art).
β-Fehler: H0 nicht verwerfen, obwohl sie falsch ist.
X ∉ A, obwohl π < 0.5 (Fehler 2. Art).
Fehlerarten beim Hypothesentest:
Nullhypothese
wahr
falsch
Kapitel VIII – Hypothesentests
Entscheidung
verwerfen nicht verwerfen
√
α
√
β
VIII - 10
α-Fehler und β-Fehler
Klassischer Signifikanztest für den Ablehnungsbereich A = 0, 1, 2.
0.4
Nullhypothese
verwerfen
(P = 0.09)
Nullhypothese
nicht verwerfen
(P = 0.91)
P(x)
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
x (Anzahl der Bush-Wähler)
Kapitel VIII – Hypothesentests
VIII - 11
α-Fehler und β-Fehler
Fall: H0 ist knapp richtig, d.h. π = 0.5.
P (α-Fehler) = P (X ≤ 2) = P (0) + P (1) + P (2) = 0.09
P (β-Fehler) hängt von π ab.
Beispiel: π = 0.4, d.h. H0 ist falsch.
P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.77
Beispiel: π = 0.3, d.h. H0 ist falsch.
P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.54
Beispiel: π = 0.2, d.h. H0 ist falsch.
P (β-Fehler) = P (X > 2) = P (3) + · · · + P (9) = 0.26
Kapitel VIII – Hypothesentests
VIII - 12
α-Fehler und β-Fehler
Wahrscheinlichkeit, die Behauptung zu verwerfen bzw. nicht zu verwerfen
in Abhängigkeit von π (für n = 9 und A = {0, 1, 2}):
1.0
H0 falsch
H0 richtig
Wahrscheinlichkeit
0.8
0.6
P(H0 verwerfen)
P(H0 nicht verwerfen)
0.4
0.2
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
wahrer Anteil π
Kapitel VIII – Hypothesentests
VIII - 13
α-Fehler und β-Fehler
Wahrscheinlichkeit einer Fehlentscheidung (α- oder β-Fehler) in
Abhängigkeit von π (für n = 9 und A = {0, 1, 2}):
1.0
H0 falsch
H0 richtig
Wahrscheinlichkeit
0.8
0.6
P(α-Fehler)
P(β-Fehler)
0.4
0.2
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
wahrer Anteil π
Kapitel VIII – Hypothesentests
VIII - 14
Signifikanzniveau
Entscheidungsprinzip des klassischen Signifikanztests:
Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich
halten, dass sie wahr ist.
Wie unwahrscheinlich? → Das Signifikanzniveau.
⎧
⎪
⎨ 0.01 (1%)
Gebräuchliche Signifikanzniveaus: α = ⎪ 0.05 (5%)
⎩ 0.10 (10%)
Man wählt das gewünschte Signifikanzniveau α und bestimmt den
Ablehnungsbereich, so dass
P (α-Fehler) = α gilt.
Kapitel VIII – Hypothesentests
VIII - 15
Signifikanzniveau
Fall: H0 ist knapp richtig, d.h. π = 0.5.
X ist binomialverteilt: X ∼ b(9, 0.5)
P (α-Fehler):
A = {0}
A = {0, 1}
A = {0, 1, 2}
A = {0, 1, 2, 3}
P (X
P (X
P (X
P (X
≤ 0)
≤ 1)
≤ 2)
≤ 3)
= P (0)
= P (0) + P (1)
= P (0) + P (1) + P (2)
= P (0) + P (1) + P (2) + P (3)
= 0.002
= 0.02
= 0.09
= 0.25
Daraus resultierende Ablehnungsbereiche:
Signifikanzniveau: α = 10% =⇒ A = {0, 1, 2}
Signifikanzniveau: α = 5% =⇒ A = {0, 1}
Signifikanzniveau: α = 1% =⇒ A = {0}
Kapitel VIII – Hypothesentests
VIII - 16
Ergebnisse der New Jersey Umfrage (Oktober 2000)
Ergebnisse einer Umfrage in New Jersey:
Stichprobe:
n = 383 Wähler
Nullhypothese H0:
π ≥ 0.5
Alternativhypothese H1:
π < 0.5
Signifikanzniveau:
α = 0.1 (10 %)
Bestimmung des Ablehnungsbereiches A:
1. Annahme: H0 ist knapp richtig (hier: π = 0.5).
2. A bestimmen: P (A) ≈ α, wenn H0 wahr ist.
X ist binomialverteilt: X ∼ b(383, 0.5) .
Kapitel VIII – Hypothesentests
VIII - 17
Ablehnungsbereich
X ist binomialverteilt: X ∼ b(383, 0.5) .
H0: π ≥ π0 = 0.5:
178
P ³383´
x(1 − 0.5)383−x = 0.09
P (X ≤ 178) =
0.5
x
x=0
179
P ³383´
x(1 − 0.5)383−x = 0.11
0.5
P (X ≤ 179) =
x
x=0
Ablehnungsbereich: X ≤ 178, d.h. A = {0, 1, ..., 178}.
H0: π ≥ π0 = 0.4:
140
P ³383´
x(1 − 0.4)383−x = 0.09
P (X ≤ 140) =
0.4
x
x=0
141
P ³383´
x(1 − 0.4)383−x = 0.11
P (X ≤ 141) =
0.4
x
x=0
Ablehnungsbereich: X ≤ 140, d.h. A = {0, 1, ..., 140}.
Kapitel VIII – Hypothesentests
VIII - 18
Ablehnungsbereich
Entscheidungssituation für π ≥ π0 = 0.5 und Wahrscheinlichkeit einer
Fehlentscheidung in Abhängigkeit von π (für n = 383 und A = 0,1,...,178):
0.05
Nullhypothese
verwerfen
(P = 0.09)
P(x)
0.04
0.03
Nullhypothese
nicht verwerfen
(P = 0.91)
0.02
0.01
0.00
150
160
170
180
190
200
210
220
230
x (Anzahl der Bush-Wähler)
Wahrscheinlichkeit
1.0
H0 falsch
0.8
H0 richtig
0.6
P(α-Fehler)
P(β-Fehler)
0.4
0.2
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
wahrer Anteil π
Kapitel VIII – Hypothesentests
VIII - 19
Ablehnungsbereich
Entscheidungssituation für π ≥ π0 = 0.4 und Wahrscheinlichkeit einer
Fehlentscheidung in Abhängigkeit von π (für n = 383 und A = 0,1,...,140):
0.05
Nullhypothese
verwerfen
(P = 0.10)
P(x)
0.04
0.03
Nullhypothese
nicht verwerfen
(P = 0.90)
0.02
0.01
0.00
110
120
130
140
150
160
170
180
190
200
x (Anzahl der Bush-Wähler)
Wahrscheinlichkeit
1.0
H0 falsch
0.8
H0 richtig
0.6
P(α-Fehler)
P(β-Fehler)
0.4
0.2
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
wahrer Anteil π
Kapitel VIII – Hypothesentests
VIII - 20
Vorgehensweise beim Signifikanztest
Vorgehensweise beim Signifikanztest:
Aufstellen der Nullhypothese H0 und der
zugehörigen Alternativhypothese H1.
Wahl des Signifikanzniveaus und einer Prüfgröße (PG).
Festlegung des Ablehnungsbereichs A mit der Eigenschaft:
Unter H0 gilt P (X ∈ A) ≤ α.
Ziehung einer Stichprobe und Berechnung von PG :
Entscheidung:
(a) PG ∈ A ⇒ H0 verwerfen.
Die Alternativhypothese H1 gilt als statistisch abgesichert.
(b) PG ∉ A ⇒ H0 kann nicht verworfen werden.
Kapitel VIII – Hypothesentests
VIII - 21
Flüge von Dallas nach Philadelphia
Behauptung: Pünktlichkeitsquote = 0.8 (= 80 %), d.h.
H0: π = 0.8
H1: π ≠ 0.8
(allgemein π = π0),
(allgemein π ≠ π0).
Stichprobe:
n = 174 Flüge
Unter H0 gilt
π = 0.8
Signifikanzniveau: α = 0.1 (10 %)
Prüfgröße:
X = Anzahl der pünktlichen Flüge.
Ablehnungsbereich: H0 wird verworfen, wenn der Anteil in der Stichprobe
„sehr klein“ oder „sehr groß“ ist.
Unter H0 gilt: X ∼ b(174, 0.8) .
Kapitel VIII – Hypothesentests
VIII - 22
Zweiseitige Tests
Unter H0 gilt X ∼ b(174, 0.8) :
130
P ³174´
x(1 − 0.8)174−x ≈ 0.05
P (X ≤ 130) =
0.8
x
x=0
174
P ³174´
x(1 − 0.8)174−x ≈ 0.05
0.8
P (X ≥ 148) =
x
x=148
Ablehnungsbereich: X ≤ 130 oder X ≥ 148 .
Ablehnungsbereich: A = {0, 1, . . . , 130} ∪ {148, 149, . . . 174} .
Beobachtung: X = 131.
Entscheidung: X ∉ A ⇒ H0 kann nicht verworfen werden.
Kapitel VIII – Hypothesentests
VIII - 23
Zweiseitige Tests
Entscheidungssituation für den zweiseitigen Test (Pünktlichkeitsquote):
0.10
Nullhypothese
verwerfen
(P = 0.05)
0.08
Nullhypothese
nicht verwerfen
(P = 0.90)
Nullhypothese
verwerfen
(P = 0.05)
P(x)
0.06
0.04
0.02
0.00
120
125
130
135
140
145
150
155
160
x (Anzahl der pünktlichen Flüge)
Kapitel VIII – Hypothesentests
VIII - 24
Normalapproximation
Einige Ergebnisse:
(1) Wenn X ∼ b(n, π) und n groß ist, dann gilt X ∼ N (μ, σ 2)
mit μ = nπ und σ 2 = nπ(1 − π).
(2) Wenn X ∼ N (μ, σ 2), dann ist Z = X−μ
σ ∼ N (0, 1).
Aus (1) und (2) folgt:
Z = √ X−nπ
nπ(1−π)
∼ N (0, 1) .
In diesem Fall haben wir n = 174 und π = 0.8:
√
Z = X−139.2
∼ N (0, 1) .
27.84
Kapitel VIII – Hypothesentests
VIII - 25
Normalapproximation
Bestimmung von μ und σ2 der approximierenden Normalverteilung:
μ
= nπ
= 174(0.8)
= 139.2
σ 2 = nπ(1 − π) = 174(0.8)(1 − 0.8) = 27.84
√
Z = X−139.2
∼ N (0, 1)
27.84
Für Z erhalten wir folgenden Ablehnungsbereich:
AZ = (−∞; −1.64] ∪ [1.64, ∞)
Für X ergibt sich folgender Ablehnungsbereich:
Äquivalent
Beobachtung: X = 131 ⇒ Z = –1.55 .
Entscheidung: Z ∉ AZ ⇒ H0 kann nicht verworfen werden.
A = (−∞; 130.5] ∪ [147.9; ∞)
Beobachtung: X = 131.
Entscheidung: X ∉ A ⇒ H0 kann nicht verworfen werden.
Kapitel VIII – Hypothesentests
VIII - 26
Normalapproximation
Entscheidungssituation für den zweiseitigen Test (Pünktlichkeitsquote) mit
approximierender Normalverteilung:
0.10
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
P(x) / f(x)
0.08
0.06
0.04
90 %
5%
0.02
5%
0.00
120
125
130
a1
Kapitel VIII – Hypothesentests
135
140
145
150
155
160
x (Anzahl der pünktlichen Flüge) a2
VIII - 27
Normalapproximation
Bestimmung des Ablehnungsbereiches für die N (0,1)-verteilte
standardisierte Prüfgröße Z :
0.5
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
0.4
f(x)
0.3
0.2
5%
0.1
5%
90 %
0.0
-4
-3
-2
z 1 = -1.64
Kapitel VIII – Hypothesentests
-1
0
x
1
2
3
4
z 2 = 1.64
VIII - 28
Hypothesen über den Mittelwert μ einer Population
Beispiel: Brenndauer von Glühbirnen.
Drei Arten von Hypothesen:
(a) Einseitiger Hypothesentest (linksseitig), z.B.:
H0 : μ ≥ 1150
H1 : μ < 1150
| {z }
| {z }
μ0
μ0
(b) Einseitiger Hypothesentest (rechtsseitig), z.B.:
H1 : μ > 1150
H0 : μ ≤ 1150
(c) Zweiseitiger Hypothesentest, z.B.:
H0 : μ = 1150
H1 : μ 6= 1150
Kapitel VIII – Hypothesentests
VIII - 29
Hypothesen über den Mittelwert μ einer Population
Prüfgröße: Der Mittelwert in der Stichprobe, d.h. P G = x̄ .
Entscheidung: H0 verwerfen, wenn x̄
(a) viel kleiner als μ0 = 1150 ist,
(b) viel größer als μ0 = 1150 ist,
(c) viel kleiner oder viel größer als μ0 = 1150 ist.
Der Ablehnungsbereich hängt davon ab, ob σ2 unbekannt ist (Fall 1)
oder bekannt ist (Fall 2).
Annahme: Die Werte sind normalverteilt.
Kapitel VIII – Hypothesentests
VIII - 30
Ergebnisse unter der Nullhypothese
Ergebnisse unter der Nullhypothese:
Normalverteilte Grundgesamtheit N (μ,σ 2)
Zufällige Stichprobe
x1, x2, . . . , xn
Stichprobenmittelwert
x̄
2
x̄ ∼ N (μ, σn )
=⇒
=⇒
x̄ − μ
Z=
√ ∼ N (0, 1)
σ/ n
x̄ − μ
T =
√ ∼ t(n − 1)
S∗/ n
Unter der Nullhypothese gilt μ = μ0 (= 1150):
2
x̄ ∼ N (μ0, σn )
=⇒
=⇒
Kapitel VIII – Hypothesentests
x̄ − μ0
Z=
√ ∼ N (0, 1)
σ/ n
x̄ − μ0
T =
√ ∼ t(n − 1)
S∗ / n
VIII - 31
Beispiel: Glühbirnen (Varianz ist unbekannt)
Hypothese: H0 : μ ≥ 1 150
H1 : μ < 1 150 .
Anzahl Beobachtungen
Mittelwert in der Stichprobe
Varianz in der Stichprobe
Standardabweichung
n = 30
x̄ = 1 092.9
S∗2 = 42 484.44
S∗ = 206.1175
x̄ − μ0
Verteilung der Prüfgröße unter H0: T =
√ ∼ t(29) .
S∗ / n
Signifikanzniveau: α = 0.05 (5 %).
Ablehnungsbereich: A = (−∞; −1.70] .
150 = −1.51 ⇒ H wird nicht verworfen
T = 1 092.9−1√
0
206.1175/ 30
Kapitel VIII – Hypothesentests
VIII - 32
Linksseitiger Ablehnungsbereich
t-Verteilung und linksseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz
ist unbekannt):
0.5
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
0.4
f(x)
0.3
0.2
α
0.1
1− α
0.0
-4
-3
-2
-1
− t n−1, α
Kapitel VIII – Hypothesentests
0
1
2
3
4
x
VIII - 33
Rechtsseitiger Ablehnungsbereich
t-Verteilung und rechtsseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz
ist unbekannt):
0.5
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
0.4
f(x)
0.3
0.2
1−α
0.1
α
0.0
-4
-3
-2
-1
0
x
Kapitel VIII – Hypothesentests
1
2
3
4
t n−1, α
VIII - 34
Beidseitiger Ablehnungsbereich
t-Verteilung und beidseitiger Ablehnungsbereich (Fall 1, d.h. die Varianz
ist unbekannt):
0.5
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
0.4
f(x)
0.3
0.2
α 2
0.1
α 2
1−α
0.0
-4
-3
-2
−t n−1, α
Kapitel VIII – Hypothesentests
-1
2
0
x
1
2
t n−1,α
3
4
2
VIII - 35
Beispiel: Füllmenge von Grießpackungen (Varianz bekannt)
Hypothese: H0 : μ = 1 000
H1 : μ 6= 1 000 .
Anzahl Beobachtungen
n = 80
Mittelwert in der Stichprobe x̄ = 1 001.6
Varianz (bekannt)
σ = 2.83
x̄ − μ0
Verteilung der Prüfgröße unter H0: Z =
√ ∼ N (0, 1)
σ/ n
Signifikanzniveau: α = 0.1 (10 %).
Ablehnungsbereich: A = (−∞; −1.64] ∪ [1.64; ∞)
Z=
1 001.6 − 1 000
√
= 5.06 ⇒ H0 wird verworfen
2.83/ 80
Kapitel VIII – Hypothesentests
VIII - 36
Linksseitiger Ablehnungsbereich
N (0,1)-Verteilung und linksseitiger Ablehnungsbereich (Fall 2, d.h. die
Varianz ist bekannt):
0.5
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
0.4
f(x)
0.3
0.2
α
0.1
1−α
0.0
-4
Kapitel VIII – Hypothesentests
-3
-2
− zα
-1
0
1
2
3
4
x
VIII - 37
Rechtsseitiger Ablehnungsbereich
N (0,1)-Verteilung und rechtsseitiger Ablehnungsbereich (Fall 2, d.h. die
Varianz ist bekannt):
0.5
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
0.4
f(x)
0.3
0.2
1−α
0.1
α
0.0
-4
-3
-2
-1
0
x
Kapitel VIII – Hypothesentests
1
2
3
4
zα
VIII - 38
Beidseitiger Ablehnungsbereich
N (0,1)-Verteilung und beidseitiger Ablehnungsbereich (Fall 2, d.h. die
Varianz ist bekannt):
0.5
Nullhypothese
verwerfen
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
0.4
f(x)
0.3
0.2
α 2
0.1
α 2
1−α
0.0
-4
Kapitel VIII – Hypothesentests
-3
-2
− zα
-1
2
0
x
1
2
zα
3
4
2
VIII - 39
Hypothesen über die Varianz einer Population
Die Varianz σ2 beschreibt die Breite einer Wahrscheinlichkeits- bzw. einer
Dichtefunktion.
Die Breite ist ein Maß für die Unsicherheit, die mit einer Zufallsvariablen
verbunden ist.
Risikomanagement:
Beschreibung des Verhaltens von Renditen (→ Volatilität).
Qualitätsmanagement:
Qualität ∝ 1/Varianz
- Eigenschaften von Produkten
- Produktionsprozesse
- Servicequalität
Kapitel VIII – Hypothesentests
VIII - 40
Hypothesen über die Varianz einer Population
Drei Arten von Hypothesen:
(a) Einseitiger Hypothesentest (linksseitig), z.B.:
H0 : σ 2 ≥ σ02
H1 : σ 2 < σ02
(b) Einseitiger Hypothesentest (rechtsseitig), z.B.:
H0 : σ 2 ≤ σ02
H1 : σ 2 > σ02
(c) Zweiseitiger Hypothesentest, z.B.:
H0 : σ 2 = σ02
H1 : σ 2 6= σ02
nS 2
Prüfgröße (Teststatistik): P G = 2 ∼ χ2(n − 1) .
σ0
Kapitel VIII – Hypothesentests
VIII - 41
Beispiel: Durchmesser von Kugellagern
Beispiel: Varianz des Durchmessers von „2mm-Kugellagern“.
Bisher war σ2 = 0.011. Nach einer Prozessverbesserung wurde folgendes
getestet:
Nullhypothese:
H0 : σ 2 ≥ 0.011
Alternativhypothese H1 : σ 2 < 0.011
Beobachtungen:
2.14 1.93
1.98
1.93
2.09
1.94 .
6
P
1
2
S =6
(xi − x̄)2 = 0.00691 .
i=1
nS 2
6(0.00691)
PG = 2 =
= 3.77 .
0.011
σ0
Unter H0 gilt P G ∼ χ2(5) .
Kapitel VIII – Hypothesentests
VIII - 42
χ2-Verteilung und linksseitiger Ablehnungsbereich
χ2-Verteilung und linksseitiger Ablehnungsbereich:
0.20
Nullhypothese verwerfen
Nullhypothese nicht verwerfen
f(x)
0.15
0.10
0.05
α
1−α
0.00
0
2
2
χ n−1,1−α
Kapitel VIII – Hypothesentests
4
6
8
10
12
14
16
x
VIII - 43
Beispiel: Durchmesser von Kugellagern
Signifikanzniveau:
Ablehnungsbereich:
α = 0.1 (= 10 %)
A = [0; 1.61]
Prüfgröße:
PG = 3.77 ∉ A
H0: σ2 ≥ 0.011 kann nicht verworfen werden.
⇒ Wir können nicht schließen, dass sich σ2 verringert hat.
Es ist durchaus möglich, dass sich σ2 verringert hat.
Der Schätzer S 2 = 0.00691 ist kleiner als 0.011,
ABER
die Daten widersprechen nicht der Möglichkeit, dass σ2 ≥ 0.011 ist.
Kapitel VIII – Hypothesentests
VIII - 44
Beispiel: Durchmesser von Kugellagern
Mögliche Histogramme des Durchmessers vom 2mm-Kugellagern:
2
σ = 0.0025
20
Dichte
15
10
5
0
1.80
1.85
1.90
1.95
2.00
2.05
Durchmesser (mm)
2.10
2.15
2.20
2.10
2.15
2.20
2
σ = 0.0004
20
Dichte
15
10
5
0
1.80
Kapitel VIII – Hypothesentests
1.85
1.90
1.95
2.00
2.05
Durchmesser (mm)
VIII - 45
Wahl von Nullhypothese und Alternativhypothese
Signifikanztests dienen dazu, Aussagen über Hypothesen zu machen und
dadurch Entscheidungen zu treffen.
Mögliche Entscheidungen:
(a) H0 verwerfen.
Die Alternativhypothese H1 gilt als statistisch abgesichert.
⇒ Eine starke Aussage.
(b) H0 kann nicht verworfen werden.
Das bedeutet nicht, dass H0 als statistisch abgesichert gilt.
⇒ Eine schwache Aussage.
Kapitel VIII – Hypothesentests
VIII - 46
Wahl von Nullhypothese und Alternativhypothese
Möchte man etwas „beweisen“, sollte die Alternativhypothese das
ausdrücken, was man eigentlich beweisen will.
Beispiel: Durchmesser von Kugellagern.
Man würde gerne beweisen, dass sich die Varianz, die früher 0.011
betrug, verringert hat.
Also verwendet man: H1 : σ 2 < 0.011 ⇒ H0 : σ 2 ≥ 0.011 .
Beispiel: US Präsidentenwahl.
Man möchte beweisen, dass weniger als 50 % der Wähler G. Bush
unterstützen.
Also verwendet man: H1 : π < 0.5 ⇒ H0 : π ≥ 0.5 .
Kapitel VIII – Hypothesentests
VIII - 47
Wahl von Nullhypothese und Alternativhypothese
Möchte man hingegen eine Aussage der folgenden Art treffen:
„Die Daten widersprechen dieser Behauptung nicht“,
dann sollte man die Behauptung als Nullhypothese formulieren.
Beispiel: Glühbirnen.
Man möchte zeigen, dass nichts gegen die Behauptung spricht, dass die
Glühbirnen im Schnitt mindestens 1150 Stunden halten.
Also verwendet man: H0 : μ ≥ 1150 ⇒ H1 : μ < 1150 .
Beispiel: Flüge von Dallas nach Philadelphia.
Man möchte zeigen, dass nichts gegen die Behauptung spricht, dass 80 %
der Flüge pünktlich sind.
Also verwendet man: H0 : π = 0.80 ⇒ H1 : π 6= 0.80 .
Kapitel VIII – Hypothesentests
VIII - 48
P-Werte
Entscheidungsprinzip des klassischen Signifikanztests:
Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich
halten, dass sie wahr ist.
Wie unwahrscheinlich?
Kleiner als ein vorgegebenes Signifikanzniveau α.
Vorgehensweise:
(1)
(2)
(3)
(4)
(5)
α festlegen, z.B. 1 %, 5 % oder 10 %.
Ablehnungsbereich A bestimmen.
PG berechnen.
Feststellen, ob PG ∈ A oder PG ∉ A.
Entscheiden, ob H0 verworfen wird oder nicht verworfen werden
kann.
Kapitel VIII – Hypothesentests
VIII - 49
P-Werte
Entscheidungsprinzip des klassischen Signifikanztests:
Wir verwerfen die Nullhypothese, wenn wir es für sehr unwahrscheinlich
halten, dass sie wahr ist.
Alternative:
Zunächst bestimmen, wie unwahrscheinlich die berechnete PG (unter
H0) ist, und nur dann entscheiden.
Vorgehensweise:
(1) PG bestimmen.
(2) Den P-Wert bestimmen.
(3) Mit Hilfe des P-Wertes entscheiden.
Der P-Wert ist
- das Signifikanzniveau, dass knapp reichen würde, um H0 zu
verwerfen,
- die Wahrscheinlichkeit, unter H0 einen noch extremeren Wert für
PG zu erhalten als den beobachteten.
Kapitel VIII – Hypothesentests
VIII - 50
Beispiel: Klassische Vorgehensweise
Beispiel zur klassischen Vorgehensweise:
H0 : μ ≥ 1 150
H1 : μ < 1 150
Anzahl Beobachtungen
Mittelwert in der Stichprobe
Varianz in der Stichprobe
Standardabweichung
Prüfgröße: T =
n = 30
x̄ = 1 092.9
S∗2 = 42 484.44
S∗ = 206.1175
x̄ − μ0
√ ∼ t(29) .
S∗ / n
Signifikanzniveau: α = 0.05 (= 5 %).
Ablehnungsbereich: A = (−∞; −1.70] .
1 092.9 − 1 150
√
T =
= −1.51 ⇒ H0 wird nicht verworfen.
206.1175/ 30
Kapitel VIII – Hypothesentests
VIII - 51
Beispiel: P-Wert
Beispiel zum Vorgehen anhand des P-Wertes:
H0 : μ ≥ 1 150
H1 : μ < 1 150
Anzahl Beobachtungen
Mittelwert in der Stichprobe
Varianz in der Stichprobe
Standardabweichung
n = 30
x̄ = 1 092.9
S∗2 = 42 484.44
S∗ = 206.1175
150 = −1.51 .
Prüfgröße (PG): T = 1 092.9−1√
206.1175/ 30
P-Wert: P (P G ≤ −1.51) = 0.07 .
H0 wäre knapp zu verwerfen bei einem Signifikanzniveau von 0.07.
Bei α ≥ 0.07 würde man H0 verwerfen.
Bei α < 0.07 würde man H0 nicht verwerfen.
Kapitel VIII – Hypothesentests
VIII - 52
P-Werte
Bestimmung des P-Wertes bei einem linksseitigen t -Test:
0.5
0.4
f(x)
0.3
0.2
0.07
0.1
0.0
-4
-3
-2
-1
-1.51
Kapitel VIII – Hypothesentests
0
x
1
2
3
4
VIII - 53
P-Werte
P-Wert und Ablehnungsbereiche üblicher Signifikanzniveaus bei einem
linksseitigen Test:
0.5
10%-Grenze
0.4
5%-Grenze
f(x)
0.3
1%-Grenze
0.2
0.07
0.1
0.0
-4
-3
t n−1,0.01
-2
t n−1,0.05
t n−1,0.1
-1
0
-1.51
Kapitel VIII – Hypothesentests
VIII - 54
P-Werte
Bestimmung des P-Wertes bei einem linksseitigen χ2-Test:
0.20
f(x)
0.15
0.10
0.42
0.05
0.00
0
Kapitel VIII – Hypothesentests
2
4
3.77
6
8
x
10
12
14
16
VIII - 55
P-Werte
Bestimmung des P-Wertes bei einem zweiseitigen Test:
0.5
0.4
f(x)
0.3
0.2
0.06
0.1
0.06
0.0
-4
-3
-2
-1
-1.55
Kapitel VIII – Hypothesentests
0
1
2
3
4
1.55
VIII - 56
Kapitel 9
Der Zufall im Doppelpack –
Paare von Zufallsvariablen
Kapitel IX – Paare von Zufallsvariablen
IX - 0
Übersicht
Übersicht:
Paare diskreter Zufallsvariablen:
- Gemeinsame Wahrscheinlichkeitsfunktion.
Paare stetiger Zufallsvariablen:
- Gemeinsame Dichtefunktion.
Gemeinsame Verteilungsfunktion:
- F (x, y) = P (X ≤ x, Y ≤ y).
Zusammenhang zwischen Zufallsvariablen:
- Korrelation und Abhängigkeit.
Bivariate Normalverteilung:
- N (μX, μY, σX2, σY2, ρ).
Kapitel IX – Paare von Zufallsvariablen
IX - 1
Neue Begriffe
Neue Begriffe:
Paare diskreter Zufallsvariablen,
Gemeinsame Wahrscheinlichkeitsfunktion,
Randwahrscheinlichkeitsfunktionen,
Bedingte Wahrscheinlichkeitsfunktion,
Bedingter Erwartungswert und bedingte Varianz.
Kapitel IX – Paare von Zufallsvariablen
IX - 2
Beispiele
Beispiele für Paare von Zufallsvariablen:
– Ausgaben für Werbemaßnahmen & Umsatz,
– Schulabschluss & Beruf,
– Stress & Blutdruck,
– Haushaltsgröße & Ausgaben für Lebensmittel,
– Zinssatz & Arbeitslosenquote.
Beide Merkmale müssen jeweils gemeinsam betrachtet werden, da
– beide Merkmale verbunden sind,
– die Beziehung stochastisch ist und
– die beiden Zufallsvariablen eine gemeinsame Verteilung besitzen.
Kapitel IX – Paare von Zufallsvariablen
IX - 3
Paare von Zufallsvariablen
Typische Fragestellungen in diesem Zusammenhang:
Sind die beiden Merkmale voneinander abhängig?
Wenn ja, wie lässt sich ihr Verhalten beschreiben?
Kann man anhand des Wertes einer der zwei Merkmale das Verhalten des
zweiten Merkmals besser voraussagen?
Kann man das Verhalten eines der zwei Merkmale steuern, indem man
den Wert des anderen Merkmals steuert?
Kapitel IX – Paare von Zufallsvariablen
IX - 4
Mögliche Kombinationen
Bei zwei Merkmalen gibt es folgende drei Möglichkeiten:
Beide Merkmale sind diskret,
z.B. Anzahl Mitarbeiter & Anzahl Mitarbeiterinnen.
Beide Merkmale sind stetig,
z.B. Werbeausgaben & Umsatz.
Ein Merkmal ist stetig und das andere ist diskret:
z.B. Gehalt & Anzahl PKW.
Kapitel IX – Paare von Zufallsvariablen
IX - 5
Beispiel: Eignungstest
Zusammenhang zwischen Eignungstest (Y ) und dem Ergebnis der
Ausbildung (X):
Das Ergebnis der Ausbildung:
Das Ergebnis des Eignungstests:
X=
Y =
Typische Beobachtungen:
Ausbildung Testpunkte X
Erfolg
3
1
Misserfolg
2
0
Erfolg
4
1
...
...
...
Kapitel IX – Paare von Zufallsvariablen
(
0 Misserfolg
1 Erfolg
⎧
⎪
1 Niedrigste Note
⎪
⎪
⎪
⎪
⎪
2
⎪
⎪
⎨ 3
⎪
4
⎪
⎪
⎪
⎪
5
⎪
⎪
⎪
⎩ 6 Höchste Note
Y
3
2
4
...
(X, Y )
(1,3)
(0,2)
(1,4)
...
IX - 6
Ausbildung & Eignungstest - Wahrscheinlichkeiten
Gemeinsame Wahrscheinlichkeiten für X und Y :
Das Ergebnis der Ausbildung: X
Das Ergebnis des Eignungstests: Y
Tabelle der gemeinsamen Wahrscheinlichkeiten:
Y
X
0
1
Summe
1
2
3
4
5
6
Summe
0.028 0.130 0.243 0.138 0.023 0.001
0.563
0.000 0.008 0.079 0.192 0.127 0.031
0.437
0.028 0.138 0.322 0.330 0.150 0.032
1.000
Kapitel IX – Paare von Zufallsvariablen
IX - 7
Ausbildung & Eignungstest - Wahrscheinlichkeiten
Betrachtung der Wahrscheinlichkeit, dass eine zufällig aus der Population
ausgewählte Person eine 3 im Test bekommen hat und einen Misserfolg in
der Ausbildung hat:
Y
X
0
1
Summe
1
2
3
4
5
6
Summe
0.028 0.130 0.243 0.138 0.023 0.001
0.563
0.000 0.008 0.079 0.192 0.127 0.031
0.437
0.028 0.138 0.322 0.330 0.150 0.032
1.000
P (Person erzielt eine 3 im Test und hat einen Misserfolg)
= 0.243
In Symbolen: P (X = 0 und Y = 3) = 0.243
bzw. in Kurzform: P (0, 3) = 0.243 .
Kapitel IX – Paare von Zufallsvariablen
IX - 8
Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y
Definition der gemeinsamen Wahrscheinlichkeitsfunktion von X und Y :
P (x, y) = P (X = x und Y = y)
Eigenschaften:
P (x, y) ≥ 0
für alle x und y
P P
x y P (x, y) = 1
Für das Beispiel erhalten wir:
P (x, y) =
1
P
6
P
x=0 y=1
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎩
0.028
0.130
..
0.127
0.031
0
für x = 0, y = 1
für x = 0, y = 6
für x = 1, y = 5
für x = 1, y = 6
sonst
P (x, y) = 0.028 + 0.130 + · · · + 0.127 + 0.031 = 1 .
Kapitel IX – Paare von Zufallsvariablen
IX - 9
Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y
Die gemeinsame Wahrscheinlichkeitsfunktion:
P(x,y)
0.5
6
0.4
0.3
0.2
g
Er
eb
de
s
i
n
i gn
E
s
u
)
(Y
s
t
t es
s
4
ng
5
3
2
0.1
0
1
0
1
Ergebnis der Ausbildung (X)
Kapitel IX – Paare von Zufallsvariablen
IX - 10
Beispiel: Randwahrscheinlichkeitsfunktion von X
Bestimmung der Randwahrscheinlichkeiten von X :
P (X = 0) = P (0, 1) + P (0, 2) + P (0, 3) + P (0, 4) + P (0, 5)
+P (0, 6)
= 0.028 + 0.130 + 0.243 + 0.138 + 0.023 + 0.001
= 0.563
P (X = 1) = P (1, 1) + P (1, 2) + P (1, 3) + P (1, 4) + P (1, 5)
+P (1, 6)
= 0.000 + 0.008 + 0.079 + 0.192 + 0.127 + 0.031
= 0.437
Randwahrscheinlichkeitsfunktion von X : P1(x) oder PX (x) .
P1(x) =
⎧
⎪
⎨ 0.563
⎪
⎩
0.437
0
Kapitel IX – Paare von Zufallsvariablen
für x = 0
für x = 1
sonst .
IX - 11
Randverteilungsfunktionen
Randwahrscheinlichkeitsfunktion von X : P1(x) oder PX (x) .
P1(x) =
P
y
P (x, y)
Randwahrscheinlichkeitsfunktion von Y : P2(y) oder PY (y) .
P2(y) =
P
x
P (x, y)
Gemeinsame Wahrscheinlichkeiten und Randwahrscheinlichkeiten:
Y
X
0
1
P2(y)
1
2
0.028 0.130
0.000 0.008
0.028 0.138
Kapitel IX – Paare von Zufallsvariablen
3
4
0.243 0.138
0.079 0.192
0.322 0.330
5
6
P1(x)
0.023 0.001 0.563
0.127 0.031 0.437
0.150 0.032 1.000
IX - 12
Beispiel: Wahrscheinlichkeitsfunktion von Y
P (Person erhält ‘2’ im Test) = P (Y = 2) = P2(2)
= P (0, 2) + P (1, 2)
= 0.130 + 0.008 = 0.138
Y
X
0
1
P2(y)
1
2
0.028 0.130
0.000 0.008
0.028 0.138
3
0.243
0.079
0.322
4
0.138
0.192
0.330
⎧
⎪
0.028
⎪
⎪
⎪
⎪
0.138
⎪
⎪
⎪
⎪
⎪
⎨ 0.322
Randwahrscheinlich—
keitsfunktion von Y : P2(y) = ⎪ 0.330
⎪
⎪
0.150
⎪
⎪
⎪
⎪
⎪
0.032
⎪
⎪
⎩
0
Kapitel IX – Paare von Zufallsvariablen
5
0.023
0.127
0.150
6
0.001
0.031
0.032
P1(x)
0.563
0.437
1.000
für y = 1
für y = 2
für y = 3
für y = 4
für y = 5
für y = 6
sonst
IX - 13
Randwahrscheinlichkeiten
1.0
1.0
0.8
0.8
Wahrscheinlichkeit P2(y)
Wahrscheinlichkeit P1(x)
Randwahrscheinlichkeiten für X (links) und für Y (rechts):
0.6
0.4
0.6
0.4
0.2
0.2
0.0
0.0
0
1
Ergebnis der Ausbildung (x)
Kapitel IX – Paare von Zufallsvariablen
1
2
3
4
5
6
Ergebnis des Eignungstests (y)
IX - 14
Die bedingten Wahrscheinlichkeitsfunktionen
Die gemeinsame Wahrscheinlichkeitsfunktion: P (x, y) .
Die Randwahrscheinlichkeitsfunktionen: P1(x) und P2(y) .
Die bedingten Wahrscheinlichkeitsfunktionen: P1|2(x|y) und P2|1(y|x) .
Frage 1:
Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung?
Antwort: P (X = 1) = P1(1) = 0.437.
Frage 2:
Wie groß ist die Wahrscheinlichkeit einer erfolgreichen Ausbildung,
wenn die Person im Test eine ‚2‘ erhalten hat?
Antwort: P (X = 1 | Y = 2) = 0.058.
Kapitel IX – Paare von Zufallsvariablen
IX - 15
Bedingte Wahrscheinlichkeit
Formel zur Berechnung bedingter Wahrscheinlichkeiten:
Für zwei Ereignisse A und B mit P (B) > 0 gilt:
P (A ∩ B)
P (A|B) =
P (B)
Für Frage 2 haben wir: A = {X = 1} und B = {Y = 2} .
P (X = 1 ∩ Y = 2)
P (X = 1|Y = 2) =
P (Y = 2)
P (1, 2)
0.008
=
=
P2(2)
0.138
= 0.058
Kapitel IX – Paare von Zufallsvariablen
IX - 16
Unbedingte und bedingte Wahrscheinlichkeiten
Zusammenfassung:
Antwort auf Frage 1: P (X = 1)
= 0.437
Antwort auf Frage 2: P (X = 1|Y = 2) = 0.058
Antwort auf Frage 1:
43.7 % aller Personen in der Population würden die Ausbildung
erfolgreich beenden.
Antwort auf Frage 2:
In der Gruppe der Personen, die den Test mit 2 Punkten
abgeschlossen haben, würden nur 5.8 % die Ausbildung erfolgreich
absolvieren.
Kapitel IX – Paare von Zufallsvariablen
IX - 17
Bedingte Wahrscheinlichkeitsfunktion von X, gegeben Y = 2
Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = 2:
0.130 = 0.942
P1|2(0|2) = PP(0,2)
=
0.138
2 (2)
0.008 = 0.058
=
P1|2(1|2) = PP(1,2)
0.138
2 (2)
Y
X
0
1
P2(y)
1
2
3
4
5
6
0.028 0.130 0.243 0.138 0.023 0.001
0.000 0.008 0.079 0.192 0.127 0.031
0.028 0.138 0.322 0.330 0.150 0.032
Kapitel IX – Paare von Zufallsvariablen
P1(x)
0.563
0.437
1.000
IX - 18
Bedingte Wahrscheinlichkeitsfunktion von X, gegeben Y = 1
Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = 1:
0.028 = 1
P1|2(0|1) = PP(0,1)
=
0.028
2 (1)
0.000 = 0
P1|2(1|1) = PP(1,1)
=
0.028
2 (1)
Y
X
0
1
P2(y)
1
2
3
4
5
6
0.028 0.130 0.243 0.138 0.023 0.001
0.000 0.008 0.079 0.192 0.127 0.031
0.028 0.138 0.322 0.330 0.150 0.032
Kapitel IX – Paare von Zufallsvariablen
P1(x)
0.563
0.437
1.000
IX - 19
Alle bedingten Wahrscheinlichkeitsfunktionen für X, gegeben Y
Die bedingten Wahrscheinlichkeitsfunktionen für X gegeben Y :
Testergebnis Bedingte Wahrscheinlichkeitsfunktion
y
P1|2(0|y)
P1|2(1|y)
1
1.000
0.000
2
0.942
0.058
3
0.755
0.245
4
0.418
0.582
5
0.153
0.847
6
0.031
0.969
Kapitel IX – Paare von Zufallsvariablen
IX - 20
Bedingte Wahrscheinlichkeitsfunktionen für X, gegeben Y
Bedingte Wahrscheinlichkeitsfunktionen von X :
P1|2(x|y=1)
P1|2(x|y=2)
P1|2(x|y=3)
1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0
1
Ergebnis der Ausbildung (x)
0.0
0
1
Ergebnis der Ausbildung (x)
P1|2(x|y=4)
0
1
Ergebnis der Ausbildung (x)
P1|2(x|y=5)
P1|2(x|y=6)
1.0
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
0
1
Ergebnis der Ausbildung (x)
Kapitel IX – Paare von Zufallsvariablen
0
1
Ergebnis der Ausbildung (x)
0
1
Ergebnis der Ausbildung (x)
IX - 21
Definition der bedingten Wahrscheinlichkeitsfunktionen
Die bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y :
P (x, y)
P1|2(x|y) =
P2(y)
für
P2(y) > 0 .
Wenn P2(y) = 0, dann ist P1|2(x|y) nicht definiert.
Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x :
P (x, y)
P2|1(y|x) =
P1(x)
für
P1(x) > 0
Wenn P1(x) = 0, dann ist P2|1(y|x) nicht definiert.
Kapitel IX – Paare von Zufallsvariablen
IX - 22
Bedingte Wahrscheinlichkeitsfunktionen für Y, gegeben X
Bedingte Wahrscheinlichkeitsfunktionen von Y :
P2|1(y|x=0)
P2|1(y|x=1)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
1
2
3
4
5
6
Ergebnis des Eignungstests (y)
Kapitel IX – Paare von Zufallsvariablen
1
2
3
4
5
6
Ergebnis des Eignungstests (y)
IX - 23
Definition der bedingten Erwartungswerte und Varianzen
Erwartungswert und Varianz von X gegeben Y = y :
E(X|Y = y) =
Var(X|Y = y) =
X
x
X
x
xP1|2(x|y)
(x − E(X|Y = y))2P1|2 (x|y)
Erwartungswert und Varianz von Y gegeben X = x :
E(Y |X = x) =
Var(Y |X = x) =
Kapitel IX – Paare von Zufallsvariablen
X
y
X
y
yP2|1(y|x)
(y − E(Y |X = x))2P2|1(y|x)
IX - 24
Zusammenfassung
Zusammenfassung:
Diskret
Stetig
Gemeinsame Wahrscheinlichkeitsfunktion
P (x, y)
Gemeinsame Dichtefunktion
f (x, y)
Eigenschaften
P (x, y) ≥ 0 für alle x, y ∈ R
PP
P (x, y) = 1
Eigenschaften
f
(x, y) ≥ 0 für alle x, y ∈ R
R R
f (x, y)dydx = 1
x y
xy
Randwahrscheinlichkeitsfunktion von X
P
P1(x) = P (x, y)
Randdichtefunktion von X
R
f1(x) = f (x, y)dy
Bedingte Wahrscheinlichkeitsfunktion
von X gegeben Y
Bedingte Dichtefunktion
von X gegeben Y
P1|2(x|y) = PP(x,y)
2 (y)
f1|2(x|y) = ff(x,y)
2 (y)
y
Kapitel IX – Paare von Zufallsvariablen
y
IX - 25
Gemeinsame Dichtefunktion
Darstellung einer gemeinsamen Dichtefunktion als Funktionsgebirge
(links) und als Imageplot (rechts):
Kapitel IX – Paare von Zufallsvariablen
IX - 26
Stetige Zufallsvariablen X und Y
f (x, y)
Gemeinsame Dichtefunktion:
(i)
Eigenschaften:
(ii)
f (x, y) ≥ 0
∞
R
∞
R
−∞ −∞
für alle x, y ∈ R
f (x, y) dx dy = 1
Dichtefunktion
von X :
f1(x) =
von Y :
∞
R
−∞
f (x, y) dy
f2(y) =
∞
R
−∞
f (x, y) dx
Bedingte Dichtefunktion:
von X gegeben Y :
von Y gegeben X :
f1|2(x|y) = f (x, y)/f2(y)
f2|1(y|x) = f (x, y)/f1(x)
Kapitel IX – Paare von Zufallsvariablen
IX - 27
Berechnung von Wahrscheinlichkeiten
Für eine Zufallsvariable X erhält man die Wahrscheinlichkeit
P (a < X < b) =
Rb
a
f (x) dx
als die Fläche unter der Dichtefunktion über dem Intervall (a, b).
Für zwei Zufallsvariablen X und Y erhält man die Wahrscheinlichkeit
P (a < X < b, c < Y < d) =
Rd Rb
ca
f (x, y )dx dy
als das Volumen unter der Dichtefunktion über dem Rechteck
(a, b) × (c, d).
Kapitel IX – Paare von Zufallsvariablen
IX - 28
Berechnung von Wahrscheinlichkeiten
Beispiele für die Bestimmung der gemeinsamen Wahrscheinlichkeit als
Volumen unter der Dichtefunktion:
Kapitel IX – Paare von Zufallsvariablen
IX - 29
Die gemeinsame Dichtefunktion
Die gemeinsame Dichtefunktion f (x, y) muss die folgenden beiden
Eigenschaften erfüllen:
(i) f (x, y) darf keine negativen Werte annehmen, d.h.
f (x, y) ≥ 0
für alle x, y ∈ R .
(ii) Das gesamte Volumen unter der Dichtefunktion muss
gleich 1 sein, d.h.
Z∞ Z∞
f (x, y)dxdy = 1 .
−∞ −∞
Kapitel IX – Paare von Zufallsvariablen
IX - 30
Beispiel: Das Volumen unter der Dichtefunktion
Beispiel zur Bestimmung des Volumens unter der Dichtefunktion:
⎧
⎨ x + 4 y − 2 xy
3
3
f (x, y) =
⎩
0
Z1 Z1
f (x, y) dxdy =
0 0
=
=
Z1 Z1 µ
0 0
Z1 ·
Kapitel IX – Paare von Zufallsvariablen
sonst
0 ≤ x ≤ 1; 0 ≤ y ≤ 1
4
2
x + y − xy
3
3
¶
dx dy
¸
1 2
4
1 2 1
dy
x + xy − x y
2
3
3
0
0
Z1 µ
0
für
1
y+
2
¶
·
¸
1 2
1 1
dy = y + y = 1
2
2 0
IX - 31
Beispiel: Das Volumen unter der Dichtefunktion
Darstellung der gemeinsamen Dichtefunktion:
⎧
⎨ x + 4 y − 2 xy
3
3
f (x, y) =
⎩
0
Kapitel IX – Paare von Zufallsvariablen
für
sonst
0 ≤ x ≤ 1; 0 ≤ y ≤ 1
IX - 32
Randdichte von X
Die Randdichte von X ist allgemein definiert durch:
f1(x) =
Z∞
f (x, y)dy .
−∞
Für das Beispiel erhält man folgende Randdichte von X :
f1 (x) =
Z1
f (x, y) dy =
0
Z1 µ
0
·
4
2
x + y − xy
3
3
¶
dy
¸
2 2 1 2 1
= xy + y − xy
3
3
0
2 1
2
2
= x+ − x= x+
3 3
3
3
2
für 0 ≤ x ≤ 1 .
=
(x + 1)
3
Kapitel IX – Paare von Zufallsvariablen
IX - 33
Randdichtefunktionen von X und Y
Als vollständige Dichtefunktion wird f1(x) wie folgt notiert:
f1(x) =
(
2 x+1
)
3(
0
für
0≤x≤1
sonst
Entsprechend erhält man für die Randdichte von Y :
f2(y) =
(
y+1
2
0
Kapitel IX – Paare von Zufallsvariablen
für
0≤y≤1
sonst
IX - 34
Erwartungswert von X
Bestimmung des Erwartungswertes von X :
EX =
Z1
xf1(x) dx =
0
=
Z1
0
Z1 µ
0
=
Kapitel IX – Paare von Zufallsvariablen
2
x (x + 1) dx
3
2 2
2
x + x
3
3
¶
·
¸
2 3
1 2 1
dx = x + x
9
3
0
1
5
2
+ =
9
3
9
IX - 35
Varianz von X
Für die Bestimmung der Varianz wird EX 2 benötigt:
EX 2 =
Z1
x2f1(x) dx =
0
=
Z1
2 2
x (x + 1) dx
3
0
Z1 µ
0
·
2 2
2 3
x + x
3
3
¶
dx
¸
1 4
2 3 1
=
x + x
6
9
0
2
7
1
+ =
=
6
9
18
µ ¶2
7
13
5
2
2
−
= 0.08025
Var(X) = EX − (EX ) =
=
18
9
162
Kapitel IX – Paare von Zufallsvariablen
IX - 36
Erwartungswert von Y
Bestimmung des Erwartungswertes von Y :
EY =
Z1
yf2(y) dy =
0
=
Z1
1
y y+
2
0
Z1 µ
0
·
µ
¶
1
2
y + y
2
dy
¶
dy
¸
1 3
1 2 1
=
y + y
3
4
0
1
7
1
+ =
=
3
4
12
Kapitel IX – Paare von Zufallsvariablen
IX - 37
Varianz von Y
Bestimmung der Varianz von Y :
EY 2 =
Z1
y 2f2(y) dy =
0
=
Z1
1
2
y y+
2
0
Z1 µ
0
·
µ
¶
1 2
3
y + y
2
¶
dy
dy
¸
1 4
1 3 1
y + y
=
4
6
0
1
1
5
=
+ =
4
6
12
µ
¶2
7
5
11
2
2
−
= 0.07639
Var(Y ) = EY − (EY ) =
=
12
12
144
Kapitel IX – Paare von Zufallsvariablen
IX - 38
Varianz von Y
Alternative Bestimmung der Varianz von Y :
Var(Y ) = E(Y − EY )2 =
=
=
=
Z∞
−∞
Z1 µ
(y − EY )2 f2(y) dy =
7
49
2
y − y+
6
144
0
Z1 µ
¶µ
Z1 µ
0
¶
1
y+
2
¶ µ
¶
7 2
1
y−
y+
dy
12
2
dy
1
49
7
49
7
y + y2 −
y+
y3 − y2 +
6
144
2
12
288
0
Z1 µ
0
·
2
35
49
y3 − y2 −
y+
3
144
288
¶
¶
dy
dy
¸
1 4 2 3
35 2
49 1
y − y −
y +
y
=
4
9
288
288 0
35
49
11
1 2
− −
+
=
=
4 9 288
288
144
Kapitel IX – Paare von Zufallsvariablen
IX - 39
Berechnung von Wahrscheinlichkeiten
Beispiel 9.4 (Höhe und Wert von Bäumen):
Welcher Anteil von Bäumen in der Grundgesamtheit hat eine Höhe
zwischen 8 und 12 Metern und einen Holzwert zwischen 50 und 100
Euro?
Wie groß ist die Wahrscheinlichkeit, dass ein zufällig aus der
Grundgesamtheit ausgewählter Baum eine Höhe zwischen 8 und 12
Metern und einen Wert zwischen 50 und 100 Euro hat?
P (8 < X < 12; 50 < Y < 100) =
Z12 100
Z
f (x, y) dy dx = 0.22
8 50
Kapitel IX – Paare von Zufallsvariablen
IX - 40
Beispiel: Höhe und Wert von Bäumen
Darstellung der gemeinsamen Dichtefunktion als Funktionsgebirge (links)
und als Image-Plot mit Höhenlinien (rechts):
Kapitel IX – Paare von Zufallsvariablen
IX - 41
Beispiel: Höhe und Wert von Bäumen
Graphische Darstellung der gemeinsamen Wahrscheinlichkeit
P (8 < X < 12; 50 < Y < 100) :
Kapitel IX – Paare von Zufallsvariablen
IX - 42
Randdichtefunktionen
Randdichtefunktion von X (Variable 1): f1(x) =
∞
R
f (x, y) dy
∞
R
f (x, y) dx
−∞
Welcher Anteil von Bäumen in der Grundgesamtheit
hat eine Höhe zwischen 10 und 14 Metern?
P (10 < X < 14) =
Z14
f1(x) dx = 0.26
10
Randdichtefunktion von Y (Variable 2):
f2(y) =
Welcher Anteil von Bäumen hat einen Holzwert
größer als 200 Euro?
P (Y > 200) =
Z∞
−∞
f2(y) dy = 0.15
200
Kapitel IX – Paare von Zufallsvariablen
IX - 43
Randdichtefunktionen
Darstellung der Randdichtefunktionen von X und Y sowie der
Wahrscheinlichkeiten P (10 < X < 14) (oben) und P (Y > 200) (unten):
f1(x)
0.12
0.10
0.08
0.06
0.04
0.02
0.00
0.26
0
10
20
Höhe (m)
30
40
f2 (y )
0.010
0.008
0.006
0.004
0.15
0.002
0.000
0
100
Kapitel IX – Paare von Zufallsvariablen
200
300
Wert (€)
400
500
600
IX - 44
Bedingte Dichtefunktionen
Die bedingte Dichtefunktion von Y gegeben X :
f2|1(y|x) = ff(x,y)
1 (x)
(für f1(x) 6= 0)
Wie groß ist der Anteil an Bäumen, deren Wert zwischen 100 und 200
Euro liegt, wenn ihre Höhe 10 Meter beträgt?
f2|1(y|10) = ff(10,y)
1 (10)
mit
P (100 < Y < 200|X = 10) =
f1(10) =
∞
R
f (10, y)dy
0
200
Z
f2|1(y|10) dy = 0.47
100
Kapitel IX – Paare von Zufallsvariablen
IX - 45
Bedingte Dichtefunktionen
Die bedingte Dichtefunktion von X gegeben Y :
f1|2(x|y) = ff(x,y)
2 (y)
(für f2(y) 6= 0)
Welcher Anteil von Bäumen mit einem Holzwert von 100 Euro ist zwischen
8 und 12 Meter hoch?
f1|2(x|100) = ff(x,100)
2 (100)
mit
P (8 < X < 12|Y = 100) =
f2(100) =
∞
R
f (x, 100) dx
0
Z12
f1|2(x|100) dx = 0.93
8
Kapitel IX – Paare von Zufallsvariablen
IX - 46
Bedingte Dichtefunktionen
Darstellung der bedingten Dichtefunktionen f 2|1(y | x = 10) (oben) und
f 1|2(x | y = 100) (unten):
f2|1(y|x = 10)
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
0.47
0
100
200
300
Wert (€)
400
500
600
f1|2(x|y = 100)
0.4
0.3
0.2
0.1
0.93
0.0
0
Kapitel IX – Paare von Zufallsvariablen
5
10
Höhe (m)
15
20
IX - 47
Bedingter Erwartungswert
Der bedingte Erwartungswert von X gegeben Y :
E(X|Y = y) =
Z∞
xf1|2(x|y) dx
−∞
⎧
⎪
x+ 4
y− 2
⎨
3
3 xy
f (x, y)
y+ 1
f1|2(x|y) =
=
2
⎪
f2(y)
⎩
0
für
0≤x≤1
sonst
4 − 2x
x
+
)
f (x, 1
1
14
8
3
9
9
f1|2(x| ) =
=
=
x+
1
5
3
15
15
f2( 3 )
6
³
E X|Y = 1
3
´
Kapitel IX – Paare von Zufallsvariablen
=
R1
0
³
8
x 14
x
+
15
15
´
dx = 26
45
IX - 48
Bedingte Varianz
Die bedingte Varianz von X gegeben Y :
Var(X|Y = y) =
Z∞
−∞
³
E X|Y =
1
3
´
³
E X 2|Y = 1
3
=
R1
0
´
x
³
(x − E(X|Y = y))2f1|2(x|y) dx
14 x + 8
15
15
´
dx = 26
45
´
R1 2 ³ 14
8
= x 15 x + 15 dx = 37
90
0
³ ´2
1
37
Var(X|Y = 3 ) = 90 − 26
≈ 0.077
45
Kapitel IX – Paare von Zufallsvariablen
IX - 49
Bedingte Dichte, Erwartung und Varianz von Y gegeben X
Die bedingte Dichte, Erwartung und Varianz von Y gegeben X :
⎧
2 xy
⎪
x+ 4
y−
⎨
3
3
f (x, y)
2
f2|1(y|x) =
=
3 (x+1)
⎪
f1(x)
⎩
0
E(Y |X = x) =
Z∞
0≤y≤1
sonst
yf2|1(y|x) dy
−∞
Var(Y |X = x) =
Kapitel IX – Paare von Zufallsvariablen
für
Z∞
−∞
(y − E(Y |X = x))2f2|1(y|x) dy
IX - 50
Die Verteilungsfunktion
Die Verteilungsfunktion einer zweidimensionalen Verteilung ist gegeben
durch:
F (s, t) = P (X ≤ s, Y ≤ t)
Im diskreten Fall gilt:
F (s, t) =
X X
P (x, y)
x≤s y≤t
Im stetigen Fall gilt:
F (s, t) =
Zs
Zt
f (x, y)dydx
−∞ −∞
Kapitel IX – Paare von Zufallsvariablen
IX - 51
Die Verteilungsfunktion
Beispiel:
⎧
4
2
⎪
⎨ x + 3 y − 3 xy
f (x, y) =
⎪
⎩
0
⎧
⎪
0
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
1 s2 t + 2 st2 − 1 s2 t2
⎪
⎪
⎪
2
3
6
⎪
⎪
⎪
⎪
⎨
1 s2 + 2 s
F (s, t) =
3
3
⎪
⎪
⎪
⎪
⎪
⎪
⎪
1 t2 + 1 t
⎪
⎪
⎪
2
2
⎪
⎪
⎪
⎪
⎪
⎪
⎩
1
Kapitel IX – Paare von Zufallsvariablen
für 0 ≤ x ≤ 1;
0≤y≤1
sonst
für
0≤s<0 ∨ 0≤t<0
für
0≤s≤1 ∧ 0≤t≤1
für
0≤s≤1 ∧ 0≤t>1
für
s>1 ∧ 0≤t≤1
für
s>1 ∧ 0≤t>1
IX - 52
Kovarianz und Korrelation
Für die Varianz von X und Y gilt:
Var(X)
=
Var(Y )
=
E(X 2) − E(X)2
E(Y 2) − E(Y )2
=
E(XX) − E(X) E(X)
=
E(Y Y ) − E(Y ) E(Y )
Die Kovarianz ist gegeben durch:
Kov(X, Y )
=
E(XY ) − E(X)E(Y )
Der Korrelationskoeffizient ρ
Kov(X, Y )
ρ=q
Var(X) Var(Y )
ist ein zwischen –1 und 1 normiertes Maß für die Stärke des linearen
Zusammenhangs zwischen X und Y .
Kapitel IX – Paare von Zufallsvariablen
IX - 53
Korrelation
Darstellung der gemeinsamen Dichtefunktion als Funktionsgebirge (links)
und als Höhenlinien (rechts) für ρ = 0.5:
Kapitel IX – Paare von Zufallsvariablen
IX - 54
Korrelation
Für ρ gilt: −1 ≤ ρ ≤ 1 .
deterministischer
linearer
Zusammenhang
X und Y sind
unkorreliert
kein linearer
Zusammenhang
negativer
linearer
Zusammenhang
−1
−0.5
Kapitel IX – Paare von Zufallsvariablen
deterministischer
linearer
Zusammenhang
positiver
linearer
Zusammenhang
0
ρ
0.5
1
IX - 55
Korrelation
Höhenlinien für verschiedene Werte von ρ:
3
3
ρ = 0.95
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-3
3
-2
-1
0
1
2
3
-3
3
ρ = -0.5
2
2
1
1
0
0
-1
-1
-2
-2
-3
-3
-3
Kapitel IX – Paare von Zufallsvariablen
-2
-1
ρ = -0.95
0
1
2
3
-2
-1
0
1
2
3
-1
0
1
2
3
ρ=0
-3
-2
IX - 56
Komponenten des Korrelationskoeffizienten
Komponenten des Korrelationskoeffizienten:
ρ=q
Kov(X, Y )
Var(X) Var(Y )
Var(X) = E(X 2) − E(X)2
Var(Y ) = E(Y 2) − E(Y )2
Kov(X, Y ) = E(XY ) − E(X)E(Y )
Für die Berechnung werden folgende Werte benötigt:
E(X) und E(X 2)
E(Y ) und E(Y 2)
E(XY )
Kapitel IX – Paare von Zufallsvariablen
IX - 57
Beispiel: Komponenten des Korrelationskoeffizienten
Beispiel:
⎧
4
2
⎪
⎨ x + 3 y − 3 xy
f (x, y) =
⎪
⎩
für 0 ≤ x ≤ 1;
0
0≤y≤1
sonst
Komponenten des Korrelationskoeffizienten:
E(X)
=
R1
0
E(X 2)
E(Y )
=
=
=
Kapitel IX – Paare von Zufallsvariablen
=
0
R1 2
x f1(x) dx
0
=
yf2(y) dy
=
R1 2
y f2(y) dy
0
=
R1
0
E(Y 2)
xf1(x) dx
R1
x2
3 (x + 1) dx
R1 2 2
x 3 (x + 1) dx
0
´
R1 ³
1
y y + 2 dy
0
´
R1 2 ³
y y+1
2 dy
0
= 5
9
7
= 18
7
= 12
5
= 12
IX - 58
Beispiel: Komponenten des Korrelationskoeffizienten
Berechnung von E(X Y ):
Z∞ Z∞
E(XY ) =
xy f (x, y) dx dy =
Z1 Z1
2
4
xy (x + y − xy) dx dy
3
3
−∞ −∞
0 0
Z1 Z1
4 2 2 2 2
2
=
x y + xy − x y dx dy
=
=
0 0
Z1 ·
3
¸
1 3
2 2 2 2 3 2 1
x y+ x y − x y
dy
3
3
9
0
0
Z1 µ
0
3
1
2 2 2 2
y+ y − y
3
3
9
¶
dy
17
=
54
Kapitel IX – Paare von Zufallsvariablen
IX - 59
Beispiel: Komponenten des Korrelationskoeffizienten
Mit den Komponenten lassen sich die Varianzen und die Kovarianz
berechnen:
Var(X)
= E(X 2) − E(X)2
³ ´2
7
= 18 − 5
9
13
= − 162
³ ´2
5
7
11
Var(Y )
= 12 − 12
= − 144
³ ´³ ´
17
7
1
Kov(X, Y ) = E(XY ) − E(X)E(Y ) = 54 − 5
=
−
9
12
108
= E(Y 2) − E(Y )2
Daraus ergibt sich folgender Korrelationskoeffizient:
ρ=q
Kov(X, Y )
Var(X)Var(Y )
Kapitel IX – Paare von Zufallsvariablen
=q
1
− 108
13 11
162 144
≈ −0.12
IX - 60
Unabhängigkeit
Zwei Ereignisse A und B sind unabhängig, wenn
P (A ∩ B) = P (A)P (B)
Zwei Zufallsvariablen X und Y sind unabhängig verteilt, wenn
– im diskreten Fall:
P (x, y) = P1(x)P2(y)
für alle x, y ∈ R
– im stetigen Fall:
f (x, y) = f1(x)f2(y)
Kapitel IX – Paare von Zufallsvariablen
für alle x, y ∈ R
IX - 61
Korrelation und Abhängigkeit
Beziehung zwischen Korrelation und Abhängigkeit:
X und Y unabhängig =⇒
X und Y unkorreliert
X und Y unabhängig ⇐=
6
X und Y unkorreliert
Wenn X und Y unabhängig sind, dann gilt
E(XY ) = E(X)E(Y ) .
Daraus folgt
Kov(X, Y ) = E(XY ) − E(X)E(Y ) = 0
und somit gilt
ρ = √ Kov(X,Y )
Var(X)Var(Y )
Kapitel IX – Paare von Zufallsvariablen
= 0.
IX - 62
Korrelation und Abhängigkeit
E(XY ) =
=
=
Z∞ Z∞
−∞ −∞
Z∞ Z∞
xy f (x, y) dx dy
xy f1(x)f2(y) dx dy
−∞ −∞
Z∞
−∞
⎡
⎢
y f2(y) ⎣
= E(X)
Z∞
Z∞
−∞
(Unabhängigkeit)
⎤
⎥
xf1(x) dx⎦ dy
yf2(y) dy
−∞
= E(X)E(Y )
Kapitel IX – Paare von Zufallsvariablen
IX - 63
Beispiel: Stetige Zufallsvariable
Beispiel für eine stetige Zufallsvariable:
⎧
4
2
⎪
⎨ x + 3 y − 3 xy
f (x, y) =
⎪
⎩
für 0 ≤ x ≤ 1;
0
0≤y≤1
sonst
Randdichte von X : f1(x) =
(
2 x+1
)
3(
für
0≤x≤1
sonst
Randdichte von Y : f2(y) =
(
y+1
2
0
für 0 ≤ y ≤ 1
sonst
0
1x + 2y + 1
f1(x) f2(y) = 2
xy
+
3
3
3
3
X und Y sind nicht unabhängig verteilt, da
f (x, y) = f1(x)f2(y)
z.B
f (0, 0) = 0
Kapitel IX – Paare von Zufallsvariablen
nicht für alle x, y ∈ R gilt
aber
f1(0)f2(0) = 1
3
IX - 64
Beispiel: Diskrete Zufallsvariable
Beispiel Eignungstest:
Das Ergebnis der Ausbildung:
X
Das Ergebnis des Eignungstests: Y
Y
X
0
1
P2(y)
1
2
0.028 0.130
0.000 0.008
0.028 0.138
3
4
5
0.243 0.138 0.023
0.079 0.192 0.127
0.322 0.330 0.150
6
P1(x)
0.001 0.563
0.031 0.437
0.032 1.000
X und Y sind nicht unabhängig verteilt, weil
P (x, y) = P1(x)P2(y)
gilt nicht für alle x, y ∈ R .
Z.B.: P (0, 1) = 0.28 aber P1(0)P2(1) = 0.563 × 0.028 ≈ 0.016
Kapitel IX – Paare von Zufallsvariablen
IX - 65
Beispiel: Höhe und Wert eines Baumes
Beispiel zur Höhe und Wert eines Baumes:
X:
Höhe der Bäume
Y :
Holzwert
E(Y )
=
97
E(Y |X = 8)
E(Y |X = 10)
E(Y |X = 12)
=
=
=
61
103
174
Var(Y )
=
8 527
Var(Y |X = 8)
=
Var(Y |X = 10) =
Var(Y |X = 12) =
349
995
2 834
In allen Fällen ist Var(Y |X = x) ≤ Var(Y ) .
Falls X und Y unabhängig sind, gilt Var(Y |X = x) = Var(Y ) .
Kapitel IX – Paare von Zufallsvariablen
IX - 66
Beispiel: Höhe und Wert eines Baumes
Höhe und Wert eines Baumes: Randdichte von Y und bedingte Dichten
von Y gegeben X = 8, 10 und 12:
0.025
0.020
f2(y)
: E(Y) = 98
/ Var(Y) = 8539
f2|1(y|x = 8) : E(Y|x = 8) = 61 / Var(Y|x = 8) = 349
f2|1(y|x = 10) : E(Y|x = 10) = 103 / Var(Y|x = 10) = 995
f2|1(y|x = 12) : E(Y|x = 12) = 174 / Var(Y|x = 12) = 2834
0.015
0.010
0.005
0.000
0
50
100
150
200
250
300
350
400
450
500
Wert (€)
Kapitel IX – Paare von Zufallsvariablen
IX - 67
Zusammenfassung: Paare von Zufallsvariablen
Paare von diskreten Zufallsvariablen:
P (x, y) → P1(x)
→ E(X)
und
Var(X)
→
P2(y)
→
E(Y )
und
Var(Y )
→
P1|2(x|y)
→
E(X|Y = y)
und
Var(X|Y = y)
→
P2|1(y|x)
→
E(Y |X = x)
und
Var(Y |X = x)
→
Kov(X, Y )
→
ρ
Paare von stetigen Zufallsvariablen:
f (x, y)
→
f1(x)
→
E(X)
und
Var(X)
→
f2(y)
→
E(Y )
und
Var(Y )
→
f1|2(x|y)
→
E(X|Y = y)
und Var(X|Y = y)
→
f2|1(y|x)
→
E(Y |X = x)
und Var(Y |X = x)
→
Kov(X, Y )
→
ρ
Kapitel IX – Paare von Zufallsvariablen
IX - 68
Die univariate Normalverteilung
Die Zufallsvariable X ∼ N (μ, σ 2) hat die Dichtefunktion
f (x) = √1
σ 2π
e
−1
2
µ
x−μ
σ
¶2
für x ∈ R
0.4
0.3
σ
0.2
0.1
0.0
-3
Kapitel IX – Paare von Zufallsvariablen
-2
-1
μ0
1
2
3
IX - 69
Die zweidimensionale (bivariate) Normalverteilung
Die bivariate Normalverteilung hat fünf Parameter:
Parameter
Bedeutung
Eigenschaft
μx
Erwartungswert von X
μy
Erwartungswert von Y
2
σx
Varianz von X
2 >0
σx
σy2
Varianz von Y
σy2 > 0
ρ
Korrelationskoeffizient
μx ∈ R
μy ∈ R
−1 ≤ ρ ≤ 1
Die Zufallsvariablen X und Y sind bivariat normalverteilt mit den
Parametern μx, μy , σx2, σy2 und ρ:
(X, Y ) ∼ N (μx, μy , σx2, σy2, ρ)
Kapitel IX – Paare von Zufallsvariablen
IX - 70
Die zweidimensionale Normalverteilung
Dichtefunktion der bivariaten Normalverteilung:
f (x, y) = A e−B Q
A=
Q=
für x, y ∈ R
1
q
2πσxσy 1 − ρ2
µ
¶
x − μx 2
σx
Kapitel IX – Paare von Zufallsvariablen
, B=
µ
³
1
2 1 − ρ2
x − μx
− 2ρ
σx
¶Ã
´
y − μy
σy
!
Ã
y − μy
+
σy
!2
IX - 71
Die zweidimensionale Normalverteilung: Randverteilungen
Gegeben sei eine zweidimensional Normalverteilung:
(X, Y ) ∼ N (μx, μy , σx2, σy2, ρ)
Die Randverteilung
Parametern μx und
von X ist eine Normalverteilung mit den
σx2, d.h.
X ∼ N (μx, σx2)
Die Randverteilung von Y ist eine Normalverteilung mit den
Parametern μy und σy2, d.h.
Y ∼ N (μy , σy2)
Kapitel IX – Paare von Zufallsvariablen
IX - 72
Die zweidimensionale Normalverteilung: Bedingte Verteilungen
Die bedingte Verteilung von X gegeben Y = y ist auch eine
Normalverteilung:
(X|Y = y) ∼ N (μ, σ 2) .
Die Parameter der bedingten Verteilung bestimmen sich wie folgt:
μ = E(X|Y = y) = μx + ρ σσxy (y − μy )
Eine Gerade
μ = a + by
σ 2 =Var(X|Y = y) = σx2(1 − ρ2)
σ 2 ≤ σx2
Kapitel IX – Paare von Zufallsvariablen
IX - 73
Die zweidimensionale Normalverteilung
Darstellung der bivariaten Normalverteilung für verschiedene Werte von ρ :
ρ = -0.99
ρ = -0.7
ρ = 0.5
ρ = 0.9
ρ = 0.7
ρ = 0.99
ρ=0
ρ = -0.9
Kapitel IX – Paare von Zufallsvariablen
ρ = -0.5
IX - 74
Maximum-Likelihood Schätzer
Maximum-Likelihood Schätzer:
Parameter
Erwartungswert von X
Erwartungswert von Y
Varianz von X
Varianz von Y
Kovarianz(X, Y )
Korrelationskoeffizient
Kapitel IX – Paare von Zufallsvariablen
Schätzer
n
P
1
b x = x̄ =
μ
xi
n
i=1
n
P
1
b y = ȳ =
μ
yi
n
i=1
n
P
1
2
2 − x̄2
bx =
σ
x
i
n
i=1
n
P
1
2 − ȳ 2
b y2 =
σ
y
i
n
i=1
n
P
1
d
Kov(X,
Y)= n
xiyi − x̄ȳ
i=1
d
Kov(X,Y
)
ρb =
σ
bx σ
by
IX - 75
Beispiel: Wasser- und Kaloriengehalt
Beispiel 9.1 (Wasser- und Kaloriengehalt):
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Kapitel IX – Paare von Zufallsvariablen
xi
6.3
6.3
7.3
11.3
12.2
12.2
13.7
15.5
15.5
15.5
15.8
16.5
19.0
20.3
23.2
23.7
27.0
yi
18.201
17.976
18.235
17.410
16.857
16.882
16.581
16.398
16.174
15.528
16.660
16.217
15.725
15.677
15.005
15.465
14.177
i
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
xi
29.9
30.4
32.3
32.3
35.0
35.6
41.0
41.7
42.3
55.0
57.2
57.6
57.8
58.7
60.3
61.0
61.7
yi
12.928
13.363
14.095
12.712
12.378
12.325
11.733
11.456
11.416
8.601
8.534
8.495
8.460
8.012
7.821
7.523
7.378
IX - 76
Beispiel: Wasser- und Kaloriengehalt
Für das Beispiel erhält man folgende Schätzer:
Parameter
Erwartungswert von X
Erwartungswert von Y
Varianz von X
Varianz von Y
Kovarianz(X, Y )
Korrelationskoeffizient
Kapitel IX – Paare von Zufallsvariablen
Schätzer
b x = x̄ = 30.9
μ
b y = ȳ = 13.4
μ
2 = 331.4
bx
σ
b y2 = 12.2
σ
d
Kov(X,
Y ) = −63.3
ρb = −0.996
IX - 77
Beispiel: Wasser- und Kaloriengehalt
Frage: Welcher Anteil der Zuckerrohr-Stücke hat einen Brennwert
zwischen 12 und 15?
Die geschätzte Randverteilung von Y ist Y ∼ N (13.4; 12.2) .
Antwort:
P (12 < Y < 15) = F (15) − F (12)
12−13.4 )
= Φ( 15−13.4
)
−
Φ
(
3.5
3.5
= Φ(0.46) − Φ(−0.40)
≈ 0.33
Kapitel IX – Paare von Zufallsvariablen
IX - 78
Beispiel: Wasser- und Kaloriengehalt
Darstellung der Randverteilung von Y :
0.12
0.10
f(y)
0.08
0.06
0.04
0.02
0.00
0
5
10
15
20
25
y
Kapitel IX – Paare von Zufallsvariablen
IX - 79
Beispiel: Wasser- und Kaloriengehalt
Frage: Welcher Anteil der Zuckerrohr-Stücke mit 10 % Wassergehalt hat
einen Brennwert zwischen 12 und 15?
Die geschätzte bedingte Verteilung von Y gegeben X = 10 ist
N(17.4, 0.097):
σ̂y
E(Y |X = 10) = μ̂y + ρ̂ (10 − μ̂x) = 17.4
σ̂x
Var(Y |X = 10) = σ̂y2(1 − ρ̂2) = 0.097
Antwort:
P (12 < Y < 15|X = 10) = F (15) − F (12)
12−17.4 )
= Φ( 15−17.4
)
−
Φ
(
0.312
0.312
≈0
Kapitel IX – Paare von Zufallsvariablen
IX - 80
Beispiel: Wasser- und Kaloriengehalt
Darstellung der bedingten Verteilungen von Y :
1.4
gegeben X=60 gegeben X=35 gegeben X=10
1.2
1.0
f(y)
0.8
0.6
0.4
0.2
0.0
0
5
10
15
20
25
y
Kapitel IX – Paare von Zufallsvariablen
IX - 81
Die Normalverteilung mit ρ = 0
Die bedingte Verteilung von Y gegeben X = x ist N (μ, σ 2) mit
σ
μ = μy + ρ σxy (x − μx) und σ 2 = σy2(1 − ρ2)
Wenn ρ = 0, gilt μ = μy und σ 2 = σy2
⇒ f2|1(y|x) = f2(y)
f2|1(y|x) = ff(x,y)
1 (x)
⇒ f2(y) = ff(x,y)
1 (x)
f2|1(y|x) = ff(x,y)
1 (x)
⇒ f (x, y) = f1(x)f2(y)
f2|1(y|x) = ff(x,y)
1 (x)
⇒ X und Y sind unabhängig verteilt.
Für X und Y normalverteilt gilt:
X und Y unabhängig
Kapitel IX – Paare von Zufallsvariablen
⇐⇒
X und Y unkorreliert
IX - 82
Kapitel 10
Stimmt mein Modell –
χ2-Anpassungs- und Unabhängigkeitstest
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-0
Der Chi-Quadrat-Anpassungstest
Übersicht:
Der χ2 - Anpassungstest für diskrete Zufallsvariablen:
– Beispiel: Kassenprüfung durch das Finanzamt,
– Beispiel: Überprüfung des Benford‘schen Gesetzes,
– Beispiel: Monatliche Anzahl starker Erdbeben.
Der χ2 - Anpassungstest für stetige Zufallsvariablen:
– Beispiel: Dauer von Call-Center-Anrufen,
– Beispiel: Deutsche Bank Aktienrenditen.
Das χ2 - Modellauswahl-Kriterium.
Der χ2 - Unabhängigkeitstest:
– Beispiel: Sicherheitsgurte und Verletzungsrisiko,
– Beispiel: Heimvorteil im Fußball.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-1
Der Chi-Quadrat-Anpassungstest
Neue Begriffe:
Anpassungstest
Beobachtete und erwartete Häufigkeiten
(observed / expected frequencies)
Die χ2 – Prüfgröße
Das χ2 – Modellauswahl-Kriterium
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-2
Anpassung von Modellen an Daten
Eigenschaften der Grundgesamtheit:
Parameter
Erwartungswert
Varianz
Anteil ,,Erfolge”
Symbol
μ
σ2
π
Schätzer
b = x̄
μ
S 2 oder S∗2
b = Anteil in der Stichprobe
π
Anpassung von Modellen an Daten:
Modell
Symbol
Wahrscheinlichkeitsfunktion P (x)
Dichtefunktion
f (x)
Schätzer
Pb (x)
fb(x)
Falls P (x) oder f (x) von Parametern abhängen, werden die Parameter mit
Hilfe der Methode der Momente oder der Maximum-Likelihood Methode
geschätzt.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-3
Anpassung von Modellen in der Praxis
Das Verhalten von Zufallsvariablen wird durch eine Wahrscheinlichkeitsbzw. Dichtefunktion beschrieben:
Wahrscheinlichkeitsfunktion
Anzahl der Call-Center Anrufe
λ
bx e−b
λ
b
P (x) = x!
Dichtefunktion
Anrufdauer (in Sekunden)
b
b −λx
fb(x) = λe
Wie kann man überprüfen, ob das angepasste Modell „vernünftig“ ist?
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-4
Beispiel 1: Kassenprüfung durch das Finanzamt
Hypothese:
Die Ziffern an der ersten Nachkommastelle der
Kasseneinträge sind alle gleich wahrscheinlich.
Grundgesamtheit:
Kasseneinträge von 484 Haushalten von Juni bis
August 1986.
Stichprobe:
n = 1000 zufällig ausgewählte Kasseneinträge.
Ziffer
0
1
2
3
4
5
6
7
8
9
Klasse
1
2
3
4
5
6
7
8
9
10
P (Klasse)
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
Unter H0
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
100
100
100
100 100
100
100
100
100
100
97
95
100
104
88
97
99
110
Erwartete Häufigkeit
Beobachtete Häufigkeit 114
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
96
X-5
Beispiel 1: Kassenprüfung durch das Finanzamt
Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der ersten
Nachkommastelle:
beobachtet
erwartet
120
Häufigkeit
100
80
60
40
20
0
0
1
2
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
3
4
5
6
7
8
9
X-6
Notation und Prüfgröße
Notation:
Erwartete Häufigkeiten:
(„expected frequency“)
fie,
i = 1, 2, . . . , K
Beobachtete Häufigkeiten:
(„observed frequency“)
fio,
i = 1, 2, . . . , K
Prüfgröße:
K (f −f )2
P
io
ie
PG =
fie
i=1
H0 wird verworfen, wenn PG „sehr groß“ ist.
Satz: Unter H0 gilt P G ∼ χ2(ν),
mit ν = K – r – 1
und r = Anzahl der geschätzten Parameter.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-7
Beispiel 1: Die Prüfgröße
Berechnung der Prüfgröße für Beispiel 1:
PG =
10
X
(fio − fie)2
i=1
fie
(97 − 100)2
(110 − 100)2
(114 − 100)2
+
+ ··· +
=
100
100
100
= 1.96 + 0.09 + · · · + 1.00
= 5.16
Anzahl der Klassen:
K = 10
Anzahl der geschätzten Parameter: r = 0 ,
ν=K–r–1=9
Unter H0 gilt P G ∼ χ2(9).
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X-8
Beispiel 1: Die Prüfgröße
Dichtefunktion der χ2(9) - Verteilung und Ablehnungsbereich für α = 0.05:
0.15
Nullhypothese nicht verwerfen
Nullhypothese
verwerfen
95%
5%
f(x)
0.10
0.05
0.00
0
2
4
6
8
10
12
x
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
14
16
χ
18
2
9,0.95
20
22
24
= 16.92
X-9
Beispiel 1: Berechnung der Prüfgröße
Arbeitstabelle zur Berechnung der Prüfgröße:
Klasse
(Ziffer)
beobachtete erwartete
Häufigkeit
Häufigkeit
Abweichung Abweichung2
Beitrag
zu χ2
i
fio
fie
fio − fie
(fio − fie)2
(fio − fie)2/fie
1 (0)
2 (1)
3 (2)
4 (3)
5 (4)
6 (5)
7 (6)
8 (7)
9 (8)
10 (9)
114
97
95
100
96
104
88
97
99
110
100
100
100
100
100
100
100
100
100
100
14
-3
-5
0
-4
4
-12
-3
-1
10
196
9
25
0
16
16
144
9
1
100
1.96
0.09
0.25
0.00
0.16
0.16
1.44
0.09
0.01
1.00
Summe:
5.16
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 10
Beispiel 1: Ablehnungsbereich und Testergebnis
Unter H0 gilt P G ∼ χ2(9) .
Signifikanzniveau α = 5%
Ablehnungsbereich A = [16.92, ∞)
P G = 5.16 ∈
/ [16.92, ∞)
H0 kann nicht verworfen werden.
Nullhypothese: Die Ziffern an der ersten Nachkommastelle der
Kasseneinträge sind alle gleich wahrscheinlich.
Wir können nicht schließen, dass die Ziffern nicht gleich wahrscheinlich
sind.
P-Wert: P (P G > 5.16) ≈ 0.82 .
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 11
Beispiel 1: Bestimmung des P-Werts
Bestimmung des P-Werts beim χ2 – Anpassungstest:
0.15
f(x)
0.10
0.05
0.82
0.00
0
2
4
6
5.16
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
8
10
12
14
16
18
20
22
24
x
X - 12
Beispiel 2: Das Benford‘sche Gesetz
Hypothese: Die Wahrscheinlichkeitsfunktion der ersten Ziffern ist
gegeben durch
log10(1 + 1d ),
für d = 1, 2, . . . , 9 .
Stichprobe: n = 1000 zufällig ausgewählte Kasseneinträge.
Ziffer
1
2
3
4
5
6
7
8
9
Klasse
1
2
3
4
5
6
7
8
9
P (Klasse)
P1
P2
P3
P4
P5
P6
P7
P8
P9
Unter H0
0.301
0.176
fie= nPi
301
176
125
97
79
67
58
51
46
fio
284
197
132
98
69
67
47
62
44
0.125 0.097 0.079 0.067 0.058 0.051 0.046
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 13
Beispiel 2: Das Benford‘sche Gesetz
Beobachtete und erwartete Häufigkeiten möglicher Ziffern an der ersten
Stelle von Kasseneinträgen:
300
beobachtet
erwartet
250
Häufigkeit
200
150
100
50
0
1
2
3
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
4
5
6
Ziffer an 1. Stelle
7
8
9
X - 14
Beispiel 2: Die Prüfgröße
Berechnung der Prüfgröße für Beispiel 2:
PG =
9
X
(fio − fie)2
i=1
fie
(284 − 301)2
(197 − 176)2
(44 − 46)2
=
+
+ ··· +
301
176
46
= 0.96 + 2.51 + · · · + 0.09
= 9.69
Anzahl der Klassen:
K=9
Anzahl der geschätzten Parameter: r = 0 ,
ν=K–r–1=8
Unter H0 gilt P G ∼ χ2(8).
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 15
Beispiel 2: Berechnung der Prüfgröße
Arbeitstabelle zur Berechnung der Prüfgröße:
Klasse
1
2
3
4
5
6
7
8
9
fio
fie
284 301
197 176
132 125
98
97
69
79
67
67
47
58
62
51
44
46
fio − fie
(fio − fie)2
(fio − fie)2/fie
-17
21
7
1
-10
0
-11
11
-2
289
441
49
1
100
0
121
121
4
0.96
2.51
0.39
0.01
1.27
0.00
2.09
2.37
0.09
Summe:
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
9.69
X - 16
Beispiel 2: Ablehnungsbereich und Testergebnis
Unter H0 gilt P G ∼ χ2(8) .
Signifikanzniveau α = 10%
Ablehnungsbereich A = [13.36, ∞)
P G = 9.69 ∈
/ [13.36, ∞)
H0 kann nicht verworfen werden.
Nullhypothese:
Die relative Häufigkeit der Ziffern an der ersten Stelle
folgt dem Benford‘schen Gesetz.
P-Wert: P (P G > 9.69) ≈ 0.29 .
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 17
Beispiel 3: Monatliche Anzahl starker Erdbeben
Hypothese: Die monatliche Anzahl starker Erdbeben ist Poissonverteilt:
⎧
λ
⎨ λ
bx e−b
für x = 0, 1, 2, . . .
Pb (x) =
x!
⎩ 0
sonst
b = x̄ = 1.2) .
Beobachtungen: n = 408 (λ
Anzahl
0
1
2
3
4+
Klasse
1
2
3
4
5
P (Klasse)
P1
P2
P3
P4
P5
Unter H0
fie= nPi
fio
0.301 0.361 0.217 0.087 0.034
122.8 147.3
129
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
136
88.5
35.5
13.9
90
38
15
X - 18
Beispiel 3: Die Prüfgröße
Berechnung der Prüfgröße für Beispiel 3:
PG =
5
X
(fio − fie)2
i=1
fie
(129 − 122.8)2
(136 − 147.3)2
(15 − 13.9)2
=
+
+ ··· +
122.8
147.3
13.9
= 0.31 + 0.87 + · · · + 0.09
= 1.48
Anzahl der Klassen:
K=5
Anzahl der geschätzten Parameter: r = 1
ν=K–r–1=3
Unter H0 gilt P G ∼ χ2(3).
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 19
Beispiel 3: Berechnung der Prüfgröße
Arbeitstabelle zur Berechnung der Prüfgröße:
Klasse
fio
Pi
fie
fio − fie
(fio − fie)2
(fio − fie)2/fie
0
129
0.301
122.8
6.2
38.44
0.31
1
136
0.361
147.3
-11.3
127.69
0.87
2
90
0.217
88.5
1.5
2.25
0.03
3
38
0.087
35.5
2.5
6.25
0.18
4+
15
0.034
13.9
1.1
1.21
0.09
Summe:
1.48
Eine Besonderheit stellt in diesem Fall die letzte Klasse dar. Sie umfasst alle
Beobachtungen mit 4 oder mehr Erdbeben und wird daher mit „4+“
gekennzeichnet.
Grund: Der χ2 – Anpassungstest liefert nur dann verlässliche Ergebnisse,
wenn die erwartete Häufigkeit in jeder Klasse mindestens 5 beträgt.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 20
Beispiel 3: Ablehnungsbereich und Testergebnis
Unter H0 gilt P G ∼ χ2(3).
Signifikanzniveau α = 10%
Ablehnungsbereich A = [6.25, ∞)
P G = 1.48 ∈
/ [6.25, ∞)
H0 kann nicht verworfen werden.
Nullhypothese:
Die monatliche Anzahl starker Erdbeben ist
Poissonverteilt.
P-Wert: P (P G > 1.48) ≈ 0.69.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 21
Beispiel 4: Dauer von Call-Center-Anrufen
Hypothese: Die Dauer der Call-Center-Anrufe ist Exponentialverteilt:
fb(x) =
(
b
b −λx für x ≥ 0
λe
0
sonst
b = 1/x̄ = 0.006).
Beobachtungen: n = 590 (λ
Intervall
Klasse
P (Klasse)
Unter H0
fie= nPi
fio
[0, 100] (100, 200] (200, 300] (300, 400] (400, 500] (500, 600] (600, 700] (700, ∞)
1
P1
0.451
266.2
271
2
P2
0.248
146.1
160
3
P3
0.136
80.2
65
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
4
P4
0.075
44.0
36
5
P5
0.041
24.1
18
6
P6
0.022
13.3
15
7
P7
0.012
7.3
9
8
P8
0.015
8.8
16
X - 22
Beispiel 4: Dauer von Call-Center-Anrufen
Histogramm der Dauer von Call-Center-Anrufen und angepasste
Exponentialverteilung (oben) und Ausschnitt aus dem Histogramm (unten):
0.006
0.005
0.004
0.003
0.002
0.001
0.000
0
200
400
600
800
1000
1200
1400
1200
1300
1400
Anrufdauer (Sekunden)
0.00010
0.00008
0.00006
0.00004
0.00002
0.00000
700
800
900
1000
1100
Anrufdauer (Sekunden)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 23
Beispiel 4: Die Prüfgröße
Berechnung der Prüfgröße für Beispiel 4:
PG =
8
X
(fio − fie)2
i=1
fie
(160 − 146.1)2
(16 − 8.8)2
(271 − 266.2)2
+
+ ··· +
=
266.2
146.1
8.8
= 0.09 + 1.32 + · · · + 5.78
= 13.73
Anzahl der Klassen:
K=8
Anzahl der geschätzten Parameter: r = 1 ,
ν=K–r–1=6
Unter H0 gilt P G ∼ χ2(6).
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 24
Beispiel 4: Ablehnungsbereich und Testergebnis
Unter H0 gilt P G ∼ χ2(6).
Signifikanzniveau α = 1%
Ablehnungsbereich A = [16.81, ∞)
P G = 13.73 ∈
/ [16.81, ∞)
H0 kann nicht verworfen werden.
Nullhypothese: Die Anrufdauer ist Exponentialverteilt.
P-Wert: P (P G > 13.73) ≈ 0.03.
Bei α = 0.05 oder α = 0.10 würde man H0 verwerfen.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 25
Vorgehensweise beim Chi-Quadrat-Anpassungstest
Vorgehensweise beim χ2 – Anpassungstest:
Einteilung der Beobachtungen in K Klassen.
– Alle erwarteten Häufigkeiten sollen mindestens 5 betragen.
– Die Wahl der Klassen kann das Ergebnis beeinflussen.
Berechnung der erwarteten Häufigkeiten.
– Berechnung der Wahrscheinlichkeiten Pi , i = 1, 2, ..., K .
– Berechnung der erwarteten Häufigkeiten fie = nPi .
Bestimmung des Ablehnungsbereiches:
– A = [χ2
ν,α ; ∞) mit ν = K − r − 1.
Berechnung der Prüfgröße und Vergleich mit dem Ablehnungsbereich:
– Wenn PG ∈ A, dann wird H0 verworfen.
– Wenn PG ∉ A, dann wird H0 nicht verworfen.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 26
Das Chi-Quadrat-Modellauswahl-Kriterium
Es kann vorkommen, dass zwei oder mehr Modelle für einen Datensatz
zur Auswahl stehen.
Eine Möglichkeit ist es, anhand des χ2 - Kriteriums das „beste“ Modell
auszuwählen:
PG
ν
PG
=
K−r−1
χ2 − Kriterium =
Das Modell mit dem kleinsten Wert des Kriteriums wird gewählt.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 27
Beispiel 5: Aktienrenditen
Zeitlicher Verlauf der Deutsche Bank Renditen:
Deutsche Bank Tagesrendite (%)
6
I/06
II/06
III/06
IV/06
I/07
II/07
III/07
IV/07
4
2
0
-2
-4
-6
100
200
300
400
500
Handelstag (02.01.06 - 28.12.07)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 28
Beispiel 5: Aktienrenditen
Hypothese: Die Aktienrenditen der Deutschen Bank Aktie sind
normalverteilt:
fb(x) = √ 1
2π σ
b
μ)
− (x−b
e 2bσ2
2
Stichprobengröße:
n
Parameterschätzer:
b
μ
b2
σ
für x ∈ IR
= 506
= x̄
= S2
= 0.02
= 1.392
Bestimmung der erwarteten Häufigkeiten:
µ
¶
µ
b
b
b−μ
a−μ
b
P (a ≤ X ≤ b) = Φ
−Φ
b
b
σ
σ
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
¶
X - 29
Beispiel 5: Aktienrenditen
Bestimmung von P (0 < X ≤ 1) mit Hilfe der Verteilungsfunktion der
Standardnormalverteilung:
Dichtefunktion der N(0.02;1.39²)-Verteilung
0.5
Fläche = 0.265
ϕ(x)
0.4
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
2
3
x
Verteilungsfunktion der N(0;1)-Verteilung
1.0
Φ (x)
0.8
0.761
0.6
0.4
0.496
0.2
-0.01
0.0
-3
-2
-1
0.71
0
1
x
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 30
Beispiel 5: Berechnung der Prüfgröße
Arbeitstabelle zur Berechnung der Prüfgröße:
fie
(fio − fie)2/fie
0.015
7.7
0.71
32
0.059
29.7
0.18
64
0.159
80.4
3.33
(−1; 0]
130
0.262
132.8
0.06
(0; 1]
162
0.265
133.9
5.89
(1; 2]
76
0.163
82.4
0.50
(2; 3]
21
0.061
31.0
3.21
(3; ∞)
11
0.016
8.2
0.98
Klasse
fio
(−∞; −3]
10
(−3; −2]
(−2; −1]
Summe
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
Pi
14.86
X - 31
Beispiel 5: Die Prüfgröße
8 (f −f )2
P
io
ie
PG =
= 14.86
fie
i=1
Anzahl der Klassen:
K=8
Anzahl der geschätzten Parameter: r = 2 ,
ν=K–r–1=5
Unter H0 gilt P G ∼ χ2(5).
Signifikanzniveau α = 10%
Ablehnungsbereich A = [9.24, ∞)
P G = 14.86 ∈ [9.24, ∞)
H0 wird verworfen.
P-Wert: P (P G > 14.86) ≈ 0.01.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 32
Beispiel 5: Alternative Modellierung von Renditen
In vielen Fällen kann gezeigt werden, dass Renditen nicht normalverteilt
sind. Im Gegensatz zu einer Normalverteilung ist in der Regel der mittlere
Bereich schmaler, und die Enden sind stärker besetzt.
Ein Erklärungsansatz hierfür ist das Vorliegen von ruhigen und unruhigen
Phasen am Markt.
Ein möglicher Ansatz ist der Einsatz von Mischverteilungen, z.B. von zwei
Normalverteilungen:
f (x) = 0.43f1(x) + 0.57f2(x)
mit
und
f1(x) : N(0.19; 0.842)
f2(x) : N(−0.11; 1.682).
Die Mischverteilung ist hierbei eine Mischung aus einer „schmalen“
(ruhiger Markt, f1(x)) und einer „breiten“ (unruhiger Markt, f2(x))
Normalverteilung im Verhältnis 0.43 zu 0.57.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 33
Beispiel 5: Alternative Modellierung von Renditen
Histogramm der DAX-Renditen und angepasste Mischverteilung:
0.5
2
f 1: N(0.19;0.84 )
0.4
Dichte
0.3
0.43f 1 + 0.57f 2
2
0.2
f 2: N(-0.11;1.68 )
0.1
0.0
-6
-4
-2
0
2
4
6
Deutsche Bank Tagesrendite (%)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 34
Kontingenztafeln und der χ2 – Unabhängigkeitstest
Die Zufallsvariablen X und Y sind unabhängig verteilt, wenn
im diskreten Fall:
P (x, y) = P1(x)P2(y)
für alle x, y ∈ R
im stetigen Fall:
f (x, y) = f1(x)f2(y)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
für alle x, y ∈ R
X - 35
Beispiel 6: US-Präsidentenwahl 2000
Gegeben sei eine Zufallsstichprobe von 383 Wählern.
Folgende beiden Merkmale werden betrachtet:
Geschlecht: X = 0 weiblich
X = 1 männlich
Kandidat: Y = 0 pro Bush
Y = 1 kontra Bush.
Beobachtete Häufigkeiten in der Stichprobe:
Geschlecht
weiblich
männlich
Total
Kandidat
pro Bush kontra Bush
73
144
73
93
146
237
Total
217
166
383
H0: Die beiden Merkmale sind unabhängig verteilt.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 36
Vorgehensweise
H0: Die beiden Merkmale sind unabhängig.
Vorgehensweise bei der Überprüfung der Hypothese:
– Bestimmung der erwarteten Häufigkeiten (unter Gültigkeit von H0).
– Bestimmung der Prüfgröße:
PG =
X ( beobachtete Häufigkeit − erwartete Häufigkeit)2
erwartete Häufigkeit
Satz: Unter der Nullhypothese gilt:
P G ∼ χ2(ν) mit ν = (r − 1)(s − 1),
r : Anzahl der Zeilen und s : Anzahl der Spalten.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 37
Beobachtete relative Häufigkeiten
Beobachtete relative Häufigkeiten in der Stichprobe:
Kandidat
Geschlecht
pro Bush
kontra Bush
Total
weiblich
73 = 0.1906
383
144 = 0.3760
383
217 = 0.5666
383
männlich
73 = 0.1906
383
93 = 0.2428
383
166 = 0.4334
383
Total
146 = 0.3812
383
237 = 0.6188
383
383 = 1.000
383
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 38
Gemeinsame Wahrscheinlichkeitsfunktion
Graphische Darstellung der gemeinsamen Wahrscheinlichkeitsfunktion:
P(x,y)
0.8
0.6
0.4
0.2
)
(Y
t
ida
d
n
Ka
o
pr
n
ko
tr
h
us
B
a
sh
u
B
0
w
m
Geschlecht (X)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 39
Randwahrscheinlichkeitsfunktionen
Wahrscheinlichkeit
Graphische Darstellung der Randwahrscheinlichkeitsfunktionen:
1.0
0.8
0.6
0.4
0.2
0.0
w
m
Wahrscheinlichkeit
Geschlecht (X)
1.0
0.8
0.6
0.4
0.2
0.0
pro Bush
kontra Bush
Kandidat (Y)
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 40
Beobachtete relative Häufigkeiten
Beobachtete relative Häufigkeiten:
Geschlecht
weiblich (w)
männlich (m)
Total
Pb (w)
Pb (B)
= 0.5666;
= 0.3812;
Kandidat
pro Bush (B) kontra Bush (K)
0.1906
0.3760
0.1906
0.2428
0.3812
0.6188
Pb (m)
Pb (K)
=
=
Total
0.5666
0.4334
1.000
0.4334
0.6188
H0: Die beiden Merkmale sind unabhängig verteilt:
X und Y unabhängig
Pb (w, B)
Pb (w, K)
Pb (m, B)
=
=
=
Pb (m, K) =
⇐⇒
P (x, y) = P1(x)P2(y)
Pb1(w) Pb2(B) = (0.5666)(0.3812)
Pb1(w) Pb2(K) = (0.5666)(0.6188)
Pb1(m) Pb2(B) = (0.4334)(0.3812)
= 0.2160
= 0.3506
= 0.1652
Pb1(m) Pb2(K) = (0.4334)(0.6188) = 0.2682
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 41
Geschätzte Wahrscheinlichkeitsfunktion bei Unabhängigkeit
Beobachtete relative Häufigkeiten:
Geschlecht
weiblich
männlich
Total
Kandidat
pro Bush kontra Bush
0.1906
0.3760
0.1906
0.2428
0.3812
0.6188
Total
0.5666
0.4334
1.000
Geschätzte Wahrscheinlichkeitsfunktion bei Unabhängigkeit:
Geschlecht
weiblich
männlich
Total
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
Kandidat
pro Bush kontra Bush
0.2160
0.3506
0.1652
0.2682
0.3812
0.6188
Total
0.5666
0.4334
1.000
X - 42
Beobachtete und erwartete Häufigkeiten
Beobachtete Häufigkeiten (links) und erwartete Häufigkeiten (rechts):
Kandidat
Geschlecht pro B. kontra B.
weiblich
0.1906
0.3760
männlich
0.1906
0.2428
mal n = 383
Geschlecht
weiblich
männlich
pro B.
73
73
Geschlecht
weiblich
männlich
Kandidat
pro B. kontra B.
0.2160
0.3506
0.1652
0.2682
mal n = 383
kontra B.
144
93
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
Geschlecht
weiblich
männlich
pro B.
83
63
kontra B.
134
103
X - 43
Die Prüfgröße
Beobachtete Häufigkeiten:
Erwartete Häufigkeiten:
Geschlecht
weiblich
männlich
Geschlecht
weiblich
männlich
pro B.
73
73
kontra B.
144
93
pro B.
83
63
kontra B.
134
103
(73 − 83)2 (144 − 134)2 (73 − 63)2 (93 − 103)2
PG =
+
+
+
= 4.51
83
134
63
103
Anzahl der Zeilen: r = 2
Anzahl der Spalten: s = 2
=⇒ ν = (2 − 1)(2 − 1) = 1
Unter der Nullhypothese gilt P G ∼ χ2(1).
Signifikanzniveau 5%
Signifikanzniveau 1%
⇒
⇒
Ablehnungsbereich = [3.84, ∞)
Ablehnungsbereich = [6.63, ∞)
P-Wert: P (PG > 4.51) ≈ 0.03 .
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 44
r × s Kontingenztafel
Eine r × s – Kontingenztafel mit r Zeilen und s Spalten:
Beobachtete Häufigkeiten
n11 n12 n13
...
n21 n22 n23
...
..
..
..
...
nr1 nr2 nr3
n.1 n.2 n.3
...
n1s
n2s
..
nrs
n.s
n1.
n2.
..
nr.
n
Zeilen—
summen
Spaltensummen
Erwartete Häufigkeiten unter der Nullhypothese:
ni.n.j
, i=1, 2, . . . , r; j=1, 2, . . . , s .
mij =
n
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 45
Erwartete Häufigkeiten
Beobachtete und erwartete Häufigkeiten:
Beobachtete Häufigkeiten
n11 n12 n13 . . .
n1s
n21 n22 n23 . . .
n2s
... ... ... ...
...
nr1 nr2 nr3 . . .
nrs
Erwartete Häufigkeiten
m11 m12 m13 . . . m1s
m21 m22 m23 . . . m2s
...
...
... ... ...
mr1 mr2 mr3 . . . mrs
Berechnung der Prüfgröße:
PG =
s (n − m )2
r X
X
ij
ij
i=1 j=1
mij
Unter H0 gilt: P G ∼ χ2(ν) mit ν = (r − 1)(s − 1).
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 46
Beispiel 7: Sicherheitsgurte und Verletzungsrisiko
Betrachtet werden die beiden Merkmale X (Benutzung eines
Sicherheitsgurtes) und Y (Verletzung des Fahrers):
Benutzung eines Sicherheitsgurts (X):
Nein (X = 0)
Ja (X = 1)
Verletzung des Fahrers (Y ):
keine (Y = 0)
minimal (Y = 1)
mittel (Y = 2)
schwer/tödlich (Y = 3)
Verletzung des Fahrers
keine minimal mittel schwer
Sicherheitsgurt
Total
Nein
Ja
65 963
12 813
4 000
647
2 642
359
303
42
72 908
13 861
Total
78 776
4 647
3 001
345
86 769
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 47
Erwartete Häufigkeiten
H0: Die Verletzungskategorie ist unabhängig von der Benutzung eines
Sicherheitsgurtes.
Sicherheitsgurt
Nein
Ja
Total
Verletzungskategorie
keine minimal mittel schwer
65 963
4 000
2 642
303
12 813
647
359
42
78 776
4 647
3 001
345
Total
72 908
13 861
86 769
Erwartete Häufigkeiten bei Unabhängigkeit:
n1.n.1
776)
= (72 908)(78
m11 =
= 66 191.8
86
769
n
n1.n.2
647)
= (72 908)(4
= 3 904.7
m12 =
86
769
n
usw.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 48
Die Prüfgröße
Beobachtete und erwartete Häufigkeiten:
Sicherheitsgurt
Beobachete
Nein
Häufigkeiten
Ja
Erwartete
Nein
Häufigkeiten
Ja
keine
minimal
65 963
4 000
12 813
647
66 191.8 3 904.7
12 584.2
742.3
mittel
2 642
359
2 521.6
479.4
schwer
303
42
289.9
55.1
(42 − 55.1)2
(65 963 − 66 191.8)2
+ ... +
= 59.2
PG =
66 191.8
55.1
Anzahl der Zeilen: r = 2
Anzahl der Spalten: s = 4
=⇒ ν = (2 − 1)(4 − 1) = 3
Unter der Nullhypothese gilt: P G ∼ χ2(3).
Signifikanzniveau 1% ⇒ Ablehnungsbereich = [11.34, ∞)
H0 wird beim Signifikanzniveau 1 % verworfen.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 49
Beispiel 8: Heimvorteil bei Fußball-Spielen
H0: Die folgenden beiden Merkmale sind unabhängig verteilt:
Ergebnis: Sieg
Spielort: Heimspiel
Remis
Auswärtsspiel
Niederlage
d.h. es gibt keinen „Heimvorteil“.
Beispiel: Borussia Mönchengladbach in der Saison 2005/06.
Beobachtete Häufigkeiten:
Spielort
Heimspiel
Auswärtsspiel
Total
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
Sieg
8
2
10
Ergebnis
Remis Niederlage
7
2
5
10
12
12
Total
17
17
34
X - 50
Beispiel 8: Borussia Mönchengladbach in der Saison 2005/06
Beobachtete und erwartete Häufigkeiten:
Spielort
Beobachtete
Heimspiel
Häufigkeiten Auswärtsspiel
Erwartete
Heimspiel
Häufigkeiten Auswärtsspiel
Sieg Remis
8
7
2
5
5
6
5
6
Niederlage
2
10
6
6
(8 − 5)2
(7 − 6)2
(10 − 6)2
PG =
+
+ ··· +
= 9.27
5
6
6
Anzahl der Zeilen: r = 2
Anzahl der Spalten: s = 3
=⇒ ν = (2 − 1)(3 − 1) = 2
Unter der Nullhypothese gilt: P G ∼ χ2(2).
Signifikanzniveau 1% ⇒ Ablehnungsbereich = [9.21, ∞)
H0 wird beim Signifikanzniveau 1 % verworfen.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 51
Beispiel 8: Hertha BSC Berlin in der Saison 2005/06
Beobachtete und erwartete Häufigkeiten für Hertha BSC Berlin (2005/06):
Beobachtete
Häufigkeiten
Erwartete
Häufigkeiten
Spielort
Heimspiel
Auswärtsspiel
Heimspiel
Auswärtsspiel
Sieg Remis
8
5
4
7
6
6
6
6
Niederlage
4
6
6
5
(8 − 6)2
(5 − 6)2
(10 − 6)2
PG =
+
+ ··· +
= 2.07
6
6
6
Anzahl der Zeilen: r = 2
Anzahl der Spalten: s = 3
=⇒ ν = (2 − 1)(3 − 1) = 2
Unter der Nullhypothese gilt: P G ∼ χ2(2).
P-Wert: P (P G ≥ 2.07) ≈ 0.36.
H0 kann bei keinem üblichen α verworfen werden.
Kapitel X – χ2-Anpassungs- und Unabhängigkeitstest
X - 52
Kapitel 11
Beziehungen quantifizieren –
Regressionsanalyse
Kapitel XI – Regressionsanalyse
XI - 0
Regressionsanalyse
Übersicht:
Einführung in die Regressionsanalyse:
– Zielvariablen und erklärende Variablen,
– Funktionstypen.
Parameterschätzung:
– Methode der kleinsten Quadrate,
– Faktoren als erklärende Variablen.
Voraussagen:
– Punkt- und Intervallvoraussagen.
Modellauswahl.
Kapitel XI – Regressionsanalyse
XI - 1
Der Zusammenhang zwischen Zufallsvariablen
Bei der Betrachtung von Paaren von Zufallsvariablen stellen sich folgende
zwei Fragen:
1. Hängen die beiden Zufallsvariablen zusammen?
2. Wie kann der Zusammenhang quantifiziert werden?
Die Begriffe Unabhängigkeit und Korrelation dienen dazu, Frage 1 zu
beantworten.
Dieses Kapitel beschäftigt sich mit der zweiten Frage.
Kapitel XI – Regressionsanalyse
XI - 2
Der bedingte Erwartungswert als Vorhersage
Die bedingte Erwartung von Y , gegeben X = x, nämlich
E(Y |X = x)
dient als Vorhersage für Y für einen gegebenen Wert von X.
Im Zuckerrohr-Beispiel kann E (Y | X = x) mit Hilfe einer Geraden
approximiert werden:
b
E(Y
|X = x) = 19.334 − 0.191 x .
Z.B. erhält man als Vorhersage für Y , gegeben X = 30:
b
E(Y
|X = 30) = 19.334 − 0.191(30) = 13.60 [kJ/g] .
Kapitel XI – Regressionsanalyse
XI - 3
Der bedingte Erwartungswert als Vorhersage
Wassergehalt und Kalorienwert von Zuckerrohr mit angepasster Gerade:
20
18
Brennwert (kJ/g)
16
14
12
10
8
6
0
10
20
30
40
50
60
70
Wassergehalt (%)
Kapitel XI – Regressionsanalyse
XI - 4
Der bedingte Erwartungswert als optimale Vorhersage
E(Y |X = x)
ist der „beste“ Schätzer von Y , gegeben X = x.
Was bedeutet „beste“?
Bezug zu
Vorhersagefehler = wahrer Wert – vorhergesagter Wert.
Die Qualität oder Güte der Vorhersage wird gemessen durch
E (Vorhersagefehler 2) .
Kapitel XI – Regressionsanalyse
XI - 5
Allgemeine Vorgehensweise
Im Fall einer Geraden
E(Y |X = x) = θ1 + θ2x
müssen zwei Parameter bestimmt werden, nämlich der Achsenabschnitt
θ 1 und die Steigung θ 2.
Allgemeine Vorgehensweise bei der Regressionsanalyse:
1. Auswahl der Form der Funktion von E (Y | X = x),
2. Schätzen der Parameter der ausgewählten Funktion.
Kapitel XI – Regressionsanalyse
XI - 6
Funktionstypen
Beispiele von Funktionstypen in der Regressionsanalyse:
Form
Formel
Anzahl der
Parameter
Gerade
θ1 + θ2 x
2
Parabel
θ1 + θ2 x + θ3 x 2
3
Kubik
θ1 + θ2 x + θ3 x 2 + θ 4 x 3
4
Exponentialfunktion
θ1 + θ2eθ3x
3
Logarithmische Funktion θ1 + θ2 log(x)
Treppenfunktion
θ1 für x < x0
2
2
θ2 für x ≥ x0
Kapitel XI – Regressionsanalyse
XI - 7
Funktionstypen
Beispiele von Funktionstypen in der Regressionsanalyse:
Parabel
15
15
15
10
y
20
5
10
5
0
2
4
6
8
10
10
5
0
0
0
0
2
4
x
6
8
10
0
logarithmische Funktionen
15
15
y
15
y
20
10
10
5
5
0
0
0
6
x
Kapitel XI – Regressionsanalyse
8
10
0
2
4
6
x
8
10
8
10
10
5
4
6
Treppenfunktion
20
2
4
x
20
0
2
x
Exponentialfunktionen
y
kubische Funktion
20
y
y
Gerade
20
8
10
0
2
4
6
x
XI - 8
Beispiel 1: CAPM und Beta-Faktor
Es besteht ein positiver Zusammenhang zwischen den Renditen der
Deutschen Bank Aktie und des DAX:
Wenn der DAX hoch (bzw. niedrig) ist, dann ist tendenziell auch
die Rendite der Deutsche Bank Aktie hoch (bzw. niedrig).
Der Zusammenhang zwischen der Rendite eines Wertpapiers (z.B.
Deutsche Bank) und der Rendite des Marktes (DAX) ist Bestandteil
finanzwirtschaftlicher Modelle, wie z.B. des Capital Asset Pricing
Modells (CAPM).
Der Beta-Faktor (die Steigung der angepassten Geraden) beschreibt das
Risiko eines Wertpapiers im Verhältnis zum Marktrisiko.
Kapitel XI – Regressionsanalyse
XI - 9
Rendite der Deutschen Bank und des DAX
Kontinuierliche Renditen der Deutschen Bank Aktie und des DAX in den
Jahren 2006/07 und angepasste Gerade:
Deutsche Bank Tagesrendite (%)
6
4
2
0
-2
-4
-6
-6
-4
-2
0
2
4
6
DAX Tagesrendite (%)
Kapitel XI – Regressionsanalyse
XI - 10
Beispiel 1: Beta-Faktor
Der Beta-Faktor (die Steigung der angepassten Geraden) beschriebt das
Risiko eines Wertpapiers im Verhältnis zum Marktrisiko:
- Ein β - Faktor größer als 1 bedeutet:
Das Risiko des Wertpapiers liegt über dem Marktrisiko.
- Ein β - Faktor kleiner als 1 bedeutet:
Das Risiko des Wertpapiers liegt unter dem Marktrisiko.
Die Steigung der angepassten Gerade beträgt in diesem Fall 1.13, d.h.
der Beta-Faktor beträgt 1.13:
Steigt (bzw. fällt) der DAX um 1%, steigt (bzw. fällt) der Aktienkurs
der Deutschen Bank um 1.13%
Kapitel XI – Regressionsanalyse
XI - 11
Beispiel 11.2: Holzertrag von Kirschbäumen
Im Beispiel „Holzertrag von Kirschbäumen“ werden folgende Merkmale
betrachtet:
Merkmal 1 (X): Durchmesser des Baumes (in Inch)
Merkmal 2 (Y ): (Nutz-)Holzvolumen (in Kubikfuß)
Gegeben ist folgende Stichprobe mit n = 31 Beobachtungspaaren:
(8.3;
(10.8;
(11.3;
(12.9;
(14.0;
(17.3;
(20.6;
10.3)
19.7)
24.2)
22.2)
34.5)
55.4)
77.0)
Kapitel XI – Regressionsanalyse
(8.6;
(11.0;
(11.4;
(12.9;
(14.2;
(17.5;
10.3)
15.6)
21.0)
33.8)
31.7)
55.7)
(8.8;
(11.0;
(11.4;
(13.3;
(14.5;
(17.9;
10.2)
18.2)
21.4)
27.4)
36.3)
58.3)
(10.5;
(11.1;
(11.7;
(13.7;
(16.0;
(18.0;
16.4)
22.6)
21.3)
25.7)
38.3)
51.5)
(10.7;
(11.2;
(12.0;
(13.8;
(16.3;
(18.0;
18.8)
19.9)
19.1)
24.9)
42.6)
51.0)
XI - 12
Durchmesser und Volumen von Kirschbäumen
Durchmesser und Volumen von 31 Kirschbäumen:
80
Volumen (in cubic feet)
60
40
20
0
0
5
10
15
20
25
Durchmesser (in inches)
Kapitel XI – Regressionsanalyse
XI - 13
Residuale
Für die Betrachtung der Vorhersagefunktion
E(Y |X = x) = θ1 + θ2x
werden folgende drei Beobachtungspaare ausgewählt:
x1
y1
=
=
8.8
10.2
x2
y2
=
=
12.0
19.1
x3
y3
=
=
17.5
55.7
Betrachtung der einzelnen Komponenten einer Beobachtung:
Modell:
y i = θ 1 + θ2 x i + e i
i = 1, 2, 3
Beobachtung = Vorhersage + Residuale
Residuale = Beobachtung − Vorhersage
ei = yi − (θ1 + θ2xi)
Kapitel XI – Regressionsanalyse
i = 1, 2, 3
XI - 14
Residuale
Darstellung der Residuen für eine ausgewählte Gerade:
80
e3 = 55.7 − 42.5 = 13.2
Volumen (in cubic feet)
60
40
20
e2 = 19.1 − 26 = -6.9
e1 = 10.2− 16.4 = -6.2
0
0
5
10
15
20
25
Durchmesser (in inches)
Kapitel XI – Regressionsanalyse
XI - 15
Welche Gerade approximiert die Punkte am besten?
Versuch A:
Die Gerade –10 + 3.0x .
80
70
Die Residuen:
e3 = 55.7 − 42.5 = 13.2
60
50
e1
e2
e3
=
=
=
10.2 − (−10 + 3 · 8.8) =
19.1 − (−10 + 3 · 12.0) =
55.7 − (−10 + 3 · 17.5) =
−6.2
−6.9
13.2
40
30
20
e2 = 19.1 − 26 = -6.9
10
e1 = 10.2− 16.4 = -6.2
0
0
10
15
20
25
80
Die Gerade –40 + 5.0 x .
Versuch B:
5
70
e3 = 55.7 − 47.5 = 8.2
60
Die Residuen:
50
e1
e2
e3
=
=
=
10.2 − (−40 + 5 · 8.8) =
19.1 − (−40 + 5 · 12.0) =
55.7 − (−40 + 5 · 17.5) =
6.2
−0.9
8.2
40
30
20
10
e1 = 10.2 − 4 = 6.2
e2 = 19.1− 20 = -0.9
0
0
Kapitel XI – Regressionsanalyse
5
10
15
20
25
XI - 16
Methode der kleinsten Quadrate
Die Anpassung ist dann „gut“, wenn die Residuen klein sind.
Als Anpassungskriterium wird folgendes verwendet:
3
P
2
2
2
Summe der Residuenquadrate: e1 + e2 + e3 =
e2
i
i=1
Vorgehen bei der Methode der kleinsten Quadrate:
Wähle die Parameter θ1 und θ2, die
SQ(θ1, θ2) =
3
P
i=1
e2
i
3
P
i=1
e2
i minimieren.
SQ für die beiden Versuche:
(a) SQ(−10; 3.0) = (−6.2)2 + (−6.9)2 + (13.2)2 = 260.29
(b) SQ(−40; 5.0) =
Kapitel XI – Regressionsanalyse
(6.2)2 + (−0.9)2 + (8.2)2 = 106.49
XI - 17
Methode der kleinsten Quadrate
Die Methode der kleinsten Quadrate ist ein Verfahren, um die Gerade zu
finden, welche SQ (θ 1, θ 2) minimiert.
Für die betrachteten drei Beobachtungspaare erhält man:
Beste Gerade:
y = −40.415 + 5.385 x
Residuen:
e1 = 3.23, e2 = −5.10, e3 = 1.88
Summe Quadrate: SQ(−40.415; 5.385) = 40.00
Die beiden „Versuche“ lieferten folgende Werte für SQ :
Versuch (a)
SQ(−10; 3.0) = 260.29
Versuch (b)
SQ(−40; 5.0) = 106.49
Kapitel XI – Regressionsanalyse
XI - 18
Kleinste-Quadrate-Schätzer der Parameter
Formeln für die Kleinste-Quadrate-Schätzer der Parameter der
angepassten Geraden:
Daten:
Steigung:
(x1, y1), (x2, y2), . . . , (xn, yn)
n
P
θ̂2 = i=1
n
P
xiyi − n x̄ ȳ
i=1
Achsenabschnitt:
Kapitel XI – Regressionsanalyse
2
x2
−
n
x̄
i
θ̂1 = ȳ − θ̂2x̄
XI - 19
Herleitung der KQ-Schätzer
Für die Gleichung
yi = θ1 + θ2xi + ei ,
i = 1, 2, . . . , n
erhält man für die Residuen
ei = yi − θ1 − θ2xi ,
i = 1, 2, . . . , n
und somit für SQ :
SQ(θ1, θ2) =
n
X
i=1
e2
i =
n
X
(yi − θ1 − θ2xi)2
i=1
Minimierung von SQ (θ 1, θ 2) bezüglich θ 1 und θ 2:
(I)
(II)
∂SQ(θ1, θ2)
=0
∂θ1
∂SQ(θ1, θ2)
=0
∂θ2
Kapitel XI – Regressionsanalyse
XI - 20
Herleitung der KQ-Schätzer
SQ ist eine Funktion von θ 1 und θ 2 :
SQ(θ1, θ2) =
n
X
(yi − θ1 − θ2xi)2
i=1
Zur Bestimmung derjenigen Werte von θ 1 und θ 2, die SQ minimieren,
werden die partiellen Ableitungen betrachtet:
Ableitung nach θ 1 :
n
∂SQ(θ1, θ2)
P
(I)
= (−2)
(yi − θ1 − θ2xi)
∂θ1
i=1
Ableitung nach θ 2 :
n
∂SQ(θ1, θ2)
P
(II)
= (−2)
(yi − θ1 − θ2xi) · xi
∂θ2
i=1
Kapitel XI – Regressionsanalyse
XI - 21
Herleitung der KQ-Schätzer
Umstellung der beiden Gleichungen:
(I)
(−2)
(I)
Ã
n
P
i=1
(II)
(II)
n
P
i=1
!
yi − n θb1 −
(−2)
Ã
(yi − θb1 − θb2 xi) = 0
n
P
i=1
n
P
i=1
!
xi θb2 = 0
(yi − θb1 − θb2 xi) xi = 0
i=1
n
P
Ã
!
xiyi −
Ã
n
P
i=1
!
xi θb1 −
Ã
n
P
i=1
!
b
x2
i θ2 = 0
Somit erhält man folgende Form
(I)
a − b θb1 − c θb2 = 0
(II)
d − e θb1 − f θb2 = 0
(d.h. zwei Gleichungen mit zwei Unbekannten).
Kapitel XI – Regressionsanalyse
XI - 22
Beispiel mit 3 Beobachtungen
Für die Anpassung einer Geraden an die drei Beobachtungspaare
x1
y1
=
8.8 x2
= 10.2 y2
=
=
12.0
19.1
x3
y3
= 17.5
= 55.7
werden folgende Werte benötigt:
3
P
n=3
i=1
3
P
i=1
xi = 38.3
x2
1 = 527.69
3
P
i=1
3
P
i=1
yi = 85
xiyi = 1293.71
Somit erhält man folgende beiden Gleichungen:
(I)
(II)
85 − 3 θb1 − 38.3 θb2 = 0
1 293.71 − 38.3 θb1 − 527.69 θb2 = 0
Kapitel XI – Regressionsanalyse
XI - 23
Kleinste-Quadrate-Schätzer der Parameter
Auflösung der Gleichungen:
(I)
(II)
85 − 3 θb1 − 38.3 θb2 = 0
1 293.71 − 38.3 θb1 − 527.69 θb2 = 0
Für die beiden Koeffizienten folgt:
38.3 ·(I) −3 ·(II)
=⇒
(I)
=⇒
=⇒
=⇒
Kapitel XI – Regressionsanalyse
−625.63 + 116.18 θb2 = 0
θb2 = 5.385
85 − 3 θb1 − 38.3 · 5.385 = 0
θb1 = −40.415
XI - 24
Kleinste-Quadrate-Schätzer der Parameter
Durchmesser und Volumen von drei Kirschbäumen mit der besten
Geraden:
80
e3 = 55.7 − 53.8 = 1.9
Volumen (in cubic feet)
60
40
20
e2 = 19.1 − 24.2 = -5.1
e1 = 10.2 − 7 = 3.2
0
0
5
10
15
20
25
Durchmesser (in inches)
Kapitel XI – Regressionsanalyse
XI - 25
Allgemeine Lösung des Gleichungssystems
Für den allgemeinen Fall ergeben sich folgende Gleichungen:
(I)
(II)
(I)
(II)
n
P
i=1
n
P
yi − n θb1 − θb2
n
P
i=1
xi = 0
n
n
P
P
b
b
xiyi − θ1
xi − θ 2
x2
i =0
i=1
i=1
i=1
Ã
|·n
!2
n
n
P
P
b
b
xi
yi − n θ 1
xi − θ 2
xi
=0
i=1
i=1
i=1
i=1
n
n
n
P
P
P
b
b
n
xiyi − n θ1
xi − n θ2
x2
i =0
i=1
i=1
i=1
n
P
n
P
¯
¯ P
¯ n
x
¯·
¯ i=1 i
Durch Subtrahieren (I) – (II) wird θ̂1 eliminiert.
Kapitel XI – Regressionsanalyse
XI - 26
Lösung des Gleichungssystems
Daraus folgt:
(I) - (II):
n
P
i=1
xi
⇐⇒
nθb2
⇐⇒
n
P
i=1
n
P
i=1
⎛
yi − θb2
b
x2
−
θ
2
i
n
1
P
2
b
⎝
θ2
xi −
n
i=1
Kapitel XI – Regressionsanalyse
Ã
Ã
Ã
n
P
i=1
n
P
i=1
n
P
i=1
xi
xi
xi
!2
!2
n
P
b
−n
xiyi + nθ2
x2
i =0
i=1
i=1
=n
!2 ⎞
n
P
n
P
i=1
x i yi −
n
P
i=1
xi
n
P
i=1
yi
n
n
1
P
P
⎠=
xi y i −
xi
yi
n i=1 i=1
i=1
n
P
XI - 27
Bestimmung der Steigung
Für den Schätzer von θ 2 erhält man somit:
⎛
n
1
P
b
⎝
θ2
x2
−
i
n
i=1
⇐⇒
θb2 =
Kapitel XI – Regressionsanalyse
!2 ⎞
n
n
n
n
1 P
P
P
P
⎠
xi
=
x i yi −
xi
yi
n i=1 i=1
i=1
i=1
Ã
n
n
1 P
P
xi y i −
xi
yi
n i=1 i=1
i=1
n
P
n
P
1
2
xi −
n
i=1
Ã
n
P
i=1
xi
!2
n
P
= i=1
n
P
xiyi − nx̄ȳ
i=1
2
x2
i − nx̄
XI - 28
Bestimmung des Achsenabschnitts
Für den Schätzer von θ 1 ergibt sich:
(I):
n
P
b
b
y i − n θ 1 − θ2
xi = 0
i=1
i=1
n
P
⇐⇒
n
n
P
P
b
b
y i − θ2
xi
n θ1 =
i=1
i=1
⇐⇒
n
n
1 P
1 P
b
b
θ1 =
y i − θ2 ·
xi = ȳ − θb2x̄
n i=1
n i=1
Kapitel XI – Regressionsanalyse
XI - 29
Kleinste-Quadrate-Schätzer
Zusammenfassung, Kleinste-Quadrate-Schätzer für eine Gerade:
Steigung:
Achsenabschnitt:
Kapitel XI – Regressionsanalyse
θb2 =
n
P
i=1
n
P
xiyi − n x̄ ȳ
i=1
2
x2
i − n x̄
θb1 = ȳ − θb2 x̄
XI - 30
Alternative Herleitung der Schätzer
Alternative Herleitung der Schätzer:
(I)
(−2)
Ã
(I)
(II)
i=1
Ã
(I)
(II)
Kapitel XI – Regressionsanalyse
(yi − θb1 − θb2 xi) = 0
i=1
!
yi − n θb1 −
(−2)
(II)
Form:
n
P
n
P
n
P
i=1
n
P
i=1
!
xi θb2 = 0
(yi − θb1 − θb2 xi) xi = 0
i=1
n
P
Ã
!
xiyi −
Ã
n
P
i=1
!
xi θb1 −
a − b θb1 − c θb2 = 0
d − e θb1 − f θb2 = 0
Ã
n
P
i=1
!
b =0
x2
θ
2
i
Zwei Gleichungen,
zwei unbekannte Werte
XI - 31
Allgemeiner Fall
Die beiden Gleichungen haben die folgende Form:
(I)
(II)
a − b θb1 − c θb2 = 0
d − e θb1 − f θb2 = 0
Durch Umformung erhält man:
b×(II):
e×(I):
bd − be θb1 − bf θb2 = 0
ea − eb θb1 − ec θb2 = 0
b×(II) - e×(I): (bd − ea) − (bf − ec) θb2 = 0
Somit ergeben sich folgende Schätzer:
bd − ea
b
θ2 =
bf − ec
θb1 = ab − cb θb2
Kapitel XI – Regressionsanalyse
XI - 32
Kleinste-Quadrate-Schätzer
Bestimmung der Kleinste-Quadrate-Schätzer für eine Gerade:
bd − ea
b
θ2 =
bf − ec
a=
d=
n
P
i=1
n
P
i=1
yi
xiyi
a cb
b
θ1 = − b θ2
b
b=n
e=
c=
n
P
i=1
xi
f =
n
P
i=1
n
P
i=1
xi
x2
1
Hieraus ergeben sich folgende Schätzer:
Steigung:
θb2 =
n
P
i=1
n
P
xiyi − n x̄ ȳ
i=1
2
x2
i − n x̄
Achsenabschnitt: θb1 = ȳ − θb2 x̄
Kapitel XI – Regressionsanalyse
XI - 33
Beispiel: Holzertrag von Kirschbäumen
Für das Beispiel „Holzertrag von Kirschbäumen“ werden folgende Werte
benötigt:
n = 31
31
P
xi = 410.7
31
P
x2
i = 5736.55
i=1
i=1
x̄ = 13.25
31
P
yi = 935.3
31
P
xiyi = 13887.86
i=1
i=1
ȳ = 30.17
Daraus erhält man folgende Schätzer:
13887.86 − 31(13.25)(30.17)
b
θ2 =
= 5.066
2
5736.55 − 31(13.25)
θb1 = 30.17 − 5.066 (13.25) = −36.94
Kapitel XI – Regressionsanalyse
XI - 34
Beispiel: Holzertrag von Kirschbäumen
Durchmesser und Volumen von 31 Kirschbäumen:
80
Volumen (in cubic feet)
60
40
20
0
0
5
10
15
20
25
Durchmesser (in inches)
Kapitel XI – Regressionsanalyse
XI - 35
Beispiel 3: Temperatur und Gasverbrauch
Gegeben ist die durchschnittliche Tagestemperatur und der durchschnittliche Gasverbrauch einer amerikanischen Kleinstadt in den 12
Monaten des Jahres 1993:
Monat
1/93
2/93
3/93
4/93
5/93
6/93
0.0
−6.7
−0.6
8.3
13.9
Gasverbrauch (m3)
−5.0
30.1
35.1
34.8
29.0
13.5
7.1
Monat
7/93
8/93
9/93 10/93 11/93 12/93
Temperatur (◦C)
19.4
21.1
21.7
15.6
7.2
3.3
Gasverbrauch (m3)
5.8
2.9
4.2
8.7
16.6
23.8
Temperatur (◦C)
Kapitel XI – Regressionsanalyse
XI - 36
Temperatur und Gasverbrauch
Durchschnittliche Tagestemperatur und durchschnittlicher Gasverbrauch
1993 in einer US-amerikanischen Kleinstadt:
durchschnittlicher Gasverbrauch (m³/Tag)
40
30
20
10
0
-10
-5
0
5
10
15
20
25
durchschnittliche Temperatur (°C)
Kapitel XI – Regressionsanalyse
XI - 37
Modell mit einer Parabel
Für ein Modell mit einer Parabel
yi = θ1 + θ2xi + θ3x2
i + ei ,
i = 1, 2, . . . , n
erhält man folgende Gleichung für SQ :
SQ(θ1, θ2, θ3) =
n
X
i=1
e2
i =
n
X
2
(yi − θ1 − θ2xi − θ3x2
)
i
i=1
In diesem Fall werden drei partielle Ableitungen betrachtet:
(I)
∂SQ(θ1, θ2, θ3)
=0
∂θ1
(II)
∂SQ(θ1, θ2, θ3)
=0
∂θ2
(III)
∂SQ(θ1, θ2, θ3)
=0
∂θ3
Kapitel XI – Regressionsanalyse
XI - 38
Drei partielle Ableitungen und drei Gleichungen
Daraus ergeben sich folgende drei Gleichungen:
(I)
n ³
´
X
∂SQ(θ1, θ2, θ3)
2
= (−2)
yi − θ1 − θ2xi − θ3xi
∂θ1
i=1
⎛
= (−2) ⎝
(II)
n
X
i=1
yi − nθ1 − θ2
n
X
i=1
xi − θ3
n ³
´
X
∂SQ(θ1, θ2, θ3)
2
= (−2)
yi − θ1 − θ2xi − θ3xi xi
∂θ2
i=1
⎛
= (−2) ⎝
n
X
i=1
xiyi − θ1
n
X
i=1
xi − θ2
n
X
i=1
= (−2) ⎝
Kapitel XI – Regressionsanalyse
i=1
x2
i yi − θ1
n
X
i=1
x2
i − θ2
i=1
⎠
x2
i
x2
i − θ3
n ³
´
X
∂SQ(θ1, θ2, θ3)
2
(III)
= (−2)
yi − θ1 − θ2xi − θ3xi x2
i
∂θ3
i=1
⎛
n
X
n
X
⎞
n
X
i=1
n
X
i=1
x3
i − θ3
⎞
⎠
x3
i
n
X
i=1
⎞
⎠
x4
i
XI - 39
Drei Gleichungen mit drei Unbekannten
Nullsetzen der drei partiellen Ableitungen ergibt die folgenden drei
Gleichungen mit drei Unbekannten:
(I)
n
X
i=1
(II)
n
X
i=1
(III)
n
X
i=1
yi
= θb1 n
xiyi = θb1
b
x2
i yi = θ1
Kapitel XI – Regressionsanalyse
n
X
i=1
n
X
i=1
+ θb2
xi + θb2
n
X
i=1
n
X
i=1
b
x2
i + θ2
n
X
xi + θb3
x2
i
n
X
x3
i
n
X
x4
i
i=1
b
x2
i + θ3
i=1
n
X
i=1
b
x3
i + θ3
i=1
XI - 40
Beispiel: Temperatur und Gasverbrauch
Für das Beispiel „Temperatur und Gasverbrauch“ werden folgende Werte
benötigt:
12
P
i=1
12
P
i=1
xi = 98
yi = 212
12
P
i=1
x2
i = 1 931
12
P
i=1
xiyi = 388
12
P
i=1
x3
i = 33 946
n
P
i=1
12
P
i=1
x2
i yi = 13 458
x4
i = 667 987
n = 12
Einsetzen in die Gleichungen liefert:
212
388
13 458
=
=
=
12 θb1
98 θb1
1 931 θb1
+
+
+
98 θb2
1 931 θb2
33 946 θb2
+
1 931 θb3
+
33 946 θb3
+ 667 987 θb3
Die Parameterschätzer erhält man durch Auflösen der Gleichungen:
θ̂1 = 27.0
θ̂2 = −1.47
θ̂3 = 0.0170
Angepasste Parabel: ŷ = 27 − 1.47x + 0.017x2.
Kapitel XI – Regressionsanalyse
XI - 41
Beobachtungen mit angepasster Parabel
Beobachtungen mit angepasster Parabel:
durchschnittlicher Gasverbrauch (m³/Tag)
40
30
20
10
0
-10
-5
0
5
10
15
20
25
durchschnittliche Temperatur (°C)
Kapitel XI – Regressionsanalyse
XI - 42
Anmerkungen zur Regressionsanalyse
Unter geeigneten Annahmen sind Schätzer der kleinsten Quadrate
konsistent, d.h. Bias und Varianz konvergieren mit wachsendem n gegen
Null.
Die Fehlerterme sollten Erwartung Null haben, d.h. E (e | X) = 0.
Unter den erklärenden Variablen (inklusive der Konstanten) darf es keine
Multikollinearität geben, d.h. keine der erklärenden Variablen darf als
Linearkombination der anderen darstellbar sein.
Die Beobachtungen sollten unabhängig sein.
Gauß-Markov Theorem: Unter den Annahmen
Var(e|X) = σ 2
konstant
Cov(ei, ej ) = 0 für alle i 6= j
sind die Schätzer nach der Methode der kleinsten Quadrate die besten
linearen erwartungstreuen Schätzer („BLUE“).
Kapitel XI – Regressionsanalyse
XI - 43
Asymptotische Verteilung der Schätzer
Die Schätzer θ̂j sind asymptotisch normalverteilt mit Erwartungswert θ j .
Im Fall einer Geraden gilt für die Varianzen:
Var(θ̂1) =
σ2
Ã
n
σ2
Var(θ̂2) =
nσ̂x2
1+
(x̄)2
σ̂x2
!
Dabei ist σ̂x2 die Stichprobenvarianz von X.
Kapitel XI – Regressionsanalyse
XI - 44
Konfidenzintervalle für die Parameter einer Geraden
Für den Achsenabschnitt θ 1 einer Geraden erhält man folgendes
Konfidenzintervall:
⎡
σ̂
⎢
⎣θ̂1 − tn−2,α/2
q
q
⎤
1 + (x̄)2/σ̂x2
σ̂ 1 + (x̄)2/σ̂x2 ⎥
, θ̂1 + tn−2,α/2
√
√
⎦
n
n
Für die Steigung θ 2 ergibt sich folgendes Konfidenzintervall:
"
σ̂
σ̂
θ̂2 − tn−2,α/2 √
, θ̂2 + tn−2,α/2 √
nσ̂x
nσ̂x
#
σ̂ ist die aus den Residuen geschätzte Streuung von e:
Pn
1
2
σ̂ = n−2 i=1 ê2
i
Kapitel XI – Regressionsanalyse
XI - 45
Korrelation und Kausalität
Korrelation oder Abhängigkeit implizieren nicht Kausalität;
zum Beispiel:
Weinkonsum und Herzkrankheiten sind negativ korreliert.
In diesem Fall gibt es drei mögliche kausale Beziehungen:
1. Weinkonsum
⇒ Herzkrankheiten
2. Herzkrankheiten ⇒ Weinkonsum
3. Herzkrankheiten ⇐ Andere Faktoren ⇒ Weinkonsum
(z.B. Klima, Esskultur, Stress)
Die Korrelation beruht lediglich auf Beobachtung. Um auf Kausalität
schließen zu können, muss man aktive Experimente durchführen.
Beispielsweise kann die Grundgesamtheit zufällig in zwei Gruppen zerlegt
werden:
Eine Gruppe muss Wein trinken, die andere darf keinen Wein trinken.
Kapitel XI – Regressionsanalyse
XI - 46
Arbeitskosten und Produktivität
Betrachtet werden die prozentualen Veränderungen
der Arbeitskosten (pro Stunde), und
der Produktivität (pro Stunde)
in Deutschland zwischen 1965 und 1997.
Aus den Daten erhält man einen Korrelationskoeffizienten von ≈ 0.45.
Mögliche kausale Beziehungen:
– Ein Anstieg des Arbeitslohnes hat eine positive Wirkung aus die Arbeitsmoral
und dadurch auch auf die Produktivität.
– Eine Steigerung der Produktivität schafft den Freiraum, mehr Geld für Lohn
auszugeben.
– Andere (unbeobachtete) Faktoren beeinflussen die beiden Merkmale und es
gibt keine direkte kausale Beziehung zwischen den beiden Merkmalen
(spurious = scheinbare bzw. keine echte Korrelation).
Kapitel XI – Regressionsanalyse
XI - 47
Arbeitskosten und Produktivität
Jährliche Veränderungen der Arbeitskosten und der Produktivität
(in Deutschland, 1965 – 1997):
Veränderung der Produktivität (%)
10
8
6
4
2
0
-2
0
2
4
6
8
10
12
14
16
18
20
Veränderung der Arbeitskosten (%)
Kapitel XI – Regressionsanalyse
XI - 48
Bestimmtheitsmaß R2 und SQ(Total)
Beispiel: Durchmesser und Volumen von Kirschbäumen.
SQ(Total)
80
Das Volumen y schwankt um den
Mittelwert ȳ .
Diese Variation wird gemessen durch:
n
P
SQ(Total) =
(yi − ȳ)2
i=1
70
60
50
40
30
20
10
0
6
Kapitel XI – Regressionsanalyse
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
XI - 49
Bestimmtheitsmaß R2 und SQ(Total)
Beispiel: Durchmesser und Volumen von Kirschbäumen.
SQ(Regression)
80
Die beste Gerade weicht vom
Mittelwert ȳ ab.
Diese Variation wird gemessen durch:
n
P
SQ(Regression) =
(ŷi − ȳ)2
i=1
70
60
50
40
30
20
10
0
6
Kapitel XI – Regressionsanalyse
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
XI - 50
Bestimmtheitsmaß R2 und SQ(Total)
Beispiel: Durchmesser und Volumen von Kirschbäumen.
SQ(Residuen)
80
Die Beobachtungen liegen nicht auf
der Geraden.
Diese Variation wird gemessen durch:
n
P
SQ(Residuale) =
(yi − ŷi)2
i=1
70
60
50
40
30
20
10
0
6
Kapitel XI – Regressionsanalyse
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22
XI - 51
Zerlegung der SQ(Total)
Es besteht ein Zusammenhang zwischen
SQ (Total), SQ (Regression) und
SQ (Residuale):
n
X
SQ(Total) =
(yr − ȳ)2
r=1
n
X
SQ(Regression) =
(ybr − ȳ)2
r=1
n
X
SQ(Residuale) =
(yr − ŷr )2
r=1
SQ(Total) = SQ(Regression) + SQ(Residuen)
80
75
70
65
60
55
50
45
40
35
30
Zerlegung von SQ (Total) :
14.0
15.0
16.0
17.0
18.0
19.0
20.0
21.0
22.0
SQ(Total) = SQ(Regression) + SQ(Residuale)
SQ(Regression)
SQ(Residuale)
1 =
+
SQ(Total)
SQ(Total)
Kapitel XI – Regressionsanalyse
XI - 52
Durch die Regression erklärter Anteil der Variation
Zerlegung von SQ (Total) :
SQ(Total) = SQ(Regression) + SQ(Residuale)
1 =
SQ(Regression) SQ(Residuale)
+
SQ(Total)
SQ(Total)
|
{z
}
|
{z
}
R2
1−R2
R 2 ist der erklärte Anteil der Variation:
SQ(Regression)
2
R =
SQ(Total)
R 2 wird auch das Bestimmtheitsmaß genannt.
Aus R 2 ergibt sich der unerklärte Anteil der Variation:
SQ(Residuale)
2
1−R =
SQ(Total)
Kapitel XI – Regressionsanalyse
XI - 53
Zusammenhang: Steigung und Korrelationskoeffizient
Zusammenhang zwischen dem Korrelationskoeffizienten und der
Steigung θ 2 :
Y = θ1 + θ2X + e.
Betrachtung der Kovarianz:
Cov(X, Y ) = Cov(X, (θ1 + θ2X + e))
= Cov(X, θ1) + Cov(X, θ2X) + Cov(X, e)
= 0 + θ2Cov(X, X) + 0 = θ2Var(X)
Daraus folgt für den Steigungskoeffizienten:
Cov(X, Y )
θ2 =
=
Var(X)
=
s
Var(Y )
·ρ
Var(X)
Kapitel XI – Regressionsanalyse
s
Var(Y )
Cov(X, Y )
·q
Var(X)
Var(X)Var(Y )
XI - 54
Zusammenhang: Korrelationskoeffizient und Bestimmtheitsmaß
Ausgehend von
θ2 =
s
Var(Y )
Var(Y )
· ρ ⇐⇒ θ22 = ρ2 ·
Var(X)
Var(X)
erhält man
2Var(X)
θ
Var(θ2X)
Var(θ1 + θ2X)
2
2
ρ =
=
=
Var(Y )
Var(Y )
Var(Y )
erklärte Varianz
= R2
=
totale Varianz
Der Zusammenhang R 2 = ρ 2 gilt nur für die einfache Regression!
Kapitel XI – Regressionsanalyse
XI - 55
Faktoren als erklärende Variable
In der Regressionsanalyse ist die Zielvariable Y eine Zufallsvariable.
Die erklärende Variable ist
– entweder eine Zufallsvariable
– oder ein Faktor (keine Zufallsvariable).
Beispiel: Experiment zur Bestimmung des Zusammenhangs zwischen
Geschwindigkeit und Bremsweg eines Autos.
X : Geschwindigkeit des Autos
Y : Bremsweg
Der Bremsweg Y ist eine Zufallsvariable.
Da die Geschwindigkeit von uns bestimmt wird, ist X keine Zufallsvariable,
sondern ein Faktor.
Trotzdem kann man die bedingte Verteilung von Y gegeben X = x
schätzen.
Kapitel XI – Regressionsanalyse
XI - 56
Preis und Absatz von Traubensaft
Im Beispiel „Preis und Absatz von Traubensaft“ werden folgende beiden
Variablen betrachtet:
X : Verkaufspreis einer Packung Traubensaft (in US $),
Y : Wöchentliche Verkaufszahl in einem Supermarkt.
Der Supermarkt kann den Preis bestimmen, d.h. dass der Preis
ein Faktor ist.
Die Verkaufszahlen schwanken stark bei einem gegebenem Preis. Die
Verkaufszahl ist eine Zufallsvariable.
Betrachtung der Preis-Absatz-Geraden:
Die erwartete Verkaufsmenge geht um 1.208 Stück zurück,
wenn der Verkaufspreis um 0.01 US $ steigt.
Kapitel XI – Regressionsanalyse
XI - 57
Preis und Absatz von Traubensaft
Preis und Absatz von Traubensaft und angepasste Gerade:
50
Verkaufsmenge
40
30
20
10
0
0.95
1.00
1.05
1.10
1.15
1.20
Verkaufspreis (US$)
Kapitel XI – Regressionsanalyse
XI - 58
Voraussagen in der Regressionsanalyse
Zwei Beispiele zu Voraussagen in der Regressionsanalyse:
10
Veränderung der Produktivität (%)
durchschnittlicher Gasverbrauch (m³/Tag)
40
30
20
10
0
-10
8
6
4
2
0
-2
-5
0
5
10
15
durchschnittliche Temperatur (°C)
20
25
0
2
4
6
8
10
12
14
16
Veränderung der Arbeitskosten (%)
18
20
Links liegen die Beobachtungen näher an der angepassten Funktion, d.h.
dass die Voraussagen auch in diesem Fall genauer sein werden.
Die Betrachtung der Residuen vermittelt einen Eindruck von der
Genauigkeit.
Kapitel XI – Regressionsanalyse
XI - 59
Die geschätzten Residuen
Betrachtet man das Modell
yi = θ1 + θ2 xi + ei ,
i = 1, 2, ..., n
sind die Parameter θ 1 und θ 2 unbekannt, d.h. die Residuen
ei = yi − θ1 − θ2 xi ,
i = 1, 2, ..., n
sind auch unbekannt.
Die Residuen können jedoch geschätzt werden:
ebi = yi − θb1 − θb2 xi ,
i = 1, 2, ..., n
Modellannahme:
Die Residuen sind identisch verteilt, d.h. sie haben alle dieselbe
Verteilung.
Die Plausibilität dieser Annahme kann mit Hilfe eines Residuen-Plots
beurteilt werden.
Kapitel XI – Regressionsanalyse
XI - 60
Beobachtungen, angepasste Gerade und Residuen
Darstellung der Beobachtungen, der angepassten Geraden und der
Residuen:
Beobachtungen und Regressionsgerade
20
y
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
x
Residuen
Residuen
10
5
0
-5
-10
0
1
2
3
4
5
x
Kapitel XI – Regressionsanalyse
XI - 61
Residuen mit steigender Varianz
Beispiel, in dem die Residuen eine steigende Varianz besitzen:
Beobachtungen und Regressionsgerade
20
y
15
10
5
0
0
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
x
Residuen
Residuen
10
5
0
-5
-10
0
1
2
3
4
5
x
Kapitel XI – Regressionsanalyse
XI - 62
Histogramm der Residuen
Histogramm der Residuen:
relative Häufigkeit / Klassenbreite
0.4
0.3
0.2
0.1
0.0
-5
-4
-3
-2
-1
0
1
2
3
4
5
Residuen
Kapitel XI – Regressionsanalyse
XI - 63
Einfaches Regressionsmodell mit normalverteilten Residuen
Ein einfaches Regressionsmodell mit normalverteilten Residuen:
yi = θ1 + θ2 xi + ei, i = 1, 2, . . . , n
wobei die ei unabhängig N (0, σ 2)—verteilt sind.
Ein unverfälschter Schätzer von σ 2 ist gegeben durch:
b2 =
σ
n
1
1
P
2
SQ(Res) = DQ(Res)
ei =
n − 2 i=1
n−2
Die geschätzte Varianz dient zur Bestimmung
(a) der Genauigkeit der Vorhersage von y aus x ,
(b) welches Modell die Daten am besten beschreibt.
Kapitel XI – Regressionsanalyse
XI - 64
Regressionsmodelle mit normalverteilten Residuen
Allgemeine Regressionsmodelle mit normalverteilten Residuen:
yi = E(Y |X = xi) + ei, i = 1, 2, . . . , n
wobei die ei unabhängig N (0, σ 2)—verteilt sind.
Beispiele für Modelle für den bedingten Erwartungswert:
E(Y |X = x)
Anzahl
Param.
Modell
Gerade
2
yi = θ1 + θ2xi + ei
Parabel
3
yi = θ1 + θ2xi + θ3x2
i + ei
Kubik
..
4
..
3
yi = θ1 + θ2xi + θ3x2
i + θ4xi + ei
..
Polynom
p
yi = θ1 + θ2xi + θ3x2
i + · · · + θp xi
b2 =
σ
(p−1)
+ ei
n
1
1
P
2
SQ(Res) = DQ(Res)
ei =
n − p i=1
n−p
Kapitel XI – Regressionsanalyse
XI - 65
Freiheitsgrade
b2 =
σ
1
n−p
n
P
i=1
e2
i
1
=
n−p SQ(Res) = DQ(Res)
Freiheitsgrade FG = n – p = n – Anzahl der Parameter .
Spezialfall: Eine Gerade hat zwei Parameter θ 1 und θ 2 :
Freiheitsgrade FG = n – 2
b 2 = DQ(Res) =
σ
1
SQ(Res)
n−2
Spezialfall: Eine Parabel hat drei Parameter θ 1, θ 2 und θ 3 :
Freiheitsgrade FG = n – 3
b 2 = DQ(Res) =
σ
Kapitel XI – Regressionsanalyse
1
SQ(Res)
n−3
XI - 66
DQ(Res)
DQ (Res) als Schätzer der Residualvarianz:
b2 =
σ
n
1
P
e2
= DQ(Res)
i
n − p i=1
Dieser Schätzer wird benötigt,
(a) um die Genauigkeit der Vorhersage von y aus x zu quantifizieren,
(b) um zu entscheiden, welches Modell die Daten am besten
beschreibt (z.B. eine Gerade, eine Parabel, usw.),
(c) um Konfidenzintervalle für θ j zu bestimmen.
Kapitel XI – Regressionsanalyse
XI - 67
Beispiel: Flugstrecke und Blockzeit
Betrachtet werden Vorhersagen anhand eines geschätzten Modells:
Modell:
yi = θ1 + θ2 xi + ei ,
i = 1, 2, ..., n
Geschätztes Modell:
yi = θb1 + θb2 xi + ei ,
i = 1, 2, ..., n
Beobachteter x -Wert:
Vorhersage:
x0
yb0 = θb1 + θb2x0
Beispiel: Flugstrecke und Blockzeit.
Geschätztes Modell: yi = 38.4 + 0.122 xi + ei.
Vorhersage für eine Flugstrecke von 600 Meilen (x0 = 600):
Vorhersage:
yb0 = 38.4 + 0.122 · 600 ≈ 112.
Wie genau ist diese Vorhersage?
Kapitel XI – Regressionsanalyse
XI - 68
Vorhersage für eine Flugstrecke von 600 Meilen
Flugstrecke und Blockzeit für inneramerikanische Flüge und Vorhersage
für eine Flugstrecke von x 0 = 600 Meilen:
250
Blockzeit (Minuten)
200
150
112
100
50
0
0
500
600
1000
1500
Entfernung (Meilen)
Kapitel XI – Regressionsanalyse
XI - 69
Histogramm der Residuen mit Normalverteilung
Histogramm der Residuen mit angepasster Normalverteilung:
0.03
Dichte
0.02
0.01
0.00
-60
-40
-20
0
20
40
60
Residuen
Kapitel XI – Regressionsanalyse
XI - 70
Konfidenzintervalle für die Vorhersage im Fall einer Geraden
Konfidenzintervall zum Niveau 100(1 – α)% für die Vorhersage:
Untere Grenze:
Obere Grenze:
dt
yb0 − SF
n−2;α/2
dt
yb0 + SF
n−2;α/2
Der geschätzte Prozentpunkt der
Standardfehler t(ν)−Verteilung
der Vorhersage. mit ν = n − 2.
Schätzer des Standardfehlers:
v
u
u
xo −x̄)2
(
1
d
b u1 + + P
SF = σ
n
n
t
2
x2
i − nx̄
i=1
Kapitel XI – Regressionsanalyse
XI - 71
Beispiel: Flugstrecke und Blockzeit
Vorhersage für eine Flugstrecke von 600 Meilen (x0 = 600):
Vorhersage: yb0 = 38.4 + 0.122 · 600 ≈ 112.
Folgende Werte werden benötigt:
n = 100
100
P
i=1
x̄ ≈ 829
xi = 82 908
x0 = 600
100
P 2
xi = 83 113 502
i=1
SQ(Res) ≈ 21 498
b 2 = DQ(Res) = SQ(Res) ≈ 219
σ
100−2
d =
SF
s
µ
(600−829)2
1 +
219 1 + 100
83 113 502−100·(829)2
Kapitel XI – Regressionsanalyse
¶
= 14.9
XI - 72
Beispiel: 95% Konfidenzintervall für die Vorhersage
Konfidenzintervall für die Vorhersage:
Untere Grenze:
Obere Grenze:
dt
yb0 − SF
n−2;α/2
dt
yb0 + SF
n−2;α/2
Benötigt werden die folgenden Werte ((1 – α) = 0.95):
Vorhersage:
yb0 = 112
d = 14.9
Standardfehler: SF
(1 − α) = 0.95 ⇒ tn−2;α/2 = t98;0.025 ≈ 1.98
95 % Konfidenzintervall für die Vorhersage:
Untere Grenze: 112 - 14.9 · 1.98 ≈ 83 .
Obere Grenze:
112 + 14.9 ·1.98 ≈ 141 .
95% Konfidenzintervall für die Vorhersage: (83; 141).
Kapitel XI – Regressionsanalyse
XI - 73
Modellauswahl – Polynome
Modellierung des bedingten Erwartungswertes:
yi = E(Y |X = xi) + ei, i = 1, 2, . . . , n
wobei die ei unabhängig N (0, σ 2)—verteilt sind.
Folgende Modelle stehen (u.a.) zur Auswahl:
E(Y |X = x)
Anzahl
Param.
Modell
Gerade
2
yi = θ1 + θ2xi + ei
Parabel
3
yi = θ1 + θ2xi + θ3x2
i + ei
Kubik
..
4
..
3+e
yi = θ1 + θ2xi + θ3x2
+
θ
x
4
i
i
i
..
Polynom
p
yi = θ1 + θ2xi + θ3x2
i + · · · + θp xi
(p−1)
+ ei
Welches Modell soll man an die Daten anpassen?
Kapitel XI – Regressionsanalyse
XI - 74
Polynome zur Beschreibung des Gasverbrauchs
40
durchschnittlicher
Gasverbrauch (m³/Tag)
durchschnittlicher
Gasverbrauch (m³/Tag)
Anpassung von Polynomen zur Beschreibung des Zusammenhangs von
Temperatur und Gasverbrauch:
35
30
25
20
15
10
5
0
-5
0
5
10
15
20
durchschnittliche Temperatur (°C)
40
35
30
25
20
15
10
5
0
-10
-5
0
5
10
15
20
durchschnittliche Temperatur (°C)
Kapitel XI – Regressionsanalyse
35
30
25
20
15
10
5
0
25
durchschnittlicher
Gasverbrauch (m³/Tag)
durchschnittlicher
Gasverbrauch (m³/Tag)
-10
40
25
-10
-5
0
5
10
15
20
durchschnittliche Temperatur (°C)
25
-10
-5
0
5
10
15
20
durchschnittliche Temperatur (°C)
25
40
35
30
25
20
15
10
5
0
XI - 75
Welches Modell soll man an die Daten anpassen?
Bei der Modellanpassung ist folgendes zu bedenken:
– Mit zunehmender Zahl der Parameter wird die Anpassung an die
Beobachtung besser.
– Von Interesse ist die Güte der Anpassung an die Daten in der
Grundgesamtheit.
– Mit zunehmender Zahl der Parameter wird der Fehler durch Schätzung
vergrößert.
Strategie zur Modellauswahl:
– Das einfachste Modell wählen, das plausibel ist, das also nicht
offensichtlich falsch ist.
– Ob ein Modell „offensichtlich falsch“ ist, kann mit Hilfe eines Hypothesentests
überprüft werden.
Kapitel XI – Regressionsanalyse
XI - 76
Darstellung der Residuen
Darstellung der Residuen:
Gerade: SQ(Res) = 56
Residuen
Residuen
Konstante: SQ(Res) = 1670
20
15
10
5
0
-5
-10
-15
-20
-10
-5
0
5
10
15
20
20
15
10
5
0
-5
-10
-15
-20
25
-10
-5
durchschnittliche Temperatur (°C)
0
5
10
15
durchschnittliche Temperatur (°C)
Kapitel XI – Regressionsanalyse
10
15
20
25
20
25
Kubik: SQ(Res) = 19
Residuen
Residuen
Parabel: SQ(Res) = 37
-5
5
durchschnittliche Temperatur (°C)
20
15
10
5
0
-5
-10
-15
-20
-10
0
20
25
20
15
10
5
0
-5
-10
-15
-20
-10
-5
0
5
10
15
durchschnittliche Temperatur (°C)
XI - 77
SQ und DQ im Beispiel „Temperatur und Gasverbrauch“
SQ und DQ im Beispiel „Temperatur und Gasverbrauch“:
Kapitel XI – Regressionsanalyse
Modell
p SQ(Res) n − p DQ(Res)
Konstante
1
1 670
11
151.800
Gerade
2
56
10
5.600
Parabel
3
37
9
4.111
Kubik
4
19
8
2.375
XI - 78
Entscheidungsregel
Betrachtet werden zwei Modelle M 1 und M 2 :
M1
M2
das Modell mit der größeren Anzahl an Parametern,
das Modell mit der kleineren Anzahl an Parametern,
Wir testen die Nullhypothese: Modell M 2 ist korrekt.
Entscheidungsregel:
Modell M 1 wird gewählt, falls H0 verworfen wird.
Modell M 2 wird gewählt, falls H0 nicht verworfen wird.
Beispiel:
M1 :
M2 :
3+e
yi = θ1 + θ2xi + θ3x2
+
θ
x
4
i
i
i
yi = θ1 + θ2xi + θ3x2
i + ei
(4 Parameter)
(3 Parameter)
Wir testen H0 : Modell M 2 ist korrekt (d.h. θ 4 = 0).
Kapitel XI – Regressionsanalyse
XI - 79
Die Prüfgröße
Notation für die Prüfgröße:
M1
M2
das Modell mit der größeren Anzahl an Parametern,
das Modell mit der kleineren Anzahl an Parametern,
SQ (M 1)
SQ (M 2)
die Summe der Quadrate der Residuale für M 1 ,
die Summe der Quadrate der Residuale für M 2 ,
FG (M 1)
FG (M 2)
die Anzahl der Freiheitsgrade für Modell M 1 ,
die Anzahl der Freiheitsgrade für Modell M 2 .
Prüfgröße:
SQ(Res,M2 )−SQ(Res,M1 )
F G(M2 )−F G(M1)
PG =
SQ(Res,M1 )
F G(M1 )
Unter H0 gilt P G ∼ F (ν1, ν2)
Kapitel XI – Regressionsanalyse
mit ν1 = F G(M2) − F G(M1),
ν2 = F G(M1)
XI - 80
Die Prüfgröße basierend auf R-Quadrat
Alternative Notation für die Prüfgröße basierend auf R 2 :
M1
M2
das Modell mit der größeren Anzahl an Parametern,
das Modell mit der kleineren Anzahl an Parametern,
R 2 (M 1) Bestimmtheitsmaß R 2 für Modell M 1 ,
R 2 (M 2) Bestimmtheitsmaß R 2 für Modell M 2 .
Darstellung der Prüfgröße basierend auf R 2 :
R2 (M1 )−R2(M2 )
F G(M2 )−F G(M1)
PG =
1−R2 (M1 )
F G(M1 )
Unter H0 gilt P G ∼ F (ν1, ν2)
Kapitel XI – Regressionsanalyse
mit ν1 = F G(M2) − F G(M1),
ν2 = F G(M1)
XI - 81
Beispiel: Temperatur und Gasverbrauch
Modellauswahl im Beispiel „Temperatur und Gasverbrauch“:
M1 :
M2 :
3 + e (4 Parameter)
yi = θ1 + θ2xi + θ3x2
+
θ
x
4
i
i
i
yi = θ1 + θ2xi + θ3x2
(3 Parameter)
i + ei
H0 : Modell M 2 ist korrekt (d.h. θ 4 = 0).
SQ und FG : SQ(Res, M1) = 19
SQ(Res, M2) = 37
F G(M1) = 12 − 4 = 8
F G(M2) = 12 − 3 = 9
37−19
P G = 9−8
= 7.58
19
8
Unter H0 gilt: P G ∼ F (ν1 = 1, ν2 = 8).
Beim Signifikanzniveau von 5% ist der Ablehnungsbereich A = [5.32, ∞).
Da PG = 7.58 ∈ A wird Modell M 2 (die Parabel) verworfen. Wir
entscheiden uns für das Modell M 1 (die kubische Funktion).
Kapitel XI – Regressionsanalyse
XI - 82
95% – Punkt der F-Verteilung mit 1 und 8 FG
95% - Punkt der F-Verteilung mit 1 und 8 Freiheitsgraden:
1.5
Nullhypothese
nicht verwerfen
Nullhypothese
verwerfen
f(x)
1.0
95 %
0.5
5%
0.0
0
1
2
3
4
x
Kapitel XI – Regressionsanalyse
5
6
7
8
5.32
XI - 83
Arbeitstabelle zur Berechnung der Prüfgröße
Berechnung der Prüfgröße:
SQ(Res, M1) = 19
SQ(Res, M2) = 37
F G(M1) = 12 − 4 = 8
F G(M2) = 12 − 3 = 9
37−19
P G = 9−8
= 7.58
19
8
Arbeitstabelle zur Berechnung der Prüfgröße:
Modell
FG
SQ
DQ
F (oder P G)
Differenz
M1
1
8
18
19
18
2.375
7.58
M2
9
37
(Vgl. Arbeitstabellen im Rahmen der Varianzanalyse in Kapitel 12).
Kapitel XI – Regressionsanalyse
XI - 84
Anmerkungen zum Modellauswahltest
Der Modellauswahltest ist nur dann exakt, wenn die Resiuden
normalverteilt sind. Andernfalls ist er nur annähernd gültig.
Unter dem F-Test wird in der Literatur (und auch in R) derjenige Test
beschrieben, der ein komplexeres Modell M 1 mit dem trivialen Modell
M 2 : y i = θ 1 (eine Konstante, d.h. ein Polynom 0-ten Grades) vergleicht.
Kapitel XI – Regressionsanalyse
XI - 85
t-Test
Ein anderer Spezialfall ist dann gegeben, wenn M 2 um einen Parameter
kleiner ist als M 1 , z.B. wenn eine Parabel (M 2) mit einer kubischen
Alternative (M 1) verglichen wird.
In diesem Fall ist der F-Test äquivalent zu einem t-Test der Hypothese
θ 4 = 0.
d θ̂ ) ∼ t
P Gt = θ̂4/SE(
ν2 mit ν2 = F G(M1)
4
Falls −tν2,α/2 < P Gt < tν2,α/2 , können wir die Nullhypothese nicht
verwerfen.
Äquivalent Betrachtung: Das Konfidenzintervall für θ 4 enthält die Null.
Im anderen Fall wird gesagt, dass θ̂4 signifikant ist, d.h. das
Konfidenzintervall enthält nicht die Null.
Es gilt: (P Gt)2 = F , wobei F ∼ F1,ν2 und P Gt ∼ tν2 .
Kapitel XI – Regressionsanalyse
XI - 86
Kapitel 12
Faktoreinflüsse –
Varianzanalyse
Kapitel XII – Varianzanalyse
XII - 0
Varianzanalyse
Übersicht
Einfache Varianzanalyse:
– Einführung: Grundgesamtheit und Teilgesamtheiten,
– Notation und Annahmen,
– Identität der Varianzanalyse,
– Prüfgröße / Tabelle der Varianzanalyse.
Erweiterungen der einfachen Varianzanalyse.
Anwendungsbeispiele.
Kapitel XII – Varianzanalyse
XII - 1
Regressionsanalyse und Varianzanalyse
Im Rahmen der Regressionsanalyse wird die Quantifizierung der
Beziehungen zwischen stetigen Merkmalen betrachtet.
Die Varianzanalyse (ANOVA: Analysis of Variance) befasst sich mit
Anwendungen, in denen ein Merkmal diskret ist (üblicherweise qualitativ)
und eines stetig.
Typische Fragestellungen in der Varianzanalyse:
– Ist ein neues Verfahren (Produkt, Medizin, Dünger, etc.) effektiver als ein
bestehendes?
– Wie schwankt die Produktivität (Verkaufsvolumen, Fehlzeiten, etc.) an
unterschiedlichen Tagen der Woche?
– Unterscheidet sich eine bestimmte Teilmenge einer Grundgesamtheit in
gewisser Hinsicht von anderen in der Grundgesamtheit?
Kapitel XII – Varianzanalyse
XII - 2
Dichtefunktion der Grundgesamtheit und der Teilgesamtheiten
Wird ein stetiges Merkmal für Individuen einer Grundgesamtheit
gemessen, erhält man eine Dichtefunktion f (x) für dieses Merkmal.
Wird die Grundgesamtheit in I Teilgesamtheiten zerlegt und das Merkmal
für jede Teilgesamtheit getrennt gemessen, erhält man I Dichten:
f1(x), f2(x), ..., fI (x).
Die Frage ist dabei, ob die I Teilgesamtheiten identische Dichtefunktionen
haben, d.h. ob
f1(x) = f2(x) = ... = fI (x) ?
Kapitel XII – Varianzanalyse
XII - 3
Die Grundgesamtheit und die Teilgesamtheiten
Die Grundgesamtheit und die Teilgesamtheiten:
Grundgesamtheit
Stichproben
Teilgesamtheit 1
Stichprobe 1
Teilgesamtheit 2
Stichprobe 2
Teilgesamtheit 3
Stichprobe 3
usw.
usw.
Teilgesamtheit I
Stichprobe I
Kapitel XII – Varianzanalyse
XII - 4
Getreideertrag in Abhängigkeit vom Düngemittel
Beispiel 12.1: Betrachtet wird der Getreideertrag bei zwei
unterschiedlichen Düngemitteln (1 und 2).
Dabei ist
f1(x) die Dichtefunktion des Ertrags mit Dünger 1 und
f2(x) die Dichtefunktion des Ertrags mit Dünger 2.
Geprüft werden soll, ob sich die Dünger in ihrer Wirkung unterscheiden.
Wenn es keinen Unterschied zwischen den Düngern gibt, sollten die
beiden Dichtefunktionen ungefähr gleich sein.
Mathematisch lässt sich die Fragestellung wie folgt formulieren:
f1(x) = f2(x) ?
Kapitel XII – Varianzanalyse
XII - 5
Erträge bei unterschiedlichen Düngern
Dichtefunktionen der Erträge bei unterschiedlichen Düngern:
unterschiedliche Dichten
0.04
Dünger 1
Dünger 2
f(x)
0.03
0.02
0.01
0.00
20
40
60
80
Ertrag (x)
100
120
140
identische Dichten
0.04
Dünger 1
Dünger 2
f(x)
0.03
0.02
0.01
0.00
20
Kapitel XII – Varianzanalyse
40
60
80
Ertrag (x)
100
120
140
XII - 6
Erträge bei unterschiedlichen Düngern
Histogramme der Erträge bei unterschiedlichen Düngern:
relative Häufigkeit /
Klassenbreite
unterschiedliche Histogramme
0.04
Dünger 1
Dünger 2
0.03
0.02
0.01
0.00
20
40
60
80
100
120
140
Ertrag
relative Häufigkeit /
Klassenbreite
ähnliche Histogramme
0.04
Dünger 1
Dünger 2
0.03
0.02
0.01
0.00
20
40
60
80
100
120
140
Ertrag
Kapitel XII – Varianzanalyse
XII - 7
Erträge bei unterschiedlichen Düngern
Boxplots der Erträge bei unterschiedlichen Düngern:
unterschiedliche Boxplots
ähnliche Boxplots
140
140
120
120
100
100
80
80
60
60
40
40
20
20
Dünger 1
Kapitel XII – Varianzanalyse
Dünger 2
Dünger 1
Dünger 2
XII - 8
Erträge bei unterschiedlichen Düngern
Im Folgenden werden zwei hypothetische Datensätze betrachtet:
Datensatz I:
Düngemittel
Beobachtungen
Summe
Mittelwert
Datensatz II:
Düngemittel
Beobachtungen
Summe
Mittelwert
Kapitel XII – Varianzanalyse
1
84
85
86
255
85
2
71
72
70
213
71
1
70
85
100
255
85
2
71
86
56
213
71
XII - 9
Notation der Varianzanalyse
Allgemeines Aussehen einer Daten-Tabelle in der Einweg-Varianzanalyse:
j\i
1
2
..
J
1
y11
y12
..
y1J
2
y21
y22
..
y2J
...
...
...
...
...
I
yI1
yI2
..
yIJ
d.h. dass yij die j-te Beobachtung (Zeilen) der i-ten Teilgesamtheit
(Spalten) ist.
Im Beispiel „Getreideertrag“ liegen drei Beobachtungen y11, y12 und y13 für
die Erträge mit Dünger 1 und drei Beobachtungen y21, y22 und y23 für die
Erträge mit Dünger 2 vor.
Kapitel XII – Varianzanalyse
XII - 10
Notation der Varianzanalyse
Bestimmung der Teilsummen der Beobachtungen in den
Teilgesamtheiten:
yi. = yi1 + yi2 + . . . + yiJ =
J
X
yij
j=1
J
X
(z.B. y2. = y21 + y22 + . . . + y2J =
y2j )
j=1
Daraus ergeben sich die Teilmittelwerte in den Teilgesamtheiten:
ȳi. = (yi1 + yi2 + . . . + y1J )/J = yi./J
(z.B. ȳ2. = (y21 + y22 + . . . + y2J )/J = y2./J)
Beispielsweise erhält man für Düngemittel 2 im Datensatz I folgendes:
– Teilsumme:
y2. = y21 + y22 + y23 =
P
j y2j = 71 + 72 + 70 = 213
– Teilmittelwert: ȳ2. = y2./3 = 213/3 = 71
Kapitel XII – Varianzanalyse
XII - 11
Notation der Varianzanalyse
Die Gesamtsumme aller Beobachtungen ergibt sich durch:
y.. = y11 + y12 + . . . + yIJ =
I X
J
X
yij
i=1 j=1
Daraus erhält man den Gesamtmittelwert:
ȳ.. = (y11 + y12 + . . . + yIJ )/IJ = y../IJ
Für das Düngemittel-Beispiel erhält man folgende Gesamtsumme:
y.. = y11 + y12 + y13 + y21 + y22 + y23 =
3
2 X
X
yij
i=1 j=1
= 84 + 85 + 86 + 71 + 72 + 70 = 468
Die Gesamtsumme geteilt durch die Anzahl der Beobachtungen (n = I ⋅ J)
ergibt den Gesamtmittelwert:
ȳ.. = y../6 = 468/6 = 78
Kapitel XII – Varianzanalyse
XII - 12
Erträge bei unterschiedlichen Düngern
Erträge bei unterschiedlichen Düngern bei kleinen Varianzen (links) und
bei großen Varianzen:
Datensatz I:
relativ kleine Varianzen
Datensatz II:
relativ große Varianzen
140
140
120
120
100
100
80
80
60
60
40
40
20
20
Dünger 1
Kapitel XII – Varianzanalyse
Dünger 2
Dünger 1
Dünger 2
XII - 13
Erträge bei unterschiedlichen Düngern
Betrachtung der Differenzen zwischen den Mittelwerten in beiden
Datensätzen:
Für beide Datensätze sind die Teilmittelwerte jeweils gleich, d.h. auch die
Differenz der Erträge zwischen den beiden Düngern ist gleich. Jedoch
streuen die Daten im Datensatz II wesentlich stärker um den Mittelwert.
In Datensatz I ist die Differenz der durchschnittlichen Erträge groß
verglichen mit der Variabilität der Erträge der jeweiligen Düngemittel.
Daher kann man sich ziemlich sicher sein, dass sich die Düngemittel
unterscheiden.
In Datensatz II ist die Differenz der durchschnittlichen Erträge klein im
Vergleich zu den Schwankungen der jeweiligen Erträge. Daher kann man
sich nicht sicher sein, dass sich die Dünger unterscheiden.
Kapitel XII – Varianzanalyse
XII - 14
Annahmen der Varianzanalyse
Die Varianzanalyse verwendet eine Prüfgröße, die die Differenz bzw.
Streuung zwischen den Teilgesamtheiten ins Verhältnis zur Streuung
innerhalb der Teilgesamtheiten setzt.
Dazu werden folgende Annahmen getroffen:
(i) Die Erträge sind (für beide Dünger) gleich, und
(ii) Die Varianzen der (beiden) Verteilungen sind gleich.
Wird angenommen, dass der Ertrag mit Dünger 1 normalverteilt ist mit
Erwartungswert μ1 und Varianz σ2 und der Ertrag mit Dünger 2
normalverteilt ist mit Erwartungswert μ2 und Varianz σ2, dann folgt daraus:
f1(x) = f2(x) genau dann, wenn μ1 = μ2 .
Kapitel XII – Varianzanalyse
XII - 15
Annahmen der Varianzanalyse
Daraus lässt sich die zu testende Nullhypothese ableiten:
H0 : μ1 = μ2
und
H1 : μ1 6= μ2 .
Für den allgemeinen Fall mit I statt 2 Teilgesamtheiten erhält man:
H0 : μ1 = μ2 = . . . = μI ,
H1 : Nicht alle μi sind gleich.
Diese beiden Hypothesen entsprechen zwei unterschiedlichen Modellen:
Modell 1 mit I unterschiedlichen Erwartungswerten:
yij = μi + eij
i = 1, . . . , I; j = 1, . . . , J,
Modell 2 mit einem Gesamt-Erwartungswert:
yij = μ + eij
Kapitel XII – Varianzanalyse
i = 1, . . . , I; j = 1, . . . , J.
XII - 16
Varianzanalyse
Die Parameter μi werden dabei durch die Teilmittelwerte geschätzt:
μ̂1 = ȳ1., . . . , μ̂I = ȳI.
Entsprechend wird der Parameter μ durch den Gesamtmittelwert
geschätzt:
μ̂ = ȳ..
Die eij stellen (wie auch in der Regressionsanalyse) jeweils die Residuale
dar.
Die Gesamtstreuung der Beobachtungen wird durch SQ (Total) gemessen:
SQ (Total) =
J
I X
X
(yij − ȳ..)2 .
i=1 j=1
(Vgl. SQ (Total) in der Regressionsanalyse).
Kapitel XII – Varianzanalyse
XII - 17
Identität der Varianzanalyse
Die Gesamtstreuung kann in zwei Teile zerlegt werden, den durch das
Modell (M1) erklärten und den nicht erklärten Teil:
SQ T otal =
I X
J
X
i=1 j=1
(yij − ȳ..)2 =
SQ(M1)
I X
J
X
i=1 j=1
+
(ȳi. − ȳ..)2 +
SQ(Res; M1)
I X
J
X
i=1 j=1
(yij − ȳi.)2
Die Zerlegung der Gesamtstreuung wird auch als Identität der
Varianzanalyse bezeichnet.
Für das vereinfachte Modell (M2), welches nur den Gesamtmittelwert
beinhaltet, ergibt sich folgendes:
SQ(Res; M2) =
I X
J
X
i=1 j=1
Kapitel XII – Varianzanalyse
(yij −ȳ..)2 =
I X
J
X
ê2
ij (M2 ) = SQ T otal .
i=1 j=1
XII - 18
Prüfgröße der einfachen Varianzanalyse
Die Prüfgröße der einfachen Varianzanalyse ist gegeben durch:
J
I
1 P P (ȳ − ȳ )2
..
i.
I−1
i=1 j=1
PG =
J
I
1 P P (y − ȳ )2
ij
i.
n−I
i=1 j=1
Im Zähler der Prüfgröße steht SQ (M1); dieser misst die Streuung
zwischen den Teilmittelwerten.
Im Nenner der Prüfgröße steht SQ (Res; M1); hiermit wird die Streuung
innerhalb der Teilgesamtheiten gemessen.
Diese beiden Komponenten werden durch die entsprechenden
Freiheitsgrade I – 1 bzw. n – I dividiert.
Kapitel XII – Varianzanalyse
XII - 19
Prüfgröße der einfachen Varianzanalyse
Die Prüfgröße der einfachen Varianzanalyse lässt sich wie folgt
umschreiben:
PG =
I
J
1 P P (ȳ − ȳ )2
..
i.
I−1
SQ(M1)/(I − 1)
i=1 j=1
=
I
J
SQ(Res; M1)/(n − I)
1 P P (y − ȳ )2
ij
i.
n−I
i=1 j=1
(SQ T otal − SQ(Res; M1)) / ((n − 1) − (n − I))
=
SQ(Res; M1)/(n − I)
(SQ(Res; M2) − SQ(Res; M1)) / (F G(M2) − F G(M1))
=
SQ(Res; M1)/F G(M1)
Für die Freiheitsgrade gilt allgemein:
F G Modell = n − p = Anzahl Beobachtungen − Anzahl Parameter.
Unter Gültigkeit von H0 ist PG F-verteilt mit ν1 = FG(M2) – FG(M1) und
ν2 = FG(M1) Freiheitsgraden.
Kapitel XII – Varianzanalyse
XII - 20
Erträge bei unterschiedlichen Düngern
Anpassung der zwei Modelle an Datensatz I:
Düngemittel
Beobachtungen
Summe
Mittelwert
1
84
85
86
255
85
2
71
72
70
213
71
Modell I mit zwei unterschiedlichen Erwartungswerten μ1 und μ2, die durch
die Teilmittelwerte geschätzt werden:
μ̂1 = ȳ1. = 85
μ̂2 = ȳ2. = 71 .
Modell II mit einem gemeinsamen Erwartungswert μ, der durch den
Gesamtmittelwert der Beobachtungen geschätzt wird:
μ̂ = ȳ.. = 78 .
Kapitel XII – Varianzanalyse
XII - 21
Erträge bei unterschiedlichen Düngern
Bestimmung der geschätzten Residuen für beide Modelle:
– Modell I:
e1j = y1j − ȳ1. = y1j − 85
j = 1, 2, 3
e2j = y2j − ȳ2. = y2j − 71
j = 1, 2, 3
– Modell II:
eij = yij − ȳ.. = yij − 78
i = 1, 2;
j = 1, 2, 3
Aus den Residuen ergibt sich die Summe der Quadrate der Residuen:
SQ(Res; M1) =
3
2 X
X
(yij − ȳi.)2 = (84 − 85)2 + (85 − 85)2+
3
2 X
X
(yij − ȳ..)2 = (84 − 78)2 + (85 − 78)2+
i=1 j=1
+ (86 − 85)2 + (71 − 71)2 + (72 − 71)2 + (70 − 71)2 = 4
SQ(Res; M2) =
i=1 j=1
+ (86 − 78)2 + (71 − 78)2 + (72 − 78)2 + (70 − 78)2 = 298
Kapitel XII – Varianzanalyse
XII - 22
Erträge bei unterschiedlichen Düngern
Tabellarische Übersicht zur Bestimmung der SQ :
Modell 1
Die Verteilungen sind verschieden.
Düngemittel i
1
2
84 71
Beobachtungen yij
85 72
86 70
Mittelwerte ȳi.
85 71
-1
0
Residuen êij = yij − ȳi.
0
1
1 -1
1
0
quadrierte Residuen ê2
0
1
ij
1
1
P
SQ(Res; M1) = ij ê2
4
ij
F G(M1) = n − I
4
Kapitel XII – Varianzanalyse
Modell 2
Die Verteilungen sind identisch.
Düngemittel i
1
2
84
71
Beobachtungen yij
85
72
86
70
Mittelwert ȳ..
78
6
-7
Residuen êij = yij − ȳ..
7
-6
8
-8
36
49
quadrierte Residuen ê2
49
36
ij
64
64
P
SQ(Res; M2) = ij ê2
298
ij
F G(M2) = n − 1
5
XII - 23
Erträge bei unterschiedlichen Düngern
SQ(Res; M1) ist wesentlich kleiner als SQ(Res; M2), somit passt Modell 1
vermutlich besser.
In Modell 1 wurden 2 Mittelwerte geschätzt, somit erhält man bei 6
Beobachtungen FG (M1) = 6 – 2 = 4.
In Modell 2 wurde ein Mittelwert geschätzt und somit ist FG (M2) = 6 – 1 = 5.
Für die Prüfgröße erhält man PG = F = 294.
Bei einem Signifikanzniveau von α = 0.05 ergibt sich als kritischer Wert der
F-Verteilung mit 1 und 4 Freiheitsgraden 7.71.
Die Prüfgröße fällt in den Ablehnungsbereich, somit wird die Nullhypothese
(„die Erwartungswerte sind gleich“) abgelehnt.
Kapitel XII – Varianzanalyse
XII - 24
Ablehnungsbereich einer F-Verteilung
Ablehnungsbereich einer F[1; 4] – Verteilung für α = 0.05:
0.20
Nullhypothese
nicht verwerfen
Nullhypothese verwerfen
f(x)
0.15
0.10
95%
5%
0.05
0.00
0
Kapitel XII – Varianzanalyse
2
4
6
8
10
7.71
x
12
14
16
18
20
XII - 25
Erträge bei unterschiedlichen Düngern
Bestimmung der SQ für Datensatz II:
Modell 1
Die Verteilungen sind verschieden.
Düngemittel i
1
2
70
71
85
86
Beobachtungen yij
100
56
Mittelwerte ȳi.
85
71
-15
0
Residuen êij = yij − ȳi.
0
15
15 -15
225
0
quadrierte Residuen ê2
0 225
ij
225 225
P
SQ(Res; M1) = ij ê2
900
ij
F G(M1) = n − I
4
Kapitel XII – Varianzanalyse
Modell 2
Die Verteilungen sind identisch.
Düngemittel i
1
2
70
71
85
86
Beobachtungen yij
100
56
Mittelwert ȳ..
78
-8
-7
Residuen êij = yij − ȳ..
7
8
22
-22
64
49
quadrierte Residuen ê2
49
64
ij
484
484
P
SQ(Res; M2) = ij ê2
1 194
ij
F G(M2) = n − 1
5
XII - 26
Erträge bei unterschiedlichen Düngern
Berechnung der Prüfgröße für Datensatz I mit Hilfe der VarianzanalyseTabelle:
FG
SQ(Res)
DQ(Res)
F (oder P G)
Differenz
1
294
294
294
Modell 1
Modell 2
4
5
4
298
1
Berechnung der Prüfgröße für Datensatz II mit der Varianzanalyse-Tabelle:
FG
SQ(Res)
DQ(Res)
F (oder P G)
1.31
Differenz
1
294
294
Modell 1
Modell 2
4
5
900
1 194
225
(Im Gegensatz zu Datensatz I wird hier H0 nicht abgelehnt, da PG ∉ A.)
Kapitel XII – Varianzanalyse
XII - 27
Erträge bei unterschiedlichen Düngern
Je zwei Modelle für die beiden Datensätze im Dünger-Beispiel:
Datensatz I:
Modell 1 (zwei Dichten)
0.4
0.04
0.03
Dichte
Dichte
0.3
0.2
0.02
0.1
0.01
0.0
0.00
20 30
40 50 60 70 80 90
110
130
20 30 40 50 60
die 6 Beobachtungen
70 80 90
110
130
die 6 Beobachtungen
Modell 2 (eine Dichte)
0.08
0.04
Modell 2 (eine Dichte)
0.03
Dichte
0.06
Dichte
Datensatz II:
Modell 1 (zwei Dichten)
0.04
0.02
0.02
0.01
0.00
0.00
20 30
40 50 60 70 80 90
die 6 Beobachtungen
Kapitel XII – Varianzanalyse
110
130
20 30 40 50 60
70 80 90
110
130
die 6 Beobachtungen
XII - 28
Erträge bei unterschiedlichen Düngern
Residuen der zwei Modelle für die zwei Datensätze:
Datensatz I:
Modell 1 (zwei Dichten)
0.4
0.04
0.03
Dichte
0.3
Dichte
Datensatz II:
Modell 1 (zwei Dichten)
0.2
0.02
0.1
0.01
0.0
0.00
-50
-40
-30
-20
-10
0
10
20
30
40
50
-50
-40
-30
-20
die 6 Residuen
10
20
30
40
50
30
40
50
Modell 2 (eine Dichte)
0.04
0.03
Dichte
0.06
Dichte
0
die 6 Residuen
Modell 2 (eine Dichte)
0.08
-10
0.04
0.02
0.02
0.01
0.00
0.00
-50
-40
-30
-20
-10
0
10
die 6 Residuen
Kapitel XII – Varianzanalyse
20
30
40
50
-50
-40
-30
-20
-10
0
10
20
die 6 Residuen
XII - 29
Absatz in Abhängigkeit von der Art der Werbung
Beispiel 12.2: Betrachtet wird der wöchentliche Absatz von ErdbeerJoghurt in einem Supermarkt von Oktober 1986 bis Juli 1988 in
Abhängigkeit vom Anzeigentyp.
Insgesamt liegen Verkaufszahlen für 21 Wochen vor, in denen das
Produkt zu einem vergleichbaren Preis angeboten wurde:
Anzeigentyp
Beobachtungen
Kapitel XII – Varianzanalyse
keine klein
15
28
18
30
25
19
18
34
32
22
44
15
16
29
groß
27
23
35
46
45
22
33
XII - 30
Wöchentliche Verkaufszahlen
Wöchentliche Verkaufszahlen in Abhängigkeit vom Anzeigentyp:
50
40
30
20
10
keine Anzeige
Kapitel XII – Varianzanalyse
kleine Anzeige
große Anzeige
XII - 31
Absatz in Abhängigkeit von der Art der Werbung
Anhand des Boxplots lässt sich ein Zusammenhang zwischen der Art der
Werbung und den Verkaufszahlen vermuten. Jedoch ist es nicht völlig klar,
ob die Schwankungen nicht auch zufällig entstanden sein könnten.
Es wird die Nullhypothese getestet, dass die erwartete wöchentliche
Verkaufszahl für alle Anzeigentypen gleich ist:
H0 : μ1 = μ2 = μ3 .
Entsprechend ist die Alternativhypothese H1: Die Erwartungswerte μ1, μ2,
μ3 sind nicht alle gleich.
Somit werden folgende beiden Modelle betrachtet:
Modell 1 (unter H1):
i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7
yij = μi + eij
Modell 2 (unter H0):
i = 1, 2, 3; j = 1, 2, 3, 4, 5, 6, 7
yij = μ + eij
Kapitel XII – Varianzanalyse
XII - 32
Absatz in Abhängigkeit von der Art der Werbung
Berechnung der SQ für beide Modelle:
Modell 1 - Die Verteilungen sind verschieden.
Anzeigentyp
keine klein
groß
15
34
27
28
32
23
18
22
35
Beobachtungen
30
44
46
25
15
45
19
16
22
18
29
33
∗
∗
Mittelwerte
22
27
33
-7
7
-6
6
5
-10
-4
-5
2
Residuen
8
17
13
3
-12
12
-3
-11
-11
-4
2
0
49
49
36
36
25
100
16
25
4
2
Residuen
64
289
169
9
144
144
9
121
121
16
4
0
SQ(Res; M1)
1 430
18
F G(M1 )
Kapitel XII – Varianzanalyse
Modell 2 - Die Verteilungen sind identisch.
Anzeigentyp
keine klein
groß
15
34
27
28
32
23
18
22
35
Beobachtungen
30
44
46
25
15
45
19
16
22
18
29
33
Mittelwert
27∗
-12
7
0
1
5
-4
-9
-5
8
Residuen
3
17
19
-2
-12
18
-8
-11
-5
-9
2
6
144
49
0
1
25
16
81
25
64
2
Residuen
9
289
361
4
144
324
64
121
25
81
4
36
SQ(Res; M2 )
1 867
20
F G(M2 )
XII - 33
Absatz in Abhängigkeit von der Art der Werbung
Tabelle der Varianzanalyse:
FG
SQ(Res)
DQ(Res)
F (oder P G)
2.75
Differenz
2
437
218.5
Modell 1
Modell 2
18
20
1 430
1 867
79.4
Für ein Signifikanzniveau von α = 0.05 erhält man einen kritischen Wert
von 3.55. Als P-Wert ergibt sich 0.09.
Insofern hängt es vom verwendeten Signifikanzniveau ab (d.h. von der
gewünschten „Sicherheit“), ob die Nullhypothese verworfen wird oder
nicht.
Anhand der vorliegenden Daten ist man nicht in der Lage mit großer
Sicherheit nachzuweisen, dass der Anzeigentyp tatsächlich keinen
Einfluss auf die Absatzzahl hat.
Kapitel XII – Varianzanalyse
XII - 34
Absatz in Abhängigkeit von der Art der Werbung
Nimmt man in diesem Fall ein Signifikanzniveau von α = 0.10 an, ergibt
sich Modell 1 (mit den drei unterschiedlichen Erwartungswerten):
μ̂1 = 22, μ̂2 = 27 und μ̂3 = 33.
Die Varianz (die laut Annahme) für die drei Teilgesamtheiten identisch ist,
entspricht der Varianz der Residuen. Diese wird geschätzt durch:
SQ(Res; M1)
1430
2
σ̂M = DQ(Res; M1) =
=
≈ 79.4.
1
FG(M1)
18
Unter Modell 2 hingegen ergibt sich ein geschätzter Erwartungswert von
27 mit folgender Varianz:
SQ(Res; M2)
1867
2
σ̂M = DQ(Res; M2) =
=
= 93.35.
2
FG(M2)
20
Kapitel XII – Varianzanalyse
XII - 35
Wöchentliche Verkaufszahlen
Verteilungen unter Modell 1 und Modell 2:
keine Anzeige
kleine Anzeige
große Anzeige
gesamt
0.05
f(x)
0.04
0.03
0.02
0.01
0.00
0
20
40
60
x (wöchentliche Verkaufszahl)
Kapitel XII – Varianzanalyse
XII - 36
Kapitel 13
Der Zufall im Zeitverlauf –
Zeitreihen und Indizes
Kapitel XIII – Zeitreihen und Indizes
XIII - 0
Übersicht
Komponenten einer Zeitreihe:
– Trend (Einfacher Trend, Konjunkturzyklus),
– Saisonkomponente,
– Residuen.
Transformationen:
– Additive und multiplikative Modelle.
Zerlegung von Zeitreihen:
– Gleitende Durchschnitte und Filterungen,
– Schätzung der Saisonkomponente und der Residuen.
Preisindizes:
– Verbraucherpreisindex für Deutschland,
– Preisindizes nach Laspeyres und nach Paasche.
Weitere Indizes:
– Mengen- und Umsatzindizes.
Aktienindizes:
– Deutscher Aktienindex (DAX) und Dow Jones Industrial Average Index (Dow Jones).
Kapitel XIII – Zeitreihen und Indizes
XIII - 1
Stichproben aus einer Grundgesamtheit
Bisher wurden Stichproben betrachtet, welche aus einer Grundgesamtheit
gezogen wurden:
– Alter zufällig ausgewählter Personen,
– Brenndauer von Glühbirnen,
– Höhe von Bäumen,
– Umsätze in verschiedenen Firmen, etc.
Die Beobachtungen werden als unabhängige Realisationen einer
Zufallsvariable betrachtet.
Die Reihenfolge der Beobachtungen spielt keine Rolle bei der Analyse!
Kapitel XIII – Zeitreihen und Indizes
XIII - 2
Zeitreihen
In der Zeitreihenanalyse werden Werte einer Variablen zu verschiedenen
aufeinanderfolgenden Zeitpunkten an einem Merkmalsträger betrachtet,
z.B.:
– Monatlicher Umsatz einer Firma,
– Wöchentliche Verkaufszahlen eines bestimmten Produkts,
– Jährliche Anzahl der neu zugelassenen PKW in Göttingen,
– Monatliche Arbeitslosenzahlen in Deutschland,
– Täglicher Kurs einer Aktie, usw.
↑
Zeit
In der Zeitreihenanalyse ist man an der zeitlichen Entwicklung der Werte
dieser Variablen interessiert.
Die Reihenfolge der Beobachtungen ist entscheidend!
Kapitel XIII – Zeitreihen und Indizes
XIII - 3
Zeitreihen: Notation
Die Zeitpunkte, zu denen die Daten erhoben wurden, werden mit
t = 1, 2, ..., n bezeichnet.
Die Werte dieser Variablen werden dann mit x1, x2, ..., xn oder
y1, y2, ..., yn bezeichnet.
Beispiel:
x1
x2
...
xt
...
xn
z.B. ist x2 der Wert der zweiten Beobachtung.
Der erste Schritt in jeder Zeitreihenanalyse ist die graphische Darstellung.
Kapitel XIII – Zeitreihen und Indizes
XIII - 4
Monatliche Steuereinnahmen
Beispiel 13.1: Monatliche Steuereinnahmen in Deutschland (in Mrd. €) von
Jan. 1970 bis Dez. 2007:
Jahr
1970
1971
1972
1973
...
1989
1990
1991
1992
1993
...
2003
2004
2005
2006
2007
Jan
4.8
5.4
6.4
7.3
...
14.6
15.3
NA
22.5
22.6
...
27.7
28.6
26.5
28.4
32.0
Febr
4.3
5.2
5.9
6.9
...
17.3
17.3
NA
24.2
24.6
...
27.7
28.7
29.6
30.8
36.0
Kapitel XIII – Zeitreihen und Indizes
März
6.2
7.1
7.7
8.8
...
22.3
22.5
NA
31.0
30.2
...
28.8
26.9
29.5
31.6
36.5
Apr
4.3
5.1
6.0
6.4
...
15.5
15.7
18.4
22.0
22.4
...
26.9
29.4
27.3
30.0
34.6
Mai
4.7
5.3
5.9
6.6
...
16.8
16.5
20.7
23.7
24.1
...
30.7
30.0
31.3
33.8
37.3
Juni
7.0
7.2
7.9
9.6
...
23.6
23.2
28.5
32.3
33.0
...
37.8
38.6
37.9
41.1
46.2
Juli
5.1
5.6
6.2
7.4
...
18.3
18.9
23.0
24.8
24.3
...
31.5
28.6
29.3
32.7
34.9
Aug
5.5
6.0
6.9
7.5
...
16.8
18.5
23.1
24.8
25.4
...
27.9
28.2
28.6
30.1
33.4
Sept
7.1
7.6
8.6
9.8
...
23.5
23.6
29.6
30.7
32.2
...
36.6
36.5
38.1
41.2
45.4
Okt
5.0
5.8
6.8
7.4
...
16.4
17.4
21.8
22.5
23.4
...
28.4
26.7
27.8
30.5
32.0
Nov
5.7
6.1
7.0
7.9
...
16.7
18.3
22.0
23.6
25.1
...
28.1
28.0
27.7
29.9
32.8
Dez
9.0
10.1
11.8
13.5
...
34.3
35.4
44.3
44.4
46.5
...
58.3
56.3
58.5
60.9
64.4
XIII - 5
Monatliche Steuereinnahmen
Monatliche Steuereinnahmen in Mrd. € (Deutschland, Jan. 1970 – Dez.
2007):
70
Steuereinnahmen (Mrd. €)
60
50
40
30
20
10
0
1970
1975
1980
1985
1990
1995
2000
2005
2008
Jahr
Kapitel XIII – Zeitreihen und Indizes
XIII - 6
Steuereinnahmen in den Monaten Januar, Februar und März 1991
Für die Monate Januar bis März 1991 sind keine Daten vorhanden:
Jahr Jan Feb
1990 15.3 17.3
1991
–
–
1992 22.5 24.2
1993 22.6 24.6
März Summe Jan (%) Feb (%) Mrz (%)
22.5
55.1
27.8
31.4
40.8
–
64.2
–
–
–
31.0
77.7
29.0
31.2
39.9
30.2
77.4
29.2
31.8
39.0
Zur Schätzung der fehlenden Werte werden die prozentuellen Anteile aus
dem Folgejahr betrachtet und übertragen:
Januar 1991: 29.0 % von 64.2 = 18.6
Februar 1991: 31.2 % von 64.2 = 20.0
März
1991: 39.9 % von 64.2 = 25.6
Somit ergibt sich folgende vervollständigte Tabelle:
Jahr
1990
1991
1992
1993
Jan
15.3
18.6
22.5
22.6
Kapitel XIII – Zeitreihen und Indizes
Feb März
17.3 22.5
20.0 25.6
24.2 31.0
24.6 30.2
Summe Jan (%) Feb (%) Mrz (%)
55.1
27.8
31.4
40.8
64.2
29.0
31.2
39.9
77.7
29.0
31.2
39.9
77.4
29.2
31.8
39.0
XIII - 7
Ziel der klassischen Zeitreihenanalyse
Das Ziel der klassischen Zeitreihenanalyse ist es, die Zeitreihe in
übersichtliche Komponenten zu zerlegen:
– Trend
Tt
– Saisonkomponente St
– Residuen
et
Der Trend soll die langfristige Entwicklung der Zeitreihe darstellen.
Die Saisonkomponente soll das konstante Muster, das sich jedes Jahr
wiederholt, beschreiben.
Die Residuen sind die verbleibenden Abweichungen, wenn man den
Trend- und die Saisonkomponente berücksichtigt hat.
Kapitel XIII – Zeitreihen und Indizes
XIII - 8
Additive und multiplikative Modelle
Im additiven Modell werden die Werte der Zeitreihe als Summe der
Komponenten dargestellt:
xt = Tt + St + et , t = 1, 2, . . . , n
Im multiplikativen Modell sind die Werte der Zeitreihe das Produkt der
Komponenten:
x t = T t · S t · et
, t = 1, 2, . . . , n
Wird der Logarithmus von xt im multiplikativen Modell gebildet, erhält man
ein additives Modell für die Logarithmen der Werte:
log(xt) = log(Tt · ST · et)
= log(Tt) + log(St) + log(et)
Das Ziel dieser Transformationen ist es, die Saisonschwankungen etwa
gleich groß zu machen.
Kapitel XIII – Zeitreihen und Indizes
XIII - 9
Monat
Kapitel XIII – Zeitreihen und Indizes
Monat
0
5
0
Sep
Aug
Jul
Jun
Mai
Dez
10
Dez
15
Nov
2005: prozentual
Nov
20
Okt
Monat
Okt
Sep
5
Aug
10
Jul
Monat
Jun
1990: prozentual
Mai
20
Apr
1990: absolut
Apr
0
Mar
10
Mar
20
Feb
30
Jan
40
Steuereinnahmen (Mrd. €)
50
Feb
15
Anteil am
Jahresaufkommen (%)
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
60
Jan
Dez
Nov
Okt
0
Sep
5
Aug
10
Jul
Monat
Jun
1975: prozentual
Mai
20
Apr
0
Mar
1975: absolut
Apr
10
Mar
20
Feb
30
Jan
40
Steuereinnahmen (Mrd. €)
50
Feb
15
Anteil am
Jahresaufkommen (%)
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mar
Feb
Jan
Steuereinnahmen (Mrd. €)
60
Jan
Dez
Nov
Okt
Sep
Aug
Jul
Jun
Mai
Apr
Mar
Feb
Jan
Anteil am
Jahresaufkommen (%)
Monatliche Steuereinnahmen
Monatliche Steuereinnahmen in den Jahren 1975, 1990 und 2005:
60
2005: absolut
50
40
30
20
10
0
Monat
XIII - 10
Kapitel XIII – Zeitreihen und Indizes
30
30
30
Juli
30
20
20
20
20
10
10
10
10
0
0
0
0
-10
-10
-10
-10
30
30
30
November
30
20
20
20
20
10
10
10
10
0
0
0
0
-10
-10
-10
-10
2005
-10
Dezember
2005
-10
2005
-10
2000
-10
2000
0
2000
0
1995
0
1995
0
1995
10
1990
10
1990
10
1990
10
1985
20
1985
März
1985
20
1980
20
1980
20
1980
30
1975
30
1975
1970
2005
2000
1995
1990
30
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
2005
2000
1995
1990
30
1970
2005
2000
1995
1990
Juni
1985
1980
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
Februar
1985
Oktober
1980
1975
1970
2005
2000
1995
September
1990
Mai
1985
1980
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
Januar
1985
1980
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
Additive und multiplikative Modelle
Abweichungen der Monatswerte vom Jahresdurchschnitt:
April
August
XIII - 11
Additive und multiplikative Modelle
Abweichungen der logarithmierten Monatswerte vom Jahresdurchschnitt:
0.4
0.4
0.2
0.2
0.2
0.2
1970
2005
2000
Kapitel XIII – Zeitreihen und Indizes
2005
2000
1995
1995
2005
2000
-0.4
1995
-0.4
1990
-0.4
1985
-0.4
1980
-0.2
1975
-0.2
1970
-0.2
2005
-0.2
2000
0.0
1995
0.0
1990
0.0
1985
0.0
1980
0.2
1975
0.4
0.2
1970
0.4
0.2
2005
0.4
0.2
2000
0.4
1995
0.6
1990
0.6
1985
0.6
1980
0.6
1975
0.8
1970
0.8
1990
Dezember
0.8
1985
1995
1990
1985
November
0.8
1980
Oktober
1980
1975
1970
2005
2000
1995
1990
1985
1980
1975
1970
2005
-0.4
2000
-0.4
1995
-0.4
1990
-0.4
1985
0.0
-0.2
1980
0.0
-0.2
1975
0.0
-0.2
1970
0.0
-0.2
2005
0.4
2005
0.4
2000
0.6
2000
0.6
1995
0.6
1990
0.6
1985
0.8
1980
August
0.8
September
1990
1970
2005
2000
1995
Juli
0.8
1975
Juni
0.8
1975
Mai
1990
-0.4
1985
-0.4
1980
-0.4
1975
-0.4
1970
-0.2
2005
-0.2
2000
-0.2
1995
-0.2
1990
0.0
1985
0.0
1980
0.0
1975
0.0
1970
0.2
2005
0.2
2000
0.2
1995
0.2
1990
0.4
1985
0.6
0.4
1980
0.6
0.4
1975
0.6
0.4
1970
0.6
1985
April
0.8
1980
März
0.8
1975
Februar
0.8
1970
Januar
0.8
XIII - 12
Monatliche Steuereinnahmen – Logarithmierte Werte
Logarithmen der monatlichen Steuereinnahmen:
4.5
logarithmierte Steuereinnahmen
(log(Mrd. €))
4.0
3.5
3.0
2.5
2.0
1.5
1970
1975
Kapitel XIII – Zeitreihen und Indizes
1980
1985
1990
1995
2000
2005
2008
XIII - 13
Additive und multiplikative Modelle
Beispiel einer Zeitreihe, die weder multiplikativ noch additiv ist:
Kapitel XIII – Zeitreihen und Indizes
2008
2007
2006
2005
2004
2003
2002
2001
2008
2007
2006
2005
2004
2003
2002
2001
0
2000
0
1999
0
1998
2
2008
1
2007
10
2006
4
2005
2
2004
20
2003
6
2002
3
2001
30
2000
8
1999
4
1998
40
2000
Quadratwurzeltransformierte Werte
1999
log-transformierte
Werte
1998
untransformierte
Werte
XIII - 14
Zerlegung von Zeitreihen – Additive Modelle
Betrachtet werden additive Modelle, d.h.
xt = Tt + St + et.
Vorgehensweise bei der Zerlegung einer Zeitreihe:
1. Der Trend Tt wird durch Glättung (Filterung) geschätzt.
2. Die Saisonkomponenten St werden durch Durchschnitte geschätzt.
3. Die Residuen et ergeben sich durch die folgenden Differenzen:
et = xt − Tt − St.
Manchmal wird der Trend Tt in zwei weitere Komponenten zerlegt, nämlich
den einfachen Trend Rt und den Konjunkturzyklus Zt :
Tt = Rt + Zt.
Dabei wird der einfache Trend i.d.R. durch eine einfache Gerade
geschätzt.
Kapitel XIII – Zeitreihen und Indizes
XIII - 15
Einfache gleitende Durchschnitte
Ein einfacher gleitender Durchschnitt ist gegeben durch
xt−1 + xt + xt+1
,
Dt =
3
t = 2, 3, · · · , n − 1,
d.h. der einfache gleitende Durchschnitt zum Zeitpunkt t ist der
Durchschnitt aus xt und den beiden benachbarten Werten xt-1 und xt+1 .
Bestimmung von Dt für t = 4
12
x t, D t
10
8
6
4
D4= (x3 + x4 + x5) 3
xt
Dt
2
5
10
15
20
t
Kapitel XIII – Zeitreihen und Indizes
XIII - 16
Einfache gleitende Durchschnitte
Einfache gleitende Durchschnitte sind zentriert:
Mitte
↓
xt−1 + xt + xt+1
Dt =
3
↑
eine ungerade Zahl
Dt =
Mitte
↓
xt−2 + xt−1 + xt + xt+1 + xt+2
5
↑
eine ungerade Zahl
Folgende Beispiele sind nicht zentrierte Durchschnitte:
xt−1 + xt
Dt−1/2 =
2
↑
eine gerade Zahl
Kapitel XIII – Zeitreihen und Indizes
oder
xt + xt+1
Dt+1/2 =
2
↑
eine gerade Zahl
XIII - 17
Allgemeine Definition gleitender Durchschnitte
Allgemeine Definition eines gleitenden Durchschnittes:
xt−a + . . . + xt + . . . + xt+a
Dt =
2a + 1
a
X
1
xt+i
=
2a + 1 i=−a
– Dt ist definiert für t = a + 1, a + 2, ..., n – a .
– Dt ist nicht definiert für t ≤ a und für t > n – a .
Beispiel für a = 2 :
2
1 X
Dt =
xt+i
5 i=−2
– Dt ist definiert für t = 3, 4, ..., n – 2 .
– Dt ist nicht definiert für t ≤ 2 und für t > n – 2 .
Kapitel XIII – Zeitreihen und Indizes
XIII - 18
Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006)
Aktienkurse (Deutsche Bank) und gleitende Durchschnitte für a = 1, 2 u. 5:
Index
1
2
3
4
5
6
7
8
9
10
11
...
313
314
315
316
317
318
319
320
321
322
Datum
03.
04.
05.
06.
07.
10.
11.
12.
13.
14.
17.
20.
21.
22.
23.
24.
27.
28.
29.
30.
31.
Jan
Jan
Jan
Jan
Jan
Jan
Jan
Jan
Jan
Jan
Jan
...
Mrz
Mrz
Mrz
Mrz
Mrz
Mrz
Mrz
Mrz
Mrz
Mrz
Kapitel XIII – Zeitreihen und Indizes
05
05
05
05
05
05
05
05
05
05
05
06
06
06
06
06
06
06
06
06
06
Kurs
a=1
Kurs
a=2
Kurs
a=5
65.76
65.47
64.62
66.68
67.07
67.04
66.26
65.10
65.10
66.76
67.12
...
95.40
94.91
94.77
94.60
95.00
94.00
93.30
93.44
94.75
94.25
—
65.28
65.59
66.12
66.93
66.79
66.13
65.49
65.65
66.33
66.99
...
94.94
95.03
94.76
94.79
94.53
94.10
93.58
93.83
94.15
—
65.76
65.47
64.62
66.68
67.07
67.04
66.26
65.10
65.10
66.76
67.12
...
95.40
94.91
94.77
94.60
95.00
94.00
93.30
93.44
94.75
94.25
—
—
65.92
66.18
66.33
66.43
66.11
66.05
66.07
66.23
66.50
...
94.72
94.84
94.94
94.66
94.33
94.07
94.10
93.95
—
—
65.76
65.47
64.62
66.68
67.07
67.04
66.26
65.10
65.10
66.76
67.12
...
95.40
94.91
94.77
94.60
95.00
94.00
93.30
93.44
94.75
94.25
—
—
—
—
—
66.09
66.21
66.30
66.38
66.25
66.01
...
94.44
94.42
94.35
94.43
94.45
—
—
—
—
—
XIII - 19
Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006)
Zeitreihe und gleitender Durchschnitt (a = 5):
120
I/06
II/06
III/06
IV/06
I/07
II/07
III/07
IV/07
Schlusskurs (€)
110
100
90
80
100
Kapitel XIII – Zeitreihen und Indizes
200
300
400
500
XIII - 20
Deutsche Bank Aktienkurse (03.01.2005 – 31.03.2006)
Zeitreihe und gleitender Durchschnitt (a = 1, 5, 10 und 25):
a=1
120
I/06
II/06
III/06
IV/06
a=5
I/07
II/07
III/07
IV/07
120
110
110
100
100
90
90
80
80
100
200
300
400
I/06
500
II/06
III/06
100
200
a = 10
120
I/06
II/06
III/06
IV/06
I/07
II/07
III/07
IV/07
120
110
100
100
90
90
80
80
200
Kapitel XIII – Zeitreihen und Indizes
300
I/07
II/07
300
III/07
400
IV/07
500
a = 25
110
100
IV/06
400
500
I/06
II/06
100
III/06
IV/06
200
I/07
300
II/07
III/07
400
IV/07
500
XIII - 21
Gewichtete gleitende Durchschnitte
Der einfache gleitende Durchschnitt ist definiert als
Dt =
a ³
P
i=−a
´
1
2a+1 xt+i
für t = a+1, . . . , n−a.
Der gewichtete gleitende Durchschnitt ist gegeben durch
Dt =
b
P
i=−a
λi xt+i
– Gewichte bzw. Filter:
– Bedingung:
für t = a+1, . . . , n−b.
λ−a , λ−a+1, . . . , λb
b
P
i=−a
λi = 1
Der einfache gleitende Durchschnitt ist ein Sonderfall des gewichteten
gleitenden Durchschnitts für a = b und λi =
Kapitel XIII – Zeitreihen und Indizes
³
´
1
2a+1 .
XIII - 22
Gleitende Durchschnitte als Trendschätzer
Gleitende Durchschnitte werden zur Berechnung des Trends verwendet.
Der Trend ist gleich einem geeigneten gleitenden Durchschnitt.
Es stellt sich die Frage, welcher gleitender Durchschnitt verwendet werden
soll. Hierzu gibt es keine eindeutigen Vorgaben, d.h. die Wahl hängt vom
verfolgten Ziel ab:
– Große a führen zu einem glatten Trend, der (tendenziell) die grobe,
langfristige Entwicklung der Zeitreihe beschreibt.
– Kleinere a führen zu einem weniger glatten Trend, der (tendenziell) die
kurzfristige Entwicklung der Zeitreihe beschreibt.
Kapitel XIII – Zeitreihen und Indizes
XIII - 23
Gleitende Durchschnitte bei Monatsdaten
Ein einfacher gleitender Durchschnitt ist nicht geeignet zur
Trendschätzung von Monatsdaten:
– Die Saisonschwankungen werden nicht eliminiert.
– Um die Saisonschwankungen zu bereinigen, muss der Filter so gewählt
werden, dass alle Monate im Filter gleich gewichtet sind.
– Bei Monatsdaten bedeutet das, dass für jeden Monat das Gewicht 1/12 sein
soll.
Ein geeigneter Filter für Monatsdaten ist:
xt+6
xt−6
xt−5 + xt−4 + · · · + xt + · · · + xt−4 + xt−5
Dt =
+
+
24
12
24
| {z }
|
{z
11 Monate
}
| {z }
Der selbe Monat
Kapitel XIII – Zeitreihen und Indizes
XIII - 24
Gleitende Durchschnitte bei Monatsdaten
Logarithmen der monatlichen Steuereinnahmen und einfacher gleitender
Durchschnitt (a = 1):
logarithmierte Steuereinnahmen
(log(Mrd. €))
4.5
4.0
3.5
3.0
2.5
1992
1993
Kapitel XIII – Zeitreihen und Indizes
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 25
Zentrierte Filter
Filter für Monatsdaten:
Jul Aug Sep Okt N ov Dez Jan F eb M rz Apr M ai Jun Jul
λ−6 λ−5 λ−4 λ−3 λ−2 λ−1 λ0 λ1
λ2
λ3
λ4
λ5
λ6
1
1
1
1
1
1
1
1
1
1
1
1
1
24 12 12 12 12
12 12 12
12
12 12
12 24
Filter für Quartalsdaten:
QIII QIV
λ−2 λ−1
1
1
8
4
QI
λ0
1
4
QII QIII
λ1
λ2
1
1
4
8
Filter für Halbjahresdaten:
H2 H1 H2
λ−1 λ0 λ1
1
1
1
4
2
4
Kapitel XIII – Zeitreihen und Indizes
XIII - 26
Zentrierte Filter
Logarithmen der monatlichen Steuereinnahmen und zentrierter gleitender
Durchschnitt:
logarithmierte Steuereinnahmen
(log(Mrd. €))
4.5
4.0
3.5
3.0
2.5
1992
1993
Kapitel XIII – Zeitreihen und Indizes
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 27
Berechnung der Saisonkomponenten
Die Saisonkomponente ist definiert als das konstante Muster, das sich
jedes Jahr wiederholt. Weiterhin wurde die Zeitreihe so transformiert, dass
dieses Muster annähernd konstant ist.
Vorgehensweise zur Berechnung der Saisonkomponente:
(1)
Ausgehend von einem additiven Modell xt = Tt + St + et wird
zunächst der Trend durch Filterung bestimmt, d.h. Tt = Dt .
(2)
Anschließend wird der Trend von der ursprünglichen Zeitreihe
abgezogen. Somit erhält man trendbereinigte Daten:
xt – Tt = St + et .
(3.a) Die Saisonkomponente ergibt sich anschließend als
St = Mittelwert aller St + et derselben Saison.
(3.b) Die Residuen ergeben sich durch et = xt – Tt – St .
Kapitel XIII – Zeitreihen und Indizes
XIII - 28
Beispiel: Steuereinnahmen
1. Schritt: Trendbestimmung durch Filterung (hier: Zentrierter Filter für
Monatsdaten).
logarithmierte Steuereinnahmen
(log(Mrd. €))
4.5
4.0
3.5
3.0
2.5
1992
1993
Kapitel XIII – Zeitreihen und Indizes
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 29
Berechnung der Saisonkomponenten
2. Schritt: Trendbereinigung der Zeitreihe ergibt Saisonkomponente und
Residuen.
s t + e t für Saison = Dezember
Mittelwert von S t + e t für Dezember
Saisonkomponente + Residuen
(log(Mrd. €))
0.8
0.6
0.4
0.2
0.0
-0.2
1992
1993
Kapitel XIII – Zeitreihen und Indizes
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 30
Berechnung der Saisonkomponenten
3. Schritt: Saisonkomponenten als Mittelwert der St + et .
Saisonkomponente (log(Mrd. €))
0.6
0.4
0.2
0.0
-0.2
1
2
Kapitel XIII – Zeitreihen und Indizes
3
4
5
6
7
8
9
10
11
12
XIII - 31
Residuen
Residuen (log(Mrd. €))
Bestimmung der Residuen:
0.2
0.1
0.0
-0.1
-0.2
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
10
Dichte
8
6
4
2
0
-0.2
Kapitel XIII – Zeitreihen und Indizes
-0.1
0.0
Residuen
0.1
0.2
XIII - 32
Steuereinnahmen: Trend, Saison und Residuen
Darstellung der Komponenten der Zeitreihe:
Trend
log(Mrd. €)
4.0
3.5
3.0
2.5
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2001
2002
2003
2004
2005
2006
2007
2001
2002
2003
2004
2005
2006
2007
Saison
log(Mrd. €)
1.0
0.5
0.0
-0.5
1992
1993
1994
1995
1996
1997
1998
1999
2000
Residuen
log(Mrd. €)
1.0
0.5
0.0
-0.5
1992
1993
1994
Kapitel XIII – Zeitreihen und Indizes
1995
1996
1997
1998
1999
2000
XIII - 33
Steuereinnahmen: Trend, Saison und Residuen
Monatliche Steuereinnahmen und angepasstes Modell:
70
Steuereinnahmen (Mrd. €)
60
50
40
30
20
10
0
Steuereinnahmen
angepasstes Modell
1992
1993
1994
Kapitel XIII – Zeitreihen und Indizes
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 34
Indizes – Beispiele
Oft ist man nicht nur an einer einzelnen Zeitreihe interessiert, sondern an
der Entwicklung einer Menge von Zeitreihen, z.B.
Preisindizes:
– Index der Erzeugerpreise gewerblicher Produkte,
– Index der Einzelhandelspreise,
– Verbraucherpreisindex, ...
Aktienindizes:
– Deutscher Aktienindex (DAX),
– Dow Jones Industrial Average Index,
– Nikkei, ...
Kapitel XIII – Zeitreihen und Indizes
XIII - 35
Preisentwicklung
Betrachtet wird der durchschnittliche Verbraucherpreis (in Cent / Liter) für
bleifreies Normalbenzin von 1995 bis 2007:
1995 1996 1997 1998 1999 2000 2001
2002
2003
2004
2005
2006
2007
76.8 80.1 82.7 78.7 84.1 99.3 100.2 102.8 107.4 111.9 120.0 126.7 132.7
140
Durchschnittspreis (Cent/Liter)
130
120
110
100
90
80
70
1995
Kapitel XIII – Zeitreihen und Indizes
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
XIII - 36
Basisjahr und Preismessziffern
Die Preismessziffer beschreibt die Änderung des Preises gegenüber
einem Basisjahr:
Preis im Jahr t
pt
.
=
p0
Preis im Basisjahr
Preismessziffern für 1 Liter Normalbenzin:
Jahr
t
pt
pt/p0
1995
0
76.8
1.00
1996
1
80.1
1.04
1997
2
82.7
1.08
1998
3
78.7
1.02
1999
4
84.1
1.10
2000
5
99.3
1.29
Jahr
t
pt
pt/p0
2002
7
102.8
1.34
2003
8
107.4
1.40
2004
9
111.9
1.46
2005
10
120.0
1.56
2006
11
126.7
1.65
2007
12
132.7
1.73
Kapitel XIII – Zeitreihen und Indizes
2001
6
100.2
1.30
XIII - 37
Indizes
Es ist nahezu unmöglich und in vielen Fällen auch wenig sinnvoll die
Zeitreihen aller Preise einzeln zu betrachten.
Übersichtlicher ist die Zusammenfassung der Zeitreihen in wenigen
Preisindizes.
Das Statistische Bundesamt veröffentlicht laufend eine Vielzahl von
Preisindizes, wie z.B.:
– Index der Erzeugerpreise gewerblicher Produkte,
– Index der Großhandelsverkaufspreise,
– Preisindex für Wohngebäude,
– Verbraucherpreisindex für Telekommunikationsdienstleistungen,
– Preisindex für die Personenbeförderung im Luftverkehr, ...
Ein wichtiger Index ist der Verbraucherpreisindex für Deutschland.
Kapitel XIII – Zeitreihen und Indizes
XIII - 38
Aktuelle Teilbereiche des Verbraucherpreisindex
Der Verbraucherpreisindex umfasst aktuell folgende Teilbereiche:
1. Nahrungsmittel und alkoholfreie Getränke
2. Alkoholische Getränke, Tabakwaren
3. Bekleidung und Schuhe
4. Wohnung, Wasser, Strom und andere Brennstoffe
5. Einrichtungsgegenstände (Möbel), Apparate, Geräte und Ausrüstungen für
den Haushalt sowie deren Instandhaltung
6. Gesundheitspflege
7. Verkehr
8. Nachrichtenübermittlung
9. Freizeit, Unterhaltung und Kultur
10.Bildungswesen
11.Beherbergungs- und Gaststättendienstleistungen
12.Andere Waren und Dienstleistungen
Kapitel XIII – Zeitreihen und Indizes
XIII - 39
Warenkörbe
Gewichtung bei der Berechnung des Verbraucherpreisindex:
Nr.
Untergruppe
1995
2000
2005
1
2
3
4
5
6
7
8
9
10
11
12
Nahrungsmittel
Alk. Getränke / Tabakw.
Bekleidung / Schuhe
Wohnung, ...
Einrichtungsgegenstände, ...
Gesundheitspflege
Verkehr
Nachrichtenübermittlung
Freizeit / Kultur
Bildungswesen
Beherbergung / Gaststätten
andere Waren / Dienstl.
13.1
4.2
6.9
27.5
7.0
3.4
13.9
2.3
10.4
0.6
4.6
6.1
10.3
3.7
5.5
30.3
6.8
3.5
13.9
2.5
11.1
0.7
4.7
7.0
10.4
3.9
4.9
30.8
5.6
4.0
13.2
3.1
11.6
0.7
4.4
7.4
100.0
100.0
100.0
P
Gesamtlebenshaltung
Kapitel XIII – Zeitreihen und Indizes
XIII - 40
Umstellung des Verbraucherpreisindex
Der dem Index zugrundeliegende Warenkorb wird laufend aktualisiert und
somit dem laufenden Güterangebot angepasst.
Das Wägungsschema, das zur Berechnung des Index aus den einzelnen
Preisen verwendet wird, wird nur alle fünf Jahre angepasst.
Die Gewichtung bzw. eine Änderung dieser kann zwei Ursachen haben,
nämlich eine Preisänderung und eine Mengenänderung.
Zur Bestimmung der jährlichen Preissteigerung können zwei
aufeinanderfolgende Indexwerte durcheinander geteilt werden.
Beispielsweise ergibt sich für 2002: (95.9 / 94.5 – 1)· 100% = 1.5%. D.h.
dass die Preise in 2002 1.5% höher waren als im Vorjahr.
Kapitel XIII – Zeitreihen und Indizes
XIII - 41
Gewichtung der Untergruppen bei der Berechnung
Verbraucherpreisindex (bezogen auf das Basisjahr 2005):
Jahr
Nahrungsmittel
Alk. Getränke / Tabakw.
Bekleidung / Schuhe
Wohnung, ...
Einrichtungsgegenstände, ...
Gesundheitspflege
Verkehr
Nachrichtenübermittlung
Freizeit / Kultur
Bildungswesen
Beherbergung / Gaststätten
andere Waren / Dienstl.
Gesamtlebenshaltung
Kapitel XIII – Zeitreihen und Indizes
2000
95.3
77.5
101.9
91.3
98.4
80.6
87.9
106.6
101.3
89.5
93.1
91.7
92.7
2001
99.6
78.8
102.7
93.5
99.3
81.6
90.1
100.3
101.9
90.6
94.9
94.4
94.5
2002
100.4
82.0
103.4
94.4
100.2
82.1
91.9
102.0
102.6
93.0
98.3
96.3
95.9
2003
100.3
86.3
102.6
95.8
100.5
82.5
93.9
102.7
102.0
95.0
99.1
97.9
96.9
2004
99.9
92.2
101.9
97.3
100.3
98.3
96.1
101.8
101.1
98.1
99.9
99.3
98.5
2005
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
100.0
2006
102.0
103.0
99.4
102.9
99.8
100.5
103.0
96.0
99.5
101.5
101.2
101.1
101.6
2007
105.9
106.4
100.7
104.9
101.0
101.3
106.9
94.9
99.8
126.9
104.0
103.7
103.9
XIII - 42
Verbraucherpreisindex (bezogen auf das Basisjahr 2005)
Zeitliche Entwicklung des Verbraucherpreisindex (2005 = 100):
130
Verbraucherpreisindex
120
110
100
90
80
70
2000
2001
2002
2003
2004
2005
2006
2007
Jahr
Kapitel XIII – Zeitreihen und Indizes
XIII - 43
Verbraucherpreisindex (bezogen auf das Basisjahr 2005)
Verbraucherpreisindex für die 12 Teilbereiche (2005 = 100):
Nahrungsm ittel
Alk. Getränke / Tabakw .
Bekleidung / Schuhe
Wohnung, ...
130
130
130
130
120
120
120
120
110
110
110
110
100
100
100
100
90
90
90
90
80
80
80
80
70
70
2000
2002
2004
2006
70
2000
Einrichtungsgegenstände, ...
2002
2004
2006
70
2000
Gesundheitspflege
2002
2004
2006
2000
Verkehr
130
130
130
120
120
120
120
110
110
110
110
100
100
100
100
90
90
90
90
80
80
80
80
70
2000
2002
2004
2006
70
2000
Freizeit / Kultur
2002
2004
2006
2002
2004
2006
2000
Beherbergung / Gaststätten
130
130
130
120
120
120
120
110
110
110
110
100
100
100
100
90
90
90
90
80
80
80
80
70
70
70
70
2002
2004
2006
Kapitel XIII – Zeitreihen und Indizes
2000
2002
2004
2006
2000
2002
2004
2006
2002
2004
2006
andere Waren / Dienstl.
130
2000
2006
70
2000
Bildungsw esen
2004
Nachrichtenüberm ittlung
130
70
2002
2000
2002
2004
2006
XIII - 44
Notation
Zur Bestimmung von Preisindizes wird ein Warenkorb mit n Gütern
betrachtet. Darüber hinaus werden folgende Werte berücksichtigt:
(1)
(2)
(n)
(1)
(2)
(n)
Preise in der Basisperiode:
p0 , p0 , . . . , p0
Mengen in der Basisperiode:
q 0 , q 0 , . . . , q0
Preise in der Berichtsperiode:
pt
(1)
, pt
(1)
, qt
Mengen in der Berichtsperiode: qt
(2)
(2)
(n)
, . . . , pt
(n)
, . . . , qt
Zunächst wird die Preismessziffer für die n Güter des Warenkorbs
gebildet:
(i)
pt
(i)
p0
i = 1, 2, . . . n .
Kapitel XIII – Zeitreihen und Indizes
XIII - 45
Arithmetisches Mittel der Preismessziffern
Ursprünglich (bis zu den Arbeiten von Laspeyres und Paasche 1871 bzw.
1874) wurde zur Beschreibung der Preisentwicklung das arithmetische
Mittel der Preismessziffern eingesetzt:
(i)
n
1 X
pt
Pt =
.
(i)
n i=1 p
0
Problematisch dabei ist, dass jedes Gut mit dem gleichen Gewicht 1 / n in
die Berechnung fließt. Somit hätte ein Preisanstieg von 20% für Brot
denselben Einfluss auf den Index wie ein Preisanstieg von 20% für Kiwis.
Es bietet sich hier an, ein gewichtetes arithmetisches Mittel
(i)
n
X
pt
Pt =
g
(i) i
i=1 p0
als Preisindex zu verwenden, wobei gi den Gewichtungsfaktor für Gut i
bezeichnet.
Kapitel XIII – Zeitreihen und Indizes
XIII - 46
Gewichtetes arithmetisches Mittel der Preismessziffern
Ein plausibler (und häufig eingesetzter) Gewichtungsfaktor ist der
Umsatzanteil des Gutes i in der Basisperiode:
(i) (i)
p 0 q0 ,
wobei der Gesamtumsatz aller Produkte in der Basisperiode gegeben ist
durch:
n
X
j=1
(j) (j)
p0 q0 .
Der Gewichtungsfaktor ergibt sich als Anteil am Gesamtumsatz in der
Basisperiode :
(i) (i)
p 0 q0
gi = P
n
j=1
(j) (j)
p0 q0
Kapitel XIII – Zeitreihen und Indizes
.
XIII - 47
Index nach Laspeyres
Einsetzen des Anteils am Gesamtumsatz in den Preisindex ergibt:
(i)
(i)
n
n
X
X
pt
pt
Pt =
g =
(i) i
(i)
p
p
i=1 0
i=1 0
⎛
⎞
n
P
(i) (i)
pt q0
⎜
(i) (i) ⎟
⎜ p 0 q0
⎟
⎜
⎟ = i=1
⎜ P
n
n
P
(j) (j) ⎟
(j) (j)
⎝
⎠
p0 q 0
p0 q0
j=1
j=1
In Kurzform wird der Preisindex nach Laspeyres wie folgt geschrieben:
P
pt q0
L
Pt = P
p0q0
Der Preisindex nach Laspeyres beruht nur auf Preisänderungen in der
Berichtsperiode gegenüber der Basisperiode.
Kapitel XIII – Zeitreihen und Indizes
XIII - 48
Index nach Paasche
Ein alternativer Ansatz zur Konstruktion eines Preisindex ergibt sich, wenn
für den Gewichtungsfaktor der Anteil am Gesamtumsatz die Mengen der
Berichtsperiode betrachtet werden:
(i) (i)
p0 q t
t
gi = P
n
(j) (j)
p0 qt
(i) (i)
anstelle von
j=1
p0 q0
gi = P
.
n
(j) (j)
p0 q0
j=1
Mit diesem Gewichtungsfaktor ergibt sich folgender Preisindex:
(i)
(i)
n
n
X
X
pt
p
t
Pt =
git =
(i)
(i)
p
p
i=1 0
i=1 0
Preisindex nach Paasche:
Kapitel XIII – Zeitreihen und Indizes
⎛
⎞
n
P
(i) (i)
pt qt
⎜
(i) (i) ⎟
⎜ p 0 qt
⎟
⎜
⎟ = i=1
⎜ P
n
n
P
(j) (j) ⎟
(j) (j)
⎝
⎠
p0 qt
p0 qt
j=1
j=1
PtP
P
=P
pt qt
p0qt
XIII - 49
Vorteile und Nachteile
Beim Preisindex nach Laspeyres bleibt das Gewichtungsschema konstant,
d.h. der Index spiegelt die reine Preisänderung wider. Somit sind die
Vergleichbarkeit der Indexwerte eher gewährleistet als beim PaascheIndex.
Beim Preisindex nach Paasche wird das Gewichtungsschema laufend
aktualisiert. Somit werden die aktuellen Verbrauchsgewohnheiten
berücksichtigt. Beim Laspeyres-Index muss hierzu erst der
zugrundeliegende Warenkorb überarbeitet werden.
Die Berechnung des Laspeyres-Index ist einfacher, da es einfacher ist,
Preise zu erheben als Verbrauchsgewohnheiten.
Bei neuen Gütern, die in der Basisperiode noch nicht vorhanden waren,
existieren keine Preise und Mengen der Basisperiode, so dass zur
Indexberechnung spezielle Kunstgriffe nötig sind.
Kapitel XIII – Zeitreihen und Indizes
XIII - 50
Mengen und Preise für Zigaretten, Bier und Kaffee (Beamten-Haushalte)
Mengen und Preise für Zigaretten, Bier und Kaffee:
Jahr
1990=0
ˆ
Gut i
Z [St.]
B [l]
K [kg]
(i)
1991=1
ˆ
(i)
q0
p0
56
0.19
15.3
1.87
1.229 15.17
(i)
1992=2
ˆ
(i)
q1
p1
43
0.20
14.1
1.91
1.177 14.81
Preisindex nach Laspeyres:
(i)
1993=3
ˆ
(i)
(i)
q2
p2
q3
38
0.22
45
15
2.02
12.9
1.202 15.10 1.196
1994=4
ˆ
(i)
(i)
1995=5
ˆ
(i)
(i)
(i)
p3
q4
p4
q5
p5
0.22
39
0.23
26
0.24
2.10
12.5
2.09
13.1
2.10
15.06 1.136 16.78 1.132 18.02
P
pq
PtL = P p t q0
0 0
P1L = 0.20·56+1.91·15.3+14.81·1.229
0.19·56+1.87·15.3+15.17·1.229 = 1.013 = 101.3%
P5L = 0.24·56+2.10·15.3+18.02·1.229
0.19·56+1.87·15.3+15.17·1.229 = 1.170 = 117.0%
Preisindex nach Paasche:
P
pq
PtP = P p t qt
0 t
P1P = 0.20·43+1.91·14.1+14.81·1.177
0.19·43+1.87·14.1+15.17·1.177 = 1.011 = 101.1%
P5P = 0.24·26+2.10·13.1+18.02·1.132
0.19·26+1.87·13.1+15.17·1.132 = 1.162 = 116.2%
Kapitel XIII – Zeitreihen und Indizes
XIII - 51
Mengen und Preise für Zigaretten, Bier und Kaffee
Mengen und Preise für Zigaretten, Bier und Kaffee:
Zigaretten (Menge)
Zigaretten (Preis)
100
0.26
80
0.24
60
0.22
40
0.20
20
0.18
0
0.16
1990
1991
1992
1993
1994
1995
1990
1991
Bier (Menge)
1992
1993
1994
1995
1994
1995
1994
1995
Bier (Preis)
20
2.3
18
2.2
16
2.1
14
2.0
12
1.9
10
Beamte
Angestellte
1.8
1990
1991
1992
1993
1994
1995
1990
1991
Kaffee (Menge)
20
1.20
18
1.15
16
1.10
14
1.05
12
1.00
10
1991
1992
Kapitel XIII – Zeitreihen und Indizes
1993
1993
Kaffee (Preis)
1.25
1990
1992
1994
1995
1990
1991
1992
1993
XIII - 52
Warenkorb aus Zigaretten, Bier und Kaffee (Basisjahr 1990)
Preisindex nach Laspeyres:
1990 1991 1992 1993 1994 1995
Beamte
100.0 101.3 106.7 108.7 113.1 117.0
Angestellte 100.0 102.3 105.3 106.5 111.0 113.8
Preisindex nach Paasche:
1990 1991
Beamte
100.0 101.1
Angestellte 100.0 102.4
Kapitel XIII – Zeitreihen und Indizes
1992 1993 1994 1995
106.1 108.2 112.8 116.1
105.2 106.3 111.0 113.8
XIII - 53
Mengenindizes
Mengenindizes sind analog zu den Preisindizes konzipiert. An Stelle der
Preismessziffern werden Mengenziffern betrachtet:
(i)
qt
(i)
q0
i = 1, 2, . . . n
Somit ergibt sich die allgemeine Indexformel für einen Mengenindex:
(i)
n
X
qt
Qt =
g ,
(i) i
i=1 q0
wobei als Gewichtungsfaktor eines Gutes der entsprechende Umsatzanteil
betrachtet wird.
Kapitel XIII – Zeitreihen und Indizes
XIII - 54
Mengenindizes – Formeln
Mengenindex nach Laspeyres:
(i)
(i)
n
n
X
X
q
q
t g =
t
QL
i
t =
(i)
(i)
i=1 q0
i=1 q0
P
p0 q t
L
Qt = P
p0 q 0
Mengenindex nach Paasche:
⎛
⎞
⎛
⎞
n
P
(i) (i)
p0 qt
⎜
(i) (i) ⎟
⎜ p0 q0
⎟
⎜
⎟ = i=1
⎜ P
n
n
P
(j) (j) ⎟
(j) (j)
⎝
⎠
p0 q0
p 0 q0
j=1
j=1
n
P
(i) (i)
p
⎜
⎟
(i)
(i)
(i)
(i)
n
n
t qt
X
X
⎜
⎟
p
q
q
q
t=
t
t
t ⎜
0
⎟ = i=1
QP
=
g
t
⎟
n
n
P
P
(i) i
(i) ⎜
(j)
(j)
(j) (j)
⎝
⎠
i=1 q0
i=1 q0
pt q0
pt q0
j=1
j=1
P
ptqt
P
Qt = P
p t q0
Kapitel XIII – Zeitreihen und Indizes
XIII - 55
Preis-und Mengenindizes nach Laspeyres und Paasche
Zusammenfassung, Preis- und Mengenindex nach Laspeyres und nach
Paasche:
Preisindex
Laspeyres
Paasche
P
pt q0
L
Pt = P
p0q0
P
ptqt
P
Pt = P
p0qt
Mengenindex
P
p0qt
L
Qt = P
p0 q0
P
ptqt
P
Qt = P
ptq0
P
ptqt
.
Für den Umsatzindex gibt es nur eine Formel: Ut = P
p0q0
Kapitel XIII – Zeitreihen und Indizes
XIII - 56
Beispiel: Mengenindizes
Beispiel: Mengenindizes.
Jahr
Gut i
Z [St.]
B [l]
K [kg]
1990=0
ˆ
(i)
q0
1995=5
ˆ
(i)
p0
(i)
q5
(i)
p5
56
0.19
26
0.24
15.3
1.87 13.1
2.10
1.229 15.17 1.132 18.02
P
p 0 qt
L
Mengenindex nach Laspeyres: Qt = P
.
p0q0
0.19·26+1.87·13.1+15.17·1.132
QL
=
5
0.19·56+1.87·15.3+15.17·1.229 = 0.805
Mengenindex nach Paasche:
= 80.5%
P
ptqt
P
Qt = P
.
pt q 0
0.24·26+2.1·13.1+18.02·1.132
QP
=
5
0.24·56+2.1·15.3+18.02·1.229 = 0.800 = 80.0%
Kapitel XIII – Zeitreihen und Indizes
XIII - 57
Umsatzindex für den Warenkorb aus Zigaretten, Bier und Kaffee
Umsatzindex für den Warenkorb aus Zigaretten, Bier und Kaffee
(Basisjahr 1990):
Jahr
1990=0
ˆ
Gut i
Z [St.]
B [l]
K [kg]
(i)
1995=5
ˆ
(i)
(i)
(i)
q0
p0
q5
p5
56
0.19
26
0.24
15.3
1.87 13.1
2.10
1.229 15.17 1.132 18.02
P
ptqt
Umsatzindex: Ut = P
.
p0q0
0.24 · 26 + 2.10 · 13.1 + 18.02 · 1.132
= 0.935 = 93.5%
U5 =
0.19 · 56 + 1.87 · 15.3 + 15.17 · 1.229
Kapitel XIII – Zeitreihen und Indizes
XIII - 58
Indizes für den Warenkorb aus Zigaretten, Bier und Kaffee
Preis-, Mengen- und Umsatzindizes für den Warenkorb aus Zigaretten,
Bier und Kaffee;
Preisindex nach Laspeyres
Preisindex nach Paasche
120
120
110
110
100
100
90
90
80
80
1990
1991
1992
1993
1994
1995
1990
Mengenindex nach Laspeyres
1991
1992
1993
1994
1995
Mengenindex nach Paasche
120
120
110
110
100
100
90
90
80
80
1990
1991
1992
1993
1994
1995
1990
1991
1992
1993
1994
1995
Umsatzindex
120
110
Beamte
Angestellte
100
90
80
1990
1991
1992
Kapitel XIII – Zeitreihen und Indizes
1993
1994
1995
XIII - 59
Aktienindizes
Aktienindizes dienen demselben Zweck wie Preis-, Mengen- und
Umsatzindizes. Sie liefern auf eine sehr komprimierte Weise ein
repräsentatives Bild von der Entwicklung eines Aktienmarktes.
Bei Aktienindizes wird zwischen Kursindizes (Betrachtung der reinen
Kursentwicklung) und Performance-Indizes (Berücksichtigung von
Kapitalveränderungen und Dividendenausschüttungen) unterschieden.
Der DAX wird von der Deutschen Börse als Performance-Index
veröffentlicht. In seine Berechnung fließen 30 deutsche Aktienwerte ein.
Die Formel zur Berechnung des DAX ist eine Modifikation der Formel für
den Preisindex nach Laspeyres:
30
P
DAXt = 1 000 KT · i=1
30
P
Marktkapitalisierung der Gesellschaft i im Zeitpunkt t
Marktkapitalisierung der Gesellschaft i im Zeitpunkt 0
i=1
Kapitel XIII – Zeitreihen und Indizes
XIII - 60
Zusammensetzung und Gewichtung des DAX
Zusammensatzung und Gewichtung des DAX (Stand v. 28.12.2007):
Adidas
1.31 %
Allianz
8.37 %
BASF
6.18 %
BMW
1.71 %
Bayer
6.00 %
Commerzbank
1.98 %
Continental
1.81 %
Daimler
8.16 %
Deutsche Bank 5.63 %
Deutsche Börse 3.41 %
Kapitel XIII – Zeitreihen und Indizes
Deutsche Post
Deutsche Postbank
Deutsche Telekom
Eon
Fresenius
Henkel
Hypo Real Estate
Infineon
Linde
Lufthansa
2.48
0.63
5.26
10.06
0.86
0.86
0.91
0.76
1.45
1.05
%
%
%
%
%
%
%
%
%
%
MAN
Merck
Metro
Münchner Rück
RWE
SAP
Siemens
Thyssen-Krupp
TUI
Volkswagen
1.41
0.72
0.74
3.64
5.61
3.96
9.93
1.86
0.48
2.78
%
%
%
%
%
%
%
%
%
%
XIII - 61
Deutscher Aktienindex (DAX)
Für die Formel zur Berechnung des DAX ergibt sich:
30
P
DAXt = 1 000 KT i=1
(i) (i)
(i) (i)
pt qT ffT ct
30
P
i=1
(i) (i)
p 0 q0
(i)
= Kurs der Aktie i am Tag vor der Aufnahme in den Index
(i)
= Kurs der Aktie i zum Zeitpunkt t
(i)
= Anzahl der Aktien der Gesellschaft i am Tag vor der
Aufnahme in den Index
(i)
= Anzahl der Aktien der Gesellschaft i zum Zeitpunkt T
(i)
= Freefloat-Faktor der Aktie i zum Zeitpunkt T
(i)
= Korrekturfaktor der Aktie i zum Zeitpunkt t
p0
pt
q0
qT
ffT
ct
KT = Indexspezifischer Verkettungsfaktor zum Zeitpunkt T
Kapitel XIII – Zeitreihen und Indizes
XIII - 62
Deutscher Aktienindex (DAX)
Zeitliche Entwicklung des DAX (monatlicher Schlussstand) seit dem
Basiszeitpunkt 30.12.1987:
9000
8000
DAX Monatsschlussstand
7000
6000
5000
4000
3000
2000
Kapitel XIII – Zeitreihen und Indizes
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
0
1988
1000
XIII - 63
Dow Jones Industrial Average Index (Dow Jones)
Im Gegensatz zum DAX ist der Dow Jones Industrial Average Index ist ein
reiner Kursindex. Im Grunde handelt es sich dabei um ein ungewichtetes
arithmetisches Mittel:
1 30
P (i)
DJIAT =
pt
c · 30 i=1
(i)
pt = Kurs der Aktie i zum Zeitpunkt t
c = Korrekturfaktor
Der Korrekturfaktor c dient der Berücksichtigung von Aktiensplits und von
Veränderungen der Index-Zusammensetzung.
Kapitel XIII – Zeitreihen und Indizes
XIII - 64
Dow Jones Industrial Average Index (Dow Jones)
Zeitliche Entwicklung des monatlichen Dow Jones Schlussstandes:
Dow Jones Monatsschlussstand
14000
12000
10000
8000
6000
4000
Kapitel XIII – Zeitreihen und Indizes
2007
2006
2005
2004
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
1990
1989
0
1988
2000
XIII - 65
Herunterladen