Skript zur Vorlesung ”Statistik für¨Okonomen“

Werbung
Skript zur Vorlesung
Statistik für Ökonomen“
”
Prof. Dr. Walter Krämer
Wintersemester 2007/2008
Inhaltsverzeichnis
I. Deskriptive Statistik
5
1. Motivation
5
2. Mittelwerte
7
2.1. Das arithmetische Mittel . . . . . . . . . . . . . . . . . . . . . .
7
2.2. Der Median (= Zentralwert) . . . . . . . . . . . . . . . . . . . .
8
2.3. Das geometrische Mittel . . . . . . . . . . . . . . . . . . . . . .
9
2.4. Das harmonische Mittel . . . . . . . . . . . . . . . . . . . . . . 10
2.5. Der Zusammenhang zwischen arithmetischem, geometrischem
und harmonischem Mittel . . . . . . . . . . . . . . . . . . . . . 11
3. Streuungsmaße
12
3.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . 13
3.3. Eigenschaften von sx und s2x . . . . . . . . . . . . . . . . . . . . 13
4. Maße für Konzentration und Ungleichheit
15
4.1. Die Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2. Der Gini-Koeffizient
. . . . . . . . . . . . . . . . . . . . . . . . 18
4.3. Der Koeffizient von Herfindahl . . . . . . . . . . . . . . . . . . . 21
5. Maße für Korrelation und Abhängigkeit
( Statistik verste”
22
hen“, Kap.13)
5.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.2. Der Bravais-Pearson-Korrelationskoeffizient . . . . . . . . . . . . 22
5.3. Korrelation und Kausalität . . . . . . . . . . . . . . . . . . . . . 27
6. Elementare Regressionsrechnung
2
28
6.1. Die Methode der kleinsten Quadrate . . . . . . . . . . . . . . . 28
6.2. Das lineare Regressionsmodell . . . . . . . . . . . . . . . . . . . 31
7. Preisindizes
34
7.1. Die Indexformel nach Laspeyres . . . . . . . . . . . . . . . . . . 34
7.2. Der Preisindex nach Paasche . . . . . . . . . . . . . . . . . . . . 35
7.3. Preisindex für die Lebenshaltung . . . . . . . . . . . . . . . . . 36
7.4. Spezialprobleme von Aktienindices . . . . . . . . . . . . . . . . 37
II. Wahrscheinlichkeitsrechnung
39
8. Zufällige Ereignisse und ihre Wahrscheinlichkeiten
39
8.1. Ausgewählte Beispiele . . . . . . . . . . . . . . . . . . . . . . . 39
8.2. Zufällige Ereignisse (Bamberg/Baur, Kap. 7.1-7.3) . . . . . . . . . 39
8.3. Wahrscheinlichkeiten von zufälligen Ereignissen . . . . . . . . . 41
8.4. Unabhängige Ereignisse und bedingte Wahrscheinlichkeiten . . . 43
8.5. Weitere Anwendungen . . . . . . . . . . . . . . . . . . . . . . . 44
9. Zufallsvariablen und Verteilungsfunktionen (Bamberg/Baur, Kap. 8.1,
47
8.2)
9.1. Definitionen und Überblick . . . . . . . . . . . . . . . . . . . . . 47
9.2. Wahrscheinlichkeits- und Verteilungsfunktion bei diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
10.Erwartungswert und Varianz von Zufallsvariablen (Bamberg/Baur,
53
Kap. 8.1, 8.2)
10.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
10.2. Eigenschaften von Erwartungswerten . . . . . . . . . . . . . . . 56
10.3. Die Varianz von Zufallsvariablen . . . . . . . . . . . . . . . . . . 57
10.4. Kovarianz und Korrelation von Zufallsvariablen . . . . . . . . . 59
3
11.Ausgewählte Typen von Zufallsvariablen im Detail
61
11.1. Binomialverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.4.1) . . . 61
11.2. Normalverteilte Zufallsvariable (Bamberg/Baur, Kap. 8.6.3) . . . 62
III. Induktive Statistik
67
12.Punktschätzungen (Bamberg/Baur, Kap. 12.1)
67
12.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
12.2. Schätzung unbekannter Erwartungswerte . . . . . . . . . . . . . 67
12.3. Schätzung unbekannter Wahrscheinlichkeiten . . . . . . . . . . . 69
12.4. Schätzung unbekannter Varianzen . . . . . . . . . . . . . . . . . 69
13.Intervallschätzungen
(=Konfidenzintervalle)
71
13.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
13.2. KI’e für unbekannte Erwartungswerte µ bei normalverteilten
Stichproben-Variablen mit bekannter Varianz σ 2 . . . . . . . . . 71
13.3. KI’e für µ bei normalverteilten Xi und unbekanntem σ 2 . . . . . 73
13.4. KI’e für unbekannte Wahrscheinlichkeiten (Bamberg/Baur, Kap.
13.3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
14.Statistische Signifikanztests (Bamberg/Baur, Kap. 14.1)
76
14.1. Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
14.2. Testen von Hypothesen über Erwartungswerte normalverteilter
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
14.3. Der χ2 - Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . 79
4
Teil I.
Deskriptive Statistik
1. Motivation
Beispiel 1: Indexzahlen
Preisindex (PI) für die Lebenshaltung:
Jan 2000: 99, 4
Aug 2006: 110, 6
Aug 2007: 112, 7
− 1) · 100 = 1, 9%
Aug 2006 → Aug 2007 ( 112,7
110,6
Dez 2006: 111, 1; in 7 Jahren: 11, 7% Wachstum
Durchschnitt
11,7%
7
= 1, 67% FALSCH!!!
Dito: Kurs einer Aktie:100 → 160 → 80
Wachstumdraten: +60% und −50%; Durchschnitt =
60%−50%
2
= 5% ???
Beispiel 2: Aktienkennziffern: Stand des DAX am 16.10.07 um 17:45 Uhr:
7962,64
Beispiel 3: Optionsbewertung
Beispiel 4: Armut und Ungleichheit
Land A: 0 0 0 3 3 3 5
Land B: 1 1 1 1 1 1 8
Das Durchschnittseinkommen (im Sinne des arithmetischen Mittels) ist in beiden Ländern identisch (= 2)
5
Beispiel 5: Demographie:
P (Ehepaar 20/25 erlebt goldene Hochzeit)=?
P(noch am Leben)= 0, 8 × 0, 47 = 0, 376
∆ (Lebenserwartung) bei Elimination von Krebs = 2, 9 Jahre
Weitere Anwendungen
• Linguistik
• Wahlhochrechnungen
• Marketing
• Versicherungstabellen
• Portfolio-Management
6
2. Mittelwerte
2.1. Das arithmetische Mittel
Beispiel 1: Merkmal: Einkommen (quantitativ alias metrisch) mit den Merkmalsausprägungen:
0 0 1 3 16
gesucht: durchschnittliches“ Einkommen
”
Antwort: arithmetisches Mittel: x̄a =
allgemein:
x̄a =
0 + 0 + 1 + 3 + 16
20
=
=4
5
5
x1 + . . . + xn
1
1
1
= x1 + x2 + . . . + xn
n
n
n
n
Im Beispiel: n = 5
x1 = 0, x2 = 0, x3 = 1, x4 = 3, x5 = 16 ⇒ x̄a = 51 ·0+ 15 ·0+ 51 ·1+ 15 ·3+ 51 ·16 = 4
einfaches arithmetisches Mittel oft irreführend
Definition: gewogenes arithmetisches Mittel
Sei X ein metrisches Merkmal mit Ausprägungen x1 , . . . , xn . Seien g1 , g2 , . . . , gn
n
P
gi = 1. Dann heißt
nichtnegative, reelle Zahlen mit
i=1
x̄ga := g1 x1 + g2 x2 + . . . + gn xn
das gewichtete ( = gewogene ) arithmetische Mittel der xi .
Beispiel 2: Durchschnittskosten des Autofahrens
Kostenanteil Benzin: 90% =
9
10
= 0, 9
|
Kostenanteil Öl: 10% =
1
10
= 0, 1
Preisanstieg von Benzin = x1 = +50% ; Preisanstieg von Öl = x2 = +10%
⇒ x̄ga = 0, 9 · 50% + 0, 1 · 10% = 46%
7
eine schöne Eigenschaft des arithmetischen Mittels:
Satz 2.1:
Seien X, Y und Z metrische Merkmale mit den Ausprägungen xi , yi , zi (i =
1, . . . , n) und zi = axi + byi . Dann gilt:
z̄a = ax̄a + bȳa
Achtung: Das gilt für andere Durchschnitte im allgemeinen nicht!
2.2. Der Median (= Zentralwert)
in Beispiel 1: Median = x̄m = 1
Definition:
Der Median ist diejenige Merkmalsausprägung, die bei Anordnung der Größe
nach in der Mitte steht.
Vorteile:
- robust gegen Ausreißer“
”
- Wert ist fast immer eine tatsächlich vorkommende Merkmalsausprägung
- auch bei ordinalen Merkmalen anwendbar
Beispiel 3:
5 Restaurants:
miserabel, schlecht, mäßig, gut, hervorragend
8
⇒
Median = mäßig
Weitere Eigenschaften des arithmetischen Mittels und des Medians:
Satz 2.2:
Ã
n
X
a
x̄ = arg min
(xi − z)2
z∈R
i=1
x̄m = arg min
à n
X
z∈R
!
!
|xi − z|
i=1
2.3. Das geometrische Mittel
Definition:
Sei X ein metrisches Merkmal mit nichtnegativen Ausprägungen x1 , . . . , xn .
Dann heißt
x̄g :=
√
n
x1 · x2 · . . . · xn
das geometrische Mittel von x1 , . . . , xn .
Beispiel: x1 = 1, x2 = 2, x3 = 4 ⇒ x̄g =
√
3
1·2·4=
√
3
8=2
Hauptanwendung: Durchschnittliche Wachstumsraten
Periode
1
2
3
Kurs Xt
100
160
80
+ 60 % = +0,6
-50 % = - 0,5
W-Rate rt
gesucht: Durchschnittliche Wachstumsrate
Todsünde: arithmetisches Mittel = 5%
9
Korrekt: geometrisches Mittel =
√
2
1, 6 · 0, 5 − 1 = −0, 1056 = −10, 56%
zur Begründung ein allgemeines Beispiel:
Anfangskapital: K0
nach 1 Periode: K0 + r1 · K0 = K0 (1 + r1 ) = K1
(1 + r1 heißt auch Wachstumsfaktor)
nach 2 Perioden: K2 = K1 (1 + r2 ) = K0 (1 + r1 ) · (1 + r2 )
..
.
nach n Perioden: Kn = K1 (1 + r1 )(1 + r2 ) . . . (1 + rn )
gesucht: geeigneter Durchschnitt von r1 , r2 , . . . , rn (= r̄ )
Anforderungen an r̄:
K0 (1 + r̄) · (1 + r̄) . . . (1 + r̄) = K0 (1 + r̄)n = K0 (1 + r1 )(1 + r2 ) . . . (1 + rn )
p
Auflösung nach r̄: (1+r̄)n = (1+r1 )·. . .·(1+rn ) ⇒ (1+r̄) = n (1 + r1 ) . . . (1 + rn )
p
Durchschnittliche W-Rate: r̄ = n (1 + r1 )(1 + r2 ) . . . (1 + rn ) − 1
√
√
im Beispiel: r̄ = 2 1, 6 · 0, 5 − 1 = 0, 8 − 1 = 0, 8944 − 1 = −0, 1056
2.4. Das harmonische Mittel
Zum Namen: 2 Gitarrensaiten der Länge 1 und 1/2
→ harmonisches Mittel“: 2/3
”
Definition:
Sei X ein metrisches Merkmal mit positiven Ausprägungen x1 , . . . , xn .
Dann heißt
1
x̄h =
1
n
10
n
P
i=1
1
xi
das harmonische Mittel von x1 , . . . , xn .
Anwendung: Autofahrt DO → Duisburg → DO, einfache Strecke: 50 km
hin: 1/2 h, d.h. Geschwindigkeit = 100km/h
zurück: 1 h , d.h. Geschwindigkeit = 50 km/h
Mittlere Geschwindigkeit x̄h in km :
h
Gesamtstrecke
100 km
h
x̄ = Gesamte Zeit =
= 66, 67 km
1,5 h
h
1
km
1 km
200 km
= 1( 1 + 1 )
= 3
= 3
= 66, 67 km
h
h
h
h
2 50
100
200
2.5. Der Zusammenhang zwischen arithmetischem,
geometrischem und harmonischem Mittel
Beispiel:
n = 2, x1 = 1, x2 = 3
1+3
4
x̄a =
= =2
2√
√2
x̄g = 1 · 3 = 3 = 1, 732
1
6
x̄h = 1
= 1, 5
1 =
4
(1
+
)
2
3
Satz 2.3: Es gilt immer x̄h ≤ x̄g ≤ x̄a .
Beweis, daß x̄g ≤ x̄a für n = 2
√
zu zeigen: x1 · x2 ≤ 12 (x1 + x2 )
offenbar gilt: 0 ≤ (x1 − x2 )2 = x21 − 2x1 x2 + x22 | + 4x1 x2
4x1 x2 ≤ x21 + 2x1 x2 + x22 | : 4
√
x1 x2 ≤ 14 (x21 + 2x1 x2 + x2 ) |
√
x1 x2 ≤ 12 (x1 + x2 )
11
3. Streuungsmaße
3.1. Problemstellung
Beispiel :
X = Einkommen im Land A: 0 0 1 3 16
x̄a = 4
Y = Einkommen im Land B: 3 3 4 5 5
ȳ a = 4
gesucht: geeignetes Maß für die Streuung
Definition:
Rx = xmax − xmin heißt Spannweite (= range“) von X.
”
im Beispiel: Rx = 16 − 0 = 16; Ry = 5 − 3 = 2
Nachteil:
Bei der Spannweite wird die kleinste Zahl von der größten subtrahiert. Alles,
was zwischen kleinstem und größtem Wert passiert, geht in die Spannweite
nicht mit ein.
Definition:
n
P
dx = n1 ·
|xi − x̄m | heißt mittlere absolute Abweichung (vom Median).
∆x =
1
n2
i=1
n P
n
P
|xi − xj | heißt mittlerer absoluter Abstand .
i=1 j=1
im Beispiel: dx = 51 (1 + 1 + 0 + 2 + 15) =
∆x =
19
5
= 3, 8
1
(0 + 0 + 1 + 3 + 16 + 0 + 0 + 1 + 3 + 16 + 1 + 1 + 0 + 2 + 15 + 3 + 3 +
25
2 + 0 + 13 + 16 + 16 + 15 + 13 + 0) =
140
25
12
= 5, 6
3.2. Die Standardabweichung
Definition:
n
P
s2x = n1 (xi − x̄a )2 heißt mittlere quadratische Abweichung (alias em”
i=1
pirische Varianz“).
im Beispiel:
s2x = 15 ((−4)2 + (−4)2 + (−3)2 + (−1)2 + (12)2 )
= 15 (16 + 16 + 9 + 1 + 144) =
186
5
= 37, 2
Trick für praktische Berechnung
n
P
Satz 3.1: s2x = n1
x2i − (x̄a )2
i=1
5
P
x2i = 15 (0 + 0 + 1 + 9 + 256) =
Im Beispiel: 15
P 2 i=1a 2
d.h. n1
xi − (x̄ ) = 53, 2 − 16 = 37, 2
Nachteil: yi = axi → s2y = a2 s2x
Definition:
p
sx = s2x heißt Standardabweichung .
√
im Beispiel: sx = 37, 2 = 6, 099
3.3. Eigenschaften von sx und s2x
Satz 3.2: Es gilt immer:
(i) yi = axi ⇒ s2y = a2 s2x
sy = |a|sx
13
266
5
= 53, 2,
(x̄a )2 = 42 = 16,
(ii) yi = xi + b ⇒ s2x = s2y
Beispiel:
yi = 2xi = 0, 0, 2, 6, 32
ȳ a = 2x̄a = 2 · 4 = 8
und
s2y = 15 (64 + 64 + 36 + 4 + 576) = 148, 8 = 4 · 37, 2
14
4. Maße für Konzentration und Ungleichheit
4.1. Die Lorenzkurve
i
P
Anteil der i Ärmsten :
j=1
n
P
x(j)
j=1
xj
Definition:
- der Größe nach aufsteigend sortiert
i
P
x(j)
i j=1
) mit (i = 0, . . . , n) heißt
Der Polygonzug durch die Punkte ( , P
n n
xj
j=1
Lorenzkurve“ (nach Max Otto Lorenz (1876-1959), US-amerikanischer Sta”
tistiker).
Beispiel 1:
X = Einkommen in Land A: 0, 0, 1, 3, 16


Y = Einkommen in Land B: 16, 16, 17, 19, 32 
s2x = s2y = 37, 2 ⇒ sx = sy = 6, 099
offenbar gilt:
in A
in B
die 20% Ärmsten haben
0%
16%
des Gesamteinkommens
die 40% Ärmsten haben
0%
32%
des Gesamteinkommens
die 60% Ärmsten haben
5%
49%
des Gesamteinkommens
die 80% Ärmsten haben
20%
68%
des Gesamteinkommens
alle genannten haben
100%
100%
des Gesamteinkommens
15
1.0
0.0
0.2
0.4
0.6
Land A
0.8
1.0
0.8
0.2
0.0
0.4
0.6
1.0
0.8
0.6
0.4
0.2
0.0
16
0.0
0.2
0.4
0.6
Land B
0.8
1.0
Beispiel 2: Einkommen privater Haushalte in Deutschland 1998 (netto DM/Monat)
HH (Mio)
ges. Einkommen (Mio)
< 2500
7, 77
14127
2500 − 5000
14, 13
51666
5000 − 10000
11, 99
82566
≥ 10000
2, 92
39786
zusammen
36, 81
188145
← gruppierte Daten
Lorenzkurve der Einkommen von Deutschland 1988:
die 7, 77/36, 81 = 21% Ärmsten haben 14127/188145 = 7, 5% des Gesamteinkommens,
die (7, 77+14, 13)/(36, 81) = 59% Ärmsten haben (14127+51666)/(188145) =
35% des Gesamteinkommens,
die (7, 77+11, 99+14, 13)/(36, 81) = 92% Ärmsten haben 82% des Gesamteinkommens,
die 100% Ärmsten haben 100% des Gesamteinkommens.
17
Lorenzkurve
1.0
0.8
0.6
0.4
0.2
0.0
0.2
0.4
0.6
0.8
1.0
Satz 4.1: Eigenschaften der Lorenzkurve
• Die Lorenzkurve geht immer durch die Punkte (0, 0) und (1, 1).
• Sie verläuft nie oberhalb der Winkelhalbierenden.
• Lorenzkurve = Winkelhalbierende ⇔ Alle Merkmalsausprägungen sind
identisch.
• Ungleichheit umso größer, je weiter Lorenzkurve von der Winkelhalbierenden entfernt
• Die Lorenzkurve bleibt gleich, wenn man alle Einkommen mit dem gleichen Faktor multipliziert.
4.2. Der Gini-Koeffizient
Definition:
Das Doppelte der Fläche zwischen Lorenzkurve und Winkelhalbierender
18
(= Konzentrationsfläche“) heißt Gini-Koeffizient“ (Ĝx ) (nach Corrado
”
”
Gini (1884-1965), ital. Statistiker).
Es ist
Ĝx =
∆x
1 XX
mit
∆x
=
|xi − xj |
2x̄a
n2 i j
mit i, j ≤ n als Laufindizes der n Beobachtungen x1 , ..., xn .
Satz 4.2: Eigenschaften des Gini-Koeffizienten
• 0 ≤ Gx ≤ 1: Gini-Koeffizient liegt immer zwischen 0 und 1.
• Gx = 0 ⇔ alle xi sind gleich.
• yi = axi ⇒ Gy = Gx
Ausgangsbeispiel (Beispiel 1):
Land A
Fläche I: (0, 2 · 0, 05)/2 = 0, 005
19
Fläche II: 0, 2 · 0, 05 + (0, 2 · 0, 15)/(2) = 0, 025
Fläche III: 0, 2 · 0, 20 + (0, 2 · 0, 8)/(2) == 0, 12
d.h. Konzentrationsfläche = 0, 5 − 0, 005 − 0, 025 − 0, 12 = 0, 35
⇒ Gini-Koeffizient: Gx = 0, 35 · 2 = 0, 7
Land B
Fläche I: (0, 2 · 0, 16)/2 = 0, 016
Fläche II: 0, 2 · 0, 16 + (0, 2 · 0, 16)/(2) = 0, 048
Fläche III: 0, 2 · 0, 32 + (0, 2 · 0, 17)/(2) = 0, 081
Fläche IV: 0, 2 · 0, 49 + (0, 2 · 0, 19)/(2) = 0, 117
Fläche V: 0, 2 · 0, 68 + (0, 2 · 0, 32)/(2) = 0, 168
d.h. Konzentrationsfläche = 0, 5−0, 016−0, 048−0, 081−0, 117−0, 168 = 0, 07
⇒ Gini-Koeffizient: Gx = 0, 07 · 2 = 0, 14
Alternative Berechnung des Gini-Koeffizienten: Gx =
Land A: 0, 0, 1, 3, 16 ⇒ x̄ = 4, ∆x =
∆x
2x̄a
140
140
140
⇒ Gx =
=
= 0, 7
25
25 · 8
200
mit ∆x = 1/52 · (|0 − 0| + |0 − 0| + |0 − 1| + |0 − 3| + |0 − 16| + |0 − 0| + |0 −
0| + |0 − 1| + |0 − 3| +|0 − 16| + |1 − 0| + |1 − 0| + |1 − 3| + . . .) = 140/25
Land B: 16, 16, 17, 19, 32 ⇒ x̄ = 20, ∆x =
140
140
⇒ Gx =
= 0, 14
25
25 · 40
Beispiel 3: 3 Firmen, mit Umsätzen 100, 40, 10
∆x
Gx =
mit x̄a = 50; 2x̄a = 100; ∆x = 91 (60 + 90 + 60 + 30 + 90 + 30) =
2x̄a
40
360
= 40; Gx =
= 0, 4
9
100
Angenommen, weitere Firma mit Umsatz 0 kommt dazu:
x̄ =
150
,
4
⇒ Gx =
∆x = (360 + 100 + 40 + 10 + 100 + 40 + 10)/16 = 660/16
660 300
/ 4
16
=
660∆4
300∆16
= 0, 55 (größer als alter Gini-Koeffizient)
20
4.3. Der Koeffizient von Herfindahl
Definition:

2
n
P
xi  heißt Herfindahl-Koeffizient (nach Orris C. Herfindahl
P
Hx =
n
i=1
i=1
xi
(1918-1972), US-amerikanischer Ökonom).
im Beispiel:
¡ ¢2 ¡ 40 ¢2 ¡ 10 ¢2
+ 150 + 150 + 02 = 0, 52 ← ist der gleiche vor - und nach
Hx = 100
150
Hinzunahme des Unternehmens mit Umsatz 0
Satz 4.3: Eigenschaften des Herfindahl-Koeffizienten
•
1
n
≤ Hx ≤ 1
• Hx = 1 ⇔ alle xi außer einem sind 0
• Hx =
1
n
⇔ alle xi sind gleich
Häufiges Problem: Umsätze kleiner Firmen unbekannt
Firma Nr.
1
2
3
4
Umsatzanteil


40 %





25 %
95%


20 %





10 %
gesucht: Hx : 0, 42 + 0, 252 + 0, 22 + 0, 12 + |{z}
...
|
{z
}
?
=0,2725
2
es gilt: 0 < Rest ≤ 0, 05 = 0, 0025
0, 2725 + 0, 052 = 0, 2750, d.h. 0, 2725 < Hx ≤ 0, 2750
21
5. Maße für Korrelation und Abhängigkeit
( Statistik verstehen“, Kap.13)
”
5.1. Problemstellung
bisher: 1 Merkmal (= Variable) pro Merkmalsträger
jetzt: 2 Merkmale
Beispiele:
Merkmalsträger
Merkmal (=Variable) Nr. 1 = X
Merkmal (=Variable) Nr. 2 = Y
gebrauchter PKW
Alter
Preis
Mietwagen
Größe
Mietpreis
Börsentag
Rendite BMW
Rendite Daimler
Bundesliga
Tabellenpunkte
geschossene Tore
erwachsener Bundesbürger
Schulbildung
Einkommen
usw...
Wie kann man das Ausmaß des Zusammenhangs zwischen zwei Merkmalen
sinnvoll messen?
Im weiteren: beide Merkmale metrisch!
5.2. Der Bravais-Pearson-Korrelationskoeffizient
Beispiel: Körpergröße (X) - Gewicht (Y ) von 12 erwachsenen männlichen
Bundesbürgern
22
X
170 172 175
176
177 180
180
183
185
187
188
194
Y
60
75
66
78
75
87
72
90
92
76
60
65
1. Schritt: Streudiagramm“
”
100
90
Y
80
70
60
165
170
175
180
185
X
2. Schritt: Standardisieren“
”
x∗i :=
xi − x̄
23
sx
190
195
200
3. Schritt: Streudiagramm der standardisierten Werte
Abweichung vom Mittelwert von Y
2
1
0
−1
−2
−2
−1
0
1
2
Abweichung vom Mittelwert von X
Definition:
n
P
rxy :=
sxy
sx sy
=s
(xi − x̄)(yi − ȳ)
i=1
n
P
(xi − x̄)2
i=1
n
P
(yi − ȳ)2
i=1
heißt Bravais-Pearson Korrelationskoeffizient (nach Auguste Bravais (18111863), französischer Physiker und Karl Pearson (1857-1936), britischer Statistiker).
24
Alternative Schreibweise:
1
n
Pn
(xi − x̄)(yi − ȳ)
Sxy
q
rxy = q P i=1
=
,
n
1
1
s
s
2
2
x
y
(yi − ȳ)
i=1 (xi − x̄)
n
n
wobei sxy =
1
n
Pn
i=1 (xi
− x̄)(yi − ȳ) die empirische Kovarianz ist.
Eigenschaften der (empirischen) Kovarianz:
Satz 5.1:
• sxy =
1
n
n
P
xi yi − x̄ȳ
i=1
• zi = yi + a ⇒ sxz = sxy die empirische Kovarianz ändert sich nicht,
wenn eine Konstante zu einem Merkmal addiert wird.
• zi = ayi ⇒ sxz = asxy
allgemein: s(ax+b)(cy+d) = acsxy
• |sxy | ≤ sx sy
• |sxy | = sx sy ⇔ yi = axi + b mit a 6= 0
Eigenschaften des Bravais-Pearson Korrelationskoeffizienten:
• −1 ≤ rxy ≤ 1
• rxy = +1 ⇔ yi = axi + b mit a > 0 (größte positive Korrelation)
• rxy = −1 ⇔ yi = axi + b mit a < 0 (größte negative Korrelation)
25
Korrelationskoeffizient = 1
Korrelationskoeffizient = −1
26
5.3. Korrelation und Kausalität
häufiger Trugschluß: X und Y sind korreliert ⇒ X ist Ursache für Y.
alternative Erklärung:
• Y ist Ursache für X
• Z
%X
beide Variablen hängen von einer dritten Variable ab.
&Y
(wichtigste dritte Variable ist die Zeit)
27
6. Elementare Regressionsrechnung
6.1. Die Methode der kleinsten Quadrate
Beispiel: 2 metrische Variablen X, Y mit folgenden Beobachtungen:
i
1 2
3
4
5
6
7
8
9
xi
5 6 11
8
13
8
10
16
13
yi
8 7
10
11 10 11
12
12
9
Streudiagramm der Wertepaare
15
Y
10
5
0
0
5
10
15
X
gesucht: Gerade, welche die Punkte (xi ; yi ) möglichst gut approximiert.
28
Vorschläge:
• nach Augenmaß
• verbinde Extrempunkte
• minimiere die Summe der absoluten Abweichungen
• minimiere die Summe der quadrierten Abstände
Definition:
Die Gerade y = ax + b durch die Punktewolke {(xi ; yi )} , welche die Summe
der quadrierten vertikalen Abstände minimiert, heißt KQ-Ausgleichsgerade.
Eigenschaften:
• die KQ-Gerade geht immer durch den Punkt (x̄, ȳ)
• die Steigung der KQ-Geraden ist gegeben durch
n
P
a=
(xi − x̄)(yi − ȳ)
i=1
n
P
=
(xi − x̄)2
sxy
s2x
i=1
• der Achsenabschnitt der KQ-Geraden ist gegeben durch
b = ȳ − ax̄
29
Im Beispiel:
xi
xi − x̄
yi
yi − ȳ
(xi − x̄)(yi − ȳ)
xi yi
(xi − x̄)2
(yi − ȳ)2
5
-5
8
-2
10
40
25
4
6
-4
7
-3
12
42
16
9
11
1
9
-1
-1
99
1
1
8
-2
10
0
0
80
4
0
13
3
11
1
3
143
9
1
8
-2
10
0
0
80
4
0
10
0
11
1
0
110
0
1
16
6
12
2
12
192
36
4
13
P
= 90
3
P
=0
12
P
2
= 90
P
6
P
=0
= 42
Steigung der KQ-Geraden:
a=
sxy
4, 67
4, 67
= 104 =
= 0, 40
2
sx
11, 56
9
Achsenabschnitt der KQ-Geraden:
b = ȳ − ax̄ = 10 − 0, 4 · 10 = 6
⇒ KQ-Gerade: y = 0, 4 · x + 6
30
156
P
= 942
9
P
= 104
4
P
= 24
KQ−Gerade
15
Y
10
5
0
0
5
10
15
X
6.2. Das lineare Regressionsmodell
Beispiel: Keynesianische Konsumfunktion
Konsumi = α + β Einkommeni + ui
der Achsenabschnitt α bezeichnet die absolute Konsumquote;
die Steigung β bezeichnet die marginale Konsumquote;
ui ist die Störgröße
Lösung: Schätze α durch a und β durch b
31
Weitere Beispiele:
X
Y
Werbeausgaben
Umsatz
Alter gebrauchter PKW
Preis
Größe einer Wohnung
Miete
Menge Düngemittel
..
.
Ernteertrag
..
.
wichtig:
• a priori bekannt: X verursacht Y
• nur eine erklärende Variable
(sonst: multiple Regressionsanalyse“)
”
• Y hängt linear von X ab: y = ax + b
Beispiel für nichtlinearen Zusammenhang:
X = Alter PKW, Y = Preis
Y =a·
1
X
+b
Lösung: Definiere neuen Regressor X ∗ =
1
X
Weiteres Beispiel: Cobb-Douglas Produktionsfunktion
Output = λ · Arbeitβ · Kapitalγ
ist nicht linear
Lösung: logarithmieren
ln(Output) = ln(λ) + βln(A) + βln(K)
im Weiteren: 1 Regressor x und linearer Zusammenhang: (entweder alle übrigen
Einflußgrößen konstant oder nur eine Ursache):
y ≈ ax + b ⇒ y = ax + b+ Störung
32
Problem: Bestimmung von a und b
Lösung: Approximiere a und b durch die Koeffizienten der KQ-Geraden
wichtig: ceteris-paribus Bedingung (alles andere bleibt gleich)
33
7. Preisindizes
7.1. Die Indexformel nach Laspeyres
Beispiel: Konsumausgaben eines ausgewählten Wirtschaftssubjektes
Periode 0 (=Basisperiode)
Periode 1 (=Basisperiode)
Preis
Menge
Preis
Menge
p0
q0
p1
q1
Zigaretten
2,-
8
4,-
4
Fertigpizza
5,-
4
3,-
9
Kino
6,-
2
11,-
1
Rotwein
3,-
4
2,-
6
p̄0 =
16
4
=4
p̄1 =
20
4
=5
gesucht: durchschnittliche Preisänderung = ?
grober Unfug: Vergleich der Durchschnittspreise
Genauso dumm: Vergleich der Gesamtausgaben
P
GA0 = 4i=1 p0 (i)q0 (i) = 16 + 20 + 12 + 12 = 60
P
GA1 = 4i=1 p1 (i)q1 (i) = 16 + 27 + 11 + 12 = 66
Definition:
Pn
L
P0t
:= Pni=1
i=1
pt (i)q0 (i)
po (i)qo (i)
heißt Preisindex nach Laspeyres
mit Basisperiode 0 und Berichtsperiode t (nach Etienne Laspeyres (1834 1913), deutscher Statistiker).
34
Im Beispiel:
L
d.h. P01
=
74
60
P4
i=1
p1 (i)qo (i) = 4 · 8 + 3 · 4 + 11 · 2 + 2 · 4 = 74
= 1, 233, entsprechend einem mittleren Preisanstieg von 23, 3%.
Satz 7.1:
p0 (i)q0 (i)
Sei g0 (i) = Pn
.
j=1 p0 (j)q0 (j)
Dann gilt:
L
P0t
=
n
X
pt (i)
i=1
p0 (i)
g0 (i)
(gewogenes arithmetisches Mittel der individuellen Preisverhältnisse).
Im Beispiel:
P4
p1 (i)
i=1 p0 (i) g0 (i)
=
4
2
·
16
60
+ 35 ·
20
60
+
11
6
·
12
60
+ 23 ·
12
60
= 1, 233
7.2. Der Preisindex nach Paasche
Definition:
Pn
P
P0t
= Pni=1
pt (i) · qt (i)
i=1 p0 (i) · qt (i)
heißt Preisindex nach Paasche
(nach Herrmann Paasche (1851 - 1922), deutscher Statistiker).
Im Beispiel:
P
=
d.h.: P01
66
77
P4
i=1
p0 (i) · q1 (i) = 2 · 4 + 5 · 9 + 6 · 1 + 3 · 6 = 77
= 0, 857, dies entspricht einer mittleren Preissenkung um 14, 3%
→ Nach Laspeyres sind die Preise gestiegen, nach Paasche gesunken
35
Satz 7.2:
p0 (i)qt (i)
. Dann gilt:
Sei gt (i) = P
n
p0 (j)qt (j)
j=1
P
P0t
=
n
X
pt (i)
i=1
p0 (i)
gt (i).
Andere Gewichte als bei Laspeyres!
Im Beispiel:
P
P01
=
4
2
·
8
77
+ 35 ·
45
77
+
11
6
·
6
77
+ 23 ·
18
77
=
6
7
= 0, 857
Definition:
q
L
F
P
P0t
· P0t
= P0t
heißt idealer Preisindex nach Fisher“ .
”
Im Beispiel:
F
P01
=
√
1, 223 · 0, 857 = 1, 028
7.3. Preisindex für die Lebenshaltung
Grundlage: Indexformel von Laspeyres
Vorteil: Verbrauchsdaten müssen nur für Basisperiode erhoben werden!
5 Teilprobleme:
• Bestimmung des Warenkorbs (aktuell: Warenkorb von 2000, n = 750
Güter)
• Auswahl von Preisrepräsentanten“
”
• Messung der Preise
• Berücksichtigung von Qualitätsänderungen
36
7.4. Spezialprobleme von Aktienindices
Eigenheit: Was vorher grober Unfug war, ist jetzt erlaubt!
1. Fall: Dow-Jones (eigentlich D. J. Industrial Average * 26.05.1896)
ist ein gewöhnliches arithmetisches Mittel (von inzwischen 30) ausgewählten
Aktienkursen
Besonderheit: arithmetisches Mittel hier möglich, da Problem der Maßeinheiten entfällt (immer das Stück)
Problem: Veränderung des Warenkorbs
Beispiel:
Ausgangsportfolio von 3 Aktien, mit Kursen 60, 70, 110. Die Dow-Jones-Formel
ergibt:
60 + 70 + 110
240
=
= 80.
3
3
Nun: Unternehmen mit Kurs 60 wird aus Index herausgenommen und durch
eines mit dem Kurs 100 ersetzt, so dass sich ein neuer Index ergibt:
100 + 70 + 110
280
=
= 93, 33
3
3
Problem: zwei Indexwerte für den gleichen Börsentag
Ausweg: der Nenner des zweiten Indizes wird so angepasst, dass der Bruch den
gleichen Wert von 80 hat wie der Index mit dem alten Aktienkurs:
100 + 70 + 110
= 80
3, 5
Solche Bereinigungen des Dow-Jones-Index werden auch bei Aktiensplits, Kapitalerhöhungen und Dividendenzahlungen vorgenommen.
37
2. Fall: DAX (eingeführt am 31.12.1987)
Gibt an, wieviel seine 30 Unternehmen im Vergleich zum letzten Börsentag
von 1987 heute an der Börse kosten:
DAXheute =
Gesamtwert des Portfolios heute
· 1000
Gesamtwert des Portfolios am 31.12.1987
im Gegensatz zum Dow-Jones ist der DAX gewichtet: die einzelnen Kurse
gehen um so stärker in den Zähler ein, je mehr Aktien einer Gesellschaft im
Umlauf sind (da Gesamtpreis = Preis pro Aktie × Menge)
Interpretation: ein DAX-Wert von 4710 bedeutet beispielsweise, dass der Marktwert der 30 DAX-Werte seit dem 30.12.1987 (als der DAX genau auf 1000
stand) um 3710 Promille (= 371%) gestiegen ist.
38
Teil II.
Wahrscheinlichkeitsrechnung
8. Zufällige Ereignisse und ihre
Wahrscheinlichkeiten
8.1. Ausgewählte Beispiele
P(6 Richtige im Lotto) =
1
13.983.816
= 0, 000000071
P(Aktienkurs steigt an 3 von 5 Tagen an) =
10
32
P(Bei 30 zufällig ausgewählten Personen haben mind. 2 den gleichen Geburtstag) = 71%
usw. . .
Preisfrage:
Wie rechnen wir solche Wahrscheinlichkeiten aus?
8.2. Zufällige Ereignisse
(Bamberg/Baur, Kap. 7.1-7.3)
Beispiel 1: Einmaliges Würfeln ( Zufallsvorgang“)
”
Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}
Ereignisse: Teilmengen von Ω
39
Zusammengesetzte Ereignisse:
Verbal
Mengendarstellung
Gerade Zahl
A = {2, 4, 6}
Ungerade Zahl
B = {1, 3, 5}
Primzahl
C = {1, 2, 3, 5}
Keine Primzahl
D = {4, 6}
Zahl > 3
E = {4, 5, 6}
Definition:
Ā := Menge aller Elemente von Ω, die nicht in A liegen, heißt Komplementärmenge von A.
A ∪ B := Menge aller Elemente von Ω, die in A oder B oder in beiden liegen,
heißt Vereinigungsmenge von A und B .
A ∩ B := Menge aller Elemente von Ω, die sowohl in A als auch in B liegen,
heißt Schnittmenge von A und B.
Zusammenhang zwischen verbaler und mengengestützter Darstellung bei zusammengesetzten Ereignissen:
Verbal
Mengendarstellung
Ungerade Zahl oder Zahl > 3
B ∪ E = {1, 3, 4, 5, 6}
Primzahl und Zahl > 3
C ∩ E = {5}
Keine Primzahl
C̄ = {4, 6}
Gerade Zahl und ungerade Zahl
A∩B=Ø
Definition:
Zwei Ereignisse A und B heißen unvereinbar (=disjunkt ),
⇔ A ∩ B = Ø.
40
Beispiel 2: Zweimaliges Würfeln
Ω=
{(1, 1)(1, 2)(1, 3)(1, 4)(1, 5)(1, 6)
(2, 1)(2, 2)(2, 3)(2, 4)(2, 5)(2, 6)
..
.
(6, 1)(6, 2)(6, 3)(6, 4)(6, 5)(6, 6)}
=
{1, 2, 3, 4, 5, 6} ⊗ {1, 2, 3, 4, 5, 6} → kartesisches Produkt
|Ω| = 6 · 6 = 62 = 36
Beispiel 3: 3 -maliger Münzwurf
Ω = {K, Z} ⊗ {K, Z} ⊗ {K, Z}
= {(KKK), (KKZ), (KZK), (KZZ), (ZKK), (ZKZ), (ZZK), (ZZZ)}
|Ω| = 2 · 2 · 2 = 23 = 8
Satz 8.1:
Wird ein einfacher Zufallsvorgang mit K Elementarereignissen n-mal wiederholt, so hat der zusammengesetzte Zufallsvorgang K n Elementarereignisse.
8.3. Wahrscheinlichkeiten von zufälligen Ereignissen
im Beispiel 2:
A = beide Zahlen sind gleich = {(1, 1)(2, 2)(3, 3)(4, 4)(5, 5)(6, 6)}
B = keine 6 = {(1, 1) . . . (5, 5)}
C = nur ungerade Zahlen = {(1, 3)(1, 5)(3, 1)(3, 5)(5, 1)(5, 3)(1, 1)(3, 3)(5, 5)}
D = Augensumme gleich 7 = {(1, 6)(2, 5)(3, 4)(4, 3)(5, 2)(6, 1)}
41
gesucht: zugehörige Wahrscheinlichkeiten
Annahme: Alle Elementarereignisse sind gleichwahrscheinlich (= Laplace-Experiment)
Satz 8.2:
In einem Laplace Experiment gilt:
P (A) =
Anzahl aller günstigen Ereignisse
Anzahl aller möglichen Ereignisse
Daraus folgt sofort:
• P (A) =
|A|
|Ω|
= 6/36 = 1/6
• P (B) = 25/36
• P (C) = 9/36 = 1/4
• P (D) = 6/36 = 1/6
Rechenregeln für Wahrscheinlichkeiten:
Satz 8.3:
Es gilt immer (auch außerhalb von Laplace-Experimenten)
• P (Ω) = 1
• P (∅) = 0
• P (Ā) = 1 − P (A)
• falls A und B disjunkt (unvereinbar): P (A ∪ B) = P (A) + P (B)
• allgemein: P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beispiel: 2-maliges Würfeln
A: nur gerade Zahlen
B: nur ungerade Zahlen
P (A) = P (B) =
9
36
=
1
4
A ∩ B = Ø ⇒ P (A ∪ B) =
1
4
+
1
4
=
1
2
42
8.4. Unabhängige Ereignisse und bedingte
Wahrscheinlichkeiten
Beispiel: 2-maliges Würfeln
A: erster Wurf eine 6
B: zweiter Wurf eine 6
Definition:
Zwei Ereignisse A und B heißen unabhängig, wenn das Auftreten des einen
Ereignisses keine Rückschlüsse auf das Auftreten des anderen zulässt.
Satz 8.4: Multiplikationsregel“
”
Für unabhängige Ereignisse gilt: P (A ∩ B) = P (A) · P (B).
im Beispiel:
1
6
|A∩B|
|Ω|
P (A) = P (B) =
P (A ∩ B) =
=
1
36
=
1
6
·
1
6
→ A und B sind unabhängig !
Beispiel für nicht unabhängige Ereignisse:
A: Augensumme = 7, P (A) =
B: mindestens eine 6,
P (A ∩ B) =
2
36
6
36
P (B) =
6= P (A) · P (B) =
=
1
6
11
36
6
36
·
11
36
Preisfrage: P(A), wenn ich weiß, daß B eingetreten ist?
Definition:
Die Wahrscheinlichkeit für A in einem neuen Zufallsexperiment mit Ω = B
heißt bedingte Wahrscheinlichkeit von A, gegeben B.
43
Formal: P (A|B)
Im Beispiel:
P (A|B) =
2
11
> P (A) =
1
6
Allgemein:
Satz 8.5:
(a) Falls P (B) 6= 0, so gilt: P (A|B) =
P (A∩B)
P (B)
(b) Falls A und B unabhängig, so gilt: P (A|B) = P (A)
Beweis von (b)
P (A|B) =
P (A∩B)
P (B)
=
P (A)·P (B)
P (B)
= P (A).
Weitere Anwendungen von Satz 8.5:
Satz 8.6:
P (A ∩ B) = P (A|B) · P (B)
Anwendung:
P( 2 Asse bei 2-maligem Ziehen ohne Zurücklegen aus einem 32-er Kartenspiel)
A1 : Ass bei ersten Zug
A2 : Ass beim zweiten Zug
gesucht: P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 ) =
8.5. Weitere Anwendungen
Beispiel 1: Geburtstagsproblem
n zufällig ausgewählte Personen
44
4
32
·
3
31
A= mindestens 2 Personen haben gleichen Geburtstag”
”
gesucht: P (A)
Trick: Betrachte stattdessen:
Ā = alle Geburtstage sind verschieden”
”
P (Ā) = 1 − P (A) ⇒ P (A) = 1 − P (Ā)
Voraussetzung: 365 Tage, alle als Geburtstage gleich wahrscheinlich
Ω = {1, 2, 3, . . . , 365} ⊗ {1, 2, 3, . . . , 365} ⊗ .... ⊗ {1, 2, 3, . . . , 365} (n-mal)
|Ω| = 365n
|Ā| = 365 · 364 · 363 · . . . · (365 − n + 1)
⇒ P (Ā) =
365 · 364 · . . . · · · (365 − n + 1)
365n
Ausrechnen ergibt:
n
P(Ā)
P(A)=1 − P (Ā)
2
364/365 = 0,997
0,003
4
0,98
0,02
6
0,95
0,05
8
0,92
0,08
10
0,88
0,12
15
0,74
0,26
20
0,58
0,42
25
0,43
0,57
30
0,29
0,71
45
Beispiel 2: Fluktuation von Aktienkursen
Angenommen, P(Kurs steigt) = P(Kurs fällt) = 0, 5
gesucht: P(Kurs steigt an 3 von 5 Börsentagen einer Woche)
Ω = {Menge aller 5- elementigen Folgen von + und - }
= {+−} ⊗ {+−} ⊗ {+−} ⊗ {+−} ⊗ {+−}
|Ω| = 25 = 32
A = { Menge aller Folgen mit 3 mal + }
gesucht: |A| = | Menge aller 3- elementigen Teilmengen einer Menge aus 5
Elementen |
Satz 8.7:
Sei k ≤ n. Dann gibt es
¡n¢
k
=
n!
k!·(n−k)!
k - elementige Teilmengen einer Menge
vom Umfang n.
im Beispiel:
µ ¶
5
5!
5·4·3·2·1
|A| =
=
=
= 10
3
3! · 2!
(3 · 2 · 1) · (2 · 1)
d.h.: P (A) =
|A|
10
5
=
=
|Ω|
32
16
46
9. Zufallsvariablen und Verteilungsfunktionen
(Bamberg/Baur, Kap. 8.1, 8.2)
9.1. Definitionen und Überblick
Definition:
Eine Variable Z, deren mögliche Werte ( Realisationen”) vom Ausgang eines
”
Zufallsvorgangs abhängen, heißt Zufallsvariable.
Beispiele für Zufallsvariablen:
Z1 =Augensumme bei 2-maligem Würfeln
Z2 =Anzahl Kopf“ bei 3-maligem Münzwurf
”
Z3 =Lebensdauer einer zufällig ausgewählten Glühbirne
Z4 =Anzahl erfolgloser Tipps bis zum 1. Lotto-Hauptgewinn
Z5 =log(neuer Kurs / alter Kurs einer Aktie an einem Börsentag)
Z6 =Anzahl positiver Kursänderungen an 10 Börsentagen
etc.
Definition:
Z heißt stetig ⇔ Z kann (evtl. innerhalb gewisser Grenzen) alle möglichen
reellen Zahlen als Wert annehmen.
Z heißt diskret ⇔ Z kann nur endlich viele (bzw. abzählbar viele) Werte annehmen.
von Interesse:
• welchen Wert nimmt die Variable im Mittel an? (→ Erwartungswert“)
”
• wie stark schwankt die Variable um den Erwartungswert? (→ Varianz“,
”
Standardabweichung“)
”
47
Variable
Typ
Wertebereich
Z1
diskret
{2, 3, 4, 5, ..., 12}
Z2
diskret
{0, 1, 2, 3}
Z3
stetig
[0, ∞)
Z4
diskret
{0, 1, 2, 3, 4, ....}
Z5
stetig
(−∞, ∞)
Z6
diskret
{0, 1, ..., 10}
Notation im weiteren:
Variablen selbst: große Buchstaben
mögliche Werte: kleine Buchstaben
später:
Z2 , Z6 :binomialverteilt
Z3 :exponentialverteilt
Z4 :geometrisch verteilt
Z5 :normalverteilt
9.2. Wahrscheinlichkeits- und Verteilungsfunktion bei
diskreten Zufallsvariablen
Beispiel: X = Anzahl Kopf bei 3-maligem Münzwurf
Ergebnismenge=
{(ZZZ) (KZZ) (KKZ) (ZKZ) (ZZK) (KZK) (ZKK) (KKK)}
↓
↓
↓
↓
↓
↓
↓
↓
0
1
2
1
1
2
2
3
offenbar gilt:
P (X = 0) =
1
8
; P (X = 1) =
3
8
; P (X = 2) =
48
3
8
; P (X = 3) =
1
8
Definition:
Die Verteilungsfunktion F (x) einer Zufallsvariablen X : Ω → R gibt an, mit
welcher Wahrscheinlichkeit die Zufallsvariable einen Wert kleiner oder gleich
x annimmt:
F (x) = P (X ≤ x) = P (ω ∈ Ω|X(ω) ≤ x).
Im Beispiel:
Verteilungsfunktion
1.0
F(x)
0.8
0.6
0.4
0.2
0.0
−1
0
1
2
3
4
5
x
Definition:
Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariablen X
gibt an, mit welcher Wahrscheinlichkeit die Zufallsvariable einen Wert xi annimmt:
f (xi ) = P (X = xi ).
Die Summe der Wahrscheinlichkeiten
P
49
f (xi ) ergibt 1.
Im Beispiel:
Wahrscheinlichkeitsfunktion
0.5
0.4
f(x)
0.3
0.2
0.1
0.0
−1
0
1
2
3
4
5
x
Definition:
Wenn eine stetige Zufallsvariable X eine differenzierbare Verteilungsfunktion
besitzt, dann heißt
f (x) := F (x)
die Dichtefunktion (kurz auch Dichte) von X.
Beispiel: Dichte- und Verteilungsfunktion bei stetigen Zufallsvariablen z.B.
X = Körpergröße eine Mannes über 18 in cm; 160 ≤ X ≤ 200
50
Dichtefunktion der Körpergröße
160
170
180
190
200
X
Verteilungsfunktion der Körpergröße
1.0
F(x)
0.8
0.6
0.4
0.2
0.0
160
170
180
190
200
x
Die Dichtefunktion f(x) ist die Ableitung der Verteilungsfunktion F(x).
51
Satz 9.1:
Sei X eine beliebige Zufallsvariable mit Verteilungsfunktion F(x). Dann gilt:
• F (x) ≥ 0
• P (a < X ≤ b) = F (b) − F (a)
• F (x) ist monoton steigend
•
lim F (x) = 0
x→−∞
• lim F (x) = 1
x→∞
• Für stetige Zufallsvariablen mit existierender Dichtefunktion gilt zusätzlich:
Rb
F (b) − F (a) = a f (x)dx
• f (x) ≥ 0
•
lim f (x) = 0, lim f (x) = 0
x→−∞
x→∞
52
10. Erwartungswert und Varianz von
Zufallsvariablen
(Bamberg/Baur, Kap. 8.1, 8.2)
10.1. Motivation
Welchen Wert nimmt eine Zufallsvariable im Mittel an?
Definition:
Sei X eine diskrete ZV mit den Werten x1 , . . . , xn und Wahrscheinlichkeitsfunktion f (xi ). Dann heißt
E(X) =
n
X
xi f (xi )
i=1
der Erwartungswert von X.
Beispiel: Augenzahl beim einmaligen Würfeln
xi
P (X = xi ) xi · f (xi )
1
1/6
1/6
2
1/6
2/6
3
1/6
3/6
4
1/6
4/6
5
1/6
5/6
6
1/6
6/6
n
P
xi f (xi ) =
i=1
53
21
6
= 3, 5 = E(X)
Definition:
Sei X eine stetige Zufallsvariable mit Dichtefunktion f (x). Dann ist der Erwartungswert definiert als
Z∞
E(X) =
xf (x)dx.
−∞
Achtung: E(X) muss nicht notwendigerweise existieren !!!
54
Beispiel:
X ∼ GV [0, 5]
Dichtefunktion
0.4
f(x)
0.3
0.2
0.1
0.0
0
2
4
6
x
Verteilungsfunktion
1.0
0.8
F(x)
0.6
0.4
0.2
0.0
0
2
4
6
x
E(X) =
R∞
−∞
xf (x)dx =
1
5
R5
0
xdx =
1
5
£1
x2
2
55
¤5
0
=
1
5
£ 25
2
¤
−0 =
25
10
= 2, 5
10.2. Eigenschaften von Erwartungswerten
Satz 10.1: (Gesetz der großen Zahlen)
Seien x1 , x2 , . . . , xn unabhängige Beobachtungen einer Zufallsvariablen X (genauer: Realisationen von n unabhängigen ZV’en, die alle die gleiche Verteilungsfunktion wie X haben). Dann gilt immer:
lim
x→∞
n
1X
n
xi = E(X)
i=1
Problem:
gegeben: Eine Zufallsvariable X mit bekanntem Erwartungswert E(X)
gesucht: E(10X), E(X 2 ), E(X/2), E(X + Y ), E(X · Y ) usw.
Satz 10.2:
Für beliebige ZV’en X1 , X2 , . . . , Xn gilt immer:
(i) E(aX + b) = aE(X) + b
(ii) E(aX1 + bX2 ) = aE(X1 ) + bE(X2 )
µ n
¶
n
P
P
(iii) E
a i Xi =
ai E(Xi )
i=1
i=1
(iv) Für unabhängige ZV’en X und Y gilt darüber hinaus:
E(X · Y ) = E(X) · E(Y ) ← im Allgemeinen falsch!!
Definition:
Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle x und y gilt:
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y).
Beispiel: X = Augenzahl beim einmaligen Würfeln
bekannt: E(X) = 3, 5
gesucht: E(X 2 ) =?
56
Vermutung: E(X 2 ) = [E(X)]2 = 3, 52 = 12, 25 FALSCH!!!
Werte xi
W’keiten f (xi )
xi · f (xi )
1
1/6
1/6
4
1/6
4/6
9
1/6
9/6
16
1/6
16/6
25
1/6
25/6
36
1/6
36/6
d.h.: E(X 2 ) = (1/6)(1 + 4 + 9 + 16 + 25 + 36) = 91/6 = 15, 16̄ > (E(X))2 =
3, 52 = 12, 25
10.3. Die Varianz von Zufallsvariablen
E[X − E(x)] = E(X) − E(X) = 0 (Satz 10.2)
Frage: Wie stark schwankt eine Zufallsvariable um ihren Erwartungswert?
Definition:
Sei X eine beliebige Zufallsvariable. Dann heißt
σx2 = V ar(X) = E[(X − E(X))2 ]
die Varianz von X, und
q
σX :=
heißt die Standardabweichung von X.
Satz 10.3:
V ar(X) = E(X 2 ) − [E(X)]2
57
2
σX
Beispiel: X = Augenzahl beim einmaligen Würfeln
bekannt: E(X) = 3, 5
gesucht: V ar(X) = E[(X − 3, 5)2 ]
Werte
W’keiten
(1 − 3, 5)2 = 6, 25
1/6
(2 − 3, 5)2 = 2, 25
1/6
(3 − 3, 5)2 = 0, 25
1/6
(4 − 3, 5)2 = 0, 25
1/6
(5 − 3, 5)2 = 2, 25
1/6
(6 − 3, 5)2 = 6, 25
1/6
E[(X − 3, 5)2 ] = 16 (6, 25 + 2, 25 + 0, 25 + 0, 25 + 2, 25 + 6, 25) = 61 · 17, 5 = 2, 916̄
alternativ:
V ar(X) = E(X 2 ) − (E(X))2 = 15, 16̄ − (3, 5)2 = 15, 16̄ − 12, 25 = 2, 916̄
Satz 10.4:
Seien X und Y beliebige ZV’en. Dann gilt immer:
(i) V ar(X) ≥ 0, V ar(Y ) ≥ 0
(ii) V ar(aX) = a2 V ar(X)
(iii) V ar(X + a) = V ar(X)
(iv) Falls X, Y unabhängig: V ar(X + Y ) = V ar(X) + V ar(Y )
(v) Allgemein: für n unabhängige ZV’en X1 , X2 , . . . Xn gilt:
V ar
à n
X
!
ai Xi
i=1
=
n
X
i=1
58
a2i V ar(Xi )
Vorsicht: V ar(X − Y ) = V ar(X) − V ar(Y ) ist FALSCH
Sondern: V ar(X − Y ) = V ar(X + (−Y )) = V ar(1 · X + (−1) · Y )
= 12 V ar(X) + (−1)2 V ar(Y ) = V ar(X) + V ar(Y )
10.4. Kovarianz und Korrelation von Zufallsvariablen
Definition:
Seien X und Y zwei Zufallsvariablen mit dem gleichen zugrundeliegenden Zufallsexperiment. Dann heißt
Cov(X, Y ) := E[(X − E(X))(Y − E(Y ))]
die Kovarianz von X und Y.
Cov(X, Y )
p
V ar(X) V ar(Y )
ρX,Y := p
heißt Korrelation von X und Y.
Nützlich für praktische Berechnung:
Satz 10.5:
Seien X und Y beliebige ZV. Dann gilt:
Cov(X, Y ) = E(XY ) − E(X) · E(Y )
Beweis:
Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] → Ausmultiplizieren und Erwartungswert bilden.
59
Beispiel: 3-maliger Münzwurf
X = Anzahl Kopf, Y = Anzahl Zahl
gesucht: Cov(X; Y ), ρXY
Ω = { (ZZZ) (KZZ) (KKZ) (ZKZ) (ZZK) (KZK) (ZKK) (KKK)}
X
0
1
2
1
1
2
2
3
Y
3
2
1
2
2
1
1
0
X ·Y
0
2
2
2
2
2
2
0
Werte von X · Y
zugehörige W’keit
0
2/8 = 1/4
2
6/8 = 3/4
E(XY ) = 0 · 1/4 + 2 · 3/4 = 6/4 = 3/2
E(X) = E(Y ) = 3/2
⇒ Cov(X, Y ) = 3/2 − (3/2 · 3/2) = −3/4
Korrelation: E(X 2 ) = 02 · 1/8 + 12 · 3/8 + 22 · 3/8 + 32 · 1/8 = 12/8 = 24/8 =
3 = E(Y 2 )
V ar(X) = E(X 2 ) − [E(X)]2 = 3 − (3/2)2 = 3/4 = V ar(Y )
ρX,Y = √
Cov(X,Y )
√
V ar(X)
V ar(Y )
√
= √ −3/4
3/4
3/4
= −1
Satz 10.6:
Seien X und Y beliebige Zufallsvariablen. Dann gilt
p
p
(i) |Cov(X, Y )| ≤ V ar(X) · V ar(Y )
(ii) Falls X, Y stochastisch unabhängig: Cov(X, Y ) = 0. Daraus folgt auch
ρXY = 0.
(iii) Allgemein:
V ar(a · X + b · Y ) = a2 V ar(X) + b2 V ar(Y ) + 2a · b · Cov(X, Y )
60
11. Ausgewählte Typen von Zufallsvariablen im
Detail
11.1. Binomialverteilte Zufallsvariable
(Bamberg/Baur, Kap. 8.4.1)
Beispiel: Betrachte 5 Börsentage lang den DAX.
Annahme: P(DAX steigt) = P(DAX fällt) = 0, 5
X:= Anzahl der Tage, an denen DAX steigt.
gesucht: Wahrscheinlichkeit, daß DAX an genau x Börsentagen steigt
= P (X = x) mit x = 0, 1, 2, 3, 4, 5
Definition:
Eine diskrete ZV heißt binomialverteilt mit Parametern n und p ⇔
X zählt die Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p.
Satz 11.1:
X ∼ Bin(n, p) =⇒ f (x) = P (X = x) =
¡ n¢
x
· px · (1 − p)n−x
Interpretation der Wahrscheinlichkeitsfunktion:
• x = Anzahl der Erfolge (mit Wahrscheinlichkeit p)
• n − x = Zahl der Mißerfolge (mit Wahrscheinlichkeit (1 − p))
¡ ¢
n!
• nx = x!(n−x)!
= Zahl der möglichen Anordnungen von Erfolgen und
Mißerfolgen
Im Beispiel: X ∼ Bin(5, 0.5) und somit:
¡¢
¡ ¢5
5!
P (X = 2) = 52 · 0, 52 · (1 − 0, 5)5−2 = 2!·3!
· 12 =
61
20
2
·
1
32
= 0, 3125 = 31, 25%
Beispiel: Februar hat 20 Börsentage.
gesucht: Wahrscheinlichkeit, daß DAX im Feb. an mehr als 8 Tagen steigt.
X ∼ Bin(20,0.5)
gesucht: P (X > 8)
Es gilt P (X > 8) = 1 − P (X ≤ 8) = 1 − F (8)
8 ¡ ¢
P
20
· 0, 5x · 0, 520−x → siehe Tabelle
=1−
x
x=0
= 1 − 0, 2517 = 0, 7483 = 74, 83%
Satz 11.2:
X ∼ Bin(n,p). Dann gilt:
(i) E(X) = n · p
(ii) V ar(X) = n · p · (1 − p)
11.2. Normalverteilte Zufallsvariable
(Bamberg/Baur, Kap. 8.6.3)
wichtigster Spezialfall einer stetigen Zufallsvariablen
Definition:
Eine stetige ZV mit Dichtefunktion
Ã
µ
¶ !
1 1
1 x−µ 2
f (x) = √
exp −
, σ>0
2
σ
2π σ
heißt normalverteilt mit Parametern µ und σ 2 ; kurz X ∼ N (µ, σ 2 ).
X heißt standardnormalverteilt, falls µ = 0 und σ 2 = 1.
62
Dichtefunktion einer standardnormalverteilten Zufallsvariable
0.4
0.3
0.2
0.1
0.0
−3
−2
−1
0
1
2
3
X
Satz 11.3: Eigenschaften der Normalverteilung:
Sei X ∼ N (µ, σ 2 ). Dann gilt:
(i) E(X) = µ
(ii) V ar(X) = σ 2
(iii) f (µ − x) = f (µ + x), d.h. die Dichte ist symmetrisch um µ
(iv) f (x) hat ein Maximum bei µ
Problem: Sei X ∼ N (5, 9). Gesucht: P (X ≤ 6) =
R6
√1 1 exp
−∞ 2π σ
Sehr schwer zu bestimmen!
Lösung des Problems:
Führe beliebige Normalverteilung auf N(0,1) zurück.
63
³
− 12
¡ x−µ ¢2 ´
σ
dx.
Satz 11.4:
X ∼ N (µ, σ 2 ) ⇒
X −µ
σ
∼ N (0, 1)
Im Beispiel:
(i) X ∼ N (5, 9) ⇒
X−5
3
∼ N (0, 1)
P (X ≤ 6) = P ( X−5
≤
3
6−5
)
3
= Φ(0, 3̄) ≈ 0, 6273 (Tabelle)
(ii) Bestimme F(x) = φ(x) für X ∼ N (0, 1) mit Hilfe numerischer Methoden
und trage die Ergebnisse in Tabellen ein.
X ∼ N (µ, σ 2 ) → Z :=
X−µ
σ
∼ N (0, 1).
Die Verteilungsfunktion der N(0,1) = Φ ist vertafelt.
Satz 11.5:
Die Summe unabhängiger normalverteilter Zufallsvariablen X1 . . . , Xn ist wieder normalverteilt:
n
X
Xi ∼ N (µ1 + . . . + µn , σ12 + . . . + σn2 ).
i=1
Satz 11.6:
Der Zentrale Grenzwertsatz
Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit endlichen und beschränkten
Varianzen. Dann nähert sich die Verteilungsfunktion von
Zn := Z1 , . . . , Zn
mit wachsendem n immer mehr der Verteilungsfunktion einer normalverteilten
Zufallsvariablen an mit Parametern
µn = E(Zn )
σn2 = V ar(Zn )
64
Anwendung: Xn ∼ Bin(n, p)
P
⇒ X = ni=1 Xi mit Xi ∼ Bin(1, p), d.h. die Binomialverteilung konvergiert
für große n und Wahrscheinlichkeiten 0 ≤ p ≤ 1 gegen die Normalverteilung:
Ã
!
Xn − np
lim P p
< z = Φ(z).
n→∞
np(1 − p)
Das nächste Schaubild illustriert diesen Sachverhalt für n=10 und p=0,4 (d.h.
X ∼ Bin(10; 0, 4)): Die Verteilungsfunktion von X liegt schon für dieses noch
recht kleine n sehr nahe an der Verteilungsfunktion einer N (4; 1, 4)-verteilten
Zufallsvariablen.
1.0
0.8
F(x)
0.6
0.4
0.2
0.0
0
2
4
6
x
65
8
10
Anwendung:
Mit welcher Geschwindigkeit gibt es an mehr als 500 von 900 Börsentagen
einen positiven DAX (d.h. einen Anstieg von einem Börsentag zum nächsten)?
Die Anzahl X der positiven unter diesen 900 Börsentagen ist eine binomialverteilte Zufallsvariable mit den Parametern n = 900 und p = 1/2, d.h.
p
√
E(X) = np = 450, V ar(X) = np(1 − p) = 225 = 15 und
P (X > 500) = 1 − P (X ≤ 500)
µ
¶
500 − 450
X − 450
≤
=1−P
15
15
= 1 − Φ(3, 33)
= 1 − 0, 9996
= 0, 0004
66
Teil III.
Induktive Statistik
12. Punktschätzungen
(Bamberg/Baur, Kap. 12.1)
12.1. Problemstellung
bisher: Gegeben eine Zufallsvariable X mit bekannter Verteilungsfunktion
F(x).
gesucht: P (X ≤ a); P (a < X ≤ b); E(X), V ar(X) usw. (= Parameter“)
”
jetzt: Gegeben n unabhängige Realisationen einer Zufallsvariablen X.
(konkret: Realisationen von X1 , . . . Xn , die alle die gleiche Verteilungsfunktion
wie X besitzen.)
Aber: Verteilungsfunktion unbekannt!!!
Problem: Rückschluss von X1 , . . . , Xn (= Stichprobe“ ) auf E(X), V ar(X),
”
P (X ≤ a) usw.
Beispiel:
X = Körpergröße eines zufällig ausgewählten Bundesbürgers > 18
Y = Rendite BMW an einem bestimmten Börsentag
Z = Lebensdauer eines VW-Golf Motors
12.2. Schätzung unbekannter Erwartungswerte
gegeben: Xi = Rendite BMW am Börsentag Nr. i (i = 1, . . . n); n Realisationen x1 , . . . , xn
67
gesucht: µ = E(Xi )
Lösung: Approximiere µ durch µ̂ = n1 (X1 + . . . + Xn )
Satz 12.1:
Seien X1 , . . . , Xn unabhängige ZV’en mit identischer Verteilungsfunktion F(x)
und E(Xi ) = µ. Dann ist
µ̂(X1 , . . . , Xn ) :=
1
(X1
n
+ . . . + Xn ) eine erwartungstreue Schätzfunktion
für µ.
Beweis:
£
¤
E n1 (X1 + . . . + Xn ) =
=
1
n
1
n
[E(X1 ) + . . . E(Xn )] =
1
n
[µ + µ + . . . + µ]
|
{z
}
n−mal
·n·µ=µ
Beispiel:
X = IQ eines zufällig ausgewählten BWL-Studenten. X ist eine Zufallsvariable.
Angenommen es gibt 100.000 BWL-Studenten mit IQ’s
x1 , . . . x100.000 ( ← die möglichen Werte von X). Dann gilt:
E(X) = x1 · P (X = x1 ) + . . . + x100.000 · P (X = x100.000 ) =
x1 ·
1
100.000
+ . . . + x100.000 ·
1
100.000
=
1
(x1
100.000
+ . . . + x100.000 ) =
arithmetisches Mittel der Grundgesamtheit =: µ
Angenommen: µ = 105
Ziehe drei Stichproben vom Umfang n = 3
Erste Stichprobe: 90, 99, 120 → x̄(1) = 103 = µ̂(1) (Schätzung, nicht wahres
arithmetisches Mittel).
Zweite Stichprobe: 107, 96, 100 → x̄(2) = 101 = µ̂(2)
Dritte Stichprobe: 110, 105, 118 → x̄(3) = 111 = µ̂(3)
Diese Schätzungen sind Zufallsvariablen und schwanken um den wahren Mit-
68
telwert herum. Im Mittel stimmen die Schätzungen µ̂ aber mit dem wahren
Mittelwert µ der Grundgesamtheit überein: E(µ̂) = µ.
12.3. Schätzung unbekannter Wahrscheinlichkeiten
Xi wie im BMW-Beispiel.
gesucht: P (Xi > 3%) = ?
P (Xi < 2%) = ?
P (0 < Xi ≤ 1%) = ? usw.
Lösung: Approximiere P durch p̂ = Stichprobenanteil
Satz 12.2:
Seien X1 , . . . , Xn unabhängige ZV’en mit identischer Verteilungsfunktion F(x)
und P (Xi ≤ a) = p ( ← unbekannt). Dann ist
p̂ =
#(Xi mit Xi ≤ a)
n
eine erwartungstreue Schätzfunktion für p.
12.4. Schätzung unbekannter Varianzen
Sei X beliebige Zufallsvariable.
σ 2 = Var(X) = E [(X − E(X))2 ]
gesucht: Schätzung für σ 2 basierend auf Stichprobe X1 , . . . , Xn
bereits in 12.2 gesehen:
σ 2 = E [(X − E(X))2 ].
1
n
n
P
(Xi − E(X))2 ist erwartungstreue Schätzung für
i=1
69
Problem: E(X) ist ebenfalls unbekannt.
1
n
Lösung: Ersetze E(X) durch Schätzung
1
n
Aber:
2
→σ =
d.h.:
1
n
n
P
(Xi − E(X))2 ≥
i=1
E[ n1
n
P
n
P
i=1
1
n
n
P
n
P
Xi = X̄
i=1
(Xi − X̄)2
i=1
2
(Xi − E(X)) ] ≥ E[ n1
n
P
(Xi − X̄)2 ]
i=1
2
(Xi − X̄) unterschätzt das wahre σ 2
i=1
Satz 12.3:
Unter den Bedingungen von Satz 12.2 ist
2
s :=
1
n−1
n
X
(Xi − X̄)2
i=1
eine erwartungstreue Schätzung für σ 2 := V ar(Xi ).
70
13. Intervallschätzungen
(=Konfidenzintervalle)
13.1. Motivation
bisher: Versuch, unbekannten Parameter punktgenau zu treffen (Punktschätzung).
jetzt: Versuch, Parameter in einem Intervall einzufangen“.
”
Linke Intervallgrenze: Vu
Rechte Intervallgrenze: Vo
Konfidenzintervall KI: [Vu , Vo ]
P ([Vu , Vo ] umfasst Parameter nicht) = Irrtumswahrscheinlichkeit α
P ([Vu , Vo ] umfasst Parameter) = Vertrauenswahrscheinlichkeit bzw. Konfidenzniveau = 1 − α
13.2. KI’e für unbekannte Erwartungswerte µ bei
normalverteilten Stichproben-Variablen mit bekannter
Varianz σ 2
Beispiel:
X = Einkommen (EUR in Tausend/Jahr) eines zufällig ausgewählten WiSoAbsolventen mit 2-jähriger Berufserfahrung.
Von Interesse: µ = E(X) = wahres, aber unbekanntes arithmetisches Mittel
der Grundgesamtheit.
Zufallsstichprobe: (x1 , x2 , x3 , x4 , x5 ) = (35, 70, 58, 63, 74)
Aus Kapitel 12 bekannt: die optimale Schätzung für µ = E(X) ist das arithmetische Mittel der Stichprobe = x̄ = 60.
71
gesucht: KI = [Vu , Vo ], so daß Wahrscheinlichkeit P ([Vu , Vo ] 3 µ) = 95%, d.h.
α = 5%.
³
Es gilt allgemein: X̄ ∼ N µ,
√
X̄ − µ
q
=
σ2
n
d.h.:
σ2
n
(Satz 11.5), d.h.
n(X̄ − µ)
√
∼ N (0, 1) (aus Satz 11.4)
σ2
µ
P
´
√
−c ≤
n(X̄ − µ)
≤c
σ
¶
= 95%,
wobei c = 97, 5 % Quantil der Standardnormalverteilung.
µ
Aber:
⇔
−cσ
√
n
√
−c ≤
¶
√
n(X̄ − µ)
≤ c ⇔ −cσ ≤ n(X̄ − µ) ≤ cσ
σ
≤ (X̄ − µ) ≤
cσ
√
n
⇔ −c √σn ≤ µ − X̄ ≤ c √σn
σ
σ
⇔ X̄ − c √ ≤ µ ≤ X̄ + c √
n
n
| {z }
| {z }
Vu
Vo
Satz 13.1:
¡
¢
Sei c das 1 − α2 - Quantil der Standardnormalverteilung. Seien die Stichprobenvariablen X1 , . . . , Xn normalverteilt mit E(X) = µ und bekannter Varianz
σ 2 . Dann ist ein KI für µ zum Konfidenzniveau 1 − α gegeben durch:
[Vu , Vo ] mit Vu = X̄ − c √σn ; Vo = X̄ + c √σn .
im Beispiel:
α = 5% → c = 1, 96 (← aus Tabelle )
x̄ = 60, σ 2 = 100 (σ = 10) sei bekannt.
⇒ Vu = 60 − 1, 96 √105 = 51, 23
⇒ Vo = 60 + 1, 96 √105 = 68, 77
72
d.h.: P ([51, 23; 68, 77] umfasst wahres Durchschnittseinkommen) = 95%.
2σc
Länge des KI’s: Vo − Vu = √
n
Das KI ist umso kürzer:
• je größer n
• je kleiner σ 2
• je größer α (denn je größer α, desto kleiner ist c)
13.3. KI’e für µ bei normalverteilten Xi und unbekanntem
σ2
Bei unbekannten σ 2 : Ersetze σ durch
Das liefert
√
n(X̄−µ)
S
√
n(X̄−µ)
,
S
√
r
s2 =
1
n−1
n
P
(Xi − X̄) =: S .
i=1
was leider nicht mehr standardnormalverteilt ist, sondern
hat eine sogenannte t-Verteilung mit n-1 Freiheitsgraden.
Faustregel: Wenn n ≥ 20: Nehme Formel wie bei bekanntem σ 2 .
Wenn n ≥ 30: Die Annahme normalverteilter Xi ist nicht mehr nötig.
13.4. KI’e für unbekannte Wahrscheinlichkeiten
(Bamberg/Baur, Kap. 13.3)
Beispiel:
p = unbekannter wahrer Wähleranteil einer Partei A = Wahrscheinlichkeit,
dass ein zufällig ausgesuchter Wähler für A stimmt.
gesucht: KI für p
73
Zufallsstichprobe: X1 , . . . , Xn mit

 1 i-te Person wählt Partei A
Xi =
 0
sonst
← Bernoulli-Variable
d.h.: E(Xi ) = P (Xi = 1) = p = wahrer unbekannter Wähleranteil,
d.h. X̄ =
#A−Wähler in Stichprobe
n
= Stichprobenanteil für A =: p̂
σ 2 = V ar(Xi ) = E(Xi2 ) − (E(Xi ))2 = p − p2 = p · (1 − p).
Schätzung: s2 = p̂(1 − p̂)
Schätzung für p: p̂ = x̄ =
1
n
(x1 + . . . + xn ) = Stichprobenanteil für Partei A
Schätzung für σ 2 :
n
1 X
S =
(Xi − X̄)2 = X̄(1 − X̄) = p̂(1 − p̂)
n − 1 i=1
2
Satz 13.2:
¡
¢
Sei c das 1 − α2 Quantil der Standardnormalverteilung, n ≥ 30; np̂ ≥ 5,
n(1 − p̂) ≥ 5. Dann ist ein KI für p zum Niveau 1 − α gegeben durch
¸
·
p̂(1 − p̂)
p̂(1 − p̂)
, p̂ + c √
.
p̂ − c √
n
n
p
c p̂(1 − p̂)
√
hängt von σ̂ =
Problem: Die Länge des Intervalls L = Vo − Vu = 2
n
p
p̂(1 − p̂) ab!
Aber: p̂(1 − p̂) ≤ 14 , d.h.: σ̂ ≤
1
2
c
, d.h.: L ≤ √ .
n
74
0.4
x(1 − x)
0.3
0.2
0.1
0.0
0.0
0.2
0.4
0.6
0.8
1.0
x
Anwendung: Wie groß muss n mindestens sein, damit L auf jeden Fall
≤ d?
d=
√c
n
⇒
√
n=
c
d
⇒n=
¡ c ¢2
d
75
14. Statistische Signifikanztests
(Bamberg/Baur, Kap. 14.1)
14.1. Problemstellung
bisher: keine Vorinformationen, Punkt- und Intervallschätzungen für unbekannte Parameter
jetzt: Es liegt bereits eine Vermutung ( Nullhypothese“ H0 ) zu einem unbe”
kannten Parameter oder sonstigen Eigenschaften von ZVen vor.
Beispiel 1:
µM = durchschnittlicher IQ aller Männer
µF = durchschnittlicher IQ aller Frauen
H 0 : µM = µF
Beispiel 2:
µ = Erwartungswert der Laufleistung eines zufällig ausgewählten VW-GolfMotors
H0 : µ ≥ 200.000 km (beispielsweise)
Beispiel 3:
θ = P(DAX fällt an einem zufällig ausgewählten Börsentag um mehr als 10%)
H0 : θ ≤
1
1000
(wichtig für value at risk“)
”
Beispiel 4:
Der IQ eines zufällig ausgewählten BWL-Studenten ist eine normalverteilte ZV
Beispiel 5:
Die ZVen X=Einkommen und Y=Religion (mit Y=1 für evangelisch und Y=0
76
sonst) sind unabhängig
u.s.w.
Vorgangsweise immer die gleiche:
• H0 formulieren
• Stichprobe ziehen
• Entscheiden aufgrund der Stichprobe, ob H0 ablehnen oder nicht
Lehne H0 ab
Lehne H0 nicht ab
H0 richtig
Fehler 1. Art
Korrekte Entscheidung
H0 falsch
Korrekte Entscheidung
Fehler 2. Art
Definition:
max(P (Fehler 1. Art)) heißt Signifikanzniveau eines Tests (= α).
Traditionelle Vorgehensweise der Statistik:
• Gebe maximale P(Fehler 1. Art) vor; üblicherweise 5%.
• Suche Entscheidungsregel, die unter dieser Restriktion die Wahrscheinlichkeit für einen Fehler 2. Art minimiert.
14.2. Testen von Hypothesen über Erwartungswerte
normalverteilter Zufallsvariablen
Beispiel aus 13.2: X = Einkommen (Euro in Tsd/Jahr) eines zufällig ausgewählten BWL-Absolventen in Deutschland (∼ N (µ, σ 2 ) )
H0 : E(X) = µ ≥ 65 =: µ0
Annahme: X ∼ N (µ, σ 2 ) mit σ 2 = 100 bekannt
77
1. Schritt: Wähle Signifikanzniveau (etwa α = 5%)
2. Schritt: Ziehe Stichprobe, etwa: 30, 70, 58, 63, 74 (n=5)
3. Schritt: Berechne sog. Prüfgröße“ (= Teststatistik“) V, von der wir die
”
”
Entscheidung abhängen lassen.
Hier:
X̄ − µ0
V = q
=
√
n(X̄ − µ0 )
σ2
n
σ
∼ N (0, 1)( falls µ = µ0 )
4. Schritt: Bestimme sogenannten Ablehnungsbereich“.
”
Hier: Lehne ab für V ≤ −1, 645 ← 5% Quantil der Standardnormalverteilung,
d.h. Ablehnungsbereich = (−∞, 1.645).
5. Schritt: Prüfe, ob V ∈ Ablehnungsbereich.
√
√
= −1, 12, d.h. H0 wird nicht abgelehnt.
V = 5 · (60−65)
100
Probleme:
(i) σ 2 unbekannt. Lösung: ersetze σ 2 durch S 2
Aber: Dann hat V keine Normalverteilung, sondern eine sogenannte tVerteilung (für n ≥ 20 irrelevant).
(ii) Die Xi sind nicht normalverteilt. Lösung: Berufung auf den zentralen
Grenzwertsatz. Ab n ≥ 30 verfahre wie gehabt.
Verteilung der Stichprobenvariablen Xi
Prüfgröße (unter H0 exakte
od. approx. Standardnormalverteilung)
√
0
V = X̄−µ
n Gausstest“
σ
”
√
0
V = X̄−µ
n
t-Test“
S
”
√
0
V = X̄−µ
n approximativer Gausstest“
S
”
normal, σ 2 bekannt
normal, σ 2 unbekannt
beliebig, n ≥ 30
Xi = 1 oder 0, µ = E(Xi ) = p,
p̂ = x̄ = Stichprobenanteil von 1“
”
np̂ ≥ 5, n(1 − p̂) ≥ 5, n ≥ 30
V =p
78
p̂ − p0
p0 (1 − p0 )
√
n
approximativer Gausstest“
”
Satz 14.1: Zusammenhang zwischen Nullhypothese und Ablehnungsbereich:
Sei cα das α- Quantil der Standardnormalverteilung. Dann sind die Ablehnungsbereiche für verschiedene Nullhypothesen zum Niveau α gegeben wie
folgt:
H0
µ = µ0
¡
Ablehnungsbereich
¢ ¡
¢
−∞, cα/2 ∪ c1−α/2 , ∞
µ ≥ µ0
(−∞, cα )
µ ≤ µ0
(c1−α , ∞)
Weitere Signifikanztests betreffen Hypothesen über:
• Varianzen
• Kovarianzen
• komplette Verteilungsfunktionen.
14.3. Der χ2 - Unabhängigkeitstest
gegeben 2 diskrete ZVen X (mit l Ausprägungen) und Y (mit k Ausprägungen).
H0 : X,Y sind unabhängig.
Beispiel:
X = Geschlecht , Y = Kaufverhalten, n = 1000 Kunden in der Stichprobe
Das Geschlecht und das Kaufverhalten der Kunden überträgt man zunächst
in eine sogenannte Kreuztabelle:
”
kaufen
nicht kaufen
Randhäufigkeiten
Männer
180
h11
170
h12
350
h1.
Frauen
240
h21
410
h22
650
h2.
420
h.1
580
h.2
1000
79
Bei Unabhängigkeit würde man erwarten: hij =
hi. · h.j
=: h̃ij
n
im Beispiel: Erwartete Kreuztabelle bei Unabhängigkeit:
Kaufen
Nicht kaufen
Männer
147
203
Frauen
273
377
³
Prüfgröße: V =
k X
l
X
i=1 j=1
=
(hij − h̃ij )2
=
h̃ij
k X
l
X
hij −
i=1 j=1
hi. ·h.j
n
´2
hi. ·h.j
n
X X (beobachtete Zellhäufigkeit - erwartete Zellhäufigkeit)2
erwartete Zellhäufigkeit
Lehne ab, falls V zu groß“.
”
Was heißt zu groß“?
”
V hat unter H0 approximativ eine sogenannte χ2 - Verteilung mit (l − 1)(k − 1)
Freiheitsgraden (falls alle h̃ij ≥ 5).
Hier: h11 = 180, h21 = 240, h12 = 170, h22 = 410
h̃11 =
350·420
1000
= 147, h̃12 =
350·580
1000
= 203,
h̃21 =
650·420
1000
= 273, h̃22 =
650·580
1000
= 377
χ2 - Approximation gerechtfertigt, da alle h̃ij ≥ 5
hij = tatsächlich beobachtete Häufigkeit in den Zellen
h̃ij = theoretische Häufigkeit in den Zellen
im Beispiel:
V =
³
´2
k X
k
hij − h̃ij
X
i=1 j=1
h̃ij
=
(180 − 147)2 (170 − 203)2 (240 − 273)2 (410 − 377)2
+
+
+
147
203
273
377
= 7, 408 + 5, 365 + 3, 989 + 2, 889 = 19, 651
Ablehnungsbereich bei einem Signifikanzniveau von α = 5%
80
³
´ ¡
¢
2
= χ(k−1)(l−1);1−α , ∞ = χ21,0.95 , ∞ = (3.841, ∞)
⇒ V ∈ Ablehnungsbereich
⇒ H0 ablehnen
Die Hypothese, daß das Kaufverhalten nicht vom Geschlecht abhängt, wird
zum Niveau α = 5% verworfen.
81
Herunterladen