Binomialverteilung - Alternative Darstellung n Versuche mit 2

Werbung
Statistik II für Wirtschaftswissenschaftler
Folie 5.1
Binomialverteilung - Alternative Darstellung
n Versuche mit 2 möglichen Ausgängen. Setze
Yj =



1 wenn Erfolg im j-ten Versuch


0 wenn kein Erfolg im j-ten Versuch
Y1, . . . , Yn sind 0-1-Zufallsgrößen (oder Bernoulli-verteilte Zufallsgrößen)
X=
n
X
Yj = Anzahl der Erfolge in n Versuchen
j=1
Versuche unabhängig und identisch
Y1, . . . , Yn u.i.v. mit
Ws(Yj = 1) = p, Ws(Yj = 0) = 1 − p
X ist B(n, p)-verteilt
Statistik II für Wirtschaftswissenschaftler
Beispiele:
i) n Personen mit Kopfschmerzen erhalten neues Medikament
Yj =



1 wirkt beim j-ten Patienten


0 wirkt nicht beim j-ten Patienten
p = Ws(Yj = 1) Wirkungswahrscheinlichkeit
p = 0, 9
X=
”wirkt in 9 von 10 Fällen”
Pn
j=1 Yj ist B(n, p)-verteilt.
n = 20, X = 15. Ist dann p = 0.9 noch glaubhaft?
Folie 5.2
Statistik II für Wirtschaftswissenschaftler
Folie 5.3
Für n = 20, p = 0.9 :
Ws(X ≤ 15)
=
15 X
20
k=0
Tabelle 1
=
k
0.9k (1 − 0.9)20−k
0, 0432 = 4, 32%
ii) n junge Kraftfahrer im 1. Jahr nach Führerscheinerwerb
Yj =



1 j-ter Fahrer unfallfrei (Erfolg)


0 j-ter Fahrer nicht unfallfrei (kein Erfolg)
p = Ws(Yj = 1) = Ws(”unfallfrei”)
Statistik II für Wirtschaftswissenschaftler
iii) Umfrage unter Unternehmern:
”Rechnen Sie 2012 mit einer besseren, gleichbleibenden oder
schlechteren Geschäftslage als 2011?”
Ende 2012 Rückfrage:
Yj =



1 j-ter Unternehmer schätzte Entwicklung richtig ein


0 j-ter Unternehmer schätzte Entwicklung falsch ein
p = Ws (”korrekte Vorhersage der Geschäftsentwicklung”)
= Ws(Yj = 1)
X=
Pn
j=1 Yj = Anzahl korrekter Einschätzungen
ist B(n, p)-verteilt.
Folie 5.4
Statistik II für Wirtschaftswissenschaftler
Folie 5.5
Spezialfall: Stichprobenziehen mit Zurücklegen
Population von N Objekten oder Personen
M davon haben bestimmtes Merkmal.
Wie groß ist der Anteil p = M
N der Objekte mit dem Merkmal?
Wähle nacheinander n Objekte, wobei bereits gewählte wieder
gewählt werden können
Stichprobe
X = Anzahl der Objekte in der Stichprobe, die das Merkmal besitzen
ist B(n, p)-verteilt:
c n Auswahlen von Objekten
n Versuche =
c Auswahl eines Objekts mit Merkmal.
”Erfolg” =
Statistik II für Wirtschaftswissenschaftler
Folie 5.6
Wahrscheinlichkeitsgewichte der
Binomialverteilung mit n = 10, p = 0.5:
k
n−k , k = 0, . . . , n
Ws(X = k) = n
k p (1 − p)
Statistik II für Wirtschaftswissenschaftler
n = 10, p = 0.1
Folie 5.7
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.5
Folie 5.8
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.1
Folie 5.9
Statistik II für Wirtschaftswissenschaftler
Folie 5.10
Modell: X ist B(n, p)-verteilt.
p =?
Schätzer für p :
X
p̂ =
n
Beispiel: Wahlumfrage
n = 2000 Personen werden nach
Wahlabsicht befragt, X = 118 wollen ihre Stimme der ABCPartei geben.
Stimmanteil p in der Gesamtwählerschaft?
Einzelversuch: Wähle Person rein zufällig aus Wählerschaft aus:
Erfolg: ABC-Wähler
Misserfolg: kein ABC-Wähler
p = Ws(Erfolg) = Wahrscheinlichkeit, dass es ABC-Wähler ist.
118
p̂ =
= 5, 8%
2000
Statistik II für Wirtschaftswissenschaftler
Folie 5.11
Konfidenzintervalle für Wahrscheinlichkeiten
Beispiel: Wahlumfrage
men.
ABC-Partei erhält p̂ = 5, 8% Stim-
Aussagekräftiger: Stimmanteil liegt ziemlich sicher im Intervall
[5,2%, 6,3%].
Konfidenzintervalle für allgemeine Verteilungsparameter
Modell: Die Daten X1, . . . , XN sind unabhängig voneinander und
besitzen dieselbe Verteilungsfunktion Ws(Xj ≤ t) = Fϑ(t)
Fϑ bekannt bis auf den reellwertigen Parameter ϑ ∈ Θ ⊆ R. ϑ =?
Beispiele: a) B(n, p), ϑ = p
b) N (µ, σ 2), ϑ = µ
Θ = [0, 1]
Θ = (−∞, ∞)
Statistik II für Wirtschaftswissenschaftler
Folie 5.12
X1, . . . , XN u.i.v. mit Ws(Xj ≤ t) = Fϑ(t)
Definition: Vorgegeben: 0 < α 1 (typisch: 0, 05, 0, 01, . . .)
Ein Konfidenzintervall zum (Sicherheits-) Niveau 1 − α (kurz:
(1−α)-Konfidenzintervall) für ϑ ist ein zufälliges Intervall [T1, T2]
mit Grenzen Ti = gi(X1, . . . , XN ), i = 1, 2, für das gilt:
Wsϑ([T1, T2] 3 ϑ) ≥ 1 − α
für alle ϑ ∈ Θ
Gleich, was der wahre Wert ϑ des Parameters ist:
der Intervallschätzer [T1, T2] überdeckt ihn mit hoher Wahrscheinlichkeit (≥ 1 − α).
Statistik II für Wirtschaftswissenschaftler
n = 10, p = 0.5
Folie 5.13
k + 0.5 − np Bessere Approximation: Ws(X ≤ k) ≈ Φ
√
npq
Statistik II für Wirtschaftswissenschaftler
n = 10, p = 0.5
Folie 5.14
Statistik II für Wirtschaftswissenschaftler
n = 30, p = 0.5
Folie 5.15
Statistik II für Wirtschaftswissenschaftler
n = 30, p = 0.5
Folie 5.16
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.5
Folie 5.17
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.5
Folie 5.18
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.1
Folie 5.19
Statistik II für Wirtschaftswissenschaftler
n = 100, p = 0.1
Folie 5.20
Statistik II für Wirtschaftswissenschaftler
n = 10, p = 0.1
Folie 5.21
Statistik II für Wirtschaftswissenschaftler
n = 10, p = 0.1
Folie 5.22
Statistik II für Wirtschaftswissenschaftler
Folie 5.23
Für α = 0, 05, (1 − α
2 )-Quantil von N (0, 1) = 1.96 ≈ 2

s
p̂ − 2
s

p̂(1 − p̂)
p̂(1 − p̂) 
, p̂ + 2
n
n
ist ein approximatives 0,95-Konfidenzintervall für den Parameter
p der Binomialverteilung.
Anwendung: Wahlprognose, Stimmanteil bei 6% d.h. p̂ = 0, 06.
Sicher über die 5%-Hürde? n = 2000
0,95 - Konfidenzintervall:
s
0, 06 ± 2
0, 06 · 0, 94
= [0, 0494 , 0, 0706]
2000
Statistik II für Wirtschaftswissenschaftler
Folie 5.24
4.8 Binomial- und Vorzeichentest
Modell: X binomialverteilt mit Parameter (n, p)
n groß, 0 p 1, so dass B(n, p) ≈ N (np, npq), q = 1 − p
Approximativer Binomialtest mit Teststatistik (q0 = 1 − p0)
X − n p0
0
X = √
n p0q0
≈ N (0, 1) wenn p = p0
Alternative
H0 verwerfen, wenn
H0 : p = p 0
p ≤ p0
H1 : p > p 0
X 0 > c1−α = (1 − α)-Quantil von N (0, 1)
H0 : p = p 0
p ≥ p0
H1 : p < p 0
X 0 < −c1−α
H0 : p = p 0
H1 : p 6= p0
|X 0| > c1− α
Hypothese
2
Statistik II für Wirtschaftswissenschaftler
Folie 5.25
Für kleine n exakter Binomialtest:
bn,p,α = α-Quantil von B(n, p) (Tabelle 1 von ”innen nach außen”)
Tabelle 1
Verteilungsfunktion Fn,p(k) = Wsn,p(X ≤ k).
Suche zu α ein k mit Fn,p(k) ≈ α
Hypothese
k ≈ bn,p,α
Alternative
H0 verwerfen, wenn
H0 : p = p 0
p ≤ p0
H1 : p > p 0
X > bn,p0,1−α
H0 : p = p 0
p ≥ p0
H1 : p < p 0
X < bn,p0,α
H0 : p = p 0
H1 : p 6= p0
X > bn,p0,1− α oder X < bn,p0, α
2
2
Statistik II für Wirtschaftswissenschaftler
Folie 5.26
Tabelle 1: Verteilungsfunktion der Binomialverteilungen für
ausgewählte Werte von (n, p)
X sei B(n, p)-verteilt. Die Tabelle enthält dann die Werte
Fn,p(k) = Ws(X ≤ k) für k = 0, . . . , n.
n=9
k
0
1
2
3
4
5
6
7
8
9
0.05
0.6302
0.9288
0.9916
0.9994
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.10
0.3874
0.7748
0.9470
0.9917
0.9991
0.9999
1.0000
1.0000
1.0000
1.0000
0.15
0.2316
0.5995
0.8591
0.9661
0.99 44
0.9994
1.0000
1.0000
1.0000
1.0000
p
0.20
0.1342
0.4362
0.7382
0.9144
0.9804
0.9969
0.9997
1.0000
1.0000
1.0000
0.25
0.0751
0.3003
0.6007
0.8343
0.9511
0.9900
0.9987
0.9999
1.0000
1.0000
0.30
0.0404
0.1960
0.4628
0.7297
0.9012
0.9747
0.9957
0.9996
1.0000
1.0000
0.35
0.0207
0.1211
0.3373
0.6089
0.8283
0.9464
0.9888
0.9986
0.9999
1.0000
Statistik II für Wirtschaftswissenschaftler
n=9
k
0
1
2
3
4
5
6
7
8
9
Folie 5.27
p
0.40
0.0101
0.0705
0.2318
0.4826
0.7334
0.9006
0.9750
0.9962
0.9997
1.0000
0.45
0.0046
0.0385
0.1495
0.3614
0.6214
0.8342
0.9502
0.9909
0.9992
1.0000
0.50
0.0020
0.0195
0.0898
0.2539
0.5000
0.7461
0.9102
0.9805
0.9980
1.0000
0.55
0.0008
0.0091
0.0498
0.1658
0.3786
0.6386
0.8505
0.9615
0.9954
1.0000
0.60
0.0003
0.0038
0.0250
0.0994
0.2666
0.5174
0.7682
0.9295
0.9899
1.0000
0.65
0.0001
0.0014
0.0112
0.0536
0.1717
0.3911
0.6627
0.8789
0.0793
1.0000
α = 0, 05, n = 9, p = 0, 5:
Fn,p(1) = 0, 0195 ≈ 0, 05
bn,p,α ≈ 1
oder: Ersetze α durch α̃ = 0, 0195
bn,p,α̃ = 1
Statistik II für Wirtschaftswissenschaftler
n=9
k
0
1
2
3
4
5
6
7
8
9
Folie 5.28
p
0.70
0.0000
0.0004
0.0043
0.0253
0.0988
0.2703
0.5372
0.8040
0.9596
1.0000
0.75
0.0000
0.0001
0.0013
0.0100
0.0489
0.1657
0.3993
0.6997
0.9249
1.0000
0.80
0.0000
0.0000
0.0003
0.0031
0.0196
0.0856
0.2618
0.5638
0.8658
1.0000
0.85
0.0000
0.0000
0.0000
0.0006
0.0056
0.0339
0.1409
0.4005
0.7684
1.0000
0.90
0.0000
0.0000
0.0000
0.0001
0.0009
0.0083
0.0530
0.2252
0.6126
1.0000
0.95
0.0000
0.0000
0.0000
0.0000
0.0000
0.0006
0.0084
0.0712
0.3698
1.0000
α = 0, 95, n = 9, p = 0, 7:
Fn,p(8) = 0, 9596 ≈ 0, 95
bn,p,α ≈ 8
oder: Ersetze α durch α̃ = 0, 9596
bn,p,α̃ = 8
Statistik II für Wirtschaftswissenschaftler
Folie 5.29
Anwendung des Binomialtests: Vorzeichentest
Neues Rezept für Tomatensuppe aus der Dose
8 Geschmackstester bewerten blind altes und neues Rezept (mit
0-10 Punkten)
Tester
A
B
C
D
E
F
G
H
Bewertung
alt
neu
6
8
4
9
5
4
8
7
3
9
6
9
7
7
5
9
Differenz
alt−neu
−2
−5
1
1
−6
−3
0
−4
Vorzeichen
−
−
+
+
−
−
0
−
Vereinfachung: Entferne Teilexperimente mit Vorzeichen 0 (Bindungen) aus der Stichprobe.
Statistik II für Wirtschaftswissenschaftler
Folie 5.30
Alternative H1 : neu besser als alt
Hypothese H0 : neu nicht besser als alt,
d.h. Ws(+) ≥ 0.5
Modell + = Erfolg, n unabhängige, identische Versuche
n = Stichprobenumfang (nach Entfernen von Vorzeichen 0)
X = Anzahl der positiven Vorzeichen + ist B(n, p)-verteilt.
1
Hypothese: H0 : p = Ws(+) ≥ p0 = 2
1
Alternative: H1 : p = Ws(+) < p0 = 2
Beobachtet
X = 2, n = 7
Tabelle: b7,0.5,0.0625 = 1
X≥1
akzeptiere H0 auf Niveau 6,25%
Statistik II für Wirtschaftswissenschaftler
Folie 5.31
Vergleich zweier Wahrscheinlichkeiten/Anteile (Skript S. 92)
Zwei Populationen, deren Mitglieder ein bestimmtes Merkmal haben können. Sind die beiden Anteile an Merkmalsinhabern gleich?
Beispiel: ABC-Wähler unter den männlichen bzw. unter den weiblichen Wahlberechtigten
Modell: X, Z unabhängig und jeweils binomialverteilt mit Parameter (n, p1) bzw. (m, p2)
Schätzer für p1, p2:
p̂1 =
X
,
n
p̂2 =
Hilfsgröße: p̂ =
Z
m
X +Z
n+m
Statistik II für Wirtschaftswissenschaftler
Folie 5.32
X
Z
X +Z
,
p̂2 = ,
p̂ =
n
m
n+m
Unter der Hypothese H0 : p1 = p2 = p schätzen p̂1, p̂2, p̂ alle den
gemeinsamen Anteil p der Merkmalsinhaber in beiden Populationen.
p̂1 =
n, m groß, 0 p1, p2 1, so dass B(n, p1), B(m, p2) mit der Normalverteilung approximiert werden können. Dann:
Zweistichproben-Binomialtest mit Teststatistik (q̂ = 1 − p̂)
pˆ − p̂2
∆ = q1
n+m
n m p̂q̂
Intuition: p̂1 ≈ p̂2
≈ N (0, 1) wenn p1 = p2
∆≈0
H0 annehmen
Statistik II für Wirtschaftswissenschaftler
Folie 5.33
Hypothese
Alternative
H0 verwerfen, wenn
H 0 : p1 = p2
p1 ≤ p2
H1 : p 1 > p 2
∆ > c1−α = (1 − α)-Quantil von N (0, 1)
H 0 : p1 = p2
p1 ≥ p2
H1 : p 1 < p 2
∆ < −c1−α
H 0 : p1 = p2
H1 : p1 6= p2
|∆| > c1− α
2
Beispiel:
Haben Angestellte und Angehörige der Geschäftsleitung unterschiedliche Einstellungen zu ethischem Verhalten im Geschäftsleben?
Frage in einer Studie:
Die Angst, erwischt zu werden und den Arbeitsplatz zu verlieren,
hat einen großen Einfluss auf ethisches Verhalten im Beruf - Ja
oder Nein?
Statistik II für Wirtschaftswissenschaftler
Folie 5.34
Die Angst, erwischt zu werden und den Arbeitsplatz zu verlieren,
hat einen großen Einfluss auf ethisches Verhalten im Beruf - Ja
oder Nein?
Angestellte (n=755): 57 % Ja
Geschäftsleitung (m=616): 50 % Ja
Schätzer p̂1 = 0, 57 > p̂2 = 0, 50
signifikant oder zufällig?
Beobachtungen X = np̂1 ≈ 430 (gerundet),
Z = mp̂2 = 308
p̂ = 430+308
755+616 = 0, 538
Teststatistik: ∆ = q
0, 57 − 0, 50
755+616
755·616 0, 538 · 0, 462
∆ > 2, 326 = 99%-Quantil von N (0, 1)
werfen auf Niveau 1%
= 2, 586 > 2, 326
H0 : p1 ≤ p2 ver-
Statistik II für Wirtschaftswissenschaftler
Folie 5.35
Hypergeometrische Verteilung
Für n, M ≤ N heißt Zufallsgröße mit Werten in X = {0, 1, . . . ,min(n, M )}
hypergeometrisch verteilt mit Parameter (n, M, N ), wenn
M N −M
k
n−k
Ws(X = k) =
,
N
n
k = 0, . . . , min(n, M ).
Kurzschreibweise: X ist H(n, M, N )-verteilt
W3
Ws(X ≤ k) =
k
X
j=0
Ws(X = j) = 1 − Ws(X > k)
Statistik II für Wirtschaftswissenschaftler
Folie 5.36
Modellbildung: Stichprobenziehen ohne Zurücklegen
Population von N Objekten oder Personen
M davon haben bestimmtes Merkmal
i) Wie groß ist M ? (defekte Produkte in Qualitätssicherung, N
bekannt)
ii) Wie groß ist N ? (Populationsgröße im Wildlife-Management,
M bekannt)
Untersuche nacheinander n Objekte; jedes kann nur einmal
gewählt werden
Stichprobe ohne Wiederholungen
X = Anzahl der Objekte in der Stichprobe, die das Merkmal besitzen
ist H(n, M, N )-verteilt.
Statistik II für Wirtschaftswissenschaftler
Folie 5.37
Anwendungsfeld: Qualitätskontrolle
Endkontrolle: Aus Tagesproduktion von N Geräten wird eine
Stichprobe von n Stück gezogen und genau untersucht.
Abnahmekontrolle: Aus Lieferung (”Los”) von N Geräten wird
Stichprobe vom Umfang n genau untersucht.
Anzahl der unzulänglichen Geräte in der Lieferung = M =?
Anzahl der unzulänglichen Geräte in der Stichprobe = X
X ist H(n, M, N )-verteilt. Intuition für Schätzer:
X
M
≈
n
N
M̂ =
N
X
n
schätzt M
Statistik II für Wirtschaftswissenschaftler
Operationscharakteristik = Annahmewahrscheinlichkeit für
n = 30 und n = 60, M = 0, 05N (+) bzw. M = 0, 01N (*)
Folie 5.38
Statistik II für Wirtschaftswissenschaftler
Folie 5.39
Approximation hypergeometrische durch Binomialverteilung
M und N − M n
(Stichprobe klein im Vergleich zu beiden Teilpopulationen)
Dann:
H(n, M, N ) ≈ B(n, M
N)
d.h. für H(n, M, N )-verteilte zufällige Anzahl X gilt:
Ws(X = k) ≈
n
k
pk (1 − p)n−k
mit p =
M
.
N
Man kann X dann auch gleich als binomialverteilte Zufallsgröße
modellieren.
Statistik II für Wirtschaftswissenschaftler
Folie 5.40
Statistik II für Wirtschaftswissenschaftler
Folie 5.41
Statistik II für Wirtschaftswissenschaftler
Folie 5.42
Statistik II für Wirtschaftswissenschaftler
Anwendungsfeld: Meinungsumfragen
Aus Gesamtpopulation (Bevölkerung der BRD, Kunden des
ABC-Baumarktes, Anhänger des 1.FCK, ...) der Größe N wird
Stichprobe aus n verschiedenen Personen zufällig ausgewählt.
N muss nicht bekannt sein.
Ihnen wird eine Frage gestellt, die mit Ja oder Nein beantwortet
werden kann.
p = Anteil der Gesamtpopulation, der mit Ja antworten würde.
Annahme:
N p, N (1 − p) n.
X = Anzahl der Befragten, die mit Ja antworten,
ist eigentlich hypergeometrisch, praktisch aber binomial verteilt
mit Parameter n und p.
Folie 5.43
Statistik II für Wirtschaftswissenschaftler
Folie 5.44
Beispiel: Der (einzige) Parkplatz neben einem innerstädtischen
Supermarkt soll in einen Park umgewandelt werden. Um die Auswirkungen abzuschätzen, werden eine Woche lang in mehreren,
über den Tag verteilten 10 min-Intervallen Kunden an der Kasse
befragt, ob sie mit dem Wagem da sind oder nicht.
N
M
N −M



Anzahl aller Kunden
n
Anzahl der Kunden, die mit Pkw anfahren

Anzahl der Kunden, die nicht mit Pkw anfahren 
n = 536
X = 178 ist ≈ B(536, p)-verteilt
p=
M
X
≈
= 0, 332 = p̂ (schätzt p)
N
n
Statistik II für Wirtschaftswissenschaftler
Fallstudie: Wahlverhalten
Stimmanteil der ABC-Partei bei der letzten Wahl:
p0 = 0, 1 = 10%
Nach einem Jahr Umfrage unter n = 500 Wahlberechtigten
nur X = 42 (8,4 %) für ABC.
Zufall oder Hinweis auf sinkende Popularität?
a) Umfrage ohne Wiederholungen
X ist exakt H(n, M, N )-verteilt
mit M = Anzahl der Wahlberechtigten für ABC
N = Anzahl aller Wahlberechtigten
Folie 5.45
Statistik II für Wirtschaftswissenschaftler
b) n M, N − M
X kann näherungsweise als B(n, p)-verteilt
betrachtet werden mit
M
= prozentualer Anteil der Wahlberechtigten für ABC
p=
N
Präzisierung der Frage:
Ist X = 42 noch verträglich mit der Annahme, dass sich der
Anteil der Anhänger von ABC nicht verringert hat?
Angenommen, p = p0. Wie groß ist die Wahrscheinlichkeit für
höchstens 42 ABC-Wähler in der Stichprobe?
Folie 5.46
Statistik II für Wirtschaftswissenschaftler
Folie 5.47
Wie groß ist die Wahrscheinlichkeit für X ≤ 42, wenn immer noch
p = p0 = 0.1?
n groß
X ≈ N (np, npq)-verteilt, q = 1 − p
!
42 − np0
Wsp0 (X ≤ 42) ≈ Φ √
= Φ(−1, 19)
np0q0
= 1 − Φ(1, 19) = 1 − 0, 883 = 0, 117
Ereignisse mit einer Wahrscheinlichkeit von 11, 7% erscheinen
durchaus noch im Rahmen des Möglichen. Man kann aus der
Umfrage nicht folgern, dass sich der Wähleranteil verringert hat.
Binomialtest (α = 0, 05):
Teststatistik:
> −1, 645 = −c1−α
H0 : p = p0 gegen H1 : p < p0
X − n p0
0
X = √
= −1, 19
n p0q0
H0 annehmen.
Statistik II für Wirtschaftswissenschaftler
Frage mit mehreren möglichen Antworten, z.B.
”Welcher Partei würden Sie Ihre Stimme geben, wenn am nächsten
Sonntag Landtagswahl wäre?”
Antworte: SPD, CDU, FDP, Grüne, ...
”Welche Automarke würden Sie bei der nächsten Neuanschaffung
vorziehen, wenn der Kaufpreis keine Rolle spielt?”
Antworte: BMW, Daimler, Audi, VW, Volvo, ...
Allgemein: m mögliche Antworten A1, A2, . . . , Am
n Personen werden gefragt
Xi = Anzahl der Personen, die Ai antworten, i = 1, . . . , m.
i fest. Erfolg = Antwort Ai, Misserfolg = Antwort Aj , j 6= i,
Folie 5.48
Statistik II für Wirtschaftswissenschaftler
Folie 5.49
Jedes Xi ist für sich allein genommen B(n, pi)-verteilt
pi = Ws(Antwort einer Person ist Ai)
= Anteil der Gesamtpopulation, die der Meinung Ai ist.
Aber: X1 + . . . + Xm = n
Abhängigkeit der X1, . . . , Xm
2.3 Laplace-verteilte Zufallsgrößen, rein zufällige Auswahl
Rein zufällige Auswahl eines Objektes oder einer Person:
i) jedes hat diesselbe Chance, gewählt zu werden;
ii) bei Auswahl mehrerer Personen/Objekte hat auch
jede Reihenfolge dieselbe Chance
Laplace-Mechanismus
Statistik II für Wirtschaftswissenschaftler
A = {a1, . . . , am} endliche Menge
Zufallsgröße X mit Werten in X = A heißt Laplace-verteilt in
A, wenn
1
für alle i = 1, . . . , m
Ws(X = ai) =
m
B = {ai1 , . . . , aik } ⊆ A
Laplace-Wahrscheinlichkeit:
Ws(X ∈ B) =
=
Anzahl der Elemente in B
k
=
Anzahl der Elemente von A
m
Anzahl der ”günstigen” Fälle (mit X ∈ B)
Anzahl aller möglichen Fälle
Wiederholte Auswahl:
1
Ws(X1 = ai1 , . . . , XN = aiN ) = N
m
Folie 5.50
Statistik II für Wirtschaftswissenschaftler
Folie 5.51
2.4 Allgemeine diskrete Verteilungen
Zufallsgröße X mit nur endlich vielen möglichen Werten a1, . . . , am
Ws(X = ai), i = 1, . . . , m, reichen zur Berechnung von Ws(X ∈ B)
Allgemeiner: X nimmt Werte in abzählbarem Wertebereich
X = {x1, x2, . . .} an. Vorgegeben:
Wahrscheinlichkeitsgewichte p(xj ) ≥ 0
mit
P∞
j=1 p(xj ) = 1
Definiere Ws(X = xj ) = p(xj )
j = 1, 2, . . .
Rechenregel W 3
Ws(X ∈ B) =
X
j mit xj ∈B
p(xj ).
j = 1, 2, . . .
Statistik II für Wirtschaftswissenschaftler
Ws(X ∈ B) =
Folie 5.52
X
p(xj ).
j mit xj ∈B
Summe der Wahrscheinlichkeitsgewichte aller möglichen Werte
xj von X, die in B liegen.
Beispiele:
i) Zu n ≥ 1, 0 < p < 1, X = {0, . . . , n} definiere Wahrscheinlichkeitsgewichte
n
p(k) =
pk (1 − p)n−k , k = 0, . . . , n
k
und Ws(X = k) = p(k), k = 0, . . . , n,
X ist B(n, p)-verteilt.
Statistik II für Wirtschaftswissenschaftler
Folie 5.53
Ws(X ≤ 3) = Ws(X ∈ {0, 1, 2, 3})
|
=
=
X
Ws(X gerade ) =
}
p(k)
k∈B
3 X
n
k=0
{z
B
k
pk (1 − p)n−k
n
X
n
k=0
k
pk (1 − p)n−k
k gerade
Ws(X > 3) =
n X
n
k=4
k
pk (1 − p)n−k
= 1 − Ws(X ≤ 3)
Statistik II für Wirtschaftswissenschaftler
Folie 5.54
ii) Welcher Farbton einer Verpackung kommt bei Kunden gut an?
MUSTER
MUSTER
MUSTER
MUSTER
MUSTER
Frage an zufällig vorbeikommenden Kunden: Welche Verpackung
gefällt Ihnen am besten?
Antwort X ∈ X = {rot, blau, schwarz, magentarot, cyanblau}
Ws-gewichte: p(f ) ≥ 0, f ∈ X
mit p(r) + p(b) + p(s) + p(m) + p(c) = 1
Ereignis: Entscheidung für bunt, d.h. X ∈ B = {r, b, m, c}
Ws(X bunt) = p(r) + p(b) + p(m) + p(c) = 1 − p(s)
Statistik II für Wirtschaftswissenschaftler
Folie 5.55
ii’) n unabhängige Kundenbefragungen
Zf = Anzahl der Kunden, die sich für Farbe f entscheiden,
f ∈ X = {r, b, s, m, c}
Zr + Zb + Zs + Zm + Zc = n
vektorwertige Zufallsgröße
Z = (Zr , Zb, Zs, Zm, Zc)
von Anzahlen mit Wertebereich
Z = {0, 1, . . . , n}5
z.B. für n = 100:
Z = (35, 18, 26, 14, 7) oder Z = (24, 9, 17, 25, 25), ...
Statistik II für Wirtschaftswissenschaftler
Folie 5.56
Allgemein:
n ≥ 1, d ≥ 2, 0 < p1, p2, . . . , pd < 1 mit p1 + . . . + pd = 1.
Eine Zufallsgröße Z = (Z1, . . . , Zd) mit Werten in Z = {0, . . . , n}d
heißt multinomial verteilt mit Parameter (n, p1, . . . , pd), wenn
Ws(Z = (k1, . . . , kd)) = Ws(Z1 = k1, . . . , Zd = kd)
=
n
p 1 k 1 · . . . · pd k d
k1 . . . k d
für k1, . . . , kd ≥ 0 mit k1 + . . . + kd = n.
n
n!
=
k1 . . . k d
k1 ! · . . . · kd !
Multinomialkoeffizient
Schreibweise: X ist M(n, p1, . . . , pd)-verteilt
Statistik II für Wirtschaftswissenschaftler
Spezialfall: d = 2, X = Z1
Folie 5.57
Z2 = n − X,
p 2 = 1 − p1
(Z1, Z2) M(n, p1, 1 − p1)-verteilt ←→ X = Z1 B(n, p1)-verteilt
Modellbildung:
n unabhängige, gleichartige Versuche mit d möglichen Ausgängen
oder Ergebnissen: E1, . . . , Ed
pi = Ws(Einzelversuch hat Ergebnis Ei), i = 1, . . . , d
Zi = Anzahl der Versuche mit Ergebnis Ei, i = 1, . . . , d
Z = (Z1, . . . , Zd) ist M(n, p1, . . . , pd)-verteilt.
Jedes einzelne Zi ist B(n, pi)-verteilt, aber Z1, . . . , Zd abhängig!
Statistik II für Wirtschaftswissenschaftler
Folie 5.58
Der Chi-Quadrat-Anpassungstest (Goodness-of-Fit)
Binomialexperiment:
Experimente/Fragen mit zwei möglichen Ergebnissen
Multinomialexperiment:
Experimente/Fragen mit d ≥ 2 möglichen Ergebnissen
n Daten, die in jeweils eine von d Klassen fallen
Klassen
Klassennr.
Anzahl Daten in der Klasse
Immer: Z1 + Z2 + . . . Z d = n
A1
1
Z1
A2
2
Z2
...
...
...
Ad
d
Zd
Statistik II für Wirtschaftswissenschaftler
Anzeige- oder Indikatorvariable:
Yj = k, wenn j-tes Objekt zu Klasse k gehört, j = 1, . . . , n
Zk = Anzahl der j mit Yj = k
= Anzahl der Objekte, die zu Klasse k gehören
Modell:
Zu welcher Klasse ein Objekt gehört, wird auf unabhängige,
identische Weise bestimmt, d.h.
Y1, . . . , Yn sind u.i.v. mit Werten in {1, . . . , d}
Ws(Yj = k) = Ws(Objekt in Klasse Nr. k) = pk , k = 1, . . . , d
p1 + . . . + pd = 1
Folie 5.59
Statistik II für Wirtschaftswissenschaftler
0 bekannt und fest
1. Entscheidungsproblem: p0
,
.
.
.
,
p
1
d
Gilt
H 0 : p k = p0
k für alle k = 1, . . . , d,
oder H1 : p` 6= p0
` für wenigstens ein `?
Beispiel: Zusammensetzung (nach Berufsgruppen) der Kunden
wie in der Gesamtbevölkerung?
A1 = Freiberufler
A2 = selbständige Handwerker
A3 = mittlere Angestellte ohne Leitungsfunktion
...
...
p0
k = Anteil der Berufsgruppe Ak an der Gesamtbevölkerung
pk = Anteil der Berufsgruppe Ak am Kundenkreis
Folie 5.60
Statistik II für Wirtschaftswissenschaftler
Folie 5.61
Daten: Befrage n Kunden
Z2 = Anzahl der selbständigen Handwerker unter den Befragten,
...
Beispiel: Investition (Personal, Modernisierung) in Verkaufsgebiet mit d = 5 Filialen.
Gießkannenprinzip oder gezielte Förderung ”gutgehender” Verkaufsstellen?
Gibt es überhaupt Unterschiede?
Klassen (Filialen)
Zk = Zahl der Kunden an Testtagen
Z1 + . . . + Z5 = n = 620
A1
123
A2
96
A3
164
A4
131
A5
106
Statistik II für Wirtschaftswissenschaftler
Folie 5.62
Hypothese H0 :
0 , , k = 1, . . . , 5
keine Unterschiede, d.h. pk = 1
=
p
k
5
Alternative H1 :
0 für wenigstens ein k
pk 6= 1
=
p
k
5
pk ≈ Znk
Wahrscheinlichkeit ≈ relative Häufigkeit
Zk
0
n ≈ pk für alle k = 1, . . . , d
2
quadratische Abstände Zk − np0
≈0
k
Wenn H0 gilt:
Teststatistik: D = D(Z1, . . . , Zd) =
d
X
k=1
=
d
X
k=1
2
0
Zk − npk
np0
k
beobachtet − erwartet in Klasse k
erwartet in Klasse k
2
Statistik II für Wirtschaftswissenschaftler
Folie 5.63
Faustregel: Wenn np0
k ≥ 1 für alle k = 1, . . . , d
und np0
k ≥ 5 für ≥ 80% der k = 1, . . . , d
D=
d
X
k=1
2
0
Zk − npk
ungefähr χ2
-verteilt, wenn H0 gilt.
d−1
0
npk
Chi-Quadrat-Anpassungstest zum Niveau α
0
Gegeben feste Klassenwahrscheinlichkeiten p0
1 , . . . , pd
Hypothese
Alternative
H0 verwerfen, wenn
p k = p0
k,
für alle k
p` 6= p0
`
D > χ2
d−1,1−α =
(1 − α)-Quantil von χ2
d−1
für wenigstens ein `
Statistik II für Wirtschaftswissenschaftler
Folie 5.64
Beispiel (Forts.): d = 5, n = 620
1
, k = 1, . . . , 5
5
erwartete Anzahl in Klasse Ak (unter H0) : n · 1
5 = 124
H0 : p k =
D=
5
X
(Zk − 124)2
k=1
124
= 22, 242
Annahmen der Faustregel hier völlig unproblematisch.
Wähle Niveau α = 5%.
Aus Tabelle: 0.95-Quantil von χ2
4 : 9, 488
Da D > 9, 488: verwirf H0 auf dem 5%-Niveau!
Diese Entscheidung ist ziemlich sicher richtig; wir irren uns dabei
mit einer Wahrscheinlichkeit von höchstens 5%.
Statistik II für Wirtschaftswissenschaftler
Folie 5.65
Faustregel verletzt?
fasse zu kleine Klassen (mit np0
k 5)
zu einer größeren Klasse zusammen!
So wenig wie nötig, denn:
viele Klassen
Ws(Fehler 2. Art) klein
Beispiel: d = 12 Sektmarken A1, . . . , A12 im Supermarkt, bisherige Marktanteile p0
k (bekannt aus Langzeitbeobachtung der
Verkaufszahlen)
Sekt Nr.
1
2
3
4
5
6
7
8
9
10
11
Anteil p0
k
25
20
16
13
9
6
3
3
2
1
1
12
1
%
Werbeaktion für Sekt Nr. 3 und 7. Ändert sich dadurch etwas?
Statistik II für Wirtschaftswissenschaftler
Folie 5.66
Daten: Kaufentscheidung von n = 120 Kunden an 3 Tagen
Zk = Zahl der Käufer von Sekt. Nr. k
Sekt Nr.
Zk
np0k
1
32
30
2
19
24
3
26
19,2
4
11
15,6
5
6
10,8
6
10
7,2
7
8
3,6
8
1
3,6
Da nur ≤ 2 Klassen mit np0
k < 5 auftreten sollen
9-12 zu einer neuen Klasse zusammen.
9
5
2,4
10
0
1,2
11
0
1,2
fasse Klassen
Sekt Nr.
1
2
3
4
5
6
7
8
9 - 12
Zk∗
32
19
26
11
6
10
8
1
7
np0∗
k
30
24
19,2
15,6
10,8
7,2
3,6
3,6
6
Zk∗ = Zk , k = 1, . . . , 8,
p0∗
k = pk ,
k = 1, . . . , 8,
Z9∗ = Z9 + . . . + Z12
0 + . . . + p0
p0∗
=
p
9
9
12
12
2
1,2
Statistik II für Wirtschaftswissenschaftler
Folie 5.67
D = D(Z1∗ , . . . , Z9∗ ) = 12, 47
α = 0, 05
0.95-Quantil: 15, 59 (Tabelle der Quantile von χ2
8)
Da D ≤ 15, 59
akzeptiere H0!
Die Daten reichen nicht aus, um mit einiger Sicherheit auf den
Effekt der Werbeaktion schließen zu können, obwohl der beobachtete Umsatz der beworbenen Marken in der Stichprobe höher
als erwartet ist.
Sekt Nr.
1
2
3
4
5
6
7
8
9 - 12
Zk∗
32
19
26
11
6
10
8
1
7
np0∗
k
30
24
19,2
15,6
10,8
7,2
3,6
3,6
6
Statistik II für Wirtschaftswissenschaftler
Poissonverteilung
Eine Zufallsgröße X mit Werten in {0, 1, 2, . . .} heißt Poissonverteilt mit Parameter λ > 0, wenn die Wahrscheinlichkeitsgewichte die Form haben:
λk −λ
p(k) = Ws(X = k) =
e , k = 0, 1, 2, . . .
k!
Kurzschreibweise: X ist P(λ)-verteilt
Beispiele für Daten, die als Poisson-verteilte Zufallsgrößen modelliert werden können:
•
Anzahl der Kunden, die zwischen 10 und 11 Uhr einen Bankschalter benutzen,
•
Anzahl der Telefonanrufe, die einen Netzknoten zwischen 15
und 17 Uhr passieren,
Folie 5.68
Statistik II für Wirtschaftswissenschaftler
•
Anzahl der Versicherungsfälle, die einer Brandversicherung
innerhalb eines Monats gemeldet werden,
•
Anzahl von Atomen eines radioaktiven Präparats, die innerhalb eines Jahres zerfallen.
Modellbildung I:
Gleichartige Ereignisse treten in unregelmäßiger Abfolge ein;
die Wartezeiten zwischen aufeinander folgenden Ereignissen sind
unabhängig.
X = Anzahl der Ereignisse in festem Zeitintervall
ist P(λ)-verteilt.
λ = mittlere Anzahl von Ereignissen pro Zeitintervall,
abhängig von Intervalllänge und Ereignisdichte.
Folie 5.69
Statistik II für Wirtschaftswissenschaftler
Modellbildung II:
Kleine (punktförmige) Objekte sind zufällig über eine große Fläche
oder ein großes Volumen verteilt.
X = Anzahl der Objekte in fester Teilfläche oder -volumen
ist P(λ)-verteilt.
λ = mittlere Anzahl von Objekten pro Teilfläche bzw. -volumen
abhängig von Fläche bzw. Volumen und räumlicher Objektdichte.
•
Anzahl von Verunreinigungen in Kristall
•
Anzahl von Rosinen in Rosinenbrötchen
•
Anzahl von Bäumen einer Art auf 10 km2 Urwald
•
Anzahl von Bakterien auf 10 cm2 einer Petrischale
•
Anzahl von Fasern in 1 dm3 Faserverbundwerkstoff
Folie 5.70
Statistik II für Wirtschaftswissenschaftler
Folie 5.71
Verteilungsfunktion der Poisson-Verteilung:
`
X
λk −λ
e
Fλ(`) = Ws(X ≤ `) =
k!
k=0
Tabelle 2:
λ
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
0
0.3679
0.3329
0.3012
0.2725
0.2466
0.2231
0.2019
0.1827
0.1653
0.1496
0.1353
1
0.7358
0.6990
0.6626
0.6268
0.5918
0.5578
0.5249
0.4932
0.4628
0.4337
0.4060
2
0.9197
0.9004
0.8795
0.8571
0.8335
0.8088
0.7834
0.7572
0.7306
0.7037
0.6767
3
0.9810
0.9743
0.9662
0.9569
0.9463
0.9344
0.9212
0.9068
0.8913
0.8747
0.8571
`
4
0.9963
0.9946
0.9923
0.9893
0.9857
0.9814
0.9763
0.9704
0.9636
0.9559
0.9473
5
0.9994
0.9990
0.9985
0.9978
0.9968
0.9955
0.9940
0.9920
0.9896
0.9868
0.9834
6
0.9999
0.9999
0.9997
0.9996
0.9994
0.9991
0.9987
0.9981
0.9974
0.9966
0.9955
7
1
1
1
0.9999
0.9999
0.9998
0.9997
0.9996
0.9994
0.9992
0.9989
8
1
1
1
1
1
1
1
0.9999
0.0000
0.9998
0.9998
Statistik II für Wirtschaftswissenschaftler
Folie 5.72
”Gesetz der kleinen Zahlen”:
Unabhängige, identische Experimente mit 2 Ergebnissen (Binomialexperiment), Erfolg sehr selten
n = Anzahl Experimente groß, p = Erfolgswahrscheinlichkeit ≈ 0
X = Anzahl der Erfolge klein.
Exakt: X ist B(n, p)-verteilt
Näherung: X ist P(λ)-verteilt mit
λ = np
brauchbar für n ≥ 20, p ≤ 0, 05
gut für n ≥ 100, np ≤ 10
Man kann X dann auch gleich als poissonverteilte Zufallsgröße
modellieren: B(n, p) ≈ P(np), wenn n groß, p ≈ 0.
Statistik II für Wirtschaftswissenschaftler
Folie 5.73
Statistik II für Wirtschaftswissenschaftler
Folie 5.74
Statistik II für Wirtschaftswissenschaftler
Folie 5.75
Schätzer für Poisson-Parameter λ
X1, . . . , XN u.i.v. P(λ)-verteilt
schätze λ durch
N
1 X
XN =
Xj
N j=1
Anwendung - exemplarisch für
Unfall- oder Brandversicherungen
Ladislaus von Bortkiewicz (1868-1931):
Anzahl der jährlichen Todesfälle durch Pferdetritt in der preußischen Kavallerie pro Regiment (1875-1894, 14 Regimenter)
N = 14 · 20 = 280 Regimentsjahre
X1, . . . , XN Anzahl Todesfälle in den N Regimentsjahren
Statistik II für Wirtschaftswissenschaftler
Folie 5.76
X1, . . . , XN Anzahl Todesfälle in den N = 280 Regimentsjahren
Zk = Anzahl Regimentsjahre mit k Todesfällen, k = 0, 1, 2, . . ..
k
0
1
2
3
4
≥5
Zk
144
91
32
11
2
0
Schätzer für λ
4
X
1 280
1 X
Xj =
k · Zk = 0, 7
λ̂ = X N =
280 j=1
280 k=0
Vergleich der beobachteten Häufigkeiten mit den Poissonwahrscheinlichkeiten (λ̂ = 0,7) ergibt gute Modellanpassung an Daten:
Nk
λ̂k −λ̂
≈ p̂(k) =
e ,
N
k!
k = 0, . . . , 4
Statistik II für Wirtschaftswissenschaftler
Folie 5.77
Statistik II für Wirtschaftswissenschaftler
Rutherford/Geiger (1910): Radioaktiver Zerfall von Polonium (Anzahl Zerfälle in 7,5 sec-Intervallen), N = 2608, λ̂ = 3, 872
Folie 5.78
Statistik II für Wirtschaftswissenschaftler
Folie 5.79
Chi-Quadrat-Test II: Test von Verteilungsmodellen
k
0
1
2
3
4
≥5
Zk
144
91
32
11
2
0
np̂(k)
139,0
97,3
34,1
7,9
1,4
0,2
Todesfälle durch Pferdetritt (d = 6 Klassen, n = 280), λ̂ = 0.7.
Wenn Xj P(λ)-verteilt, dann ist Z = (Z1, . . . , Z6) multinomial
verteilt mit Parameter (n, p(0), . . . , p(5)).
p(k) unbekannt
c=
D
5
X
k=0
Zk − np̂(k)
np̂(k)
setze in Chi-Quadrat-Statistik Schätzer ein:
2
,
λ̂k −λ̂
p̂(k) =
e , k = 0, . . . , 4,
k!
p̂(5) = 1−
4
X
k=0
p̂(k)
Statistik II für Wirtschaftswissenschaftler
Folie 5.80
0 ≥ 5 für ca. 80 % oder mehr k)
Faustregel (np0
≥
1
immer,
np
k
k
verletzt
vereinige k = 4 und k ≥ 5 zu einer neuen Klasse k ≥ 4
k
0
1
2
3
≥4
Zk
144
91
32
11
2
np̂(k)
139,0
97,3
34,1
7,9
1,6
2
2
2
(144
−
139,
0)
(91
−
97,
3)
(2
−
1,
6)
c=
D
+
+ ... +
= 1, 98
139, 0
97, 3
1, 6
Wenn die Hypothese
H0 : Xj , j = 1, . . . , n sind P(λ)-verteilt für irgendein λ > 0
c ungefähr χ2
wahr ist, dann ist D
d−1−m -verteilt:
d = Anzahl Klassen
m = Anzahl der geschätzten Parameter (hier λ, also m = 1)
Statistik II für Wirtschaftswissenschaftler
Folie 5.81
H0 : Zk , k = 1, . . . , d, sind multinomial verteilt mit Parameter
(n, p1, . . . , pd), wobei pk = fk (θ), k = 1, . . . , d, für irgendeinen
Wert des Parametervektors θ = (θ1, . . . , θm),
fk bekannt
b ersetze bekannte p0 in der χ2-Teststatistik
Schätze θ durch θ,
k
durch geschätzte
b
p̂k = fk (θ)
c =
D
5
X
k=0
Zk − np̂k
2
np̂k
c > (1 − α)-Quantil von χ2
H0 verwerfen, wenn D
d−1−m
Im Beispiel d = 5, m = 1, α = 0, 05, 7, 81 = 95%-Quantil von χ2
3
c = 1, 98 < 7, 81
D
H0 akzeptieren
die Daten widersprechen nicht der Modellannahme, dass die Anzahl der Todesfälle
durch Pferdetritt poissonverteilt ist.
Herunterladen