Statistik I im Sommersemester 2007

Werbung
Statistik I im Sommersemester 2007
Themen am 21.5.07:
Wahrscheinlichkeitstheorie III
• Zufallsvariablen und Wahrscheinlichkeitsverteilungen
• Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
• Statistische Modellierung und Realität
• Stichprobenziehung in der Umfrageforsschung
• Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen bei einfachen
Zufallsauswahlen
Lernziele:
1. Gemeinsamkeiten u. Unterschiede von empirischen Variablen und Zufallsvariablen
2. Bedeutung der frequentistischen Wahrscheinlichkeitsdefinition und des Gesetzes der
großen Zahl
3. Auswirkung von Schichtung, Klumpung und Ausfällen auf Kennwerteverteilungen
4. Anwendung von Binomialverteilung und hypergeometrischer Verteilung
Wiederholung: Wahrscheinlichkeitstheorie
Apriori-Wahrscheinlichkeit eines Ereignisses
=: Anzahl der Elementarereignisse, die zusammen das Ereignis bilden, geteilt durch die
Summe der Elementarereignisse im Ereignisraum insgesamt.
Axiomatische Wahrscheinlichkeitstheorie:
A1: 0 ≤ Pr(A) ≤ 1; A2: Pr(Ω) = 1; A3: Pr(A∪B) = Pr(A) + Pr(B) wenn A∩B = {}
Bedingte Wahrscheinlichkeit: Pr(A|B) = Pr(A∩B) / Pr(B)
Statistische Unabhängigkeit: Pr(A|B) = Pr(A) bzw. Pr(B|A) = Pr(B)
Additionstheorem:
Multiplikationstheorem:
Satz von Bayes:
Pr(A∪B) = Pr(A) + Pr(B) – Pr(A∩B)
Pr(A∩B) = Pr(A|B) · Pr(B) = Pr(B|A) · Pr(A)
Pr ( A B ) =
Pr ( B A ) ⋅ Pr ( A )
Pr ( B )
=
Pr ( B A ) ⋅ Pr ( A )
Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A )
Zufallsexperiment Urnenmodell als Basis für:
- einfache Zufallsauswahl ohne Zurücklegen
- einfache Zufallsauswahl mit Zurücklegen
Vorlesung Statistik I
1
Wiederholung: Kombinatorik
Anzahl der möglichen unterscheidbaren Anordnungen von N Elementen (Permutationen):
PN = N ⋅ ( N − 1) ⋅ (N − 2) ⋅…3 ⋅ 2 ⋅1 = N!
Produkt aus N Faktoren
Anzahl von möglichen unterscheidbaren Anordnungen von n Elementen aus N Elementen ohne
Zurücklegen (Variationen) :
n
N
Vn = N ⋅ (N − 1) ⋅ (N − 2) ⋅… (N − n + 2) ⋅ (N − n + 1) = ∏ ( N − i + 1)
Produkt aus n Faktoren
i =1
Anzahl von unterscheidbaren Möglichkeiten, n Elementen aus N Elementen ohne Berücksichtigung der Anordnung auszuwählen (Kombinationen):
N!
( N − n )! =
N!
N ⋅ (N − 1) ⋅… ⋅ (N − n + 1) ⎛ N ⎞
N Vn
K
=
=
=
=⎜ ⎟
N
n
Pn
n!
N
−
n
!
⋅
n!
n
⋅
(n
−
1)
⋅
⋅
2
⋅
1
…
(
)
⎝n⎠
Wenn n von N Elementen ohne Berücksichtigung der Anordnung ausgewählt werden, bleiben
notwendigerweise N–n Elemente übrig.
Daher gibt NKn auch die Anzahl der Möglichkeiten an, eine Menge N in zwei Teilmengen der
Umfänge n und N–n aufzuteilen.
Vorlesung Statistik I
2
Wiederholung: Kombinatorik und Zufallsvariablen
Variationen mit Zurücklegen
Anzahl der Anordnungen von n Elementen aus N Elementen wobei jedes Element mehrfach vorkommen kann: Nn
Kombinationen mit Zurücklegen
Anzahl von Möglichkeiten n Elementen aus N Elementen ohne Berücksichtigung der Anordnung auszuwählen:
⎛ N + n − 1⎞
⎜
⎟
n
⎝
⎠
Auftretenswahrscheinlichkeit einer Stichprobe:
a) bei Berücksichtigung der Anordnung:
Kehrwert aus der Zahl der möglichen Stichproben bei Berücksichtigung der Reihenfolge,
b) ohne Berücksichtigung der Anordnung:
Kehrwert aus der Zahl der möglichen Stichproben bei Berücksichtigung der Reihenfolge
mal Anzahl der möglichen Anordnungen der jeweils ausgewählten Stichprobenelemente.
⇒ Bei Auswahlen mit Zurücklegen gibt es unterschiedliche Auftretenswahrcsheinlichkeiten in Abhängigkeit von den jeweils mehrfach ausgewählten Elementen.
Vorlesung Statistik I
3
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Die Berechnung der Ziehungswahrscheinlichkeit einer Stichprobe ist nur der erste Schritt bei der
Abschätzung der Risiken von Fehlentscheidungen bei Induktionsschlüssen von einer Stichprobe
auf die Population, aus der die Stichprobe kommt.
So kann das Ausgangsbeispiel der zweimaligen Befragung von jeweils einem von 6 Haushalten
eines Dorfes als eine einfache Zufallsauswahl von n=2 aus N=6 Elementen mit Zurücklegen
aufgefasst werden.
Von Interesse sind i.a. nicht die Stichproben an sich, sondern Kennwerte, die aus den resultierenden Verteilungen in einer Stichprobe berechnen und als Schätzung entsprechender Kennwerte in der Population herangezogen werden.
Für jede Stichprobe lässt sich z.B. das mittlere Haushaltseinkommen berechnen.
Vorlesung Statistik I
4
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Elemente in RealisierungswahrMittleres
Stichprobe
scheinlichkeit
Einkommen
{1,1}
1/36
1000 €
{2,1}
2/36
1500 €
{3,1}{2,2}
3/36
2000 €
{4,1}{3,2}
4/36
2500 €
{5,1}{4,2}{3,3}
5/36
3000 €
{6,1}{5,2}{4,3}
6/36
3500 €
{6,2}{5,3}{4,4}
5/36
4000 €
{6,3}{5,4}
4/36
4500 €
{6,4}{5,5}
3/36
5000 €
{6,5}
2/36
5500 €
{6,6}
1/36
6000 €
Summe:
36/36
Die bei Berücksichtigung der Anordnung unterscheidbaren 36 Stichproben ergeben 11 unterschiedliche Werte, wenn in jeder Stichprobe der Stichprobenmittelwert des Haushaltseinkommens über die beiden ausgewählten Haushalte (Fälle) berechnet wird.
Da jede Stichprobe eine angebbare Auswahlwahrscheinlichkeit hat, lassen sich auch für die unterscheidbaren Werte der mittleren Haushaltseinkommen Realisierungswahrscheinlichkeiten berechnen. Sie ergeben sich jeweils aus der Summe der Auswahlwahrscheinlichkeiten der Stichproben, die zum gleichen mittleren Einkommen führen.
Vorlesung Statistik I
5
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Elemente in RealisierungswahrMittleres
Stichprobe
scheinlichkeit
Einkommen
{1,1}
1/36
1000 €
{2,1}
2/36
1500 €
{3,1}{2,2}
3/36
2000 €
{4,1}{3,2}
4/36
2500 €
{5,1}{4,2}{3,3}
5/36
3000 €
{6,1}{5,2}{4,3}
6/36
3500 €
{6,2}{5,3}{4,4}
5/36
4000 €
{6,3}{5,4}
4/36
4500 €
{6,4}{5,5}
3/36
5000 €
{6,5}
2/36
5500 €
{6,6}
1/36
6000 €
Summe:
36/36
Variablen, deren Ausprägungen mit (im Prinzip berechenbaren) Auftretenswahrscheinlichkeiten
realisiert werden, heißen Zufallsvariablen.
Die Auftretenswahrscheinlichkeiten der Ausprägungen definieren die Wahrscheinlichkeitsfunktion Pr(X), oft auch als f(x) symbolisiert, einer Zufallsvariablen X, die jeder Ausprägung
ihre Realisierungswahrscheinlichkeit zuordnet.
Die Wahrscheinlichkeitsfunktion der Ausprägungen einer Zufallsvariablen entspricht den
relativen Auftretenshäufigkeiten der Ausprägungen einer empirischen Verteilung.
Vorlesung Statistik I
6
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Die Aufsummierung der Wahrscheinlichkeitsfunktion ergibt die Verteilungsfunktion F(X),
die für jede Ausprägung einer Zufallsvariablen X die Wahrscheinlichkeit angibt, dass eine
Realisierung kleiner oder gleich dieser Ausprägung ist:
F(X = x) = Pr(X ≤ x)
Die Verteilungsfunktion von Zufallsvariablen entspricht der empirischen Verteilungsfunktion
empirischer Variablen, also der Aufsummierung der relativen Häufigkeiten, mit denen eine
Ausprägung vorkommt.
Vorlesung Statistik I
7
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Einkomen in €)
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
Summe:
Wahrscheinlichkeitsfunktion
1/36 = 0.0278
2/36 = 0.0555
3/36 = 0.0833
4/36 = 0.1111
5/36 = 0.1389
6/36 = 0.1667
5/36 = 0.1389
4/36 = 0.1111
3/36 = 0.0833
2/36 = 0.0555
1/36 = 0.0278
36/36 = 1.0000
Verteilungsfunktion
1/36 = 0.0278
3/36 = 0.0833
6/36 = 0.1667
10/36 = 0.2778
15/36 = 0.4167
21/36 = 0.5833
26/36 = 0.7222
30/36 = 0.8333
33/36 = 0.9167
35/36 = 0.9722
36/36 = 1.0000
Quantile
10%
25%
50%
75%
90%
X · Pr(X)
X2 · Pr(X)
1000/36
1000000/36
3000/36
4500000/36
6000/36
12000000/36
10000/36
25000000/36
15000/36
45000000/36
21000/36
73500000/36
20000/36
80000000/36
18000/36
81000000/36
15000/36
75000000/36
11000/36
60500000/36
6000/36 36000000/36
126000/36 493500000/36
3500
13708333.33
Analog zu empirischen Verteilungsfunktionen lassen sich auch für Zufallsvariablen aus der
Umkehrung der Verteilungsfunktion Quantilwerte berechnen.
So ist das z.B. das 10%-Quantil der Wert, bei dem die Verteilungsfunktion erstmals den Anteil
0.1 erreicht oder überschreitet.
Das 50%-Quantil ist bei Zufallsvariablen immer gleichzeitig der Median, da bei Wahrscheinlichkeiten nicht zwischen geraden und ungeraden Fallzahlen unterschieden werden kann.
Im Beispiel beträgt der Median 3500 €.
Vorlesung Statistik I
8
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Einkomen in €)
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
Summe:
Wahrscheinlichkeitsfunktion
1/36 = 0.0278
2/36 = 0.0555
3/36 = 0.0833
4/36 = 0.1111
5/36 = 0.1389
6/36 = 0.1667
5/36 = 0.1389
4/36 = 0.1111
3/36 = 0.0833
2/36 = 0.0555
1/36 = 0.0278
36/36 = 1.0000
Verteilungsfunktion
1/36 = 0.0278
3/36 = 0.0833
6/36 = 0.1667
10/36 = 0.2778
15/36 = 0.4167
21/36 = 0.5833
26/36 = 0.7222
30/36 = 0.8333
33/36 = 0.9167
35/36 = 0.9722
36/36 = 1.0000
Quantile
10%
25%
50%
75%
90%
X · Pr(X)
X2 · Pr(X)
1000/36
1000000/36
3000/36
4500000/36
6000/36
12000000/36
10000/36
25000000/36
15000/36
45000000/36
21000/36
73500000/36
20000/36
80000000/36
18000/36
81000000/36
15000/36
75000000/36
11000/36
60500000/36
6000/36 36000000/36
126000/36 493500000/36
3500
13708333.33
Analog zu empirischen Verteilungen lassen sich auch für Zufallsvariablen weitere Kennwerte
berechnen. Das arithmetische Mittel heißt bei Zufallsvariablen Erwartungswert µX („mü von
X“) und ist die Summe aus den Ausprägungen mal deren Auftretenswahrscheinlichkeiten:
μ(X) = μ X = ∑ Pr ( x (k ) ) ⋅ x (k )
K
k =1
Im Beispiel ergibt sich ein Erwartungswert von 3500 €.
Vorlesung Statistik I
9
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Einkomen in €)
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
Summe:
Wahrscheinlichkeitsfunktion
1/36 = 0.0278
2/36 = 0.0555
3/36 = 0.0833
4/36 = 0.1111
5/36 = 0.1389
6/36 = 0.1667
5/36 = 0.1389
4/36 = 0.1111
3/36 = 0.0833
2/36 = 0.0555
1/36 = 0.0278
36/36 = 1.0000
Verteilungsfunktion
1/36 = 0.0278
3/36 = 0.0833
6/36 = 0.1667
10/36 = 0.2778
15/36 = 0.4167
21/36 = 0.5833
26/36 = 0.7222
30/36 = 0.8333
33/36 = 0.9167
35/36 = 0.9722
36/36 = 1.0000
Quantile
10%
25%
50%
75%
90%
X · Pr(X)
X2 · Pr(X)
1000/36
1000000/36
3000/36
4500000/36
6000/36
12000000/36
10000/36
25000000/36
15000/36
45000000/36
21000/36
73500000/36
20000/36
80000000/36
18000/36
81000000/36
15000/36
75000000/36
11000/36
60500000/36
6000/36 36000000/36
126000/36 493500000/36
3500
13708333.33
Die Varianz σ2X (ausgesprochen „sigma-quadrat von X“) ist der Erwartungswert der quadrierten
Abweichungen vom Mittelwert:
2
2
σ (X) = σ = ∑ Pr ( x (k ) ) ⋅ ( x (k ) − μ X ) = ∑ Pr ( x (k ) ) ⋅ x (k
) − μX
K
2
2
X
k =1
2
K
k =1
Im Beispiel beträgt die Varianz 1 458 333.33 €2 (=13708333.33–35002) und die Standardabweichung 1207.61 €.
Vorlesung Statistik I
10
Stichprobenkennwerte, Kennwerteverteilungen und
Populationsparameter
Bezogen auf eine konkrete Stichprobe ist das durchschnittliche Haushaltseinkommen in dieser
Stichprobe ein Kennwert der empirischen Einkommensverteilung in der Stichprobe,
bezogen auf die Wahrscheinlichkeitsverteilung der durchschnittlichen Haushaltseinkommen in
den möglichen Stichproben dagegen eine Realisierung einer Zufallsvariablen.
Ziel der Berechnung eines Stichprobenmittelwerts ist i.a. die Schätzung eines Populationskennwertes, im Beispiel des durchschnittlichen Haushaltseinkommen in der Population. Kennwerte
einer Population heißen auch Populationsparameter. Die Werte von Populationsparametern sind
in der Regel unbekannt und werden daher mit Hilfe von Stichprobendaten geschätzt.
Der zum Schätzen oder Testens eines Populationsparameters berechnete Kennwert einer Stichprobe wird auch als Statistik bezeichnet.
Über alle möglichen Stichproben hinweg ist die Statistik eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung auch als Kennwerteverteilung bezeichnet wird, da es sich um die
(Wahrscheinlichkeits-) Verteilung von Stichprobenkennwerten über verschiedene Stichproben
handelt.
Es gilt daher, drei verschiedene Verteilungen zu unterscheiden:
1. die Verteilung in einer Population,
2. die Verteilung in einer Stichprobe und
3. die Kennwerteverteilung über alle möglichen Stichproben.
Vorlesung Statistik I
11
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Auf die Populationsverteilung bzw. deren Parameter ist das Forschungsinteresse gerichtet;
sie ist jedoch der direkten Beobachtung nicht (oder nur mit sehr großem Aufwand) zugänglich.
Beobachtet werden kann dagegen die Verteilung in einer Stichprobe. Von den aus den Stichprobendaten berechneten empirischen Kennwerten wird in einem Induktionsschluss auf die
Werte der Populationsparameter geschlossen.
Vorlesung Statistik I
12
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36 =1/3 2/3 21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
}
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Die Kennwerteverteilung ist das Verbindungsglied zwischen Stichprobe und Population.
Sie ermöglicht Aussagen über die Risiken des Induktionsschlusses.
Im Beispiel lässt sich so aus der Kennwerteverteilung ablesen, dass mit einer Wahrscheinlichkeit von 1/6 ein Stichprobenmittelwert genau mit dem Populationsmittelwert (3500 €) übereinstimmt und mit einer Wahrscheinlichkeit von 2/3 der Stichprobenmittelwert um maximal 1000 €
vom Populationsmittelwert abweicht.
Vorlesung Statistik I
13
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Aussagen über die Stichprobengüte beziehen sich in der Statistik also stets auf die Kennwerteverteilung.
Ein konkreter Stichprobenmittelwert kann vom gesuchten Populationsparameter trotz hoher
Stichprobengüte sehr stark abweichen.
So sind in den beiden rechts wiedergegebenen Stichproben die Stichprobenmittewerte mit
Werten von 1000€ und 1500€ deutlich vom Populationsmittelwert mit 3500€ entfernt.
Vorlesung Statistik I
14
Statistische Modellierung und Realität
Wahrscheinlichkeitsverteilungen unterscheiden sich von empirisch erhobenen Verteilungen
darin, dass anstelle der relativen Häufigkeiten von Realisierungen Realisierungswahrscheinlichkeiten stehen.
Es scheint also eine Ähnlichkeit zwischen relativen Häufigkeiten und Wahrscheinlichkeiten zu
geben.
Diese Ähnlichkeit wird in der frequentistischen Definition der Wahrscheinlichkeit (auch als
A-posteriori-Definition von Wahrscheinlichkeit bezeichnet) explizit formuliert:
Die Wahrscheinlichkeit Pr(A) eines Ereignisses A ist gleich dem Grenzwert
der relativen Auftretenshäufigkeit nA / n dieses Ereignisses, wenn die Zahl der
Wiederholungen n des Zufallsexperiments, zu dessen Ereignissen A gehört,
über alle Grenzen wächst:
⎛n ⎞
lim ⎜ A ⎟ = Pr ( A )
n →∞
⎝ n ⎠
Die frequentistische Wahrscheinlichkeitsdefinition führt zu einem scheinbar empirischen Wahrscheinlichkeitsbegriff, da Wahrscheinlichkeiten nach dieser Definition relative Häufigkeiten
sind.
Da es aber empirisch unmöglich ist, Zufallsexperimente tatsächlich unendlich oft zu wiederholen, können sie nicht direkt beobachtet werden.
Vorlesung Statistik I
15
Das Gesetz der großen Zahl
Begründet wird die frequentistische Sicht auf Wahrscheinlichkeit durch das Gesetz der großen
Zahl:
Wenn die Zahl n der Wiederholungen eines Zufallsexperiments über alle Grenzen steigt,
dann nähert sich die Wahrscheinlichkeit, dass der Abstand der relativen Häufigkeit nA/n
eines Ereignisses A von der Wahrscheinlichkeit Pr(A) dieses Ereignisses im einfachen
Zufallsexperiment kleiner oder gleich einer beliebig kleinen positiven Zahl ist, dem Wert
Eins an.
⎛ ⎛n
⎞⎞
lim ⎜ Pr ⎜ A − Pr ( A ) < ε ⎟ ⎟ = 1
n →∞
⎠⎠
⎝ ⎝ n
Das Gesetz der großen Zahl lässt sich formal beweisen.
Eine Idee, wieso das Gesetz funktioniert, zeigt das Beispiel des wiederholten Werfens einer
Münze. Ein solcher Münzwurf lässt sich als Zufallsexperiment mit zwei möglichen Ergebnissen
„Kopf“ und „Zahl“auffassen, die im folgenden durch die Buchstaben A für „Kopf“ und B für
„Zahl“ symbolisiert werden.
Entsprechend der klassischen Wahrscheinlichkeitsdefinition wird unterstellt, dass die Realisierungswahrscheinlichkeit jedes der beiden Ereignisse 0.5 beträgt. Denkbar sind aber auch beliebige andere Werte, die sich zu 1.0 summieren.
Da die Wiederholungen eines Zufallsexperiments unter gleichen Bedingungen zu voneinander
statistisch unabhängigen Ereignissen führen, ist bei n Wiederholungen des Experiments die
Wahrscheinlichkeit des Auftretens einer beliebigen Folge der möglichen Ereignisse 0.5n, da in
jedem Experiment ein Ereignis mit Wahrscheinlichkeit 0.5 auftritt.
Vorlesung Statistik I
16
Das Gesetz der großen Zahl
Bei z.B. 3 Wiederholungen sind 8 (= 2·2·2) Ergebnisse möglich:
{A,A,A}, {A,A,B}, {A,B,A}, {B,A,A}, {A,B,B}, {B,A,B}, {B,B,A} und {B,B,B}
Soll die relative Häufigkeit des Ereignisses A („Kopf“) berechnet werden, interessiert allerdings
nicht die Reihenfolge sondern nur die Anzahl des Auftretens von A in allen Stichproben.
Bei n Wiederholungen kann die Zahl nA der möglichen Ereignisse zwischen 0 (niemals „Kopf“)
und n (immer „Kopf“ variieren).
Von den 2n möglichen Ergebnissen ist die Zahl der Ergebnisse, in denen insgesamt nA mal Ereignis A realisiert werden kann, gleich der Zahl der Variationen ohne Zurücklegen von nA Elementen aus n Elementen also „n über nA“.
Somit beträgt die Wahrscheinlichkeit nA:
⎛ n ⎞
n!
Pr ( n A ) = ⎜ ⎟ ⋅ 0.5n =
⋅ 0.5n
( n − n A )!⋅ n!
⎝ nA ⎠
Da die relative Auftretenshäufigkeit pA von A der Quotient nA/n ist, lassen sich alle realisierbaren relativen Häufigkeiten von A über diese Formel berechnen.
Bei n=3 Wiederholungen ergibt sich z.B.:
⎛ 3⎞
⎛ 3⎞
Pr ( 0 / 3) = ⎜ ⎟ 0.53 = 0.125 , Pr (1/ 3) = ⎜ ⎟ 0.53 = 0.375 ,
⎝0⎠
⎝1⎠
⎛ 3⎞
⎛ 3⎞
Pr ( 2 / 3) = ⎜ ⎟ 0.53 = 0.375 , Pr ( 3/ 3) = ⎜ ⎟ 0.53 = 0.125
⎝ 2⎠
⎝ 3⎠
Vorlesung Statistik I
17
Das Gesetz der großen Zahl
n Pr(0.3 ≤ pA ≤ 0.7)
1
0.00
2
0.50
3
0.75
4
0.38
5
0.63
6
0.78
n Pr(0.3 ≤ pA ≤ 0.7)
7
0.55
8
0.71
9
0.82
10
0.66
11
0.77
12
0.85
n Pr(0.3 ≤ pA ≤ 0.7)
13
0.91
14
0.82
15
0.88
16
0.92
17
0.86
18
0.90
n
10
100
500
1000
5000
10000
50000
pA
.200
.500
.524
.474
.495
.507
.504
pA–0.5
–.300
.000
.024
–.026
–.005
.007
.004
Über die Wahrscheinlichkeiten der Anteile lässt sich auch ausrechnen, wie wahrscheinlich es
ist, dass die realisierte relative Häufigkeit innerhalb eines Intervalls liegt.
So kann z.B. berechnet werden, wie wahrscheinlich es ist, dass die relative Häufigkeit des
Ereignisses A („Kopf“) beim mehrmaligen Werfen einer Münze zwischen 0.3 und 0.7 liegt,
wenn die Wahrscheinlichkeit beim einmaligen Werfen 0.5 beträgt.
Es zeigt sich, dass diese Wahrscheinlichkeit, wie es das Gesetz der großen Zahl behauptet, – mit
gewissen Schwankungen – immer mehr ansteigt.
Ein ähnliches Egebnis ergibt der empirische Versuch.
So zeigt die Tabelle rechts den Anteil des Ereignisses A, wenn tatsächlich wiederholt eine
Münze geworfen wird.
Vorlesung Statistik I
18
Das Gesetz der großen Zahl
Obwohl es also eine Beziehung zwischen empirischen relativen Häufigkeiten und Wahrscheinlichkeiten zu geben scheint, sollte doch klar sein, dass der Begriff „Wahrscheinlichkeit“ eine
theoretische Modellvorstellung ist und kein reales empirisches Phänomen.
Tatsächlich beruht der frequentistische Wahrscheinlichkeitsbegriff auf einen (fehlerhaften)
Zirkelschluss, falls er mit dem Gesetz der großen Zahl begründet wird. Im Gesetz der großen
Zahl taucht ja bereits der Begriff der Wahrscheinlichkeit auf, der erst durch die frequentistische
Vorstellung definiert werden soll.
Die frequentistische Definition wäre erst dann nicht zirkulär, wenn es gelänge, die Forderung
der „Wiederholung eines Zufallsexperiments unter gleichen Bedingungen“ unabhängig vom
Begriff der statistischen Unabhängigkeit zweier Ereignisse zu definieren.
Ungeachtet dieses logischen Problems führt der frequentistische Wahrscheinlichkeitsbegriff
jedoch zu einer intuitiven und hilfreichen Vorstellung der Bedeutung des Wortes „Wahrscheinlichkeit“.
Ein Vorteil gegenüber dem klassischen Wahrscheinlichkeistbegriff liegt insbesondere auch darin, dass nicht unterstellt werden muss, dass Elementarereignisse mit gleicher Wahrscheinlichkeit auftreten müssen. Stattdessen kann durch Wiederholen empirisch „geprüft“ werden, ob z.B.
eine Münze oder ein Würfel ausgewogen ist, d.h. zu gleichwahrscheinlichen Ergebnissen führt.
Vorlesung Statistik I
19
Stichprobenziehung in der Umfrageforschung
Bei Anwendungen der Wahrscheinlichkeitstheorie sollte stets überlegt werden, welches
Zufallsexperiment zu den beobachtbaren Ereignissen geführt haben mag und ob die hierbei
getroffenen Annahmen zutreffen.
So folgen z.B. sozialwissenschaftliche Wahrscheinlichkeitsauswahlen oft nicht dem Lotteriemodell, wie es die einfache Zufallsauswahl unterstellt.
Stattdessen werden in der Umfrageforschung meist geschichtete (stratifizierte, engl. stratified)
und/oder (mehrstufigen) Klumpenstichproben (engl. cluster sampling) gezogen.
In beiden Situationen ist die Grundgesamtheit in eine (große) Zahl von Teilgruppen (Subpopulationen) zerteilt.
In einer geklumpten Stichprobe wird in einem mehrstufigen Auswahlverfahren zunächst eine
Anzahl von Teilgruppen (Cluster) zufällig ausgewählt. Innerhalb dieser Teilgruppen werden
dann in einer weiteren zufälligen Auswahl die eigentlich interessierenden Elemente ausgewählt.
Dieses Vorgehen kann sich sogar über mehr als zwei Stufen erstrecken. So werden bei persönlichen Interviews oft in einem ersten Schritt Orte ausgewählt, innerhalb derer im zweiten Schritt
Haushalte ausgewählt werden, innerhalb derer dann im dritten Schritt eine „Zielperson“ ausgewählt wird.
Bei geschichteten Stichproben wird die Population ebenfalls in Teilgruppen aufgeteilt, die hier
als „Schichten“ bezeichnet werden. In jeder Schicht werden dann Zufallsauswahlen gezogen.
In der Praxis werden mehrstufige geklumpte Stichproben innerhalb von Schichten gezogen.
Vorlesung Statistik I
20
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Die Auswirkungen von geklumpten und geschichteten Stichproben lassen sich an dem Beispiel
der einfachen Zufallsauswahl von n=2 aus N=6 Haushalten verdeutlichen.
Die Haushaltsnummern geben wieder das Einkommen des Haushalts in 1000€ pro Monat
wieder.
Bei einer einfachen Zufallsauswahl gibt es genau 36 mögliche Ereignisse, die mit gleicher
Wahrscheinlichkeit auftreten und zu 11 Stichproben mit unterschiedlichem Stichprobenmittelwert des Einkommens führen.
Vorlesung Statistik I
21
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Die Population kann in zwei Teilgruppen zerlegt
werden, wobei die ersten drei Haushalte die erste
und die letzten drei die zweite Gruppe bilden.
In einer geklumpten Auswahl wird zunächst mit
gleicher Wahrscheinlichkeit eine der beiden
Teilgruppen ausgewählt und innerhalb der
Teilgruppen zwei Haushalte.
Vorlesung Statistik I
6
Geklumpte Auswahl
n=2 aus Nm=3 in m=1 von M=2 Cluster
Stichprobe
Einkommen Wahrscheinl.
{1,1}
1000 €
1/18
{2,1}
1500 €
2/18
{3,1}{2,2}
2000 €
3/18
{3,2}
2500 €
2/18
{3,3}
3000 €
1/18
{4,4}
4000 €
1/18
{5,4}
4500 €
2/18
{6,4}{5,5}
5000 €
3/18
{6,5}
5500 €
2/18
{6,6}
6000 €
1/18
Erwartungswert: 3500 €
Standardabw. 1607.28€:
Die Anzahl der möglichen Stichproben
reduziert sich dann auf 18, die zu 10
unterschiedlichen Stichprobenmittelwerten führen.
22
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Stratifizierte Auswahl
n=1 aus Nm=3 in jeder von M=2 Schichten:
Stichprobe
Einkommen Wahrscheinl.
{4,1}
2500 €
1/9
{5,1}{4,2}
3000 €
2/9
{6,1}{5,2}{4,3} 3500 €
3/9
{6,2}{5,3}
4000 €
2/9
{6,3}
4500 €
1/9
Erwartungswert: 3500 €
Standardabw.
577.35€:
Bei einer geschichteten Auswahl wird aus jeder der
beiden Teilgruppen jeweils ein Element zufällig
ausgewählt.
Die Anzahl der möglichen Stichproben reduziert sich wiederum auf 18, die zu 5 unterschiedlichen Stichprobenmittelwerten führen.
Die drei Auswahlverfahren führen zu drei Kennwerteverteilungen mit gleichem Erwartungswert
aber unterschiedlicher Standardabweichung.
Vorlesung Statistik I
23
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
Geklumpte Auswahl
n=2 aus Nm=3 in m=1 von M=2 Cluster
Stichprobe
Einkommen Wahrscheinl.
Erwartungswert: 3500 €
Standardabw. 1607.28€:
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Stratifizierte Auswahl
n=1 aus Nm=3 in jeder von M=2 Schichten:
Erwartungswert: 3500 €
Standardabw.
577.35€:
Wenn sich – wie in dem Beispiel – die Elemente innerhalb einer Teilgruppe ähnlicher sind als
die Elemente in unterschiedlichen Teilgruppen, dann führen geschichtete Stichproben dazu,
dass die Standardabweichung der Kennwerteverteilung kleiner ist als die Standardabweichung
bei einer einfachen Zufallsauswahl.
Umgekehrt ist in dieser Situation die Standardabweichung bei einer geklumpten Stichprobe
größer als bei einer einfachen Zufallsauswahl.
Falls die interessierenden Eigenschaften der Elemente einer Population unabhängig von der Zugehörigkeit zu einer Teilgruppe variieren, unterscheiden sich die Standardabweichungen nicht.
Vorlesung Statistik I
24
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
6
Einkom- Wahrscheinlichkeiten
men (X) Auswahl Ausfall Pr(X)
1000
1/36 1/10 .025
1500
2/36 1/10 .050
2000
3/36 1/10 .075
2500
4/36 1/10 .100
3000
5/36 1/10 .125
3500
6/36 1/10 .150
4000
5/36 16/25 .050
4500
4/36 16/25 .040
5000
3/36 16/25 .030
5500
2/36 16/25 .020
6000
1/36 16/25 .010
Summe:
36/36
.675
Missing
.325
In der Realität lassen sich Auswahlpläne aufgrund von Ausfällen nicht vollständig realisieren.
Im Beispiel wird angenommen, dass die Ausfallwahrscheinlichkeit Pr(A) bei einem Stichprobenmittelwert von max. 3500€ 0.10 und bei höheren Einkommen 0.64 beträgt.
Bei einer einfachen Zufallsauswahl von n=2 aus N=6 mit Zurücklegen ist dann die Realisierungswahrscheinlichkeit einer Stichprobe k die Wahrscheinlichkeit, die Stichprobe entsprechend der Auswahlwahrscheinlichkeit der Zufallsauswahl (d.h. nach dem Stichprobenplan)
auszuwählen, mal der Wahrscheinlichkeit, nicht auszufallen:
Pr ( Sk ) = Pr ( X k ) ⋅ Pr ( ¬A k ) = Pr ( X k ) ⋅ (1 − Pr ( A k ) )
Vorlesung Statistik I
25
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
6
Einkom- Wahrscheinlichkeiten ohne Miss.
men (X) Auswahl Ausfall Pr(X) Pr(X)
1000
1/36
1/10 .025
.037
1500
2/36
1/10 .050
.074
2000
3/36
1/10 .075
.111
2500
4/36 1/10 .100
.148
3000
5/36 1/10 .125
.185
3500
6/36 1/10 .150
.222
4000
5/36 16/25 .050
.074
4500
4/36 16/25 .040
.059
5000
3/36 16/25 .030
.044
5500
2/36 16/25 .020
.030
6000
1/36 16/25 .010
.015
Summe:
36/36
.675
.999
Missing
.325
Die Wahrscheinlichkeit, dass eine Stichprobe nicht ausfällt, beträgt 0.675. Entsprechend ist die
Wahrscheinlichkeit eines Ausfalls 0.325.
Da nur bei realisierten Stichproben Stichprobenmittelwerte berechnet werden können, reduziert
sich die Kennwerteverteilung auf die bedingten Wahrscheinlichkeiten, dass eine Stichprobe
realisiert wird:
Pr ( X ) ⋅ (1 − Pr ( A k ) )
Pr ( S ¬A ) =
K
∑ (1 − Pr ( A k ) )
k =1
Vorlesung Statistik I
26
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
Der Erwartungswert der Kennwerteverteilung beträgt dann 3111.11€ und die Standardabweichung
ist 1099.94€
Einkom- Wahrscheinlichkeiten ohne Miss.
men (X) Auswahl Ausfall Pr(X) Pr(X)
1000
1/36
1/10 .025
.037
1500
2/36
1/10 .050
.074
2000
3/36
1/10 .075
.111
2500
4/36 1/10 .100
.148
3000
5/36 1/10 .125
.185
3500
6/36 1/10 .150
.222
4000
5/36 16/25 .050
.074
4500
4/36 16/25 .040
.059
5000
3/36 16/25 .030
.044
5500
2/36 16/25 .020
.030
6000
1/36 16/25 .010
.015
Summe:
36/36
.675
.999
Missing
.325
Einfache Zufallsauswahl mit Ausfällen
n=2 aus N=6:
Erwartungswert: 3111.11 €
Standardabw. 1099.94 €:
Bei systematischen Ausfällen, d.h. Ausfallwahrscheinlichkeiten, die mit der interessierenden
Eigenschaft der Elemente in der Population zusamenhängen, kann also der Erwartungswert der
Kennwerteverteilung vom zu schätzenden Populationsparameter abweichen.
Die Schätzung ist dann verzerrt.
Vorlesung Statistik I
27
Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen
Binomialverteilung
Im Zusammenhang mit dem Gesetz der großen Zahl wurde die Wahrscheinlichkeit berechnet,
mit der bei n Würfen einer Münze nA bzw pA mal das Ereignis A („Kopf“) auftritt.
Dabei wurde unterstellt, dass die Wahrscheinlichkeit von „Kopf“ wie „Zahl“ jeweils 0.5 beträgt.
Es ist auch möglich, die Wahrscheinlichkeit von nA bzw pA zu berechnen, wenn die Auftretenswahrscheinlichkeit Pr(A) nicht 0.5 sondern eine beliebige Zahl πA zwischen 0 und 1 ist.
Wenn z.B. die Wahrscheinlichkeit von A Pr(A) = πA = 0.4 beträgt, dann muss die Wahrscheinlichkeit des komplementären Ereignisses B = ¬A offenbar Pr(B) = πB = 1 – 0.4 = 0.6 betragen.
Da bei n Wiederholungen nA mal A auftritt, muss entsprechend nB = n – nA mal B auftreten.
Die n Wiederholungen sind statistisch unabhängig voneinander. Somit ist die Wahrscheinlichkeit bei Berücksichtigung der Reihenfolge (Anordnung), in der A bzw. B ausgewählt werden:
Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = 0.4n A ⋅ 0.6n B = πAn A ⋅ πBn B = πAn A ⋅ (1 − π A )
n −nA
Solange nur die Häufigkeiten nA und nB interessieren, ist die Reihenfolge der Ziehung der Elemente irrelevant. Die Zahl der ununterscheidbaren Stichproben ist dann gleich der Zahl der
Möglichkeiten, die insgesamt n Element in zwei Gruppen der Größe nA und nB = n – nA aufzuteilen. Aus den Regeln der Kombinatorik ergibt sich diese Anzahl der jeweils ununterscheidbaren Stichproben als „n über nA“ bzw. was zum gleichen Ergebnis führt „n über nB“.
Vorlesung Statistik I
28
Binomialverteilung
Für die Wahrscheinlichkeit der Häufigkeiten nA und nB ohne Berücksichtigung der
Auswahlreihenfolge gilt somit:
⎛ n ⎞ nA
⎛ n ⎞ nA
nB
Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = ⎜ ⎟ 0.4 ⋅ 0.6 = ⎜ ⎟ 0.4 ⋅ 0.6n B
⎝ nA ⎠
⎝ nB ⎠
Die so berechneten Wahrscheinlichkeiten folgen der sogenannten Binomialverteilung, die sich
ergibt, wenn die Wahrscheinlichkeit der Auftretenshäufigkeit eines Ereignisses A bei n statistisch unabhängigen Wiederholungen eines Zufallsexperiments interessiert.
In der generelleren Darstellung wird folgende Notation verwendet:
π1 ist die Wahrscheinlichkeit, mit der das interessierende Ereignis (A) im Zufallsexperiment auftritt,
n ist die Zahl der unabhängigen Wiederholungen des Zufallsexperiments,
n1 ist die Häufigkeit, mit der das interessierende Ereignis A in diesen n Wiederholungen
auftritt,
X ist eine Zufallsvariable, die die Werte 0, 1, ..., n1, ..., n annehmen kann.
Die Wahrscheinlichkeitsverteilung von X ist dann binomialverteilt mit den Parametern π1
und n, symbolisiert durch b(X; n, π1)
⎛n⎞
n!
n −n
n −n
Pr(X = n1 ) = ⎜ ⎟ ⋅ π1n1 ⋅ (1 − π1 ) 1 =
⋅ π1n1 ⋅ (1 − π1 ) 1 = b ( X;n, π1 )
(n − n1 )!⋅ n!
⎝ n1 ⎠
Vorlesung Statistik I
29
Binomialverteilung
Pr(X) = b(X;5,0.5)
0.3125
0.3125
0.1563
0.1563
0.0313
0.0313
0
1
2
3
4
5
X
Pr(X) = b(X;10,0.5)
0.2461
0.2051
0.1172
0.2051
0.1172
0.0439
0.0098
0.0439
0.0098
0.001
0
0.001
1
2
3
4
5
6
7
8
9
10
X
Pr(X) = b(X;10,0.4)
0.2508
0.1115
0.0425
0.0106
0.0016
0.0001
0.1209
0.0403
0.006
1
2
3
Aus der Wahrscheinlichkeitsverteilung lässt sich durch Aufsummieren die Verteilungsfunktion berechnen:
n1
⎛n⎞ j
n− j
F(X = n1 ) = Pr(X ≤ n1 ) = ∑ ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 )
j= 0 ⎝ j ⎠
0.2007
0.215
0
Die Verteilungsform der Binomialverteilung variiert mit den
Verteilungsparametern π1 und n. Ist π1 = 0.5, ist die Verteilung symmetrisch, bei π1 < 0.5, ist sie linkssteil bzw. rechtsschief und bei π1 > 0.5, ist sie rechtssteil bzw. linksschief.
Mit steigendem n nimmt die Schiefe dadurch faktisch ab,
dass an einem Ende der Verteilung die Auftetenswahrcheinlichkeiten schnell gegen null gehen.
4
5
6
7
8
9
10
X
Pr(X) = b(X;10,0.7)
0.2668
0.2001
0.2335
0.1029
0.0368
0.1211
0.009
0.0014
0.0281
0.0001
Es lässt sich zeigen, dass der Erwartungswert und die
Varianz der Binomialverteilung Funktionen der beiden
Parameter π1 und n sind:
μ X = n ⋅ π1
σ 2X = n ⋅ π1 ⋅ (1 − π1 )
0
0
1
2
3
4
5
6
7
8
9
10
X
Vorlesung Statistik I
30
Bernoulli-Verteilung und Summen voneinander unabhängiger Binomialverteilungen
Ein Spezialfall der Binomialverteilung ergibt sich, wenn n=1 ist. Die Verteilung wird dann auch
Punkt-Binomialverteilung oder Bernoulli-Verteilung genannt.
Für die Wahrscheinlichkeitsverteilung gilt dann:
P ( X = 1) = π1 und P(X = 0) = π0 = 1 − π1
Erwartungswert und die Varianz sind:
μ X = π1 und σ X2 = π1 ⋅ (1 − π1 )
Eine Binomialverteilung mit den Parametern π1 und n kann als Summe statistisch unabhängiger
Bernoulli-Verteilungen mit jeweils gleichen Parameterwert π1 aufgefasst werden.
Generell gilt:
Wenn X1 binomialverteilt ist mit b(X1; m1, π1) und X2 binomialverteilt mit
b(X2; m2, π1), und X1 und X2 statistisch unabhängig voneinander sind,
dann ist die Summe Y = X1 + X2 ebenfalls binomialverteilt mit b(Y; m1+m2, π1).
Für den Erwartungswert und die Varianz gilt dann:
μ ( X1 ) = m1 ⋅ π1 ; σ 2 ( X1 ) = m1 ⋅ π1 ⋅ (1 − π1 )
μ ( X 2 ) = m 2 ⋅ π1 ; σ 2 ( X1 ) = m 2 ⋅ π1 ⋅ (1 − π1 )
μ ( Y ) = ( m1 + m 2 ) ⋅ π1 ; σ 2 ( X1 ) = ( m1 + m 2 ) ⋅ π1 ⋅ (1 − π1 )
Vorlesung Statistik I
31
Erwartungswert und Varianz von Linearkombinationen unabhängiger Zufallsvariablen
Die Berechnung von Erwartungswerten und Varianzen von Summen aus den Erwartungswerten
und Varianzen der Summanden gilt nicht nur für die Binomialverteilung, sondern generell und
lässt sich auf beliebige Linearkombinationen von unabhängigen Zufallsvariablen verallgemeinern.
Wenn (1) Y = b0 + b1 · X1 + b2 · X2 + ... + bK · XK,
(2) alle Xk statistisch unabhängig voneinander sind,
dann gilt für den Erwartungswert und die Varianz von Y:
K
μ Y = μ ( Y ) = b 0 + b1 ⋅ μ ( X1 ) + b 2 ⋅ μ ( X 2 ) + … + b K ⋅ μ ( X k ) = b 0 + ∑ b k ⋅ μ ( X k )
k =1
K
σ = σ ( Y ) = b ⋅ σ ( X1 ) + b ⋅ σ ( X 2 ) + … + b ⋅ σ ( X K ) = ∑ b k2 ⋅ σ 2 ( X k )
2
Y
2
2
1
2
2
2
2
2
K
2
k
Zwei Zufallsvariablen X und W sind statistisch unabhängig voneinander, wenn die Wahrscheinlichkeit des gemeinsamen Auftretens gerade das Produkt der Wahrscheinlichkeitsfunktionen ist: Pr ( X = x ∩ W = w ) = Pr ( X = x ) ⋅ Pr ( W = w ) für alle x und w
Diese Regel kann als Verallgemeinerung der Berechnung von Mittelwert und Varianz einer
Lineartransformation einer Variablen aufgefasst werden.
Tatsächlich gilt die Aussage auch entsprechend für die Verteilungen empirischer Variablen,
falls diese unkorreliert sind.
Auch für Zufallsvariablen gilt genaugenommen die schwächere Formulierung, dass die sog.
Produktmomentkorrelation zwischen allen Summanden null betragen muss.
Vorlesung Statistik I
32
Hypergeometrische Verteilung
Die Binimialverteilung gibt die Häufigkeit des Auftretens eines Ereignisses an, wenn ein Zufallsexperiment wiederholt wird. Diese Situation trifft auf eine einfache Zufallsauswahl mit
Zurücklegen zu. Die Binomialverteilung gibt also auch die Wahrscheinlichkeit der Häufigkeit
wieder, mit der ein beliebiges Populationsmerkmal A in einer Stichprobe vorkommt, die über
eine einfache Zufallsauswahl mit Zurücklegen gewonnen wurde.
Wenn es aber darum geht, mittels einer Stichprobe Informationen über eine Population zu gewinnen, warum sollte dann ein Element mehrfach ausgewählt werden? Realistischer ist eine
einfache Zufallsauswahl ohne Zurücklegen.
Wenn eine Population insgesamt N Elemente umfasst, von denen N1 eine interessierende Eigenschaft haben, dann können entsprechend N0 = N – N1 diese Eigenschaft nicht aufweisen.
In einer Stichprobe von n Elementen, die mit einer einfachen Zufallsauswahl ohne Zurücklegen
aus der Population gezogen wurden, weisen n1 Elemente die interessierende Eigenschaft auf,
wobei n1 entweder zwischen 0 und n oder zwischen 0 und N1 variieren kann, je nachdem, ob
n < N1 oder ob n > N1.
Entsprechend haben dann n0 = n – n1 der ausgewählten Elemente die interessierende Eigenschaft nicht.
Da in der Stichprobe n1 von maximal N1 Elementen die interessierende Eigenschaft A aufweisen können, gibt es „N1 über n1“ Möglichkeiten (Anordnungen), die n1 Elemente aus den N1
Elementen auszuwählen.
Vorlesung Statistik I
33
Hypergeometrische Verteilung
Analog gibt es „N0 über n0“ Möglichkeiten (Anordnungen), die n0 Elemente aus N0 ohne die
Eigenschaft A auszuwählen.
Die einfache Zufallsauswahl führt dazu, dass die Auswahl der n1 Elemente aus N1 mit der interessierenden Eigenschaft A unabhängig von der Auswahl der n0 Elemente aus N0 ohne diese
Eigenschaft erfolgt. Die Gesamtzahl der Anordnungen der n1 und n0 Elemente ist daher das
Produkt der beiden Möglichkeiten also „N1 über n1“ mal „N0 über n0“.
Insgesamt gibt es bei einer einfachen Zufallsauswahl ohne Zurücklegen „N über n“ Möglichkeiten, ohne Berücksichtigung der Anordnung n von N Elementen (egal ob mit oder ohne der
interessirenden Eigenschaft A!) auszuwählen.
Die Realisierungswahrscheinlichkeit einer einzelnen Stichprobe ist der Kehrwert dieser Zahl.
Die Wahrscheinlichkeit, dass von einer Stichprobe mit n Elementen genau n1 die interessierenden Eigenschaft A aufweisen, ist dann der Quotient aus den beiden Anzahlen:
⎛ N1 ⎞ ⎛ N 0 ⎞ ⎛ N1 ⎞ ⎛ N − N1 ⎞
⎜ n ⎟⋅⎜ n ⎟ ⎜ n ⎟⋅⎜ N − n ⎟
1 ⎠
Pr ( n1 ) = ⎝ 1 ⎠ ⎝ 0 ⎠ = ⎝ 1 ⎠ ⎝
⎛ N⎞
⎛ N⎞
⎜n⎟
⎜n⎟
⎝ ⎠
⎝ ⎠
Eine Zufallsvariable mit den möglichen Ausprägungen 0, 1, ..., n1 ist hypergeometrisch verteilt,
wenn die Wahrscheinlichkeitsfunktion dieser Formel folgt.
Vorlesung Statistik I
34
Hypergeometrische Verteilung
Die hypergeometrische Verteilung hat die drei Parameter n, N und N1.
Ist X hypergeometrisch verteilt, wird hierfür das Symbol h(X; n, N, N1) verwendet:
⎛ N1 ⎞ ⎛ N − N1 ⎞
( N − N1 )!
N1 !
⋅
⋅
⎜ n ⎟ ⎜ N − n ⎟ n !⋅ N − n ! n − n !⋅ N − N − n + n !
( 1 1) (
1) (
1
1)
1 ⎠
⎝
Pr ( X = n1 ) = h ( X = n1;n, N, N1 ) = 1 ⎠ ⎝
= 1
N!
⎛ N⎞
⎜n⎟
n!⋅ ( N − n )!
⎝ ⎠
Die Verteilungsfunktion ergibt sich über Aufsummieren:
⎛ N1 ⎞ ⎛ N − N1 ⎞
⎟⋅⎜ n − j ⎟
n1 ⎜
j
⎠
F ( X = n1 ) = Pr ( X ≤ n1 ) = ∑ ⎝ ⎠ ⎝
⎛ N⎞
j= 0
⎜n⎟
⎝ ⎠
Der Erwartungswert und die Varianz betragen:
μX = n ⋅
Vorlesung Statistik I
N1
N ⎛ N ⎞ N−n
und σ X2 = n ⋅ 1 ⋅ ⎜1 − 1 ⎟ ⋅
N
N ⎝
N ⎠ N −1
35
Hypergeometrische Verteilung
Pr(X) = h(X;5,20,10)
0.3483
0.3483
0.1354
0.1354
0.0163
0.0163
0
1
2
3
4
5
X
Pr(X) = h(X;10,20,10)
0.3437
0.2387
0.2387
0.0779
0.0779
0.011
0.011
0.0005
0.0005 0
0
0
1
Die Form der hypergeometrischen Verteilung hängt von den
Parametern ab. Sind die Häufigkeiten N1 und N0 in der Population gleich groß, d.h. N1/N = 0.5, dann ist die Verteilung
symmetrisch. Ist N1/N < 0.5, dann ist die Verteilung rechtsschief bzw. linkssteil, ist N1/N > 0.5, dann ist die Verteilung
linksschief bzw. rechtssteil. Mit steigender Stichprobengröße
nimmt die Schiefe ab, der Verlauf wird immer symmetrischer.
2
3
4
5
6
7
8
9
10
X
Pr(X) = h(X;5,20,7)
0.3874
0.3228
0.1761
0.083
0.0293
0
1
2
3
0.0014
4
5
X
Pr(X) = h(X;10,20,7)
0.3251 0.3251
0.1463
0.1463
0.0271
0.0015
0.0271
0.0015
0
1
2
3
4
5
6
7
0
0
0
8
9
10
X
Vorlesung Statistik I
36
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
b(X,10,0.5) und h(X,10,20,10) im Vergleich
b(X;10,0.5)
h(X;10,20,10)
0
1
2
3
4
5
6
7
8
9 10
X
Auch wenn in der Realität eher Zufallsauswahlen ohne Zurücklegen als mit Zurücklegen vorkommen, werden Wahrscheinlichkeiten häufiger über die Binomialverteilung berechnet, da die
Binomialverteilung einen Parameter weniger aufweist und einfacher zu berechnen ist.
Begründet wird dies mit der Ähnlichkeit der beiden Verteilungen. Die Abbildung zeigt aber
auch, dass bei gleichem n und gleichen Populationsanteilen π1 = N1/N die hypergeometrische
Verteilung enger um den Erwartungswert streut. Ursache ist die geringere Varianz.
Während die Erwartungswerte gleich sind, ist die Varianz der hypergeometrischen Verteilung
um den Faktor (N-n)/(N-1) geringer als die Varianz der Binomialverteilung.
Vorlesung Statistik I
37
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
0.4
Pr(X)
0.3
0.2
0.1
0
0
h(X;10,20,10)
1
2
3
4
h(X;10,100,50)
5
6
7
X
h(X;10,200,100)
8
9
10
b(X;10,0.5)
Wenn der Populationsumfang N relativ zum Stichprobenumfang n ansteigt, dann nähert sich
der Faktor (N–n)/(N–1)immer mehr den Wert eins an.
Tatsächlich nähern sich auch die Wahrscheinlichkeiten der Ausprägungen von Binomialverteilung und hypergeometrischer Verteilung immer mehr an.
Die Abbildung zeigt exemplarisch die Auftretetenswahrscheinlichkeiten von hypergeometrischen Verteilungen mit den Parametern h(X;10,20,10), h(X;10,100,50) und h(X;10,200,100)
sowie die Binomialverteilung mit den Parametern b(X,10,0.5). Gemeinsam ist allen Verteilungen, dass der Populationsanteil des betrachteten Merkmals A stets π1=N1/N=0.5 beträgt. Je
größer der Populationsumfang, desto ähnlicher sind sich die Verteilungen.
Vorlesung Statistik I
38
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
Für praktische Zwecke ist die Annäherung hinreichend genau, wenn das
Verhältnis von Populationsgröße zur
Stichprobengröße größer 20 ist:
N
> 20
n
Pr(X)
0.4
0.3
0.2
0.1
Diese Bedingung ist in der Umfrageforschung praktisch immer erfüllt.
0
0
1
2
3
4
5
6
7
8
9
10
X
h(X;10,20,10)
h(X;10,100,50)
h(X;10,200,100)
b(X;10,0.5)
Im Extremfall einer unendlich großen Population sind die beiden Verteilungen identisch.
Wenn eine Wahrscheinlichkeitsverteilung einer anderen unter bestimmten Bedingungen immer
ähnlicher wird, spricht man von einer asymptotischen Annäherung.
Die hypergeometrische Verteilung nähert sich der Binomialverteilung asymptotisch an, wenn
der Populationsumfang N über alle Grenzen ansteigt und dabei der betrachtete Populationsanteil
N1/N konstant bleibt:
N ⎞
⎛
lim ( h ( X, n, N, N1 ) ) = b ⎜ X;n, 1 ⎟
N →∞
N⎠
⎝
Vorlesung Statistik I
39
Wahrscheinlichkeiten von Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen
Die hypergeometrische Verteilung bzw. die Binomialverteilung kann genutzt werden, um die
Wahrscheinlichkeitsverteilungen von (absoluten) Häufigkeiten eines Merkmals A in einer
Stichprobe bei einfachen Zufallsauswahlen mit bzw. ohne Zurücklegen zu berechnen.
Über diese Wahrscheinlichkeitsverteilungen können aber auch die relative Häufgkeiten in der
Stichprobe berechnet werden.
Die Wahrscheinlichkeitsverteilung einer relative Häufigkeit p1 = n1/n lässt sich aus der Verteilung der absoluten Häufigkeit berechnen, da es sich um eine Lineartransformation handelt:
p1 = 0 + 1/n ·n1
Ausgangspunkt ist eine Population mit insgesamt N Elementen, von denen N1 eine interessierende Eigenschaft aufweisen. Wenn zufällig n=1 Element aus dieser Population ausgewählt
wird, beträgt die Wahrscheinlichkeit, dass das Element die interessierende Eigenschaft aufweist
π1 = N1/N. Die Wahrscheinlichkeitsverteilung ist dann bernoulliverteilt. Bei einer größeren
Fallzahl mit n > 1 Elementen ist dann die Häufigkeit bei einer einfachen Zufallsauswahl mit
Zurücklegen binomialverteilt mit den Parametern n und π1 = N1/N.
Bei einfachen Zufallsauswahlen mit Zurücklegen berechnet sich daher die Wahrscheinlichkeit
einer relative Häufigkeit p1 = n1/n über die Binomialverteilung nach:
p ⋅n
n ⋅(1− p1 )
N1 ⎞ ⎛ n ⎞ ⎛ N1 ⎞ 1 ⎛ N1 ⎞
⎛
⋅ ⎜ ⎟ ⋅ ⎜1 −
Pr ( p1 ) = b ⎜ X = n ⋅ p1;n, ⎟ = ⎜
⎟
⎟
N ⎠ ⎝ p1 ⋅ n ⎠ ⎝ N ⎠
N⎠
⎝
⎝
Vorlesung Statistik I
40
Wahrscheinlichkeiten von Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen
Die Binomialverteilung kann annäherungsweise auch bei einer einfachen Zufallsauswahl ohne
Zurücklegen verwendet werden, wenn der Populationsumfang N relativ zur Stichprobengröße n
sehr groß ist: N/n >20.
Ist diese Bedingung nicht erfüllt, berechnet sich die Wahrscheinlichkeit einer relative Häufigkeit
p1 = n1/n bei einer einfachen Zufallsauswahle ohne Zurücklegen über die hypergeometrische
Verteilung nach:
⎛ N1 ⎞ ⎛ N − N1 ⎞
⎜n ⋅p ⎟⋅⎜n − n ⋅p ⎟
1⎠ ⎝
1⎠
Pr ( p1 ) = b ( X = n ⋅ p1;n, N, N1 ) = ⎝
⎛n⎞
⎜ N⎟
⎝ ⎠
Die Gleichungen gelten jeweils nur unter der Bedingung p1 = n1/n. Bei anderen Werte p1 ≠ n1/n
sind die Auftretenswahrscheinlichkeiten stets null.
Für den Erwartungswert und die Varianz der Kennwerteverteilung eines Anteils folgt aus der
Regel für Linearkombinationen
• bei einer einfachen Zufallsauswahl mit Zurücklegen:
N
1 N ⎛ N ⎞
μ ( p1 ) = 1 und σ 2 ( p1 ) = ⋅ 1 ⋅ ⎜ 1 − 1 ⎟
N
n N ⎝
N⎠
• bei einer einfachen Zufallsauswahl ohne Zurücklegen:
N
1 N ⎛ N ⎞ N−n
μ ( p1 ) = 1 und σ 2 ( p1 ) = ⋅ 1 ⋅ ⎜1 − 1 ⎟ ⋅
N
n N ⎝
N ⎠ N −1
Vorlesung Statistik I
41
Haushaltsnummer der zweiten
Befragung
Anwendungsbeispiel
0
⎛2⎞ 4
⋅⎜ ⎟ =
⎝3⎠ 9
1
⎛2⎞ 4
⋅⎜ ⎟ =
⎝3⎠ 9
2
⎛2⎞ 1
⋅⎜ ⎟ =
⎝3⎠ 9
2! ⎛ 1 ⎞
Pr(p1 = 0.0) =
⋅⎜ ⎟
0!⋅ 2! ⎝ 3 ⎠
6
5
2
Pr(p1=0.0)
4
2! ⎛ 1 ⎞
Pr(p1 = 0.5) =
⋅⎜ ⎟
1!⋅1! ⎝ 3 ⎠
3
2
Pr(p1=1.0)
1
Pr(p1=0.5)
0
0
1
2
3
4
5
6
2! ⎛ 1 ⎞
Pr(p1 = 1.0) =
⋅⎜ ⎟
2!⋅ 0! ⎝ 3 ⎠
1
0
Haushaltsnummer der ersten Befragung
Wie wahrscheinlich ist es, dass bei der einfachen Zufallsauswahl mit Zurücklegen von n=2 aus
N=6 Haushalten der Anteil der ausgewählten Haushalte, die maximal 2000 € Monatseinkommen haben, 0.0, 0.5 bzw. 1.0 beträgt.
Der Anteil der Haushalte mit einem Einkommen von maximal 2000 € beträgt in der Population
2/6 = 1/3.
Dann gilt für die gesuchten Wahrscheinlichkeiten:
Pr(0.0) = 16/36 = b(X=0; 2, 1/3) = 4/9,
Pr(0.5) = 16/36 = b(X=1; 2, 1/3) = 4/9,
Pr(1.0) = 4/36 = b(X=2; 2, 1/3) = 1/9.
Vorlesung Statistik I
42
Herunterladen