Stichproben − Parameterschätzung − Konfidenzintervalle:

Stichproben − Parameterschätzung − Konfidenzintervalle:
Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei
A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.B. ausrechnen,
mit welcher Wahrscheinlichkeit in einer zufällig ausgewählten Gruppe von n Personen der relative Anteil rn der A-WählerInnen im Intervall [p − ε ; p + ε ] liegt.
Oder zwischen welchen Grenzen [p − ε ; p + ε ] mit 99%iger Wahrscheinlichkeit
der relative Anteil der A-WählerInnen liegen wird.
Z.B.: Wir wissen, dass 30% der Bevölkerung A-Wähler sind. 50 Personen werden
zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass der relative Anteil
der A-Wähler unter den 50 ausgewählten Personen zwischen 29 und 33% liegt?
Bei der Wahlprognose ist es genau umgekehrt:
Man kennt den Anteil p der A-WählerInnen in der Bevölkerung nicht. Man befragt n Personen, bestimmt den relativen Anteil rn der A-WählerInnen und möchte
Aussagen über den relativen Anteil p der A-Wähler in der gesamten Bevölkerung
machen.
Es ist intuitiv klar,
(1) dass der relative Anteil rn in der Stichprobe ungefähr dem relativen Anteil
in der Gesamtbevölkerung entspricht. Wir können also den Anteil p der AWählerInnen in der Gesamtbevölkerung durch den relativen Anteil rn der
A-WählerInnen in der Stichprobe schätzen.
(2) dass die Schätzung des unbekannten Anteils p umso genauer wird, je größer
die Stichprobe ist.
Das Ergebnis der Wahlprognose wird also ein Intervall liefern, das mit einer gewissen Genauigkeit den Anteil p der A-WählerInnen in der Grundgesamtheit voraussagt.
Z.B.: Mit 99%iger Wahrscheinlichkeit liegt der Anteil p der A-WählerInnen eines
Landes zwischen 37,5 und 40,2%.
Das Ergebnis wird also ein Intervall [rn − ε ; rn + ε ] in dem der relative Anteil
der Grundgesamtheit mit Wahrscheinlichkeit γ liegt. Ein solches Intervall heißt
γ -Konfidenzintervall.
Wir wollen die Aussagen (1) und (2) allgemein zeigen: Sei X eine Zufallsvariable,
die eine bestimmte Größe misst (z.B.: das Gewicht eines Menschen) Wir wollen
das Durchschnittsgewicht µ der Gesamtbevölkerung schätzen und ziehen dazu eine Stichprobe mit Größe n. Wir berechnen das arithmetische Mittel aus den Stichprobenwerten
X̄ =
und berechnen dessen Erwartungswert:
E(X̄) =
Wenn wir viele Stichproben ziehen, dann ist der Durchschnitt der Stichprobenmittelwerte gleich dem Erwartungswert der Grundgesamtheit. Damit ist
gezeigt, dass (1) zurecht angenommen werden darf.
Var(X̄) =
Damit ist (2) gezeigt.
Wir können daher für das arithmetische Mittel einer zufälligen Stichprobe
folgende wichtige Ergebnisse notieren:
Sind X1 , . . . , Xn unabhängige Zufallsvariable mit
E(Xi ) = µ
und
Var(Xi ) = σ 2
dann gilt:
E(X̄) =
und
Var(X̄) =
∀ i = 1, . . . , n
Spezialfall: Normalverteilte Zufallsvariable:
³
´ Sind alle Xi normalverteilt mit
Xi ∼ N(µ , σ 2 ), dann gilt: X̄ ∼ N µ ,
σ2
n
Zentraler Grenzwertsatz: Folgen alle Xi derselben Verteilung (aber nicht der
Normalverteilung), dann unterscheidet
sich bei hinreichend großem n die
³
´
2
Verteilung von X̄ kaum von N µ , σn
Konfidenzintervall für den Erwartungswert einer normalverteilten Zufallsvariable bei bekannter Varianz σ 2 :
Sei X̄ der Mittelwert einer Stichprobe mit Größe n und σ 2 die Varianz der
Zufallsvariable.
Wir wissen, dass der Mittelwert der Stichprobe
verteilt ist.
Für die Standardnormalverteilung gilt:
µ
¶
P
≤z≤
= 1−α
³
Wenn wir X̄ ∼ N µ ,
µ
P
σ2
n
´
standardisieren, dann gilt:
¶
≤
≤
= 1−α
Jetzt können wir die Doppelungleichung im Inneren umformen und es entsteht:
µ
P
¶
≥
≥
= 1−α
Anders aus gedrückt: Der Erwartungswert µ der Zufallsvariable X liegt mit
Wahrscheinlichkeit (1 − α ) im Intervall:
Möchte man wissen, wie groß die Stichprobe sein muss, um ein
(1 − α )−Konfidenzintervall mit einer bestimmten Höchstlänge zu bekommen, so gilt:
Beispiel 1: Eine Maschine erzeugt Würste. Der Sollwert µ für die Masse der
Würste kann an der Maschine eingestellt werden. Die Masse der von dieser Maschine produzierten Würste ist normalverteilt mit dem eingestellten
Sollwert µ und einer Standardabweichung σ = 6 g, weil die Maschine nicht
genauer arbeiten kann. Die Maschine ist auf µ =250 g eingestellt.
Es gibt Beschwerden von Konsumenten, die behaupten, die Würste seien zu
leicht. Der Wursthersteller möchte überprüfen, ob die Maschine korrekt arbeitet und macht eine Stichprobe indem er 25 Würste abwiegt. Der Mittelwert
der Stichprobe ergibt 247 g.
(a) Gib ein 95%-Konfidenzintervall für das Durchschnittsgewicht der
Würste von dieser Maschine an!
D.h.: Ein 95%-Konfidenzintervall für den µ -Wert mit dem die Maschine tatsächlich arbeitet
(b) Bestimme die Stichprobengröße für ein 99%-Konfidenzintervall mit
3 g Breite für den Test der Abfüllanlage!
Beispiel 2: Für die Wahl in einer Stadt mit 1,5 Millionen Einwohnern wird eine
Prognose erstellt. Dazu werden 400 zufällig ausgewählte Personen befragt.
125 Personen haben angegeben Partei A wählen zu wollen.
(a) Gib an zwischen welchen Werten der Anteil der A-Wähler der Stadt
mit
i. 95%iger
ii. 99%iger
Wahrscheinlichkeit liegen wird!
(95%-Konfidenzintervall und 99%-Konfidenzintervall)
(b) Wieviele Personen müsste man befragen, um den Anteil der AWähler mit
i. 95%iger
ii. 99%iger
auf 1% bzw. ±2% genau vorauszusagen.
Exkurs: Verteilung des Mittelwerts einer normalverteilten Zufallsvariable bei
unbekannter Varianz
Ist die Varianz einer normalverteilten Zufallsvariable unbekannt, so kann sie
mit der empirischen Varianz
2
Sn−1
1 n
2
=
(Xi − X̄)
∑
n − 1 i=1
¡ 2 ¢
geschätzt werden. Man kann zeigen, dass E Sn−1
= σ2
Standardisiert man die Zufallsvariable X̄ wie eine normalverteilte Zufallsvariable, so entsteht die Zufallsvariable
X̄ − µ X̄ − µ √
T= √2 =
n
Sn−1
s
√
s
mit
n
s=
1 n
2
(Xi − X̄)
∑
n − 1 i=1
Die Zufallsvariable T folgt der sogenannten Studentverteilung mit d f = n−1
Freiheitsgraden. (Kurz: tn−1 -Verteilung)
Die tn -Verteilungen sind symmetrisch und werden mit großem n der N(0, 1)
Verteilung sehr ähnlich.
Beispiel 3: Ein Konsument schreibt eine Woche lang die auf ganze Euro gerundete Summe für seine täglichen Einkäufe auf und möchte daraus abschätzen,
welchen Betrag er pro Jahr für „tägliche“ Konsumgüter ausgibt. Folgende
Summen sind entstanden:
27,
38,
r
s=
21,
55,
31
X̄ = 34.4
(34.4 − 27)2 + (34.4 − 38)2 + (34.4 − 21)2 + (34.4 − 55)2 + (34.4 − 31)2
= 13.069
4
(a) Gib ein 90%-Konfidenzintervall für die täglichen Ausgaben des
Konsumenten an!
(b) Gib ein 95%-Konfidenzintervall für die täglichen Ausgaben des
Konsumenten an!
(c) Schätze die jährlichen Ausgaben ab!
Exkurs: Konfidenzintervall für die Differenz zweier Erwartungswerte von
normalverteilten ZV bei bekannten Varianzen σ1 und σ2
Sei
E(X̄1 ) = µ1 ,
E(X̄2 ) = µ2
σ12
,
Var(X̄1 ) =
n1
σ22
Var(X̄2 ) =
n2
Mit den Rechenregeln für Zufallsvariablen erhalten wir:
E(X̄1 − X̄2 ) = E(X̄1 ) − E(X̄2 ) = µ1 − µ2
σ12 σ22
Var(X̄1 − X̄2 ) = Var(X̄1 ) +Var(X̄1 ) =
+
n1 n2
s
σD =
σ12 σ22
+
n1 n2
. . . Standardabweichung der Differenz der
Stichprobenmittelwerte
Weil X̄1 und X̄2 normalverteilt sind, ist die Differenz der Stichprobenmittelwerte
(X̄1 − X̄2 ) ∼ N(X̄1 − X̄2 , σD2 )
Wir können in die Formel für das Konfidenzintervall für den Erwartungswert
einer normalverteilten Zufallsvariable mit bekannter Varianz einsetzen und
erhalten für ein (1 − α )-Konfidenzintervall für (µ1 − µ2 ):
h
³
³
i
α´
α´
N
N
(X̄1 − X̄2 ) − Q 1 −
· σD , (X̄1 − X̄2 ) − Q 1 −
· σD
2
2
Bemerkung: Auf Grund des zentralen Grenzwertsatzes kann bei großen n1
und n2 die Voraussetzung dass die ZV normalverteilt sind, entfallen.
Beispiel 4: Um herauszufinden, ob die Kopfhaardichte von Schwarzhaarigen oder
von Blonden höher ist wurde bei 10 blonden und 12 schwarzhaarigen Personen jeweils die Anzahl der Haare auf einem cm2 an einer bestimmten Stelle
des Kopfs gezählt. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst:
Schwarzhaarige
Blonde
X̄
s2
174, 204, 196, 195, 180, 206, 176, 200, 209, 186, 182, 199
192.25
147.8
199, 229, 200, 203, 224, 200, 182, 190, 182, 193
200.2
247.1
Gib ein 95%-Konfidenzintervall für den Erwartungswert der Differenz der Mittelwerte an!