Stichproben − Parameterschätzung − Konfidenzintervalle: Beispiel Wahlprognose: Die Grundgesamtheit hat einen Prozentsatz p der Partei A wählt. Wenn dieser Prozentsatz bekannt ist, dann kann man z.B. ausrechnen, mit welcher Wahrscheinlichkeit in einer zufällig ausgewählten Gruppe von n Personen der relative Anteil rn der A-WählerInnen im Intervall [p − ε ; p + ε ] liegt. Oder zwischen welchen Grenzen [p − ε ; p + ε ] mit 99%iger Wahrscheinlichkeit der relative Anteil der A-WählerInnen liegen wird. Z.B.: Wir wissen, dass 30% der Bevölkerung A-Wähler sind. 50 Personen werden zufällig ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass der relative Anteil der A-Wähler unter den 50 ausgewählten Personen zwischen 29 und 33% liegt? Bei der Wahlprognose ist es genau umgekehrt: Man kennt den Anteil p der A-WählerInnen in der Bevölkerung nicht. Man befragt n Personen, bestimmt den relativen Anteil rn der A-WählerInnen und möchte Aussagen über den relativen Anteil p der A-Wähler in der gesamten Bevölkerung machen. Es ist intuitiv klar, (1) dass der relative Anteil rn in der Stichprobe ungefähr dem relativen Anteil in der Gesamtbevölkerung entspricht. Wir können also den Anteil p der AWählerInnen in der Gesamtbevölkerung durch den relativen Anteil rn der A-WählerInnen in der Stichprobe schätzen. (2) dass die Schätzung des unbekannten Anteils p umso genauer wird, je größer die Stichprobe ist. Das Ergebnis der Wahlprognose wird also ein Intervall liefern, das mit einer gewissen Genauigkeit den Anteil p der A-WählerInnen in der Grundgesamtheit voraussagt. Z.B.: Mit 99%iger Wahrscheinlichkeit liegt der Anteil p der A-WählerInnen eines Landes zwischen 37,5 und 40,2%. Das Ergebnis wird also ein Intervall [rn − ε ; rn + ε ] in dem der relative Anteil der Grundgesamtheit mit Wahrscheinlichkeit γ liegt. Ein solches Intervall heißt γ -Konfidenzintervall. Wir wollen die Aussagen (1) und (2) allgemein zeigen: Sei X eine Zufallsvariable, die eine bestimmte Größe misst (z.B.: das Gewicht eines Menschen) Wir wollen das Durchschnittsgewicht µ der Gesamtbevölkerung schätzen und ziehen dazu eine Stichprobe mit Größe n. Wir berechnen das arithmetische Mittel aus den Stichprobenwerten X̄ = und berechnen dessen Erwartungswert: E(X̄) = Wenn wir viele Stichproben ziehen, dann ist der Durchschnitt der Stichprobenmittelwerte gleich dem Erwartungswert der Grundgesamtheit. Damit ist gezeigt, dass (1) zurecht angenommen werden darf. Var(X̄) = Damit ist (2) gezeigt. Wir können daher für das arithmetische Mittel einer zufälligen Stichprobe folgende wichtige Ergebnisse notieren: Sind X1 , . . . , Xn unabhängige Zufallsvariable mit E(Xi ) = µ und Var(Xi ) = σ 2 dann gilt: E(X̄) = und Var(X̄) = ∀ i = 1, . . . , n Spezialfall: Normalverteilte Zufallsvariable: ³ ´ Sind alle Xi normalverteilt mit Xi ∼ N(µ , σ 2 ), dann gilt: X̄ ∼ N µ , σ2 n Zentraler Grenzwertsatz: Folgen alle Xi derselben Verteilung (aber nicht der Normalverteilung), dann unterscheidet sich bei hinreichend großem n die ³ ´ 2 Verteilung von X̄ kaum von N µ , σn Konfidenzintervall für den Erwartungswert einer normalverteilten Zufallsvariable bei bekannter Varianz σ 2 : Sei X̄ der Mittelwert einer Stichprobe mit Größe n und σ 2 die Varianz der Zufallsvariable. Wir wissen, dass der Mittelwert der Stichprobe verteilt ist. Für die Standardnormalverteilung gilt: µ ¶ P ≤z≤ = 1−α ³ Wenn wir X̄ ∼ N µ , µ P σ2 n ´ standardisieren, dann gilt: ¶ ≤ ≤ = 1−α Jetzt können wir die Doppelungleichung im Inneren umformen und es entsteht: µ P ¶ ≥ ≥ = 1−α Anders aus gedrückt: Der Erwartungswert µ der Zufallsvariable X liegt mit Wahrscheinlichkeit (1 − α ) im Intervall: Möchte man wissen, wie groß die Stichprobe sein muss, um ein (1 − α )−Konfidenzintervall mit einer bestimmten Höchstlänge zu bekommen, so gilt: Beispiel 1: Eine Maschine erzeugt Würste. Der Sollwert µ für die Masse der Würste kann an der Maschine eingestellt werden. Die Masse der von dieser Maschine produzierten Würste ist normalverteilt mit dem eingestellten Sollwert µ und einer Standardabweichung σ = 6 g, weil die Maschine nicht genauer arbeiten kann. Die Maschine ist auf µ =250 g eingestellt. Es gibt Beschwerden von Konsumenten, die behaupten, die Würste seien zu leicht. Der Wursthersteller möchte überprüfen, ob die Maschine korrekt arbeitet und macht eine Stichprobe indem er 25 Würste abwiegt. Der Mittelwert der Stichprobe ergibt 247 g. (a) Gib ein 95%-Konfidenzintervall für das Durchschnittsgewicht der Würste von dieser Maschine an! D.h.: Ein 95%-Konfidenzintervall für den µ -Wert mit dem die Maschine tatsächlich arbeitet (b) Bestimme die Stichprobengröße für ein 99%-Konfidenzintervall mit 3 g Breite für den Test der Abfüllanlage! Beispiel 2: Für die Wahl in einer Stadt mit 1,5 Millionen Einwohnern wird eine Prognose erstellt. Dazu werden 400 zufällig ausgewählte Personen befragt. 125 Personen haben angegeben Partei A wählen zu wollen. (a) Gib an zwischen welchen Werten der Anteil der A-Wähler der Stadt mit i. 95%iger ii. 99%iger Wahrscheinlichkeit liegen wird! (95%-Konfidenzintervall und 99%-Konfidenzintervall) (b) Wieviele Personen müsste man befragen, um den Anteil der AWähler mit i. 95%iger ii. 99%iger auf 1% bzw. ±2% genau vorauszusagen. Exkurs: Verteilung des Mittelwerts einer normalverteilten Zufallsvariable bei unbekannter Varianz Ist die Varianz einer normalverteilten Zufallsvariable unbekannt, so kann sie mit der empirischen Varianz 2 Sn−1 1 n 2 = (Xi − X̄) ∑ n − 1 i=1 ¡ 2 ¢ geschätzt werden. Man kann zeigen, dass E Sn−1 = σ2 Standardisiert man die Zufallsvariable X̄ wie eine normalverteilte Zufallsvariable, so entsteht die Zufallsvariable X̄ − µ X̄ − µ √ T= √2 = n Sn−1 s √ s mit n s= 1 n 2 (Xi − X̄) ∑ n − 1 i=1 Die Zufallsvariable T folgt der sogenannten Studentverteilung mit d f = n−1 Freiheitsgraden. (Kurz: tn−1 -Verteilung) Die tn -Verteilungen sind symmetrisch und werden mit großem n der N(0, 1) Verteilung sehr ähnlich. Beispiel 3: Ein Konsument schreibt eine Woche lang die auf ganze Euro gerundete Summe für seine täglichen Einkäufe auf und möchte daraus abschätzen, welchen Betrag er pro Jahr für „tägliche“ Konsumgüter ausgibt. Folgende Summen sind entstanden: 27, 38, r s= 21, 55, 31 X̄ = 34.4 (34.4 − 27)2 + (34.4 − 38)2 + (34.4 − 21)2 + (34.4 − 55)2 + (34.4 − 31)2 = 13.069 4 (a) Gib ein 90%-Konfidenzintervall für die täglichen Ausgaben des Konsumenten an! (b) Gib ein 95%-Konfidenzintervall für die täglichen Ausgaben des Konsumenten an! (c) Schätze die jährlichen Ausgaben ab! Exkurs: Konfidenzintervall für die Differenz zweier Erwartungswerte von normalverteilten ZV bei bekannten Varianzen σ1 und σ2 Sei E(X̄1 ) = µ1 , E(X̄2 ) = µ2 σ12 , Var(X̄1 ) = n1 σ22 Var(X̄2 ) = n2 Mit den Rechenregeln für Zufallsvariablen erhalten wir: E(X̄1 − X̄2 ) = E(X̄1 ) − E(X̄2 ) = µ1 − µ2 σ12 σ22 Var(X̄1 − X̄2 ) = Var(X̄1 ) +Var(X̄1 ) = + n1 n2 s σD = σ12 σ22 + n1 n2 . . . Standardabweichung der Differenz der Stichprobenmittelwerte Weil X̄1 und X̄2 normalverteilt sind, ist die Differenz der Stichprobenmittelwerte (X̄1 − X̄2 ) ∼ N(X̄1 − X̄2 , σD2 ) Wir können in die Formel für das Konfidenzintervall für den Erwartungswert einer normalverteilten Zufallsvariable mit bekannter Varianz einsetzen und erhalten für ein (1 − α )-Konfidenzintervall für (µ1 − µ2 ): h ³ ³ i α´ α´ N N (X̄1 − X̄2 ) − Q 1 − · σD , (X̄1 − X̄2 ) − Q 1 − · σD 2 2 Bemerkung: Auf Grund des zentralen Grenzwertsatzes kann bei großen n1 und n2 die Voraussetzung dass die ZV normalverteilt sind, entfallen. Beispiel 4: Um herauszufinden, ob die Kopfhaardichte von Schwarzhaarigen oder von Blonden höher ist wurde bei 10 blonden und 12 schwarzhaarigen Personen jeweils die Anzahl der Haare auf einem cm2 an einer bestimmten Stelle des Kopfs gezählt. Die Ergebnisse sind in der folgenden Tabelle zusammengefasst: Schwarzhaarige Blonde X̄ s2 174, 204, 196, 195, 180, 206, 176, 200, 209, 186, 182, 199 192.25 147.8 199, 229, 200, 203, 224, 200, 182, 190, 182, 193 200.2 247.1 Gib ein 95%-Konfidenzintervall für den Erwartungswert der Differenz der Mittelwerte an!