Normalapproximation_Schuluebung_8i_1415

Werbung
3. Approximation der Binomialverteilung
durch die Normalverteilung
Bsp1:
Ein Spielwürfel wird 612 - Mal geworfen. Die Zufallsvariable 𝑋 beschreibt die Anzahl der
Sechsen.
1
Die Zufallsvariable 𝑋 ist binomialverteilt mit 𝑛 = 612 und 𝑝 = 6.
πœ‡ = 𝐸(𝑋) = 𝑛 βˆ™ 𝑝 = 102
𝜎 = √𝑉(𝑋) = √𝑛 βˆ™ 𝑝 βˆ™ (1 − 𝑝) = √85 ≈ 9,129
Die Zufallsvariable π‘Œ sei normalverteilt mit den Parametern πœ‡ = 100 und 𝜎 = √85
In folgender Abbildung ist die Wahrscheinlichkeitsverteilung von 𝑋 als Histogramm und
der Graph der Dichtefunktion der Zufallsvariable π‘Œ dargestellt.
0,04
0,03
0,02
0,01
0
70
75
80
85
90
95
100
105
110
115
120
125
130
Da die Balken des Histogramms die Breite 1 und die Höhe 𝑃(𝑋 = π‘˜) haben, ist ihr
Flächeninhalt gleich der Wahrscheinlichkeit 𝑃(𝑋 = π‘˜).
π‘˜
Summe der Rechtecke des Histogramms der
Binomialverteilung im Intervall [0; π‘˜]
𝑃(𝑋 ≤ π‘˜) = ∑ 𝑃(𝑋 = 𝑖)
𝑖=0
𝑃(π‘Œ ≤ π‘˜) =
1
√2πœ‹ βˆ™ 𝜎
π‘˜
1 π‘₯−πœ‡ 2
)
𝜎
βˆ™ ∫ 𝑒 −2βˆ™(
−∞
𝑑π‘₯
Fläche unter der Dichtefunktion der Normalverteilung im Intervall [−∞; π‘˜]
Wir berechnen die Wahrscheinlichkeit 𝑃(𝑋 ≤ 120):
1
𝑃(𝑋 ≤ π‘˜) = 𝐡𝐼𝑁𝑂𝑀𝑉𝐸𝑅𝑇 (120; 612; 6) = 0,97577
𝑃(𝑋 ≤ π‘˜) ≈ 𝑃(π‘Œ ≤ π‘˜) = 𝑁𝑂𝑅𝑀𝑉𝐸𝑅𝑇(120; 102; √85) = 0,97455
Bsp2:
In einer Meinungsumfrage werden 400 Personen befragt, ob sie eine bestimmte Partei
wählen werden. Lediglich 50 Personen geben an, dass sie die Partei wählen werden.
Die Zufallsvariable 𝑋, welche die Anzahl der Befragten wiedergibt, die angeben die
Partei zu wählen, ist binomialverteilt mit 𝑛 = 400 und dem unbekannten Anteilswert 𝑝.
Punktschätzung: 𝑝̂ =
50
= 0,125 = 12,5%
400
Berechnung der unteren Grenze 𝑝𝑒 eines 95% - Konfidenzintervalls
400
𝑃(𝑋 ≥ 50) = 0,025
→
400
) βˆ™ π‘π‘˜ βˆ™ (1 − 𝑝)400−π‘˜ = 0,025
π‘˜
∑ (
π‘˜=50
Die Wahrscheinlichkeit, dass mindestens 50 Befragte angeben die Partei zu wählen,
wird kleiner, wenn sich der Anteilswert 𝑝 verringert. Je kleiner der unbekannte
Anteilswert 𝑝 ist, desto unwahrscheinlicher ist es, dass mindestens 50 Befragte angeben
die Partei zu wählen.
Somit ist die untere Grenze 𝑝𝑒 der kleinste Anteilswert, bei dem noch angenommen
wird, dass mindestens 50 Befragte angeben die Partei zu wählen. Für kleinere Werte von
𝑝 erscheint dies zu unwahrscheinlich, da die Wahrscheinlichkeit unter 2,5% fällt.
𝑃(𝑋 ≥ 50) = 0,025
𝑃(𝑋 ≤ 49) = 0,975
𝑝𝑒 = 𝐡𝐸𝑇𝐴𝐼𝑁𝑉(0,025; 50; 351) = 0,09422
Berechnung der oberen Grenze π‘π‘œ eines 95% - Konfidenzintervalls
50
𝑃(𝑋 ≤ 50) = 0,025
→
400
) βˆ™ π‘π‘˜ βˆ™ (1 − 𝑝)400−π‘˜ = 0,025
π‘˜
∑(
π‘˜=0
Die Wahrscheinlichkeit, dass höchstens 50 Befragte angeben die Partei zu wählen, wird
kleiner, wenn sich der Anteilswert 𝑝 erhöht. Je größer der Anteilswert 𝑝 ist, desto
unwahrscheinlicher ist es, dass höchstens 50 Befragte angeben die Partei zu wählen.
Somit ist die obere Grenze π‘π‘œ der größte Anteilswert, bei dem noch angenommen wird,
dass höchstens 50 Befragte angeben die Partei zu wählen. Für größere Werte von 𝑝 erscheint dies zu unwahrscheinlich, da die Wahrscheinlichkeit unter 2,5% fällt.
𝑃(𝑋 ≤ 50) = 0,025
π‘π‘œ = 𝐡𝐸𝑇𝐴𝐼𝑁𝑉(0,975; 51; 350) = 0,16146
Im Intervall [0,09422; 0,16146] liegt der unbekannte Wähleranteil 𝑝 mit einer Wahrscheinlichkeit von 95%.
Approximation mit Hilfe der Normalverteilung:
Wir nehmen die Zufallsvariable 𝑋 als normalverteilt mit πœ‡ = 𝑛 βˆ™ 𝑝̂ = 400 βˆ™ 0,125 = 50
und 𝜎 = √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ ) = √43,75 ≈ 6,614 an.
Wir berechnen ein zum Erwartungswert πœ‡ symmetrisches Intervall, dass die Anzahl der
Befragten, die angeben die Partei zu wählen. mit einer Wahrscheinlichkeit von 𝛾 = 95%
enthält:
𝑃(πœ‡ − 𝑐 ≤ 𝑋 ≤ πœ‡ + 𝑐) = 𝛾
π‘₯−πœ‡ πœ‡+𝑐−πœ‡ 𝑐
=
=
𝜎
𝜎
𝜎
𝑐 = π‘§βˆ™πœŽ
𝑧=
Φ(𝑧) = 1 −
𝛼
2
𝛼
z = Φ−1 (1 − )
2
𝑃(πœ‡ − 𝑧 βˆ™ 𝜎 ≤ 𝑋 ≤ πœ‡ + 𝑧 βˆ™ 𝜎) = 𝛾
𝑃 (𝑛 βˆ™ 𝑝̂ − 𝑧 βˆ™ √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ ) ≤ 𝑋 ≤ 𝑛 βˆ™ 𝑝̂ + 𝑧 βˆ™ √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ )) = 𝛾
𝑃 (𝑝̂ −
𝑧
𝑋
𝑧
βˆ™ √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ ) ≤ ≤ 𝑝̂ + βˆ™ √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ )) = 𝛾
𝑛
𝑛
𝑛
𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ )
𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ )
√
𝑃 (𝑝̂ − 𝑧 βˆ™ √
≤
𝑝
≤
𝑝̂
+
𝑧
βˆ™
)=𝛾
𝑛2
𝑛2
𝑝̂ βˆ™ (1 − 𝑝̂ )
𝑝̂ βˆ™ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 𝑧 βˆ™ √
≤ 𝑝 ≤ 𝑝̂ + 𝑧 βˆ™ √
)=𝛾
𝑛
𝑛
Näherungsformel zur Berechnung eine 𝛾 - Konfidenzintervalls
𝛼
z = Φ−1 (1 − ) , wobei 𝛼 = 1 − 𝛾
2
𝑝̂ βˆ™ (1 − 𝑝̂ )
𝑝𝑒 = 𝑝̂ − 𝑧 βˆ™ √
𝑛
𝑝̂ βˆ™ (1 − 𝑝̂ )
π‘π‘œ = 𝑝̂ + 𝑧 βˆ™ √
𝑛
Wenn diese Formel verwendet wird, sollte π‘˜ ≥ 50 und 𝑛 − π‘˜ ≥ 50 sein. Trotzdem kann
die Verwendung des Standard-Intervalls problematisch sein.
Für die gegebene Meinungsumfrage ist 𝑛 = 400 und 𝑝̂ = 0,125.
𝛼 = 1 − 𝛾 = 1 − 0,95 = 0,05
𝛼
z = Φ−1 (1 − ) = Φ−1 (0,975) = 𝑁𝑂𝑅𝑀𝐼𝑁𝑉(0,975; 0; 1) = 1,959963985 ≈ 1,96
2
𝑝̂ βˆ™ (1 − 𝑝̂ )
𝑝𝑒 = 𝑝̂ − 𝑧 βˆ™ √
= 0,09259
𝑛
𝑝0 = 𝑝̂ + 𝑧 βˆ™ √
𝑝̂ βˆ™ (1 − 𝑝̂ )
= 0,15741
𝑛
Die Näherungsformel ergibt das Konfidenzintervall [0,09259; 0,15741], die exakte
Berechnung mit der Binomialverteilung das Konfidenzintervall [0,09422; 0,16146].
Bsp3:
In einer Meinungsumfrage unter 500 zufällig ausgewählten Personen zu Gentechnik in
Lebensmitteln lehnen 80% der Befragten diese ab. Aufgrund dieses Ergebnisses gibt das
Meinungsforschungsinstitut an, dass der Anteil der Personen, die Gentechnik in Lebensmitteln ablehnen, zwischen 76% und 84% liegt.
Mit welcher Sicherheit kann diese Behauptung aufgestellt werden?
D.h. mit welcher Wahrscheinlichkeit liegt die Anzahl der Befragten die die Gentechnik
ablehnen im vom Meinungsforschungsinstitut angegebenen Konfidenzintervall?
Berechnung der Überdeckungswahrscheinlichkeit mit der Binomialverteilung:
0,76 βˆ™ 500 = 380
0,84 βˆ™ 500 = 420
𝑃(380 ≤ 𝑋 ≤ 420) = 𝐡𝐼𝑁𝑂𝑀𝑉𝐸𝑅𝑇(420; 500; 0,8; 1) − 𝐡𝐼𝑁𝑂𝑀𝑉𝐸𝑅𝑇(379; 500; 0,8; 1)
𝑃(380 ≤ 𝑋 ≤ 420) = 0,97824
Mit einer Wahrscheinlichkeit von 97,8% kann gesagt werden, dass der Anteil der
Personen, die Gentechnik in Lebensmitteln ablehnen, zwischen 76% und 84% liegt.
Berechnung der Überdeckungswahrscheinlichkeit mit der Normalverteilung:
πœ‡ = 𝑛 βˆ™ 𝑝̂ = 500 βˆ™ 0,8 = 400
0,76 βˆ™ 500 = 380
𝜎 = √𝑛 βˆ™ 𝑝̂ βˆ™ (1 − 𝑝̂ ) = √80 ≈ 8,944
0,84 βˆ™ 500 = 420
𝑃(380 ≤ 𝑋 ≤ 420) ≈ 𝑁𝑂𝑅𝑀𝑉𝐸𝑅𝑇(420; 400; √80; 1) − 𝑁𝑂𝑅𝑀𝑉𝐸𝑅𝑇(380; 400; √80; 1)
𝑃(380 ≤ 𝑋 ≤ 420) ≈ 0,97465
Mit einer Wahrscheinlichkeit von 97,5% kann gesagt werden, dass der Anteil der
Personen, die Gentechnik in Lebensmitteln ablehnen, zwischen 76% und 84% liegt.
Bsp4:
Berechne die Überdeckungswahrscheinlichkeiten für die in Bsp2 ermittelten Konfidenzintervalle mit Hilfe der Binomialverteilung.
Beachte:
Die Berechnung mit Hilfe der Näherungsformel liefert das Konfidenzintervall
[0,09259; 0,15741] mit einer Überdeckungswahrscheinlichkeit von 0,94178.
Die Überdeckungswahrscheinlichkeit liegt somit unter den geforderten 95%.
Die exakte Berechnung mit Hilfe der Binomialverteilung liefert das Konfidenzintervall
[0,09422; 0,16146] mit einer Überdeckungswahrscheinlichkeit von 0,95754.
Bsp5:
Eine Fluggesellschaft weiß aus Erfahrung, dass bei Langstreckenflügen 10% der gebuchten Tickets nicht in Anspruch genommen werden. Sie setzt für diese Flüge Flugzeuge
vom Typ Airbus A380-800 mit 526 Sitzplätzen ein.
Wie viele Plätze dürfen überbucht werden, damit das Risiko Fluggäste zurückweisen zu
müssen höchstens 1% beträgt?
Berechnung mit der Binomialverteilung:
𝑋 … Anzahl der erscheinenden Fluggäste; 𝑛 = unbekannt; 𝑝 = 0,9
𝑃(𝑋 ≤ 526) = 0,99
→
𝑛 = 567
Soll das Risiko, dass Fluggäste zurückgewiesen werden müssen höchstens 1% betragen
so dürfen nicht mehr als 41 Plätze überbucht werden.
Berechnung mit der Standardnormalverteilung:
𝑃(𝑍 ≤ 𝑧) = 0,99
→
𝑧 = 𝑁𝑂𝑅𝑀𝐼𝑁𝑉(0,99; 0; 1) = 2,326347874
𝑋−πœ‡
𝜎
526 − πœ‡
𝑧=
𝜎
𝑍=
𝑧 βˆ™ √𝑛 βˆ™ 0,9 βˆ™ 0,1 = 526 − 𝑛 βˆ™ 0,9
𝑧 2 βˆ™ 𝑛 βˆ™ 0,09 = (526 − 𝑛 βˆ™ 0,9)2
Die Gleichung besitzt die Lösungen 𝑛1 = 565,996 ≈ 566 und 𝑛2 = 603,494 ≈ 603.
Herunterladen