Dr. Marcel Dettling Dr. Daniel Haase [email protected] 21.05.2010 FS 2010 Grundlagen der Mathematik II (LVA 401-0622-00 U) Lösung 11 Zur Übungsstunde vom 21.05.2010 Aufgabe 31 (Rechnen mit der Normalverteilung) Eine Kunststoffpresse produziert CD-Rohlinge mit einem Durchmesser von 12cm. Die Maschine ist leider nicht perfekt, und produziert Rohlinge deren Durchmesser X normalverteilt ist mit Mittelwert µ = 12cm und Varianz σ 2 = 0.2cm2 . Eine CD ist unverkäuflich, wenn ihre Länge ≤ 11.8cm oder ≥ 12.1cm ist. (a) (b) (c) (d) Bestimme die Wahrscheinlichkeit, dass ein produzierter Rohling unverkäuflich ist. Wie hoch ist die Wahrscheinlichkeit, dass der Durchmesser unter dem Mittelwert 12cm liegt? Wie hoch ist die Wahrscheinlichkeit, dass der Durchmesser um mehr als 0.5cm von µ abweicht? Finde ein Intervall um den Mittelwert 12cm, so dass der Durchmesser von nur 1% der produzierten CD’s nicht im Intervall liegt. (e) Es sei X normalverteilt mit unbekanntem Mittelwert µ und Standardabweichung σ. Drücke die Wahrscheinlichkeiten P (µ − kσ ≤ X ≤ µ + kσ) für k ∈ N mit Hilfe der Verteilungsfunktion Φ der Standardnormalverteilung für N (0, 1) aus. Berechne diese Werte für k = 1, 2, 3. Lösung Zu a): Eine CD ist unverkäuflich, wenn x ≤ 11.8cm oder x ≥ 12.1cm ist, die Wahrscheinlichkeiten für die beiden halbfoffenen Intervalle darf man addieren, weil die Intervalle disjunkt sind: P (x ≤ 11.8cm) + P (x ≥ 12.1cm) = F (11.8) + (1 − F (12.1)) wobei F (x) die Verteilungsfunktion der Zufallsvariablen X ∼ N (12, 0.2) ist. Eine Anfrage an Mathematica liefert CDF[X,11.8]=0.327283 sowie√CDF[X,12.1]=0.58851 nachdem X mit X=NormalDistribution[12,0.447] initialisiert wurde, wobei 0.447 = 0.2 die Standardabweichung ist. Damit erhalten wir P (x ≤ 11.8cm) + P (x ≥ 12.1cm) = 0.327283 + (1 − 0.58851) = 0.738773 . Hier als Alternative auch die Lösung der Aufgabe per Tabelle: Auf der Tabelle der Standardnormalverteilung findet sich nur die Verteilungsfunktion für N (0, 1). Wir stellen daher zu X die standardisierte Zufallsvariable auf: X −µ X − 12cm Z = = √ . σ 0.2cm Dann ist Z ∼ N (0, 1) standardnormalverteilt, ihre kumulative Verteilungsfunktion Φ(z) kann aus der Tabelle abgelesen werden. Wir müssen die Frage (a) nun in eine Aussage für Z übersetzen: P (unverkäuflich) = P (X ≤ 11.8cm) + P (X ≥ 12.1cm) = P = P (Z ≤ −0.4474) + P (Z ≥ 0.2237) = P (Z ≤ −0.4474) + 1 − P (Z ≤ 0.2237) = Φ(−0.447) + (1 − Φ(0.2237)) = 1 − Φ(0.447) + 1 − Φ(0.2237) X − 12 11.8 − 12 ≤ 0.447 0.447 + P X − 12 12.1 − 12 ≥ 0.447 0.447 wobei Φ(z) die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist. Ablesen aus der Tabelle ergibt Φ(0.2237) = 0.5871 und Φ(0.447) = 0.67, also ist die gefragte Wahrscheinlichkeit 1 − 0.67 + 1 − 0.5871 = 0.7429 . Zu b): Da die Normalverteilung N (µ, V ) immer symmetrisch ist um ihren Mittelwert µ, kann man ohne Rechnung P (X ≤ µ) = P (X < µ) = 12 schließen. Wir machen die Rechnung trotzdem vollständig mit der standardisierten Variablen Z aus Teil a): 1 X − 12cm ≤ 0cm = P (Z ≤ 0) = Φ(0) = . P (X ≤ 12cm) = P (X − 12cm ≤ 0cm) = P Tabelle 2 0.447cm Zu c): Hier ist nach dem Gegenereignis von 11.5cm ≤ X ≤ 12.5cm gefragt. Wir beantworten die Frage wieder erst mit Mathematica, dann mit der Tabelle: 1 − P (11.5cm ≤ X ≤ 12.5cm) = 1 − (F (12.5) − F (11.5)) = 1 − (0.868338 − 0.131665) = 0.263334 wobei F = CDF[X] die Verteilungsfunktion von N (12, 0.447) ist. Die Rechnung mit der Tabelle über Standardisierung ist 0.5cm X − 12cm 0.5cm 1 − P (11.5cm ≤ X ≤ 12.5cm) = 1 − P − ≤ ≤ = 1 − P (−1.12 ≤ Z ≤ 1.12) 0.447cm 0.447cm 0.447cm = 1 − (Φ(1.12) − Φ(−1.12)) = 1 − (Φ(1.12) − (1 − Φ(1.12))) = 2 − 2Φ(1.12) = Tabelle 2 − 2 · 0.8686 = 0.2628 . Der Unterscheid zum Mathematica-Ergebnis kommt durch die Rundung in der Tabelle zustande. Zu d): Hier ist nach einer Fehlermarge ε gefragt, so dass P (12 − ε ≤ X ≤ 12 + ε) = 1 − 1% = 0.99 ist. Transformation auf die standardisierte Variable ergibt 0.99 ! = P (12 − ε ≤ X ≤ 12 + ε) = P = Φ(2.237ε) − Φ(−2.237ε) = 2Φ(2.237ε) − 1 12 + ε − 12 12 − ε − 12 ≤ Z ≤ 0.447 0.447 oder gleichbedeutend Φ(2.237ε) = 0.995 . Initialisiert man Z mit der Standardnormalverteilung N (0, 1), so liefert Mathematica das Perzentil Quantile[Z,0.995]=2.57583. Also 2.237ε = 2.5783, was auf ε = 1.152 führt. Daher ist [12 − ε , 12 + ε] = [10.848 , 13.152] ein solches Intervall. Zu e): Hier ist für beliebige µ und σ gefragt nach P (µ − kσ ≤ X ≤ µ + kσ) mit X ∼ N (µ, σ 2 ) . Transformation auf die standardisierte Variable Z = X −µ σ ergibt P (µ − kσ ≤ X ≤ µ + kσ) = P (−k ≤ Z ≤ k) = Φ(k) − Φ(−k) = 2Φ(k) − 1 wobei Φ(z) die Verteilungsfunktion der Standardnormalverteilung ist. Dieser Wert hängt jetzt nur noch von k, aber nicht von µ oder σ ab. Aus der Tabelle (oder mit Mathematica) erhalten wir Φ(1) = 0.8413, Φ(2) = 0.9772 und Φ(3) = 0.9987, was auf die drei Wahrscheinlichkeiten P (µ − σ ≤ X ≤ µ + σ) = 0.6826 , P (µ − 2σ ≤ X ≤ µ + 2σ) = 0.9544 , P (µ − 3σ ≤ X ≤ µ + 3σ) = 0.9974 führt. Aufgabe 32 (Approximation durch die Normalverteilung) Eine Webseite bietet ein Glücksspiel an, bei dem der Benutzer einen Button anklickt und einen Preis gewinnt mit Wahrscheinlichkeit p = 0.01. Ein Hacker schreibt ein Programm, das die Seite innerhalb einer Stunde automatisch 1000mal aufruft. (a) Die Zufallsvariable X beschreibe die Anzahl der Gewinne die das Programm erzielt. Wie ist sie verteilt? (b) Approximiere X durch eine normalverteilte stetige Zufallsvariable Y . (c) Berechne die Wahrscheinlichkeit dafür, dass das Programm mindestens 10 Gewinne in einer Stunde erzielt, einmal durch Umformulierung der Frage für Y , dann durch Berechnung der Verteilungsfunktion der diskreten Zufallsvariablen X (beides mit Mathematica). Lösung Zu a): Hier haben wir eine Folge von 1000 unabhängigen Einzelexperimenten mit Erfolgswahrscheinscheinlichkeit jeweils p = 0.01. Die Anzahl der Erfolge X hat die Binomialverteilung X ∼ Bin(1000, 0.01). Die Binomialverteilung ist definiert über die Wahrscheinlichkeitsfunktion 1000−k n 99 1000 1 k n−k P (X = k) = · · p · (1 − p) = · . k 100k 100 k Diese Ausdrücke lassen sich nicht mehr per Hand ausrechnen. Zu b): Die Approximation lautet X ∼ Bin(n, p) ⇒ X ≈ Y ∼ N (np, np(1 − p)) für große n und nicht zu kleine p. Die Normalverteilung hat dann den Mittelwert µ = np = 1000 · 0.01 = 10, und die Varianz σ 2 = np(1 − p) = 9.9. Jetzt ist Y eine stetige, und X eine diskrete Zufallsvariable, man benötigt deshalb die Stetigkeitskorrektur P (X = k) ≈ P (k − 0.5 ≤ Y ≤ k + 0.5) bzw. für Intervalle P (a ≤ X ≤ b) ≈ P (a − 0.5 ≤ Y ≤ b + 0.5) . Zu c): Die gefragte Wahrscheinlichkeit ist P (X ≥ 10). Die Approximation dazu ist P (X ≥ 10) ≈ P (Y ≥ 9.5) = 1 − F (9.5) wobei F die Verteilungsfunktion von N (10, 9.9) ist. Mathematica liefert F (9.5) = 0.436, also haben wir P (X ≥ 10) ≈ 1 − 0.436 = 0.564 ≈ 56% . Direkte Auswertung der Verteilungsfunktion zur Verteilung Bin(1000, 0.01) mit Mathematica (ohne die Stetigkeitskorrektur von 0.5 nach unten) liefert CDF[X,9]=0.4573, also P (X ≥ 10) = 0.5427. Die Approximation war also etwas ungenau. Das liegt daran, dass np = 10 ziemlich klein ist: die hohe Anzahl der Einzelversuche verbessert die Approximation, aber die sehr kleine Wahrscheinlichkeit p = 0.01 verzerrt sie wieder. Aufgabe 33 (Die Poisson-Verteilung) Ein automatischer Verteiler in einem Postzentrum verarbeite pro Sekunde ca. 8 Briefe unabhängig von der Tageszeit, wobei die Anzahl pro Sekunde in etwa Poisson-verteilt ist mit Parameter λ = 8. (a) Wie wahrscheinlich ist es, dass der Verteiler genau 8 Briefe in einer Sekunde verarbeitet? (b) Wie wahrscheinlich ist es, dass höchstens 4 Briefe in einer Sekunde durchkommen? (c) Wie wahrscheinlich ist es, dass mehr als 5 Briefe in einer Sekunde durchkommen? Löse die Teile (a,b,c) per Hand, ggf. mit einem Taschenrechner, aber ohne Mathematica (d) Welche Verteilung sollte man für X ansetzen, wenn die Anzahl der Briefe pro Minute statt Sekunde untersucht werden soll (unter sonst gleichen Voraussetzungen)? (e) Ein eMail-Verteiler in einem Rechenzentrum verarbeite ca. 1000 Mails pro Sekunde. Wie wahrscheinlich ist es, dass genau 1000 Mails in einer Sekunde durchkommen? (hier ist es angebracht, eine Normalapproximation durchzuführen). Lösung Zu a): Die Zufallsvariable X gebe die Anzahl der Briefe an, die pro Sekunde verarbeitet werden. Nach Aufgabenstellung ist X ∼ P oi(8). Die Wahrscheinlichkeitsfunktion zur Poisson-Verteilung ist P (X = k) = e−λ · λk hier mit Parameter λ = 8 . k! Die erste gefragte Wahrscheinlichkeit ist 160 7770 216 88 = 0.000335 · = 0.13956 . 8! 400 320 Da sich hier sehr große und sehr kleine Faktoren gegenseitig aufheben, ist es notwendig möglichst viele Nachkommastellen in der Rechnung zu behalten. P (X = 8) = e−8 Zu b): Hier ist gefragt nach P (X ≤ 4) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4) 81 82 83 84 80 + e−8 · + e−8 · + e−8 · + e−8 · 0! 1! 2! 3! 4! 1 8 64 512 4096 = e−8 · + + + + 1 1 2 6 24 = e−8 · = 0.000335 · 297 = 0.099495 . Zu c): Wenn man nicht unendlich viele Terme ausrechnen möchte, sollte man hier zum Gegenereignis übergehen: P (X > 5) = 1 − P (X ≤ 5). Das können wir mit Teil (b) berechnen über P (X ≤ 5) = P (X ≤ 4) + P (X = 5) = 0.099495 + e−8 · 85 32768 = 0.099495 + 0.000335 · = 0.19097 . 5! 120 Für die gefragte Wahrscheinlichkeit erhalten wir P (X > 5) = 1 − P (X ≤ 5) = 1 − 0.19097 = 0.80903 . Zu d): Wenn im Schnitt λ = 8 Briefe pro Sekunde durchkommen, so sind es im Schnitt λ0 = 60λ = 480 pro Minute, also kann man X 0 ∼ P oi(480) ansetzen. Das ist sinnvoll, weil der Parameter der Poisson-Verteilung ihren Mittelwert bestimmt. Es wirkt sich dagegen nachteilig aus, dass die Berechnung der Poisson-Verteilung für große λ unpraktisch wird und Rundungsfehler bei den extrem kleinen Werten einteten (e−480 ist eine Zahl mit 209 Nullen hinter dem Komma bis zur ersten Ziffer > 0). Eine Alternative wäre daher, eine Approximation mit der Normalverteilung wie in der nächsten Aufgabe anzusetzen. Zu e): Die Approximation der Variablen X ∼ P oi(1000) geschieht hier mit Hilfe der stetigen Zufallsvariable Y ∼ N (1000, 1000) mit E(Y ) = Var(Y ) = 1000. Die Approximation der Wahrscheinlichkeitsfunktion ist dann P (X = k) ≈ P (k − 0.5 ≤ Y ≤ 0.5) . Die gefragte Wahrscheinlichkeit ist dann P (X = 1000) ≈ P (999.5 ≤ Y ≤ 1000.5) . Eine Anfrage an Mathematica liefert CDF[X,999.5]=0.493692 und CDF[X,1000.5]=0.506308 . Wir haben also P (X = 1000) ≈ P (999.5 ≤ Y ≤ 1000.5) = F (1000.5) − F (999.5) = 0.506308 − 0.493692 = 0.012616 . Hier die Lösung der Aufgabe mit Hilfe der Standardnormalverteilung: Wir transformieren diese Frage auf die Standardnormalverteilung, indem wir statt Y die Variable √ Y −µ Y − 1000 Z = , 1000 ≈ 31.62 = √ σ 1000 ansetzen. Sie ist N (0, 1)-verteilt, ihre Verteilungsfunktion Φ(z) kann aus der Normalverteilungstabelle auf der Vorlesungshomepage abgelesen werden. Wir müssen dazu die Frage an Y in eine Frage für Z übersetzen, indem wir auf allen Seiten der Ungleichung erst den Mittelwert abziehen, und dann durch die Standardabweichung dividieren: 999.5 − 1000 1000.5 − 1000 P (999.5 ≤ Y ≤ 1000.5) = P ≤ Z ≤ = P (−0.0158 ≤ Z ≤ 0.0158) . 31.62 31.62 Einsetzen in die Verteilungsfunktion der Standardnormalverteilung Φ(z) = P (Z ≤ z) ergibt P (−0.0158 ≤ Z ≤ 0.0158) = Φ(0.0158) − Φ(−0.0158) = Φ(0.0158) − (1 − Φ(0.0158)) = 2Φ(0.0158) − 1 wobei wir die Symmetrie Φ(−z) = 1 − Φ(z) der Normalverteilung verwendet haben. Ablesen aus der Tabelle der Standardnormalverteilung ergibt Φ(0.0158) = 0.506, also haben wir für unsere ursprüngliche Frage P (X = 1000) ≈ P (999.5 ≤ Y ≤ 1000.5) = P (−0.0158 ≤ Z ≤ 0.0158) = 2(0.506) − 1 = 0.012 .