Dr. Marcel Dettling Dr. Daniel Haase [email protected] 28.05.2010 FS 2010 Grundlagen der Mathematik II (LVA 401-0622-00 U) Lösung 12 Zur Übungsstunde vom 28.05.2010 Aufgabe 34 (Variablen summieren) Verwende die Rechenregeln für Erwartungswert E(X) und Varianz Var(X), um diese beiden Kenngrössen für die folgenden Zufallsvariablen Y zu bestimmen: (a) X1 , X2 ∼ N (1, 4) (4 ist die Varianz) voneinander unabhängig mit Y = X1 − X2 . (b) X1 , . . . , Xn ∼ N (µ, σ 2 ), und Y = X1 + · · · + Xn . (c) X1 , . . . , Xn ∼ Bin(m, p) voneinander unabhängig mit Y = X1 + · · · + Xn . Welche der Zufallsvariablen Y haben eine Normalverteilung? Lösung Zu a): Da beide Xi den gleichen Erwartungswert haben, gilt für die Differenz wegen der Linearität des Erwartungswerts E(Y ) = E(X1 − X2 ) = E(X1 ) − E(X2 ) = 1 − 1 = 0 . Die Varianz skaliert dagegen quadratisch, und wir erhalten Var(Y ) = Var(X1 + (−1)X2 ) = Var(X1 ) + (−1)2 Var(X2 ) = 4 + 4 = 8 . Linearkombinationen (ohne additive Konstanten) von normalverteilten und unabhängigen Zufallsvariablen sind wieder normalverteilt, somit auch Y . Für die einfache Summe (ohne Division durch n) von n Variablen haben wir E(Y ) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = µ + · · · + µ = n · µ sowie Var(Y ) = Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ) = σ 2 + · · · + σ 2 = n · σ 2 . Auch dieses Y ist normalverteilt. Bei der Binomialverteilung haben wir E(Xj ) = mp und Var(Xj ) = mp(1 − p), also E(Y ) = n · E(Xj ) = nmp , Var(Y ) = n · Var(Xj ) = nmp(1 − p) . Als diskrete Variable ist Y nicht normalverteilt. Das Mittel der Normalverteilung annähern. 1 nY wird sich nach dem zentralen Grenzwertsatz Aufgabe 35 (Der zentrale Grenzwertsatz) Bestimme in den folgenden vier Anwendungen die Verteilung des Mittels n X̄ = 1X Xi n i=1 für grosse n. (a) Gegeben sei das folgende Spiel: Man bezahlt 1 CHF ein, dann wird ein Würfel geworfen. Erscheint eine Zahl ≥ 5, so bekommt man 2 CHF ausbezahlt, andernfalls bekommt man nichts. Es sei Xi = Gewinn im i-ten Spiel bei einem fairen Würfel. (b) Man dreht ein Glücksrad, auf dem gleichverteilt die Werte 0CHF bis 10CHF (mit Zwischenwerten) aufgetragen sind. Sobald das Rad stehenbleibt wird der Betrag Xi der auf der Spitze des Rades steht ausbezahlt. (c) Bei der Übungsevaluation werde der Übungsleiter mit einer Note von −10 bis 10 bewertet (Xi sei die Bewertung vom i-ten Student). Leider haben sich die Studenten abgesprochen um die Statistik zu manipulieren (und um dem Übungsleiter die Grenzen des Grenzwertsatzes aufzuzeigen): sie setzen sich in Paaren zusammen, wobei der rechte Nachbar normalverteilt eine Note wählt, während der linke Nachbar stets das Negative der Bewertung des rechten Nachbarn einträgt. (d) Bei einer Fahrgastkontrolle in n Trams sei Xi die Anzahl der entdeckten Fahrgäste ohne Fahrausweis. Dabei steigen die Kontrolleure aus Zeitgründen aus, wenn sie von 3 Fahrgästen die Personalien aufgeschrieben haben. Die Verteilung der ertappten Fahrgäste sei unabhängig vom Tram gegeben durch P (Xi = 0) = 0.1 , P (Xi = 1) = 0.6 , P (Xi = 2) = 0.1 , P (Xi = 3) = 0.2 , P (Xi ≥ 4) = 0 . Lösung Zu a): Der Gewinn im i-ten Spiel ist Xi = 2Yi − 1, wobei P (Yi = 0) = 23 (Wahrscheinlichkeit die Ziffern 1, 2, 3, 4 zu werfen bei einem fairen Würfel), sowie P (Yi = 1) = 13 (Wahrscheinlichkeit 5 oder 6 zu werfen). Der Erwartungswert der Yi ist dann X 2 1 1 E(Yi ) = yj · P (Yi = yj ) = 0 · + 1 · = . 3 3 3 j Durch lineare Transformation erhählt man E(Xi ) = E(2Yi − 1) = 2E(Yi ) − 1 = 2 · 1 1 −1 = − . 3 3 Die Varianz der Yi ist Var(Yi ) = X 1 2 1 1 2 (yj − E(Yi ))2 · P (Yi = yj ) = (0 − )2 · + (1 − )2 · = , 3 3 3 3 9 j daraus folgt 8 . 9 Die Xi sind nicht normalverteilt, aber sie haben jeweils die gleiche Verteilung, sie sind unabhängig voneinander und sie haben eine positive Varianz. Nach dem zentralen Grenzwertsatz strebt das Mittel der Xi dann für grosse n gegen eine N (µ, σ 2 )-verteilte Zufallsvariable mit Mittelwert µ = E(Xi ) = − 31 und Varianz 8 . Die Interpretation ist, dass der Spieler bei vielen Spielen im Mittel 13 CHF pro Spiel σ 2 = Var(Xi )/n = 9n verlieren wird. Var(Xi ) = Var(2Yi − 1) = 4Var(Yi ) = Zu b): Hier hat jedes Xi die stetige Gleichverteilung Xi ∼ U [0, 10]. Diese hat bekanntlich den Mittelpunkt des Intervalls E(Xi ) = 5 als Erwartungswert, und die Varianz (b − a)2 25 = . 12 3 Die Formel für die Varianz der Gleichverteilung schlägt man entweder nach, oder rechnet sie schnell selbst aus mithilfe der Integraldarstellung Z10 25 (x − 5)2 Var(Xi ) = dx = . 10 3 Var(Xi ) = 0 Also besitzt nach dem zentralen Grenzwertsatz das Mittel X̄ annähernd die Normalverteilung N (5, 25 3 /n). Zu c): Nach Aufgabenstellung sind die ungeraden Xi normalverteilt und voneinander unabhängig, die geraden Xi erfüllen aber die Bedingung Xi = −Xi−1 und sind daher direkt von den ungeraden Xi abhängig. Damit sind die Voraussetzungen für den zentralen Grenzwertsatz verletzt. Obwohl alle (auch die geraden) Xi jeweils normalverteilt sind, ist das Mittel für kein n normalverteilt, auch nicht annähernd. Denn n X̄ = 1X (X1 + X2 + · · · + Xn ) = 0 n i=1 weil sich benachbarte Variablen zu Null addieren, das Mittel ist also für gerade n die Null-Konstante, somit X̄ → 0 für n → ∞. Zu d): Der Erwartungswert der Xi berechnet sich zu X E(Xi ) = xj · P (Xi = xj ) = 0 · 0.1 + 1 · 0.6 + 2 · 0.1 + 3 · 0.2 = 1.4 . j Die Varianz ist dagegen X Var(Xi ) = (xj −E(Xi ))·P (Xi = xj ) = (0−1.4)2 ·0.1+(1−1.4)2 ·0.6+(2−1.4)2 ·0.1+(3−1.4)2 ·0.2 = 0.84. j Damit strebt das Mittel X̄ gegen die Normalverteilung N (1.4, 0.84/n). Aufgabe 36 (Gewinn und Verlust) Ein Spieler verbringt jeden Tag im Kasino. Dabei spielt er solange, bis entweder sein Geld aufgebraucht ist oder das Kasino schliesst. An 10 Tagen rechnet er alle Gewinne und Verluste zusammen und kommt auf die folgende Liste: −100 , +12 , +40 , −34 , +1 , +2 , −232 , +143 , −20 , 0 . Es bezeichne µ den Gesamtbetrag an einem hypothetischen Tag im Kasino. Nehme an, dass die Standardabweichung der Gewinne σ = 20 ist. (a) Zeige, dass der z-Test die Nullhypothese H0 : µ = 0 zugunsten der Alternative HA : µ 6= 0 widerlegt. (b) Zeige, dass der z-Test die Nullhypothese H0 : µ = 0 zugunsten der Alternative HA : µ < 0 widerlegt. (c) Wie hoch müsste man das Signifikanzniveau wählen, damit der zweiseitige Test H0 nicht widerlegt? Verwende jeweils einen z-Test mit dem 5%-Signifikanziveau, d. h. die Annahmeintervalle enthalten 95% der Wahrscheinlichkeitsmasse bezüglich der Standardnormalverteilung. Hier einige nützliche Eigenschaften der Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1): Φ(1.96) = 0.975 = 1 · 0.95 , Φ(1.645) = 0.95 , 1 − Φ(a) = Φ(−a) . 2 Lösung Zu a): Unter Annahme der Nullhypothese µ = 0 ist die korrekte Standardisierung von X̄ gegeben durch Z = X̄ − µ0 X̄ X̄ √ √ . = ≈ 6.32 σ/ n 20/ 10 Der Annahmebereich für den zweiseitigen Test auf dem Signifikanzniveau α = 0.05 = 5% für die Variable Z ist das Intervall [−a, a], das 95% der Wahrscheinlichkeitsmasse einfängt, also P (−a < Z < a) = 0.95 . Da die Standardnormalverteilung symmetrisch um den Nullpunkt ist haben wir P (−a < Z < a) = Φ(a) − Φ(−a) = Φ(a) − (1 − Φ(a)) = 2Φ(a) − 1 . Wir müssen also die Gleichung 2Φ(a) − 1 = 0.95 bzw. Φ(a) = 0.975 lösen. Nach Hinweis aus der Aufgabe ist a = 1.96 das richtige Perzentil. Also ist der Annahmebereich für die standardisierte Variable [−1.96, 1.96]. Wir rechnen jetzt das konkrete Mittel der Stichprobe aus: 1 1 x̄ = (−100 + 12 + 40 − 34 + 1 + 2 − 232 + 143 − 20 + 0) = · (−188) = −18.8 . 10 10 Durch Einsetzen in die Standardisierung erhalten wir die Teststatistik: x̄ z = = −2.97 . 6.32 Sie liegt ausserhalb unseres Annahmebereichs [−1.96, 1.96], wir verwerfen daher die Nullhypothese zugunsten der Alternative µ 6= 0. Zu b): Hier ist der Annahmebereich einseitig von der Form [a, ∞), weil beliebig hohe Werte der Teststatistik gegen HA sprechen und daher nicht zur Ablehnung führen dürfen. Die Perzentilgleichung ist hier ! 95% = P (Z ≥ a) = 1 − P (Z ≤ a) = 1 − Φ(a) bzw. Φ(a) = 0.05, das führt laut Hinweis aus der Aufgabe auf a = −1.645. Das Annahmeintervall ist hier also [−1.645, ∞). In diesem Intervall ist die Teststatistik z erst recht nicht enthalten, also lehnt der Test H0 wieder ab. Zu c): Damit der zweiseitige Test H0 beibehält muss das Annahmeintervall gross genug sein, damit die Teststatistik z = −2.97 hineinfällt. Da das Intervall symmetrisch ist, muss man also mindestens [−2.97, 2.97] bekommen. Die Wahrscheinlichkeitsmasse in diesem Intervall ist P (−2.97 < Z < 2.97) = 2P (Z ≤ 2.97) − 1 = 2 · 0.998511 − 1 = 0.997 . Man müsste also eine Signifikanz ≤ 0.003 wählen.