Institut für Stochastik Prof. Dr. Daniel Hug Name: Vorname: Matr.-Nr.: Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK Datum: 08. Februar 2012 Dauer: 90 Minuten Achtung: Bei dieser Klausur werden nur diejenigen Ergebnisse gewertet, die in die vorgesehenen Kästchen auf dem extra ausgegebenen Lösungsblatt eingetragen sind! Die Herleitung wird nicht bewertet, es sei denn, dies wird auf dem Lösungsblatt explizit gefordert! Die Aufgabenblätter werden nicht abgegeben und korrigiert! Diese Klausur hat bestanden, wer mindestens 18 Punkte von 50 möglichen Punkten erreicht. Aufgabe 1 (10 Punkte) Gegeben sei eine Urliste mit den Paaren (x1 , y1 ), . . . , (x8 , y8 ) j xj yj a) 1 1.5 2.6 2 1.7 2.9 3 2.7 3.4 4 2.7 3.7 5 3.1 3.9 6 3.2 4.2 7 3.2 4.5 8 3.4 4.6 Berechnen Sie die Stichprobenmittel x̄, ȳ, die Stichproben-Standardabweichungen sx , sy und den empirischen Korrelationskoeffizienten rxy . Hinweis: 8 8 8 8 8 X X X X X 2 2 xj = 21.5, xj = 61.37, yj = 29.8, yj = 114.68, xj · yj = 83.57. j=1 j=1 j=1 j=1 j=1 b) Bestimmen Sie die zugehörige Regressionsgerade y = a∗ + b∗ · x von y auf x. c) Berechnen Sie das 0.2-getrimmte Stichprobenmittel ȳ0.2 von (y1 , . . . , y8 ). d) Bestimmen Sie das Stichproben-0.3-Quantil ỹ0.3 von (y1 , . . . , y8 ). Lösung: a) Direkt aus den Daten ergeben sich aufgrund der Abschnitte 1.4 und 1.5 im Skript mit Hilfe der Beziehung n n X X (xj − x̄) · (yj − ȳ) = xj · yj − n · x̄ · ȳ j=1 j=1 die Ergebnisse x̄ = 2.6875 ȳ = 3.725 rxy = 0.9589. 1 n−1 sx = n X !! 12 x2i − nx̄2 = 0.716 i=1 sy = 0.7246 b) Nach Abschnitt 1.5 des Skripts ist b∗ = rxy · sy und a∗ = ȳ − b∗ · x̄, also sx b∗ = 0.9704 a∗ = 1.117 und die Regressionsgerade y = 1.117 + 0.9704 · x. c) Für die Lösung der nächsten drei Aufgabenteile benötigen wir die aufsteigend sortierten y-Werte. Es ist y() = (2.6, 2.9, 3.4, 3.7, 3.9, 4.2, 4.5, 4.6). Mit k = [8 · 0.2] = [1.6] = 1 ergibt sich ȳ0.2 = 1 · (y(2) + . . . + y(7) ) = 3.77. 8−2·1 2 d) Da 8 · 0.3 = 2.4 nicht ganzzahlig ist, ist mit k = [2.4] = 2 ỹ0.3 = y(k+1) = y(3) = 3.4. e) Da 0.25 · 8 = 2 und 0.75 · 8 = 6 beide ganzzahlig sind, ergibt sich mit k1 = 2 und k2 = 6 y(k1 ) + y(k1 +1) y(2) + y(3) = = 3.15 2 2 y(k2 ) + y(k2 +1) y(6) + y(7) = = = 4.35 2 2 ỹ0.25 = ỹ0.75 und damit der Quartilsabstand zu ỹ0.75 − ỹ0.25 = 1.2. 3 Aufgabe 2 (10 Punkte) Es seien X eine Zufallsvariable mit Werten in {−1, 1, 2} und 2 P(X = 1) = , 3 P(X = −1) = P(X = 2) = 1 6 sowie Y eine Zufallsvariable mit Werten in {0, 1} und den bedingten Wahrscheinlichkeiten 1 P(Y = 0 | X = −1) = , 2 a) 1 P(Y = 0 | X = 1) = , 4 3 P(Y = 1 | X = 2) = . 4 Hinweis: beachten Sie, dass P(Y = 0 | X = −1) + P(Y = 1 | X = −1) = 1 gilt. Berechnen Sie P(Y = 1 | X = −1), P(Y = 1 | X = 1) und P(Y = 0 | X = 2). b) Berechnen Sie die gemeinsame Verteilung von X und Y sowie die Verteilung von Y , d.h. P(X = x, Y = y) und P(Y = y) für alle x ∈ {−1, 1, 2} und y ∈ {0, 1}. c) Bestimmen Sie die Erwartungswerte E(X), E(Y ), E(X + Y ). d) Berechnen Sie E(X · Y ) und die Varianz V (X) von X. e) Sind X und Y stochastisch unabhängig? Begründen Sie Ihre Antwort. Lösung: a) Nach Skript/Vorlesung ist P(· | X = −1) eine Wahrscheinlichkeitsverteilung, also gilt P(Y = 0 | X = −1) + P(Y = 1 | X = −1) = P(Y ∈ {0, 1} | X = −1) = 1. (Nachweis war nicht gefordert!) Wir erhalten hiermit 1 1 = , 2 2 1 3 P(Y = 1 | X = 1) = 1 − P(Y = 0 | X = 1) = 1 − = , 4 4 3 1 P(Y = 0 | X = 2) = 1 − P(Y = 1 | X = 2) = 1 − = . 4 4 P(Y = 1 | X = −1) = 1 − P(Y = 0 | X = −1) = 1 − b) Wir erhalten 1 11 1 P(Y = 0, X = −1) = P(Y = 0 | X = −1)P(X = −1) = P(X = −1) = = 2 26 12 und mit analoger Rechnung 12 1 11 1 = , P(Y = 0, X = 2) = = , 43 6 46 24 11 1 32 1 P(Y = 1, X = −1) = = , P(Y = 1, X = 1) = = , 26 12 43 2 31 1 P(Y = 1, X = 2) = = . 46 8 P(Y = 0, X = 1) = 4 Hieraus folgt weiter 1 1 1 7 + + = , 12 6 24 24 1 1 1 17 P(Y = 1) = + + = . 12 2 8 24 P(Y = 0) = c) Es gilt 2 1 1 5 + (−1) · + 2 · = , 3 6 6 6 17 17 E(Y ) = 1 · = , 24 24 37 E(X + Y ) = E(X) + E(Y ) = . 24 E(X) = 1 · d) Zunächst ist E(X · Y ) = (−1) 1 1 1 2 +1· +2· = . 12 2 8 3 Ferner gilt E(X 2 ) = 1 3 2 1 + +4· = 3 6 6 2 und daher V (X) = E(X 2 ) − (E(X))2 = 3 29 − (5/6)2 = . 2 36 e) Die Zufallsvariablen X und Y sind nicht stochastisch unabhängig, da E(X · Y ) = 2 5 17 6= · = E(X) · E(Y ). 3 6 24 5 Aufgabe 3 (10 Punkte) An einer E-Mail-Adresse kommen erwünschte E-Mails und Spam-Mails an. Jede ankommende E-Mail sei unabhängig von den vorangehenden mit der Wahrscheinlichkeit p ∈ (0, 1) erwünscht. Sei Sn die zufällige Anzahl von nicht erwünschten Spam-Mails bei n eingegangenen E-Mails. a) Welche Verteilung hat die Zufallsvariable Sn ? Berechnen Sie P(Sn ≥ 2) für p = 0.7 und n = 10. b) Berechnen Sie den Erwartungswert E(Sn ) und die Varianz V (Sn ) für p = 0.7 und n = 10. c) Schätzen Sie für p = 0.7 = 1 − q, n = 500 und ε = 0.05 die Wahrscheinlichkeit 1 P · Sn − q ≥ ε n nach oben mit Hilfe der Tschebyschev-Ungleichung ab. d) Sei nun p ∈ (0, 1) wieder beliebig. Ferner bezeichne Tk die zufällige Anzahl an Spam-Mails bis zur k-ten erwünschten E-Mail, k = 1, 2. Welche Verteilungen haben die Zufallsvariablen T1 beziehungsweise T2 ? Geben Sie E(T1 ) und E(T2 ) an. e) Berechnen Sie die Wahrscheinlichkeit P(T1 ≥ 2) für allgemeines p sowie für p = 0.7. Lösung: a) Wegen der vorausgesetzten Unabhängigkeit und der festen Wahrscheinlichkeit q = 1 − p einer nicht erwünschten Spam-Mail (“Treffer”) ist Sn binomialverteilt mit Sn ∼ Bin(n, q), also n k n−k P(Sn = k) = q p , k = 0, . . . , n. k Ferner ist 10 P(Sn ≥ 2) = 1 − P(Sn = 0) − P(Sn = 1) = 1 − q · p − · q 1 · p9 1 = 1 − 0.710 − 10 · 0.3 · 0.79 ≈ 0.8507. 0 10 b) Es gilt E(Sn ) = n · q = 10 · 0.3 = 3 und V (Sn ) = n · q · p = 10 · 0.3 · 0.7 = 2.1. c) Die Tschebyschev-Ungleichung (Skript!) ergibt 1 q·p 0.3 · 0.7 21 P · Sn − q ≥ ε ≤ = = ≈ 0.168. 2 2 n n·ε 500 · 0.05 125 d) Es gilt P(T1 = j) = P(zunächst j Spam-Mails, dann eine erwünschte E-Mail) = q j · p, 6 also folgt T1 einer N b(1, p)-Verteilung (negative Binomialverteilung), welche auch als geometrische Verteilung G(p) bezeichnet wird. Ferner ist P(T2 = j) = P(die ersten j + 1 E-Mails enthalten genau j Spam-Mails und eine erwünschte E-Mail, dann folgt die zweite erwünschte E-Mail) j+1 j = q · p · p = (j + 1)p2 q j , 1 also folgt T2 einer N b(2, p)-Verteilung (negative Binomialverteilung). Nach Skript gilt daher E(T1 ) = 1−p p und E(T2 ) = 2 1−p . p e) Es gilt P(T1 ≥ 2) = 1 − P(T1 = 0) − P(T1 = 1) = 1 − p − qp = q − qp = q(1 − p) = q 2 = 0.32 = 0.09. 7 Aufgabe 4 (10 Punkte) Die Zufallsvariable X besitze die Verteilung N (2, 1). Weiter sei Y := 1 − 2X. a) Berechnen Sie den Erwartungswert E(Y ) und die Varianz V (Y ). b) Welche Verteilung hat Y ? c) Drücken Sie die Wahrscheinlichkeit P(−1 ≤ Y ≤ 3) mit Hilfe der Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) aus. d) Bestimmen Sie die Kovarianz C(X, Y ) und den Korrelationskoeffizienten ρ(X, Y ). e) Sei U eine auf [0, 1] gleichverteilte Zufallsvariable, das heißt U ∼ U(0, 1). Welche Verteilung hat die Zufallsvariable 2 · Φ−1 (U ) + 1? Begründen Sie Ihre Antwort. Lösung: Wir verwenden die aus der Vorlesung bekannten Eigenschaften der Normalverteilung aus Abschnitt 9.2. a) E(Y ) = E(1 − 2X) = 1 − 2E(X) = 1 − 2 · 2 = 1 − 4 = −3 und V (Y ) = V (1 − 2X) = V (−2X) = 4V (X) = 4 · 1 = 4. b) Aus Satz 9.7 des Skriptums folgt Y ∼ N (−3, 4). Bemerkung: Man kann a) und b) auch zugleich mit Satz 9.7 beantworten, wenn man die Information über die Maßzahlen (Erwartungswert und Varianz) der Normalverteilung aus dem Skriptum verwendet. c) Für eine Zufallsvariable N ∼ N (0, 1) gilt −3 + 2N ∼ N (−3, 4) und daher folgt zusammen mit b) P(−1 ≤ Y ≤ 3) = P(−1 ≤ −3 + 2N ≤ 3) = P(1 ≤ N ≤ 3) = Φ(3) − Φ(1) [= 0.9987 − 0.8413 = 0.1574]. d) C(X, Y ) = C(X, 1 − 2X) = C(X, −2X) = −2C(X, X) = −2V (X) = −2, p √ ρ(X, Y ) = C(X, Y )/ V (X)V (Y ) = (−2)/ 1 · 4 = −1. e) Nach Skript (Kapitel 15) gilt zunächst Φ−1 (U ) ∼ N (0, 1). Wiederum nach Skript (Satz 9.7) folgt daher 2Φ−1 (U ) + 1 ∼ N (1, 4). 8 Aufgabe 5 (10 Punkte) Es soll der unbekannte Parameter ϑ > 0 für die Verteilung mit der Dichte 3 4t · exp − 1 · t4 , t > 0, ϑ ϑ fϑ (t) = 0, sonst bestimmt werden. a) Geben Sie die zur Stichprobe x = (x1 , . . . , xn ) gehörende Likelihood-Funktion Lx (ϑ) und die Loglikelihood-Funktion Mx (ϑ) an. b) Berechnen Sie die Ableitung Mx0 (ϑ). c) Bestimmen Sie einen Maximum-Likelihood-Schätzer ϑ̂(x) für ϑ zur Stichprobe x. d) Bestimmen Sie zunächst die Verteilungsfunktion von X1 , wenn X1 die Dichte fϑ hat. Zeigen Sie dann, dass X14 einer Exp( ϑ1 )-Verteilung folgt. e) Ist ϑ̂ ein erwartungstreuer Schätzer für ϑ? Lösung: Für die Lösung kann man annehmen, dass xj > 0 für j = 1, . . . , n. Andernfalls wäre Lx (ϑ) = 0 und Mx (ϑ) = −∞ für alle ϑ > 0. a) Die zur Stichprobe x = (x1 , . . . , xn ) gehörende Likelihood-Funktion Lx (ϑ) lautet ! n 4 n n n Y Y X Y x 1 1 1 j Lx (ϑ) = fϑ (xj ) = · (4x3j ) · exp − = n · exp − x4j (4x3j ). ϑ ϑ ϑ ϑ j=1 j=1 j=1 j=1 Die Loglikelihood-Funktion Mx (ϑ) lautet entsprechend n n 1X 4 X x + log(4x3j ). Mx (ϑ) = log Lx (ϑ) = −n log ϑ − ϑ j=1 j j=1 b) Differenzieren von Mx (ϑ) nach ϑ liefert n n 1 X 4 n 0 Mx (ϑ) = − + 2 xj = − 2 ϑ ϑ j=1 ϑ ! n 1X 4 ϑ− x . n j=1 j P P c) Die Bedingung Mx0 (ϑ) = 0 führt auf ϑ = n1 nj=1 x4j . Dann ist ϑ̂(x) = n1 nj=1 x4j ein Maximum-Likelihood-Schätzer für ϑ, da Mx0 (·) in der einzigen Nullstelle ϑ̂(x) einen Vorzeichenwechsel von + nach − hat. 9 d) Für z ≥ 0 ist Z FX1 (z) = 0 z 4 3 −t4 /ϑ 4 4 4 te dt = [−e−t /ϑ ]z0 = 1 − e−z /ϑ ϑ und folglich FX14 (z) = P(X14 ≤ z) = P(X1 ≤ z 1/4 ) = 1 − e−z/ϑ . Beide Verteilungsfunktionen sind offensichtlich Null für z < 0. Insbesondere gilt daher, dass X14 ∼ Exp(1/ϑ). e) Der Schätzer ist erwartungstreu, da aufgrund des vorangehenden Aufgabenteils gilt: n 1X Eϑ (ϑ̂(x)) = E(Xj4 ) = E(X14 ) = (1/ϑ)−1 = ϑ. n j=1 10