BSc Bioinformatik Wintersemester 2013/2014 Klausur zur Statistik I Freie Universität Berlin 12. Februar 2014 Matrikelnummer Nachname Vorname Unterschrift Aufgabe 1 (4 Punkte): Eine faire Münze werde 10 mal unabhängig voneinander geworfen. A Wie groß ist die Wahrscheinlichkeit, genau zweimal Kopf zu werfen? B Wie groß ist die Wahrscheinlichkeit, dass der erste, der neunte und der zehnte Wurf Kopf zeigen und unter den restlichen sieben Würfen genau einmal Kopf geworfen wird? Lösung: A Man kann direkt die Formel für die Binomialverteilung anwenden. Hier ist k = 2, n = 10 und p = 12 . 2 8 10 10 1 1 10 1 9 ∗ 10 1 45 = = = 2 2 2 2 2 2 1024 1024 B Die Wahrscheinlichkeit, dass der erste, der neunte und der zehnte Wurf 3 Kopf sind, beträgt 12 = 81 . Die Wahrscheinlichkeit, dass unter den restlichen sieben Würfen genau einmal Kopf geworfen wird, kann wieder mit der Binomialformel mit k = 1, n = 7 und p = 21 ausgerechnet werden. Da die Würfe unabhängig sind, ergibt sich insgesamt: 3 7 10 1 7 1 1 7 =7 = 2 1 2 2 1024 1 Aufgabe 2 (4 Punkte): Ein Insekt bewegt sich auf einer Linie in jeder Sekunde entweder 1mm nach rechts oder 1mm nach links. Die Bewegung nach rechts erfolgt mit Wahrscheinlichkeit 41 , die nach links mit Wahrscheinlichkeit 3 . 4 A Geben Sie die Wahrscheinlichkeit Pn an, dass sich das Insekt nach n Sekunden wieder am Ausgangspunkt befindet. B Geben Sie P4 explizit an. Lösung: A Um nach n Sekunden wieder am Ausgangspunkt anzulangen, muss das Insekt genauso viele Schritte nach rechts wie nach links machen. Die Reihenfolge spielt keine Rolle. Zunächst ist klar, dass nach einer ungeraden Anzahl von Sekunden das Insekt unmöglich wieder am Ausgangspunkt sein kann, die Wahrscheinlichkeit also 0 ist. Ist n gerade, kann die Wahrscheinlichkeit mit Hilfe der Binomialformel mit k = n2 und p = 41 ausgerechnet werden. ( 0 für n ungerade 1 n2 3 n2 n Pn = n n 32 = für n gerade n/2 n/2 22n 4 4 B Benutze die eben hergeleitete Formel für n = 4: P4 = 4! 9 27 = 2!2! 256 128 Aufgabe 3 (4 Punkte): Erwartungswert und Standardabweichung (=Quadratwurzel aus der Varianz) einer Binomialverteilung B(n, p) seien gleich. Drücken Sie p durch n aus. Begründen Sie Ihre Antwort durch Herleitung des Ergebnisses. Lösung: Standardabweichung und Erwartungswert der Binomialverteilung B(n, p) p betragen np(1 − p) bzw. np. Setzt man beide Größen gleich, ergibt sich die Bestimmungsgleichung für p: p np(1 − p) = np Nach Quadrieren dieser Gleichung kann p ausgerechnet werden: np(1 − p) = n2 p2 (1 − p) = np 1 = (n + 1)p 1 p = . n+1 Aufgabe 4 (4 Punkte): Seien Ω = {1, 2, 3, 4} ein Laplaceraum und A = {1, 2, 3} ein Ereignis von Ω. 2 A Welche Wahrscheinlichkeit hat A? B Geben Sie Ereignisse B1 , B2 , B3 und B4 an, so dass (a) P(A|B1 ) = 2/3 (b) P(A|B2 ) = 1/2 (c) P(A|B3 ) = 1 (d) P(A|B4 ) = 0 gelten. Lösung: A Da Ω ein Laplaceraum ist, haben alle Elemente die gleiche Wahrscheinlichkeit. Die Wahrscheinlichkeit von A ist daher die Anzahl der Elemente von A geteilt durch die Anzahl der Elemente in Ω: P(A) = 3/4 B Aus der Definition P(A|B) = P(A∩B) P(B) erhält man durch Probieren: (a) B1 = {2, 3, 4} Es gilt P(A|B1 ) = 2 4 3 4 P({2, 3}) P(A ∩ B1 ) = = P(B1 ) P({2, 3, 4}) 2 = . 3 (b) B2 = {3, 4} Es gilt P(A ∩ B2 ) P({3}) P(A|B2 ) = = = P(B2 ) P({3, 4}) 1 4 2 4 1 = . 2 (c) B3 = {1, 2, 3} Es gilt P(A|B3 ) = P(A ∩ B3 ) P({1, 2, 3}) = = 1. P(B3 ) P({1, 2, 3}) (d) B4 = {4} Es gilt P(A|B4 ) = P(A ∩ B4 ) P(∅) = = 0, P(B4 ) P({4}) da P(∅) = 0 gilt. Die angegeben Lösungen sind nicht die einzigen möglichen Lösungen! 3 Aufgabe 5 (4 Punkte): Sei X eine poissonverteilte Zufallsvariable mit Erwartungswert λ. A Geben Sie die Wahrscheinlichkeit für P(1 ≤ X ≤ 2) an. B Geben Sie die bedingte Wahrscheinlichkeit P(1 ≤ X ≤ 2|X > 0) an. C Gegen welche Grenzwerte streben (a) P(1 ≤ X ≤ 2) (b) P(1 ≤ X ≤ 2|X > 0), wenn λ gegen Null geht? Beachten Sie eλ ≈ 1 + λ für betragsmäßig kleine λ. Lösung: A Da X nur ganzzahlige Werte annehmen kann ist P(1 ≤ X ≤ 2) = P(X = 1) + P(X = 2). Damit folgt direkt aus der Formel für die Poissonverteilung P(1 ≤ X ≤ 2) = (λ + λ2 /2)e−λ . B Mit der Definition der bedingten Wahrscheinlichkeit gilt P(1 ≤ X ≤ 2|X > 0) = P(X = 1) + P(X = 2) P(1 ≤ X ≤ 2 und X > 0) = P(X > 0) 1 − P(X = 0) Beachte P(1 ≤ X ≤ 2 und X > 0) = P(1 ≤ X ≤ 2), da X > 0 aus 1 ≤ X ≤ 2 folgt. Mit der Formel für die Poissonverteilung folgt weiter P(1 ≤ X ≤ 2|X > 0) = (λ + λ2 /2)e−λ . 1 − e−λ Es wurde P(X > 0) = 1 − P(X = 0) benutzt. C (a) lim (λ + λ2 /2)e−λ = 0, λ→0 da e−λ gegen 1 und λ + λ2 /2 gegen 0 strebt. (b) (λ + λ2 /2)e−λ (λ + λ2 /2)e−λ = lim = lim [(1 + λ/2) ∗ e−λ ] = 1, λ→0 λ→0 λ→0 1 − e−λ 1−1+λ lim da der erste und zweite Faktor gegen 1 streben. Aufgabe 6 (4 Punkte): Ein Gen komme in einer Population mit nur zwei Allelen a und A vor. Die Häufigkeit des Allels A in der Gesamtpopulation sei P(A) = p. Die Population soll sich im Hardy-Weinberg Gleichgewicht befinden. 4 A Geben Sie die Wahrscheinlichkeiten für die Genotypen AA, aa und Aa an. B Man nehme nun weiter an, dass das Allel a rezessiv eine schwere Erbkrankheit verursacht. Wie groß ist die Wahrscheinlichkeit, vom Genotyp AA zu sein, wenn man nicht an dieser Erbkrankheit leidet? Lösung: A P(AA) = p2 P(aa) = (1 − p)2 P(Aa) = 2p(1 − p) B Gefragt ist nach der bedingten Wahrscheinlichkeit P(AA|aaC ) = P(AA|Aa oder AA). Damit ergibt sich P(AA und (Aa oder AA)) P(AA) = P(Aa oder AA) P(Aa) + P(AA) 2 p p = . = 2 2p(1 − p) + p 2−p P(AA|Aa oder AA) = Aufgabe 7 (4 Punkte): Für eine Zufallsvariable X sei Z= X −3 . 5 Es sei bekannt, dass E(Z) = 5 und Var(Z) = 9 gelte. A Geben Sie Erwartungswert und Varianz von X an. B Geben Sie die standardisierte Zufallsvariable zu X an. A Aus 5 = E(Z) = E X −3 5 1 = (E(X) − 3) 5 folgt E(X) = 28. Für die Varianz gilt 9 = Var(Z) = Var X −3 5 = 1 Var(X) 25 und damit Var(X) = 9 ∗ 25 = 225. Es wurden E(X + a) = E(X) + a und Var(X + a) = Var(X) benutzt. 5 B Die Standardisierte zu X ist X − E(X) X − 28 p = . 15 Var(X) Aufgabe 8 (4 Punkte): Sei X eine Zufallsvariable, deren Verteilungsfunktion folgenden Graph hat: 1.0 Verteilungsfunktion 0.8 ● 0.6 ● 0.4 ● 0.0 0.2 ● 0 1 2 3 4 5 X Geben Sie P(X = r) für eine beliebige reelle Zahl r an. Lösung: Die kumulierte Verteilungsfunktion F (r) ist durch F (r) := P(X ≤ r) definiert. Bei r = 1, 2, 3, 4 macht sie einen Sprung um 1/4. Damit gilt 1/4 für r = 1, 2, 3, 4 P(X = r) = 0 sonst. Aufgabe 9 (6 Punkte): Die Qualität eines diagnostischen Tests in der Medizin wird durch spezielle Größen charakterisiert. A Definieren Sie die Begriffe (a) Sensitivität 6 (b) Spezifität (c) Prävalenz (d) positiver prädiktiver Wert und (e) negativer prädiktiver Wert. B Ein diagnostischer Test habe eine Sensitivität von 80% und eine Spezifität von 90%. (a) Wie groß muss die Prävalenz mindestens sein, damit der positive prädiktive Wert mindestens 90% beträgt? (b) Wie groß darf die Prävalenz höchstens sein, damit der negative prädiktive Wert mindestens 90% beträgt? Hinweis: Geben Sie die Ergebnisse als gekürzte Brüche an. Lösung: A Definitionen: (a) Sensitivität: Wahrscheinlichkeit positiv getestet zu werden, wenn man krank ist. (b) Spezifität: Wahrscheinlichkeit negativ getestet zu werden, wenn man gesund ist. (c) Prävalenz: Wahrscheinlichkeit krank zu sein. (d) Positiver prädiktiver Wert: Wahrscheinlichkeit krank zu sein, wenn man positiv getestet wurde. (e) Negativer prädiktiver Wert: Wahrscheinlichkeit gesund zu sein, wenn man negativ getestet wurde. B (a) Sei P die Prävalenz der Erkrankung. Der positive prädiktive Wert (PPW) hängt über die Bayessche Formel von Sensitivität, Spezifität und Prävalenz folgendermaßen ab: PPW = P ∗ 0.8 ≥ 0.9 P ∗ 0.8 + (1 − P ) ∗ 0.1 P ∗ 0.8 ≥ P ∗ 0.72 + 0.09 − P ∗ 0.09 9 P ≥ 17 (b) Entsprechend gilt für den negativen prädiktiven Wert (NPW): NPW = (1 − P ) ∗ 0.9 ≥ 0.9 (1 − P ) ∗ 0.9 + P ∗ 0.2 (1 − P ) ∗ 0.9 ≥ (1 − P ) ∗ 0.81 + P ∗ 0.18 −P ∗ 0.27 ≥ −0.09 1 P ≤ 3 7 Aufgabe 10 (4 Punkte): In einer klinischen Studie werden Patienten zufällig zwei Studiengruppen (Placebo- und Medikamentengruppe) zugeordnet. A Für jeden Patienten wird nur Erfolg bzw. kein Erfolg betrachtet. Mit welchem Test können die Erfolgsraten in beiden Gruppen verglichen werden? B Bei Studienbeginn wird bei jedem Patienten der diastolische Blutdruck gemessen. In beiden Gruppen erscheinen die Messwerte normalverteilt. Mit welchem Test können die beiden Gruppen bezüglich des diastolischen Blutdrucks verglichen werden? C Nach zwei Wochen wird bei jedem Patienten wieder der Blutdruck gemessen. Mit welchem Test kann geprüft werden, ob es eine signifikante Veränderung in der Medikamentengruppe zwischen der Messung bei Studienbeginn und der nach zwei Wochen gegeben hat. Die Differenzen der beiden Messungen erscheinen nicht normalverteilt. D Mit welchem statistischen Test können die beiden Gruppen bezüglich des Blutdrucks, der zwei Wochen nach Studienbeginn gemessen wurde, verglichen werden. Lösung: A Es sollen die Erfolgsraten (Prozentsätze) in beiden Studienarmen verglichen werden. Dazu verwendet man den χ2 -Test. B t-Test für unabhängige Stichproben. C Vorzeichentest oder Wilcoxon-Vorzeichenrangtest. D Mann-Whitney-U Test, da Daten wohl nicht normalverteilt. Aufgabe 11 (4 Punkte): Seien S1 und S2 zwei unabhängige Stichproben aus einer normalverteilten Population mit Erwartungswert µ und Varianz σ 2 . Beide Stichproben haben das gleiche arithmetische Mittel 2. Der Stichprobenumfang von S2 sei aber viermal so groß wie der von S1 . Der zweiseitige Einstichproben Z-Test (H0 : µ = 0) ergebe für S1 einen P-Wert von P = 0.4. Ist der zweiseitige Einstichproben Z-Test (H0 : µ = 0) für S2 signifikant auf dem Niveau 10%? Benutzen Sie folgende R Ausgabe und begründen Sie Ihre Antwort. > qnorm(c(0.8, 0.85, 0.9, 0.95)) [1] 0.8416212 1.0364334 1.2815516 1.6448536 Lösung: Für ein Signifikanzniveau α wird die Grenze des rechten Teils des Ablehnungsbereichs durch Φ−1 (1 − α2 ) berechnet. Φ bezeichnet die (kumulative) Verteilungsfunktion der Standardnormalverteilung und Φ−1 ihre Umkehrfunktion. In R sind diese Funktionen in pnorm bzw. qnorm implementiert. In der R 8 Ausgabe werden daher die Grenzen des rechten Teils der Ablehnungsbereiche für die Signifikanzniveaus α = 0.4, 0.3, 0.2 und 0.1 berechnet. Da der P-Wert das kleinste Signifikanzniveau ist, auf dem der Test gerade noch signifikant ist, muss die Statistik Z1 des Z-Tests für S1 auf dem Rand des Ablehnungsbereichs für α = 0.4 liegen. Damit folgt |Z1 | = 0.8416212. Da S2 den gleichen Mittelwert wie S1 hat und beide Stichproben aus einer Population mit bekannter Varianz σ 2 stammen, ist der Wert der Z-Statistik Z2 für S2 doppelt so groß wie der für √ S1 (die Fallzahl n geht als Faktor n in die Berechnung der Statistik ein!). Wegen 2 ∗ 0.8416212 > 1.6448536 liegt deshalb Z2 im Ablehnungsbereich für α = 0.1 und die Nullhypothese kann auf dem 10% Niveau abgelehnt werden. Aufgabe 12 (4 Punkte): Sei S = (1, 3) eine Stichprobe (n = 2) aus einer normalverteilten Population. A Berechnen Sie die Statistik T des Einstichproben t-Tests für die Nullhypothese H0 : µ = 5. B Welcher R Befehl berechnet den zweiseitigen P-Wert? Mehrere oder auch keine Antwort können richtig sein. (a) 2*pt(T, df=1) (b) 2*pt(T, df=2) (c) 2*pt(-abs(T), df=1) (d) 2*pt(-T, df=1) (e) 2*pt(-T, df=2) Lösung: A Zunächst berechnet man Mittelwert und die empirische Varianz der Stichprobe: 1 (1 + 3) = 2 2 1 = ((1 − 2)2 + (3 − 2)2 ) = 2 2−1 µ̂ = σˆ2 Setz man diese Größen in die Formel für den Einstichprroben t-Test ein, erhält man: 2 − 5√ T = √ 2 = −3 2 B Da n = 2 ist, ist T unter Nullhypothese t-verteilt mit einem Freiheitsgrad. Man erhält den zweiseitige P-Wert durch den R Ausdruck in (c). Da T < 0 ist, kommt bei (a) das Gleiche wie bei (c) heraus. Die anderen Möglichkeiten benutzen entweder die falsche Anzahl von Freiheitsgraden ((b) und (e)) oder werten die Verteilungsfunktion bei 3 statt bei -3 aus ((d)). Somit sind genau (a) und (c) richtig. 9 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Wahrscheinlichkeitsdichte der t−Verteilung mit einem Freiheitsgrad −6 −4 −2 0 2 4 6 Aufgabe 13 (4 Punkte): Mit dem Mann-Whitney-U Test werden zwei unabhängige Stichproben S1 = (X1 , . . . , Xn ) und S2 = (Y1 , . . . , Ym ) verglichen. Die Werte in beiden Stichproben seien positiv. Der P-Wert betrage P = 0.651. Nun werden beide Stichproben logarithmiert und anschließend wieder mit dem Mann-Whitney-U Test verglichen. Der P-Wert dieses Tests sei P 0 . Was kann über den P-Wert P 0 ausgesagt werden? Mehrere Antworten können richtig sein. A (a) P 0 < P (b) P 0 > P (c) P 0 = P (d) P 0 ≤ 0.5 (e) Es ist keine allgemeine Aussage möglich. B Geben Sie eine kurze Begründung Ihrer Wahl. Lösung: A c ist richtig. B Der Logarithmus ist eine streng monoton steigende Funktion. Logarithmieren hat deshalb auf die Ränge keinen Einfluss. Da in die Statistik des Mann-Whitney-U Tests nur die Ränge eingehen, ändert sich am Wert der Statistik, und damit auch am P-Wert, nichts. 10 Aufgabe 14 (4 Punkte): Sei S = (1, 1, 2.4, −5, 0, 6) eine Stichprobe aus einer normalverteilten Population. Welche der Werte 1.1, 6.7, 14 und -14 liegen innerhalb, welche außerhalb des zweiseitigen 90%, 95% oder 99% Konfidenzintervalls? Markieren Sie das entsprechende Feld in folgender Tabelle mit i für innerhalb und a für außerhalb: 90% 95% 99% 1.1 6.7 14 -14 Lösen Sie die Aufgabe mit Hilfe folgender R- Ausgabe: > S <- c(1, 1, 2.4 ,-5 , 0 ,6) > mean(S) [1] 0.9 > t.test(S,mu=1.1)$p.value [1] 0.8963481 > t.test(S,mu=6.7)$p.value [1] 0.01059285 > t.test(S,mu=14)$p.value [1] 0.0002862922 Lösung: 90% 95% 99% 1.1 i i i 6.7 a a i 14 a a a -14 a a a Eine reelle Zahl µ0 liegt genau dann im zweiseitigen (1 − α)100% Konfidenzintervall, wenn die Nullhypothese H0 : µ = µ0 des Einstichproben t-Tests auf dem Niveau α nicht abgelehnt werden kann. Da der P-Wert des Einstichproben t-Tests für µ0 = 1.1 mit P = 0.8963481 größer als α = 0.1, 0.05, 0.01 ist, kann 11 H0 : µ = 1.1 auf allen drei Signifikanzniveaus nicht abgelehnt werden. 1.1 ist daher in allen drei Konfidenzintervallen enthalten. Für µ0 = 6.7 kann die Nullhypothese H0 : µ = 6.7 für α = 0.1, 0.05 abgelehnt, für α = 0.01 jedoch nicht abgelehnt werden. Damit liegt 6.7 außerhalb des 90% und 95%, aber innerhalb des 99% Konfidenzintervalls. Da die Nullhypothese H0 : µ = 14 mit P = 0.0002862922 auch auf dem Niveau α = 0.01 abgelehnt werden kann, liegt 14 außerhalb aller drei Konfidenzintervalle. Schließlich muss auch −14 außerhalb aller drei Konfidenzintervalle liegen, da −14 vom Mittelwert 0.9 weiter entfernt liegt als 14. Aufgabe 15 (4 Punkte): Betrachten Sie folgende Kreuztabelle: Gruppe 1 Gruppe 2 Responder ja Responder Nein 55 45 45 55 A Berechnen Sie die vier erwarteten Häufigkeiten für die Kreuztabelle. B Berechnen Sie die χ2 -Statistik X. C Formulieren Sie die Nullhypothese, die durch den χ2 -Test geprüft wird. D Kann diese Nullhypothese für diese Kreuztabelle auf dem Niveau α = 0.05 abgelehnt werden? Entscheiden Sie mit Hilfe folgender R Ausgabe: > pchisq(1:4, df=1) [1] 0.6826895 0.8427008 0.9167355 0.9544997 Lösung: A In der gesamten Stichprobe gibt es 100 Responder und 100 Non-Responder. Die geschätzte Wahrscheinlichkeit für Response (z.B. Ansprechen auf eine Therapie) beträgt damit p̂ = 1/2. Da sich in beiden Gruppen jeweils 100 Patienten befinden, erwartet man sowohl in Gruppe 1 wie in Gruppe 2 genau 100 ∗ 1/2 = 50 Responder und genauso viele Non-Responder. Die erwarteten Häufigkeiten sind damit: Gruppe 1 Gruppe 2 B Responder ja Responder Nein 50 50 50 50 Aus den erwarteten und beobachteten Häufigkeiten berechnet man die Statistik des χ2 Tests: (55 − 50)2 (45 − 50)2 (45 − 50)2 (55 − 50)2 X= + + + =2 50 50 50 50 12 C Die Wahrscheinlichkeit für einen Responder in der Population, aus der die Gruppe 1 gezogen wurde, sei p1 , die entsprechende Wahrscheinlichkeit für Gruppe 2 sei p2 . Die gesuchte Nullhypothese ist dann H0 : p1 = p2 . D Sei Fχ2 ,1 die Verteilungsfunktion der χ2 Verteilung mit einem Freiheitsgrad. Da es beim χ2 Test nur einen rechten Ablehnungsbereich gibt, gilt P = 1 − Fχ2 ,1 (X). In R ist Fχ2 ,1 in pchisq(.,df=1) implementiert. Der P-Wert für den χ2 Test der Kreuztabelle kann daher mit der R Ausgabe aus dem Wert der Statistik X = 2 zu 1 − 0.8427008 = 0.1572992 bestimmt werden. Der χ2 -Test ist deshalb nicht signifikant auf dem Niveau 5%. Ist fχ2 ,1 die Wahrscheinlichkeitsdichte der χ2 Verteilung mit einem Freiheitsgrad, dann ist der P-Wert die Fläche unter fχ2 ,1 von X = 2 bis ∞: 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Wahrscheinlichkeitsdichte der Chiquadratverteilung mit einem Freiheitsgrad 0 1 2 3 4 5 6 Aufgabe 16 (4 Punkte): In der gewöhnlichen linearen Regressionsanalyse werden die Geradenparameter a und b der Geraden La,b : y = a + bx 13 so bestimmt, dass eine bestimmte Quadratsumme minimal wird. Berechnen Sie diese Quadratsumme Q für die Punkte (1, 2), (2, 5), (3, 10) und die Gerade L : y = x. Lösung: Die Quadratsumme Q ist die Summe der Quadrate der vertikalen Abstände der Punkte zur Geraden L. Für die Punkte (1, 2), (2, 5), (3, 10) und L : y = x. ist das 10 Q = (2 − 1)2 + (5 − 2)2 + (10 − 3)3 = 59. 6 8 ● 4 ● 0 2 ● 0 2 4 6 8 10 Q= Summe der Flächen des roten, blauen und grünen Quadrats. 14 Nützliche Formeln: • Binomialverteilung: n k b(k, n, p) = p (1 − p)n−k k Erwartungswert: np Varianz: np(1 − p) • Poissonverteilung: p(k, λ) = e k −λ λ k! Erwartungswert und Varianz sind λ. • Formel von Bayes: P(A|B) = P(B|A)P(A) P(B|A)P(A) + P(B|AC )P(AC ) • Statistik des Z-Tests: x̄ − µ0 √ n σ x̄ ist das arithmetische Mittel der Stichprobe. Z= • Einstichproben t-Test: x̄ − µ0 √ n T = p σˆ2 mit n σˆ2 = 1 X (xi − x̄)2 . n − 1 i=1 • Statistik des χ2 -Tests: X= (N11 − E11 )2 (N12 − E12 )2 (N21 − E21 )2 (N22 − E12 )2 + + + E11 E12 E21 E22 Die Nij sind die beobachteten und die Eij die erwarteten Häufigkeiten. 15