BSc Bioinformatik Sommersemester 2015 Klausur zur Statistik für Biowissenschaften II Freie Universität Berlin 15. Juli 2015 Matrikelnummer Nachname Vorname Unterschrift Aufgabe 1 (4 Punkte): Betrachten Sie folgendes lineares Modell: 1 2 3 4 = = = = a + 1 a + 2 a + 3 a + 4 1 , . . . , 4 seien unabhängige, normalverteilte Zufallsvariablen mit Erwartungswert 0 und gemeinsamer Varianz σ 2 . Geben Sie die Modellmatrix X an. Berechnen Sie (X 0 X)−1 und den kleinsten Quadrate Schätzer â von a. Lösung: 1 1 X= 1 1 (X 0 X)−1 = (4)−1 = (1/4) Kleinste Quadrate Schätzer: 1 2 1 1 â = (X 0 X)−1 Xy = (1, 1, 1, 1) 3 = 4 (1 + 2 + 3 + 4) = 2.5 4 4 1 Aufgabe 2 (4.5 Punkte): Sei M1 : yi = β0 + β1 x1i + i i = 1, . . . , 10 ein lineares Modell, für das die üblichen Modellannahmen gelten. Seien ŷi die von MP 1 vorhergesagten Werte, ri = yi − ŷi die Residuen des Modells und 1 ȳ = 10 10 i=1 yi . A Geben Sie die Freiheitsgrade (df) folgender Quadratsummen an: S1 = 10 X ŷi2 df(S1 ) = i=1 S2 = 10 X (ŷi − ȳ)2 df(S2 ) = i=1 S3 = 10 X yi2 df(S3 ) = i=1 S4 = 10 X (yi − ȳ)2 df(S4 ) = i=1 S5 = 10 X ri2 df(S5 ) = i=1 B Geben Sie zwei nicht-triviale, nicht-äquivalente Gleichungen an, in denen jeweils drei der Quadratsummen vorkommen. Lösung: A df(S1 ) df(S2 ) df(S3 ) df(S4 ) df(S5 ) B 10 X yi2 = i=1 10 X i=1 2 (yi − ȳ) = 10 X = = = = = ŷi2 2 1 10 9 8 + 10 X i=1 i=1 10 X 2 i=1 2 ri2 (ŷi − ȳ) + 10 X i=1 ri2 Aufgabe 3 (4 Punkte): Sei nun M2 : yi = β0 + β1 x1i + β2 x2i + +β3 x3i + i i = 1, . . . , 10 ein zweites Modell für den gleichen Datensatz wie in Aufgabe 2. Seien T1 = T2 = T3 = 10 X ŷi2 i=1 10 X (ŷi − ȳ)2 i=1 10 X yi2 i=1 T4 = 10 X (yi − ȳ)2 i=1 T5 = 10 X ri2 i=1 die Quadratsummen zu M2 . A Geben Sie die Freiheitsgrade für T1 − S1 und T2 − S2 an. Nehmen Sie an, dass die Nullhypothese H0 : β2 = β3 = 0 wahr ist. B Geben Sie die F-Statistik an, mit der H0 : β2 = β3 = 0 getestet werden kann. Lösung: A df(T1 − S1 ) = df(T2 − S2 ) = 2 B F = T1 −S1 2 T5 6 F = T2 −S2 2 T5 6 oder 3 . Aufgabe 4 (3.5 Punkte): Seien M0 M1 M2 M3 M4 : : : : : yi yi yi yi yi = β0 + i = β0 + β1 x1i + i = β0 + β2 x2i + i = β0 + β1 x1i + β2 x2i + i = β0 + β1 x1i + β2 x2i + β3 x1i x2i + i lineare Modelle für den gleichen Datensatz (i = 1, . . . , n). Die Parameter seien β0 , . . . , β3 und es gelten die üblichen Modellannahmen. Geben Sie alle Nullhypothesen an, die mit partiellen F-Tests geprüft werden können. Lösung: H0 H0 H0 H0 H0 H0 H0 : : : : : : : β1 β2 β1 β1 β2 β1 β3 =0 =0 = β2 = β2 = β3 = β3 =0 =0 = β3 = 0 =0 =0 Aufgabe 5 (3 Punkte): Für ein lineares Modell yi = β0 + β1 x1i + β2 x2i + i werden die Modellparameter β0 , β1 und β2 mit (1) der kleinsten Quadrate Methode (2) Ridge-Regression und (3) Lasso-Regression geschätzt. Man erhält für die Modellparameter und die Residualquadratsummen folgende Ergebnisse: Methode Koeffizienten Residualquadratsumme (1.1, 2.1, 3) 10.2 (1.0, 2, 3.1) 9.8 (0.9, 2, 0) 9.9 Tragen Sie in die erste Spalte der Tabelle die Nummer der richtigen Methode ein. 4 Lösung: Methode Koeffizienten Residualquadratsumme Ridge Regression (1.1, 2.1, 3) 10.2 Kleinste Quadrate (1.0, 2, 3.1) 9.8 Lasso (0.9, 2, 0) 9.9 Aufgabe 6 (3 Punkte): Geben Sie für die unendliche Folge 1 1 1 1 , , ,..., ,... 2 3 4 n von Wahrscheinlichkeiten die Folge der zugehörigen Chancen (Odds) an. Lösung: 1 1 1 1, , , . . . , ,... 2 3 n−1 Aufgabe 7 (3 Punkte): Das Odds-Ratio für das Auftreten eines Ereignisses zwischen zwei Gruppen G1 und G2 betrage 2. Die Wahrscheinlichkeit für das Auftreten in Gruppe G1 sei 1/2. Mit welcher Chance und mit welcher Wahrscheinlichkeit tritt das Ereignis in G2 auf? Lösung: Die Chance für das Auftreten des Ereignisses in G1 ist 1. Damit ist die Chance für das Auftreten des Ereignisses in G2 1/2. Die zugehörige Wahrscheinlichkeit ist dann 1/3. Aufgabe 8 (5 Punkte): Sei pi = β0 + β1 D1i + β2 D2i + β3 Gi + β4 D1i Gi + β5 D2i Gi log 1 − pi eine logistische Regressionsgleichung, in der die Eintrittswahrscheinlichkeit pi eines Ereignisses vom Beruf (Biologe, Physiker und Zahnarzt) und dem Geschlecht (G) abhängt. 0 sonst D1 := 1 Physiker 0 sonst D2 := 1 Zahnarzt 0 Mann G := 1 Frau A Wie groß ist das Odds für einen männlichen Physiker? B Geben Sie das Odds-Ratio zwischen einem männlichen Physiker und einem männlichen Biologen an. C Geben Sie das Odds Ratio zwischen einer Physikerin und einem männlichen Biologen an. 5 Hinweis: Drücken Sie alle gesuchten Größen durch die Parameter β0 , . . . , β5 aus. Lösung: A exp(β0 + β1 ) B exp(β1 ) C exp(β1 + β3 + β4 ) Aufgabe 9 (4 Punkte): Für die Variablen X1 , X2 und X3 mit der VarianzKovarianz Matrix 5 0 0 K = 0 2.5 −0.5 0 −0.5 2.5 werden die Hauptkomponenten H1 , H2 und H3 berechnet. A Geben Sie die Varianzen der Hauptkomponenten an. B Geben Sie für jede Hauptkomponente ihre Dartsellung als Linearkombination der ursprünglichen Variablen X1 , X2 und X3 an. Hinweis: Prüfen Sie, ob die Vektoren (1, 0, 0)0 , (1, 1, 1)0 , (0, 1, 1)0 , (2, 1, 1)0 , (0, 1, −1)0 Eigenvektoren von K sind. Lösung: Durch Probieren findet man, dass (1, 0, 0)0 , (0, 1, 1)0 und (0, 1, −1)0 Eigenvektoren von K mit den Eigenwerten 5, 2 und 3 sind. Die Varianzen der Hauptkomponenten sind deshalb 5, 3 und 2. H1 = X1 √ H2 = (X2 − X3 )/ 2 √ H3 = (X2 + X3 )/ 2 Aufgabe 10 (4 Punkte): Die unabhängigen Zufallsvariablen X1 und X2 seien geometrisch mit Trefferwahrscheinlichkeit p verteilt. A Geben Sie die Likelihood- und Loglikelihoodfunktion für die Versuchsausgänge X1 = k1 und X2 = k2 an. B Berechnen Sie den Maximum-Likelihoodschätzer p̂ für p. 6 Hinweis: Eine geometrisch verteilte Zufallsvariable X mit Trefferwahrscheinlichkeit p hat die Verteilung P(X = k) = p(1 − p)k−1 , k = 1, 2, . . . . Lösung: A Likelihood: L(p) = p(1 − p)k1 −1 p(1 − p)k2 −1 = p2 (1 − p)k1 +k2 −2 Loglikelihood: l(p) = 2 log(p) + (k1 + k2 − 2) log(1 − p) B l0 (p) = 2 k1 + k2 − 2 − p 1−p Aus l0 (p̂) = 0 folgt p̂ = 2 . k1 + k2 Aufgabe 11 (3 Punkte): Man betrachte die Modelle M1 : yi = a + bxi + i und M2 : log(yi ) = a + bxi + i i = 1 . . . , 400. A Welche der Modelle sind linear? Begründen Sie Ihre Antwort. B Betrachten Sie folgende Q-Q Plots der studentisierten Residuen beider Modelle. 7 ● M1, Q−Q Plot●● M2, Q−Q Plot ● ● 3 3 ● ● ● ● ● 2 1 0 −2 −3 −3 −1 1 2 ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 −2 −3 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● Sample Quantiles 1 0 −1 Sample Quantiles 2 ● ● ● ● 3 ● ● ● −3 Theoretical Quantiles −1 1 2 3 Theoretical Quantiles Geben Sie die Modellvoraussetzungen an, die mit Q-Q Plots geprüft werden können. C Welches der Modelle ist den Daten eher angemessen? Geben Sie eine Begründung Ihrer Antwort. Lösung: A Beide Modelle sind linear, da die rechte Seite der Modellgleichungen linear in den Parametern a und b sind. B Mit Q-Q Plots kann geprüft werden, ob die Fehlerterme i normalverteilt sind. Die Punkte sollten in der Nähe der 45 Grad Geraden liegen. C Für M2 spricht nichts gegen die Annahme, dass die Fehlerterme normalverteilt sind. Man würde deshalb M2 dem Modell M1 vorziehen. Aufagbe 12 (2 Punkte): Berechnen Sie den Abstand der Punkte P1 = (1, 3, −4, 0) und P2 = (0, 4, 5, −10) in der L1 und L∞ Norm Lösung: ||P1 − P2 ||1 = ||(1, −1, −9, 10)||1 = 21 ||P1 − P2 ||∞ = ||(1, −1, −9, 10)||∞ = 10 8 Aufgabe 13 (4 Punkte): Welche Punkte im IR2 haben in allen Lp Normen (p ∈ [1, ∞]) die gleiche Länge? Lösung: Alle Punkte, die auf dem Achsenkreuz liegen, haben in allen Normen die gleiche Länge: {(0, t)|t ∈ IR} ∪ {(t, 0)|t ∈ IR} Aufgabe 14 (4 Punkte): Führen Sie für die Punkte {1, 2.1 , 4 , 5 , 1.5} in IR die Clusteralgorithmen nach dem single und complete Linkage Verfahren durch. Geben Sie alle Zwischenschritte an. Lösung: Single Linkage: 1. {1}, {1.5}, {2.1}, {4}, {5} 2. {1, 1.5}, {2.1}, {4}, {5} 3. {1, 1.5, 2.1}, {4}, {5} 4. {1, 1.5, 2.1}, {4, 5} 5. {1, 1.5, 2.1, 4, 5} Complete Linkage: 1. {1}, {1.5}, {2.1}, {4}, {5} 2. {1, 1.5}, {2.1}, {4}, {5} 3. {1, 1.5}, {2.1}, {4, 5} 4. {1, 1.5, 2.1}, {4, 5} 5. {1, 1.5, 2.1, 4, 5} Aufgabe 15 (4 Punkte): Geben Sie für folgende Problemstellungen die am besten geeignete Regressionsmethode an. Wählen Sie aus folgender Liste von Regressionsmethoden aus: Kleinste Quadrate, Ridge Regression, Lasso Regression, Nicht lineare Regressionsanalyse, Logistische Regression Eine Methode kann mehrfach oder auch nicht vorkommen. A Die Anzahl der unabhängigen Variablen sei größer als die Anzahl der Fälle. Man will keine Variablenselektion vornehmen. B Die Anzahl der unabhängigen Variablen sei ungefähr so groß wie die Anzahl der Fälle. Es sollen unabhängige Variablen mit großem Einfluss selektiert werden. 9 C In einer Studie mit 200 Patienten, die an Epilepsie leiden, werden 100 mit einem neuen Medikament und 100 mit einem Placebo behandelt. Nach einem Jahr wird für jeden Patienten festgestellt, ob er im letzten Jahr einen Anfall hatte. Es soll geprüft werden, ob das neue Medikament die Wahrscheinlichkeit anfallsfrei zu bleiben im Vergleich zum Placebo erhöht. D In einer Studie mit n = 100 Fällen soll die Abhängigkeit einer normalverteilten Responsevariable y von p = 90 Kovariaten x1 , . . . , x90 untersucht werden. Ein erster Versuch mit der R Funktion lm ergab betragsmäßig unrealistisch große Koeffizientenschätzer. Es wird ein Modell mit wenigen aussagekräftigen Variablen gesucht. Lösung: A Ridge Regression B Lasso Regression C Logistische Regression D Lasso Regression 10