BSc Bioinformatik Sommersemester 2015 Klausur zur Statistik für

Werbung
BSc Bioinformatik Sommersemester 2015
Klausur zur Statistik für Biowissenschaften II
Freie Universität Berlin
15. Juli 2015
Matrikelnummer
Nachname
Vorname
Unterschrift
Aufgabe 1 (4 Punkte): Betrachten Sie folgendes lineares Modell:
1
2
3
4
=
=
=
=
a + 1
a + 2
a + 3
a + 4
1 , . . . , 4 seien unabhängige, normalverteilte Zufallsvariablen mit Erwartungswert 0 und gemeinsamer Varianz σ 2 .
Geben Sie die Modellmatrix X an. Berechnen Sie (X 0 X)−1 und den kleinsten
Quadrate Schätzer â von a.
Lösung:


1
 1 

X=
 1 
1
(X 0 X)−1 = (4)−1 = (1/4)
Kleinste Quadrate Schätzer:


1
 2  1
1

â = (X 0 X)−1 Xy = (1, 1, 1, 1) 
 3  = 4 (1 + 2 + 3 + 4) = 2.5
4
4
1
Aufgabe 2 (4.5 Punkte): Sei
M1 : yi = β0 + β1 x1i + i
i = 1, . . . , 10
ein lineares Modell, für das die üblichen Modellannahmen gelten. Seien ŷi die
von MP
1 vorhergesagten Werte, ri = yi − ŷi die Residuen des Modells und
1
ȳ = 10 10
i=1 yi .
A
Geben Sie die Freiheitsgrade (df) folgender Quadratsummen an:
S1 =
10
X
ŷi2
df(S1 ) =
i=1
S2 =
10
X
(ŷi − ȳ)2
df(S2 ) =
i=1
S3 =
10
X
yi2
df(S3 ) =
i=1
S4 =
10
X
(yi − ȳ)2
df(S4 ) =
i=1
S5 =
10
X
ri2
df(S5 ) =
i=1
B
Geben Sie zwei nicht-triviale, nicht-äquivalente Gleichungen an, in denen
jeweils drei der Quadratsummen vorkommen.
Lösung:
A
df(S1 )
df(S2 )
df(S3 )
df(S4 )
df(S5 )
B
10
X
yi2
=
i=1
10
X
i=1
2
(yi − ȳ) =
10
X
=
=
=
=
=
ŷi2
2
1
10
9
8
+
10
X
i=1
i=1
10
X
2
i=1
2
ri2
(ŷi − ȳ) +
10
X
i=1
ri2
Aufgabe 3 (4 Punkte): Sei nun
M2 : yi = β0 + β1 x1i + β2 x2i + +β3 x3i + i
i = 1, . . . , 10
ein zweites Modell für den gleichen Datensatz wie in Aufgabe 2. Seien
T1 =
T2 =
T3 =
10
X
ŷi2
i=1
10
X
(ŷi − ȳ)2
i=1
10
X
yi2
i=1
T4 =
10
X
(yi − ȳ)2
i=1
T5 =
10
X
ri2
i=1
die Quadratsummen zu M2 .
A
Geben Sie die Freiheitsgrade für
T1 − S1
und
T2 − S2
an. Nehmen Sie an, dass die Nullhypothese H0 : β2 = β3 = 0 wahr ist.
B
Geben Sie die F-Statistik an, mit der H0 : β2 = β3 = 0 getestet werden
kann.
Lösung:
A
df(T1 − S1 ) = df(T2 − S2 ) = 2
B
F =
T1 −S1
2
T5
6
F =
T2 −S2
2
T5
6
oder
3
.
Aufgabe 4 (3.5 Punkte): Seien
M0
M1
M2
M3
M4
:
:
:
:
:
yi
yi
yi
yi
yi
= β0 + i
= β0 + β1 x1i + i
= β0 + β2 x2i + i
= β0 + β1 x1i + β2 x2i + i
= β0 + β1 x1i + β2 x2i + β3 x1i x2i + i
lineare Modelle für den gleichen Datensatz (i = 1, . . . , n). Die Parameter seien
β0 , . . . , β3 und es gelten die üblichen Modellannahmen.
Geben Sie alle Nullhypothesen an, die mit partiellen F-Tests geprüft werden
können.
Lösung:
H0
H0
H0
H0
H0
H0
H0
:
:
:
:
:
:
:
β1
β2
β1
β1
β2
β1
β3
=0
=0
= β2
= β2
= β3
= β3
=0
=0
= β3 = 0
=0
=0
Aufgabe 5 (3 Punkte): Für ein lineares Modell
yi = β0 + β1 x1i + β2 x2i + i
werden die Modellparameter β0 , β1 und β2 mit
(1) der kleinsten Quadrate Methode
(2) Ridge-Regression und
(3) Lasso-Regression
geschätzt. Man erhält für die Modellparameter und die Residualquadratsummen folgende Ergebnisse:
Methode Koeffizienten Residualquadratsumme
(1.1, 2.1, 3)
10.2
(1.0, 2, 3.1)
9.8
(0.9, 2, 0)
9.9
Tragen Sie in die erste Spalte der Tabelle die Nummer der richtigen Methode
ein.
4
Lösung:
Methode
Koeffizienten Residualquadratsumme
Ridge Regression
(1.1, 2.1, 3)
10.2
Kleinste Quadrate (1.0, 2, 3.1)
9.8
Lasso
(0.9, 2, 0)
9.9
Aufgabe 6 (3 Punkte): Geben Sie für die unendliche Folge
1 1 1
1
, , ,..., ,...
2 3 4
n
von Wahrscheinlichkeiten die Folge der zugehörigen Chancen (Odds) an.
Lösung:
1 1
1
1, , , . . . ,
,...
2 3
n−1
Aufgabe 7 (3 Punkte): Das Odds-Ratio für das Auftreten eines Ereignisses zwischen zwei Gruppen G1 und G2 betrage 2. Die Wahrscheinlichkeit für
das Auftreten in Gruppe G1 sei 1/2. Mit welcher Chance und mit welcher
Wahrscheinlichkeit tritt das Ereignis in G2 auf?
Lösung: Die Chance für das Auftreten des Ereignisses in G1 ist 1. Damit ist
die Chance für das Auftreten des Ereignisses in G2 1/2. Die zugehörige Wahrscheinlichkeit ist dann 1/3.
Aufgabe 8 (5 Punkte): Sei
pi
= β0 + β1 D1i + β2 D2i + β3 Gi + β4 D1i Gi + β5 D2i Gi
log
1 − pi
eine logistische Regressionsgleichung, in der die Eintrittswahrscheinlichkeit pi
eines Ereignisses vom Beruf (Biologe, Physiker und Zahnarzt) und dem Geschlecht (G) abhängt.
0 sonst
D1 :=
1 Physiker
0 sonst
D2 :=
1 Zahnarzt
0 Mann
G :=
1 Frau
A
Wie groß ist das Odds für einen männlichen Physiker?
B
Geben Sie das Odds-Ratio zwischen einem männlichen Physiker und einem männlichen Biologen an.
C
Geben Sie das Odds Ratio zwischen einer Physikerin und einem männlichen Biologen an.
5
Hinweis: Drücken Sie alle gesuchten Größen durch die Parameter β0 , . . . , β5
aus.
Lösung:
A
exp(β0 + β1 )
B
exp(β1 )
C
exp(β1 + β3 + β4 )
Aufgabe 9 (4 Punkte): Für die Variablen X1 , X2 und X3 mit der VarianzKovarianz Matrix


5
0
0
K =  0 2.5 −0.5 
0 −0.5 2.5
werden die Hauptkomponenten H1 , H2 und H3 berechnet.
A
Geben Sie die Varianzen der Hauptkomponenten an.
B
Geben Sie für jede Hauptkomponente ihre Dartsellung als Linearkombination der ursprünglichen Variablen X1 , X2 und X3 an.
Hinweis: Prüfen Sie, ob die Vektoren (1, 0, 0)0 , (1, 1, 1)0 , (0, 1, 1)0 , (2, 1, 1)0 , (0, 1, −1)0
Eigenvektoren von K sind.
Lösung: Durch Probieren findet man, dass (1, 0, 0)0 , (0, 1, 1)0 und (0, 1, −1)0
Eigenvektoren von K mit den Eigenwerten 5, 2 und 3 sind. Die Varianzen der
Hauptkomponenten sind deshalb 5, 3 und 2.
H1 = X1
√
H2 = (X2 − X3 )/ 2
√
H3 = (X2 + X3 )/ 2
Aufgabe 10 (4 Punkte): Die unabhängigen Zufallsvariablen X1 und X2 seien
geometrisch mit Trefferwahrscheinlichkeit p verteilt.
A
Geben Sie die Likelihood- und Loglikelihoodfunktion für die Versuchsausgänge X1 = k1 und X2 = k2 an.
B
Berechnen Sie den Maximum-Likelihoodschätzer p̂ für p.
6
Hinweis: Eine geometrisch verteilte Zufallsvariable X mit Trefferwahrscheinlichkeit p hat die Verteilung
P(X = k) = p(1 − p)k−1 ,
k = 1, 2, . . . .
Lösung:
A
Likelihood:
L(p) = p(1 − p)k1 −1 p(1 − p)k2 −1 = p2 (1 − p)k1 +k2 −2
Loglikelihood:
l(p) = 2 log(p) + (k1 + k2 − 2) log(1 − p)
B
l0 (p) =
2 k1 + k2 − 2
−
p
1−p
Aus l0 (p̂) = 0 folgt
p̂ =
2
.
k1 + k2
Aufgabe 11 (3 Punkte): Man betrachte die Modelle
M1 : yi = a + bxi + i
und
M2 : log(yi ) = a + bxi + i
i = 1 . . . , 400.
A
Welche der Modelle sind linear? Begründen Sie Ihre Antwort.
B
Betrachten Sie folgende Q-Q Plots der studentisierten Residuen beider
Modelle.
7
●
M1, Q−Q Plot●●
M2, Q−Q Plot
●
●
3
3
●
●
●
●
●
2
1
0
−2
−3
−3
−1
1
2
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
−2
−3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
Sample Quantiles
1
0
−1
Sample Quantiles
2
●
●
●
●
3
●
●
●
−3
Theoretical Quantiles
−1
1
2
3
Theoretical Quantiles
Geben Sie die Modellvoraussetzungen an, die mit Q-Q Plots geprüft werden können.
C
Welches der Modelle ist den Daten eher angemessen? Geben Sie eine
Begründung Ihrer Antwort.
Lösung:
A
Beide Modelle sind linear, da die rechte Seite der Modellgleichungen linear in den Parametern a und b sind.
B
Mit Q-Q Plots kann geprüft werden, ob die Fehlerterme i normalverteilt
sind. Die Punkte sollten in der Nähe der 45 Grad Geraden liegen.
C
Für M2 spricht nichts gegen die Annahme, dass die Fehlerterme normalverteilt sind. Man würde deshalb M2 dem Modell M1 vorziehen.
Aufagbe 12 (2 Punkte): Berechnen Sie den Abstand der Punkte P1 =
(1, 3, −4, 0) und P2 = (0, 4, 5, −10) in der L1 und L∞ Norm
Lösung:
||P1 − P2 ||1 = ||(1, −1, −9, 10)||1 = 21
||P1 − P2 ||∞ = ||(1, −1, −9, 10)||∞ = 10
8
Aufgabe 13 (4 Punkte): Welche Punkte im IR2 haben in allen Lp Normen
(p ∈ [1, ∞]) die gleiche Länge?
Lösung: Alle Punkte, die auf dem Achsenkreuz liegen, haben in allen Normen
die gleiche Länge:
{(0, t)|t ∈ IR} ∪ {(t, 0)|t ∈ IR}
Aufgabe 14 (4 Punkte): Führen Sie für die Punkte
{1, 2.1 , 4 , 5 , 1.5}
in IR die Clusteralgorithmen nach dem single und complete Linkage Verfahren
durch. Geben Sie alle Zwischenschritte an.
Lösung:
Single Linkage:
1. {1}, {1.5}, {2.1}, {4}, {5}
2. {1, 1.5}, {2.1}, {4}, {5}
3. {1, 1.5, 2.1}, {4}, {5}
4. {1, 1.5, 2.1}, {4, 5}
5. {1, 1.5, 2.1, 4, 5}
Complete Linkage:
1. {1}, {1.5}, {2.1}, {4}, {5}
2. {1, 1.5}, {2.1}, {4}, {5}
3. {1, 1.5}, {2.1}, {4, 5}
4. {1, 1.5, 2.1}, {4, 5}
5. {1, 1.5, 2.1, 4, 5}
Aufgabe 15 (4 Punkte): Geben Sie für folgende Problemstellungen die am
besten geeignete Regressionsmethode an. Wählen Sie aus folgender Liste von
Regressionsmethoden aus:
Kleinste Quadrate, Ridge Regression, Lasso Regression, Nicht lineare Regressionsanalyse, Logistische Regression
Eine Methode kann mehrfach oder auch nicht vorkommen.
A
Die Anzahl der unabhängigen Variablen sei größer als die Anzahl der
Fälle. Man will keine Variablenselektion vornehmen.
B
Die Anzahl der unabhängigen Variablen sei ungefähr so groß wie die
Anzahl der Fälle. Es sollen unabhängige Variablen mit großem Einfluss
selektiert werden.
9
C
In einer Studie mit 200 Patienten, die an Epilepsie leiden, werden 100
mit einem neuen Medikament und 100 mit einem Placebo behandelt.
Nach einem Jahr wird für jeden Patienten festgestellt, ob er im letzten
Jahr einen Anfall hatte. Es soll geprüft werden, ob das neue Medikament
die Wahrscheinlichkeit anfallsfrei zu bleiben im Vergleich zum Placebo
erhöht.
D
In einer Studie mit n = 100 Fällen soll die Abhängigkeit einer normalverteilten Responsevariable y von p = 90 Kovariaten x1 , . . . , x90 untersucht
werden. Ein erster Versuch mit der R Funktion lm ergab betragsmäßig
unrealistisch große Koeffizientenschätzer. Es wird ein Modell mit wenigen
aussagekräftigen Variablen gesucht.
Lösung:
A
Ridge Regression
B
Lasso Regression
C
Logistische Regression
D
Lasso Regression
10
Herunterladen