4. ¨Ubung zur Bioinformatik II, SS 2011

Universität des Saarlandes
FR 6.2 Informatik
Prof. Dr. Hans-Peter Lenhof
M. Sc. Anne Dehof
M. Sc. Daniel Stöckel
Dr. Marc Hellmuth
I
4. Übung zur Bioinformatik II, SS 2011
Aufgabe 1: Erwartungstreue Schätzer (2 + 1 + 2 + 1 + 4 + 2 + 4 + 1 + 1 = 18
Punkte)
Ein Teich enthält eine unbekannte Zahl N von Fischen, die geschätzt werden soll. Dazu
werden W Fische gefangen, mit einem weißen Fleck markiert und wieder in den Teich ausgesetzt. Man wartet eine Weile, dann fischt man so lange, bis man einen markierten Fisch
gefangen hat. (Die Fische werden nach ihrem Fang sofort wieder in den Teich entlassen.)
Dabei zählt man die Anzahl an gefangenen Fischen und nennt diese Zahl X1 . Wiederholt
man diesen Zählvorgang n-mal, so erhält man weitere Ergebnisse X2 , ..., Xn .
(a) Welcher Verteilung folgen die Werte X1 , ..., Xn ?
(b) Geben Sie die Wahrscheinlichkeit p einen markierten Fisch zu fangen an.
(c) Geben Sie den Erwartungswert und die Varianz von X1 an.
(d) Formen Sie p so um, dass Sie N berechnen können.
(e) Kombinieren Sie die Ergebnisse von (b) und (d) zu einem erwartungstreuen Schätzer
b1 für N , d.h. einer Zufallsvariable Z mit E[Z] = N , basierend auf X1 .
N
(f) Berechnen Sie die Var[Z].
(g) Erweitern Sie Ihren Schätzer so, dass er alle Xi statt nur X1 verwendet und zeigen
b2 erwartungstreu ist.
Sie, dass auch dieser Schätzer N
b2 .
(h) Berechnen Sie die Varianz des Schätzers N
(i) Welcher der beiden Schätzer für N ist der besser? Begründen Sie Ihre Wahl.
Aufgabe 2: Kontingenztafeln (5+2+1+1+1+1=11 Punkte)
Das Gen TGF-β1 spielt eine wichtige Rolle bei der Regulation der Proliferation und Apoptose von Zellen des Prostata-Gewebes. Im Folgenden soll die Abhängigkeit verschiedener Genotypen (T/C Polymorphismus) dieses Gens und dem Risiko an Prostata-Krebs
(PCa) oder an gutartiger Prostata-Vergrößerung (BPH) zu erkranken, untersucht werden. Gegeben seien folgenden Datentabellen:
(a) Füllen Sie für beide Datensätze eine Tabelle mit folgendem Inhalt aus:
Tabelle 1: Datensatz 1
Kontrolle
BPH
PCa
Total
CC
96
52
79
227
TC
137
116
179
432
TT
70
53
93
216
Total
303
221
351
875
Tabelle 2: Datensatz 2
Kontrolle
BPH
PCa
Total
CC
96
52
79
227
TC + TT
207
169
272
648
Beobachtungen (Nij ) M.L.E. (Êij )
Total
303
221
351
875
Nij − Êij
(Nij − Êij )2
(Nij −Êij )2
Êij
96
137
70
···
(b) Beantworten Sie folgende Fragen für Datensatz 1, wenn man davon ausgeht, dass
eine Person aus der Studie zufällig ausgewählt wird. Geben Sie dabei die Herleitung
und nicht nur das Endergebnis an.
• Was ist die Wahrscheinlichkeit, dass eine Person zur Kontrollgruppe gehört?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
TC besitzt?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
CC besitzt und zur BPH Gruppe gehört?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
CC besitzt oder zur BPH Gruppe gehört?
(c) Geben Sie die Anzahl der Freiheitsgrade für beide Kontingenztafeln an.
(d) Berechnen Sie die χ2 Teststatistik für beide Kontingenztafeln.
(e) Geben Sie den Wert der passenden χ2 Verteilung für eine Signifikanzschranke von
0.05 an. (s. z.B. http://people.richland.edu/james/lecture/m170/tbl-chi.
html).
(f) Sind für die gewählte Signifikanzschranke und die berechneten Teststatistiken die
Genotypen und die Gruppenzugehörigkeit unabhängige Ereignisse? Begründen und
interpretieren Sie ihre Antwort.
Aufgabe 3: Lineare Diskriminatenanalyse (1 + 2 + 2 + 3 + 3 = 11 Punkte)
Lineare Diskriminantenanalyse (LDA) ist eine lineare Methode zur Klassifikation. Sie
beruht auf einem einfachen, aber leistungsfähigen statistischen Modell: Angenommen die
zu klassifizierenden Daten X ∈ RN ×p entstammen K multivariaten Normalverteilungen
N (µk , Σ), von denen jede Verteilung einer Klasse entspricht. Das heißt, die Wahrscheinlichkeitsdichte, aus der die Datenpunkte einer Klasse gezogen wurden, ist definiert als:
fk (x) :=
1
1
e− 2 (x−µk )
(2π)p/2 |Σ|1/2
T Σ−1 (x−µ )
k
Die Wahrscheinlichkeit, dass ein Datenpunkt x aus Verteilung k gezogen wurde, ist nun
gegeben als:
fk (x)πk
P (G = k|X = x) = PK
l=1 fl (x)πl
wobei πk dem Anteil der Datenpunkte der Gruppe k an der Gesamtdatenmenge entspricht.
πk ist damit die a-priori Wahrscheinlichkeit P (G = k), dass ein unbekannter Datenpunkt
zur Klasse k gehört.
Um die Klasse zu einem gegebenen Datenpunkt x zu bestimmen, betrachtet man bei der
LDA nun die sogenannten log-odds:
log
P (G = k|X = x)
P (G = l|X = x)
(a) Welchen Wertebereich müssen die log-odds annehmen damit x zu k klassifiziert
wird? Welchen damit x zu l klassifiziert wird?
(b) Wieviele log-odds müssen Sie auswerten, um bei K Klassen die Klassenzugehörigkeit
eines Datenpunktes zu bestimmen.
(c) Zeigen Sie, dass die log-odds linear in x sind.
(d) Ein Voronoi-Diagramm einer Punktmenge X = {xi ∈ Rm | i = 1, ..., K} ordnet
allen Punkten aus Rm dem nächsten Punkt aus X zu. Zeichnen Sie ein Voronoi
Diagramm für die gegebene Punktmenge:
(e) Nehmen Sie an, dass alle Klassen gleichstark vertreten sind. D.h.: πk = πl ∀k,l und
dass Σ = σ 2 I (also isotrop) ist. Beweisen Sie, dass die Klassifikation durch LDA
dem Voronoi-Diagram für die µk entspricht.
Abgabe: Donnerstag, 12.05.2011, 23:59 Uhr