4. ¨Ubung zur Bioinformatik II, SS 2011

Werbung
Universität des Saarlandes
FR 6.2 Informatik
Prof. Dr. Hans-Peter Lenhof
M. Sc. Anne Dehof
M. Sc. Daniel Stöckel
Dr. Marc Hellmuth
I
4. Übung zur Bioinformatik II, SS 2011
Aufgabe 1: Erwartungstreue Schätzer (2 + 1 + 2 + 1 + 4 + 2 + 4 + 1 + 1 = 18
Punkte)
Ein Teich enthält eine unbekannte Zahl N von Fischen, die geschätzt werden soll. Dazu
werden W Fische gefangen, mit einem weißen Fleck markiert und wieder in den Teich ausgesetzt. Man wartet eine Weile, dann fischt man so lange, bis man einen markierten Fisch
gefangen hat. (Die Fische werden nach ihrem Fang sofort wieder in den Teich entlassen.)
Dabei zählt man die Anzahl an gefangenen Fischen und nennt diese Zahl X1 . Wiederholt
man diesen Zählvorgang n-mal, so erhält man weitere Ergebnisse X2 , ..., Xn .
(a) Welcher Verteilung folgen die Werte X1 , ..., Xn ?
(b) Geben Sie die Wahrscheinlichkeit p einen markierten Fisch zu fangen an.
(c) Geben Sie den Erwartungswert und die Varianz von X1 an.
(d) Formen Sie p so um, dass Sie N berechnen können.
(e) Kombinieren Sie die Ergebnisse von (b) und (d) zu einem erwartungstreuen Schätzer
b1 für N , d.h. einer Zufallsvariable Z mit E[Z] = N , basierend auf X1 .
N
(f) Berechnen Sie die Var[Z].
(g) Erweitern Sie Ihren Schätzer so, dass er alle Xi statt nur X1 verwendet und zeigen
b2 erwartungstreu ist.
Sie, dass auch dieser Schätzer N
b2 .
(h) Berechnen Sie die Varianz des Schätzers N
(i) Welcher der beiden Schätzer für N ist der besser? Begründen Sie Ihre Wahl.
Aufgabe 2: Kontingenztafeln (5+2+1+1+1+1=11 Punkte)
Das Gen TGF-β1 spielt eine wichtige Rolle bei der Regulation der Proliferation und Apoptose von Zellen des Prostata-Gewebes. Im Folgenden soll die Abhängigkeit verschiedener Genotypen (T/C Polymorphismus) dieses Gens und dem Risiko an Prostata-Krebs
(PCa) oder an gutartiger Prostata-Vergrößerung (BPH) zu erkranken, untersucht werden. Gegeben seien folgenden Datentabellen:
(a) Füllen Sie für beide Datensätze eine Tabelle mit folgendem Inhalt aus:
Tabelle 1: Datensatz 1
Kontrolle
BPH
PCa
Total
CC
96
52
79
227
TC
137
116
179
432
TT
70
53
93
216
Total
303
221
351
875
Tabelle 2: Datensatz 2
Kontrolle
BPH
PCa
Total
CC
96
52
79
227
TC + TT
207
169
272
648
Beobachtungen (Nij ) M.L.E. (Êij )
Total
303
221
351
875
Nij − Êij
(Nij − Êij )2
(Nij −Êij )2
Êij
96
137
70
···
(b) Beantworten Sie folgende Fragen für Datensatz 1, wenn man davon ausgeht, dass
eine Person aus der Studie zufällig ausgewählt wird. Geben Sie dabei die Herleitung
und nicht nur das Endergebnis an.
• Was ist die Wahrscheinlichkeit, dass eine Person zur Kontrollgruppe gehört?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
TC besitzt?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
CC besitzt und zur BPH Gruppe gehört?
• Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp
CC besitzt oder zur BPH Gruppe gehört?
(c) Geben Sie die Anzahl der Freiheitsgrade für beide Kontingenztafeln an.
(d) Berechnen Sie die χ2 Teststatistik für beide Kontingenztafeln.
(e) Geben Sie den Wert der passenden χ2 Verteilung für eine Signifikanzschranke von
0.05 an. (s. z.B. http://people.richland.edu/james/lecture/m170/tbl-chi.
html).
(f) Sind für die gewählte Signifikanzschranke und die berechneten Teststatistiken die
Genotypen und die Gruppenzugehörigkeit unabhängige Ereignisse? Begründen und
interpretieren Sie ihre Antwort.
Aufgabe 3: Lineare Diskriminatenanalyse (1 + 2 + 2 + 3 + 3 = 11 Punkte)
Lineare Diskriminantenanalyse (LDA) ist eine lineare Methode zur Klassifikation. Sie
beruht auf einem einfachen, aber leistungsfähigen statistischen Modell: Angenommen die
zu klassifizierenden Daten X ∈ RN ×p entstammen K multivariaten Normalverteilungen
N (µk , Σ), von denen jede Verteilung einer Klasse entspricht. Das heißt, die Wahrscheinlichkeitsdichte, aus der die Datenpunkte einer Klasse gezogen wurden, ist definiert als:
fk (x) :=
1
1
e− 2 (x−µk )
(2π)p/2 |Σ|1/2
T Σ−1 (x−µ )
k
Die Wahrscheinlichkeit, dass ein Datenpunkt x aus Verteilung k gezogen wurde, ist nun
gegeben als:
fk (x)πk
P (G = k|X = x) = PK
l=1 fl (x)πl
wobei πk dem Anteil der Datenpunkte der Gruppe k an der Gesamtdatenmenge entspricht.
πk ist damit die a-priori Wahrscheinlichkeit P (G = k), dass ein unbekannter Datenpunkt
zur Klasse k gehört.
Um die Klasse zu einem gegebenen Datenpunkt x zu bestimmen, betrachtet man bei der
LDA nun die sogenannten log-odds:
log
P (G = k|X = x)
P (G = l|X = x)
(a) Welchen Wertebereich müssen die log-odds annehmen damit x zu k klassifiziert
wird? Welchen damit x zu l klassifiziert wird?
(b) Wieviele log-odds müssen Sie auswerten, um bei K Klassen die Klassenzugehörigkeit
eines Datenpunktes zu bestimmen.
(c) Zeigen Sie, dass die log-odds linear in x sind.
(d) Ein Voronoi-Diagramm einer Punktmenge X = {xi ∈ Rm | i = 1, ..., K} ordnet
allen Punkten aus Rm dem nächsten Punkt aus X zu. Zeichnen Sie ein Voronoi
Diagramm für die gegebene Punktmenge:
(e) Nehmen Sie an, dass alle Klassen gleichstark vertreten sind. D.h.: πk = πl ∀k,l und
dass Σ = σ 2 I (also isotrop) ist. Beweisen Sie, dass die Klassifikation durch LDA
dem Voronoi-Diagram für die µk entspricht.
Abgabe: Donnerstag, 12.05.2011, 23:59 Uhr
Herunterladen