Universität des Saarlandes FR 6.2 Informatik Prof. Dr. Hans-Peter Lenhof M. Sc. Anne Dehof M. Sc. Daniel Stöckel Dr. Marc Hellmuth I 4. Übung zur Bioinformatik II, SS 2011 Aufgabe 1: Erwartungstreue Schätzer (2 + 1 + 2 + 1 + 4 + 2 + 4 + 1 + 1 = 18 Punkte) Ein Teich enthält eine unbekannte Zahl N von Fischen, die geschätzt werden soll. Dazu werden W Fische gefangen, mit einem weißen Fleck markiert und wieder in den Teich ausgesetzt. Man wartet eine Weile, dann fischt man so lange, bis man einen markierten Fisch gefangen hat. (Die Fische werden nach ihrem Fang sofort wieder in den Teich entlassen.) Dabei zählt man die Anzahl an gefangenen Fischen und nennt diese Zahl X1 . Wiederholt man diesen Zählvorgang n-mal, so erhält man weitere Ergebnisse X2 , ..., Xn . (a) Welcher Verteilung folgen die Werte X1 , ..., Xn ? (b) Geben Sie die Wahrscheinlichkeit p einen markierten Fisch zu fangen an. (c) Geben Sie den Erwartungswert und die Varianz von X1 an. (d) Formen Sie p so um, dass Sie N berechnen können. (e) Kombinieren Sie die Ergebnisse von (b) und (d) zu einem erwartungstreuen Schätzer b1 für N , d.h. einer Zufallsvariable Z mit E[Z] = N , basierend auf X1 . N (f) Berechnen Sie die Var[Z]. (g) Erweitern Sie Ihren Schätzer so, dass er alle Xi statt nur X1 verwendet und zeigen b2 erwartungstreu ist. Sie, dass auch dieser Schätzer N b2 . (h) Berechnen Sie die Varianz des Schätzers N (i) Welcher der beiden Schätzer für N ist der besser? Begründen Sie Ihre Wahl. Aufgabe 2: Kontingenztafeln (5+2+1+1+1+1=11 Punkte) Das Gen TGF-β1 spielt eine wichtige Rolle bei der Regulation der Proliferation und Apoptose von Zellen des Prostata-Gewebes. Im Folgenden soll die Abhängigkeit verschiedener Genotypen (T/C Polymorphismus) dieses Gens und dem Risiko an Prostata-Krebs (PCa) oder an gutartiger Prostata-Vergrößerung (BPH) zu erkranken, untersucht werden. Gegeben seien folgenden Datentabellen: (a) Füllen Sie für beide Datensätze eine Tabelle mit folgendem Inhalt aus: Tabelle 1: Datensatz 1 Kontrolle BPH PCa Total CC 96 52 79 227 TC 137 116 179 432 TT 70 53 93 216 Total 303 221 351 875 Tabelle 2: Datensatz 2 Kontrolle BPH PCa Total CC 96 52 79 227 TC + TT 207 169 272 648 Beobachtungen (Nij ) M.L.E. (Êij ) Total 303 221 351 875 Nij − Êij (Nij − Êij )2 (Nij −Êij )2 Êij 96 137 70 ··· (b) Beantworten Sie folgende Fragen für Datensatz 1, wenn man davon ausgeht, dass eine Person aus der Studie zufällig ausgewählt wird. Geben Sie dabei die Herleitung und nicht nur das Endergebnis an. • Was ist die Wahrscheinlichkeit, dass eine Person zur Kontrollgruppe gehört? • Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp TC besitzt? • Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp CC besitzt und zur BPH Gruppe gehört? • Wie hoch ist die Wahrscheinlichkeit, dass die gewählte Person den Genotyp CC besitzt oder zur BPH Gruppe gehört? (c) Geben Sie die Anzahl der Freiheitsgrade für beide Kontingenztafeln an. (d) Berechnen Sie die χ2 Teststatistik für beide Kontingenztafeln. (e) Geben Sie den Wert der passenden χ2 Verteilung für eine Signifikanzschranke von 0.05 an. (s. z.B. http://people.richland.edu/james/lecture/m170/tbl-chi. html). (f) Sind für die gewählte Signifikanzschranke und die berechneten Teststatistiken die Genotypen und die Gruppenzugehörigkeit unabhängige Ereignisse? Begründen und interpretieren Sie ihre Antwort. Aufgabe 3: Lineare Diskriminatenanalyse (1 + 2 + 2 + 3 + 3 = 11 Punkte) Lineare Diskriminantenanalyse (LDA) ist eine lineare Methode zur Klassifikation. Sie beruht auf einem einfachen, aber leistungsfähigen statistischen Modell: Angenommen die zu klassifizierenden Daten X ∈ RN ×p entstammen K multivariaten Normalverteilungen N (µk , Σ), von denen jede Verteilung einer Klasse entspricht. Das heißt, die Wahrscheinlichkeitsdichte, aus der die Datenpunkte einer Klasse gezogen wurden, ist definiert als: fk (x) := 1 1 e− 2 (x−µk ) (2π)p/2 |Σ|1/2 T Σ−1 (x−µ ) k Die Wahrscheinlichkeit, dass ein Datenpunkt x aus Verteilung k gezogen wurde, ist nun gegeben als: fk (x)πk P (G = k|X = x) = PK l=1 fl (x)πl wobei πk dem Anteil der Datenpunkte der Gruppe k an der Gesamtdatenmenge entspricht. πk ist damit die a-priori Wahrscheinlichkeit P (G = k), dass ein unbekannter Datenpunkt zur Klasse k gehört. Um die Klasse zu einem gegebenen Datenpunkt x zu bestimmen, betrachtet man bei der LDA nun die sogenannten log-odds: log P (G = k|X = x) P (G = l|X = x) (a) Welchen Wertebereich müssen die log-odds annehmen damit x zu k klassifiziert wird? Welchen damit x zu l klassifiziert wird? (b) Wieviele log-odds müssen Sie auswerten, um bei K Klassen die Klassenzugehörigkeit eines Datenpunktes zu bestimmen. (c) Zeigen Sie, dass die log-odds linear in x sind. (d) Ein Voronoi-Diagramm einer Punktmenge X = {xi ∈ Rm | i = 1, ..., K} ordnet allen Punkten aus Rm dem nächsten Punkt aus X zu. Zeichnen Sie ein Voronoi Diagramm für die gegebene Punktmenge: (e) Nehmen Sie an, dass alle Klassen gleichstark vertreten sind. D.h.: πk = πl ∀k,l und dass Σ = σ 2 I (also isotrop) ist. Beweisen Sie, dass die Klassifikation durch LDA dem Voronoi-Diagram für die µk entspricht. Abgabe: Donnerstag, 12.05.2011, 23:59 Uhr