Übungsblatt 13 – Stochastik für Bioinformatiker Leonhard Held, Michael Höhle SoSe 2006 Übung: Mittwoch 19.07.2006 Dieses Blatt entspricht der SoSe2005 Klausur – die Lösung ist von der Webpage erhältlich. Fragen zu der Lösung können in der Übung am 19.07.2006 gestellt werden. Es können keine Übungspunkte für dieses Blatt erworben werden. Aufgabe 1 (15 Punkte) Im AB0-Blutgruppensystem kann jeder Person eine der vier Blutgruppen A, B, AB und 0 zugeordnet werden. Auf Grund dominanter und rezessiver Eigenschaften können diese Phänotypen folgenden Genotypen zugeordnet werden: A = {AA, A0}, B={BB, B0}, AB={AB} und 0={00}. Angenommen in der deutschen Bevölkerung seien die Häufigkeiten der A, B und 0 Allele gleich p, q und r mit p + q + r = 1. a) (5 Punkte) Zeigen Sie dass - unter geeigneten Unabhängigkeitsannahmen - eine zufällig ausgewählte Person aus Deutschland Blutgruppe A, B, AB und 0 mit Wahrscheinlichkeit (p2 + 2pr), (q 2 + 2qr), 2pq und r2 besitzt. Diskutieren Sie die zugrundeliegende Annahmen. b) (5 Punkte) Angenommen Ihre Eltern haben beide Blutgruppe AB. Wie groß ist die Wahrscheinlichkeit, dass auch Sie Blutgruppe AB haben? c) (5 Punkte) Angenommen Sie haben Blutgruppe AB. Wie groß ist die Wahrscheinlichkeit, dass auch Ihre beiden Elternteile Blutgruppe AB haben? Aufgabe 2 (30 Punkte) An einer spezifischen Stelle (Locus) einer Gensequenz wird die Anzahl von Generationen untersucht, bis es zu einer Mutation kommt. Dabei werden bei insgesamt 78 unabhängigen Experimenten folgende Daten erhoben: Anzahl Generationen bis Mutation Anzahl Experimente 1 2 3 4 >4 29 26 14 9 0 a) (15 Punkte) Passen Sie den Daten ein Modell basierend auf der geometrischen Verteilung mit Träger T = {1, 2, . . .} und Wahrscheinlichkeitsfunktion f (x) = π(1 − π)x−1 an. Geben Sie die zugehörige Likelihood an und bestimmen Sie den ML-Schätzer für den Parameter π (die Wahrscheinlichkeit für eine Mutation per Generation). b) (5 Punkte) Bestimmen Sie einen Ausdruck für P (X > 4), wenn X ∼ G(π). Hinweis: Es gilt: ∞ X π(1 − π)i = (1 − π)n . i=n c) (10 Punkte) Überprüfen Sie die Annahme der geometrischen Verteilung für die obigen Daten indem Sie die den χ2 -Wert des χ2 -Anpassungtests berechnen. Skizzieren Sie, wie man den p-Wert dieses Tests berechnet. Bitte wenden! Aufgabe 3 (20 Punkte) Sei X eine Markov-Kette mit Zustandsraum S = {1, 2, 3} und Übergangsmatrix 0 q 1−q 0 q , P = 1 − q q 1−q 0 wobei 0 ≤ q ≤ 1. a) (4 Punkte) Für welche Werte von q ist X irreduzibel? b) (4 Punkte) Für welche Werte von q ist X periodisch? c) (6 Punkte) Zeigen Sie, dass π = (1/3, 1/3, 1/3) stationäre Verteilung von X ist. Wie groß sind die erwarteten Rekurrenzzeiten der drei Zustände? d) (6 Punkte) Für welche Werte von q ist X reversibel? Aufgabe 4 (35 Punkte) Sei (X, Y ) ein stetiger Zufallsvektor mit Dichte 2 für x > 0, y > 0, x + y < 1 fX,Y (x, y) = . 0 sonst a) (10 Punkte) Zeigen Sie dass f (x) = 2(1 − x), 0 < x < 1, die Dichte der Randverteilung von X ist und berechnen Sie Erwartungswert und Varianz von X. Zeigen Sie, dass Y die gleiche Verteilung wie X besitzt. b) (10 Punkte) Berechnen Sie die Kovarianz und die Korrelation zwischen X und Y . Interpretieren Sie das Ergebnis. c) (5 Punkte) Berechnen Sie die bedingte Dichte von Y , gegeben X = x. Um was für eine Verteilung handelt es sich? d) (10 Punkte) Schreiben Sie eine R-Funktion rdirichlet(size=1000), die size Realisationen aus dem Zufallsvektor (X, Y ) erzeugt und als (size×2) Matrix zurückgibt. Hinweis: Die inverse Verteilungsfunktion von X lautet √ −1 FX (u) = 1 − 1 − u. Homepage: http://www.stat.uni-muenchen.de/institut/ag/biostat/teaching/stobio2006/ LaMo: 13/07/2006@14:51