¨Ubungsblatt 13 – Stochastik für Bioinformatiker SoSe 2006

Werbung
Übungsblatt 13 – Stochastik für Bioinformatiker
Leonhard Held, Michael Höhle
SoSe 2006
Übung: Mittwoch 19.07.2006
Dieses Blatt entspricht der SoSe2005 Klausur – die Lösung ist von der Webpage erhältlich. Fragen zu der
Lösung können in der Übung am 19.07.2006 gestellt werden. Es können keine Übungspunkte für dieses
Blatt erworben werden.
Aufgabe 1 (15 Punkte)
Im AB0-Blutgruppensystem kann jeder Person eine der vier Blutgruppen A, B, AB und 0 zugeordnet
werden. Auf Grund dominanter und rezessiver Eigenschaften können diese Phänotypen folgenden Genotypen zugeordnet werden: A = {AA, A0}, B={BB, B0}, AB={AB} und 0={00}. Angenommen in der
deutschen Bevölkerung seien die Häufigkeiten der A, B und 0 Allele gleich p, q und r mit p + q + r = 1.
a) (5 Punkte) Zeigen Sie dass - unter geeigneten Unabhängigkeitsannahmen - eine zufällig ausgewählte
Person aus Deutschland Blutgruppe A, B, AB und 0 mit Wahrscheinlichkeit (p2 + 2pr), (q 2 + 2qr),
2pq und r2 besitzt. Diskutieren Sie die zugrundeliegende Annahmen.
b) (5 Punkte) Angenommen Ihre Eltern haben beide Blutgruppe AB. Wie groß ist die Wahrscheinlichkeit,
dass auch Sie Blutgruppe AB haben?
c) (5 Punkte) Angenommen Sie haben Blutgruppe AB. Wie groß ist die Wahrscheinlichkeit, dass auch
Ihre beiden Elternteile Blutgruppe AB haben?
Aufgabe 2 (30 Punkte)
An einer spezifischen Stelle (Locus) einer Gensequenz wird die Anzahl von Generationen untersucht, bis
es zu einer Mutation kommt. Dabei werden bei insgesamt 78 unabhängigen Experimenten folgende Daten
erhoben:
Anzahl Generationen bis Mutation
Anzahl Experimente
1
2
3
4
>4
29
26
14
9
0
a) (15 Punkte) Passen Sie den Daten ein Modell basierend auf der geometrischen Verteilung mit Träger
T = {1, 2, . . .} und Wahrscheinlichkeitsfunktion f (x) = π(1 − π)x−1 an. Geben Sie die zugehörige
Likelihood an und bestimmen Sie den ML-Schätzer für den Parameter π (die Wahrscheinlichkeit für
eine Mutation per Generation).
b) (5 Punkte) Bestimmen Sie einen Ausdruck für P (X > 4), wenn X ∼ G(π). Hinweis: Es gilt:
∞
X
π(1 − π)i = (1 − π)n .
i=n
c) (10 Punkte) Überprüfen Sie die Annahme der geometrischen Verteilung für die obigen Daten indem
Sie die den χ2 -Wert des χ2 -Anpassungtests berechnen. Skizzieren Sie, wie man den p-Wert dieses Tests
berechnet.
Bitte wenden!
Aufgabe 3 (20 Punkte)
Sei X eine Markov-Kette mit Zustandsraum S = {1, 2, 3} und Übergangsmatrix


0
q
1−q
0
q ,
P = 1 − q
q
1−q
0
wobei 0 ≤ q ≤ 1.
a) (4 Punkte) Für welche Werte von q ist X irreduzibel?
b) (4 Punkte) Für welche Werte von q ist X periodisch?
c) (6 Punkte) Zeigen Sie, dass π = (1/3, 1/3, 1/3) stationäre Verteilung von X ist. Wie groß sind die
erwarteten Rekurrenzzeiten der drei Zustände?
d) (6 Punkte) Für welche Werte von q ist X reversibel?
Aufgabe 4 (35 Punkte)
Sei (X, Y ) ein stetiger Zufallsvektor mit Dichte
2 für x > 0, y > 0, x + y < 1
fX,Y (x, y) =
.
0 sonst
a) (10 Punkte) Zeigen Sie dass f (x) = 2(1 − x), 0 < x < 1, die Dichte der Randverteilung von X ist und
berechnen Sie Erwartungswert und Varianz von X. Zeigen Sie, dass Y die gleiche Verteilung wie X
besitzt.
b) (10 Punkte) Berechnen Sie die Kovarianz und die Korrelation zwischen X und Y . Interpretieren Sie
das Ergebnis.
c) (5 Punkte) Berechnen Sie die bedingte Dichte von Y , gegeben X = x. Um was für eine Verteilung
handelt es sich?
d) (10 Punkte) Schreiben Sie eine R-Funktion rdirichlet(size=1000), die size Realisationen aus dem
Zufallsvektor (X, Y ) erzeugt und als (size×2) Matrix zurückgibt. Hinweis: Die inverse Verteilungsfunktion von X lautet
√
−1
FX
(u) = 1 − 1 − u.
Homepage:
http://www.stat.uni-muenchen.de/institut/ag/biostat/teaching/stobio2006/
LaMo: 13/07/2006@14:51
Herunterladen