Übungsblatt 6 (als PDF

Werbung
Wintersemester 2003/04
Dr. I. Grosse, B. Moeller, D. Williams
Abgabe am 09.12.2003
6. Übung Algorithmen der Bioinformatik II“
”
Aufgabe 1. Lesen Sie die Kapitel ”Schätzung von Parametern” und ”Bayessche Verfahren” unter
http://www.statoek.wiso.uni-goettingen.de/veranstaltungen/statistik3alt/daten/
Aufgabe 2. Gegeben seien zwei Münzen A und B. Die Wahrscheinlichkeit, dass Münze A eine Zahl (und
kein Wappen) wirft, sei pA = 0.01. Die Wahrscheinlichkeit, dass Münze B eine Zahl (und kein Wappen)
wirft, sei pB = 0.6. Eine der beiden Münzen wird uns gegeben, und wir werfen diese Münze N = 10 mal,
und wir beobachten k = 2 mal Zahl. Beantworten Sie die Frage: Welche Münze (A oder B) wurde uns
gegeben?
(a) Benutzen Sie zur Beantwortung dieser Frage die folgenden beiden Strategien:
– Strategie I:
1. Schätzen Sie mit der Maximum Likelihood Methode die Wahrscheinlichkeit p der uns gegeben Münze, also p̂ = k/N .
2. Vergleichen Sie diesen Schätzwert mit den beiden gegeben p-Werten pA und pB , und entscheiden Sie sich für die Münze (A oder B), deren p-Wert näher an p̂ liegt. Also
θ̂ = argminθ∈{A,B} { | p̂ − pθ | }.
Diesen Schätzer θ̂ nennen wir Minimum-Abstand-Schätzer.
3. Wie lautet der Minimum-Abstand-Schätzwert θ̂? D.h., welche Münze (A oder B) favorisiert
der Minimum-Abstand-Schätzer?
– Strategie II:
1. Schreiben Sie die Likelihoodfunktion P (k | θ) auf, und berechnen Sie P (k | θ = A) und
P (k | θ = B).
2. Berechnen Sie den Maximum Likelihood Schätzer θ̂ = argmaxθ∈{A,B} P (k | θ).
3. Wie lautet der Maximum-Likelihood-Schätzwert θ̂? D.h., welche Münze (A oder B) favorisiert der Maximum-Likelihood-Schätzer?
Fragen:
– Liefern beide Schätzer das gleiche Ergebnis? D.h., favorisieren beide Schätzer dieselbe Münze?
– Wenn nicht, welchen Schätzer würden Sie bevorzugen?
(b) Nun erhalten wir die Zusatzinformation, dass uns Münze A mit Wahrscheinlichkeit P (A) = 0.9
und Münze B mit Wahrscheinlichkeit P (B) = 0.1 gegeben wurde. Berechnen Sie die a posteriori
Wahrscheinlichkeiten P (A | k) und P (B | k), und berechnen Sie den MAP Schätzer
θ̂ = argmaxθ∈{A,B} P (θ | k).
– Liefern der ML Schätzer und der MAP Schätzer das gleiche Ergebnis?
– Wenn nicht, welchen Schätzer würden Sie bevorzugen?
Aufgabe 3.
a) Schreiben Sie eine Matlab Routine, die M unabhängige und auf [0,1] gleichverteilte Zufallsvariable
x1 , x2 , ..., xM erhält, und die die M Komponenten y1 , y2 , ..., yM eines auf dem M-dimensionalen
Simplex gleichverteilten Zufallsvektors zurückgibt.
b) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.
c) freiwillig: Schreiben Sie eine Matlab Routine, die M unabhängige und auf [0,1] gleichverteilte Zufallsvariable x1 , x2 , ..., xM erhält, den Parameter α sowie die M Parameter q1 , q2 , ..., qM erhält, und
die die M Komponenten y1 , y2 , ..., yM eines auf dem M-dimensionalen Simplex dirichletverteilten
Zufallsvektors zurückgibt.
d) freiwillig: Schreiben Sie eine weitere Matlab Routine, basierend auf einem alternativen Algorithmus.
Aufgabe 4.
a) Eine Münze wurde N=5 mal geworfen und lieferte den folgenden Datensatz X = x1 x2 x3 x4 x5 =
ZW W ZW . Hierbei steht Z für Zahl und W für Wappen. Definieren Sie nun – für n = 1, 2, . . . , N –
den Teildatensatz Yn = x1 , ..., xn bestehend aus den ersten n Datenpunkten, und definieren Sie – für
n = 1, 2, . . . , N – den Teildatensatz Zn = xN , ..., xN −n+1 bestehend aus den letzten n Datenpunkten.
Plotten Sie für jeden Datensatz Yn und Zn die Likelihood sowie die a-posteriori Dichte unter der
a-priori Annahme P (p) = 1, und schätzen Sie für jeden Datensatz Yn und Zn den Parameter p
mit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips. Der Parameter p sei hier die
Wahrscheinlichkeit, dass die Münze eine Zahl (und kein Wappen) wirft.
b) Benutzen Sie denselben Datensatz X und wiederholen Sie Aufgabe a) unter Annahme der a-priori
Dichte P (p) = p5 (1 − p)5 .
c) Ein Gaussprozess mit Standardabweichung 1 und unbekanntem Parameter µ liefert die Daten X =
−1.2, 0.3, −0.7, −0.2, +0.9. Definieren Sie – wie oben – die beiden Teildatensätze Yn und Zn .
Plotten Sie für jeden Datensatz Yn und Zn die Likelihood sowie die a-posteriori Dichte unter der a2
priori Annahme P (µ) = √12π e−µ /2 , und schätzen Sie für jeden Datensatz Yn und Zn den Parameter
p mit Hilfe des ML Prinzips, des MP Prinzips und des MAP Prinzips.
d) Benutzen Sie denselben Datensatz X und wiederholen Sie Aufgabe c) unter Annahme der a-priori
2
Dichte P (µ) = √12π e−(µ−1) /2 .
Aufgabe 5. Gegeben sei ein Datensatz x1 , x2 , ..., xN , mit xn ∈ (−∞, ∞) für alle n = 1, 2, ..., N . Das
Histogramm von xn sei ”ganz klar” bimodal, so dass die Modellierung der Daten durch eine gauss-sche Likelihoodfunktion keinen Sinn macht. Das Histogramm von xn ”sieht aber ganz danach aus”, dass es durch
eine Superposition zweier Gaussverteilungen mit Standardabweichung 1 und mit verschiedenen Mittelwerten entstanden sein könnte. Wir entschliessen uns daher, den Datensatz mit Hilfe der folgenden Likelihoodfunktion zu modellieren.
Y
1
P (x1 , x2 , ..., xN | µ1 , µ2 ) =
P (xn | µ1 , µ2 ), mit P (xn | µ1 , µ2 ) = [P (xn | µ1 ) + P (xn | µ2 )],
2
n
wobei P (x | µ) die Dichte einer eindimensionalen Gaussverteilung mit Standardabweichung 1 und Mittelwert µ bezeichnet.
Berechnen Sie die Maximum Likelihood Schätzer µ̂1 und µ̂2 für die Parameter µ1 und µ2 .
Hinweise: Versuchen Sie, diese Aufgabe analytisch zu lösen, und zeigen Sie, wie weit Sie analytisch kommen können. Formulieren Sie, wo und warum Sie analytisch nicht weiter kommen. Schlagen Sie zwei Verfahren vor, die Maximum Likelihood Schätzer µ̂1 und µ̂2 numerisch zu berechnen.
2
Herunterladen