Phylogenetische B¨aume

Werbung
Stochastische Modelle für die Artbildung
in Phylogenetischen Bäumen
Tanja Gernhard
22.09.2006
1 / 17
Phylogenetische Bäume
a b c d ef g h i
j
k
2 / 17
Phylogenetische Bäume
Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen.
Zeit
u
a b c d ef g h i
v
j
k
2 / 17
Phylogenetische Bäume
Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen.
Kann etwas über die relative Zeit ausgesagt werden?
Zeit
u
a b c d ef g h i
v
j
k
2 / 17
Phylogenetische Bäume
Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen.
Kann etwas über die relative Zeit ausgesagt werden?
Ist ein innerer Knoten ein frühes oder spätes Ereignis im Vergleich
zu den anderen inneren Knoten?
Zeit
u
a b c d ef g h i
v
j
k
2 / 17
Die Rang-Funktion
Wir brauchen eine lineare Ordnung auf den inneren Knoten.
a b c d ef g h i
j
k
3 / 17
Die Rang-Funktion
Wir brauchen eine lineare Ordnung auf den inneren Knoten.
1
2
3
4
5
6
8
7
9
10
a b c d ef g h i
j
k
3 / 17
Die Rang-Funktion
Wir brauchen eine lineare Ordnung auf den inneren Knoten.
Eine Rang-Funktion r zu einem Baum definiert eine lineare Ordnung
auf den inneren Knoten
r : V̊ → {1, . . . , |V̊ |}
r Bijektion mit r(v) < r(w), falls Knoten v ein Vorfahre von w ist.
1
2
3
4
5
6
8
7
9
10
a b c d ef g h i
j
k
3 / 17
Die Rang-Funktion
1
2
3
5
6
4
8
7
9
10
a b c d ef g h i
j
k
3 / 17
Die Rang-Funktion
1
4
2
3
6
5
8
7
9
10
a b c d ef g h i
j
k
3 / 17
Stochastische Modelle
a b c d ef g h i
j
k
4 / 17
Stochastische Modelle
Zwei populäre stochastische Modelle für phylogenetische Bäume:
a b c d ef g h i
j
k
4 / 17
Stochastische Modelle
Zwei populäre stochastische Modelle für phylogenetische Bäume:
●
Gleichverteilungs-Modell
a b c d ef g h i
j
k
4 / 17
Stochastische Modelle
Zwei populäre stochastische Modelle für phylogenetische Bäume:
●
Gleichverteilungs-Modell
●
Yule-Modell
a b c d ef g h i
j
k
4 / 17
Das Yule Modell
Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher
Wahrscheinlichkeit.
5 / 17
Das Yule Modell
Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher
Wahrscheinlichkeit.
5 / 17
Das Yule Modell
Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher
Wahrscheinlichkeit.
5 / 17
Das Yule Modell
Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher
Wahrscheinlichkeit.
5 / 17
Das Yule Modell
Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher
Wahrscheinlichkeit.
5 / 17
Rang eines Knotens
Wie wahrscheinlich ist es unter dem Yule-Modell, dass Knoten v von
Rang 5 ist, d.h. r(v) = 5?
v
6 / 17
Rang eines Knotens
●
Unter dem Yule-Modell ist jeder phylogenetische Baum mit
Rang-Funktion gleich wahrscheinlich [Edwards 1970].
7 / 17
Rang eines Knotens
●
●
Unter dem Yule-Modell ist jeder phylogenetische Baum mit
Rang-Funktion gleich wahrscheinlich [Edwards 1970].
)}|
Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T
|r(T )|
wobei r(T ) die Menge aller Rang-Funktionen auf T ist.
7 / 17
Rang eines Knotens
●
●
●
Unter dem Yule-Modell ist jeder phylogenetische Baum mit
Rang-Funktion gleich wahrscheinlich [Edwards 1970].
)}|
Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T
|r(T )|
wobei r(T ) die Menge aller Rang-Funktionen auf T ist.
|V̊ |!
Bekannt ist |r(T )| = Y
=: RT [Semple, Steel 2003].
λv
v∈V̊
7 / 17
Rang eines Knotens
●
●
●
Unter dem Yule-Modell ist jeder phylogenetische Baum mit
Rang-Funktion gleich wahrscheinlich [Edwards 1970].
)}|
Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T
|r(T )|
wobei r(T ) die Menge aller Rang-Funktionen auf T ist.
|V̊ |!
Bekannt ist |r(T )| = Y
=: RT [Semple, Steel 2003].
λv
v∈V̊
●
Ich entwickelte einen quadratischen Algorithmus für die Berechnung
von |{r : r(v) = i, r ∈ r(T )}| =: αT ,v (i).
7 / 17
Rang eines Knotens
●
●
●
Unter dem Yule-Modell ist jeder phylogenetische Baum mit
Rang-Funktion gleich wahrscheinlich [Edwards 1970].
)}|
Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T
|r(T )|
wobei r(T ) die Menge aller Rang-Funktionen auf T ist.
|V̊ |!
Bekannt ist |r(T )| = Y
=: RT [Semple, Steel 2003].
λv
v∈V̊
●
Ich entwickelte einen quadratischen Algorithmus für die Berechnung
von |{r : r(v) = i, r ∈ r(T )}| =: αT ,v (i).
7 / 17
Algorithmus R ANK C OUNT
●
Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v.
8 / 17
Algorithmus R ANK C OUNT
●
Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v.
●
Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |.
8 / 17
Algorithmus R ANK C OUNT
●
Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v.
●
Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |.
ρ
v
Teilbaum
8 / 17
Algorithmus R ANK C OUNT
●
Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v.
●
Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |.
ρ = xn
xn−1
x2
v = x1
T1
T2
Tn−1
8 / 17
Algorithmus R ANK C OUNT - Die Rekursion
|V̊
αT1 ,v (1) := YT1
|!
ρ = xn
λv
xn−1
v∈V̊T1
x2
v = x1
T1
9 / 17
Algorithmus R ANK C OUNT - Die Rekursion
min{i−2,|V̊T ′′ |}
αTm ,v (i) :=
X
αT
′ ,v
(i−j−1)RT
j=0
′′
|V̊T | + |V̊T | − (i − 1)
|V̊T ′′ | − j
′
′′
i−2
j
ρ = xn
xn−1
x2
v = x1
T1
T2
Tn−1
10 / 17
Algorithmus R ANK C OUNT - Die Rekursion
min{i−2,|V̊T ′′ |}
αTm ,v (i) :=
X
αT
′ ,v
(i−j−1)RT
j=0
′′
|V̊T | + |V̊T | − (i − 1)
|V̊T ′′ | − j
′
′′
i−2
j
ρ = xn
xn−1
xm
xm−1
T ′′
T′
Tm
10 / 17
Wahrscheinlichkeit von r(v) = i
Unser Ziel war es, P[r(v) = i] zu berechnen.
11 / 17
Wahrscheinlichkeit von r(v) = i
Unser Ziel war es, P[r(v) = i] zu berechnen.
Da jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich
ist, gilt
αT ,v (i)
P[r(v) = i] =
.
RT
11 / 17
Wahrscheinlichkeit von r(v) = i
Unser Ziel war es, P[r(v) = i] zu berechnen.
Da jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich
ist, gilt
αT ,v (i)
P[r(v) = i] =
.
RT
11 / 17
Beispiel
12 / 17
Beispiel
Betrachte den folgenden Baum:
v
12 / 17
Beispiel
Betrachte den folgenden Baum:
P[r(v) = 1] = 0
v
P[r(v) = 2] = 0
20
P[r(v) = 3] =
93
16
P[r(v) = 4] =
93
27
P[r(v) = 5] =
93
20
P[r(v) = 6] =
93
10
P[r(v) = 7] =
93
P[r(v) = 8] = 0
12 / 17
Beispiel
Betrachte den folgenden Baum:
µr(v) =
2
σr(v)
v
=
P8
i=1 iP[r(v)
P8
= i) ≈ 4.83
2
i=1 i P[r(v)
= i) − µ2r(v) ≈ 1.65
12 / 17
Erweiterungen von R ANK C OUNT
●
R ANK C OUNT kann auf nicht-binäre Bäume erweitert werden,
R ANK C OUNT G EN. Die Laufzeit bleibt quadratisch.
13 / 17
Erweiterungen von R ANK C OUNT
●
R ANK C OUNT kann auf nicht-binäre Bäume erweitert werden,
R ANK C OUNT G EN. Die Laufzeit bleibt quadratisch.
●
Der Algorithmus C OMPARE vergleicht zwei innere Knoten - welcher
Knoten ist früher entstanden?
C OMPARE hat quadratische Laufzeit und benutzt die Routinen
R ANK C OUNT und R ANK C OUNT G EN.
13 / 17
Hat sich ein Baum unter Yule entwickelt?
R ANK C OUNT basiert auf der Annahme eines Yule-Baums.
14 / 17
Hat sich ein Baum unter Yule entwickelt?
R ANK C OUNT basiert auf der Annahme eines Yule-Baums.
Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem
Log-Likelihood Ratio Test, d.h.
●
[T ]
ln PPYU [T
] > 0 ⇒ akzeptiere Yule.
●
[T ]
ln PPYU [T
] ≤ 0 ⇒ verwerfe Yule.
14 / 17
Hat sich ein Baum unter Yule entwickelt?
R ANK C OUNT basiert auf der Annahme eines Yule-Baums.
Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem
Log-Likelihood Ratio Test, d.h.
●
[T ]
ln PPYU [T
] > 0 ⇒ akzeptiere Yule.
●
[T ]
ln PPYU [T
] ≤ 0 ⇒ verwerfe Yule.
Der Typ I und Typ II Fehler dieses Tests kann durch Simulationen ermittelt
werden.
14 / 17
Hat sich ein Baum unter Yule entwickelt?
R ANK C OUNT basiert auf der Annahme eines Yule-Baums.
Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem
Log-Likelihood Ratio Test, d.h.
●
[T ]
ln PPYU [T
] > 0 ⇒ akzeptiere Yule.
●
[T ]
ln PPYU [T
] ≤ 0 ⇒ verwerfe Yule.
Der Typ I und Typ II Fehler dieses Tests kann durch Simulationen ermittelt
werden.
Wir haben analytische Schranken für den Typ II Fehler ermittelt, indem wir
Martingale eingeführt und die Azuma Ungleichung angewandt haben.
14 / 17
Anwendung
Ausschnitt aus dem Primaten-Baum:
15 / 17
Schätzen der Kantenlängen
Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’.
16 / 17
Schätzen der Kantenlängen
Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’.
E[X] =
X
E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j]
i,j
16 / 17
Schätzen der Kantenlängen
Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’.
E[X] =
X
E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j]
i,j
= ...
P
i<j
=
P
j−i 1
k=1 i+k
Q|V̊Tv |−2
(|V̊T | − j − k)
P
Q|V̊Tv |−2
(|V̊T | − j − k)
i<j P[r(u) = i] ·
k=0
· P[r(u) = i] ·
k=0
16 / 17
Schätzen der Kantenlängen
Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’.
E[X] =
X
E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j]
i,j
= ...
P
i<j
=
P
j−i 1
k=1 i+k
Q|V̊Tv |−2
(|V̊T | − j − k)
P
Q|V̊Tv |−2
(|V̊T | − j − k)
i<j P[r(u) = i] ·
k=0
· P[r(u) = i] ·
k=0
Dieser Erwartungswert kann mit R ANK C OUNT berechnet werden.
16 / 17
Dankeschön
17 / 17
Herunterladen