Stochastische Modelle für die Artbildung in Phylogenetischen Bäumen Tanja Gernhard 22.09.2006 1 / 17 Phylogenetische Bäume a b c d ef g h i j k 2 / 17 Phylogenetische Bäume Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen. Zeit u a b c d ef g h i v j k 2 / 17 Phylogenetische Bäume Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen. Kann etwas über die relative Zeit ausgesagt werden? Zeit u a b c d ef g h i v j k 2 / 17 Phylogenetische Bäume Ein phylogenetischer Baum repräsentiert Verwandtschaftsbeziehungen. Kann etwas über die relative Zeit ausgesagt werden? Ist ein innerer Knoten ein frühes oder spätes Ereignis im Vergleich zu den anderen inneren Knoten? Zeit u a b c d ef g h i v j k 2 / 17 Die Rang-Funktion Wir brauchen eine lineare Ordnung auf den inneren Knoten. a b c d ef g h i j k 3 / 17 Die Rang-Funktion Wir brauchen eine lineare Ordnung auf den inneren Knoten. 1 2 3 4 5 6 8 7 9 10 a b c d ef g h i j k 3 / 17 Die Rang-Funktion Wir brauchen eine lineare Ordnung auf den inneren Knoten. Eine Rang-Funktion r zu einem Baum definiert eine lineare Ordnung auf den inneren Knoten r : V̊ → {1, . . . , |V̊ |} r Bijektion mit r(v) < r(w), falls Knoten v ein Vorfahre von w ist. 1 2 3 4 5 6 8 7 9 10 a b c d ef g h i j k 3 / 17 Die Rang-Funktion 1 2 3 5 6 4 8 7 9 10 a b c d ef g h i j k 3 / 17 Die Rang-Funktion 1 4 2 3 6 5 8 7 9 10 a b c d ef g h i j k 3 / 17 Stochastische Modelle a b c d ef g h i j k 4 / 17 Stochastische Modelle Zwei populäre stochastische Modelle für phylogenetische Bäume: a b c d ef g h i j k 4 / 17 Stochastische Modelle Zwei populäre stochastische Modelle für phylogenetische Bäume: ● Gleichverteilungs-Modell a b c d ef g h i j k 4 / 17 Stochastische Modelle Zwei populäre stochastische Modelle für phylogenetische Bäume: ● Gleichverteilungs-Modell ● Yule-Modell a b c d ef g h i j k 4 / 17 Das Yule Modell Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher Wahrscheinlichkeit. 5 / 17 Das Yule Modell Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher Wahrscheinlichkeit. 5 / 17 Das Yule Modell Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher Wahrscheinlichkeit. 5 / 17 Das Yule Modell Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher Wahrscheinlichkeit. 5 / 17 Das Yule Modell Unter dem Yule-Modell teilt sich jede äußere Kante mit gleicher Wahrscheinlichkeit. 5 / 17 Rang eines Knotens Wie wahrscheinlich ist es unter dem Yule-Modell, dass Knoten v von Rang 5 ist, d.h. r(v) = 5? v 6 / 17 Rang eines Knotens ● Unter dem Yule-Modell ist jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich [Edwards 1970]. 7 / 17 Rang eines Knotens ● ● Unter dem Yule-Modell ist jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich [Edwards 1970]. )}| Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T |r(T )| wobei r(T ) die Menge aller Rang-Funktionen auf T ist. 7 / 17 Rang eines Knotens ● ● ● Unter dem Yule-Modell ist jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich [Edwards 1970]. )}| Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T |r(T )| wobei r(T ) die Menge aller Rang-Funktionen auf T ist. |V̊ |! Bekannt ist |r(T )| = Y =: RT [Semple, Steel 2003]. λv v∈V̊ 7 / 17 Rang eines Knotens ● ● ● Unter dem Yule-Modell ist jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich [Edwards 1970]. )}| Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T |r(T )| wobei r(T ) die Menge aller Rang-Funktionen auf T ist. |V̊ |! Bekannt ist |r(T )| = Y =: RT [Semple, Steel 2003]. λv v∈V̊ ● Ich entwickelte einen quadratischen Algorithmus für die Berechnung von |{r : r(v) = i, r ∈ r(T )}| =: αT ,v (i). 7 / 17 Rang eines Knotens ● ● ● Unter dem Yule-Modell ist jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich [Edwards 1970]. )}| Das bedeutet P[r(v) = i] = |{r:r(v)=i,r∈r(T |r(T )| wobei r(T ) die Menge aller Rang-Funktionen auf T ist. |V̊ |! Bekannt ist |r(T )| = Y =: RT [Semple, Steel 2003]. λv v∈V̊ ● Ich entwickelte einen quadratischen Algorithmus für die Berechnung von |{r : r(v) = i, r ∈ r(T )}| =: αT ,v (i). 7 / 17 Algorithmus R ANK C OUNT ● Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v. 8 / 17 Algorithmus R ANK C OUNT ● Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v. ● Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |. 8 / 17 Algorithmus R ANK C OUNT ● Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v. ● Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |. ρ v Teilbaum 8 / 17 Algorithmus R ANK C OUNT ● Input: Ein binärer phylogenetischer Baum T und ein innerer Knoten v. ● Output: Die Werte αT ,v (i) für i = 1, . . . , |V̊ |. ρ = xn xn−1 x2 v = x1 T1 T2 Tn−1 8 / 17 Algorithmus R ANK C OUNT - Die Rekursion |V̊ αT1 ,v (1) := YT1 |! ρ = xn λv xn−1 v∈V̊T1 x2 v = x1 T1 9 / 17 Algorithmus R ANK C OUNT - Die Rekursion min{i−2,|V̊T ′′ |} αTm ,v (i) := X αT ′ ,v (i−j−1)RT j=0 ′′ |V̊T | + |V̊T | − (i − 1) |V̊T ′′ | − j ′ ′′ i−2 j ρ = xn xn−1 x2 v = x1 T1 T2 Tn−1 10 / 17 Algorithmus R ANK C OUNT - Die Rekursion min{i−2,|V̊T ′′ |} αTm ,v (i) := X αT ′ ,v (i−j−1)RT j=0 ′′ |V̊T | + |V̊T | − (i − 1) |V̊T ′′ | − j ′ ′′ i−2 j ρ = xn xn−1 xm xm−1 T ′′ T′ Tm 10 / 17 Wahrscheinlichkeit von r(v) = i Unser Ziel war es, P[r(v) = i] zu berechnen. 11 / 17 Wahrscheinlichkeit von r(v) = i Unser Ziel war es, P[r(v) = i] zu berechnen. Da jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich ist, gilt αT ,v (i) P[r(v) = i] = . RT 11 / 17 Wahrscheinlichkeit von r(v) = i Unser Ziel war es, P[r(v) = i] zu berechnen. Da jeder phylogenetische Baum mit Rang-Funktion gleich wahrscheinlich ist, gilt αT ,v (i) P[r(v) = i] = . RT 11 / 17 Beispiel 12 / 17 Beispiel Betrachte den folgenden Baum: v 12 / 17 Beispiel Betrachte den folgenden Baum: P[r(v) = 1] = 0 v P[r(v) = 2] = 0 20 P[r(v) = 3] = 93 16 P[r(v) = 4] = 93 27 P[r(v) = 5] = 93 20 P[r(v) = 6] = 93 10 P[r(v) = 7] = 93 P[r(v) = 8] = 0 12 / 17 Beispiel Betrachte den folgenden Baum: µr(v) = 2 σr(v) v = P8 i=1 iP[r(v) P8 = i) ≈ 4.83 2 i=1 i P[r(v) = i) − µ2r(v) ≈ 1.65 12 / 17 Erweiterungen von R ANK C OUNT ● R ANK C OUNT kann auf nicht-binäre Bäume erweitert werden, R ANK C OUNT G EN. Die Laufzeit bleibt quadratisch. 13 / 17 Erweiterungen von R ANK C OUNT ● R ANK C OUNT kann auf nicht-binäre Bäume erweitert werden, R ANK C OUNT G EN. Die Laufzeit bleibt quadratisch. ● Der Algorithmus C OMPARE vergleicht zwei innere Knoten - welcher Knoten ist früher entstanden? C OMPARE hat quadratische Laufzeit und benutzt die Routinen R ANK C OUNT und R ANK C OUNT G EN. 13 / 17 Hat sich ein Baum unter Yule entwickelt? R ANK C OUNT basiert auf der Annahme eines Yule-Baums. 14 / 17 Hat sich ein Baum unter Yule entwickelt? R ANK C OUNT basiert auf der Annahme eines Yule-Baums. Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem Log-Likelihood Ratio Test, d.h. ● [T ] ln PPYU [T ] > 0 ⇒ akzeptiere Yule. ● [T ] ln PPYU [T ] ≤ 0 ⇒ verwerfe Yule. 14 / 17 Hat sich ein Baum unter Yule entwickelt? R ANK C OUNT basiert auf der Annahme eines Yule-Baums. Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem Log-Likelihood Ratio Test, d.h. ● [T ] ln PPYU [T ] > 0 ⇒ akzeptiere Yule. ● [T ] ln PPYU [T ] ≤ 0 ⇒ verwerfe Yule. Der Typ I und Typ II Fehler dieses Tests kann durch Simulationen ermittelt werden. 14 / 17 Hat sich ein Baum unter Yule entwickelt? R ANK C OUNT basiert auf der Annahme eines Yule-Baums. Wir testen das Yule-Modell gegen das Gleichverteilungs-Modell mit dem Log-Likelihood Ratio Test, d.h. ● [T ] ln PPYU [T ] > 0 ⇒ akzeptiere Yule. ● [T ] ln PPYU [T ] ≤ 0 ⇒ verwerfe Yule. Der Typ I und Typ II Fehler dieses Tests kann durch Simulationen ermittelt werden. Wir haben analytische Schranken für den Typ II Fehler ermittelt, indem wir Martingale eingeführt und die Azuma Ungleichung angewandt haben. 14 / 17 Anwendung Ausschnitt aus dem Primaten-Baum: 15 / 17 Schätzen der Kantenlängen Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’. 16 / 17 Schätzen der Kantenlängen Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’. E[X] = X E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j] i,j 16 / 17 Schätzen der Kantenlängen Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’. E[X] = X E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j] i,j = ... P i<j = P j−i 1 k=1 i+k Q|V̊Tv |−2 (|V̊T | − j − k) P Q|V̊Tv |−2 (|V̊T | − j − k) i<j P[r(u) = i] · k=0 · P[r(u) = i] · k=0 16 / 17 Schätzen der Kantenlängen Sei X die Zufallsvariable ‘Länge der Kante e = (u, v)’. E[X] = X E[X|r(u) = i, r(v) = j]P[r(u) = i, r(v) = j] i,j = ... P i<j = P j−i 1 k=1 i+k Q|V̊Tv |−2 (|V̊T | − j − k) P Q|V̊Tv |−2 (|V̊T | − j − k) i<j P[r(u) = i] · k=0 · P[r(u) = i] · k=0 Dieser Erwartungswert kann mit R ANK C OUNT berechnet werden. 16 / 17 Dankeschön 17 / 17