PowerPoint-Präsentation - Goethe

Werbung
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Baysian Estimation of the Number of Inversions
in the History of Two Chromosomes
T. L. York, R. Durrett and R. Nielsen
Baysian Estimation of Genomic Distance
T. L. York, R. Durrett and R. Nielsen
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Allgemein evolvieren Genome durch:
Translocations
Fusions
Fisions
Inversions
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Ist es sinnvoll nur Inversionen zu betrachten?
Ja, für bestimmte Datensätze:
mitochondriale und Chloroplasten DNA
Gonosomen
DNA von Drosophila spec.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Wie werden die Chromosomen in den Datensätzen repräsentiert?
Über sog. „Marker“ werden spezifische Gene, die auf beiden
Chromosomen auftauchen, lokalisiert.
Marker können 2 Orientierungen besitzen ( + , - )
Ist sowohl die Markerordnung als auch die Orientierung
identisch, gelten auch die Chromosomen als identisch.
Repräsentation also „nur“ über einen Satz von Markern.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Frühere Ansätze zur Bestimmung der Verwandtschaft über Inversionen:
1.
Bestimmung der „Inversions Distanz“:
Idee: Kleinst mögliche Zahl an Inversionen, die nötig sind, um
Chromosom 1 in Chromosom 2 zu überführen.~
„Sorting by Reversals“ NP- Hard aber branch-and-bound
Methode verfügbar.
Problem: Keine Garantie, dass Minimum Anzahl = wahre
Anzahl an Inversion ist
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Frühere Ansätze zur Bestimmung der Verwandtschaft über Inversionen:
2.
Schätzung der wahren Anzahl von Inversionen per "break points“
Break points: Anzahl an adjazenten Marken in einem
Chromosom, die in dem anderen nicht adjazent sind
Idee: Die Inversions Distanz ist mindestens ½ mal die Anzahl
von break points.~
Problem: Diese Grenze ist sehr grob geschätzt.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der „break point“ – Graph
Der Schlüssel zum Ermitteln der Inversions Distanz ist der break
point graph von Hannenhalli & Pevzner, 1995
1.Fall: Markerorientierung ist bekannt ( „signed permutation“ )
Jeder Marker kann sich mit „Startpunkt“ und „Endpunkt“ vorgestellt
werden.
Der Graph einer orientierten Permutation von N Markern, pa, relativ
zu einem anderen, pb, hat 2N+2 Knoten, für jedes Ende eines
Markers jeweils einen, plus jeweils einen für die Enden des
Chromosoms.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - signed, ein Beispiel:
Der Datensatz des ersten Chromosoms (a) ist (+2,-3,+1,+4)~
Der „Startpunkt“ des Markers k wird jetzt zu 2k-1 und der
„Endpunkt“ zu 2k
 3:4, 6:5,1:2,7:8
Anfügen von 0 links und 2N+1 = 9 rechts führt zu
(2,-3,1,4)  (0,3:4, 6:5,1:2,7:8,9).
Die mit „:“ getrennten Paare sind jeweils die Enden eines
Markers => Sie bleiben in jeder Permutation adjazent
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - signed, ein Beispiel:
Der Datensatz des zweiten Chromosoms (b) ist (-1,-4,2,3) ~
 (-1,-4,2,3)  (0,2:1, 8:7,3:4,5:6,9).
Aus beiden Sätzen kann man dann den Break point graph pa
relativ zu pb erzeugen:
Jeder, in dieser Permutation adjazente Marker aus Pa (Pb) ist
durch eine „black Edge“ ( „grey Edge“ ) verbunden. Die
verbundenen Marker bilden eine cycle decomposition
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point – Graph - signed
Sei die Anzahl an Zykeln in der Zykel-Dekomposition c(pa,pb).
Eine Inversion I auf pa verursacht den Bruch zweier „black
edges“ und erzeugt zwei neue.
3 mögliche Effekte auf die Zykel Dekomposition:
1. Ein Zykel wird in zwei neue aufgespalten
2. Zwei Zykel werden zu einem vereint
3. Veränderung der Knoten Reihenfolge innerhalb eines
Zykels
c = c(I pa,pb)- c(pa,pb) = +1, -1 or 0
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - signed
Wenn pa = pb dann ist die Anzahl der Zykel = N+1
pa = pb = (2,-3,1,4)  (0,3:4, 6:5,1:2,7:8,9)
Da eine Inversion maximal 1 zusätzlichen Zykel erzeugt braucht
man mindestens N+1-c Inversionen um pa in pb zu überführen.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Komplikationen im break point Graph - signed
1. Hurdles:
Angenommen pa = (3,2,1) und pb = ( 1,2,3 )
keine Inversion kann die Anzahl der Zykel erhöhen =>
Wenn h(pa, pb) die Anzahl der Hurdles ist, dann ist n + 1- c + h
eine untere Grenze für die Inversions Distanz
2. Fortress
Eine bestimmte Anordnung von Hurdles erzeugt eine
Fortress  ein weiterer Schritt notwendig Sei f (pa, pb) =1 wenn
der Graph eine Fortress ist und 0 sonst
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - signed
Formel für die untere Grenze der Inversions Distanz im Graph ist
also:
d (pa, pb) = n+1-c+h+f
Hannenhalli und Pevzner haben gezeigt, dass man für orientierte
Permutationen, die Distanz in polynomieller Zeit berechnen kann.
Algorithmus liefert gute Ergebnisse für signed Permutations.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - unsigned
2. Fall: Markerorientierung ist nicht bekannt. ( „ unsigned
permuation, partially signed permutation „)
Realistischer Fall, da genomic Data in Form von comperative
Maps meist unsigned oder nur partiell orientiert vorliegt
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Gen
Start Kb
ANT3
Cyto
Cattle order
Xp22.32
1
AMELX
8,950
Xp22.31
2
SAT
18,652
Xp22.1
3
Xp21.1
4
CYBB
MAOA
38,289
Xp11.4
5
SYN1
42,783
Xp11.23
7
TIMP1
42,792
Xp11.23
8
SYP
44,288
Xp11.22
6
CITED1
64,082
Xq13.1
9
PLP1
97,418
Xq22
11
FACL4
103,471
Xq23
10
HPRT1
128,965
Xq26
14
TNFSF5
130,747
Xq26
13
SLC6A8
148,934
Xq28
12
1,2,3,4,5
 +1
7,8
 +3
6
9
 ?2
 ?4
11,10
 -5
14,13,12
-6
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Der break point Graph - unsigned
 +1, +3, ?2, ?4, -5, -6
Mit wenig Aufwand kann man die 4 Möglichkeiten ausprobieren,
und kommt zu der signed permutation +1, +3, -2, +4, -5, -6 mit
der minimalen Distanz 4.
In den meisten Fällen ist durchprobieren nicht möglich.
Beim Vergleich von D. melanogaster und D. repleta müsste man
260 > 1018 Möglichkeiten durchprobieren...
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Modell Annahmen
• Umordnung geschieht nur infolge von Inversionen
• Das Auftreten einer Inversion ist ein Poisson Prozess mit unbekannten
Mittelwert ; Die Wahrscheinlichkeit von exakt L aufgetreten Inversionen ist: P(L| )=e-L/L!
L = 1, 2, ...
• Wir nehmen a priori eine Gleichverteilung für  an: P() = 1/ max für 0 <  <= max
• Die Anzahl der verglichenen Marker auf beiden Chromosomen ist N. Dabei ist es egal ob wir
die Orientierung eines Markers kennen oder nicht. Ist die Orientierung bekannt ( nicht bekannt )
repräsentieren wir die Daten D als ein Paar von signed ( unsigned ) Permutationen pa, pb.
• Wir unterscheiden N(N+1)/2 mögliche Inversionen.
• Jede der N(N+1)/2 möglichen Inversionen hat die gleiche Wahrscheinlichkeit
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Es gibt insgesamt (N(N+1)/2)Lx gleichwahrscheinliche
Inversionssequenzen X der Länge Lx
+1 +2 +3 +4
4(4+1)/2 = 10 mögliche Inversionen
P4
P2
P1
I1
I3
P6
I4
P5
I5
I2 P3
105 mögliche Inversionssequenzen 5X der
Länge 5
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Sei  die Menge aller möglichen Inversionssequenzen, dann
ist die Wahrscheinlichkeit für jedes X   geben 
P(X| ) = (e-Lx/Lx!)(N(N+1)/2)-Lx
Ws für das Auftreten von
Genau L Inversionen
Ws für genau eine Sequenz
der Länge L aus allen möglichen
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach- MCMC
Ziel ist es die postiori Ws von X und  zu erhalten. P(X|D) und
P (|D).
Erzeugen einer Markov Kette mit dem Zustandsraum:
 x R+
und stationärer Verteilung
P(X, |D), X  ,   R+
Anzahl der Inversionen
Rate der Inversionen
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach- MCMC
Idee:
Samplen der Werte von  und X wenn die Markov Kette in ihrer
stationären Verteilung ist.
Gibt nicht nur den wahrscheinlichsten Zustand aus, sondern
eine Menge wahrscheinlicher Zustände, die für die gegeben
Daten als „typisch“ bezeichnet werden können
ABER: Wie kommt man in die stationäre Verteilung?
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach- Metropolis Hasting Algorithmus
min 1, y* Qyx
x Qxy
x
Qxy „proposal step“
Qyx
y
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Bayes Theorem:
Stationäre Verteilung
P(X, |D) = P(D| X, )P(X, )/P(D)
= P(D| X, )P(X| )P( )/P(D)
=
1
(e-Lx/Lx!)(N(N+1)/2)-Lx
P(X|Y) =P(Y|X)*P(X)
P(Y)
P(X,Y)=P(X|Y)*P(Y)
1
/P(D)
max
y* Qyx
x Qxy
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X
Pa
I2
X kann man sich als ein „Inversionspfad“
vorstellen, der Sequenzen von Permutationen,
p0 = pa, p1,... pL = pb und von Inversionen
I1, I2, ... IL mit pi = Iipi-1, i = 1, 2, ... L umfasst.
I4
Der neue vorgeschlagene Pfad, Y, wird wie folgt
konstruiert:
I1
I3
I5
I6
pb
I7
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X
Pa
1. Wähle einen zu ersetzenden Bereich von X.
Wähle mit Ws qL(l,j), eine Länge,l ,(0 < l < L)
und eine Startpermutation, pj, ( 0 < j < L-l ).
Der Subpfad von p= pj zu p = pj+l wird in Y
von einem neuen ersetzt.
I1
I2
p
I3
I4
I5
I6
pb
p
I7
2. Generiere einen neuen Subpfad. Verwende
den breakpoint Graph von p relative zu p,
wähle eine Inversion, I1‘, zufällig, aber
c = 1 mit hoher Ws. Dann fahre in gleicher
Weise fort, wähle I2‘, unter Betrachtung von
I1‘p relativ zu p, und so weiter bis I1‘, I2‘...
Il‘‘p = p.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
1. Wähle einen Bereich von X, der ersetzt werden soll
Wähle die Länge l des zu ersetzenden Teilstückes
durch das sampeln aus einer Verteilung q(l)
Wähle j gleichverteilt zufällig aus 0, 1, ... Li- l
Q(l)  1- tanh 
l
-1
N
mit  = 8 und  = 0.65
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
2. Erzeugung eines neuen Subpfades
Start: p = pj End: p = pj+1
Wir suchen eine Sequenz von Inversionen I1‘, I2‘, ... Il‘ und
dazwischenliegenden Permutationen p0‘ = p, p1‘, p2‘... pl‘‘= p
mit pi‘ = Ii‘pi-1, i = 1,2,...l‘.
Wir betrachten dazu den breakpoint Graph von pi-1‘ relativ
zu p
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
2. Erzeugung eines neuen Subpfades
Klassifiziere alle Inversionen nach c = +1, 0, -1
Erinnerung: pa = pb wenn Anzahl der Zykel = n+1
Wähle I so, dass mit hoher Ws c = +1
=> Ein Schritt „vorwärts“
Man nimmt also an, dass kurze Pfade wahrscheinlicher sind
als lange.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
2. Erzeugung eines neuen Subpfades
Wenn N+1, N0 und N-1 die Anzahl der Inversionen ist für
c = +1, 0, -1 dann ist die relative Ws für eines davon
1, 1, 2.
Nach der Auswahl ziehen wir gleichverteilt eine der N
Inversionen
=> Ws für ein c = +1 = 1/((1+1+ 2)N+1)
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
2. Erzeugung eines neuen Subpfades
Wenn N+1 = N0 = 0 sind die Permutationen gleich ~
Mit Ws 1- 3 stoppen wir hier bzw. mit Ws 3 fahren wir mit
c = -1 fort.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
2. Erzeugung eines neuen Subpfades
Die Ws qnew für den neuen Subpfad der Länge l‘ ist das Produkt
von l‘ +1 Faktoren
Einen pro Inversion + Ws für das Stoppen wenn man pb erreicht
Die Länge des vorgeschlagenen Pfades ist L‘ = L+ l‘-l
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail
3. Errechnen der „ forward proposal probabiltiy“
Q(Y|X) = Q(XY) = qL(l,j) qnew
4. Errechnen der „ acceptance probabiltiy“
Q(X|Y) = Q(YX) = qL‘(l‘,j) qold
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail ( unsigned )
Anstatt die Markerorientierung zu berechnen verwendet man
einfach orientierte Permutationen 
Man lässt die Startpermutation über die 2N orientierten
Permutationen laufen.
Update also sowohl für die Markerorientierung als auch für
die Inversionen
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail ( unsigned )
Pa F
Fpa
1. Wähle eine Subpfad genau wie im
F
Signed case.
2. Wende den Flip Operator F an
Palpha F Fpalpha
Pa an und lasse die Inversionen bis
Palpha gleich.
3. Erzeuge den neuen Pfad genau wie
Im signed case
Wieso kann man das machen?
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating X in Detail ( unsigned )
Pa F
Fpa
Das Durchführen eines Flips ist eine
F
Inversion eines einzelnen Markers.
Palpha
F
Fpalpha
Inversionen kann man über c
bewerten!
Führe Flips mit c = -1 mit Ws 4,
0,5 für c = 0 oder c = 1 durch.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating 
Ein Gibbs Schritt wird verwendet, um  zu aktualisieren
D.h.  wird zufällig gemäß der Ws von  gegeben die Anzahl
der Inversionen und der Daten aktualisiert
P(|X,D)  P(X|)P()  e- Lx P()
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – convergence monitoring
Methode von Gelman und Rubin:
Man brauch mindestens 2 Chains für die gleichen Daten
Definiere eine „between chain variance“ B und eine „within
chain variance“ W.
Konvergenz ist erreicht wenn R0,5 = ((n-1)/n+B/W)0,5 sich 1
nähert.
Hier verwendet: 5 – 10 Ketten, Burn In Phase bis R0,5  1.1
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – convergence monitoring
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – improving convergence
Das Update Schema hat viele Parameter, die die Konvergenz der
Ketten beinflussen:
 und  : kontrollieren die Länge des zu ersetzenden Teilstücks
1, 2. 3 : kontrollieren die Erzeugung des neuen Subpfades (
kurze vs. Lange Pfade
4
: kontrolliert die Bevorzugung für c = +1 Markerflips
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – improving convergence
Durch Läufe mit simulierten Daten ist man zu folgenden
Ergebnissen gekommen:
:8
 : 0.65
1: 0.03
2 : 1/2
3 : 1 2
4 : 0.025
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
1. Human-cattle data
14 unsigned Markers
8 simultane Ketten
Startzustände werden mit verschiedenen 1 erzeugt.
815.104 Iterationen
Konvergenz nach 8.192 Iterationen
Danach über jede Iteration gemittelt
Laufzeit: 254 Sekunden Athlon 1,2 GHz Prozessor
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
1. Human-cattle data
Ergebnisse: Wahrscheinlichster Wert für L = dem parsimony
Wert: 4
Aber es ist wahrscheinlich, das die Anzahl der wahren
Inversionen höher als 4 ist: 95% credible set für L
( 4 L  9 ) => die Erwartete Anzahl an Inversion ist wesentlich
höher als 4
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
1. Human-cattle data
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
2. D. melanogaster und D. repleta Daten
79 unsigned Markers
6 simultane Ketten
Startzustände werden mit verschiedenen 1 erzeugt.
43 mio Iterationen
Konvergenz 1,7 mio Iterationen
Danach über jede Iteration gemittelt
Laufzeit: 3,456 x105 sec  4 Tage Athlon 1,2 GHz Prozessor
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
2. D. melanogaster und D. repleta Daten
Ergebnisse: Wahrscheinlichster Wert für L = 87
Erwartungswert: 92 Inversionen
95% credible set für L: ( 71  L  118)
Parsemony Wert: 53
95% credible set für : (64.14    125.00 )
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Applications to Real Data
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Conclusion
• Lösung des Problems durch einen voll probabilistischen Ansatz machbar
• Für große Datensätze versagen die Parsemony Methoden
• Im Gegensatz zu den Parsymony Ansätzen ermöglicht der Bayes Ansatz zusätzlich
die Beantwortung von folgenden Fragen:
 Treten alle Inversionen mit der gleichen Rate auf?
 Sind Inversionsraten über Abstammungslinien konstant
• Ziele
 Einbinden von Translokationen, Chromosomenbrüchen und Fusionen
 Erweiterung auf komplette Genome i.d „Genomic Distance“
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Baysian Estimation of Genomic Distance
T. L. York, R. Durrett and R. Nielsen
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Motivation für den erweiterten Ansatz
„Understanding the relationship between the organization of two
genomes is important for transfering information betweens
species.
For example, for finding animal models of human deseases or
locating genes of agricultural importance.“
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Allgemein evolvieren Genome durch:
Translocations
Fusions
Fisions
Inversions
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Allgemein evolvieren Genome durch:
Translocations
Fusions
Fisions
Inversions
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Allgemein evolvieren Genome durch:
Translocations
Fusions
Fisions
Inversions
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Allgemein evolvieren Genome durch:
Translocations
Fusions
Fisions
Inversions
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Hannenhalli, Pevzner and the breakpoint graph
Problem der minimalen Chromosomen Distanz gelöst 
Idee: Die Chromosomen eines Genoms „verketten“, so dass ein
langes Chromosom entsteht und erzeugen eines modifizierten
break point graphs.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Zu Untersuchende Daten: Genom der Aubergine vs. Tomate
Eggplant:
E3: 1 2 3 4 5 6
E4: 7 8
E5: 9 10
E10: 11 12 13 14 15 16 17 18
E11: 19 20 21 22
E12: 23 24 25 26 27
Tomato:
T3: 1 -5 2 6
T4: 21 -22 -20 8
T5: -4 14 11 -15 3 9
T10: 7 16 -18 17
T11: -19 24 -26 27 25
T12: -12 23 13 10
Ergänzen von „leeren Chromosomen“ wenn notwendig
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Eggplant Doubled, Ends Added
1000 , 1 2 , 3 4 , 5 6 , 7 8 , 9 10 , 11 12 , 1001
1002 , 13 14 , 15 16 , 1003
1004 , 17 18 , 19 20 , 1005
1006 , 21 22 , 23 24 , 25 26 , 27 28 , 29 30 , 31 32 , 33 34 , 35 36 , 1007
1008 , 37 38 , 39 40 , 41 42 , 43 44 , 1009
1010 , 45 46 , 47 48 , 49 50 , 51 52 , 53 54 , 1011
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Tomato Doubled, Ends Added
2000 , 1 2 , 10 9 , 3 4 , 11 12 , 2001
2002 , 41 42 , 44 43 , 40 39 , 15 16 , 2003
2004 , 8 7 , 27 28 , 21 22 , 30 29 , 5 6 , 17 18 , 2005
2006 , 13 14 , 31 32 , 36 35 , 33 34 , 2007
2008 , 38 37 , 47 48 , 52 51 , 53 54 , 49 50 , 2009
2010 , 24 23 , 45 46 , 25 26 , 19 20 , 2011
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Mögliche enstehende Komponenten im Graph:
 Pfade die 2 Enden verbinden
 „kurze Pfade“ ( hier 5 )
 „lange Pfade“ ( hier 7 )
 Pfade die die Enden eines Genoms verbinden ( hier 0 )
 Zykel
( hier 0 )
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Die untere Grenze für die Genom Distance berechnet sich aus:
 M +N ( Anzahl der Kommas, hier 33 )
 minus Anzahl der kurzen und langen Pfade ( hier 5 +
7= 12)
 minus der Anzahl der Zykel
 Plus Anzahl der Pfade die im gleichen Genom
anfangen und Enden ( hier 0 )
Um Tomate in Aubergine zu überführen sind also mindestens
33-12 = 21 Inversionen oder Translokationen notwendig
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Parsimony Methods - Erzeugung des break points Graphs
Problem: Wieder nur für „signed“ Marker möglich
Im Tomaten- Auberginen Problem waren 5 einzelne
Marker: 25 = 32
 einfach
Mensch - Katze: 221  kompliziert
Mensch - Rind: 275  umöglich
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Modell Annahmen
• Umordnung geschieht infolge von Inversionen, Translokationen, Fusions and Fissions)
• Fusions and Fissions werden als spezial Fall von Translokationen behandelt, bei dem entweder
das input oder output Chromosom leer ist
• Wenn zu einer Zeit t IT(t) Translokationen und II(t) Inversionen möglich sind dann ist die Rate
mit denen beide auftreten jeweils IT(t)T und II(t)I
• Die Zeit bis zu einem Ereignis E ist expotential verteilt mit Parameter IT(ti) T+II(ti) I)ti
• Wir nehmen a priori eine Gleichverteilung für E an: P(E) = 1/ Emax für 0 < E <= Emax
• Die Anzahl der Marker, deren Ordnung auf beiden Genomem bekannt ist, und die verglichen
werden soll, ist N.
• Die Anzahl der Chromosomen die in beiden Genomen vorhanden ist ( inkl. Leere
Chromosome) ist M.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Inversionen und Translokationen im Genom bilden
eine Markovkette mit dem Zustandsraum ( 0 ) der durch alle
möglichen Anordnungen der N geordneten Marker auf den M
geordneten Chromosomen erzeugt wird.
(M+N-1)!
N
|0| = 2
(M-1)!
0(x) =
2-N
(M-1)!
(M+N-1)!
,  x  0
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Ordnung der Chromosome egal 
neue Markovkette mit kollabierten Zustandsraum (U)
Zustände in U mit M0 leeren Chromosomen sind
Äquivalenzklassen aus 2(M-M0) M!/M0! Elementen aus 0
0
U
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Daraus folgt die stationäre Wahrscheinlichkeit von einem
Element aus mit M0 leeren ChromosomenU
u(x) =
2(M-N-M0)
M!(M-1)!
,  x  U
M0!(M+N-1)!
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Genom 1 (x1) , Genom 2 (x2)
x1 kann in x2 durch eine Sequenz von Translokationen und
Inversionen überführt werden
 Pr(x1, x2|  ) = Pr(x1) Pr(x1 x2| )
wobei Pr(x1 x2| ) die Übergangswahrscheinlichkeit von
x1nach x2 ist.  ist der Vektor der Parameter T I..
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Die Ws für x1 ist unabhängig von  daher:
 L() = Pr(x1 x2| )
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Sei  die Menge aller möglichen Pfade von x1 zu x2. D.h.:
Pr(x1 x2| ) = y Pr(y|)
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Um  zu schätzen wird eine neue Markovkette erzeugt mit dem
Zustandsraum [0,)2 x  und mit stationärer Verteilung geben
durch die verbundene Wahrscheinlichkeit von  und dem
evolutionären Pfad
(y,T ,I ) = p(y,T ,I|x1,x2),  y  , E  [0,)
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Verwendung von Metropolis Hasting um Prozess konvergieren
zu lassen:
min
1, y* Qyx
x Qxy
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
Umformung nach Bayes 
(y,T ,I ) = p(y,T ,I|x1,x2)
= p(x1,x2| y,T ,I ) p(y|T ,I) p(T ) p(I) / P( x1,x2)
 p(y|T ,I) p(T ) p(I)
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach
1
2
.
.
.
E e-(IT(ti) T-II(ti) I)ti
E e-(IT(ti) T-II(ti) I)ti
p(y|T ,I)=  E(i) e-(IT(ti) T-II(ti) I)ti
S+1
i=1
E(i) =
E e-(IT(ti) T-II(ti) I)ti
S
T wenn i  S und Translokation
I wenn i  S und Inversion
1 wenn i = S+1
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Proposal Probability
Gleiches Vorgehen wie im ersten Paper
 schlage einen Teil des Pfades vor, der ersetzt werden soll
erzeuge neuen Subpfad unter Verwendung des break point
Graphen
 Berechne die Ws für den neuen Pfad
 Ws für den umgekehrten Weg
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Updating T ,I
Y, T und I werden alternierend aktualisiert, wobei Tneu und
Ineu unabhängig von den jeweils anderen Werten in einem
Fenster um den alten Wert Talt ,Ialt gewählt werden.
Die Verteilung der Werte von T und I ist proportional zur deren
Likelihood Funktion.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – convergence
Verwendung von Metropolis Coupled Markov Chain Monte
Carlo
Feststellung der Konvergenz über „between chain“ und „within
chain variance“ ( Gelman & Rubin )
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
1. Tomate vs. Aubergine
170 Marker
minimale Distanz 28, 23 Inversionen und 5 Translokationen
Bayes Ansatz: 6 unheated Chains, 459.000 updates, 20 Stunden
Burn in: 14.000
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
1. Tomate vs. Aubergine
Ergebnisse des Bayes Ansatz: 95% credible Intervalls
Inversionen: [5,7]
Transkriptionen[21,31]
Number of Events [28,37]
T = 0.000219
I = 0.0194
0.000219*30271=6.629
0.0194*1335=25.899
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
2. Human vs. Cat
269 Marker
parsimony Distanz 78, 64 Inversionen und 14 Translokationen
Bayes Ansatz: 6 unheated Chains, 2.2 mio updates, 9 Tage
Burn in: 306.000
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
2. Human vs. Cat
Ergebnisse des Bayes Ansatz: 95% credible Intervalls
Inversionen: [71,89]
Transkriptionen[12,15]
Number of Events [85,102]
T = 0.000161
I = 0.0350
0.000161*79650=12.82
0.0350*2370=82.95
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
2. Human vs. Cattle
422 Marker
parsimony Distanz 155, 135 Inversionen und 20 Translokationen
Bayes Ansatz: 4 unheated Chains, 1.3 mio updates, 30 Tage
Burn in:
Konvergenz konnte nicht erreicht werden
Burn in nach 600.000 updates beendet
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
2. Human vs. Cattle
Keine sichere Aussage möglich, da die 95% credible sets von
Lauf zu Lauf sehr verschieden sind.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Analysis of Three Data Sets
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
A Baysian Approach – Conclusion
• Lösung des Problems durch einen voll probabilistischen Ansatz machbar, allerdings
entstehen Probleme bei großen Datansätzen wie der Cattle – Mensch Datensatz gezeigt hat
• Für große Datensätze versagen die Parsemony Methoden allerdings genauso und früher
• Muster erkennbar, das Inversionen 4-7 so häufig sind wie Translokationen
 Biologen gehen von 2 mal häufigerem Auftreten von Inversionen aus.
Der Schluss aus den Parsemony Methoden
• Ziele
 Anpassen der Inversionswahrscheinlichkeiten, so dass sie von der Größe
des invertierten Stücks abhängen
 Erweitern, so dass Genduplikationen erfasst werden.
Johann Wolfgang Goethe Universität Frankfurt am
Main
Fachbereich 15: Biologie und Informatik
Bioinformatik
Fragen?
Herunterladen