Modell Annahmen

Werbung
Seminararbeit
Bayesianische Methoden zur Schätzung der genetischen Distanz
zwischen homologen Chromosomen und Genomen
Alexander Klenner
Einleitung
Mit der immer größer werdenden Menge an Genomdaten,
die Biologen experimentell bestimmen, werden auch
statistische Methoden, um diese Daten zu bewerten und
in Beziehung zu setzen, wichtiger. Besonders im Bereich
der Evolutionsbiologie sind effiziente Methoden um die
Verwandtschaften von Organismen über die Genomdaten
zu bestimmen, ein weites Forschungsfeld. In beiden
Arbeiten von York, Durett und Nielsen werden zwei
solche Methoden, die die Autoren entwickelt haben, um
genomische Daten zu bewerten, vorgestellt.
Die erste Arbeit befasst sich mit der Schätzung der
Anzahl von Inversionen, die wahrscheinlich in der Natur
in der Geschichte von zwei homologen Chromosom aus
zwei verschiedenen Spezies aufgetreten sind. Die
Autoren verwenden hier einen bayesianischen Ansatz und
legen diesem ein biologisches Modell zu Grunde.
Der Vorteil dieser innovativen Methode ist, dass man
sich von der minimalen Anzahl an notwendigen
Inversionen, also den klassischen parsemonischen
Methoden entfernt, hin zu einer wahrscheinlichen Anzahl
von Inversionen. Dies ist deswegen ein sinnvolles
Vorgehen, da es keine Garantie gibt, dass die Natur bei
der Evolution der Gene den „kürzesten“ Weg gegangen
ist.
Obgleich man nur Inversionen betrachtet, somit also
andere wichtige Ereignisse der Evolution wie
Translokationen, Chromosomenverschmelzungen oder
Brüche außer acht lässt, ist der Ansatz für bestimmte
Datensätze praktikabel.
Als Beispiel seien hier die Gonosomen erwähnt, die keine
Translokationen mit den Autosomen eingehen, somit ist
hier ein Vergleich über Inversionen machbar und
realistisch.
Die zweite Arbeit von denselben Autoren erweitert den
bayesianischen Ansatz, so dass man nun nicht mehr auf
die Distanz von homologen Chromosomen beschränkt ist,
sondern zwei vollständige Genome vergleichen kann.
Ebenso wird die Methode so angepasst, dass nun neben
Inversionen auch Translokationen,
Chromosomenbrüche und Verschmelzungen erfasst werden. Mit dem
Modell aus der zweiten Arbeit ist es möglich zu schätzen,
wie viele Mutationsereignisse nötig sind, um ein
komplettes Genom in ein zweites zu überführen. Auch
hier werden die schon existierenden Ergebnisse
parsemonischer Methoden mit denen des neuen Modells
verglichen und es zeigt sich, dass der neue Ansatz
teilweise zu gänzlich anderen Ergebnissen kommt.
Biologischer Hintergrund
Um die Arbeiten, die hier behandelt werden zu verstehen,
ist es notwendig auch die biologischen Begriffe korrekt
einordnen zu können und zu wissen, was die jeweiligen
Veränderungen in den Chromosomen bewirken.
Allgemein bezeichnet man eine Veränderung eines
Chromosoms, also des Erbmaterials, als Mutation. Eine
solche Mutation tritt spontan und zufällig auf, man kann
weder sagen wo oder wann eine Mutation auftreten wird.
Das Auftreten solcher Mutationen ermöglicht letztlich
das Entstehen neuer Arten.
Daher ist es durchaus sinnvoll zu versuchen den
Verwandtschaftsgrad zweier Spezies über die Anzahl an
Mutationen, die in diesen Spezies homologe
Chromosomen trennen, zu untersuchen.
In der ersten Arbeit werden ausschließlich Inversionen
betrachtet. Diese spezielle Art der Mutation ist die fast
einzig auftretende Mutation im Genom von Drosophila
Spezies.
Ebenso
evolvieren
Gonosomen
fast
ausschließlich über Inversionen, da sie nicht die
Möglichkeit haben, Translokationen mit Autosomen
einzugehen. Weitere Bereiche wo Inversionen als die
wichtigste Mutation bezeichnet werden können, sind die
Genome von Mitochondrien und Chloroplasten.
Eine Inversion tritt immer innerhalb eines Chromosoms
auf. Ein Teilstück bricht aus dem Chromosom heraus,
beschreibt eine 180 Grad Drehung und wird an gleicher
Stelle wieder in das Chromosom eingefügt.
Der Effekt ist eine Umkehrung der Gen Abfolge auf
diesem Teilstück relativ zu allen anderen Genen und eine
Umkehrung der Orientierung der betroffenen Gene,
gezeigt in Abbildung 1.
Abb.1: Inversion in einem Chromosom
In der zweiten Arbeit werden zusätzlich zu Inversionen
noch Translokationen, Chromosomenbrüche und
Chromosomenfusionen als Mechanismen der Evolution
und zu Erklärung der Distanz zweier Genome
angenommen. Die beiden letzteren Ereignisse sind
nahezu selbsterklärend. Bei einer Fusion verbinden sich
zwei Chromosomen und werden zu einem einzigen
zusammengeführt. Der Chromosomenbruch beschreibt
das umgekehrte Ereignis, hierbei bricht ein Chromosom
auseinander und es entstehen zwei neue einzelne
Chromsomen.
Bei der Translokation bricht ein Stück eines Chromosoms
heraus und wird in ein anderes Chromosom eingefügt.
Hierbei ändern Gene also ihre Position nicht innerhalb
des Chromosoms sondern innerhalb des Genoms.
Paper 1
Repräsentation der Daten
Der zu untersuchende Datensatz besteht aus N Markern.
Dabei repräsentiert jeder Marker ein spezifisches Gen,
das in beiden Chromosomen an einer beliebigen Stelle
vorhanden ist.
Man vergleicht zwei Chromosomen also nicht an Hand
ihrer Nukleotidsequenz oder der vollständigen Anzahl an
Genen, sondern nur durch Marker, die solche Gene
widerspiegeln, die mit einem molekularen Marker auf
beiden Chromosomen lokalisiert werden können.
Wie Gene besitzen auch die in der Repräsentation
verwendeten Marker Orientierungen.
Die Orientierungen der Marker werden durch die
Vorzeichen ’+’ und ’-’ dargestellt. Die Orientierungen
spiegeln wieder, ob das Chromosom auf dem 5’ oder dem
3’ Strang des Chromosoms liegt.
Ist sowohl die Reihenfolge der Marker als auch deren
Orientierungen identisch, gelten auch die beiden
verglichenen Chromosomen als identisch.
Der ’break point’ Graph
Der Schlüssel um Distanzen zischen Chromosomen zu
untersuchen ist der von Hannenhalli und Pevzner 1995
entwickelte breakpoint – Graph. Um den breakpoint –
Graph einer Permutation von Markern pa relativ zu einer
Permutation pb zu erzeugen, müssen beide Permutationen
mit Vorzeichen versehen sein. Daraus folgt, dass man den
breakpoint - Graphen nur dann erstellen kann, wenn die
Orientierung aller Marker bekannt ist.
Ist das der Fall kann man sich jeden Marker mit zwei
Enden vorstellen, nämlich einem Kopfende und einem
Schwanzende.
Der breakpoint - Graph einer mit Vorzeichen versehender
Permutation mit N Markern, pa, relativ zu einer anderen,
pb, ist ein Graph mit 2N + 2 Knoten, einer für jedes Ende
der N Marker plus zwei zusätzliche Knoten für die Enden
des Chromosoms.
Eine mögliche Markerkombination (2, -3, 1, 4) würde
bedeuten, dass Marker 2 der am weitesten links liegende
ist und dass er von links nach rechts orientiert ist.
Um den breakpoint – Graph von zwei Permuationen zu
erzeugen, muss man die Marker so umschreiben, dass sie
durch ihre Ende und ihren Anfang repräsentiert werden.
Dazu wird jeder Marker k aus der Permutation derart
umgeschrieben, dass sein Kopf zu 2k-1 und sein Schwanz
zu 2k wird.
Durch dieses Vorgehen kann man jeden Marker durch ein
Paar von Zahlen in der entsprechenden Reihenfolge
ersetzen: k  2k –1 : 2k und –k  2k : 2k-1.
Links wird 0 für den Beginn des Chromosoms angefügt
und für dessen Ende 2N+1 auf der rechten Seite.
Aus der Marker Permutation, Pa, (2, -3, 1, 4) wird durch
Anwenden dieses Verfahrens also:
(2, -3, 1, 4)  ( 0, 3 : 4, 6 : 5, 1 : 2, 7 : 8, 9)
Die in dieser Permutation mit einem Doppelpunkt
getrennten Paare bleiben auch in jeder anderen
Permutation adjazent.
Sie stellen jeweils Ende und Anfang eines Markers da
und dürfen nicht voneinander getrennt werden. Die mit
Komma separierten Paare können in einer anderen
Permutation, verursacht von einer Inversion, getrennt
werden.
Um den breakpoint – Graphen zu konstruieren, benötigt
man eine weitere Permuation P b. Abbildung 2 zeigt den
breakpoint – Graphen von Pa = ( 2, -3, 1, 4 ) relativ zu Pb
= ( -1, -4, 2, 3 ).
Wendet man auf Pb das gleiche Verfahren an, wie zuvor
auf Pa folgt daraus:
( -1, -4, 2, 3 )  ( 0, 2 : 1, 8 : 7, 3 : 4, 5 : 6, 9)
Der Graph wird erzeugt indem man die mit Komma
separierten Zahlentupel aus Pa mit Kanten verbindet
( black edges ) und anschließend die durch Kommata
gegebenen Verbindungen aus Pb ebenfalls auf diese nun
schon verbundenen Zahlen anwendet ( grey edges ).
Abb. 2: Der breakpoint – Graph von Pa = ( 2, -3, 1, 4 ) relativ zu
Pb = ( -1, -4, 2, 3 ).
Der auf diese Weise konstruierte breakpoint – Graph
führt zu einer sogenannten Zykel Dekomposition.
Startet man bei dem Knoten k und folgt einer der zwei
inzidenten Kanten wird man wieder bei dem Startknoten
landen. Abbildung 3 zeigt einen der zwei in diesem
Beispiel vorhandenen Zykel in dem breakpoint – Graph
von Pa zu Pb.
Abb.3: Die Zykel - Zerlegung ; einer der Zykel in rot dargestellt
Wenn die Anzahl der Zykel N+1 ist, sind die
Permutationen wie in Abb. 4 zu sehen identisch. In
beiden Permutationen sind die gleichen Marker adjazent,
das führt zu grauen und schwarzen Kanten, die exakt die
gleichen Knoten verbinden und damit zu N+1 Zykeln.
Abb.4: Bei identischen Kombinationen sind genau N + 1 Zykel
zu beobachten
Das Anwenden einer Inversion auf pa verursacht zunächst
den Bruch zweier schwarzer Kanten und die Erzeugung
von zwei neuen schwarzen Kanten. In der
Kommanotation entspricht das der Änderung von
adjazenten Markern.
Auch auf die Zykel - Dekomposition hat das Anwenden
einer Inversion Auswirkungen.
nur Marker betrachten können, deren Vorzeichen bekannt
ist. Dadurch geht oftmals viel Information im vorhinein
verloren.
Im Fall des Vergleichs zwischen Rinder und
menschlichem X Chromosom an Hand der gegebenen
Karte, kann man die parsemonische Distanz, also die
minimale Anzahl an Inversionen die nötig sind, um sie
ineinander zu überführen, trotz der fehlenden
Orientierung leicht berechnen, da es nur 4 Fälle gibt, die
man sich überlegen muss bei zwei unbekannten Markern.
Man kommt zu dem Ergebnis 4. Aber im Falle des später
betrachteten Datensets von Drosophila Spezies müsste
man 260 Fälle überprüfen, und das ist nicht mehr effizient
möglich.
3 mögliche Effekte können auftreten:
Es könnte ein vorhandener Zykel in zwei neue
aufgespalten werden.
Es könnten zwei Zykel zu einem vereint werden.
Es könnte sich die Reihenfolge der Knoten, die auf einem
Zykel liegen ändern, ohne das sich die Anzahl der Zykel
ändert.
Diese drei Möglichkeiten können durch eine Formel in
Form von einem c ausgedrückt werden. Sei die Anzahl
an Zykeln c(pa pb), dann gilt für c:
c = c(Ipa pb)- c(pa pb) = +1, -1 or 0
Eine c = +1 Inversion, also eine Inversion, die die
Anzahl der Zykel um eins erhöht, bringt die betrachteten
Permutationen näher bis man die N+1 möglichen Zykel
erreicht hat, und die Permutationen identisch sind.
Da eine Inversion immer nur maximal einen zusätzlichen
Zykel erzeugen kann, braucht man mindestens N+1 –c
viele Inversionen um eine Permutation in eine andere zu
überführen, wenn in jedem Schritt eine Inversion
beseitigt werden kann.
Zusätzlich können in einem breakpoint - Graph noch
sogenannte Hürden auftreten. Eine Hürde bezeichnet eine
bestimmte Marker Konstellation, bei der es nicht möglich
ist einen Schritt zu machen, der eine c = +1 Inversion
repräsentiert. Man muss einen zusätzlichen Schritt
machen, um die Hürde zu brechen. Erst dann kann man
wie gewohnt fortfahren.
Sei h (pa,pb ) die Anzahl der Hürden in einem breakpoint
- Graph, daraus folgt die neue Formel für die minimale
Distanz. Es sind N+ 1 + h – c viele Schritte notwendig,
um pa in pb zu überführen.
Damit ist man fast schon bei einer allgemeinen Formel
angelangt, allerdings können auch wiederum die Hürden
in einem Graph so angeordnet sein, dass sie eine Festung
bilden. Das heisst ein weiterer Schritt ist notwendig, um
diese Festung zu brechen. Sei f = 1 wenn der Graph eine
Festung ist und 0 sonst. Daraus folgt die allgemeine
Formel für die minimale Inversionsdistanz d:
d(pa,pb ) = N+1 +h + f –c
Das Erzeugen eines - breakpoint Graphen ist nur dann
effizient, wenn alle Marker mit Vorzeichen versehen
sind.
Da biologische Daten aber meist in Form von
sogenannten Vergleichskarten vorliegen ( Abbildung 5 ),
aus denen die Orientierung der Marker nicht hervorgeht,
ist es nur bedingt sinnvoll mit Methoden zu arbeiten, die
Abb.5: Aus dieser vergleichenden Karte von Rinder und
menschlichem X Chromosom können nur partielle
Markerorientierungen abgelesen werden, für isolierte Marker (
hier 6 und 9 ) kann man keine Orientierungen angeben.
Die im nächsten Abschnitt vorgestellte, von den Autoren
entwickelte Methode, kann sowohl Marker mit, als auch
ohne Orientierung verwenden.
Der Bayes Ansatz
Modell Annahmen
Umordnung der Gene geschieht nur infolge von
Inversionen.
Das Auftreten einer Inversion wird durch einen Poisson
Prozess mit unbekanntem Mittelwert  gesteuert. Die
Wahrscheinlichkeit für das Auftreten von exakt L
Inversionen ist: P(L|)=e-L/L!, L = 1, 2, ...
Für  wird eine uniforme a priori Verteilung
angenommen P() = 1/max für 0 <   max
Die Anzahl der auf beiden Chromosomen vorhandenen
Marker mit bekannter Reihenfolge beträgt N. Dabei ist es
egal, ob die Orientierung der Marker bekannt ist oder
nicht. Die Daten, D, werden als ein Paar von
Permutationen ( entweder mit oder ohne Vorzeichen) P a
und Pb dargestellt.
Es werden N(N+1)/2 Inversionen unterschieden und jede
dieser Inversionen tritt mit gleicher Wahrscheinlichkeit
auf.
Warum die Beschränkung auf Inversionen in diesem
Modell Sinn macht, wird im Abschnitt ’Biologischer
Hintergrund’ deutlich gemacht. Die Verwendung eines
Poisson Prozess um die Inversionsrate zu bestimmen,
liegt nahe, da man mit einem solchen Prozess
modellieren kann, wie sich Ereignisse, die mit
bestimmten Wahrscheinlichkeiten in bestimmten
Zeiträumen auftreten, in den zu untersuchenden
Zeiträumen verhalten.
Da man aber den Zeitraum in dem Inversionen auftreten,
nicht kennt, fließen die Zeiträume in dieser Poisson
Verteilung als unbekannte  ein.
Es gibt nur N(N+1)/2 verschiedene Inversionen, da
immer nur n direkt nebeneinander liegende Marker
invertiert werden dürfen.
Markovketten Monto Carlo Methode
Um die Markovkette konvergieren zu lassen, wird der
Metropolis- Hasting Algorithmus verwendet. Die Idee
hierbei ist, einen gut gewählten Zufallsgenerator zu
erzeugen ( siehe nächster Abschnitt ), der Vorschläge
macht, welcher Zustand als nächster von der Markovkette
angenommen werden soll. Dabei werden, wie ein Abb. 4
gezeigt, sowohl der Momentanzustand (x), der
vorgeschlagene
neue Zustand (y) als auch die
Übergangswahrscheinlichkeit von x  y bzw. von y 
x, berücksichtigt um zu entscheiden, ob ein
vorgeschlagener Zustand Y angenommen wird oder
nicht.
Das Ziel des bayesianischen Ansatzes zur Lösung dieses
Problems ist es, die posteriori Wahrscheinlichkeiten für
die Inversionsrate  und die Anzahl von Inversionen L zu
schätzen. Das entspricht den Wahrscheinlichkeiten
P(X|D) und P(|D), wobei X einem der möglichen
Inversionspfade der Länge Lx entspricht. Insgesamt gibt
es (N(N+1)/2)Lx viele Inversionspfade der Länge Lx.
Daraus folgt, das die Wahrscheinlichkeit für einen
Inversionspfad X gegeben der Parameter 
P(X|) = (e-Lx/Lx!)(N(N+1)/2)-Lx ist. Das entspricht
nämlich gerade dem Auftreten von L Inversionen, also
einer Inversionssequenz der Länge L, mal der
Wahrscheinlichkeit, dass genau L mal genau eine der
N(N+1)/2 möglichen Inversionen gewählt wird, gegeben
der Inversionsrate .
Da man die Wahrscheinlichkeiten für P(X|D) und P(|D)
nicht analytisch berechnen kann, wird eine Markovkette
mit Zustandsraum  x R+ erzeugt, wobei  die Menge
aller möglichen Inversionspfade ist und   R+.
P(X, |D) ist die stationäre Verteilung der Markovkette.
Um P(,D) und P(L,D) zu erhalten kann man aus dieser
Markovkette Werte abfragen, wenn sie gegen die
stationären Verteilung konvergiert ist. Diese Werte
entsprechen dann genau den wahrscheinlichen Werten
von L bzw. , beziehungsweise den gesuchten posteriori
Wahrscheinlichkeiten.
Man erhält also nicht genau einen Wert ( den
Wahrscheinlichsten ) für die Inversionsrate oder die
Anzahl an Inversionen, sondern eine Wahrscheinlichkeitsdichte für einen Bereich, in dem sich die Werte
befinden.
Die Zielverteilung P(X, |D) kann mit Hilfe des Bayes
Theorem umgeschrieben werden in:
P(X,|D) = P(X,,D)/P(D) = P(D|X,) P(X|) P() / P(D)
Da nur Inversionspfade erzeugt werden, die die
Permutationen Pa und Pb ineinander überführen, gilt für
diese X, dass P(D|X, ) = 1.
P(X|) kann man ebenfalls berechnen, denn wie oben
gezeigt gilt P(X|) = (e-Lx/Lx!)(N(N+1)/2)-Lx und
P() = 1/ max.
Also kann man die Zielverteilung schreiben als:
P(X,|D) = (e-Lx/Lx!)(N(N+1)/2)-Lx max-1 / P(D)
Der einzige Faktor, der nicht direkt berechnet werden
kann ist hier P(D). Betrachtet man aber die Formel für
den Metropolis Hasting Algorithmus ( Abb. 6 ) sieht
man, dass sich P(D) wegkürzt und somit irrelevant für die
Berechnung wird.
Abb. 6: Formel für die Akzeptanz Wahrscheinlichkeit eines
neuen Zustands Y im Metropolis Hasting Algorithmus.
Aktualisierung von X
X ist ein Inversionspfad von Pa nach Pb. Er umfasst
sowohl Permutationen der Sequenzen p0 = pa, p1, ... pL =
pb als auch Inversionen, I1, I2, ... IL, mit pi = Iipi-1 und i=
1, 2, … L.
Der Vorschlag eines neuen Zustands geschieht, in dem
man einen neuen Inversionspfad konstruiert, der die
Daten ineinander transformiert.
Das passiert in zwei Schritten. Im ersten Schritt wird eine
Sektion von X, die ersetzt werden soll, ausgewählt. Man
erzeugt also nicht einen komplett neuen Pfad, sondern
ersetzt nur ein Teilstück des aktuellen Pfades. Mit
Wahrscheinlichkeit qL(l ,j ) wird eine Länge, l, gewählt
mit 0  l  L und eine Startpermutation, pj, ( 0  j  L-l ).
Das Teilstück von p = pj bis p = pj+l wird in Y durch ein
Neues ersetzt.
Im zweiten Schritt wird ein neuer Teilpfad generiert, der
das ausgewählte Stück in X ersetzt. Dies geschieht in
dem man den breakpoint - Graphen von p relativ zu dem
von p betrachtet, und, wie später detailliert beschrieben,
zufällig eine Inversion I’1 wählt. Die gewählte Inversion
soll mit hoher Wahrscheinlichkeit ein c = +1 erzeugen.
Dann, genau auf die gleiche Art, wird eine Inversion I’2
gewählt, unter Benutzung des breakpoint - Graphen
I’1palpha relativ zu pbeta. So fährt man fort bis I’lpalpha =
pbeta.
Zunächst wird also ein Bereich von X ausgewählt, der
ersetzt werden soll. Um die Länge, l, zu erhalten wird aus
einer später genauer beschriebenen Verteilung q(l)
gezogen, und anschließend wird j gleichverteilt aus 0, 1,
... Li –l gezogen. Daraus folgt für q(l,j) = q(l)/(L+1-l).
Die Formel, die von den Autoren für die Verteilung von l
verwendet wird ist:
  l

q(l )  1  tanh   
 1 

  N
mit

= 8 und = 0.65.
In der Praxis verhindert diese Formel, dass l gewählt
werden, die im Vergleich zu N sehr groß sind. Längen,
die im Vergleich zu N klein sind, werden durch diese
Formel ungefähr gleichverteilt erzeugt.
Der zweite, kompliziertere Schritt erzeugt den neuen
Subpfad in Y.
Gesucht wird eine neue Abfolge von Inversionen, die p j
in pj+l überführt. Dazu verwendet man in jedem Schritt
den breakpoint - Graph, der aktuell betrachteten
Permutation relativ zur Permutation pbeta. Abbildung 7
verdeutlicht das Vorgehen.
In jedem Schritt werden alle möglichen Inversionen
betrachtet und nach ihren c Werten, also +1, 0 oder –1,
klassifiziert.
Die Zykel Dekomposition zweier Permuationen hat
genau dann n+1 Zykel, wenn die Permutationen identisch
sind. Um also eine Permutation pa in eine Permutation pb
zu überführen muss man die Anzahl der Zykel solange
erhöhen bis sie N+1 ist.
Diesem Ziel nähert man sich immer dann, wenn man aus
der Menge aller Inversionen eine wählt, für die c = +1
gilt. Ein Schritt weg von diesem Ziel wäre eine Inversion
mit c = -1 zu wählen.
Da aber die Permutationen letztlich ineinander überführt
werden sollen, wählt man mit hoher Wahrscheinlichkeit
eine c = +1 Inversion. Aus der Menge aller c = +1
wählt man dann gleichverteilt eine der möglichen
Inversion aus.
Der direkte Effekt dieses Vorgehens ist die Bevorzugung
kurzer Inversionspfade gegenüber langen. Dies ist ebenso
biologisch sinnvoll, da man zwar von relativ kurzen
„Mutationswegen“ ausgeht, aber eben nicht von dem
kürzesten Weg.
Die Möglichkeit des Fortfahrens ist wiederum biologisch
motiviert. Es mag in der Natur vorkommen, wenn auch
mit sehr geringer Wahrscheinlichkeit, dass zwei
homologe Chromosomen im Laufe der Evolution durch
Mutation identisch wurden, sich dann aber wieder
verändert haben.
Die Wahrscheinlichkeit für den vorgeschlagenen Schritt
in den neuen Zustand für den Metropolis Hasting
Algorithmus lässt sich somit als Produkt der
Wahrscheinlichkeiten für den neuen Subpfad und der
Wahrscheinlichkeit dafür, genau den Bereich in X der
erneuert wurde, zu ersetzen, berechnen.
Die Wahrscheinlichkeit qnew für den neuen Subpfad mit l’
Inversionen ist wiederum das Produkt von (l’ + 1)
Faktoren. Die ersten l’ Faktoren sind jeweils die
Wahrscheinlichkeiten für die einzelnen Inversionen und
der letzte Faktor ist die Wahrscheinlichkeit für das
tatsächliche Stoppen beim Erreichen von pb.
Die Länge des Gesamtpfades Y ist L’ = L +l’ – l, und die
Wahrscheinlichkeit für den Übergang von X nach Y ist
mit P(Y|X) = q(l,j)qnew berechenbar.
Um den Metropolis Hasting Algorithmus anzuwenden,
fehlt jetzt nur noch die Akzeptanzwahrscheinlichkeit in Y
zu sein, und nach X zu gehen. Diese berechnet sich aber
genauso, wie P(Y|X) nur gerade umgekehrt. Man nimmt
an, man hat das Teilstück mit Länge l’ ersetzt, und zwar
durch den in X schon vorhanden Pfad, also kann man
P(X|Y) wie folgt berechnen: q’(l’,j)qold Die
Wahrscheinlichkeit qold berechnet sich genau wie qnew,
nur dass man jetzt die schon stattgefunden Inversionen in
dem „alten“ Pfad X betrachtet.
Seien N+1, N0 und N-1 die Anzahlen an Inversionen, die
jeweils zu dem korrespondieren c gehören und alle
ungleich 0.
Die Wahrscheinlichkeiten ein c = +1, 0, -1 zu wählen
ist 1, 1, 2.
Die Wahrscheinlichkeit für eine bestimmte Inversion c
+1 ist also:
P(c=+1) = ((1+ 1 + 2) N+1)-1
Wenn N+1 = N0 = 0 ist, dann müssen die beiden
Permutationen gleich sein. Da keine Inversion mehr die
Anzahl der Zykel erhöhen kann hat man N+1 Zykel
erreicht, und die Permutationen sind identisch. Mit
Wahrscheinlichkeit 3 fährt man trotzdem mit einer c =
-1 Inversion fort. Mit Wahrscheinlichkeit 1-3 wird an
diesem Punkt gestoppt.
Abb. 7: Aktualisierung bei bekannter Markerordnung Die
durchgezogene Linie ist der alte Zustand X, die gestrichelt
gezeigte Linie ist der neue Vorschlag Y, das neue Teilstück ist
der Bereich, der sich nicht mit X deckt.
Bisher wurden auch in diesem Modell implizit nur
Permutationen von Markern betrachtet, bei denen das
Vorzeichen bekannt ist, denn in Schritt 2 der
Aktualisierung verwendet man den breakpoint - Graphen
zweier Permutationen. Dieses Vorgehen ist aber nur dann
effizient, wenn die Marker Orientierung bekannt ist.
Bei nicht bekannten Markerorientierungen ist das
Vorgehen sehr ähnlich.
Zunächst wird genau wie oben beschrieben ein Teilstück
gewählt, das ersetzt werden soll. Die Idee ist hier die
Startpermutation mit der unbekannten Marker
Orientierung über die 2N möglichen Permutationen für
diese Marker „wandern“ zu lassen.
Es wird ein Flip Operator definiert, der Marker in der
Startpermutation mit Wahrscheinlichkeit 4 flippt. Diese
Flips werden, genau wie andere Inversion auch, über c
bewertet, denn ein Flip eines Markers ist nichts anders als
eine Inversion, die nur diesen Marker betrifft. Man kann
also auch hier kontrolliert flippen, so das man mit hoher
Wahrscheinlichkeit einen Flip durchführt, der die Anzahl
der Zykel erhöht.
Die Inversionen bis zu dem zu ersetzenden Teilstück
werden hiervon nicht betroffen.
Nach dem Schritt des Flippens fährt man genau wie oben
beschrieben fort. Abbildung 8 zeigt dieses Vorgehen.
Um die Rate der Inversion zu bestimmen wird ein, im
Vergleich zu der Aktualisierung von X, relativ einfacher
Mechanismus verwendet.
Die Autoren verwenden einen Gibbs Schritt, um einen
neuen Wert für  zu erhalten.
Im Detail sieht der Schritt wie folgt aus:
P(|X,D)  P(X|) P()  e- Lx P()
Man zieht also ein neues  gemäß der Daten und dieses
neue  wird im nächsten Schritt verwendet.
Konvergenz Überwachung
Mit Hilfe des Metropolis Hasting Algorithmus
konvergiert der Prozess zwar zu seiner stationären
Verteilung, aber mit Metropolis Hasting kann man keine
direkte Aussage darüber treffen, wann man sich dieser
Verteilung hinreichend genau genähert hat.
Trotzdem rauszufinden, nach wie vielen Schritten die
Markovkette konvergiert ist, ist essentiell wichtig, da es
erst zu diesem Zeitpunkt Sinn macht, Werte für die
Anzahl an Inversionen, als auch Werte für die
Inversionsrate, zu sammeln. Die Zeit bis zur Konvergenz
bezeichnet man als „Burn In“- Phase und wird im
Ergebnis nicht betrachtet. Dies ist ein gängiges Vorgehen
beim verwenden von Markovketten.
Die Autoren verwenden die Methode von Gelman und
Rubin (1992), um zu entscheiden, wann die Kette
konvergiert ist. Dazu müssen mindestens m Ketten für
die gleichen Daten simultan laufen, wobei m größer
gleich 2 sein muss.
Sei Xi,j das i-te Element der j-ten Kette und Li,j seine
Länge.
Dann wird eine Zwischen – Ketten Varianz definiert
B

1
 L
m 1 j
j
 L

2
und eine Ketten Varianz
W
wobei
1
1
 Li , j  L j 2


j
i
m
n 1
L
j
=
1
 Li , j
n i
und
L
=

1
 Lij
mn i , j
Die Bedingung für das Erreichen der Konvergenz ist hier
wenn
R  (n  1) / n  B / W
sich nahe ein 1 befindet.
Abb. 8:Aktualisierung bei unbekannter Markerorientierung. F
beschreibt den Flipoperator.
Die Autoren haben typischerweise 5 – 10 Ketten
verwendet und angefangen Werte für L und  zu
Aktualisierung der Inversionsrate 
sammeln, wenn
R  1.1 wurde.
Die Idee, die sich hinter der Methode verbirgt, mehrere
Ketten laufen zu lassen, ist, zu kontrollieren, wann die
Ketten in ihren Werten übereinstimmen und so zu
entscheiden, wann sie konvergiert sind. Damit diese
Methode erfolgreich angewandt werden kann ist es
wichtig, den Suchraum anfangs geschickt zu belegen.
Das heisst, in diesem Fall die Startzustände für die
verwendeten Markovketten so zu initialisieren, dass
sowohl kurze Inversionspfade vorhanden sind, als auch
lange. In Abbildung 10 sieht man eine geplottete
Konvergenz Überwachung, auch die unterschiedlichen
Initialzustände sind gut zu beobachten.
Um die Konvergenz zu verbessern, ist es möglich, an den
verwendeten Parametern zu drehen. Die Parameter  und
 kontrollieren die Länge des zu ersetzenden Teilstücks
in X; 1, 2 und 3 kontrollieren die Erzeugung des neuen
Teilstücks, genauer die Länge des neuen Teilstücks. Und
zusätzlich in dem Fall unbekannter Markerorientierungen
kontrolliert
4 die
Bevorzugung von c = +1
Markerflips. Mit Hilfe simulierter Daten sind die Autoren
zu folgenden Werten für die verschiedenen Parameter
gekommen, die sie dann bei echten Datensätzen
verwendet haben. Für  = 0.65 ,  = 8, 1 0.03, 2 = 1/2,
3 = 12 und 4 = 0.025.
Abbildung 11 zeigt wie stark sich Änderungen eines
Parameters in der Konvergenz der Ketten auswirken. In
dieser Simulation wurden die Permutationen künstlich
durch L0 Inversionen voneinander wegevolviert, dabei
wurde gleichverteilt aus den N(N+1)/2 Inversionen
gezogen. Verwendet wurden 30 nicht mit Vorzeichen
versehene Marker. Die Konvergenz wird als eine
Funktion von 1 dargestellt, die anderen Parameter sind
wie oben beschrieben eingestellt.
Die Inversionsrate  hat ihre 95% Aufenthaltswahrscheinlichkeit in (1.05    12.75 ) mit einem
Erwartungswert von 6.49.
Die Abbildungen 9a und 9b zeigen die Ergebnisse in
Diagrammen.
Abb. 9a: Die posteriori Verteilung für L, die gestrichelte Linie
zeigt das 95% credible Set.
Abb.9b: Die posteriori Verteilung für , die gestrichelte Linie
zeigt das 95% credible Set.
Anwenden der Methode auf Reale Daten
Der erste betrachtete Datensatz ist der Vergleich
zwischen dem menschlichen und dem Rinder X
Chromosom mit 14 nicht orientierten Markern. Um die
Startzustände zu initialisieren wurde ein Teil der
Markovketten mit einem kleinen 1 Wert erzeugt und
andere mit großem 1. Da 1 maßgeblich für die Länge
der Inversionspfade verantwortlich ist, führt dieses
Vorgehen zu einer guten Belegung des Suchraums, wie in
Abbildung 10 zu sehen. Im weiterten Verlauf wurden
dann alle Parameter so verwendet wie im Kapitel
’Konvergenz Beobachtung’ beschrieben.
Für max wurde 80 gewählt. Diesen Wert erhält man, in
dem man Versuchsläufe macht. Hält sich die
Inversionsrate nahe bei max auf, erhöht man max damit
sichergesellt ist, dass man den kompletten Raum, den 
mit hoher Wahrscheinlichkeit annehmen wird, abgedeckt
hat.
Insgesamt wurden die 8 verwendeten Markovketten
815104 mal iteriert. Konvergenz wurde nach 8192
Iterationen beobachtet.
In diesem relativ kleinen Datensatz ist die
Wahrscheinlichste Inversions Zahl gleich der von der
Parsimonie Methode berechneten, nämlich 4. Trotz
diesem Ergebnis ist es wahrscheinlicher, dass L größer
als 4 ist, denn der Erwartungswert für L liegt bei 5.49.
Mit 95% Wahrscheinlichkeit hält sich L in einem
Intervall zwischen 4 und 9 auf.
Der zweite Datensatz vergleicht das Chromosom 3R von
Drosophila melanogaster und das Chromsom 2 von
Drosophila repleta. Veglichen wurden 79 Marker, deren
Orientierungen nicht bekannt waren.
6 Markovketten wurden verwendet, 3 mit kurzen
Initialpfaden und 3 mit langen, wieder abhängig von dem
verwendeten 1.
Die Parameter waren, wie in dem Abschnitt Konvergenz
Beobachtung beschrieben, gewählt und für max wurde
200 gewählt.
Da in diesen Daten wesentlich mehr Inversionen zu
erwarten waren, war auch die Zeit für das Erreichen der
Konvergenz sehr viel höher.
Es wurden 1.7 Millionen Iterationen durchgeführt, bis
Konvergenz angezeigt wurde.
Insgesamt wurden die Ketten 43 Millionen mal iteriert.
Die Laufzeit betrug circa 4 Tage auf einem Athlon 1.2
GHz Prozessor.
Der wahrscheinlichste Wert für L, und damit der Anzahl
an Inversionen betrug 87. Der Erwartungswert lag bei
92.61.
Mit 95% Wahrscheinlichkeit hält sich L im Intervall
zwischen 71 und 118 auf.
Die durch Parsimonie berechnete Anzahl an Inversionen
in diesem Datensatz ist 53, und damit viel kleiner als die
erwartete Anzahl an Inversionen, sie liegt nicht einmal in
dem wahrscheinlichen Aufenthaltsbereich für L.
Das zeigt, dass mit hoher Wahrscheinlichkeit die wahre
Anzahl an Inversionen sehr viel größer ist, als die von
den Parsimonie Methoden berechnete.
Das Intervall in dem sich die Inversionsrate mit 95 %
Wahrscheinlichkeit aufhält ist ( 6.144    125.00 ).
Paper 2
Die zweite Arbeit der Autoren, die hier behandelt wird,
baut stark auf der ersten auf. Die grundsätzliche Idee ist,
den entwickelten Ansatz auf komplette Genome zu
erweitern, zusätzlich werden noch weiter Mechanismen
der Evolution berücksichtigt.
Lange Pfade bezeichnen Wege durch die Genome, die
nur Marker verbinden, ohne Enden zu besuchen.
Die minimale Distanz für zwei Genome berechnet sich
dann aus Anzahl der Chromosomen, M , plus der Anzahl
an Markern, N, minus der Summe aus kurzen und langen
Pfaden, plus Anzahl der Pfade, die im gleichen Genom
enden, in dem sie auch beginnen ( Zykel ).
Aber auch für diesen breakpoint - Graph gilt, dass er nur
für Permutationen verwendet werden kann, bei denen die
Markerorientierung bekannt ist
Der Bayes Ansatz für Genome
Auch hier gibt es schon Parsimonie Methoden, die die
minimale Genom Distanz berechnen können. Natürlich
drängt sich die Annahme auf, dass die Parsimonie
Methoden
hier
ebenfalls
die
Anzahl
an
Mutationsereignissen stark unterschätzen., da man es mit
noch größeren Datensätzen zu tun hat. Ob dies tatsächlich
der Fall ist, wird man sehen, wenn man sich die
Anwendungen der Methode auf realen Daten anschaut.
Der ’break point’- Graph für Genome
Auch hier ist der Schlüssel wieder der breakpoint Graph.
In diesem speziell für Genome entwickeltem breakpointGraph kann man sich alle Chromosomen verbunden
vorstellen, so dass sie ein „super“ Chromosom bilden.
Zwei solche „super“ Chromosome kann man dann wieder
relativ zueinander in einem breakpoint - Graph darstellen.
Damit man aber die Trennstellen wieder findet, wird
beim erzeugen der Knoten des breakpoint - Graphen nicht
an jedes Chromosom links eine 0 und rechts 2N+1
angehängt, sondern man beginnt bei dem ersten
Chromosom mit 1000 links, und rechts fügt man 1001 an.
An das nächste Chromosom fügt man rechts 1002 an und
so weiter bis man das komplette Genom
durchnummeriert hat. Für das zu vergleichende Genom
geht man genauso vor, nur das man hier mit 2000
beginnt. Jedes Chromosom hat somit Enden.
Da man um den breakpoint Graph zu erzeugen nicht nur
gleiche Marker in beiden Genomen braucht, sondern auch
die gleiche Anzahl an Chromosomen, besteht die
Möglichkeit leere Chromsomen anzufügen.
Das ist immer dann notwendig, wenn sich die Marker in
Genom 1 auf weniger Chromosomen verteilen, als in
Genom 2.
Der Graph hat, im Gegensatz zu der Zykel
Dekomposition im ersten Abschnitt, nun mehr
Komponenten, als nur Zykel, die auftreten können, wenn
man ihn konstruiert hat.
Natürlich gibt aus auch wieder Zykel, die genau wie in
Teil 1 später betrachtet werden, um neue Zustände in der
Markovette einzunehmen.
Zusätzlich zu den Zykeln gibt es aber
Komponenten, die als Pfade bezeichnet wird.
noch
Sogenannte kurze Pfade bezeichnen Wege in dem
breakpoint Graph, die die oben beschriebenen Enden
verbinden.
Modell Anahmen
Die Umordnung der Genome geschieht infolge von
Inversionen,
Translokationen,
Chromosomenverschmelzungen und
Chromosomenbrüche. Dabei
werden die Verschmelzung und der Bruch eines
Chromosoms als Spezialfall eines Translokationsereignisses behandelt, bei dem entweder das Eingangsoder Ausgangschromosom leer ist.
Wenn zu einer Zeit t IT(t) Translokationen und II(t)
Inversionen
möglich
sind,
ist
die
Rate
mit denen beide auftreten jeweils IT(t) T und II(t) I.
Man betrachtet also für die beiden Ereignisse
Translokation und Inversion getrennte Raten.
Die Zeit bis zu einem Ereignis lE ist expotential verteilt
mit dem Parameter IT(ti) T+II(ti) I)ti.
Wir nehmen a priori eine Gleichverteilung für lE an:
P(lE) = 1/ Emax für 0 <
Translokation, Inversion }
E
<=
Emax
E  {
Die Anzahl der Marker, deren Ordnung auf beiden
Genomem
bekannt
ist,
und
die
verglichen
werden soll, ist N, dabei ist es allerdings egal, ob man die
Orientierung der Marker kennt.
Die Anzahl der Chromosomen die in beiden Genomen
vorhanden ist ( inkl. Leere Chromosome) ist M.
Metropolis Coupled Markov Chain Monte Carlo
Methode ( MC MC MC )
Das Ziel ist auch hier wieder die posteriori
Wahrscheinlichkeitsverteilungen für Inversionen und
Translokationen bei gegebenen Daten zu berechnen.
Inversionen und Translokationen können wieder derart
aufgefasst werden, dass sie eine Markovkette bilden,
deren Zustandsraum durch alle möglichen Anordnungen
von N Markern auf M Chromosomen gegeben ist,
insgesamt gibt es
0  2 N
( M  N  1)!
( M  1)!
Möglichkeiten N Marker auf M geordneten
Chromosomen anzuordnen. Die stationäre Verteilung
dieser Markovkette ist
 0  2N
U
aus
Äquivalenzklassen
P(x1  x2 |  ) =
mit
Um  zu schätzen wird nun eine wiederum neue
Markovkette erzeugt, deren Zustandsraum sich auf
[0,)2, x  befindet, und deren stationäre Verteilung
durch die gemeinsame posteriori Wahrscheinlichkeitsverteilung von den Parametern und des
evolutionären Pfades gegeben ist
geordneten Markern auf ungeordneten Chromsomen
besteht.
Ein
Element
aus
U
mit
 ( y, T , I )  p( y, T , I | x1 , x2 ) ,
y  ,  E  [0, ) 2
M0 leeren
Chromosomen ist dann eine Äquivalenzklasse von
2(M-M0) M!/M0! vielen Elementen aus
U . Daraus folgt
die stationäre Wahrscheinlichkeit für ein Element von
U
Mit Hilfe des Theorems von Bayes kann man
mit M0 leeren Chromsomen ist
 0  2 M  N M
0
 P ( y | )
y
( M  1)!
, x   0
( M  N  1)!
Da aber die Ordnung der Chromosomen nicht von
Interesse ist, wird eine neue Markovkette erzeugt, deren
Zustandsraum
für den Übergang von x1 nach x2, bei gleichem Parameter
.
M !( M  1)!
, x   0
M 0 !( M  N  1)!
Übergänge zwischen benachbarten Zuständen kommen
mit den jeweiligen Raten I und T vor, wenn sie sich
genau durch eine Inversion oder Translokation
unterscheiden. Eine Ausnahme hiervon bilden lediglich
Translokationen, bei denen ein Chromosomenbruch
simuliert wird. Die Rate dafür ist 2M0T.
Das erklärt sich einmal dadurch, dass es gar keinen
Chromosomenbruch geben kann, wenn kein leeres
Chromosom zur Verfügung steht. Daher ist die Rate
durch das Einbringen von M0 als Faktor ebenfalls 0,
wenn keine leeren Chromosomen vorhanden sind. Wenn
es aber leere Chromosomen gibt, hat man für jedes
Chromosom zwei Möglichkeiten sie mit den
translozierten Genen zu belegen.
Hat man zwei Genome, x1, x2, verschiedener Organismen
gegeben, so kann man sie durch eine Sequenz von
Inversionen und Translokationen ineinander überführen.
Dieser Überführungspfad entspricht in etwa dem, was in
dem ersten Teil als Inversionssequenz bezeichnet wurde.
p( y, T , I | x1 , x2 )
umschreiben in
p( x1, x 2 | y, T ,  I ) *
p( y | T , I ) p(T ) p(I ) / P( D)
wobei P(D) die Daten, also in diesem Fall die beiden
Genome x1, x2 repräsentiert.
Die Wahrscheinlichkeit für genau einen evolutionären
Pfad kann man leicht berechnen:
Da man auf Grund der Modellannahmen eine Aussage
darüber treffen kann mit welcher Wahrscheinlichkeit
Ereignisse auftreten, kann man p(y|T, I’) als Produkt
aller einzelnen Wahrscheinlichkeiten für das jeweilige
Ereignis ausdrücken
S 1
(1)
p ( y | T ,  I )    E (i )e ( IT ( ti ) T  I I (ti ) I )ti
i 1
wobei ti die Zeit zwischen den Ereignissen i-1 und i für
S
Die sampling Wahrscheinlichkeit für diesen Prozess ist
i  S, tS+1 = 1 -
j 1
P(x1,x2|) = P(x1) P(x1  x2 |  )
wobei Pr(x1x2|) die Übergangswahrscheinlichkeit für
die Transformation des einen Genoms in das andere.
Der Parameter  ist definiert als die InversionsrateT
und die Translokationsrate I .
Da die Daten unabhängig von dem Parameter  sind, ist
die Likelihood Funktion für  gegeben durch
L()  P(x1  x2 |  )
 sei die abzählbar unendliche Menge aller möglichen
evolutionärer Pfade von x1 zu x2.
Die Summe aller dieser Pfade gegeben eine Inversionsund Translokationsrate ist gleich der Wahrscheinlichkeit
t
E (i) 
j
und
T wenn i  S und Ei = Translokation
T wenn i  S und Ei = Inversion
1 wenn i = S+1
Um diese Wahrscheinlichkeiten zu berechnen, muss man
also die Anzahl aller möglichen durch eine Inversion oder
Translokation erreichbaren Nachbarzustände IE(i)
kennen. Das geschieht über die anfangs erzeugten
Markovketten. Hat man alle Zustände die man erreichen
kann identifiziert, kann man mit Hilfe des Wissen, wie
viele Zustände insgesamt existieren und mit der
stationären Wahrscheinlichkeit für eine Äquivalenzklasse
an Zuständen mit M0 Chromosomen, berechnen, wie viele
tatsächlich unterscheidbare Nachbarzustände existieren.
Die Autoren verwenden auch hier wieder den Metropolis
Hasting Algorithmus ( Abb x ) um die Markovkette
konvergieren zu lassen.
Analyse von realen Daten
Tomate vs. Aubergine
Die Wahrscheinlichkeit für einen Zustand X ist gegeben
durch
p( x1, x 2 | y, T ,  I )
p( y | T , I ) p(T ) p(I ) / P( D)
wobei man wie oben gezeigt wieder alle Faktoren bis auf
P(D) leicht berechnen kann, und P(D) wird beim
Anwenden der Formel von Metropolis Hasting
weggekürzt, und fällt damit als unbekannter Faktor nicht
ins Gewicht.
Aktualisieren des Zustandes
Die Vorschlagswahrscheinlichkeit für einen Folgezustand
und damit die Aktualisierung von X funktioniert ganz
ähnlich wie in der ersten behandelten Arbeit der Autoren.
Unter Verwendung des breakpoint - Graphen wird ein
Teilstück des alten Evolutionspfades durch einen neuen
ersetzt. Dabei wird wie auch in der ersten Arbeit, der
breakpoint - Graph von der Startpermutation zur
Zielpermutation verwendet, um biologisch sinnvolle
Pfade zu erzeugen.
Die Vorschlagswahrscheinlichkeit ist dann gegeben,
durch die Wahrscheinlichkeit ein bestimmtes Teilstück zu
ersetzen, mal der Wahrscheinlichkeit für den neuen
Subpfad. Dieser lässt sich aus Formel (1) berechnen.
Für die Akzeptanz Wahrscheinlichkeiten wird genau der
umgekehrte Weg gegangen, aber auch das ist effizient
möglich wie in Teil 1 gezeigt.
Die Evolutionsparameter werden gleichverteilt in einem
Fenster um den aktuellen Wert herum gezogen und sofort
übernommen.
Alle Updates werden alternierend und unabhängig
durchgeführt.
Konvergenz Beobachtungen
Um die Konvergenz zu verbessern wurde in diesem
Ansatz mit Metropolis Coupled Markov Chains
gearbeitet.
Das heisst, dass jede Kette, aus der für die Auswertung
gezogen wird, an sogenannte heated Chains gekoppelt ist,
deren stationäre Verteilung durch einen Exponenten
kleiner 1 modifiziert ist. Man erreicht dadurch flachere
Verteilungen und ein besseres Mischen der Werte. Die
heated Chains geben der cold Chain Hinweise, in welche
Richtung sie sich bewegen soll. Dieses Verfahren wird
immer dann verwendet, wenn Gefahr besteht in lokalen
Optima hängen zu bleiben. Für die heated Chains ist es
einfach einen, bildlich gesprochen, flachen Hügel zu
überwinden, der für die Cold Chain ein unüberwindbares
Hindernis darstellt.
Es wurde nun auch nicht mehr jede Iteration nach der
Burn – in Phase betrachtet, sondern nur noch jedes 8.
Update. Dies geschieht im Hinblick auf die immensen
Datenmengen die entstehen, wenn man einige Ketten
koppelt und lange Zeit iterieren lässt.
Um zu überprüfen, wann die Ketten konvergiert sind,
wurde auch hier die Methode von Gelman und Rubin
verwendet.
Der erste betrachtete Datensatz ist eine vergleichende
Genkarte von Tomate und Aubergine. Insgesamt standen
für frühere Vergleiche von insgesamt 233 Markern nur
170 Marker zu Verfügung, da für die übrigen 63 Marker
die Orientierung nicht festgestellt werden konnte. Das
Ergebnis der Parsimonie Methode waren 28
Mutationsereignisse, die Tomate und Aubergine trennen.
Davon waren 23 Inversionen und fünf Translokationen.
Die baysianische Methode der Autoren lieferte folgendes
Ergebnis: Das 95% Intervall für alle Ereignisse liegt bei
[28, 37], für Inversionen wurde [21,31] und für
Translokationen [5,7] geschätzt.
Verwendet wurden 6 simultane kalte Markovketten, die
jeweils an 4 ’heated’ Ketten gekoppelt waren.
Konvergenz wurde nach 14.000 Iterationen angezeigt und
insgesamt wurden 459000 Iterationen ausgeführt.
Die posteriori Wahrscheinlichkeiten die den Anzahlen
der Translokationsereignisse zugeordnet wurden sind
0.0817 für 5, 0.55407 für 6, 0.32137 für 7, 0.03832 für 8
und 0.00453 für 9.
Die höchste Wahrscheinlichkeit für Inversionsanzahlen
wurde 25 zugeordnet.
Das Ergebnis zeigt, dass auch bei diesen sehr nah
verwandten Spezies die wahrscheinlichsten Anzahlen für
Mutationsereignisse leicht höher sind, als die von den
parsimonischen Methoden.
Die wahrscheinlichsten Werte für die Raten I und T
liegen bei 0.0194 und 0.000219.
Um diese Zahlen zu interpretieren, muss man die
durchschnittliche
Anzahl
an
Inversionen
und
Translokationen mit diesen Raten multiplizieren. Das
führt zu den Werten I(total) = 25.899 und T(total) =
6.629.
Wenn man annimmt, dass Tomate und Aubergine
evolutionär gesehen vor 12 Millionen Jahren angefangen
haben sich getrennt zu entwickeln, führt das zu Raten von
0.267 und 1.078 per Genom jeweils in einer Millionen
Jahren für Translokationen und Inversionen.
Mensch vs. Katze
Eine von Murphy at al. in 2000 erstellte Genkarte der
Katze enthält 424 Gene, die mit Mikrosatellit Markern
erfasst wurden. Die Autoren haben 281 dieser Gene mit
Hilfe der im Internet zur Verfügung stehenden
Datenbanken im menschlichen Genom lokalisieren
können. Entfernt werden mussten von diesen 281 Genen
lediglich 12, die isoliert auf Chromosomen vorkamen,
getrennt von ihren eigentlich Nachbarn.
Man geht davon aus, dass es sich hierbei um
Genduplikation handelt, die im menschlichen Genom
recht häufig vorkommt. Da das vorhandene Modell aber
Genduplikationen nicht erfassen kann, würde das die
Ergebnisse verfälschen.
Parsimonie Analysen für diesen Datensatz zeigen, dass
man mindestens 78 Ereignisse braucht ( 14
Translokationen und 64 Inversionen), um das Genom des
Menschen in das der Katze zu transformieren.
Die baysianische Methode zeigte, dass wahrscheinlich
wesentlich mehr Ereignisse in der Geschichte dieser
beiden Genome aufgetreten sind. Für die Anzahl der
Ereignisse, die insgesamt aufgetreten sind, wurde mit
95% Aufenthaltswahrscheinlichkeit das Intervall [85,102]
bestimmt.
Verwendet wurden 6 kalte Ketten jeweils gekoppelt an 3
heiße Ketten. Jede Kette wurde 2.2 Millionen mal iteriert.
Die Lauzeit betrug 790.000 Sekunden. Die ersten
360.000 Updates wurden als Burn- In entfernt.
Für die einzelnen Wahrscheinlichkeiten für Inversionen
und Translokationen wurden jeweils die Intervalle
[71,89] und [12,15] bestimmt. Hier fällt, wie auch schon
bei einem Ergebnis aus dem ersten Teil dieser Arbeit,
auf, dass der Wert für die Anzahl der
Mutationsereignisse, der durch Parsimonie erhalten
wurde, nicht in dem Intervall liegt, der von der
baysianischen Methode geschätzt wurde.
Auch hier ist dieses Ergebnis zu erwarten gewesen, da
mit steigender evolutionärer Entfernung zweier Spezies
der kürzeste Pfad, also der parsemonische Abstand,
immer unwahrscheinlicher wird. Der zweite Faktor, der
eine Rolle spielt, ist die Komplexität der Daten. Pro
Marker findet die baysianische Methode mehr mögliche
Wege, mit steigender Markerzahl, die eine höhere
Wahrscheinlichkeit haben, als der kürzeste Pfad.
Die für Raten I und T liegen bei 0.035 und 0.000161.
Multiplizieren führt zu den Werten
T(total) = 12.84.
I(total) = 82.95 und
Man nimmt hier eine evolutionäre Distanz von circa 120
Millionen Jahren an, was wiederum zu Mutationsraten
von 0.0641 für Translokationen und 0.415 für
Inversionen pro Genom und eine Millionen Jahre führt.
Mensch vs. Rind
Der letzte von den Autoren betrachtete Datensatz besteht
aus 422 Markern, die sowohl im menschlichen als auch
im Rinder Genom vorkommen.
Hier wurden per Parsimonie 155 Ereignisse ermittelt, die
notwendig sind, um die Genome ineinander zu
transformieren.
Die Autoren verwendeten 4 kalte Ketten die jeweils an 8
heiße gekoppelt wurden. Insgesamt wurden diese Ketten
jeweils in 3 Läufen zunächst 1.3 Millionen mal
aktualisiert und in den zwei darauffolgenden Läufen
jeweils 1,5 Millionen mal.
In keinem dieser Durchläufe konnte das Kriterium für die
Konvergenz der Ketten erreicht werden. Abbildung 11
zeigt das Verhalten der Ketten, man sieht deutlich die
hohe Varianz, die zwischen den einzelnen Ketten besteht.
Abb. 11: Das Kriterium für Konvergenz konnte nicht erreicht
werden. Die vier Ketten verhalten sich völlig unterschiedlich.
Ergebnisse für die Anzahl an aufgetretenen Ereignissen
wurden ab der 600.000 Iteration ausgewertet, trotz des
nicht Erreichens des Konvergenzkriteriums.
Dabei lagen die wahrscheinlichen Werte für die Anzahl
der Inversionen zwischen 185 – 191, allerdings konnte
keine Aussage über die Translokationen getroffen
werden, da hier die Varianz der Werte zu hoch war.
Obwohl in diesem Fall keine klare Aussage über die
wahre Anzahl der Ereignisse getroffen werden kann, hat
auch dieser Datensatz gezeigt, dass die gesamt Anzahl an
Ereignissen wesentlich höher ist, als die, die man durch
Parsimonie ermittelt hat.
Schlussfolgerungen
Die Autoren haben in ihrem ersten Paper gezeigt, dass
eine Lösung des Problems, die Anzahl der Inversionen in
der Geschichte zweier Chromosomen zu bestimmen, mit
einem voll probabilistischem Ansatz möglich ist, und
gleichzeitig eine neue Methode entwickelt, auch Marker
mit in die Berechnung aufzunehmen, deren Orientierung
nicht bekannt ist.
Gleichzeitig konnten sie zeigen, dass bei großen
Datensätzen die Parsimonie Methoden versagen, weil sie
im Berechnen der minimalen Distanz unterstellen, die
Natur würde den kürzesten Weg wählen.
Zusätzlich können mit diesem Modell, das auch noch
eine Inversionsrate berechnet, weitere Hypothesen
bearbeitet werden. So könnte man beispielsweise
überprüfen, ob die Inversionsrate zwischen Arten einer
Species immer konstant ist oder stark variiert.
In der zweiten Arbeit wurde das Problem der Inversionen
in der Geschichte zweier Chromosomen auf komplette
Genome ausgedehnt. Zusätzlich wurden weiter
Mutationsereignisse in das Modell mit aufgenommen.
Auch hier konnte gezeigt werden, dass auf
Wahrscheinlichkeiten basierende Modelle bessere
Ergebnisse liefern als die bisher verwendeten
parsimonischen Methoden, wenngleich auch hier noch
Probleme auftreten, die bisher nicht in den Griff zu
bekommen sind.
Allerdings traten bei großen Datensätze Probleme auf.
Die erzeugten Markovketten konnten bei einem der
untersuchten Zusammenhänge nicht das Kriterium
erfüllen, mit dem sicher gestellt wird, dass die Ketten
konvergiert sind und somit auch keine zuverlässigen
Ergebnisse liefern. Das lag hauptsächlich an der Größe
des zu untersuchenden Datensatzes.
Das zeigt, dass auch hier noch Bedarf besteht, an diesen
Modellen zu arbeiten. Man darf bei diesen
Untersuchungen nicht vergessen, dass nur relativ wenige
Marker verwendet wurden. Mit zunehmendem Wissen
über verschiedene Genome, müssen immer mehr Daten
auf einmal verglichen werden. Damit steigen auch die
Anforderungen an die Methoden, die dazu verwendet
werden.
Abb.10: Die verschiedenen Initialzustände sorgen für eine gute Abdeckung des Suchraums. Im späteren Verlauf konvergieren die
Markovketten, was hier deutlich zu sehen ist.
Abb.:11: Zeit bis zum konvergieren der Ketten als Funktion von Epsilon 1 für 30 nicht orientierte Marker .
Referenzen
Baysian Estimation of the Number of Inversions in the History of Two Chromosomes
T. L. York, R. Durrett and R. Nielsen
Baysian Estimation of Genomic Distance
T. L. York, R. Durrett and R. Nielsen
Herunterladen