Seminararbeit Bayesianische Methoden zur Schätzung der genetischen Distanz zwischen homologen Chromosomen und Genomen Alexander Klenner Einleitung Mit der immer größer werdenden Menge an Genomdaten, die Biologen experimentell bestimmen, werden auch statistische Methoden, um diese Daten zu bewerten und in Beziehung zu setzen, wichtiger. Besonders im Bereich der Evolutionsbiologie sind effiziente Methoden um die Verwandtschaften von Organismen über die Genomdaten zu bestimmen, ein weites Forschungsfeld. In beiden Arbeiten von York, Durett und Nielsen werden zwei solche Methoden, die die Autoren entwickelt haben, um genomische Daten zu bewerten, vorgestellt. Die erste Arbeit befasst sich mit der Schätzung der Anzahl von Inversionen, die wahrscheinlich in der Natur in der Geschichte von zwei homologen Chromosom aus zwei verschiedenen Spezies aufgetreten sind. Die Autoren verwenden hier einen bayesianischen Ansatz und legen diesem ein biologisches Modell zu Grunde. Der Vorteil dieser innovativen Methode ist, dass man sich von der minimalen Anzahl an notwendigen Inversionen, also den klassischen parsemonischen Methoden entfernt, hin zu einer wahrscheinlichen Anzahl von Inversionen. Dies ist deswegen ein sinnvolles Vorgehen, da es keine Garantie gibt, dass die Natur bei der Evolution der Gene den „kürzesten“ Weg gegangen ist. Obgleich man nur Inversionen betrachtet, somit also andere wichtige Ereignisse der Evolution wie Translokationen, Chromosomenverschmelzungen oder Brüche außer acht lässt, ist der Ansatz für bestimmte Datensätze praktikabel. Als Beispiel seien hier die Gonosomen erwähnt, die keine Translokationen mit den Autosomen eingehen, somit ist hier ein Vergleich über Inversionen machbar und realistisch. Die zweite Arbeit von denselben Autoren erweitert den bayesianischen Ansatz, so dass man nun nicht mehr auf die Distanz von homologen Chromosomen beschränkt ist, sondern zwei vollständige Genome vergleichen kann. Ebenso wird die Methode so angepasst, dass nun neben Inversionen auch Translokationen, Chromosomenbrüche und Verschmelzungen erfasst werden. Mit dem Modell aus der zweiten Arbeit ist es möglich zu schätzen, wie viele Mutationsereignisse nötig sind, um ein komplettes Genom in ein zweites zu überführen. Auch hier werden die schon existierenden Ergebnisse parsemonischer Methoden mit denen des neuen Modells verglichen und es zeigt sich, dass der neue Ansatz teilweise zu gänzlich anderen Ergebnissen kommt. Biologischer Hintergrund Um die Arbeiten, die hier behandelt werden zu verstehen, ist es notwendig auch die biologischen Begriffe korrekt einordnen zu können und zu wissen, was die jeweiligen Veränderungen in den Chromosomen bewirken. Allgemein bezeichnet man eine Veränderung eines Chromosoms, also des Erbmaterials, als Mutation. Eine solche Mutation tritt spontan und zufällig auf, man kann weder sagen wo oder wann eine Mutation auftreten wird. Das Auftreten solcher Mutationen ermöglicht letztlich das Entstehen neuer Arten. Daher ist es durchaus sinnvoll zu versuchen den Verwandtschaftsgrad zweier Spezies über die Anzahl an Mutationen, die in diesen Spezies homologe Chromosomen trennen, zu untersuchen. In der ersten Arbeit werden ausschließlich Inversionen betrachtet. Diese spezielle Art der Mutation ist die fast einzig auftretende Mutation im Genom von Drosophila Spezies. Ebenso evolvieren Gonosomen fast ausschließlich über Inversionen, da sie nicht die Möglichkeit haben, Translokationen mit Autosomen einzugehen. Weitere Bereiche wo Inversionen als die wichtigste Mutation bezeichnet werden können, sind die Genome von Mitochondrien und Chloroplasten. Eine Inversion tritt immer innerhalb eines Chromosoms auf. Ein Teilstück bricht aus dem Chromosom heraus, beschreibt eine 180 Grad Drehung und wird an gleicher Stelle wieder in das Chromosom eingefügt. Der Effekt ist eine Umkehrung der Gen Abfolge auf diesem Teilstück relativ zu allen anderen Genen und eine Umkehrung der Orientierung der betroffenen Gene, gezeigt in Abbildung 1. Abb.1: Inversion in einem Chromosom In der zweiten Arbeit werden zusätzlich zu Inversionen noch Translokationen, Chromosomenbrüche und Chromosomenfusionen als Mechanismen der Evolution und zu Erklärung der Distanz zweier Genome angenommen. Die beiden letzteren Ereignisse sind nahezu selbsterklärend. Bei einer Fusion verbinden sich zwei Chromosomen und werden zu einem einzigen zusammengeführt. Der Chromosomenbruch beschreibt das umgekehrte Ereignis, hierbei bricht ein Chromosom auseinander und es entstehen zwei neue einzelne Chromsomen. Bei der Translokation bricht ein Stück eines Chromosoms heraus und wird in ein anderes Chromosom eingefügt. Hierbei ändern Gene also ihre Position nicht innerhalb des Chromosoms sondern innerhalb des Genoms. Paper 1 Repräsentation der Daten Der zu untersuchende Datensatz besteht aus N Markern. Dabei repräsentiert jeder Marker ein spezifisches Gen, das in beiden Chromosomen an einer beliebigen Stelle vorhanden ist. Man vergleicht zwei Chromosomen also nicht an Hand ihrer Nukleotidsequenz oder der vollständigen Anzahl an Genen, sondern nur durch Marker, die solche Gene widerspiegeln, die mit einem molekularen Marker auf beiden Chromosomen lokalisiert werden können. Wie Gene besitzen auch die in der Repräsentation verwendeten Marker Orientierungen. Die Orientierungen der Marker werden durch die Vorzeichen ’+’ und ’-’ dargestellt. Die Orientierungen spiegeln wieder, ob das Chromosom auf dem 5’ oder dem 3’ Strang des Chromosoms liegt. Ist sowohl die Reihenfolge der Marker als auch deren Orientierungen identisch, gelten auch die beiden verglichenen Chromosomen als identisch. Der ’break point’ Graph Der Schlüssel um Distanzen zischen Chromosomen zu untersuchen ist der von Hannenhalli und Pevzner 1995 entwickelte breakpoint – Graph. Um den breakpoint – Graph einer Permutation von Markern pa relativ zu einer Permutation pb zu erzeugen, müssen beide Permutationen mit Vorzeichen versehen sein. Daraus folgt, dass man den breakpoint - Graphen nur dann erstellen kann, wenn die Orientierung aller Marker bekannt ist. Ist das der Fall kann man sich jeden Marker mit zwei Enden vorstellen, nämlich einem Kopfende und einem Schwanzende. Der breakpoint - Graph einer mit Vorzeichen versehender Permutation mit N Markern, pa, relativ zu einer anderen, pb, ist ein Graph mit 2N + 2 Knoten, einer für jedes Ende der N Marker plus zwei zusätzliche Knoten für die Enden des Chromosoms. Eine mögliche Markerkombination (2, -3, 1, 4) würde bedeuten, dass Marker 2 der am weitesten links liegende ist und dass er von links nach rechts orientiert ist. Um den breakpoint – Graph von zwei Permuationen zu erzeugen, muss man die Marker so umschreiben, dass sie durch ihre Ende und ihren Anfang repräsentiert werden. Dazu wird jeder Marker k aus der Permutation derart umgeschrieben, dass sein Kopf zu 2k-1 und sein Schwanz zu 2k wird. Durch dieses Vorgehen kann man jeden Marker durch ein Paar von Zahlen in der entsprechenden Reihenfolge ersetzen: k 2k –1 : 2k und –k 2k : 2k-1. Links wird 0 für den Beginn des Chromosoms angefügt und für dessen Ende 2N+1 auf der rechten Seite. Aus der Marker Permutation, Pa, (2, -3, 1, 4) wird durch Anwenden dieses Verfahrens also: (2, -3, 1, 4) ( 0, 3 : 4, 6 : 5, 1 : 2, 7 : 8, 9) Die in dieser Permutation mit einem Doppelpunkt getrennten Paare bleiben auch in jeder anderen Permutation adjazent. Sie stellen jeweils Ende und Anfang eines Markers da und dürfen nicht voneinander getrennt werden. Die mit Komma separierten Paare können in einer anderen Permutation, verursacht von einer Inversion, getrennt werden. Um den breakpoint – Graphen zu konstruieren, benötigt man eine weitere Permuation P b. Abbildung 2 zeigt den breakpoint – Graphen von Pa = ( 2, -3, 1, 4 ) relativ zu Pb = ( -1, -4, 2, 3 ). Wendet man auf Pb das gleiche Verfahren an, wie zuvor auf Pa folgt daraus: ( -1, -4, 2, 3 ) ( 0, 2 : 1, 8 : 7, 3 : 4, 5 : 6, 9) Der Graph wird erzeugt indem man die mit Komma separierten Zahlentupel aus Pa mit Kanten verbindet ( black edges ) und anschließend die durch Kommata gegebenen Verbindungen aus Pb ebenfalls auf diese nun schon verbundenen Zahlen anwendet ( grey edges ). Abb. 2: Der breakpoint – Graph von Pa = ( 2, -3, 1, 4 ) relativ zu Pb = ( -1, -4, 2, 3 ). Der auf diese Weise konstruierte breakpoint – Graph führt zu einer sogenannten Zykel Dekomposition. Startet man bei dem Knoten k und folgt einer der zwei inzidenten Kanten wird man wieder bei dem Startknoten landen. Abbildung 3 zeigt einen der zwei in diesem Beispiel vorhandenen Zykel in dem breakpoint – Graph von Pa zu Pb. Abb.3: Die Zykel - Zerlegung ; einer der Zykel in rot dargestellt Wenn die Anzahl der Zykel N+1 ist, sind die Permutationen wie in Abb. 4 zu sehen identisch. In beiden Permutationen sind die gleichen Marker adjazent, das führt zu grauen und schwarzen Kanten, die exakt die gleichen Knoten verbinden und damit zu N+1 Zykeln. Abb.4: Bei identischen Kombinationen sind genau N + 1 Zykel zu beobachten Das Anwenden einer Inversion auf pa verursacht zunächst den Bruch zweier schwarzer Kanten und die Erzeugung von zwei neuen schwarzen Kanten. In der Kommanotation entspricht das der Änderung von adjazenten Markern. Auch auf die Zykel - Dekomposition hat das Anwenden einer Inversion Auswirkungen. nur Marker betrachten können, deren Vorzeichen bekannt ist. Dadurch geht oftmals viel Information im vorhinein verloren. Im Fall des Vergleichs zwischen Rinder und menschlichem X Chromosom an Hand der gegebenen Karte, kann man die parsemonische Distanz, also die minimale Anzahl an Inversionen die nötig sind, um sie ineinander zu überführen, trotz der fehlenden Orientierung leicht berechnen, da es nur 4 Fälle gibt, die man sich überlegen muss bei zwei unbekannten Markern. Man kommt zu dem Ergebnis 4. Aber im Falle des später betrachteten Datensets von Drosophila Spezies müsste man 260 Fälle überprüfen, und das ist nicht mehr effizient möglich. 3 mögliche Effekte können auftreten: Es könnte ein vorhandener Zykel in zwei neue aufgespalten werden. Es könnten zwei Zykel zu einem vereint werden. Es könnte sich die Reihenfolge der Knoten, die auf einem Zykel liegen ändern, ohne das sich die Anzahl der Zykel ändert. Diese drei Möglichkeiten können durch eine Formel in Form von einem c ausgedrückt werden. Sei die Anzahl an Zykeln c(pa pb), dann gilt für c: c = c(Ipa pb)- c(pa pb) = +1, -1 or 0 Eine c = +1 Inversion, also eine Inversion, die die Anzahl der Zykel um eins erhöht, bringt die betrachteten Permutationen näher bis man die N+1 möglichen Zykel erreicht hat, und die Permutationen identisch sind. Da eine Inversion immer nur maximal einen zusätzlichen Zykel erzeugen kann, braucht man mindestens N+1 –c viele Inversionen um eine Permutation in eine andere zu überführen, wenn in jedem Schritt eine Inversion beseitigt werden kann. Zusätzlich können in einem breakpoint - Graph noch sogenannte Hürden auftreten. Eine Hürde bezeichnet eine bestimmte Marker Konstellation, bei der es nicht möglich ist einen Schritt zu machen, der eine c = +1 Inversion repräsentiert. Man muss einen zusätzlichen Schritt machen, um die Hürde zu brechen. Erst dann kann man wie gewohnt fortfahren. Sei h (pa,pb ) die Anzahl der Hürden in einem breakpoint - Graph, daraus folgt die neue Formel für die minimale Distanz. Es sind N+ 1 + h – c viele Schritte notwendig, um pa in pb zu überführen. Damit ist man fast schon bei einer allgemeinen Formel angelangt, allerdings können auch wiederum die Hürden in einem Graph so angeordnet sein, dass sie eine Festung bilden. Das heisst ein weiterer Schritt ist notwendig, um diese Festung zu brechen. Sei f = 1 wenn der Graph eine Festung ist und 0 sonst. Daraus folgt die allgemeine Formel für die minimale Inversionsdistanz d: d(pa,pb ) = N+1 +h + f –c Das Erzeugen eines - breakpoint Graphen ist nur dann effizient, wenn alle Marker mit Vorzeichen versehen sind. Da biologische Daten aber meist in Form von sogenannten Vergleichskarten vorliegen ( Abbildung 5 ), aus denen die Orientierung der Marker nicht hervorgeht, ist es nur bedingt sinnvoll mit Methoden zu arbeiten, die Abb.5: Aus dieser vergleichenden Karte von Rinder und menschlichem X Chromosom können nur partielle Markerorientierungen abgelesen werden, für isolierte Marker ( hier 6 und 9 ) kann man keine Orientierungen angeben. Die im nächsten Abschnitt vorgestellte, von den Autoren entwickelte Methode, kann sowohl Marker mit, als auch ohne Orientierung verwenden. Der Bayes Ansatz Modell Annahmen Umordnung der Gene geschieht nur infolge von Inversionen. Das Auftreten einer Inversion wird durch einen Poisson Prozess mit unbekanntem Mittelwert gesteuert. Die Wahrscheinlichkeit für das Auftreten von exakt L Inversionen ist: P(L|)=e-L/L!, L = 1, 2, ... Für wird eine uniforme a priori Verteilung angenommen P() = 1/max für 0 < max Die Anzahl der auf beiden Chromosomen vorhandenen Marker mit bekannter Reihenfolge beträgt N. Dabei ist es egal, ob die Orientierung der Marker bekannt ist oder nicht. Die Daten, D, werden als ein Paar von Permutationen ( entweder mit oder ohne Vorzeichen) P a und Pb dargestellt. Es werden N(N+1)/2 Inversionen unterschieden und jede dieser Inversionen tritt mit gleicher Wahrscheinlichkeit auf. Warum die Beschränkung auf Inversionen in diesem Modell Sinn macht, wird im Abschnitt ’Biologischer Hintergrund’ deutlich gemacht. Die Verwendung eines Poisson Prozess um die Inversionsrate zu bestimmen, liegt nahe, da man mit einem solchen Prozess modellieren kann, wie sich Ereignisse, die mit bestimmten Wahrscheinlichkeiten in bestimmten Zeiträumen auftreten, in den zu untersuchenden Zeiträumen verhalten. Da man aber den Zeitraum in dem Inversionen auftreten, nicht kennt, fließen die Zeiträume in dieser Poisson Verteilung als unbekannte ein. Es gibt nur N(N+1)/2 verschiedene Inversionen, da immer nur n direkt nebeneinander liegende Marker invertiert werden dürfen. Markovketten Monto Carlo Methode Um die Markovkette konvergieren zu lassen, wird der Metropolis- Hasting Algorithmus verwendet. Die Idee hierbei ist, einen gut gewählten Zufallsgenerator zu erzeugen ( siehe nächster Abschnitt ), der Vorschläge macht, welcher Zustand als nächster von der Markovkette angenommen werden soll. Dabei werden, wie ein Abb. 4 gezeigt, sowohl der Momentanzustand (x), der vorgeschlagene neue Zustand (y) als auch die Übergangswahrscheinlichkeit von x y bzw. von y x, berücksichtigt um zu entscheiden, ob ein vorgeschlagener Zustand Y angenommen wird oder nicht. Das Ziel des bayesianischen Ansatzes zur Lösung dieses Problems ist es, die posteriori Wahrscheinlichkeiten für die Inversionsrate und die Anzahl von Inversionen L zu schätzen. Das entspricht den Wahrscheinlichkeiten P(X|D) und P(|D), wobei X einem der möglichen Inversionspfade der Länge Lx entspricht. Insgesamt gibt es (N(N+1)/2)Lx viele Inversionspfade der Länge Lx. Daraus folgt, das die Wahrscheinlichkeit für einen Inversionspfad X gegeben der Parameter P(X|) = (e-Lx/Lx!)(N(N+1)/2)-Lx ist. Das entspricht nämlich gerade dem Auftreten von L Inversionen, also einer Inversionssequenz der Länge L, mal der Wahrscheinlichkeit, dass genau L mal genau eine der N(N+1)/2 möglichen Inversionen gewählt wird, gegeben der Inversionsrate . Da man die Wahrscheinlichkeiten für P(X|D) und P(|D) nicht analytisch berechnen kann, wird eine Markovkette mit Zustandsraum x R+ erzeugt, wobei die Menge aller möglichen Inversionspfade ist und R+. P(X, |D) ist die stationäre Verteilung der Markovkette. Um P(,D) und P(L,D) zu erhalten kann man aus dieser Markovkette Werte abfragen, wenn sie gegen die stationären Verteilung konvergiert ist. Diese Werte entsprechen dann genau den wahrscheinlichen Werten von L bzw. , beziehungsweise den gesuchten posteriori Wahrscheinlichkeiten. Man erhält also nicht genau einen Wert ( den Wahrscheinlichsten ) für die Inversionsrate oder die Anzahl an Inversionen, sondern eine Wahrscheinlichkeitsdichte für einen Bereich, in dem sich die Werte befinden. Die Zielverteilung P(X, |D) kann mit Hilfe des Bayes Theorem umgeschrieben werden in: P(X,|D) = P(X,,D)/P(D) = P(D|X,) P(X|) P() / P(D) Da nur Inversionspfade erzeugt werden, die die Permutationen Pa und Pb ineinander überführen, gilt für diese X, dass P(D|X, ) = 1. P(X|) kann man ebenfalls berechnen, denn wie oben gezeigt gilt P(X|) = (e-Lx/Lx!)(N(N+1)/2)-Lx und P() = 1/ max. Also kann man die Zielverteilung schreiben als: P(X,|D) = (e-Lx/Lx!)(N(N+1)/2)-Lx max-1 / P(D) Der einzige Faktor, der nicht direkt berechnet werden kann ist hier P(D). Betrachtet man aber die Formel für den Metropolis Hasting Algorithmus ( Abb. 6 ) sieht man, dass sich P(D) wegkürzt und somit irrelevant für die Berechnung wird. Abb. 6: Formel für die Akzeptanz Wahrscheinlichkeit eines neuen Zustands Y im Metropolis Hasting Algorithmus. Aktualisierung von X X ist ein Inversionspfad von Pa nach Pb. Er umfasst sowohl Permutationen der Sequenzen p0 = pa, p1, ... pL = pb als auch Inversionen, I1, I2, ... IL, mit pi = Iipi-1 und i= 1, 2, … L. Der Vorschlag eines neuen Zustands geschieht, in dem man einen neuen Inversionspfad konstruiert, der die Daten ineinander transformiert. Das passiert in zwei Schritten. Im ersten Schritt wird eine Sektion von X, die ersetzt werden soll, ausgewählt. Man erzeugt also nicht einen komplett neuen Pfad, sondern ersetzt nur ein Teilstück des aktuellen Pfades. Mit Wahrscheinlichkeit qL(l ,j ) wird eine Länge, l, gewählt mit 0 l L und eine Startpermutation, pj, ( 0 j L-l ). Das Teilstück von p = pj bis p = pj+l wird in Y durch ein Neues ersetzt. Im zweiten Schritt wird ein neuer Teilpfad generiert, der das ausgewählte Stück in X ersetzt. Dies geschieht in dem man den breakpoint - Graphen von p relativ zu dem von p betrachtet, und, wie später detailliert beschrieben, zufällig eine Inversion I’1 wählt. Die gewählte Inversion soll mit hoher Wahrscheinlichkeit ein c = +1 erzeugen. Dann, genau auf die gleiche Art, wird eine Inversion I’2 gewählt, unter Benutzung des breakpoint - Graphen I’1palpha relativ zu pbeta. So fährt man fort bis I’lpalpha = pbeta. Zunächst wird also ein Bereich von X ausgewählt, der ersetzt werden soll. Um die Länge, l, zu erhalten wird aus einer später genauer beschriebenen Verteilung q(l) gezogen, und anschließend wird j gleichverteilt aus 0, 1, ... Li –l gezogen. Daraus folgt für q(l,j) = q(l)/(L+1-l). Die Formel, die von den Autoren für die Verteilung von l verwendet wird ist: l q(l ) 1 tanh 1 N mit = 8 und = 0.65. In der Praxis verhindert diese Formel, dass l gewählt werden, die im Vergleich zu N sehr groß sind. Längen, die im Vergleich zu N klein sind, werden durch diese Formel ungefähr gleichverteilt erzeugt. Der zweite, kompliziertere Schritt erzeugt den neuen Subpfad in Y. Gesucht wird eine neue Abfolge von Inversionen, die p j in pj+l überführt. Dazu verwendet man in jedem Schritt den breakpoint - Graph, der aktuell betrachteten Permutation relativ zur Permutation pbeta. Abbildung 7 verdeutlicht das Vorgehen. In jedem Schritt werden alle möglichen Inversionen betrachtet und nach ihren c Werten, also +1, 0 oder –1, klassifiziert. Die Zykel Dekomposition zweier Permuationen hat genau dann n+1 Zykel, wenn die Permutationen identisch sind. Um also eine Permutation pa in eine Permutation pb zu überführen muss man die Anzahl der Zykel solange erhöhen bis sie N+1 ist. Diesem Ziel nähert man sich immer dann, wenn man aus der Menge aller Inversionen eine wählt, für die c = +1 gilt. Ein Schritt weg von diesem Ziel wäre eine Inversion mit c = -1 zu wählen. Da aber die Permutationen letztlich ineinander überführt werden sollen, wählt man mit hoher Wahrscheinlichkeit eine c = +1 Inversion. Aus der Menge aller c = +1 wählt man dann gleichverteilt eine der möglichen Inversion aus. Der direkte Effekt dieses Vorgehens ist die Bevorzugung kurzer Inversionspfade gegenüber langen. Dies ist ebenso biologisch sinnvoll, da man zwar von relativ kurzen „Mutationswegen“ ausgeht, aber eben nicht von dem kürzesten Weg. Die Möglichkeit des Fortfahrens ist wiederum biologisch motiviert. Es mag in der Natur vorkommen, wenn auch mit sehr geringer Wahrscheinlichkeit, dass zwei homologe Chromosomen im Laufe der Evolution durch Mutation identisch wurden, sich dann aber wieder verändert haben. Die Wahrscheinlichkeit für den vorgeschlagenen Schritt in den neuen Zustand für den Metropolis Hasting Algorithmus lässt sich somit als Produkt der Wahrscheinlichkeiten für den neuen Subpfad und der Wahrscheinlichkeit dafür, genau den Bereich in X der erneuert wurde, zu ersetzen, berechnen. Die Wahrscheinlichkeit qnew für den neuen Subpfad mit l’ Inversionen ist wiederum das Produkt von (l’ + 1) Faktoren. Die ersten l’ Faktoren sind jeweils die Wahrscheinlichkeiten für die einzelnen Inversionen und der letzte Faktor ist die Wahrscheinlichkeit für das tatsächliche Stoppen beim Erreichen von pb. Die Länge des Gesamtpfades Y ist L’ = L +l’ – l, und die Wahrscheinlichkeit für den Übergang von X nach Y ist mit P(Y|X) = q(l,j)qnew berechenbar. Um den Metropolis Hasting Algorithmus anzuwenden, fehlt jetzt nur noch die Akzeptanzwahrscheinlichkeit in Y zu sein, und nach X zu gehen. Diese berechnet sich aber genauso, wie P(Y|X) nur gerade umgekehrt. Man nimmt an, man hat das Teilstück mit Länge l’ ersetzt, und zwar durch den in X schon vorhanden Pfad, also kann man P(X|Y) wie folgt berechnen: q’(l’,j)qold Die Wahrscheinlichkeit qold berechnet sich genau wie qnew, nur dass man jetzt die schon stattgefunden Inversionen in dem „alten“ Pfad X betrachtet. Seien N+1, N0 und N-1 die Anzahlen an Inversionen, die jeweils zu dem korrespondieren c gehören und alle ungleich 0. Die Wahrscheinlichkeiten ein c = +1, 0, -1 zu wählen ist 1, 1, 2. Die Wahrscheinlichkeit für eine bestimmte Inversion c +1 ist also: P(c=+1) = ((1+ 1 + 2) N+1)-1 Wenn N+1 = N0 = 0 ist, dann müssen die beiden Permutationen gleich sein. Da keine Inversion mehr die Anzahl der Zykel erhöhen kann hat man N+1 Zykel erreicht, und die Permutationen sind identisch. Mit Wahrscheinlichkeit 3 fährt man trotzdem mit einer c = -1 Inversion fort. Mit Wahrscheinlichkeit 1-3 wird an diesem Punkt gestoppt. Abb. 7: Aktualisierung bei bekannter Markerordnung Die durchgezogene Linie ist der alte Zustand X, die gestrichelt gezeigte Linie ist der neue Vorschlag Y, das neue Teilstück ist der Bereich, der sich nicht mit X deckt. Bisher wurden auch in diesem Modell implizit nur Permutationen von Markern betrachtet, bei denen das Vorzeichen bekannt ist, denn in Schritt 2 der Aktualisierung verwendet man den breakpoint - Graphen zweier Permutationen. Dieses Vorgehen ist aber nur dann effizient, wenn die Marker Orientierung bekannt ist. Bei nicht bekannten Markerorientierungen ist das Vorgehen sehr ähnlich. Zunächst wird genau wie oben beschrieben ein Teilstück gewählt, das ersetzt werden soll. Die Idee ist hier die Startpermutation mit der unbekannten Marker Orientierung über die 2N möglichen Permutationen für diese Marker „wandern“ zu lassen. Es wird ein Flip Operator definiert, der Marker in der Startpermutation mit Wahrscheinlichkeit 4 flippt. Diese Flips werden, genau wie andere Inversion auch, über c bewertet, denn ein Flip eines Markers ist nichts anders als eine Inversion, die nur diesen Marker betrifft. Man kann also auch hier kontrolliert flippen, so das man mit hoher Wahrscheinlichkeit einen Flip durchführt, der die Anzahl der Zykel erhöht. Die Inversionen bis zu dem zu ersetzenden Teilstück werden hiervon nicht betroffen. Nach dem Schritt des Flippens fährt man genau wie oben beschrieben fort. Abbildung 8 zeigt dieses Vorgehen. Um die Rate der Inversion zu bestimmen wird ein, im Vergleich zu der Aktualisierung von X, relativ einfacher Mechanismus verwendet. Die Autoren verwenden einen Gibbs Schritt, um einen neuen Wert für zu erhalten. Im Detail sieht der Schritt wie folgt aus: P(|X,D) P(X|) P() e- Lx P() Man zieht also ein neues gemäß der Daten und dieses neue wird im nächsten Schritt verwendet. Konvergenz Überwachung Mit Hilfe des Metropolis Hasting Algorithmus konvergiert der Prozess zwar zu seiner stationären Verteilung, aber mit Metropolis Hasting kann man keine direkte Aussage darüber treffen, wann man sich dieser Verteilung hinreichend genau genähert hat. Trotzdem rauszufinden, nach wie vielen Schritten die Markovkette konvergiert ist, ist essentiell wichtig, da es erst zu diesem Zeitpunkt Sinn macht, Werte für die Anzahl an Inversionen, als auch Werte für die Inversionsrate, zu sammeln. Die Zeit bis zur Konvergenz bezeichnet man als „Burn In“- Phase und wird im Ergebnis nicht betrachtet. Dies ist ein gängiges Vorgehen beim verwenden von Markovketten. Die Autoren verwenden die Methode von Gelman und Rubin (1992), um zu entscheiden, wann die Kette konvergiert ist. Dazu müssen mindestens m Ketten für die gleichen Daten simultan laufen, wobei m größer gleich 2 sein muss. Sei Xi,j das i-te Element der j-ten Kette und Li,j seine Länge. Dann wird eine Zwischen – Ketten Varianz definiert B 1 L m 1 j j L 2 und eine Ketten Varianz W wobei 1 1 Li , j L j 2 j i m n 1 L j = 1 Li , j n i und L = 1 Lij mn i , j Die Bedingung für das Erreichen der Konvergenz ist hier wenn R (n 1) / n B / W sich nahe ein 1 befindet. Abb. 8:Aktualisierung bei unbekannter Markerorientierung. F beschreibt den Flipoperator. Die Autoren haben typischerweise 5 – 10 Ketten verwendet und angefangen Werte für L und zu Aktualisierung der Inversionsrate sammeln, wenn R 1.1 wurde. Die Idee, die sich hinter der Methode verbirgt, mehrere Ketten laufen zu lassen, ist, zu kontrollieren, wann die Ketten in ihren Werten übereinstimmen und so zu entscheiden, wann sie konvergiert sind. Damit diese Methode erfolgreich angewandt werden kann ist es wichtig, den Suchraum anfangs geschickt zu belegen. Das heisst, in diesem Fall die Startzustände für die verwendeten Markovketten so zu initialisieren, dass sowohl kurze Inversionspfade vorhanden sind, als auch lange. In Abbildung 10 sieht man eine geplottete Konvergenz Überwachung, auch die unterschiedlichen Initialzustände sind gut zu beobachten. Um die Konvergenz zu verbessern, ist es möglich, an den verwendeten Parametern zu drehen. Die Parameter und kontrollieren die Länge des zu ersetzenden Teilstücks in X; 1, 2 und 3 kontrollieren die Erzeugung des neuen Teilstücks, genauer die Länge des neuen Teilstücks. Und zusätzlich in dem Fall unbekannter Markerorientierungen kontrolliert 4 die Bevorzugung von c = +1 Markerflips. Mit Hilfe simulierter Daten sind die Autoren zu folgenden Werten für die verschiedenen Parameter gekommen, die sie dann bei echten Datensätzen verwendet haben. Für = 0.65 , = 8, 1 0.03, 2 = 1/2, 3 = 12 und 4 = 0.025. Abbildung 11 zeigt wie stark sich Änderungen eines Parameters in der Konvergenz der Ketten auswirken. In dieser Simulation wurden die Permutationen künstlich durch L0 Inversionen voneinander wegevolviert, dabei wurde gleichverteilt aus den N(N+1)/2 Inversionen gezogen. Verwendet wurden 30 nicht mit Vorzeichen versehene Marker. Die Konvergenz wird als eine Funktion von 1 dargestellt, die anderen Parameter sind wie oben beschrieben eingestellt. Die Inversionsrate hat ihre 95% Aufenthaltswahrscheinlichkeit in (1.05 12.75 ) mit einem Erwartungswert von 6.49. Die Abbildungen 9a und 9b zeigen die Ergebnisse in Diagrammen. Abb. 9a: Die posteriori Verteilung für L, die gestrichelte Linie zeigt das 95% credible Set. Abb.9b: Die posteriori Verteilung für , die gestrichelte Linie zeigt das 95% credible Set. Anwenden der Methode auf Reale Daten Der erste betrachtete Datensatz ist der Vergleich zwischen dem menschlichen und dem Rinder X Chromosom mit 14 nicht orientierten Markern. Um die Startzustände zu initialisieren wurde ein Teil der Markovketten mit einem kleinen 1 Wert erzeugt und andere mit großem 1. Da 1 maßgeblich für die Länge der Inversionspfade verantwortlich ist, führt dieses Vorgehen zu einer guten Belegung des Suchraums, wie in Abbildung 10 zu sehen. Im weiterten Verlauf wurden dann alle Parameter so verwendet wie im Kapitel ’Konvergenz Beobachtung’ beschrieben. Für max wurde 80 gewählt. Diesen Wert erhält man, in dem man Versuchsläufe macht. Hält sich die Inversionsrate nahe bei max auf, erhöht man max damit sichergesellt ist, dass man den kompletten Raum, den mit hoher Wahrscheinlichkeit annehmen wird, abgedeckt hat. Insgesamt wurden die 8 verwendeten Markovketten 815104 mal iteriert. Konvergenz wurde nach 8192 Iterationen beobachtet. In diesem relativ kleinen Datensatz ist die Wahrscheinlichste Inversions Zahl gleich der von der Parsimonie Methode berechneten, nämlich 4. Trotz diesem Ergebnis ist es wahrscheinlicher, dass L größer als 4 ist, denn der Erwartungswert für L liegt bei 5.49. Mit 95% Wahrscheinlichkeit hält sich L in einem Intervall zwischen 4 und 9 auf. Der zweite Datensatz vergleicht das Chromosom 3R von Drosophila melanogaster und das Chromsom 2 von Drosophila repleta. Veglichen wurden 79 Marker, deren Orientierungen nicht bekannt waren. 6 Markovketten wurden verwendet, 3 mit kurzen Initialpfaden und 3 mit langen, wieder abhängig von dem verwendeten 1. Die Parameter waren, wie in dem Abschnitt Konvergenz Beobachtung beschrieben, gewählt und für max wurde 200 gewählt. Da in diesen Daten wesentlich mehr Inversionen zu erwarten waren, war auch die Zeit für das Erreichen der Konvergenz sehr viel höher. Es wurden 1.7 Millionen Iterationen durchgeführt, bis Konvergenz angezeigt wurde. Insgesamt wurden die Ketten 43 Millionen mal iteriert. Die Laufzeit betrug circa 4 Tage auf einem Athlon 1.2 GHz Prozessor. Der wahrscheinlichste Wert für L, und damit der Anzahl an Inversionen betrug 87. Der Erwartungswert lag bei 92.61. Mit 95% Wahrscheinlichkeit hält sich L im Intervall zwischen 71 und 118 auf. Die durch Parsimonie berechnete Anzahl an Inversionen in diesem Datensatz ist 53, und damit viel kleiner als die erwartete Anzahl an Inversionen, sie liegt nicht einmal in dem wahrscheinlichen Aufenthaltsbereich für L. Das zeigt, dass mit hoher Wahrscheinlichkeit die wahre Anzahl an Inversionen sehr viel größer ist, als die von den Parsimonie Methoden berechnete. Das Intervall in dem sich die Inversionsrate mit 95 % Wahrscheinlichkeit aufhält ist ( 6.144 125.00 ). Paper 2 Die zweite Arbeit der Autoren, die hier behandelt wird, baut stark auf der ersten auf. Die grundsätzliche Idee ist, den entwickelten Ansatz auf komplette Genome zu erweitern, zusätzlich werden noch weiter Mechanismen der Evolution berücksichtigt. Lange Pfade bezeichnen Wege durch die Genome, die nur Marker verbinden, ohne Enden zu besuchen. Die minimale Distanz für zwei Genome berechnet sich dann aus Anzahl der Chromosomen, M , plus der Anzahl an Markern, N, minus der Summe aus kurzen und langen Pfaden, plus Anzahl der Pfade, die im gleichen Genom enden, in dem sie auch beginnen ( Zykel ). Aber auch für diesen breakpoint - Graph gilt, dass er nur für Permutationen verwendet werden kann, bei denen die Markerorientierung bekannt ist Der Bayes Ansatz für Genome Auch hier gibt es schon Parsimonie Methoden, die die minimale Genom Distanz berechnen können. Natürlich drängt sich die Annahme auf, dass die Parsimonie Methoden hier ebenfalls die Anzahl an Mutationsereignissen stark unterschätzen., da man es mit noch größeren Datensätzen zu tun hat. Ob dies tatsächlich der Fall ist, wird man sehen, wenn man sich die Anwendungen der Methode auf realen Daten anschaut. Der ’break point’- Graph für Genome Auch hier ist der Schlüssel wieder der breakpoint Graph. In diesem speziell für Genome entwickeltem breakpointGraph kann man sich alle Chromosomen verbunden vorstellen, so dass sie ein „super“ Chromosom bilden. Zwei solche „super“ Chromosome kann man dann wieder relativ zueinander in einem breakpoint - Graph darstellen. Damit man aber die Trennstellen wieder findet, wird beim erzeugen der Knoten des breakpoint - Graphen nicht an jedes Chromosom links eine 0 und rechts 2N+1 angehängt, sondern man beginnt bei dem ersten Chromosom mit 1000 links, und rechts fügt man 1001 an. An das nächste Chromosom fügt man rechts 1002 an und so weiter bis man das komplette Genom durchnummeriert hat. Für das zu vergleichende Genom geht man genauso vor, nur das man hier mit 2000 beginnt. Jedes Chromosom hat somit Enden. Da man um den breakpoint Graph zu erzeugen nicht nur gleiche Marker in beiden Genomen braucht, sondern auch die gleiche Anzahl an Chromosomen, besteht die Möglichkeit leere Chromsomen anzufügen. Das ist immer dann notwendig, wenn sich die Marker in Genom 1 auf weniger Chromosomen verteilen, als in Genom 2. Der Graph hat, im Gegensatz zu der Zykel Dekomposition im ersten Abschnitt, nun mehr Komponenten, als nur Zykel, die auftreten können, wenn man ihn konstruiert hat. Natürlich gibt aus auch wieder Zykel, die genau wie in Teil 1 später betrachtet werden, um neue Zustände in der Markovette einzunehmen. Zusätzlich zu den Zykeln gibt es aber Komponenten, die als Pfade bezeichnet wird. noch Sogenannte kurze Pfade bezeichnen Wege in dem breakpoint Graph, die die oben beschriebenen Enden verbinden. Modell Anahmen Die Umordnung der Genome geschieht infolge von Inversionen, Translokationen, Chromosomenverschmelzungen und Chromosomenbrüche. Dabei werden die Verschmelzung und der Bruch eines Chromosoms als Spezialfall eines Translokationsereignisses behandelt, bei dem entweder das Eingangsoder Ausgangschromosom leer ist. Wenn zu einer Zeit t IT(t) Translokationen und II(t) Inversionen möglich sind, ist die Rate mit denen beide auftreten jeweils IT(t) T und II(t) I. Man betrachtet also für die beiden Ereignisse Translokation und Inversion getrennte Raten. Die Zeit bis zu einem Ereignis lE ist expotential verteilt mit dem Parameter IT(ti) T+II(ti) I)ti. Wir nehmen a priori eine Gleichverteilung für lE an: P(lE) = 1/ Emax für 0 < Translokation, Inversion } E <= Emax E { Die Anzahl der Marker, deren Ordnung auf beiden Genomem bekannt ist, und die verglichen werden soll, ist N, dabei ist es allerdings egal, ob man die Orientierung der Marker kennt. Die Anzahl der Chromosomen die in beiden Genomen vorhanden ist ( inkl. Leere Chromosome) ist M. Metropolis Coupled Markov Chain Monte Carlo Methode ( MC MC MC ) Das Ziel ist auch hier wieder die posteriori Wahrscheinlichkeitsverteilungen für Inversionen und Translokationen bei gegebenen Daten zu berechnen. Inversionen und Translokationen können wieder derart aufgefasst werden, dass sie eine Markovkette bilden, deren Zustandsraum durch alle möglichen Anordnungen von N Markern auf M Chromosomen gegeben ist, insgesamt gibt es 0 2 N ( M N 1)! ( M 1)! Möglichkeiten N Marker auf M geordneten Chromosomen anzuordnen. Die stationäre Verteilung dieser Markovkette ist 0 2N U aus Äquivalenzklassen P(x1 x2 | ) = mit Um zu schätzen wird nun eine wiederum neue Markovkette erzeugt, deren Zustandsraum sich auf [0,)2, x befindet, und deren stationäre Verteilung durch die gemeinsame posteriori Wahrscheinlichkeitsverteilung von den Parametern und des evolutionären Pfades gegeben ist geordneten Markern auf ungeordneten Chromsomen besteht. Ein Element aus U mit ( y, T , I ) p( y, T , I | x1 , x2 ) , y , E [0, ) 2 M0 leeren Chromosomen ist dann eine Äquivalenzklasse von 2(M-M0) M!/M0! vielen Elementen aus U . Daraus folgt die stationäre Wahrscheinlichkeit für ein Element von U Mit Hilfe des Theorems von Bayes kann man mit M0 leeren Chromsomen ist 0 2 M N M 0 P ( y | ) y ( M 1)! , x 0 ( M N 1)! Da aber die Ordnung der Chromosomen nicht von Interesse ist, wird eine neue Markovkette erzeugt, deren Zustandsraum für den Übergang von x1 nach x2, bei gleichem Parameter . M !( M 1)! , x 0 M 0 !( M N 1)! Übergänge zwischen benachbarten Zuständen kommen mit den jeweiligen Raten I und T vor, wenn sie sich genau durch eine Inversion oder Translokation unterscheiden. Eine Ausnahme hiervon bilden lediglich Translokationen, bei denen ein Chromosomenbruch simuliert wird. Die Rate dafür ist 2M0T. Das erklärt sich einmal dadurch, dass es gar keinen Chromosomenbruch geben kann, wenn kein leeres Chromosom zur Verfügung steht. Daher ist die Rate durch das Einbringen von M0 als Faktor ebenfalls 0, wenn keine leeren Chromosomen vorhanden sind. Wenn es aber leere Chromosomen gibt, hat man für jedes Chromosom zwei Möglichkeiten sie mit den translozierten Genen zu belegen. Hat man zwei Genome, x1, x2, verschiedener Organismen gegeben, so kann man sie durch eine Sequenz von Inversionen und Translokationen ineinander überführen. Dieser Überführungspfad entspricht in etwa dem, was in dem ersten Teil als Inversionssequenz bezeichnet wurde. p( y, T , I | x1 , x2 ) umschreiben in p( x1, x 2 | y, T , I ) * p( y | T , I ) p(T ) p(I ) / P( D) wobei P(D) die Daten, also in diesem Fall die beiden Genome x1, x2 repräsentiert. Die Wahrscheinlichkeit für genau einen evolutionären Pfad kann man leicht berechnen: Da man auf Grund der Modellannahmen eine Aussage darüber treffen kann mit welcher Wahrscheinlichkeit Ereignisse auftreten, kann man p(y|T, I’) als Produkt aller einzelnen Wahrscheinlichkeiten für das jeweilige Ereignis ausdrücken S 1 (1) p ( y | T , I ) E (i )e ( IT ( ti ) T I I (ti ) I )ti i 1 wobei ti die Zeit zwischen den Ereignissen i-1 und i für S Die sampling Wahrscheinlichkeit für diesen Prozess ist i S, tS+1 = 1 - j 1 P(x1,x2|) = P(x1) P(x1 x2 | ) wobei Pr(x1x2|) die Übergangswahrscheinlichkeit für die Transformation des einen Genoms in das andere. Der Parameter ist definiert als die InversionsrateT und die Translokationsrate I . Da die Daten unabhängig von dem Parameter sind, ist die Likelihood Funktion für gegeben durch L() P(x1 x2 | ) sei die abzählbar unendliche Menge aller möglichen evolutionärer Pfade von x1 zu x2. Die Summe aller dieser Pfade gegeben eine Inversionsund Translokationsrate ist gleich der Wahrscheinlichkeit t E (i) j und T wenn i S und Ei = Translokation T wenn i S und Ei = Inversion 1 wenn i = S+1 Um diese Wahrscheinlichkeiten zu berechnen, muss man also die Anzahl aller möglichen durch eine Inversion oder Translokation erreichbaren Nachbarzustände IE(i) kennen. Das geschieht über die anfangs erzeugten Markovketten. Hat man alle Zustände die man erreichen kann identifiziert, kann man mit Hilfe des Wissen, wie viele Zustände insgesamt existieren und mit der stationären Wahrscheinlichkeit für eine Äquivalenzklasse an Zuständen mit M0 Chromosomen, berechnen, wie viele tatsächlich unterscheidbare Nachbarzustände existieren. Die Autoren verwenden auch hier wieder den Metropolis Hasting Algorithmus ( Abb x ) um die Markovkette konvergieren zu lassen. Analyse von realen Daten Tomate vs. Aubergine Die Wahrscheinlichkeit für einen Zustand X ist gegeben durch p( x1, x 2 | y, T , I ) p( y | T , I ) p(T ) p(I ) / P( D) wobei man wie oben gezeigt wieder alle Faktoren bis auf P(D) leicht berechnen kann, und P(D) wird beim Anwenden der Formel von Metropolis Hasting weggekürzt, und fällt damit als unbekannter Faktor nicht ins Gewicht. Aktualisieren des Zustandes Die Vorschlagswahrscheinlichkeit für einen Folgezustand und damit die Aktualisierung von X funktioniert ganz ähnlich wie in der ersten behandelten Arbeit der Autoren. Unter Verwendung des breakpoint - Graphen wird ein Teilstück des alten Evolutionspfades durch einen neuen ersetzt. Dabei wird wie auch in der ersten Arbeit, der breakpoint - Graph von der Startpermutation zur Zielpermutation verwendet, um biologisch sinnvolle Pfade zu erzeugen. Die Vorschlagswahrscheinlichkeit ist dann gegeben, durch die Wahrscheinlichkeit ein bestimmtes Teilstück zu ersetzen, mal der Wahrscheinlichkeit für den neuen Subpfad. Dieser lässt sich aus Formel (1) berechnen. Für die Akzeptanz Wahrscheinlichkeiten wird genau der umgekehrte Weg gegangen, aber auch das ist effizient möglich wie in Teil 1 gezeigt. Die Evolutionsparameter werden gleichverteilt in einem Fenster um den aktuellen Wert herum gezogen und sofort übernommen. Alle Updates werden alternierend und unabhängig durchgeführt. Konvergenz Beobachtungen Um die Konvergenz zu verbessern wurde in diesem Ansatz mit Metropolis Coupled Markov Chains gearbeitet. Das heisst, dass jede Kette, aus der für die Auswertung gezogen wird, an sogenannte heated Chains gekoppelt ist, deren stationäre Verteilung durch einen Exponenten kleiner 1 modifiziert ist. Man erreicht dadurch flachere Verteilungen und ein besseres Mischen der Werte. Die heated Chains geben der cold Chain Hinweise, in welche Richtung sie sich bewegen soll. Dieses Verfahren wird immer dann verwendet, wenn Gefahr besteht in lokalen Optima hängen zu bleiben. Für die heated Chains ist es einfach einen, bildlich gesprochen, flachen Hügel zu überwinden, der für die Cold Chain ein unüberwindbares Hindernis darstellt. Es wurde nun auch nicht mehr jede Iteration nach der Burn – in Phase betrachtet, sondern nur noch jedes 8. Update. Dies geschieht im Hinblick auf die immensen Datenmengen die entstehen, wenn man einige Ketten koppelt und lange Zeit iterieren lässt. Um zu überprüfen, wann die Ketten konvergiert sind, wurde auch hier die Methode von Gelman und Rubin verwendet. Der erste betrachtete Datensatz ist eine vergleichende Genkarte von Tomate und Aubergine. Insgesamt standen für frühere Vergleiche von insgesamt 233 Markern nur 170 Marker zu Verfügung, da für die übrigen 63 Marker die Orientierung nicht festgestellt werden konnte. Das Ergebnis der Parsimonie Methode waren 28 Mutationsereignisse, die Tomate und Aubergine trennen. Davon waren 23 Inversionen und fünf Translokationen. Die baysianische Methode der Autoren lieferte folgendes Ergebnis: Das 95% Intervall für alle Ereignisse liegt bei [28, 37], für Inversionen wurde [21,31] und für Translokationen [5,7] geschätzt. Verwendet wurden 6 simultane kalte Markovketten, die jeweils an 4 ’heated’ Ketten gekoppelt waren. Konvergenz wurde nach 14.000 Iterationen angezeigt und insgesamt wurden 459000 Iterationen ausgeführt. Die posteriori Wahrscheinlichkeiten die den Anzahlen der Translokationsereignisse zugeordnet wurden sind 0.0817 für 5, 0.55407 für 6, 0.32137 für 7, 0.03832 für 8 und 0.00453 für 9. Die höchste Wahrscheinlichkeit für Inversionsanzahlen wurde 25 zugeordnet. Das Ergebnis zeigt, dass auch bei diesen sehr nah verwandten Spezies die wahrscheinlichsten Anzahlen für Mutationsereignisse leicht höher sind, als die von den parsimonischen Methoden. Die wahrscheinlichsten Werte für die Raten I und T liegen bei 0.0194 und 0.000219. Um diese Zahlen zu interpretieren, muss man die durchschnittliche Anzahl an Inversionen und Translokationen mit diesen Raten multiplizieren. Das führt zu den Werten I(total) = 25.899 und T(total) = 6.629. Wenn man annimmt, dass Tomate und Aubergine evolutionär gesehen vor 12 Millionen Jahren angefangen haben sich getrennt zu entwickeln, führt das zu Raten von 0.267 und 1.078 per Genom jeweils in einer Millionen Jahren für Translokationen und Inversionen. Mensch vs. Katze Eine von Murphy at al. in 2000 erstellte Genkarte der Katze enthält 424 Gene, die mit Mikrosatellit Markern erfasst wurden. Die Autoren haben 281 dieser Gene mit Hilfe der im Internet zur Verfügung stehenden Datenbanken im menschlichen Genom lokalisieren können. Entfernt werden mussten von diesen 281 Genen lediglich 12, die isoliert auf Chromosomen vorkamen, getrennt von ihren eigentlich Nachbarn. Man geht davon aus, dass es sich hierbei um Genduplikation handelt, die im menschlichen Genom recht häufig vorkommt. Da das vorhandene Modell aber Genduplikationen nicht erfassen kann, würde das die Ergebnisse verfälschen. Parsimonie Analysen für diesen Datensatz zeigen, dass man mindestens 78 Ereignisse braucht ( 14 Translokationen und 64 Inversionen), um das Genom des Menschen in das der Katze zu transformieren. Die baysianische Methode zeigte, dass wahrscheinlich wesentlich mehr Ereignisse in der Geschichte dieser beiden Genome aufgetreten sind. Für die Anzahl der Ereignisse, die insgesamt aufgetreten sind, wurde mit 95% Aufenthaltswahrscheinlichkeit das Intervall [85,102] bestimmt. Verwendet wurden 6 kalte Ketten jeweils gekoppelt an 3 heiße Ketten. Jede Kette wurde 2.2 Millionen mal iteriert. Die Lauzeit betrug 790.000 Sekunden. Die ersten 360.000 Updates wurden als Burn- In entfernt. Für die einzelnen Wahrscheinlichkeiten für Inversionen und Translokationen wurden jeweils die Intervalle [71,89] und [12,15] bestimmt. Hier fällt, wie auch schon bei einem Ergebnis aus dem ersten Teil dieser Arbeit, auf, dass der Wert für die Anzahl der Mutationsereignisse, der durch Parsimonie erhalten wurde, nicht in dem Intervall liegt, der von der baysianischen Methode geschätzt wurde. Auch hier ist dieses Ergebnis zu erwarten gewesen, da mit steigender evolutionärer Entfernung zweier Spezies der kürzeste Pfad, also der parsemonische Abstand, immer unwahrscheinlicher wird. Der zweite Faktor, der eine Rolle spielt, ist die Komplexität der Daten. Pro Marker findet die baysianische Methode mehr mögliche Wege, mit steigender Markerzahl, die eine höhere Wahrscheinlichkeit haben, als der kürzeste Pfad. Die für Raten I und T liegen bei 0.035 und 0.000161. Multiplizieren führt zu den Werten T(total) = 12.84. I(total) = 82.95 und Man nimmt hier eine evolutionäre Distanz von circa 120 Millionen Jahren an, was wiederum zu Mutationsraten von 0.0641 für Translokationen und 0.415 für Inversionen pro Genom und eine Millionen Jahre führt. Mensch vs. Rind Der letzte von den Autoren betrachtete Datensatz besteht aus 422 Markern, die sowohl im menschlichen als auch im Rinder Genom vorkommen. Hier wurden per Parsimonie 155 Ereignisse ermittelt, die notwendig sind, um die Genome ineinander zu transformieren. Die Autoren verwendeten 4 kalte Ketten die jeweils an 8 heiße gekoppelt wurden. Insgesamt wurden diese Ketten jeweils in 3 Läufen zunächst 1.3 Millionen mal aktualisiert und in den zwei darauffolgenden Läufen jeweils 1,5 Millionen mal. In keinem dieser Durchläufe konnte das Kriterium für die Konvergenz der Ketten erreicht werden. Abbildung 11 zeigt das Verhalten der Ketten, man sieht deutlich die hohe Varianz, die zwischen den einzelnen Ketten besteht. Abb. 11: Das Kriterium für Konvergenz konnte nicht erreicht werden. Die vier Ketten verhalten sich völlig unterschiedlich. Ergebnisse für die Anzahl an aufgetretenen Ereignissen wurden ab der 600.000 Iteration ausgewertet, trotz des nicht Erreichens des Konvergenzkriteriums. Dabei lagen die wahrscheinlichen Werte für die Anzahl der Inversionen zwischen 185 – 191, allerdings konnte keine Aussage über die Translokationen getroffen werden, da hier die Varianz der Werte zu hoch war. Obwohl in diesem Fall keine klare Aussage über die wahre Anzahl der Ereignisse getroffen werden kann, hat auch dieser Datensatz gezeigt, dass die gesamt Anzahl an Ereignissen wesentlich höher ist, als die, die man durch Parsimonie ermittelt hat. Schlussfolgerungen Die Autoren haben in ihrem ersten Paper gezeigt, dass eine Lösung des Problems, die Anzahl der Inversionen in der Geschichte zweier Chromosomen zu bestimmen, mit einem voll probabilistischem Ansatz möglich ist, und gleichzeitig eine neue Methode entwickelt, auch Marker mit in die Berechnung aufzunehmen, deren Orientierung nicht bekannt ist. Gleichzeitig konnten sie zeigen, dass bei großen Datensätzen die Parsimonie Methoden versagen, weil sie im Berechnen der minimalen Distanz unterstellen, die Natur würde den kürzesten Weg wählen. Zusätzlich können mit diesem Modell, das auch noch eine Inversionsrate berechnet, weitere Hypothesen bearbeitet werden. So könnte man beispielsweise überprüfen, ob die Inversionsrate zwischen Arten einer Species immer konstant ist oder stark variiert. In der zweiten Arbeit wurde das Problem der Inversionen in der Geschichte zweier Chromosomen auf komplette Genome ausgedehnt. Zusätzlich wurden weiter Mutationsereignisse in das Modell mit aufgenommen. Auch hier konnte gezeigt werden, dass auf Wahrscheinlichkeiten basierende Modelle bessere Ergebnisse liefern als die bisher verwendeten parsimonischen Methoden, wenngleich auch hier noch Probleme auftreten, die bisher nicht in den Griff zu bekommen sind. Allerdings traten bei großen Datensätze Probleme auf. Die erzeugten Markovketten konnten bei einem der untersuchten Zusammenhänge nicht das Kriterium erfüllen, mit dem sicher gestellt wird, dass die Ketten konvergiert sind und somit auch keine zuverlässigen Ergebnisse liefern. Das lag hauptsächlich an der Größe des zu untersuchenden Datensatzes. Das zeigt, dass auch hier noch Bedarf besteht, an diesen Modellen zu arbeiten. Man darf bei diesen Untersuchungen nicht vergessen, dass nur relativ wenige Marker verwendet wurden. Mit zunehmendem Wissen über verschiedene Genome, müssen immer mehr Daten auf einmal verglichen werden. Damit steigen auch die Anforderungen an die Methoden, die dazu verwendet werden. Abb.10: Die verschiedenen Initialzustände sorgen für eine gute Abdeckung des Suchraums. Im späteren Verlauf konvergieren die Markovketten, was hier deutlich zu sehen ist. Abb.:11: Zeit bis zum konvergieren der Ketten als Funktion von Epsilon 1 für 30 nicht orientierte Marker . Referenzen Baysian Estimation of the Number of Inversions in the History of Two Chromosomes T. L. York, R. Durrett and R. Nielsen Baysian Estimation of Genomic Distance T. L. York, R. Durrett and R. Nielsen