DNA Gene Evolution Seminar Aktuelle Themen der Bioinformatik Bärbel Lasitschka Sommersemester 2006 Inhaltsverzeichnis 1 Einleitung 2 IQPNNI 2.1 Initialer Baum . . . . . . . . . . . 2.1.1 BIONJ . . . . . . . . . . . 2.1.2 NNI . . . . . . . . . . . . 2.2 Optimierung . . . . . . . . . . . . 2.2.1 Quartet Puzzling . . . . . . 2.2.2 Important Quartet Puzzling 2.3 Stop Kriterium . . . . . . . . . . . 2.3.1 Tests . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Unicyclic Networks:Compatibility and Enumeration 3.1 Biologischer Hintergrund . . . . . . . . . . . . . . . . . 3.2 unicyclic network . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Charakterisierung: unicyclic network . . . . . . . . 3.2.2 Algorithmus . . . . . . . . . . . . . . . . . . . . 3.3 enumerate unicyclic networks . . . . . . . . . . . . . . . 3.3.1 Berechnung der Anzahl unicyclic networks . . . . 3.4 enumerate multicyclic networks . . . . . . . . . . . . . . 3.4.1 Fazit . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Definitionen und mathematische Voraussetzungen 3.5.2 Berechnung zu Theorem 4 item 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 4 6 6 7 8 11 12 . . . . . . . . . . . 13 13 16 21 24 25 26 26 27 28 28 29 3 1 Einleitung Einer der aktivsten Bereiche in der Bioinformatik und evolutionären Biologie ist die phylogenetische Analyse. Durch DNA-Sequenzanalyse und Protein-Sequenzanalyse stehen immense Datenmengen zu Verfügung, die auf molekularer Ebene neue Möglichkeiten bieten, den Ursprung des Lebens zu erforschen. Vergleiche von Nukleotidsequenzen und Vergleiche morphologischer Merkmale lieferten die Einteilung der Prokaryoten in Eu- und Archaebakterien und den Nachweis von Homologien zwischen der rRNS aus Chloroplasten und Cyanophyceen (Endosymbiontenhypothese). Proteine eignen sich weniger die Phylogenie der Arten objektiver zu erfassen als durch Vergleiche morphologischer Merkmale, da sie ebenso wie alle übrigen Strukturen einer Selektion unterworfen sind. Der Selektionsdruck, der auf ein Protein ausgeübt wird, unterscheidet sich jedoch von dem, dem die Individuen ausgesetzt sind. Daher sind die Evolutionsgeschwindigkeiten der einzelnen Proteine und der Organismen unterschiedlich. Phylogenetische Analyse ist auf Grund des exponentiellen Anwachsen der Gendatenbanken in polynomieller Zeit meist nur für kleinere Datenmengen möglich. Außerdem sind fast alle Hauptprobleme in der Phylogenie NP-hart und schon deshalb eine Herausforderung für die Bioinformatik (etwa das Entscheidungsproblem, ob eine perfekte Phylogenie bei gegebener Taxa-Menge existiert) Beide hier vorgestellten Veröffentlichungen beschäftigen sich mit der Rekonstruktion der evolutionären Verwandschaft. Während in der Veröffentlichung von Vinh und Häseler mit dem Algorithmus IQPNNI eine verbesserte Methode zur Rekonstruktion eines phylogenetischen Baumes vorgestellt wird, behandeln Semple und Steel die neuere Hypothese, dass sich der evolutionäre Verwandschaftsgrad optimaler in einem Netzwerk darstellen läßt. Das Ziel der Arbeit von Semple und Steel ist es, eine mathematische Grundlage für ein einfaches Modell eines phylogenetischen Netzes zu liefern. 2 IQPNNI Moving fast through Tree Space and Stopping in Time IQPNNI verwendet eine kombinierte Methode aus branch swapping (NNI), zufälligem Entfernen von Sequenzen und Addition von einzelnen Sequenzen (IQP), um effizient einen phylogenetischen Baum zu rekonstruieren. Diese heuristische Suche im Raum aller möglichen phylogenetischen Bäume verhindert, dass der Algorithmus IQPNNI vorzeitig gegen ein lokales Optimum konvergiert, wie es bei hill climbing Methoden wie NNI auftreten kann. Das erneute Einfügen vorher entfernter Sequenzen erfolgt über eine Auswahlprozedur, in 2.1 Initialer Baum 4 der mögliche optimale Pfade gekennzeichnet werden. Diese werden über Quartette von Blättern bestimmt, die nahe zusammenliegen und daher auch verwandter sind. Durch randomisiertes Löschen und Wiedereinfügen entstehen viele intermediäre Zwischenbäume, die jeweils ein lokales Optimum darstellen. Das globale Optimum ist gefunden, wenn die Anzahl der benötigten Iterationen um einen besseren Baum zu finden, einem Stop-Kriterium genügt. BIONJ, NNI Build Inital tree reorganize tree topology better tree? yes no likelihood ? update best tree nimm diesen Baum stop ? 95% der erwarteten no Iterationen ? yes Theory of Cook, Robert, Solow Abbildung 1: Überblick über den Algorithmus IQPNNI 3.2 2.1 2.1.1 Initialer Baum BIONJ Der Initiale Baum wird mit einer verbesserten Version des Neighbor joining (NJ) Algorithmus aus den Taxa erstellt. Neighbor joining wählt iterativ aus der Menge N ein Paar Taxa aus, für das die genetische Distanz minimal ist. Dazu werden in einem ersten Schritte die durchschnittlichen Distanzen zu jedem anderen Taxon berechnet, die dann von allen anderen Taxa abgezogen werden. Die Auswahl der Taxa erfolgt auf Grund der Distanzen Dij = ij (ri + rk ) mit ri = N X 1 2 k=1;N ik ) 2.1 Initialer Baum 5 Die Distanz zum neuen gemeinsamen Knoten u ergibt sich folgendermaßen: • ui = • uj = Diese Formeln lassen sich allgemeiner schreiben, mit = joining: ui = i + (1 ) i u 1 2 1 2 1 2 1 2 ( ( 1 2 1 2 j + j u u) 1 2 1 2 für den Algorithmus Neighbor (1 1 i + i u u) ) u ) 2 BIONJ verwendet nicht = , sondern wird aus Varianzen und Kovarianzen der jeweiligen Distanzmatrix berechnet, d.h. man versucht die Varianz der neuen reduzierten Distanzmatrix zu minimieren. 1 2 Sei ij eine Schätzung der evolutionären Distanz, vij die Varianz dieser Schätzung und covij;kl die Kovarianz von ij und kl . Das Ziel ist ein zu bestimmen, sodass die Varianzen des Mittelpunkts c der Schätzungen i und i möglichst klein sind, dabei gilt: 1 2 X = (v2i i =3;r X (v1i + v2i i=3;r cov i; i ) 1 2 2 cov i; i ) 1 2 Damit können die Varianzen des Distanzen des neuen Mittelpunktes c zu den anderen Knoten i berechnet werden. BIONJ liefert insbesonders bei hohen Substitutionsraten bessere Ergebnisse. 2.2 Optimierung 6 Abbildung 2: Ein Vergleich des Distanz-Baumes, der über Neighbor Joining berechnet wird und des Varianz-Baumes im BIONJ Algorithmus 2.1.2 NNI Der initiale Baum wird mit Branch Swapping über Nearest Neighborhood Interchange (NNI) verbessert. NNI versucht die Likelihood eines gegebenen Baumes durch folgende Strategie zu verbessern: • Jede interne Kante hat 4 Subtrees • es gibt 3 Möglichkeiten diese anzuordnen • wähle die Beste {large conditional likelihood} 2.2 A C B D A B C D A C D B Optimierung Der mit Hilfe von BIONJ und NNI konstruierte initiale Baum Tbest mit einer log-likelihood lbest wird durch Entfernen von Blättern reduziert. Der Eingabeparammeter pdel bestimmt die Wahrscheinlichkeit mit der ein Blatt entfernt wird. Das Wiedereinfügen der Blätter geschieht mit der neuen Methode Important Quartet puzzling (IQP). Ist der Baum T wieder vollständig rekonstruiert, wird Tintermediate über NNI optimiert. 2.2 Optimierung 2.2.1 7 Quartet Puzzling Quartet Puzzling ist eine divide-and-conquer Methode zur Rekonstruktion phylogenetischer Bäume über Maximum Likelihood. Ein Quartet ist eine der möglichen Topologien, die durch vier Taxa gegeben sind. Jeder Baum hat eine eindeutige Menge von Quartetten. Durch Quartet Puzzling wird der Suchraum in viele Unterbäume mit je 4 Blättern (Sequenzen) zerlegt, die Berechnung der Likelihood Werte ist dadurch in polynomieller Zeit durchführbar. 1. Maximum Likelihood Step: Für alle möglichen n Quartette wird die beste der möglichen 3 Topologien ge sucht, d.h. ML nur für jeweils 4 Sequenzen, insgesamt ML für 3 n Topologien 4 4 2. Puzzling Step: Randomisiere die gegebenen Taxas ABCDE... und wähle ein Quartett mit besten ML für ABCD Wähle random die Blätter aus und puzzle sie sequentiell an den Unterbaum. Dieser Zwischenbaum stellt ein lokales Optimum dar. Der Puzzling Step wird so oft wie möglich wiederholt, die Standardeinstellung ist 1000. 3. consensus step: Alle Zwischenbäume werden auf Übereinstimmung untersucht. Das globale Optimum wird über Bootstrapping bestimmt. zu 2: Puzzling Step Der Puzzling Step wird im folgenden näher erläutert, da er die Grundlage für die verbesserte Version des Quartet Puzzling bildet. Es gibt bei 4 Sequenzen drei verschiedene Topologien, man verwendet die Beste (MLWert): a b c y a c b y a y b c • Ta;bjc;y • Ta;cjb;y • Ta;yjb;c Die Auswahl der Kante an der ein Blatt E eingefügt werden soll, erfolgt über den Score, der für die Kante im relevanten Quartet - das neue Blatt und jedes der Blätter, die schon im wachsenden Baum sind - vergeben wurde. Das Blatt wird an der Kante mit niedrigstem Score eingefügt. Nimmt man z.B an, dass am Quartett ABCD ein Blatt E eingefügt 2.2 Optimierung 8 werden soll: AEjjBC A C 0 0 0 B 0 0 D A 0 1 AEjjBD C A 1 0 1 B 0 2 D B C 2 1 1 D dann sollte E nicht zwischen BC liegen, daher wird diesem Pfad ein Strafpunkt zugeordnet, ebenso dem Pfad BD etc, sodass man zuletzt die Kante mit der kleinsten Anzahl von Strafpunkten - hier AB - verwendet, um E einzufügen: A A C 1 3 B 4 2 2 D C E B D Quartet Puzzling hat eine Komplexität von O(n ), daher können nur bis zu ca 100 Sequenzen effizient bearbeitet werden. Bei gegebenem Baum ist es einfach, eine minimale Anzahl an Quartetten zu finden, die den Baum eindeutig beschreiben. Typisch in der Phylogenie ist jedoch der Fall, dass man versucht, einen unbekannten Baum zu bestimmen. Quartet Puzzling schränkt dieses Problem insofern ein, da man nur ein Blatt an einen sonst bekannten Baum einfügen muß. 4 2.2.2 Important Quartet Puzzling Die verbesserte Version Important Quartet Puzzling basiert auf der Idee eine Vorauswahl an optimalen Quartetten zu treffen. Es wird ein natürliches Ranking der Blätter um einen inneren Knoten definiert, um eine Verwandschaftsbeziehung zwischen 3 Blättern des wachsenden Puzzle-Baumes und dem neu einzufügenden Blatt herzustellen. Definitionen 1. disjunkte gewurzelte Unterbäume Sei T ein ungewurzelter Baum, dann teilt jeder innere Knoten x den Baum T in 3 disjunkte Unterbäume mit Wurzel x. Man erhält: 2.2 Optimierung 9 h g • • b • c T1 T2 T3 x x x x d e t a 2. k-representative leaf set Die Menge der k-representative leaf Sets bildet die Grundlage für den Important Quartet Puzzling Algorithmus. Die k-representative leaf Sets Skx Ti eines Unterbaums Ti enthalten höchstes k Blätter mit kürzestem Abstand zur Wurzel x. Jeder Kreis kennzeichnet die Ebene in der sich die Blätter befinden. h g • • b • c S (T x ) = {a,e} S (T x ) = {c,d} S (T x ) = {b,g} 2 1 2 2 3 3 x d e t a 3. important quartet Ein Quartet q = ft ; t ; t ; y g heißt ein important quartet eines internen Knoten x eines ungewurzelten Baumes T genau dann, wenn: 1 2 3 • y kein Blatt des Baumes T ist • t ; t ; t sind jeweils Elemente der k-representative leaf sets Sk (T x ), Sk (T x ) bzw Sk (T x ) 1 2 3 1 2 3 Ein important Quartet enthält 3 aus den Unterbäumen gewählten Blätter und ein neu einzufügenden Blatt y. Ein Blatt wird aus einem Unterbaum gewählt, wenn es in der Menge der Blätter mit kürzestem Abstand zur Wurzel x liegt. Da diese Menge für jeden Unterbaum durch den Eingabeparameter k beschränkt ist, gibt es 2.2 Optimierung 10 für jede neue Sequenz y und für jeden internen Knoten O(k ) Important Quartets, insgesamt sind also bei n inneren Knoten O(nk ) möglich. Durch die Konstruktion liegen die Knoten nahe zusammen und sind daher verwandter. Da in diesem Fall weniger Rück-Substitutionen auftreten, kann man davon ausgehen, dass der berechnete Baum genauer ist. 3 3 Beispiel Wie das folgende Beispiel zeigt , geschieht das Einfügen des Blattes y über die Important Quartets eines Baumes und die damit verbundenen Pfade. Jeder ausgewählte Pfad erhält einen Score von 1, in den Pfad mit dem höchsten Score wird y eingefügt. Verwendet man ein 2-representative leaf set, so sind 8 Möglichkeiten zum Einfügen der neuen Sequenz gegeben, im Fall des Quartet Puzzlings wären es = 140 Möglichkeiten. x x Für ein 2-representative leaf set: S (T ) = {a,e}, S (T ) = {b,g}, S (T x ) = {c,d} gibt es nach Einfügen einer neuen Sequenz y insgesamt acht important quartets: (y,a,b,c),(y,a,b,d),(y,a,g,d),(y,e,b,c),(y,e,b,d),(y,e,g,c),(y,e,g,d) Beginnend mit Quartett (y,a,b,c) und der damit verbundenen Aufteilung in Tayjjbc wird für alle Pfade im Unterbaum (T x ) ein Score von 1 eingefügt: 8 4 2 2 1 2 2 3 1 h h g b g b c c x 1 d e t a e 1 x d 1 t 1 1 a Wiederholt man diese Prozedur für alle 8 Important Quartette aus, so ergibt sich abschließend eine Kante mit einem höchsten Score in die y eingefügt wird. Optimierung Die Blätter des Baumes Tbest werden mit einer Wahrscheinlichkeit 0 < pdel < 1 entfernt. Danach wird jedes Blatt mit Hilfe von Important Quartet Puzzling wieder eingefügt und der entstehende Baum Tintermediate mit Nearest Neighborhood Interchange optimiert. 2.3 Stop Kriterium 11 Über einen Vergleich wird der bisher optimalste Baum bestimmt, falls log-likelihood Lintermediate > Lbest , setze: Tbest = Tintermediate und Lbest = Lintermediate 2.3 Stop Kriterium Quartet puzzling erstellt nach einer vorgegebenen Anzahl von berechneten Bäumen einen consensus Baum und bricht ab. Bei der Methode IQPNNI könnte jedoch nach weiteren Iterationen ein besserer Baum gefunden werden, sodaß man durch einen vorzeitigen Abbruch nicht das globale Optimum findet. Zur Berechnung eines Stop-Kriteriums wird bei IQPNNI eine Schätzmethode angewandt, die auf der Anzahl der Iterationen zwischen 2 lokalen Optima (Tbest wird durch Tintermediate ersetzt) basiert. Diese Schätzmethode, ursprünglich von P.Cooke (1980) im Zusammenhang mit der Optimalität der Schätzer bei Vorhandensein nur der letzten oder ersten Beobachtungsdaten diskutiert, wurde von Robert und Solow(2003) benutzt, um eine statistische Methode zu entwerfen, die die Zeit des Aussterbens des Vogels Dodo (Raphus cucullatus) berechnet. Auf Grund des Nachweises von Cooke konnte angenommen werden, dass die gemeinsame Verteilung der letzten k Jahreszahlen zu denen der Dodo gesehen wurde die gleiche Weibull Form wie die Elternverteilung hat. Außer der Tatsache, dass hier als Meßproben nicht Jahreszahlen, sondern Anzahl der Iterationen vorliegen, kann die Methode direkt auf IQPNNI übertragen werden. Optimale lineare Schätzmethode Der optimale lineare Schätzer ist die Summe der gewichteten Anzahlen der Iterationen i : X ai i b = i=1;k mit ai berechnet aus der Gamma Standardfunktion (Erweiterung der Fakultät auf die positiven reellen Zahlen) und dem Shape Parameter der Weibull Verteilung b : X k b = k log 1 1 j =1;k 1 1 2 j +1 Dann kann während des Algorithmus nach jedem lokalem Optimum Tbest über die Anzahl der benötigten Iterationen k das 95% Konfidenzintervall berechnet werden (mit = 0:05): (1 )100% = 1 + ( 1 k log ) b k 1 Das Konfidenzinterval wird als Stop-Kriterium stop verwendet. Wurde nach stop Iterationen kein besserer Baum gefunden, so wird der Algorithmus abgebrochen. (1 )100% 2.3 Stop Kriterium 2.3.1 12 Tests IQPNNI wurde sowohl mit simulierten als auch mit realen Daten und im Vergleich u.a mit Programmen MetaPIGA und PHYML getestet. Besonders interessant ist der Test mit einem Datensatz von ssu-rRNA mit einer Anzahl von 218 Taxa. Die ribosomale RNA ist ein idealer chromosomaler Chronometer, da sie zur Grundausstattung jeder lebenden Zelle gehört und in allen Organsimen die gleiche Funktion hat. Die Gene der rRNA unterliegen wahrscheinlich nur selten dem horizontalen Gentransfer, die rekonstruierten Bäume sind daher akkurater. PHYML ist ein hill-climbing Algorithmus, der ebenfalls den initialen Baum mit BIONJ rekonstruiert. Über Berechnung der conditional likelihoods der NNI-ähnlich bestimmten Unterbäume erfolgt eine branch-length Optimierung. Der optimale Baum, d.h der Baum mit dem größten Likelihood, wird durch Änderung der Parameter der Substitution-Modelle gesucht. MetaPIGA ist ein genetischer Algorithmus, der Prozesse der Evolution wie Mutation, Selektion und Reproduktion simuliert. Ausgehend von mehreren Populationen werden über Consensus Pruning, die Teile des phylogentischen Baumes ausfindig gemacht, die Subjekt dieser Prozesse sein können. Auch MetaPIGA verwendet ein Stop-Kriterium, entweder hatten die besten Bäume aller Populationen identische Topologien oder der Score des besten Baumes aller Populationen verbesserte sich nach Anwendung aller Informationen des letzten consensus nicht mehr. Runtime mit ssu rRNA Daten number of sequences 218 PHYML MetaPIGA IQPNN 5.1 min 1.2 h 8.4 h 95% Im Vergleich zu PHYML und MetaPIGA ist IQPNNI sehr langsam, betrachtet man jedoch die Likelihood-Werte so ist eine deutliche Verbesserung sichtbar. IQPNNI generierte in diesem Lauf 258 Bäume (rote Linie in Abb.3) von denen 219 eine höhere Likelihood als die besten PHYML Bäume (blaue Linie) hatten, 121 IQPNNI -Bäume waren besser als im MetaPIGA Lauf (grüne Linie). Die + Zeichen geben die Bäume an, die auf Grund des kombinierten IQPNNI Algorithmus erzeugt wurden. 13 Abbildung 3: rRNA Eingabedaten in Vergleichsläufen IQPNNI, PHYML, MetaPIGA 3.2 3 3.1 Unicyclic Networks:Compatibility and Enumeration Biologischer Hintergrund Fast alle Methoden zur Rekonstruktion der Evolution basieren auf der Annahme, dass die Evolution einer Menge von Spezies von einem Baum repräsentiert werden kann. In einer Baum Topologie werden die Spezies jedoch nur über einen gemeinsamen Vorfahren verbunden, andere Verwandschaften zwischen den Spezies können nicht berücksichtigt werden. Dieses Modell kann eine zufriedenstellende erste Approximation für viele Organismen geben, viele Familien weisen jedoch evolutionäre Entwicklungen auf, die nicht durch einen Baum darstellbar sind. Nachweise einer netzartigen Evolution (reticulate evolution) wurden in unterschiedlichsten Kontexten gefunden, so spielt etwa in der Evolution der Bakterien der horizontale (laterale) Gentransfer eine wichtige Rolle. Auch die Endosymbiontentheorie, die besagt, dass eine Reihe von Zellorganellen in den Zellen von Eukaryonten durch Einverleiben oder Fusion von verschiedenen Organismen entstanden sind, ist auf lateralem Gentransfer begründet. Insbesonders geht man davon aus, dass sich Mitochondrien und Chloroplasten aus Prokaryonten entwickelt haben. Lateraler Gentransfer bei Pflanzen ist bekanntermaßen möglich d.h. jede beliebige genetische Information kann in Pflanzenzellen eingebracht werden, dort stabil integriert und zur Expression gebracht werden. Wahrscheinlich kommt lateraler Gentransfer jedoch natürlicherweise auf Grund der pflanzlichen Entwicklung und Selektionskriterien kaum vor. In der pflanzlichen Evolution führt z.B Allopolyloidie, zum Entstehen neuer Organismen. Allopolyploidie ist eine Form der Polyploidie, bei der zwei oder mehr Chromosomensätze von verschiedenen Arten im Zellkern existieren, die durch Hybridisierung verwandter Ar- 3.1 Biologischer Hintergrund 14 ten mit anschließender Bildung unreduzierter Gameten, und nachfolgender Selbstung (Bestäubung mit Pollen des gleichen Individuums) entstehen. Viele Arten sind auf diese Weise entstanden, zum Beispiel Weizen, Raps und Tabak. Reticulate Evolution kann durch biologische Prozesse wie Rekombination, Gentransfer, Genom Fusion und Bildung hybrider Spezies ausgelöst werden. • Rekombination: Eine Rekombination der Gene, d.h. ein Austausch von Erbinformationen kann während der Meiose entstehen. Aufgrund des Vorhandenseins ähnlicher DNA-Sequenzen kann bei der Paarung homologer Chromosomen eine Überkreuzung von 2 Chromatiden stattfinden, die keine Schwesterchromatiden sind. Als Resultat entsteht eine Mischform, die DNA von beiden Spezies enthält. • horizontaler Gentransfer : Die 3 Mechanismen Konjugation, Transformation und Transduktion führen zum Austauch von Genmaterial. Bei Transformation handelt es sich um Aufnahme freier DNA, während der Konjugation bilden sich Plasmabrücken und tauschen DNA über Zell-Zell Kontakt aus, Transduktion ist die Übermittlung verpackter DNA mittels Bakteriophagen: • hybride Spezies, Genom Fusion: Hybride sind Nachkommen von Individuen unterschiedlicher Arten bzw unterschiedlicher Entwicklungslinien derselben Art. Man geht davon aus, dass die meisten 3.1 Biologischer Hintergrund 15 existierenden Pflanzenarten in ihrer Stammesgeschichte mindestens ein Hybridisierungsereignis hatten. Der häufigste Mechanismus der zur Hybridbildung führt, ist die Polyploidie, die Vervielfachung, meist Verdopplung des Chromosomensatzes: Eine Vielzahl von Untersuchungen zeigt, dass die Einteilung in die 3 Großreiche Eubakterien, Archebakterien und Eukaryonten und deren Abbildung in einem Baum, widersprüchlich ist. Der Vergleich der Proteine führte zur Erkenntnis, dass viele eukaryotischen Gene nahe Verwandschaft zu Eubakterien zeigen,wenn man die Enzyme der Glykolyse und der Biosynthese von Lipiden vergleicht, andererseits weisen ribosomale Proteine oder RNA Polymerasen große Übereinstimmung mit den entsprechenden Proteinen von Archebakterien auf. Ein neuer Algorithmus conditional reconstruction wurde von Rivera und Lake entwickelt, um Genom Fusionen rekonstrieren zu können. Zur Berechnung eines globalen Alignments wurden im Test 8 Genome verwendet, drei Bakterien, drei Archeae und 2 Eukaryonten. Ein 3.2 unicyclic network 16 Alignment der 5 wahrscheinlichsten Bäume zeigt, dass alle 5 Bäume Permutationen eines zugrunde liegenden zyklischen Musters sind, mit anderen Worten, die Daten sind nicht tree-like sondern ring-like. Der Ursprung des Lebens scheint ringförmig aufgebaut zu sein und Ergebnisse des Algorithmus lassen die Annahme zu, dass die heutigen Eukaryonten aus der Fusion zweier unterschiedlicher Prokaryonten hervorgegangen sind. Abbildung 4: Algorithmus conditioned reconstruction liefert Anzeichen für einen ring of life 3.2 unicyclic network Die Arbeiten von Rivera und Lake waren neben der Tatsache, dass der einfachste Typ eines reticulate network einen Graph mit nur einem Kreis darstellt, für C.Semple und M.Steel Motivation diese Klasse von Graphen unicyclic networks mathematisch zu untersuchen. Dabei standen die folgenden Themen im Vordergrund: • Charakterisierung: Wann wird eine Menge von binären phylogenetischen Bäumen durch ein unicyclic network dargestellt? • Algorithmus: um 1-cycle Kompatibilität festzustellen • Enumerate unicyclic: Zählen von unicyclic networks (spezifierte, unspezifizierte cycle length) • Enumerate multicyclic: Zählen von multicyclic networks einer bestimmten Klasse 3.2 unicyclic network 17 Definitionen • phylogenetischer X-Tree ein phylogenetischer X-tree ist ein Baum T=(V,E) mit einer Menge X von labeled Blättern – alle inneren Knoten sind ungelabeled und haben Grad 3 – falls alle inneren Knoten vom Grad = 3, ist T ein binärer phylogenetischer X-tree a g f c e b mit der Menge X={a,b,c,d,e,f,g} der Blätter d • unicyclic network Ein unicyclic network auf X ist ein Graph G, der genau einen Cycle hat. – dieser Graph hat mindestens die Länge 3 – jeder innere Knoten ist vom Grad 3 – die Menge der Knoten vom Grad 1 ist die Menge der Blätter – wenn man eine Kante im Kreis entfernt, erhält man einen binären phylogenetischen X-Tree • Graph G displays a X-Tree a g f a c e b d g f e b c d Der Graph G displays einen binären phylogenetischen X-Tree, wenn man den XTree aus dem Graphen erhält,indem man eine Kante entfernt und die entstehenden Knoten mit Grad 2 unterdrückt. 3.2 unicyclic network 18 • 1-cycle compatible Graph G displays eine Menge P von phylogenetischen X-Trees, wenn jeder X-Tree dieser Menge P durch Entfernen einer Kante und Unterdrücken der entstehenden Grad 2 Knoten aus dem Graphen gewonnen werden kann. In diesem Fall sagt man, dass P 1-cycle compatible ist. • Anzahl der X-Trees im unicyclic network G G muß eine Zyklenlänge von mindestens k 3 haben, d.h. die Anzahl der inneren Knoten, die auf dem Kreis liegen ist mindestens 3. Dann displayed das unicyclic network G genau k-2 X-Trees. Im Beispiel ist die Zyklenlänge genau 3 und wir erhalten einen X-Tree • isomorphe unicyclic networks Wenn zwei unicyclic networks G und G’ isomorph sind , gibt es einen Graph Isomorphismus zwischen G und G’. Auf X-Trees bezogen, kann man von einer identischen Abbildung sprechen. • X-Splits Ein X-Split ist eine Teilung des binären phylogenetischen X-Tree in 2 nichtleere P Mengen. Jeder X-Tree hat eine eindeutige Menge von X-Splits (T ). Man sagt, der X-Split AkB entspricht der Kante e, wenn das Entfernen der Kante e zu 2 nichtleeren Mengen A und B des X-Trees führt: 1 7 5 1 6 3 e 2 ;;;;; (2 3 4 5 6 7) 7 ;;;;; (1 2 3 4 5 6) ; ; ;;;;; (1 3 4 5 6 7) (1;5) ;;;; (2 3 4 6 7) ; 3 4 2 P T ) entspricht dann der Menge aller Kanten von T: ; ;;;;; ; ;;;;; ; ;;;;; ; ;;;;; ; Die Menge der X-Splits 2 6 5 4 1 7 ( 3 4 5 6 (1 2 4 5 6 7) (1 2 3 5 6 7) (1 2 3 4 6 7) (1 2 3 4 5 7) (7;6) ;;;; (1 2 3 4 5) ; (3;4) ;;;; (1 2 5 6 7) ; ;; ;;; (2 5 1) (3 4 6 7) • Zirkuläre Ordnung Jede Baum Topologie legt automatisch eine zirkuläre Ordnung der Taxa fest, d.h. die Reihenfolge in der die Blätter durchlaufen werden ist durch die gewählte Anordnung der Blätter gegeben: Die zirkuläre Ordnung einer Menge von Blättern = fA; B; C; D; E g ist die kürzeste Tour durch den Baum T(S) , bei der jede Kante 2-mal besucht wird und jedes Blatt genau einmal. Im Grunde liegt hier das TSP Problem auf der Menge der 3.2 unicyclic network 19 Blätter vor. Am Beispiel Graph ist sichtbar, dass die Menge der X-Splits und die zirkuläre Ordnung Charakteristiken eines X-Trees sind. • zirkuläre Menge von X-Splits Sei = fx ; x ; :::xn g eine zyklische Permutation von X, dann ist die Menge aller möglichen Splits für alle zyklische Permutationen mit Aij = fxk : i k j g gleich : 1 P 0 P ( 2 ) = fAij j(X Aij ) : 1 i j n P g 1 P Wenn 0() ist die Menge von X-Splits zirculär, d.h. die spezifische Menge der X-Splits eines Baumes ist in diesem Fall eine Untermenge der Menge aller möglichen Splits auf der Menge der Permutationen . • kompatible und inkompatible Splits A jB ; A jB , ist mindestens eine Durchschnittsmenge A \ B ; A \ B ; A \ B ; A \ B leer. X-Trees, die nur kompatible X-Splits ha- Bei kompatiblen X-Splits: 1 1 1 2 2 1 1 1 2 2 2 2 ben, können durch einen neuen Baum dargestellt werden, nur inkompatible X-Splits liefern Zyklen 3.2 unicyclic network 20 Abbildung 5: Kompatible und inkompatible Splits, D.Huson, 2005 Tree Rearrangement Operationen Tree Rearrangement Operationen spielen eine bedeutende Rolle in der Phylogenetik, da sie über die Anzahl der Schritte mit denen ein Baum in den anderen überführt werden kann, eine Maßzahl für die phylogenetische Nähe der Bäume liefern. Von den 3 bekannten Tree rearrangement operationen, NNI - nearest neighborhood interchange, TBR - tree bisection and reconnection und SPR - subtree pruning and regrafting, sind die beiden letzten für die nachfolgenden Beweise essentiell. • TBR - tree bisection and reconnection Nach X-Split des Baumes T , d.h.nach Entfernen einer Kante wird eine neue Kante hinzugefügt. Die Endpunkte von f müssen nicht zur Knotenmenge T gehören. Dadurch entsteht ein neuer Baum T . 1 1 2 a g a f c e b g f c e d g f d b c f a d b e • SPR - Subtree Pruning an Regrafting SPR ist ein Spezialfall von TBR. Wie bei TBR wird nach X-Split des Baumes T eine neue Kante f hinzugefügt und es entsteht der neue Baum T . Ein Endpunkte von f muss jedoch zur Knotenmenge von T gehören. 1 2 1 a g a f c e b d g g f f c e b d c a e fd b 3.2 unicyclic network 21 • Distanzen Gesucht ist die minimale Distanz, d.h. die minimale Anzahl von Operationen um einen Baum T in einen Baum T zu überführen. Dabei sei dT BR (T ; T ) die Distanzmessung über TBR und dSP R (T ; T ) die Anzahl der mit SPR benötigen Schritte. Man kann jederzeit durch diese Operationen T aus T erzeugen und umgekehrt, im besonderen gilt die folgende Abschätzung: 1 2 1 1 2 2 1 2 dT BR (T ; T ) dSP R (T ; T ) 2dT BR (T ; T 1 3.2.1 2 1 2 2) 1 Charakterisierung: unicyclic network Die mathematische Charakterisierung eines unicyclic network aus Sicht der Graphentheorie wurde bereits behandelt. Jetzt soll mit Hilfe der vorgestellten phylogenetischen Begriffe das Problem - die Erkennung eines unicyclic network aus einer Menge von Taxa - gelöst werden. Um das Problem zu vereinfachen, wird vorerst die Menge der X-Trees auf den Betrag 2 reduziert. Wenn die TBR-Distanz zweier X-Trees eins beträgt, ist es einfach die beiden Trees in einem Kreis anzuordnen, falls ihre Blätter aus der Menge der Permutationen stammen. Im Beispiel von Rivera und Lake konnten die phylogenetische Bäume durch sukzessives Hinzufügen der einzelnen Kanten nacheinander im Kreis angeordnet werden, sie waren 1-cycle compatibel. Das bedeutet, dass erstens der Nachweis erfolgen muß, dass eine TBR-Distanz von 1 die 1-cycle Kompatibilität einschließt (1) und zweitens, dass die Vereinigungsmenge von 1-cycle kompatiblen X-Trees wieder zirculär ist (2). zu (1): Theorem 1 Es sind 2 unterschiedliche binäre phylognetische X-Trees T und T gegeben. Dann gibt es ein unicyclic network G on X das fT ; T g displayed genau dann, wenn dT BR (T ; T )= 1 1 1 2 2 1 2 Beweis: Entfernt man die Kanten e bzw e , so ist nach Voraussetzung Gne isomorph zu T und Gne isomorph zu T . Das bedeutet, dass man jeden Baum Ti aus Gne ; erhalten kann, wenn man eine Kante ei hinzufügt. Dies entspricht aber genau der Definition von dT BR (T ; T )= 1. Andererseits ist es unter der Voraussetzung dT BR (T ; T )= 1 möglich aus jedem Baum T durch Hinzufügen einer Kante e einen unizyklischen Graphen zu erhalten, der wiederum nach Entfernen der Kante e dem Baum T entspricht. 1 2 1 2 1 2 1 1 2 2 1 2 1 2 2 1 3.2 unicyclic network 22 zu (2): Satz 1 Es sind 2 unterschiedliche binäre phylognetische X-Trees T und T gegeben. Falls {T P P 1-cycle-compatibel sind, dann ist (T ) [ (T ) zirculär. 1 1 2 1 ;T 2 } 2 Beweis: Betrachtet man den planaren Graphen S.19 , so sind die Blätter von T und T auf dem Kreis angeordnet und die Menge der zirkulären Splits von T und T ist eine zyklische P P P Permutation von X, d.h. es gilt (T ) [ (T ) ( ) . 1 1 2 2 0 1 2 Eine weitere Charakterisierung kann über die Distanz dSP R erreicht werden. Wie bekannt, gilt die Abschätzung dT BR (T ; T ) dSP R (T ; T ) 2dT BR (T ; T ), dSP R kann daher nur die Werte 1 oder 2 annehmen, wenn dT BR = 1 vorausgesetzt ist. 1 2 1 2 Satz 2 Es sind 2 unterschiedliche binäre phylognetische X-Trees men {T ; T } sind 1-cycle-compatible, dann gilt: 1 1 T 1 und 2 T 2 gegeben. Angenom- 2 1. falls dSP R (T ; T ) 6= 1, dann gibt es genau ein unicyclic network auf der Menge X, das die Bäume T und T displayed 1 2 1 2 2. falls dSP R (T ; T ) = 1 and the pruned subtree besteht aus einem Blatt, gibt es genau ein unicyclic network auf der Menge X, das die Bäume T und T displayed 1 2 1 2 3. falls dSP R (T ; T ) = 1 and the pruned subtree besteht aus mindestens zwei Blättern, dann gibt es genau drei unicyclic networks auf X, die T and T displayen. 1 2 1 2 Beweis: Wie bereits in Theorem 1 bewiesen, ist das unicyclic network ein Zwischenzustand für die Umwandlung des Baumes Ti in den Baum Tj . Durch Entfernen und Hinzufügen von Kanten kann ein Baum in den anderen transformiert werden. An welcher Stelle die entsprechende Kante e eingefügt werden kann, wird über die Zuordnung kompatible und inkompatible X-Splits gelöst. Da X-Trees mit kompatiblen Splits durch einen neuen Baum dargestellt werden können, genügt es an dieser Stelle nach inkompatiblen Splits für T und T zu suchen. 2 1 2 3.2 unicyclic network A 23 B e C + Kante 1 F E e Unicyclic Network displays T und T 2 1 D 2 T1 - Kante A B e e 1 C 2 F E D T2 Der Beweis Satz 2 beruht daher vor allem auf der Suche aller möglichen inkompatiblen X-Splits. Betrachtet man für (item 1) die beiden Bäume T und T , so sind (A [ B )j(X (A [ B )) und (B [ C )j(X (B [ C )), sowie (E [ F )j(X (E [ F )) und (E [ D)j(X (E [ D)) inkompatible Splits. Das bedeutet, dass es nur genau einen Weg gibt, um die Kante e an T einzufügen, d.h. es gibt nur ein unicyclic network das beide X-trees T und T displayed 1 2 2 1 T Bi 1 A 1 1 2 T B e 1 2 C e 2 F D E 1 Ei Sind im Baum T die Unterbäume B und C beide leer, so liegt Satz 2 item 2 vor, d.h. es gilt sowohl dT BR (T ; T ) = 1 als auch dSP R (T ; T ) = 1. Auch in diesem Fall kann der verbliebene Unterbaum A mit 2 verschiedenen Kanten an E gehängt werden. 1 1 2 1 2 3.2 unicyclic network 24 Für Satz 2 item 3 gilt, dass entweder der Unterbaum B oder der Unterbaum E leer ist, o.B.d.A kann angenommen werden, dass B leer ist. Dann existieren 3 Möglichkeiten A und C an den Teilbaum {F, E, D } zu hängen: A e 1 e 1 C D F e 2 F E C Ei 1 C A e 2 D E 1 A e Ei e 1 2 F D E Ei 1 Damit ist eine Charakterisierung für den Fall erbracht, dass zwei X-Trees ein unicyclic network bilden. Zur Verallgemeinerung auf beliebig viele X-Trees, verwendet man Theorem 1, d.h. man kann jeden X-Tree aus einem unicyclic network erhalten kann, soweit die beiden Voraussetzungen zirkulär und dT BR (Ti ; Tj ) = 1 erfüllt sind. Im Besonderen kann man für jeden X-Tree prüfen, ob diese Voraussetzungen erfüllt sind. Theorem 2 Sei P’ eine Menge von X-trees mit kP 0 k 3 Dann ist P’ genau dann 1-cycle compatible, falls für alle Untermengen P der Größe 3, P 1-cycle compatible ist. In diesem Fall gibt es ein eindeutiges unicyclic network on X das P’ displayed. Beweis: Wir teilen die Menge der X-Trees P’ in Untermengen P mit jeweils 3 X-trees. Dann sind diese natürlich 1-cycle compatible wenn P’ 1-cycle compatible ist. Andererseits gilt unter Verwendung Satz 2 item 1,2 mit P’={T ; T ; T ; T ; :::} und P = {Ti ; Tj ; Tk } gibt es genau 1 unicyclic network. Da jeder Tree mit dtrb = 1 in den anderen überführt werden kann, sind die Untermengen beliebig und decken somit die Gesamtmenge P’ ab. Im Fall Satz 2 item 3 kann es ein oder drei unicyclic networks geben. Durch Widerspruch kann man jedoch auch hier beweisen, dass ein bestimmter Baum nur zu einem der drei unicyclic networks gehört. Angenommen für bestimmte i und j sind die unicyclic networks G (displays)fT ; T ; Ti g und G (displays)fT ; T ; Tj g nicht isomorph. Es gibt jedoch ein unicyclic network das fT ; Ti; Tj g displayed. Angenommen dies ist G , G displayed aber nicht Tj , dies gilt entsprechend für G , also bleibt nur das dritte unicyclic network. 1 2 1 2 1 1 2 1 2 1 3 4 1 2 3.2 unicyclic network 3.2.2 25 Algorithmus Eingabe: Eine Menge P von binären phylogenetischen X-Trees Ausgabe: Ein unicyclic network G das P displayed oder die Aussage, dass P nicht 1-cycle compatible ist. 1. Wähle 2 Bäume T 1 T 2P und 2. entscheide, ob dT BR (T 1 2 ;T 2) = 1 gilt nein stop und Ausgabe P ist nicht 1-cycle compatible ja konstruiere nach Satz 2 ein oder drei unicyclic networks 3. Wähle einen anderen Baum T 2P 3 4. prüfe ob eines der unicyclic networks ( T 3 displayed nein stop und Ausgabe P ist nicht 1-cycle compatible ja prüfe, alle weiteren Ti auf diese Weise 5. falls die Restmenge von P abgearbeitet ist, Ausgabe: P ist 1-cycle compatible Flußdiagramm 1-cycle compatibility Choose any trees T ;T 1 2 construct 1 or 3 unicyclic network that displays yes d TBR (T1 ; T2 ) = 1? no T1 ; T2 choose the network G which displays T3 another tree in P ? yes select ano- yes ther tree Ti G displays Ti ? no return unicyclic network G P is not 1-cycle compatible no 3.3 enumerate unicyclic networks 3.3 26 enumerate unicyclic networks Ein weiteres Ziel der Arbeit von Semple und Steel war es, die Anzahl unicyclic networks auf einer beliebigen Menge 1-cycle compatible X-Trees zu berechnen, d.h. man hat nur die Taxa gegeben und untersucht, wieviele unicyclic networks unter den gegebenen Voraussetzungen entstehen können. Von Interesse war es außerdem, die Anzahl unicyclic networks mit einer bestimmten Anzahl k von inneren Knoten auf dem Kreis zu zählen. Bereits 1870 wurde von E.Schröder im 4.kombinatorischen Problem die Frage gestellt, wieviele verschiedene Möglichkeiten vorhanden sind, eine Menge von n Elementen hierarchisch zu partitionieren. Für festes n kann daher die Anzahl r(n) der möglichen gewurzelten binären phylogenetischen Bäume mit folgender Formel angegeben werden: r(n)= n n (2 ( 2)! n 1 1)!2 = 1 ::: n 3 (2 3) Analog zur Berechnung dieser Formel wird auch in der vorliegenden Arbeit das kombinatorische Problem, die Anzahl aller möglichen unicyclic networks über einer Menge von n Blättern zu bestimmen, mit Hilfe von exponentiellen erzeugenden Funktionen auf ein algebraisches Problem transformiert. Die Idee bei den erzeugenden Funktionen ist es , die interessierende Zahlenfolge als Koeffizienten in eine Potenzreihe zu verpacken 3.3.1 Berechnung der Anzahl unicyclic networks Mit Hilfe der exponentiell erzeugenden Funktionen und der Lagrange Inversion läßt sich die Anzahl der unicyclic networks bestimmen. Theorem 3 1. Sei c(n) die Anzahl unicyclic networks auf der Menge X. dann gilt: c(n)=(n 1)!2 n 2 n ( n (2 2)! 2n 1 1)!2 2. Für jedes k 3 sei c(n,k) die Anzahl der unicyclic networks auf X, deren Kreis eine Länge k hat (d.h. k innere Knoten liegen auf dem Kreis) Dann gilt : c(n,k)= n kn k2n k+1 (2 ( Berechnung: siehe Anhang 1)! )!2 3.4 enumerate multicyclic networks 3.4 27 enumerate multicyclic networks Eine weitere Untersuchung befaßt sich mit einer bestimmten Sorte von multicyclic networks - den galled trees. In einem galled tree liegt jeder Knoten in höchstens einem Kreis, jeder innere Knoten hat Grad 3, alle Blätter haben Grad 1 und es gibt kX k Blätter. a g k m f e b c h i l d Für diese Menge gilt Theorem 4: Sei X eine feste endliche Menge der Größe n, g(n,k,m) die Anzahl der galled-trees auf X mit k Kreisen und m Kanten über alle Kreise. Dann gilt: m n 3k 1)2 g(n+2,k,m)= (2n(n mm+32kk)!()!(mm 23kk)!( k 1)!k! 3.4.1 Fazit C.Semple und M.Steel haben gezeigt, dass der Nachweis eines unicyclic network möglich ist, wenn eine beliebige Menge an Taxa vorliegt. Auf Grund der herausgearbeiteten Kriterien, TBR Distanzen und Zirkularität, kann überprüft werden, ob die Verwandschaftsgrade zwischen den Taxa groß genug sind, um ein unicyclic network zu bilden. Der Beweis wurde mathematisch exakt geführt, so dass die Ergebnisse als Grundlage für weitere Untersuchungen verwendet werden können. Durch die Berechnung der Anzahl der möglichen unicyclic network bzw galled trees ist außerdem eine obere Schranke für entsprechende Algorithmen gegeben. Da es sich um eine rein theoretische Arbeit handelt, wurden keine Programme erstellt und getestet. Es wäre interessant gewesen, die Erkenntnisse von M.Rivera und J.Lake bezüglich des Ring of Life mit dem vorgestellten Algorithmus zu überprüfen. 3.5 Anhang 3.5 3.5.1 28 Anhang Definitionen und mathematische Voraussetzungen • exponentielle erzeugende Funktionen Man versteht unter der erzeugenden Funktion einer Folge ai die Potenzreihe : f(x) = 1 X n=0 an xn Eine exponentiell erzeugende Funktion einer Folge ai ist die Potenzreihe: 1 X f(x) = n=0 an ( xn ) n! Die Funktion wird als exponentiell bezeichnet, da die Exponentialfunktion als Potenzreihe die folgende Form hat: ex = 1 X n=0 ( xn ) n! Die exponentiell erzeugende Funktion der Folge {1,1,1,1...} ist daher ex • Multiplikation Bei der Multiplikation zweier exponentiell erzeugenden Funktionen entstehen die Koeffizienten: P P an ( xnn ) bn ( xnn ) = ! ! P cn ( xnn ) ! mit : c(n) = P n ( )a k k bn k d.h. c(n)= (a + b)n ist die eponentiell erzeugende Funktion der Binomialkoeffizienten. Der Koeffizient von c(n) ist aus der Kombinatorik bekannt und bestimmt genau die Kombinationen von n Elementen zur k-ten Klasse. 3.5 Anhang 3.5.2 29 Berechnung zu Theorem 4 item 1 Anzahl der X-Trees Zum besseren Verständnis wird zuerst die Anzahl der X-Trees über einer Menge von n Blättern mit Hilfe einer exponentiell erzeugenden Funktion berechnet. Definieren wir eine exponential generating function für die Anzahl der gewurzelten binären X-trees r(n): X R ( x) = n1 r (n ) xn n! Indem man die Wurzel entfernt, entstehen zwei gewurzelte Bäume und die Menge der Blätter kann frei über diese Bäume verteilt werden. Daher gilt außerdem: r(n) = 1 2 nX1 i=1 ( n )r (i )r ( n i) i Wendet man die Multiplikationsregel für exponential generating functions an, so gilt in diesem Fall: P n c (n ) = ( i )r(i)r(n i) daraus folgt: R(x) = 1 P 2 c(n) xnn ! = 1 P 2 P r(n) xnn r(n) xnn = R(x) 1 ! ! 2 2 + x ( x falls nur ein einziger root-Knoten) und man kann für R(x) schreiben: p p R(x) =1 1 2 1 x 2 x kann mit Hilfe der allgemeinen Binomialformel berechnet werden 1 n X k n k n )x y ( (x + y ) = k k =0 Es ist: p 1 2 x= 1 X k=0 ( 2 x) k ( = k 1 2 ) = 1+ 1 X ( 2 k=1 x) k ( = k 1 2 ) Daraus folgt: 1 p 1 2 x= 1 X k=1 ( x )k ( 2 = k 1 2 ) der Koeffizient von xn n! ist dann die Anzahl der X-Trees r(n).Berechnet man r(n) (alternierend positiv/negativ, so ergeben sich die Werte in der Tabelle. 3.5 Anhang 30 n 1=2 ) n r (n ) = ( n 1 2 1 1 2 2 2 3 2 2) ( 1 (1 2 2 1) 1 2 1 (1 2 2 3 ! 1! = 1 1 2 n 2! = 1 12 1) ( 2) 1 2 3 3! = 3 ... ... Sie entsprechen genau der Schröder-Formel zur Berechnung der Anzahl der X-Trees. r(n)= n n (2 ( 2)! n 1 n! 1)!2 = (1 ::: n 3 (2 3)) Anzahl der unicyclic networks Bisher wurden die Blätter zwischen 2 binären X-Trees aufgeteilt, das ergab die Unterbäume mit r(i)und r(n-i) Blättern. Sei n = i und n = n i, so ist trivialerweise mit n + n = n: 1 2 r(n) = 1 2 nX1 i=1 ( 1 2 n )r (i )r ( n i) i Betrachtet man alle Tupel von Blättern der Menge r(n ); :::; r(nk ) mit n dann sind analog die Möglichkeiten k X-Trees mit ni Blättern zu bilden: 1 1 + ::: + nk = n, k n! Y r(n ) i n1 !:::nk ! i=1 Man bildet die Summe aller n-Tupel, die so entstehen n + ::: + nk symmetrische Kombination nur einmal betrachtet werden durch 2k: 1 X 1 k 2 n1 ;:::nk ) ( = n und teilt, da k n! Y r(ni ) n !:::nk ! i 1 =1 Analog zur berechneten Formel für X-Trees R(x) = R(x) + x kann man jetzt die Formel für den allgemeinen Fall der Unterteilung in k Tupel berechnen. Sei 1 2 2 Ck ( x ) = P c(n; k) xnn ! die exponentiell erzeugende Funktion für die Anzahl der k-Tuple über der Menge X. Dann gilt: 3.5 Anhang 31 Ck ( x) = X 1 k 2 n1 ;:::nk ) ( k n! Y xn r (n i ) n !:::nk ! i n! 1 =1 Nach der Multiplikationsformel für exponentiell erzeugende Funktionen gilt dann: 2 k xn n! Y r(ni ) n !:::nk ! i n! X Ck ( x) = k 1 n1 ;:::nk ) 1 ( 1 = k X | r (n ) =1 X xn xn xn X r(n) ::: r(n) n! n!} {z n! k mal Daraus folgt: 2 Da C ( x) = P Ck ( x) = k R ( x ) k 1 Ck (x) kann man die Gleichung umschreiben in: C ( x ) = R ( x) 1 2 3 3 + 1 4 R (x ) 4 + ::: t + Es gilt die Reihenentwicklung: ln 1 1 t = ln(1 t) = t + t 1 2 2 + 1 3 3 1 4 t ::: 4 und damit für t=R(x): ln(1 R(x)) = R(x) + R(x) 1 2 2 + 1 | 3 R ( x) 3 + 1 {z 4 R(x) ::: 4 } C (x) 2 Das kann man mit umschreiben in: C ( x) = Mit den Formeln R(x) = 1 die erzeugende Funktion: R ( x) 1 2 p 1 2 1 2 R ( x) ln(1 R(x)) 2 x und R(x) = R(x) C ( x) = x 1 2 1 1 2 4 log(1 Betrachtet man die Reihenentwicklung für: 2 + x) R ( x) 2 x ergibt die Gleichung für LITERATUR 32 1 4 ln(1 = 1 2 x) = 2x + (2x) + (2x) + ::: 1 1 x + 2x + (2x) + (2x) + ::: 1 2 1 4 2 3 3 2 1 4 1 2 | 3 {z 2 } 3 mitKoeffizienten n1 2n 2 R(x) bzw dessen Koeffizienten r(n) sind bereits bekannt : r(n)= n n (2 ( 2)! n 1 n! 1)!2 Daher kann man die Gleichung nach Multiplikation mit n! (da die Koeffizienten von: C ( x) = x 1 1 2 4 log(1 r(n) = n![xn ]R(x)) für x ) R (x ) 2 wie erwartet schreiben: c(n) = n n!2n 1 = ( n 1)!2 2 ( n 2 n (2 n 2)! n 1 n! 1)!2 n ( n (2 n ! 2)! 2n 1 1)!2 Literatur [1] IQPNNI : Moving Fast Through Tree Space and Stopping in Time. Mol Biol Evol. 2004 Aug;21(8):1565-71. [2] Unicyclic Networks: Compatibility and Enumeration. Charles Semple and Mike Steel IEEE/ACM Transactions on Computational Biology and Bioinformatics Volume 3, Number 1, January, 2006 [3] The Ring of Life provides evidence for a genome fusion of eukaryotes. Maria.C.Rivera and James.A.Lake Nature 431,152-155(9 September 2004) [4] Splits and Phylogenetic Networks. Daniel Huson. Presentation Paris, June 21,2005 [5] Phylogenetics. Charles Semple and Mike Steel. Oxford Lecture Series in Mathematics and its Applications 24