DNA Gene Evolution Aktuelle Themen der Bioinformatik

Werbung
DNA Gene Evolution
Seminar
Aktuelle Themen der Bioinformatik
Bärbel Lasitschka
Sommersemester 2006
Inhaltsverzeichnis
1 Einleitung
2 IQPNNI
2.1 Initialer Baum . . . . . . . . . . .
2.1.1 BIONJ . . . . . . . . . . .
2.1.2 NNI . . . . . . . . . . . .
2.2 Optimierung . . . . . . . . . . . .
2.2.1 Quartet Puzzling . . . . . .
2.2.2 Important Quartet Puzzling
2.3 Stop Kriterium . . . . . . . . . . .
2.3.1 Tests . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Unicyclic Networks:Compatibility and Enumeration
3.1 Biologischer Hintergrund . . . . . . . . . . . . . . . . .
3.2 unicyclic network . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Charakterisierung: unicyclic network . . . . . . . .
3.2.2 Algorithmus . . . . . . . . . . . . . . . . . . . .
3.3 enumerate unicyclic networks . . . . . . . . . . . . . . .
3.3.1 Berechnung der Anzahl unicyclic networks . . . .
3.4 enumerate multicyclic networks . . . . . . . . . . . . . .
3.4.1 Fazit . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Definitionen und mathematische Voraussetzungen
3.5.2 Berechnung zu Theorem 4 item 1 . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
4
6
6
7
8
11
12
.
.
.
.
.
.
.
.
.
.
.
13
13
16
21
24
25
26
26
27
28
28
29
3
1
Einleitung
Einer der aktivsten Bereiche in der Bioinformatik und evolutionären Biologie ist die phylogenetische Analyse. Durch DNA-Sequenzanalyse und Protein-Sequenzanalyse stehen immense Datenmengen zu Verfügung, die auf molekularer Ebene neue Möglichkeiten bieten,
den Ursprung des Lebens zu erforschen. Vergleiche von Nukleotidsequenzen und Vergleiche
morphologischer Merkmale lieferten die Einteilung der Prokaryoten in Eu- und Archaebakterien und den Nachweis von Homologien zwischen der rRNS aus Chloroplasten und
Cyanophyceen (Endosymbiontenhypothese).
Proteine eignen sich weniger die Phylogenie der Arten objektiver zu erfassen als durch
Vergleiche morphologischer Merkmale, da sie ebenso wie alle übrigen Strukturen einer
Selektion unterworfen sind. Der Selektionsdruck, der auf ein Protein ausgeübt wird, unterscheidet sich jedoch von dem, dem die Individuen ausgesetzt sind. Daher sind die
Evolutionsgeschwindigkeiten der einzelnen Proteine und der Organismen unterschiedlich.
Phylogenetische Analyse ist auf Grund des exponentiellen Anwachsen der Gendatenbanken
in polynomieller Zeit meist nur für kleinere Datenmengen möglich. Außerdem sind fast
alle Hauptprobleme in der Phylogenie NP-hart und schon deshalb eine Herausforderung
für die Bioinformatik (etwa das Entscheidungsproblem, ob eine perfekte Phylogenie bei
gegebener Taxa-Menge existiert)
Beide hier vorgestellten Veröffentlichungen beschäftigen sich mit der Rekonstruktion der
evolutionären Verwandschaft. Während in der Veröffentlichung von Vinh und Häseler mit
dem Algorithmus IQPNNI eine verbesserte Methode zur Rekonstruktion eines phylogenetischen Baumes vorgestellt wird, behandeln Semple und Steel die neuere Hypothese, dass
sich der evolutionäre Verwandschaftsgrad optimaler in einem Netzwerk darstellen läßt.
Das Ziel der Arbeit von Semple und Steel ist es, eine mathematische Grundlage für ein
einfaches Modell eines phylogenetischen Netzes zu liefern.
2
IQPNNI
Moving fast through Tree Space and Stopping in Time
IQPNNI verwendet eine kombinierte Methode aus branch swapping (NNI), zufälligem
Entfernen von Sequenzen und Addition von einzelnen Sequenzen (IQP), um effizient
einen phylogenetischen Baum zu rekonstruieren. Diese heuristische Suche im Raum aller
möglichen phylogenetischen Bäume verhindert, dass der Algorithmus IQPNNI vorzeitig
gegen ein lokales Optimum konvergiert, wie es bei hill climbing Methoden wie NNI auftreten kann.
Das erneute Einfügen vorher entfernter Sequenzen erfolgt über eine Auswahlprozedur, in
2.1 Initialer Baum
4
der mögliche optimale Pfade gekennzeichnet werden. Diese werden über Quartette von
Blättern bestimmt, die nahe zusammenliegen und daher auch verwandter sind.
Durch randomisiertes Löschen und Wiedereinfügen entstehen viele intermediäre Zwischenbäume, die jeweils ein lokales Optimum darstellen. Das globale Optimum ist gefunden, wenn die Anzahl der benötigten Iterationen um einen besseren Baum zu finden,
einem Stop-Kriterium genügt.
BIONJ, NNI
Build Inital tree
reorganize tree topology
better tree?
yes
no
likelihood ?
update best tree
nimm diesen Baum
stop ?
95% der erwarteten
no
Iterationen ?
yes
Theory of Cook, Robert, Solow
Abbildung 1: Überblick über den Algorithmus IQPNNI 3.2
2.1
2.1.1
Initialer Baum
BIONJ
Der Initiale Baum wird mit einer verbesserten Version des Neighbor joining (NJ) Algorithmus aus den Taxa erstellt. Neighbor joining wählt iterativ aus der Menge N ein Paar Taxa
aus, für das die genetische Distanz minimal ist. Dazu werden in einem ersten Schritte
die durchschnittlichen Distanzen zu jedem anderen Taxon berechnet, die dann von allen
anderen Taxa abgezogen werden. Die Auswahl der Taxa erfolgt auf Grund der Distanzen
Dij = ij (ri + rk ) mit
ri = N
X
1
2
k=1;N
ik )
2.1 Initialer Baum
5
Die Distanz zum neuen gemeinsamen
Knoten u ergibt sich folgendermaßen:
• ui
=
• uj
=
Diese Formeln lassen sich allgemeiner schreiben, mit =
joining:
ui = i + (1 ) i u
1
2
1
2
1
2
1
2
(
(
1
2
1
2
j + j u u)
1
2
1
2
für den Algorithmus Neighbor
(1
1
i + i u u)
) u )
2
BIONJ verwendet nicht = , sondern wird aus Varianzen und Kovarianzen der jeweiligen Distanzmatrix berechnet, d.h. man versucht die Varianz der neuen reduzierten
Distanzmatrix zu minimieren.
1
2
Sei ij eine Schätzung der evolutionären Distanz, vij die Varianz dieser Schätzung und
covij;kl die Kovarianz von ij und kl .
Das Ziel ist ein zu bestimmen, sodass die Varianzen des Mittelpunkts c der Schätzungen
i und i möglichst klein sind, dabei gilt:
1
2
X
=
(v2i
i
=3;r
X
(v1i + v2i
i=3;r
cov i; i )
1
2
2
cov i; i )
1
2
Damit können die Varianzen des Distanzen des neuen Mittelpunktes c zu den anderen
Knoten i berechnet werden.
BIONJ liefert insbesonders bei hohen Substitutionsraten bessere Ergebnisse.
2.2 Optimierung
6
Abbildung 2: Ein Vergleich des Distanz-Baumes, der über Neighbor Joining berechnet
wird und des Varianz-Baumes im BIONJ Algorithmus
2.1.2
NNI
Der initiale Baum wird mit Branch Swapping über Nearest Neighborhood Interchange
(NNI) verbessert. NNI versucht die Likelihood eines gegebenen Baumes durch folgende
Strategie zu verbessern:
• Jede interne Kante hat
4 Subtrees
• es gibt 3 Möglichkeiten
diese anzuordnen
• wähle die Beste
{large conditional likelihood}
2.2
A
C
B
D
A
B
C
D
A
C
D
B
Optimierung
Der mit Hilfe von BIONJ und NNI konstruierte initiale Baum Tbest mit einer log-likelihood
lbest wird durch Entfernen von Blättern reduziert. Der Eingabeparammeter pdel bestimmt
die Wahrscheinlichkeit mit der ein Blatt entfernt wird.
Das Wiedereinfügen der Blätter geschieht mit der neuen Methode Important Quartet
puzzling (IQP). Ist der Baum T wieder vollständig rekonstruiert, wird Tintermediate über
NNI optimiert.
2.2 Optimierung
2.2.1
7
Quartet Puzzling
Quartet Puzzling ist eine divide-and-conquer Methode zur Rekonstruktion phylogenetischer Bäume über Maximum Likelihood. Ein Quartet ist eine der möglichen Topologien,
die durch vier Taxa gegeben sind. Jeder Baum hat eine eindeutige Menge von Quartetten.
Durch Quartet Puzzling wird der Suchraum in viele Unterbäume mit je 4 Blättern (Sequenzen) zerlegt, die Berechnung der Likelihood Werte ist dadurch in polynomieller Zeit
durchführbar.
1. Maximum Likelihood
Step:
Für alle möglichen n Quartette wird die beste der möglichen 3 Topologien ge sucht, d.h. ML nur für jeweils 4 Sequenzen, insgesamt ML für 3 n Topologien
4
4
2. Puzzling Step:
Randomisiere die gegebenen Taxas ABCDE... und wähle ein Quartett mit besten
ML für ABCD
Wähle random die Blätter aus und puzzle sie sequentiell an den Unterbaum. Dieser
Zwischenbaum stellt ein lokales Optimum dar.
Der Puzzling Step wird so oft wie möglich wiederholt, die Standardeinstellung ist
1000.
3. consensus step:
Alle Zwischenbäume werden auf Übereinstimmung untersucht. Das globale Optimum wird über Bootstrapping bestimmt.
zu 2: Puzzling Step
Der Puzzling Step wird im folgenden näher erläutert, da er die Grundlage für die verbesserte Version des Quartet Puzzling bildet.
Es gibt bei 4 Sequenzen drei verschiedene Topologien, man verwendet die Beste (MLWert):
a
b
c
y
a
c
b
y
a
y
b
c
•
Ta;bjc;y
•
Ta;cjb;y
•
Ta;yjb;c
Die Auswahl der Kante an der ein Blatt E eingefügt werden soll, erfolgt über den Score,
der für die Kante im relevanten Quartet - das neue Blatt und jedes der Blätter, die schon
im wachsenden Baum sind - vergeben wurde. Das Blatt wird an der Kante mit niedrigstem Score eingefügt. Nimmt man z.B an, dass am Quartett ABCD ein Blatt E eingefügt
2.2 Optimierung
8
werden soll:
AEjjBC
A
C
0
0
0
B
0
0
D
A
0
1
AEjjBD
C
A
1
0
1
B
0
2
D
B
C
2
1
1
D
dann sollte E nicht zwischen BC liegen, daher wird diesem Pfad ein Strafpunkt zugeordnet, ebenso dem Pfad BD etc, sodass man zuletzt die Kante mit der kleinsten Anzahl von
Strafpunkten - hier AB - verwendet, um E einzufügen:
A
A
C
1
3
B
4
2
2
D
C
E
B
D
Quartet Puzzling hat eine Komplexität von O(n ), daher können nur bis zu ca 100 Sequenzen effizient bearbeitet werden. Bei gegebenem Baum ist es einfach, eine minimale
Anzahl an Quartetten zu finden, die den Baum eindeutig beschreiben. Typisch in der Phylogenie ist jedoch der Fall, dass man versucht, einen unbekannten Baum zu bestimmen.
Quartet Puzzling schränkt dieses Problem insofern ein, da man nur ein Blatt an einen
sonst bekannten Baum einfügen muß.
4
2.2.2
Important Quartet Puzzling
Die verbesserte Version Important Quartet Puzzling basiert auf der Idee eine Vorauswahl an optimalen Quartetten zu treffen. Es wird ein natürliches Ranking der Blätter um
einen inneren Knoten definiert, um eine Verwandschaftsbeziehung zwischen 3 Blättern
des wachsenden Puzzle-Baumes und dem neu einzufügenden Blatt herzustellen.
Definitionen
1. disjunkte gewurzelte Unterbäume
Sei T ein ungewurzelter Baum, dann teilt jeder innere Knoten x den Baum T in 3
disjunkte Unterbäume mit Wurzel x. Man erhält:
2.2 Optimierung
9
h g
•
•
b
•
c
T1
T2
T3
x
x
x
x
d
e
t
a
2. k-representative leaf set
Die Menge der k-representative leaf Sets bildet die Grundlage für den Important
Quartet Puzzling Algorithmus.
Die k-representative leaf Sets Skx Ti eines Unterbaums Ti enthalten höchstes k
Blätter mit kürzestem Abstand zur Wurzel x. Jeder Kreis kennzeichnet die Ebene in der sich die Blätter befinden.
h g
•
•
b
•
c
S (T x ) = {a,e}
S (T x ) = {c,d}
S (T x ) = {b,g}
2
1
2
2
3
3
x
d
e
t
a
3. important quartet
Ein Quartet q = ft ; t ; t ; y g heißt ein important quartet eines internen Knoten x
eines ungewurzelten Baumes T genau dann, wenn:
1
2
3
• y kein Blatt des Baumes T ist
•
t ; t ; t sind jeweils Elemente der k-representative leaf sets Sk (T x ), Sk (T x )
bzw Sk (T x )
1
2
3
1
2
3
Ein important Quartet enthält 3 aus den Unterbäumen gewählten Blätter und ein
neu einzufügenden Blatt y. Ein Blatt wird aus einem Unterbaum gewählt, wenn
es in der Menge der Blätter mit kürzestem Abstand zur Wurzel x liegt. Da diese
Menge für jeden Unterbaum durch den Eingabeparameter k beschränkt ist, gibt es
2.2 Optimierung
10
für jede neue Sequenz y und für jeden internen Knoten O(k ) Important Quartets,
insgesamt sind also bei n inneren Knoten O(nk ) möglich.
Durch die Konstruktion liegen die Knoten nahe zusammen und sind daher verwandter. Da in diesem Fall weniger Rück-Substitutionen auftreten, kann man davon
ausgehen, dass der berechnete Baum genauer ist.
3
3
Beispiel
Wie das folgende Beispiel zeigt , geschieht das Einfügen des Blattes y über die Important
Quartets eines Baumes und die damit verbundenen Pfade. Jeder ausgewählte Pfad erhält
einen Score von 1, in den Pfad mit dem höchsten Score wird y eingefügt.
Verwendet man ein 2-representative leaf set, so sind 8 Möglichkeiten
zum Einfügen der
neuen Sequenz gegeben, im Fall des Quartet Puzzlings wären es
= 140 Möglichkeiten.
x
x
Für ein 2-representative leaf set: S (T ) = {a,e}, S (T ) = {b,g}, S (T x ) = {c,d} gibt
es nach Einfügen einer neuen Sequenz y insgesamt acht important quartets:
(y,a,b,c),(y,a,b,d),(y,a,g,d),(y,e,b,c),(y,e,b,d),(y,e,g,c),(y,e,g,d)
Beginnend mit Quartett (y,a,b,c) und der damit verbundenen Aufteilung in Tayjjbc wird
für alle Pfade im Unterbaum (T x ) ein Score von 1 eingefügt:
8
4
2
2
1
2
2
3
1
h
h
g
b
g
b
c
c
x
1
d
e
t
a
e 1
x
d
1
t 1
1
a
Wiederholt man diese Prozedur für alle 8 Important Quartette aus, so ergibt sich abschließend eine Kante mit einem höchsten Score in die y eingefügt wird.
Optimierung
Die Blätter des Baumes Tbest werden mit einer Wahrscheinlichkeit 0 < pdel < 1 entfernt.
Danach wird jedes Blatt mit Hilfe von Important Quartet Puzzling wieder eingefügt und
der entstehende Baum Tintermediate mit Nearest Neighborhood Interchange optimiert.
2.3 Stop Kriterium
11
Über einen Vergleich wird der bisher optimalste Baum bestimmt, falls log-likelihood
Lintermediate > Lbest , setze:
Tbest = Tintermediate und Lbest = Lintermediate
2.3
Stop Kriterium
Quartet puzzling erstellt nach einer vorgegebenen Anzahl von berechneten Bäumen einen
consensus Baum und bricht ab. Bei der Methode IQPNNI könnte jedoch nach weiteren
Iterationen ein besserer Baum gefunden werden, sodaß man durch einen vorzeitigen Abbruch nicht das globale Optimum findet.
Zur Berechnung eines Stop-Kriteriums wird bei IQPNNI eine Schätzmethode angewandt,
die auf der Anzahl der Iterationen zwischen 2 lokalen Optima (Tbest wird durch Tintermediate
ersetzt) basiert.
Diese Schätzmethode, ursprünglich von P.Cooke (1980) im Zusammenhang mit der Optimalität der Schätzer bei Vorhandensein nur der letzten oder ersten Beobachtungsdaten
diskutiert, wurde von Robert und Solow(2003) benutzt, um eine statistische Methode zu
entwerfen, die die Zeit des Aussterbens des Vogels Dodo (Raphus cucullatus) berechnet.
Auf Grund des Nachweises von Cooke konnte angenommen werden, dass die gemeinsame Verteilung der letzten k Jahreszahlen zu denen der Dodo gesehen wurde die gleiche
Weibull Form wie die Elternverteilung hat.
Außer der Tatsache, dass hier als Meßproben nicht Jahreszahlen, sondern Anzahl der Iterationen vorliegen, kann die Methode direkt auf IQPNNI übertragen werden.
Optimale lineare Schätzmethode
Der optimale lineare Schätzer ist die Summe der gewichteten Anzahlen der Iterationen i :
X
ai i
b =
i=1;k
mit ai berechnet aus der Gamma Standardfunktion (Erweiterung der Fakultät auf die
positiven reellen Zahlen) und dem Shape Parameter der Weibull Verteilung b :
X
k
b = k
log
1
1
j =1;k
1
1
2
j
+1
Dann kann während des Algorithmus nach jedem lokalem Optimum Tbest über die Anzahl
der benötigten Iterationen k das 95% Konfidenzintervall berechnet werden (mit =
0:05):
(1
)100%
=
1
+
(
1 k
log ) b
k
1
Das Konfidenzinterval wird als Stop-Kriterium stop verwendet. Wurde nach
stop Iterationen kein besserer Baum gefunden, so wird der Algorithmus abgebrochen.
(1
)100%
2.3 Stop Kriterium
2.3.1
12
Tests
IQPNNI wurde sowohl mit simulierten als auch mit realen Daten und im Vergleich u.a
mit Programmen MetaPIGA und PHYML getestet. Besonders interessant ist der Test mit
einem Datensatz von ssu-rRNA mit einer Anzahl von 218 Taxa. Die ribosomale RNA ist
ein idealer chromosomaler Chronometer, da sie zur Grundausstattung jeder lebenden Zelle
gehört und in allen Organsimen die gleiche Funktion hat. Die Gene der rRNA unterliegen
wahrscheinlich nur selten dem horizontalen Gentransfer, die rekonstruierten Bäume sind
daher akkurater.
PHYML ist ein hill-climbing Algorithmus, der ebenfalls den initialen Baum mit BIONJ
rekonstruiert. Über Berechnung der conditional likelihoods der NNI-ähnlich bestimmten
Unterbäume erfolgt eine branch-length Optimierung. Der optimale Baum, d.h der Baum
mit dem größten Likelihood, wird durch Änderung der Parameter der Substitution-Modelle
gesucht.
MetaPIGA ist ein genetischer Algorithmus, der Prozesse der Evolution wie Mutation, Selektion und Reproduktion simuliert. Ausgehend von mehreren Populationen werden über
Consensus Pruning, die Teile des phylogentischen Baumes ausfindig gemacht, die Subjekt
dieser Prozesse sein können. Auch MetaPIGA verwendet ein Stop-Kriterium, entweder
hatten die besten Bäume aller Populationen identische Topologien oder der Score des
besten Baumes aller Populationen verbesserte sich nach Anwendung aller Informationen
des letzten consensus nicht mehr.
Runtime mit ssu rRNA Daten
number of sequences
218
PHYML MetaPIGA IQPNN 5.1 min
1.2 h
8.4 h
95%
Im Vergleich zu PHYML und MetaPIGA ist IQPNNI sehr langsam, betrachtet man jedoch
die Likelihood-Werte so ist eine deutliche Verbesserung sichtbar.
IQPNNI generierte in diesem Lauf 258 Bäume (rote Linie in Abb.3) von denen 219
eine höhere Likelihood als die besten PHYML Bäume (blaue Linie) hatten, 121 IQPNNI
-Bäume waren besser als im MetaPIGA Lauf (grüne Linie). Die + Zeichen geben die
Bäume an, die auf Grund des kombinierten IQPNNI Algorithmus erzeugt wurden.
13
Abbildung 3: rRNA Eingabedaten in Vergleichsläufen IQPNNI, PHYML, MetaPIGA 3.2
3
3.1
Unicyclic Networks:Compatibility and Enumeration
Biologischer Hintergrund
Fast alle Methoden zur Rekonstruktion der Evolution basieren auf der Annahme, dass
die Evolution einer Menge von Spezies von einem Baum repräsentiert werden kann. In
einer Baum Topologie werden die Spezies jedoch nur über einen gemeinsamen Vorfahren
verbunden, andere Verwandschaften zwischen den Spezies können nicht berücksichtigt
werden. Dieses Modell kann eine zufriedenstellende erste Approximation für viele Organismen geben, viele Familien weisen jedoch evolutionäre Entwicklungen auf, die nicht
durch einen Baum darstellbar sind.
Nachweise einer netzartigen Evolution (reticulate evolution) wurden in unterschiedlichsten Kontexten gefunden, so spielt etwa in der Evolution der Bakterien der horizontale
(laterale) Gentransfer eine wichtige Rolle. Auch die Endosymbiontentheorie, die besagt,
dass eine Reihe von Zellorganellen in den Zellen von Eukaryonten durch Einverleiben oder
Fusion von verschiedenen Organismen entstanden sind, ist auf lateralem Gentransfer begründet. Insbesonders geht man davon aus, dass sich Mitochondrien und Chloroplasten
aus Prokaryonten entwickelt haben.
Lateraler Gentransfer bei Pflanzen ist bekanntermaßen möglich d.h. jede beliebige genetische Information kann in Pflanzenzellen eingebracht werden, dort stabil integriert
und zur Expression gebracht werden. Wahrscheinlich kommt lateraler Gentransfer jedoch
natürlicherweise auf Grund der pflanzlichen Entwicklung und Selektionskriterien kaum vor.
In der pflanzlichen Evolution führt z.B Allopolyloidie, zum Entstehen neuer Organismen.
Allopolyploidie ist eine Form der Polyploidie, bei der zwei oder mehr Chromosomensätze
von verschiedenen Arten im Zellkern existieren, die durch Hybridisierung verwandter Ar-
3.1 Biologischer Hintergrund
14
ten mit anschließender Bildung unreduzierter Gameten, und nachfolgender Selbstung
(Bestäubung mit Pollen des gleichen Individuums) entstehen. Viele Arten sind auf diese
Weise entstanden, zum Beispiel Weizen, Raps und Tabak.
Reticulate Evolution kann durch biologische Prozesse wie Rekombination, Gentransfer,
Genom Fusion und Bildung hybrider Spezies ausgelöst werden.
• Rekombination:
Eine Rekombination der Gene, d.h. ein Austausch von Erbinformationen kann während
der Meiose entstehen. Aufgrund des Vorhandenseins ähnlicher DNA-Sequenzen kann
bei der Paarung homologer Chromosomen eine Überkreuzung von 2 Chromatiden
stattfinden, die keine Schwesterchromatiden sind. Als Resultat entsteht eine Mischform, die DNA von beiden Spezies enthält.
• horizontaler Gentransfer :
Die 3 Mechanismen Konjugation, Transformation und Transduktion führen zum
Austauch von Genmaterial. Bei Transformation handelt es sich um Aufnahme freier
DNA, während der Konjugation bilden sich Plasmabrücken und tauschen DNA über
Zell-Zell Kontakt aus, Transduktion ist die Übermittlung verpackter DNA mittels
Bakteriophagen:
• hybride Spezies, Genom Fusion:
Hybride sind Nachkommen von Individuen unterschiedlicher Arten bzw unterschiedlicher Entwicklungslinien derselben Art. Man geht davon aus, dass die meisten
3.1 Biologischer Hintergrund
15
existierenden Pflanzenarten in ihrer Stammesgeschichte mindestens ein Hybridisierungsereignis hatten. Der häufigste Mechanismus der zur Hybridbildung führt, ist
die Polyploidie, die Vervielfachung, meist Verdopplung des Chromosomensatzes:
Eine Vielzahl von Untersuchungen zeigt, dass die Einteilung in die 3 Großreiche Eubakterien, Archebakterien und Eukaryonten und deren Abbildung in einem Baum, widersprüchlich
ist.
Der Vergleich der Proteine führte zur Erkenntnis, dass viele eukaryotischen Gene nahe Verwandschaft zu Eubakterien zeigen,wenn man die Enzyme der Glykolyse und der
Biosynthese von Lipiden vergleicht, andererseits weisen ribosomale Proteine oder RNA
Polymerasen große Übereinstimmung mit den entsprechenden Proteinen von Archebakterien auf.
Ein neuer Algorithmus conditional reconstruction wurde von Rivera und Lake entwickelt,
um Genom Fusionen rekonstrieren zu können. Zur Berechnung eines globalen Alignments
wurden im Test 8 Genome verwendet, drei Bakterien, drei Archeae und 2 Eukaryonten. Ein
3.2 unicyclic network
16
Alignment der 5 wahrscheinlichsten Bäume zeigt, dass alle 5 Bäume Permutationen eines
zugrunde liegenden zyklischen Musters sind, mit anderen Worten, die Daten sind nicht
tree-like sondern ring-like. Der Ursprung des Lebens scheint ringförmig aufgebaut zu sein
und Ergebnisse des Algorithmus lassen die Annahme zu, dass die heutigen Eukaryonten
aus der Fusion zweier unterschiedlicher Prokaryonten hervorgegangen sind.
Abbildung 4: Algorithmus conditioned reconstruction liefert Anzeichen für einen ring of
life
3.2
unicyclic network
Die Arbeiten von Rivera und Lake waren neben der Tatsache, dass der einfachste Typ eines
reticulate network einen Graph mit nur einem Kreis darstellt, für C.Semple und M.Steel
Motivation diese Klasse von Graphen unicyclic networks mathematisch zu untersuchen.
Dabei standen die folgenden Themen im Vordergrund:
• Charakterisierung:
Wann wird eine Menge von binären phylogenetischen Bäumen durch ein unicyclic
network dargestellt?
• Algorithmus:
um 1-cycle Kompatibilität festzustellen
• Enumerate unicyclic:
Zählen von unicyclic networks (spezifierte, unspezifizierte cycle length)
• Enumerate multicyclic:
Zählen von multicyclic networks einer bestimmten Klasse
3.2 unicyclic network
17
Definitionen
• phylogenetischer X-Tree
ein phylogenetischer X-tree ist ein Baum T=(V,E) mit einer Menge X von labeled
Blättern
– alle inneren Knoten sind ungelabeled und haben Grad
3
– falls alle inneren Knoten vom Grad = 3, ist T ein binärer phylogenetischer
X-tree
a
g
f
c
e
b
mit
der
Menge
X={a,b,c,d,e,f,g}
der
Blätter
d
• unicyclic network
Ein unicyclic network auf X ist ein Graph G, der genau einen Cycle hat.
– dieser Graph hat mindestens die Länge 3
– jeder innere Knoten ist vom Grad 3
– die Menge der Knoten vom Grad 1 ist die Menge der Blätter
– wenn man eine Kante im Kreis entfernt, erhält man einen binären phylogenetischen X-Tree
• Graph G displays a X-Tree
a
g
f
a
c
e
b
d
g
f
e
b
c
d
Der Graph G displays einen binären phylogenetischen X-Tree, wenn man den XTree aus dem Graphen erhält,indem man eine Kante entfernt und die entstehenden
Knoten mit Grad 2 unterdrückt.
3.2 unicyclic network
18
• 1-cycle compatible
Graph G displays eine Menge P von phylogenetischen X-Trees, wenn jeder X-Tree
dieser Menge P durch Entfernen einer Kante und Unterdrücken der entstehenden
Grad 2 Knoten aus dem Graphen gewonnen werden kann. In diesem Fall sagt man,
dass P 1-cycle compatible ist.
• Anzahl der X-Trees im unicyclic network G
G muß eine Zyklenlänge von mindestens k 3 haben, d.h. die Anzahl der inneren
Knoten, die auf dem Kreis liegen ist mindestens 3. Dann displayed das unicyclic
network G genau k-2 X-Trees. Im Beispiel ist die Zyklenlänge genau 3 und wir
erhalten einen X-Tree
• isomorphe unicyclic networks Wenn zwei unicyclic networks G und G’ isomorph
sind , gibt es einen Graph Isomorphismus zwischen G und G’. Auf X-Trees bezogen,
kann man von einer identischen Abbildung sprechen.
• X-Splits
Ein X-Split ist eine Teilung des binären phylogenetischen X-Tree in 2 nichtleere
P
Mengen. Jeder X-Tree hat eine eindeutige Menge von X-Splits (T ). Man sagt,
der X-Split AkB entspricht der Kante e, wenn das Entfernen der Kante e zu 2
nichtleeren Mengen A und B des X-Trees führt:
1
7
5
1
6
3
e
2
;;;;;
(2 3 4 5 6 7)
7
;;;;;
(1 2 3 4 5 6)
;
;
;;;;;
(1 3 4 5 6 7)
(1;5)
;;;;
(2 3 4 6 7)
;
3
4
2
P
T ) entspricht dann der Menge aller Kanten von T:
; ;;;;; ; ;;;;; ; ;;;;; ; ;;;;; ;
Die Menge der X-Splits
2
6
5
4
1
7
(
3
4
5
6
(1 2 4 5 6 7)
(1 2 3 5 6 7)
(1 2 3 4 6 7)
(1 2 3 4 5 7)
(7;6)
;;;;
(1 2 3 4 5)
;
(3;4)
;;;;
(1 2 5 6 7)
;
;;
;;;
(2 5 1)
(3 4 6 7)
• Zirkuläre Ordnung
Jede Baum Topologie legt automatisch eine zirkuläre Ordnung der Taxa fest, d.h.
die Reihenfolge in der die Blätter durchlaufen werden ist durch die gewählte Anordnung der Blätter gegeben:
Die zirkuläre Ordnung einer Menge von Blättern = fA; B; C; D; E g ist die
kürzeste Tour durch den Baum T(S) , bei der jede Kante 2-mal besucht wird und
jedes Blatt genau einmal. Im Grunde liegt hier das TSP Problem auf der Menge der
3.2 unicyclic network
19
Blätter vor.
Am Beispiel Graph ist sichtbar, dass die Menge der X-Splits und die zirkuläre Ordnung Charakteristiken eines X-Trees sind.
• zirkuläre Menge von X-Splits Sei = fx ; x ; :::xn g eine zyklische Permutation
von X, dann ist die Menge aller möglichen Splits für alle zyklische Permutationen
mit Aij = fxk : i k j g gleich :
1
P
0
P
(
2
) = fAij j(X Aij ) : 1 i j n
P
g
1
P
Wenn
0() ist die Menge von X-Splits zirculär, d.h. die spezifische Menge
der X-Splits eines Baumes ist in diesem Fall eine Untermenge der Menge aller möglichen
Splits auf der Menge der Permutationen .
• kompatible und inkompatible Splits
A jB ; A jB , ist mindestens eine Durchschnittsmenge
A \ B ; A \ B ; A \ B ; A \ B leer. X-Trees, die nur kompatible X-Splits ha-
Bei kompatiblen X-Splits:
1
1
1
2
2
1
1
1
2
2
2
2
ben, können durch einen neuen Baum dargestellt werden, nur inkompatible X-Splits
liefern Zyklen
3.2 unicyclic network
20
Abbildung 5: Kompatible und inkompatible Splits, D.Huson, 2005
Tree Rearrangement Operationen
Tree Rearrangement Operationen spielen eine bedeutende Rolle in der Phylogenetik, da sie
über die Anzahl der Schritte mit denen ein Baum in den anderen überführt werden kann,
eine Maßzahl für die phylogenetische Nähe der Bäume liefern. Von den 3 bekannten Tree
rearrangement operationen, NNI - nearest neighborhood interchange, TBR - tree bisection
and reconnection und SPR - subtree pruning and regrafting, sind die beiden letzten für
die nachfolgenden Beweise essentiell.
• TBR - tree bisection and reconnection
Nach X-Split des Baumes T , d.h.nach Entfernen einer Kante wird eine neue Kante hinzugefügt. Die Endpunkte von f müssen nicht zur Knotenmenge T gehören.
Dadurch entsteht ein neuer Baum T .
1
1
2
a
g
a
f
c
e
b
g
f
c
e
d
g
f
d
b
c
f
a
d
b
e
• SPR - Subtree Pruning an Regrafting
SPR ist ein Spezialfall von TBR. Wie bei TBR wird nach X-Split des Baumes T
eine neue Kante f hinzugefügt und es entsteht der neue Baum T . Ein Endpunkte
von f muss jedoch zur Knotenmenge von T gehören.
1
2
1
a
g
a
f
c
e
b
d
g
g
f
f
c
e
b
d
c
a
e
fd
b
3.2 unicyclic network
21
• Distanzen
Gesucht ist die minimale Distanz, d.h. die minimale Anzahl von Operationen um
einen Baum T in einen Baum T zu überführen. Dabei sei dT BR (T ; T ) die Distanzmessung über TBR und dSP R (T ; T ) die Anzahl der mit SPR benötigen Schritte.
Man kann jederzeit durch diese Operationen T aus T erzeugen und umgekehrt,
im besonderen gilt die folgende Abschätzung:
1
2
1
1
2
2
1
2
dT BR (T ; T ) dSP R (T ; T ) 2dT BR (T ; T
1
3.2.1
2
1
2
2)
1
Charakterisierung: unicyclic network
Die mathematische Charakterisierung eines unicyclic network aus Sicht der Graphentheorie wurde bereits behandelt. Jetzt soll mit Hilfe der vorgestellten phylogenetischen Begriffe
das Problem - die Erkennung eines unicyclic network aus einer Menge von Taxa - gelöst
werden.
Um das Problem zu vereinfachen, wird vorerst die Menge der X-Trees auf den Betrag 2
reduziert. Wenn die TBR-Distanz zweier X-Trees eins beträgt, ist es einfach die beiden
Trees in einem Kreis anzuordnen, falls ihre Blätter aus der Menge der Permutationen stammen. Im Beispiel von Rivera und Lake konnten die phylogenetische Bäume durch
sukzessives Hinzufügen der einzelnen Kanten nacheinander im Kreis angeordnet werden,
sie waren 1-cycle compatibel.
Das bedeutet, dass erstens der Nachweis erfolgen muß, dass eine TBR-Distanz von 1
die 1-cycle Kompatibilität einschließt (1) und zweitens, dass die Vereinigungsmenge von
1-cycle kompatiblen X-Trees wieder zirculär ist (2).
zu (1):
Theorem 1
Es sind 2 unterschiedliche binäre phylognetische X-Trees T und T gegeben. Dann gibt
es ein unicyclic network G on X das fT ; T g displayed genau dann, wenn dT BR (T ; T )= 1
1
1
2
2
1
2
Beweis:
Entfernt man die Kanten e bzw e , so ist nach Voraussetzung Gne isomorph zu T
und Gne isomorph zu T . Das bedeutet, dass man jeden Baum Ti aus Gne ; erhalten
kann, wenn man eine Kante ei hinzufügt. Dies entspricht aber genau der Definition von
dT BR (T ; T )= 1.
Andererseits ist es unter der Voraussetzung dT BR (T ; T )= 1 möglich aus jedem Baum T
durch Hinzufügen einer Kante e einen unizyklischen Graphen zu erhalten, der wiederum
nach Entfernen der Kante e dem Baum T entspricht.
1
2
1
2
1
2
1
1 2
2
1
2
1
2
2
1
3.2 unicyclic network
22
zu (2):
Satz 1
Es sind 2 unterschiedliche binäre phylognetische X-Trees T und T gegeben. Falls {T
P
P
1-cycle-compatibel sind, dann ist (T ) [ (T ) zirculär.
1
1
2
1
;T
2
}
2
Beweis:
Betrachtet man den planaren Graphen S.19 , so sind die Blätter von T und T auf dem
Kreis angeordnet und die Menge der zirkulären Splits von T und T ist eine zyklische
P
P
P
Permutation von X, d.h. es gilt (T ) [ (T ) ( ) .
1
1
2
2
0
1
2
Eine weitere Charakterisierung kann über die Distanz dSP R erreicht werden. Wie bekannt,
gilt die Abschätzung dT BR (T ; T ) dSP R (T ; T ) 2dT BR (T ; T ),
dSP R kann daher nur die Werte 1 oder 2 annehmen, wenn dT BR = 1 vorausgesetzt ist.
1
2
1
2
Satz 2
Es sind 2 unterschiedliche binäre phylognetische X-Trees
men {T ; T } sind 1-cycle-compatible, dann gilt:
1
1
T
1
und
2
T
2
gegeben. Angenom-
2
1. falls dSP R (T ; T ) 6= 1, dann gibt es genau ein unicyclic network auf der Menge X,
das die Bäume T und T displayed
1
2
1
2
2. falls dSP R (T ; T ) = 1 and the pruned subtree besteht aus einem Blatt, gibt es
genau ein unicyclic network auf der Menge X, das die Bäume T und T displayed
1
2
1
2
3. falls dSP R (T ; T ) = 1 and the pruned subtree besteht aus mindestens zwei Blättern,
dann gibt es genau drei unicyclic networks auf X, die T and T displayen.
1
2
1
2
Beweis:
Wie bereits in Theorem 1 bewiesen, ist das unicyclic network ein Zwischenzustand für
die Umwandlung des Baumes Ti in den Baum Tj . Durch Entfernen und Hinzufügen von
Kanten kann ein Baum in den anderen transformiert werden.
An welcher Stelle die entsprechende Kante e eingefügt werden kann, wird über die Zuordnung kompatible und inkompatible X-Splits gelöst. Da X-Trees mit kompatiblen Splits
durch einen neuen Baum dargestellt werden können, genügt es an dieser Stelle nach
inkompatiblen Splits für T und T zu suchen.
2
1
2
3.2 unicyclic network
A
23
B
e
C
+ Kante
1
F
E
e
Unicyclic Network displays T und T
2
1
D
2
T1
- Kante
A
B
e
e
1
C
2
F
E
D
T2
Der Beweis Satz 2 beruht daher vor allem auf der Suche aller möglichen inkompatiblen
X-Splits. Betrachtet man für (item 1) die beiden Bäume T und T , so sind
(A [ B )j(X
(A [ B )) und (B [ C )j(X
(B [ C )), sowie (E [ F )j(X
(E [ F ))
und (E [ D)j(X (E [ D)) inkompatible Splits.
Das bedeutet, dass es nur genau einen Weg gibt, um die Kante e an T einzufügen, d.h.
es gibt nur ein unicyclic network das beide X-trees T und T displayed
1
2
2
1
T
Bi
1
A
1
1
2
T
B
e
1
2
C
e
2
F
D
E
1
Ei
Sind im Baum T die Unterbäume B und C beide leer, so liegt Satz 2 item 2 vor, d.h. es
gilt sowohl dT BR (T ; T ) = 1 als auch dSP R (T ; T ) = 1. Auch in diesem Fall kann der
verbliebene Unterbaum A mit 2 verschiedenen Kanten an E gehängt werden.
1
1
2
1
2
3.2 unicyclic network
24
Für Satz 2 item 3 gilt, dass entweder der Unterbaum B oder der Unterbaum E leer ist,
o.B.d.A kann angenommen werden, dass B leer ist. Dann existieren 3 Möglichkeiten A
und C an den Teilbaum {F, E, D } zu hängen:
A
e
1
e
1
C
D
F
e
2
F
E
C
Ei
1
C
A
e
2
D
E
1
A
e
Ei
e
1
2
F
D
E
Ei
1
Damit ist eine Charakterisierung für den Fall erbracht, dass zwei X-Trees ein unicyclic
network bilden. Zur Verallgemeinerung auf beliebig viele X-Trees, verwendet man Theorem 1, d.h. man kann jeden X-Tree aus einem unicyclic network erhalten kann, soweit die
beiden Voraussetzungen zirkulär und dT BR (Ti ; Tj ) = 1 erfüllt sind. Im Besonderen kann
man für jeden X-Tree prüfen, ob diese Voraussetzungen erfüllt sind.
Theorem 2
Sei P’ eine Menge von X-trees mit kP 0 k 3
Dann ist P’ genau dann 1-cycle compatible, falls für alle Untermengen P der Größe 3, P
1-cycle compatible ist. In diesem Fall gibt es ein eindeutiges unicyclic network on X das
P’ displayed.
Beweis:
Wir teilen die Menge der X-Trees P’ in Untermengen P mit jeweils 3 X-trees. Dann sind
diese natürlich 1-cycle compatible wenn P’ 1-cycle compatible ist.
Andererseits gilt unter Verwendung Satz 2 item 1,2 mit P’={T ; T ; T ; T ; :::} und P =
{Ti ; Tj ; Tk } gibt es genau 1 unicyclic network. Da jeder Tree mit dtrb = 1 in den anderen
überführt werden kann, sind die Untermengen beliebig und decken somit die Gesamtmenge
P’ ab.
Im Fall Satz 2 item 3 kann es ein oder drei unicyclic networks geben. Durch Widerspruch
kann man jedoch auch hier beweisen, dass ein bestimmter Baum nur zu einem der drei
unicyclic networks gehört.
Angenommen für bestimmte i und j sind die unicyclic networks G (displays)fT ; T ; Ti g
und G (displays)fT ; T ; Tj g nicht isomorph. Es gibt jedoch ein unicyclic network das
fT ; Ti; Tj g displayed. Angenommen dies ist G , G displayed aber nicht Tj , dies gilt
entsprechend für G , also bleibt nur das dritte unicyclic network.
1
2
1
2
1
1
2
1
2
1
3
4
1
2
3.2 unicyclic network
3.2.2
25
Algorithmus
Eingabe: Eine Menge P von binären phylogenetischen X-Trees
Ausgabe: Ein unicyclic network G das P displayed oder die Aussage, dass P nicht 1-cycle
compatible ist.
1. Wähle 2 Bäume
T
1
T 2P
und
2. entscheide, ob dT BR (T
1
2
;T
2)
= 1
gilt
nein stop und Ausgabe P ist nicht 1-cycle compatible
ja konstruiere nach Satz 2 ein oder drei unicyclic networks
3. Wähle einen anderen Baum
T 2P
3
4. prüfe ob eines der unicyclic networks
(
T
3
displayed
nein stop und Ausgabe P ist nicht 1-cycle compatible
ja prüfe, alle weiteren Ti auf diese Weise
5. falls die Restmenge von P abgearbeitet ist, Ausgabe: P ist 1-cycle compatible
Flußdiagramm 1-cycle compatibility
Choose any trees
T ;T
1
2
construct 1 or 3
unicyclic network
that displays
yes
d
TBR (T1 ; T2 ) = 1?
no
T1 ; T2
choose the network
G which displays
T3
another tree in P ?
yes
select ano-
yes
ther tree Ti
G displays Ti ?
no
return unicyclic
network G
P is not 1-cycle
compatible
no
3.3 enumerate unicyclic networks
3.3
26
enumerate unicyclic networks
Ein weiteres Ziel der Arbeit von Semple und Steel war es, die Anzahl unicyclic networks
auf einer beliebigen Menge 1-cycle compatible X-Trees zu berechnen, d.h. man hat nur die
Taxa gegeben und untersucht, wieviele unicyclic networks unter den gegebenen Voraussetzungen entstehen können. Von Interesse war es außerdem, die Anzahl unicyclic networks
mit einer bestimmten Anzahl k von inneren Knoten auf dem Kreis zu zählen.
Bereits 1870 wurde von E.Schröder im 4.kombinatorischen Problem die Frage gestellt,
wieviele verschiedene Möglichkeiten vorhanden sind, eine Menge von n Elementen hierarchisch zu partitionieren. Für festes n kann daher die Anzahl r(n) der möglichen gewurzelten
binären phylogenetischen Bäume mit folgender Formel angegeben werden:
r(n)= n n
(2
(
2)!
n 1
1)!2
= 1
::: n
3
(2
3)
Analog zur Berechnung dieser Formel wird auch in der vorliegenden Arbeit das kombinatorische Problem, die Anzahl aller möglichen unicyclic networks über einer Menge von
n Blättern zu bestimmen, mit Hilfe von exponentiellen erzeugenden Funktionen auf ein
algebraisches Problem transformiert.
Die Idee bei den erzeugenden Funktionen ist es , die interessierende Zahlenfolge als Koeffizienten in eine Potenzreihe zu verpacken
3.3.1
Berechnung der Anzahl unicyclic networks
Mit Hilfe der exponentiell erzeugenden Funktionen und der Lagrange Inversion läßt sich
die Anzahl der unicyclic networks bestimmen.
Theorem 3
1. Sei c(n) die Anzahl unicyclic networks auf der Menge X. dann gilt:
c(n)=(n
1)!2
n
2
n
(
n
(2
2)!
2n 1
1)!2
2. Für jedes k 3 sei c(n,k) die Anzahl der unicyclic networks auf X, deren Kreis eine
Länge k hat (d.h. k innere Knoten liegen auf dem Kreis) Dann gilt :
c(n,k)= n kn k2n k+1
(2
(
Berechnung: siehe Anhang
1)!
)!2
3.4 enumerate multicyclic networks
3.4
27
enumerate multicyclic networks
Eine weitere Untersuchung befaßt sich mit einer bestimmten Sorte von multicyclic networks - den galled trees. In einem galled tree liegt jeder Knoten in höchstens einem Kreis,
jeder innere Knoten hat Grad 3, alle Blätter haben Grad 1 und es gibt kX k Blätter.
a
g
k
m
f
e
b
c
h
i
l
d
Für diese Menge gilt Theorem 4:
Sei X eine feste endliche Menge der Größe n, g(n,k,m) die Anzahl der galled-trees auf X
mit k Kreisen und m Kanten über alle Kreise. Dann gilt:
m n 3k
1)2
g(n+2,k,m)= (2n(n mm+32kk)!()!(mm 23kk)!(
k 1)!k!
3.4.1
Fazit
C.Semple und M.Steel haben gezeigt, dass der Nachweis eines unicyclic network möglich
ist, wenn eine beliebige Menge an Taxa vorliegt. Auf Grund der herausgearbeiteten Kriterien, TBR Distanzen und Zirkularität, kann überprüft werden, ob die Verwandschaftsgrade
zwischen den Taxa groß genug sind, um ein unicyclic network zu bilden.
Der Beweis wurde mathematisch exakt geführt, so dass die Ergebnisse als Grundlage für
weitere Untersuchungen verwendet werden können.
Durch die Berechnung der Anzahl der möglichen unicyclic network bzw galled trees ist
außerdem eine obere Schranke für entsprechende Algorithmen gegeben.
Da es sich um eine rein theoretische Arbeit handelt, wurden keine Programme erstellt
und getestet. Es wäre interessant gewesen, die Erkenntnisse von M.Rivera und J.Lake
bezüglich des Ring of Life mit dem vorgestellten Algorithmus zu überprüfen.
3.5 Anhang
3.5
3.5.1
28
Anhang
Definitionen und mathematische Voraussetzungen
• exponentielle erzeugende Funktionen
Man versteht unter der erzeugenden Funktion einer Folge ai die Potenzreihe :
f(x) =
1
X
n=0
an xn
Eine exponentiell erzeugende Funktion einer Folge ai ist die Potenzreihe:
1
X
f(x) =
n=0
an (
xn
)
n!
Die Funktion wird als exponentiell bezeichnet, da die Exponentialfunktion als Potenzreihe die folgende Form hat:
ex =
1
X
n=0
(
xn
)
n!
Die exponentiell erzeugende Funktion der Folge {1,1,1,1...} ist daher ex
• Multiplikation
Bei der Multiplikation zweier exponentiell erzeugenden Funktionen entstehen die
Koeffizienten:
P
P
an ( xnn ) bn ( xnn ) =
!
!
P
cn ( xnn )
!
mit :
c(n) =
P n
(
)a
k
k bn k
d.h. c(n)= (a + b)n ist die eponentiell erzeugende Funktion der Binomialkoeffizienten. Der Koeffizient von c(n) ist aus der Kombinatorik bekannt und bestimmt
genau die Kombinationen von n Elementen zur k-ten Klasse.
3.5 Anhang
3.5.2
29
Berechnung zu Theorem 4 item 1
Anzahl der X-Trees
Zum besseren Verständnis wird zuerst die Anzahl der X-Trees über einer Menge von n
Blättern mit Hilfe einer exponentiell erzeugenden Funktion berechnet. Definieren wir eine
exponential generating function für die Anzahl der gewurzelten binären X-trees r(n):
X
R ( x) =
n1
r (n )
xn
n!
Indem man die Wurzel entfernt, entstehen zwei gewurzelte Bäume und die Menge der
Blätter kann frei über diese Bäume verteilt werden. Daher gilt außerdem:
r(n) =
1
2
nX1
i=1
(
n
)r (i )r ( n
i)
i
Wendet man die Multiplikationsregel für exponential generating functions an, so gilt in
diesem Fall:
P n
c (n ) =
(
i )r(i)r(n
i)
daraus folgt:
R(x) =
1
P
2
c(n) xnn
!
=
1
P
2
P
r(n) xnn r(n) xnn = R(x)
1
!
!
2
2
+
x
( x falls nur ein einziger root-Knoten)
und man kann für R(x) schreiben:
p
p
R(x) =1
1
2
1
x
2
x kann mit Hilfe der allgemeinen Binomialformel berechnet werden
1 n
X
k n k
n
)x y
(
(x + y ) =
k
k
=0
Es ist:
p
1
2
x=
1
X
k=0
(
2
x) k (
=
k
1 2
) = 1+
1
X
(
2
k=1
x) k (
=
k
1 2
)
Daraus folgt:
1
p
1
2
x=
1
X
k=1
(
x )k (
2
=
k
1 2
)
der Koeffizient von xn n! ist dann die Anzahl der X-Trees r(n).Berechnet man r(n)
(alternierend positiv/negativ, so ergeben sich die Werte in der Tabelle.
3.5 Anhang
30
n 1=2 )
n
r (n ) = (
n
1
2
1
1
2
2
2
3
2
2) (
1 (1
2 2
1)
1 2
1 (1
2 2
3
!
1! = 1
1
2
n
2! = 1
12
1) (
2)
1 2 3
3! = 3
... ...
Sie entsprechen genau der Schröder-Formel zur Berechnung der Anzahl der X-Trees.
r(n)= n n
(2
(
2)!
n 1 n!
1)!2
= (1
::: n
3
(2
3))
Anzahl der unicyclic networks
Bisher wurden die Blätter zwischen 2 binären X-Trees aufgeteilt, das ergab die Unterbäume
mit r(i)und r(n-i) Blättern. Sei n = i und n = n i, so ist trivialerweise mit n + n = n:
1
2
r(n) =
1
2
nX1
i=1
(
1
2
n
)r (i )r ( n
i)
i
Betrachtet man alle Tupel von Blättern der Menge r(n ); :::; r(nk ) mit n
dann sind analog die Möglichkeiten k X-Trees mit ni Blättern zu bilden:
1
1
+
::: + nk = n,
k
n! Y r(n )
i
n1 !:::nk !
i=1
Man bildet die Summe aller n-Tupel, die so entstehen n + ::: + nk
symmetrische Kombination nur einmal betrachtet werden durch 2k:
1
X
1
k
2
n1 ;:::nk )
(
=
n und teilt, da
k
n! Y
r(ni )
n !:::nk ! i
1
=1
Analog zur berechneten Formel für X-Trees R(x) = R(x) + x kann man jetzt die Formel für den allgemeinen Fall der Unterteilung in k Tupel berechnen. Sei
1
2
2
Ck ( x ) =
P
c(n; k) xnn
!
die exponentiell erzeugende Funktion für die Anzahl der k-Tuple über der Menge X. Dann
gilt:
3.5 Anhang
31
Ck ( x) =
X
1
k
2
n1 ;:::nk )
(
k
n! Y
xn
r (n i )
n !:::nk ! i
n!
1
=1
Nach der Multiplikationsformel für exponentiell erzeugende Funktionen gilt dann:
2
k
xn
n! Y
r(ni )
n !:::nk ! i
n!
X
Ck ( x) = k
1
n1 ;:::nk )
1
(
1
= k
X
|
r (n )
=1
X
xn
xn
xn X
r(n) ::: r(n)
n!
n!}
{z n!
k mal
Daraus folgt:
2
Da
C ( x) =
P
Ck ( x) = k R ( x ) k
1
Ck (x) kann man die Gleichung umschreiben in:
C ( x ) = R ( x)
1
2
3
3
+
1
4
R (x )
4
+
:::
t
+
Es gilt die Reihenentwicklung:
ln
1
1
t
=
ln(1 t) = t + t
1
2
2
+
1
3
3
1
4
t :::
4
und damit für t=R(x):
ln(1 R(x)) = R(x) + R(x)
1
2
2
+
1
|
3
R ( x)
3
+
1
{z
4
R(x) :::
4
}
C (x)
2
Das kann man mit umschreiben in:
C ( x) =
Mit den Formeln R(x) = 1
die erzeugende Funktion:
R ( x)
1
2
p
1
2
1
2
R ( x)
ln(1 R(x))
2
x und R(x) = R(x)
C ( x) = x
1
2
1
1
2
4
log(1
Betrachtet man die Reihenentwicklung für:
2
+
x) R ( x)
2
x ergibt die Gleichung für
LITERATUR
32
1
4
ln(1
=
1
2
x) = 2x + (2x) + (2x) + :::
1
1
x + 2x + (2x) + (2x) + :::
1
2
1
4
2
3
3
2
1
4
1
2
|
3
{z
2
}
3
mitKoeffizienten n1 2n 2
R(x) bzw dessen Koeffizienten r(n) sind bereits bekannt :
r(n)= n n
(2
(
2)!
n 1 n!
1)!2
Daher kann man die Gleichung nach Multiplikation mit n! (da
die Koeffizienten von:
C ( x) = x
1
1
2
4
log(1
r(n) = n![xn ]R(x)) für
x ) R (x )
2
wie erwartet schreiben:
c(n) = n n!2n
1
=
(
n
1)!2
2
(
n
2
n
(2
n
2)!
n 1 n!
1)!2
n
(
n
(2
n
!
2)!
2n 1
1)!2
Literatur
[1] IQPNNI : Moving Fast Through Tree Space and Stopping in Time. Mol Biol Evol.
2004 Aug;21(8):1565-71.
[2] Unicyclic Networks: Compatibility and Enumeration. Charles Semple and Mike Steel
IEEE/ACM Transactions on Computational Biology and Bioinformatics Volume 3,
Number 1, January, 2006
[3] The Ring of Life provides evidence for a genome fusion of eukaryotes. Maria.C.Rivera
and James.A.Lake Nature 431,152-155(9 September 2004)
[4] Splits and Phylogenetic Networks. Daniel Huson. Presentation Paris, June 21,2005
[5] Phylogenetics. Charles Semple and Mike Steel. Oxford Lecture Series in Mathematics
and its Applications 24
Herunterladen