1 Ablauf der Übungen: Die Übungen finden Dienstag bis Freitag, jeweils von 14 bis spätestens 18 Uhr im CIP-Cluster des FB, Raum 118 Gebäude A, Biologie-Campus Siesmayerstraße statt. Dienstag: 1. 2. 3. 4. 5. 6. Einführung in GenBank und Blast Alignment mit Clustal X Nachalignierung mit BioEdit Anlegen der Phylip- und Nexusfiles Einführung in Paup Phylogenetische Analyse mit Branch-and-Bound Mittwoch: 1. 2. 3. 4. 5. Einführung in TreeView Konsistenzindices Einführung in Modeltest Maximum Likelihood Bootstrap-Analyse Donnerstag: 1. Molekulare Uhr 2. Bayes´sche Analysen 3. Filtern von MCMC Hypothesen Freitag: 1. Incongruenz Length Differenz Test 2. Kombinierte Datensätze 3. Substitutionssättigung 2 Konventionen in diesem Text Manche im Kurs verwendete Programme lassen sich über Menüs steuern. Die entsprechenden Befehle werden folgendermaßen dargestellt: >File>Load Sequences bedeutet „Wähle im Menüpunkt File den Unterpunkt Load Sequences und klicke ihn mit der Maus an. PAUP und MrBayes werden über Eingaben in Menüzeilen bzw. Befehlsblöcke im Datenfile gesteuert. export file=[Dateiname.nex] format=nexus interleaved=no; bedeutet „Gib diesen Text in die Menüzeile ein und führe den Befehl mit der <enter>-Taste aus bzw. schreibe diese Zeile in den Befehlsblock. „[Dateiname.nex]“ bedeutet hierbei, dass ein eigener Dateiname mit der entsprechenden Erweiterung gewählt werden kann, der dann ohne „[ ]“ eingegeben wird. Nachschlagewerke und Lehrbücher Balding D. J., Bishop, M. Cannings, C. 2001. Handbook of statistical genetics. Chichester etc., John Wiley & Sons. Felsenstein, J. 2004. Inferring phylogenies. Sunderland, MA, Sinauer. Knoop, V., Müller, K. 2006. Gene und Stammbäume. Ein Handbuch zur molekularen Phylogenetik. Heidelberg, Elsevier, Spektrum Akademischer Verlag. Sokal, R. R. & Rohlf F. J. 1995. Biometry. The principles and practice of statistics in biological research. 3rd ed. New York, Freeman & Co. Zar, J. H. 1999. Biostatistical analysis. 4th ed. Upper Saddle River, NJ, Prentice Hall. 3 Suchen in Genbank Das National Institute of Health, das European Molecular Biology Laboratory und die DNA Databank of Japan unterhalten untereinander vernetzte Sequenz-Datenbanken. Alle renommierten wissenschaftlichen Zeitschriften verlangen heute, dass Sequenz-Daten von publizierten Artikeln in einer dieser Datenbanken hinterlegt werden. Diese Daten können dann von jedem anderen für wissenschaftliche Arbeiten verwendet werden. Über: http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/ kann man z. B. nach Sequenzen bestimmter Organismen suchen. Als Beispiel das Suchergebnis für Homo sapiens neanderthalensis. Homo sapiens neanderthalensis Taxonomy ID: 63221 [Datenbank ID] Rank: subspecies [Taxonomischer Rang] Genetic code: Translation table 1 (Standard) Mitochondrial genetic code: Translation table 2 (Vertebrate Mitochondrial) [Translationstabellen] Other names: Entrez records Database name Nucleotide PubMed Central Taxonomy Direct links 6 11 1 synonym: Homo neanderthalensis Lineage( full ) cellular organisms; Eukaryota; Fungi/Metazoa group; Metazoa; Eumetazoa; Bilateria; Coelomata; Deuterostomia; Chordata; Craniata; Vertebrata; Gnathostomata; Teleostomi; Euteleostomi; Sarcopterygii; Tetrapoda; Amniota; Mammalia; Theria; Eutheria; Primates; Catarrhini; Hominidae; Homo/Pan/Gorilla group; Homo; Homo sapiens [detaillierte taxonomische Position] Comments and References: extinct This taxon is extinct. - - Um die Nukleotidsequenzen zu sehen, den entsprechenden Link rechts oben anklicken. Um die drei Sequenzen der hypervariablen D-loop Region zu sehen, entsprechende Kästchen anklicken. Es gibt verschiedene Formate: drop-down Menü oben links neben „Display“ -> erst „GenBank“ wählen. Es erscheint der vollständige GenBank Eintrag. Wichtig Accessionsnummer „AY149291“ usw. eindeutige Nummern. Besser zum Importieren in eigene Datensätze ist das FASTA-Format. Entsprechend wählen und anklicken. 4 - Zum exportieren „Send + all to file“ anklicken (wenn nichts angeklickt ist, werden alle verschickt, wenn man welche angeklickt hat, nur die). Danach Dateinamen und gewünschten Ordner angeben. FASTA-Format: - Einfachstes Format für Sequenzen Einzelne Einträge sind durch Zeilenwechsel getrennt Jeder Eintrag besteht aus 2 Blöcken: der 1. beginnt mit „>“ und enthält die Beschreibung, der 2. enthält die Sequenz Beschriebungszeile: Alles bis zum ersten Zwischenraum ist Name der Sequenz, alles weitere Beschreibung, die von vielen Programmen nicht gelesen wird. Zeilenwechsel im Sequenzblock sind egal, Zeilen sollten nicht länger als 80 Zeichen sein. BLAST-Suche Mit Hilfe eines Suchalgorithmus namens BLAST (basic local alignment search tool) kann man in Genbank nach ähnlichen Sequenzen suchen. Auf diese Weise findet man z. B. heraus, ob eigene Sequenzen wirklich vom untersuchten Organismus stammen (und nicht von kontaminierenden Bakterien, Pilzen oder einem selbst). Oder man sammelt auf diese Weise Sequenzen, um einen eigenen Datensatz zu vervollständigen. http://www.ncbi.nlm.nih.gov/BLAST/ nucleotide-nucleotide BLAST [blastn] wählen, wenn man DNA-Sequenzen blasten will, protein-protein BLAST [blastp], wenn es um Proteinsequenzen geht. - - - Eine bereits vorhandene Sequenz in das „Search“-Fenster kopieren und eventuelle Zeilenumbrüche entfernen. Weitere interessante Felder: „Choose database“, „Limit by entrez query or select from“ (wir wählen “Homo sapiens sapiens”) Auf „Blast!“ klicken. Genbank teilt mit, wie lange die Suche ungefähr dauern wird. Die angegebene „Request ID“ mit einer kleinen Erklärung für späteren Gebrauch in einen Textfile kopieren. Es kann vorkommen, dass die Datenbank (oder das Netzwerk) versagt. Mit dieser Nummer können Ergebnisse auch später noch abgefragt werden („Retrieve Results for an RID“). Nach Ablauf der Zeit auf „Format!“ klicken. In einem separaten Fenster erhält man das Resultat der Anfrage. Falls man zu früh klickt, abwarten: Fensterinhalt erneuert sich regelmäßig Resultat: eine graphische Darstellung mit „query“ (Such-)Sequenz und ähnlichen Sequenzen aus Genbank. Die Farbe der Balken gibt den Grad der Ähnlichkeit an. Weiter unten eine Liste mit Genbank-Nummern, Arten, Kurzbeschreibungen der Gene, Ähnlichkeits-„Score“ und E-value. Die Angaben sind nach Ähnlichkeit sortiert. Linker link „Genbank acc. no.“ führt zum Genbank-Eintrag. Rechter Link („Score“) zu einem Alignment der „Query-Sequenz“ mit der entsprechenden Sequenz. Gute Übereinstimmung der Sequenzen mit den ähnlichsten Sequenzen in Genbank bedeutet in der Regel eine enge Verwandtschaft bzw. Orthologie oder Homologie. Zum Einfügen ausgewählter Sequenzen Boxen anklicken „Get selected sequences“ wählen. Dann wieder „Display FASTA“ und „Send all to file“. 5 Alignieren von Sequenzen Fast alle phylogenetischen Algorithmen vergleichen homologe Positionen der DNASequenzen. In fast allen Genen kommt es aber gelegentlich zu Deletionen oder Insertionen von Nukleotiden oder längeren Genabschnitten. Dadurch entstehen unterschiedlich lange Sequenzen. Durch Einsetzen von „Leerstellen“, sog. „gaps“ an den Stellen der Insertionen/ Deletionen („indels“) werden die Sequenzen auf gleiche Länge gebracht und homologe Nukleotide verschiedener Sequenzen an die gleiche Position gerückt. Diesen Vorgang nennt man „alignen“, das Resultat ist das „Alignment“. ClustalX vergleicht zunächst alle Sequenzen paarweise miteinander, erstellt paarweise alignments und eine Ähnlichkeitsmatrix. Aufgrund der Ähnlichkeit wird dann ein Dendrogramm errechnet. Mit diesem Dendrogramm als „Wegweiser“ werden im dritten Schritt alle Sequenzen „alignt“. Befehle in ClustalX - >File>Load Sequences (Datensatz laden). - >Edit>Cut Sequences (bestimmte Sequenzen, z.B. alle, die länger als 390 bp sind, entfernen, 1 für später stehenlassen!) - >File>Append Sequences (Datensatz hinzufügen) - >Alignment>Alignment Parameters>Pairwise Alignment Parameters - >Alignment>Alignment Parameters>Multiple Alignment Parameters Die für uns interessanten Parameter sind die “Gap Opening Penalty” und die “Gap Extention Penalty”. Der erste Wert bezeichnet die Kosten für das Einfügen einer neuen gap, der zweite den für die Verlängerung einer solchen gap. Die Verlängerung eines indels ist „kostengünstiger“, weil längere indels oft in einem einzigen Schritt als Ganzes entstehen und nicht als mehrere Ereignisse gerechnet werden müssen. - >Alignment>Output Format Options (In welchem Format soll das Alignment ausgegeben werden? Wichtig: Phylip, Nexus, Clustal) - >Alignment>Do Complete Alignment. Das Programm alignt die Sequenzen mit den vorgewählten oder Default-Voreinstellungen. - >File>Save Sequences As … Wählen Sie einen neuen Namen, unter dem Sie das alignment speichern. Klicken Sie unter „Format“ >Nexus an. - >Edit>Remove All Gaps Spaßeshalber jetzt noch ein Alignment erstellen, bei dem das Einfügen von Indels kostenfrei ist, bei dem also das Programm nur nach Ähnlichkeit der Nukleotide entscheidet. Alle Sequenzen mit der Maus markieren und alle Gaps entfernen. Dann wieder: - >Alignment>Alignment Parameters>Pairwise Alignment Parameters - >Alignment>Alignment Parameters>Multiple Alignment Parameters>Alignment Parameter auf „0.00“ stellen und >CLOSE drücken. - >Do Alignment from Guide Tree (alignt vom vorher gespeicherten Baum ausgehend). Wenn man Sequenzen zu einem bestehenden Alignment hinzufügen möchte: - Profile Alignment Mode anklicken - >File>Load Profile 1 (sollte bereits alignt sein) - >File>Load Profile 2 (kann ein einfacher FASTA-file sein) - >Alignment>Align Sequences to Profile 1 - >Edit>Add Profile 2 to Profile 1 - >Align Profile 2 to Profile 1 nur, wenn beide Profiles schon alignt sind. 6 Manuelle Nachbearbeitung von Alignments Möglich z. B. in „Bioedit“ http://www.mbio.ncsu.edu/BioEdit/bioedit.html Bioedit bietet eine Vielzahl von Funktionen, die wir nicht alle besprechen können. - - >File>Open (Clustal-File laden. Zusätzlich zu den Sequenzen sieht man eine weitere Zeile, die invariable Positionen des alignments anzeigt). Links Namen der Sequenzen, rechts Sequenzen. Namen der Clustal-Consensus-Sequenz anklicken, danach >Edit>Delete Sequence(s) (Sequenz löschen, falls mit dem File weitergearbeitet werden soll. >View bzw. Funktionsbalken (verschiedene Ansichtsmodi erklären). Font und Schriftgröße wählen Mode (Edit: Schreiben, Select/Slide: verschieben) Insert/ Overwrite (wichtig beim Editieren) Im Modus Edit alle Sequenzteile am Anfang und Ende markieren, die nicht bei allen Sequenzen vorliegen, wegschneiden durch Delete-Taste. >File>Export>Sequence Alignment (Das endgültige alignment in PAUP/NEXUSFormat exportieren, dann Namen wählen und unter „Dateityp“ >PAUP/NEXUS (*.pau, *.nex wählen). Dieses Format wird von PAUP gelesen. Alternativ mit >File>Save As als Phylip 4 File speichern (Endung *.phy). Alle Formate lassen sich mit ganz normalen Texteditoren öffnen und betrachten. PAUP kann als Texteditor verwendet werden. 7 Phylogenetische Analyse Auf Joe Felsensteins Homepage finden sich links zu einer Vielzahl von Auswertungsprogrammen, die Lösungen für die unterschiedlichsten Probleme bieten. http://evolution.genetics.washington.edu/phylip/software.html. Die am häufigsten verwendeten Computerprogramme zur phylogenetischen Analyse sind PAUP, Phylip und MrBayes. Phylip (http://evolution.genetics.washington.edu/phylip.html) und MrBayes (http://morphbank.ebc.uu.se/mrbayes/) sind kostenlos im Internet erhältlich. PHYLIP implementiert eine Vielzahl verschiedener Methoden und ist gemeinsam mit PAUP das am weitesten verbreitete phylogenetische Programmpaket. PAUP ist in der Benutzung einfacher, allerdings nicht kostenlos. Es existieren Versionen für Mac und Windows. Die Programme benötigen unterschiedliche Datenformate als input files. Mit Hilfe von Bioedit können Sie alignments auch in Phylip-Format (*.phy) speichern. PAUP verwendet das sog. Nexus-Format (*.nex) und kann selber Phylip-files konvertieren. Sie können aber Alignments auch aus Bioedit in Nexus-Format exportieren. Die Windows-Version von PAUP wird zunächst über eine Befehlszeile gesteuert. Wir beginnen mit einer einfachen Analyse. PAUP benutzt in der Grundeinstellung Maximum Parsimony (MP) als Optimierungskriterium. PAUP öffnen und das alignment (>File>Open) laden. Wenn alles gut gegangen ist, sollte der file ohne Fehlermeldung eingelesen werden. Häufige Fehlerquelle bei diesem Schritt sind Leerzeichen, Punkte oder Striche in den Artnamen. - Sie erhalten im Fenster oberhalb der Befehlszeile einige Informationen zu ihrem Datenfile. Wenn Sie auf >Window>[Name Ihres Files] klicken, öffnet sich ein zweites Fenster mit dem Datenfile. Sie können nun zwischen diesen Ansichten wechseln. Erklärungen zum NEXUS-Format: - File beginnt mit #NEXUS - Dann folgt in der Regel eine Liste der Sequenzen mit ausführlichen Namen, Angaben zur Länge usw. - Danach können verschiedene Blöcke kommen, die jeweils mit „begin [block name];“ beginnen und mit „end;“ - Nach „begin data;“ folgt der Datensatz: 1. Zeile Dimensionen, 2. Zeile: Format, Erklärungen zu „interleave“ und „missing = -"; Semikola am Ende der Zeilen sind wichtig! Missing = - ggf. durch „gap = -" „missing = N“ ersetzen!! - Nach „matrix“ folgt das Alignment, danach „;“, neue Zeile und „end;“ - Weitere Blöcke später. - Phylip-file ins Nexus-Format konvertieren: tonexus fromfile=[Dateiname.phy] interleave=yes tofile=[Dateiname.nex] format=phylip; Von interleaved zu sequential umformatieren: export file=[Dateiname.nex] format=nexus interleaved=no; 8 1. Versuch einer Analyse über Befehlszeile (Parsimonie) Schon bei Datensätzen von 10 Arten ist die Zahl der möglichen Bäume so groß, dass die vollständige Suche nach dem besten Baum sehr lange dauert. Im ersten Versuch lassen wir PAUP mit Branch-and-bound nach dem optimalen Baum suchen. Syntax: set autoclose=yes warnreset=no increase=auto; bandb; Output im Display Buffer: Branch-and-bound search settings: Optimality criterion = parsimony Character-status summary: Of 877 total characters: All characters are of type 'unord' All characters have equal weight 744 characters are constant 35 variable characters are parsimony-uninformative Number of parsimony-informative characters = 98 Gaps are treated as "missing" Multistate taxa interpreted as uncertainty Initial upper bound: unknown (compute heuristically) Addition sequence: furthest Initial 'MaxTrees' setting = 500 (will be auto-increased by 100) Branches collapsed (creating polytomies) if maximum branch length is zero 'MulTrees' option in effect Topological constraints not enforced Trees are unrooted Branch-and-bound search completed: Score of best tree found = 194 Number of trees retained = 53 Time used = 00:06:39.3 9 TREEVIEW Die Ansicht von Bäumen in PAUP ist recht unbequem. Treeview ist ein Programm, mit dem man Bäume manipulieren, Ansichten verändern und ausdrucken kann. ML-Baum durch >File>Open laden. Cladogram, Phylogram, Radialer Baum erklären. Eine neue Outgroup für den Baum bestimmen und den Baum danach rooten. >Tree>Define outgroup Es erscheint eine Dialogbox mit zwei Fenstern. Arten der Outgroup (z. B. J, K, L) im linken Fenster (Ingroup) markieren und durch Druck auf die Pfeiltaste in das rechte Fenster (Outgroup) schieben. Mit >OK abschließen. >Tree>Root with outgroup. Die outgroup steht jetzt zuoberst, der restliche Baum „hängt“ sozusagen an der outgroup. Wenn Sie die outgroup lieber am unteren Ende des Baumes anhängen wollen, drücken Sie >Tree>Order>Ladderize left. Beschriftung ändert man im Menü >Style. Bootstrap-Baum laden. Unter >Tree>Show internal edge labels kann man Bootstrap-Werte an den Knoten an- und abschalten. Fontgröße und Schrifttyp verändern durch >Tree>Internal label font. Durch >Edit>Edit tree kann man verschiedene andere Manipulationen vor dem Ausdruck vornehmen.In der Menüzeile oberhalb des neu geöffneten Fensters stehen 9 Symbole und ein erklärendes Textfenster. Mit der linken Gruppe von 4 Symbolen verändert man die Topologie des Baumes. Dies stellt aber eine Manipulation der Ergebnisse dar. Mit der mittleren Gruppe von 4 Symbolen verändert man dagegen nur das Aussehen des Baumes, nicht die Topologie. Diese Funktionen können jederzeit frei verwendet werden, um den Baum besser darzustellen. Mit dem rechten Symbol können interne Knoten beschriftet werden. Mit >File>Print preview kann man eine Druckansicht des Baumes öffnen (schließen mit >Close). Ansicht mit >File>Save as graphic als Graphik speichern, um sie in anderen Programmen (z. B. Powerpoint) zu verwenden. Gaps als 5th character Gaps nicht als fehlende Daten, sondern als neuen Merkmalszustand (character state). Berechnung nicht durch Branch-and-bound sondern heuristische Suche. Syntax: pset gapmode=newstate; hsearch addseq=random swap=NNI nreps=100; Bäume anzeigen lassen. Syntax: describetrees 1/plot=phylogram; (1. Baum mit Astlängen) describetrees 1/plot=cladogram tcompress=yes; (1. Baum ohne Astlängen, Darstellung komprimiert) describetrees 1/noplot brlens=yes; (kein Baum, Tabelle mit Astlängen) describetrees 1-3/...; describetrees all/...; 10 Output im Display Buffer: Tree description: Unrooted tree(s) rooted using outgroup method Optimality criterion = parsimony Character-status summary: Of 877 total characters: All characters are of type 'unord' All characters have equal weight 733 characters are constant 40 variable characters are parsimony-uninformative Number of parsimony-informative characters = 104 Gaps are treated as "fifth base" Multistate taxa interpreted as uncertainty Character-state optimization: Accelerated transformation (ACCTRAN) Tree number 1 (rooted using default outgroup) Tree length = 230 Consistency index (CI) = 0.7609 Homoplasy index (HI) = 0.2391 CI excluding uninformative characters = 0.7074 HI excluding uninformative characters = 0.2926 Retention index (RI) = 0.8292 Rescaled consistency index (RC) = 0.6309 Wie robust ist mein Baum? Zur Abschätzung der Robustheit von phylogenetischen Hypothesen können mehrere Indices berechnet werden, die alle das Ausmaß an Homoplasie im Datensatz beschreiben. Der Konsistenzindex (CI) bewertet die Anzahl der Homoplasien als Anteil der Merkmalsänderungen. Er ist abhängig von der Anzahl der Merkmale und Taxa, sowie der Anzahl der Autapomorphien und der Topologie. Der Homoplasieindex (HI) ist komplementär zum Konsistenzindex. Er bezeichnet den proportionalen Anteil an Sites mit parallelen oder Rückmutationen (HI = 1-CI). Der Konservierungsindex ist ein Maß für die Anzahl der Synapomorphien in einem Stammbaum. Er ist nicht abhängig von Merkmalen und Taxa, daher als Maß besser geeignet als die obigen Indices. 11 Die Bäume, die von PAUP ausgegeben und berechnet werden, sind ungewurzelt. Um den Baum mit Hilfe einer Außengruppe zu wurzeln: Syntax: outgroup W X Y; (Definieren der Außengruppe) set root=outgroup outroot=monophyl; (Wurzeln mit der Außengruppe) describetrees 1-.../root=outgroup outroot=monophyl; (Wurzeln bereits berechneter Bäume) Speichern der Bäume. savetrees from=1 to=10 file=[Dateiname.nex] brlens=yes; Der Treefile im Nexus-Format ist ähnlich aufgebaut wie ein normaler Nexus-Datenfile, besteht aber aus einem Treeblock, der mit „Begin trees;“ anfängt. Danach Informationen zu Einstellungen bei der Berechnung der Bäume, dann Übersetzung der Namen in Nummern und die 10 Bäume im Newick-Format. Tree-Blöcke können ohne weiteres auch in den NEXUS-file geschrieben oder kopiert werden. Wenn sie nicht beachtet werden sollen, müssen sie mit eckigen Klammern auskommentiert werden. Vorsicht: die eckige Klammer hinter „&U“ (s.u.) wird von PAUP als Ende eines Kommentars interpretiert. Die erste linke Klammer des Baumes erzeugt dann eine Fehlermeldung. Zum Auskommentieren müssen alle farbigen Klammern gesetzt werden. [tree PAUP_1 = [&U] [((((((1:10,22:7):1,((((2:11,3:3):5,4:6):1,(((6:2,7:5):2,9:8):3,8:3) :5):3,5:5):3):2,(((10:0,11:4):2,12:0):6,(17:2,(18:1,((19:0,21:1):2,2 0:0):6):3):4):5):18,13:19):37,((14:2,15:0):3,16:0):54):1,((23:0,24:0 ):21,25:16):0);] Für die folgenden Berechnungen die bereits im Puffer gespeicherten Bäume löschen (betrifft nicht die Bäume im gespeicherten Datenfile): cleartrees; Berechnen von Bäumen mit bestimmten Grundannahmen. Definieren von topologischen „Constraints“: Syntax: constraints AVH (monophyly)=((A,V,H)); Alternativ kann man den ganzen Baum beschreiben: (B,C,D,E,F,G,I,J,K,L,M,N,O,P,Q,R,S,T,U,W,X,Y(A,V,H)); hsearch addseq=random swap=NNI nreps=100 constraints=AVH enforce=yes; Danach Vergleich der beschränkten mit den besten Bäumen: Syntax: gettrees file=[Dateiname] mode=7; 12 Output im Display Buffer: Processing TREES block from file "placopsistrees1.nex": Keeping: trees in memory plus trees from file 7 trees originally in memory 10 trees read from file 10 trees from file kept Time used = 0.00 sec 17 trees now in memory Länge vorgefertigter Bäume berechnen pscores Um festzustellen, wie ähnlich verschiedene Bäumen einander sind, kann man verschiedene sogenannte tree-to-tree distances errechnen. Syntax: treedist fromtree=1; (vergleicht Baum 1 mit allen anderen, zeigt Häufigkeitsverteilung) treedist fromtree=0 fd=no; (vergleicht alle Bäume miteinander, unterdrückt Häufigkeitsverteilung) Auswahl des besten Substitutionsmodells Wenn man Maximum Likelihood (ML) als Optimierungskriterium verwenden will, braucht man ein Substitutionsmodell. ML bietet die Möglichkeit, sich aufgrund eines statistischen Kriteriums zwischen Modellen zu entscheiden. Man wählt das Substitutionsmodell, für das die Likelihood-Funktion maximal wird. Das Programm „Modeltest“ kann 56 verschiedene Modelle testen und erledigt diese Aufgabe in Zusammenarbeit mit PAUP. PAUP öffnen und den Nexus-file durch >File>Open laden. Unter http://www.rhizobia.co.nz/phylogenetics/modeltest.html die Datei modelblockPAUPb10.txt öffnen und in den NEXUS-file hinter den Datenblock kopieren. Diese Datei sieht folgendermaßen aus: #NEXUS [! ***** MODELFIT BLOCK -- MODELTEST 3.4 *****] [The following command will calculate a NJ tree using the JC69 model of evolution] BEGIN PAUP; log file= modelfit.log replace; DSet distance=JC objective=ME base=equal rates=equal pinv=0 subst=all negbrlen=setzero; NJ showtree=no breakties=random; End; [! ***** BEGIN TESTING 56 MODELS OF EVOLUTION ***** ] BEGIN PAUP; 13 Default lscores longfmt=yes; Set criterion=like; [! ** Model 1 of 56 * Calculating JC **] lscores 1/ nst=1 base=equal rates=equal scorefile=model.scores replace; pinv=0 Datei speichern und erneut starten. PAUP berechnet für jedes Modell die Likelihood-Werte und speichert sie unter dem Namen „model.scores“. PAUP nach Beendigung des Rechenvorgangs schließen. Die Datei model.scores in den Ordner C:\Programme\Modeltest\ Modeltest 3.06 folder verschieben und ihr einen neuen Namen geben. Die DOS-Eingabeaufforderung im Windows-Startmenü durch >Start >Programme>Zubehör>Eingabeaufforderung öffnen. Durch die Eingabe cd gefolgt vom vollständigen Pfad gelangt man in den Ordner mit dem Programm Modeltest. Wenn angekommen, Modeltest durch die Eingabe: modeltest3.4.win.exe <[Dateiname] starten. Dateiname ist der soeben verschobene und umbenannte outputfile. Modeltest führt nun die Likelihood-Verhältnistests durch, bis sich keine signifikante Verbesserung mehr ergibt. Als Ergebnis das optimale Substitutionsmodell nach LRT oder AIC und einige Zeilen, die mit „BEGIN PAUP;“ anfangen. Dieser Teil lässt sich in PAUP übertragen, um mit den richtigen Parametern eine Analyse durchführen zu können. Den Text von „BEGIN PAUP;“ bis „END;“ mit der Maus markieren, indem man auf das Symbol links in der Kopfzeile des Eingabefensters klickt und >Bearbeiten>Markieren anwählt. >Bearbeiten>Kopieren In PAUP die Ansicht des Nexus-files öffnen und den Textblock an das Ende der Datei kopieren. 14 Erstellen eines PAUP-Blocks PAUP-Analysen lassen sich weitgehend automatisieren, indem man in verschiedenen zusätzlichen Textblöcken Annahmen zum Datensatz (ASSUMPTIONS Block), vorher errechnete Bäume (TREES Block) oder Details zur Analyse (PAUP Block) eingibt. Bei Einkopieren aus Modeltest Zeilenumbruch aus der „lset“-Zeile entfernen. Mit lset werden die Parameter für eine ML Analyse festgelegt. Dabei bedeutet: Base=(x y z) (Frequenz der Basen A, C und G, T ergibt sich von alleine) Nst=x (Zahl der Substitutionstypen) Rmat=(x y z …) (Rate der verschiedenen Substitutionstypen) Rates=gamma (Substitutionsraten sind von Position zu Position unterschiedlich und folgen der Gamma-Verteilung) Shape=x (Form-Parameter der Gamma-Funktion) Pinvar=x (Anteil invariabler Positionen) Um ML als Optimierungskriterium zu verwenden und dafür zu sorgen, dass das Programm die Analyse ohne Bestätigung abschließt, nach „Begin PAUP“ die folgende Zeile einfügen (die letzten beiden Befehle erübrigen sich bei ML in der Regel). set autoclose=yes criterion=likelihood warnreset=no increase=auto; Danach Außengruppe definieren und mit Außengruppe wurzeln lassen. Um die Suche nach dem besten Baum zu starten, nach der „lset“ Zeile die folgende m.o.w. bekannte Zeile einfügen. Nur 5 Replikationen, damit wir heute noch fertig werden. hsearch addseq=random swap=TBR nreps=5; Zuletzt Bäume beschreiben und speichern lassen. Vollständiger PAUP-Block: BEGIN PAUP; set autoclose=yes criterion=likelihood; Lset Base=(0.2554 0.2315 0.3046) Nst=6 Rmat=(1.0000 1.6878 1.0000 1.0000 8.5808) Rates=gamma Shape=0.8447 Pinvar=0.6501; outgroup W X Y; set root=outgroup outroot=monophyl; hsearch addseq=random swap=tbr nreps=5; describetrees all/plot=phylogram tcompress=yes brlens=yes; savetrees file=placopsis2.tre format=nexus brlens=yes from=1 to=1; END; Nexus-file speichern und schliessen. Dann erneut laden. Die Analyse wird durchgeführt, ohne dass Sie weitere Befehle eingeben müssen. Phylogenetische Unsicherheit, nicht-parametrischer Bootstrap Wieviel Vertrauen kann man in das Ergebnis einer phylogenetischen Untersuchung haben? Da sich die Evolution nur einmal abgespielt hat und nicht experimentell wiederholt werden kann, kann man übliche Statistiken wie Standardabweichungen und Varianzen nicht berechnen. Eine Lösung dieses Problems ist die Pseudoreplikation des Datensatzes, bei der man den bereits vorhandenen Datensatz 100 bis 1000 mal neu besammelt. Beim sog. nichtparametrischen Bootstrapping erstellt man neue Datensätze von gleicher Größe wie der 15 ursprüngliche Datensatz, indem man willkürlich einzelne Positionen des Alignments mit Zurücklegen sammelt. Durch die zufällige Auswahl werden einige Positionen mehrmals „gesammelt“, andere fallen dann weg. Jede Pseudoreplikation des Datensatzes unterscheidet sich von den anderen. Man errechnet für jeden Datensatz einen separaten Stammbaum, erstellt aus den Bäumen einen Konsensusbaum, und kann für jeden Ast dieses Baumes ermitteln, in wie vielen der Bootstrap-Bäume er vorhanden war. Diesen „bootstrapsupport“ (in Prozent ausgedrückt) sieht man an fast allen publizierten phylogenetischen Bäumen. Begin PAUP; log start=yes file=[Dateiname].log replace=yes; outgroup W X Y; set increase=auto root=outgroup outroot=monophyl; bootstrap search=heuristic nreps=100 conlevel=50; describetrees /plot=phylogram tcompress=yes; savetrees from=1 to=1 file=[Dateiname].tre savebootp=nodelabels maxdecimals=1 replace=yes; log stop; end; Als Anzeige erscheinen Konsensus-Baum und eine Tabelle mit allen Gruppen, die sich in mindestens 5 % der Bäume fanden. Die Arten sind als Zahlen oberhalb der Spalten abgekürzt. Sternchen in den Spalten markieren Gruppen des Baumes, die durch den betreffenden Ast voneinander getrennt sind. Die rechten Spalten zeigen, in wievielen Bäumen und in wieviel Prozent der Bäume diese Gruppen (bzw. dieser Ast) angetroffen wurden. Gruppierungen, die in weniger als 5% der Bäume auftraten, sind nicht gelistet. Rekonstruktion der Sequenzen von Vorfahren Begin PAUP; outgroup W X Y; set increase=auto root=outgroup outroot=monophyl; hsearch addseq=random swap=tbr nreps=100; roottrees; contree/ strict=no majrule=yes percent=50; set opt=deltran; reconstruct 279/trees=1; end; alternativ zu den letzten drei Zeilen: mprsets 279/trees=1; end; Festlegen einer Außengruppe und der Wurzeloption, dann heuristische Suche, Wurzeln der Bäume, Berechnung eines 50%-majority-Konsensus-Baums, mprsets gibt alle möglichen Merkmalszustände an inneren Knoten an. reconstruct wählt einen davon aus. Um in Zweifelsfällen entscheiden zu können, gibt es zwei Optionen: set opt=acctran; Accelerated transformation: Wenn es verschiedene Möglichkeiten gibt, werden Merkmalsänderungen so früh wie möglich, also nahe der Wurzel, eingefügt. set opt=deltran; Delayed transformation: Wenn es verschiedene Möglichkeiten gibt, werden Merkmalsänderungen so spät wie möglich, also nahe den Spitzen, eingefügt. 16 Berechnung vollständiger Sequenzen für alle internen Knoten: describetrees 1/plot=cladogram label=yes xout=internal; Testen phylogenetischer Hypothesen, molekulare Uhr Die Astlängen eines Baumes sind das Produkt aus Substitutionsrate und Zeit. Wenn die Substitutionsrate in allen Ästen des Baumes gleich ist, geben die Astlängen direkt das relative Alter unterschiedlicher Linien an. Um die Knoten eines Baums datieren zu können, müsste also die Substitutionsrate über alle Ästen des Baumes homogen sein. In den meisten Fällen variieren aber die Substitutionsraten des optimalen Baums in verschiedenen Ästen erheblich, was sich an sehr unterschiedlichen Astlängen zeigt. Ein Baum mit homogener Substitutionsrate gibt in diesem Fall den Datensatz offenbar verzerrt wieder. Die Frage ist, wie stark diese Verzerrung ist. Ob der Baum den Datensatz fast genau so gut erklären kann wie der optimale Baum oder ob er signifikant schlechter ist. Nur wenn der Baum nicht signifikant schlechter ist, kann man ihn zur Datierung verwenden. Unter ML kann man die Substitutionsrate wie einen Parameter des Substitutionsmodells betrachten. Im Normalfall maximiert das Programm die Likelihood-Funktion, wobei die Substitutionsrate frei über den Baum variieren kann. Genauso wie alle anderen Parameter des Substitutionsmodells (etwa das Verhältnis von Transitionen zu Transversionen; s. oben „Auswahl des besten Substitutionsmodells“) kann man aber auch die Substitutionsrate zwischen verschiedenen Evolutionslinien homogen halten. Ein Modell mit homogener Substitutionsrate stellt lediglich einen Spezialfall des Modells mit heterogener Subsitutionsrate dar. Mit einem „likelihood ratio test“ (LRT) kann man feststellen, ob die Likelihood des „Uhr“Baumes signifikant schlechter ist als die Likelihood des optimalen Baumes. Die Werte von: 2 ([-ln Spezialfall] – [-ln komplexes Modell]) folgen asymptotisch einer χ2-Verteilung mit s-2 Freiheitsgraden (s = Anzahl der Arten im Datensatz). Statistische Tafeln enthalten Signifikanzwerte für die χ2-Verteilung. Alternativ kann man p-Werte unter: http://ergo.ucsd.edu/unixstats/probcalc/index.shtml errechnen lassen. Ein p-Wert ≥ 0,05 bedeutet dabei, dass die Likelihood-Werte nicht signifikant verschieden sind. Die Annahme einer molekularen Uhr ist dann gültig. Bei p-Werten ≤ 0,05 ist der „Uhr“-Baum signifikant schlechter als der optimale Baum und die Annahme homogener Substitutionsraten wird statistisch zurückgewiesen. Der χ2-Test ist nur zulässig, wenn man die Topologie sehr genau schätzen kann (genauer: bei sehr langen Sequenzen), letztlich also, wenn die Topologie mit und ohne Uhr sich nicht wesentlich unterscheiden. Praktisch vergleicht man die Likelihood des ML-Baums mit und ohne Uhr, wobei das Substitutionsmodell zur Errechnung beider Bäume identisch ist. Nacheinander Nexus-file und ML-Baum laden. Ggf. Berechnung abbrechen, PAUP-Block im Nexus file durch eckige Klammern blockieren, File schließen und nochmal laden. PAUPBlock für den Treefile schreiben: Begin PAUP; log start=yes file=placopsisclock.log replace=yes; lscores 1/ Base=(0.2554 0.2315 0.3046) Nst=6 Rmat=(1.0000 1.6878 1.0000 1.0000 8.5808) Rates=gamma Shape=0.8447 Pinvar=0.6501; outgroup X W Y; roottrees outroot=monophyl; 17 lscores 1/ Base=(0.2554 0.2315 0.3046) Nst=6 Rmat=(1.0000 1.6878 1.0000 1.0000 8.5808) Rates=gamma Shape=0.8447 Pinvar=0.6501 clock=yes; log stop; end; lscores 1/...; berechnet den Likelihood-Wert des Baumes unter den mit Modeltest bestimmten optimalen Parametern. lscores 1/... clock=yes; berechnet den Likelihood-Wert unter Annahme einer molekularen Uhr. Bayessche Analyse Die Bayessche Methode ist aus mehreren Gründen sehr populär geworden. Hier nur ein paar praktische Gründe: - - Obwohl hunderttausende oder Millionen von Bäumen berechnet werden, ist die Methode extrem schnell. Bootstrap-Analysen sind unter ML extrem zeitaufwändig. Die Bayessche Analyse berechnet den Baum und die Wahrscheinlichkeit einzelner Parameter in einem Arbeitsgang. Damit lässt sich auch die Wahrscheinlichkeit bestimmter Baumtopologien leicht vergleichen. Hypothesentesten auf der Grundlage von MCMC-samples gewinnt ständig an Bedeutung. MrBayes benutzt NEXUS-files, die allerdings etwas abgeändert werden müssen. NEXUS-file in den Ordner kopieren, in dem sich MrBayes befindet. Den kopierten NEXUS-file in PAUP öffnen (Berechnung stoppen und in die Ansicht des NEXUS-files wechseln). Eventuell vorhandenen Text zwischen „#NEXUS“ und „begin data;“ löschen. Die ersten 3 Zeilen der Datei lauten jetzt: #NEXUS begin data; PAUP-Block einmal ans Ende des files kopieren. Es liegen jetzt zwei identische PAUP-files vor. Im 2. PAUP-Block die Zeile „begin paup;“ durch „begin mrbayes;“ ersetzen Im MrBayes-Block werden genau wie im PAUP-Block die Parameter der Analyse festgelegt. Das Substitutionsmodell muss ebenfalls festgelegt werden, allerdings bleiben die einzelnen Parameter variabel. Wir übernehmen das mit Modeltest errechnete Modell, lassen aber Angaben zu Nukleotidfrequenz, Gamma-Form-Parameter oder dem Anteil invariabler Sites weg. log start filename=[Dateiname.nex.out] append; set autoclose=yes; lset nst=[Wert] rates=[equal/gamma/invgamma] ngammacat=?; mcmc ngen=100000 printfreq=100 samplefreq=10 nchains=4 savebrlens=yes; plot filename=[Dateiname.nex.p]; 18 sumt filename=[Dateiname.nex.t] contype=allcompat burnin=1000; log stop; end; Die zweite Zeile bestimmt, dass das Programm die Analyse nach dem letzten Baum abschließt. Ohne diese Anweisung wird man nach dem letzten Schritt der Berechnung gefragt, ob die Markov-Kette fortgesetzt werden soll. Unter „lset“ wird das Modell festgelegt (ohne dass die Parameter fixiert werden). „Nst“ ist die Zahl der verschiedenen Substitutionsraten [Werte 1, 2 oder 6] „rates“ legt fest, ob die Substitutionsrate konstant sein soll oder einer Gamma-Verteilung mit oder ohne invariable Sites folgt. Unter „mcmc“ wird der Suchlauf näher bestimmt. „Ngen“ = Zahl der Generationen (= Schritte) der Markov-Kette, „printfreq“ = wie oft zeigt das Programm die Werte auf dem Bildschirm an, „samplefreq“ = jeder wievielte Baum soll gespeichert werden, „nchains“ = Zahl der parallel laufenden Markov-Ketten. Den Ordner „MrBayes“ öffnen und „MrBayes3_0b3.exe“ durch Doppelklick starten. Eingabe: execute [Dateiname] Das Programm beginnt mit der Analyse. Auf dem Bildschirm wird jeder hundertste Schritt angezeigt. In der rechten Spalte sieht man, wie viele Sekunden das Programm voraussichtlich noch rechnen wird. Nach Beendigung der Analyse Konsensus-Baum mit Astlängen und den A-posterioriWahrscheinlichkeiten der einzelnen Clades ansehen. Bei der Anzeige der Ergebnisse die „Burnin“-Phase berücksichtigen sump filename=[Dateiname.nex.p] Zur Auswertung des Baumes eingeben: sumt filename=[Dateiname.nex.t] burnin=[Zahl zu verwerfender Bäume] Als output erhält man eine Liste der Arten und der Häufigkeit verschiedener Gruppierungen, einen Baum mit A-posteriori-Wahrscheinlichkeiten, einen Baum mit Astlängen und eine Tabelle mit „Credible sets of trees“. Alle diese Daten werden in neuen Dateien namens [Dateiname].parts (Gruppierungen), [Dateiname].con (Bäume) und [Dateiname].trprobs gespeichert. Die Datei [Dateiname].con lässt sich in Treeview zur besseren Ansicht öffnen. Falls Sie nach der Wahrscheinlichkeit eines bestimmten, nicht im Konsensus-Baum enthaltenen Clades suchen, können Sie [Dateiname].parts mit einem Texteditor öffnen. In der Datei [Dateiname].trprobs finden Sie die Einzelwahrscheinlichkeiten (p) und kumulativen Wahrscheinlichkeiten (P) aller errechneten Bäume. Anhand der kumulativen Wahrscheinlichkeit können Sie die Bäume heraussuchen, die gemeinsam eine signifikante Wahrscheinlichkeit besitzen. Den Schwellenwert der Signifikanz können Sie selber festlegen; in der Statistik üblich sind 95 % 99 % oder 99,9 %. Statt aufgrund eines Konsensus-Baums kann man Daten auch auf der Grundlage eines solchen Sets wahrscheinlicher Bäume analysieren. 19 Filtern von MCMC-treesamples zum Testen von Hypothesen Den MCMC-treefile [Dateiname.nex.t] in PAUP laden. Constraints definieren. Altes Beispiel constraint AVH (monophyly)=((A,V,H)); Bäume filtern: filter constraint=AVH; Um eine ganze Reihe Hypothesen zu testen, kann man wieder einen PAUP-Block schreiben und an den Treefile anhängen. Begin PAUP; constraint AVH (monophyly)=((A,V,H)); constraint IVH (monophyly)=((I,V,H)); constraint FGI (monophyly)=((F,G,I)); constraint FGDLJKBCSTUQR (monophyly)=((F,G,D,L,J,K,B,C,S,T,U,Q,R)); filter constraint=AVH; filter constraint=IVH; filter constraint=FGI; filter constraint=FGDLJKBCSTUQR; end; Multigen-Datensätzen, bei denen jedes Gen einem eigenen Substitutionsmodell folgt. 1. Teil ILD und Bayes’scher Kongruenztest Konsistente statistische Verfahren wie ML führen stets zum richtigen Baum, wenn die Datenmenge gegen Unendlich geht. Man versucht, die Präzision der phylogenetischen Rekonstruktion zu erhöhen, indem man mehr als ein Gen sequenziert. Eine Grundannahme ist dann allerdings, dass alle untersuchten Gene dieselbe phylogenetische Geschichte reflektieren, bzw. dass die Einzeldatensätze kongruentes phylogenetisches Signal liefern. Ein einfacher, häufig verwendeter Test ist der ILD (incongruence length difference test). Gurndannahme des ILD: Konflikt zwischen Datensätzen führt in den kombinierten Datensatz Homoplasie ein. Ein Baum auf der Grundlage des kombinierten Datensatzes ist dann länger als die Summe der Längen der Einzelbäume. Der Test errechnet D = L(1+2+…+N) – (L1+L2+…+LN). Signifikanztest: Man vergleicht D mit einer Häufigkeitsverteilung, die man dadurch erhält, dass man den kombinierten Datensatz n-mal willkürlich in Partitionen von gleicher Länge unterteilt und für jeden der n Datensätze D errechnet (Permutationstest, künstlich generierte „Nullverteilung“). Achtung: Für den ILD müssen invariable Positionen des Alignments entfernt werden! Festlegen der Partitionen begin sets; 20 charset ITS (Standard)=1-xxx; (Name des ersten Merkmalssets, Positionen, die diesem Set angehören) charset mtSSU (Standard)=xxx-xxx; (Name des zweiten Merkmalssets, Positionen, die diesem Set angehören) charpartition ITSmtSSU=1:1-xxx,2:xxx-xxx; (Partition/ Unterteilung der Daten, Positionen, die den jeweiligen Sets angehören. Scheinbar redundant, aber wichtig, wenn verschiedene Teildatensätze in einer Analyse untersucht werden sollen.) end; ILD (“partition homogeneity test”) in PAUP durchführen begin paup; set autoclose=yes; weights x:ITS,x:mtSSU; (Wichtungen für die einzelnen Partitionen (ganzzahlig)) hompart partition=ITSmtSSU nreps=100 / addseq=random swap=tbr nreps=100; end; Der ILD wird zwar nach wie vor häufig verwendet, hat sich bei näherem Hinsehen aber als sehr schwacher Test für die Kombinierbarkeit von Datensätzen erwiesen. Das liegt einerseits an seiner sehr hohen Rate an Typ-I-Irrtümern (die Nullhypothese „Kongruenz der Datensätze“ wird abgelehnt, obwohl sie zutrifft). Simulationsstudien haben gezeigt, dass phylogenetische Rekonstruktionen durch Kombination von Datensätzen selbst dann oft präziser werden, wenn die Einzeldatensätze inkongruentes Signal enthalten. Andererseits wird die Präzision durch Kombination in sehr vielen Fällen schlechter als in Einzelanalysen, selbst wenn der ILD nicht signifikant ist. Der ILD misst, wie viel Homoplasien entstehen, wenn Datensätze zusammengeführt werden. Die phylogenetischen Rekonstruktionen (Bäume), die mit verschiedenen Datenpartitionen errechnet werden, werden nicht verglichen. Auf der Grundlage einer Bayes’schen MCMC-Stichprobe kann man alternativ die von verschiedenen Datenpartitionen bevorzugten phylogenetischen Bäume miteinander vergleichen und testen, ob die Ergebnisse einander widersprechen. Man prüft dabei, wie häufig durch Gen 1 gut unterstützte phylogenetische Beziehungen (Knoten mit P ≥ 95%) in den auf Gen 2, 3, … basierenden MCMC-Stichproben (dem „Confidence Envelope“) auftreten. Dazu definiert man aus dem Konsensus-Baum der Analyse von Gen 1 einen topologischen Constraint, der nur die gut unterstützten monophyletischen Gruppen beschreibt, und filtert mit diesem Constraint die Treefiles der MCMC-Stichproben der Analysen der Gene 2, 3, … Wenn phylogenetische Beziehungen von einem Gen gut unterstützt werden aber in den Stichproben anderer Gene in weniger als 5% der Bäume vorkommen, haben die zu Grunde liegenden Genpartitionen offenbar verschiedene Evolutionswege hinter sich. Arbeitsschritte: (1) Berechnen von MCMC-Stammbäumen für jede einzelne Genpartition mit MrBayes (s.o.) (2) Aufrufen des Konsensusbaums von Gen 1 in einem Texteditor und definieren des Constraints. Aus diesem Baum mit A-posterioir-Wahrscheinlichkeiten (A,B,((C,D)1.00,(((E,F)0.64,(G,(H,(I,J)0.98)0.83)0.50)0.98,(K,(L,M)0.50)0.96)0.43)1.00); wird dabei z. B. der folgende „95% Majority Rule Konsensusbaum“. (A,B,((C,D),(E,F,G,H,(I,J),(K,L,M)))); (3) Aufrufen des Nexus-Files von Gen 2 in PAUP. (4) Aufrufen des Files [Dateiname.nex.t] für Gen 2 in PAUP. (5) Die Bäume aus der Burnin-Phase löschen. Den File unter neuem Namen abspeichern. (6) Definieren des Constraints in der Befehlszeile von PAUP (s.o.). (7) Filtern der Bäume, die diesem Constraint genügen (s.o.). 21 (8) Die Anzahl der gefilterten Bäume durch die Zahl der verbliebenen Bäume im Treefile (Dateiname.nex.t – Bäume aus der „burnin“-Phase) dividieren. (9) Wenn diese Zahl größer 5% ist, kann die Nullhypothese nicht zurückgewiesen werden. 2. Teil MCMC-Analyse des kombinierten Datensatzes MrBayes kann bei Analyse kombinierter Datensätze unterschiedliche Substitutionsmodelle für jede Datenpartition berücksichtigen. Allgemeine Einstellungen, Partitionen definieren: begin mrbayes; log start filename=Trapcomb.out append; set autoclose=yes; charset ITS = 1-474; charset mtSSU = 475-1241; partition ITSmtSSU = 2:ITS,mtSSU; set partition=ITSmtSSU; Subsitutionsmodelle für einzelne Partitionen bestimmen lset applyto=(1) nst=6 rates=invgamma ngammacat=3; lset applyto=(2) nst=2 rates=invgamma ngammacat=4; Parameter in einzelnen Partitionen “entkoppeln”. Ansonsten benutzt MrBayes für alle Partitionen dieselben Parameterwerte. unlink shape=(all); unlink pinvar=(all); unlink statefreq=(all); unlink revmat=(all); Übliche Einstellungen zum MCMC-Lauf. mcmc ngen=2500000 printfreq=1000 samplefreq=100 nchains=4 savebrlens=yes; plot filename= Trapcomb.p; sumt filename=Trapcomb.t contype=allcompat burnin=5000; log stop; end; Berechnung von Substitutionssättigung Im Verlaufe der Evolution kann es durch Mehrfachmutation an ein und derselben Nukleotidposition zu Substitutionssättigungen kommen. Dadurch werden evolutionäre Distanzen zwischen den Sequenzen von Taxa maskiert. Da aufgrund von Mehrfachsubstitutionen Konvergenzerscheinungen auftreten können, die die verwandtschaftlichen Beziehungen verfälschen können, sollte ein für phylogenetische Fragestellungen herangezogener Datensatz keine allzu starke Substitutionssättigung aufweisen Der Anteil an Sättigung eines Datensatzes lässt sich auf verschiedene Weise berechnen, ein einfaches Verfahren stellt der Test von Xia et al. (2003) dar, welcher im Programm DAMBE implementiert ist. Iss ist dabei der Wert für die Substitutionssättigung in einem Alignment. Ist Iss gleich 1, liegt eine extrem hohe Sättigung vor. Da das Alignment allerdings schon vor erreichen dieses Wertes nicht 22 mehr einwandfrei eine Phylogenie-Rekonstruktion erlaubt, wird mittels Computersimulation ein kritischer Wert Iss.c berechnet. Wenn Iss nicht signifikant kleiner als Iss.c, dann liegt eins starke Sättigung vor, und das Alignment sollte nicht verwendet werden. Befehle in DAMBE: >File >Open Standard Sequence File >Non Protein Seq >1 2 oder 3 wählen >Seq.Analysis >Measure Substitution Saturation >Test by Xia et al. >Eingabe der Proportion of invariable sites (aus Modeltest) 23 Zum ILD-Test: Baumlänge Kombiniert Gen 1 Gen 2 = ILD 1569 565 999 = 5 = = = = = = = = = 5 0 0 0 0 2 0 1 0 Randomisierungen 1569 1569 1569 1569 1569 1569 1569 1569 1569 … 570 572 575 557 580 550 583 520 560 994 997 994 1012 989 1017 986 1048 1009 30 von 1000 Randomisierungen sind 5 oder größer, p < 0.03