Biophysik F1-Praktikum – Kursteil " Molekulare Evolution" Thorsten Burmester Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Anleitung zum praktischen Teil 2006 1. Tag: Datenbanken und Grundlagen der Molekularen Phylogenie 1. Sie erhalten eine unbekannte cDNA-Sequenz. Sie erhalten eine Textdatei mit einer cDNA-Sequenz ("sequenz.txt"). Ihre erste Aufgabe ist es, herauszufinden, für welches Protein diese cDNA kodiert. Dafür durchsuchen Sie die im WWW vorhandenen Datenbanken mit dem BLAST-Algorithmus: 1. NCBI-BLAST: http://www.ncbi.nlm.nih.gov/BLAST/ 2. EBI-BLAST: http://www.ebi.ac.uk/Tools/similarity.html 3. BLAST-Japan: http://blast.genome.jp/ Öffnen Sie die Textdatei mit der Sequenz mit einem Editor und kopieren Sie diese in die entsprechende Dialogbox. Wählen Sie Dazu muss die Option "blastx" ausgewählt werden. Um welches Protein welcher Spezies handelt es sich? Mit welchen anderen Proteinen weist diese Sequenz Ähnlichkeiten auf? 2. Translation der cDNA in eine Proteinsequenz: Alle weiteren Analysen werden mit aus der DNA translatierten Aminosäuresequenz durchgeführt. Dazu müssen Sie die vorgegebene DNA-Sequenz in Protein übersetzen. Dazu stehen verschiedene Programme zur Verfügung. Wir verwenden eine netzbasierte Applikation: http://www.expasy.ch/tools/dna.html Kopieren Sie die DNA-Sequenz wiederum in die dafür vorgesehene Dialogbox starten sie die das Programm ("Translate Sequence"). Nun erhalten Sie die in allen sechs möglichen Leserastern translatierte DNA-Sequenz. Wählen Sie das geeignete Leseraster. Woran erkennen Sie, welches Leseraster das richtige ist? Das erhaltene Protein kopieren Sie und speichern sie ab (ohne das Start-Methionin). 3. Erstellung eines Mehrfach-Sequenzalignments Um zu phylogenetischen Aussagen zu kommen, müssen Sie geeignete Vergleichssequenzen auswählen. Dazu können Sie wiederum mit den BLAST-Programmen die Proteindatenbanken durchsuchen (diesmal Option "blastp", d.h. Vergleich eines Proteins mit anderen Proteinen): 1. NCBI-BLAST: http://www.ncbi.nlm.nih.gov/BLAST/ 2. EBI-BLAST: http://www.ebi.ac.uk/blast2/ 3. BLAST-Japan: http://blast.genome.jp/ Wir haben für Sie bereits eine Vorauswahl von Sequenzen getroffen. Diese enthält neben der bereits untersuchten Sequenz noch 11 weitere orthologe Sequenzen. Die Sequenzen sind in einer Datei im so genannten "FASTA"-Format vorgegeben. Öffnen Sie diese Datei ("Proteine.txt") mit einem Texteditor und betrachten Sie diese. Biophysik F1-Praktikum – Kursteil " Molekulare Evolution" Thorsten Burmester >Speziesname VLSAADKT......usw. Öffnen Sie das Programm "CLUSTALX" und laden die Datei "Proteine.txt" (Menü "File" -> "Load Sequences"). Nun "alignen" Sie die Sequenzen. D.h., das Programm versucht die Sequenzen so aneinanderzulegen, dass sie optimal übereinstimmen. Dafür müssen in einige Sequenzen Lücken bzw. Insertionen eingefügt werden. Sie können hierfür die Standardeinstellungen von CLUSTAL verwenden: Menü: "Alignment" -> "Do Complete Alignment". Nach Bestätigung der Dialogbox ("OK") nimmt der Sequenzvergleich einige Sekunden in Anspruch. Was erkennen Sie an diesem Alignment? Was hat das Programm mit den Sequenzen, im Vergleich zu den Ausgangsdaten, gemacht? Exportieren Sie das Alignment in PHYLIP-Format in den PHYLIP-Ordner. 4. Molekularphylogenetische Analyse (PHYLIP package) Wir werden nun drei verschiedene Methoden ausprobieren, um aus diesem Alignment einen Stammbaum zu erstellen. Die ersten beiden Methoden beruhen jeweils auf einer Distanzmatrix der Daten, d.h., vor der Stammbaumerstellung muss diese zunächst erstellt werden. Da es sich um ein Aminosäurealignment handelt, verwenden wir zunächst das Programm PROTDIST. Laden Sie das Alignment-File nach der Aufforderung: "Please enter new file name>" Wählen Sie die Option "PAM Dayhoff matrix" (option "P"). Die Distanzmatrix ist nach dem Ende der Berechnung in einer Datei namens "OUTFILE" enthalten. Benennen Sie diese um, und schauen Sie sich die Datei mit einem Texteditor bzw. Word an. 1.) Als Erstes erstellen Sie einen Stammbaum anhand der UPGMA-Methode. Dafür wird das Programm NEIGHBOR verwendet. Starten Sie dieses Programm und geben Sie die Matrixdatei als ein. "Please enter new file name>" Wählen Sie unter "Settings" die Option N aus, und wählen Sie dann die Methode "UPGMA" aus. Drücken Sie dann "y" (für "YES"). Die Analyse befindet sich im "OUTFILE", der Stammbaum in "OUTTREE". Benennen Sie beide Dateien um, und schauen Sie sich diese mit dem Editor bzw. Word an. Zur Darstellung des Stammbaumes starten Sie nun "TreeView32". Laden Sie das umbenannte OUTTREE. Welche Aussagen über die Phylogenie der verwendeten Proteine bzw. Organismen lassen sich anhand dieses Stammbaumes treffen? Was fällt Ihnen auf? 2. Die zweite Methode ist Neighbor-joining (NJ). Dafür wird wiederum das Programm NEIGHBOR verwendet. Starten Sie dieses Programm und geben Sie die Matrixdatei als ein. "Please enter new file name>" Die Analyse befindet sich im "OUTFILE", der Stammbaum in " OUTTREE". Benennen Sie beide Dateien um, und schauen Sie sich diese mit dem Editor bzw. Word an. Biophysik F1-Praktikum – Kursteil " Molekulare Evolution" Thorsten Burmester Bestimmen Sie die geeignete Außengruppe (outgroup). Welches Kriterium können Sie hier für die Wahl der Außengruppe verwenden? Die Details dieses Programms werden im Kurs besprochen. Beachten Sie insbesondere die Astlängen. 3.) Die drittes werden wir die Parsimony-Methode nach J. Felsenstein verwenden. Dafür starten Sie das Programm PROTPARS aus dem PHYLIP Softwarepaket. Da Parsimony eine charakter-orientierte Methode ist, kann das Alignment direkt eingeladen werden. Das OUTFILE und OUTTREE benennen Sie um, und schauen Sie sich diese mit dem Editor bzw. TreeView an. Was fällt Ihnen bei der Darstellung der Astlängen auf? 4.) Statistische Überprüfung des Ergebnisses nach dem Bootstrap-Verfahren: a. Stellen Sie aus Ihrem Alignment 100 "Pseudosamples" her (Programm SEQBOOT). Denken Sie daran, das "OUTFILE" des SEQBOOT output umzubenennen. Laden Sie dieses in PROTDIST. Wählen Sie wiederum die Dayhoff-Matrix, und zusätzlich geben Sie ein, dass Sie mehrere Datensätze analysieren wollen (Option "m", 100 Datensätze). Nach dem Starten des Programms können Sie einen Kaffee trinken gehen. b. Das "OUTFILE" benennen Sie nun wieder um. Es enthält 100 Distanzmatrices Ihrer 100 Pseudosamples. Dieses File benutzen Sie nun für die NJ-Analyse mit NEIGHBOR. Beachten Sie bitte, dass Sie wiederum mehrere Datensätze analysieren (Option "m", 100 Datensätze). Außerdem müssen Sie eine geeignete Außengruppe definieren. Sie erhalten ein "OUTTREE" mit 100 Stammbäumen. Diese Datei benennen Sie wiederum um. Den Konsensusstammbaum erhalten Sie mit dem Programm "CONSENSE". Schauen Sie sich das Ergebnis mit dem Editor an. Notieren Sie sich das die Werte für die statistische Unterstützung der einzelnen Äste. Welche Äste werden gut unterstützt, welche schlecht? Vergleichen Sie diese Werte auch mit den Astlängen der Analyse der Originaldaten (siehe 1.). Wenn Ihnen die Lust noch immer nicht vergangen ist, versuchen Sie mit Hilfe von CLUSTALX weitere, weniger verwandte Sequenzen zu den gegeben zu alignen. Welche Sequenzen sind sinnvoll? Für welche evolutiven Fragestellungen? Versuchen Sie ein wenig, mit den CLUSTALX-Einstellungen herumzuspielen (siehe Kurzanleitung). Biophysik F1-Praktikum – Kursteil " Molekulare Evolution" Thorsten Burmester 2. + 3. Tag: Molekulare Phylogenie der Hämocyanin-Superfamilie 1. Sequenzauswahl Aufgabe: Suchen Sie sich aus den Datenbanken alle vorhandenen vollständigen Hämocyanin-Sequenzen der Arthropoden heraus. Die Sequenzen sollten über 600 Aminosäuren lang sein. Teilweise wurde das N-terminale Signalpeptid nicht sequenziert, was aber für unsere Zwecke aber gleichgültig ist. Anschließend treffen sie noch eine Auswahl von jeweils fünf Insektenhexamerinen und Phenoloxidasen, wobei die Phenoloxidasen von Pimpla hypochondriaca nicht berücksichtigt werden sollen. Die Auswahl der Sequenzen erfolgt am besten über das SRS6-System bei EBI: http://srs.ebi.ac.uk/ Wählen Sie "start" und anschließend die Datenbank (Option "Sequence libraries") "SWALL". Starten Sie die "Query form" "extended" und geben Sie folgende Suchbegriffe ein: AllText: Arthropoda Description: hemocyanin SeqLength >=: 600 Speichern Sie die gefundenen Sequenzen im FASTA-Format: View: FastaSeqs Perform operation: Save Auf der nächsten Seite müssen Sie nur die "Number of entries to download" in "all" ändern. Anschließend drücken Sie auf "save". Überführen Sie die erhaltenen Daten per "copy & paste" in ein Word-Dokument. Speichern Sie dieses als ACSII-Text ab. Nun benennen Sie die Sequenzen um. Konvention ist: Erster Buchstabe des Gattungsnamen + erster und zweiter Buchstabe des Artnamens. Homo sapiens hätte also die Abkürzung "Hsa". Anschließend muss das Protein sinnvoll benannt werden. Man könnte als die FASTA-Sequenz Untereinheit A des Hämocyanins der Vogelspinne Eurypelma californicum mit EcaHcA benennen: >swall:HCYA_EURCA P14750 HEMOCYANIN A CHAIN (HCA). TILHDKQVQALKLFEKLSVAATGEPVPADQ... sollte also anschließend so aussehen: >EcaHcA TILHDKQVQALKLFEKLSVAATGEPVPADQ... Zu beachten ist, dass in den Namen und Sequenzen keine Punkte, Kommata oder Leerzeichen auftauchen!!! (GeneDoc und PHYLIP haben damit Probleme). Biophysik F1-Praktikum – Kursteil " Molekulare Evolution" Thorsten Burmester Weiterhin fertigen Sie eine Datei an, in der Sie jeweils zu den Abkürzungen die genaue Bezeichnung des Proteins schreiben. Sie sollte also z.B. so aussehen: EcaHcA = Eurypelma californicum Hämocyanin Untereinheit A EcaHcB = E. californicum Hämocyanin Untereinheit B usw. Sie können hierfür die im SRS6-System angegebenen Links zu den Datenbankeinträgen verwenden, aus denen die notwendigen Informationen zu entnehmen sind. Danach suchen Sie sich die weiteren Proteine aus den Datenbanken analog der oben beschriebenen Vorgehensweise heraus. Benutzen Sie die Suchbegriffe "Hexamerin" und "Prophenoloxidase" + "Arthropoda". Denken Sie daran, die Sequenzlänge mit >= 600 anzugeben. Ferner soll das Hämocyanin des Insekts (Heuschrecke) mit einbezogen werden. Verwenden Sie hierfür die Suchbegriffe: "Schistocerca americana" unter Organism und "embryonic hemolymph" unter Description. 2. Sequenzaligment: Speichern Sie die fertige Datei nun im ASCII-Textformat ab. Anschließend laden Sie diese Sequenzen in CLUSTALX, und alignen Sie diese. Versuchen Sie verschiedene Einstellungen des Programms. Welche Unterschiede bei den Resultaten beobachten Sie? Warum? Wählen Sie ein schließlich das Alignment, welches Ihnen am plausibelsten erscheint. Laden Sie dieses in GeneDoc 2.6 und versuchen Sie das Alignment per Hand zu optimieren. Berücksichtigen Sie dabei insbesondere die DSSP-files (Sekundärstrukturen) der Panulirus (1hc1.dssp) und Limulus (1IIa.dssp) Hämocyanine. Diese können in GeneDoc eingeladen werden. Wie können Ihnen die Sekundärstrukturen bei der Optimierung Ihres Alignments helfen? Wo erscheint Ihnen eine Korrektur notwendig? Wenn Sie mit Ihrem Alignment zufrieden sind, exportieren Sie das Ergebnis im PHYLIPFormat in PHYLIP-Verzeichnis. Testen Sie anschließend dieses mit den gestern besprochenen Programmen. Erstellen Sie jeweils Neighbor-Joining und MaximumParsimony-Stammbäume. Überprüfen Sie die Topologie mit der Bootstrap-Analyse. Viel Spaß! Thorsten Burmester