Praktischer Teil 2006

Biophysik F1-Praktikum – Kursteil " Molekulare Evolution"
Thorsten Burmester
Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"
Anleitung zum praktischen Teil 2006
1. Tag: Datenbanken und Grundlagen der Molekularen Phylogenie
1. Sie erhalten eine unbekannte cDNA-Sequenz.
Sie erhalten eine Textdatei mit einer cDNA-Sequenz ("sequenz.txt"). Ihre erste Aufgabe ist
es, herauszufinden, für welches Protein diese cDNA kodiert. Dafür durchsuchen Sie die im
WWW vorhandenen Datenbanken mit dem BLAST-Algorithmus:
1. NCBI-BLAST: http://www.ncbi.nlm.nih.gov/BLAST/
2. EBI-BLAST: http://www.ebi.ac.uk/Tools/similarity.html
3. BLAST-Japan: http://blast.genome.jp/
Öffnen Sie die Textdatei mit der Sequenz mit einem Editor und kopieren Sie diese in die
entsprechende Dialogbox. Wählen Sie Dazu muss die Option "blastx" ausgewählt werden.
Um welches Protein welcher Spezies handelt es sich? Mit welchen anderen Proteinen weist
diese Sequenz Ähnlichkeiten auf?
2. Translation der cDNA in eine Proteinsequenz:
Alle weiteren Analysen werden mit aus der DNA translatierten Aminosäuresequenz
durchgeführt. Dazu müssen Sie die vorgegebene DNA-Sequenz in Protein übersetzen.
Dazu stehen verschiedene Programme zur Verfügung. Wir verwenden eine netzbasierte
Applikation:
http://www.expasy.ch/tools/dna.html
Kopieren Sie die DNA-Sequenz wiederum in die dafür vorgesehene Dialogbox starten sie die
das Programm ("Translate Sequence").
Nun erhalten Sie die in allen sechs möglichen Leserastern translatierte DNA-Sequenz.
Wählen Sie das geeignete Leseraster. Woran erkennen Sie, welches Leseraster das richtige
ist?
Das erhaltene Protein kopieren Sie und speichern sie ab (ohne das Start-Methionin).
3. Erstellung eines Mehrfach-Sequenzalignments
Um zu phylogenetischen Aussagen zu kommen, müssen Sie geeignete
Vergleichssequenzen auswählen. Dazu können Sie wiederum mit den BLAST-Programmen
die Proteindatenbanken durchsuchen (diesmal Option "blastp", d.h. Vergleich eines Proteins
mit anderen Proteinen):
1. NCBI-BLAST: http://www.ncbi.nlm.nih.gov/BLAST/
2. EBI-BLAST: http://www.ebi.ac.uk/blast2/
3. BLAST-Japan: http://blast.genome.jp/
Wir haben für Sie bereits eine Vorauswahl von Sequenzen getroffen. Diese enthält neben
der bereits untersuchten Sequenz noch 11 weitere orthologe Sequenzen. Die Sequenzen
sind in einer Datei im so genannten "FASTA"-Format vorgegeben. Öffnen Sie diese Datei
("Proteine.txt") mit einem Texteditor und betrachten Sie diese.
Biophysik F1-Praktikum – Kursteil " Molekulare Evolution"
Thorsten Burmester
>Speziesname
VLSAADKT......usw.
Öffnen Sie das Programm "CLUSTALX" und laden die Datei "Proteine.txt" (Menü "File" ->
"Load Sequences"). Nun "alignen" Sie die Sequenzen. D.h., das Programm versucht die
Sequenzen so aneinanderzulegen, dass sie optimal übereinstimmen. Dafür müssen in einige
Sequenzen Lücken bzw. Insertionen eingefügt werden. Sie können hierfür die
Standardeinstellungen von CLUSTAL verwenden: Menü: "Alignment" -> "Do Complete
Alignment". Nach Bestätigung der Dialogbox ("OK") nimmt der Sequenzvergleich einige
Sekunden in Anspruch.
Was erkennen Sie an diesem Alignment? Was hat das Programm mit den Sequenzen, im
Vergleich zu den Ausgangsdaten, gemacht?
Exportieren Sie das Alignment in PHYLIP-Format in den PHYLIP-Ordner.
4. Molekularphylogenetische Analyse (PHYLIP package)
Wir werden nun drei verschiedene Methoden ausprobieren, um aus diesem Alignment einen
Stammbaum zu erstellen. Die ersten beiden Methoden beruhen jeweils auf einer
Distanzmatrix der Daten, d.h., vor der Stammbaumerstellung muss diese zunächst erstellt
werden. Da es sich um ein Aminosäurealignment handelt, verwenden wir zunächst das
Programm PROTDIST. Laden Sie das Alignment-File nach der Aufforderung:
"Please enter new file name>"
Wählen Sie die Option "PAM Dayhoff matrix" (option "P"). Die Distanzmatrix ist nach dem
Ende der Berechnung in einer Datei namens "OUTFILE" enthalten. Benennen Sie diese
um, und schauen Sie sich die Datei mit einem Texteditor bzw. Word an.
1.) Als Erstes erstellen Sie einen Stammbaum anhand der UPGMA-Methode. Dafür wird das
Programm NEIGHBOR verwendet. Starten Sie dieses Programm und geben Sie die
Matrixdatei als ein.
"Please enter new file name>"
Wählen Sie unter "Settings" die Option N aus, und wählen Sie dann die Methode "UPGMA"
aus. Drücken Sie dann "y" (für "YES").
Die Analyse befindet sich im "OUTFILE", der Stammbaum in "OUTTREE". Benennen Sie
beide Dateien um, und schauen Sie sich diese mit dem Editor bzw. Word an.
Zur Darstellung des Stammbaumes starten Sie nun "TreeView32". Laden Sie das
umbenannte OUTTREE. Welche Aussagen über die Phylogenie der verwendeten Proteine
bzw. Organismen lassen sich anhand dieses Stammbaumes treffen? Was fällt Ihnen auf?
2. Die zweite Methode ist Neighbor-joining (NJ). Dafür wird wiederum das Programm
NEIGHBOR verwendet. Starten Sie dieses Programm und geben Sie die Matrixdatei als ein.
"Please enter new file name>"
Die Analyse befindet sich im "OUTFILE", der Stammbaum in " OUTTREE". Benennen Sie
beide Dateien um, und schauen Sie sich diese mit dem Editor bzw. Word an.
Biophysik F1-Praktikum – Kursteil " Molekulare Evolution"
Thorsten Burmester
Bestimmen Sie die geeignete Außengruppe (outgroup). Welches Kriterium können Sie hier
für die Wahl der Außengruppe verwenden? Die Details dieses Programms werden im Kurs
besprochen. Beachten Sie insbesondere die Astlängen.
3.) Die drittes werden wir die Parsimony-Methode nach J. Felsenstein verwenden. Dafür
starten Sie das Programm PROTPARS aus dem PHYLIP Softwarepaket. Da Parsimony eine
charakter-orientierte Methode ist, kann das Alignment direkt eingeladen werden. Das
OUTFILE und OUTTREE benennen Sie um, und schauen Sie sich diese mit dem Editor bzw.
TreeView an. Was fällt Ihnen bei der Darstellung der Astlängen auf?
4.) Statistische Überprüfung des Ergebnisses nach dem Bootstrap-Verfahren:
a. Stellen Sie aus Ihrem Alignment 100 "Pseudosamples" her (Programm SEQBOOT).
Denken Sie daran, das "OUTFILE" des SEQBOOT output umzubenennen. Laden Sie dieses
in PROTDIST. Wählen Sie wiederum die Dayhoff-Matrix, und zusätzlich geben Sie ein, dass
Sie mehrere Datensätze analysieren wollen (Option "m", 100 Datensätze). Nach dem Starten
des Programms können Sie einen Kaffee trinken gehen.
b. Das "OUTFILE" benennen Sie nun wieder um. Es enthält 100 Distanzmatrices Ihrer 100
Pseudosamples. Dieses File benutzen Sie nun für die NJ-Analyse mit NEIGHBOR. Beachten
Sie bitte, dass Sie wiederum mehrere Datensätze analysieren (Option "m", 100 Datensätze).
Außerdem müssen Sie eine geeignete Außengruppe definieren. Sie erhalten ein
"OUTTREE" mit 100 Stammbäumen. Diese Datei benennen Sie wiederum um. Den
Konsensusstammbaum erhalten Sie mit dem Programm "CONSENSE". Schauen Sie sich
das Ergebnis mit dem Editor an. Notieren Sie sich das die Werte für die statistische
Unterstützung der einzelnen Äste. Welche Äste werden gut unterstützt, welche schlecht?
Vergleichen Sie diese Werte auch mit den Astlängen der Analyse der Originaldaten (siehe
1.).
Wenn Ihnen die Lust noch immer nicht vergangen ist, versuchen Sie mit Hilfe von
CLUSTALX weitere, weniger verwandte Sequenzen zu den gegeben zu alignen. Welche
Sequenzen sind sinnvoll? Für welche evolutiven Fragestellungen? Versuchen Sie ein wenig,
mit den CLUSTALX-Einstellungen herumzuspielen (siehe Kurzanleitung).
Biophysik F1-Praktikum – Kursteil " Molekulare Evolution"
Thorsten Burmester
2. + 3. Tag: Molekulare Phylogenie der Hämocyanin-Superfamilie
1. Sequenzauswahl
Aufgabe: Suchen Sie sich aus den Datenbanken alle vorhandenen vollständigen
Hämocyanin-Sequenzen der Arthropoden heraus. Die Sequenzen sollten über 600
Aminosäuren lang sein. Teilweise wurde das N-terminale Signalpeptid nicht sequenziert, was
aber für unsere Zwecke aber gleichgültig ist. Anschließend treffen sie noch eine Auswahl von
jeweils fünf Insektenhexamerinen und Phenoloxidasen, wobei die Phenoloxidasen von
Pimpla hypochondriaca nicht berücksichtigt werden sollen.
Die Auswahl der Sequenzen erfolgt am besten über das SRS6-System bei EBI:
http://srs.ebi.ac.uk/
Wählen Sie "start" und anschließend die Datenbank (Option "Sequence libraries") "SWALL".
Starten Sie die "Query form" "extended" und geben Sie folgende Suchbegriffe ein:
AllText: Arthropoda
Description: hemocyanin
SeqLength >=: 600
Speichern Sie die gefundenen Sequenzen im FASTA-Format:
View: FastaSeqs
Perform operation: Save
Auf der nächsten Seite müssen Sie nur die "Number of entries to download" in "all" ändern.
Anschließend drücken Sie auf "save". Überführen Sie die erhaltenen Daten per "copy &
paste" in ein Word-Dokument. Speichern Sie dieses als ACSII-Text ab.
Nun benennen Sie die Sequenzen um. Konvention ist: Erster Buchstabe des
Gattungsnamen + erster und zweiter Buchstabe des Artnamens. Homo sapiens hätte also
die Abkürzung "Hsa". Anschließend muss das Protein sinnvoll benannt werden. Man könnte
als die FASTA-Sequenz Untereinheit A des Hämocyanins der Vogelspinne Eurypelma
californicum mit EcaHcA benennen:
>swall:HCYA_EURCA P14750 HEMOCYANIN A CHAIN (HCA).
TILHDKQVQALKLFEKLSVAATGEPVPADQ...
sollte also anschließend so aussehen:
>EcaHcA
TILHDKQVQALKLFEKLSVAATGEPVPADQ...
Zu beachten ist, dass in den Namen und Sequenzen keine Punkte, Kommata oder
Leerzeichen auftauchen!!!
(GeneDoc und PHYLIP haben damit Probleme).
Biophysik F1-Praktikum – Kursteil " Molekulare Evolution"
Thorsten Burmester
Weiterhin fertigen Sie eine Datei an, in der Sie jeweils zu den Abkürzungen die genaue
Bezeichnung des Proteins schreiben. Sie sollte also z.B. so aussehen:
EcaHcA = Eurypelma californicum Hämocyanin Untereinheit A
EcaHcB = E. californicum Hämocyanin Untereinheit B
usw.
Sie können hierfür die im SRS6-System angegebenen Links zu den Datenbankeinträgen
verwenden, aus denen die notwendigen Informationen zu entnehmen sind.
Danach suchen Sie sich die weiteren Proteine aus den Datenbanken analog der oben
beschriebenen Vorgehensweise heraus. Benutzen Sie die Suchbegriffe "Hexamerin" und
"Prophenoloxidase" + "Arthropoda". Denken Sie daran, die Sequenzlänge mit >= 600
anzugeben. Ferner soll das Hämocyanin des Insekts (Heuschrecke) mit einbezogen werden.
Verwenden Sie hierfür die Suchbegriffe: "Schistocerca americana" unter Organism und
"embryonic hemolymph" unter Description.
2. Sequenzaligment:
Speichern Sie die fertige Datei nun im ASCII-Textformat ab. Anschließend laden Sie diese
Sequenzen in CLUSTALX, und alignen Sie diese. Versuchen Sie verschiedene
Einstellungen des Programms. Welche Unterschiede bei den Resultaten beobachten Sie?
Warum?
Wählen Sie ein schließlich das Alignment, welches Ihnen am plausibelsten erscheint. Laden
Sie dieses in GeneDoc 2.6 und versuchen Sie das Alignment per Hand zu optimieren.
Berücksichtigen Sie dabei insbesondere die DSSP-files (Sekundärstrukturen) der Panulirus
(1hc1.dssp) und Limulus (1IIa.dssp) Hämocyanine. Diese können in GeneDoc eingeladen
werden. Wie können Ihnen die Sekundärstrukturen bei der Optimierung Ihres Alignments
helfen? Wo erscheint Ihnen eine Korrektur notwendig?
Wenn Sie mit Ihrem Alignment zufrieden sind, exportieren Sie das Ergebnis im PHYLIPFormat in PHYLIP-Verzeichnis. Testen Sie anschließend dieses mit den gestern
besprochenen Programmen. Erstellen Sie jeweils Neighbor-Joining und MaximumParsimony-Stammbäume. Überprüfen Sie die Topologie mit der Bootstrap-Analyse.
Viel Spaß!
Thorsten Burmester