Softwarewerkzeuge der Bioinformatik SS 2009 Übungen Sequenzanalyse 3: CLUSTALW 1. Suche nach konservierten Motiven in einem multiplen Sequenzalignment a) Gehe zum ClustalW-Webinterface von EBI bei http://www.ebi.ac.uk/clustalw/. Schaue über die Seite und mache Dich mit den Funktionen und Informationen vertraut. Erklärungen zu den Feldern und Optionen von ClustalW gibt es im Anhang und im Menu auf der linken Seite (ClustalW Help). b) Unter http://www.ebi.ac.uk/Tools/clustalw2/alignment.txt findest Du eine Ansammlung von Sequenzen im Multi-Fasta-Format. Kopiere diese Beispielsequenzen in das dafür vorgesehene Feld und starte das multiple Sequenzalignment mit den Standard-Parametern. c) Wo erwartest Du aufgrund von Konservierung im Alignment funktionelle Domänen? d) Lasse in JalView mit Colour by conservation die Konservierung berechnen und versuche damit konservierte Bereiche zu lokalisieren. Wozu ist der Rollbalken Conservation Colour Increment nützlich? e) Um was für ein Protein handelt es sich bei FOSB_MOUSE? Suche dazu Informationen bei UniProtKB (http://www.uniprot.org/). Vergleiche Deine potentiellen Motive im Alignment mit den Einträgen für FOSB_MOUSE in den Datenbanken PROSITE und PRINTS. Welches PRINTS-Motiv stimmt annähernd mit der PROSITE-Signatur überein? PROSITE-Signaturen sind folgendermaßen aufgebaut: [ ] Aminosäuren, die an dieser Position vorkommen können - nächste Position x beliebige Aminosäure ( ) Anzahl der Wiederholungen { } Aminosäuren, die an dieser Position nicht vorkommen dürfen Beispiel: [PS] - x – [SAC] – [LIVMFY](2) - {P} 2. Suche nach homologen Sequenzen und ihren gemeinsamen Domänen a) Finde mit Hilfe von Blast (http://blast.ncbi.nlm.nih.gov/Blast.cgi) zu P00042 (CYC_HANAN) homologe Proteinsequenzen aus UniProtKB/swissprot. Setze dazu den EValue auf 0.001. Lasse Dir die Sequenzen anzeigen, indem Du unter den Alignments erst Select all, dann Get selected sequences klickst. Auf der Ergebnisseite wähle display FASTA, show 100 und send to text oder send to file, um die Sequenzen im Multi-Fasta-Format zu speichern. Jede Veränderung der Darstellung wird sofort ausgeführt, was einige Sekunden dauern kann. Achte daher darauf, daß auch wirklich alle 100 Sequenzen angezeigt werden. b) Führe aus dieser Liste von Sequenzen ein Alignment in ClustalW durch und versuche mit Hilfe der Alignmentdarstellung und von JalView hochkonservierte Bereiche zu finden. Vergleiche mit den Einträgen für P00042 in PRINTS. c) Suche nun mit Blast möglichst viele Homologe, indem Du bei Algorithm parameters Max target sequences erhöhst, und führe mit den erhaltenen Sequenzen (wie viele?) ebenfalls ein ClustalW-Alignment durch. Welche Unterschiede stellst Du fest? 1 3. Phylogenetischer Baum des Lebens a) Lasse Dir mit View Alignment File das Alignment aus Aufgabe 2c anzeigen und kopiere es in das Sequenzen-Feld eines ClustalW-Jobs in einem neuen Fenster/Tab. (Alternative: Speichere das Alignment, kenntlich an der Endung .aln, und lade diese Datei in ClustalW.) Um eine Distanzmatrix und einen richtigen phylogentischen Baum zu erstellen, kommen hier die Optionen der Rubrik PHYLOGENETIC TREE ins Spiel. Wähle TREE TYPE nj für die Methode neighbor joining, CORRECT DIST. on für eine Korrektur der Distanzen und IGNORE GAPS on, um alle Positionen, die Gaps enthalten, auszuschließen. b) Vergleiche das Ergebnis mit dem guide tree aus Aufgabe 2b, den Du Dir mit View Guide Tree anzeigen lassen kannst. Welche biologischen Gruppen (Pflanzen, Pilze, Tiere, ...) kannst Du wiederfinden? Einige Abkürzungen der Namen: ASPNG – Aspergillus niger, ein Schimmelpilz DROME – Drosophila melanogaster, Fruchtfliege GINBI – Ginkgo biloba, Ginkgobaum HELAS – Helix aspersa, Schnecke KLULA – Kluyveromyces lactis, eine Hefe MAIZE – Zea mays, Mais RAT – Rattus norvegicus, Ratte SPIOL – Spinacia oleracea, Spinat USTSP – Ustilago sphaerogena, Beulenbrandpilz YEAST – Saccharomyces cerevisiae, Hefe Anhang: Erklärungen • Man kann das Alignment interaktiv durchführen oder sich die URL für das Ergebnis per EMail zuschicken lassen. (Empfehlenswert bei sehr großen Jobs, aber Achtung: kurze Speicherzeit!) • ALIGNMENT: Hier kann man die Stringenz des paarweisen Alignments einstellen, mit der der guide tree erstellt wird. Bei einer sehr großen Zahl von Sequenzen macht es mehr Sinn, fast auszuwählen, um schneller an die Ausgabe heranzukommen. Da dieser Schritt aber der wichtigste Punkt im Alignment ist, sollte sonst immer ein volles Alignment (full) ausgeführt werden, wobei jede Sequenz gegen jede andere vollständig ausgerichtet wird. • Die Optionen aus der 2. Reihe (KTUP, WINDOW LENGTH, SCORE TYPE, ...) beziehen sich alle auf das schnelle BLAST-ähnliche Alignment (fast) zum Erstellen des guide tree. • MATRIX: Hier kann man die Austauschmatrix wählen. Default ist Gonnet 250. • GAP OPEN: Die Bestrafung zum erstmaligen Einfügen eines Gaps (Insertion oder Deletion). • END GAP: Die Bestrafung zum Schließen eines Gaps. • GAP EXTENSION: Ist aufzubringen um eine Lücke um eine Position zu verlängern. • GAP DISTANCES: Dieser Wert definiert den Strafwert für das Trennen zweier GapBereiche 2 OUTPUT • Default ist Alignment mit Positionsnummern (aln w/numbers). Alignments im Format phylip dienen als Eingabe für das Programmpaket PHYLIP (http://evolution.genetics.washington.edu/phylip.html), das phylogenetische Bäume nach verschiedenen Methoden erstellt. PHYLOGENETIC TREE • Durch Wahl von dist bei TREE TYPE erhält man die Distanzmatrix angezeigt, nj konstruiert einen phylogenetischen Baum nach der neighbor joining-Methode. • CORRECT DIST. on führt eine Korrektur der Distanzen nach Motoo Kimura (1983) durch. Hintergrund ist, daß die Zahl der beobachteten Unterschiede (D) die Zahl der tatsächlichen Mutationen unterschätzt: es kann mehr als eine Mutation pro Residue aufgetreten sein. Daher wird die Zahl der Mutationen geschätzt durch die Formel K = - ln (1 - D - D²/5). Dies bewirkt, daß Zweige gestreckt werden. • IGNORE GAPS on betrachtet zur Erstellung der Distanzmatrix nur solche Positionen, an denen keine Sequenz ein gap hat, vergleicht also nur Aminosäuren untereinander. Vorteil: die Bewertung von gaps gegen Aminosäuren ist nicht eindeutig, also werden solche Teile des Alignments einfach ignoriert. Nachteil: das Alignment wird kürzer, d.h. es gibt weniger Positionen, um die Distanz zu errechnen; außerdem entsprechen gaps Insertionen/ Deletionen, die durchaus etwas über die Evolution aussagen. Ausgabe • Die erste Sektion der ClustalW-Ausgabeseite beinhaltet eine Übersicht von der Suche und direkten Links zu den entsprechenden Ergebnissen. Zusätzlich erlaubt das Java-Applet JalView eine schöne graphische Darstellung des Alignments. Was diese Anwendung aber am meisten auszeichnet, ist die Möglichkeit, das Alignment manuell zu bearbeiten. • In der Sektion Scores Table ist eine Übersicht von den Alignments aufgezeigt. Alle paarweisen Alignmentkombinationen werden aufgezeigt und nach Verwandtschaft gewertet (Achtung, hier handelt es sich noch um Ähnlichkeits-Scores und nicht um Distanz-Scores). Unter den ausgerichteten Proteinsequenzen findet man eine Zeile mit ".", ":" und "*". "." = Spalte/Position im Alignment besitzt ungleiche, aber ähnliche Aminosäuren ":" = Spalte/Position im Alignment markiert hoch konservierte Bereiche "*" = Spalte/Position im Alignment zeigt identische Aminosäuren in allen Sequenzen • Die letzte Sektion ist der Guide Tree, nach dem die Sequenzen ausgerichtet wurden. Dieser (und auch ein echter phylogenetischer Baum) wird zunächst als Cladogramm dargestellt, in dem alle Zweige gleich lang sind. Show as Phylogram Tree wandelt ihn so um, daß die Länge der Zweige der Distanz entspricht, d.h. dem Prozentsatz der Mutationen, die seit der Aufspaltung der beiden Spezies an der Gabelung (die dem gemeinsamen Vorfahren enspricht) ereignet haben. Show Distances zeigt diese Entfernung als Zahl an. 3