BLAST Tutorial:

Werbung
Softwarewerkzeuge der Bioinformatik SS 2009
Übungen Sequenzanalyse 3: CLUSTALW
1. Suche nach konservierten Motiven in einem multiplen Sequenzalignment
a) Gehe zum ClustalW-Webinterface von EBI bei http://www.ebi.ac.uk/clustalw/. Schaue über
die Seite und mache Dich mit den Funktionen und Informationen vertraut. Erklärungen zu
den Feldern und Optionen von ClustalW gibt es im Anhang und im Menu auf der linken
Seite (ClustalW Help).
b) Unter http://www.ebi.ac.uk/Tools/clustalw2/alignment.txt findest Du eine Ansammlung von
Sequenzen im Multi-Fasta-Format. Kopiere diese Beispielsequenzen in das dafür
vorgesehene Feld und starte das multiple Sequenzalignment mit den Standard-Parametern.
c) Wo erwartest Du aufgrund von Konservierung im Alignment funktionelle Domänen?
d) Lasse in JalView mit Colour by conservation die Konservierung berechnen und versuche
damit konservierte Bereiche zu lokalisieren. Wozu ist der Rollbalken Conservation Colour
Increment nützlich?
e) Um was für ein Protein handelt es sich bei FOSB_MOUSE? Suche dazu Informationen bei
UniProtKB (http://www.uniprot.org/). Vergleiche Deine potentiellen Motive im Alignment
mit den Einträgen für FOSB_MOUSE in den Datenbanken PROSITE und PRINTS.
Welches PRINTS-Motiv stimmt annähernd mit der PROSITE-Signatur überein?
PROSITE-Signaturen sind folgendermaßen aufgebaut:
[ ] Aminosäuren, die an dieser Position vorkommen können
- nächste Position
x beliebige Aminosäure
( ) Anzahl der Wiederholungen
{ } Aminosäuren, die an dieser Position nicht vorkommen dürfen
Beispiel: [PS] - x – [SAC] – [LIVMFY](2) - {P}
2. Suche nach homologen Sequenzen und ihren gemeinsamen Domänen
a) Finde mit Hilfe von Blast (http://blast.ncbi.nlm.nih.gov/Blast.cgi) zu P00042
(CYC_HANAN) homologe Proteinsequenzen aus UniProtKB/swissprot. Setze dazu den EValue auf 0.001. Lasse Dir die Sequenzen anzeigen, indem Du unter den Alignments erst
Select all, dann Get selected sequences klickst. Auf der Ergebnisseite wähle display FASTA,
show 100 und send to text oder send to file, um die Sequenzen im Multi-Fasta-Format zu
speichern. Jede Veränderung der Darstellung wird sofort ausgeführt, was einige Sekunden
dauern kann. Achte daher darauf, daß auch wirklich alle 100 Sequenzen angezeigt werden.
b) Führe aus dieser Liste von Sequenzen ein Alignment in ClustalW durch und versuche mit
Hilfe der Alignmentdarstellung und von JalView hochkonservierte Bereiche zu finden.
Vergleiche mit den Einträgen für P00042 in PRINTS.
c) Suche nun mit Blast möglichst viele Homologe, indem Du bei Algorithm parameters Max
target sequences erhöhst, und führe mit den erhaltenen Sequenzen (wie viele?) ebenfalls ein
ClustalW-Alignment durch. Welche Unterschiede stellst Du fest?
1
3. Phylogenetischer Baum des Lebens
a) Lasse Dir mit View Alignment File das Alignment aus Aufgabe 2c anzeigen und kopiere es
in das Sequenzen-Feld eines ClustalW-Jobs in einem neuen Fenster/Tab. (Alternative:
Speichere das Alignment, kenntlich an der Endung .aln, und lade diese Datei in ClustalW.)
Um eine Distanzmatrix und einen richtigen phylogentischen Baum zu erstellen, kommen
hier die Optionen der Rubrik PHYLOGENETIC TREE ins Spiel. Wähle TREE TYPE nj für
die Methode neighbor joining, CORRECT DIST. on für eine Korrektur der Distanzen und
IGNORE GAPS on, um alle Positionen, die Gaps enthalten, auszuschließen.
b) Vergleiche das Ergebnis mit dem guide tree aus Aufgabe 2b, den Du Dir mit View Guide
Tree anzeigen lassen kannst. Welche biologischen Gruppen (Pflanzen, Pilze, Tiere, ...)
kannst Du wiederfinden?
Einige Abkürzungen der Namen:
ASPNG – Aspergillus niger, ein Schimmelpilz
DROME – Drosophila melanogaster, Fruchtfliege
GINBI – Ginkgo biloba, Ginkgobaum
HELAS – Helix aspersa, Schnecke
KLULA – Kluyveromyces lactis, eine Hefe
MAIZE – Zea mays, Mais
RAT – Rattus norvegicus, Ratte
SPIOL – Spinacia oleracea, Spinat
USTSP – Ustilago sphaerogena, Beulenbrandpilz
YEAST – Saccharomyces cerevisiae, Hefe
Anhang: Erklärungen
• Man kann das Alignment interaktiv durchführen oder sich die URL für das Ergebnis per EMail zuschicken lassen. (Empfehlenswert bei sehr großen Jobs, aber Achtung: kurze
Speicherzeit!)
• ALIGNMENT: Hier kann man die Stringenz des paarweisen Alignments einstellen, mit der
der guide tree erstellt wird. Bei einer sehr großen Zahl von Sequenzen macht es mehr Sinn,
fast auszuwählen, um schneller an die Ausgabe heranzukommen. Da dieser Schritt aber der
wichtigste Punkt im Alignment ist, sollte sonst immer ein volles Alignment (full) ausgeführt
werden, wobei jede Sequenz gegen jede andere vollständig ausgerichtet wird.
• Die Optionen aus der 2. Reihe (KTUP, WINDOW LENGTH, SCORE TYPE, ...) beziehen
sich alle auf das schnelle BLAST-ähnliche Alignment (fast) zum Erstellen des guide tree.
• MATRIX: Hier kann man die Austauschmatrix wählen. Default ist Gonnet 250.
• GAP OPEN: Die Bestrafung zum erstmaligen Einfügen eines Gaps (Insertion oder
Deletion).
• END GAP: Die Bestrafung zum Schließen eines Gaps.
• GAP EXTENSION: Ist aufzubringen um eine Lücke um eine Position zu verlängern.
• GAP DISTANCES: Dieser Wert definiert den Strafwert für das Trennen zweier GapBereiche
2
OUTPUT
• Default ist Alignment mit Positionsnummern (aln w/numbers). Alignments im Format
phylip
dienen
als
Eingabe
für
das
Programmpaket
PHYLIP
(http://evolution.genetics.washington.edu/phylip.html), das phylogenetische Bäume nach
verschiedenen Methoden erstellt.
PHYLOGENETIC TREE
• Durch Wahl von dist bei TREE TYPE erhält man die Distanzmatrix angezeigt, nj konstruiert
einen phylogenetischen Baum nach der neighbor joining-Methode.
• CORRECT DIST. on führt eine Korrektur der Distanzen nach Motoo Kimura (1983) durch.
Hintergrund ist, daß die Zahl der beobachteten Unterschiede (D) die Zahl der tatsächlichen
Mutationen unterschätzt: es kann mehr als eine Mutation pro Residue aufgetreten sein.
Daher wird die Zahl der Mutationen geschätzt durch die Formel K = - ln (1 - D - D²/5). Dies
bewirkt, daß Zweige gestreckt werden.
• IGNORE GAPS on betrachtet zur Erstellung der Distanzmatrix nur solche Positionen, an
denen keine Sequenz ein gap hat, vergleicht also nur Aminosäuren untereinander. Vorteil:
die Bewertung von gaps gegen Aminosäuren ist nicht eindeutig, also werden solche Teile
des Alignments einfach ignoriert. Nachteil: das Alignment wird kürzer, d.h. es gibt weniger
Positionen, um die Distanz zu errechnen; außerdem entsprechen gaps Insertionen/
Deletionen, die durchaus etwas über die Evolution aussagen.
Ausgabe
• Die erste Sektion der ClustalW-Ausgabeseite beinhaltet eine Übersicht von der Suche und
direkten Links zu den entsprechenden Ergebnissen. Zusätzlich erlaubt das Java-Applet JalView
eine schöne graphische Darstellung des Alignments. Was diese Anwendung aber am meisten
auszeichnet, ist die Möglichkeit, das Alignment manuell zu bearbeiten.
• In der Sektion Scores Table ist eine Übersicht von den Alignments aufgezeigt. Alle paarweisen
Alignmentkombinationen werden aufgezeigt und nach Verwandtschaft gewertet (Achtung, hier
handelt es sich noch um Ähnlichkeits-Scores und nicht um Distanz-Scores).
Unter den ausgerichteten Proteinsequenzen findet man eine Zeile mit ".", ":" und "*".
"." = Spalte/Position im Alignment besitzt ungleiche, aber ähnliche Aminosäuren
":" = Spalte/Position im Alignment markiert hoch konservierte Bereiche
"*" = Spalte/Position im Alignment zeigt identische Aminosäuren in allen Sequenzen
• Die letzte Sektion ist der Guide Tree, nach dem die Sequenzen ausgerichtet wurden. Dieser (und
auch ein echter phylogenetischer Baum) wird zunächst als Cladogramm dargestellt, in dem alle
Zweige gleich lang sind. Show as Phylogram Tree wandelt ihn so um, daß die Länge der
Zweige der Distanz entspricht, d.h. dem Prozentsatz der Mutationen, die seit der Aufspaltung
der beiden Spezies an der Gabelung (die dem gemeinsamen Vorfahren enspricht) ereignet
haben. Show Distances zeigt diese Entfernung als Zahl an.
3
Herunterladen