Softwarewerkzeuge der Bioinformatik Wintersemester 2006/2007 Tutorial 2: paarweise Sequenzaligments BLAST Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 1/22 Alignment Ausrichten zweier oder mehrerer Sequenzen, um: – ihre Ähnlichkeit quantitativ zu erfassen – einzelne Bausteine zuzuordnen – Gesetzmäßigkeiten der Konservierung und Variabilität zu beobachten – Rückschlüsse auf entwicklungsgeschichtliche Verwandschaftsverhältnisse zu ziehen – Struktur und Funktion zuordnen zu können – in Datenbanken ähnliche Sequenzen zu suchen Gap = Indel = Insertion oder Deletion Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 2/22 Gleichheit, Ähnlichkeit, Homologie • Identität (identity) – • • Verhältnis der Anzahl identischer Aminosäuren zur Gesamtzahl der Aminosäuren; objektiv Ähnlichkeit (similarity) – Verhältnis ähnlicher Aminosäuren (Austauschmatrizen) – Maß der Ähnlichkeit ist modellbehaftet Homologie (homology) – Sequenzen haben eine gemeinsame Vorläufersequenz – nur möglich durch Vergleich vieler Sequenzen: was sind signifikante gemeinsame Merkmale? – "bewertete Ähnlichkeit": Maß der Homologie ist modellbehaftet, kann nicht in % angegeben werden! Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 3/22 verschiedene Arten von Homologie Organismus Y Organismus X A B A Organismus Z Organismus # a Ħ Ħ A-a: Orthologe Gene •in unterschiedlichen Organismen •gleiche Funktion •entstanden durch Artenbildung (speciation) A-B: Paraloge Gene •im gleichen Organismus •können unterschiedliche Funktion haben •entstanden durch Genduplikation Ħ-Ħ: Xenologe Gene •durch horizontalen Gentransfer erworben •Bsp.: Resistenzgene auf Plasmiden B-Ħ: Analoge Gene: nicht homologe Sequenz, sondern zufällige Ähnlichkeit, entstanden durch Konvergenz; gleiche/ähnliche Funktion Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 4/22 Bewertung von Ähnlichkeit • DNA – oft nur Unterscheidung identisch/nicht identisch – Substitutionen sind unterschiedlich wahrscheinlich: • Transition (häufig) – Purin-Purin (A-G) – Pyrimidin-Pyrimidin (C-T), besonders bei 5-Methyl-Cytosin • Transversion (selten) NH – Purin-Pyrimidin (A-C, A-T, G-C, G-T) CH 2 – Gaps = Indels im codierenden Bereich : Leserahmenverschiebung! • Proteine 3 N O N H – Codon-basiert: "zurückrechnen" auf DNA-Ebene. Nicht jede AS kann direkt zu jeder anderen werden, evtl. Umweg nötig – chemische Ähnlichkeit der Aminosäuren (Substitutions- = Austauschmatrizen) – verschiedene Gap-Kosten Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 5/22 Aminosäuren-Substitutionsmatrizen zur Bewertung der Qualität eines Alignments – Score ist die Summe aller Bewertungen für die Paare an allen Positionen • des Alignments • einige Aminosäuren (meist kleine) weisen grundsätzlich hohe Mutationsraten auf: "unwichtig" für Funktion und Struktur • Aminosäure ändert sich, die chemischen Eigenschaften aber bleiben gleich: geringe Strafe • Funktion und/oder Faltung eines Proteins ändern sich bei Austausch von His (H), Trp (W), Pro (P), Cys (C): hohe Scores für die Erhaltung solcher Residuen • Austausch von ähnlichen Residuen, z. B. Ile (I)-Leu (L) ist wahrscheinlicher (hat einen höheren Score) als der von unterschiedlichen, z.B. I-Asp(D) • Ausnahme: korrelierte Mutationen interagierender Residuen (Lys (K)-Glu (E) in einem Protein, E-K in dessen Komplexpartner) Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 6/22 PAM und BLOSUM BLOSUM62 Default-Austauschmatrix in BLAST, entspricht etwa PAM120 hydrophil Iminosäure hydrophob sauer,– hydrophil basisch, + hydrophob aromatisch •enge C C 9 S -1 T -1 P -3 A 0 G -3 N -3 D -3 E -4 Q -3 H -3 R -3 K -3 M -1 I -1 L -1 V -1 F -2 Y -2 W -2 S -1 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 T -1 1 4 1 -1 1 0 1 0 0 0 -1 0 -1 -2 -2 -2 -2 -2 -3 P -3 -1 1 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 A 0 1 -1 -1 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 G -3 0 1 -2 0 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 N -3 1 0 -1 -1 -2 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 D -3 0 1 -1 -2 -1 1 6 2 0 1 -2 -1 -3 -3 -4 -3 -3 -3 -4 E -4 0 0 -1 -1 -2 0 2 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 Q -3 0 0 -1 -1 -2 0 0 2 5 0 1 1 0 -3 -2 -2 -3 -1 -2 H -3 -1 0 -2 -2 -2 -1 -1 0 0 8 0 -1 -2 -3 -3 -3 -1 2 -2 R -3 -1 -1 -2 -1 -2 0 -2 0 1 0 5 2 -1 -3 -2 -3 -3 -2 -3 K -3 0 0 -1 -1 -2 0 -1 1 1 -1 2 5 -1 -3 -2 -2 -3 -2 -3 M -1 -1 -1 -2 -1 -3 -2 -3 -2 0 -2 -1 -1 5 1 2 1 0 -1 -1 I -1 -2 -2 -3 -1 -4 -3 -3 -3 -3 -3 -3 -3 1 4 2 3 0 -1 -3 L -1 -2 -2 -3 -1 -4 -3 -4 -3 -2 -3 -2 -2 2 2 4 1 0 -1 -2 V -1 -2 -2 -2 -2 0 -3 -3 -3 -2 -2 -3 -3 -2 1 3 4 -1 -1 -3 F -2 -2 -2 -4 -2 -3 -3 -3 -3 -3 -1 -3 -3 0 0 0 -1 6 3 1 Y -2 -2 -2 -3 -2 -3 -2 -3 -2 -1 2 -2 -2 -1 -1 -1 -1 3 7 2 W -2 -3 -3 -4 -3 -2 -4 -4 -3 -2 -2 -3 -3 -1 -3 -2 -3 1 2 11 Verwandtschaft: niedrige PAM(1), hohe BLOSUM(80) •entfernte Softwarewerkzeuge der Bioinformatik WS06/07 Verwandtschaft: hohe PAM (250), niedrige BLOSUM(45) Tutorial 2: BLAST 7/22 Alignment-Methoden paarweise paarweise Alignments Alignments dynamische dynamische Algorithmen Algorithmen N&W N&W –Alignment wird in Subalignments (einzelne Residuen) zerlegt –Subalignments sind schneller zu handhaben –schließlich werden die besten Ergebnisse ausgegeben Softwarewerkzeuge der Bioinformatik WS06/07 heuristische heuristische Algorithmen Algorithmen S&W S&W FASTA FASTA BLAST BLAST -Abschätzungen, um annähernd genaue Ergebnisse zu erzielen –Kenntnisse über Sequenzen und Alignment-Statistiken werden benutzt –Alignment wird bei geringem Genauigkeitsverlust stark beschleunigt Tutorial 2: BLAST 8/22 dynamische Alignments • globales Alignment (Needleman & Wunsch) N N N N C C C C •evolutionäre Verwandtschaftsbeziehungen • lokales Alignment (Smith & Waterman) N N N N C C C C N N N N C C C C •Funktionsgemeinsamkeiten (Domänen) Implementierungen z.B. unter http://www.ebi.ac.uk/emboss/align Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 9/22 heuristische Alignments – dynamische Alignments sind zwar optimal, aber langsam – heuristische Alignments sehr viel schneller als dynamische – Einsatzgebiet: vor allem Datenbankensuchen – mit der Akzeptanz einer geringen Fehlerrate kann der Suchraum stark verkleinert und das Alignment beschleunigt werden – schließlich findet ein detailliertes Alignment statt – das beste Alignment wird bei gegebenem Model nur mit hoher Wahrscheinlichkeit gefunden – BLAST (http://www.ncbi.nih.gov/blast/) – FASTA (http://www.ebi.ac.uk/fasta/) Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 10/22 Literatur zu BLAST • Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990): "Basic Local Alignment Search Tool", J. Mol. Biol. 215: 403-410 • Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ (1997): "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25: 3389-3402 • Schäffer AA, Aravind L, Madden TL, Shavirin S, Spouge JL, Wolf YI, Koonin EV, Altschul SF (2001): "Improving the accuracy of PSI-BLAST protein database searches with compositionbased statistics and other refinements", Nucleic Acids Res. 29: 2994-3005 • Hilfeseiten und Tutorials bei NCBI (http://www.ncbi.nih.gov/blast/) Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 11/22 Algorithmus von BLAST • zerlege die Suchsequenz in überlappende Wörter • erzeuge für jedes dieser Wörter eine Liste aller ähnlichen Wörter (w-mers), deren Score > Schwellenwert ist • suche die w-mers in der Datenbank • verwende in der Datenbank aufgefundene w-mers als "Saat" • verlängere Treffer beiderseits durch Hinzunehmen von Residuenpaaren (ohne Gaps), solange ein bestimmter Score nicht unterschritten wird –> HSPs (high scoring segment pairs) • behalte die besten HSPs (Diagonalen) • kombiniere diese HSPs mit dynamischer Programmierung (mit Gaps) zu Alignments Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 12/22 BLAST-Programme Name Abfragesequenz Datenbank blastp Protein Protein blastn Nukleotid Nukleotid blastx Nukleotid Protein tblastn Protein Nukleotid tblastx Nukleotid Nukleotid Bemerkung Abfragesequenz wird in alle 6 Leserahmen übersetzt Datenbank wird in alle 6 Leseramen übersetzt Abfragesequenz und Datenbank werden in alle 6 Leserahmen übersetzt weitere: blast2sequences, Megablast, Psi- und Phi-Blast Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 13/22 Signifikanz des Alignments • E-Wert (Erwartungswert) – E = P * Anzahl der Sequenzen in Datenbank – P-Wert: Wahrscheinlichkeit, mit der der Score eines Alignments zufällig zustande kommen kann – E entspricht der Anzahl an Alignments eines bestimmten Scores, die man zufällig in einer Sequenz-Datenbank dieser Größe erwartet – Treffer werden in BLAST nur ausgegeben, wenn der E-Wert unterhalb einer einstellbaren Schranke liegt – E ≤ 0,02: Sequenzen vermutlich homolog – 0,02 < E ≤ 1: Homologie ist nicht auszuschließen – E ≥ 1: gute Übereinstimmung kann zufällig sein Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 14/22 PSI-BLAST • Position Specific Iterated BLAST • Idee: entfernte Verwandtschaften lassen sich besser durch Motivoder Profil-Suchen entdecken als durch paarweise Vergleiche • PSI-BLAST führt zunächst eine BLAST-Suche mit Austauschmatrix und Gaps durch • verwendet die Information jedes signifikanten Alignments, um mittels eines multiplen Alignments eine positionsspezifische Substitionsmatrix zu konstruieren • diese wird in der nächsten Runde der Datenbank-Suche verwendet (anstelle von Sequenz und Matrix) • kann iterativ verwendet werden, bis keine neuen signifikanten Treffer mehr gefunden werden (Konvergenz) Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 15/22 Profilerstellung (hier für DNA) multiples Alignment Pos. Sq1 Sq2 Sq3 Sq4 Sq5 Sq6 Sq7 Sq8 Sq9 Sq10 123456789 CACCACGTG GACCACGTG TAGCACGTG GAACACGTG AACCACGTG CACC-CGTG GGCCACGTG GTCCACGTG TACCACGTG -CCCACGTG Softwarewerkzeuge der Bioinformatik WS06/07 Alignmentmatrix = Positionsfrequenzmatix (PFM) N 1 2 3 4 5 6 7 8 9 A 1 6 1 0 9 0 0 0 0 C 2 1 8 10 0 10 0 0 0 G 4 1 1 0 0 0 10 0 10 T 2 1 0 0 0 0 0 10 0 - 1 0 0 0 1 0 0 0 0 •bei Proteinsequenzen ensprechend 21 Zeilen •PSI-Blast: -Sequenzen dürfen nicht zu ähnlich sein -PSSM ist ASCII-codiert Tutorial 2: BLAST 16/22 BLAST bei NCBI – Eingabe Sequenz im FastaFormat Grenze für E-Values Länge der w-mers Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 17/22 BLAST – Formatseite CD Search: Scannen der Query mit PSSMs für konservierte Domänen andere Option: PSSM (ab 2. Iteration) für PSI-BLAST aktivieren Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 18/22 BLAST – graphische Alignmentansicht beste Treffer je 2 getrennte Treffer auf derselben Sequenz Eingabesequenz (Query) quergestrichelte Region dazwischen paßt nicht zur Query Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 19/22 BLAST – Trefferliste (a) gi-Nummer|Datenbank|Accession-Nummer|Locusname der Sequenz - sp swissprot = UniProtKB/Swiss-Prot (b) Beschreibung der Sequenz (Art, Funktion, Organismus) (c) Bit-Scores sind normalisiert und daher zwischen verschiedenen Suchen – auch in verschiedenen Datenbanken – vergleichbar (d) je kleiner der E-Value, desto signifikanter der Treffer Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 20/22 BLAST – Alignment raw Score (unnormiert) • • • Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST Query: Eingabesequenz Sbjct: Treffer X: maskierte low complexity-Region 21/22 alternative Alignmentprogramme für DNA • ganze Chromosomen/Genome – Genreihenfolge, Phylogenie, Evolution, Konservierung • nichtcodierende Bereiche des Genoms – Transkriptionsfaktor-Bindestellen und andere Elemente für Genregulation • lokales Alignment – FASTA – BLASTZ – BLAT • mindestens 95 % Sequenzähnlichkeit • auch für Proteine (mind. 80 % Ähnlichkeit) • globales Alignment – AVID – LAGAN • meist werden multiple Alignments verwendet Softwarewerkzeuge der Bioinformatik WS06/07 Tutorial 2: BLAST 22/22