Softwarewerkzeuge der Bioinformatik Tutorial 2: paarweise

Werbung
Softwarewerkzeuge der Bioinformatik
Wintersemester 2006/2007
Tutorial 2:
paarweise Sequenzaligments
BLAST
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
1/22
Alignment
Ausrichten zweier oder mehrerer Sequenzen, um:
–
ihre Ähnlichkeit quantitativ zu erfassen
–
einzelne Bausteine zuzuordnen
–
Gesetzmäßigkeiten der Konservierung und Variabilität zu
beobachten
–
Rückschlüsse auf entwicklungsgeschichtliche
Verwandschaftsverhältnisse zu ziehen
–
Struktur und Funktion zuordnen zu können
–
in Datenbanken ähnliche Sequenzen zu suchen
Gap = Indel = Insertion oder Deletion
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
2/22
Gleichheit, Ähnlichkeit, Homologie
•
Identität (identity)
–
•
•
Verhältnis der Anzahl identischer Aminosäuren zur
Gesamtzahl der Aminosäuren; objektiv
Ähnlichkeit (similarity)
–
Verhältnis ähnlicher Aminosäuren (Austauschmatrizen)
–
Maß der Ähnlichkeit ist modellbehaftet
Homologie (homology)
–
Sequenzen haben eine gemeinsame Vorläufersequenz
–
nur möglich durch Vergleich vieler Sequenzen: was sind
signifikante gemeinsame Merkmale?
–
"bewertete Ähnlichkeit": Maß der Homologie ist
modellbehaftet, kann nicht in % angegeben werden!
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
3/22
verschiedene Arten von Homologie
Organismus Y
Organismus X
A
B
A
Organismus Z
Organismus #
a
Ħ
Ħ
A-a: Orthologe Gene
•in unterschiedlichen Organismen
•gleiche Funktion
•entstanden durch Artenbildung (speciation)
A-B: Paraloge Gene
•im gleichen Organismus
•können unterschiedliche Funktion haben
•entstanden durch Genduplikation
Ħ-Ħ: Xenologe Gene
•durch horizontalen Gentransfer erworben
•Bsp.: Resistenzgene auf Plasmiden
B-Ħ: Analoge Gene: nicht homologe Sequenz,
sondern zufällige Ähnlichkeit, entstanden
durch Konvergenz; gleiche/ähnliche Funktion
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
4/22
Bewertung von Ähnlichkeit
• DNA
– oft nur Unterscheidung identisch/nicht identisch
– Substitutionen sind unterschiedlich wahrscheinlich:
• Transition (häufig)
– Purin-Purin (A-G)
– Pyrimidin-Pyrimidin (C-T), besonders bei 5-Methyl-Cytosin
• Transversion (selten)
NH
– Purin-Pyrimidin (A-C, A-T, G-C, G-T)
CH
2
– Gaps = Indels im codierenden Bereich :
Leserahmenverschiebung!
• Proteine
3
N
O
N
H
– Codon-basiert: "zurückrechnen" auf DNA-Ebene. Nicht jede
AS kann direkt zu jeder anderen werden, evtl. Umweg nötig
– chemische Ähnlichkeit der Aminosäuren (Substitutions- =
Austauschmatrizen)
– verschiedene Gap-Kosten
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
5/22
Aminosäuren-Substitutionsmatrizen
zur Bewertung der Qualität eines Alignments
– Score ist die Summe aller Bewertungen für die Paare an allen Positionen
•
des Alignments
•
einige Aminosäuren (meist kleine) weisen grundsätzlich hohe
Mutationsraten auf: "unwichtig" für Funktion und Struktur
•
Aminosäure ändert sich, die chemischen Eigenschaften aber
bleiben gleich: geringe Strafe
•
Funktion und/oder Faltung eines Proteins ändern sich bei
Austausch von His (H), Trp (W), Pro (P), Cys (C): hohe Scores für
die Erhaltung solcher Residuen
•
Austausch von ähnlichen Residuen, z. B. Ile (I)-Leu (L) ist
wahrscheinlicher (hat einen höheren Score) als der von
unterschiedlichen, z.B. I-Asp(D)
•
Ausnahme: korrelierte Mutationen interagierender Residuen (Lys
(K)-Glu (E) in einem Protein, E-K in dessen Komplexpartner)
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
6/22
PAM und BLOSUM
BLOSUM62 Default-Austauschmatrix in BLAST, entspricht etwa
PAM120
hydrophil
Iminosäure
hydrophob
sauer,–
hydrophil
basisch, +
hydrophob
aromatisch
•enge
C
C
9
S -1
T -1
P -3
A
0
G -3
N -3
D -3
E -4
Q -3
H -3
R -3
K -3
M -1
I
-1
L -1
V -1
F -2
Y -2
W -2
S
-1
4
1
-1
1
0
1
0
0
0
-1
-1
0
-1
-2
-2
-2
-2
-2
-3
T
-1
1
4
1
-1
1
0
1
0
0
0
-1
0
-1
-2
-2
-2
-2
-2
-3
P
-3
-1
1
7
-1
-2
-2
-1
-1
-1
-2
-2
-1
-2
-3
-3
-2
-4
-3
-4
A
0
1
-1
-1
4
0
-2
-2
-1
-1
-2
-1
-1
-1
-1
-1
0
-2
-2
-3
G
-3
0
1
-2
0
6
0
-1
-2
-2
-2
-2
-2
-3
-4
-4
-3
-3
-3
-2
N
-3
1
0
-1
-1
-2
6
1
0
0
1
0
0
-2
-3
-3
-3
-3
-2
-4
D
-3
0
1
-1
-2
-1
1
6
2
0
1
-2
-1
-3
-3
-4
-3
-3
-3
-4
E
-4
0
0
-1
-1
-2
0
2
5
2
0
0
1
-2
-3
-3
-2
-3
-2
-3
Q
-3
0
0
-1
-1
-2
0
0
2
5
0
1
1
0
-3
-2
-2
-3
-1
-2
H
-3
-1
0
-2
-2
-2
-1
-1
0
0
8
0
-1
-2
-3
-3
-3
-1
2
-2
R
-3
-1
-1
-2
-1
-2
0
-2
0
1
0
5
2
-1
-3
-2
-3
-3
-2
-3
K
-3
0
0
-1
-1
-2
0
-1
1
1
-1
2
5
-1
-3
-2
-2
-3
-2
-3
M
-1
-1
-1
-2
-1
-3
-2
-3
-2
0
-2
-1
-1
5
1
2
1
0
-1
-1
I
-1
-2
-2
-3
-1
-4
-3
-3
-3
-3
-3
-3
-3
1
4
2
3
0
-1
-3
L
-1
-2
-2
-3
-1
-4
-3
-4
-3
-2
-3
-2
-2
2
2
4
1
0
-1
-2
V
-1
-2
-2
-2
-2
0
-3
-3
-3
-2
-2
-3
-3
-2
1
3
4
-1
-1
-3
F
-2
-2
-2
-4
-2
-3
-3
-3
-3
-3
-1
-3
-3
0
0
0
-1
6
3
1
Y
-2
-2
-2
-3
-2
-3
-2
-3
-2
-1
2
-2
-2
-1
-1
-1
-1
3
7
2
W
-2
-3
-3
-4
-3
-2
-4
-4
-3
-2
-2
-3
-3
-1
-3
-2
-3
1
2
11
Verwandtschaft: niedrige PAM(1), hohe BLOSUM(80)
•entfernte
Softwarewerkzeuge der
Bioinformatik WS06/07
Verwandtschaft: hohe PAM (250), niedrige BLOSUM(45)
Tutorial 2: BLAST
7/22
Alignment-Methoden
paarweise
paarweise Alignments
Alignments
dynamische
dynamische
Algorithmen
Algorithmen
N&W
N&W
–Alignment
wird in
Subalignments (einzelne
Residuen) zerlegt
–Subalignments
sind
schneller zu handhaben
–schließlich
werden die
besten Ergebnisse
ausgegeben
Softwarewerkzeuge der
Bioinformatik WS06/07
heuristische
heuristische
Algorithmen
Algorithmen
S&W
S&W
FASTA
FASTA BLAST
BLAST
-Abschätzungen, um annähernd genaue
Ergebnisse zu erzielen
–Kenntnisse
über Sequenzen und
Alignment-Statistiken werden benutzt
–Alignment
wird bei geringem
Genauigkeitsverlust stark beschleunigt
Tutorial 2: BLAST
8/22
dynamische Alignments
• globales Alignment (Needleman & Wunsch)
N
N
N
N
C
C
C
C
•evolutionäre Verwandtschaftsbeziehungen
• lokales Alignment (Smith & Waterman)
N
N
N
N
C
C
C
C
N
N
N
N
C
C
C
C
•Funktionsgemeinsamkeiten (Domänen)
Implementierungen z.B. unter http://www.ebi.ac.uk/emboss/align
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
9/22
heuristische Alignments
–
dynamische Alignments sind zwar optimal, aber langsam
–
heuristische Alignments sehr viel schneller als dynamische
–
Einsatzgebiet: vor allem Datenbankensuchen
–
mit der Akzeptanz einer geringen Fehlerrate kann der
Suchraum stark verkleinert und das Alignment beschleunigt
werden
–
schließlich findet ein detailliertes Alignment statt
–
das beste Alignment wird bei gegebenem Model nur mit hoher
Wahrscheinlichkeit gefunden
–
BLAST (http://www.ncbi.nih.gov/blast/)
–
FASTA (http://www.ebi.ac.uk/fasta/)
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
10/22
Literatur zu BLAST
• Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990):
"Basic Local Alignment Search Tool", J. Mol. Biol. 215: 403-410
• Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller
W, Lipman DJ (1997): "Gapped BLAST and PSI-BLAST: a new
generation of protein database search programs", Nucleic Acids
Res. 25: 3389-3402
• Schäffer AA, Aravind L, Madden TL, Shavirin S, Spouge JL,
Wolf YI, Koonin EV, Altschul SF (2001): "Improving the accuracy
of PSI-BLAST protein database searches with compositionbased statistics and other refinements", Nucleic Acids Res. 29:
2994-3005
• Hilfeseiten und Tutorials bei NCBI (http://www.ncbi.nih.gov/blast/)
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
11/22
Algorithmus von BLAST
• zerlege die Suchsequenz in überlappende Wörter
• erzeuge für jedes dieser Wörter eine Liste aller ähnlichen
Wörter (w-mers), deren Score > Schwellenwert ist
• suche die w-mers in der Datenbank
• verwende in der Datenbank aufgefundene w-mers als "Saat"
• verlängere Treffer beiderseits durch Hinzunehmen von
Residuenpaaren (ohne Gaps), solange ein bestimmter Score
nicht unterschritten wird –> HSPs (high scoring segment pairs)
• behalte die besten HSPs (Diagonalen)
• kombiniere diese HSPs mit dynamischer Programmierung (mit
Gaps) zu Alignments
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
12/22
BLAST-Programme
Name
Abfragesequenz
Datenbank
blastp
Protein
Protein
blastn
Nukleotid
Nukleotid
blastx
Nukleotid
Protein
tblastn
Protein
Nukleotid
tblastx
Nukleotid
Nukleotid
Bemerkung
Abfragesequenz
wird in alle 6
Leserahmen
übersetzt
Datenbank wird in
alle 6 Leseramen
übersetzt
Abfragesequenz und
Datenbank werden in
alle 6 Leserahmen
übersetzt
weitere: blast2sequences, Megablast, Psi- und Phi-Blast
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
13/22
Signifikanz des Alignments
•
E-Wert (Erwartungswert)
–
E = P * Anzahl der Sequenzen in Datenbank
–
P-Wert: Wahrscheinlichkeit, mit der der Score eines
Alignments zufällig zustande kommen kann
–
E entspricht der Anzahl an Alignments eines bestimmten
Scores, die man zufällig in einer Sequenz-Datenbank
dieser Größe erwartet
–
Treffer werden in BLAST nur ausgegeben, wenn der E-Wert
unterhalb einer einstellbaren Schranke liegt
–
E ≤ 0,02: Sequenzen vermutlich homolog
–
0,02 < E ≤ 1: Homologie ist nicht auszuschließen
–
E ≥ 1: gute Übereinstimmung kann zufällig sein
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
14/22
PSI-BLAST
•
Position Specific Iterated BLAST
•
Idee: entfernte Verwandtschaften lassen sich besser durch Motivoder Profil-Suchen entdecken als durch paarweise Vergleiche
•
PSI-BLAST führt zunächst eine BLAST-Suche mit
Austauschmatrix und Gaps durch
•
verwendet die Information jedes signifikanten Alignments, um
mittels eines multiplen Alignments eine positionsspezifische
Substitionsmatrix zu konstruieren
•
diese wird in der nächsten Runde der Datenbank-Suche
verwendet (anstelle von Sequenz und Matrix)
•
kann iterativ verwendet werden, bis keine neuen signifikanten
Treffer mehr gefunden werden (Konvergenz)
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
15/22
Profilerstellung (hier für DNA)
multiples Alignment
Pos.
Sq1
Sq2
Sq3
Sq4
Sq5
Sq6
Sq7
Sq8
Sq9
Sq10
123456789
CACCACGTG
GACCACGTG
TAGCACGTG
GAACACGTG
AACCACGTG
CACC-CGTG
GGCCACGTG
GTCCACGTG
TACCACGTG
-CCCACGTG
Softwarewerkzeuge der
Bioinformatik WS06/07
Alignmentmatrix =
Positionsfrequenzmatix (PFM)
N 1
2
3
4
5
6
7
8
9
A 1
6
1
0
9
0
0
0
0
C 2
1
8 10
0 10
0
0
0
G 4
1
1
0
0
0 10
0 10
T 2
1
0
0
0
0
0
10 0
- 1
0
0
0
1
0
0
0
0
•bei Proteinsequenzen ensprechend 21
Zeilen
•PSI-Blast:
-Sequenzen dürfen nicht zu ähnlich sein
-PSSM ist ASCII-codiert
Tutorial 2: BLAST
16/22
BLAST bei NCBI – Eingabe
Sequenz im FastaFormat
Grenze für
E-Values
Länge der
w-mers
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
17/22
BLAST – Formatseite
CD Search: Scannen
der Query mit PSSMs
für konservierte
Domänen
andere Option: PSSM
(ab 2. Iteration)
für PSI-BLAST
aktivieren
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
18/22
BLAST – graphische Alignmentansicht
beste
Treffer
je 2 getrennte Treffer auf derselben
Sequenz
Eingabesequenz
(Query)
quergestrichelte Region dazwischen
paßt nicht zur Query
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
19/22
BLAST – Trefferliste
(a) gi-Nummer|Datenbank|Accession-Nummer|Locusname der Sequenz
-
sp swissprot = UniProtKB/Swiss-Prot
(b) Beschreibung der Sequenz (Art, Funktion, Organismus)
(c) Bit-Scores sind normalisiert und daher zwischen verschiedenen
Suchen – auch in verschiedenen Datenbanken – vergleichbar
(d) je kleiner der E-Value, desto signifikanter der Treffer
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
20/22
BLAST – Alignment
raw Score (unnormiert)
•
•
•
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
Query:
Eingabesequenz
Sbjct: Treffer
X: maskierte low
complexity-Region
21/22
alternative Alignmentprogramme für DNA
• ganze Chromosomen/Genome
– Genreihenfolge, Phylogenie, Evolution, Konservierung
• nichtcodierende Bereiche des Genoms
– Transkriptionsfaktor-Bindestellen und andere Elemente für
Genregulation
• lokales Alignment
– FASTA
– BLASTZ
– BLAT
• mindestens 95 % Sequenzähnlichkeit
• auch für Proteine (mind. 80 % Ähnlichkeit)
• globales Alignment
– AVID
– LAGAN
• meist werden multiple Alignments verwendet
Softwarewerkzeuge der
Bioinformatik WS06/07
Tutorial 2: BLAST
22/22
Herunterladen