Sequenzanalyse

Werbung
MM
29.06.2011
Sequenzanalyse
Michael Meyer
Vorlesung XVI
Michael Meyer
Molecular Modelling
Allgemeines
Der Vergleich von unbekannten Sequenzen mit Sequenzen bekannter
Funktion (und ggf. bekannter Struktur) ist ein zentrales Ziel der
Bioinformatik.
• Problemstellung
Wo findet man Sequenzinformationen?
Wie vergleicht und bewertet man Sequenzen?
• Datenbanken
Archivierung bekannter Protein- und DNA Sequenzen
verlinkte Abfragesysteme
• Suchmöglichkeiten
Datenbankindex
Text (Autor, Stichwort, Literaturstellen, Annotierung)
Sequenz (identische oder ähnliche Sequenzabschnitte)
Michael Meyer
Sequenzen
Molecular Modelling
1
MM
29.06.2011
Sequenzdatenbanken
• Sequenzdatenbanken
Proteine: Swiss-Prot, UniProt
Nucleinsäuren: Genbank
...
• Abfragesysteme
Verknüpfung verschiedener Datenbanken
DBGET
ENTREZ
...
Michael Meyer
Molecular Modelling
UniProt
Michael Meyer
Sequenzen
Molecular Modelling
2
MM
29.06.2011
NCBI National Center for Biotechnological
Information
PubMed
Gene
NukleinsäureSequenzen
Elektronische
Publikationen
Biopolymerstrukturen
Proteinsequenzen
http://www.ncbi.nlm.nih.gov/
Michael Meyer
Molecular Modelling
NCBI
Michael Meyer
Sequenzen
Molecular Modelling
3
MM
29.06.2011
DBGET
Michael Meyer
Molecular Modelling
Sequenzalignment
• Zielsetzung
Zuordnung von Sequenzen
• Modelle
globales Alignment
Geeignet für die Zuordnung von Sequenzen mit einer Ähnlichkeit
über die gesamte Länge.
Eine typische Anwendung ist die Untersuchung von evolutionären
Veränderungen in funktional gleichen Proteinen. Man nimmt an,
dass funktionell wichtige Aminosäuren eines Proteins konserviert
sind.
Globales Alignment
Michael Meyer
Sequenzen
Molecular Modelling
4
MM
29.06.2011
Sequenzalignment II
lokales Alignment
Geeignet für Sequenzen mit ähnlichen Aminosäuren in isolierten
Regionen.
Die Anwendung liegt in der Suche nach gemeinsamen Sequenzfragmenten oder funktionellen Gruppen in Datenbanken.
Lokales Alignment
multiples Alignment
Verallgemeinerung des Sequenzalignments von 2 Sequenzen auf eine
Vielzahl N von Sequenzen.
Michael Meyer
Molecular Modelling
Vergleich von Sequenzen
Operationen
Substitution
In der Sequenz B wird an der Stelle i ein Buchstabe aus A ersetzt
Deletion
Aus der Sequenz A wird an der Stelle i ein Buchstabe gelöscht um B
zu erzeugen. In der Sequenz B steht dann ein „-“
Insertion
An der Stelle i der Sequenz B wird ein Buchstabe eingefügt. In der
Sequenz A steht dann ein „-“.
Distanzmatrix
Zum Vergleich zweier Proteinsequenzen wird ein Verfahren benötigt,
das die einander zugeordneten AS-Paare bewertet. Dabei sind 20 x 19
= 380 / 2 = 190 unterschiedliche AS-Paare zu berücksichtigen.
Allgemein werden die Distanzen nach biologischen oder chemischen
Gesichtspunkten ausgewählt, z. B. identische Kosten, physikochemisch
orientierte Kosten, Mutationswahrscheinlichkeit (BLOSUM, Dayhoff)
Michael Meyer
Sequenzen
Molecular Modelling
5
MM
29.06.2011
Beispiel für Kosten
Hypothetische Distanzwerte
Substitutionen = 2
(z. B. d(F,Q)=2)
Indels
=3
(z. B. d(-,D) Insertion, d(C,-) Deletion)
Beispielsequenzen
Sequenz A = A C F C G S T Sequenz B = A C Q - A S T D
Kosten aller Operationen: 2+3+2+3=10
Sequenz A = - A C F C G S T
Sequenz B = A C Q - A S T D
Kosten aller Operation: 3+2+2+3+2+2+2+2=18
Michael Meyer
Molecular Modelling
Globales Sequenzalignment
Globales Alignment von 2 Strings
Sequenz A =
Sequenz B =
a1 ... an
b1 ... bm
Di,j=d(a1...ai, b1...bj)
Distanz zwischen a1 ... ai und b1 ...bj
Dn,m
Kosten des optimalen globalen Alignments
D0,0 = 0
j
D0,j = Σ d(-,bk)
k=1
i
Di,0 = Σ d(ak,-)
k=1
Di,j = min { Di-1,j + d(ai,-), Di-1,j-1 + d(ai, bj), Di,j-1 + d(-,bj)}
Michael Meyer
Sequenzen
Molecular Modelling
6
MM
29.06.2011
Beispiel zum globalen Sequenzalignment
Sequenz A = WRITERS
Sequenz B = VINTNER
V
I
N
T
N
E
R
0
1
2
3
4
5
6
7
d(ai, bj) = 0
d(ai, bj) = 1
für ai = bj
sonst
W
R
I
T
E
R
S
1
1
2
3
4
5
6
7
2
2
2
3
4
5
6
6
3
3
2
3
4
5
6
7
4
4
3
3
3
4
5
6
5
5
4
4
4
4
4
5
6
6
5
5
5
5
5
4
7
7
6
6
6
6
6
5
T
T
N
E
E
R
R
S
-
Optimales globales Alignment
W
-
R
V
I
I
N
Michael Meyer
Molecular Modelling
Ergebnisse eines Sequenzalignments
• organisatorische Unterteilung der Sequenz
Domänenstruktur von Proteinen
• familiäre Zusammenhänge
• Lokalisierung möglicher funktioneller Aminosäuren
sequenzielle Nähe heißt nicht notwendigerweise auch räumliche
Nähe
• Erweiterung der in der Sequenz vorhandenen Informationen
Sekundärstruktur-Vorhersage
Homologie-Modellierung
Identifizierung der möglichen Lage von Aminosäuren (vergraben
oder an der Oberfläche)
Michael Meyer
Sequenzen
Molecular Modelling
7
MM
29.06.2011
Basic Local Alignment Search Tool (BLAST)
• Heuristisches lokales Alignmentverfahren zur effektiven Suche von
Protein- oder Nukleinsäuresequenzen in Datenbanken
• Suche von Regionen lokaler Ähnlichkeit mit kleinen Sequenzfragmenten
• anschließendeVerlängerung des Alignments falls möglich
• liefert üblicherweise multiple Treffer
• keine Garantie für biologische Signifikanz
http://blast.ncbi.nlm.nih.gov/
Michael Meyer
Molecular Modelling
BLAST
Michael Meyer
Sequenzen
Molecular Modelling
8
MM
29.06.2011
prosite
Zusammenstellung von Sequenzmustern, die einer definierten Funktion
zugeordnet werden können oder in Proteinfamilien konserviert sind.
M. A. S. Saqi, Identification of protein sequence motifs, in: Protein Structure Prediction
(Ed. M. J. E. Sternberg), Oxford University Press, Oxford 1996.
N. Hulo et al., Nucleic Acid Res. 32, D134 (2004)
Michael Meyer
Molecular Modelling
prosite II
• Syntax
Jede Sequenzposition im Motiv ist durch einen Bindestrich getrennt
ein Buchstabe symbolisiert eine Aminosäure, die in dieser Position vorkommt
x
steht für eine beliebige Aminosäure
{...} steht für einen Satz von verbotenen Aminosäuren
[...] steht für einen Satz von erlaubten Aminosäuren
(n) steht für eine n-fache Wiederholung
(n,m) steht für eine n bis m-fache Wiederholung
• Beispiel
[AG]-x(4)-G-K-[ST]
Michael Meyer
Sequenzen
Molecular Modelling
9
MM
29.06.2011
prosite III
• Signifikanz der Prosite Resultate
[YA]-x-D-T-D-S-[LIVM]
Relative Häufigkeit der Aminosäuren
Y
Tyr
0.032
D
Asp
0.052
S
Ser
0.071
I
Ile
0.054
M
Met
0.023
in Sequenzdatenbanken
A
Ala
0.077
T
Thr
0.058
L
Leu
0.091
V
Val
0.065
Die Wahrscheinlichkeit für das zufällige Auftreten dieses Motivs beträgt
(0.032+0.077) — 0.052 — 0.058 — 0.052 — 0.071 — (0.091 + 0.054 + 0.065 +
0.023) =2.83—10-7
Wenn man eine Datenbank mit 109 Sequenzen durchsucht, beträgt
die erwartete Anzahl von Treffern 283.
Michael Meyer
Molecular Modelling
NPS@ Network Protein Sequence Analysis
Michael Meyer
Sequenzen
Molecular Modelling
10
MM
29.06.2011
Beispiel zur Sequenzanalyse
Gegeben sei eine „unbekannte“ Sequenz
GIEASLLTDPKDVSGRTVDYIIAGGGLTGLTTAARLTENPNISVLVIESGSYESDRGPIIEDLNAYGDIFGSSVDHAYETV
ELATNNQTALIRSGNGLGGSTLVNGGTWTRPHKAQVDSWETVFGNEGWNWDNVAAYSLQAERARAPNAKQI
AAGHYFNASCHGVNGTVHAGPRDTGDDYSPIVKALMSAVEDRGVPTKKDFGCGDPHGVSMFPNTLHEDQVR
SDAAREWLLPNYQRPNLQVLTGQYVGKVLLSQNGTTPRAVGVEFGTHKGNTHNVYAKHEVLLAAGSAVSPTILE
YSGIGMKSILEPLGIDTVVDLPVGLNLQDQTTATVRSRITSAGAGQGQAAWFATFNETFGDYSEKAHELLNTKLEQ
WAEEAVARGGFHNTTALLIQYENYRDWIVNHNVAYSELFLDTAGVASFDVWDLLPFTRGYVHILDKDPYLHHFAYD
PQYFLNELDLLGQAAATQLARNISNSGAMQTYFAGETIPGDNLAYDADLSAWTEYIPYHFRPNYHGVGTCSMMP
KEMGGVVDNAARVYGVQGLRVIDGSIPPTQMSSHVMTVFYAMALKISDAILEDYASMQ
• Fragestellungen
Welche Funktion hat das Protein?
Gehört es zu einer bestimmten Familie von Proteinen?
Um welches Protein handelt es sich?
Michael Meyer
Molecular Modelling
Beispiel für eine Sequenzmuster Suche mit prosite
N-glycosylation site.
N-{P}-[ST]-{P}.
Randomized probability: 5.138e-03 .
Site : 43 to 46 NISV.
Identity.
Site : 89 to 92 NQTA.
Identity.
Site : 161 to 164 NASC. Identity.
Site : 168 to 171 NGTV. Identity.
Site : 258 to 261 NGTT.
Identity.
Site : 355 to 358 NETF.
Identity.
Site : 388 to 391 NTTA.
Identity.
Site : 473 to 476 NISN.
Identity.
------------------------------------------------------Protein kinase C phosphorylation site.
[ST]-x-[RK].
Randomized probability: 1.423e-02 .
Casein kinase II phosphorylation site.
[ST]-x(2)-[DE].
Randomized probability: 1.482e-02 .
------------------------------------------------------N-myristoylation site.
G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}.
Randomized probability: 1.397e-02 .
--------------------------------------------------------
Michael Meyer
Sequenzen
Molecular Modelling
11
MM
29.06.2011
Beispiel für eine Sequenzmuster Suche mit prosite
Regulator of chromosome condensation (RCC1) signature 2.
[LIVMFA]-[STAGC](2)-G-x(2)-H-[STAGLI]-[LIVMFA]-x-[LIVM].
Randomized probability: 1.710e-06 .
--------------------------------------------------------------------------GMC oxidoreductases signature 1.
Prosite access number: PS00623
Prosite documentation access number: PDOC00543
[GA]-[RKN]-x-[LIV]-G(2)-[GST](2)-x-[LIVM]-N-x(3)-[FYWA]-x(2)-[PAG]-x(5)-[DNESH].
Randomized probability: 8.116e-11 .
Site : 97 to 120 GNGLGGSTLVNGGTWTRPHKAQVD. Identity.
--------------------------------------------------------------------------GMC oxidoreductases signature 2.
Prosite access number: PS00624
Prosite documentation access number: PDOC00543
[GS]-[PSTA]-x(2)-[ST]-P-x-[LIVM](2)-x(2)-S-G-[LIVM]-G.
Randomized probability: 1.087e-09 .
Site : 290 to 304 GSAVSPTILEYSGIG. Identity.
--------------------------------------------------------------------------7 different patterns found.
Michael Meyer
Molecular Modelling
GMC-Oxidoreduktasen
Glucose Oxidase
Glucose + O2
->
Gluconolacton + H2O2
Methanol Oxidase
Methanol + O2 ->
CH3OH
Formaldehyd + H2O2
HCHO
Cholin Dehydrogenase
Cholin + ?
->
+N(CH ) -(CH ) -OH
3 3
2 2
Betain Acetaldehyd + ?
-CH2-CHO
+N(CH )
3 3
Glucose Dehydrogenase
Glucose + ?
Michael Meyer
Sequenzen
->
Gluconolacton + ?
Molecular Modelling
12
MM
29.06.2011
BLAST-Suche mit unbekannter Sequenz
Michael Meyer
Molecular Modelling
BLAST-Ergebnis für die unbekannte Sequenz
Michael Meyer
Sequenzen
Molecular Modelling
13
MM
29.06.2011
Glucose Oxidase
• Katalysierte Reaktion
O
O
OH
HO
HO
HO
OH
OH
beta-D-Glucose
OH
COOH
O
HO
HO
HO
OH
OH
OH
OH
delta-Gluconolacton
Gluconsäure
Flavinadenindinucleotid (FAD) und die Enzymumgebung können als
Wasserstoffakzeptor wirken.
R
N
N
O
NH
N
O
• Reduktive Halbreaktion
E-FAD + Glucose -> E-FADH2 + Gluconolacton
• Oxidative Halbreaktion
E-FADH2 + O2 -> E-FAD + H2O2
Michael Meyer
Molecular Modelling
Globales Sequenzalignment der Glucose
Oxidasen aus verschieden Spezies
….
Alignment length :
588
Identity (*) :
379 is 64.46 %
Strongly similar (:) :
101 is 17.18 %
Weakly similar (.) :
48 is 8.16 %
Different :
60 is 10.20 %
Sequence 0001 : UNK_295990 ( 583 residues).
Sequence 0002 : UNK_295991 ( 587 residues).
Michael Meyer
Sequenzen
Molecular Modelling
14
MM
29.06.2011
Sekundärstrukturvorhersage
• Ziel
Vorhersage der Sekundärstruktur aus der Sequenz ohne Kenntnis der
3D-Struktur
• Bedeutung
Vorhersage der Struktur im Protein Design
Erkennung einer strukturellen oder funktionellen Verwandtschaft von
Proteinen
Unterstützung von Sequenzalignments
Unterstützung von der experimentellen Strukturbestimmung von Proteinen
Michael Meyer
Molecular Modelling
Sekundärstrukturvorhersage nach Chou & Fasman
Tendenz zur Ausbildung von Sekundärstrukturen
Helix
Faltblatt
stark
mittel
Glu, Ala, Leu
His, Met, Gln, Trp, Val, Phe
schwach
indifferent
störend
stark störend
Lys, Ile
Asp, Thr, Ser, Arg, Cys
Asn, Tyr
Pro, Gly
Met, Val, Ile
Cys, Tyr, Phe, Gln, Leu,
Thr, Trp
Ala
Arg, Gly, Asp
Lys, Ser, His, Asn, Pro
Glu
Klassifizierung von Aminosäuren nach bevorzugten Sekundärstrukturelementen.
Vorteil
Einfach
Nachteil
Statistisch fragwürdig, etwas willkürliche Regeln, kein Zusammenhang mit
grundlegenden physikalischen Theorien.
P. Y. Chou, G. D. Fasman, Biochemistry 13, 222 (1974).
Michael Meyer
Sequenzen
Molecular Modelling
15
MM
29.06.2011
Relative Häufigkeit von Aminosäuren in
Sekundärstrukturelementen
Ala
Cys
Leu
Met
Glu
Gln
His
Lys
Val
Ile
Phe
Tyr
Trp
Thr
Gly
Ser
Asp
Asn
Pro
Arg
Häufigkeit (%)
Helix
Faltblatt
Turn
7.8
1.9
9.1
2.2
6.3
4.3
2.3
5.9
6.6
5.3
3.9
3.2
1.4
5.9
7.2
6.8
5.3
4.3
5.2
5.1
1.29
1.11
1.30
1.47
1.44
1.27
1.22
1.23
0.91
0.97
1.07
0.72
0.99
0.82
0.56
0.82
1.04
0.90
0.52
0.96
0.90
0.74
1.02
0.97
0.75
0.80
1.08
0.77
1.49
1.45
1.32
1.25
1.14
1.21
0.92
0.95
0.72
0.76
0.64
0.99
0.78
0.80
0.59
0.39
1.00
0.97
0.69
0.96
0.47
0.51
0.58
1.05
0.75
1.03
1.64
1.33
1.41
1.28
1.91
0.88
Michael Meyer
Molecular Modelling
Sekundärstrukturvorhersage nach Garnier
Statistisches Modell zur Sekundärstrukturvorhersage
N
S
gesamte Anzahl aller Aminosäuren in der Datenbank
Art der Sekundärstruktur (Helix, Faltblatt, Turn, Coil)
P(R) = fR / N
P(R)
fR
Wahrscheinlichkeit für das Auftreten der Aminosäure R
Anzahl der Aminosäuren R
P(S) = fS / N
P(S)
fS
Wahrscheinlichkeit für das Auftreten der Sekundärstruktur S
gesamte Anzahl der Aminosäuren mit der Sekundärstruktur S
P(R,S) = fR,S /N
P(R,S)
Wahrscheinlichkeit für das Auftreten der Aminosäure R
mit der Sekundärstruktur S
gesamte Anzahl der Aminosäuren R mit der Sekundärstruktur S
fR,S
P(S|R) = P(R,S)/P(R)
bedingte Wahrscheinlichkeit für das Auftreten der
Sekundärstruktur S, wenn die Aminosäure R vorhanden ist
I(S;R) = log [P(S|R)/P(S)]
Informationsfunktion
J. Garnier, D. J. Osguthorpe, B. Robson, J. Mol. Biol. 120, 97 (1978) .
Michael Meyer
Sequenzen
Molecular Modelling
16
MM
29.06.2011
Sekundärstrukturvorhersage nach Garnier II
Information über die Konformation Sj der Aminosäure j:
I(Sj=Helix;R1,...RN),
I(Sj=Faltblatt;R1,...RN), I(Sj=Coil;R1,...RN)
Die Berechnung erfolgt näherungsweise mit einem Sequenzfenster von ±8 Aminosäuren
8
I ( S j ; R1 ,..., RN ) ≅
∑ I (S ; R
j
j+m
)
m = −8
I(Sj;Rj+m) ist der Beitrag der Aminosäure an der Position j+m zur Informationsfunktion
Man unterscheidet
Beiträge einer Aminosäure über ihre eigene Sekundärstruktur (m=0)
Beiträge einer Aminosäure über die Sekundärstruktur einer anderen (m≠0)
Der Aminosäure j wird die Sekundärstruktur zugeordnet, die das Maximum der
Informationsfunktion liefert.
Vorteil
Robust, statistisch fundiert
Nachteil
Nicht physikochemisch fundiert, Berücksichtigung von Sequenznachbarn, aber nicht
von räumlichen Nachbarn
Michael Meyer
Molecular Modelling
Beispiel zur Sekundärstrukturvorhersage
berechneter Sekundärstrukturanteil
mit verschiedenen Methoden
Glucose Oxidase
Bereich (%)
Bereich (%)
Helix
21-36
31-51
Faltblatt
15-27
2-18
Schleife
0-12
0-12
31-59
31-60
Coil
Michael Meyer
Sequenzen
CDK2
Molecular Modelling
17
MM
29.06.2011
Kennzahlen zur Qualität von Vorhersagen
Gegeben sei ein Satz von Sekundärstrukturvorhersagen und den
entsprechenden experimentellen Sekundärstrukturen
Vorhersage
Experiment
(tatsächlich)
ja
nein
Summe
ja
a
b
a+b
nein
c
d
c+d
Summe
a+c
b+d
a+b+c+d
Genauigkeit
= (a+d) / (a+b+c+d)
accuracy
Sensitivität
=
a / (a+c)
sensitivity
Spezifität
=
d / (b+d)
specificity
Michael Meyer
Molecular Modelling
Bewertung der Sekundärstrukturvorhersage
• Sekundärstrukturvorhersagen aus der Sequenz erreichen eine
Genauigkeit von maximal 70%.
• Eine einzelne optimale Methode existiert zur Zeit nicht.
• Empfehlenswert ist ein Vorhersage mit verschiedenen Verfahren und
ein Vergleich mit bekannten Strukturen homologer Proteine.
Michael Meyer
Sequenzen
Molecular Modelling
18
Herunterladen