Molekulare Systeme 1 - Institut für Medizinische Informatik, Statistik

Werbung
Zellen
Molekulare Systeme 1
• Prokaryonte Zellen haben
keinen separaten Zellkern
(Bakterien, BlaugrünAlgen)
• Eukaryonte Zellen haben
einen durch eine Membran
vom Zytoplasma abgegrenzten Zellkern (echte
Algen, Pilze, Protozoen,
usw.)
Dr. Jochen Forberg
Institut für Medizinische Informatik,
Statistik und Epidemiologie
Zelluläre Substanzen
Proteine
Wasser
Kleine Ionen (Na+, K+, OH–, usw.)
Stoffwechselmoleküle (Kohlehydrate,
Lipide, Nucleotide, usw.)
Proteine
Nukleotide und Nukleinsäuren
• Ein Protein ist eine Kette einfacherer Moleküle
und zwar von Aminosäuren.
• In einem Protein sind die Aminosäuren durch
Peptidbindungen aneinander gekettet. Aus diesem
Grund heißen sie auch Polypeptidketten oder kurz
Polypeptide.
• Größe: kleinste weniger als 100 Aminosäuren
typisch ca. 300 Aminosäuren
größte mehr als 5000 Aminosäuren
Aminosäuren
Beispiele für Aminosäuren
Jede Aminosäure hat ein zentrales Kohlenstoffatom Cα .
An das Cα – Atom ist ein
Wasserstoffatom H, eine
Aminogruppe NH2 , eine
Carboxylgruppe COOH und
eine Seitenkette gebunden.
Die verschiedenen Aminosäuren unterscheiden sich in
dieser Seitenkette.
CH3
HO
Seitenkette
H2N
C"
H
CH3
COOH
H2N
C"
CH
COOH
H2N
C"
H
H
Alanin
Threonin
COOH
1
Peptidbindung
Tabelle der 20 natürlichen Aminosäuren
A
C
D
E
F
G
H
I
K
L
Ala
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Alanin
Cystein
Asparaginsäure
Glutaminsäure
Phenylalanin
Glycin
Histidin
Isoleucin
Lysin
Leucin
M
N
P
Q
R
S
T
V
W
Y
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
Methionin
Asparagin
Prolin
Glutamin
Arginin
Serin
Threonin
Valin
Tryptophan
Tyrosin
H
N
C
C
H
O
H
OH + H
H
R1
N
C
C
H
O
N
C
C
H
O
H
R2
N
C
C
H
O
Peptidbindung
Tryptophansynthetase A aus E. coli
10
As3
ÂÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÄÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÃ
H R3
As1
As2
ÂÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÄÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÃ ÂÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÄÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÅÃ
H R1
H R2
OH + H
H
R3
N
C
C
H
O
N
C
C
H
O
OH
OH + 2(H2O)
Peptidbindung
Rinderinsulin
20
Met-Glu-Arg-Tyr-Glu-Ser-Leu-Phe-Ala-Gln-Leu-Lys-Glu-Arg-Lys-Glu-Gly-Ala-Phe-Val30
40
50
60
Pro-Phe-Val-Thr-Leu-Gly-Asp-Pro-Gly- Ile -Glu-Gln-Ser-Leu-Lys-Ile - Ile -Asp-Thr-LeuIle - Glu-Ala-Gly-Ala-Asp-Ala-Leu-Glu-Leu-Gly- Ile -Pro-Phe-Ser-Asp-Pro-Leu-Ala-Asp70
80
90
100
Gly-Pro-Thr-Ile -Gln-Asn-Ala-Thr-Leu-Arg-Ala-Phe-Ala- Ala- Gly-Val -Thr-Pro-Ala-GlnCys-Phe-Glu-Met-Leu-Ala-Leu-Ile-Arg-Gln-Lys-His-Pro-Thr- Ile -Pro- Ile -Gly-Leu-Leu110
120
130
140
S
A- Kette
S
Gly-Ile-Val-Glu-Gln-Cys-Cys-Ala-Ser-Val-Cys-Ser-Leu-Tyr-Gln-Leu-Glu-Asn-Tyr-Cys-Asn
5
Met-Tyr-Ala-Asn-Leu-Val-Phe-Asn-Lys-Gly-Ile-Asp-Glu-Phe-Tyr-Ala-Gln-Cys-Glu-Lys-
10
S
15
S
21
Val-Gly-Val -Asp-Ser-Val-Leu-Val -Ala-Asp-Val-Pro-Val-Gln-Glu-Ser-Ala-Pro-Phe-Arg150
160
Gln-Ala-Ala-Leu-Arg -His-Asn-Val-Ala-Pro -Ile-Phe -Ile-Cys-Pro-Pro-Asn-Ala-Asp-Asp170
180
Asp-Leu-Leu-Arg-Gln-Ile-Ala-Ser-Tyr -Gly-Arg-Gly -Tyr-Tyr-Tyr-Leu-Leu-Ser-Arg -Ala190
200
Gly -Val-Thr-Gly-Ala-Glu-Asn-Arg-Ala -Ala-Leu-Pro-Leu-Asn-His-Leu-Val-Ala-Lys-Leu210
220
230
240
250
260
Lys-Glu-Tyr-Asn-Ala-Ala-Pro-Pro-Leu-Gln-Gly-Phe-Gly -Ile -Ser-Ala-Pro-Asp-Gln-Val-
S
S
B- Kette
Phe-Val-Asn-Gln-His-Leu-Cys-Gly-Ser-His-Leu-Val-Glu-Ala-Leu-Tyr-Leu-Val-Cys-Gly-Glu5
15
10
20
Arg-Gly-Phe-Phe-Tyr-Thr-Pro-Lys-Ala
25
30
Lys-Ala-Ala -Ile -Asp-Ala-Gly-Ala -Ala-Gly-Ala - Ile -Ser-Gly-Ser-Ala- Ile -Val -Lys- IleIle -Glu-Gln-His-Asn- Ile -Glu-Pro-Glu-Lys-Met-Leu-Ala-Ala-Leu-Lys-Val-Phe-Val-Gln268
Pro-Met-Lys-Ala-Ala-Thr-Arg-Ser
Struktur von Proteinen
Primär-, Sekundär-, Tertiär- und Quartärstruktur
Enzyme
2
Sichelzellhämoglobin
Sichelzellanämie
Nukleinsäuren
Ribose und Desoxyribose
Ähnlich den Proteinen sind die Aminosäuren
Ketten aus einfacheren Molekülen. Diese
Bausteine heißen Nukleotide und bestehen aus
Phosphaten, Zucker und Pyrimidin- oder PurinBasen.
Lebende Organismen enthalten zwei Arten von
Nukleinsäuren: Ribonukleinsäure (RNA) mit
Ribose als Zuckerrest und Desoxyribonukleinsäure (DNA) mit Desoxyribose als Zuckerrest.
NH2
N
H
C
N
C
C
HN
CH
N
O
H
Adenin (A)
H2N
C
C
N
N
CH3
C
CH
H
Thymin (T)
O
HN
C
C
O
NH2
C
C
N
N
CH
N
Guanin (G)
O
H
Purine
C
Cytosin (C)
C
N
H
HO 5' H
OH
O
4'
H
H
H
3'
2'
HO
OH
HO 5' H
OH
O
1'
4'
H
H
Ribose
H
H
3'
2'
HO
H
1'
H
2'-Desoxyribose
(Base + Zucker)
O
N
H
Nukleosid
Nukleotidbasen
C
H
CH
HN
CH
C
O
Uracil (U)
C
N
H
CH
CH
Ein Nukleosid ist die
Verbindung eines
Zuckerrestes (Ribose oder
Desoxyribose) und einer
Nukleotidbase. Die
Verbindung erfolgt zwischen
dem C-Atom in Position 1
des Zuckers und einem NAtom der Base (N-glykosidische Bindung).
Pyrimidine
3
Nukleotid
(Base + Zucker + Phosphat)
Ein Nukleotid ist die
Verbindung eines
Zuckerrestes (Ribose
oder Desoxyribose) mit
einer Nukleotidbase
(Pyrimidin- oder PurinBase) mit einer
Phosphatgruppe
Nukleotid-Kette
Da in einer Nukleotidkette die
Hydroxy-Gruppe an der
Position 5' des Zuckerrestes
des einen Nukleotids über eine
Phosphordiesterbrücke mit der
Hydroxy-Gruppe des nächsten
Zuckerrestes in Position 3'
verbunden ist, besitzt die
Nukleotidkette eine Polarität.
Nach Konvention wird die
Sequenz von Nukleotidbasen
in der Richtung von 5' nach 3'
angegeben.
DNA
Die Sequenz der
Nukleotidbasen des
einen Stranges der
DNA entspricht
komplementär der
Basensequenz des
anderen Stranges in 3'
nach 5' Richtung.
Nukleotid-Kette
Eine Nukleotidkette entsteht
durch Verbindung der
Hydroxy-Gruppe eines
Zuckers über eine Phosphatverbindung mit dem nächsten
Zuckerrest. Die über die
Phosphat-Gruppen miteinander verbundenen Zuckerreste bilden den invariablen
Teil der Kette. Variabel ist
die Sequenz der Nukleotidbasen A, T oder U, C und G.
DNA
DNA ist ein Doppelstrang
zweier Ketten von
Nukleotiden mit Desoxyribose als Zucker. Dabei
liegen sich immer zwei
Nukleotidbasen gegenüber
und zwar ist stets ein Purin
(Adenin oder Guanin) mit
einem Pyrimidin (Thymin
oder Cytosin) gepaart.
DNA
James D. Watson und
Francis H. Crick
erkannten 1953, dass
DNA aus einer Doppelhelix bestehen muss.
Diese Struktur erklärt die
beiden wichtigen
funktionellen Aspekte Replikation und genetische
Informationsübertragung.
4
RNA
RNA ist ebenfalls eine Kette von
Nukleotiden. Es bestehen folgende
Unterschiede zur DNA:
– Ribose statt Desoxyribose als Zucker
– Uracil (U) statt Thymidin (T) als Base
– RNA ist ein einfacher Strang
Replikation
Da die sich in der
Doppelhelix
gegenüber liegenden
Nukleotidketten strikt
komplementär sind,
kann nach Öffnung
jede als Vorlage
(Templat) für die
Bildung (Replikation)
einer neuen dienen.
Genetischer Code
Genetische Information
Nukleotidbase
• Die genetische Information besteht in der Abfolge
von Nukleotidbasen. Die Sequenz von jeweils drei
Basen bedeutet ein Codewort (Codon) für eine
Aminosäure.
• Die Folge von Codons ergibt die
Aminosäuresequenz eines Polypeptides.
• Ein Gen kann als Abschnitt in der DNA definiert
werden, der für die Bildung eines Polypeptides
verantwortlich ist. Ein oder mehrere Polypeptide
bilden ein Protein.
Genetische
Informationsübertragung
• Die Abfolge der
Basenpaare in der DNA
wird zunächst in ein die
Information übertragendes
Botenmolekül aus RNA
(Messenger-RNA,
mRNA) übertragen
(Transkription).
• Dieses dient anschließend
als Vorlage für die
Produktion des
Polypeptids (Translation).
Uracil
(U)
Cytosin
(C)
Adenin
(A)
Guanin
(G)
Dritte
Zweite
Erste
Uracil (U)
Cytosin (C)
Adenin (A)
Guanin (G)
F Phenylalanin (Phe)
S Serin (Ser)
Y Tyrosin (Tyr)
C Cystein (Cys)
F Phenylalanin (Phe)
S Serin (Ser)
Y Tyrosin (Tyr)
C Cystein (Cys)
C
L Leucin (Leu)
S Serin (Ser)
Stop-Codon
Stop-Codon
A
L Leucin (Leu)
S Serin (Ser)
Stop-Codon
W Tryptophan (Trp)
G
L Leucin (Leu)
P Prolin (Pro)
H Histidin (His)
R Arginin (Arg)
L Leucin (Leu)
P Prolin (Pro)
H Histidin (His)
R Arginin (Arg)
L Leucin (Leu)
P Prolin (Pro)
Q Glutamin (Gln)
R Arginin (Arg)
A
L Leucin (Leu)
P Prolin (Pro)
Q Glutamin (Gln)
R Arginin (Arg)
G
I Isoleucin (Ile)
T Threonin (Thr)
N Asparagin (Asn)
S Serin (Ser)
U
I Isoleucin (Ile)
T Threonin (Thr)
N Asparagin (Asn)
S Serin (Ser)
C
I Isoleucin (Ile)
Start (Methionin)
T Threonin (Thr)
K Lysin (Lys)
R Arginin (Arg)
A
T Threonin (Thr)
K Lysin (Lys)
R Arginin (Arg)
G
V Valin (Val)
A Alanin (Ala)
D Asparaginsäure (Asp)
G Glycin (Gly)
U
V Valin (Val)
A Alanin (Ala)
D Asparaginsäure (Asp)
G Glycin (Gly)
C
V Valin (Val)
A Alanin (Ala)
E Glutminsäure (Glu)
G Glycin (Gly)
A
V Valin (Val)
A Alanin (Ala)
E Glutminsäure (Glu)
G Glycin (Gly)
G
U
U
C
Transkription
Die Codierung für ein Polypeptid ist immer nur in einem
Strang festgelegt (Sinnstrang, coding strand). Als Vorlage
für die Transkription in mRNA dient die komplementäre
Sequenz des Gegenstranges (template strand). Dieser wird
in 3´- nach 5´-Richtung gelesen. Die RNA-Synthese
erfolgt in 5´- nach 3´-Richtung.
5
Translation
Genexpression bei Eukaryonten
Die Translation erfolgt in den Ribosomen unter
Zwischenschaltung einer weiteren Klasse von RNA, der
Transfer-RNA (tRNA). Für jede Aminosäure gibt es eine
eigene tRNA mit einem Bereich, der komplementär zum
Codon der mRNA ist (Anticodon).
DNA
primäres
RNATranskript
Transkription
RNA-Processing
reife mRNA
Aminosäurekette
Transport ins Cytoplasma
mRNA
Translation
Ribosom
RNA-Prozessierung
DNA
Intron 1
Intron 2
Exon 2
Exon 1
Exon 3
Primäres Transkript
mRNA
Promotorsequenzen
'
Gen(e)
35-Region
Pribnow-Box
(' 10-Region)
• Die Region eines Gens auf der DNA, die die
Erkennungssignale für den Start der Transkription
beinhalten, bezeichnet man als Promotor.
• Eine dissoziierbare Untereinheit der RNAPolymerase, der sogenannte Sigma-Faktor, sorgt
dafür, dass die RNA-Polymerase die
Promotorregionen erkennt und an sie binden kann.
• Damit eine Transkription erfolgen kann, müssen
bestimmte Bedingungen im Promotorbereich
erfüllt sein.
Leseraster
Initiationsstelle
ACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGG
lac1
CCATCGAATGGCGCAAAACCTTTCGCGGTATGGCATGATAGCGCCCGGAAGAGAGTC
gal P2
ATTTATTCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCAT
araB,A,D GGATCCTACCTGACGCTTTTTATCGCAACTCTCTACTGTTTCTCCATACCCGTTTTT
araC
GCCGTGATTATAGACACTTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTG
trp
AAATGAGCTGTTGACAATTAATCATCGAACTAGTTAACTAGTACGCAAGTTCACGTA
bioA
TTCCAAAACGTGTTTTTTGTTGTTAATTCGGTGTAGACTTGTAAACCTAAATCTTTT
bioB
CATAATCGACTTGTAAACCAAATTGAAAAGATTTAGGTTTACAAGTCTACACCGAAT
tRNATyr
CAACGTAACACTTTACAGCGGCGCGTCATTTGATATGATGCGCCCCGCTTCCCGATA
rrn D1
CAAAAAAATACTTGTGCAAAAAATTGGGATCCCTATAATGCGCCTCCGTTGAGACGA
rrn E1
CAATTTTTCTATTGCGGCCTGCGGAGAACTCCCTATAATGCGCCTCCATCGACACGG
rrn A2
AAAATAAATGCTTGACTCTGTAGCGGGAAGGCGTATTATGCACACCCCGCGCCGCTG
lac
Konsensussequenz:
Initiation der Transkription
TGTTGACA----- 11-15 bp-----TATAAT--- 5-8 bp--- Initiationsstelle
TAATCGAATGGGC
TAA TCG AAT GGG C
T AAT CGA ATG GGC
TA ATC GAA TGG GC
6
Sequenzvergleiche
Typische Fragestellungen
• Der Vergleich verschiedener Basen- oder
Aminosäurensequenzen ist eine elementare
Aufgabe der Bioinformatik.
• Wozu werden solche Sequenzvergleiche
durchgeführt?
• Welche Algorithmen benutzt man hierfür?
1. Wir haben zwei Sequenzen über dem gleichen
Alphabet, beide von etwa der gleichen Länge
(Tausende von Zeichen). Wir wissen, dass die
Sequenzen im wesentlichen gleich sind und nur
an wenigen isolierten Stellen Differenzen durch
Insertion oder Deletion oder Substitution von
Zeichen auftreten. Wir wünschen die Stellen, an
denen diese Differenzen auftreten, zu finden.
=> Suche nach Polymorphismen,
Mutationssuche
Typische Fragestellungen
Typische Fragestellungen
2. Wir haben zwei Sequenzen über dem
gleichen Alphabet von einigen 100
Zeichen Länge. Wir wollen wissen, ob die
eine Sequenz eine Präfixsequenz hat, die
Suffixsequenz der anderen Sequenz ist.
Wenn die Antwort ja ist, so soll diese
Überlappungssequenz angegeben werden.
=> Fragmentmontage beim Sequenzieren
3. Wir haben zwei Sequenzen über dem gleichen
Alphabet von einigen 100 Zeichen Länge. Gibt
es Substrings in den beiden Sequenzen, die
einander gleich sind oder wenigstens einander
sehr ähnlich sind?
=> Identifikation von Bindungsstellen in
Promotorbereichen oder von Bindungsdomänen bei Proteinen
Typische Fragestellungen
Sequenzvergleich
4. Wir haben viele Sequenzen über dem
gleichen Alphabet von einigen 100
Zeichen Länge. Gibt es Substrings in
diesen Sequenzen, die einander gleich
sind oder wenigstens einander sehr
ähnlich sind?
=> Suche nach evolutionär konservierten
Sequenzen
Aus informatischer Sicht handelt es sich um den
Vergleich von Strings über einem bestimmten
Alphabet von Zeichen
- Vergleich von Nukleotidsequenzen:
Alphabet bestehend aus den 4 Zeichen
für die 4 Nukleotidbasen
- Vergleich von Aminosäuresequenzen:
Alphabet bestehend aus den 20 Zeichen
für die 20 Aminosäuren
7
Ähnlichkeit und Alignment
• Ähnlichkeit von zwei Sequenzen ist ein
Maß dafür, wie gut die Übereinstimmung
dieser Sequenzen ist.
• Ein Alignment ist die Anordnung einer
Sequenz über einer anderen, um die
Korrespondenz zwischen ähnlichen Zeichen
oder Substrings zu erkennen.
Beispiel globales Alignment
s: GATCGGAATAG
t: GACGGATTAG
s’:GATCGGAATAG
t’:GA-CGGATTAG
Score: +1 match
-1 mismatch
-2 gap
sim(s,t) = 9∗(+1) + 1∗ (-1) + 1∗ (-2) = 6
Globales Alignment zweier
Sequenzen
1. Einfügen von Leerstellen (gaps), so dass beide
Sequenzen danach gleiche Länge haben und
möglichst gut übereinstimmen.
2. Übereinanderlegen der durch Leerstellen
erweiterten Sequenzen, so dass eine
Korrespondenz zwischen den Zeichen und
Leerstellen der einen Sequenz und den Zeichen
und Leerstellen der anderen Sequenz entsteht.
Alignment zweier Sequenzen
Ähnlichkeit zweier Sequenzen:
1. Spaltenweiser Score = g falls Alignment Zeichen-gap
p(i,j) falls Alignment s[i] mit t[j]
2.
Totaler Score =
∑ Spaltenweiser Score
Spalten
Optimales Alignment zweier Sequenzen:
Alignment so, dass totaler Score maximal möglichen
Wert annimmt!
Globales Alignment zweier
Sequenzen
3. Es wird zusätzlich vereinbart, dass keine
Leerstelle in der einen Sequenz mit einer
Leerstelle in der anderen Sequenz
korrespondieren darf.
4. Leerstellen dürfen sowohl am Anfang als auch
am Ende einer Sequenz eingefügt werden.
Zahl der Alignments
Zwischen zwei Sequenzen der Länge n sind
 2n  (2n )! 2 2 n
~
 =
2
πn
 n  (n!)
globale Alignments möglich.
Systematisches Aufzählen ist also nicht
vertretbar.
8
Dynamische Programmierung
(Needleman – Wunsch – Algorithmus)
Schrittweise Erzeugung des Alignments:
Welche Möglichkeiten gibt es, ein Alignment des
Präfixes s[1..i-1] der Sequenz s bis zum Zeichen
i-1 mit dem Präfix t[1..j-1] von t bis zum Zeichen
j-1 fortzusetzen?
i-1,j-1
1. Ordne dem t[j] eine Lücke zu.
2. Ordne dem s[i] das t[j] zu.
3. Ordne dem s[i] eine Lücke zu.
Weitere Möglichkeiten gibt es nicht, da
eine Zuordnung von zwei Lücken
ausgeschlossen wurde.
i-1,j-1
i-1,j
2.
i,j-1
Needleman – Wunsch - Algorithmus
1.
3.
2.
i,j
1. Align s[1..i] mit t[1..j-1] und match ein gap mit t[j]
2. Align s[1..i-1] mit t[1..j-1] und match s[i] mit t[j]
3. Align s[1..i-1] mit t[1..j] und match t[j] mit einem gap
i-1,j
i,j-1
1.
3.
i,j
 sim( s[1.. i ], t[1.. j − 1]) − g

sim( s[1.. i ], t[1.. j ]) = max  sim( s[1.. i − 1], t[1.. j − 1]) + p(i , j )
 sim( s[1.. i − 1], t[1.. j ]) − g

t
Beispiel:
0
A
G
C
1
2
3
0
• Globales Alignment von s = AAAC mit t = AGC
• Ähnlichkeitsscore:
g = -2
p(i,j) = +1 , falls s[i] = t[j]
p(i,j) = -1 , falls s[i] ≠ t[j]
A
1
A
2
A
3
C
4
s
9
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
A
2
-4
A
G
0
1
2
3
0
0
-2
-4
-6
A
1
-2
A
2
-4
+1
s
C
-2
-2
s
A
3
-6
A
3
-6
C
4
-8
C
4
-8
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
A
2
-4
A
G
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
A
2
-4
-1
s
C
-2
-2
s
A
3
-6
A
3
-6
C
4
-8
C
4
-8
t
A
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
1
-2
1
-1
A
A
G
0
1
2
3
0
0
-2
-4
-6
1
-2
1
-1
+1
A
2
-4
s
A
2
-4
C
-2
-2
s
A
3
-6
A
3
-6
C
4
-8
C
4
-8
10
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
A
2
-4
-1
s
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
3
-6
A
3
-6
-3
-2
-1
C
4
-8
C
4
-8
-5
-4
-1
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
3
-6
-3
-2
-1
A
3
-6
-3
-2
-1
C
4
-8
-1
-4
-1
C
4
-8
-1
-4
-1
s:
C
s:
AC
t:
C
t:
-C
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
3
-6
-3
-2
-1
A
3
-6
-3
-2
-1
C
4
-8
-1
-4
-1
C
4
-8
-1
-4
-1
s:
AAC
s: A A A C
t:
G -C
t: A G - C
11
Rekursiver Algorithmus zur Bestimmung des Alignments
Needleman – Wunsch - Algorithmus
Algorithm Similarity
input: sequences s and t
output: similarity between s and t
m:=|s|
n:=|t|
for i:=0 to m do a[i,0]:=i*g
for j:=0 to n do a[0,j]:=j*g
for i:=0 to m do
for j:=0 to n do a[i,j]:= max(a[i,j-1]+g,
a[i-1,j-1]+p(i,j),
a[i-1,j]+g)
return a[m,n]
Algorithm Align
input: indices i,j, parameter len, Array a given by Similarity
output: alignment in align_s,align_t, and length in len
if i=0 and j=0 then
len:=0
else if i>0 and a[i,j]=a[i-1,j]+g then
Align(i-1,j,len)
len:=len+1
align_s[len]:=s[i]
align_t[len]:= else if i>0 and j>0 and a[i,j]=a[i-1,j-1]+g then
Align(i-1,j-1,len)
len:=len+1
align_s[len]:=s[i]
align_t[len]:=t[j]
else //has to be j>0 and a[i,j]=a[i,j-1]+g
Align(i,j-1,len)
len:=len+1
align_s[len]:= align_t[len]:=t[j]
align_s und align_t sind global zu Align
max( |s|, |t|) ≤ len ≤ m + n
Vergleich von Proteinsequenzen
BLOSUM50 Substitutionsmatrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
R
N
D
C
Q
E
G
H
I
L
K M
F
P
S
T W
Y
V
5
-2
-1
-2
-1
-1
-1
0
-2
-1
-2
-1
-1
-3
-1
1
0
-3
-2
0
-2
7
-1
-2
-4
1
0
-3
0
-4
-3
3
-2
-3
-3
-1
-1
-3
-1
-3
-1
-1
7
2
-2
0
0
0
1
-3
-4
0
-2
-4
-2
1
0
-4
-2
-3
-2
-2
2
8
-4
0
2
-1
-1
-4
-4
-1
-4
-5
-1
0
-1
-5
-3
-4
-1
-4
-2
-4
13
-3
-3
-3
-3
-2
-2
-3
-2
-2
-4
-1
-1
-5
-3
-1
-1
1
0
0
-3
7
2
-2
1
-3
-2
2
0
-4
-1
0
-1
-1
-1
-3
-1
0
0
2
-3
2
6
-3
0
-4
-3
1
-2
-3
-1
-1
-1
-3
-2
-3
0
-3
0
-1
-3
-2
-3
8
-2
-4
-4
-2
-3
-4
-2
0
-2
-3
-3
-4
-2
0
1
-1
-3
1
0
-2
10
-4
-3
0
-1
-1
-2
-1
-2
-3
2
-4
-1
-4
-3
-4
-2
-3
-4
-4
-4
5
2
-3
2
0
-3
-3
-1
-3
-1
4
-2
-3
-4
-4
-2
-2
-3
-4
-3
2
5
-3
3
1
-4
-3
-1
-2
-1
1
-1
3
0
-1
-3
2
1
-2
0
-3
-3
6
-2
-4
-1
0
-1
-3
-2
-3
-3
-3
-4
-5
-2
-4
-3
-4
-1
0
1
-4
0
8
-4
-3
-2
1
4
-1
-1
-3
-2
-1
-4
-1
-1
-2
-2
-3
-4
-1
-3
-4
10
-1
-1
-4
-3
-3
1
-1
1
0
-1
0
-1
0
-1
-3
-3
0
-2
-3
-1
5
2
-4
-2
-2
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
2
5
-3
-2
0
-2
-1
-2
-3
-3
-1
-2
-3
2
-1
-1
-2
0
4
-3
-2
-2
2
8
-1
0
-3
-3
-4
-1
-3
-3
-4
-4
4
1
-3
1
-1
-3
-2
0
-3
-1
5
-1
-2
-2
-4
-2
0
-2
-3
-1
2
3
-2
7
0
-3
-2
-1
-1
0
1
-3
-3
-4
-5
-5
-1
-3
-3
-3
-3
-2
-3
-1
1
-4
-4
-3
15
2
-3
Lokales Alignment von zwei Sequenzen
Suche nach Substrings, die mit hohem Score matchen.
Beispiel:
H E A G A W G H E E
P A W H E A E
Optimale lokale Übereinstimmung
G A W G H E E
P A W – H E A
Globales Alignment von Proteinsequenzen
0
H
E
A
G
A
W
G
H
E
E
-8
-16
-24
-32
-40
-48
-56
-64
-72
-80
P
-8
-2
-9
-17
-25
-33
-42
-49
-57
-65
-73
A
-16
-10
-3
-4
-12
-20
-28
-36
-44
-52
-60
W
-24
-18
-11
-6
-7
-15
-5
-13
-21
-29
-37
H
-32
-14
-18
-13
-8
-9
-13
-7
-3
-11
-19
E
-40
-22
-8
-16
-16
-9
-12
-15
-7
3
-5
A
-48
-30
-16
-3
-11
-11
-12
-12
-15
-5
2
E
-56
-38
-24
-11
-6
-12
-14
-15
-12
-9
1
H E A G AW G H E ! E
! ! P ! A W! H E A E
Multiples Alignment
Beispiel: Gesucht ist das optimale
Alignment folgender vier Sequenzen
M Q P I L L L
M L R L L
M K I L L L
M P P V L I L
Optimales Alignment
M Q P I L L L
M L R – L L –
M K – I L L L
M P P V L I L
Vergleich durch
sum-of-pairs Score.
Z.B. Score für die vierte Spalte
des obigen Alignments:
SP-Score(I,-,I,V) =
p(I,-) + p(I,I) + p(I,V) +
p(-,I) + p(-,V) + p(I,V)
12
Abbildungsnachweis
E.Passarge. Taschenatlas der Genetik. Stuttgart; New York: Thieme. 1994:
Folien 2, 17-24, 26, 29-31.
D.T.Suzuki, A.J.F.Griffiths, J.H.Miller, R.C.Lewontin. Genetik. Übersetzung herausgegeben
von S.Achten und P.Böhm. Weinheim: VCH, 1991:
Folien 8-10, 12-14, 32, 35.
J.Setubal and J.Meidanis. Introduction to computational molecular biology.
Boston: PWS Publishing Company, 1997:
Folien 11, 44, 53, 67, 68.
R.Durbin, S.Eddy, A.Krogh, G.Mitchison. Biological sequence analysis: Probalistic models
of proteins and nucleic acids. Cambridge University Press, 1998:
Folien 69, 70.
13
Herunterladen