Molekulare Systeme 1 - Institut für Medizinische Informatik, Statistik

Werbung
Zelluläre Substanzen
Molekulare Systeme 1
Dr. Jochen Forberg
Institut für Medizinische Informatik,
Statistik und Epidemiologie
Wasser
Kleine Ionen (Na+, K+, OH–, usw.)
Stoffwechselmoleküle (Kohlehydrate,
Lipide, Nucleotide, usw.)
Proteine
Nukleinsäuren (RNA, DNA)
Beschreibungsebenen
Biologischer Systeme
Proteine
Population
Individuum
Organ / Zellverband
Zelle
Molekül
• Ein Protein ist eine Kette einfacherer Moleküle
und zwar von Aminosäuren.
• In einem Protein sind die Aminosäuren durch
Peptidbindungen aneinander gekettet. Aus diesem
Grund heißen sie auch Polypeptidketten oder kurz
Polypeptide.
• Größe: kleinste weniger als 100 Aminosäuren
typisch ca. 300 Aminosäuren
größte mehr als 5000 Aminosäuren
Zellen
Aminosäuren
• Prokaryonte Zellen haben
keinen separaten Zellkern
(Bakterien, BlaugrünAlgen)
• Eukaryonte Zellen haben
einen durch eine Membran
vom Zytoplasma abgegrenzten Zellkern (echte
Algen, Pilze, Protozoen,
usw.)
Jede Aminosäure hat ein zentrales Kohlenstoffatom Cα .
An das Cα – Atom ist ein
Wasserstoffatom H, eine
Aminogruppe NH2 , eine
Carboxylgruppe COOH und
eine Seitenkette gebunden.
Die verschiedenen Aminosäuren unterscheiden sich in
dieser Seitenkette.
Seitenkette
H2N
C∀
COOH
H
1
Beispiele für Aminosäuren
Tryptophansynthetase A aus E. coli
10
20
Met-Glu-Arg-Tyr-Glu-Ser-Leu-Phe-Ala-Gln-Leu-Lys-Glu-Arg-Lys-Glu-Gly-Ala-Phe-Val40
30
Pro-Phe-Val-Thr-Leu-Gly-Asp-Pro-Gly- Ile -Glu-Gln-Ser-Leu-Lys-Ile - Ile -Asp-Thr-Leu-
CH3
HO
50
60
Ile - Glu-Ala-Gly-Ala-Asp-Ala-Leu-Glu-Leu-Gly- Ile -Pro-Phe-Ser-Asp-Pro-Leu-Ala-Asp70
CH3
80
Gly-Pro-Thr-Ile -Gln-Asn-Ala-Thr-Leu-Arg-Ala-Phe-Ala- Ala- Gly-Val -Thr-Pro-Ala-Gln-
CH
90
100
Cys-Phe-Glu-Met-Leu-Ala-Leu-Ile-Arg-Gln-Lys-His-Pro-Thr- Ile -Pro- Ile -Gly-Leu-Leu110
120
Met-Tyr-Ala-Asn-Leu-Val-Phe-Asn-Lys-Gly-Ile-Asp-Glu-Phe-Tyr-Ala-Gln-Cys-Glu-Lys-
H2N
C∀
H2N
COOH
130
COOH
C∀
140
Val-Gly-Val -Asp-Ser-Val-Leu-Val -Ala-Asp-Val-Pro-Val-Gln-Glu-Ser-Ala-Pro-Phe-Arg150
160
Gln-Ala-Ala-Leu-Arg -His-Asn-Val-Ala-Pro -Ile-Phe -Ile-Cys-Pro-Pro-Asn-Ala-Asp-Asp170
180
Asp-Leu-Leu-Arg-Gln-Ile-Ala-Ser-Tyr -Gly-Arg-Gly -Tyr-Tyr-Tyr-Leu-Leu-Ser-Arg -Ala-
H
H
Alanin
Threonin
190
200
Gly -Val-Thr-Gly-Ala-Glu-Asn-Arg-Ala -Ala-Leu-Pro-Leu-Asn-His-Leu-Val-Ala-Lys-Leu210
220
Lys-Glu-Tyr-Asn-Ala-Ala-Pro-Pro-Leu-Gln-Gly-Phe-Gly -Ile -Ser-Ala-Pro-Asp-Gln-Val230
240
Lys-Ala-Ala -Ile -Asp-Ala-Gly-Ala -Ala-Gly-Ala - Ile -Ser-Gly-Ser-Ala- Ile -Val -Lys- Ile250
260
Ile -Glu-Gln-His-Asn- Ile -Glu-Pro-Glu-Lys-Met-Leu-Ala-Ala-Leu-Lys-Val-Phe-Val-Gln268
Pro-Met-Lys-Ala-Ala-Thr-Arg-Ser
Tabelle der 20 natürlichen Aminosäuren
A
C
D
E
F
G
H
I
K
L
Ala
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Alanin
Cystein
Asparaginsäure
Glutaminsäure
Phenylalanin
Glycin
Histidin
Isoleucin
Lysin
Leucin
M
N
P
Q
R
S
T
V
W
Y
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
Methionin
Asparagin
Prolin
Glutamin
Arginin
Serin
Threonin
Valin
Tryptophan
Tyrosin
H
N
C
C
H
O
H
OH + H
H
R1
N
C
C
H
O
N
C
C
H
O
H
R2
N
C
C
H
O
Peptidbindung
S
A- Kette
S
Gly-Ile-Val-Glu-Gln-Cys-Cys-Ala-Ser-Val-Cys-Ser-Leu-Tyr-Gln-Leu-Glu-Asn-Tyr-Cys-Asn
5
10
15
21
S
S
S
S
B- Kette
Phe-Val-Asn-Gln-His-Leu-Cys-Gly-Ser-His-Leu-Val-Glu-Ala-Leu-Tyr-Leu-Val-Cys-Gly-Glu5
10
15
20
Arg-Gly-Phe-Phe-Tyr-Thr-Pro-Lys-Ala
25
30
Struktur von Proteinen
Peptidbindung
As1
As2
ℜ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊗ ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
℘ ℜ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊗ ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
℘
H R2
H R1
Rinderinsulin
Primär-, Sekundär-, Tertiär- und Quartärstruktur
As3
ℜ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊗ ⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
⊕
℘
H R3
OH + H
H
R3
N
C
C
H
O
N
C
C
H
O
OH
OH + 2(H2O)
Peptidbindung
2
Struktur von Proteinen
Sichelzellanämie
Treibende Kräfte der Proteinfaltung:
• Hydrophobe Wechselwirkungen
• Elektrostatische Wechselwirkungen
• Wasserstoffbrücken
• Van-der-Waals-Wechselwirkungen
• Kovalente Bindungen (z.B. Disulfidbrücken)
Enzyme
Proteinfunktionen
• Enzyme wirken als biologische Katalysatoren
• Regulation der Aktivität anderer Makromoleküle
• Speichern bestimmter Ionen, von
Stoffwechselprodukten und kleinen Molekülen
• Transport anderer Moleküle
• Übertragung biologischer und zellulärer Signale
• Beteiligung an Immunantwort (Immunglobuline)
• Strukturproteine erzeugen die mechanische
Stabilität der Zellen
Sichelzellhämoglobin
Nukleinsäuren
Ähnlich den Proteinen sind die Aminosäuren
Ketten aus einfacheren Molekülen. Diese
Bausteine heißen Nukleotide und bestehen aus
Phosphaten, Zucker und Pyrimidin- oder PurinBasen.
Lebende Organismen enthalten zwei Arten von
Nukleinsäuren: Ribonukleinsäure (RNA) mit
Ribose als Zuckerrest und Desoxyribonukleinsäure (DNA) mit Desoxyribose als Zuckerrest.
3
Nukleotid
Ribose und Desoxyribose
H
(Base + Zucker + Phosphat)
H
HO 5' H
OH
O
4'
H
H
H
3'
2'
HO
OH
HO 5' H
OH
O
1'
4'
H
H
Ribose
H
1'
H
3'
2'
HO
H
H
2'-Desoxyribose
Nukleotidbasen
NH2
N
H
C
C
N
C
N
HN
CH
N
O
H
Adenin (A)
HN
H2N
C
N
C
C
N
CH3
C
CH
H
Thymin (T)
O
C
Nukleotid-Kette
O
C
O
NH2
C
C
Ein Nukleotid ist die
Verbindung eines
Zuckerrestes (Ribose
oder Desoxyribose) mit
einer Nukleotidbase
(Pyrimidin- oder PurinBase) mit einer
Phosphatgruppe
N
N
CH
N
O
H
Guanin (G)
C
C
N
H
Cytosin (C)
Purine
CH
HN
CH
C
O
Uracil (U)
C
N
H
CH
CH
Eine Nukleotidkette entsteht
durch Verbindung der
Hydroxy-Gruppe eines
Zuckers über eine Phosphatverbindung mit dem nächsten
Zuckerrest. Die über die
Phosphat-Gruppen miteinander verbundenen Zuckerreste bilden den invariablen
Teil der Kette. Variabel ist
die Sequenz der Nukleotidbasen A, T oder U, C und G.
Pyrimidine
Nukleosid
(Base + Zucker)
Ein Nukleosid ist die
Verbindung eines
Zuckerrestes (Ribose oder
Desoxyribose) und einer
Nukleotidbase. Die
Verbindung erfolgt zwischen
dem C-Atom in Position 1
des Zuckers und einem NAtom der Base (Nglykosidische Bindung).
Nukleotid-Kette
Da in einer Nukleotidkette die
Hydroxy-Gruppe an der
Position 5' des Zuckerrestes
des einen Nukleotids über eine
Phosphordiesterbrücke mit der
Hydroxy-Gruppe des nächsten
Zuckerrestes in Position 3'
verbunden ist, besitzt die
Nukleotidkette eine Polarität.
Nach Konvention wird die
Sequenz von Nukleotidbasen
in der Richtung 5' → 3'
angegeben.
4
DNA
DNA ist ein Doppelstrang
zweier Ketten von
Nukleotiden mit Desoxyribose als Zucker. Dabei
liegen sich immer zwei
Nukleotidbasen gegenüber
und zwar ist stets ein Purin
(Adenin oder Guanin) mit
einem Pyrimidin (Thymin
oder Cytosin) gepaart.
DNA
Die Sequenz der
Nukleotidbasen des
einen Stranges der
DNA entspricht
komplementär der
Basensequenz des
anderen Stranges in 3'
nach 5' Richtung.
DNA
James D. Watson und
Francis H. Crick
erkannten 1953, dass
DNA aus einer Doppelhelix bestehen muss.
Diese Struktur erklärt die
beiden wichtigen
funktionellen Aspekte Replikation und genetische
Informationsübertragung.
RNA
RNA ist ebenfalls eine Kette von
Nukleotiden. Es bestehen folgende
Unterschiede zur DNA:
– Ribose statt Desoxyribose als Zucker
– Uracil (U) statt Thymidin (T) als Base
– RNA ist ein einfacher Strang
Replikation
Da die sich in der
Doppelhelix
gegenüber liegenden
Nukleotidketten strikt
komplementär sind,
kann nach Öffnung
jede als Vorlage
(Templat) für die
Bildung (Replikation)
einer neuen dienen.
Genetische Information
• Die genetische Information ist verschlüsselt in der
Abfolge von Nukleotidbasen. Die Sequenz von
jeweils drei Basen bedeutet ein Codewort (Codon)
für eine Aminosäure.
• Die Folge von Codons ergibt die Aminosäuresequenz eines Polypeptides.
• Ein Gen kann als Abschnitt in der DNA definiert
werden, der für die Bildung eines Polypeptides
verantwortlich ist. Ein oder mehrere Polypeptide
bilden ein Protein.
5
Genetischer Code
Transkription
Nukleotidbase
Dritte
Zweite
Erste
Uracil (U)
Cytosin (C)
Adenin (A)
Guanin (G)
F Phenylalanin (Phe)
S Serin (Ser)
Y Tyrosin (Tyr)
C Cystein (Cys)
U
Uracil
(U)
F Phenylalanin (Phe)
S Serin (Ser)
Y Tyrosin (Tyr)
C Cystein (Cys)
C
L Leucin (Leu)
S Serin (Ser)
Stop-Codon
Stop-Codon
A
Cytosin
(C)
Adenin
(A)
Guanin
(G)
L Leucin (Leu)
S Serin (Ser)
Stop-Codon
W Tryptophan (Trp)
G
L Leucin (Leu)
P Prolin (Pro)
H Histidin (His)
R Arginin (Arg)
U
L Leucin (Leu)
P Prolin (Pro)
H Histidin (His)
R Arginin (Arg)
C
L Leucin (Leu)
P Prolin (Pro)
Q Glutamin (Gln)
R Arginin (Arg)
A
L Leucin (Leu)
P Prolin (Pro)
Q Glutamin (Gln)
R Arginin (Arg)
G
I Isoleucin (Ile)
T Threonin (Thr)
N Asparagin (Asn)
S Serin (Ser)
U
I Isoleucin (Ile)
T Threonin (Thr)
N Asparagin (Asn)
S Serin (Ser)
C
I Isoleucin (Ile)
T Threonin (Thr)
K Lysin (Lys)
R Arginin (Arg)
A
Start (Methionin)
T Threonin (Thr)
K Lysin (Lys)
R Arginin (Arg)
G
V Valin (Val)
A Alanin (Ala)
D Asparaginsäure (Asp)
G Glycin (Gly)
U
V Valin (Val)
A Alanin (Ala)
D Asparaginsäure (Asp)
G Glycin (Gly)
C
V Valin (Val)
A Alanin (Ala)
E Glutminsäure (Glu)
G Glycin (Gly)
A
V Valin (Val)
A Alanin (Ala)
E Glutminsäure (Glu)
G Glycin (Gly)
G
Genetische
Informationsübertragung
• Die Abfolge der
Basenpaare in der DNA
wird zunächst in ein die
Information übertragendes
Botenmolekül aus RNA
(Messenger-RNA,
mRNA) übertragen
(Transkription).
• Dieses dient anschließend
als Vorlage für die
Produktion des
Polypeptids (Translation).
Transkription
5'
[ wie mRNA (T Ψ U) ]
antisens or coding strand
3' sens, anticoding or template strand
[ wird transkripiert ]
3'
5'
Leserichtung
Promotor
Codierender Bereich
Gen
Translation
Die Translation erfolgt in den Ribosomen unter
Zwischenschaltung einer weiteren Klasse von RNA, der
Transfer-RNA (tRNA). Für jede Aminosäure gibt es eine
eigene tRNA mit einem Bereich, der komplementär zum
Codon der mRNA ist (Anticodon).
Genexpression bei Eukaryonten
Die Codierung für ein Polypeptid ist immer nur in einem
Strang festgelegt (Sinnstrang, coding strand). Als Vorlage
für die Transkription in mRNA dient die komplementäre
Sequenz des Gegenstranges (template strand). Dieser wird
in 3´- nach 5´-Richtung gelesen. Die RNA-Synthese
erfolgt in 5´- nach 3´-Richtung.
DNA
primäres
RNATranskript
Transkription
RNA-Processing
reife mRNA
Aminosäurekette
Transport ins Cytoplasma
mRNA
Translation
Ribosom
6
RNA-Prozessierung
Leseraster
DNA
Intron 1
Intron 2
TAATCGAATGGGC
Exon 2
Exon 1
Exon 3
TAA TCG AAT GGG C
T AAT CGA ATG GGC
TA ATC GAA TGG GC
Primäres Transkript
mRNA
Initiation der Transkription
• Die Region eines Gens auf der DNA, die die
Erkennungssignale für den Start der Transkription
beinhalten, bezeichnet man als Promotor.
• Eine dissoziierbare Untereinheit der RNAPolymerase, der sogenannte Sigma-Faktor, sorgt
dafür, dass die RNA-Polymerase die
Promotorregionen erkennt und an sie binden kann.
• Damit eine Transkription erfolgen kann, müssen
bestimmte Bedingungen im Promotorbereich
erfüllt sein.
Promotorsequenzen
∋ 35-Region
Gen(e)
Pribnow-Box
(∋ 10-Region)
Initiationsstelle
lac
ACCCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGG
lac1
CCATCGAATGGCGCAAAACCTTTCGCGGTATGGCATGATAGCGCCCGGAAGAGAGTC
gal P2
ATTTATTCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCAT
araB,A,D GGATCCTACCTGACGCTTTTTATCGCAACTCTCTACTGTTTCTCCATACCCGTTTTT
araC
GCCGTGATTATAGACACTTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTG
trp
AAATGAGCTGTTGACAATTAATCATCGAACTAGTTAACTAGTACGCAAGTTCACGTA
bioA
TTCCAAAACGTGTTTTTTGTTGTTAATTCGGTGTAGACTTGTAAACCTAAATCTTTT
bioB
CATAATCGACTTGTAAACCAAATTGAAAAGATTTAGGTTTACAAGTCTACACCGAAT
tRNATyr
CAACGTAACACTTTACAGCGGCGCGTCATTTGATATGATGCGCCCCGCTTCCCGATA
rrn D1
CAAAAAAATACTTGTGCAAAAAATTGGGATCCCTATAATGCGCCTCCGTTGAGACGA
rrn E1
CAATTTTTCTATTGCGGCCTGCGGAGAACTCCCTATAATGCGCCTCCATCGACACGG
rrn A2
AAAATAAATGCTTGACTCTGTAGCGGGAAGGCGTATTATGCACACCCCGCGCCGCTG
Konsensussequenz:
TGTTGACA----- 11-15 bp-----TATAAT--- 5-8 bp--- Initiationsstelle
Sequenzvergleiche
• Der Vergleich verschiedener Basen- oder
Aminosäurensequenzen ist eine der
elementaren Aufgaben der Bioinformatik.
• Wozu werden solche Sequenzvergleiche
durchgeführt?
• Warum braucht man dazu Computer?
• Welche Algorithmen benutzt man hierfür?
Typische Fragestellungen
1. Wir haben zwei Sequenzen über dem gleichen
Alphabet, beide von etwa der gleichen Länge
(Tausende von Zeichen). Wir wissen, dass die
Sequenzen im wesentlichen gleich sind und nur
an wenigen isolierten Stellen Differenzen durch
Insertion oder Deletion oder Substitution von
Zeichen auftreten. Wir wünschen die Stellen, an
denen diese Differenzen auftreten, zu finden.
⇒ Suche nach Polymorphismen,
Mutationssuche
7
Typische Fragestellungen
Sequenzvergleich
2. Wir haben zwei Sequenzen über dem gleichen
Alphabet von einigen 100 Zeichen Länge. Wir
wollen wissen, ob die eine Sequenz eine
Präfixsequenz hat, die Suffixsequenz der
anderen Sequenz ist. Wenn die Antwort ja ist, so
soll diese Überlappungssequenz angegeben
werden.
⇒ Fragmentmontage beim Sequenzieren
Aus informatischer Sicht handelt es sich um den
Vergleich von Strings über einem bestimmten
Alphabet von Zeichen
- Vergleich von Nukleotidsequenzen:
Alphabet bestehend aus den 4 Zeichen
für die 4 Nukleotidbasen
- Vergleich von Aminosäuresequenzen:
Alphabet bestehend aus den 20 Zeichen
für die 20 Aminosäuren
Typische Fragestellungen
Ähnlichkeit und Alignment
3. Wir haben zwei Sequenzen über dem gleichen
Alphabet von einigen 100 Zeichen Länge. Gibt
es Substrings in den beiden Sequenzen, die
einander gleich sind oder wenigstens einander
sehr ähnlich sind?
⇒ Identifikation von Bindungsstellen in
Promotorbereichen oder von Bindungsdomänen bei Proteinen
Typische Fragestellungen
4. Wir haben viele Sequenzen über dem gleichen
Alphabet von einigen 100 Zeichen Länge. Gibt
es Substrings in diesen Sequenzen, die einander
gleich sind oder wenigstens einander sehr
ähnlich sind?
⇒ Suche nach evolutionär konservierten
Sequenzen
• Ähnlichkeit von zwei Sequenzen ist ein Maß
dafür, wie sehr diese Sequenzen übereinstimmen.
• Ein Alignment ist die Anordnung einer Sequenz
über einer anderen, um die Korrespondenz
zwischen ähnlichen Zeichen oder Substrings zu
erkennen.
Beispiel globales Alignment
s: GATCGGAATAG
t: GACGGATTAG
s’:GATCGGAATAG
t’:GA-CGGATTAG
Score: +1 match
-1 mismatch
-2 gap
sim(s,t) = 9∗(+1) + 1∗ (-1) + 1∗ (-2) = 6
8
Alignment zweier Sequenzen
1. Einfügen von Leerstellen (gaps), so dass beide
Sequenzen danach gleiche Länge haben und
möglichst gut übereinstimmen.
2. Übereinanderlegen der durch Leerstellen
erweiterten Sequenzen, so dass eine
Korrespondenz zwischen den Zeichen und
Leerstellen der einen Sequenz und den Zeichen
und Leerstellen der anderen Sequenz entsteht.
Alignment zweier Sequenzen
3. Es wird zusätzlich vereinbart, dass keine
Leerstelle in der einen Sequenz mit einer
Leerstelle in der anderen Sequenz
korrespondieren darf.
4. Leerstellen dürfen sowohl am Anfang als auch
am Ende einer Sequenz eingefügt werden.
Alignment zweier Sequenzen
Ähnlichkeit zweier Sequenzen:
1. Spaltenweiser Score = g falls Alignment Zeichen-gap
p(i,j) falls Alignment s[i] mit t[j]
2.
Totaler Score =
Zahl der Alignments
Zwischen zwei Sequenzen der Länge n sind
⎛ 2n ⎞ ( 2n )! 2 2 n
~
⎜ ⎟=
2
πn
⎝ n ⎠ ( n!)
globale Alignments möglich.
Systematisches Aufzählen ist also nicht vertretbar.
Dynamische Programmierung
(Needleman – Wunsch – Algorithmus)
Schrittweise Erzeugung des Alignments:
Welche Möglichkeiten gibt es, ein Alignment des
Präfixes s[1..i-1] der Sequenz s bis zum Zeichen
i-1 mit dem Präfix t[1..j-1] von t bis zum Zeichen
j-1 fortzusetzen?
Needleman – Wunsch - Algorithmus
1. Ordne dem t[j] eine Lücke zu.
2. Ordne dem s[i] das t[j] zu.
3. Ordne dem s[i] eine Lücke zu.
∑ Spaltenweiser Score
Spalten
Optimales Alignment zweier Sequenzen:
Alignment so, dass totaler Score maximal möglichen
Wert annimmt!
Weitere Möglichkeiten gibt es nicht, da eine
Zuordnung von zwei Lücken ausgeschlossen
wurde.
9
t
i-1,j-1
A
G
C
1
2
3
A
G
C
1
2
3
A
G
0
1
2
3
0
0
-2
-4
-6
A
1
-2
A
2
-4
A
3
-6
C
4
-8
i-1,j
0
0
2.
i,j-1
1.
3.
A
1
A
2
A
3
C
4
i,j
s
1. Align s[1..i] mit t[1..j-1] und match ein gap mit t[j]
2. Align s[1..i-1] mit t[1..j-1] und match s[i] mit t[j]
3. Align s[1..i-1] mit t[1..j] und match s[i] mit einem gap
t
i-1,j-1
i-1,j
0
0
2.
i,j-1
1.
0
3.
A
1
A
2
A
3
C
4
i,j
s
⎧ sim( s[1.. i ], t[1.. j − 1]) − g
⎪
sim( s[1.. i ], t[1.. j ]) = max ⎨ sim( s[1.. i − 1], t[1.. j − 1]) + p(i , j )
⎪ sim( s[1.. i − 1], t[1.. j ]) − g
⎩
t
Beispiel:
C
• Globales Alignment von s = AAAC mit t = AGC
• Ähnlichkeitsscore:
g = -2
p(i,j) = +1 , falls s[i] = t[j]
p(i,j) = -1 , falls s[i] ≠ t[j]
s
10
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
A
2
-4
+1
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
A
2
-4
A
G
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
A
2
-4
-2
-2
s
s
A
3
-6
A
3
-6
C
4
-8
C
4
-8
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
A
2
-4
A
3
-6
A
3
-6
C
4
-8
C
4
-8
+1
s
C
-2
-2
s
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
A
2
-4
-1
s
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
A
2
-4
-1
-2
-2
s
A
3
-6
A
3
-6
C
4
-8
C
4
-8
11
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
A
3
-6
-3
-2
-1
4
-4
-5
-8
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
A
3
-6
-3
-2
-1
C
4
-8
-1
-4
-1
s
s
C
A
-1
s:
AAC
t:
G -C
t
t
A
G
C
0
1
2
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
s
A
3
-6
-3
-2
-1
A
3
-6
-3
-2
-1
C
4
-8
-1
-4
-1
C
4
-8
-1
-4
-1
s:
C
s: A A A C
t:
C
t: A G - C
t
A
G
0
1
2
C
3
0
0
-2
-4
-6
A
1
-2
1
-1
-3
A
2
-4
-1
0
-2
A
3
-6
-3
-2
-1
C
4
-8
-1
-4
-1
s
s:
AC
t:
-C
Needleman – Wunsch - Algorithmus
Algorithm Similarity
input: sequences s and t
output: similarity between s and t
m:=|s|
n:=|t|
for i:=0 to m do a[i,0]:=i*g
for j:=0 to n do a[0,j]:=j*g
for i:=0 to m do
for j:=0 to n do a[i,j]:= max(a[i,j-1]+g,
a[i-1,j-1]+p(i,j),
a[i-1,j]+g)
return a[m,n]
12
Rekursiver Algorithmus zur Bestimmung des Alignments
Lokales Alignment von zwei Sequenzen
Algorithm Align
input: indices i,j, parameter len, Array a given by Similarity
output: alignment in align_s,align_t, and length in len
if i=0 and j=0 then
len:=0
else if i>0 and a[i,j]=a[i-1,j]+g then
Align(i-1,j,len)
len:=len+1
align_s[len]:=s[i]
align_t[len]:= else if i>0 and j>0 and a[i,j]=a[i-1,j-1]+g then
Align(i-1,j-1,len)
len:=len+1
align_s[len]:=s[i]
align_t[len]:=t[j]
else //has to be j>0 and a[i,j]=a[i,j-1]+g
Align(i,j-1,len)
len:=len+1
align_s[len]:= align_t[len]:=t[j]
Suche nach Substrings, die mit hohem Score matchen.
Beispiel:
H E A G A W G H E E
P A W H E A E
Optimale lokale Übereinstimmung
G A W G H E E
P A W – H E A
align_s und align_t sind global zu Align
max( |s|, |t|) ≤ len ≤ m + n
Vergleich von Proteinsequenzen
BLOSUM50 Substitutionsmatrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
A
R
N
D
C
Q
E
G
H
I
L
K M
F
P
S
T W
Y
V
5
-2
-1
-2
-1
-1
-1
0
-2
-1
-2
-1
-1
-3
-1
1
0
-3
-2
0
-2
7
-1
-2
-4
1
0
-3
0
-4
-3
3
-2
-3
-3
-1
-1
-3
-1
-3
-1
-1
7
2
-2
0
0
0
1
-3
-4
0
-2
-4
-2
1
0
-4
-2
-3
-2
-2
2
8
-4
0
2
-1
-1
-4
-4
-1
-4
-5
-1
0
-1
-5
-3
-4
-1
-4
-2
-4
13
-3
-3
-3
-3
-2
-2
-3
-2
-2
-4
-1
-1
-5
-3
-1
-1
1
0
0
-3
7
2
-2
1
-3
-2
2
0
-4
-1
0
-1
-1
-1
-3
-1
0
0
2
-3
2
6
-3
0
-4
-3
1
-2
-3
-1
-1
-1
-3
-2
-3
0
-3
0
-1
-3
-2
-3
8
-2
-4
-4
-2
-3
-4
-2
0
-2
-3
-3
-4
-2
0
1
-1
-3
1
0
-2
10
-4
-3
0
-1
-1
-2
-1
-2
-3
2
-4
-1
-4
-3
-4
-2
-3
-4
-4
-4
5
2
-3
2
0
-3
-3
-1
-3
-1
4
-2
-3
-4
-4
-2
-2
-3
-4
-3
2
5
-3
3
1
-4
-3
-1
-2
-1
1
-1
3
0
-1
-3
2
1
-2
0
-3
-3
6
-2
-4
-1
0
-1
-3
-2
-3
-3
-3
-4
-5
-2
-4
-3
-4
-1
0
1
-4
0
8
-4
-3
-2
1
4
-1
-1
-3
-2
-1
-4
-1
-1
-2
-2
-3
-4
-1
-3
-4
10
-1
-1
-4
-3
-3
1
-1
1
0
-1
0
-1
0
-1
-3
-3
0
-2
-3
-1
5
2
-4
-2
-2
0
-1
0
-1
-1
-1
-1
-2
-2
-1
-1
-1
-1
-2
-1
2
5
-3
-2
0
-2
-1
-2
-3
-3
-1
-2
-3
2
-1
-1
-2
0
4
-3
-2
-2
2
8
-1
0
-3
-3
-4
-1
-3
-3
-4
-4
4
1
-3
1
-1
-3
-2
0
-3
-1
5
-1
-2
-2
-4
-2
0
-2
-3
-1
2
3
-2
7
0
-3
-2
-1
-1
0
1
-3
-3
-4
-5
-5
-1
-3
-3
-3
-3
-2
-3
-1
1
-4
-4
-3
15
2
-3
Beispiel: Gesucht ist das optimale
Alignment folgender vier Sequenzen
M Q P I L L L
M L R L L
M K I L L L
M P P V L I L
Optimales Alignment
M Q P I L L L
M L R – L L –
M K – I L L L
M P P V L I L
Globales Alignment von Proteinsequenzen
0
H
E
A
G
A
W
G
H
E
E
-8
-16
-24
-32
-40
-48
-56
-64
-72
-80
P
-8
-2
-9
-17
-25
-33
-42
-49
-57
-65
-73
A
-16
-10
-3
-4
-12
-20
-28
-36
-44
-52
-60
W
-24
-18
-11
-6
-7
-15
-5
-13
-21
-29
-37
H
-32
-14
-18
-13
-8
-9
-13
-7
-3
-11
-19
E
-40
-22
-8
-16
-16
-9
-12
-15
-7
3
-5
A
-48
-30
-16
-3
-11
-11
-12
-12
-15
-5
2
E
-56
-38
-24
-11
-6
-12
-14
-15
-12
-9
1
H E A G AW G H E ! E
! ! P ! A W! H E A E
Multiples Alignment
Vergleich durch
sum-of-pairs Score.
Z.B. Score für die vierte Spalte
des obigen Alignments:
SP-Score(I,-,I,V) =
p(I,-) + p(I,I) + p(I,V) +
p(-,I) + p(-,V) + p(I,V)
Abbildungsnachweis
E.Passarge. Taschenatlas der Genetik. Stuttgart; New York: Thieme. 1994:
Folien 3, 23-31, 35-37.
D.T.Suzuki, A.J.F.Griffiths, J.H.Miller, R.C.Lewontin. Genetik. Übersetzung herausgegeben
von S.Achten und P.Böhm. Weinheim: VCH, 1991:
Folien 10, 12, 13, 18-20, 38, 41.
J.Setubal and J.Meidanis. Introduction to computational molecular biology.
Boston: PWS Publishing Company, 1997:
Folien 14-17, 50, 60, 80, 81.
R.Durbin, S.Eddy, A.Krogh, G.Mitchison. Biological sequence analysis: Probalistic models
of proteins and nucleic acids. Cambridge University Press, 1998:
Folien 82, 83.
13
Herunterladen