Protein Structure Prediction with Neural Networks

Werbung
Verbesserung der dotplot
Methode
•
•
•
•
•
binäre Information: "x" oder " "
besser: "mehr" oder "weniger" ähnlich
Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden
bestes Alignment: optimiere Häufigkeit hoher Ähnlichkeit
PAM (Percent Accepted Mutation; Dayhoff 1978) - Matrizen:
Wahrscheinlichkeit, daß eine Aminosäure eine andere ersetzen
kann, wird statistisch berechnet; dies unter Berücksichtigung
der Häufigkeit, mit der eine Aminosäure vorkommt.
Berücksichtigt wurden 1572 Austausche in 71 Gruppen von
Proteinsequenzen, die mindestens 85% identische
Aminosäuren besitzen.
• Henikoff & Henikoff (1992): Amino Acid substitution matrices
from protein blocks. PNAS 89, 10915-10919 . Berücksichtigt
wurden 2000 Blöcke (alignte Stretches ohne gaps) aus 500
unterschiedlichen Gruppen von Proteinen: BLOSUM-Matrizen
79
Berechnung der Elemente der PAM1-Matrix am
Beispiel Phe:
•Dayhoff verwendete alle manuellen Alignments
über 85% Identität: diese wiesen 1572 Austausche
auf (der Rest identisch)
•bestimmte für jede Aminosäure die Häufigkeit
der Mutation zu einer anderen Aminosäure (z.B.
Phe zu Tyr: 260 von den 1572)
•Normiert auf Häufigkeiten der Aminosäuren –
dies ergibt Spalte 1 von Table 3.2
•diese Zahlen wurden als relative Mutationsraten
interpretiert
• im Mittel gilt: etwa 99% ist die
Wahrscheinlichkeit, dass sich die Aminosäure
nicht ändert, und 1%, dass sie sich ändert
•Eichung gegen andere Daten: in 10 Mio Jahren
ist die Wahrscheinlichkeit für die Änderung einer
Aminosäure im Mittel 1%
•über 20 Mio Jahre: PAM2 = PAM1 * PAM1
80
woher kommen die
BLOSUM62-Werte?
• 2000 Blöcke (alignte Stretches ohne gaps) aus 500
unterschiedlichen Gruppen von Proteinen
• BLOSUM62 bedeutet: keine Sequenzen ähnlicher als
62%
• a) absolute Häufigkeiten der Aminosäuren
bestimmen="Randhäufigkeiten"
• b) aus Randhäufigkeiten die zu erwartende zufällige
Häufigkeit von Austauschen berechnen
• c) Quotienten von beobachteten/erwartete
Häufigkeiten
• d) Logarithmen zur Basis 2, dann mit 2 multiplizieren
81
und runden zur nächsten ganzen Zahl
Blosum62
(http://www.embl-
heidelberg.de/~seqanal/courses/predoc97/blosum62.cmp )
A B C D E
4 -2 0 -2 -1
6 -3 6 2
9 -3 -4
6 2
5
F
-2
-3
-2
-3
-3
6
G
0
-1
-3
-1
-2
-3
6
H
-2
-1
-3
-1
0
-1
-2
8
I
-1
-3
-1
-3
-3
0
-4
-3
4
K
-1
-1
-3
-1
1
-3
-2
-1
-3
5
L
-1
-4
-1
-4
-3
0
-4
-3
2
-2
4
M
-1
-3
-1
-3
-2
0
-3
-2
1
-1
2
5
N
-2
1
-3
1
0
-3
0
1
-3
0
-3
-2
6
P
-1
-1
-3
-1
-1
-4
-2
-2
-3
-1
-3
-2
-2
7
Q
-1
0
-3
0
2
-3
-2
0
-3
1
-2
0
0
-1
5
R
-1
-2
-3
-2
0
-3
-2
0
-3
2
-2
-1
0
-2
1
5
S
1
0
-1
0
0
-2
0
-1
-2
0
-2
-1
1
-1
0
-1
4
T
0
-1
-1
-1
-1
-2
-2
-2
-1
-1
-1
-1
0
-1
-1
-1
1
5
V
0
-3
-1
-3
-2
-1
-3
-3
3
-2
1
1
-3
-2
-2
-3
-2
0
4
W
-3
-4
-2
-4
-3
1
-2
-2
-3
-3
-2
-1
-4
-4
-2
-3
-3
-2
-3
11
X
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
Y
-2
-3
-2
-3
-2
3
-3
2
-1
-2
-1
-1
-2
-3
-1
-2
-2
-2
-1
2
-1
7
Z
-1
2
-4
2
5
-3
-2
0
-3
1
-3
-2
0
-1
2
0
0
-1
-2
-3
-1
-2
5
*
-4 A
-4 B
-4 C
-4 D
-4 E
-4 F
-4 G
-4 H
-4 I
-4 K
-4 L
-4 M
-4 N
-4 P
-4 Q
-4 R
-4 S
-4 T
B = either D or N
-4 V
-4 W
X = undetermined
-4 X
Z = either Q or E
-4 Y
-4 Z
* = minimum column score
-4 *
Sean R Eddy (2004) Where did the BLOSUM62 alignment score matrix come from? Nature Biotechnology
22, 1035 - 1036
82
1. Algorithmus
(=Rechenverfahren)
D. Boyd, C. Schierle, J. Beckwith (1998) How
many membrane proteins are there? Protein
Science 7, 201-205
Problem: "subzelluläre Lokalisation"
Lösung:
a) Experiment
b) "per Auge" Hydrophobizität
c) Algorithmus, Lernen, Anwendung
(aufbauend auf Klein et al (1985) The detection and classification of membranespanning proteins. Biochim Biophys Acta 815:468-476)
83
Hausaufgabe
27.5. fällt aus!
Das paper lesen und sich dazu
Gedanken machen!
84
Bestandteile der (gram-negativen) Membran
Quelle: Wikipedia
Biochemistry (Mathews, van Holde,85Ahern)
Bis Dezember 1998 komplett sequenzierte Genome (außer Viren).
Organismus
Phylum
Caenorhabditis elegans
Saccharomyces cerevisiae
Escherichia coli K-12
Mycobacterium tuberculosis
Bacillus subtilis
Synechococcus sp.
Archaeoglobus fulgidus
Haemophilus influenzae
Pyrococcus horikoshii
Methanobacterium thermoautotrophicum
Helicobacter pylori
Methanococcus jannaschii
Aquifex aeolicus
Borrelia burgdorferi
Treponema pallidum
Rickettsia prowazekii
Chlamydia trachomatis
Mycoplasma pneumoniae
Mycoplasma genitalium
Eucaryota
Eucaryota
Bacteria
Bacteria
Bacteria
Bacteria
Archaea
Bacteria
Archaea
Archaea
Bacteria
Archaea
Bacteria
Bacteria
Bacteria
Bacteria
Bacteria
Bacteria
Bacteria
Größe (Millionen
Basenpaare)
97
13
4.60
4.40
4.20
3.57
2.18
1.83
1.80
1.75
1.66
1.66
1.50
1.44
1.14
1.10
1.05
0.81
0.58
Proteine
19000
6034
4288
ca. 4300
4100
3168
2471
1740
ca. 1800
1855
1590
1692
ca. 1400
863
1041
ca. 1000
ca. 900
677
470
86
Hydropathie
•
•
•
•
Biophysik: Verteilungskoeffizient
Freie Energie
Bestimmung der Hydropathie von Aminosäuren
"Hydropathy analysis": Kyte & Doolittle (1982) A
simple method for displaying the hydropathic
character of a protein. J Mol Biol 157, 105-132
• Hydropathie-Skalen
• JTT2 = Häufigkeits-Skala: wie oft tritt Aminosäure in
einer Transmembran (TM)-Helix auf, verglichen mit
Vorkommen in Datenbank aller Proteine?
87
88
maxH
• "Fenster" über Sequenz "schieben":
(Beispiel für Länge des "Fensters"=5)
...
ACDEFHILWYAGHVMPQRST (Pos. 4)
ACDEFHILWYAGHVMPQRST (Pos. 5)
ACDEFHILWYAGHVMPQRST (Pos. 6)
...
ACDEFHILWYAGHVMPQRST (Pos. 18)
89
Berechnung von maxH
• wähle Hydropathie-Skala (JTT2, GvH, ...);
aus dieser stammen die h-Werte
• wähle Protein
• wähle Länge=7, 9, 11, ..., 21 mit
2*l+1=Länge
• H(i):=(Summe der hj in Fenster an Pos. i) /
(2*l+1), j=i-l, i-l+1,...,i+l
• maxH = Maximum der H(i)
90
Datenbasis
• SwissProt 34 (1996)
• E.coli
• ausschliessen: "putative",
"hypothetical", "possible"
• 397 proteins: 171 cytoplasmic + 66
periplasmic (=non-MP) , 160 inner
membrane proteins (=MP)
91
Algorithmus
• aufteilen in Training- und Test-Set (random)
• maxH für Trainingset berechnen (Länge,
Skala) -> Histogramm
• Schwelle festlegen (hängt von h-Skala ab!):
Gaussfunktionen an Verteilung anfitten,
Schwellenwert = (z.B.) x-Wert des
Schnittpunktes
• Fehlzuordnungen ("mis-allocations") anhand
Test-Set untersuchen und damit beste Länge
und Skala bestimmen
92
(Beispiel-Histogramm)
bimodal!
93
94
Auswahl von Skala und Länge
•
•
•
•
beste Separation
JTT2
Länge = 19
Länge einer TM-Helix
95
Fig. 1. Calculation of maxH values using the JTT2 scale and a window of 19 residues was performed for sets of proteins from the organisms indicated. Proteins of E.
coli, Methanococcus jannaschii, the two Mycoplasma species, and yeast represent complete or nearly complete genomes. Histograms for each species have the
maxH values divided into 100 or 150 groups on the horizontal axis and the number of proteins that fall in the group on the vertical axis. The area under the curve is
proportional to the number of proteins analyzed. The hatch mark below the horizontal axis shows the position of the discriminator value, 1.505, determined for known
E. coli proteins.
96
Hausaufgabe
• Bei welchen Organismen „funktioniert“
der maxH-Algorithmus am besten?
• Warum ist das so?
• In wiefern wird das Ergebnis von den
Eigenschaften der Membran
beeinflusst?
• Wie könnte man für die Eukaryonten zu
einem besseren Ergebnis kommen?
97
Herunterladen