Bioinformatik für Lebenswissenschaftler

Werbung
BIOINF 1910
Bioinformatik
für Lebenswissenschaftler
Oliver Kohlbacher, Steffen Schmidt
SS 2010
11. Proteinstruktur, Sekundärstrukturvorhersage
Abt. Simulation biologischer Systeme
WSI/ZBIT, Eberhard-Karls-Universität Tübingen
Übersicht
•  Proteinstruktur – elementarste Grundlagen
–  Proteinstruktur
–  Strukturaufklärung
•  Visualisierung von Proteinstrukturen
•  Strukturdatenbanken (PDB)
•  Proteinstrukturvorhersage
–  Problemdefinition
–  Ausprägungen
•  Sekundärstrukturvorhersage
– 
– 
– 
– 
– 
Probleme
Bestimmung der Güte
Chou-Fasman-Algorithmus
Künstliche neuronale Netze
PHD
2
Aminosäuren I
•  Proteine bestehen aus α-Aminokarbonsäuren
•  Natürliche Aminosäuren (AS, aa)
– 
– 
– 
– 
Besitzen eine Karbonsäurefunktion –COOH
Besitzen eine primäre Aminofunktion –NH2
Liegen gewöhnlich als Zwitterionen vor (– NH3+, –COO-)
Meistens chiral: L-Aminosäuren (in S-Konfiguration)
•  20 proteinogene Aminosäuren
•  Unterschiede liegen in den Seitenketten
3
1
Aminosäuren II
• 
• 
• 
• 
Rückgrat
Seitenkette
Atome des Rückgrats: C, O, N, H, Cα, Hα
Nummerierung der Seitenkettenatome
–  „Entfernung“ vom Cα: β, γ, δ, ε, η
–  Atome auf gleicher Ebene mit arabischen Ziffern,
z.B. Cδ1
4
Aminosäuren
•  Die 20 proteinogenen AS unterscheiden sich in ihren Seitenketten
•  Benennnung üblicherweise mit Ein- oder Drei-Buchstaben-Kürzeln
(one letter code, 1LC, three letter code, 3LC)
Name
3LC
1LC
Name
3LC
1LC
Alanin
Ala
A
Methionin
Met
M
Cystein
Cys
C
Asparagin
Asn
N
Asparaginsäure
Asp
D
Prolin
Pro
P
Glutaminsäure
Glu
E
Glutamin
Gln
Q
Phenylalanin
Phe
F
Arginin
Arg
R
Glycin
Gly
G
Serin
Ser
S
Histidin
His
H
Threonin
Thr
T
Isoleucin
Ile
I
Valin
Val
V
Lysin
Lys
K
Tryptophan
Trp
W
Leucin
Leu
L
Tyrosin
Tyr
Y
5
Proteinstruktur – Überblick
Primärstruktur
Sequenz: ...LGFCYWS...
Sekundärstruktur
Tertiärstruktur
Quartärstruktur
2
Wie sehen Proteine aus?
John Kendrew und Max Perutz
klärten Ende der 50er Jahre
die ersten Proteinstukturen
auf (Myo- und Hämoglobin)
und konstruierten (von Hand)
Modelle dazu.
7
Wie sehen Proteine aus?
8
Wie sehen Proteine aus?
9
3
Wie sehen Proteine aus?
„Could the search for
ultimate truth really have
revealed so hideous and
visceral-looking an object?“
Max Perutz, 1964
10
Röntgen-Kristallografie (XRD)
Quelle
ProteinKristall
Detektor
11
Elektronendichte-Karte
12
4
Elektronendichte-Karte
13
NMR – Hardware
NMR-Überblick
•  Protein in Lösung (meist isotopenmarkiert) wird im NMRSpektrometer vermessen
•  Ergebnis sind verschiedene Arten von Spektren, die unterschiedliche
Information über Abstände, Torsionswinkel etc. enthalten
•  Zuordnung (assignment) von Peaks zu den jeweiligen Atomen der
Struktur weist dann Abstände zwischen Atomen zu
•  Modellierung und Verfeinerung führt zu einer Familie von
Strukturen, die zu diesen experimentellen Daten passen
5
Resultat: Strukturfamilie
•  Bei den Temperaturen die bei NMR verwendet werden, zeigen Proteine eine
ausgeprägte Dynamik (oft > 30°C – im Gegensatz zu XRD: -196°C!)
•  Zu den gemessenen geometrischen Daten passen daher meist ganze Ensembles
von Strukturen, die auch die Dynamik des Proteins wiedergeben
Vergleich XRD – NMR
XRD
NMR
•  Auch große Moleküle
•  meist < 30 kDa
•  Kristalle notwendig
•  Aus Lösung
•  Wasserstoffe nicht
sichtbar
•  Wasserstoffe essenziell
•  Unmarkiertes Protein
•  Isotopenmarkiertes
Protein
•  Höhere räumliche
Auflösung
•  Information über
Flexibilität
Torsionswinkel
•  Rotation um Bindungen werden durch Torsionswinkel
beschrieben
•  Flexibilität entlang des Protein-Rückgrats basiert auf Torsionen
•  Deformation bezüglich Bindungslängen und –winkel erfordert
höhere Energien als Änderung der Torsionswinkel
•  Torsionsbarrieren für Seitenketten liegen bei etwa 20 kJ/mol
18
6
Peptidbindung III – Torsionen
•  Drei Torsionswinkel pro AS
‒  φ entlang der Bindung zwischen N-Cα
‒  ψ entlang der Bindung zwischen Cα-C
‒  ω entlang der Peptidbindung
•  Am N-Terminus entfällt φ, am C-Terminus ψ
ψ1 ω1 φ2 ψ2 ω2 φ3
19
Torsionswinkel – Ramachandran-Plot
•  Im Ramachandran-Plot stellt 180°
man jeweils Paare (φ, ψ) von
Torsionswinkeln einer AS dar
•  Bestimmte Torsionswinkelenergetisch bevorzugt,
ψ
kombinationen sind
bestimmte sterisch
ausgeschlossen
•  Beispiel
der Ramachandran-Plot des
Proteinkomplexes Trypsin/
BPTI (2PTC)
-180°
-180°
φ
180°
20
Sekundärstruktur – α-Helices
•  α-Helix: rechtsgängige
Helix
•  pro Windung
–  3,6 AS
–  5,4 Å
•  Stabilisiert durch
regelmäßige H-Brücken
(i → i + 4)
•  Torsionswinkel
(φ, ψ) = (-60°, -50°)
21
7
Sekundärstruktur – β-Faltblätter
•  Faltblätter (sheets) bestehen
aus mehreren parallelen oder
antiparallelen Strängen
(strands)
•  Verbunden durch H-Brücken
des Rückgrats (C=O → H-N)
•  Abstand zwischen Strängen
~3.5 Å
•  Torsionswinkel (φ, ψ)
–  Parallel (-120°, 115°)
–  Antiparallel (-140°, 135°)
Berg, Tymoczko, Stryer, S. 59
22
Torsionswinkel – Bevorzugte Bereiche
180°
ψ
•  β-Faltblätter
•  α-Helices
–  Linksgängig (selten)
–  Rechtsgängig
-180°
-180°
φ
180°
23
Supersekundärstrukturen
•  Sekundärstrukturelemente formen häufig
einfache Motive (Supersekundärstrukturen)
•  Häufig wiederkehrende Motive sind z.B.
–  Haarnadel-Motiv (hairpin)
‒  β-α-β-Motiv
Haarnadel
β-α-β
8
Faltungsklassen
α: nur Helices
β: nur Faltblätter
Faltungsklassen
α+β: Helices und Faltblätter in der Sequenz
getrennt, Faltblätter meist durch Turns verbunden
Ubichinon-konjugierendes Enzym (1UB9)
Staphylokokken-Nuklease (2SNS)
Faltungsklassen
α/β: Faltblatt mit verbindenden Helices
(basierend auf dem β-α-β-Motiv)
TIM barrel
β-α-β-Motiv
(TIM = Triosephosphatisomerase)
9
Faltungsklassen
•  Es gibt eine Hunderte von typischen Faltungsklassen (Folds)
•  Eine sehr bekanntes Fold ist z.B. das TIM-Barrel
(Triosephosphatisomerase)
•  Eine Reihe von Proteinen nimmt dieses Fold an, das aus β-α-βMotiven zusammengesetzt ist
PDB: 1TIM
Ferritin – ein α-helikales Protein
•  Eisenspeicherprotein
•  Vier lange α-Helices
L-Kette eines Antikörpers
•  Antikörper bestehen aus einer leichten und einer
schweren Kette
•  Leichte Kette besteht fast ausschließlich aus βFaltblättern
10
Visualisierung
•  Visualisierung von Protein-Strukturen ist Grundlage
aller Arbeiten in der Strukturbioinformatik
•  Erst seit Aufkommen der ersten Grafikrechner Mitte
der 70er Jahre kann man mit Proteinen interaktiv
arbeiten
•  Visualisierung beinhaltet die Darstellung der
dreidimensionalen Struktur, aber auch der Flexibilität
und Dynamik der Struktur
•  Es existieren viele mögliche Darstellungsarten und
eine Vielzahl möglicher Softwarewerkzeuge zur
Darstellung
Linien-Modell
Bindungen werden als
Linien dargestellt
32
Kalottenmodell
Atome werden als
Kugeln dargestellt
33
11
Kugel-Stab-Modell
Bindungen werden als Stäbe
dargestellt, Atome als Kugeln
34
Schlauch/Backbone
Rückgrat des Proteins wird durch glatten
„Schlauch“ durch die Cα-Atome dargestellt
35
Cartoon
Wie Backbone, aber Faltblätter zusätzlich
als Pfeile und Helices als Zylinder
36
12
Oberfläche
Glatte Moleküloberflächen vermitteln
Eindruck von der Gesamtform.
37
Vergleich Modelle
Verschiedene Modelle vermitteln verschiedene Information:
–  Kalotten-, Linien-, Stab- und Kugel-Stab-Modelle (aka
Ball&Stick, CPK)
•  vermitteln atomare Details
•  Sehr unübersichtlich für größere Moleküle
–  Schlauch-, Band- + Cartoon-Modelle
•  Verdeutlichen Lage der Sekundärstrukturelemente
(Topologie der Faltung)
•  Geben kein Gefühl für die Raumfüllung der Struktur
–  Oberflächenmodelle
•  Verdeutlichen die Raumfüllung
•  Lassen keine Details des inneren Aufbaus erkennen
Färben nach Sekundärstruktur
Färben nach Sekundärstruktur hebt
die Sekundärstrukturen deutlich hervor und
erleichtert das Erkennen der Foldklasse.
39
13
Färbung nach Sequenzindex
Färben nach Index vermittelt
den Verlauf des Rückgrats im Raum,
das „vorne“ und „hinten“ in der Sequenz.
40
Kombinierte Modelle
41
Software zur Visualisierung
•  BALLView
• Ein Werkzeug zur Visualisierung und Modellierung von
Proteinstrukturen
• Download von Website www.ballview.org für Linux, Windows,
MacOS X
(Unsere Eigenentwicklung…)
•  VMD
• Ein Werkzeug zur Proteinvisualisierung mit guten
Darstellungsmöglichkeiten, keine Modellierungsfunktionalität
•  RasMol
• Eines der ersten Werkzeuge, ein wahrer Dinosaurier
www.ballview.org
www.ks.uiuc.edu/Research/vmd/
www.openrasmol.org
14
BALLView
Protein-Datenbanken
Sequenzdaten
•  Swiss-Prot – Protein-Sequenzen
http://www.ebi.ac.uk/swissprot/index.html
Strukturdaten
•  PDB – 3D-Strukturen
http://www.rcsb.org
•  BMRB – NMR-Daten
http://www.bmrb.wisc.edu
•  CATH – Domänenklassifizierung
http://www.cathdb.info
•  SCOP – Faltungsklassen
http://scop.mrc-lmb.cam.ac.uk/scop/
15
Datenbanken – PDB
PDB (Protein Data Bank) – http://www.rcsb.org
–  Strukturdaten von Biomolekülen
–  Geführt von RCSB (Research Collaboratory for
Structural Bioinformatics)
–  Ablegen von Strukturen in der PDB heute
Voraussetzung für strukturbiologische Publikation
–  Alle Strukturen werden mit eindeutiger ID
versehen
•  4 Zeichen
•  1. Zeichen – Version
•  2. – 4. Zeichen – Struktur ID
•  Bsp.:
–  2PTI, 3PTI, 4PTI sind drei Strukturen des Proteins BPTI
–  2PTI: 1973, 3PTI: 1976, 4PTI: 1983
PDB – Wachstum
60000
Yearly Growth
Total
50000
40000
• Anzahl der bekannten Strukturen in der PDB
wuchs lange Zeit exponentiell
• Ablegen der Strukturinformation für
Publikation in allen wichtigen Zeitschriften
obligatorisch
30000
20000
10000
0
2009
2007
2005
2003
2001
1999
1997
1995
1993
1991
1989
1987
1985
1983
1981
1979
1977
1975
1973
Data from: http://www.rcsb.org/pdb/statistics/contentGrowthChart.do?content=total&seqid=100
PDB – Statistik
Proteine
Protein-NAKomplexe
Nukleinsäuren
Gesamt
XRD
50.197
2.308
1.179
53.701
NMR
7.137
151
885
8.180
Gesamt
57.648
2.534
2.086
62.306
http://www.rcsb.org
Stand: 22.12.2009
16
PDB – Der erste Eintrag!
PDB – Der erste Eintrag!
HEADER
OXYGEN STORAGE
05-APR-73
1MBN
COMPND
MYOGLOBIN (FERRIC IRON - METMYOGLOBIN)
SOURCE
SPERM WHALE (PHYSETER CATODON)
AUTHOR
H.C.WATSON,J.C.KENDREW
[…]
REVDAT 20
27-OCT-83 1MBNS
1
REMARK
JRNL
AUTH
H.C.WATSON
JRNL
TITL
THE STEREOCHEMISTRY OF THE PROTEIN MYOGLOBIN
JRNL
REF
PROG.STEREOCHEM.
V.
4
299 1969
JRNL
REFN
ASTM PRSTAP US ISSN 0079-6808
419
[…]
SEQRES
1
153 VAL LEU SER GLU GLY GLU TRP GLN LEU VAL LEU HIS VAL
[…]
HET
HEM
1
44
PROTOPORPHYRIN IX WITH FE(OH), FERRIC
FORMUL
2 HEM
C34 H32 N4 O4 FE1 +++ .
FORMUL
2 HEM
H1 O1
HELIX
1
A SER
3 GLU
18 1 N=3.63,PHI=1.73,H=1.50
[…]
TURN
1 CD1 PHE
43 PHE
46
BETW C/D HELICES IMM PREC CD2
[…]
ATOM
1 N
VAL
1
-2.900 17.600 15.500 1.00 0.00
2
ATOM
2 CA VAL
1
-3.600 16.400 15.300 1.00 0.00
2
ATOM
3 C
VAL
1
-3.000 15.300 16.200 1.00 0.00
2
ATOM
4 O
VAL
1
-3.700 14.700 17.000 1.00 0.00
2
ATOM
5 CB VAL
1
-3.500 16.000 13.800 1.00 0.00
2
ATOM
6 CG1 VAL
1
-2.100 15.700 13.300 1.00 0.00
2
ATOM
7 CG2 VAL
1
-4.600 14.900 13.400 1.00 0.00
2
ATOM
8 N
LEU
2
-1.700 15.100 16.000 1.00 0.00
1
ATOM
9 CA LEU
2
-.900 14.100 16.700 1.00 0.00
ATOM
10 C
LEU
2
-1.000 13.900 18.300 1.00 0.00
ATOM
11 O
LEU
2
-.900 14.900 19.000 1.00 0.00
ATOM
12 CB LEU
2
.600 14.200 16.500 1.00 0.00
ATOM
13 CG LEU
2
1.100 14.300 15.100 1.00 0.00
1
ATOM
14 CD1 LEU
2
.400 15.500 14.400 1.00 0.00
1
[…]
1MBNH
1MBN
1MBNM
1MBNG
1
4
1
1
1MBNS
1MBNG
1MBNG
1MBNG
1MBNG
1
2
3
4
5
1MBN
39
1MBND
1MBNG
1MBNG
1MBN
10
25
26
52
1MBN
60
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNP
1MBNL
1MBN
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNL
72
73
74
75
76
4
8
79
80
81
82
83
84
9
PDB – Dateiformat
•  Spaltenbasiertes Textformat
–  „Lochkarten“ (records, cards)
–  Jede Zeile ist ein Record und beginnt mit einem
Schlüsselwort
–  Die nachfolgenden Spalten enthalten die zugehörige
Information
–  Ein Record enthält z.B. Koordinaten eines Atoms oder
Information über eine Schwefelbrücke
–  Für jeden Recordtyp ist definiert, was in welcher Spalte
zu stehen hat
–  Kann (und muss auch oft!) mit einem Texteditor
geändert werden. Achtung: Spalten nicht verschieben!
–  Vollständige Dokumentation ist online erhältlich (siehe
unter Links)
17
PDB – Dateiformat
•  Hierarchischer Aufbau
–  Kette (Chain) enthält Reste (Residues)
–  Rest enthält Atome
•  Benennung
–  Reste und Atome haben Namen
–  Reste und Atome sind auch nummeriert
–  Ketten sind in der Regel mit einzelnen Buchstaben benannt
(z.B. E für Enzym, I für Inhibitor oder A, B, C, D in einem
Tetramer)
–  Atomnamen richten sich (grob) nach der IUPAC-Nomenklatur
–  In Textdateien können keine griechischen Buchstaben
vorkommen, daher werden diese durch ihre lateinischen
Äquivalente ersetzt:
Cα ! CA
Hα ! HA (das H-Atom an Cα)
Cβ ! CB
Hγ12 ! 2HG1 (eines der H-Atome an Cγ1)
PDB-Format
Beispiel: ATOM-Records für VAL
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1
2
3
4
5
6
7
8
9
10
11
12
13
14
N
CA
C
O
CB
CG1
CG2
N
CA
C
O
CB
CG
CD1
VAL
VAL
VAL
VAL
VAL
VAL
VAL
LEU
LEU
LEU
LEU
LEU
LEU
LEU
1
1
1
1
1
1
1
2
2
2
2
2
2
2
Record- Nummer + Name +
typ Name des Nummer
Atoms des Rests
-2.900
-3.600
-3.000
-3.700
-3.500
-2.100
-4.600
-1.700
-.900
-1.000
-.900
.600
1.100
.400
X
17.600
16.400
15.300
14.700
16.000
15.700
14.900
15.100
14.100
13.900
14.900
14.200
14.300
15.500
15.500
15.300
16.200
17.000
13.800
13.300
13.400
16.000
16.700
18.300
19.000
16.500
15.100
14.400
Röntgenstrukturen
1.00 0.00
2 1MBN 72
enthalten
nur Schweratome
1.00
0.00
2
1MBN
73
1.00 (VAL)
0.00enthält
2 1MBN
Valin
dann74
1.00 0.00
75
sieben
Atome: 22 1MBN
1.00 0.00
1MBN 76
0.00
2 1MBNP
N,1.00
CA, C,
O – Rückgrat
1.00
0.00
2
1MBNL
4
8
1.00
0.00
1MBN 79
CB,
CG1,
CG2 –1Seitenkette
1.00
1.00
1.00
1.00
1.00
1.00
0.00
0.00
0.00
0.00
0.00
0.00
1
1
1MBN
1MBN
1MBN
1MBN
1MBN
1MBNL
80
81
82
83
84
9
Z
Y
Koordinaten
Protein-Strukturvorhersage
Problemdefinition:
Gegeben Sequenz, finde Struktur
...LGFCYWS...
18
Methoden
SequenzSuche
Sek.-Strukt.Vorhersage
SekundärStruktur
Sequenz
SequenzDB
Homologe
Alignment/
Profilkonstr.
Mult. Alignment
+ Profile
Ab-initioVorhersage
FoldErkennung
Threading
Modell
Modellierung/
Verfeinerung
Verfeinertes
Modell
Nach: Zimmer, Lengauer: Bioinformatics – From Genomes to Drugs, Wiley VCH, 2001
Sekundärstruktur-Vorhersage
Gegeben: Sequenz
Gesucht:
KVYGRCELAAAMKRLGLDNYRGYSLGNWVC
AAKFESNFNTHATNRNTDGSTDYGILQINS
RWWCNDGRTPGSKNLCNIPCSALLSSDITA
SVNCAKKIASGGNGMNAWVAWRNRCKGTDV
HAWIRGCRL
Sekundärstruktur-Zuordnung mit den Klassen E
(extended, Faltblatt), H (helikal), C (coil, Schleifen) zu
jeder Aminosäure
KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD
-----HHHHHHHHH-------------EEEEE---------------GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK
----EEEEEE--------------------------------HHHHHH
KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL
HHH-------EEE--------------------
Sekundärstruktur-Vorhersage
KVYGRCELAAAMKRLGLDNYRGYSLGNWVC
AAKFESNFNTHATNRNTDGSTDYGILQINS
RWWCNDGRTPGSKNLCNIPCSALLSSDITA
SVNCAKKIASGGNGMNAWVAWRNRCKGTDV
HAWIRGCRL
•  SekundärstrukturZuordnung definiert
Topologie des Proteins
•  Packung der
Sekundärstrukturen im
Raum definiert
Faltungsklasse
H1
H2
`
1
`
A
`
A
`
A `
`
1lzy
2
KVYGR C E L AAAMKR L G L DNYRGY S L GNWVCAAK F E S N F N T HA T NRN T DG S T DYG I L Q I N S
5
`
10
15
`
`
`
3
20
H3
4
25
`
3
30
H4
35
40
`
45
H5
50
H6
4
55
`
60
a H7
2
RWWCNDGR T P G S KN L CN I P C S A L L S S D I T A S VNCAKK I A S GGNGMNAWVAWRNR CKG T DV
65
`
70
75
80
85
90
95
100
105
110
115
120
1
HAW I RGC R L
125
Residue interactions:-
with ligand
•  Wichtiger Anhaltspunkt
für Tertiärstruktur
19
Das Maß aller Dinge
•  Qualität der Vorhersage ermittelt man üblicherweise durch Vergleich
mit Kristallstrukturen, die automatisch mit DSSP annotiert wurden
•  DSSP ist ein Programm, das aus der Geometrie einer Struktur (HBrückenmuster, Winkel, Abstände) automatisch jedem Rest eine
Sekundärstruktur zuordnet
•  Es sind zwei Einteilungen verbreitet
–  In drei Klassen
Helix (H), Faltblatt (extended, E), ungeordnet (coil, C)
–  In acht Klassen
•  α-Helix (H), 3/10-Helix (G), π-Helix (I)
•  β-Faltblatt (E), β-Brücke (B)
•  Turn (T), Bend (S), ungeordnet (.)
•  DSSP weist jedem Rest der Eingabestruktur (z.B. PDB-File)
entsprechend einen Buchstaben der drei oder acht Klassen zu
Kabsch,W. and Sander,C. (1983) Biopolymers 22, 2577-2637.
Qualitätsmaße
•  Drei-Zustands-Klassifikation (C/H/E)
•  Q3-Score: Prozentsatz an korrekt
zugewiesenen AS in der Sequenz
•  Analog auch für Q8 (Falls die Acht-ZustandsKlassifikation von DSSP verwandt wird)
vorhergesagt
beobachtet
Sekundärstruktur-Vorhersage
Mehrere Generationen von Algorithmen
1. Generation
Nur Eigenschaften einzelner AS (Q3 ¼ 50 – 60%)
2. Generation
Einbeziehung lokaler Umgebung (Q3 ¼ 65%)
3. Generation
Einbeziehung homologer Sequenzen (Q3 > 70%)
4. Generation
Konsensus-Methoden, die Ergebnisse mehrerer
Methoden der 2. + 3. Generation kombiniert (Q3 ¼
75-80%)
20
Chou-Fasman-Algorithmus
•  Idee: statistische Unterschiede in der „Neigung“ der AS zur
Ausbildung von Sekundärstrukturen
•  Analyse von Strukturdatenbanken: wie oft welche AS in welcher
Sekundärstruktur
•  nj sei die Anzahl der Vorkommen von AS j in allen Proteinen der
Strukturdatenbank
•  Wahrscheinlichkeit pj die AS j in einem Protein zu finden ist dann
pj = nj / ∑j nj
•  Analog definiert man die Wahrscheinlichkeit, dass eine Aminosäure in
Sekundärstruktur k (mit k 2 {C, H, E}) vom Typ j ist als
pj,k = nj,k / ∑j nj,k
Chou, Fasman, Biochemistry (1974), 13, 211
Chou-Fasman-Algorithmus
•  Analog die Wahrscheinlichkeit fj,k mit der eine AS vom Typ j in
Sekundärstruktur k angetroffen wird:
fj,k = nj,k / n
j
•  Die mittlere Häufigkeit eine beliebige der 20 AS in der
Sekundärstruktur k zu finden kann man damit schreiben als
<fk> = ∑j fj,k / 20 = ∑j nj,k / ∑j nj
•  Die relative Häufigkeit, dass für AS j in Sekundärstruktur k auftritt ist
somit:
Pj,k = fj,k / <fk>
•  Diese relativen Häufigkeiten sind beschreiben die Präferenzen einer
jeden AS für eine gewisse Sekundärstruktur und bilden die Grundlage
des Chou-Fasman-Algorithmus
Chou, Fasman, Biochemistry (1974), 13, 211
Chou-Fasman-Algorithmus
•  Einteilung der 20 AS in Klassen nach Pαi
–  Starke Helixbildner Hα (Glu, Ala, Leu)
–  Helixbildner hα (His, Met, Gln, Trp, Val,
Phe)
–  Schwache Helixbildner Iα (Lys, Ile)
–  Indifferente iα (Asp, Thr, Ser, Arg, Cys)
–  Schwache Helixbrecher bα (Asn, Tyr)
–  Starke Helixbrecher Bα (Pro, Gly)
•  Analog für β-Faltblätter
–  Hβ, hβ, iβ, bβ, Bβ
Chou, Fasman, Biochemistry (1974), 13, 211
21
Chou-Fasman-Parameter
AS
Pα
Glu
1.53
AS
Pβ
Met
1.67
Ala
1.45
Val
1.65
Leu
His
1.34
Ile
1.24
Cys
Klasse
Hα
AS
Pα
Klasse
AS
Pβ
Klasse
Ile
1.00
Iα
Ala
0.93
Iβ
Asp
0.98
Arg
0.90
1.60
Thr
0.82
1.30
Ser
0.79
Klasse
Hβ
iα
Gly
0.81
Asp
0.80
Met
1.20
Tyr
1.29
Arg
0.79
Lys
0.74
Gln
1.17
Phe
1.28
Cys
0.77
Ser
0.72
Trp
1.14
Gln
1.23
Asn
0.73
His
0.71
Val
1.14
Leu
1.22
Tyr
0.61
Asn
0.65
Thr
1.20
Pro
0.59
Pro
0.62
Trp
1.19
Gly
0.53
Glu
0.26
Phe
1.12
Lys
1.07
hα
Iα
hβ
bα
Bα
iβ
bβ
Bβ
Chou, Fasman, Biochemistry (1974), 13, 222
Chou-Fasman-Algorithmus I
Algorithmus (vereinfacht!)
•  Ordne jeder AS der Sequenz S = s1s2...sk α/β-Klassen zu
A: HELICES
•  Weise jeder AS Gewicht wi zu mit w(Hα) = w(hα) = 1, w(Iα) =
w(iα) = 0.5, w(bα) = w(Bα) = –1
•  Finde Helix-Kerne
–  Fenster der Länge 6 mit ∑wi ¸ 4
•  Erweitere Kerne nach links oder rechts
–  Fenster der Länge 4
–  Links oder rechts schieben bis ∑Pαsi < 4
–  Kompatible AS des abbrechenden Peptids sind Teil der Helix
Chou, Fasman, Biochemistry (1974), 13, 222
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
iα
iα
Bα
iα
Hα
Hα
hα
Hα
iα
iα
iα
Bα
0.5
0.5
0.5
0.5
-1
0.5
1
1
1
1
0.5
-1
22
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
iα
0.5
iα
0.5
B-1α
0.5
iα
H1α
H1α
h1α
H1α
0.5
iα
0.5
iα
0.5
iα
B-1α
∑=5
Helixstart
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
4.3 / 4 > 1.0
Ausdehnen nach links mit 4er-Fenster
(auf den Pα-Werten!)
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
3.6 / 4 < 1.0
Ausdehnen nach links mit 4er-Fenster
(auf den Pα-Werten!)
23
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
4.5 / 4 > 1.0
Ausdehnen nach rechts mit 4er-Fenster
(auf den Pα-Werten!)
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
4.1 / 4 > 1.0
Ausdehnen nach rechts mit 4er-Fenster
(auf den Pα-Werten!)
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
3.2 / 4 < 1.0
Ausdehnen nach rechts mit 4er-Fenster
(auf den Pα-Werten!)
24
Chou-Fasman-Algorithmus II
Beispiel:
.. T S P T A E L M R S T G ..
0.8
0.8
0.6
0.8
1.4
1.5
1.2
1.5
1.0
0.8
0.8
0.6
Anschließend analog für Faltblätter
Chou-Fasman-Algorithmus II
Algorithmus (vereinfacht!)
C: KONFLIKTE
•  Für Bereiche die α und β markiert sind:
–  Berechne Mittelwerte Pαavg und Pβavg
–  Helix, falls Pαavg > Pβavg
–  Faltblatt, falls Pαavg < Pβavg
•  Faltblätter werden analog zu Helices (leicht andere Parameter)
erkannt
•  Vollständiger „Algorithmus“ enthält noch weitere zusätzliche Regeln
zur Zuweisung von Enden und zur Beseitigung von Konflikten
Chou, Fasman, Biochemistry (1974), 13, 222
Chou-Fasman-Algorithmus
•  Online Vorhersage:
http://fasta.bioch.virginia.edu/fasta_www/
chofas.htm
•  Vorhersagegenauigkeit sehr gering (Q3 = 50-60%)
•  Es existieren eine Reihe verbesserter Varianten
–  Vorhersage von Turns
–  Bessere Statistiken (Chou-Fasman basiert auf der Analyse von 15
Proteinen!)
–  Eine Variante ist z.B. SSP
(Solovyev, Salamov, 1991)
25
Nichtlokalität
Selbe Sequenz bildet unterschiedliche Sekundärstrukturen
aus: Val-Asn-Thr-Phe-Val in 1ECN (80-84) und 9RSA (43-47)
1ECN
9RSA
Nichtlokalität
•  Helices: WW zwischen benachbarten
Windungen (max. 5 Reste entfernt)
•  Faltblätter zeigen stärkere Nichtlokalität als
Helices: WW zwischen entfernten (> 10 AS)
Sequenzbereichen notwendig um benachbarte
Faltblätter zu stabilisieren
Methoden der 2. Generation
•  Einbeziehung benachbarter Reste
•  Verbessert Vorhersage für Helices deutlich
•  Faltblätter immer noch schwierig
•  Vielzahl von Methoden basierend auf
–  Künstlichen neuronalen Netzen
–  LDFs (Linear Discriminant Function)
–  Nächster-Nachbar-Klassifizierer
–  Support-Vektor-Maschinen
–  Hidden-Markov-Modellen
26
Methoden der dritten Generation
•  Nur etwa 65% der Information sind lokaler
Natur ) Methoden der 1. + 2. Generation
können nicht viel besser werden
•  Beobachtung: etwa 67% der Reste einer
Sequenz kann man austauschen ohne die
Sekundärstruktur zu ändern
•  Im Laufe der Evolution wurden viele dieser
neutralen Mutationen durchprobiert
) evolutionär verwandte Sequenzen
enthalten diese Information!
PHD
•  PHD verwendet
–  Ein künstliches neuronales Netz (KNN)
–  Profile von homologen Sequenzen
•  Dreischichtiges künstliches neuronales Netz
–  1. + 2. Schicht: Abbildung der Sequenz (bzw. des
Profils) auf die Strukturklassen
–  3. Schicht: Mehrheitsentscheid
•  Das Netzwerk klassifiziert dabei jeweils einen
Ausschnitt von je 10 Aminosäuren links und rechts
der aktuellen Aminosäure
Rost, Sander, JMB (1993), 252, 584)
Künstliche Neuronale Netze
•  Der Signalverarbeitung im ZNS
nachempfunden
•  Meist als Graph dargestellt
–  Jeder Knoten (Neuron) verarbeitet
Signale der vorhergehenden Schicht
–  Kanten sind Gewichte wi zugeordnet
I1
w1
I2
w2
I3
w3
∑/f
•  Eingangssignale werden gewichtet
summiert
•  (Nichtlineare) Aktivierungsfunktion f
•  Häufig verwendet: f = Logistikfunktion
27
Künstliche Neuronale Netze (KNNe)
•  Neuronale Netze kann man als trainierbare
nichtlineare Funktionen auffassen
•  Es gibt Algorithmen, die die Gewichte eines
vorgegebenen Netzes anhand eines
Trainingsdatensatzes derart trainieren, dass das
Netz für angelegte Testdaten eine gesuchte
Eigenschaft vorhersagt
•  KNNe zählen zu den Methoden des maschinellen
Lernens, eines Zweigs der Künstlichen-IntelligenzForschung (KI)
•  Sie finden vielfältige Anwendung in Ingenieur- und
Naturwissenschaften
–  Mustererkennung
–  Spracherkennung
–  Wirkstoffentwurf
Künstliche Neuronale Netze
•  Beliebige Daten lassen sich numerisch kodieren und
dem Netz als Eingabe anbieten
•  Komplexe neuronale Netze können auf diese Daten
trainiert werden und dann ähnliche Muster wieder
erkennen und korrekt klassifizieren
•  In unserem Fall möchten wir erreichen, dass ein
neuronales Netz die Merkmale der Sequenz erlernt,
die deren Sekundärstruktur bestimmten
A
C
G
K
R
I
T
0
1
0
Helix
(H)
.
.
0
PHD – Struktur des ANN
Query
.
.
K
E
L
N
D
L
E
K
K
Y
N
A
H
I
G
.
.
Alin.
1. Schicht
Seq.
....
Sequenz zu Struktur
....
..
K-HK
.
EDAE
FFFF
SAAS
QKKQ
LLLL
EEEE
...
KEKK
KQEK
FFYF
DDND
AAAA
RKKR
LLLL
GGGG
...
....
....
2. Schicht
3. Schicht
Struktur zu Struktur Jury-Entscheidung
...
∑
2.46
Helix!
∑
0.37
∑
1.26
..
.
Nach: Rost, Sander, JMB, 1993, 232, 584
28
PHD
•  Ergebnisse:
–  Verwendung von Profilen verbessert Q3 um etwa 6%
gegenüber Einzelsequenz, Mehrheitsentscheid um ca. 2%
–  Verbesserte Version PHD3 steigert Q3 auf etwa 75%
•  Darüber hinaus gehende Methoden kombinieren die
Vorhersagen mehrer Methoden zu so genannten
Konsensusmethoden
•  Konsensusmethode erreichen teilweise Q3 = 80%
•  PHD und viele andere Methoden sind auch als OnlineServer verfügbar
•  Man gibt dem Server einfach die Sequenz und erhält
als Rückgabe die vorhergesagte Sekundärstruktur
Beispiel: Lysozym mit Chou-Fasman
Ergebnis
CHOFAS predicts protein secondary structure
version 2.0u61 September 1998
Please cite:
Chou and Fasman (1974) Biochem., 13:222-245
Chou-Fasman plot of @, 129 aa;
1LZY:_ LYSOZYME (E.C.3.2.1.17) - CHAIN _
.
.
.
.
.
.
KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTDGSTDYGILQINS
helix
<-------->
<-------->
<>
sheet
EEEEEEE
EEEEEEEE
turns T
T
T
T T
T
helix
sheet
turns
.
.
.
.
.
.
RWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAKKIASGGNGMNAWVAWRNRCKGTDV
<------------->
<---->
<>
EEEE
TT
T T
T
T
T T
T
HAWIRGCRL
helix
sheet
turns
Residue totals: H: 45
E: 19
T: 15
percent: H: 34.9 E: 14.7 T: 11.6
29
PDB-Struktur
Aus der PDB:
1 KVYGRCELAA AMKRLGLDNY RGYSLGNWVC AAKFESNFNT HATNRNTDGS
B HHHHHH HHHHTTTTTB TTBTHHHHHH HHHHHHTTBT T EEE TTS
51 TDYGILQINS RWWCNDGRTP GSKNLCNIPC SALLSSDITA SVNCAKKIAS
EEETTTTEET TTT B SSST T
TT SBG GGGSSS HH HHHHHHHHHT
101 GGNGMNAWVA WRNRCKGTDV HAWIRGCRL
TTTGGGGSHH HHHHTTTTTG GGGGTT
KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESN
helix
<-------->
<-------->
sheet
EEEEEEE
turns T
T
Zusammenfassung
•  Sekundärstrukturvorhersage ist ein erster
Schritt in der Vorhersage der Tertiärstruktur
•  Einfachste Methoden suchen nach
Sequenzabschnitten die vermehrt Helix oder
Faltblatt bildende Aminosäuren enthalten
•  Gute Methoden betrachten große
Sequenzabschnitte und beziehen evolutionäre
Information mit ein
•  Man kann Vorhersagegenauigkeiten (Q3) von
75-80% erwarten
Literatur + Links
•  Protein Databank (PDB)
http://www.rcsb.org
•  Dokumentation zum PDB-Format
http://www.rcsb.org/pdb/static.do?p=file_formats/pdb/index.html
•  Software zur Installation auf dem eigenen
Rechner
–  BALLView
http://www.ballview.org
–  RasMol
http://www.openrasmol.org
–  VMD
http://www.ks.uiuc.edu/Research/vmd/
30
Literatur + Links
Literatur
•  Burkhard Rost: Prediction in 1D, In: Structural Bioinformatics (Hrsg.: P. E.
Bourne, H. Weissig), Wiley, 2003
•  Ralf Zimmer, Thomas Lengauer: Structure Prediction, Chapter 5 in T.
Lengauer (Hrsg.): Bioinformatics: From Genomes to Drugs, Wiley, 2002
Sekundärstrukturvorhersage-Server
•  DSSP
http://swift.cmbi.kun.nl/swift/servers/moddssp-submit.html
•  Chou-Fasman
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1
•  PHD
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_phd.html
31
Herunterladen