Document

V7 Homologie-basierte Proteinmodellierung (SwissModel)
•
Methode: Wissensbasierter Ansatz.
•
Erfordernis: Mindestens 1 bekannte 3D-Struktur eines verwandten Proteins,
•
Prozedur:
•
finde Proteine bekannter Struktur, die zu Inputsequenz verwandt sind.
•
Erzeugung eines multiplen Sequenzalignments mit der Zielsequenz.
•
Generierung eines Frameworks für die neue Sequenz.
•
Konstruiere fehlende Loops.
•
Vervollständige und korrigieren das Proteinrückgrat.
•
Korrigiere die Seitenketten.
•
Überprüfe die Qualität der modellierten Struktur und deren Packung.
•
Strukturverfeinerung durch Energieminimierung und Moleküldynamik.
7. Vorlesung WS 2006/07
Softwarewerkzeuge
1
Modellierung von Proteinstrukturen
Protein structure modeling for structural genomics.
R. Sánchez et al. Nat. Struct. Biol. 7, 986 - 990 (2000)
7. Vorlesung WS 2006/07
Softwarewerkzeuge
2
Methode zur Fold-Erkennung: Threading
•
Gegeben:
– Sequenz:
IVACIVSTEYDVMKAAR…
– Ein Datenbank von möglichen
Proteinstrukturen (“folds”)
•
Bilde die Sequenz auf jeden fold ab
•
Starte dabei bei jeder möglichen
Position
•
Bestimme anhand einer energetischen
Bewertungsfunktion, welcher Fold am
besten zu dieser Sequenz passt.
7. Vorlesung WS 2006/07
Softwarewerkzeuge
3
Homologie/Komperative Modellierung
Qualität der Modellierung
hängt von Sequenzidentität
mit Vorlage ab.
Protein structure modeling for structural
genomics.
R. Sánchez et al. Nat. Struct. Biol. 7, 986 990 (2000)
7. Vorlesung WS 2006/07
Softwarewerkzeuge
4
Überlagerung der 3D-Strukturen
Regionen mit Sequenzähnlichkeit werden automatisch ausgewählt und ihre
Residuen in 3D überlagert.
Diese erste Auswahl wird weiter verfeinert.
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
5
3D Framework für die neue Sequenz
(a) Für alle Atome, die eine ähnliche Position besitzen und vermutlich eine
strukturelle Entsprechung in der neuen Struktur besitzen, werden gemittelte
Positionen als Framework-Koordinaten bestimmt.
(b) Seitenketten mit völlig inkorrekter Geometrie werden entfernt.
(c) Matrix mit Gewichten für lokale Ähnlichkeit.
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
6
Konstruktion fehlender Loops
Konformationen für strukturell abweichende Loops zu konstruieren, ist ein ernstes
Problem bei der vergleichende Modellierung. Seine Lösung ist (noch) offen.
Dies gilt nicht nur für lange Loops, in denen zahlreiche Mutationen auftraten,
sondern auch für kurze Loops im Fall von Insertionen und Deletionen.
Sobald das Alignment von Zielsequenz und der Vorlagesequenz vorliegt, sollte
man überprüfen, ob die eingefügten Gaps ausserhalb von Sekundärstrukturelementen in der 3D-Struktur der Vorlage liegen.
Ein paar Regeln:
- bei sehr kurzen Loops können wir Daten über beta-turns verwenden
7. Vorlesung WS 2006/07
Softwarewerkzeuge
7
Beta-Turns
Eine Aminosäurekette kann ihre
Richtung dadurch umkehren, daß
ein „reverse turn“ durch Bildung
einer H-Bindung zwischen C=O
und H-N gebildet wird.
Wenn dies zwischen zwei
antiparallelen betaSträngen, nennt man
diesen einen betaHaarnadel (hairpin).
Es ergeben sich folgende
Diederwinkel:
Fig. 1.9
table 1.1
table 1.1
[Tramontano book]
7. Vorlesung WS 2006/07
Softwarewerkzeuge
8
Konstruktion fehlender Loops
Ein paar Regeln:
- falls mittellange Loops kompakte
Substrukturen bilden, spielt die
Ausbildung von Wasserstoffbrückenbindungen mit den Atomen des
Rückgrats die wichtigste Rolle für die
Konformation
- falls mittellange Loops ausgedehnte
Konformationen haben, ist für ihre
Stabilisierung meistens eine
hydrophobe Seitenkette
verantwortlich, die ins Proteininnere
zeigt und zwischen die
Sekundärstrukturelemente gepackt ist,
zwischen denen der Loop liegt.
Fig 4.16
[Tramontano book]
7. Vorlesung WS 2006/07
Softwarewerkzeuge
9
Konstruktion fehlender Loops
Sehr ähnliche Konformation
dreier Loops mit
unterschiedlicher Sequenz.
Zwei Loops enthalten ein cisProlin. Die stabilisierenden HBindungen werden mit sehr
unterschiedlichen
Proteingruppen ausgebildet.
Fig 4.17
[Tramontano book]
7. Vorlesung WS 2006/07
Softwarewerkzeuge
10
Konstruktion fehlender Loops
Basierend auf den Verankerungen der Loops werden
(a) wird eine Datenbank bekannter Loopfragmente in der PDB-Datenbank
durchsucht.
Für den neuen Loop verwendet man entweder das am besten passende
Fragment oder ein Framework aus den 5 besten Fragmenten.
(b) Der Torsionsraum der Loopresiduen wird durchsucht
- 7 erlaubte Kombinationen der - Winkel
- benötigter Raum für den gesamten Loop
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
11
Rekonstruktion von fehlendem Proteinrückgrat
Das Rückgrat wird auf der Grundlage von
C -Positionen konstruiert.
- 7 Kombinationen der - Winkel sind
erlaubt.
- Durchsuche Datenbank für BackboneFragmente mit Fenster aus 5 Residuen,
Verwende die Koordinaten der 3 zentralen
Residuen des am besten passenden
Fragments.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
12
Konstruktion unvollständiger/fehlender Seitenketten
Ponder & Richards (1987): einige Aminosäuren bevorzugen bestimmte Winkelbereiche für ihre Seitenkettenwinkel  Rotamerbibliotheken.
Verwende Bibliothek erlaubter Seitenketten-Rotamere geordnet nach der
Häufigkeit des Auftretens in der PDB-Datenbank.
- Erst werden verdrehte (aber komplette) Seitenketten korrigiert.
- fehlende Seitenketten werden aus der Rotamer-Bibliothek ergänzt.
Teste dabei, ob van-der-Waals Überlapps auftreten und ob die
Torsisonswinkel in erlaubten Bereichen liegen.
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
13
Rotamer-Bibliotheken: günstige Diederwinkel
Phe, Tyr, His, Trp
r1 chi1 chi1-120 chi2 chi2+180 Syn-pentane
(N-CA-CB-CG) (C-CA-CB-CG) (CA-CB-CG-XD1) (CA-CB-CG-XD2) interactions
--- ----------- ----------- ------------ -------------- ----------g+
60
-60
60
-120
C,XD1
60
-60
120
-60
N,XD2
60
-60
-120
60
C,XD2
60
-60
-60
120
N,XD1
Conformation likely to be near chi2=+90 or -90
Aromatic sidechain chi2's are perturbed by interaction between XD1 and XD2 and
backbone N and C. Without perturbation, chi2 would be near +90 or -90. When r1 is
trans, interaction between backbone N and XD2 and XD1 at chi2=120 or -60 pushes
the average for chi2 to values below 90 or below -90 respectively. Similarly, for r1 of
g-, the averages are pushed to values above chi2=90 and chi2=-90 by interactions of
N and XD1 and XD2 when chi2 is 60 or -120. For g+ rotamers, interactions at chi2=60
and 120 exert steric conflict about equally, so that chi2 averages 90 degrees.
http://dunbrack.fccc.edu/bbdep/confanalysis.php
7. Vorlesung WS 2006/07
Softwarewerkzeuge
14
Paarungs-Präferenz von Aminosäuren
Bei der Orientierung der Seitenketten wird üblicherweise jede für sich
betrachtet (Rotamer-Bibliothek berüchsichtigt zwar die Konformation des
Rückgrats, aber nicht die Umgebung).
Aminosäuren nehmen jedoch je nach Umgebung unterschiedliche
Konformationen ein.
Diese “Packungseffekte” könnten in der Zukunft ebenfalls für komparative
Modellierung berücksichtigt werden.
K
7. Vorlesung WS 2006/07
Softwarewerkzeuge
15
Salzbrücken
Datenbank für statistische Präferenz für die
Orientierung von Aminosäure-Seitenketten in
der PDB-Datenbank:
http://www.biochem.ucl.ac.uk/bsm/
sidechains/index.html#
Häufigkeit von 1845 Asp-Lys-Kontakte
in PDB-Datenbank
34
66
K
84
60
7. Vorlesung WS 2006/07
Softwarewerkzeuge
31
16
-stacking von aromatischen Ringen
Aromatische Ringe (z.B. Phenol, Benzol, Seitenketten von Tyrosin,
Phenylalanin, Tryptophan, Histidin …) besitzen delokalisiertes
Elektronensystem ausserhalb der Ringebene.
Mehrere dieser Ringe “packen” gerne aufeinander bzw. senkrecht zueinander.
Cluster Phe-Tyr
7. Vorlesung WS 2006/07
1
Softwarewerkzeuge
4
17
Kationen--Wechselwirkung
Die gleichen aromatischen Ringe
wechselwirken gerne senkrecht zur
Ringebene mit positiv geladenen
Gruppen.
Tyr-Lys
Cluster 6
Beispiele: Acetylcholin in
Bindungstasche von
Acetylcholinesterase
Bevorzugte Geometrien für die
Wechselwirkung von TrimethylAmmoniumgruppen mit PhenylRingen
Gohlke & Klebe, JMB 2000
K
7. Vorlesung WS 2006/07
Softwarewerkzeuge
18
Kationen--Wechselwirkung
Wechselwirkung der positiv geladenen Guanidinium-Gruppe von Arg mit dem Elektronensystem von His.
Fast immer planare Packung. Nur in Cluster 3 Ausbildung einer
Wasserstoffbrücke N-H … N
1
2
3
4
K
7. Vorlesung WS 2006/07
Softwarewerkzeuge
19
Überprüfe die Qualität der 3D-Modelle
Analysiere 3D-Umgebung jeder Seitenkette. Erlaubt die Identifizierung
missgefalteter Regionen.
Auch: WHATCHECK
überprüft auch die
Packungsdichte
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
20
Analyse der Packungsdichte eines atomaren Modells
Berechne, welche Bereiche des Proteins für eine kleine Probe zugänglich sind
(Connolly-Oberfläche bzw. Kubisches Gitter). Algorithmus entdeckt Oberflächen
innerhalb und ausserhalb des Proteins. Der Vergleich von Grösse und Verteilung
von internen Cavities zwischen Modell und Kristallstruktur-Vorlage erlaubt es,
Fehler im Modell aufzuspüren.
www.expasy.org/swissmodel/
SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
21
Bewertung der Qualität eines Homologiemodells
1. Allgemeine Gesichtspunkte
•
Ein Modell wird als falsch angesehen, wenn mindestens eines seiner
strukturellen Elemente gegenüber dem Rest des Modells falsch angeordnet ist.
Dies kann durch ein falsches Sequenzalignment entstehen.
Das Modell kann dennoch korrekte Stereochemie besitzen.
•
Man kann ein Modell als ungenau ansehen wenn seine atomare Koordinaten
mehr als 0.5 Å von einer experimentellen Kontrollstruktur abweichen.
•
Ungenauigkeiten können auch in der Stereochemie (Bindungslängen und –
winkel auftreten). Dies kann leicht mit WhatCheck überprüft werden.
•
Statistische Paarpotentiale für die Verteilung von Aminosäuren in bekannten
Proteinen erlauben manchmal die Aufspürung von fehlerhaften Modellen.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
22
2. Fehlerquellen
Die Qualität eines Modells hängt von 2 Kriterien ab
1
Seine Korrektheit hängt von der Qualität des Sequenzalignments ab.
2
Seine Genauigkeit wird durch seine Abweichung von einer (zukünftig zu
bestimmenden) experimentellen Struktur bestimmt.
Strukturelle Abweichungen haben 2 Ursachen
- der inherente Fehler der Modellierungsprozedur
- durch Umgebung und Methoden der Datenerfassung bewirkte Variationen
der experimentellen Strukturen, die als Vorlage verwendet werden.
•
Ein durch komparative Methoden abgeleitetes Protein-Modell kann nicht
genauer sein als der Unterschied zwischen einer NMR-Struktur und einer
Kristallstruktur desselben Proteins.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
23
3 Proteinkern und Loops
Fast jedes Proteinmodell enthält nicht-konservierte Loops, die als die am
wenigsten zuverlässigen Teile des Proteinmodells angesehen werden können.
Andererseits sind diese Bereiche der Struktur oft auch am flexibelsten –
hohe Temperaturfaktoren in Kristallstrukturen oder hohe Unterschiede zwischen
verschiedenen (gleichsam gültigen) NMR-Strukturen.
Die Residuen im Proteinkern werden gewöhnlich fast in der identischen
Orientierung wie in experimentellen Kontrollstrukturen modelliert.
Residuen an der Proteinoberfläche zeigen grössere Abweichungen.
www.expasy.org/swissmodel/SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
24
Einordnung von Proteinmodellen in 3 Kategorien
1
Modelle, die auf falschen Alignments zwischen Vorlage und Zielprotein
basieren.
Strategie: konstruiere mehrere Modelle für unterschiedliche Alignments.
Wähle das am besten erscheinende Modell.
2
Modelle, die auf korrekten Alignments beruhen, können für zielgerichtete
Mutagenese-Experimente hilfreich sein.
Sind oft nicht zuverlässig genug für detaillierte Untersuchung von
Ligandenbindung.
3
Modelle, die auf einer hohen Sequenzidentität (> 70%) mit der Vorlage
beruhen. Solche Modelle können in Drug Design Projekten verwendet
werden.
Fehler sind jedoch immer, also auch bei sehr hoher Identität möglich.
7. Vorlesung WS 2006/07
Softwarewerkzeuge
25
Test für die Zuverlässigkeit von SwissModell
3DCrunch-Projekt von Expasy zusammen mit SGI. Generiere „HomologieModelle“ für Proteine mit bekannter 3D-Struktur.
Die Vorlagen besaßen 25 – 95 % Sequenzidentität mit dem Zielprotein.
1200 Kontrolle-Modelle.
Grad der Identität [%]
Modell innerhalb von x Å RMSD zur Vorlage
25-29
30-39
40-49
50-59
60-69
70-79
80-89
90-95
<1
0
0
9
18
38
42
45
59
<2
10
18
44
55
72
71
79
78
<3
30
45
63
79
85
82
86
83
<4
46
66
78
86
91
85
94
86
<5
67
77
91
91
92
88
95
91
>5
33
23
9
9
8
12
5
9
www.expasy.org/swissmodel
/SWISS-MODEL.html
7. Vorlesung WS 2006/07
Softwarewerkzeuge
26
Zusammenfassung – Homologiemodellierung
•
Gemeinsamer Kern von Proteinen mit 50% Sequenzidentität
besitzt ca. 1 Å RMSD
•
Dies gilt sogar für absolute identische Sequenzen.
•
Der zuverlässigste Teil eines Proteinmodells ist der Sequenzabschnitt,
den es mit der Vorlage gemeinsam hat. Die größten Abweichungen liegen in
den konstruierten Schleifen.
•
Die Wahl der Modellvorlage ist entscheidend!
Die An- oder Abwesenheit von Ko-faktoren, anderen Untereinheiten oder
Substraten kann Proteinkonformation sehr beeinflussen und somit alle Modelle,
die von ihnen abgeleitet werden.
•
Jeder Fehler im Alignment produziert falsche Modelle!
Solche Alignment-Fehler treten bei Sequenzidentität unter 40% auf.
7. Vorlesung WS 2006/07
Softwarewerkzeuge
27
IV The importance of being unfolded?
Anscheinend sind nicht wenige Proteine der Zelle einen Großteil der Zeit teilweise
entfaltet (P.E. Wright, H.J. Dyson, J. Mol. Biol. 293, 321 (1999))
Dies klingt sehr unerwartet. Was wären mögliche biologische Vorteile davon?
(1) Entfaltete Proteine können schneller abgebaut werden
 kann für Regulation eines schnellen Zellzyklus erforderlich sein.
(2) Molekulare Erkennung ist schneller, wenn Faltung und Bindung gekoppelt sind
(3) Loopstrukturen können viele biologische Targets erkennen
 wichtig für Kommunikation und Regulierung bzw. Bildung großer Komplexe?
(4) Entfaltete Proteine können schnell in andere Zellkompartments transportiert
werden.
7. Vorlesung WS 2006/07
Softwarewerkzeuge
28
NORS regions: no regular secondary structure
NORS regions are defined to have at least 70
consecutive residues with less than 12%
regular secondary structure (helix or strand).
We found four types of proteins.
(A) Connecting loops: long loops that connect
two domains or chains (shown Formate
Dehydrogenase H, 1AA6). of interactions.
(B) Loopy ends: long N- or C-terminal regions
that lack regular secondary structure (shown
Hexon from adenovirus type 2, 1DHX).
(C) Loopy wraps: long loopy regions wrapping
around globular domains (shown Class II
chitinase, 2BAA.
(D) Loopy domains: entire structures that
have almost no regular secondary structure
(shown extra-cellular domain of T beta RI,
1TBI).
7. Vorlesung WS 2006/07
Softwarewerkzeuge
Liu, Tan, Rost, J Mol Biol (2002) 332,
53-64
29
NORS regions use particular amino acids
The height of the one-letter amino acid code is
proportional to the abundance of the respective
acid in each data set. The actual value is the
difference in occurrence with respect to the
frequency observed in a sequence-unique subset
of PDB:
p  p2
z 1
 P P .
Inverted letters indicate acids that are less
frequent than 'expected'. The amino acids are
sorted by 'flexibility' , with the more rigid
ones on the left. Overall, NORS regions are as
abundant in more flexible residues as loop
regions in PDB . However, we found considerably
more Serine (S), Glutamine (Q), and Glycine (G)
and considerably fewer Arginine (R), Aspartic
acid (D), Glutamic acid (E), Tryptophan (W), and
Phenylalanine (F) in NORS regions than in loop
regions, in general.
1
2
Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64
7. Vorlesung WS 2006/07
Softwarewerkzeuge
30
Many NORS regions predicted in proteomes
We predicted many NORS regions in 31 entirely
sequenced organisms. NORS proteins appeared
particularly abundant in eukaryotes.
(A) gives the percentage of proteins in respective
proteome for which at least one NORS region is
predicted. High enrichment in eukaryotic
proteomes!
(B) illustrates the percentage of all the residues
of the respective proteome for which a NORS
region is predicted.
(C) gives the percentage of all predicted NORS
regions that are between N and N+10 residues
long (note that, by definition, NORS regions are
longer than 70 residues). Surprisingly, almost
15% of all the predicted NORS regions extend
over more than 200 residues (inset of C).
7. Vorlesung WS 2006/07
Liu, Tan, Rost, J Mol Biol (2002) 332, 53-64
Softwarewerkzeuge
31
Prion: ein ungeklärtes Beispiel für misgefaltete Proteine
Das Prion-Protein PrPc:
ist ein normales zelluläres Glycoprotein
- ist an die Plasmamembran über einen
GPI-Anker angehängt
- hat 209 Aminosäuren
Seine genaue Funktion ist unbekannt.
Cu2+ Speicherung, Erinnerung?
Struktur aus NMR-Bestimmungen bekannt:
Die N-terminale Region 23-120 ist sehr
flexibel und meist ungeordnet.
C-terminale Region enthält 3 -Helices,
2 kurze -Stränge
PrPc wird schnell durch Proteinase K abgebaut
7. Vorlesung WS 2006/07
Softwarewerkzeuge
32