SW-V6-Prot-Structure..

Werbung
V6: Bioinformatische Analyse von Proteinstrukturen
Angelehnt an Kapitel 1 und 5 aus dem Buch von Arthur Lesk
- Hierarchischer Aufbau der Proteinstruktur
- Klassifikation von Proteinstrukturen
5. Vorlesung WS 2005/06
Softwarewerkzeuge
1
Funktion von Proteinen
Strukturproteine (Hüllenproteine von Viren, Cytoskelett)
Enzyme, die chemische Reaktionen katalysieren
Transport- und Speicheproteine (Hämoglobin)
Regulatoren wie Hormone und Rezeptoren/Signalübertragungsproteine
Proteine, die die Transkription kontrollieren
oder an Erkennungsvorgängen beteiligt sind:
Zelladhäsionsproteine, Antikörper
5. Vorlesung WS 2005/06
Softwarewerkzeuge
2
Warum sind Proteine so groß?
Proteine sind große Moleküle.
Ihre Funktion ist oft in einem kleinen Teil der Struktur, dem aktiven Zentrum,
lokalisiert.
Der Rest?
- Korrekte Orientierung der Aminosäuren des aktiven Zentrums
- Bindungsstellen für Interaktionspartner
- Konformationelle Dynamik
Evolution der Proteine: Veränderungen der Struktur, die durch Mutationen in ihrer
Aminosäuresequenz hervorgerufen werden.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
3
Hierarchischer Aufbau
Primärstruktur – Sekundärstruktur – Tertiärstruktur – Quartärnere Struktur –
Komplexe
Welche „Kräfte“ sind für die Ausbildung der verschiedenen „Strukturen“
wichtig?
5. Vorlesung WS 2005/06
Softwarewerkzeuge
4
Einleitung: Aminosäuren
Aminosäuren sind die Bausteine von Proteinen:
Aminogruppe
H
N
H
O
H
R
OH
Carboxylsäure
Aminosäuren unterscheiden sich hinsichtlich ihrer
- Größe
- elektrischen Ladung
- Polarität
- Form und Steifigkeit
5. Vorlesung WS 2005/06
Softwarewerkzeuge
5
Einleitung: hydrophobe Aminosäuren
Proteine sind aus 20 verschiedenen natürlichen
Aminosäuren aufgebaut
H
H
H
N
5 sind hydrophob.
Sie sind vor allem
Im Proteininneren.
N
O
H
OH
H
N
O
H
CH 3
OH
HC
CH3 CH 3
OH
Alanine
Valine
H
H
N
H
O
H
H
Glycine
O
H
N
O
CH
OH
H
H
CH 2
CH3
OH
CH3
Leucine
5. Vorlesung WS 2005/06
H
H
Softwarewerkzeuge
H3C
CH 2
CH 3
Isoleucine
6
Einleitung: aromatische Aminosäuren
Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan
liegen bei Membranproteinen vor allem in der Interface-region.
H
H
H
N
N
O
OH
N
CH 2
CH 2
OH
OH
CH
H
O
5. Vorlesung WS 2005/06
O
H
N
Phenylalanin
H
O
H
H
CH 2
H
H
H
Tyrosin
Softwarewerkzeuge
Tryptophan
7
Einleitung: Aminosäuren
Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.
Cysteine können Disulfidbrücken bilden.
Prolin ist ein “Helixbrecher”.
H
H
H
N
H
H
OH
CH2 N H
CH2
CH2 H
Methionin
Prolin
N
O
O
H
H
CH 2
S
H
OH
CH 2
O
OH
CH 2
S
CH 3
Cystein
5. Vorlesung WS 2005/06
Softwarewerkzeuge
8
Einleitung: Aminosäuren
Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:
H
H
H
N
O
H
CH 2
CH2
O
Serin
5. Vorlesung WS 2005/06
N
O
H
H
H
OH
CH 2
OH
HC
CH3
O
H
Threonin
Softwarewerkzeuge
9
Einleitung: Aminosäuren
Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der
Proteinoberflächen und in aktiven Zentren.
Thermophile Organismen besitzen besonders viele Ionenpaare auf den Proteinoberflächen.
H
H
H
N
H
H
N
O
CH 2
OH
5. Vorlesung WS 2005/06
OH
H
CH 2
N H
NH2
H N
+
+
Lysin
CH 2
OH
CH2
CH2
NH3
O
H
CH 2
CH2
CH 2
N
O
H
H
H
+
N
H
H
NH2
Arginin
Softwarewerkzeuge
Histidin
10
Einleitung: Aminosäuren
Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.
Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8
werden ihre Carboxylgruppe protoniert.
H
H
H
N
N
O
CH 2
OH
-
O
N
CH 2
CH2
O
OH
O
CH 2
Asparagin
OH
CH2
NH 2
-
Softwarewerkzeuge
N
H
CH 2
OH
H
O
H
O
O
Asparaginsäure
Glutaminsäure
5. Vorlesung WS 2005/06
H
H
O
H
H
O
H
H
O
NH2
Glutamin
11
Buchstaben-Code der Aminosäuren
•
Ein- und Drei-Buchstaben-Codes der Aminosäuren
G
A
L
M
F
W
K
Q
E
S
Glycin
Alanin
Leucin
Methionin
Phenylalanin
Tryptophan
Lysin
Glutamin
Glutaminsäure
Serin
Gly
Ala
Leu
Met
Phe
Trp
Lys
Gln
Glu
Ser
Zusätzliche Codes
B Asn/Asp Z Gln/Glu
P
V
I
C
Y
H
R
N
D
T
Prolin
Valin
Isoleucin
Cystein
Tyrosin
Histidin
Arginin
Asparagin
Asparaginsäure
Threonin
Pro
Val
Ile
Cys
Tyr
His
Arg
Asn
Asp
Thr
X Irgendeine Aminosäure
Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments
und für Proteinstrukturanalyse!
5. Vorlesung WS 2005/06
Softwarewerkzeuge
12
Einleitung: Peptidbindung
In Peptiden und Proteinen sind die Aminosäuren miteinander als lange
Ketten verknüpft.
Ein Paar ist jeweils über eine „Peptidbindung“ verknüpft.
Die Aminosäuresequenz eines
Proteins bestimmt seinen
„genetischen code“.
Die Kenntnis der Sequenz eines
Proteins allein verrät noch nicht
viel über seine Funktion.
Entscheidend ist seine
drei-dimensionale Struktur.
+
H
O
H3N
R1
+
G>0
O
-
+
H3N
O
R2
O
H3N
H O
H
+
H R2
H O
H3N
H
-
O
N
R1
+
+
H
O
-
H2O
O
N
R1
H R2
O
peptide bond
5. Vorlesung WS 2005/06
Softwarewerkzeuge
13
Eigenschaften der Peptidbindung
E.J. Corey und Linus Pauling studierten die Petidbindung in den
1940‘ern und 1950‘ern.
Linus Pauling
Sie fanden: die C-N Länge ist 1.33 Å.
Sie liegt damit zwischen 1.52 Å und 1.25 Å,
was die Werte für eine Einfach- bzw.
Doppelbindung sind.
Die benachbarte C=O Bindung hat eine Länge
Von 1.24 Å, was etwas länger als eine typische
Carbonyl- C=O Doppelbindung ist (1.215 Å).
die Peptidbindung hat einen teilweise
konjugierten Charakter und ist nicht frei drehbar.
Es bleiben damit pro Residue 2 frei drehbare
Diederwinkel des Proteinrückgrats übrig.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
Nobelpreise für
Chemie 1954 und
Frieden 1963
+
H
O
H3N
R1
+
G>0
O
-
+
H3N
O
R2
O
H3N
H O
H
H R2
H O
H3N
H
O
+
-
O
N
R1
H R2
-
O
N
R1
+
+
H
O
peptide bond
14
H2O
Supersekundärstrukturen
-Helix
-Haarnadel
-Element
Lesk-Buch
5. Vorlesung WS 2005/06
Softwarewerkzeuge
15
Einleitung: Sekundärstrukturelemente
Wie seit den 1950‘er Jahren bekannt,
können Aminosäure-Stränge
Sekundärstrukturelemente
bilden:
(aus Stryer, Biochemistry)
-Helices
und -Stränge.
In diesen Konformationen
bilden sich jeweils
Wasserstoffbrückenbindungen
zwischen den C=O und N-H
Atomen des Rückgrats. Daher
sind diese Einheiten strukturell
stabil.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
16
Diederwinkel des Proteinrückgrats
Die dreidimensionale
Faltung des Proteins wird
vor allem durch die
Diederwinkel des
Proteinrückgrats bestimmt.
Pro Residue gibt es 2 frei
drehbare Diederwinkel, die
als und bezeichnet
werden.
Lesk-Buch
5. Vorlesung WS 2005/06
Softwarewerkzeuge
17
Stabilität und Faltung von Proteinen
Die gefaltete Struktur eines Proteins ist
die Konformation, die die günstigste freie
Enthalpie G für diese
Aminosäuresequenz besitzt.
-Faltblatt-Region
Der Ramachandran-Plot charakterisiert
die energetisch günstigen Bereiche des
Aminosäurerückgrats.
r-Helix-Region
(rechtsgängige Helix)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
18
Kompakter Bereich im
Faltungsmuster einer
Molekülkette,
Domänen
der den Anschein hat, “er
könnte auch unabhängig von
den anderen stabil sein”.
Lesk-Buch
SERCA Calcium-Pumpe
cAMP-abhängige Proteinkinase
5. Vorlesung WS 2005/06
Softwarewerkzeuge
19
Modular aufgebaute Proteine
Modular aufgebaute Proteine bestehen aus mehreren Domänen.
Anwendung von SMART (www.smart.embl-heidelberg.de) für die Src-Kinase HcK
ergibt
Sequenz:
MGGRSSCEDP
YVPDPTSTIK
KGDQMVVLEE
RKDAERQLLA
RTLDNGGFYI
EKDAWEIPRE
AFLAEANVMK
SKQPLPKLID
GLARVIEDNE
VTYGRIPYPG
RPTFEYIQSV
GCPRDEERAP
PGPNSHNSNT
SGEWWKARSL
PGNMLGSFMI
SPRSTFSTLQ
SLKLEKKLGA
TLQHDKLVKL
FSAQIAEGMA
YTAREGAKFP
MSNPEVIRAL
LDDFYTATES
5. Vorlesung WS 2005/06
RMGCMKSKFL
PGIREAGSED
ATRKEGYIPS
RDSETTKGSY
ELVDHYKKGN
GQFGEVWMAT
HAVVTKEPIY
FIEQRNYIHR
IKWTAPEAIN
ERGYRMPRPE
QYQQQP
QVGGNTFSKT
IIVVALYDYE
NYVARVDSLE
SLSVRDYDPR
DGLCQKLSVP
YNKHTKVAVK
IITEFMAKGS
DLRAANILVS
FGSFTIKSDV
NCPEELYNIM
ETSASPHCPV
AIHHEDLSFQ
TEEWFFKGIS
QGDTVKHYKI
CMSSKPQKPW
TMKPGSMSVE
LLDFLKSDEG
ASLVCKIADF
WSFGILLMEI
MRCWKNRPEE
Softwarewerkzeuge
20
Beispiel: Src-Kinase HcK
http://jkweb.berkeley.edu/
5. Vorlesung WS 2005/06
Softwarewerkzeuge
21
Klassifikation von Proteinen
Die Klassifikation von Proteinstrukturen
nimmt in der Bioinformatik eine
Schlüsselposition ein, weil sie das
Bindeglied zwischen Sequenz und
Funktion darstellt.
Lesk-Buch
5. Vorlesung WS 2005/06
Softwarewerkzeuge
22
Anwendungen der Hydrophobizität
Lesk-Buch
5. Vorlesung WS 2005/06
Softwarewerkzeuge
23
Anwendungen der Hydrophobizität: Das helikale Rad
Betrachte die Residuen einer
Transmembranhelix …
-Helices in globulären Proteinen
haben oft eine ins Innere des
Proteins weisende „hydrophobe“
Seite und eine „hydrophile“ Seite,
die zum Lösungsmittel gerichtet
ist.
In einer -Helix ist jede Aminosäure
um etwa 100 Grad gegenüber ihrem
Vorgänger verdreht.
Damit müssen sich hydrophile und
hydrophobe Residuen etwa alle
4 Positionen abwechseln.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
Dasselbe Verhalten zeigen
amphipatische Helices, die
auf der Oberfläche einer
Lipid-Doppelschicht binden.
24
Topologie von Membranproteinen
Im Inneren der Lipidschicht kann das Proteinrückgrat keine WasserstoffbrückenBindungen mit den Lipiden ausbilden
die Atome des Rückgrats müssen miteinander Wasserstoffbrückenbindungen
ausbilden,
sie müssen entweder helikale oder -Faltblattkonformation annehmen.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
25
Topologie von Membranproteinen
Die hydrophobe Umgebung erzwingt, dass (zumindest die bisher bekannten)
Strukturen von Transmembranproteinen entweder reine -Barrels (links)
oder reine -helikale Bündel (rechts) sind.
http://www.biologie.uni-konstanz.de/folding/Structure%20gallery%201.html
5. Vorlesung WS 2005/06
Softwarewerkzeuge
26
Superposition von Strukturen und Struktur-Alignment
Vergleich von zwei Proteinstrukturen:
Angabe des RMS-Werts, die Wurzel
der mittleren quadratischen
Abweichung,
oder root-mean-square deviation
RMS =
d i2
n
di : Abstand zwischen den Koordinaten des
i-ten Atompaares
n : Anzahl an Atompaaren
Interessanterweise ist bei zwei
verschiedenen Proteinen oft nicht klar,
welche Atome überlagert werden
sollen!
5. Vorlesung WS 2005/06
Softwarewerkzeuge
27
DALI (Distance-matrix Alignment)
L. Holm & C. Sander
Während der Evolution eines Proteins verändert sich seine Struktur.
Was häufig erhalten bleibt, ist die Verteilung der Kontakte zwischen den Aminosäuren.
Konstruiere Kontaktmatrizen für beide Proteine (leicht)
finde maximal übereinstimmende Untermatrizen der Kontaktmatrizen (schwierig)
http://www.ebi.ac.uk/dali
5. Vorlesung WS 2005/06
Softwarewerkzeuge
28
Wie kann man 2 Proteinstrukturen vergleichen?
Paarweise Sequenzvergleiche
Paarweise Strukturvergleiche?
5. Vorlesung WS 2005/06
Softwarewerkzeuge
29
Partitioning protein space into homologous families
Protein architecture. The tramtrack protein
[2drp] is a small protein (525 heavy
atoms, 63 residues, and 6 elements of
secondary structure), yet it exhibits typical
modular protein architecture with two
compact structural domains, the so-called
zinc fingers.
(A) The most detailed description of
atomic positions is required to understand
the function of the tramtrack protein (gray
and black, running left to right), which
involves binding to a specific base
sequence of DNA (white).
Holm, Sander Science 273, 5275 (1996)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
30
Partitioning protein space into homologous families
(B) The complicated 3D shape of proteins
is encoded in their linear sequence of
amino acids. Side chains stripped off, the
polypeptide backbone (thick) can be seen
meandering from the bottom left to the
upper right. Regular patterns of hydrogen
bonding (thin lines) between amide and
carbonyl groups of the polypeptide
backbone give rise to secondary structure,
shown schematically in (C) as arrows for
strands and cylinders for helices (with
zinc atoms as spheres).
Holm, Sander Science 273, 5275 (1996)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
31
Meaning of structural equivalence
Shape comparison aims at the 1:1
enumeration of equivalent polymer units
in 2 protein molecules.
The problem and solution can be
represented
- in 3D, as a rigid-body superimposition;
- in 2D, as similar patterns in distance
matrices;
- in 1D, as an alignment of amino acid
sequences.
Here, the comparison of the tramtrack
protein with another zinc finger protein,
the human enhancer-binding protein
MBP-1 [1bbo], is used as an example.
(A) In the 3D comparison, the problem is to find
a translation and rotation of one molecule (red:
1bbo) onto the other (blue: 2drpA).
The 3D superimposition (residue centers only,
green lines join equivalenced residue centers,
zinc atoms as spheres) is not exact because of
an internal rotation of the two zinc finger
domains relative to one another.
Holm, Sander Science 273, 5275 (1996)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
32
Ranges of similarity between proteins
Holm et al. Prot Sci 1, 1691 (1992)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
33
Surprising similarities
Holm et al. Prot Sci 1, 1691 (1992)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
34
Surprising similarities
Holm et al. Prot Sci 1, 1691 (1992)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
35
Surprising similarities
Holm et al. Prot Sci 1, 1691 (1992)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
36
Partitioning protein space into homologous families
(B) The 2D distance matrices reveal
the conserved structure of the zinc
fingers (left: distance matrices of the
whole structures; black dots are
intramolecular distances less than
12 Å, 1bbo at bottom and 2drpA on
top; right: distance matrices brought
into register by keeping only rows or
columns corresponding to
structurally equivalent residues).
(C) One-dimensional alignment of
amino acid strings. Evolutionary
comparison aligns the histidine (H)
residues involved in zinc binding
(bold; helices and strands of
secondary structure are underlined).
Holm, Sander Science 273, 5275 (1996)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
37
Algorithms for structural alignment
(A) The 3D lookup is a fast heuristic algorithm that catches easy-to-find
structural similarities. The idea is that in favorable cases, 3D
superimposition of only a pair of secondary structure elements (SSEs)
leads to superimposition of the entire structures.
Top: Structure comparison of an SH3 domain of c-Src kinase [1cskA,
query structure] with the enzyme papain [1ppn, target structure] reveals
similar domain folds, although there is no sequence relation between the
proteins and one is much larger.
The appropriate orientation of the molecules is found by exhaustive
comparison of internal coordinate frames of each protein. An internal
coordinate frame is defined by an ordered pair of SSEs (centering one
SSE at the origin, aligning it with the y axis, and rotating the molecule
around this axis so that the center of a second SSE is in the positive x-y
plane).
Bottom left: Target structure, papain, loaded onto the SSE lookup grid.
Each pair of SSEs where the segment midpoints are within 12 Å defines a
coordinate frame relative to the grid axes. The figure shows the
transformed positions of the 12 SSEs of papain (dotted lines) in each of
the 100 different coordinate frames defined by different pairs of SSEs.
Bottom right: The target lookup grid is probed with the SH3 domain, which
has four SSEs (thick continuous lines). The coordinate frames shown are
the ones yielding the best 3D match of four segments. Iterative extension
of a residue-wise alignment starting from the preorientation defined by the
SSE match shown here leads to the equivalence of 43 C atoms with
1.7 Å root-mean-square positional deviation on an optimal least-squares
superimposition.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
Holm, Sander Science 273, 5275 (1996)
38
Branch-and-bound algorithm
(B) A branch-and-bound algorithm is guaranteed to yield the global optimum but may, in the
worst case, need an exponential number of steps to do so.
First, protein structures A and B are represented by distance matrices (bottom left and right;
each point in a matrix is a residue-residue distance; an internal square is a set of contacts
made by two segments; the secondary structure segments are , , and ).
The problem of shape comparison becomes one of finding a best subset of residues in each
matrix (subsets of rows and columns) such that the set of residues in protein A has a similar
pattern of intramolecular distances as the set in protein A, as in Fig. 2B.
A single solution to the problem is given in terms of the two sets of equivalent residues (an
alignment). The solution space consists of all possible placements of residues in protein B
relative to the segments of residues of protein A. The key algorithmic idea is to recursively
split the solution subspace (schematically shown as a circle at upper left, in which each point
is a solution to the problem and the lines divide subsets of solutions) that yields the highest
upper bound until there is a single alignment trace left:
start with the entire circle; calculate the upper bound for the left (9) and right (17) half; choose
the right half and split it into top (upper bound 10) and bottom (upper bound 16) quarters;
choose the bottom part and split it (left: 14; right: 12); choose the right part; and so on until
the area of solution space has shrunk to a single solution (shown as the residue-residue
alignment matrix enlarged at right). The upper bound for each part of the solution space is
estimated in terms of a simplified subproblem that asks for the best match of residues in
protein B onto a predefined set of residues in protein A (the match is illustrated by the circleended line connecting the single square in matrix A with a set of candidate squares in matrix
B). The best match is the one with the maximal pair score (sum of similarities of distances
between the square in A and the square in B). The predefined set corresponds to residues in
secondary structure elements. The upper bound for each of the segment-segment
submatrices of matrix A is found by calculating the similarity scores between the submatrix in
A and all accessible submatrices in B. An upper bound of the total similarity score (sum over
all segment-segment submatrices in A) for one set of solutions is given by the sum of
separately calculated upper bounds for each segment-segment pair of matrix A.
Holm, Sander Science 273, 5275 (1996)
5. Vorlesung WS 2005/06
Softwarewerkzeuge
39
Zusammenfassung
Die Sekundärstrukturelemente -Helix und -Faltblatt werden durch energetisch
günstige Wasserstoffbrücken zwischen Atomen des Peptidrückgrats gebildet.
Sie sind sequenzunabhängig.
Protein ”folds” ergeben sich durch die Assemblierung von
Sekundärstrukturelementen.
Der Ramachandran-Plot ist ein wichtiges Werkzeug um die Güte von Proteinstrukturen (bzw. –modellen) zu beurteilen.
Proteine sind oft modular aus mehreren Domänen aufgebaut.
Der Vergleich mehrerer Proteinstrukturen ist nicht-trivial.
5. Vorlesung WS 2005/06
Softwarewerkzeuge
40
Herunterladen