G-Protein gekoppelte Rezeptoren

Werbung
G-Protein gekoppelte
Rezeptoren
Proteinsequenzen
MEEPGAQCAPPPPAGSETWVPQANL
SSAPSQNCSAKDYIYQDSISLPWKV
LLVMLLALITLATTLSNAFVIATVY
RTRKLHTPANYLIASLAVTDLLVSI
LVMPISTMYTVTGRWTLGQVVCDFW
LSSDITCCTASILHLCVIALDRYWA
ITDAVEYSAKRTPKRAAVMIALVWV
FSISISLPPFFWRQAKAEEEVSECV
VNTDHILYTVYSTVGAFYFPTLLLI
ALYGRIYVEARSRILKQTPNRTGKR
LTRAQLITDSPGSTSSVTSINSRVP
DVPSESGSPVYVNQVKVRVSDALLE
KKKLMAARERKATKTLGIILGAFIV
CWLPFFIISLVMPICKDACWFHLAI
FDFFTWLGYLNSLINPIIYTMSNED
FKQAFHKLIRFKCTS
1. Alphabet von 20 Buchstaben
(Aminosäuren)
2. Buchstaben (Aminosäuren)
haben unterschiedliche
Häufigkeiten !
Genomische Datenanalyse
3. Kapitel
Raumstruktur
1.
2.
Die Raumstruktur der Proteine ergibt
sich direkt aus der Sequenz, durch
Wechselwirkung der Aminosäuren
untereinander und mit der
Umgebung
Also müssen auch diese Sequenzen
Strukturen enthalten und sind
deswegen keineswegs zufällig
http://www.rcsb.org/pdb/
GPCR
1. Rezeptoren sind Proteine, die nach Bindung eines
Liganden einen Effekt auslösen: z.B. nach Bindung eines
Blutdruck senkenden Medikaments (Ligand) den
Blutdruck senken (Effekt).
2. Die meisten Rezeptoren sind in der Zellmembran
verankert, sie binden einen Liganden außerhalb der Zelle
und bewirken einen Effekt innerhalb der Zelle.
3. Dies sind für die pharmazeutische Industrie besonders
interessante Moleküle, denn über sie kann man in den
Stoffwechsel der Zelle eingreifen, ohne daß das
Medikament selbst in die Zelle eindringen muß.
Crystal Structure Of Bovine Rhodopsin
(PDB)
4. G-Protein gekoppelte Rezeptoren (GPCR) sind die
häufigste Form solcher Transmembran-Rezeptoren.
GPCR Sequenzstruktur
e
ze l
xtra
r
lulä
a ze
intr
är
llul
1.
G-Protein gekoppelte Rezeptoren machen etwa 80% aller Rezeptoren aus.
Sie haben eine charakteristische, räumliche Struktur.
2.
Das Protein faltet sich so, daß die Sequenz 7 mal die Membran durchquert,
insgesamt gibt es also 7 Sequenzabschnitte, die in der Membran liegen.
Dazwischen sind Abschnitte, die entweder außerhalb der Zelle oder
innerhalb der Zelle liegen.
GPCR Zusammenfassung
1.
Es gibt viele GPCR.
2.
Sie haben alle 7 Transmembran-Abschnitte.
3.
Der Mechanismus, mit dem sie ein Signal von außerhalb der Zelle
ins Innere der Zelle weiterleiten, scheint in etwa immer der gleiche
zu sein.
4.
Die Bindestelle für den Liganden ist spezifisch für unterschiedliche
GPCR und ebenso die Bindestelle für den G-Protein-Komplex. Das
macht auch Sinn, denn schließlich soll ein bestimmtes äußeres
Signal auch eine bestimmte und wohl definierte Reaktion im Innern
der Zelle auslösen.
5.
Die ganze Familie wird als homologe Proteinfamilie angesehen. Das
heißt, man geht davon aus, daß sie alle aus einem Urrezeptor
entstanden sind. Dieser hat sich dann durch Genduplikationen
vervielfältigt. Der Mechanismus der Signalweiterleitung wurde
konserviert, aber die jeweiligen Bindestellen sind mutiert, so daß
sowohl andere Liganden als auch andere G-Proteine binden
können.
GPCR - Mechanismus
1.
Außerhalb der Zelle bindet
ein Ligand.
2.
Dies führt zu einer
veränderten räumlichen
Struktur des Rezeptors, die
sich auch innerhalb der
Zelle bemerkbar macht.
3.
Die veränderte Struktur in
der Zelle bindet und
aktiviert ein G-Protein, daß
eine spezifische
Signalkaskade auslöst.
GPCR Familie
Hydrophobizität
GPCRs sind wichtig
Wie kann sich das GPCR in der Membran verankern und richtig ausrichten?
1.
2.
Beim Sehen
1.
Photonen lösen die Aktivierung der GPCRs aus und diese leitet optische
Information ins Gehirn.
Die Membran besteht aus Lipiden (Fetten). Der Bereich in der Zelle und
außerhalb der Zelle besteht hauptsächlich aus Wasser.
2.
Es gibt Aminosäuren die wasserabweisend (hydrophob) und andere die
wasseranziehend (hydrophil) sind.
3.
Es kann jeder Aminosäure ein Hydrophobizitätswert zugeordnet werden.
4.
Weist die räumliche Struktur nun Bereiche auf, die eine hohe mittlere
Hydrophobizität haben, und davon andere räumlich getrennte mit
niedriger Hydrophobizität, so werden die ersten vom Wasser abgestoßen
und wandern in eine Membran, die sie nicht abstößt, die letzteren richten
sich dagegen zum Wasser hin aus.
5.
Hydrophobe Bereiche in einem Protein verankern dieses in einer
Membran.
6.
Beim GPCR sind dies sieben helikale Bereiche, die die Membran
durchqueren und diese Bereiche sind auch in der Sequenz
zusammenhängend.
Beim Riechen
Wir haben Rezeptoren für alle möglichen Substanzen, für die es vorteilhaft
ist, daß man ihre Präsenz detektieren (riechen) kann. Sie binden an GPCRs
und lösen eine Geruchsempfindung aus.
3.
Medikamente
Pharmazeutische Industrie zielt häufig auf GPCRs zur Erstellung neuer
Medikamente.
4.
Rauschgift
Sequenzstruktur
e xt
raz
lär
ellu
a
intr
z
l är
ellu
1.
Es gibt sieben Sequenzabschnitte, die
wasserabweisend aber nicht
fettabweisend sind, so daß sich das
Protein mit ihrer Hilfe in der Membran
verankern kann.
2.
Wie kann man diese Bereiche in der
Sequenz finden ?
MEEPGAQCAPPPPAGSETWVPQANLSSAPSQNCSAKDYIYQDSISLPWKVLLVMLLALITLATT
LSNAFVIATVYRTRKLHTPANYLIASLAVTDLLVSILVMPISTMYTVTGRWTLGQVVCDFWLSS
DITCCTASILHLCVIALDRYWAITDAVEYSAKRTPKRAAVMIALVWVFSISISLPPFFWRQAKA
EEEVSECVVNTDHILYTVYSTVGAFYFPTLLLIALYGRIYVEARSRILKQTPNRTGKRLTRAQL
ITDSPGSTSSVTSINSRVPDVPSESGSPVYVNQVKVRVSDALLEKKKLMAARERKATKTLGIIL
GAFIVCWLPFFIISLVMPICKDACWFHLAIFDFFTWLGYLNSLINPIIYTMSNEDFKQAFHKLI
RFKCTS
Jede Aminosäure hat eine charakteristische
Hydrophobizität
Hydrophobizität
Wir übersetzen die Sequenz von Aminosäuren in
einen Vektor von Hydrophobizitäten:
M
K
S
I
L
D
G
Hydrophobizitäts
Verteilung
Der Vektor von Hydrophobizitäten gibt uns einen Datensatz reeller Zahlen.
Werfen wir einen Blick auf ihre Verteilung (mit Hilfe eines Histogramms)
...
1.9 -3.9 -0.8 4.5 3.8 -3.5 -0.4 ...
Hier kann man wenig erkennen: Über die ganze Sequenz verstreut gibt es etwa
gleich viel hydrophobe wie hydrophile Aminosäuren.
GPCR-Datenbank
Wir können uns unter http://www.gpcr.org/7tm/ anschauen,
wo die Transmembran-Abschnitte liegen:
DOMAIN
1
116
EXTRACELLULAR (POTENTIAL).
TRANSMEM
117
142
1 (POTENTIAL).
DOMAIN
143
154
CYTOPLASMIC (POTENTIAL).
TRANSMEM
155
175
2 (POTENTIAL).
DOMAIN
176
187
EXTRACELLULAR (POTENTIAL).
TRANSMEM
188
212
3 (POTENTIAL).
DOMAIN
213
232
CYTOPLASMIC (POTENTIAL).
TRANSMEM
233
255
4 (POTENTIAL).
DOMAIN
256
273
EXTRACELLULAR (POTENTIAL).
TRANSMEM
274
299
5 (POTENTIAL).
DOMAIN
300
344
CYTOPLASMIC (POTENTIAL).
TRANSMEM
345
365
6 (POTENTIAL).
DOMAIN
366
377
EXTRACELLULAR (POTENTIAL).
TRANSMEM
378
399
7 (POTENTIAL).
DOMAIN
400
472
CYTOPLASMIC (POTENTIAL).
Verteilung II
Teilen wir die Sequenz in Transmembran-Segmente und Nicht- TransmembranSegmente auf, und betrachten die Verteilung der Hydrophobizitätswerte in den
einzelnen Bereichen getrennt von einander, ...
... dann beobachten wir, was zu vermuten war. In den TransmembranSegmenten gibt es viele hohe Hydrophobizitätswerte, weit mehr als
niedrige. Außerhalb ist es gerade umgekehrt.
Sliding Window
Histogramme
Wenn das so ist, dann hätten wir die Transmembran-Segmente gar nicht
nachschlagen müssen, sonder hätten sie direkt an der Sequenz erkennen
können:
1.
2.
3.
Betrachte jeweils nur ein
Teilsegment der Sequenz,
z.B. Position 1-20, dann
Position 2-21, dann 3-22 ...
bis man am Ende der
Sequenz angekommen ist.
Man spricht von einem
gleitenden Fenster (sliding
window), mit dem die
Sequenz analysiert wird.
•
Wie kann man Histogramme (und
damit Daten) zusammenfassen?
•
Welche Information enthalten
Histogramme?
•
Was ist wichtig und was ist weniger
wichtig?
Jedes Fenster bestimmt
ein Sequenz-Segment, für
das wir ein Histogramm
der HydrophobizitätsWerte betrachten können.
Problem: Man müßte sich viele Histogramme nacheinander anschauen. Wir sind bei den
Histogrammen aber nur daran interessiert ob sie, links- oder rechtslastig sind.
Lage der Daten
Die Form der Histogramme ist ähnlich, aber die Daten in Histogramm 1 streuen um
den Wert 0, währen die in Histogramm 2 weiter rechts liegen, und um 1.5 streuen.
Lagemaß: Modus
Man kann den häufigsten Wert (den Modus) zur Beschreibung der Lage der Daten
verwenden. Dies ist o.k. für glockenförmige Histogramme. Aber im Fall des rechten
Histogramms sieht man ein Problem: die meisten Daten liegen doch links vom Modus.
Lagemaß: Mittelwert
Problem: Ausreißer
Am häufigsten wird der Mittelwert benutzt:
Hat man n reellwertige Datenpunkte x=(x1,...xn), dann ist
• Der Mittelwert liegt mitten in
dem Datensatz.
• Dies ist für die unteren
Daten nicht der Fall. Es ist
klar, dass der Grund dafür
der Ausreißer ist.
das arithmetische Mittel dieser Daten.
z.B. :
• Es ist fraglich, ob der
Mittelwert trotzdem die
Daten geeignet
zusammenfasst.
Ausreißer
Trimming und Median
• Eine Möglichkeit den Mittelwert robuster gegen
Ausreißer zu machen ist Trimming.
• Trimming bedeutet, die größten x% und die
kleinsten x% der Werte wegzulassen und den
Mittelwert aus dem Rest zu berechnen.
Mittelwert
getrimmter
Mittelwert
• Alternativ kann man auch den Median
verwenden:
• dazu ordnet man die Daten x1,..,xn der Größe
nach. Der Median ist der Wert in der Mitte. Es
liegen immer gleichviele Werte rechts wie links
von ihm.
• Ist n gerade, dann gibt es nicht einen Wert in
der Mitte, sondern zwei. In diesem Fall ist der
Median das Mittel dieser beiden Zahlen:
Median
Zusammenfassung: Lagemaße
1.
Der Modus ist der häufigste Wert in den Daten.
2.
Der Mittelwert ist das Mittel der Daten.
3.
Der Median ist der Wert in der Mitte der Daten.
•
Um den Mittelwert zu berechnen, muß man mit den Daten rechnen können: sie
müssen numerisch sein.
•
Um den Median zu berechnen, muß man die Daten ordnen können, sie müssen
ordinal sein.
•
Den Modus kann man theoretisch immer berechnen. Es macht aber nur Sinn, wenn
die Werte mehrfach auftauchen. Sind alle Werte verschieden sind sie auch alle
Moden.
•
Beim Zusammenfassen der Häufigkeiten von Basen in Sequenzen ist der Modus die
einzig mögliche der drei beschriebenen Maßzahlen ... auch wenn der Begriff
Lagemaß hier nicht treffend ist.
o
Mittelwert und Median sind eindeutig. Der Modus ist dies nicht, es kann mehrere
gleich häufige Werte geben.
o
Ein Vektor mit den Häufigkeiten aller vorkommenden Werte ist ausreichend um alle
drei Lagemaße zu berechnen.
Streuungsmaße
Interpretation
In beiden Histogrammen verteilen
sich die Daten um den Wert 0.
Aber die Daten links streuen weit
weniger als die rechts.
mittlerer, quadratischer Abstand der Daten zu ihrem Mittelwert
• Wie quantifiziert man Streuung um den Mittelwert?
• Wie definiert man ein Streuungsmaß?
• Hat man Daten x=(x1,...,xn), dann sind:
Die Varianz und die
Standardabweichung
von x.
• Warum n-1 ?
• Warum Quadrat ?
Varianz und
Standardabweichung messen
Streuung relativ zum Mittelwert !
• Warum Wurzel ?
Boxplot
Streuung
Histogramm und der zugehörige Boxplot:
Streuung ist immer „Streuung um“
Ausreißer ?
1.
Größter „normaler“
Wert
2.
3. Quartil (wie Median
nur mit 3/4 der Daten
links und 1/4 rechts)
3.
Median (2.Quartil)
4.
1. Quartil (wie 3.
Quartil nur mit 1/4 der
Daten links und 3/4
rechts)
5.
Kleinster Wert
Die 5 Zahlen-Zusammenfassung:
σ=2.51
σ = 0.99
Min.
-2.1320
1st Qu.
0.3012
Median
1.2470
3rd Qu.
1.9850
Max.
5.2160
Ausreißer sind Werte, die:
> 3. Quartil + 1.5 IQR
< 1. Quartil - 1.5 IQR
wobei IQR=3. Quartil -1. Quatil
Empirische Verteilungsfunktion
Fn-Plot
Quantil
• Das x% Quantil ist die Zahl q, so
dass x% der Daten kleiner als q und
100-x% größer als q sind. Kann man
diese Zahl nicht genau bestimmen,
trifft man im Fn-Plot auf eine Lücke,
dann wird das Mittel des oberen und
des unteren Wertes genommen.
Daten:
-19 36 30 13 -1 6 10 19 -1 -10 26 -25 14 -10 -20 0 -4 -1 -30 -1
Sortiert:
-30 -25 -20 -19 -10 -10 -4 -1 -1 -1 -1 0 6 10 13 14 19 26 30 36
Wertebereich (alle vorkommenden Werte einmal genannt):
-30 -25 -20 -19 -10 -4 -1 0 6 10 13 14 19 26 30 36
• Das 1. Quartil ist das 25% Quantil
Empirische Verteilungsfunktion:
• Der Median das 50% Quantil
Für eine beliebige Zahl x berechne Fn(x): die
relative Häufigkeit der Werte < x. Trage x gegen
Fn(x) ab.
• Das 3. Quartil ist das 75% Quantil
Histogramm & Fn Plot
Robuste „Streumaße“
IQR, MAD
Der Fn-Plot fasst das Histogramm nicht zusammen, sondern enthält
die gleiche Information über die Daten in anders aufbereiteter Form.
Für Daten x=(x1,…,xn) kann man folgende robuste
Streumaße definieren:
Interquartile Range:
IQR = 3. Quartil(x) -1. Quartil(x)
(eigentlich kein Streumaß ... Streuung um was?)
Median der absoluten Abweichungen der Daten vom
Median
Die Höhe der Sprünge entspricht der relativen Häufigkeit der
Beobachtungen, ist also proportional zur Höhe des entsprechenden
Balkens im Histogramm.
MAD = MAD(x1,…,xn):=median(y1,…,yn),
mit yi = |xi-median(x1,…,xn)|.
GPCR Statistik
Moving Average Plot
Zurück zu den GPCR und dem gleitenden Fenster
Zunächst Mittelwerte (Moving
Average Plot) am Beispiel des
Cannabinoid Rezeptors
Statt den vielen Histogrammen können wir jetzt
auch zusammenfassende Messzahlen betrachten.
Fenster der Länge 11
Transmembran-Segmente
Transmembran-Segmente II
1 2 3 4 5 6 7
1 2 3 4 5 6 7
• Trotz der starken Oszillationen
erkennt man 7 Peaks (Spitzen).
Diese entstehen durch Fenster
der Länge 11 mit hoher mittlerer
Hydrophobizität.
www.gpcr.org
• Die sieben typischen
Transmembran-Segmente eines
GPCR ?
Das paßt ja geradezu perfekt!
TRANSMEM
117
142
TRANSMEM
155
175
TRANSMEM
188
212
TRANSMEM
233
255
TRANSMEM
274
299
TRANSMEM
345
365
TRANSMEM
378
399
Sequenzvariabilität
Fensterlänge
Länge 5
Länge 11
Länge 40
Hier ein Plot, in dem die Standardabweichung pro Fenster abgetragen ist.
Mit der Fensterlänge haben wir aber etwas experimentieren müssen.
Man erkennt auch hier die Transmembran-Segmente sehr deutlich als Bereiche mit
deutlich verminderter Streuung der Hydrophobizität (um die jeweiligen FensterMittelwerte).
Scheinbar gibt es einen höheren selektiven Druck auf die Transmembran-Segmente.
Verteilungsvergleich
Zusammenfassung
- Mittelwert
- Median
- Modus
- Streuung
- Varianz
T: Transmembran-Segment
- Standardabweichung
D: Nicht-Transmembran-Segment
- Ausreißer
- robust
- Quartil
- Quantil
Beide Beobachtungen:
1.
Erhöhte Hydrophobizität führt zur Verankerung in der Membran.
2.
Weniger Variabilität in den Transmembran-Segmenten, vermutlich durch
höheren selektiven Druck.
...
sieht man noch einmal sehr gut in diesen abschnittsweisen Boxplots.
Diesmal sind die Fensterlängen nicht konstant, sondern die Fenster sind
den annotierten Domänen angepasst.
- Boxplot
- Fn-Plot
- Fenster
- Moving Average
Herunterladen