G-Protein gekoppelte Rezeptoren

Werbung
G-Protein gekoppelte Rezeptoren
Genomische Datenanalyse
3. Kapitel
Proteinsequenzen: Eine andere Form
genomischer Daten
MEEPGAQCAPPPPAGSETWVPQANL
SSAPSQNCSAKDYIYQDSISLPWKV
LLVMLLALITLATTLSNAFVIATVY
RTRKLHTPANYLIASLAVTDLLVSI
LVMPISTMYTVTGRWTLGQVVCDFW
LSSDITCCTASILHLCVIALDRYWA
ITDAVEYSAKRTPKRAAVMIALVWV
FSISISLPPFFWRQAKAEEEVSECV
VNTDHILYTVYSTVGAFYFPTLLLI
ALYGRIYVEARSRILKQTPNRTGKR
LTRAQLITDSPGSTSSVTSINSRVP
DVPSESGSPVYVNQVKVRVSDALLE
KKKLMAARERKATKTLGIILGAFIV
CWLPFFIISLVMPICKDACWFHLAI
FDFFTWLGYLNSLINPIIYTMSNED
FKQAFHKLIRFKCTS
Alphabet von 20 Buchstaben
(Aminosäuren)
Buchstaben haben sehr
unterschiedliche Häufigkeiten
Die Raumstruktur der
Proteine ergibt sich direkt
aus der Sequenz, durch
Wechselwirkung der
Aminosäuren
untereinander und mit der
Umgebung
Also müssen auch diese
Sequenzen Struktur
enthalten und sind
keineswegs zufällig
Rezeptoren sind Proteine, die nach Bindung eines Liganden
einen Effekt auslösen.
z.B. Nach Bindung eines Blutdruck senkenden Medikaments
(Ligand) den Blutdruck senken (Effekt).
Die meisten Rezeptoren sind in der Zellmembran verankert,
sie binden einen Liganden außerhalb der Zelle und bewirken
einen Effekt innerhalb der Zelle.
Dies sind für die pharmazeutische Industrie besonders
interessante Moleküle, denn über sie kann man in den
Stoffwechsel der Zelle eingreifen, ohne dass das Medikament
selbst in die Zelle eindringen muss.
G-Protein gekoppelte Rezeptoren (GPCR) sind die häufigste
Form solcher Transmembran-Rezeptoren.
G-Protein gekoppelte Rezeptoren machen etwa 80% aller Rezeptoren aus.
Sie haben eine charakteristische räumliche Struktur:
Das Protein faltet sich so, dass die Sequenz 7 mal die Membran durchquert,
insgesamt gibt es also sieben Sequenzabschnitte, die in der Membran
liegen. Dazwischen sind Abschnitte, die entweder außerhalb der Zelle oder
innerhalb der Zelle liegen.
Außerhalb der Zelle bindet ein
Ligand.
Dies führt zu einer veränderten
räumlichen Struktur des
Rezeptors, die sich auch
innerhalb der Zelle bemerkbar
macht.
Die veränderte Struktur in der
Zelle bindet und aktiviert ein GProtein, dass eine sehr
spezifische Signalkaskade
auslöst.
Es gibt viele GPCR.
Sie haben alle 7 Transmembran-Abschnitte.
Der Mechanismus, mit dem sie ein Signal von außerhalb der Zelle ins
Innere der Zelle weiterleiten, scheint in etwa immer der Gleiche zu sein.
Die Bindestelle für den Liganden ist spezifisch für unterschiedliche
GPCR und ebenso die Bindestelle für den G-Protein-Komplex.
Das macht auch Sinn, denn schließlich soll ein bestimmtes äußeres
Signal auch eine bestimmte und wohl definierte Reaktion im Innern der
Zelle auslösen.
Die ganze Familie wird als homologe Proteinfamilie angesehen. Das
heißt, man geht davon aus, dass sie alle aus einem Urrezeptor
entstanden sind. Dieser hat sich dann durch Genduplikationen
vervielfältigt. Der Mechanismus der Signalweiterleitung wurde
konserviert, aber die jeweiligen Bindestellen sind mutiert, so dass
sowohl andere Liganden als auch andere G-Proteine binden können.
Wobei spielen GPCR eine Rolle ?
Beim Sehen
Photonen lösen die Aktivierung aus und diese leitet optische Information ins
Gehirn.
Beim Riechen
Wir haben Rezeptoren für alle möglichen Substanzen, für die es vorteilhaft
ist, dass man ihre Präsenz detektieren (riechen) kann. Sie binden an GPCR
und lösen eine Geruchsempfindung aus.
Medikamente
Rauschgift
Wie kann sich das GPCR in der Membran verankern und richtig
ausrichten?
Die Membran besteht aus Lipiden (Fetten). Der Bereich in der Zelle und
außerhalb der Zelle besteht hauptsächlich aus Wasser.
Es gibt Aminosäuren, die wasserabweisend (hydrophob), und andere, die
wasseranziehend (hydrophil) sind.
Genauer kann jeder Aminosäure ein Hydrophobizitätswert zugeordnet werden.
Weist die räumliche Struktur nun Bereiche auf, die eine hohe mittlere
Hydrophobizität haben und davon andere räumlich getrennte mit niedriger
Hydrophobizität, so werden die ersten vom Wasser abgestoßen und wandern in
eine Membram, die sie nicht abstößt, die letzteren richten sich dagegen zum
Wasser hin aus.
Hydrophobe Bereiche in einem Protein verankern dieses in einer Membran.
Beim GPCR sind dies sieben helikale Bereiche, die die Membran durchqueren
und diese Bereiche auch in der Sequenz zusammenhängen.
Es gibt sieben Sequenzabschnitte, die so
sehr wasserabweisend aber nicht
fettabweisend sind, dass sich das Protein
mit ihrer Hilfe in der Membran verankern
kann.
Wie kann man diese Bereiche in der Sequenz
finden ?
MEEPGAQCAPPPPAGSETWVPQANLSSAPSQNCSAKDYIYQDSISLPWKVLLVM
LLALITLATTLSNAFVIATVYRTRKLHTPANYLIASLAVTDLLVSILVMPISTM
YTVTGRWTLGQVVCDFWLSSDITCCTASILHLCVIALDRYWAITDAVEYSAKRT
PKRAAVMIALVWVFSISISLPPFFWRQAKAEEEVSECVVNTDHILYTVYSTVGA
FYFPTLLLIALYGRIYVEARSRILKQTPNRTGKRLTRAQLITDSPGSTSSVTSI
NSRVPDVPSESGSPVYVNQVKVRVSDALLEKKKLMAARERKATKTLGIILGAFI
VCWLPFFIISLVMPICKDACWFHLAIFDFFTWLGYLNSLINPIIYTMSNEDFKQ
AFHKLIRFKCTS
Jede Aminosäure hat eine charakteristische
Hydrophobizität
Wir übersetzen die Sequenz von Aminosäuren in einen Vektor von
Hydrophobizitäten:
M
K
S
I
1.9 -3.9 -0.8 4.5
L
3.8
D
G
-3.5 -0.4 ...
...
Der Vektor von Hydrophobizitäten gibt uns einen Datensatz reeller Zahlen.
Werfen wir einen Blick auf ihre Verteilung (mit Hilfe eines Histogramms)
Hier kann man wenig
erkennen: Über die ganze
Sequenz verstreut gibt es etwa
gleich viel hydrophobe wie
hydrophile Aminosäuren.
Wir können uns unter www.gpcr.org/7tm/ anschauen, wo die
Transmembran-Abschnitte liegen:
DOMAIN
1
116
EXTRACELLULAR (POTENTIAL).
TRANSMEM
117
142
1 (POTENTIAL).
DOMAIN
143
154
CYTOPLASMIC (POTENTIAL).
TRANSMEM
155
175
2 (POTENTIAL).
DOMAIN
176
187
EXTRACELLULAR (POTENTIAL).
TRANSMEM
188
212
3 (POTENTIAL).
DOMAIN
213
232
CYTOPLASMIC (POTENTIAL).
TRANSMEM
233
255
4 (POTENTIAL).
DOMAIN
256
273
EXTRACELLULAR (POTENTIAL).
TRANSMEM
274
299
5 (POTENTIAL).
DOMAIN
300
344
CYTOPLASMIC (POTENTIAL).
TRANSMEM
345
365
6 (POTENTIAL).
DOMAIN
366
377
EXTRACELLULAR (POTENTIAL).
TRANSMEM
378
399
7 (POTENTIAL).
DOMAIN
400
472
CYTOPLASMIC (POTENTIAL).
Teilen wir die Sequenz in Transmembran-Segmente und NichtTransmembran-Segmente auf, und betrachten die Verteilung der
Hydrophobizitätswerte in den einzelnen Bereichen getrennt voneinander, ...
... dann beobachten wir, was zu vermuten war. In den TransmembranSegmenten gibt es viele hohe Hydrophobizitätswerte, weit mehr als niedrige,
und außerhalb ist es gerade umgekehrt.
Wenn das so ist, dann hätten wir die Transmembran-Segmente gar nicht
nachschlagen müssen, sondern hätten sie direkt an der Sequenz
erkennen können:
Betrachte jeweils nur ein
Teilsegment der Sequenz,
z.B. Position 1-20, dann
Position 2-21, dann 3-22 ...
bis man am Ende der
Sequenz angekommen ist.
Man spricht von einem
gleitendem Fenster
(sliding window), mit dem
die Sequenz analysiert
wird.
Problem: Man müsste sich viele Histogramme
nacheinander anschauen. Wir sind bei den
Histogrammen aber nur daran interessiert, ob sie
links- oder rechtslastig sind.
Jedes Fenster bestimmt
ein Sequenz-Segment, für
dass wir ein Histogramm
der Hydro-Werte
betrachten können.
Wie kann man Histogramme (und damit Daten)
zusammenfassen?
Welche Information enthalten Histogramme?
Was ist wichtig, was weniger?
Die Lage der Daten:
Die Form der Histogramme ist recht ähnlich, aber die Daten in Histogramm 1
streuen in etwa um den Wert 0, während die in Histogramm 2 weiter rechts
liegen, und um 1.5 streuen.
Die Daten in Histogramm 1 streuen in
etwa um den Wert 0, währen die in
Histogramm 2 weiter rechts liegen und
um 1.5 streuen.
Wir sprechen hier von der Lage der
Daten, und drücken sie nach Inspektion
mit dem Auge in einer einzigen Zahl
aus.
Wie kann man einen solches Lagemaß
definieren?
Man kann den häufigsten Wert (den Modus) zur Beschreibung der
Lage der Daten verwenden. Dies ist o.k. für glockenförmige
Histogramme. Aber im Fall des linken Histogramms sieht man ein
Problem. Die meisten Daten liegen doch links vom Modus.
Am häufigsten wird der Mittelwert benutzt:
Hat man n reellwertige Datenpunkte x=(x1 ,...xn), dann ist
das arithmetische Mittel dieser Daten.
z.B.
Im Datensatz oben
liegt der Mittelwert
mitten in den Daten.
Unten ist dies nicht
der Fall.
Es ist klar, dass der
Grund dafür der
Ausreißer ist.
Ob der Mittelwert
trotzdem die Daten
geeignet zusammenfasst, ist fraglich.
Ausreißer
Eine Möglichkeit, den Mittelwert robuster
gegen Ausreißer zu machen, ist
Trimming.
Trimming bedeutet die größten x% und
die kleinsten x% der Werte wegzulassen,
und den Mittelwert aus dem Rest zu
berechnen.
Mittelwert
getrimmter
Mittelwert
Alternativ kann man auch den Median
verwenden:
Dazu ordnet man die Daten x1,..,xn der Größe
nach. Der Median ist der Wert in der Mitte. Es
liegen immer gleich viele Werte rechts wie
links von ihm.
Ist n gerade, dann gibt es nicht einen Wert in
der Mitte, sondern zwei. In diesem Fall ist der
Median das Mittel dieser beiden Zahlen
Median
Lagemaße
•
Der Modus ist der häufigste Wert in den Daten.
•
Der Mittelwert ist das Mittel der Daten.
•
Der Median ist der Wert in der Mitte der Daten.
•
Um den Mittelwert zu berechnen, muss man mit den Daten rechnen
können, sie müssen numerisch sein.
•
Um den Median zu berechnen, muss man die Daten ordnen können,
sie müssen ordinal sein.
•
Den Modus kann man theoretisch immer berechnen. Es macht aber
nur Sinn, wenn die Werte mehrfach auftauchen. Sind alle Werte
verschieden, sind sie auch alle Moden.
•
Beim Zusammenfassen der Häufigkeiten von Basen in Sequenzen ist
der Modus die einzig mögliche der drei beschriebenen Maßzahlen ...
Auch wenn der Begriff Lagemaß hier nicht treffend ist.
•
Mittelwert und Median sind eindeutig. Der Modus ist dies nicht, es
kann mehrere gleich häufige Werte geben.
•
Ein Vektor mit den Häufigkeiten aller vorkommenden Werte ist
ausreichend, um alle drei Lagemaße zu berechnen.
In beiden Histogrammen
verteilen sich die Daten um
den Wert 0. Aber die Daten
links streuen weit weniger als
die rechts.
Wie quantifiziert man Streuung um den Mittelwert?
Wie definiert man ein Streuungsmaß?
Hat man Daten x=(x1,...,xn), dann sind:
Die Varianz und die
Standardabweichung
von x.
mittlerer quadratischer Abstand der Daten zu ihrem Mittelwert
Warum n-1 ?
Warum Quadrat ?
Warum Wurzel ?
Varianz und Standardabweichung
messen Streuung relativ zum
Mittelwert !
Streuung ist immer „Streuung um“
σ=2.51
σ = 0.99
Die 5 Zahlen-Zusammenfassung eines Histogramms und der Boxplot
Ausreißer ?
Min.
-2.1320
1st Qu.
0.3012
•
Größter Wert
•
3. Quartil (wie Median
nur mit 3/4 der Daten
links und 1/4 rechts)
•
Median (2.Quartil)
•
1. Quartil (wie 3.
Quartil nur mit 1/4 der
Daten links und 3/4
rechts)
•
Kleinster Wert
Median
1.2470
3rd Qu.
Max.
1.9850
5.2160
Empirische Verteilungsfunktion (Fn-Plot)
Daten:
-19 36 30 13 -1 6 10 19 -1 -10 26 -25 14 -10 -20 0 -4 -1 -30 -1
Sortiert:
-30 -25 -20 -19 -10 -10 -4 -1 -1 -1 -1 0 6 10 13 14 19 26 30 36
Wertebereich (alle vorkommenden Werte einmal genannt):
-30 -25 -20 -19 -10 -4 -1 0 6 10 13 14 19 26 30 36
Empirische Verteilungsfunktion:
Für eine beliebige Zahl x berechne Fn(x): die relative
Häufigkeit der Werte < x. Trage x gegen Fn(x) ab.
Ein x%-Quantil ist die
Zahl q, so dass x% der
Daten kleiner als q
und 100-x% größer als
q sind. Kann man
diese Zahl nicht genau
bestimmen, trifft man
im Fn-Plot auf eine
Lücke, dann wird das
Mittel des oberen und
des unteren Wertes
genommen.
Das 1. Quartil ist das
25%-Quantil
Der Median das 50%Quantil
Das 3. Quartil ist das
75%-Quantil
Der Fn-Plot fasst das Histogramm nicht zusammen, sondern enthält
die gleiche Information über die Daten in anders aufbereiteter Form.
Die Höhe der Sprünge entspricht der relativen Häufigkeit der
Beobachtungen, ist also proportional zur Höhe des entsprechenden
Balkens im Histogramm.
Zurück zu den GPCR und den gleitenden Fenster
Statt den vielen Histogrammen können wir jetzt auch
zusammenfassende Messzahlen betrachten.
Zunächst Mittelwerte (Moving Average Plot)
am Beispiel des Cannabinoid Rezeptors:
Fenster der Länge 11
1 2 3 4 5 6 7
Trotz der starken
Oszillationen erkennt
man sieben Peaks
(Spitzen). Diese
entstehen durch
Fenster der Länge 11
mit hoher mittlerer
Hydrophobizität.
Die sieben typischen
TransmembranSegmente eines
GPCR ?
1 2 3 4 5 6 7
www.gpcr.org
Das passt ja geradezu perfekt!
TRANSMEM
117
142
TRANSMEM
155
175
TRANSMEM
188
212
TRANSMEM
233
255
TRANSMEM
274
299
TRANSMEM
345
365
TRANSMEM
378
399
Mit der Fensterlänge haben wir aber etwas experimentieren müssen:
Länge 5
Länge 11
Länge 40
Hier ein Plot, in dem die
Standardabweichung pro Fenster
abgetragen ist.
Man erkennt auch hier die
Transmembran-Segmente sehr
deutlich als Bereiche mit deutlich
verminderter Streuung der
Hydrophobizität (um die jeweiligen
Fenster- Mittelwerte).
Scheinbar gibt es einen höheren
selektiven Druck auf die
Transmembran-Segmente.
Dies wird auch durch
Sequenzvergleich bestätigt. Die
GPCR-Sequenzen ähneln sich kaum
noch. Die Zeitpunkte der GenomVerdopplungen liegen lange zurück.
Wenn überhaupt, dann sieht man die
gemeinsame Abstammung in den
Transmembran-Segmenten.
Beide Beobachtungen:
T: Transmembran-Segment
D: Nicht-Transmembran-Segment
•
Erhöhte Hydrophobizität
führt zur Verankerung in
der Membran.
•
Weniger Variabilität in den
TransmembranSegmenten, vermutlich
durch höheren selektiven
Druck.
...
sieht man noch einmal
sehr gut in diesen
fensterweisen Boxplots.
Diesmal sind die
Fensterlängen nicht
konstant, sondern die
Fenster sind den
annotierten Domänen
angepasst.
Zusammenfassung
- Mittelwert
- Median
- Modus
- Streuung
- Varianz
- Standardabweichung
- Ausreißer
- robust
- Quartil
- Quantil
- Boxplot
- Fn-Plot
- Fenster
- Moving Average
Literatur:
Freedman, Pisani, Purves: Kapitel 4
Berry: Kapitel 2.6
Stanton Glantz: Kapitel 2
Stahel: Kapitel 2
Herunterladen