G-Protein gekoppelte Rezeptoren Genomische Datenanalyse 3. Kapitel Proteinsequenzen: Eine andere Form genomischer Daten MEEPGAQCAPPPPAGSETWVPQANL SSAPSQNCSAKDYIYQDSISLPWKV LLVMLLALITLATTLSNAFVIATVY RTRKLHTPANYLIASLAVTDLLVSI LVMPISTMYTVTGRWTLGQVVCDFW LSSDITCCTASILHLCVIALDRYWA ITDAVEYSAKRTPKRAAVMIALVWV FSISISLPPFFWRQAKAEEEVSECV VNTDHILYTVYSTVGAFYFPTLLLI ALYGRIYVEARSRILKQTPNRTGKR LTRAQLITDSPGSTSSVTSINSRVP DVPSESGSPVYVNQVKVRVSDALLE KKKLMAARERKATKTLGIILGAFIV CWLPFFIISLVMPICKDACWFHLAI FDFFTWLGYLNSLINPIIYTMSNED FKQAFHKLIRFKCTS Alphabet von 20 Buchstaben (Aminosäuren) Buchstaben haben sehr unterschiedliche Häufigkeiten Die Raumstruktur der Proteine ergibt sich direkt aus der Sequenz, durch Wechselwirkung der Aminosäuren untereinander und mit der Umgebung Also müssen auch diese Sequenzen Struktur enthalten und sind keineswegs zufällig Rezeptoren sind Proteine, die nach Bindung eines Liganden einen Effekt auslösen. z.B. Nach Bindung eines Blutdruck senkenden Medikaments (Ligand) den Blutdruck senken (Effekt). Die meisten Rezeptoren sind in der Zellmembran verankert, sie binden einen Liganden außerhalb der Zelle und bewirken einen Effekt innerhalb der Zelle. Dies sind für die pharmazeutische Industrie besonders interessante Moleküle, denn über sie kann man in den Stoffwechsel der Zelle eingreifen, ohne dass das Medikament selbst in die Zelle eindringen muss. G-Protein gekoppelte Rezeptoren (GPCR) sind die häufigste Form solcher Transmembran-Rezeptoren. G-Protein gekoppelte Rezeptoren machen etwa 80% aller Rezeptoren aus. Sie haben eine charakteristische räumliche Struktur: Das Protein faltet sich so, dass die Sequenz 7 mal die Membran durchquert, insgesamt gibt es also sieben Sequenzabschnitte, die in der Membran liegen. Dazwischen sind Abschnitte, die entweder außerhalb der Zelle oder innerhalb der Zelle liegen. Außerhalb der Zelle bindet ein Ligand. Dies führt zu einer veränderten räumlichen Struktur des Rezeptors, die sich auch innerhalb der Zelle bemerkbar macht. Die veränderte Struktur in der Zelle bindet und aktiviert ein GProtein, dass eine sehr spezifische Signalkaskade auslöst. Es gibt viele GPCR. Sie haben alle 7 Transmembran-Abschnitte. Der Mechanismus, mit dem sie ein Signal von außerhalb der Zelle ins Innere der Zelle weiterleiten, scheint in etwa immer der Gleiche zu sein. Die Bindestelle für den Liganden ist spezifisch für unterschiedliche GPCR und ebenso die Bindestelle für den G-Protein-Komplex. Das macht auch Sinn, denn schließlich soll ein bestimmtes äußeres Signal auch eine bestimmte und wohl definierte Reaktion im Innern der Zelle auslösen. Die ganze Familie wird als homologe Proteinfamilie angesehen. Das heißt, man geht davon aus, dass sie alle aus einem Urrezeptor entstanden sind. Dieser hat sich dann durch Genduplikationen vervielfältigt. Der Mechanismus der Signalweiterleitung wurde konserviert, aber die jeweiligen Bindestellen sind mutiert, so dass sowohl andere Liganden als auch andere G-Proteine binden können. Wobei spielen GPCR eine Rolle ? Beim Sehen Photonen lösen die Aktivierung aus und diese leitet optische Information ins Gehirn. Beim Riechen Wir haben Rezeptoren für alle möglichen Substanzen, für die es vorteilhaft ist, dass man ihre Präsenz detektieren (riechen) kann. Sie binden an GPCR und lösen eine Geruchsempfindung aus. Medikamente Rauschgift Wie kann sich das GPCR in der Membran verankern und richtig ausrichten? Die Membran besteht aus Lipiden (Fetten). Der Bereich in der Zelle und außerhalb der Zelle besteht hauptsächlich aus Wasser. Es gibt Aminosäuren, die wasserabweisend (hydrophob), und andere, die wasseranziehend (hydrophil) sind. Genauer kann jeder Aminosäure ein Hydrophobizitätswert zugeordnet werden. Weist die räumliche Struktur nun Bereiche auf, die eine hohe mittlere Hydrophobizität haben und davon andere räumlich getrennte mit niedriger Hydrophobizität, so werden die ersten vom Wasser abgestoßen und wandern in eine Membram, die sie nicht abstößt, die letzteren richten sich dagegen zum Wasser hin aus. Hydrophobe Bereiche in einem Protein verankern dieses in einer Membran. Beim GPCR sind dies sieben helikale Bereiche, die die Membran durchqueren und diese Bereiche auch in der Sequenz zusammenhängen. Es gibt sieben Sequenzabschnitte, die so sehr wasserabweisend aber nicht fettabweisend sind, dass sich das Protein mit ihrer Hilfe in der Membran verankern kann. Wie kann man diese Bereiche in der Sequenz finden ? MEEPGAQCAPPPPAGSETWVPQANLSSAPSQNCSAKDYIYQDSISLPWKVLLVM LLALITLATTLSNAFVIATVYRTRKLHTPANYLIASLAVTDLLVSILVMPISTM YTVTGRWTLGQVVCDFWLSSDITCCTASILHLCVIALDRYWAITDAVEYSAKRT PKRAAVMIALVWVFSISISLPPFFWRQAKAEEEVSECVVNTDHILYTVYSTVGA FYFPTLLLIALYGRIYVEARSRILKQTPNRTGKRLTRAQLITDSPGSTSSVTSI NSRVPDVPSESGSPVYVNQVKVRVSDALLEKKKLMAARERKATKTLGIILGAFI VCWLPFFIISLVMPICKDACWFHLAIFDFFTWLGYLNSLINPIIYTMSNEDFKQ AFHKLIRFKCTS Jede Aminosäure hat eine charakteristische Hydrophobizität Wir übersetzen die Sequenz von Aminosäuren in einen Vektor von Hydrophobizitäten: M K S I 1.9 -3.9 -0.8 4.5 L 3.8 D G -3.5 -0.4 ... ... Der Vektor von Hydrophobizitäten gibt uns einen Datensatz reeller Zahlen. Werfen wir einen Blick auf ihre Verteilung (mit Hilfe eines Histogramms) Hier kann man wenig erkennen: Über die ganze Sequenz verstreut gibt es etwa gleich viel hydrophobe wie hydrophile Aminosäuren. Wir können uns unter www.gpcr.org/7tm/ anschauen, wo die Transmembran-Abschnitte liegen: DOMAIN 1 116 EXTRACELLULAR (POTENTIAL). TRANSMEM 117 142 1 (POTENTIAL). DOMAIN 143 154 CYTOPLASMIC (POTENTIAL). TRANSMEM 155 175 2 (POTENTIAL). DOMAIN 176 187 EXTRACELLULAR (POTENTIAL). TRANSMEM 188 212 3 (POTENTIAL). DOMAIN 213 232 CYTOPLASMIC (POTENTIAL). TRANSMEM 233 255 4 (POTENTIAL). DOMAIN 256 273 EXTRACELLULAR (POTENTIAL). TRANSMEM 274 299 5 (POTENTIAL). DOMAIN 300 344 CYTOPLASMIC (POTENTIAL). TRANSMEM 345 365 6 (POTENTIAL). DOMAIN 366 377 EXTRACELLULAR (POTENTIAL). TRANSMEM 378 399 7 (POTENTIAL). DOMAIN 400 472 CYTOPLASMIC (POTENTIAL). Teilen wir die Sequenz in Transmembran-Segmente und NichtTransmembran-Segmente auf, und betrachten die Verteilung der Hydrophobizitätswerte in den einzelnen Bereichen getrennt voneinander, ... ... dann beobachten wir, was zu vermuten war. In den TransmembranSegmenten gibt es viele hohe Hydrophobizitätswerte, weit mehr als niedrige, und außerhalb ist es gerade umgekehrt. Wenn das so ist, dann hätten wir die Transmembran-Segmente gar nicht nachschlagen müssen, sondern hätten sie direkt an der Sequenz erkennen können: Betrachte jeweils nur ein Teilsegment der Sequenz, z.B. Position 1-20, dann Position 2-21, dann 3-22 ... bis man am Ende der Sequenz angekommen ist. Man spricht von einem gleitendem Fenster (sliding window), mit dem die Sequenz analysiert wird. Problem: Man müsste sich viele Histogramme nacheinander anschauen. Wir sind bei den Histogrammen aber nur daran interessiert, ob sie links- oder rechtslastig sind. Jedes Fenster bestimmt ein Sequenz-Segment, für dass wir ein Histogramm der Hydro-Werte betrachten können. Wie kann man Histogramme (und damit Daten) zusammenfassen? Welche Information enthalten Histogramme? Was ist wichtig, was weniger? Die Lage der Daten: Die Form der Histogramme ist recht ähnlich, aber die Daten in Histogramm 1 streuen in etwa um den Wert 0, während die in Histogramm 2 weiter rechts liegen, und um 1.5 streuen. Die Daten in Histogramm 1 streuen in etwa um den Wert 0, währen die in Histogramm 2 weiter rechts liegen und um 1.5 streuen. Wir sprechen hier von der Lage der Daten, und drücken sie nach Inspektion mit dem Auge in einer einzigen Zahl aus. Wie kann man einen solches Lagemaß definieren? Man kann den häufigsten Wert (den Modus) zur Beschreibung der Lage der Daten verwenden. Dies ist o.k. für glockenförmige Histogramme. Aber im Fall des linken Histogramms sieht man ein Problem. Die meisten Daten liegen doch links vom Modus. Am häufigsten wird der Mittelwert benutzt: Hat man n reellwertige Datenpunkte x=(x1 ,...xn), dann ist das arithmetische Mittel dieser Daten. z.B. Im Datensatz oben liegt der Mittelwert mitten in den Daten. Unten ist dies nicht der Fall. Es ist klar, dass der Grund dafür der Ausreißer ist. Ob der Mittelwert trotzdem die Daten geeignet zusammenfasst, ist fraglich. Ausreißer Eine Möglichkeit, den Mittelwert robuster gegen Ausreißer zu machen, ist Trimming. Trimming bedeutet die größten x% und die kleinsten x% der Werte wegzulassen, und den Mittelwert aus dem Rest zu berechnen. Mittelwert getrimmter Mittelwert Alternativ kann man auch den Median verwenden: Dazu ordnet man die Daten x1,..,xn der Größe nach. Der Median ist der Wert in der Mitte. Es liegen immer gleich viele Werte rechts wie links von ihm. Ist n gerade, dann gibt es nicht einen Wert in der Mitte, sondern zwei. In diesem Fall ist der Median das Mittel dieser beiden Zahlen Median Lagemaße • Der Modus ist der häufigste Wert in den Daten. • Der Mittelwert ist das Mittel der Daten. • Der Median ist der Wert in der Mitte der Daten. • Um den Mittelwert zu berechnen, muss man mit den Daten rechnen können, sie müssen numerisch sein. • Um den Median zu berechnen, muss man die Daten ordnen können, sie müssen ordinal sein. • Den Modus kann man theoretisch immer berechnen. Es macht aber nur Sinn, wenn die Werte mehrfach auftauchen. Sind alle Werte verschieden, sind sie auch alle Moden. • Beim Zusammenfassen der Häufigkeiten von Basen in Sequenzen ist der Modus die einzig mögliche der drei beschriebenen Maßzahlen ... Auch wenn der Begriff Lagemaß hier nicht treffend ist. • Mittelwert und Median sind eindeutig. Der Modus ist dies nicht, es kann mehrere gleich häufige Werte geben. • Ein Vektor mit den Häufigkeiten aller vorkommenden Werte ist ausreichend, um alle drei Lagemaße zu berechnen. In beiden Histogrammen verteilen sich die Daten um den Wert 0. Aber die Daten links streuen weit weniger als die rechts. Wie quantifiziert man Streuung um den Mittelwert? Wie definiert man ein Streuungsmaß? Hat man Daten x=(x1,...,xn), dann sind: Die Varianz und die Standardabweichung von x. mittlerer quadratischer Abstand der Daten zu ihrem Mittelwert Warum n-1 ? Warum Quadrat ? Warum Wurzel ? Varianz und Standardabweichung messen Streuung relativ zum Mittelwert ! Streuung ist immer „Streuung um“ σ=2.51 σ = 0.99 Die 5 Zahlen-Zusammenfassung eines Histogramms und der Boxplot Ausreißer ? Min. -2.1320 1st Qu. 0.3012 • Größter Wert • 3. Quartil (wie Median nur mit 3/4 der Daten links und 1/4 rechts) • Median (2.Quartil) • 1. Quartil (wie 3. Quartil nur mit 1/4 der Daten links und 3/4 rechts) • Kleinster Wert Median 1.2470 3rd Qu. Max. 1.9850 5.2160 Empirische Verteilungsfunktion (Fn-Plot) Daten: -19 36 30 13 -1 6 10 19 -1 -10 26 -25 14 -10 -20 0 -4 -1 -30 -1 Sortiert: -30 -25 -20 -19 -10 -10 -4 -1 -1 -1 -1 0 6 10 13 14 19 26 30 36 Wertebereich (alle vorkommenden Werte einmal genannt): -30 -25 -20 -19 -10 -4 -1 0 6 10 13 14 19 26 30 36 Empirische Verteilungsfunktion: Für eine beliebige Zahl x berechne Fn(x): die relative Häufigkeit der Werte < x. Trage x gegen Fn(x) ab. Ein x%-Quantil ist die Zahl q, so dass x% der Daten kleiner als q und 100-x% größer als q sind. Kann man diese Zahl nicht genau bestimmen, trifft man im Fn-Plot auf eine Lücke, dann wird das Mittel des oberen und des unteren Wertes genommen. Das 1. Quartil ist das 25%-Quantil Der Median das 50%Quantil Das 3. Quartil ist das 75%-Quantil Der Fn-Plot fasst das Histogramm nicht zusammen, sondern enthält die gleiche Information über die Daten in anders aufbereiteter Form. Die Höhe der Sprünge entspricht der relativen Häufigkeit der Beobachtungen, ist also proportional zur Höhe des entsprechenden Balkens im Histogramm. Zurück zu den GPCR und den gleitenden Fenster Statt den vielen Histogrammen können wir jetzt auch zusammenfassende Messzahlen betrachten. Zunächst Mittelwerte (Moving Average Plot) am Beispiel des Cannabinoid Rezeptors: Fenster der Länge 11 1 2 3 4 5 6 7 Trotz der starken Oszillationen erkennt man sieben Peaks (Spitzen). Diese entstehen durch Fenster der Länge 11 mit hoher mittlerer Hydrophobizität. Die sieben typischen TransmembranSegmente eines GPCR ? 1 2 3 4 5 6 7 www.gpcr.org Das passt ja geradezu perfekt! TRANSMEM 117 142 TRANSMEM 155 175 TRANSMEM 188 212 TRANSMEM 233 255 TRANSMEM 274 299 TRANSMEM 345 365 TRANSMEM 378 399 Mit der Fensterlänge haben wir aber etwas experimentieren müssen: Länge 5 Länge 11 Länge 40 Hier ein Plot, in dem die Standardabweichung pro Fenster abgetragen ist. Man erkennt auch hier die Transmembran-Segmente sehr deutlich als Bereiche mit deutlich verminderter Streuung der Hydrophobizität (um die jeweiligen Fenster- Mittelwerte). Scheinbar gibt es einen höheren selektiven Druck auf die Transmembran-Segmente. Dies wird auch durch Sequenzvergleich bestätigt. Die GPCR-Sequenzen ähneln sich kaum noch. Die Zeitpunkte der GenomVerdopplungen liegen lange zurück. Wenn überhaupt, dann sieht man die gemeinsame Abstammung in den Transmembran-Segmenten. Beide Beobachtungen: T: Transmembran-Segment D: Nicht-Transmembran-Segment • Erhöhte Hydrophobizität führt zur Verankerung in der Membran. • Weniger Variabilität in den TransmembranSegmenten, vermutlich durch höheren selektiven Druck. ... sieht man noch einmal sehr gut in diesen fensterweisen Boxplots. Diesmal sind die Fensterlängen nicht konstant, sondern die Fenster sind den annotierten Domänen angepasst. Zusammenfassung - Mittelwert - Median - Modus - Streuung - Varianz - Standardabweichung - Ausreißer - robust - Quartil - Quantil - Boxplot - Fn-Plot - Fenster - Moving Average Literatur: Freedman, Pisani, Purves: Kapitel 4 Berry: Kapitel 2.6 Stanton Glantz: Kapitel 2 Stahel: Kapitel 2