G-Protein gekoppelte Rezeptoren Proteinsequenzen MEEPGAQCAPPPPAGSETWVPQANL SSAPSQNCSAKDYIYQDSISLPWKV LLVMLLALITLATTLSNAFVIATVY RTRKLHTPANYLIASLAVTDLLVSI LVMPISTMYTVTGRWTLGQVVCDFW LSSDITCCTASILHLCVIALDRYWA ITDAVEYSAKRTPKRAAVMIALVWV FSISISLPPFFWRQAKAEEEVSECV VNTDHILYTVYSTVGAFYFPTLLLI ALYGRIYVEARSRILKQTPNRTGKR LTRAQLITDSPGSTSSVTSINSRVP DVPSESGSPVYVNQVKVRVSDALLE KKKLMAARERKATKTLGIILGAFIV CWLPFFIISLVMPICKDACWFHLAI FDFFTWLGYLNSLINPIIYTMSNED FKQAFHKLIRFKCTS 1. Alphabet von 20 Buchstaben (Aminosäuren) 2. Buchstaben (Aminosäuren) haben unterschiedliche Häufigkeiten ! Genomische Datenanalyse 3. Kapitel Raumstruktur 1. 2. Die Raumstruktur der Proteine ergibt sich direkt aus der Sequenz, durch Wechselwirkung der Aminosäuren untereinander und mit der Umgebung Also müssen auch diese Sequenzen Strukturen enthalten und sind deswegen keineswegs zufällig http://www.rcsb.org/pdb/ GPCR 1. Rezeptoren sind Proteine, die nach Bindung eines Liganden einen Effekt auslösen: z.B. nach Bindung eines Blutdruck senkenden Medikaments (Ligand) den Blutdruck senken (Effekt). 2. Die meisten Rezeptoren sind in der Zellmembran verankert, sie binden einen Liganden außerhalb der Zelle und bewirken einen Effekt innerhalb der Zelle. 3. Dies sind für die pharmazeutische Industrie besonders interessante Moleküle, denn über sie kann man in den Stoffwechsel der Zelle eingreifen, ohne daß das Medikament selbst in die Zelle eindringen muß. Crystal Structure Of Bovine Rhodopsin (PDB) 4. G-Protein gekoppelte Rezeptoren (GPCR) sind die häufigste Form solcher Transmembran-Rezeptoren. GPCR Sequenzstruktur e ze l xtra r lulä a ze intr är llul 1. G-Protein gekoppelte Rezeptoren machen etwa 80% aller Rezeptoren aus. Sie haben eine charakteristische, räumliche Struktur. 2. Das Protein faltet sich so, daß die Sequenz 7 mal die Membran durchquert, insgesamt gibt es also 7 Sequenzabschnitte, die in der Membran liegen. Dazwischen sind Abschnitte, die entweder außerhalb der Zelle oder innerhalb der Zelle liegen. GPCR Zusammenfassung 1. Es gibt viele GPCR. 2. Sie haben alle 7 Transmembran-Abschnitte. 3. Der Mechanismus, mit dem sie ein Signal von außerhalb der Zelle ins Innere der Zelle weiterleiten, scheint in etwa immer der gleiche zu sein. 4. Die Bindestelle für den Liganden ist spezifisch für unterschiedliche GPCR und ebenso die Bindestelle für den G-Protein-Komplex. Das macht auch Sinn, denn schließlich soll ein bestimmtes äußeres Signal auch eine bestimmte und wohl definierte Reaktion im Innern der Zelle auslösen. 5. Die ganze Familie wird als homologe Proteinfamilie angesehen. Das heißt, man geht davon aus, daß sie alle aus einem Urrezeptor entstanden sind. Dieser hat sich dann durch Genduplikationen vervielfältigt. Der Mechanismus der Signalweiterleitung wurde konserviert, aber die jeweiligen Bindestellen sind mutiert, so daß sowohl andere Liganden als auch andere G-Proteine binden können. GPCR - Mechanismus 1. Außerhalb der Zelle bindet ein Ligand. 2. Dies führt zu einer veränderten räumlichen Struktur des Rezeptors, die sich auch innerhalb der Zelle bemerkbar macht. 3. Die veränderte Struktur in der Zelle bindet und aktiviert ein G-Protein, daß eine spezifische Signalkaskade auslöst. GPCR Familie Hydrophobizität GPCRs sind wichtig Wie kann sich das GPCR in der Membran verankern und richtig ausrichten? 1. 2. Beim Sehen 1. Photonen lösen die Aktivierung der GPCRs aus und diese leitet optische Information ins Gehirn. Die Membran besteht aus Lipiden (Fetten). Der Bereich in der Zelle und außerhalb der Zelle besteht hauptsächlich aus Wasser. 2. Es gibt Aminosäuren die wasserabweisend (hydrophob) und andere die wasseranziehend (hydrophil) sind. 3. Es kann jeder Aminosäure ein Hydrophobizitätswert zugeordnet werden. 4. Weist die räumliche Struktur nun Bereiche auf, die eine hohe mittlere Hydrophobizität haben, und davon andere räumlich getrennte mit niedriger Hydrophobizität, so werden die ersten vom Wasser abgestoßen und wandern in eine Membran, die sie nicht abstößt, die letzteren richten sich dagegen zum Wasser hin aus. 5. Hydrophobe Bereiche in einem Protein verankern dieses in einer Membran. 6. Beim GPCR sind dies sieben helikale Bereiche, die die Membran durchqueren und diese Bereiche sind auch in der Sequenz zusammenhängend. Beim Riechen Wir haben Rezeptoren für alle möglichen Substanzen, für die es vorteilhaft ist, daß man ihre Präsenz detektieren (riechen) kann. Sie binden an GPCRs und lösen eine Geruchsempfindung aus. 3. Medikamente Pharmazeutische Industrie zielt häufig auf GPCRs zur Erstellung neuer Medikamente. 4. Rauschgift Sequenzstruktur e xt raz lär ellu a intr z l är ellu 1. Es gibt sieben Sequenzabschnitte, die wasserabweisend aber nicht fettabweisend sind, so daß sich das Protein mit ihrer Hilfe in der Membran verankern kann. 2. Wie kann man diese Bereiche in der Sequenz finden ? MEEPGAQCAPPPPAGSETWVPQANLSSAPSQNCSAKDYIYQDSISLPWKVLLVMLLALITLATT LSNAFVIATVYRTRKLHTPANYLIASLAVTDLLVSILVMPISTMYTVTGRWTLGQVVCDFWLSS DITCCTASILHLCVIALDRYWAITDAVEYSAKRTPKRAAVMIALVWVFSISISLPPFFWRQAKA EEEVSECVVNTDHILYTVYSTVGAFYFPTLLLIALYGRIYVEARSRILKQTPNRTGKRLTRAQL ITDSPGSTSSVTSINSRVPDVPSESGSPVYVNQVKVRVSDALLEKKKLMAARERKATKTLGIIL GAFIVCWLPFFIISLVMPICKDACWFHLAIFDFFTWLGYLNSLINPIIYTMSNEDFKQAFHKLI RFKCTS Jede Aminosäure hat eine charakteristische Hydrophobizität Hydrophobizität Wir übersetzen die Sequenz von Aminosäuren in einen Vektor von Hydrophobizitäten: M K S I L D G Hydrophobizitäts Verteilung Der Vektor von Hydrophobizitäten gibt uns einen Datensatz reeller Zahlen. Werfen wir einen Blick auf ihre Verteilung (mit Hilfe eines Histogramms) ... 1.9 -3.9 -0.8 4.5 3.8 -3.5 -0.4 ... Hier kann man wenig erkennen: Über die ganze Sequenz verstreut gibt es etwa gleich viel hydrophobe wie hydrophile Aminosäuren. GPCR-Datenbank Wir können uns unter http://www.gpcr.org/7tm/ anschauen, wo die Transmembran-Abschnitte liegen: DOMAIN 1 116 EXTRACELLULAR (POTENTIAL). TRANSMEM 117 142 1 (POTENTIAL). DOMAIN 143 154 CYTOPLASMIC (POTENTIAL). TRANSMEM 155 175 2 (POTENTIAL). DOMAIN 176 187 EXTRACELLULAR (POTENTIAL). TRANSMEM 188 212 3 (POTENTIAL). DOMAIN 213 232 CYTOPLASMIC (POTENTIAL). TRANSMEM 233 255 4 (POTENTIAL). DOMAIN 256 273 EXTRACELLULAR (POTENTIAL). TRANSMEM 274 299 5 (POTENTIAL). DOMAIN 300 344 CYTOPLASMIC (POTENTIAL). TRANSMEM 345 365 6 (POTENTIAL). DOMAIN 366 377 EXTRACELLULAR (POTENTIAL). TRANSMEM 378 399 7 (POTENTIAL). DOMAIN 400 472 CYTOPLASMIC (POTENTIAL). Verteilung II Teilen wir die Sequenz in Transmembran-Segmente und Nicht- TransmembranSegmente auf, und betrachten die Verteilung der Hydrophobizitätswerte in den einzelnen Bereichen getrennt von einander, ... ... dann beobachten wir, was zu vermuten war. In den TransmembranSegmenten gibt es viele hohe Hydrophobizitätswerte, weit mehr als niedrige. Außerhalb ist es gerade umgekehrt. Sliding Window Histogramme Wenn das so ist, dann hätten wir die Transmembran-Segmente gar nicht nachschlagen müssen, sonder hätten sie direkt an der Sequenz erkennen können: 1. 2. 3. Betrachte jeweils nur ein Teilsegment der Sequenz, z.B. Position 1-20, dann Position 2-21, dann 3-22 ... bis man am Ende der Sequenz angekommen ist. Man spricht von einem gleitenden Fenster (sliding window), mit dem die Sequenz analysiert wird. • Wie kann man Histogramme (und damit Daten) zusammenfassen? • Welche Information enthalten Histogramme? • Was ist wichtig und was ist weniger wichtig? Jedes Fenster bestimmt ein Sequenz-Segment, für das wir ein Histogramm der HydrophobizitätsWerte betrachten können. Problem: Man müßte sich viele Histogramme nacheinander anschauen. Wir sind bei den Histogrammen aber nur daran interessiert ob sie, links- oder rechtslastig sind. Lage der Daten Die Form der Histogramme ist ähnlich, aber die Daten in Histogramm 1 streuen um den Wert 0, währen die in Histogramm 2 weiter rechts liegen, und um 1.5 streuen. Lagemaß: Modus Man kann den häufigsten Wert (den Modus) zur Beschreibung der Lage der Daten verwenden. Dies ist o.k. für glockenförmige Histogramme. Aber im Fall des rechten Histogramms sieht man ein Problem: die meisten Daten liegen doch links vom Modus. Lagemaß: Mittelwert Problem: Ausreißer Am häufigsten wird der Mittelwert benutzt: Hat man n reellwertige Datenpunkte x=(x1,...xn), dann ist • Der Mittelwert liegt mitten in dem Datensatz. • Dies ist für die unteren Daten nicht der Fall. Es ist klar, dass der Grund dafür der Ausreißer ist. das arithmetische Mittel dieser Daten. z.B. : • Es ist fraglich, ob der Mittelwert trotzdem die Daten geeignet zusammenfasst. Ausreißer Trimming und Median • Eine Möglichkeit den Mittelwert robuster gegen Ausreißer zu machen ist Trimming. • Trimming bedeutet, die größten x% und die kleinsten x% der Werte wegzulassen und den Mittelwert aus dem Rest zu berechnen. Mittelwert getrimmter Mittelwert • Alternativ kann man auch den Median verwenden: • dazu ordnet man die Daten x1,..,xn der Größe nach. Der Median ist der Wert in der Mitte. Es liegen immer gleichviele Werte rechts wie links von ihm. • Ist n gerade, dann gibt es nicht einen Wert in der Mitte, sondern zwei. In diesem Fall ist der Median das Mittel dieser beiden Zahlen: Median Zusammenfassung: Lagemaße 1. Der Modus ist der häufigste Wert in den Daten. 2. Der Mittelwert ist das Mittel der Daten. 3. Der Median ist der Wert in der Mitte der Daten. • Um den Mittelwert zu berechnen, muß man mit den Daten rechnen können: sie müssen numerisch sein. • Um den Median zu berechnen, muß man die Daten ordnen können, sie müssen ordinal sein. • Den Modus kann man theoretisch immer berechnen. Es macht aber nur Sinn, wenn die Werte mehrfach auftauchen. Sind alle Werte verschieden sind sie auch alle Moden. • Beim Zusammenfassen der Häufigkeiten von Basen in Sequenzen ist der Modus die einzig mögliche der drei beschriebenen Maßzahlen ... auch wenn der Begriff Lagemaß hier nicht treffend ist. o Mittelwert und Median sind eindeutig. Der Modus ist dies nicht, es kann mehrere gleich häufige Werte geben. o Ein Vektor mit den Häufigkeiten aller vorkommenden Werte ist ausreichend um alle drei Lagemaße zu berechnen. Streuungsmaße Interpretation In beiden Histogrammen verteilen sich die Daten um den Wert 0. Aber die Daten links streuen weit weniger als die rechts. mittlerer, quadratischer Abstand der Daten zu ihrem Mittelwert • Wie quantifiziert man Streuung um den Mittelwert? • Wie definiert man ein Streuungsmaß? • Hat man Daten x=(x1,...,xn), dann sind: Die Varianz und die Standardabweichung von x. • Warum n-1 ? • Warum Quadrat ? Varianz und Standardabweichung messen Streuung relativ zum Mittelwert ! • Warum Wurzel ? Boxplot Streuung Histogramm und der zugehörige Boxplot: Streuung ist immer „Streuung um“ Ausreißer ? 1. Größter „normaler“ Wert 2. 3. Quartil (wie Median nur mit 3/4 der Daten links und 1/4 rechts) 3. Median (2.Quartil) 4. 1. Quartil (wie 3. Quartil nur mit 1/4 der Daten links und 3/4 rechts) 5. Kleinster Wert Die 5 Zahlen-Zusammenfassung: σ=2.51 σ = 0.99 Min. -2.1320 1st Qu. 0.3012 Median 1.2470 3rd Qu. 1.9850 Max. 5.2160 Ausreißer sind Werte, die: > 3. Quartil + 1.5 IQR < 1. Quartil - 1.5 IQR wobei IQR=3. Quartil -1. Quatil Empirische Verteilungsfunktion Fn-Plot Quantil • Das x% Quantil ist die Zahl q, so dass x% der Daten kleiner als q und 100-x% größer als q sind. Kann man diese Zahl nicht genau bestimmen, trifft man im Fn-Plot auf eine Lücke, dann wird das Mittel des oberen und des unteren Wertes genommen. Daten: -19 36 30 13 -1 6 10 19 -1 -10 26 -25 14 -10 -20 0 -4 -1 -30 -1 Sortiert: -30 -25 -20 -19 -10 -10 -4 -1 -1 -1 -1 0 6 10 13 14 19 26 30 36 Wertebereich (alle vorkommenden Werte einmal genannt): -30 -25 -20 -19 -10 -4 -1 0 6 10 13 14 19 26 30 36 • Das 1. Quartil ist das 25% Quantil Empirische Verteilungsfunktion: • Der Median das 50% Quantil Für eine beliebige Zahl x berechne Fn(x): die relative Häufigkeit der Werte < x. Trage x gegen Fn(x) ab. • Das 3. Quartil ist das 75% Quantil Histogramm & Fn Plot Robuste „Streumaße“ IQR, MAD Der Fn-Plot fasst das Histogramm nicht zusammen, sondern enthält die gleiche Information über die Daten in anders aufbereiteter Form. Für Daten x=(x1,…,xn) kann man folgende robuste Streumaße definieren: Interquartile Range: IQR = 3. Quartil(x) -1. Quartil(x) (eigentlich kein Streumaß ... Streuung um was?) Median der absoluten Abweichungen der Daten vom Median Die Höhe der Sprünge entspricht der relativen Häufigkeit der Beobachtungen, ist also proportional zur Höhe des entsprechenden Balkens im Histogramm. MAD = MAD(x1,…,xn):=median(y1,…,yn), mit yi = |xi-median(x1,…,xn)|. GPCR Statistik Moving Average Plot Zurück zu den GPCR und dem gleitenden Fenster Zunächst Mittelwerte (Moving Average Plot) am Beispiel des Cannabinoid Rezeptors Statt den vielen Histogrammen können wir jetzt auch zusammenfassende Messzahlen betrachten. Fenster der Länge 11 Transmembran-Segmente Transmembran-Segmente II 1 2 3 4 5 6 7 1 2 3 4 5 6 7 • Trotz der starken Oszillationen erkennt man 7 Peaks (Spitzen). Diese entstehen durch Fenster der Länge 11 mit hoher mittlerer Hydrophobizität. www.gpcr.org • Die sieben typischen Transmembran-Segmente eines GPCR ? Das paßt ja geradezu perfekt! TRANSMEM 117 142 TRANSMEM 155 175 TRANSMEM 188 212 TRANSMEM 233 255 TRANSMEM 274 299 TRANSMEM 345 365 TRANSMEM 378 399 Sequenzvariabilität Fensterlänge Länge 5 Länge 11 Länge 40 Hier ein Plot, in dem die Standardabweichung pro Fenster abgetragen ist. Mit der Fensterlänge haben wir aber etwas experimentieren müssen. Man erkennt auch hier die Transmembran-Segmente sehr deutlich als Bereiche mit deutlich verminderter Streuung der Hydrophobizität (um die jeweiligen FensterMittelwerte). Scheinbar gibt es einen höheren selektiven Druck auf die Transmembran-Segmente. Verteilungsvergleich Zusammenfassung - Mittelwert - Median - Modus - Streuung - Varianz T: Transmembran-Segment - Standardabweichung D: Nicht-Transmembran-Segment - Ausreißer - robust - Quartil - Quantil Beide Beobachtungen: 1. Erhöhte Hydrophobizität führt zur Verankerung in der Membran. 2. Weniger Variabilität in den Transmembran-Segmenten, vermutlich durch höheren selektiven Druck. ... sieht man noch einmal sehr gut in diesen abschnittsweisen Boxplots. Diesmal sind die Fensterlängen nicht konstant, sondern die Fenster sind den annotierten Domänen angepasst. - Boxplot - Fn-Plot - Fenster - Moving Average