Neutrale Evolution vs. Selektion basierend auf einer Sequenz Ulrich Seyfarth 16. November 2004 Geschichte Bisher immer nur Vergleiche zwischen verschiedenen Nukleotiden und Aminosäuren 1. Zeigt Varianz einer Spezies auf - durch Betrachten unterschiedlicher Genotypen Geschichte Bisher immer nur Vergleiche zwischen verschiedenen Nukleotiden und Aminosäuren 1. Zeigt Varianz einer Spezies auf - durch Betrachten unterschiedlicher Genotypen 2. Erkenntnisse über ähnliche Gene bei unterschiedlichen Spezies führen zu Rückschlüssen auf eine mögliche, gemeinsame ”Mutterspezies” und strukturieren damit die verschiedenen Arten in einen Stammbaum Motivation Hier: Vergleiche auf Basis eines einzelnen Genoms 1. Um den unterschiedlichen Selektionsdruck auf Gene/Gensequenzen sichtbar zu machen • • • • Setzt auf der Ebene von Codons an Klassifiziert Gene nach ihrer Stabilität Hilft, Gene ihren Funktionen zuzuordnen Zeigt mögliche Angriffspunkte für Medikamente bei Krankheitserregern • Man braucht nicht homologe Gensequenzen zu suchen, kann also das gesamte Genom analysieren Motivation Arten von Selektionsdruck (allgemein) 1. Eingeschränkte Auswahl an 2. Gefahren: Motivation Arten von Selektionsdruck (allgemein) 1. Eingeschränkte Auswahl an • Partnern • Lebensraum • Nahrung 2. Gefahren: Motivation Arten von Selektionsdruck (allgemein) 1. Eingeschränkte Auswahl an • Partnern • Lebensraum • Nahrung 2. Gefahren: • Räuber • Wetter • Krankheiten Motivation Projektion auf Proteine von Parasiten 1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil) 2. Verbindung zum Host-System (hochgradig anpassungsfähig) Motivation Projektion auf Proteine von Parasiten 1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil) • Entwickelt sich nur langsam, ist sehr optimiert 2. Verbindung zum Host-System (hochgradig anpassungsfähig) Motivation Projektion auf Proteine von Parasiten 1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil) • Entwickelt sich nur langsam, ist sehr optimiert • Wäre möglicher Angriffspunkt für Medikamente 2. Verbindung zum Host-System (hochgradig anpassungsfähig) Motivation Projektion auf Proteine von Parasiten 1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil) • Entwickelt sich nur langsam, ist sehr optimiert • Wäre möglicher Angriffspunkt für Medikamente 2. Verbindung zum Host-System (hochgradig anpassungsfähig) • Varianz bereitet Antigenen Schwierigkeiten • Mutation kann helfen, auf andere Hostsysteme zu springen Berechnung der Volatilität Grundlagen der Berechnung • Durch Punktmutationen hat jedes Codon 9 mögliche Nachbarn • Mutationen führen zwar zu anderem Codon, verschlüsseln aber entweder eine andere oder wieder dieselbe Aminosäure • Mutationen zu Stop-Codons verändern Gen dramatisch • Mehrfachmutationen gehen mit O(t 2 ) Berechnung der Volatilität Grundlagen der Berechnung • Durch Punktmutationen hat jedes Codon 9 mögliche Nachbarn • Mutationen führen zwar zu anderem Codon, verschlüsseln aber entweder eine andere oder wieder dieselbe Aminosäure • Mutationen zu Stop-Codons verändern Gen dramatisch • Mehrfachmutationen gehen mit O(t 2 ) • Definiere Volatilität mit: ν(c) = 1 no. of neighbours P D[acid(c), acid(ci )], neighbours ci wobei D die Hamming-Metrik ist und Stop-Codons nicht gezählt werden. Bestimmung der Volatilität (Beispiel) CGA (R) Berechnung der Volatilität des Ausgangscodons CGA (Arginin): Bestimmung der Volatilität (Beispiel) CGG (R) CGC (R) AGA (R) GGA (G) CGA (R) CGT (R) CCA (P) CAA (Q) TGA (Z) CTA (L) Es gibt 9 mögliche Nachbarcodons, Bestimmung der Volatilität (Beispiel) CGG (R) CGC (R) AGA (R) GGA (G) CGA (R) CGT (R) CCA (P) CAA (Q) TGA (Z) CTA (L) 8 bleiben, wenn man das Stop-Codon wegfallen lässt, Bestimmung der Volatilität (Beispiel) CGG (R) CGC (R) AGA (R) GGA (G) CGA (R) CGT (R) CCA (P) CAA (Q) TGA (Z) CTA (L) 4 verschlüsseln eine andere Aminosäure, also ist die Volatilität 48 . Verschlüsselung der Aminosäuren durch Codons Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall • Logische Folgerung: Die Volatilität eines gesamten Genes berechnen Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall • Logische Folgerung: Die Volatilität eines gesamten Genes berechnen 1. Volatilität aller Codons des betreffenden Genes addieren Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall • Logische Folgerung: Die Volatilität eines gesamten Genes berechnen 1. Volatilität aller Codons des betreffenden Genes addieren 2. Produzieren von 106 ”zufälligen” Realisierungen des Genes genauer Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall • Logische Folgerung: Die Volatilität eines gesamten Genes berechnen 1. Volatilität aller Codons des betreffenden Genes addieren 2. Produzieren von 106 ”zufälligen” Realisierungen des Genes genauer 3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen Algorithmus 2. Teil Nun die Statistik • Das kann noch nicht alles sein • Die Volatilität eines einzelnen Platzes hat einen grossen statistischen Fehler • In der Regel interessiert sich niemand für ein einzelnes Codon • Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber dem Zufall • Logische Folgerung: Die Volatilität eines gesamten Genes berechnen 1. Volatilität aller Codons des betreffenden Genes addieren 2. Produzieren von 106 ”zufälligen” Realisierungen des Genes genauer 3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen 4. Setze P als das Verhältnis zwischen den Realisierungen, die eine Volatilität grösser/gleich der realen haben, und der Gesamtanzahl Algorithmus 2. Teil Erkenntnisse • Was bringt P nun konkret ? • Der berechnete Wert ist die relative Abweichung der Volatilität eines Genes zum gesamten Genom ⇒ damit ist aber keine absolute Aussage möglich • Ist P(G ) nahe null, so ist die Volatilität des Genes G vergleichsweise hoch • Bei einer relativ niedrigen Volatilität nähert sich P(G ) eins • Molekulare Uhren können in Verbindung mit der Volatilität verbessert werden • Die Stabilität eines Genes ist ja direkt verknüpft mit der Mutationsrate auf Aminosäurebasis • Vermutlich nimmt die Stabilität der Grundbestandteile eines Organismusses schneller zu, als Gene, die für Verbindungen nach ”aussen” sorgen Anwendungsmöglichkeiten Projektion auf reale Beispiele • Wie anfangs angedeutet, haben Gene, die für die Verbindung zum Host-System zuständig sind eine extrem hohe Volatilität, Gene im Bereich der Kernstruktur eine sehr geringe • Beispiel M. tuberculosis: 1. Gene aus der PE/PPE Familie, die für die äussere Struktur des Bakteriums zuständig sind, haben eine sehr viel höhere Volatilität (P < 10−6 ) 2. Viele Gene waren bisher unverstanden, es gibt welche mit P > 0.999, die gleichzeitig überlebensnotwendig sind und somit mögliche Angriffspunkte für Medikamente sein könnten 3. Gene mit sehr hoher bzw. sehr niedriger Volatilität sind sehr gleichmässig über das Genom verteilt Resultat zweier Genomscans Anwendung Erkenntnisse • Wie gut ist diese Statistik bei extremen Verhältnissen ? • Unterschiedliche Mutationsraten der Gensequenzen beeinflussen das Ergebnis nicht, es wird der Selektionsdruck berechnet • Die anfängliche Wahrscheinlichkeit für ein bestimmtes Codon muss über das ganze Genom gleich sein • Es muss angenommen werden, dass Mutationen zufällig geschehen • Die Berechnung funktioniert nur für Punktmutationen, für andere Effekte muss auf Methoden zurückgegriffen werden, die verschiedene Genome miteinander vergleichen Ausblick Erweiterungen • Kann der Algorithmus noch verbessert werden ? • Sind gewisse Mutationen wahrscheinlicher als andere (z.B. transitions/transversions), so muss die Formel angepasst werden: P Pri D[acid(c), acid(ci )] ν(c) = rj neighbours ci • Die einfache Hemming-Metrik ließe sich verbessern • Einzelne Aminosäuren könnten stärker gewichtet werden • Die zufälligen Vergleichsverteilungen könnten noch mehr angepasst werden Literatur • Detecting selection using a single genome sequence of M. tuberculosis and P. falciparum, J.B. Plotkin, J. Dushoff, H.B. Fraser, Nature 428, 942 (2004) • www.wikipedia.com Algorithmus 2. Teil Einschub • Wie sehen diese zufälligen Realisierungen des Genes aus ? 1. Man betrachtet die relative Häufigkeit jedes Codons im gesamten Genom 2. Daraus können Realisierungen des betreffenden Genes erzeugt werden, die jeweils dieselben Aminosäuren verschlüsseln zurück