Neutrale Evolution vs. Selektion basierend auf einer Sequenz

Neutrale Evolution vs. Selektion basierend auf
einer Sequenz
Ulrich Seyfarth
16. November 2004
Geschichte
Bisher immer nur Vergleiche zwischen verschiedenen
Nukleotiden und Aminosäuren
1. Zeigt Varianz einer Spezies auf - durch Betrachten
unterschiedlicher Genotypen
Geschichte
Bisher immer nur Vergleiche zwischen verschiedenen
Nukleotiden und Aminosäuren
1. Zeigt Varianz einer Spezies auf - durch Betrachten
unterschiedlicher Genotypen
2. Erkenntnisse über ähnliche Gene bei unterschiedlichen Spezies
führen zu Rückschlüssen auf eine mögliche, gemeinsame
”Mutterspezies” und strukturieren damit die verschiedenen
Arten in einen Stammbaum
Motivation
Hier: Vergleiche auf Basis eines einzelnen Genoms
1. Um den unterschiedlichen Selektionsdruck auf
Gene/Gensequenzen sichtbar zu machen
•
•
•
•
Setzt auf der Ebene von Codons an
Klassifiziert Gene nach ihrer Stabilität
Hilft, Gene ihren Funktionen zuzuordnen
Zeigt mögliche Angriffspunkte für Medikamente bei
Krankheitserregern
• Man braucht nicht homologe Gensequenzen zu suchen, kann
also das gesamte Genom analysieren
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
2. Gefahren:
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
• Partnern
• Lebensraum
• Nahrung
2. Gefahren:
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
• Partnern
• Lebensraum
• Nahrung
2. Gefahren:
• Räuber
• Wetter
• Krankheiten
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
• Wäre möglicher Angriffspunkt für Medikamente
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
• Wäre möglicher Angriffspunkt für Medikamente
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
• Varianz bereitet Antigenen Schwierigkeiten
• Mutation kann helfen, auf andere Hostsysteme zu springen
Berechnung der Volatilität
Grundlagen der Berechnung
• Durch Punktmutationen hat jedes Codon 9 mögliche
Nachbarn
• Mutationen führen zwar zu anderem Codon, verschlüsseln
aber entweder eine andere oder wieder dieselbe Aminosäure
• Mutationen zu Stop-Codons verändern Gen dramatisch
• Mehrfachmutationen gehen mit O(t 2 )
Berechnung der Volatilität
Grundlagen der Berechnung
• Durch Punktmutationen hat jedes Codon 9 mögliche
Nachbarn
• Mutationen führen zwar zu anderem Codon, verschlüsseln
aber entweder eine andere oder wieder dieselbe Aminosäure
• Mutationen zu Stop-Codons verändern Gen dramatisch
• Mehrfachmutationen gehen mit O(t 2 )
• Definiere Volatilität mit:
ν(c) =
1
no. of neighbours
P
D[acid(c), acid(ci )],
neighbours ci
wobei D die Hamming-Metrik ist und Stop-Codons nicht
gezählt werden.
Bestimmung der Volatilität (Beispiel)
CGA (R)
Berechnung der Volatilität des Ausgangscodons CGA (Arginin):
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
Es gibt 9 mögliche Nachbarcodons,
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
8 bleiben, wenn man das Stop-Codon wegfallen lässt,
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
4 verschlüsseln eine andere Aminosäure, also ist die Volatilität 48 .
Verschlüsselung der Aminosäuren durch Codons
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen
4. Setze P als das Verhältnis zwischen den Realisierungen, die
eine Volatilität grösser/gleich der realen haben, und der
Gesamtanzahl
Algorithmus 2. Teil
Erkenntnisse
• Was bringt P nun konkret ?
• Der berechnete Wert ist die relative Abweichung der Volatilität
eines Genes zum gesamten Genom
⇒ damit ist aber keine absolute Aussage möglich
• Ist P(G ) nahe null, so ist die Volatilität des Genes G
vergleichsweise hoch
• Bei einer relativ niedrigen Volatilität nähert sich P(G ) eins
• Molekulare Uhren können in Verbindung mit der Volatilität
verbessert werden
• Die Stabilität eines Genes ist ja direkt verknüpft mit der
Mutationsrate auf Aminosäurebasis
• Vermutlich nimmt die Stabilität der Grundbestandteile eines
Organismusses schneller zu, als Gene, die für Verbindungen
nach ”aussen” sorgen
Anwendungsmöglichkeiten
Projektion auf reale Beispiele
• Wie anfangs angedeutet, haben Gene, die für die Verbindung
zum Host-System zuständig sind eine extrem hohe Volatilität,
Gene im Bereich der Kernstruktur eine sehr geringe
• Beispiel M. tuberculosis:
1. Gene aus der PE/PPE Familie, die für die äussere Struktur des
Bakteriums zuständig sind, haben eine sehr viel höhere
Volatilität (P < 10−6 )
2. Viele Gene waren bisher unverstanden, es gibt welche mit
P > 0.999, die gleichzeitig überlebensnotwendig sind und
somit mögliche Angriffspunkte für Medikamente sein könnten
3. Gene mit sehr hoher bzw. sehr niedriger Volatilität sind sehr
gleichmässig über das Genom verteilt
Resultat zweier Genomscans
Anwendung
Erkenntnisse
• Wie gut ist diese Statistik bei extremen Verhältnissen ?
• Unterschiedliche Mutationsraten der Gensequenzen
beeinflussen das Ergebnis nicht, es wird der Selektionsdruck
berechnet
• Die anfängliche Wahrscheinlichkeit für ein bestimmtes Codon
muss über das ganze Genom gleich sein
• Es muss angenommen werden, dass Mutationen zufällig
geschehen
• Die Berechnung funktioniert nur für Punktmutationen, für
andere Effekte muss auf Methoden zurückgegriffen werden, die
verschiedene Genome miteinander vergleichen
Ausblick
Erweiterungen
• Kann der Algorithmus noch verbessert werden ?
• Sind gewisse Mutationen wahrscheinlicher als andere (z.B.
transitions/transversions), so muss die Formel angepasst
werden:
P
Pri D[acid(c), acid(ci )]
ν(c) =
rj
neighbours ci
• Die einfache Hemming-Metrik ließe sich verbessern
• Einzelne Aminosäuren könnten stärker gewichtet werden
• Die zufälligen Vergleichsverteilungen könnten noch mehr
angepasst werden
Literatur
• Detecting selection using a single genome sequence of M.
tuberculosis and P. falciparum, J.B. Plotkin, J. Dushoff, H.B.
Fraser, Nature 428, 942 (2004)
• www.wikipedia.com
Algorithmus 2. Teil
Einschub
• Wie sehen diese zufälligen Realisierungen des Genes aus ?
1. Man betrachtet die relative Häufigkeit jedes Codons im
gesamten Genom
2. Daraus können Realisierungen des betreffenden Genes erzeugt
werden, die jeweils dieselben Aminosäuren verschlüsseln
zurück