Neutrale Evolution vs. Selektion basierend auf einer Sequenz

Werbung
Neutrale Evolution vs. Selektion basierend auf
einer Sequenz
Ulrich Seyfarth
16. November 2004
Geschichte
Bisher immer nur Vergleiche zwischen verschiedenen
Nukleotiden und Aminosäuren
1. Zeigt Varianz einer Spezies auf - durch Betrachten
unterschiedlicher Genotypen
Geschichte
Bisher immer nur Vergleiche zwischen verschiedenen
Nukleotiden und Aminosäuren
1. Zeigt Varianz einer Spezies auf - durch Betrachten
unterschiedlicher Genotypen
2. Erkenntnisse über ähnliche Gene bei unterschiedlichen Spezies
führen zu Rückschlüssen auf eine mögliche, gemeinsame
”Mutterspezies” und strukturieren damit die verschiedenen
Arten in einen Stammbaum
Motivation
Hier: Vergleiche auf Basis eines einzelnen Genoms
1. Um den unterschiedlichen Selektionsdruck auf
Gene/Gensequenzen sichtbar zu machen
•
•
•
•
Setzt auf der Ebene von Codons an
Klassifiziert Gene nach ihrer Stabilität
Hilft, Gene ihren Funktionen zuzuordnen
Zeigt mögliche Angriffspunkte für Medikamente bei
Krankheitserregern
• Man braucht nicht homologe Gensequenzen zu suchen, kann
also das gesamte Genom analysieren
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
2. Gefahren:
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
• Partnern
• Lebensraum
• Nahrung
2. Gefahren:
Motivation
Arten von Selektionsdruck (allgemein)
1. Eingeschränkte Auswahl an
• Partnern
• Lebensraum
• Nahrung
2. Gefahren:
• Räuber
• Wetter
• Krankheiten
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
• Wäre möglicher Angriffspunkt für Medikamente
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
Motivation
Projektion auf Proteine von Parasiten
1. Parasit-Kernstruktur - repräsentiert Funktion (sehr stabil)
• Entwickelt sich nur langsam, ist sehr optimiert
• Wäre möglicher Angriffspunkt für Medikamente
2. Verbindung zum Host-System (hochgradig anpassungsfähig)
• Varianz bereitet Antigenen Schwierigkeiten
• Mutation kann helfen, auf andere Hostsysteme zu springen
Berechnung der Volatilität
Grundlagen der Berechnung
• Durch Punktmutationen hat jedes Codon 9 mögliche
Nachbarn
• Mutationen führen zwar zu anderem Codon, verschlüsseln
aber entweder eine andere oder wieder dieselbe Aminosäure
• Mutationen zu Stop-Codons verändern Gen dramatisch
• Mehrfachmutationen gehen mit O(t 2 )
Berechnung der Volatilität
Grundlagen der Berechnung
• Durch Punktmutationen hat jedes Codon 9 mögliche
Nachbarn
• Mutationen führen zwar zu anderem Codon, verschlüsseln
aber entweder eine andere oder wieder dieselbe Aminosäure
• Mutationen zu Stop-Codons verändern Gen dramatisch
• Mehrfachmutationen gehen mit O(t 2 )
• Definiere Volatilität mit:
ν(c) =
1
no. of neighbours
P
D[acid(c), acid(ci )],
neighbours ci
wobei D die Hamming-Metrik ist und Stop-Codons nicht
gezählt werden.
Bestimmung der Volatilität (Beispiel)
CGA (R)
Berechnung der Volatilität des Ausgangscodons CGA (Arginin):
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
Es gibt 9 mögliche Nachbarcodons,
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
8 bleiben, wenn man das Stop-Codon wegfallen lässt,
Bestimmung der Volatilität (Beispiel)
CGG (R)
CGC (R)
AGA (R)
GGA (G)
CGA (R)
CGT (R)
CCA (P)
CAA (Q)
TGA (Z)
CTA (L)
4 verschlüsseln eine andere Aminosäure, also ist die Volatilität 48 .
Verschlüsselung der Aminosäuren durch Codons
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen
Algorithmus 2. Teil
Nun die Statistik
• Das kann noch nicht alles sein
• Die Volatilität eines einzelnen Platzes hat einen grossen
statistischen Fehler
• In der Regel interessiert sich niemand für ein einzelnes Codon
• Es fehlt eine sinnvolle Bewertung einer Signifikanz gegenüber
dem Zufall
• Logische Folgerung: Die Volatilität eines gesamten Genes
berechnen
1. Volatilität aller Codons des betreffenden Genes addieren
2. Produzieren von 106 ”zufälligen” Realisierungen des Genes
genauer
3. Zu jeder dieser Realisierung wiederum die Volatilität berechnen
4. Setze P als das Verhältnis zwischen den Realisierungen, die
eine Volatilität grösser/gleich der realen haben, und der
Gesamtanzahl
Algorithmus 2. Teil
Erkenntnisse
• Was bringt P nun konkret ?
• Der berechnete Wert ist die relative Abweichung der Volatilität
eines Genes zum gesamten Genom
⇒ damit ist aber keine absolute Aussage möglich
• Ist P(G ) nahe null, so ist die Volatilität des Genes G
vergleichsweise hoch
• Bei einer relativ niedrigen Volatilität nähert sich P(G ) eins
• Molekulare Uhren können in Verbindung mit der Volatilität
verbessert werden
• Die Stabilität eines Genes ist ja direkt verknüpft mit der
Mutationsrate auf Aminosäurebasis
• Vermutlich nimmt die Stabilität der Grundbestandteile eines
Organismusses schneller zu, als Gene, die für Verbindungen
nach ”aussen” sorgen
Anwendungsmöglichkeiten
Projektion auf reale Beispiele
• Wie anfangs angedeutet, haben Gene, die für die Verbindung
zum Host-System zuständig sind eine extrem hohe Volatilität,
Gene im Bereich der Kernstruktur eine sehr geringe
• Beispiel M. tuberculosis:
1. Gene aus der PE/PPE Familie, die für die äussere Struktur des
Bakteriums zuständig sind, haben eine sehr viel höhere
Volatilität (P < 10−6 )
2. Viele Gene waren bisher unverstanden, es gibt welche mit
P > 0.999, die gleichzeitig überlebensnotwendig sind und
somit mögliche Angriffspunkte für Medikamente sein könnten
3. Gene mit sehr hoher bzw. sehr niedriger Volatilität sind sehr
gleichmässig über das Genom verteilt
Resultat zweier Genomscans
Anwendung
Erkenntnisse
• Wie gut ist diese Statistik bei extremen Verhältnissen ?
• Unterschiedliche Mutationsraten der Gensequenzen
beeinflussen das Ergebnis nicht, es wird der Selektionsdruck
berechnet
• Die anfängliche Wahrscheinlichkeit für ein bestimmtes Codon
muss über das ganze Genom gleich sein
• Es muss angenommen werden, dass Mutationen zufällig
geschehen
• Die Berechnung funktioniert nur für Punktmutationen, für
andere Effekte muss auf Methoden zurückgegriffen werden, die
verschiedene Genome miteinander vergleichen
Ausblick
Erweiterungen
• Kann der Algorithmus noch verbessert werden ?
• Sind gewisse Mutationen wahrscheinlicher als andere (z.B.
transitions/transversions), so muss die Formel angepasst
werden:
P
Pri D[acid(c), acid(ci )]
ν(c) =
rj
neighbours ci
• Die einfache Hemming-Metrik ließe sich verbessern
• Einzelne Aminosäuren könnten stärker gewichtet werden
• Die zufälligen Vergleichsverteilungen könnten noch mehr
angepasst werden
Literatur
• Detecting selection using a single genome sequence of M.
tuberculosis and P. falciparum, J.B. Plotkin, J. Dushoff, H.B.
Fraser, Nature 428, 942 (2004)
• www.wikipedia.com
Algorithmus 2. Teil
Einschub
• Wie sehen diese zufälligen Realisierungen des Genes aus ?
1. Man betrachtet die relative Häufigkeit jedes Codons im
gesamten Genom
2. Daraus können Realisierungen des betreffenden Genes erzeugt
werden, die jeweils dieselben Aminosäuren verschlüsseln
zurück
Herunterladen