Jahrbuch 2013/2014 | Hiller, Michael | Phänotyp und Genotyp: W ie w iederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind Phänotyp und Genotyp: Wie wiederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zwischen Spezies verantwortlich sind Phenotype and genotype: How repeated evolution can help to detect genomic differences that underlie phenotypic differences between species Hiller, Michael Max-Planck-Institut für Physik komplexer Systeme, Dresden Korrespondierender Autor E-Mail: [email protected] Zusammenfassung Obw ohl die Genome vieler Spezies sequenziert sind, w issen w ir nur sehr w enig darüber, w elche Unterschiede im Genom für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind. Forward Genomics ist eine neue Methode, die w iederholte Evolution nutzt, um solche Assoziationen zw ischen genomischen und phänotypischen Unterschieden zu finden. Für den w iederholt verlorengegangenen Phänotyp „Vitamin-CSynthese“ kann dieser Ansatz das Vitamin C synthetisierende Enzym finden, und zw ar nur mit der Suche nach Genen, die in allen nicht Vitamin C synthetisierenden Spezies neutral evolvieren. Summary Despite availability of many sequenced genomes, w e know very little about w hich genomic changes underlie phenotypic differences betw een species. Forw ard Genomics is a new method that uses phenotypes w ith repeated evolutionary losses to find such associations betw een genomic and phenotypic differences. For vitamin C synthesis, an example of a repeatedly lost phenotype, the method can correctly pinpoint the vitamin C synthesizing enzyme, just based on a search for genes that evolve neutrally in all non vitamin C synthesizing species. Charles Darw in beendete sein Buch „On the Origin of Species“ 1859 mit „... from so simple a beginning endless forms most beautiful and most w onderful have been, and are being, evolved.“ In der Tat kann man sich mit jedem Zoobesuch von der großartigen Vielfalt an Farben, Formen und Eigenschaften, die im Laufe der Evolution in den verschiedensten Arten auf unserer Erde entstanden sind, überzeugen. Viele der Eigenschaften, die Organismen unterscheiden, sind in der DNA kodiert, w eshalb die DNA als die Blaupause des Lebens gilt. Die Gesamtheit der DNA in jeder Zelle eines Individuums w ird Genom genannt. Wenn dieses Genom gleich ist, w ie bei eineiigen Zw illingen, sind sich die Individuen sehr ähnlich. Unterschiede in den Eigenschaften (im Folgenden als Phänotypen bezeichnet) müssen demnach auf Unterschiede im Genom zurückzuführen sein. © 2014 Max-Planck-Gesellschaft w w w .mpg.de 1/5 Jahrbuch 2013/2014 | Hiller, Michael | Phänotyp und Genotyp: W ie w iederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind W ährend für die Entschlüsselung der A, C, G und T Buchstaben des menschlichen Genoms vor rund zehn Jahren noch ein internationales Konsortium nötig w ar, kann man heute w esentlich schneller und billiger das Genom sequenzieren (auch w enn das Zusammensetzen des Genoms aus kurzen Sequenzschnipseln immer noch eine große Herausforderung darstellt). Als Folge dessen sind mittlerw eile mehr als einhundert W irbeltiergenome entschlüsselt. Mithilfe der vergleichenden Genomanalyse kann man jetzt diese Genome alignieren und systematisch sow ohl nach Ähnlichkeiten als auch nach Unterschieden in der DNA-Sequenz suchen. Wenn w ir aber diese vielen sequenzierten Genome und gleichzeitig eine Fülle an W issen über Phänotypen dieser Spezies haben, w arum w issen w ir dann so w enig darüber, w elche Unterschiede im Genom für bestimmte phänotypische Unterschiede verantw ortlich sind? Der Hauptgrund ist, dass der Vergleich zw eier Spezies, selbst w enn diese sehr eng miteinander verw andt sind, unzählige genomische und etliche phänotypische Unterschiede zu Tage bringt. Das Problem ist also eine sogenannte N:M Beziehung zw ischen genomischen und phänotypischen Unterschieden, die es extrem schw ierig macht vorherzusagen, w elche Genomunterschiede für bestimmte Phänotypunterschiede verantw ortlich sind. Um dieses Problem zu lösen, haben w ir eine computerbasierte Methode entw ickelt, die sich auf zw ei w ichtige Prinzipien stützt: 1. den Verlust nicht benötigter genetischer Information und 2. die w iederholte Evolution. Use it or lose it Was für Muskeln gilt, gilt auch für die Information im Genom. Im Laufe der Evolution sammeln sich zufällige Mutationen im Genom an. Diese Mutationen können genetische Information, die zum Beispiel in der DNASequenz eines überlebensw ichtigen Gens steckt, verändern oder zerstören. Ein w ichtiger Mechanismus, um diese Information zu erhalten, ist Selektion. Individuen, die Mutationen in w ichtigen Genombereichen (w ie in diesem überlebensw ichtigen Gen) aufw eisen, w erden ausselektiert. Als Folge dessen bleibt w ichtige Information im Genom erhalten. Wenn aber ein Phänotyp in einer Spezies verloren geht, dann ist die genetische Information, die einst für diesen Phänotyp w ichtig w ar, nicht mehr von Bedeutung und damit nicht mehr unter Selektion. Die Folge von neutraler Evolution über einen längeren Zeitraum ist dann der Verlust der einst w ichtigen genetischen Information in dieser Spezies aufgrund von Mutationen. Ein Beispiel hierfür ist die Synthese von Vitamin C. Die Vorfahren der Säugetiere besaßen die Eigenschaft, selbst Vitamin C herstellen zu können. Und die meisten Säugetiere besitzen sie immer noch. Der Mensch und einige andere Primaten haben diese Fähigkeit jedoch verloren und müssen ihr Vitamin C über die Nahrung aufnehmen, um Skorbut zu vermeiden. Das Gen, w elches das Vitamin C synthetisierende Enzym kodiert, ist also in diesen Primaten nicht mehr von Bedeutung und evolviert neutral. Die Information in diesem Gen w urde deshalb im Laufe der Zeit von zufälligen Mutationen „erodiert“. Infolgedessen divergiert die DNA-Sequenz dieses Gens in den Primaten w esentlich schneller als in anderen Säugetieren, bei denen Selektion viele Mutationen ausgesondert hat. Wiederholte Evolution Einige phänotypische Unterschiede haben eine Eigenschaft, die sehr hilfreich ist: Dieselben phänotypischen Unterschiede kommen in verschiedenen, sich unabhängig voneinander entw ickelnden Arten vor, d. h. Evolution hat sich w iederholt. Zum Beispiel ist der Phänotyp Vitamin-C-Synthese nicht nur in Primaten, sondern auch in Meerschw einen und Fledermäusen (unabhängigen Arten, siehe Abb. 1) verloren gegangen. Nach dem „use it or lose it“-Prinzip kann man vorhersagen, dass das Gen für das Vitamin C synthetisierende Enzym in all diesen © 2014 Max-Planck-Gesellschaft w w w .mpg.de 2/5 Jahrbuch 2013/2014 | Hiller, Michael | Phänotyp und Genotyp: W ie w iederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind Arten neutral evolviert. A bb. 1: Die Fä higk e it, Vita m in C synthe tisie re n zu k önne n, ist m e hrfa ch im La ufe de r Sä uge tie re volution ve rlore n ge ga nge n und k a nn durch de n Ve rlust de s Gulo-Ge ns e rk lä rt we rde n. © Micha e l Hille r, Ma x -P la nck -Institut für P hysik k om ple x e r Syste m e W ährend man im Vergleich zw eier Arten viele neutral evolvierende genomische Regionen findet, sollte es nur sehr w enige Regionen geben, die in exakt den unabhängigen Arten neutral evolvieren, die nicht mehr Vitamin C synthetisieren können. Solche w iederholten phänotypischen Verluste führen also zu einem spezifischen evolutionären Muster in diesen Genomen, das man zur Vorhersage von Assoziationen zw ischen genomischer Region und phänotypischer Änderung nutzen kann. Forward Genomics Beide Prinzipien liefern eine Methode, die analog zu Forward Genetics „Forward Genomics“ genannt w ird [1], w ie man durch den Vergleich vieler Genome die genomischen Regionen und damit die entsprechenden Änderungen finden könnte, die für den w iederholten Verlust eines Phänotyps verantw ortlich sind. Forward Genomics durchforstet das Genom nach Bereichen, die einerseits in allen Spezies, bei denen der Phänotyp fehlt, neutral evolvieren und damit auf der Sequenzebene divergiert sind und die andererseits in allen anderen Spezies unter Selektion und damit w enig divergiert sind (Abb. 2). © 2014 Max-Planck-Gesellschaft w w w .mpg.de 3/5 Jahrbuch 2013/2014 | Hiller, Michael | Phänotyp und Genotyp: W ie w iederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind A bb. 2: Sche m a tische Da rste llung de r Forward Genomics Me thode . Ein P hä notyp, de r im Vorfa hre n die se r Spe zie s vorha nde n wa r, ist in una bhä ngige n Spe zie s ve rlore n ge ga nge n. In die se m Be ispie l gibt e s nur e ine Ge nom re gion (bla ue Kä stche n), be i de r Se que nzdive rge nz a ufgrund ne utra le r Evolution e x a k t m it de m Ve rlust de s P hä notyps k orre lie rt. Kom ple tte r Ve rlust a ls e x tre m ste r Fa ll von Se que nzdive rge nz ist durch da s Fe hle n de r R e gion da rge ste llt. © Micha e l Hille r, Ma x -P la nck -Institut für P hysik k om ple x e r Syste m e Was fehlt, ist eine genaue Quantifizierung der Sequenzdivergenz jeder Genomregion in jeder Spezies. Wenn man die DNA-Sequenz des Säugetiervorfahren kennen w ürde, könnte man durch den paarw eisen Vergleich der DNA-Sequenz des Vorfahren und einer Spezies einfach die Sequenzdivergenz als die Anzahl der Mutationen bestimmen. Je mehr Mutationen aufgetreten sind, desto mehr ist diese Region in dieser Spezies divergiert und desto w ahrscheinlicher ist neutrale Evolution. Obw ohl die DNA-Sequenz des Säugetiervorfahren natürlich unbekannt ist, kann man diese trotzdem recht genau schätzen, indem man für jede Position der Region die w ahrscheinlichste DNA-Base des Vorfahrens unter Berücksichtigung eines gegebenen Wahrscheinlichkeitsmodells der Sequenzevolution berechnet. Simulationsstudien haben gezeigt, dass man den Säugetiervorfahren mit 98%iger Genauigkeit berechnen kann. Allerdings sind die heutigen Genomsequenzen bei w eitem nicht vollständig und nicht zu 100% korrekt. So sind einige Genomregionen einfach noch nicht sequenziert, andere w eisen erhöhte Fehlerraten auf. Da diese Fehlerquellen w ie Löschungen beziehungsw eise Mutationen aussehen, ist es für eine akkurate Genom-w eite Anw endung zw ingend nötig, diese Artefakte auszuschließen. Angew endet auf den Vitamin-C-Phänotyp und die Genome vieler Säugetiere, findet Forward Genomics gezielt einen einzigen Genombereich. Diese Stelle enthält das Gen Gulo (gulonolactone (L-) oxidase), das ein für die Vitamin-C-Synthese verantw ortliches Schlüsselenzym kodiert. Eine detaillierte Untersuchung zeigt, dass dieses Gen in allen nicht Vitamin C synthetisierenden Spezies nicht mehr funktional sein kann, obw ohl noch Bruchstücke des Gens vorhanden sind (Abb. 1). Dies ist ein klares Indiz für neutrale Evolution und zeigt, dass diese Spezies von Vorfahren abstammen, die Vitamin C synthetisieren konnten. Obw ohl die Funktion von Gulo schon bekannt und dieses Gen von vornherein ein guter Kandidat w ar, kann es spezifisch nur mithilfe der vergleichenden Genomanalyse gefunden w erden. Nachfolgende Simulationsstudien können untersuchen, ob das spezifische evolutionäre Muster in den © 2014 Max-Planck-Gesellschaft w w w .mpg.de 4/5 Jahrbuch 2013/2014 | Hiller, Michael | Phänotyp und Genotyp: W ie w iederholte Evolution helfen kann, Unterschiede im Genom zu finden, die für phänotypische Unterschiede zw ischen Spezies verantw ortlich sind Genomen der nicht Vitamin C synthetisierenden Spezies zu erw arten ist. Mithilfe von Wahrscheinlichkeitsmodellen für evolutionäre Prozesse kann man im Computer simulieren, w ie sich ein Genom im Laufe der Evolution unter Berücksichtigung von neutraler Evolution und Selektion ändert. In dieser Simulation w ählen w ir als Ersatz für Gulo zufällig ein Gen aus vielen anderen Genen aus und lassen nur dieses Gen in den nicht Vitamin C synthetisierenden Spezies neutral evolvieren. Dann quantifiziert man die Divergenz jeder Genomregion in jeder Spezies und w endet Forward Genomics „blind“ auf die simulierten Daten an. Die Simulation des Vitamin-C-Phänotyps zeigte, dass w ir auch in diesen simulierten Genomen das korrekte Gen finden können. Das spezifische evolutionäre Muster in den Genomen ist also kein Zufall, sondern zu erw arten. Weiterhin konnten w ir zeigen, dass Forward Genomics für eine große Anzahl von verschiedenen simulierten Szenarien unabhängiger Phänotypverluste einige der korrekten Abschnitte mit großer Genauigkeit finden konnte. Die Simulationsstudien zeigten aber auch, dass Forward Genomics nicht alle relevanten Genomregionen finden kann; dafür ist Evolution einfach zu komplex, und w ir sind auf einen zufälligen Prozess (neutrale Evolution) angew iesen, der das spezifische Muster in den Genomen generiert. Eine Analyse vorhandener phänotypischer Datensätze mit insgesamt 461 Phänotypen zeigt, dass 42% dieser Phänotypen dieselben Änderungen in mindestens zw ei unabhängigen evolutionären Linien aufw eisen. Zusammen mit den Simulationsergebnissen gibt dies Hoffnung, dass Forward Genomics auf viele w eitere Phänotypen systematisch angew endet w erden kann und zumindest einige der relevanten Genomregionen finden w ird. Dies liefert eine einmalige Möglichkeit, mithilfe der vergleichenden Genomik Zoologie und Molekularbiologie zusammenzubringen und w ird helfen zu verstehen, w ie die phänotypische Vielfalt, die w ir überall in der Natur beobachten, in der DNA verschlüsselt ist. Literaturhinweise [1] Hiller, M.; Schaar, B. T.; Indjeian, V. B.; Kingsley, D. M.; Hagey, L. R.; Bejerano, G. A “forward genomics” approach links genotype to phenotype using independent phenotypic losses among related species Cell Reports 2, 817-823 (2012) © 2014 Max-Planck-Gesellschaft w w w .mpg.de 5/5