Überblick 175 B I O S P E K T R U M • 3. 0 0 • 6. J A H R G A N G Karl Schmid, Max-Planck-Institut für chemische Ökologie, Jena Diethard Tautz, Institut für Genetik, Universität zu Köln Evolutionäre Genomforschung: Welche Rolle spielen schnell evolvierende Gene? In den Genomprojekten verschiedener Modellorganismen werden zahlreiche Gene entdeckt, die keine Ähnlichkeit zu anderen Genen aufweisen und daher oft als orphans bezeichnet werden. Ihre evolutionäre Herkunft und Funktion bleiben in der Regel unbekannt. Wir untersuchten die Hypothese, daß viele dieser Gene schnell evolvieren und deswegen ihre Sequenzähnlichkeit zu Homologen in anderen Arten verlieren. Eine evolutionäre Analyse zufällig isolierter Gene von D. melanogaster ergab, daß etwa ein Drittel aller Gene nicht konserviert ist. Interessanterweise werden diese Gene meist nicht im Rahmen von genetischen oder biochemischen Analysen entdeckt. Wir vermuten daher, daß sie nicht an zentralen Prozessen des Stoffwechsels oder an Regulationsprozessen beteiligt sind, sondern möglicherweise adaptive trait loci darstellen, die bei der Anpassung an die artspezifische Umwelt eine Rolle spielen könnten. Eine systematische Analyse solcher Gene ist mit den Mitteln der evolutionären Genomforschung und Bioinformatik möglich. 쑺 Der viel zitierte Spruch des russischamerikanischen Evolutionsbiologen Theodosius Dobzhansky, daß „in der Biologie nichts Sinn macht, außer man betrachtet es im Licht der Evolution“, hat im Zeitalter der Genomprojekte eine neue Bedeutung erfahren [1]. So war die Entdeckung, daß viele Entwicklungsgene in evolutionär weit entfernten Organismen konserviert sind und dort identische oder ähnliche Funktionen ausüben, eine der großen Überraschungen der molekularen Entwicklungsgenetik. Das bekannteste Beispiel sind wohl die HOXGene, deren Sequenz, Anordnung im Genom und Expression in vielen Tierstämmen konserviert sind [2]. Die Möglichkeit, aufgrund dieser Konservierung Homologe von Entwicklungsgenen aus anderen Phyla mittels Hybridisierung von DNA-Bibliotheken oder PCR-Amplifizierung zu isolieren und deren Expression und Funktion zu untersuchen, hat in der vergangenen Dekade zu einer Renaissance der evolutionären Entwicklungsbiologie geführt. Weitaus weniger wissen wir dagegen über Gene, die an der ökologischen Diversifizierung beteiligt sind, sowie über die evolutionären Prozesse, wie neutraler Evolution oder Darwinscher Selektion, die auf diese Gene einwirken. Ein Grund für diese Situation liegt in der Schwierigkeit, Gene für adaptive Merkmale zu identifizieren, weil ihre phänotypischen Effekte sehr subtil sein können. Diese Situation wird sich aber in naher Zukunft ändern, weil die wachsende Anzahl von Genomprojekten evolutionäre Untersuchungen aller Gene eines Genoms ermöglichen. Bisher konzentrierten sich die meisten Studien auf Fragen zur Konservierung der Sequenz und Funktion von Genen [3-5]. Ein Vergleich von Publikationen der letzten Jahre zeigt aber, daß der Anteil von Genen mit unbekannter Funktion (aufgrund fehlender Sequenzähnlichkeiten zu Genen bekannter Funktion) in eukaryontischen Genomen bei ungefähr 40 % bleibt, obwohl Sequenzdatenbanken exponentiell anwachsen (Abb. 1). Eine naheliegende Erklärung für die große Zahl unbekannter Gene (auch orphans genannt) ist die Unvollständigkeit von Sequenzdatenbanken. Mittlerweile sind aber Genomsequenzen von Vertretern der wich- Abb. 1: Vergleich des Wachstums von GenBank (Linie) mit dem Anteil von Genen, die in Genomsequenzen identifiziert wurden und deren Funktion unbekannt ist. Die Daten stammen von Veröffentlichungen partieller oder vollständiger Genomsequenzen folgender Eukaryoten: Saccharomyces cerevisiae, Caenorhabditis elegans, Arabidopsis thaliana, Drosophila melanogaster, Plasmodium falciparum, Leishmania major und dem Menschen. Die Jahreszahlen bezeichnen das Jahr der Veröffentlichung. Überblick 176 B I O S P E K T R U M • 3. 0 0 • 6. J A H R G A N G quenzähnlichkeit zu Homologen in weit entfernten Organismen verlieren. Das schließt aber nicht aus, daß die Faltungsstruktur und Funktion solcher Proteine zu einem gewissen Grad konserviert sein können [7]. Eine eingehende Analyse der Funktion und Evolution dieser orphans ist außerordentlich interessant, da sie so zahlreich im Genom vorkommen. Vermutlich liegt bei ihnen der Schlüssel zum Verständnis dessen, was den Unterschied zwischen den Spezies ausmacht. Genetik adaptiver Evolution Abb. 2: Vergleich des Anteils synonymer (ds) und nichtsynonymer (dn) Substitutionsraten zwischen D. melanogaster und D. yakuba. Die Berechnung erfolgte nach der Methode von Comeron [18]. Die in der Hybridisierung genomischer DNA von D. virilis als schnell evolvierend eingestuften Gene sind mit einem Stern markiert. Die Werte der anderen Gene wurden anhand der in GenBank vorhandenen Sequenzen berechnet. tigsten eukaryotischen Organismengruppen in den Datenbanken enthalten, so daß diese Erklärung zunehmend unplausibel wird. Außerdem wurde die Zahl der in der Natur vorkommenenden Proteinstrukturdomänen auf nur wenige Tausend geschätzt [6]. Durch Duplikation und Rekombination werden diese vor langer Zeit entstandenen Domänen neu kombiniert, um die in modernen Organismen beobachtete Proteinvielfalt zu erzeugen. Als alternative Erklärungen für die große Zahl von orphans bieten sich an, daß viele Gene neu entstanden und auf bestimmte evolutionäre Linien (z.B. Insekten, Wirbeltiere) beschränkt sind oder daß sie schnell evolvieren und dabei jegliche Se- Die Funktion von Genen und der von ihnen kodierten Proteine kann auf verschiedenen Ebenen beschrieben werden: der genetischen (Auswirkung auf den Phänotyp), zellulären (Lokalisation in der Zelle) oder biochemischen (Art der katalysierten Reaktion) Ebene. Gene können aber auch eine evolutionäre Funktion haben – Konservierung oder Anpassung. Gene mit einer konservierenden Funktion sind für die fundamentalen Prozesse des Metabolismus („Haushaltsgene“) oder in der Entwicklung und Morphogenese („Bauplan-Gene“) verantwortlich. Es muß jedoch auch Gene geben, die mit der Umwelt interagieren. Beispiele sind Immun- und Resistenzgene zur Abwehr von Pathogenen und Freßfeinden; Gene, die die Bandbreite von tolerierten Umweltbedingungen erweitern (Hitze- und Kälteschockgene, Gefrierschutzproteine) und damit das Besiedeln extremer Standorte ermöglichen; Gene, die das Reizspektrum quantitativ und qualitativ erweitern (Photound Geschmackszrezeptoren); Gene, die an der reproduktiven Isolation und an Artbildungsprozessen beteiligt sind. Phänotypische Merkmale, die von dieser Gen-Klasse kontrolliert werden, sind für die Anpassung an artspezifische Umweltbedingungen wichtig. Deswegen kann man sie als adaptive trait loci (ATLs) bezeichnen. ATLs sollten sich durch zwei wichtige Merkmale auszeichnen: Sie sind keine essentiellen Gene (d.h. als Nullmutanten nicht letal), tragen aber signifikant zur Fitness bei; Ihre Sequenz oder ihre Expressionsmuster evolvieren schnell, da auch nahe verwandte Arten in sehr unterschiedlichen Habitaten leben können [8]. Die zwei wichtigsten Ansätze zur Identifizierung von adaptiven Genen sind die Kartierung von Genen, die quantitative Merkmale kontrollieren (quantitative trait loci, QTLs), und die evolutionäre und genetische Analyse von Kandidatengenen mit einer bekannten Funktion. Beide Ansätze sind sehr erfolgreich, haben jedoch auch eine Reihe von Nachteilen. Zum Beispiel führt die Kartierung von QTLs selten direkt zum Gen (oder zur Mu- tation), welches für einen quantitativen Phänotypen verantwortlich ist; technische und statistische Probleme limitieren die Identifizierung von QTLs mit geringeren quantitativen Effekten. Weiterhin ist es schwierig, anhand einer QTL-Analyse zu bestimmen, ob quantitative Variation das Ergebnis adaptiver Evolution oder anderer, z.B. pleiotroper Effekte ist. Die Untersuchung von Kandidatengenen ist limitiert, weil die entwicklungsbiologischen und physiologischen Prozesse der meisten phänotypischen Merkmale derzeit unverstanden sind und somit nur eine kleine Zahl bekannter Kandidatengene untersucht werden kann. Viele solcher Kandidatengene wurden in Mutantenscreens isoliert, wo sie als Nullmutanten ausgeprägte Phänotypen zeigen und zur Letalität, Sterilität oder morphologischen Veränderungen führen. Obwohl genetische Variation in solchen Genen phänotypische Variabilität verursachen kann, ist unter Evolutionsbiologen umstritten, ob diese Gene auch eine wichtige Rolle in der adaptiven Evolution von natürlichen Populationen spielen. Viele dieser Gene haben nämlich pleiotrope Funktionen, und die meisten Mutationen sind schädlich. Der rasante Fortschritt zahlreicher Genomprojekte ermöglicht einen neuen Ansatz, adaptive Gene zu identifizieren und ihre Funktionen mit den Methoden der funktionellen Genomforschung zu untersuchen. Die Kenntnis vollständiger Genomsequenzen bietet zwei Möglichkeiten, adaptive trait loci zu finden: (1) Die Identifizierung schnell evolvierender Gene mit Methoden der Molekularbiologie oder Bioinformatik oder (2) die Identifizierung von Genen, in denen vorteilhafte Mutationen fixiert wurden, durch Analyse von gleichmäßig über das Genom verteilten, hypervariablen Markern. Schnell evolvierende Gene Es gibt bisher nur wenige systematische Untersuchungen über die Beziehung zwischen der Funktion und der Sequenzkonservierung von Genen. Ein Beispiel ist die molekulare und genetische Untersuchung der Adh-Region von Drosophila [9]. Diese Region wurde einer sättigenden Mutagenese unterworfen mit dem Ziel, die Phänotypen möglichst vieler Gene zu identifizieren. Zusätzlich wurden etwa 3 Megabasen sequenziert und annotiert. Von den 220 proteinkodierenden Genen, die in der Sequenzanalyse identifiziert wurden, zeigte nur etwa ein Drittel einen Phänotypen. Von diesen sind wiederum zwei Drittel in weit entfernten Organismen (Vertebraten, Pflanzen, Hefe, Prokaryonten) konserviert. Dagegen haben nur 14% der Gene ohne Phänotypen eine Ähnlichkeit zu Genen in anderen Ar- Überblick 177 B I O S P E K T R U M • 3. 0 0 • 6. J A H R G A N G ten. Zusätzlich werden konservierte Gene auch stärker exprimiert als nicht-konservierte Gene. Die Identität und Funktion der meisten phänotyplosen Gene bleibt somit unbekannt. Es bieten sich mehrere Erklärungen für die geringe Konservierung dieser Gene an: 쑺 Funktionelle Redundanz. 쑺 Eine Funktion als „akzessorisches“ Protein, welches die Funktion von essentiellen, konservierten Genen moduliert. 쑺 Eine spezialisierte Funktion mit wenigen Interaktionen zu anderen Proteinen; gemeinsame Koevolution wird dadurch möglich. 쑺 Beteiligung an biotischen Interaktionen, die unter Laborbedingungen nur wenig zu einem meßbaren Phänotypen beitragen, aber viele durch Darwinsche Koevolution verursachte Veränderungen zeigen. 쑺 Eine nur selten benötigte Funktion, die wenig zur Fitness beiträgt. Einige dieser Hypothesen implizieren das Fehlen einer essentiellen Funktion und damit auch von Einschränkungen (constraints) in der Sequenzevolution. Dies führt zu einer schnellen Sequenzdivergenz durch die Fixierung zahlreicher neutraler Mutationen. Man sollte sich aber nicht zu der Annahme verleiten lassen, daß deswegen nur hochkonservierte Proteine oder Proteindomänen funktionell wichtig sind. Viele dieser Gene könnten nämlich adaptive trait loci sein, deren schnelle Evolution das Ergebnis gerichteter, Darwinscher Selektion ist. Um zu klären, welcher Anteil von exprimierten Drosophila-Gene schnell evolviert und welche Rolle neutrale Evolution beziehungsweise Darwinsche Selektion spielen, untersuchten wir die evolutionäre Konservierung von zufällig isolierten cDNA-Klonen [10]. Dabei ergab genomische Hybridisierung, daß etwa ein Drittel von 105 getesteten Genen kein Hybridisierungssignal in D. virilis (40 Mio. Jahre evolutionäre Distanz) zeigte. In Datenbankvergleichen mit Genen von Drosophila und anderen Organismen hatte die Mehrzahl dieser schnell evolvierenden Gene keinen Treffer, während fast alle konservierten Gene bereits vorher in D. melanogaster oder anderen Modellorganismen kloniert und sequenziert wurden. Ein Sequenzvergleich mit homologen Genen aus der nahe verwandten Art D. yakuba (12 Mio. Jahre Distanz) bestätigte die schnelle Evolution, da wir eine hohe Zahl von Aminosäureaustauschen beobachten konnten (Abb. 2). Ein Vergleich der synonymen (kein Aminosäureaustausch) mit den nichtsynonymen Substitutionsraten zeigte, daß die Proteine relativ geringen Einschränkungen in ihrer Evolvierbarkeit unterliegen. Ist die hohe Evolutionsrate das Ergebnis neutraler Evolution oder gerichteter Selektion? Um diese Frage zu beantworten, bestimmten wir von drei der am schnellsten evolvierenden Gene den DNA-Polymorphismus in Populationen von D. melanogaster und der nahe verwandten Schwesterart D. simulans (2 Mio. Jahre Distanz) [11]. Ein Vergleich von zwischenartlicher Divergenz mit dem beobachteten Polymorphismus erlaubt das Testen von Modellen neutraler beziehungsweise adaptiver Evolution. Ein ungewöhnlich hoher Anteil von Polymorphismen, die den Austausch von Aminosäuren verursachen, kann in diesen Genen beobachtet werden. Keiner der verwendeten Tests verwarf die Hypothese einer neutralen Evolution, was darauf hindeutet, daß die Proteine nur geringen Einschränkungen in ihrer Evolvierbarkeit unterliegen. Wie ein Vergleich von linienspezifischen Substitutionen (unter Vergleich von D. yakuba als Außengruppe) zeigt, sind die meisten Aminosäureaustausche in zwei der untersuchten Proteine nachteilig (Abb. 3). Das dritte Protein aber unterliegt vermutlich schwacher gerichteter Selektion aufgrund der Fixierung vorteilhafter Mutationen und ist ein Kandidat für einen ATL. Markeranalyse Eine weitere Möglichkeit zur Identifizierung von ATLs ist die Verwendung zahlreicher, gleichmäßig über das Genom verteilter polymorpher Marker wie Mikrosatel- liten oder Einzelnukleotidpolymorphismen (SNPs). Solche Marker können mit Hilfe einer vollständigen Genomsequenz und einer physikalischen Karte leicht isoliert werden. Durch die Analyse natürlicher Populationen werden Regionen im Genom identifiziert, in denen die selektive Fixierung adaptiver Mutationen stattgefunden hat. Nach dem „hitchhiking“-Modell führt eine solche Fixierung zu einer lokalen Reduzierung des DNA-Polymorphismus, der mit hypervariablen Markern entdeckt wird (Abb. 4) [12,13]. Die Region, in der das selektierte Gen liegt, wird durch einen Vergleich zahlreicher Marker in verschiedenen Populationen gefunden. Ist der Polymorphismus eines Markers in einer Population signifikant erniedrigt, liegt ein Hinweis auf die adaptive Fixierung einer vorteilhaften Mutante vor. Eine in unserer Arbeitsgruppe durchgeführte Pilotstudie mit zehn Mikrosatelliten-Loci in Drosophila konnte mindestens einen selektierten Locus identifizieren [14]. Anschließend kann man (etwa anhand der Genomsequenz) Kandidatengene in einer solchen Region suchen und funktionell charakterisieren. Gegenwärtig bereiten wir nach diesem Muster systematische Screens nach ATLs in den Genomen der Maus (Köln) und der Ackerschmalwand Arabidopsis thaliana (Jena) vor, die einen umfassenden Überblick über die an Adaptationen beteiligten Gene liefern sollen. Abb. 3: Relative Raten-Tests und Verteilung linienspezifischer, fixierter Substitutionen in D. melanogaster und D. simulans. A. Vergleich der Zahl synonymer (blau) mit nichtsynonymen (rot) Substitutionen. In allen drei Genen werden mehr nichtsynonyme als synonyme Substitutionen gefunden. Die Differenz synonymer Substitutionen ist zwischen beiden Linien geringer als die Differenz nichtsynonymer Substitutionen. B. Verteilung der synonymen und nichtsynonymen Substitutionen entlang der kodierenden Sequenz. Es ist nicht die tatsächliche, sondern eine schematische Verteilung der Substitutionen dargestellt. Die Signifikanz der ungleichmäßigen Verteilung von Substitutionen wurde mit der Methode von Tang und Lewontin getestet [19]. In allen drei Genen und beiden Linien sind die synonymen Substitutionen nicht auf bestimmte Regionen beschränkt, ebenso wie die nichtsynonymen Substitutionen in D. melanogaster. Dagegen sind bei anon1E9 und anon1G5 in D. simulans die Substitutionen auf bestimmte Regionen beschränkt. Die Unterschiede in Zahl und Verteilung nichtsynonymer Substitutionen sind vermutlich auf verschiedene effektive Populationsgrößen von D. melanogaster und D. simulans zurückzuführen. Die Effizienz der selektiven Fixierung vorteilhafter beziehungsweise der Entfernung schädlicher Mutationen ist in D. melanogaster im Vergleich zu D. simulans verringert. Überblick 178 B I O S P E K T R U M • 3. 0 0 • 6. J A H R G A N G tionelle und strukturelle Genomforschung haben. Literatur Abb. 4: Schema einer selektiven Fixierung nach dem hitchiking-Modell. A. In einer Population, die sich im Mutations-Drift-Gleichgewicht befindet, entsteht eine neue Mutation mit einem positiven Selektionskoeffizienten (grün markiert). B. Diese wird in kurzer Zeit wird durch gerichtete Selektion in der Population fixiert. Benachbarte (und damit mit der vorteilhaften Mutation gekoppelte) Polymorphismen (grau markiert) werden als „Trittbrettfahrer“ mitfixiert. Nach der Fixierung sind keine Polymorphismen mehr vorhanden. Die Größe der Region, die durch hitchhiking fixiert wird, hängt von der Rekombinationsrate ab [12,13]. C. Entstehung neuer, neutraler Polymorphismen durch Mutationen. Sie haben kommen zunächst in niedriger Frequenz vor und erreichen langsam wieder ein Mutations-Drift-Gleichgewicht. Ausblick Die Evolution von Genen und ihr Beitrag zur Adaptation wird nicht nur von ihrer Funktion bestimmt, sondern auch von Faktoren wie der Populationsgröße oder der Populationsstruktur einer Art. Ein wichtiger Aspekt der evolutionären Genomforschung ist deswegen, genomweite Muster von Polymorphismus und Sequenzdivergenz, die eine Folge der Populationsgrösse und -struktur sind, von lokalen, durch Selektion verursachten Mustern zu unterscheiden. Ein rascher Fortschritt in der Entwicklung von molekularbiologischen und genetischen Methoden, und eine Verbindung von Methoden der Bioinformatik, molekularen Evolution und Populationsgenetik ermöglichen die Identifizierung zahlreicher adaptive trait loci in den Genomen von Drosophila und anderen Modellorganismen [15-17]. Die genomweite Untersuchung von Sequenzkonservierung und -polymorphismen wird nicht nur zur Identifizierung vieler adaptiver Gene führen, sondern auch unser Verständnis über die Rolle der verschiedenen evolutionären Mechanismen erweitern. Aus diesem Grund wird die evolutionäre Genomforschung zunehmend an Bedeutung gewinnen und dabei sicher auch Rückwirkungen auf die funk- [1] Kondrashov, A. S. (1999): Comparative genomics and evolutionary biology. Curr. Opin. Gen. Dev. 9: 624-629 [2] McGinnis, W., Garber, R. L., Wirz, J., Kuroiwa, A. und Gehring, W. J. (1984): A homologous proteincoding sequence in Drosophila homeotic genes and its conservation in other metazoans. Cell 37: 403-408 [3] Mushegian, A. R., Garey, J. R., Martin, J. und Xiu, L. X. (1998): Large-scale taxonomic profiling of eukaryotic model organisms: A comparison of orthologous proteins encoded by the human, fly, nematode, and yeast genomes. Genome Res. 8: 590-598 [4] Huynen, M. A. und Bork, P. (1998): Measuring genome evolution. Proc. Natl. Acad. Sci. USA 95: 5849-5856 [5] Pellegrini, M., Marcotte, E. M., Thompson, M. J., Eisenberg, D. und Yeates, T. O. (1999): Assigning protein functions by comparative genome analysis: Protein phylogenetic profiles. Proc. Natl. Acad. Sci. USA 96: 4285-4288 [6] Chothia, C. (1992): One thousand families for the molecular biologist. Nature 357: 543-544 [7] Wang, Z.-G., Schmid, K. J. und Ackerman, S. (1999): The Drosophila gene 2A5 complements the defect in mitochondrial F1-ATPase assembly in yeast lacking the molecular chaperone Atp11p. FEBS Lett. 452: 305-308 [8] Tautz, D. and Schmid, K. J. (1998): From genes to individuals: developmental genes and the generation of the phenotype. Phil. Trans. R. Soc. Lond.B 353:231-240 [9] Ashburner, M., Misra, S., Roote, J., Lewis, S., Blazej, R., Davis, T., Doyle, C., Galle, R., George, R., Harris, N., Hartzell, G., Harvey, D., Hong, L., Houston, K., Hoskins, R., Johnson, G., Martin, C., Moshrefie, A., Palazzolo, M., Reese, M., Spradling, A., Tsang, G., Wan, K., Whitelaw, K., Kimmel, B., Celniker, S. und Rubin, G. M. (1999): An exploration of the sequence of a 2.9-Mb region of the genome of Drosophila melanogaster - The Adh region. Genetics 153: 179-219 [10] Schmid, K. J. und Tautz, D. (1997): A screen for fast evolving genes from Drosophila. Proc. Natl Acad. Sci. USA 94: 9746-9750 [11] Schmid, K. J., Nigro, L., Aquadro, C. F. und Tautz, D. (1999): Large number of replacement polymorphisms in rapidly evolving genes of Drosophila: Implications for genome-wide surveys of DNA polymorphism. Genetics 153: 1717-1729 [12] Maynard Smith, J. und Haigh, J. (1974): The hitch-hiking effect of a favorable gene. Genet. Res. Camb. 23: 23-35 [13] Kaplan, N. R., Hudson, R. R. und Langley, C. H. (1989): The „hitchiking“ effect revisited. Genetics 123: 887-899 [14] Schlötterer, C., Vogl, C. und Tautz, D. (1997): Polymorphism and locus-specific effects on polymorphism at microsatellite loci in natural Drosophila melanogaster populations. Genetics 146: 309-320 [15] Stahl, E., Dwyer, G., Mauricio, R., Kreitman, M. und Bergelson, J. (1999): Dynamics of disease resistance polymorphism at the Rpm1 locus of Arabidopsis. Nature 400: 667-671 [16] Wang, R. L., Stec, A., Hey, J., Lukens, L. und Doebley, J. (1999): The limits of selection during maize evolution. Nature 398: 236-239 [17] Hacia, J. G., Fan, J. B., Ryder, O., Jin, L., Edgemon, K., Ghandour, G., Mayer, R. A., Sun, B., Hsie, L., Robbins, C. M., Brody, L. C., Wang, D., Lander, E. S., Lipshutz, R., Fodor, S. P. und Collins, F. S. (1999): Determination of ancestral alleles for human single-nucleotide polymorphisms using highdensity oligonucleotide arrays. Nature Genetics 22: 164-167 [18] Comeron, J. M. (1995): A method for estimating the numbers of synonymous and nonsynonymous substitutions per site. J. Mol. Evol. 41: 1152-1159