Schlaglicht 464 Vergleichende Genomanalyse in Prokaryoten – auf dem Weg zur Proteinfunktion Tancred Frickey, Ulrich Kahlow, Andrei Lupas, Max-Planck-Institut für Entwicklungsbiologie, Abteilung Proteinevolution, Tübingen Das erste vollständige Genom eines frei- lebenden Organismus, des Bakteriums Haemophilus influenzae, wurde 1995 bestimmt[1]. Seitdem sind 137 weitere Genome sequenziert worden: 105 bakterielle, 16 archaeale, 16 eukaryotische, und 579 weitere sind in Bearbeitung[2]. Die Bestimmung einer Genomsequenz ist jedoch nicht mit deren Verständnis gleichzusetzen. Tatsächlich klafft eine große Lücke zwischen der Rate, mit der wir neue Gene sequenzieren und der Rate, mit der wir ihre biologische Rolle ermitteln können. Selbst in Escherichia coli, seit Jahrzehnten das „Haustier“ der molekularen Mikrobiologie, waren bei Fertigstellung der Genomsequenz weniger als 50% der ver- muteten Gene experimentell beschrieben[3] und in anderen sequenzierten Organismen sind funktionelle Studien, zum Beispiel wegen ihrer extremen Wachstumsbedingungen, oft nicht möglich. Um trotzdem Aussagen über den Geninhalt eines Genoms machen zu können, bedienen sich Genomforscher der vergleichenden Genomanalyse. Genomannotation Alle uns bekannten Organismen gehen auf einen gemeinsamen Urahnen zurück und haben einen ähnlichen molekularen Aufbau. Dabei gilt: je grundlegender eine Komponente, desto weniger hat sie sich im Laufe der Zeit verändert; zum Beispiel weisen viele ribosomale Proteine in Mensch und Bakterien noch immer über 40% Sequenzidentität auf. Daher ist es möglich, aufgrund von Sequenzähnlichkeit von bekannten auf unbekannte Gene zu schließen. Desgleichen führt die Entdeckung konservierter offener Leserahmen in verschiedenen Organismen zu der Vermutung, dass es sich hierbei um bislang nicht identifizierte Gene handelt. Die Annotation eines neu sequenzierten Genoms beruht also oft weitgehend auf Sequenzvergleichen mit bereits bekannten Genomen, wobei die Zuverlässigkeit der Zuweisungen mit der Anzahl der Vergleichsgenome ansteigt. Vergleiche zwischen nah verwandten Genomen werden gewöhnlich auf Nukleotidebene durchgeführt. Während die in diesen Genomen codierten Proteinsequenzen noch weitgehend identisch sind, hat die Redundanz des genetischen Codes schon zu einer Divergenz der Nucleotidsequenzen geführt, welche Einblicke in regulatorische Sequenzen und andere, schnell evolvierende Merkmale erlaubt. Für das Verständnis der codie- Abb. 1: Verschiedene Grade der Syntenie werden bei Genomvergleichen zwischen Pyrococcus horikoshii und einem nahe verwandten Archeon desselben Genus, Pyrococcus abyssi, beziehungsweise einem entfernt verwandten Euryarchaeon, Thermoplasma acidophilum, sichtbar. Verwandte Gene (durch graue Punkte gekennzeichnet) sind in den beiden Pyrococcen weitgehend kolinear angeordnet und ergeben eine ausgeprägte Diagonale. Davon abweichend sind Umordnungen größerer Genomabschnitte festzustellen, zum Beispiel Inversionen, bei denen ein Abschnitt nun in umgekehrter Leserichtung vorliegt, Transpositionen, bei denen ein Abschnitt an eine andere Stelle des Genoms verlagert wurde, und Duplikationen, bei denen ein Abschnitt vervielfältigt wurde. Ebenfalls sind Insertionen und Deletionen größerer Abschnitte zu sehen, bei denen Erbgut neu aufgenommen wurde (zum Beispiel durch Lateraltransfer), beziehungsweise weggefallen ist. Beim Vergleich von Pyrococcus mit Thermoplasma ist die Abfolge verwandter Gene schon als weitgehend zufällig zu bezeichnen. Nur in manchen Bereichen sind noch konservierte Gencluster zu beobachten, zum Beispiel das in fast allen Organismen vorkommende ribosomale Cluster (siehe auch Abb. 2). BIOspektrum · Sonderausgabe · 9. Jahrgang Schlaglicht 465 renden Sequenzen sind Vergleiche auf Aminosäure-Ebene zu phylogenetisch entfernteren Genomen notwendig, wobei die Verfügbarkeit von Vergleichsgenomen in verschiedenen Verwandtschaftsgraden strukturelle und funktionale Hypothesen auch für extrem divergente Proteine erlaubt. So ist es heute durchaus möglich, mittels Sequenzvergleichen auf evolutionäre Zusammenhänge zwischen Proteinen zu schließen, deren paarweise Sequenzähnlichkeit geringer ist als durch Zufall erwartet (siehe zum Beispiel[4]). Grundsätzlich waren diese Analysen auch vor Verfügbarkeit vollständiger Genome möglich, allerdings haben sich drei Aspekte grundlegend geändert: Datendichte, Vollständigkeit und Zusammenhang. Während früher Gene einzeln entdeckt und kloniert werden mussten, werden heute tausende bis zehntausende Gene in einem Zug sequenziert, darunter viele, deren Existenz man gar nicht vermutet hatte. Während früher eine grundsätzliche Unsicherheit über das Genkomplement eines Organismus bestand, kann heute abschließend geklärt werden, ob ein bestimmtes Gen vorliegt oder nicht. Während früher Gene einzeln oder in kleinen Gruppen studiert wurden, können sie heute in ihrem Gesamtzusammenhang betrachtet werden. Vor allem in Prokaryoten, wo hunderte von sequenzierten Genomen verfügbar sind, hat diese veränderte Datengrundlage neue Methoden der Genomanalyse ermöglicht. Syntenie Syntenie im engeren Sinne ist die konservierte Reihenfolge von Genen. Vergleiche zwischen nah verwandten Organismen wei- sen große übereinstimmende Regionen auf und eignen sich dadurch besonders, um chromosomale Evolutionsmechanismen zu studieren, wie ein Vergleich zweier Pyrococcus Genome zeigt (Abb. 1). Syntenievergleiche konnten inzwischen in einer großen Anzahl prokaryotischer Genome durchgeführt werden, insbesondere zwischen verschiedenen pathogenen Stämmen eines Organismus[5], beziehungsweise zwischen pathogenen und nichtpathogenen Varianten[6]. Dabei konnten in vielen Fällen „Pathogenizitätsinseln“ erkannt werden: Gruppen von Genen, die für das klinische Erscheinungsbild eines Organismus verantwortlich sind und sich daher zum Beispiel in dem uropathogenen E. coli CFT073 und dem enterohaemorrhagischen E. coli O157: H7 unterscheiden. Es wurde auch klar, dass das Spezieskonzept bei Prokaryoten weiter überdacht werden muss: zum Beispiel teilen sich der Laborstamm von E. coli, K12, und zwei pathogene Verwandte nur knapp zwei Drittel ihres jeweiligen Genkomplements (Abb. 2). Dies liegt in der gleichen Größenordnung wie das Genkomplement, welches E. coli K12 mit dem Salmonella typhimurium Laborstamm LT2 teilt, wobei allerdings die durchschnittliche Ähnlichkeit der gemeinsamen Gene deutlich geringer ist. Dies deutet darauf hin, dass sich eine prokaryotische Spezies über weitgehende Sequenzidentität in einem Kernkomplement von Genen definiert, das in einzelnen Stämmen in beträchtlichem Umfang durch weitere Gene ergänzt werden kann. Die Genfolge von prokaryotischen Genomen evolviert mit großer Geschwindigkeit, so dass selbst relativ nah verwandte Organismen (wie zum Beispiel Helicobacter und Campylobacter) kaum größere syntene Re- Abb. 2: Ein Vergleich des Genkomplements dreier E. coli Stämme weist die großen Unterschiede auf, welche zwischen verschiedenen Stämmen eines Organismus in Prokaryoten möglich sind (in Anlehnung an[6]). BIOspektrum · Sonderausgabe · 9. Jahrgang Schlaglicht 466 Abb. 3: Die ursprüngliche Genomanalyse des Bakteriums Thermotoga maritima ergab eine bemerkenswerte Anzahl von Genen, deren nächste Verwandte in Archaeen zu finden sind und die vermutlich durch Lateraltransfer ausgetauscht wurden[12]. Eine phylogenetische Untersuchung aller Gene aus Thermotoga zeigt, dass lokal bis zu einem Drittel der Gene einem Lateraltransfer unterworfen waren (oberer Teil, graue Linie); in vielen Fällen kann die Richtung des Transfers bestimmt werden (aus Archaeen in Thermotoga, blaue Linie; aus Thermotoga in Archaeen, rote Linie). Ein Vergleich mit Genclustern aus Thermotoga (unterer Teil), die in anderen Bakterien (Synechocystis PCC6803, Aquifex aeolicus; rote Linie) beziehungsweise Archaeen (Pyrococcus furiosus, Sulfolobus solfataricus; blaue Linie) konserviert sind, zeigt mehrere Szenarien der Genomevolution: 1. Ein in Archaeen konserviertes Cluster von metabolischen Enzymen, welches in Thermotoga aufgenommen wurde. 2. Ein bakterienspezifisches Cluster von Faltungsfaktoren. 3. Ein aus Bakterien stammendes Cluster von Oberflächenproteinen und Transportern, welches über Thermotoga in Archaeen übertragen wurde. 4. Ein endogenes Cluster von ribosomalen Proteinen, welches älter als die Trennung zwischen Bakterien und Archaeen ist. gionen aufweisen. Lokal werden jedoch auch über große evolutionäre Entfernungen Genfolgen beibehalten, die Operons von funktional verknüpften Genen entsprechen, so zum Beispiel in der Biosynthese der Zellhülle, der Ribosomen (Abb. 1), des Elektronentransportapparats, der Flagellen, und vielem mehr. Darüber hinaus findet man oft Cluster von Genen und Operons, die einen größeren funktionalen Zusammenhang ergeben. Da die genaue Abfolge der Gene und Operons innerhalb dieser Cluster durchaus variieren kann, ist es sinnvoll, Syntenie im weiteren Sinne als die konservierte Anordnung von Genen in chromosomaler Nähe aufzufassen. Die Tendenz der Prokaryoten, funktional verknüpfte Gene in chromosomaler Nähe zusammenzufassen, bietet einen ersten Ansatzpunkt, um unbekannte Gene einem Funktionskreis zuzuweisen[7]. Die Analyse nichtcodierender Bereiche in syntenen Regionen ist eine zuverlässige Methode um regulatorische Elemente aufzu- finden, da diese sich durch ihren Konservierungsgrad vom Hintergrund zufälliger Mutationen abheben, so zum Beispiel in der Identifikation archaealer Promotoren[8]. In einem Genomvergleich von vier verwandten Hefen konnten so 42 neue regulatorische Sequenzen identifiziert werden[9]. Darüberhinaus wurde klar, dass 503 offene Leserahmen, welche in der ursprünglichen Annotation von Saccharomyces cerevisiae als mögliche Gene geführt worden waren, nicht konserviert sind und daher wahrscheinlich keinen tatsächlichen Genen entsprechen. Auch beim menschlichen Genom verspricht man sich kritische Einsichten aus der Syntenie zur Maus und zu Primaten[10]. Phylogenomik Kenntnis des vollständigen Genkomplements von Organismen legt nahe, ihre Phylogenie unter Einbeziehung aller Gene neu zu bewerten. Hierbei hat sich bei Prokaryo- ten lateraler Gentransfer jedoch als große Hürde herausgestellt. Lateraler Gentransfer ist die Aufnahme und Integration fremder DNS in das eigene Genom; dabei kann die phylogenetische Entfernung beträchtlich sein (zum Beispiel von Mensch zu E. coli) und die Größe der aufgenommenen Sequenz vom einzelnen Gen bis zum ganzen Genomabschnitt variieren. Das Genom des Bakteriums Thermotoga maritima war eines der ersten, bei dem das Ausmaß dieses Mechanismus deutlich wurde. Größte Ähnlichkeit zu bakteriellen Proteinen wiesen hier kaum mehr als die Hälfte, zu archaealen Proteinen jedoch knapp ein Viertel aller Gene auf[11]. Ähnlich verhielt es sich bei einem Vergleich der Archaeen Thermoplasma acidophilum und Sulfolobus solfataricus, welche durch mehr als zwei Milliarden Jahre Evolution getrennt sind, aber ähnliche ökologische Nischen bevölkern; hier waren sogar mehrere Transfers größerer genomischer Regionen erkennbar[12]. Um solche Ereignisse BIOspektrum · Sonderausgabe · 9. Jahrgang Schlaglicht nachzuvollziehen bietet es sich an, für jedes Gen eines Genoms eine Phylogenie zu erstellen und diese mit Synteniedaten zu vergleichen (Abb. 3). Die Stammbäume einer jeden Gengruppe erlauben es dann, je nach Zuverlässigkeit der Phylogenien, Rückschlüsse über Zeitpunkt, Richtung und Geninhalt eines lateralen Transfers zu ziehen. Wie der Vergleich der drei E. coli Genome (Abb. 2) verdeutlicht, weisen bei Prokaryoten oft auch einzelne Stämme einer Spezies aufgrund der hohen Aufnahme- und Verlustraten große Unterschiede im Genbestand auf. Für organismische Phylogenien ist daher globale Genomähnlichkeit weit weniger aussagekräftig als die Konserviertheit eines spezifischen Kernkomplements, welches hauptsächlich aus Genen der Transkriptions- und Translationsmaschinerie besteht und sich durch geringe Evolutionsgeschwindigkeit, niedrige Austauschraten und universelles Vorkommen auszeichnet. Diese Stammbäume bestätigen weitestgehend die traditionellen, über 16S rRNA gewonnenen Phylogenien[13]. Singletons Vergleichende Genomanalysen finden ihre Grenzen bei den sogenannten Singletons, Sequenzen für die keine Verwandten erkennbar sind und die 10–30% der Gene in jedem neuen Genom darstellen. Hierbei handelt es sich gelegentlich um fehlerhaft vorhergesagte offene Leserahmen (siehe [9]), oft aber um extrem divergente, schnell evolvierende Sequenzen und in manchen Fällen möglicherweise auch um neu erfundene Gene. Literatur [1] Fleischmann, R.D., et al. Wholegenome random sequencing and assembly of Haemophilus influenzae Rd. Science. 1995. 269: p. 496–512. [2] GOLD Datenbank; http://igweb.integratedgenomics.com/GOLD/ BIOspektrum · Sonderausgabe · 9. Jahrgang [3] Blattner, F.R., et al. The complete genome sequence of Escherichia coli K-12. Science. 1997. 277: p. 1453–74. [4] Koretke, K.K., Russell, R.B., Lupas, A.N. Fold recognition without folds. Protein Sci. 2002. 11: p. 1575–9. [5] Boneca, I.G., et al. A revised annotation and comparative analysis of Helicobacter pylori genomes. Nucleic Acids Res. 2003. 31: p. 1704–14. [6] Welch, R.A., et al. Extensive mosaic structure revealed by the complete genome sequence of uropathogenic Escherichia coli. Proc Natl Acad Sci USA. 2002. 99: p. 17020–4. [7] Overbeek, R., et al. Use of contiguity on the chromosome to predict functional coupling. In Silico Biol. 1999. 1: p. 93–108. [8] Gelfand, M.S., Koonin, E.V., Mironov, A.A. Prediction of transcription regulatory sites in Archaea by a comparative genomic approach. Nucleic Acids Res. 2000. 28: p. 695–705. [9] Kellis, M., et al. Sequencing and comparison of yeast species to identify genes and regulatory elements. Nature. 2003. 423: p. 241–54. [10] Waterston, R.H., et al. Initial sequencing and comparative analysis of the mouse genome. Nature. 2002. 420: p. 520–62. [11] Ruepp, A., et al. The genome sequence of the thermoacidophilic scavenger Thermoplasma acidophilum. Nature. 2000. 407: p. 508–13. [12] Nelson, K.E., et al. Evidence for lateral gene transfer between Archaea and bacteria from genome sequence of Thermotoga maritima. Nature. 1999. 399: p. 323–9. [13] Wolf, Y.I., et al. Genome trees and the tree of life. Trends Genet. 2002. 18: p. 472–9. Korrespondenzadresse: Tancred Frickey, Ulrich Kahlow, Andrei Lupas Max-Planck-Institut für Entwicklungsbiologie Abteilung Proteinevolution Spemannstr. 35 D-72076 Tübingen Tel.: 07071-601 340 Fax: 07071-601 349 [email protected]