Vergleichende Genomanalyse in Prokaryoten

Werbung
Schlaglicht
464
Vergleichende Genomanalyse in Prokaryoten
– auf dem Weg zur Proteinfunktion
Tancred Frickey, Ulrich Kahlow, Andrei Lupas,
Max-Planck-Institut für Entwicklungsbiologie, Abteilung Proteinevolution, Tübingen
Das erste vollständige Genom eines frei-
lebenden Organismus, des Bakteriums Haemophilus influenzae, wurde 1995 bestimmt[1].
Seitdem sind 137 weitere Genome sequenziert worden: 105 bakterielle, 16 archaeale,
16 eukaryotische, und 579 weitere sind in
Bearbeitung[2]. Die Bestimmung einer Genomsequenz ist jedoch nicht mit deren Verständnis gleichzusetzen. Tatsächlich klafft
eine große Lücke zwischen der Rate, mit der
wir neue Gene sequenzieren und der Rate,
mit der wir ihre biologische Rolle ermitteln
können. Selbst in Escherichia coli, seit Jahrzehnten das „Haustier“ der molekularen
Mikrobiologie, waren bei Fertigstellung der
Genomsequenz weniger als 50% der ver-
muteten Gene experimentell beschrieben[3]
und in anderen sequenzierten Organismen
sind funktionelle Studien, zum Beispiel wegen ihrer extremen Wachstumsbedingungen, oft nicht möglich. Um trotzdem Aussagen über den Geninhalt eines Genoms
machen zu können, bedienen sich Genomforscher der vergleichenden Genomanalyse.
Genomannotation
Alle uns bekannten Organismen gehen auf
einen gemeinsamen Urahnen zurück und
haben einen ähnlichen molekularen Aufbau.
Dabei gilt: je grundlegender eine Komponente, desto weniger hat sie sich im Laufe
der Zeit verändert; zum Beispiel weisen viele ribosomale Proteine in Mensch und Bakterien noch immer über 40% Sequenzidentität auf. Daher ist es möglich, aufgrund von
Sequenzähnlichkeit von bekannten auf unbekannte Gene zu schließen. Desgleichen
führt die Entdeckung konservierter offener
Leserahmen in verschiedenen Organismen
zu der Vermutung, dass es sich hierbei um
bislang nicht identifizierte Gene handelt.
Die Annotation eines neu sequenzierten Genoms beruht also oft weitgehend auf Sequenzvergleichen mit bereits bekannten Genomen, wobei die Zuverlässigkeit der Zuweisungen mit der Anzahl der Vergleichsgenome ansteigt.
Vergleiche zwischen nah verwandten Genomen werden gewöhnlich auf Nukleotidebene durchgeführt. Während die in diesen
Genomen codierten Proteinsequenzen noch
weitgehend identisch sind, hat die Redundanz des genetischen Codes schon zu einer
Divergenz der Nucleotidsequenzen geführt,
welche Einblicke in regulatorische Sequenzen und andere, schnell evolvierende Merkmale erlaubt. Für das Verständnis der codie-
Abb. 1: Verschiedene Grade der Syntenie werden bei Genomvergleichen zwischen Pyrococcus horikoshii und einem nahe verwandten Archeon desselben
Genus, Pyrococcus abyssi, beziehungsweise einem entfernt verwandten Euryarchaeon, Thermoplasma acidophilum, sichtbar. Verwandte Gene (durch graue
Punkte gekennzeichnet) sind in den beiden Pyrococcen weitgehend kolinear angeordnet und ergeben eine ausgeprägte Diagonale. Davon abweichend sind
Umordnungen größerer Genomabschnitte festzustellen, zum Beispiel Inversionen, bei denen ein Abschnitt nun in umgekehrter Leserichtung vorliegt, Transpositionen, bei denen ein Abschnitt an eine andere Stelle des Genoms verlagert wurde, und Duplikationen, bei denen ein Abschnitt vervielfältigt wurde.
Ebenfalls sind Insertionen und Deletionen größerer Abschnitte zu sehen, bei denen Erbgut neu aufgenommen wurde (zum Beispiel durch Lateraltransfer),
beziehungsweise weggefallen ist. Beim Vergleich von Pyrococcus mit Thermoplasma ist die Abfolge verwandter Gene schon als weitgehend zufällig zu
bezeichnen. Nur in manchen Bereichen sind noch konservierte Gencluster zu beobachten, zum Beispiel das in fast allen Organismen vorkommende ribosomale Cluster (siehe auch Abb. 2).
BIOspektrum · Sonderausgabe · 9. Jahrgang
Schlaglicht
465
renden Sequenzen sind Vergleiche auf Aminosäure-Ebene zu phylogenetisch entfernteren Genomen notwendig, wobei die Verfügbarkeit von Vergleichsgenomen in verschiedenen Verwandtschaftsgraden strukturelle und funktionale Hypothesen auch für
extrem divergente Proteine erlaubt. So ist es
heute durchaus möglich, mittels Sequenzvergleichen auf evolutionäre Zusammenhänge zwischen Proteinen zu schließen, deren paarweise Sequenzähnlichkeit geringer
ist als durch Zufall erwartet (siehe zum Beispiel[4]).
Grundsätzlich waren diese Analysen auch
vor Verfügbarkeit vollständiger Genome
möglich, allerdings haben sich drei Aspekte
grundlegend geändert: Datendichte, Vollständigkeit und Zusammenhang. Während
früher Gene einzeln entdeckt und kloniert
werden mussten, werden heute tausende bis
zehntausende Gene in einem Zug sequenziert, darunter viele, deren Existenz man gar
nicht vermutet hatte. Während früher eine
grundsätzliche Unsicherheit über das Genkomplement eines Organismus bestand,
kann heute abschließend geklärt werden, ob
ein bestimmtes Gen vorliegt oder nicht.
Während früher Gene einzeln oder in kleinen Gruppen studiert wurden, können sie
heute in ihrem Gesamtzusammenhang betrachtet werden. Vor allem in Prokaryoten,
wo hunderte von sequenzierten Genomen
verfügbar sind, hat diese veränderte Datengrundlage neue Methoden der Genomanalyse ermöglicht.
Syntenie
Syntenie im engeren Sinne ist die konservierte Reihenfolge von Genen. Vergleiche
zwischen nah verwandten Organismen wei-
sen große übereinstimmende Regionen auf
und eignen sich dadurch besonders, um
chromosomale Evolutionsmechanismen zu
studieren, wie ein Vergleich zweier Pyrococcus Genome zeigt (Abb. 1). Syntenievergleiche konnten inzwischen in einer großen Anzahl prokaryotischer Genome durchgeführt
werden, insbesondere zwischen verschiedenen pathogenen Stämmen eines Organismus[5], beziehungsweise zwischen pathogenen und nichtpathogenen Varianten[6].
Dabei konnten in vielen Fällen „Pathogenizitätsinseln“ erkannt werden: Gruppen
von Genen, die für das klinische Erscheinungsbild eines Organismus verantwortlich
sind und sich daher zum Beispiel in dem
uropathogenen E. coli CFT073 und dem enterohaemorrhagischen E. coli O157: H7 unterscheiden. Es wurde auch klar, dass das
Spezieskonzept bei Prokaryoten weiter
überdacht werden muss: zum Beispiel teilen
sich der Laborstamm von E. coli, K12, und
zwei pathogene Verwandte nur knapp zwei
Drittel ihres jeweiligen Genkomplements
(Abb. 2). Dies liegt in der gleichen Größenordnung wie das Genkomplement, welches
E. coli K12 mit dem Salmonella typhimurium
Laborstamm LT2 teilt, wobei allerdings die
durchschnittliche Ähnlichkeit der gemeinsamen Gene deutlich geringer ist. Dies deutet darauf hin, dass sich eine prokaryotische
Spezies über weitgehende Sequenzidentität
in einem Kernkomplement von Genen definiert, das in einzelnen Stämmen in beträchtlichem Umfang durch weitere Gene
ergänzt werden kann.
Die Genfolge von prokaryotischen Genomen evolviert mit großer Geschwindigkeit, so dass selbst relativ nah verwandte Organismen (wie zum Beispiel Helicobacter und
Campylobacter) kaum größere syntene Re-
Abb. 2: Ein Vergleich des Genkomplements dreier E. coli Stämme weist die großen Unterschiede auf,
welche zwischen verschiedenen Stämmen eines Organismus in Prokaryoten möglich sind (in Anlehnung an[6]).
BIOspektrum · Sonderausgabe · 9. Jahrgang
Schlaglicht
466
Abb. 3: Die ursprüngliche Genomanalyse des Bakteriums Thermotoga maritima ergab eine bemerkenswerte Anzahl von Genen, deren nächste Verwandte in
Archaeen zu finden sind und die vermutlich durch Lateraltransfer ausgetauscht wurden[12]. Eine phylogenetische Untersuchung aller Gene aus Thermotoga
zeigt, dass lokal bis zu einem Drittel der Gene einem Lateraltransfer unterworfen waren (oberer Teil, graue Linie); in vielen Fällen kann die Richtung des
Transfers bestimmt werden (aus Archaeen in Thermotoga, blaue Linie; aus Thermotoga in Archaeen, rote Linie). Ein Vergleich mit Genclustern aus Thermotoga (unterer Teil), die in anderen Bakterien (Synechocystis PCC6803, Aquifex aeolicus; rote Linie) beziehungsweise Archaeen (Pyrococcus furiosus,
Sulfolobus solfataricus; blaue Linie) konserviert sind, zeigt mehrere Szenarien der Genomevolution: 1. Ein in Archaeen konserviertes Cluster von metabolischen Enzymen, welches in Thermotoga aufgenommen wurde. 2. Ein bakterienspezifisches Cluster von Faltungsfaktoren. 3. Ein aus Bakterien stammendes
Cluster von Oberflächenproteinen und Transportern, welches über Thermotoga in Archaeen übertragen wurde. 4. Ein endogenes Cluster von ribosomalen
Proteinen, welches älter als die Trennung zwischen Bakterien und Archaeen ist.
gionen aufweisen. Lokal werden jedoch
auch über große evolutionäre Entfernungen
Genfolgen beibehalten, die Operons von
funktional verknüpften Genen entsprechen,
so zum Beispiel in der Biosynthese der Zellhülle, der Ribosomen (Abb. 1), des Elektronentransportapparats, der Flagellen, und vielem mehr. Darüber hinaus findet man oft
Cluster von Genen und Operons, die einen
größeren funktionalen Zusammenhang ergeben. Da die genaue Abfolge der Gene und
Operons innerhalb dieser Cluster durchaus
variieren kann, ist es sinnvoll, Syntenie im
weiteren Sinne als die konservierte Anordnung von Genen in chromosomaler Nähe
aufzufassen. Die Tendenz der Prokaryoten,
funktional verknüpfte Gene in chromosomaler Nähe zusammenzufassen, bietet einen ersten Ansatzpunkt, um unbekannte
Gene einem Funktionskreis zuzuweisen[7].
Die Analyse nichtcodierender Bereiche in
syntenen Regionen ist eine zuverlässige Methode um regulatorische Elemente aufzu-
finden, da diese sich durch ihren Konservierungsgrad vom Hintergrund zufälliger
Mutationen abheben, so zum Beispiel in der
Identifikation archaealer Promotoren[8]. In
einem Genomvergleich von vier verwandten
Hefen konnten so 42 neue regulatorische Sequenzen identifiziert werden[9]. Darüberhinaus wurde klar, dass 503 offene Leserahmen, welche in der ursprünglichen Annotation von Saccharomyces cerevisiae als mögliche
Gene geführt worden waren, nicht konserviert sind und daher wahrscheinlich keinen
tatsächlichen Genen entsprechen. Auch
beim menschlichen Genom verspricht man
sich kritische Einsichten aus der Syntenie
zur Maus und zu Primaten[10].
Phylogenomik
Kenntnis des vollständigen Genkomplements von Organismen legt nahe, ihre Phylogenie unter Einbeziehung aller Gene neu
zu bewerten. Hierbei hat sich bei Prokaryo-
ten lateraler Gentransfer jedoch als große
Hürde herausgestellt. Lateraler Gentransfer
ist die Aufnahme und Integration fremder
DNS in das eigene Genom; dabei kann die
phylogenetische Entfernung beträchtlich
sein (zum Beispiel von Mensch zu E. coli)
und die Größe der aufgenommenen Sequenz vom einzelnen Gen bis zum ganzen
Genomabschnitt variieren. Das Genom des
Bakteriums Thermotoga maritima war eines
der ersten, bei dem das Ausmaß dieses Mechanismus deutlich wurde. Größte Ähnlichkeit zu bakteriellen Proteinen wiesen hier
kaum mehr als die Hälfte, zu archaealen Proteinen jedoch knapp ein Viertel aller Gene
auf[11]. Ähnlich verhielt es sich bei einem
Vergleich der Archaeen Thermoplasma acidophilum und Sulfolobus solfataricus, welche
durch mehr als zwei Milliarden Jahre Evolution getrennt sind, aber ähnliche ökologische Nischen bevölkern; hier waren sogar
mehrere Transfers größerer genomischer Regionen erkennbar[12]. Um solche Ereignisse
BIOspektrum · Sonderausgabe · 9. Jahrgang
Schlaglicht
nachzuvollziehen bietet es sich
an, für jedes Gen eines Genoms eine Phylogenie zu erstellen und diese mit Synteniedaten zu vergleichen (Abb.
3). Die Stammbäume einer jeden Gengruppe erlauben es
dann, je nach Zuverlässigkeit
der Phylogenien, Rückschlüsse über Zeitpunkt, Richtung
und Geninhalt eines lateralen
Transfers zu ziehen.
Wie der Vergleich der drei E.
coli Genome (Abb. 2) verdeutlicht, weisen bei Prokaryoten
oft auch einzelne Stämme einer Spezies aufgrund der hohen Aufnahme- und Verlustraten große Unterschiede im
Genbestand auf. Für organismische Phylogenien ist daher
globale Genomähnlichkeit
weit weniger aussagekräftig als
die Konserviertheit eines spezifischen Kernkomplements,
welches hauptsächlich aus Genen der Transkriptions- und
Translationsmaschinerie besteht und sich durch geringe
Evolutionsgeschwindigkeit,
niedrige Austauschraten und
universelles Vorkommen auszeichnet. Diese Stammbäume
bestätigen weitestgehend die
traditionellen, über 16S rRNA
gewonnenen Phylogenien[13].
Singletons
Vergleichende Genomanalysen
finden ihre Grenzen bei den
sogenannten Singletons, Sequenzen für die keine Verwandten erkennbar sind und
die 10–30% der Gene in jedem
neuen Genom darstellen. Hierbei handelt es sich gelegentlich
um fehlerhaft vorhergesagte offene Leserahmen (siehe [9]),
oft aber um extrem divergente,
schnell evolvierende Sequenzen und in manchen Fällen
möglicherweise auch um neu
erfundene Gene.
Literatur
[1] Fleischmann, R.D., et al. Wholegenome random sequencing and assembly of Haemophilus influenzae Rd.
Science. 1995. 269: p. 496–512.
[2] GOLD Datenbank; http://igweb.integratedgenomics.com/GOLD/
BIOspektrum · Sonderausgabe · 9. Jahrgang
[3] Blattner, F.R., et al. The complete genome sequence of Escherichia
coli K-12. Science. 1997. 277:
p. 1453–74.
[4] Koretke, K.K., Russell, R.B., Lupas, A.N. Fold recognition without
folds. Protein Sci. 2002. 11: p. 1575–9.
[5] Boneca, I.G., et al. A revised annotation and comparative analysis of
Helicobacter pylori genomes. Nucleic
Acids Res. 2003. 31: p. 1704–14.
[6] Welch, R.A., et al. Extensive mosaic structure revealed by the complete
genome sequence of uropathogenic Escherichia coli. Proc Natl Acad Sci USA.
2002. 99: p. 17020–4.
[7] Overbeek, R., et al. Use of contiguity on the chromosome to predict
functional coupling. In Silico Biol. 1999.
1: p. 93–108.
[8] Gelfand, M.S., Koonin, E.V.,
Mironov, A.A. Prediction of transcription regulatory sites in Archaea by a
comparative genomic approach. Nucleic
Acids Res. 2000. 28: p. 695–705.
[9] Kellis, M., et al. Sequencing and
comparison of yeast species to identify
genes and regulatory elements. Nature.
2003. 423: p. 241–54.
[10] Waterston, R.H., et al. Initial
sequencing and comparative analysis of
the mouse genome. Nature. 2002. 420:
p. 520–62.
[11] Ruepp, A., et al. The genome sequence of the thermoacidophilic scavenger Thermoplasma acidophilum. Nature. 2000. 407: p. 508–13.
[12] Nelson, K.E., et al. Evidence for
lateral gene transfer between Archaea
and bacteria from genome sequence of
Thermotoga maritima. Nature. 1999.
399: p. 323–9.
[13] Wolf, Y.I., et al. Genome trees
and the tree of life. Trends Genet. 2002.
18: p. 472–9.
Korrespondenzadresse:
Tancred Frickey, Ulrich Kahlow,
Andrei Lupas
Max-Planck-Institut für
Entwicklungsbiologie
Abteilung Proteinevolution
Spemannstr. 35
D-72076 Tübingen
Tel.: 07071-601 340
Fax: 07071-601 349
[email protected]
Herunterladen