Vorlesung 2: Lebensbaum Evolution der hauptsächlichen Abstammungen des Lebens – “Tree of Life”, Lebensbaum – Theorie von der mehrfachen Symbiose Clusters of Orthologous Groups (Cluster der Der Lebensbaum -- die Stammesgeschichte alle Organismen • Wie sind derzeitige Organismen miteinander verwandt? • Was ist der Ursprung der eukaryotischen Zelle? orthologischen Gruppen) -- Lebensbaum, neue Sichtweise Struktur des eukaryotischen Gens – Intronen und Exonen – alternatives Spleißen Die klasslichen fünf Reiche der Organismen Eukaryote vs Prokaryote • • • • Zellkern Organelle Histone DNA + + + lineare - - - ringförmige molekulare Daten -- 3 Hauptgruppen (nicht 5) Bacteria Archaea Eukarya • • • • • Animalia Plantae Fungi Protoctista -- einzellige Eukaryote Monera -- Prokaryote Ursprung der eukaryotischen Zelle • woher kommen die Organellen? 2 Hypothesen • 1) “Endogenous origin hypothesis” - von innen der Einzelzelle • 2) “Serial Endosymbiont Hypothesis” - Theorie von der mehrfachen Symbiose – Lynn Margulis -- 1960’s • Phylogenie der rRNA-Gene (ribosomale RNA) 1 Theorie von PLANTAE der mehrfachen Symbiose ANIMALIA FUNGI Hinweis von DNA der Organelle • Mitochondrion -- mtDNA – Pflanzen -- 300 - 1,200 kb – Pilze -- 26 - 115 kb – Tiere -- 16 - 18 kb PROTOCTISTA • Chloroplast -- cpDNA – Pflanzen -- 150-160 kb – rRNA – tRNA – wenig Proteine MONERA rRNA Vergleiche: Vorhersage der Hypothese 1 rRNA Vergleiche: Vorhersage der Hypothese 2 • wenn endogener Ursprung der Organellen, am ähnlichsten • wenn endosymbiotischer Ursprung der Organellen, Bakterium Kuh N • ringförmige Genome • Gene für m Kuh N Mais N N m am ähnlichsten Bakterium am ähnlichsten Mais N N m c Blaugrüne Alge rRNA Vergleiche: Daten c Blaugrüne Alge am ähnlichsten COGs - Cluster der orthologischen Gruppen - Clusters of Orthologous Groups Archaea mt Eukarya m chl Bacteria • rRNA unterstützt die mehrfache Symbiose sehr stark • aber erzählen die Proteine dieselbe Geschichte? • Ziel: Identifizierung der Gruppen der Ur-Proteine, wovon stammen die derzeitigen Proteine ab • Vorteil der Kenntnis der ganzen Genome: keine Daten fehlen • nur wenn ganzes Genom bekannt ist, kann man bestimmt sagen, dass der Species X das Protein Y fehlt! • Anfang 1997 mit 7 Genomen 2 Definition des COGs Definition des COGs • durchgehende Linie -- reziproker “best Hit” • 17,967 Proteine, 7 komplette Genome – 5 Bact, 1 Arch, 1 Eukar (Hefe) • Alle möglichen paarweisen Vergleiche der Proteinsequenzen bei BLAST • wählen 1 Protein aus 1 Genom – finden “best hit (BeT)”: das ähnlichste Protein in jedem anderen der 6 Genome – verbinden mit gestrichelte Linie – KatG is the BeT of YKR066c and – YKR066c is the BeT of KatG KatG E. coli YKR066c Yeast KatG E. coli YKR066c Hefe Definition des COGs COG mit 2 Paraloge in Hefe • Dreieck aus durchgehender Linie: kleinstmögliche COG • verbinden aller Dreiecke mit gemeinsamer Linie -> neue COG Ile-tRNA synthetase Hefe cyto Hefe mito Hefe Proteine: mitochondrialer Typ ähnlicher als bakterieller Typ σ- (sigma) factors--RNA pol. initiation E. coli Abschätzung der Funktionen der COGs • Die meisten COG haben mindestens ein Protein, von dem die Funktion auf Grund experimenteller Forschung bekannt ist • Man nimmt an, das alle anderen Proteine in COG die selbe Funktion haben Synechocystis (Blaugrüne Alga) Synochocystis Paraloge sind neuer, haben besondere Funktionen 3 funktionale Einordnung (1) funktionale Einordnung (2) E, E. coli; H, H. influenzae; G, M. genitalium; P, M. pneumoniae; C, Synechocystis sp.; M, M. jannaschii; Y, S. cerevisiae. http://www.ncbi.nlm.nih.gov/COG/ Liste aller COGs A E B phylogenetische Verteilung (2001) • in 2001 -- 2791 COGs aus 30 kompletten Genome • 45,350 Proteine in COGs (60% der Total ) • Verteilung in Archaea, Bacteria, Eukarya wenn neue Genome sequenziert werden, werden immer noch neue COGs gefunden Anzahl der COGs – AEB - 606 – AB - 829 – AE - 98 – EB - 200 – A- 197 – B- 955 – E0 (in 2001, nur Hefe als Eukaryote in COG database) 4 Clusteranalyse der hauptsächlichen Abstammungen mit COGs Zeigen alle Proteine ein ähnliches evolutionelles Muster? • Parallelentwicklung, Paralleldivergenz A B C D E Spezies Protein 1 all COGs translation transcription replication Protein 2 metabolism • diskordante Divergenz – Hinweis für horizontaler Gentransfer A B C D E Spezies Protein 1 Protein 2 verscheidene Funktionen haben verscheidene Beziehungen Hinweis für früheren horizontalen Gentransfer • • • • Aquifex aeolicus (Genomesequenz 1998) thermophil, aber als Bakterium klassifiziert aber 15% der Gene sind ähnlicher zu Archaea diese Gene treten zusammen auf in A ae Genome “Bacterial” “Archaeal” 2 verschiedene Muster in Prokaryoten Hinweis für 2 Hauptklassen von Genen • “informationale” Gene – Translation, Transkription, Replikation – GTPases, vacuolar ATPases, tRNA synthetases. • “operative” Gene – Biosynthese der Aminosäure, Cofaktoren, Fettsäure, Phospholipide, Nucleotide, usw. – Zellmembran, Energiestoffwechsel, regulatorische Funktionen Eukaryote mögen “Chimäre” sein B B B B E A • informationale Gene aus Archaea • operationale Gene aus Bakteria B A A • zusätzlicher, späterer horizontaler Gentransfer der operationalen Gene Archaea <-->Bacteria 5 Zusammenfassung • das Studium ganzer Genome sagt aus: • bezüglich drei Hauptgruppen – ein Lebensbaum wäre zu einfach – horizontaler Gentransfer ist sehr früh in der Evolution passiert 6