Jahrbuch 2004/2005 | Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Untersuchung von Bindungsstellen zur Aktivierung von Genen Analysis of binding sites for the activation of genes Vingron, Martin Max-Planck-Institut für molekulare Genetik, Berlin Korrespondierender Autor E-Mail: [email protected] Zusammenfassung Transkriptionsfaktoren spielen eine zentrale Rolle bei der Regulation von Genen. Die Abteilung Bioinformatik am MPI für molekulare Genetik nutzt verschiedene mathematische Methoden, um die Funktion und das Zusammenspiel von Transkriptionsfaktoren zu untersuchen und so w eiterführende Erkenntnisse über die Regulation von Genen zu erhalten. Summary Transcription factors play a central role for the regulation of genes. The Department of Computational Biology at the MPI for Molecular Genetics utilizes a panel of mathematical methods to analyze function and interaction of transcription factors in order to achieve new insights into gene regulation. Nach der Sequenzierung des Humangenoms und zahlreicher w eiterer Genome konzentrieren sich heute w esentliche Forschungsanstrengungen auf die Analyse der gew onnenen Daten. Diese beschränkt sich jedoch nicht auf die reine Annotation der Gene, d.h., ihre Identifizierung und Zuordnung zu bestimmten Funktionen. Die Kenntnis der gesamten DNA-Sequenz eines Organismus erlaubt vielmehr eine Reihe von neuen Fragen, insbesondere nach den Mechanismen der Regulation von Genen. Heute interessiert uns nicht nur, w elche Funktion ein Gen bzw . das von ihm kodierte Protein besitzt, sondern auch, w elche Mechanismen dazu führen, dass das Gen überhaupt aktiviert, also abgelesen und in ein Protein übersetzt w ird. Transkriptionsfaktoren als Regulatoren der Genexpression Der menschliche Organismus besitzt ca. 25.000 Gene, die w ährend seines gesamten Lebens in jeder seiner Zellen vorhanden sind. In jeder Phase der Entw icklung und in jeder Zellart w erden aber unterschiedliche Teilmengen dieses Genpools aktiviert. Heute kennen w ir zumindest teilw eise die biologischen Mechanismen, die für diese Aktivierung verantw ortlich sind. Von besonderer Bedeutung ist eine Gruppe von DNA-bindenden Proteinen, die so genannten Transkriptionsfaktoren. Sie bilden einen Komplex mit dem Enzym RNAPolymerase, das für das Ablesen der DNA verantw ortlich ist und aktivieren es dadurch. Die Transkriptionsfaktoren erkennen bestimmte Sequenzmuster, die am Startpunkt eines Gens auf der DNA angeordnet sind (Abb. 1). Das Interesse der Abteilung Bioinformatik am Max-Planck-Institut für molekulare © 2005 Max-Planck-Gesellschaft w w w .mpg.de 1/5 Jahrbuch 2004/2005 | Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Genetik konzentriert sich auf die Identifikation solcher Sequenzmuster und die Frage, in w elcher Kombination Transkriptionsfaktoren über Bindung an diese Muster bestimmte Gene aktivieren. Ve re infa chte s Sche m a de r R e gula tion von junB. © Molekularbiologen und Biochemiker beschäftigen sich schon seit Jahren mit Sequenzmustern, an w elche Transkriptionsfaktoren binden können. Inzw ischen w issen w ir, dass viele Transkriptionsfaktoren an jew eils mehrere unterschiedliche Muster im Genom binden. Der Transkriptionsfaktor SRF (serum response factor) beispielsw eise bindet an die Basenfolge CCTAATATGG vor dem Gen junB und trägt dadurch zu dessen Aktivierung bei (Abb.1). SRF bindet aber auch an anderen Stellen im Genom, die sich von der o.g. Sequenz in verschiedenen Positionen unterscheiden. Seine Bindungsstellen w erden daher allgemein durch die Abfolge der möglichen Basen oder Basenalternativen beschrieben. Abstrakter ist die Beschreibung einer Bindungsstelle durch so genannte „Gew ichtsmatrizen“. Diese geben für jede Position einer zu beschreibenden Bindungsstelle die mögliche Verteilung der Basen an (Abb. 2). Ge wichtsm a trix e ine r SR F-Bindungsste lle . Die Größe de r e inze lne n Buchsta be n ist e in Ma ß für die Hä ufigk e it, m it de r die je we ilige n Ba se n a n de n e ntspre che nde n P ositione n de r Bindungsste lle vork om m e n. © Phylogenetic footprinting - Identifikation wichtiger biologischer Signale durch evolutionäre Konservierung Ein grundsätzliches Problem bei der Analyse von Bindungsstellen ist die Tatsache, dass eine definierte, kurze Abfolge von Basen innerhalb des Gesamtgenoms sehr oft vorkommt. Die Beschreibung der Bindungsstelle als Abfolge von Basen reicht daher nicht aus, um vorherzusagen, an w elcher Stelle im Genom ein Transkriptionsfaktor tatsächlich bindet. W ichtige regulatorische Sequenzen sind allerdings häufig evolutionär konserviert. Bioinformatiker versuchen daher, durch den Vergleich der Genomsequenzen verschiedener Organismen Hinw eise auf die Bedeutung einer bestimmten Sequenz (= potenziellen Bindungsstelle) zu erhalten. Umgekehrt stellen konservierte Sequenzen innerhalb regulatorischer Regionen primäre Kandidaten für die Suche nach neuen Bindungsstellen für Transkriptionsfaktoren dar; entsprechend w erden sie intensiv in Hinblick auf Übereinstimmungen mit bekannten Bindungsmustern untersucht. Die Sequenz der bereits erw ähnten Bindungsstelle für SRF w äre w enig informativ, w enn sie allein im Humangenom betrachtet w ird. Die © 2005 Max-Planck-Gesellschaft w w w .mpg.de 2/5 Jahrbuch 2004/2005 | Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen gleiche Sequenz tritt interessanterw eise in vergleichbarer Position vor einem Gen auch im Genom der Maus auf. Der Vergleich beider Genome ergibt so einen starken Hinw eis darauf, dass es sich bei diesem Muster um ein w ichtiges biologisches Signal handeln könnte. Diese Herangehensw eise w ird als phylogenetic footprinting bezeichnet. Die W issenschaftler der Abteilung Bioinformatik am MPI für molekulare Genetik haben eine Reihe von Computerprogrammen entw ickelt, um solche konservierten Bereiche vor orthologen Genen von Mensch und Maus zu identifizieren und anschließend mit bereits bekannten Bindungsstellenmustern zu annotieren. Die Informationen sind in der Datenbank CORG (Comparative Regulatory Genomics) gespeichert und unter http://corg.molgen.mpg.de/ öffentlich zugänglich. Identifikation der Zielgene von Transkriptionsfaktoren Die Vorhersage von evolutionär konservierten Bindestellen kann auch helfen, Zielgene von Transkriptionsfaktoren zu identifizieren. In einer Zusammenarbeit mit A. Nordheim von der Universität Tübingen w urden zunächst mittels DNA-Chip-Experimenten (siehe unten) die putativen Zielgene von SRF ermittelt. Unter diesen befanden sich sow ohl solche Gene, die von SRF direkt reguliert w urden, als auch diejenigen Gene, die erst in Folge der Aktivierung durch SRF aktiviert w urden. Aus dieser Gesamtmenge konnten mithilfe der beschriebenen Methoden der Mustersuche und der Analyse der evolutionären Konservierung diejenigen Gene herausgefiltert w erden, die direkt von SRF beeinflusst w erden. Diese Information w ar hilfreich, um einen bislang unbekannten Mechanismus der Differenzierung von Muskelzellen aufzuklären [1]. Analyse von Aktivierungsmustern Für komplexe biologische Abläufe ist aber nicht nur die Aktivierung von Einzelgenen, sondern insbesondere die aufeinander abgestimmte Aktivierung ganzer Gruppen von Genen von Bedeutung. Solche „Aktivierungsmuster“ können mithilfe von DNA-Chips bestimmt w erden (siehe von Heydebreck et al., Genexpressionsanalyse komplexer klinischer Phänotypen mittels DNS-Arrays, MPG-Jahrbuch 2003). Aus diesen Experimenten kann man ablesen, w elche Gene sich in definierten Zellarten unter definierten Bedingungen ähnlich verhalten; sie w erden als ko-exprimierte Cluster von Genen bezeichnet. Die Arbeitsgruppe beschäftigt sich unter anderem mit der Frage, ob eine solche Koexpression auf gemeinsame regulatorische Mechanismen, beispielsw eise gleiche Transkriptionsfaktoren, zurückzuführen ist. Mithilfe der CORG-Datenbank untersuchen die W issenschaftler die regulatorischen Bereiche der koexprimierten Gene. In erster Näherung katalogisieren sie die evolutionär konservierten Bindestellen innerhalb dieser Bereiche, w eil diese auf eine regulatorische Funktion des jew eils bindenden Faktors hinw eisen. Die evolutionär konservierten Bindungsstellen innerhalb der regulatorischen Bereiche sind aber immer noch zu zahlreich, als dass sie bereits Aufschluss über eine bestimmte Funktion geben könnten. Daher vergleichen die W issenschaftler die Häufigkeit des Auftretens einer gew issen Bindestelle innerhalb eines koexprimierten Clusters mit der Wahrscheinlichkeit ihres zufälligen Auftretens. Eine solche Analyse w urde beispielsw eise anhand von öffentlich verfügbaren DNA-Chip-Daten zum Zellzyklus in einer menschlichen Zelllinie durchgeführt. Die Koexpressionscluster bestanden aus den Genen, die jew eils in einer bestimmten Phase des Zellzyklus stark exprimiert sind. Die Analyse ihrer regulatorischen Muster ergab eine Reihe von Transkriptionsfaktoren, die nach der beschriebenen statistischen Schlussw eise eine w ichtige Rolle für den Zellzyklus spielen (Abb. 3). Ein Vergleich mit experimentellen Ergebnissen bestätigte dies [2]. © 2005 Max-Planck-Gesellschaft w w w .mpg.de 3/5 Jahrbuch 2004/2005 | Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Gra uwe rtm a trix zur Da rste llung von Bindungshä ufigk e ite n. Eine Spa lte ze igt je we ils da s Koe x pre ssionscluste r a lle r Ge ne , die wä hre nd de r je we ilige n P ha se de s Ze llzyk lus e x prim ie rt we rde n. In de n Ze ile n sind die ve rschie de ne n Tra nsk riptionsfa k torbindungsste lle n a ufge liste t. De r Gra uwe rt de r e inze lne n Ze lle n gibt die Anza hl de r Ge ne a n, die wä hre nd de r je we ilige n P ha se de s Ze llzyk lus a ls durch de n be tre ffe nde n Tra nsk riptionsfa k tor re gulie rt vorhe rge sa gt we rde n. He lle Einträ ge be de ute n e in große Anza hl von Zie lge ne n in de r je we ilige n P ha se . © Interaktion von Transkriptionsfaktoren untereinander Zurzeit arbeiten die W issenschaftler der Abteilung Bioinformatik an der Entw icklung von Methoden, um das Zusammenspiel der Transkriptionsfaktoren zu studieren. In dem im Vergleich zum Säugerorganismus einfacheren Fall der Genregulation in Hefe konnten sie zeigen, dass Transkriptionsfaktoren, deren Bindungsstellen häufig in räumlicher Nähe zueinander auf einer Sequenz zu finden sind, oft auch physikalisch miteinander in Interaktion treten [3]. Auf der Suche nach ähnlichen Prinzipien bei Säugetieren suchen sie nun nach statistischen Tendenzen in der Kombination von Bindungsstellen auf der DNA. Hier kommt den Forschern erneut die evolutionäre Konservierung zu Hilfe und ermöglicht eine Reduktion der falsch positiven Vorhersagen. In einer auf diese Art reduzierten Liste von Transkriptionsfaktor-Paaren, deren Bindestellen häufig nahe beisammen auftreten, w erden tatsächlich viele bekannte, miteinander interagierende Faktoren gefunden [4]. Die beschriebenen Arbeiten beruhen auf einer detaillierten Aufarbeitung und mathematischen Durchdringung der vorhandenen, experimentell ermittelten Daten. Bekannte Bindungsstellen von Transkriptionsfaktoren müssen miteinander verglichen und gruppiert w erden, um Doppelzählungen zu vermeiden. Ihr Informationsgehalt w ird berechnet und innerhalb der Arbeitsgruppe w urden neue mathematische Verfahren entw ickelt, um die zu erw artende Anzahl der falsch positiven Funde – mithin die statistische Signifikanz vorherzusagen [5]. Ein häufig auftretendes Problem bei der Analyse von Daten aus der funktionalen Genomforschung ist das multiple Testen: Aufgrund der großen Menge an Daten kann eine Hypothese mit Hilfe © 2005 Max-Planck-Gesellschaft w w w .mpg.de 4/5 Jahrbuch 2004/2005 | Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen vieler Fälle getestet w erden. Dies führt aber nur scheinbar zu beeindruckenden Signifikanzw erten. Um eine realistische Aussage zu erhalten, müssen die resultierenden Signifikanzw erte entsprechend der Anzahl der durchgeführten Tests korrigiert w erden, um eine adäquate Ausw ertung von biologischen Daten zu gew ährleisten. Die Regulation der Ausprägung eines Gens w ird nicht nur von Transkriptionsfaktoren bestimmt. Trotzdem muss diese Ebene der Regulation studiert w erden, um ein Gesamtbild der verschiedenen regulatorischen Mechanismen einer Zelle aufzeigen zu können. Damit kommen w ir dem umfassenden Verständnis der Funktion einer lebenden Zelle einen w esentlichen Schritt näher. Originalveröffentlichungen Nach Erw eiterungen suchenBilderw eiterungChanneltickerDateilisteHTML- Erw eiterungJobtickerKalendererw eiterungLinkerw eiterungMPG.PuRe-ReferenzMitarbeiter (Employee Editor)Personenerw eiterungPublikationserw eiterungTeaser mit BildTextblockerw eiterungVeranstaltungstickererw eiterungVideoerw eiterungVideolistenerw eiterungYouTubeErw eiterung [1] U. Philippar, G. Schratt, C. Dieterich, J.M. Müller, P. Galgoczy, F.B. Engel, M.T. Keating, F. Gertler, R. Schule, M. Vingron, A. Nordheim: The SRF target gene Fhl2 antagonizes RhoA/MAL-dependent activation of SRF. Mol Cell 2004; 16:867-880 [2] C. Dieterich, S. Rahmann, M. Vingron: Functional inference from non-random distributions of conserved predicted transcription factor binding sites. Bioinformatics 2004; 20(Suppl 1):I109-I115. [3] T. Manke, R. Bringas, M. Vingron: Correlating Protein-DNA and Protein-Protein Interaction Networks. J Mol Biol 2003; 333:75-85 [4] K. Rateitschak, T. Müller, M. Vingron: Annotating significant pairs of transcription factor binding sites in regulatory DNA. In Silico Biology 2004; 4:479-487 [5] S. Rahmann, T. Müller, M. Vingron: On the power of profiles for transcription factor binding site detection. Statistical Applications in Genetics and Molecular Biology 2003; 2:Article 7 © 2005 Max-Planck-Gesellschaft w w w .mpg.de 5/5