Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Tätigkeitsbericht 2005 Entwicklungs- und Evolutionsbiologie/Genetik Untersuchung von Bindungsstellen zur Aktivierung von Genen Vingron, Martin Max-Planck-Institut für molekulare Genetik, Berlin Abteilung - Bioinformatik Korrespondierender Autor: Vingron, Martin E-Mail: [email protected] Zusammenfassung Transkriptionsfaktoren spielen eine zentrale Rolle bei der Regulation von Genen. Die Abteilung Bioinformatik am MPI für molekulare Genetik nutzt verschiedene mathematische Methoden, um die Funktion und das Zusammenspiel von Transkriptionsfaktoren zu untersuchen und so weiterführende Erkenntnisse über die Regulation von Genen zu erhalten. Abstract Transcription factors play a central role for the regulation of genes. The Department of Computational Biology at the MPI for Molecular Genetics utilizes a panel of mathematical methods to analyze function and interaction of transcription factors in order to achieve new insights into gene regulation. Nach der Sequenzierung des Humangenoms und zahlreicher weiterer Genome konzentrieren sich heute wesentliche Forschungsanstrengungen auf die Analyse der gewonnenen Daten. Diese beschränkt sich jedoch nicht auf die reine Annotation der Gene, d.h., ihre Identifizierung und Zuordnung zu bestimmten Funktionen. Die Kenntnis der gesamten DNA-Sequenz eines Organismus erlaubt vielmehr eine Reihe von neuen Fragen, insbesondere nach den Mechanismen der Regulation von Genen. Heute interessiert uns nicht nur, welche Funktion ein Gen bzw. das von ihm kodierte Protein besitzt, sondern auch, welche Mechanismen dazu führen, dass das Gen überhaupt aktiviert, also abgelesen und in ein Protein übersetzt wird. Transkriptionsfaktoren als Regulatoren der Genexpression Der menschliche Organismus besitzt ca. 25.000 Gene, die während seines gesamten Lebens in jeder seiner Zellen vorhanden sind. In jeder Phase der Entwicklung und in jeder Zellart werden aber unterschiedliche Teilmengen dieses Genpools aktiviert. Heute kennen wir zumindest teilweise die biologischen Mechanismen, die für diese Aktivierung verantwortlich sind. Von besonderer Bedeutung ist eine Gruppe von DNA-bindenden Proteinen, die so genannten Transkriptionsfaktoren. Sie bilden einen Komplex mit dem Enzym RNA-Polymerase, das für das Ablesen der DNA verantwortlich ist und aktivieren es dadurch. Die Transkriptionsfaktoren erkennen bestimmte Sequenzmuster, die am Startpunkt eines Gens auf der DNA angeordnet sind (Abb. 1). Das Interesse der Abteilung Bioinformatik am Max-Planck-Institut für molekulare Genetik konzentriert sich auf die Identifikation solcher Sequenzmuster und die Frage, in welcher Kombination Transkriptionsfaktoren über Bindung an diese Muster bestimmte Gene aktivieren. © 2005 Max-Planck-Gesellschaft www.mpg.de 223 Tätigkeitsbericht 2005 Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Abb. 1: Vereinfachtes Schema der Regulation von junB. Molekularbiologen und Biochemiker beschäftigen sich schon seit Jahren mit Sequenzmustern, an welche Transkriptionsfaktoren binden können. Inzwischen wissen wir, dass viele Transkriptionsfaktoren an jeweils mehrere unterschiedliche Muster im Genom binden. Der Transkriptionsfaktor SRF (serum response factor) beispielsweise bindet an die Basenfolge CCTAATATGG vor dem Gen junB und trägt dadurch zu dessen Aktivierung bei (Abb.1). SRF bindet aber auch an anderen Stellen im Genom, die sich von der o.g. Sequenz in verschiedenen Positionen unterscheiden. Seine Bindungsstellen werden daher allgemein durch die Abfolge der möglichen Basen oder Basenalternativen beschrieben. Abstrakter ist die Beschreibung einer Bindungsstelle durch so genannte „Gewichtsmatrizen“. Diese geben für jede Position einer zu beschreibenden Bindungsstelle die mögliche Verteilung der Basen an (Abb. 2). Abb. 2: Gewichtsmatrix einer SRF-Bindungsstelle. Die Größe der einzelnen Buchstaben ist ein Maß für die Häufigkeit, mit der die jeweiligen Basen an den entsprechenden Positionen der Bindungsstelle vorkommen. Phylogenetic footprinting - Identifikation wichtiger biologischer Signale durch evolutionäre Konservierung Ein grundsätzliches Problem bei der Analyse von Bindungsstellen ist die Tatsache, dass eine definierte, kurze Abfolge von Basen innerhalb des Gesamtgenoms sehr oft vorkommt. Die Beschreibung der Bindungsstelle als Abfolge von Basen reicht daher nicht aus, um vorherzusagen, an welcher Stelle im Genom ein Transkriptionsfaktor tatsächlich bindet. Wichtige regulatorische Sequenzen sind allerdings häufig evolutionär konserviert. Bioinformatiker versuchen daher, durch den Vergleich der Genomsequenzen verschiedener Organismen Hinweise auf die Bedeutung einer bestimmten Sequenz (= potenziellen Bindungsstelle) zu erhalten. Umgekehrt stellen konservierte Sequenzen innerhalb regulatorischer Regionen primäre Kandidaten für die Suche nach neuen Bindungsstellen für Transkriptionsfaktoren dar; entsprechend werden sie intensiv in Hinblick auf Übereinstimmungen mit bekannten Bindungsmustern untersucht. Die Sequenz der bereits erwähnten Bindungsstelle für SRF wäre wenig informativ, wenn sie allein im Humangenom betrachtet wird. Die gleiche Sequenz tritt interessanterweise in vergleichbarer Position vor einem Gen auch im Genom der Maus auf. Der Vergleich beider Genome ergibt so einen starken Hinweis darauf, dass es sich bei diesem Muster um ein wichtiges biologisches Signal handeln könnte. Diese Herangehensweise wird als phylogenetic footprinting bezeichnet. Die Wissenschaftler der Abteilung Bioinformatik am MPI für molekulare Genetik haben 224 www.mpg.de © 2005 Max-Planck-Gesellschaft Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Tätigkeitsbericht 2005 eine Reihe von Computerprogrammen entwickelt, um solche konservierten Bereiche vor orthologen Genen von Mensch und Maus zu identifizieren und anschließend mit bereits bekannten Bindungsstellenmustern zu annotieren. Die Informationen sind in der Datenbank CORG (Comparative Regulatory Genomics) gespeichert und unter http://corg.molgen.mpg.de/ öffentlich zugänglich. Identifikation der Zielgene von Transkriptionsfaktoren Die Vorhersage von evolutionär konservierten Bindestellen kann auch helfen, Zielgene von Transkriptionsfaktoren zu identifizieren. In einer Zusammenarbeit mit A. Nordheim von der Universität Tübingen wurden zunächst mittels DNA-Chip-Experimenten (siehe unten) die putativen Zielgene von SRF ermittelt. Unter diesen befanden sich sowohl solche Gene, die von SRF direkt reguliert wurden, als auch diejenigen Gene, die erst in Folge der Aktivierung durch SRF aktiviert wurden. Aus dieser Gesamtmenge konnten mithilfe der beschriebenen Methoden der Mustersuche und der Analyse der evolutionären Konservierung diejenigen Gene herausgefiltert werden, die direkt von SRF beeinflusst werden. Diese Information war hilfreich, um einen bislang unbekannten Mechanismus der Differenzierung von Muskelzellen aufzuklären [1]. Analyse von Aktivierungsmustern Für komplexe biologische Abläufe ist aber nicht nur die Aktivierung von Einzelgenen, sondern insbesondere die aufeinander abgestimmte Aktivierung ganzer Gruppen von Genen von Bedeutung. Solche „Aktivierungsmuster“ können mithilfe von DNA-Chips bestimmt werden (siehe von Heydebreck et al., Genexpressionsanalyse komplexer klinischer Phänotypen mittels DNS-Arrays, MPG-Jahrbuch 2003). Aus diesen Experimenten kann man ablesen, welche Gene sich in definierten Zellarten unter definierten Bedingungen ähnlich verhalten; sie werden als ko-exprimierte Cluster von Genen bezeichnet. Die Arbeitsgruppe beschäftigt sich unter anderem mit der Frage, ob eine solche Koexpression auf gemeinsame regulatorische Mechanismen, beispielsweise gleiche Transkriptionsfaktoren, zurückzuführen ist. Mithilfe der CORG-Datenbank untersuchen die Wissenschaftler die regulatorischen Bereiche der koexprimierten Gene. In erster Näherung katalogisieren sie die evolutionär konservierten Bindestellen innerhalb dieser Bereiche, weil diese auf eine regulatorische Funktion des jeweils bindenden Faktors hinweisen. Die evolutionär konservierten Bindungsstellen innerhalb der regulatorischen Bereiche sind aber immer noch zu zahlreich, als dass sie bereits Aufschluss über eine bestimmte Funktion geben könnten. Daher vergleichen die Wissenschaftler die Häufigkeit des Auftretens einer gewissen Bindestelle innerhalb eines koexprimierten Clusters mit der Wahrscheinlichkeit ihres zufälligen Auftretens. Eine solche Analyse wurde beispielsweise anhand von öffentlich verfügbaren DNAChip-Daten zum Zellzyklus in einer menschlichen Zelllinie durchgeführt. Die Koexpressionscluster bestanden aus den Genen, die jeweils in einer bestimmten Phase des Zellzyklus stark exprimiert sind. Die Analyse ihrer regulatorischen Muster ergab eine Reihe von Transkriptionsfaktoren, die nach der beschriebenen statistischen Schlussweise eine wichtige Rolle für den Zellzyklus spielen (Abb. 3). Ein Vergleich mit experimentellen Ergebnissen bestätigte dies [2]. © 2005 Max-Planck-Gesellschaft www.mpg.de 225 Tätigkeitsbericht 2005 Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Abb. 3: Grauwertmatrix zur Darstellung von Bindungshäufigkeiten. Eine Spalte zeigt jeweils das Koexpressionscluster aller Gene, die während der jeweiligen Phase des Zellzyklus exprimiert werden. In den Zeilen sind die verschiedenen Transkriptionsfaktorbindungsstellen aufgelistet. Der Grauwert der einzelnen Zellen gibt die Anzahl der Gene an, die während der jeweiligen Phase des Zellzyklus als durch den betreffenden Transkriptionsfaktor reguliert vorhergesagt werden. Helle Einträge bedeuten ein große Anzahl von Zielgenen in der jeweiligen Phase. Interaktion von Transkriptionsfaktoren untereinander Zurzeit arbeiten die Wissenschaftler der Abteilung Bioinformatik an der Entwicklung von Methoden, um das Zusammenspiel der Transkriptionsfaktoren zu studieren. In dem im Vergleich zum Säugerorganismus einfacheren Fall der Genregulation in Hefe konnten sie zeigen, dass Transkriptionsfaktoren, deren Bindungsstellen häufig in räumlicher Nähe zueinander auf einer Sequenz zu finden sind, oft auch physikalisch miteinander in Interaktion treten [3]. Auf der Suche nach ähnlichen Prinzipien bei Säugetieren suchen sie nun nach statistischen Tendenzen in der Kombination von Bindungsstellen auf der DNA. Hier kommt den Forschern erneut die evolutionäre Konservierung zu Hilfe und ermöglicht eine Reduktion der falsch positiven Vorhersagen. In einer auf diese Art reduzierten Liste von Transkriptionsfaktor-Paaren, deren Bindestellen häufig nahe beisammen auftreten, werden tatsächlich viele bekannte, miteinander interagierende Faktoren gefunden [4]. Die beschriebenen Arbeiten beruhen auf einer detaillierten Aufarbeitung und mathematischen Durchdringung der vorhandenen, experimentell ermittelten Daten. Bekannte Bindungsstellen von Transkriptionsfaktoren müssen miteinander verglichen und gruppiert werden, um Doppelzählungen zu vermeiden. Ihr Informationsgehalt wird berechnet und innerhalb der Arbeitsgruppe wurden neue mathematische Verfahren entwickelt, um die zu erwartende Anzahl der falsch positiven Funde – mithin die statistische Signifikanz - vorherzusagen [5]. Ein häufig auftretendes Problem bei der Analyse von Daten aus der funktionalen Genomforschung ist das multiple Testen: Aufgrund der großen Menge an Daten kann eine Hypothese mit Hilfe vieler Fälle getestet werden. Dies führt aber nur scheinbar zu beeindruckenden Signifikanzwerten. Um eine realistische Aussage zu erhalten, müssen die resultierenden Signifikanzwerte entsprechend der Anzahl der durchgeführten Tests korrigiert werden, um eine adäquate Auswertung von biologischen Daten zu gewährleisten. 226 www.mpg.de © 2005 Max-Planck-Gesellschaft Vingron, Martin | Untersuchung von Bindungsstellen zur Aktivierung von Genen Tätigkeitsbericht 2005 Die Regulation der Ausprägung eines Gens wird nicht nur von Transkriptionsfaktoren bestimmt. Trotzdem muss diese Ebene der Regulation studiert werden, um ein Gesamtbild der verschiedenen regulatorischen Mechanismen einer Zelle aufzeigen zu können. Damit kommen wir dem umfassenden Verständnis der Funktion einer lebenden Zelle einen wesentlichen Schritt näher. Literaturhinweise [ 1] U. Philippar, G. Schratt, C. Dieterich, J.M. Müller, P. Galgoczy, F.B. Engel, M.T. Keating, F. Gertler, R. Schule, M. Vingron, A. Nordheim: The SRF target gene Fhl2 antagonizes RhoA/MAL-dependent activation of SRF. Mol Cell 2004; 16:867-880 [ 2] C. Dieterich, S. Rahmann, M. Vingron: Functional inference from non-random distributions of conserved predicted transcription factor binding sites. Bioinformatics 2004; 20(Suppl 1):I109-I115. [ 3] T. Manke, R. Bringas, M. Vingron: Correlating Protein-DNA and Protein-Protein Interaction Networks. J Mol Biol 2003; 333:75-85 [ 4] K. Rateitschak, T. Müller, M. Vingron: Annotating significant pairs of transcription factor binding sites in regulatory DNA. In Silico Biology 2004; 4:479-487 [ 5] S. Rahmann, T. Müller, M. Vingron: On the power of profiles for transcription factor binding site detection. Statistical Applications in Genetics and Molecular Biology 2003; 2:Article 7 © 2005 Max-Planck-Gesellschaft www.mpg.de 227