Johann Wolfgang Goethe-Universität Frankfurt am Main Co-transcriptional folding is encoded within RNA genes Moments of the Boltzmann distribution for RNA secondary structures Joanna Wisniewska 25.06.2005 Inhaltsverzeichnis 1 Einleitung 2 Biologische Grundlagen 3 Statistiken zur Co-transkriptionellen RNA-Faltung 3.1 Zielsetzung 3.2 Statistiken 3.3 Daten 3.4 Ergebnisse 3.5 Fazit 4 Momente der Boltzmann Verteilung für RNA Sekundär-Strukturen 4.1 Zielsetzung 4.2 Frühere Algorithmen 4.3 Miklós-Meyer-Nagy 4.4 Daten 4.5 Ergebnisse 4.6 Fazit 5 Literatur 1 Einleitung In dieser Ausarbeitung werden zwei Paper vorgestellt, die sich mit RNA-Sekundär-Strukturen befassen. Das erste Paper von Miklós und Meyer untersucht ob, und wenn ja, wie cotranskriptionelle RNA-Faltung in der Primär- und Sekundär-Struktur von RNA verschlüsselt ist. Dies geschieht an hand von mehreren Statistiken. Es werden bestimmte konkurrierende Konformationen definiert, die Ereignissen entsprechen, und deren Auftreten gezählt. Die Erwartungswerte der Ereignisse werden im Hinblick auf eine zu verwerfende Hypothese H0 untersucht. Es wird so versucht zu erklären, dass co-transkriptionelle Faltung eine wichtige Rolle in der Biologie spielt. Das zweite Paper, auch von Miklós, Meyer und von Nagy stellt einen dynamisch programmierten Algorithmus vor, der beliebige Momente der Boltzmann Verteilung für eine RNA-Sekundär-Struktur berechnen kann. Dieser Algorithmus baut auf dem McCaskill- so wie auf dem Wuchty-Algorithmus auf, kann aber im Gegensatz zu diesen die Boltzmann Verteilung exakt berechnen und ist nur um eine Konstante langsamer als die vorigen. Die Ergebnisse lassen auch Aussagen über Unterschiede zwischen biologischen und random generierten RNA-Sequenzen machen. Dies geschieht über die Berechnung von minimalen freien Energiestrukturen, Varianz der freien Energie der Strukturen und den Vergleich zwischen der minimalen freien Energie und der erwarteten freien Energie der restlichen Strukturen. 2 Biologische Grundlagen Die Transkription, also die Abschrift der DNA in RNA ist ein gerichteter Prozess, der durch eine Menge von Enzymen geleitet wird. Das 5’-Ende der RNA entsteht dabei zuerst, was bedeutet, dass auch an diesem Ende temporäre Wasserstoffbrückenbindungen zwischen komplementären Basen zuerst ausgebildet werden können. Es kommt also durch cotranskriptionelle Faltung, das heißt Faltung, die schon während der Transkription beginnt, zu temporären RNA-Strukturen. Da es ein von Enzymen geleiteter Prozess ist, kann auch die Transkriptionsgeschwindigkeit unterschiedlich sein. Das wiederum kann den Faltungsweg von RNA und auch ihre funktionale Struktur beeinflussen. Während der Transkription können unterschiedliche RNA-Strukturen entstehen, die zum Beispiel nicht der funktionalen Struktur entsprechen müssen, sondern nur temporär vorliegen. Ob eine bestimmte RNA-Struktur transient ist, hängt von ihrer Stabilität, ihrer Entstehungszeit und der allgemeinen Situation, ob zum Beispiel konkurrierende Alternativ-Strukturen vorliegen, ab. Die minimal freie Energiestruktur, also die Struktur, die nach einer längeren Zeit am häufigsten vorliegt, somit die thermodynamisch stabilste Struktur ist, muss nicht die funktionale Struktur sein. Das heißt, auch eine nur temporär vorliegende Struktur kann die Struktur mit biologischer Funktion sein. Die Anzahl der möglichen verschiedenen Sekundärstrukturen wächst exponentiell mit der Länge der RNA-Sequenz. Zu bemerken ist darüber hinaus, dass die RNA-Sekundär-Strukturen vor allem durch Basenpaarung stabilisiert werden. Die minimale freie Energie Struktur hängt zum Beispiel mehr von der Verteilung benachbarter Nukleotidpaare ab, als von den Wasserstoffbrücken komplementärer Nukleotide. Biologisch funktionelle RNA Sequenzen benötigen nicht nur eine thermodynamisch stabile minimale freie Energie Struktur sondern auch eine Menge von Strukturen mit einer freien Energie nahe an dieser minimalen freien Energie, um funktionsfähig zu sein. Es ist wenig bekannt, ob co-transkriptionelle Faltung durch spezifische oder nicht-spezifische Bindeproteine beherrscht wird oder ob die Primärstruktur selbst die notwendigen Eigenschaften übermittelt. Die Sekundär-Strukturen einer RNA-Sequenz werden hier nach Sankoffs k-loopdecomposition (Figur 1) definiert. Einzelne elementare Sekundär-Struktur-Elemente sind hierbei hairpin loops, bulge loops, internal loops, multi-loops, stacking loops oder null-loops, die je nach der Anordnung ihrer Wasserstoffbrückenbindungen festgelegt sind. Figur 1: k-loop-decomposition einer RNASekundär-Struktur nach Sankoff 3 Statistiken zur co-transkriptionellen RNA-Faltung 3.1 Zielsetzung Das Paper untersucht co-transkriptionelle Faltung mit Hilfe von Statistiken. Durch die hier definierten Statistiken ist es möglich für eine Menge von RNA-Sequenzen festzustellen, ob die Daten auf co-transkriptionelle Faltung hinweisen oder nicht. Hier wird als neue Idee aufgegriffen, dass nicht schon fertig synthetisierte RNA-Sequenzen vorhergesagt werden, sondern Sequenzen, die während der Transkription falten, untersucht werden. Die Statistiken machen auch eine Aussage darüber, ob zum Beispiel temporäre Sekundär-Strukturen vorliegen, die co-transkriptionelle Faltung fördern und dass konkurrierende Alternativ-Helices unterdrückt werden. 3.2 Statistiken Es wird die H0 Hypothese „keine co-transkriptionelle Faltung liegt vor“ aufgestellt, die durch die Ergebnisse verworfen werden soll. Das wird mit Hilfe einer Kopplung von Statistiken, die auf bekannter Primär- und Sekundärstruktur der RNA-Sequenzen beruhen, erreicht. Die Statistiken sollen den Erwartungswert gleich Null im Falle der H0 Hypothese, also wenn keine co-transkriptionelle Faltung vorliegt, haben. Dies ist nicht über random generierte Sequenzen erreichbar. Es werden Paare von Statistiken gebildet und die Präsenz von alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren, gemessen. Um zu vermeiden, dass sich zufällige Verschiebungen des Erwartungswerts nicht falsch auf die Ergebnisse auswirken, wird eine Statistik verwendet, die sich aus der Differenz zweier Statistiken ergibt. Mit zufälligen Verschiebungen sind Ergebnisse für den Erwartungswert im Falle der H0 Hypothese gemeint, die nicht bei Null liegen, aber trotzdem der H0 Hypothese folgen. Durch die Differenz zweier Statistiken, die beide sich im Falle der H0 Hypothese gleich verhalten, also den selben, aber unbekannten Erwartungswert haben, wirkt sich eine zufällige Verschiebung nicht aus, da der Erwartungswert in der Differenz im Falle der H0 Hypothese wieder bei Null liegt. Aber um Aussagen im Falle, dass die H0 Hypothese nicht zutrifft machen zu können, ist eine der zwei Statistiken so definiert, dass sie sich unabhängig vom Falle der Hypothese gleich verhält, also den unbekannten Erwartungswert beibehält. Die andere Statistik hingegen behält ihren Erwartungswert nicht bei, sondern nimmt einen anderen Wert an, wenn die H0 Hypothese nicht zutrifft. Somit ergibt sich in der Differenz im Falle, dass die H0 Hypothese nicht zutrifft ein Wert ungleich Null, was gefordert ist um anhand dieser Statistik die Hypothese zu testen. Das Auftreten Alternativ-Helices, die um ein Basenpaar mit der Helix mit bekannter Sekundär-Struktur konkurrieren, wird über eine dynamische Programmierung bestimmt. Diese Alternativ-Helices müssen mindestens einen neun Basenpaar langen „stem“-Abschnitt, in den auch das bestimmte Basenpaar iī fällt, dem eine Base im weiteren Verlauf der Sequenz in Konkurrenz steht, besitzen. Das Basenpaar iī liegt in einer bekannten Sekundär-Struktur vor. Die konkurrierende Base c kann entweder 5’, das heißt im Vergleich zur Transkriptionsrichtung, vor dem bekannten Basenpaar iī oder dahinter, also 3’, liegen. Theoretisch gesehen könnte die Konkurrenzbase auch zwischen den zwei Basen i und ī liegen, doch geht das nicht in die Statistiken mit ein, da die Region zu kurz wäre um alternative Helices zu bilden. Konkurrierend ist die Base c deshalb, da sie potentiell eine Wasserstoffbrückenbindung mit Base i ausbilden kann, was zu alternativen Helices führt. Es liegen mehrere Konformationen, die den Statistiken entsprechen vor. Ist die Base c zu Base i „benachbart“ so sprechen wir von einer Cis-Konformation. Liegt die Base c in „Nachbarschaft“ zur Base ī, nennt man diese Konformation Trans. Beide Konformationen werden noch in 5’ und 3’ unterschieden. Somit ergeben sich die vier folgenden Ereignisse: 3’cis, 5’-cis, 3’-trans und 5’-trans (Figur 2). Die Statistiken vergleichen nur jeweils die Cis- bzw. Trans-Konformationen untereinander, da je Konformation andere destabilisierende Effekte eine Rolle spielen und die stackingEnergien nicht symmetrisch verteilt sind, was wiederum an der Transkriptionsrichtung liegt. Zum Beispiel liegt bei der Cis-Konformation die Konkurrenzbase c näher am bekannten Basenpaar iī und kann somit öfter zu falschen Helices führen. Dies trifft auch ohne cotranskriptionelle Effekte auf, da konkurrierende Trans- und Cis-Alternativ-Helices destabilisierend wirken. Die 3’-trans-Konformation weist zum Beispiel auf co-transkriptionelle Faltung hin. Es entstehen weniger konkurrierende Helices, wenn co-transkriptionelle Faltung vorliegt, da die Konkurrenzbase c weiter von der Base i, mit der sie eine Wasserstoffbrückenbindung ausbilden kann, entfernt liegt. Die Base ī entsteht während der Transkription zuerst und kann somit zuerst eine komplementäre Bindung zur Base i ausbilden. Es gibt somit nicht so häufig die Möglichkeit, dass sich das Basenpaar ic ausbilden kann. Diese Konformation liegt öfter als 5`-trans, die keinen Hinweis auf co-transkriptionelle Faltung gibt, vor. Die 5´-tansKonformation führt öfter zu falsch gefalteten Helices, da hier beide Basen c und ī vor der Base i vorliegen und somit beide die gleiche Chance auf die Ausbildung einer komplementären Bindung zu i haben. Die 5’-cis-Konformation führt zu transienten Helices, die den co-transkriptionellen Faltungsweg guiden. Der pathway, der zur funktionellen Sekundärstruktur führt wird dadurch Figur 2: Vier Konformationen, die den Ereignissen entsprechen, die von den Statistiken untersucht werden. gefördert. Die Konformation liegt öfter als 3`-cis vor, die unterdrückt wird, da sie zu einem schlechten pathway führt. Die Statistiken, die die Ereignisse untersuchen, werden noch auf zwei unterschiedliche Weisen gewichtet. Zum einen über die „plain“-Gewichtung p: 1 / ( d • log (l) ), zum anderen über die „ free energy“-Gewichtung g: |G| / ( d • log (l) ). Wobei l für den Raum aller Möglichkeiten, indem die Konkurrenzbase c liegen könnte, steht. Sie definiert also die SubString Länge. Bei den 3`-Konformationen ergibt sie sich aus dem Teil der Sequenz vom 3´Ende bis zur mittleren Base, bei den 5`-Konformationen vom 5´-Ende bis zur mittleren Base. Die Variable d beschreibt die Distanz zwischen der Base c und Base i (cis) bzw. Base ī (trans). „plain“-Gewichtung p „free energie“-Gewichtung g Tabelle 1: Gleichungen um die zwei Gewichtungen plain p und free energie g für die vier verschiedenen Ereignisse zu berechnen. Die Distanz d geht mit dem Kehrwert ein. Je weiter die Konkurrenzbase c vom Basenpaar iī entfernt liegt, desto unwahrscheinlicher wird es, dass es zur Ausbildung des Basenpaares ic kommt. Somit geht das weniger in die Statistik ein. Die Sub-String-Länge l geht über den Kehrwert des Logarithmus ein, da auch hier zutrifft, je weiter die Base c vom Basenpaar iī entfernt vorliegt, desto unwahrscheinlicher wird es, dass es zur Ausbildung des Basenpaares ic kommt. Der Logarithmus von l kommt daher, dass er proportional zur erwarteten Summe von 1/d ist und so als normierende Konstante wirkt. Stabile Alternativ-Helices gehen mehr in die Statistik ein, da sie einen größeren Einfluss auf den Faltungsweg haben und somit die cotranskriptionelle Faltung fördern. Deshalb wird bei der „free energie“-Gewichtung mit dem Betrag der freien Energie G multipliziert. Es ergeben sich so pro Sequenz acht skalare Werte, pro Gewichtung jeweils ein Wert für 5`Cis, 3`-Cis, 3`-Trans und 5`-Trans. Wobei 5`-Cis sich aus der Summe der einzelnen möglichen 5`-cis-Ereignisse pro Alternativ-Struktur der einzelnen Sequenz ergibt (entsprechendes gilt auch für 3`-Cis, 3`-Trans und 5`-Trans). Der gesamte Erwartungswert für die Sequenz für die Cis- bzw. Trans-Konformation ergibt sich aus den zwei folgenden Gleichungen: Cis = 5´-Cis – 3´-Cis Trans = 3´-Trans – 5´-Trans. Falls die H0 Hypothese zutrifft sind positive Fälle, also das Auftreten von Alternativ-Helices mit der Wahrscheinlichkeit p = 0,5 binomial verteilt und folgen der Statistik wobei n die Anzahl aller Fälle angibt. Dies folgt so der Gausverteilung. Ergibt sich ein Erwartungswert größer als Null wird die Hypothese H0 verworfen. 3.3 Daten Die Statistiken untersuchen zwei Datenmengen, wobei die Datenmenge A den original transkripierten Sequenzeinheiten entspricht und die Datenmenge B aus sehr kurzen Sequenzen besteht, die sich von den original transkripierten Sequenzeinheiten unterscheiden. Es wird erwartet, dass in der Datenmenge B, auf Grund der sehr kurzen Sequenzen, nur schwer co-transkriptionelle Faltungs-Effekte festzustellen sein werden. 3.4 Ergebnisse Figur 3: Verteilung der Cis- und Trans-Werte Die Ergebnisse (Figur 3) zeigen eine approximativ symmetrische Verteilung. Für die Datenmenge A liegen die Werte im Durchschnitt über Null, was die H0 Hypothese verwerfen lässt und auf co-transkriptionelle Faltung hinweist. Die Werte der Datenmenge B liegen im Durchschnitt bei Null oder sind etwas geringer als Null. Somit wird hier, wie auch erwartet worden ist, die H0 Hypothese nicht verworfen. Für den Erwartungswert von Cis ergibt sich ein Wert größer Null. Somit liegt die 5`-CisKonformation öfter als die 3´-Cis-Konformation vor, da Cis sich durch 5´-Cis – 3´-Cis ergibt. Die 5`-cis-Konformation, in der die Basen ciī angeordnet sind, führt zu transienten Helices, die den Weg zur Endstruktur guiden, aber dennoch weniger stabil als diese sind. Die 3´-cisKonformation hingegen wird unterdrückt. Die Basen sind bei dieser Konformation in der Reihenfolge īic angeordnet. Somit sind die Basen īi dann schon gepaart, wenn die Konkurrenzbase c später entsteht und es kommt nicht mehr häufig zu einem Wasserstoffbrückenbruch zwischen den Basen īi, so dass keine Möglichkeit besteht die Basenpaarung ic auszubilden. Ein positiver Erwartungswert der Cis-Konformation weist darauf hin, dass Guiding durch temporäre Strukturen unterstützt wird. Der positive Erwartungswert für die Trans-Konformation, der durch 3´-Trans – 5´-Trans festgelegt ist, ergibt sich daher, dass die 3´-Trans-Konformation öfter als die 5´-TransKonformation auftritt. Die 5´-Trans-Konformation, bei der die Basen cīi angeordnet sind, führt öfter zu falschen Helices. Das kommt daher, dass die Basen c und ī vor der Base i entstehen und damit in direkter Konkurrenz stehen, da sie beide mit gleicher Wahrscheinlichkeit eine Wasserstoffbrücke zur Base i ausbilden können. Bei der 3´-TransKonformation, bei der iīc die Basenordnung ist, entsteht die Base c erst nach ī und hat damit geringere Möglichkeiten sich mit der Base i zu einem komplementären Basenpaar zu verbinden. So kommt es in dieser Konformation zu weniger Miss-Faltungen. Ein positiver Trans-Erwartungswert lässt uns darauf schließen, dass Konkurrenzstrukturen unterdrückt werden. Zum Schluss können noch die Erwartungswert der 3´-trans-Konformation mit der 3´-cisKonformation verglichen werden. Hier ist der Erwartungswert der 3´-trans-Konformation größer, diese Konformation liegt also öfter vor. In der 3´-trans-Konformation haben wir iīc als Basenfolge, bei der 3´-cis-Konformation īic vorliegen. In beiden Fällen wird das Basenpaar iī bzw. īi zuerst ausgebildet. Falls es aber zu einem Wasserstoffbrücken-Bruch zwischen diesem Basenpaar kommt, führt die 3´-cis-Konformation öfter zu falschen Helices, da hier die Konkurrenzbase c in der näheren Umgebung der Base i liegt. Ist der Erwartungswert der 3´trans-Konformation größer, so wird die Stabilisierung der funktionalen Sekundärstruktur gewährleistet. Diese Ergebnisse treffen auf die Datenmenge A zu, sie ist also auf co-transkriptionelle Faltung zugeschnitten. Die finale Sekundärstruktur wird aktiv stabilisiert (3´-Trans > 3´-Cis), temporäre Helices aktivieren den Faltungsweg energetisch (Cis > 0) und Sekundär-StrukturElemente mit negativer Interaktion werden während der co-transkriptionellen Faltung unterdrückt (Trans > 0). Um die Aussagekraft der Statistiken zu testen wurde noch ein t-test für die Hypothese, dass die Statistik den Erwartungswert gleich Null hat, durchgeführt (Tabelle 2). Die p-Werte, der positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren stimmen mit den Ergebnissen überein. Bei einem p-Wert kleiner als 0,05 wird im Allgemeinen die Hypothese verworfen, was auch hier für die Datenmenge A der Fall ist. Für die Datenmenge B sind die Werte höher, also wird hier die H0 Hypothese nicht verworfen, was auch mit den Ergebnissen übereinstimmt. Tabelle 2: Ergebnisse des t-tests und die p-Werte für die Statistik, dass die H0 Hypothese zutrifft 3.5 Fazit Die Statistiken zeigen generelle Effekte, sind aber nicht mächtig genug um Aussagen für einzelne Sequenzen zu treffen. Das heißt Mengen von RNA-Sequenzen mit ähnlichen Eigenschaften können zum Beispiel durch die Statistiken gut untersucht werden. Eine angemessene Transkriptionszeit ist wichtig und hilft der korrekten RNA-Faltung. Als Ergebnis kann auch festgehalten werden, dass die funktionale Struktur nicht der minimalen freien Energiestruktur entsprechen muss. Co-transkriptionalle Faltung ist das „guiding principle“, wenn man biologische RNA-Faltung untersucht. Die Primär- und Sekundärstruktur der RNA-Sequenzen kann dadurch beeinflusst werden. Die Ergebnisse des Papers, also der Statistiken, ob co-transkriptionelle Faltung bei einer bestimmten gegebenen Datenmenge vorkommt, sind so weit von Bedeutung, dass man dadurch erklären kann, wie RNA faltet. Dadurch lässt sich zum Beispiel verstehen, warum es zu Miss-Faltungen und somit auch zu Funktionsausfällen in Organismen kommt. Weiter kann versucht werden die Ergebnisse auf Protein-Faltung zu übertragen, da auch dieser biologische Syntheseprozess gerichtet ist und dementsprechend der RNA-Faltung ähnelt. Die Ergebnisse können auch in andere Algorithmen, zum Beispiel in solche, die die freie Energie minimieren, integriert werden. Insgesamt werden hier lediglich Effekte erster Ordnung, also Alternativ-Helices bekannter Sekundär-Struktur einer RNA-Sequenz, und nicht Alternativ-Helices zu Alternativ-Helices (Effekte höherer Ordnung) betrachtet. Pseudo-Knoten-Strukturen werden miteinbezogen. 4 Momente der Boltzmann Verteilung für RNA Sekundär-Strukturen Das Programm „RNA-Variance”, ein dynamisch programmierter Algorithmus zur Berechnung beliebiger Momente der Boltzmann Verteilung wird im folgendem Abschnitt vorgestellt. Mit dem Programm lassen sich Unterschiede zwischen biologischen und random generierten RNA-Sequenzen untersuchen. Auch Aussagen über die Verteilung verschiedener RNA-Strukturen einer bestimmten Sequenz lassen sich aus den Ergebnissen ableiten. Im Mittelpunkt steht hier die Boltzmann Verteilung, die ursprünglich eine Wahrscheinlichkeitsverteilung aus der statistischen Physik ist und der kinetischen Gastheorie abstammt. Die freie Energie von suboptimalen RNA-Strukturen ist danach statistisch verteilt. Die exakte Wahrscheinlichkeit, dass eine einzelne RNA-Struktur eine bestimmte molare freie Energie hat, ist nach der Boltzmann Verteilung proportional zu . Die Verteilungsfunktion Z dient als normierende Konstante und kann durch den McCaskill-Algorithmus berechnet werden. 4.1 Zielsetzung Durch den Vergleich von biologischen und random generierten RNA-Sequenzen, sollen Aussagen über das Auftreten von verschiedenen Strukturen einer Sequenz, also nicht nur der Struktur mit der minimalen freien Energie, gemacht werden können. Doch gerade diese minimale freie Energiestruktur soll gefunden werden. Es werden hier die Energie-Beiträge nach Sankoff‘s k-loop decomposition (freie Energie einer Struktur ergibt sich aus der Summe der freien Energien der loops) für alle Berechnungen verwendet (Figur 1). Der Algorithmus berechnet die erwartete freie Energie, ihre Varianz und vergleicht die erwartete freie Energie mit dem minimalen freien Energiewert sowie mit einer Menge an biologischen und random generierten Sequenzen. Zum Beispiel lässt sich aus einer erwarteten freien Energie nahe dem minimalen freien Energiewert folgern, wie gut die Struktur definiert ist. 4.2 Frühere Algorithmen Alle früheren Algorithmen können die Momente der Boltzmann Verteilung nur approximativ berechnen, jedoch nicht vollständig vorhersagen. Der Algorithmus von Tinoco (1983) legt ein Energiemodel für RNA-Faltung fest, bei dem die molare freie Energie der Summe unabhängiger Beiträge von Basepaarungen und loopDestabilisierungstermen entspricht. Nussinov (1980) stellte einen Algorithmus vor, der die maximale Anzahl an Basenpaaren in einer Sequenz findet. Es ist ein dynamisch programmierter Algorithmus, der polynomiale Zeit und Speicherplatz benötigt. Die Anzahl der Basenpaare wird rekursiv berechnet. Im Anschluss wird die Struktur über einen tracebackAlgorithmus rekonstruiert. Der Zuker-Sankoff (1983) kann minimale freie Energie Strukturen vorhersagen. Durch eine dynamische Programmierung wird ebenfalls polynomiale Zeit und Speicherplatz benötigt. Der Algorithmus kann jedoch falsche Vorhersagen liefern. Das liegt zum Beispiel an ungenauen Energie-Parametern. Die wahre minimale freie Energiestruktur kann in Bezug auf bestimmte Parameter nur suboptimal sein und somit nicht gefunden werden. Der Algorithmus bezieht auch keine Tertiärstruktur Interaktionen wie Pseudo-Knoten ein. Das größte und damit ausschlaggebenste Problem ist, dass in der Biochemie nicht nur die Struktur mit der minimalen freien Energie vorliegt, sondern auch suboptimale Strukturen mit funktionellen Eigenschaften existieren, was hier nicht beachtet wird. Gerade die freie Energie dieser suboptimalen Strukturen folgt der Boltzmann Verteilung. Der Algorithmus ist dynamisch programmiert. So werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet um die minimale freie Energie der gesamten Sequenz zu berechnen. Auch hier ist die minimale freie Energiestruktur über einen traceback-Algorithmus bestimmbar. Ein weiterer Algorithmus von Zuker (1989) berechnet die minimale freie Energiestruktur einer Sequenz mit vorgeschriebener fester Basenpaarung, liefert jedoch lediglich eingeschränkte Ergebnisse. Wuchty (1999) entwickelt eine Variante, die alle möglichen Strukturen mit fallender freier Energie mit vorgeschriebenem Abstand zur minimalen freien Energie berechnet. Doch auch hier ist man auf ein kleines Intervall nahe an der minimalen freien Energie beschränkt, was an der exponentiell wachsenden Anzahl an suboptimalen Faltungen bei größerer Distanz zur minimalen freien Energie liegt. Der Wuchty-Algorithmus, der dem Miklós-Meyer-Nagy-Algorithmus zugrunde liegt, wird im folgenden Abschnitt genauer beschrieben. Der Algorithmus selbst stellt eine Variante des Zuker-Sankoff-Algorithmus dar. Es werden drei verschiedene Funktionen für die Berechnungen benötigt: initial, merge und choose function. In der initial function wird die freie Energie Gi für eine elementare Sekundärstruktur (hairpin loop, bulge loop, internal loop, multi-loop, stacking loop oder null-loop) einer bestimmten Sub-Sequenz Li berechnet. Die merge function erhält als Eingabe zwei Substrukturen Li und Lj und deren minimale freie Energien Mi und Mj und berechnet Mij der gemischten Sequenz (die Summe der minimalen freien Energien). Oft kommt es so zur Konkatenation zweier Substrings (Figur 4) oder zu einer stacking loop-Erweiterung. Die choose function berechnet aus einer Sub-Sequenz Li mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden (Figur 5). Durch die merge und choose function kann es zu Beschränkungen und Zwängen in der Sekundärstruktur kommen. Ohne diese Beschränkungen der Energie-Funktion ist es nicht möglich die minimale freie Energiestruktur in polynomialer Zeit zu berechnen. Somit werden lineare Funktionen um multi-loop-/null-loop-Energien zu erhalten durch Hilfsvariablen berechnet, was über die initial function geschieht. Der Algorithmus startet mit kurzen SubStrukturen, die wegen der merge function immer länger werden. Jede Struktur wird exakt einmal betrachtet. Ergibt sich die minimale freie Energie, kann ihre Struktur mit einem traceback-Algorithmus bestimmt werden. Figur 4: Beispiel einer Konkatenation als Ergebnis der merge function Figur 5: Beide konkurrierende Strukturen eines Sub-Strings sind als Ergebnis der choose function möglich Erklärung: erstes und letztes Nukleotid soll gepaart werden, die link Lösung ist optimal, wenn ein stacking loop entstehen soll, die rechte, wenn ein multi-loop entstehen soll Zusammenfassen lassen sich die drei Funktionen mit ihren Berechnungen so: Der McCaskill-Algorithmus, der die Verteilungsfunktion Z der Boltzmann Verteilung berechnet, ist eine Variante des oben vorgestellten Wuchty-Algorithmus. An Stelle der freien Energien werden die korrespondierenden exponentiellen Werte verwendet. Somit ändert sich die merge function: es kommt zur Multiplikation. Die choose function addiert stattdessen die Werte. Als Beispiel wird hier die Veränderung der merge function dargestellt: Zusammenfassend für den McCaskill-Algorithmus ergibt sich also: 4.3 Miklós-Meyer-Nagy Zunächst werden einige Begriffe definiert: ist die erwartete freie Energie ergibt die Varianz. Wobei S für eine bestimmte Struktur der Sequenz L steht. G(S) ist die molare freie Energie einer Struktur S und Z die Verteilungsfunktion der Boltzmann Verteilung (durch den McCaskill-Algorithmus berechenbar). Der Algorithmus selbst berechnet folgende zwei Variablen X und Y, durch die sich der Erwartungswert der freien Energie und die Varianz durch weitere Berechnungen folgern lassen. Diese zwei Variablen können leicht zur Berechnung der erwarteten minimalen Energie EB[G] und der Varianz VB[G] verwendet werden. Wie schon erwähnt ist der Miklós-Meyer-Nagy-Algorithmus eine Variante des WuchtyAlgorithmus und benutzt den McCaskill-Algorithmus um die Verteilungsfunktion Z der Boltzmann Verteilung zu berechnen. Für die merge function ergeben sich folgende Gleichungen der Variablen X und Y: X= Y= Durch Umformen (hier nur für Variable X gezeigt) erhält man: mit und für Variable Y: Zusammenfassen lassen sich die Ergebnisse in den folgenden Gleichungen für die Variablen: Zur Implementierung lässt sich festhalten, dass alle vier Variablen einer Sub-Sequenz innerhalb einer Traversierung der Schleife des Programms berechnet werden. Die freien Energieparameter werden hier nach MFOLD und die internal-loop Berechnung nach Lyngsø 3 2 verwendet. Die Rechenzeit beträgt O(l ), der Speicher O(l ) für eine Sequenz der Länge l. Es werden keine Pseudo-Knoten berücksichtigt. 4.4 Daten Der Algorithmus wird in diesem Paper an hand von drei Mengen von Daten getestet, wobei zu jeder Menge an biologischen Daten eine korrespondierende Datenmenge an random generierten Sequenzen konstruiert wird. Diese drei Datenmengen wurden nicht gemischt, da sie jeweils sehr unterschiedliche Strukturen und Nukleotid-Verteilungen aufweisen. Alle drei Datenmengen bestehen aus Sequenzen, die keine Pseudo-Knoten miteinbeziehen. Es sind sehr kurze Sequenzen aus nur 100-200 Nukleotiden. Die drei Datenmengen sind aufgeteilt in (1) precursor miRNA, (2) tRNA und (3) rRNA. Wobei die precursor miRNA sich von den anderen zwei Datenmengen deutlich in ihrer Struktur und biologischer Funktion unterscheidet. Als Sekundärstruktur bilden precursor miRNAs einzelne hairpins aus und haben als reife miRNA keine ausgeprägte Sekundärstruktur. Sie werden im Gegensatz zu tRNA und rRNA nicht posttranskriptionell verändert. Diese zwei Datenmengen können auch während biochemischer Reaktionen Sekundärstrukturveränderungen erfahren. Zu jeder Datenmenge wird eine korrespondierende random-Menge von 500 RNA-Sequenzen erzeugt. Sie folgt der gleichen Dinukleotid-Statistik und Längenverteilung wie die korrespondierende Menge der biologischen Sequenzen. Generiert werden die random Sequenzen über Markov-Ketten 1. Ordnung. Als Beispiel, an der precursor miRNA, ist hier die Transitionsmatrix und die Tabelle mit den Anfangswahrscheinlichkeiten aufgeführt.. Tabelle 3: Anfangswahrscheinlichkeiten und Transitionsmatrix 4.5 Ergebnisse Alle vier Statistiken pro Datensatz zeigen ein qualitativ gleiches Verhalten, es sind nur quantitative Unterschiede zu erkennen. Keine der Statistiken hat genug Aussagekraft um einzelne biologische und random generierte Sequenzen zu unterscheiden. Nur ganze Mengen von Sequenzen können als biologisch oder random generiert eingeordnet werden. Pro Sequenz wurden die minimale freie Energie M, die Verteilungsfunktion Z sowie der Erwartungswert der freien Energie EB[G] und die Varianz VB[G] berechnet. In den Statistiken werden die minimale freie Energie M normiert zur Länge li (minimum energies), der Logarithmus der minimalen freien Energiestruktur-Wahrscheinlichkeit (log prohabilities), die Differenz zwischen minimaler freier Energie und erwarteter freier Energie normiert zur Länge li (deviations), und die Varianz der Boltzmann Verteilung (variances) dargestellt. Wobei der Logarithmus der minimalen freien Energie wie folgt definiert ist: . Figur 6: Ergebnisse der miRNA-Daten Figur 7: Ergebnisse der t-RNA-Daten Figur 8: Ergebnisse der sRNA-Daten Allgemein lässt sich feststellen, dass biologische Sequenzen eine kleinere minimal freie Energie haben und die Wahrscheinlichkeit für diese minimale freie Energiestruktur höher als bei random generierten Sequenzen ist. Die Varianz der Boltzmann Verteilung sowie die Differenz zwischen minimaler freier Energie und erwarteter freier Energie ist geringer als bei random generierten Sequenzen. 4.6 Fazit Abschließend kann festgehalten werden, dass nur Mengen an biologischen Sequenzen von Mengen von random generierten Sequenzen unterscheidbar sind, jedoch nicht einzelne Sequenzen unterschieden werden können. Der Algorithmus ist nicht mächtig genug eine bestimmte RNA-Sequenz zu untersuchen und sie dann in die Menge von biologischen bzw. random generierten Sequenzen einzuordnen. Das kann eventuell damit erklärt werden, dass zwei gegensätzliche Beschränkungen in Konkurrenz stehen. Einerseits soll die Wahrscheinlichkeit für die minimale freie Energiestruktur maximiert werden, was die energetische Stabilität gewährleistet. Andererseits soll die Differenz zwischen minimalem freien Energiewert und der erwarteten freien Energie minimiert werden um die Funktionalität zu sichern. Das heißt, der minimale freie Energie Wert soll gering sein, damit eine thermodynamisch stabile Struktur vorliegt. Doch soll dieser Wert nicht zu weit von den erwarteten Energiewerten entfernt liegen, da sonst die biologische Funktion der Struktur verloren gehen könnte. Eine weitere wichtige Erkenntnis ist, dass die minimale freie Energiestruktur von Natur aus nicht durch einen deutlich kleineren Wert als den der erwarteten freien Energie hervorgehoben wird. Somit kann davon ausgegangen werden, dass nicht nur die Struktur mit der minimalen freien Energie vorliegt, sondern auch ein Ensemble von verschiedenen Strukturen, deren freie Energie nahe diesem Wert liegt. So wird erst die richtige Umgebung für die funktionale Struktur geschaffen. Es werden Strukturen mit einer freien Energie nahe am minimalen freien Energiewert gefördert, da sie eine eigene funktionelle Rolle haben und zum Beispiel durch Ensemble-Bildung zur Evolution neuer Strukturen mit biologischer Funktion führen können. Diese temporären Strukturen entstehen durch co-transkriptionelle Faltung. Der Algorithmus berechnet exakte Werte und ist im Vergleich zu früheren Algorithmen nur konstant langsamer, was aber nicht von der Anzahl der suboptimalen Faltungen abhängt, was sehr zum Vorteil ist, da die Anzahl der suboptimalen RNA-Strukturen mit der Länge der RNA exponentiell wächst. Frühere Algorithmen konnten die Boltzmann Verteilung nur approximativ bestimmen, was meist über eine Aufzählung von suboptimalen Faltungen in Bezug zu ihrem Beitrag zur Boltzmann Verteilung erreicht wurde. Jedoch ist dies sehr langsam und ungenau, da schon kurze RNA-Sequenzen sehr viele verschiedene suboptimale Strukturen ausbilden können. Es ist auch ein einfacher Algorithmus, da man mit ein und der selben Implementierung vier verschiedene Werte, die minimale freie Energie, die Verteilungsfunktion der Boltzmann Verteilung sowie die Variablen X und Y, also indirekt auch den Erwartungswert der freien Energie und die Varianz, berechnen kann. Außerdem ist der Algorithmus leicht erweiterbar. Es können durch nur geringe Änderungen des Source codes höhere Momente der Boltzmann Verteilung berechnet werden. Das dritte Moment berechnet zum Beispiel die Schiefe der Boltzmann Verteilung und lässt so genauere Aussagen über die statistische Verteilung treffen. Prinzipiell können auch Pseudo-Knoten in die algorithmische Untersuchung integriert werden. Wobei hier zu bedenken ist, dass das Pseudo-Knoten-Problem generell NP-hart ist, aber Algorithmen für spezielle Pseudo-Knoten-Klassen in polynomialer Zeit existieren. Es gibt auch andere Standardtechniken um RNA-Sekundär-Strukturen zu untersuchen. Zum Beispiel können hierzu stochastische kontextfreie Grammatiken (SCFDs) verwendet werden. Hierbei entspricht jeder Ableitungsbaum einer Sekundärstruktur einer RNA-Sequenz. So haben zum Beispiel der Zuker-Tinoco und ein dynamisch programmierter Algorithmus für SCFDs Ähnlichkeiten, wurden jedoch bis heute noch nicht ineinander überführt. Analog zu diesem hier vorgestellten Algorithmus würde ein Algorithmus über stochastisch kontextfrei Grammatiken, Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz berechen. Es kann gezeigt werden, dass solch ein Algorithmus existiert, es ist jedoch offen, ob es möglich ist die Anzahl der Strukturelemente in der Boltzmann Verteilung zu berechnen. Zusammenfassend lässt sich sagen, dass der Algorithmus die vorliegenden Verhältnisse verschiedener Strukturen einer Sequenz erklären kann, jedoch nicht dazu zu verwenden ist biologische von random generierte Sequenzen zu trennen. Fragen ob die Faltungswege konservativ sind, ob die Faltungsinformationen für Struktur- und bzw. oder EvolutionsVorhersagen genutzt werden können oder ob daraus Faltungssimulationen entwickelt werden können bleiben offen und können bzw. sollen in nächster Zeit geklärt werden. 5 Literatur [1] Co-transcriptional folding is encoded within RNA genes; BMC Molecular Biology 5(10) Meyer, Irmtraud M.,Miklos, Istvan; 2004. [2] Moments of boltzmann distribution for RNA secondary structures; Bulletin of Mathematical Biology Meyer, Irmtraud M.,Miklos, Istvan,Nagy, Borbala; 2005. [3] Complete Suboptimal Folding of RNA and the Stability of Secondary Strustures; Biopolymers, Vol. 49, 145-165 Wuchty, Fontanam Hofacker, Schuster; 1999 [4] RNA secondary structures and their prediction; Bul. Math. Biol. 46, 591–621. Zuker, M., Sankoff, D. 1984