Document

Werbung
Johann Wolfgang Goethe-Universität
Frankfurt am Main
Co-transcriptional folding is encoded within RNA genes
Moments of the Boltzmann distribution for RNA secondary
structures
Joanna Wisniewska
25.06.2005
Inhaltsverzeichnis
1
Einleitung
2
Biologische Grundlagen
3
Statistiken zur Co-transkriptionellen RNA-Faltung
3.1 Zielsetzung
3.2 Statistiken
3.3 Daten
3.4 Ergebnisse
3.5 Fazit
4
Momente der Boltzmann Verteilung für RNA Sekundär-Strukturen
4.1 Zielsetzung
4.2 Frühere Algorithmen
4.3 Miklós-Meyer-Nagy
4.4 Daten
4.5 Ergebnisse
4.6 Fazit
5
Literatur
1 Einleitung
In dieser Ausarbeitung werden zwei Paper vorgestellt, die sich mit RNA-Sekundär-Strukturen
befassen. Das erste Paper von Miklós und Meyer untersucht ob, und wenn ja, wie cotranskriptionelle RNA-Faltung in der Primär- und Sekundär-Struktur von RNA verschlüsselt
ist. Dies geschieht an hand von mehreren Statistiken. Es werden bestimmte konkurrierende
Konformationen definiert, die Ereignissen entsprechen, und deren Auftreten gezählt. Die
Erwartungswerte der Ereignisse werden im Hinblick auf eine zu verwerfende Hypothese H0
untersucht. Es wird so versucht zu erklären, dass co-transkriptionelle Faltung eine wichtige
Rolle in der Biologie spielt.
Das zweite Paper, auch von Miklós, Meyer und von Nagy stellt einen dynamisch
programmierten Algorithmus vor, der beliebige Momente der Boltzmann Verteilung für eine
RNA-Sekundär-Struktur berechnen kann. Dieser Algorithmus baut auf dem McCaskill- so
wie auf dem Wuchty-Algorithmus auf, kann aber im Gegensatz zu diesen die Boltzmann
Verteilung exakt berechnen und ist nur um eine Konstante langsamer als die vorigen. Die
Ergebnisse lassen auch Aussagen über Unterschiede zwischen biologischen und random
generierten RNA-Sequenzen machen. Dies geschieht über die Berechnung von minimalen
freien Energiestrukturen, Varianz der freien Energie der Strukturen und den Vergleich
zwischen der minimalen freien Energie und der erwarteten freien Energie der restlichen
Strukturen.
2 Biologische Grundlagen
Die Transkription, also die Abschrift der DNA in RNA ist ein gerichteter Prozess, der durch
eine Menge von Enzymen geleitet wird. Das 5’-Ende der RNA entsteht dabei zuerst, was
bedeutet, dass auch an diesem Ende temporäre Wasserstoffbrückenbindungen zwischen
komplementären Basen zuerst ausgebildet werden können. Es kommt also durch cotranskriptionelle Faltung, das heißt Faltung, die schon während der Transkription beginnt, zu
temporären RNA-Strukturen. Da es ein von Enzymen geleiteter Prozess ist, kann auch die
Transkriptionsgeschwindigkeit unterschiedlich sein. Das wiederum kann den Faltungsweg
von RNA und auch ihre funktionale Struktur beeinflussen. Während der Transkription können
unterschiedliche RNA-Strukturen entstehen, die zum Beispiel nicht der funktionalen Struktur
entsprechen müssen, sondern nur temporär vorliegen. Ob eine bestimmte RNA-Struktur
transient ist, hängt von ihrer Stabilität, ihrer Entstehungszeit und der allgemeinen Situation,
ob zum Beispiel konkurrierende Alternativ-Strukturen vorliegen, ab.
Die minimal freie Energiestruktur, also die Struktur, die nach einer längeren Zeit am
häufigsten vorliegt, somit die thermodynamisch stabilste Struktur ist, muss nicht die
funktionale Struktur sein. Das heißt, auch eine nur temporär vorliegende Struktur kann die
Struktur mit biologischer Funktion sein. Die Anzahl der möglichen verschiedenen
Sekundärstrukturen wächst exponentiell mit der Länge der RNA-Sequenz. Zu bemerken ist
darüber hinaus, dass die RNA-Sekundär-Strukturen vor allem durch Basenpaarung stabilisiert
werden. Die minimale freie Energie Struktur hängt zum Beispiel mehr von der Verteilung
benachbarter Nukleotidpaare ab, als von den Wasserstoffbrücken komplementärer
Nukleotide.
Biologisch funktionelle RNA Sequenzen benötigen nicht nur eine thermodynamisch stabile
minimale freie Energie Struktur sondern auch eine Menge von Strukturen mit einer freien
Energie nahe an dieser minimalen freien Energie, um funktionsfähig zu sein.
Es ist wenig bekannt, ob co-transkriptionelle Faltung durch spezifische oder nicht-spezifische
Bindeproteine beherrscht wird oder ob die Primärstruktur selbst die notwendigen
Eigenschaften übermittelt.
Die Sekundär-Strukturen einer RNA-Sequenz werden hier nach Sankoffs k-loopdecomposition (Figur 1) definiert. Einzelne elementare Sekundär-Struktur-Elemente sind
hierbei hairpin loops, bulge loops, internal loops, multi-loops, stacking loops oder null-loops,
die je nach der Anordnung ihrer Wasserstoffbrückenbindungen festgelegt sind.
Figur 1: k-loop-decomposition einer RNASekundär-Struktur nach Sankoff
3 Statistiken zur co-transkriptionellen RNA-Faltung
3.1 Zielsetzung
Das Paper untersucht co-transkriptionelle Faltung mit Hilfe von Statistiken. Durch die hier
definierten Statistiken ist es möglich für eine Menge von RNA-Sequenzen festzustellen, ob
die Daten auf co-transkriptionelle Faltung hinweisen oder nicht. Hier wird als neue Idee
aufgegriffen, dass nicht schon fertig synthetisierte RNA-Sequenzen vorhergesagt werden,
sondern Sequenzen, die während der Transkription falten, untersucht werden. Die Statistiken
machen auch eine Aussage darüber, ob zum Beispiel temporäre Sekundär-Strukturen
vorliegen, die co-transkriptionelle Faltung fördern und dass konkurrierende Alternativ-Helices
unterdrückt werden.
3.2 Statistiken
Es wird die H0 Hypothese „keine co-transkriptionelle Faltung liegt vor“ aufgestellt, die durch
die Ergebnisse verworfen werden soll. Das wird mit Hilfe einer Kopplung von Statistiken, die
auf bekannter Primär- und Sekundärstruktur der RNA-Sequenzen beruhen, erreicht.
Die Statistiken sollen den Erwartungswert gleich Null im Falle der H0 Hypothese, also wenn
keine co-transkriptionelle Faltung vorliegt, haben. Dies ist nicht über random generierte
Sequenzen erreichbar. Es werden Paare von Statistiken gebildet und die Präsenz von
alternativen Helices, die mit bekannter Struktur um ein Basenpaar konkurrieren, gemessen.
Um zu vermeiden, dass sich zufällige Verschiebungen des Erwartungswerts nicht falsch auf
die Ergebnisse auswirken, wird eine Statistik verwendet, die sich aus der Differenz zweier
Statistiken ergibt. Mit zufälligen Verschiebungen sind Ergebnisse für den Erwartungswert im
Falle der H0 Hypothese gemeint, die nicht bei Null liegen, aber trotzdem der H0 Hypothese
folgen. Durch die Differenz zweier Statistiken, die beide sich im Falle der H0 Hypothese
gleich verhalten, also den selben, aber unbekannten Erwartungswert haben, wirkt sich eine
zufällige Verschiebung nicht aus, da der Erwartungswert in der Differenz im Falle der H0
Hypothese wieder bei Null liegt. Aber um Aussagen im Falle, dass die H0 Hypothese nicht
zutrifft machen zu können, ist eine der zwei Statistiken so definiert, dass sie sich unabhängig
vom Falle der Hypothese gleich verhält, also den unbekannten Erwartungswert beibehält. Die
andere Statistik hingegen behält ihren Erwartungswert nicht bei, sondern nimmt einen
anderen Wert an, wenn die H0 Hypothese nicht zutrifft. Somit ergibt sich in der Differenz im
Falle, dass die H0 Hypothese nicht zutrifft ein Wert ungleich Null, was gefordert ist um
anhand dieser Statistik die Hypothese zu testen.
Das Auftreten Alternativ-Helices, die um ein Basenpaar mit der Helix mit bekannter
Sekundär-Struktur konkurrieren, wird über eine dynamische Programmierung bestimmt.
Diese Alternativ-Helices müssen mindestens einen neun Basenpaar langen „stem“-Abschnitt,
in den auch das bestimmte Basenpaar iī fällt, dem eine Base im weiteren Verlauf der Sequenz
in Konkurrenz steht, besitzen. Das Basenpaar iī liegt in einer bekannten Sekundär-Struktur
vor. Die konkurrierende Base c kann entweder 5’, das heißt im Vergleich zur
Transkriptionsrichtung, vor dem bekannten Basenpaar iī oder dahinter, also 3’, liegen.
Theoretisch gesehen könnte die Konkurrenzbase auch zwischen den zwei Basen i und ī
liegen, doch geht das nicht in die Statistiken mit ein, da die Region zu kurz wäre um
alternative Helices zu bilden. Konkurrierend ist die Base c deshalb, da sie potentiell eine
Wasserstoffbrückenbindung mit Base i ausbilden kann, was zu alternativen Helices führt. Es
liegen mehrere Konformationen, die den Statistiken entsprechen vor. Ist die Base c zu Base i
„benachbart“ so sprechen wir von einer Cis-Konformation. Liegt die Base c in
„Nachbarschaft“ zur Base ī, nennt man diese Konformation Trans. Beide Konformationen
werden noch in 5’ und 3’ unterschieden. Somit ergeben sich die vier folgenden Ereignisse: 3’cis, 5’-cis, 3’-trans und 5’-trans (Figur 2).
Die Statistiken vergleichen nur jeweils die Cis- bzw. Trans-Konformationen untereinander,
da je Konformation andere destabilisierende Effekte eine Rolle spielen und die stackingEnergien nicht symmetrisch verteilt sind, was wiederum an der Transkriptionsrichtung liegt.
Zum Beispiel liegt bei der Cis-Konformation die Konkurrenzbase c näher am bekannten
Basenpaar iī und kann somit öfter zu falschen Helices führen. Dies trifft auch ohne cotranskriptionelle Effekte
auf, da konkurrierende Trans- und Cis-Alternativ-Helices
destabilisierend wirken.
Die 3’-trans-Konformation weist zum Beispiel auf co-transkriptionelle Faltung hin. Es
entstehen weniger konkurrierende Helices, wenn co-transkriptionelle Faltung vorliegt, da die
Konkurrenzbase c weiter von der Base i, mit der sie eine Wasserstoffbrückenbindung
ausbilden kann, entfernt liegt. Die Base ī entsteht während der Transkription zuerst und kann
somit zuerst eine komplementäre Bindung zur Base i ausbilden. Es gibt somit nicht so häufig
die Möglichkeit, dass sich das Basenpaar ic ausbilden kann. Diese Konformation liegt öfter
als 5`-trans, die keinen Hinweis auf co-transkriptionelle Faltung gibt, vor. Die 5´-tansKonformation führt öfter zu falsch gefalteten Helices, da hier beide Basen c und ī vor der
Base i vorliegen und somit beide die gleiche Chance auf die Ausbildung einer
komplementären Bindung zu i haben.
Die 5’-cis-Konformation führt zu transienten Helices, die den co-transkriptionellen
Faltungsweg guiden. Der pathway, der zur funktionellen Sekundärstruktur führt wird dadurch
Figur 2: Vier Konformationen, die den Ereignissen
entsprechen, die von den Statistiken untersucht werden.
gefördert. Die Konformation liegt öfter als 3`-cis vor, die unterdrückt wird, da sie zu einem
schlechten pathway führt.
Die Statistiken, die die Ereignisse untersuchen, werden noch auf zwei unterschiedliche
Weisen gewichtet. Zum einen über die „plain“-Gewichtung p: 1 / ( d • log (l) ), zum anderen
über die „ free energy“-Gewichtung g: |G| / ( d • log (l) ). Wobei l für den Raum aller
Möglichkeiten, indem die Konkurrenzbase c liegen könnte, steht. Sie definiert also die SubString Länge. Bei den 3`-Konformationen ergibt sie sich aus dem Teil der Sequenz vom 3´Ende bis zur mittleren Base, bei den 5`-Konformationen vom 5´-Ende bis zur mittleren Base.
Die Variable d beschreibt die Distanz zwischen der Base c und Base i (cis) bzw. Base ī
(trans).
„plain“-Gewichtung p
„free energie“-Gewichtung g
Tabelle 1: Gleichungen um die zwei Gewichtungen plain p und free energie g für die vier
verschiedenen Ereignisse zu berechnen.
Die Distanz d geht mit dem Kehrwert ein. Je weiter die Konkurrenzbase c vom Basenpaar iī
entfernt liegt, desto unwahrscheinlicher wird es, dass es zur Ausbildung des Basenpaares ic
kommt. Somit geht das weniger in die Statistik ein. Die Sub-String-Länge l geht über den
Kehrwert des Logarithmus ein, da auch hier zutrifft, je weiter die Base c vom Basenpaar iī
entfernt vorliegt, desto unwahrscheinlicher wird es, dass es zur Ausbildung des Basenpaares
ic kommt. Der Logarithmus von l kommt daher, dass er proportional zur erwarteten Summe
von 1/d ist und so als normierende Konstante wirkt. Stabile Alternativ-Helices gehen mehr in
die Statistik ein, da sie einen größeren Einfluss auf den Faltungsweg haben und somit die cotranskriptionelle Faltung fördern. Deshalb wird bei der „free energie“-Gewichtung mit dem
Betrag der freien Energie G multipliziert.
Es ergeben sich so pro Sequenz acht skalare Werte, pro Gewichtung jeweils ein Wert für 5`Cis, 3`-Cis, 3`-Trans und 5`-Trans. Wobei 5`-Cis sich aus der Summe der einzelnen
möglichen 5`-cis-Ereignisse pro Alternativ-Struktur der einzelnen Sequenz ergibt
(entsprechendes gilt auch für 3`-Cis, 3`-Trans und 5`-Trans).
Der gesamte Erwartungswert für die Sequenz für die Cis- bzw. Trans-Konformation ergibt
sich aus den zwei folgenden Gleichungen:
Cis = 5´-Cis – 3´-Cis
Trans = 3´-Trans – 5´-Trans.
Falls die H0 Hypothese zutrifft sind positive Fälle, also das Auftreten von Alternativ-Helices
mit der Wahrscheinlichkeit p = 0,5 binomial verteilt und folgen der Statistik
wobei n die Anzahl aller Fälle angibt. Dies folgt so der Gausverteilung.
Ergibt sich ein Erwartungswert größer als Null wird die Hypothese H0 verworfen.
3.3 Daten
Die Statistiken untersuchen zwei Datenmengen, wobei die Datenmenge A den original
transkripierten Sequenzeinheiten entspricht und die Datenmenge B aus sehr kurzen
Sequenzen besteht, die sich von den original transkripierten Sequenzeinheiten unterscheiden.
Es wird erwartet, dass in der Datenmenge B, auf Grund der sehr kurzen Sequenzen, nur
schwer co-transkriptionelle Faltungs-Effekte festzustellen sein werden.
3.4 Ergebnisse
Figur 3: Verteilung der Cis- und Trans-Werte
Die Ergebnisse (Figur 3) zeigen eine approximativ symmetrische Verteilung. Für die
Datenmenge A liegen die Werte im Durchschnitt über Null, was die H0 Hypothese verwerfen
lässt und auf co-transkriptionelle Faltung hinweist. Die Werte der Datenmenge B liegen im
Durchschnitt bei Null oder sind etwas geringer als Null. Somit wird hier, wie auch erwartet
worden ist, die H0 Hypothese nicht verworfen.
Für den Erwartungswert von Cis ergibt sich ein Wert größer Null. Somit liegt die 5`-CisKonformation öfter als die 3´-Cis-Konformation vor, da Cis sich durch 5´-Cis – 3´-Cis ergibt.
Die 5`-cis-Konformation, in der die Basen ciī angeordnet sind, führt zu transienten Helices,
die den Weg zur Endstruktur guiden, aber dennoch weniger stabil als diese sind. Die 3´-cisKonformation hingegen wird unterdrückt. Die Basen sind bei dieser Konformation in der
Reihenfolge īic angeordnet. Somit sind die Basen īi dann schon gepaart, wenn die
Konkurrenzbase c später entsteht und es kommt nicht mehr häufig zu einem
Wasserstoffbrückenbruch zwischen den Basen īi, so dass keine Möglichkeit besteht die
Basenpaarung ic auszubilden. Ein positiver Erwartungswert der Cis-Konformation weist
darauf hin, dass Guiding durch temporäre Strukturen unterstützt wird.
Der positive Erwartungswert für die Trans-Konformation, der durch 3´-Trans – 5´-Trans
festgelegt ist, ergibt sich daher, dass die 3´-Trans-Konformation öfter als die 5´-TransKonformation auftritt. Die 5´-Trans-Konformation, bei der die Basen cīi angeordnet sind,
führt öfter zu falschen Helices. Das kommt daher, dass die Basen c und ī vor der Base i
entstehen und damit in direkter Konkurrenz stehen, da sie beide mit gleicher
Wahrscheinlichkeit eine Wasserstoffbrücke zur Base i ausbilden können. Bei der 3´-TransKonformation, bei der iīc die Basenordnung ist, entsteht die Base c erst nach ī und hat damit
geringere Möglichkeiten sich mit der Base i zu einem komplementären Basenpaar zu
verbinden. So kommt es in dieser Konformation zu weniger Miss-Faltungen. Ein positiver
Trans-Erwartungswert lässt uns darauf schließen, dass Konkurrenzstrukturen unterdrückt
werden.
Zum Schluss können noch die Erwartungswert der 3´-trans-Konformation mit der 3´-cisKonformation verglichen werden. Hier ist der Erwartungswert der 3´-trans-Konformation
größer, diese Konformation liegt also öfter vor. In der 3´-trans-Konformation haben wir iīc als
Basenfolge, bei der 3´-cis-Konformation īic vorliegen. In beiden Fällen wird das Basenpaar iī
bzw. īi zuerst ausgebildet. Falls es aber zu einem Wasserstoffbrücken-Bruch zwischen diesem
Basenpaar kommt, führt die 3´-cis-Konformation öfter zu falschen Helices, da hier die
Konkurrenzbase c in der näheren Umgebung der Base i liegt. Ist der Erwartungswert der 3´trans-Konformation größer, so wird die Stabilisierung der funktionalen Sekundärstruktur
gewährleistet.
Diese Ergebnisse treffen auf die Datenmenge A zu, sie ist also auf co-transkriptionelle
Faltung zugeschnitten. Die finale Sekundärstruktur wird aktiv stabilisiert (3´-Trans > 3´-Cis),
temporäre Helices aktivieren den Faltungsweg energetisch (Cis > 0) und Sekundär-StrukturElemente mit negativer Interaktion werden während der co-transkriptionellen Faltung
unterdrückt (Trans > 0).
Um die Aussagekraft der Statistiken zu testen wurde noch ein t-test für die Hypothese, dass
die Statistik den Erwartungswert gleich Null hat, durchgeführt (Tabelle 2). Die p-Werte, der
positiven Fälle der zwei co-transkriptionellen Faltungs-Indikatoren stimmen mit den
Ergebnissen überein. Bei einem p-Wert kleiner als 0,05 wird im Allgemeinen die Hypothese
verworfen, was auch hier für die Datenmenge A der Fall ist. Für die Datenmenge B sind die
Werte höher, also wird hier die H0 Hypothese nicht verworfen, was auch mit den Ergebnissen
übereinstimmt.
Tabelle 2: Ergebnisse des t-tests und die p-Werte für die Statistik, dass die H0 Hypothese
zutrifft
3.5 Fazit
Die Statistiken zeigen generelle Effekte, sind aber nicht mächtig genug um Aussagen für
einzelne Sequenzen zu treffen. Das heißt Mengen von RNA-Sequenzen mit ähnlichen
Eigenschaften können zum Beispiel durch die Statistiken gut untersucht werden.
Eine angemessene Transkriptionszeit ist wichtig und hilft der korrekten RNA-Faltung. Als
Ergebnis kann auch festgehalten werden, dass die funktionale Struktur nicht der minimalen
freien Energiestruktur entsprechen muss.
Co-transkriptionalle Faltung ist das „guiding principle“, wenn man biologische RNA-Faltung
untersucht. Die Primär- und Sekundärstruktur der RNA-Sequenzen kann dadurch beeinflusst
werden.
Die Ergebnisse des Papers, also der Statistiken, ob co-transkriptionelle Faltung bei einer
bestimmten gegebenen Datenmenge vorkommt, sind so weit von Bedeutung, dass man
dadurch erklären kann, wie RNA faltet. Dadurch lässt sich zum Beispiel verstehen, warum es
zu Miss-Faltungen und somit auch zu Funktionsausfällen in Organismen kommt. Weiter kann
versucht werden die Ergebnisse auf Protein-Faltung zu übertragen, da auch dieser biologische
Syntheseprozess gerichtet ist und dementsprechend der RNA-Faltung ähnelt.
Die Ergebnisse können auch in andere Algorithmen, zum Beispiel in solche, die die freie
Energie minimieren, integriert werden.
Insgesamt werden hier lediglich Effekte erster Ordnung, also Alternativ-Helices bekannter
Sekundär-Struktur einer RNA-Sequenz, und nicht Alternativ-Helices zu Alternativ-Helices
(Effekte höherer Ordnung) betrachtet. Pseudo-Knoten-Strukturen werden miteinbezogen.
4 Momente der Boltzmann Verteilung für RNA Sekundär-Strukturen
Das Programm „RNA-Variance”, ein dynamisch programmierter Algorithmus zur
Berechnung beliebiger Momente der Boltzmann Verteilung wird im folgendem Abschnitt
vorgestellt. Mit dem Programm lassen sich Unterschiede zwischen biologischen und random
generierten RNA-Sequenzen untersuchen. Auch Aussagen über die Verteilung verschiedener
RNA-Strukturen einer bestimmten Sequenz lassen sich aus den Ergebnissen ableiten.
Im Mittelpunkt steht hier die Boltzmann Verteilung, die ursprünglich eine
Wahrscheinlichkeitsverteilung aus der statistischen Physik ist und der kinetischen Gastheorie
abstammt. Die freie Energie von suboptimalen RNA-Strukturen ist danach statistisch verteilt. Die
exakte Wahrscheinlichkeit, dass eine einzelne RNA-Struktur eine bestimmte molare freie Energie hat,
ist nach der Boltzmann Verteilung proportional zu
. Die Verteilungsfunktion Z dient als
normierende Konstante und kann durch den McCaskill-Algorithmus berechnet werden.
4.1 Zielsetzung
Durch den Vergleich von biologischen und random generierten RNA-Sequenzen, sollen
Aussagen über das Auftreten von verschiedenen Strukturen einer Sequenz, also nicht nur der
Struktur mit der minimalen freien Energie, gemacht werden können. Doch gerade diese
minimale freie Energiestruktur soll gefunden werden. Es werden hier die Energie-Beiträge
nach Sankoff‘s k-loop decomposition (freie Energie einer Struktur ergibt sich aus der Summe
der freien Energien der loops) für alle Berechnungen verwendet (Figur 1). Der Algorithmus
berechnet die erwartete freie Energie, ihre Varianz und vergleicht die erwartete freie Energie
mit dem minimalen freien Energiewert sowie mit einer Menge an biologischen und random
generierten Sequenzen. Zum Beispiel lässt sich aus einer erwarteten freien Energie nahe dem
minimalen freien Energiewert folgern, wie gut die Struktur definiert ist.
4.2 Frühere Algorithmen
Alle früheren Algorithmen können die Momente der Boltzmann Verteilung nur approximativ
berechnen, jedoch nicht vollständig vorhersagen.
Der Algorithmus von Tinoco (1983) legt ein Energiemodel für RNA-Faltung fest, bei dem die
molare freie Energie der Summe unabhängiger Beiträge von Basepaarungen und loopDestabilisierungstermen entspricht. Nussinov (1980) stellte einen Algorithmus vor, der die
maximale Anzahl an Basenpaaren in einer Sequenz findet. Es ist ein dynamisch
programmierter Algorithmus, der polynomiale Zeit und Speicherplatz benötigt. Die Anzahl
der Basenpaare wird rekursiv berechnet. Im Anschluss wird die Struktur über einen tracebackAlgorithmus rekonstruiert.
Der Zuker-Sankoff (1983) kann minimale freie Energie Strukturen vorhersagen. Durch eine
dynamische Programmierung wird ebenfalls polynomiale Zeit und Speicherplatz benötigt.
Der Algorithmus kann jedoch falsche Vorhersagen liefern. Das liegt zum Beispiel an
ungenauen Energie-Parametern. Die wahre minimale freie Energiestruktur kann in Bezug auf
bestimmte Parameter nur suboptimal sein und somit nicht gefunden werden. Der Algorithmus
bezieht auch keine Tertiärstruktur Interaktionen wie Pseudo-Knoten ein. Das größte und
damit ausschlaggebenste Problem ist, dass in der Biochemie nicht nur die Struktur mit der
minimalen freien Energie vorliegt, sondern auch suboptimale Strukturen mit funktionellen
Eigenschaften existieren, was hier nicht beachtet wird. Gerade die freie Energie dieser
suboptimalen Strukturen folgt der Boltzmann Verteilung. Der Algorithmus ist dynamisch
programmiert. So werden immer um ein Nukleotid längere Sub-Sequenzen betrachtet um die
minimale freie Energie der gesamten Sequenz zu berechnen. Auch hier ist die minimale freie
Energiestruktur über einen traceback-Algorithmus bestimmbar.
Ein weiterer Algorithmus von Zuker (1989) berechnet die minimale freie Energiestruktur
einer Sequenz mit vorgeschriebener fester Basenpaarung, liefert jedoch lediglich
eingeschränkte Ergebnisse.
Wuchty (1999) entwickelt eine Variante, die alle möglichen Strukturen mit fallender freier
Energie mit vorgeschriebenem Abstand zur minimalen freien Energie berechnet. Doch auch
hier ist man auf ein kleines Intervall nahe an der minimalen freien Energie beschränkt, was an
der exponentiell wachsenden Anzahl an suboptimalen Faltungen bei größerer Distanz zur
minimalen freien Energie liegt.
Der Wuchty-Algorithmus, der dem Miklós-Meyer-Nagy-Algorithmus zugrunde liegt, wird im
folgenden Abschnitt genauer beschrieben. Der Algorithmus selbst stellt eine Variante des
Zuker-Sankoff-Algorithmus dar. Es werden drei verschiedene Funktionen für die
Berechnungen benötigt: initial, merge und choose function. In der initial function wird die
freie Energie Gi für eine elementare Sekundärstruktur (hairpin loop, bulge loop, internal loop,
multi-loop, stacking loop oder null-loop) einer bestimmten Sub-Sequenz Li berechnet. Die
merge function erhält als Eingabe zwei Substrukturen Li und Lj und deren minimale freie
Energien Mi und Mj und berechnet Mij der gemischten Sequenz (die Summe der minimalen
freien Energien). Oft kommt es so zur Konkatenation zweier Substrings (Figur 4) oder zu
einer stacking loop-Erweiterung. Die choose function berechnet aus einer Sub-Sequenz Li
mit zwei konkurrierenden Sekundärstrukturen Mi(a) und Mi(b) das Minimum der beiden
(Figur 5).
Durch die merge und choose function kann es zu Beschränkungen und Zwängen in der
Sekundärstruktur kommen. Ohne diese Beschränkungen der Energie-Funktion ist es nicht
möglich die minimale freie Energiestruktur in polynomialer Zeit zu berechnen. Somit werden
lineare Funktionen um multi-loop-/null-loop-Energien zu erhalten durch Hilfsvariablen
berechnet, was über die initial function geschieht. Der Algorithmus startet mit kurzen SubStrukturen, die wegen der merge function immer länger werden. Jede Struktur wird exakt
einmal betrachtet.
Ergibt sich die minimale freie Energie, kann ihre Struktur mit einem traceback-Algorithmus
bestimmt werden.
Figur 4: Beispiel einer Konkatenation als Ergebnis der merge function
Figur 5: Beide konkurrierende Strukturen eines Sub-Strings sind als
Ergebnis der choose function möglich
Erklärung: erstes und letztes Nukleotid soll gepaart werden, die link
Lösung ist optimal, wenn ein stacking loop entstehen soll, die rechte,
wenn ein multi-loop entstehen soll
Zusammenfassen lassen sich die drei Funktionen mit ihren Berechnungen so:
Der McCaskill-Algorithmus, der die Verteilungsfunktion Z der Boltzmann Verteilung
berechnet, ist eine Variante des oben vorgestellten Wuchty-Algorithmus. An Stelle der freien
Energien werden die korrespondierenden exponentiellen Werte
verwendet. Somit ändert
sich die merge function: es kommt zur Multiplikation. Die choose function addiert stattdessen
die Werte.
Als Beispiel wird hier die Veränderung der merge function dargestellt:
Zusammenfassend für den McCaskill-Algorithmus ergibt sich also:
4.3 Miklós-Meyer-Nagy
Zunächst werden einige Begriffe definiert:
ist die erwartete freie Energie
ergibt die Varianz.
Wobei S für eine bestimmte Struktur der Sequenz L steht. G(S) ist die molare freie Energie
einer Struktur S und Z die Verteilungsfunktion der Boltzmann Verteilung (durch den
McCaskill-Algorithmus berechenbar).
Der Algorithmus selbst berechnet folgende zwei Variablen X und Y, durch die sich der
Erwartungswert der freien Energie und die Varianz durch weitere Berechnungen folgern
lassen.
Diese zwei Variablen können leicht zur Berechnung der erwarteten minimalen Energie EB[G]
und der Varianz VB[G] verwendet werden.
Wie schon erwähnt ist der Miklós-Meyer-Nagy-Algorithmus eine Variante des WuchtyAlgorithmus und benutzt den McCaskill-Algorithmus um die Verteilungsfunktion Z der
Boltzmann Verteilung zu berechnen.
Für die merge function ergeben sich folgende Gleichungen der Variablen X und Y:
X=
Y=
Durch Umformen (hier nur für Variable X gezeigt) erhält man:
mit
und für Variable Y:
Zusammenfassen lassen sich die Ergebnisse in den folgenden Gleichungen für die Variablen:
Zur Implementierung lässt sich festhalten, dass alle vier Variablen einer Sub-Sequenz
innerhalb einer Traversierung der Schleife des Programms berechnet werden. Die freien
Energieparameter werden hier nach MFOLD und die internal-loop Berechnung nach Lyngsø
3
2
verwendet. Die Rechenzeit beträgt O(l ), der Speicher O(l ) für eine Sequenz der Länge l. Es
werden keine Pseudo-Knoten berücksichtigt.
4.4 Daten
Der Algorithmus wird in diesem Paper an hand von drei Mengen von Daten getestet, wobei
zu jeder Menge an biologischen Daten eine korrespondierende Datenmenge an random
generierten Sequenzen konstruiert wird. Diese drei Datenmengen wurden nicht gemischt, da
sie jeweils sehr unterschiedliche Strukturen und Nukleotid-Verteilungen aufweisen.
Alle drei Datenmengen bestehen aus Sequenzen, die keine Pseudo-Knoten miteinbeziehen. Es
sind sehr kurze Sequenzen aus nur 100-200 Nukleotiden.
Die drei Datenmengen sind aufgeteilt in (1) precursor miRNA, (2) tRNA und (3) rRNA.
Wobei die precursor miRNA sich von den anderen zwei Datenmengen deutlich in ihrer
Struktur und biologischer Funktion unterscheidet. Als Sekundärstruktur bilden precursor
miRNAs einzelne hairpins aus und haben als reife miRNA keine ausgeprägte
Sekundärstruktur. Sie werden im Gegensatz zu tRNA und rRNA nicht posttranskriptionell
verändert. Diese zwei Datenmengen können auch während biochemischer Reaktionen
Sekundärstrukturveränderungen erfahren.
Zu jeder Datenmenge wird eine korrespondierende random-Menge von 500 RNA-Sequenzen
erzeugt. Sie folgt der gleichen Dinukleotid-Statistik und Längenverteilung wie die
korrespondierende Menge der biologischen Sequenzen. Generiert werden die random
Sequenzen über Markov-Ketten 1. Ordnung.
Als Beispiel, an der precursor miRNA, ist hier die Transitionsmatrix und die Tabelle mit den
Anfangswahrscheinlichkeiten aufgeführt..
Tabelle 3: Anfangswahrscheinlichkeiten und
Transitionsmatrix
4.5 Ergebnisse
Alle vier Statistiken pro Datensatz zeigen ein qualitativ gleiches Verhalten, es sind nur
quantitative Unterschiede zu erkennen. Keine der Statistiken hat genug Aussagekraft um
einzelne biologische und random generierte Sequenzen zu unterscheiden. Nur ganze Mengen
von Sequenzen können als biologisch oder random generiert eingeordnet werden.
Pro Sequenz wurden die minimale freie Energie M, die Verteilungsfunktion Z sowie der
Erwartungswert der freien Energie EB[G] und die Varianz VB[G] berechnet.
In den Statistiken werden die minimale freie Energie M normiert zur Länge li (minimum
energies), der Logarithmus der minimalen freien Energiestruktur-Wahrscheinlichkeit (log
prohabilities), die Differenz zwischen minimaler freier Energie und erwarteter freier Energie
normiert zur Länge li (deviations), und die Varianz der Boltzmann Verteilung (variances)
dargestellt. Wobei der Logarithmus der minimalen freien Energie wie folgt definiert ist:
.
Figur 6: Ergebnisse der miRNA-Daten
Figur 7: Ergebnisse der t-RNA-Daten
Figur 8: Ergebnisse der sRNA-Daten
Allgemein lässt sich feststellen, dass biologische Sequenzen eine kleinere minimal freie
Energie haben und die Wahrscheinlichkeit für diese minimale freie Energiestruktur höher als
bei random generierten Sequenzen ist. Die Varianz der Boltzmann Verteilung sowie die
Differenz zwischen minimaler freier Energie und erwarteter freier Energie ist geringer als bei
random generierten Sequenzen.
4.6 Fazit
Abschließend kann festgehalten werden, dass nur Mengen an biologischen Sequenzen von
Mengen von random generierten Sequenzen unterscheidbar sind, jedoch nicht einzelne
Sequenzen unterschieden werden können. Der Algorithmus ist nicht mächtig genug eine
bestimmte RNA-Sequenz zu untersuchen und sie dann in die Menge von biologischen bzw.
random generierten Sequenzen einzuordnen. Das kann eventuell damit erklärt werden, dass
zwei gegensätzliche Beschränkungen in Konkurrenz stehen. Einerseits soll die
Wahrscheinlichkeit für die minimale freie Energiestruktur maximiert werden, was die
energetische Stabilität gewährleistet. Andererseits soll die Differenz zwischen minimalem
freien Energiewert und der erwarteten freien Energie minimiert werden um die Funktionalität
zu sichern. Das heißt, der minimale freie Energie Wert soll gering sein, damit eine
thermodynamisch stabile Struktur vorliegt. Doch soll dieser Wert nicht zu weit von den
erwarteten Energiewerten entfernt liegen, da sonst die biologische Funktion der Struktur
verloren gehen könnte.
Eine weitere wichtige Erkenntnis ist, dass die minimale freie Energiestruktur von Natur aus
nicht durch einen deutlich kleineren Wert als den der erwarteten freien Energie
hervorgehoben wird. Somit kann davon ausgegangen werden, dass nicht nur die Struktur mit
der minimalen freien Energie vorliegt, sondern auch ein Ensemble von verschiedenen
Strukturen, deren freie Energie nahe diesem Wert liegt. So wird erst die richtige Umgebung
für die funktionale Struktur geschaffen. Es werden Strukturen mit einer freien Energie nahe
am minimalen freien Energiewert gefördert, da sie eine eigene funktionelle Rolle haben und
zum Beispiel durch Ensemble-Bildung zur Evolution neuer Strukturen mit biologischer
Funktion führen können. Diese temporären Strukturen entstehen durch co-transkriptionelle
Faltung.
Der Algorithmus berechnet exakte Werte und ist im Vergleich zu früheren Algorithmen nur
konstant langsamer, was aber nicht von der Anzahl der suboptimalen Faltungen abhängt, was
sehr zum Vorteil ist, da die Anzahl der suboptimalen RNA-Strukturen mit der Länge der RNA
exponentiell wächst. Frühere Algorithmen konnten die Boltzmann Verteilung nur
approximativ bestimmen, was meist über eine Aufzählung von suboptimalen Faltungen in
Bezug zu ihrem Beitrag zur Boltzmann Verteilung erreicht wurde. Jedoch ist dies sehr
langsam und ungenau, da schon kurze RNA-Sequenzen sehr viele verschiedene suboptimale
Strukturen ausbilden können.
Es ist auch ein einfacher Algorithmus, da man mit ein und der selben Implementierung vier
verschiedene Werte, die minimale freie Energie, die Verteilungsfunktion der Boltzmann
Verteilung sowie die Variablen X und Y, also indirekt auch den Erwartungswert der freien
Energie und die Varianz, berechnen kann. Außerdem ist der Algorithmus leicht erweiterbar.
Es können durch nur geringe Änderungen des Source codes höhere Momente der Boltzmann
Verteilung berechnet werden. Das dritte Moment berechnet zum Beispiel die Schiefe der
Boltzmann Verteilung und lässt so genauere Aussagen über die statistische Verteilung treffen.
Prinzipiell können auch Pseudo-Knoten in die algorithmische Untersuchung integriert
werden. Wobei hier zu bedenken ist, dass das Pseudo-Knoten-Problem generell NP-hart ist,
aber Algorithmen für spezielle Pseudo-Knoten-Klassen in polynomialer Zeit existieren.
Es gibt auch andere Standardtechniken um RNA-Sekundär-Strukturen zu untersuchen. Zum
Beispiel können hierzu stochastische kontextfreie Grammatiken (SCFDs) verwendet werden.
Hierbei entspricht jeder Ableitungsbaum einer Sekundärstruktur einer RNA-Sequenz. So
haben zum Beispiel der Zuker-Tinoco und ein dynamisch programmierter Algorithmus für
SCFDs Ähnlichkeiten, wurden jedoch bis heute noch nicht ineinander überführt. Analog zu
diesem hier vorgestellten Algorithmus würde ein Algorithmus über stochastisch kontextfrei
Grammatiken, Momente der log-Wahrscheinlichkeiten der Ableitungsbäume einer Sequenz
berechen. Es kann gezeigt werden, dass solch ein Algorithmus existiert, es ist jedoch offen, ob
es möglich ist die Anzahl der Strukturelemente in der Boltzmann Verteilung zu berechnen.
Zusammenfassend lässt sich sagen, dass der Algorithmus die vorliegenden Verhältnisse
verschiedener Strukturen einer Sequenz erklären kann, jedoch nicht dazu zu verwenden ist
biologische von random generierte Sequenzen zu trennen. Fragen ob die Faltungswege
konservativ sind, ob die Faltungsinformationen für Struktur- und bzw. oder EvolutionsVorhersagen genutzt werden können oder ob daraus Faltungssimulationen entwickelt werden
können bleiben offen und können bzw. sollen in nächster Zeit geklärt werden.
5 Literatur
[1] Co-transcriptional folding is encoded within RNA genes; BMC Molecular
Biology 5(10) Meyer, Irmtraud M.,Miklos, Istvan; 2004.
[2] Moments of boltzmann distribution for RNA secondary structures; Bulletin of
Mathematical Biology Meyer, Irmtraud M.,Miklos, Istvan,Nagy, Borbala; 2005.
[3] Complete Suboptimal Folding of RNA and the Stability of Secondary
Strustures; Biopolymers, Vol. 49, 145-165 Wuchty, Fontanam Hofacker, Schuster;
1999
[4] RNA secondary structures and their prediction; Bul. Math. Biol. 46, 591–621.
Zuker, M., Sankoff, D. 1984
Herunterladen