Johann Wolfgang Goethe-Universität Frankfurt am Main Proseminar „Visualisierung in der Bioinformatik“ Prof. Dr. D. Krömker Visualisierung von RNASekundärstrukturen Sommersemester 2003 Betreuer: Jens Barthelmes Autoren: Nikolaus Jeremic, Birger Krug 10.07.2003 Gliederung 1. Einleitung 1.1 1.2 1.3 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 2.2 2.3 3. RNA und RNA-Sekundärstruktur Strukturelle Elemente und Pseudoknoten Biologische Bedeutung der RNA-Sekundärstruktur Vorhersage der RNA-Sekundärstruktur Repräsentation der RNA-Sekundärstruktur Darstellung der H-Typ Pseudoknoten Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 3.2 3.3 RnaViz2 PseudoViewer Vergleich der beiden Programme 4. Zusammenfassung 5. Ausblick 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 02/49 Gliederung 1. Einleitung 1.1 1.2 1.3 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 2.2 2.3 3. RNA und RNA-Sekundärstruktur Strukturelle Elemente und Pseudoknoten Biologische Bedeutung der RNA-Sekundärstruktur Vorhersage der RNA-Sekundärstruktur Repräsentation der RNA-Sekundärstruktur Darstellung der H-Typ Pseudoknoten Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 3.2 3.3 RnaViz2 PseudoViewer Vergleich der beiden Programme 4. Zusammenfassung 5. Ausblick 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 03/49 Gliederung 1. Einleitung 1.1 1.2 1.3 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 2.2 2.3 3. RNA und RNA-Sekundärstruktur Strukturelle Elemente und Pseudoknoten Biologische Bedeutung der RNA-Sekundärstruktur Vorhersage der RNA-Sekundärstruktur Repräsentation der RNA-Sekundärstruktur Darstellung der H-Typ Pseudoknoten Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 3.2 3.3 RnaViz2 PseudoViewer Vergleich der beiden Programme 4. Zusammenfassung 5. Ausblick 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 04/49 Gliederung 1. Einleitung 1.1 1.2 1.3 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 2.2 2.3 3. RNA und RNA-Sekundärstruktur Strukturelle Elemente und Pseudoknoten Biologische Bedeutung der RNA-Sekundärstruktur Vorhersage der RNA-Sekundärstruktur Repräsentation der RNA-Sekundärstruktur Darstellung der H-Typ Pseudoknoten Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 3.2 3.3 RnaViz2 PseudoViewer Vergleich der beiden Programme 4. Zusammenfassung 5. Ausblick 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 05/49 Gliederung 1. Einleitung 1.1 1.2 1.3 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 2.2 2.3 3. RNA und RNA-Sekundärstruktur Strukturelle Elemente und Pseudoknoten Biologische Bedeutung der RNA-Sekundärstruktur Vorhersage der RNA-Sekundärstruktur Repräsentation der RNA-Sekundärstruktur Darstellung der H-Typ Pseudoknoten Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 3.2 3.3 RnaViz2 PseudoViewer Vergleich der beiden Programme 4. Zusammenfassung 5. Ausblick 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 06/49 1. Einleitung 1.1 RNA und RNA-Sekundärstruktur 1.2 Strukturelle Elemente und Pseudoknoten 1.3 Biologische Bedeutung der RNA-Sekundärstruktur 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 07/49 RNA (Ribonucleinsäure) • Der Zuckerbaustein des Nucleotids ist Ribose • Besteht aus den Basen: http://www.rothamsted.bbsrc.ac.uk/notebook/cou rses/guide/rnast.htm http://www.bioinfo.rpi.edu/~zukerm/Bio-5495/RNAfold-html/node1.html 10.07.2003 1.1 RNA und RNA-Sekundärstruktur 08/49 RNA (Ribonucleinsäure) • RNA kommt fast immer einsträngig vor und spielt eine sehr wichtige Rolle bei der Genexpression (Proteinsythese) • Bei Retroviren besteht das Genom aus einzelsträngigen RNA-Molekülen http://www.rothamsted.bbsrc.ac.uk/notebook/cou rses/guide/rnast.htm 10.07.2003 1.1 RNA und RNA-Sekundärstruktur 09/49 RNA (Ribonucleinsäure) • Die 3 wichtigsten Arten der RNA: Ribosomale RNA/rRNA (Strukturelemente der Ribosomen), Transfer RNA/tRNA (transportiert Aminosäuren) und Messenger RNA/mRNA (entsteht beim Kopieren der Gene) • Weitere RNA-Typen: http://www.rothamsted.bbsrc.ac.uk/notebook/cou rses/guide/rnast.htm Katalytische RNAs RNAs, die keine Proteine kodieren: RNAi, miRNA, snRNA, tmRNA, gRNAs und snoRNAs 10.07.2003 1.1 RNA und RNA-Sekundärstruktur 10/49 RNA-Sekundärstruktur Die RNA-Sekundärstruktur ist die Vereinfachung einer komplexen dreidimensionalen Faltung eines Biopolymers. Die Faltung entsteht durch Basenpaarung, wobei man zwischen kanonischen und nicht kanonischen Basenpaarungen unterscheidet. • Watson-Crick Basenpaare: (Wasserstoffbrücken-) Bindungen zwischen den komplementären Basen (C-G und A-U) • Wobble* Basenpaarung (G-U) *bei der Paarung zwischen Codon und Anticodon tritt in der dritten Position Schwankungen (wobbles) auf RnaViz2, Escherichia coli MRE600 Bei allen anderen handelt es sich um nicht-kanonische Basenpaarungen 10.07.2003 1.1 RNA und RNA-Sekundärstruktur 11/49 Strukturelle Elemente Helices: Doppelstrangbestandteil, der ein benachbarter Bereich eines Basenpaares ist. RNA-Schleifen (reguläre Schleifen): Sind Bereiche der Sequenz der Sekundärstruktur, die nicht kanonische Basenpaare beinhalten, jedoch durch ein oder mehrere kanonische Basenpaare begrenzt sind. Schleifenarten: Hairpin loop (Haarnadelschleife) Bulge loop Internal loop Multibranch loop 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 12/49 Strukturelle Elemente Hairpin loop (Haarnadelschleife) Resultieren aus der Entstehung der Basenpaare durch die Rückwärtsfaltung der Nucleinsäurestränge. Entsteht aus einem Basenpaar. Bulge loop (einseitige Schleife) Enthalten ungepaarte Nucleotide auf nur einem Strang der Doppelhelix Internal loop (interne Schleife) Sind durch zwei Helices mit kanonischen Basenpaaren begrenzt und beinhalten Nucleotide an beiden Strängen, die nicht in kanonischen Basenpaaren sind. Multibranch loop (Verzweigungen) Schleifen, bei denen sich mehr als zwei Helices schneiden. 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 13/49 Beispiel: Strukturelle Elemente RNA 2001 Elsevier Science Ltd Söll, Nishimura, Moore 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 14/49 Pseudoknoten Teile eines RNA-Tertiärstrukturelements, die sich bilden, wenn Nukleotide aus kurzen, einzelsträngigen Bereichen mit Nucleotiden in Haarnadelschleifen desselben Moleküls Basenpaarungen eingehen. Vereinfacht: 2 überlappende Stem-loop Strukturen, wobei 1 Strang in der Schleife der anderen Struktur beginnt: Tag der Forschung, Rumpf, 2002 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 15/49 Pseudoknoten Wichtig für verschiedene Funktionen der RNA: • Die strukturelle Organisation des RNA-Komplexes • Auslösen der Replikation • Frameshifting • Kontrolle der Translation 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 16/49 Pseudoknoten 3 Hauptarten der Pseudoknoten: • H-Typ Pseudoknoten (hairpin loop) • B-Typ Pseudoknoten (bulge loop) • I-Typ Pseudoknoten (interior loop) Insgesamt sind 14 Typen möglich. Pseudoknoten Schleifen (PK loop) enthalten sowohl einen Pseudoknoten als auch einen einsträngigen Teil. 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 17/49 Beispiel: H-Type Pseudoknoten RNA structure, Andrew Feig, 2002 10.07.2003 1.2 Strukturelle Elemente und Pseudoknoten 18/49 Biologische Bedeutung der RNASekundärstruktur Eine exakte Kenntnis der RNA-Sekundärstruktur ist wichtig für die Beeinflussung von RNA-Molekülen mit nukleotidischen oder nicht-peptidischen Wirkstoffen. Bedeutend für das Verständnis der Prozesse wie das Spleißen (Entfernen der Intronen und Verbinden der Exonen) und die funktionale Rolle der rRNA in der Proteinsynthese. Notwendig für die Strukturanalyse der RNA-Moleküle z.B. bei Spektroskopie, Thermographie, chemisches und enzymatisches Probing, Gelelektrophorese, Röntgenstrukturanalyse. Hilfreich für die Vorhersage der Tertiärstruktur. 10.07.2003 1.3 Biologische Bedeutung der RNA-Sekundärstruktur 19/49 2. Techniken zur Visualisierung der RNA-Sekundärstruktur 2.1 Vorhersage der RNA-Sekundärstruktur 2.2 Repräsentation der RNA-Sekundärstruktur 2.3 Darstellung der H-Typ Pseudoknoten 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 20/49 Vorhersage der RNASekundärstruktur Problem: Berechnung der Sekundärstruktur aus einer (oder mehreren) Nucleotidsequenz(en). Die Anzahl der möglichen Sekundärstrukturen auf einem Molekül ist exponentiell in der Anzahl der Nucleotide! Deshalb werden „intelligente“ Verfahren gebraucht... 10.07.2003 2.1 Vorhersage der RNA-Sekundärstruktur 21/49 Verfahren zur Vorhersage der RNA-Sekundärstruktur Allgemeine Ansätze: (1) Ermittlung der Sekundärstruktur auf der Basis eines Sequenzvergleichs (2) Graphentheoretische Ansätze (3) Syntaxgesteuerter Ansatz (kontext-freie stochastische Grammatiken) (4) Optimierung einer heuristischen Energiefunktion (mittels Dynamisches Programmieren) 10.07.2003 2.1 Vorhersage der RNA-Sekundärstruktur 22/49 Bewertung der Verfahren (1) Vorteile: Gute Ergebnisse bei tRNAs und 5s-RNA, findet Pseudoknoten Nachteile: Mehrere Sequenzen notwendig, erfordert Multiples Alignment (2) Vorteile: Findet Pseudoknoten Nachteile: Mehrere Sequenzen notwendig, erfordert statistische Auswertung (3) Vorteile: Transparent, flexibel in der Anwendung Nachteile: Pseudoknoten können nicht mit kontext-freien Grammatiken beschrieben werden, solche Grammatiken haben ggf. sehr viele Produktionen (4) Vorteile: Benötigen nicht mehrere Sequenzen, kein multiples Alignment notwendig, akzeptable Zeit- und Speicherplatzkomplexität Nachteile: Pseudoknoten können nicht berechnet werden, Ergebnisse können ungenau sein 10.07.2003 2.1 Vorhersage der RNA-Sekundärstruktur 23/49 Repräsentation der RNASekundärstruktur Repräsentation der RNA-Sekundärstruktur durch: • Planare Graphen • • • • 10.07.2003 Bracket Dot - Notation Mountain Plot Dot Plot Bäume 2.2 Repräsentation der RNA-Sekundärstruktur 24/49 Graphen-Darstellungen (1) Klassische biologische Darstellung (Stem-loop representation) • Geordnete Menge von miteinander verbundenen Knoten stellt die RNASturktur dar • Knoten entsprechen Nucleotiden • Kanten, die nicht-adjazente Knoten verbinden stellen Basenpaarungen dar ( blau markiert ) Bewertung: Biologisch informativ und weit verbreitet. Zum Vergleich von mehreren Strukturen nicht besonders gut geeignet. 10.07.2003 RNA Visualization, Andreas De Stefani, Technische Universität Wien (modifiziert) 2.2 Repräsentation der RNA-Sekundärstruktur 25/49 Graphen-Darstellungen (2) Kreis–Darstellung (Circular representation) • Basen befinden sich auf der Kreislinie • Basenpaarungen werden durch Linien dargestellt Keine Überschneidungen, wenn keine Pseudoknoten in der Struktur vorkommen. Michael Gribskov : BIMM 140 - Lecture „Introduction to Bioinformatics“, University of California San Diego,2003 Bewertung: Ändert sich mit der Länge der RNA und wird selten verwendet. 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 26/49 Graphen-Darstellungen (3) Kuppel-Darstellung (Dome representation) • Nucleotide sind auf der Linie angeordnet • Baasenpaarung wird durch Kreisbögen symbolisiert Michael Gribskov : BIMM 140 - Lecture „Introduction to Bioinformatics“, University of California San Diego,2003 Bewertung: Schlecht für die Erkennung von Bulge-Schleifen. Wird selten benutzt. 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 27/49 Bracket Dot-Darstellung UUACGACUGACUACCAGUGCAUA Nucleotidsequenz: Sekundärstruktur in B. D.-Notation: .....((((.....)))).... . Eine Klammerung repräsentiert eine Basenpaarung und ein Punkt ein freies Nucleotid. Bewertung: Gut für die Speicherung im Computer aber nicht für einen visuellen Vergleich geeignet. 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 28/49 Mountain Plot-Darstellung Darstellung der Bracket Dot - Notation in einem Koordinatensystem: „(„ entspricht Steigung „)“ entspricht Gefälle „.“ entspricht Ebene Höhe des „Berges“ an einer Position, gibt die Anzahl der umschließenden Basenpaare wieder. http://www.cacr.caltech.edu/Publications/annreps/annrep95/fig/stolorz4.gif Bewertung: Besser als die B. D.-Notation für einen visuellen Vergleich geeignet. 10.07.2003 2.1 Repräsentation der RNA-Sekundärstruktur 29/49 Dot Plot-Darstellung • Mögliche Basenpaarungen werden durch Quadrate dargestellt, wobei die Größe eines Quadrates proportional zur Wahrscheinlichkeit ist (untere Dreiecksmatrix) • Darstellung der minimalen freien Energie der Struktur (obere Dreiecksmatrix) RNA Visualization, Andreas De Stefani, Technische Universität Wien (modifiziert) Bewertung: Erlaubt im Gegensatz zu bisher vorgestellten Repräsentationen die graphische Darstellung der freien Energie in der Struktur. 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 30/49 Baum-Darstellung Beispiel einer Baum-Darstellung: Es gibt viele Möglichkeiten die RNA-Sekundärstruktur als Baum darzustellen. http://www.massey.ac.nz/~ppgardne/results/review/node12.html 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 31/49 Fazit: Darstellungen der RNASekundärstruktur • Kompromiß zwischen klarer Darstellung der Sequenz und der Darstellung der Basenpaare • Darstellungen die beides versuchen sind unübersichtlich und eigenen sich somit nicht mehr für den Vergleich von mehreren RNA-Sekundärstrukturen • Pseudoknoten können nicht zufriedenstellend dargestellt werden 10.07.2003 2.2 Repräsentation der RNA-Sekundärstruktur 32/49 Darstellung der H-Typ Pseudoknoten Darstellung der Sekundärstruktur ohne Pseudoknoten im Sinne der Graphentheorie ist ein Baum Darstellung eines Pseudoknotens (blauer Pfeil) im Sinne der Graphentheorie ist ein Graph mit inneren Zyklen (und ggf. äußeren Zyklen = PK-Schleife) „PseudoViewer: automatic visualization of RNA pseudoknots“, K. Han Y. Lee & W. Kim, 2002 Ziel: Darstellung von H-Typ Pseudoknoten als planare Graphen 10.07.2003 2.3 Darstellung der H-Typ Pseudoknoten 33/49 Algorithmus von Han, Lee und Kim (PseudoViewer) Eingabe: Nucleotidsequenz inkl. Sekundärstrukturdaten Schritt 1: Extraktion der strukturellen Elemente aus der Eingabe Schritt 2: Konstruktion eines „abstrakten“ Baumes für die gesamte Struktur Schritt 3: Bestimmung der Größe und Form für jedes strukturelle Element Schritt 4: Positionierung jedes strukturellen Elementes, Ebene für Ebene durch Translationen und Rotationen Ausgabe: Darstellung der Sekundärstruktur inklusive H-Typ Pseudoknoten als planarer Graph 10.07.2003 2.3 Darstellung der H-Typ Pseudoknoten 34/49 Algorithmus von Han, Lee und Kim Bisherige Darstellung „PseudoViewer: automatic visualization of RNA pseudoknots“, K. Han Y. Lee & W. Kim, 2002 Neue Darstellung 10.07.2003 2.3 Darstellung der H-Typ Pseudoknoten 35/49 3. Lösungen zur Visualisierung der RNA-Sekundärstruktur 3.1 RnaViz2 3.2 PseudoViewer 3.3 Vergleich der beiden Programme 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 36/49 RnaViz2 3.1 RnaViz2 10.07.2003 37/49 RnaViz2 - Eigenschaften • Hybride Programmierung (C + Tcl/Tk) • Unterstützte Eingabeformate CT, DCSE und RNAML • Verwendet die Stem-loop Repräsentation • Mehrere Strukturen auf einer Seite darstellbar • Jede Struktur besteht aus einer Anzahl einzelner Objekte. Daher können einzelne Basen, Teilbereiche, Helices, Bäume oder Strukturen in ihrer Größe verändert, verschoben und gegen den Uhrzeigersinn gedreht werden, wobei der Rest der Struktur automatisch neu geordnet werden kann, um die korrekte Struktur beizubehalten. Zu jedem Objekt lassen sich die Eigenschaften, wie Schrift, Farbe, Größe etc. verändern und anpassen • Helices werden automatisch nummeriert. 3.1 RnaViz2 10.07.2003 38/49 RnaViz2 - Stärken • Leicht portierbar • Erkennt verschiedene Formate • Mehrere Strukturen auf einer Seite • Einfache und mächtige WYSIWYG-Editierung mit verschiedenen Auswahlmodi • Freie Auswahl der Schriften, Farben und Größen für jedes Objekt • Graphische Objekte (Rechtecke, ovale Linien, Text) für Kommentare • Unabhängiges Skalieren der Strukturzeichnung • Schablonen 3.1 RnaViz2 10.07.2003 39/49 RnaViz2 - Schwächen • Installation umständlich • Keine alternativen Ansichten, wie „dot plot“ etc. Nicht besonders gut geeignet für den Vergleich von verschiedenen Strukturen • Pseudoknoten schlecht darstellbar • Keine Randinformationen 3.1 RnaViz2 10.07.2003 40/49 PseudoViewer 3.2 PseudoViewer 10.07.2003 41/49 PseudoViewer - Eigenschaften • Webbasiert (Java) • Automatische Darstellung der H-Typ Pseudoknoten • Stellt nur H-Typ Pseudoknoten dar • Abschnitte und Schleifen rotierbar • Markierung der Struktur • Fensterunterteilung 3.2 PseudoViewer 10.07.2003 42/49 PseudoViewer - Stärken • Detaillierte Anzeige der Strukturdaten • Übersichtsfenster • Keine Kantenüberschneidungen • Automatische Nummerierung der Basenpaare und Markierung der PK-Schleifen. 3.2 PseudoViewer 10.07.2003 43/49 PseudoViewer - Schwächen • Nur H-Typ Pseudoknoten darstellbar • Kein Zugriff auf einzelne Objekte • Begrenzte Editiermöglichkeiten • Kein manuelles Zeichnen möglich • Keine Druckoption vorhanden 3.2 PseudoViewer 10.07.2003 44/49 Vergleich beider Programme Beide Programme verarbeiten Eingaben, die bereits Informationen über die Sekundärstruktur enthalten (Vorhersage der Sekundärstruktur muß schon vorher geschehen) RnaViz2 bietet zwar mehr Editiermöglichkeiten, kann im Gegensatz zum PseudoViewer nicht automatisch H-Typ Pseudoknoten visualisieren 3.3 Vergleich der beiden Programme 10.07.2003 45/49 4. Zusammenfassung • Biologische Grundlagen und Bedeutung der RNA und ihrer Sekundärstruktur • Vorhersage, Darstellung und Speicherung der RNASekundärstruktur • Lösungen zur automatischen Visualisierung der RNASekundärstruktur 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 46/49 5. Ausblick Automatische Visualisierung aller Pseudoknotentypen mit Möglichkeit der nachträglichen Bearbeitung der Struktur Automatische Visualisierung aller Pseudoknotentypen ist bereits realisiert: PseudoViewer 2 (Anfang 2003) 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 47/49 Vielen Dank für Eure Aufmerksamkeit ! 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 48/49 Vielen Dank für Eure Aufmerksamkeit ! Nun werden wir versuchen noch offengebliebene Fragen zu beantworten... 10.07.2003 Visualisierung der RNA-Sekundärstruktur Nikolaus Jeremic & Birger Krug 49/49