3. Konzepte des DNA Computing Naturwissenschaftlich motivierte formale Modelle Henning Bordihn Genchips • Ab der Intrepid-Klasse: Bionukleare Gelpacks • Realität?: • zur Genanalyse eingesetzt • gesundes vs. krankes Gewebe • unbehandelt vs. behandelt • Wildtyp vs. Mutant • Realisierung von Mikroarrays • tragen Millionen Polymere Henning Bordihn Konzepte des DNA Computing 2 Was ist DNA Computing? • Computing: algorithmische Überführung von Eingabe- in Ausgabedaten • DNA-Computing: – Eingabe- und Ausgabedaten werden in DNA-Molekülketten kodiert – algorithmische Schritte sind Operationen, die DNA-Molekülketten manipulieren • Miniaturisierung durch Übergang auf die molekulare Ebene – DNA-Computing – Quantum-Computing Henning Bordihn Konzepte des DNA Computing 3 Facetten des DNA Computing • in vivo: DNA-Operationen in der lebenden Zelle – Erkennen von Zusammenhängen • in vitro: DNA-Operationen außerhalb der lebenden Zelle – Nachahmung der in-vivo-Operationen unter Laborbedingungen • in ratione: mathematische Konzepte – durch DNA-Operationen inspiriert • in silico: Realisierung solcher Konzepte mit herkömmlichen Methoden der Informatik Henning Bordihn Konzepte des DNA Computing 4 3.1 Struktur und grundlegende Eigenschaften von DNA Henning Bordihn Konzepte des DNA Computing 5 DNA-Stränge gewundene Doppelhelix, bestehend aus: • • • • Adenin- (A), Cytosin- (C), Guanin- (G), Thymin- (T) Nukleotiden Henning Bordihn Konzepte des DNA Computing 6 Chemische Struktur eines Nukleotids [PRS 98] Phosphat Henning Bordihn Zucker Konzepte des DNA Computing Base (hier: Thymin) 7 Schematische Darstellung eines Nukleotids [PRS 98] Phosphat Base Henning Bordihn Konzepte des DNA Computing 8 Phosphodiesterbindung [PRS 98] chemisch starke Bindung zwischen zwei Nukleotiden Henning Bordihn Konzepte des DNA Computing 9 Phosphodiesterbindung [PRS 98] Leserichtung Repräsentation eines DNA-Einzelstrangs als String: 5‘ACG3‘ Nukleotidsequenz Henning Bordihn Konzepte des DNA Computing 10 Wasserstoffbindung [PRS 98] chemisch schwache Bindung zwischen zwei Nukleotiden Watson-CrickKomplementarität: entweder B1 = A und B2 = T oder B1 = C und B 2 = G Henning Bordihn Konzepte des DNA Computing 11 Bildung eines Doppelstrangs [PRS 98] Henning Bordihn Konzepte des DNA Computing 12 3.2 Einige DNA-Operationen Henning Bordihn Konzepte des DNA Computing 13 DNA-Replikation (in vivo) • Trennung des DNA-Doppelstrangs in Einzelstränge durch Lösen der Wasserstoff-Bindungen • Ergänzen der Einzelstränge auf Basis der Watson-Crick-Komplementarität • Operationen können in vitro nachgeahmt werden Henning Bordihn Konzepte des DNA Computing 14 Denaturieren - Renaturieren Temperaturerhöhung: Denaturierung/Melting Henning Bordihn langsames Abkühlen: Renaturierung/Annealing Konzepte des DNA Computing 15 DNA-Verlängerung • Voraussetzungen: 1. ein DNA-Einzelstrang (Template) 2. ein am 3‘-Ende des Templates bereits gebundenes Anfangsstück (Primer) 3. genügend viele Nukleotide in der Lösung 4. Enzym Polymerase (katalysiert Anbindung von Nukleotiden am freien 3‘-Ende) 5‘ 3‘ 5‘ 3‘ CGG CGGA GCCTGAACCA GCCTGAACCA 3‘ Henning Bordihn 5‘ 3‘ Konzepte des DNA Computing … 5‘ 3‘ CGGACTTGGT GCCTGAACCA 5‘ 3‘ 5‘ 16 Filtern von DNA-Strängen • Lösung S mit DNA-Polymeren (Einzelsträngen) • Ziel: Ausfiltern (Entfernen) von allen Polymeren α • Methode: (stark vereinfacht) 1. Filter mit Komplementär-Polymeren ᾱ präparieren 2. S durch Filter geben + Annealing • Ergebnis: 1. Lösung S‘ (ohne α) 2. Polymere α (nach Denaturieren vom Filter) • verfeinerte Varianten existieren Henning Bordihn Konzepte des DNA Computing 17 Gel-Elektrophorese http://www.egbeck.de/skripten/13/bs13-11.htm Henning Bordihn Konzepte des DNA Computing 18 3.3 Experimente in vitro Henning Bordihn Konzepte des DNA Computing 19 Prinzipielles Vorgehen in vitro • gegeben: Instanz eines Berechnungsproblems • Kodierung der Instanz mit Hilfe von DNA-Sequenzen • Lösung des Problems durch geeignete Folge von DNA-Operationen (DNA-Algorithmus) • Auslesen der Problemlösung – Frage nach der Existenz einer bestimmten DNA-Sequenz • besonders interessant für Probleme mit sehr hoher Komplexität Henning Bordihn Konzepte des DNA Computing 20 Das Hamilton-Pfad-Problem Gegeben: Frage: gerichteter Graph G und zwei seiner Knoten s und t Gibt es einen Pfad von s nach t, der jeden Knoten von G genau einmal enthält? Das Hamilton-Pfad-Problem ist NP-vollständig! Alle bekannten (herkömmlichen) Algorithmen basieren auf vollständigem Durchmustern aller Lösungsmöglichkeiten (exponentielle Laufzeit). Es ist unwahrscheinlich, dass effizientere Algorithmen gefunden werden. Henning Bordihn Konzepte des DNA Computing 21 Der Graph in Adlemans Experiment s Henning Bordihn t Konzepte des DNA Computing 22 Der Graph in Adlemans Experiment 4 3 1 0 6 2 5 Hamilton-Pfad: 0, 1, 2, 3, 4, 5, 6 Henning Bordihn Konzepte des DNA Computing 23 Adlemans Lösung Sei G gerichteter Graph mit n Knoten, darunter s und t. 1. Erzeugen von Kodierungen zufällig gewählter Pfade in G in sehr großer Anzahl . 2. Massives Vermehren von Pfaden, die in s beginnen und t _ enden (Polymerase-Kettenreaktion mit s bzw. t als Primer). Ausfiltern aller Pfade, die nicht in s beginnen und t enden. 3. Filtere alle Pfade aus, die nicht genau n Knoten enthalten (Gel-Elektrophorese). 4. Für jeden der n Knoten v filtere alle Pfade aus, die v nicht enthalten. 5. Ja, falls ein Pfad verbleibt, sonst Nein. Henning Bordihn Konzepte des DNA Computing 24 Adlemans Experiment - Diskussion • Laufzeit (in Anzahl der Operationen): O(n) – Durchmustern erfolgt massiv parallel – kein Beweis für P = NP ! • reale Laborzeit: ca. 7 Tage – z.B. Vorbereitung der Filter – verbesserbar, z.B. durch teilweise Automatisierung • Anzahl der benötigten Moleküle wächst rasant – Anzahl abhängig von Fehlerrate der Operationen – Undurchführbarkeit schon bei realistischen Problemgrößen • zeigt prinzipielle Machbarkeit – Inspiration von vielen neuen Berechnungsmodellen Henning Bordihn Konzepte des DNA Computing 25 Weitere Erfolge (und Probleme) • DNA-Algorithmus für das SAT-Problem [L] • DNA-Algorithmus, der den DES-Code knackt [ARRW] – Ermittlung gültiger Schlüssel durch massive Suche – Faktor Effizienz: ca. 5 Tage bei 1 s pro Operation, realistischer: ca. 18 Jahre bei 1 Tag pro Operation – Faktor Fehlerrate: ca. 1,4 g DNA bei Fehlerrate 10 -4 , ca. 23 Erdmassen DNA bei 10 -2 • Ausnutzung weiterer Operationen/Enzyme – „Werkzeugkasten“ – Beispiel: Hybridisation Henning Bordihn Konzepte des DNA Computing 26 „Cut-and-Paste“ von DNA • Cut: Lösen der Phosphodiester-Bindung innerhalb bestimmter Nukleotid-Sequenzen – verschiedene Enzyme zerstören die starke chemische Bindung – Enzym bestimmt Position und Art des „Schnitts“ 5‘ 3‘ x1 CCGG GGCC 3‘ Hpa II 5‘ x1 x2 5‘ Ligase 3‘ 3‘ 5‘ C CGG GGC C 5‘ 3‘ 3‘ x2 5‘ • Paste: Verbindung zwischen der Phosphorgruppe an 5‘ und der OH-Gruppe an 3‘ (Ligation) – Enzym: Ligase Henning Bordihn Konzepte des DNA Computing 27 Hybridisation 5‘ 5‘ 3‘ CCGG GGCC x1 (Beispiel) x2 3‘ 3‘ y1 CCGG GGCC 3‘ 5‘ 5‘ Hpa II 5‘ Hpa II 5‘ C CGG GGC C 3‘ 5‘ 3‘ 3‘ x1 3‘ y2 5‘ x2 y1 5‘ 3‘ 5‘ 3‘ C CGG GGC C 3‘ 5‘ 3‘ y 2 5‘ H-Bindung + Ligase 5‘ 3‘ x1 3‘ Henning Bordihn CCGG GGCC 5‘ y2 3‘ y1 5‘ 3‘ Konzepte des DNA Computing CCGG GGCC x2 5‘ 28 3.4 Abstraktion – von in vitro zu in ratione Henning Bordihn Konzepte des DNA Computing 29 Splicing-Systeme – Idee (1) • • • • Tom Head (1987) verallgemeinert enzymatisches „Cut-and-Paste“ Axiome (anfängliche Strings) über einem Alphabet Regeln: Festlegung der Teilstrings, auf die spaltende Enzyme wirken 5‘ 3‘ x1 CCGG GGCC x2 3‘ 5‘ 3‘ 5‘ x1 x1 u1 z u 2 x 2 3‘ 5‘ C CGG GGC C 3‘ Henning Bordihn 5‘ 3‘ x2 x1 C CG G x 2 (C,CG,G) 5‘ Konzepte des DNA Computing 30 Splicing-Systeme – Idee (2) • Strings nach „Cut“ gemäß (u1,CG,u2) rekombinieren mit 3‘ 5‘ x1 5‘ y1 Strings nach „Cut“ gemäß (v1 ,CG,v2 ), 3‘ C CGG GGC C 5‘ 3‘ 3‘ 5‘ 3‘ 3‘ 5‘ T CGA GGC T x 2 5‘ 3‘ y 2 5‘ 5‘ 3‘ immer wenn CG am 5‘-Ende frei ist • Regeln sind Paare ((u1,z,u2), (v1,z,v2)) oder ((u, u‘), (v, v‘)) Henning Bordihn Konzepte des DNA Computing mit u = u1, u‘ = zu2 , v = v1 , v‘ = zv2 31 Splicing-Systeme - formal • G = (V, A, R) – V Alphabet, #, $ V – A V * (Menge der Axiome) – R Menge von Regeln der Form r = u1#u2$u3#u4 (ui V *) • (x,y) z gdw. x = x 1 u 1 u 2 x2 , r y = y1 u3 u4 y2 , z = x1 u 1 u 4 y2 . Henning Bordihn Konzepte des DNA Computing x1 u1 u2 x2 y1 u 3 u4 y2 x1 u 1 u4 y2 32 Sprachen von Splicing-Systemen • G = (V, A, R) • nicht iteriertes Splicing: L(G) = { z V * | (x, y) z, x, y A, r R } r ℒ 1( ℑ, ℛ ) = { L(G) | G = (V, A, R) mit A ℑ, R ℛ } ( ℑ, ℛ Sprachfamilien) Henning Bordihn Konzepte des DNA Computing 33 Splicing-Systeme - Einordnung ℒ1( ℑ, ℛ ) : ℛ FIN REG LIN CF CS RE FIN FIN FIN FIN FIN FIN FIN REG REG REG REG,RE REG,RE LIN LIN,CF LIN,CF RE RE RE RE CF CF CF RE RE RE RE CS RE RE RE RE RE RE RE RE RE RE RE RE RE ℑ Henning Bordihn REG,LIN REG,CF Konzepte des DNA Computing 34 Splicing-Systeme - Erweiterungen • Iteration ℑ – bei Vorhandensein gewisser Enzyme (u.a. Ligase): Splicing Prozess stoppt nicht – Rekombinate als neue Ausgangsprodukte • Hilfssymbole – realisierbar durch Filtern – theoretisch interessante Resultate Henning Bordihn Konzepte des DNA Computing 35 Iteriertes Splicing ℋ ( ℑ, ℛ ) : ℛ ℑ FIN FIN REG FIN,REG FIN,RE LIN CF CS RE FIN,RE FIN,RE FIN,RE FIN,RE REG REG REG,RE REG,RE REG,RE REG,RE REG,RE LIN LIN,CF LIN,RE LIN,RE LIN,RE LIN,RE LIN,RE CF CF CF,RE CF,RE CF,RE CF,RE CF,RE CS CS,RE CS,RE CS,RE CS,RE CS,RE CS,RE RE RE RE RE RE RE RE Henning Bordihn Konzepte des DNA Computing 36 Iteriertes Splicing mit Hilfssymbolen ℇℋ ( ℑ, ℛ ) : ℛ FIN REG LIN CF CS RE FIN REG RE RE RE RE RE REG REG RE RE RE RE RE LIN LIN,CF RE RE RE RE RE CF CF RE RE RE RE RE CS RE RE RE RE RE RE RE RE RE RE RE RE RE ℑ Henning Bordihn Konzepte des DNA Computing 37 3.5 Noch einmal in vivo Können lebende Zellen rechnen? Henning Bordihn Konzepte des DNA Computing 38 Wimperntierchen (Ciliate) • Einzeller • zwei verschiedene Zellkerne: 1. Mikronukleus - steuert die Fortpflanzung 2. Makronukleus - steuert das Soma der Zelle - löst sich während der Zellteilung auf - wird aus Mikronukleus neu gebildet Henning Bordihn Konzepte des DNA Computing 39 DNA-Struktur bei Ciliaten • im Mikronukleus: – MDS-Stücke (macronuclear destined sequences): speichern die eigentliche genetische Information – IES (internally eliminated sequences): ohne genetische Information; separieren MDS-Teile Mi 1 Mi 3 Mi 2 … M2 • im Makronukleus: Mk … – nur MDS, „sortiert“ M1 Henning Bordihn Mi k Konzepte des DNA Computing Mk - 1 40 MDS-Struktur M2 Mk … M1 pi Mi : pi Pointer Henning Bordihn mi Mk - 1 pi + 1 pi + 1 M i + 1: pi + 1 pi + 1 mi pi + 2 pi + 2 übereinstimmende Pointer Konzepte des DNA Computing 41 MDS im Mikronukleus pi mi pi pi pi pi + 1 IES pi + 1 mi pi + 1 pi + 1 pi + 1 pi + 1 mi mi pi + 2 pi + 2 pi + 2 pi + 2 Funktioniert bei direkter Wiederholung der Pointer. Umordnungen und Spiegelungen sind erforderlich. Henning Bordihn Konzepte des DNA Computing 42 Die Assembly-Operationen 1. ld (loop, direct repeat)-excision 2. hi (hairpin, inverted repeat)-excision/reinsertion 3. dlad (double loop, alternating direct repeat)excision/reinsertion Genügen, um den Makronukleus aus dem Mikronukleus zu generieren. Henning Bordihn Konzepte des DNA Computing 43 ld - Operation [EPPR] Henning Bordihn Konzepte des DNA Computing 44 hi - Operation [EPPR] Henning Bordihn Konzepte des DNA Computing 45 dlad - Operation [EPPR] Henning Bordihn Konzepte des DNA Computing 46 Die Herausforderung • Entdecken eines neuen, weiteren Verständnisses von Berechenbarkeit / Computation • Wahrnehmen der uns umgebenden Welt im Sinne der Informationsverarbeitung • „Biology and Computer Science – life and computation are related. I am confident that at their interface great discoveries await whose who seek them.“ (Adelman 1998) Henning Bordihn Konzepte des DNA Computing 47 Referenzen [A] L. M. Adleman: Molecular computation of solutions to combinatorial problems. Science, 226 (1994), 1021–1024. [ARRW] L. M. Adleman, P. W. K. Rothemund, S. Roweiss, E. Winfree: On applying molecular computation to the Data Encrypted Standard. In E. Baum et al. (Hrsg.): DNA Based Computers. Proc. Second Annual Meeting, Princton, 1996. [EPPR] A. Ehrenfeucht, I. Petre, D.M. Prescott, G. Rozenberg: Universal ans Simple Operations for Gene Assembly in Ciliates. Where Mathematics, Computer Science, Linguistics and Biology Meet. Kluwer Academic Publishers, Norwell, MA 2001. [L] R. J. Lipton: Using DNA to solve NP-complete problems. Science, 268 1995), 542-545. [PRS] Gh. Păun, G. Rozenberg, A. Salomaa: DNA Computing. New Computing Paradigms. Springer-Verlag, Berlin – Heidelberg, 1998. Henning Bordihn Konzepte des DNA Computing 48 Vielen DNAk DANk ! Henning Bordihn Konzepte des DNA Computing 49