Lernmethoden Memetische Algorithmen Biologische Computer: DNA-Computing Erste praktische Anwendung Vor- und Nachteile von DNA-Computern Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 1 http://www.densis.fee.unicamp.br/~moscato/memetic_home.html Leonard M. Adleman, Molecular Computationof Solutionsto CombinatorialProblems,Science 226, 1994 Gheorghe Paun, Grzegorz Rozenberg, Arto Salomaa: DNA Computing: New Computing Paradigms. Texts in Theoretical Computer Science. An EATCS Series. Springer 1998. L.M. Adleman (1998), Rechnen mit DNA, Spektrum für Wissenschaft November 1998. J.Niehaus (1998), DNA-Computing: Bewertung und Simulation, Diplomarbeit am Fbi Universität Dortmund. U.Feldkamp (1999), DNA-sequenz-Compiler, Diplomarbeit am Fbi Universität Dortmund. Dr.R.Zimmer (1999), ein Universeller DNA-Computer, GMD-Spiegel 1999 http://de.wikipedia.org Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Was bedeutet Memetik? Nach Biologen R. Dawkins (The Selfisch Gene) gibt es neben der genetischen Evolution noch andere Formen In der menschlichen Kultur gibt es eine andere viel schnellere Form der Evolution: Die Evolution der Meme Meme: Einheiten von kultureller Wissenübermittlung Bsp.: Ideen, Melodien, Rezepte, Theorien usw. Replikation durch Immitation/Nachahmung Variation durch Erweiterung, Neukombination, Verbesserung Selektion durch Auswahl weniger Meme Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 2 Unterschiede zu EA/GA: Meme vs. Gene Sehr schnelle Evolution, kleine Populationen Variation beinhaltet Innovation Lernen zur Lebenszeit = lokale Suche Lernen und Evolution: Baldwinische Evolution: Lernen wirkt sich nicht auf Gene aus Lamarck‘sche Evolution: Lernen bewirkt Änderungen der Gene Historie: Brady, 1985: Erster MA (TSP) Moscato, 1989: Einführung des Begriffs Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Hybrider evolutionärer Algorithmus MA= EA+LS (Lokale Suche) Lokale Suche Prinzip: Idee: Variation: Alle Individuen in der Population stellen lokale Optima dar Erzeugung neuer Startposition für lokale Suche (Diversifikation) Lokale Suche: Intensifikation Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Lokale Suche 3 In itia lis ie re P o p u la tio n P g e n = 0; fo re a c h s ∈ P d o s = lo c a lS e a r c h ( s ); re p e a t P ' = 0; fo r i = 0 to n R e c o m b in a tio n s d o s a = s e le c t F o rV a ria tio n (P ); s * = r e c o m b in e ( s a , s b ); s b = s e le c tF o rV a ria tio n (P ); s * = lo c a lS e a r c h ( s * ); a d d s * to P ' e n d fo r fo r i = 0 to n M u ta tio n d o s = s e le c tF o rV a ria tio n (P ); s * = m u ta te ( s ); s * = lo c a lS e a r c h ( s * ); a d d s * to P ' e n d fo r P = s e le c tF o r S u r v iv a l(P , P '); g e n = g e n + 1; u n til g e n > g e n m a x Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 100.000-fach höhere Datendichte als traditionelle Datenträger 1 Basenpaar entspricht einer Raid-Einheit (Datensicherung aufgrund redundanter Information) Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 DNA ist Träger der Erbinformation DNA ist in nahezu allen Lebewesen zu finden Doppelhelicale Struktur Durch Basenpaarung redundante Information Datenträger 4 elementare Informationselemente (2 Purin und 2 Pyrimidin-Basen) 4 Doppelhelix Zucker-Phosphat Einheiten bilden das außen liegende Rückgrat der gewundenen Einzelstränge Pyrimidin- und Purin-Basen liegen im Inneren Basen sind durch Wasserstoffbrücken verbunden Basenpaare stehen senkrecht zur Helixachse Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 5 1936 Analyse des Begriffs der Berechenbarkeit (10 Jahre vor den ersten Computern) Church‘sche These: selbst einfache Rechenautomaten wie die Turing Maschine sind berechnungsuniversell Hypothetische Rechenmaschinen wurden erdacht Beispiel einer Turingmaschine: Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 in-vivo kopiert DNA-Polymerase die Basenabfolge in einen Komplementärstrang Turing-Maschine Church‘sche These MIT DNA LÄSST SICH RECHNEN ! Verfügbare Hilfsmittel spontane Paarung komplementärer Basen automatisierte DNA-Synthese und Analyse Molekularbiologische Verfahren: Enzymbaukasten: Polymerasen, Ligasen, . . . Gelelektrophorese Affinitätsprüfungen Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 6 Gabriella Kókai: Computational Intelligence DNA-Polymerase (polymerase chain reaction (PCR)): Hierbei wird die DNA Sequenz zunächst denaturiert. Anschließend werden die beiden Einzelsequenzen wieder mit ihrem Komplement zu einem Doppelstrang erweitert. Ligasen: Dieses Enzym verbindet hintereinanderliegende DNA-Stränge mit kovalenten Bindungen zu einer Längeren DNA-Sequenz. Nucleasen: auch Restrektionsenzyme genannt, zertrennen DNA-Stränge. Lehrstuhl für Informatik 2 Verschieden lange DNA-Moleküle auf einem Gel aufgetragen Zwischen den beiden Enden des Gels wird eine Spannung angelegt Da die DNA-Moleküle negativ geladen sind, bewegen sie sich auf die (positive) Anode zu. Dabei ist ihre Geschwindigkeit umgekehrt proportional zum Logarithmus ihrer Größe. Nach einiger Zeit sind die DNA-Moleküle, die ursprünglich alle an einer Stelle waren der Länge nach sortiert auf dem Gel verteilt. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 7 Hierbei wird die Folge einer DNA-Sequenz bestimmt. Zu diesem Zweck werden auf einem Glasträger (DNA-Chip oder Mikroarray) kurze DNA-Abschnitte (Oligonukleotide) in MatrixAnordnung fixiert. Die Fragmente der zu sequenzierenden DNA werden mit Farbstoffen markiert und das Fragmentgemisch wird auf der Oligonukleotidmatrix ausgebracht, so dass komplementäre fixierte und freie DNA-Abschnitte miteinander hybridisieren können. Nach dem Auswaschen ungebundener Fragmente lässt sich das Hybridisierungsmuster anhand der Farbmarkierungen und deren Stärke ablesen. Da die Sequenzen der fixierten DNA-Abschnitte und deren Überlappungsbereiche bekannt sind, kann man letztlich aus dem Farbmuster auf die zugrundeliegende Gesamtsequenz der unbekannten DNA rückschließen. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 das sequenzspezifische Schneiden durch Restriktionsenzyme. das spezifische Suchen, Identifizieren und Verbinden zweier (teilweise) komplementärer DNA-Moleküle durch Hybridisierung. das Verbinden (Ligieren) zweier DNA-Ketten durch DNA-Ligase. das gezielte Einsetzen von DNA-Stücken an definierten Stellen inein anderes DNA-Molekül (DNA-Rekombination). die exponentielle, automatisierte Vervielfältigung von DNA Molekülen durch die so genannte Polymerasekettenreaktion (PCR = Polymerase chain reaction). die automatisierte chemische Synthese gegebener DNA-Sequenzen. die Bestimmung (Sequenzierung) der Sequenz von DNA. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 8 Der Aufbau der DNA ist somit vergleichbar mit einem digitalen Datenträger, auf dem hintereinander verschiedene Dateien abgespeichert sind! Dadurch sind Computer auf molekularer Ebene denkbar, die die heutige Hardware an Speicherdichte, Energieausnutzung und Anzahl möglicher Rechenoperationen um mehrere Zehnerpotenzen übertreffen könnten. Die Idee ist, mit dem in Jahrmillionen von der Natur in der Evolution optimierten Genmaterial Information zu speichern und zu verarbeiten. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Leonard Adleman überraschte 1994 mit seinen in Science publizierten Experimenten selbst die Optimisten in der Fachwelt und regte zu einer neuen Realisierung von Berechnungen an. Er demonstrierte, dass chemische Einheiten von DNA Molekülen Information speichern und verarbeiten können. Das war der Startschuss für das interdisziplinäre Forschungsgebiet des DNA-Computing. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 9 Die Kapazität von DNA zur Informationsspeicherung kann potentiell in der Informations- und Computertechnologie eingesetzt werden: Ein Liter einer DNA Lösung, in der beispielsweise 6 Gramm DNA pro Liter mit 6 x 1019 Molekülen mit jeweils 200 Basenpaaren enthalten sind, entspricht einer theoretischen Speicherkapazität von 3 x 109 Terabyte. 3.000.000.000.000 GB Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Die älteste in der Paläobiologie identifizierte und analysierte DNA stammt von einem in Bernstein eingeschlossenen Insekt und ist circa 125 Millionen Jahre alt. Computerbänder aus den fünfziger Jahren sind schon heute meist unlesbar. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 10 Adleman löste 1994 ein kleines Hamilton-Pfad-Problem mit DNAMolekülen. Seitdem wurden auch andere Probleme mit DNA gelöst bzw. es wurde beschrieben, wie man diese Probleme mit DNA lösen kann. Im Bestreben, eine allgemeinere, d. h. nicht nur auf ein Problem zugeschnittene Verfahrensweise zum Rechnen mit DNA zu finden, wurden verschiedene Modelle aufgestellt. In den meisten Modellen (die zur Lösung von Suchproblemen entworfen wurden) lässt sich das Verfahren in zwei Phasen zerlegen: Eine Initialisierungsphase, in der DNA-Sequenzen erzeugt werden, die Lösungskandidaten für das zu lösende Problem kodieren. Eine Berechnungsphase, in der die „schlechten“ Kandidaten, d. h. diejenigen, die keine gültige Lösung darstellen, aussortiert werden. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Beispiel Hamilton‘sche Wege : einmaliger Besuch jeder Stadt bei kürzestem Weg Lösungsansatz: Gegeben ist ein Graph mit n Knoten: Erzeuge eine (große) Menge zufällig bestimmter Wege durch den Graphen. . Entferne nach und nach aus der Menge alle Wege, die nicht mit dem Startknoten anfangen und Zielknoten enden nicht genau n Knoten enthalten nicht außer Start- und Zielknoten auch jeden anderen Knoten enthalten Wenn die Wege-Menge, die jetzt noch übrig ist, nicht leer ist, gibt es einen Hamiltonschen Weg, wenn sie leer ist, gibt es keinen. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 11 Gesucht: Weg Atlanta Detroit jede Stadt durch Abfolge von 8 Basen kodiert: Beispiel: Atlanta: ACTTGCAG Boston: TCGGACTG Städteverbindungen: komplementäre Abfolge der letzten vier Basen des Ausgangsorts und der ersten 4 Basen des Zielorts: Beispiel: Atlanta Boston: CGTCAGCC Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Schritt 1: DNA-Synthese DNA-Sequenzen für Städte und Städteverbindungen werden maschinell synthetisiert automatisiert zuverlässig billig Schritt 2: Naßchemie im Reagenzglas Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 12 aber: hohe Selektivität der spontanen Basenpaarung Verknüpfung zweier Städte durch Verbindungswege Ligasen: Enzyme die zwei DNAStränge verknüpfen Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Gabriella Kókai: Computational Intelligence 0 ( * $ : $ $ * ) % ) 3 0 % = * # I J Lehrstuhl für Informatik 2 ! 1 ($ (% $ ; $ % = ? - 2 * > 6 $ ( * # 4 = $ 5 * & ' 2& 3 $ % * # $ . < 7 5 # (% ) ($ E " $ $ () $ 6 7 5 > 4 * * + 7 8 5 , - . () ) % / 9 (% ) * . $ F G * @ 6 H B 5 C A 7 8 9 7 B C D 7 8 5 5 * 13 Hydrolyse der Doppelhelix Vervielfältigung von Einzelsträngen mit richtigem Start und Zielort Gelelektrophorese zum Abtrennen der Reaktionsprodukte mit der richtigen Städteanzahl Affinitätsprüfung zum Nachweis des einmaligen Besuchs jeder Stadt Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Sequenzanalyse des durch Aufarbeitung isolierter DNAEinzelstränge Ergibt für das gezeigte Beispiel als Reiseroute: Atlanta – Boston – Chicago – Detroit Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 14 • Melting Trennung der Doppelhelix • Hinzugabe von Sequenzen der Start- und Endknoten als Primer • DNA-Polymerase vermehrt die DNA-Sequenzen unterschiedlich: • Mit Start- und Endknoten exponentiell • Mit Start- oder Endknoten verdoppelt • Mit keiner Entsprechung gar nicht • Nach mehren Zyklen des Erwärmens, Abkühlens und Vermehrens wird eine Probe entnommen, die jetzt fast nur noch Pfade einen richtigen Start- und Zielknoten enthält. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 • Ein richtiger Pfad muß genau 140 bp (=Basenpaare) lang sein ↔ 7 Knoten a‘ 20 Basenpaaren • DNA-Sequenzen laufen elektrophoretisch über ein Agarose-Gel Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 15 •Wiederholung für alle Knoten mit entsprechenden Sonden •Melting, damit DNA-Einzelstränge vorliegen • Einbringung von Eisensonden mit Komplementstrang eines Knoten • Durch Anbringung eines Magneten bleiben alle Moleküle haften, die diesen Knoten enthalten • Abgießen der Lösung und neue Lösung ansetzen • Melting trennt Stränge von Sonden • Abgießen der Lösung in ein neues Reagenzglas Falls noch DNA vorhanden ist, muß muß das die Lö Lösung des Problems sein. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Eisenkugel Sonden-DNA Enthaltener Knoten Nicht passende DNA Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 16 Alle Pfade Alle Pfade mit vS und vE Alle Pfade mit der Länge |V| Knoten 1 enthalten Knoten 2 enthalten Knoten n enthalten = Lösungsmenge Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Hardware: Für die eigentliche Berechnung: Ligase, DNA Zur Synthese und Analyse: DNA-Synthesizer, DNA-Analyzer, vielfältige Reinigungsverfahren der Biochemie, Computer Software: DNA Vorteile des DNA-Computers hohe Rechengeschwindigkeit durch massiv parallele Datenverarbeitung hohe Informationsdichte: 1g DNA entspricht 1.000.000.000.000 CD‘s hohe Energieeffizienz Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 17 kein kontinuierlicher Rechenbetrieb Extrem langwierige Aufbereitung zur Ermittlung der Rechenergebnisse Naßchemie des Berechnungsvorgangs: Fehleranfällig, DNA ist nicht unveränderlich (Mutation als Voraussetzung für Evolution) Die Berechnungszeit zur Lösung eines Problems wächst in DNA-Computern nicht exponentiell aber die Menge benötigter DNA tut es! Hamilton’scher Wege im Falle 200 Städte: notwendige DNAMenge ist mit der Erdmasse vergleichbar! Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 An fehlerhaften Anlagerungen können Verschiebungen der Einzelstränge oder Teile dieser gegeneinander auftreten (shifts), sowie Schlaufen (loops) und Ausbuchtungen (bulges). Außerdem können Fehler bei der PCR Reaktion auftreten, dort können falsche Basen angefügt werden (Wahrscheinlichkeit =10-5 bis 10-6 ). Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 18 Vermeidung der Naßchemie und Reduktion des Aufarbeitungsaufwandes durch Chips mit DNASträngen, die selektiv die Rechenlösung binden Automatisierung der Aufarbeitung durch Fortschritte in DNA-Aufarbeitung und DNA-Manipulation allgemeine Fortschritte in der Nanotechnologie durch interdisziplinäre Zusammenarbeit in der weiteren Entwicklung von DNA-Computern Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 Rechengeschwindigkeit: Theoretisch sind etwa 6 x 1019 Operationen pro Minute möglich, das sind pro Sekunde etwa 1 Million TeraOperationen. Dagegen erreichen die leistungsfähigsten Supercomputer kaum Tera- Operationen pro Sekunde. Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 19 DNA-Computer: innovativer Denkansatz praktisch noch nicht anwendbar neue Impulse für die Nanotechnologie Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 # & ' ! $ * + , - B C Z 7 ; 9 D E ! F G 8 / ./ + , ) 0 1 + / 23 + , 4 5 H D E [ 8 4 / ; , I J I F K 7 8 L \ + , 2; 1 5 6 21 9 8 , M N J OP 6 7 8 21 9 ! $ ( " # 8 , 3 L ; : J H I ] ^ _ D !" R N 5 : ; < , 3 + 1 Q 8 , Gabriella Kókai: Computational Intelligence Lehrstuhl für Informatik 2 ; : J = Q " ! ! % 2> 24 8 . 5 L S T ? @ A A I R FU I V N Q W X D I J K Y ? @ ` a 20