1 Lernmethoden Biologische Computer: DNA

Werbung
Lernmethoden
Memetische Algorithmen
Biologische Computer: DNA-Computing
Erste praktische Anwendung
Vor- und Nachteile von DNA-Computern
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
1
http://www.densis.fee.unicamp.br/~moscato/memetic_home.html
Leonard M. Adleman, Molecular Computationof Solutionsto
CombinatorialProblems,Science 226, 1994
Gheorghe Paun, Grzegorz Rozenberg, Arto Salomaa: DNA Computing: New
Computing Paradigms. Texts in Theoretical Computer Science. An EATCS
Series. Springer 1998.
L.M. Adleman (1998), Rechnen mit DNA, Spektrum für Wissenschaft
November 1998.
J.Niehaus (1998), DNA-Computing: Bewertung und Simulation, Diplomarbeit
am Fbi Universität Dortmund.
U.Feldkamp (1999), DNA-sequenz-Compiler, Diplomarbeit am Fbi
Universität Dortmund.
Dr.R.Zimmer (1999), ein Universeller DNA-Computer, GMD-Spiegel 1999
http://de.wikipedia.org
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Was bedeutet Memetik?
Nach Biologen R. Dawkins (The Selfisch Gene) gibt es neben der
genetischen Evolution noch andere Formen
In der menschlichen Kultur gibt es eine andere viel schnellere Form der
Evolution: Die Evolution der Meme
Meme:
Einheiten von kultureller Wissenübermittlung
Bsp.: Ideen, Melodien, Rezepte, Theorien usw.
Replikation durch Immitation/Nachahmung
Variation durch Erweiterung, Neukombination, Verbesserung
Selektion durch Auswahl weniger Meme
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
2
Unterschiede zu EA/GA:
Meme vs. Gene
Sehr schnelle Evolution, kleine Populationen
Variation beinhaltet Innovation
Lernen zur Lebenszeit = lokale Suche
Lernen und Evolution:
Baldwinische Evolution: Lernen wirkt sich nicht auf Gene aus
Lamarck‘sche Evolution: Lernen bewirkt Änderungen der Gene
Historie:
Brady, 1985: Erster MA (TSP)
Moscato, 1989: Einführung des Begriffs
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Hybrider evolutionärer
Algorithmus
MA= EA+LS (Lokale Suche)
Lokale Suche
Prinzip:
Idee:
Variation:
Alle Individuen in der
Population stellen lokale
Optima dar
Erzeugung neuer Startposition
für lokale Suche
(Diversifikation)
Lokale Suche: Intensifikation
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Lokale Suche
3
In itia lis ie re P o p u la tio n P g e n = 0;
fo re a c h s ∈ P d o s = lo c a lS e a r c h ( s );
re p e a t
P ' = 0;
fo r i = 0 to n R e c o m b in a tio n s d o
s a = s e le c t F o rV a ria tio n (P );
s * = r e c o m b in e ( s a , s b );
s b = s e le c tF o rV a ria tio n (P );
s * = lo c a lS e a r c h ( s * );
a d d s * to P '
e n d fo r
fo r i = 0 to n M u ta tio n d o
s = s e le c tF o rV a ria tio n (P ); s * = m u ta te ( s );
s * = lo c a lS e a r c h ( s * ); a d d s * to P '
e n d fo r
P = s e le c tF o r S u r v iv a l(P , P ');
g e n = g e n + 1;
u n til g e n > g e n m a x
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
100.000-fach höhere Datendichte als traditionelle
Datenträger
1 Basenpaar entspricht einer Raid-Einheit
(Datensicherung aufgrund redundanter Information)
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
DNA ist Träger der Erbinformation
DNA ist in nahezu allen Lebewesen zu finden
Doppelhelicale Struktur
Durch Basenpaarung redundante Information
Datenträger
4 elementare Informationselemente (2 Purin und 2
Pyrimidin-Basen)
4
Doppelhelix
Zucker-Phosphat Einheiten
bilden das außen liegende
Rückgrat der gewundenen
Einzelstränge
Pyrimidin- und Purin-Basen
liegen im Inneren
Basen sind durch
Wasserstoffbrücken verbunden
Basenpaare stehen senkrecht zur
Helixachse
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
5
1936 Analyse des Begriffs der Berechenbarkeit
(10 Jahre vor den ersten Computern)
Church‘sche These: selbst einfache Rechenautomaten wie die
Turing Maschine sind berechnungsuniversell
Hypothetische Rechenmaschinen wurden erdacht
Beispiel einer Turingmaschine:
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
in-vivo kopiert DNA-Polymerase die Basenabfolge
in einen Komplementärstrang
Turing-Maschine
Church‘sche These
MIT DNA LÄSST SICH RECHNEN !
Verfügbare Hilfsmittel
spontane Paarung komplementärer Basen
automatisierte DNA-Synthese und Analyse
Molekularbiologische Verfahren:
Enzymbaukasten: Polymerasen, Ligasen, . . .
Gelelektrophorese Affinitätsprüfungen
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
6
Gabriella Kókai: Computational Intelligence
DNA-Polymerase (polymerase chain reaction (PCR)):
Hierbei wird die DNA Sequenz zunächst denaturiert.
Anschließend werden die beiden Einzelsequenzen wieder mit ihrem
Komplement zu einem Doppelstrang erweitert.
Ligasen:
Dieses Enzym verbindet hintereinanderliegende DNA-Stränge mit
kovalenten Bindungen zu einer Längeren DNA-Sequenz.
Nucleasen:
auch Restrektionsenzyme genannt, zertrennen DNA-Stränge.
Lehrstuhl für Informatik 2
Verschieden lange DNA-Moleküle auf einem
Gel aufgetragen
Zwischen den beiden Enden des Gels wird
eine Spannung angelegt
Da die DNA-Moleküle negativ geladen sind,
bewegen sie sich auf die (positive) Anode zu.
Dabei ist ihre Geschwindigkeit umgekehrt
proportional zum Logarithmus ihrer Größe.
Nach einiger Zeit sind die DNA-Moleküle,
die ursprünglich alle an einer Stelle waren der
Länge nach sortiert auf dem Gel verteilt.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
7
Hierbei wird die Folge einer DNA-Sequenz bestimmt.
Zu diesem Zweck werden auf einem Glasträger (DNA-Chip oder
Mikroarray) kurze DNA-Abschnitte (Oligonukleotide) in MatrixAnordnung fixiert.
Die Fragmente der zu sequenzierenden DNA werden mit Farbstoffen
markiert und das Fragmentgemisch wird auf der Oligonukleotidmatrix
ausgebracht, so dass komplementäre fixierte und freie DNA-Abschnitte
miteinander hybridisieren können.
Nach dem Auswaschen ungebundener Fragmente lässt sich das
Hybridisierungsmuster anhand der Farbmarkierungen und deren Stärke
ablesen.
Da die Sequenzen der fixierten DNA-Abschnitte und deren
Überlappungsbereiche bekannt sind, kann man letztlich aus dem Farbmuster
auf die zugrundeliegende Gesamtsequenz der unbekannten DNA
rückschließen.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
das sequenzspezifische Schneiden durch Restriktionsenzyme.
das spezifische Suchen, Identifizieren und Verbinden zweier
(teilweise) komplementärer DNA-Moleküle durch Hybridisierung.
das Verbinden (Ligieren) zweier DNA-Ketten durch DNA-Ligase.
das gezielte Einsetzen von DNA-Stücken an definierten Stellen inein
anderes DNA-Molekül (DNA-Rekombination).
die exponentielle, automatisierte Vervielfältigung von DNA
Molekülen durch die so genannte Polymerasekettenreaktion (PCR =
Polymerase chain reaction).
die automatisierte chemische Synthese gegebener DNA-Sequenzen.
die Bestimmung (Sequenzierung) der Sequenz von DNA.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
8
Der Aufbau der DNA ist somit vergleichbar mit einem
digitalen Datenträger, auf dem hintereinander verschiedene
Dateien abgespeichert sind!
Dadurch sind Computer auf molekularer Ebene denkbar,
die die heutige Hardware an Speicherdichte,
Energieausnutzung und Anzahl möglicher
Rechenoperationen um mehrere Zehnerpotenzen
übertreffen könnten.
Die Idee ist, mit dem in Jahrmillionen von der Natur in der
Evolution optimierten Genmaterial Information zu
speichern und zu verarbeiten.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Leonard Adleman überraschte 1994 mit seinen in Science
publizierten Experimenten selbst die Optimisten in der
Fachwelt und regte zu einer neuen Realisierung von
Berechnungen an.
Er demonstrierte, dass chemische Einheiten von DNA
Molekülen Information speichern und verarbeiten können.
Das war der Startschuss für das interdisziplinäre
Forschungsgebiet des DNA-Computing.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
9
Die Kapazität von DNA zur Informationsspeicherung kann
potentiell in der Informations- und Computertechnologie
eingesetzt werden:
Ein Liter einer DNA Lösung, in der beispielsweise 6
Gramm DNA pro Liter mit 6 x 1019 Molekülen mit jeweils
200 Basenpaaren enthalten sind, entspricht einer
theoretischen Speicherkapazität von 3 x 109 Terabyte.
3.000.000.000.000 GB
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Die älteste in der Paläobiologie
identifizierte und analysierte DNA
stammt von einem in Bernstein
eingeschlossenen Insekt und ist
circa 125 Millionen Jahre alt.
Computerbänder aus den fünfziger
Jahren sind schon heute meist
unlesbar.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
10
Adleman löste 1994 ein kleines Hamilton-Pfad-Problem mit DNAMolekülen.
Seitdem wurden auch andere Probleme mit DNA gelöst
bzw. es wurde beschrieben, wie man diese Probleme mit DNA lösen kann.
Im Bestreben, eine allgemeinere, d. h. nicht nur auf ein Problem
zugeschnittene Verfahrensweise zum Rechnen mit DNA zu finden, wurden
verschiedene Modelle aufgestellt.
In den meisten Modellen (die zur Lösung von Suchproblemen entworfen
wurden) lässt sich das Verfahren in zwei Phasen zerlegen:
Eine Initialisierungsphase, in der DNA-Sequenzen erzeugt werden, die
Lösungskandidaten für das zu lösende Problem kodieren.
Eine Berechnungsphase, in der die „schlechten“ Kandidaten, d. h.
diejenigen, die keine gültige Lösung darstellen, aussortiert werden.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Beispiel Hamilton‘sche Wege :
einmaliger Besuch
jeder Stadt bei kürzestem Weg
Lösungsansatz: Gegeben ist ein Graph mit n Knoten:
Erzeuge eine (große) Menge zufällig bestimmter Wege durch den
Graphen.
. Entferne nach und nach aus der Menge alle Wege, die
nicht mit dem Startknoten anfangen und Zielknoten enden
nicht genau n Knoten enthalten
nicht außer Start- und Zielknoten auch jeden anderen Knoten
enthalten
Wenn die Wege-Menge, die jetzt noch übrig ist, nicht leer ist, gibt
es einen Hamiltonschen Weg, wenn sie leer ist, gibt es keinen.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
11
Gesucht: Weg Atlanta Detroit
jede Stadt durch Abfolge von 8 Basen kodiert:
Beispiel: Atlanta: ACTTGCAG
Boston: TCGGACTG
Städteverbindungen: komplementäre Abfolge der letzten vier Basen
des Ausgangsorts und der ersten 4 Basen des Zielorts:
Beispiel: Atlanta
Boston: CGTCAGCC
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Schritt 1: DNA-Synthese
DNA-Sequenzen für Städte und Städteverbindungen werden
maschinell synthetisiert
automatisiert
zuverlässig
billig
Schritt 2: Naßchemie
im Reagenzglas
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
12
aber: hohe Selektivität der spontanen
Basenpaarung
Verknüpfung zweier Städte durch
Verbindungswege
Ligasen: Enzyme die zwei DNAStränge verknüpfen
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Gabriella Kókai: Computational Intelligence
0
( * $
:
$
$
* ) % ) 3
0
%
=
* #
I J
Lehrstuhl für Informatik 2
!
1
($
(% $ ;
$
% =
?
-
2
* >
6
$
( * #
4
=
$
5
*
& '
2& 3
$
%
* #
$
. <
7 5
#
(% ) ($
E
"
$
$
() $
6 7 5
>
4
*
*
+
7 8
5
,
-
. () ) %
/
9
(% )
*
. $
F G
*
@
6 H
B
5
C
A
7 8
9 7 B
C
D
7 8
5
5
*
13
Hydrolyse der Doppelhelix
Vervielfältigung von Einzelsträngen mit richtigem Start und
Zielort
Gelelektrophorese zum Abtrennen der Reaktionsprodukte mit
der richtigen Städteanzahl
Affinitätsprüfung zum Nachweis des einmaligen Besuchs
jeder Stadt
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Sequenzanalyse des durch Aufarbeitung isolierter DNAEinzelstränge
Ergibt für das gezeigte Beispiel als Reiseroute:
Atlanta – Boston – Chicago – Detroit
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
14
• Melting
Trennung der Doppelhelix
• Hinzugabe von Sequenzen der Start- und Endknoten als Primer
• DNA-Polymerase vermehrt die DNA-Sequenzen unterschiedlich:
• Mit Start- und Endknoten exponentiell
• Mit Start- oder Endknoten verdoppelt
• Mit keiner Entsprechung gar nicht
• Nach mehren Zyklen des Erwärmens, Abkühlens und Vermehrens
wird eine Probe entnommen, die jetzt fast nur noch Pfade
einen richtigen Start- und Zielknoten enthält.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
• Ein richtiger Pfad muß genau 140 bp (=Basenpaare) lang
sein ↔ 7 Knoten a‘ 20 Basenpaaren
• DNA-Sequenzen laufen elektrophoretisch über ein
Agarose-Gel
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
15
•Wiederholung für alle Knoten mit entsprechenden Sonden
•Melting, damit DNA-Einzelstränge vorliegen
• Einbringung von Eisensonden mit Komplementstrang eines Knoten
• Durch Anbringung eines Magneten bleiben alle Moleküle haften,
die diesen Knoten enthalten
• Abgießen der Lösung und neue Lösung ansetzen
• Melting trennt Stränge von Sonden
• Abgießen der Lösung in ein neues Reagenzglas
Falls noch DNA vorhanden ist, muß
muß das die Lö
Lösung des Problems sein.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Eisenkugel
Sonden-DNA
Enthaltener
Knoten
Nicht passende DNA
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
16
Alle Pfade
Alle Pfade mit vS und vE
Alle Pfade mit der Länge |V|
Knoten 1 enthalten
Knoten 2 enthalten
Knoten n enthalten =
Lösungsmenge
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Hardware:
Für die eigentliche Berechnung: Ligase, DNA
Zur Synthese und Analyse:
DNA-Synthesizer, DNA-Analyzer, vielfältige
Reinigungsverfahren der Biochemie, Computer
Software: DNA
Vorteile des DNA-Computers
hohe Rechengeschwindigkeit durch massiv parallele
Datenverarbeitung
hohe Informationsdichte: 1g DNA entspricht 1.000.000.000.000
CD‘s
hohe Energieeffizienz
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
17
kein kontinuierlicher Rechenbetrieb
Extrem langwierige Aufbereitung zur Ermittlung der
Rechenergebnisse
Naßchemie des Berechnungsvorgangs:
Fehleranfällig, DNA ist nicht unveränderlich
(Mutation als Voraussetzung für Evolution)
Die Berechnungszeit zur Lösung eines Problems wächst in
DNA-Computern nicht exponentiell aber die Menge benötigter
DNA tut es!
Hamilton’scher Wege im Falle 200 Städte: notwendige DNAMenge ist mit der Erdmasse vergleichbar!
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
An fehlerhaften Anlagerungen können Verschiebungen der
Einzelstränge oder Teile dieser gegeneinander auftreten
(shifts), sowie Schlaufen (loops) und Ausbuchtungen
(bulges).
Außerdem können Fehler bei
der PCR Reaktion auftreten,
dort können falsche Basen
angefügt werden
(Wahrscheinlichkeit =10-5
bis 10-6 ).
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
18
Vermeidung der Naßchemie und Reduktion des
Aufarbeitungsaufwandes durch Chips mit DNASträngen,
die selektiv die Rechenlösung binden
Automatisierung der Aufarbeitung durch Fortschritte in
DNA-Aufarbeitung und DNA-Manipulation
allgemeine Fortschritte in der Nanotechnologie durch
interdisziplinäre Zusammenarbeit in der weiteren
Entwicklung von DNA-Computern
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
Rechengeschwindigkeit:
Theoretisch sind etwa 6 x 1019 Operationen pro Minute
möglich, das sind pro Sekunde etwa 1 Million TeraOperationen. Dagegen erreichen die leistungsfähigsten
Supercomputer kaum Tera- Operationen pro Sekunde.
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
19
DNA-Computer: innovativer Denkansatz
praktisch noch nicht anwendbar
neue Impulse für die Nanotechnologie
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
#
& '
! $
* + ,
-
B
C
Z
7 ; 9
D E
!
F G
8 /
./ + ,
)
0 1 + / 23 + , 4 5
H
D E
[
8 4 / ; ,
I
J I
F K
7 8
L
\ + , 2; 1 5
6
21 9
8 ,
M
N
J OP
6
7 8
21 9
! $
(
"
#
8 , 3
L
; :
J H I
] ^ _
D
!"
R N
5
: ; < , 3 + 1
Q
8 ,
Gabriella Kókai: Computational Intelligence
Lehrstuhl für Informatik 2
; :
J
=
Q
"
! !
%
2>
24 8 . 5
L
S
T
? @ A A
I
R FU
I
V
N
Q
W
X
D I
J K
Y
? @ ` a
20
Herunterladen