Vorlesung Modellierung & Simulation DNA

Werbung
5. Vorlesung
Formale Sprachen
Erweitertes Backus System
DNA-Funktionseinheiten
DNA-Sprachbetrachtungen
Programmiersprache ?
Literatur:
Ratner V.A.: Molekulargenetische Steurungssysteme. Gustav Fischer Verlag, Stuttgart 1977.
Atlan, H., Koppel, M.: The Cellular Computer DNA: Program or Data. Bulletin of Mathematical
Biology, 52, 335 – 348, 1990.
Vorlesung
Modellierung & Simulation
Überblick
Erweitertes Backus-System
Spezifikation der Basensequenz einer DNA Funktionseinheit erfordert
die Berücksichtigung der folgenden Eigenarten:
1.
Funktionseinheiten sind durch eine spezifische Länge
charakterisiert (z. B. die Pribnow-Box 6 bp, der Promotor hat
eine Länge von 64 bp).
2.
Es gibt Funktionseinheiten, die durch eine spezifische
Häufigkeit von gewissen Basenpaaren bestimmt werden (z.B.
Anfangsstück des Promotors besteht aus einer GC-reichen
Sequenz, der eine AT-reiche Sequenz folgt).
Vorlesung
Modellierung & Simulation
Sprachen
Zu 1.) Erweiterung des Backus-Systems
Schreibweise: k  x  k'.
x-mal Anwendung einer Backus-Regel.
Es gelte i = 1..p, j = 1..q,
i,ßi,j  (θ-{A}  )* und k  k' mit k,k',p,q  IN.
Backus-System erweitert:
(k:k')
<A> ::= 1<A> ß1 | ... | p<A> ßp
<A> ::= 1 . ... . q
Vorlesung
Modellierung & Simulation
Sprachen
Semantik:
-
<A> ::= <A~k'> | <A~k'-1> | ... | <A~k>
wobei <A~i> für i = k..k' neue Variable sind
-
und
<A~i> ::= 1<A~(i-1)> ß1 | ... | p <A~i-1> ßp
<A~0> ::= 1 | ... | q
wobei <A~i> für i = 0..k neue Variable sind.
Vereinbarung:
Steht zu Beginn der erweiterten Regel statt (k:k') nur (k), so bedeutet
dies (k:k).
Vorlesung
Modellierung & Simulation
Sprachen
Beispiel:
Gegeben seien die folgenden Regeln:
(2)
<A> ::= <A> a | <A> b
<A> ::= <C>
<C> ::= <A> | <C>
diese Regeln bedeuten bezüglich der festgelegten Interpretation:
<A> ::= <A~2>
<A~2> ::= <A~1> a | <A~1> b
<A~1> ::= <A~0> a | <A~0> b
<A~0> ::= <C>
<C> ::= <A> | <C>
Mögliche Ableitung:
<A>  <A~2>  <A~1> a  <A~0> aa  <C> aa  <A> aa ...
Vorlesung
Modellierung & Simulation
Sprachen
2. Erweiterung des Backus-Systems
Sei p,p',q,q'  IN+ und gelte p/q  p'/q'.
Zusätzliche Regel:
<C> ::= <A> <C> | <B> <C> (p/q,p'/q')
Semantik:
Wird diese Regel in einer Ableitung verwendet, dann liegt die
Häufigkeit der Anwendung von
<C>  <A> <C>
Vorlesung
zwischen p/q und p'/q'.
Modellierung & Simulation
Sprachen
Beispiel:
<Promotor>
Sequenzierung 
Identifikation der charakteristischen
Nukleotidsequenz (naïve):
“GC-reiche Sequenz gefolgt von einer AT-reichen
Sequenz und der Pribnow-Box”
Spezifikation der Nukleotidsequenz:
G(Promotor) = ( { Promotor, AT_P, GC_P, AT, GC }, { A, T, G, C,
Sequenz, Pribnow-Box }, R, Promotor)
mit R:
Vorlesung
Modellierung & Simulation
Sprachen
<Promotor> ::= <GC_P> <AT_P> Pribnow-Box Sequenz
(10:15)
<AT_P> ::= <AT> <AT_P> | <GC> <AT_P> (6/7,1)
<AT_P> ::= A | T
(10:15)
<GC_P> ::= <GC> <GC_P> | <AT> <GC_P> (6/7,1)
<GC_P> ::= G | C
<AT> ::= A | T
<GC> ::= G | C
Vorlesung
Modellierung & Simulation
Sprachen
Anwendungsbeispiel: Komplexität von Organismen
Definition: Wert einer Regel
Der Wert einer Regel ist durch die Multiplikation des Wiederholungsparameters (1, wenn kein Wert spezifiziert ist) mit der Anzahl der
Substrings der rechten Seite der Regel gegeben.
Definition: Komplexität eines erweiterten Backus Systems
Die Summe aller Werte der zu einer Grammatik gehörenden Regeln
spezifiziert die Komplexität des Backus Systems.
Vorlesung
Modellierung & Simulation
Sprachen
<EXAMPLE> ::= <AT <SEQ> <GC>
1
(19)
<AT> ::= <AT> T | <AT> A
38
<AT> ::= T | A
2
<GC> ::= <GC> G | <GC> C
18
<GC> ::= G | C
2
<SEQ> ::= A <SEQ> | T <SEQ> | C <SEQ> | G <SEQ>
12
<SEQ> ::= A | T | G | C
4
(9)
(3)
Vorlesung
Modellierung & Simulation
Sprachen
Summe 77
Interpretation: DNA als Sprache
DNA: - Steuerungselement des Zellstoffwechsels.
- Lineare Verkettung von Grundelementen.
Grundelemente
A = {A,T,G,C} oder {A,U,G,C}
:= Alphabet der Sprache.
Gesucht:
Vorlesung
Spezifische Sprache S  A*.
Modellierung & Simulation
Sprachen
Interpretation: DNA als Sprache
Es lassen sich zwei Ebenen der genetischen Sprache erkennen:
- Polynukleotide (Alphabet = { A,G,C,T,U }) und
- Polypeptide (Alphabet besteht aus den 20 Aminosäuren).
Vorlesung
Modellierung & Simulation
Sprachen
Interpretation: DNA als Sprache
Genetische Sprache besitzt mindestens sechs Ebenen:
- Codon,
- Cistron,
- Scripton,
- Replicon,
- Segregon und
- Genom.
Vorlesung
Modellierung & Simulation
Sprachen
DNA-Strukturen
Frage:
Mehrzahl der real existierenden Strukturen erfasst ?
- Annahme:
Für Viren und Bakterien ist dies der Fall.
- Annahme:
DNA-Strukturen sind universell, d.h. sie
treten in allen Organismen auf.

Vorlesung
Neben der “Universalität” des genetischen Codes ist
von einer “Universalität” der DNA-Strukturen
und somit der DNA-Sprache auszugehen.
Modellierung & Simulation
Sprachen
Idee:
DNA-Strukturen als Programmiersprache interpretierbar ?
Diskussion:
1.
Spezifikation der Funktionseinheiten, indem die
Basensequenzen und ihre Funktion beschrieben werden.
2.
Anforderungen einer Programmiersprache überprüfen.
Vorlesung
Modellierung & Simulation
Sprachen
DNA-Struktur
Bemerkung
Intron
Teilstruktur des Strukturgens
Exon
Teilstruktur des Strukturgens
Leader
Teilstruktur spezieller Strukturgene
Strukturgen
durchläuft die Proteinsynthese
Spacer
gilt als Trennstruktur
Repetitive Sequenz
wiederholende Anordnung spezifischer Sequenzen
Palindrom
gegenläufige DNA-Sequenz
Terminator
signalisiert das Ende der Transkriptionseinheit
Pribnow-Box
Teilstruktur des Promotors
Promotor
signalisiert den Beginn der Transkriptionseinheit
Operator
Sequenz der Genregulation
Regulator
spezifisches Strukturgen
Shine-Dalgarno
Sequenz der Genregulation
Operon
Einheit der Proteinsynthese
Centromer
Erkennungssequenz der Kernspindel
Telomer
spezifische Endsequenzen
DNA-Struktur
Bemerkung
Origin
Erkennungssequenz der DNA-Polymerase
Segregon
Vererbungseinheit
LTR
long terminal repeat
IS-Elemente
dynamische Struktur des Genoms
Transposon
dynamische Struktur des Genoms
Viren-DNA-RNA
dynamische Struktur
Genfähre
dynamische Struktur
Enhancer
beeinflusst die benachbarten Promotoren
Mutatorgen
beeinflusst die Mutabilität spezifischer Sequenzen
Onkogene
Auslösung von Krebs
Sonkogene
steuern die Onkogene
Historische Gene
evolutionär stabile Sequenzen
Stumme Gene
spezifische Strukturgene
Pseudogen
spezifisches Strukturgen
überlappende Gene
spezifische Strukturgene
Homöogen
Operon, belegt die Modularität des Genoms
Chronogen
Operon, belegt die Modularität des Genoms
Eigenschaften der DNA-Sprachstrukturen
1. Minimale Anforderungen einer Programmiersprache festlegen.
2. Anforderungen werden von spezifischen DNA-Strukturen erfüllt.
Charakteristiken der DNA-Sprachstrukturen im Rahmen der
genetischen Prozesse erarbeitet.
 Basis, für die Genetische Grammatik.
Regelsystem (Syntax)
Erzeugung syntaktisch korrekter DNA-Programmsequenzen.
Vorlesung
Modellierung & Simulation
Sprachen
Vorbemerkungen
Das von Neumannsche Konzept der Datenverarbeitung
 Paralleler 'Universalrechner‘ ?
Von Neumann Rechner:
Programm ist eine lineare Kette von Instruktionen, die sequentiell
abgearbeitet werden. Datentypen bzw. Datenstrukturen sind in
Abhängigkeit von der benutzten Programmiersprache vordefiniert.
Vorlesung
Modellierung & Simulation
Sprachen
Strukturelemente einer Programmiersprache
B1:
Datentypen (definierbare Datentypen oder Standardtypen)
Bemerkung: Theoretisch ist ein Datentyp ausreichend.
B2:
Operationen (Anweisungen)
Standardoperationen oder definierbare Operationen
B3:
Kontrollanweisungen
Bemerkung: Ablauf des Programms steuern
B4:
Interpunktionszeichen (Trennzeichen)
Vorlesung
Modellierung & Simulation
Sprachen
Kontrollanweisungen
Semantik: Äquivalente Flussdiagramme.
K1: Komposition von Anweisungen
S1; S2;...; Sn
Semikolon wird als Folgeoperator interpretiert; er besagt, dass die
nachfolgende Anweisung erst ausgeführt wird, wenn die
vorangehende beendet ist.
S1
S2
...
Sn
K2: Bedingte Anweisung (If-Anweisung)
If B then S
S sei eine Anweisung und B eine Bedingung, die den Wert WAHR oder
FALSCH annehmen kann.
Falsch
B
Wahr
S
K3: Wiederholungsanweisung (While-Anweisung)
While B do S
S sei eine Anweisung und B eine Bedingung, die den Wert WAHR
oder FALSCH annehmen kann.
B
Wahr
Falsch
S
Außerdem zählt die For-Anweisung
For i=1 to n do S
und die Repeat-Anweisung
Repeat S until B
zur Klasse der Wiederholungsanweisungen.
Simulierbar: Spezifische While-Anweisungen.
Vorlesung
Modellierung & Simulation
Sprachen
K4: Beginn- und Endmarkierung des Programms
Begin S1;...; Sn End
Bemerkung:
Wiederholungsanweisungen (While, For und Repeat) sind durch
bedingte Anweisungen / Sprungbefehl simulierbar.
Vorlesung
Modellierung & Simulation
Sprachen
Interpretationsversuch als Pogrammiersprache
DNA = Genetisches Programm einer Zelle.
Datentypen = Zellplasma bzw. lokale Zellumgebung.

Datentypen (Metabolitklassen)
vorhanden/definierbar (B1).
Bemerkung:
Vorlesung
Geeignete Kodierung erlaubt die Einschränkung auf
einen Datentyp. Somit wollen wir die weitere
Diskussion auf die Substanzen (S) beschränken.
Modellierung & Simulation
DNA-Programmiersprache
Interpretationsversuch als Pogrammiersprache
Operationen (Aktionen)
Substanzklasse:
Chemische Wechselwirkungen, die
durch Enzyme katalysiert werden.
Operatoren
Enzyme:
Im Genom durch Strukturgene repräsentiert (B2).
‘Elementare Anweisungen'
DNA-Strukturen:
Vorlesung
Operationen auf Substanzen etc..
Modellierung & Simulation
DNA-Programmiersprache
Bemerkung
Verschiedene Strukturgene repräsentieren neben den 'elementaren
Anweisungen' Baupläne für zelluläre Betriebsmittel und werden
'elementare Anweisungen im erweiterten Sinn' genannt.
Definition: Zelluläre Betriebsmittel
Moleküle bzw. Makromoleküle, die die genetischen Prozesse
ausführen oder an der Ausführung beteiligt sind (z.B. rRNA, tRNA,
RNA-Polymerase, DNA-Polymerase, Ligase, Topoisomerase, etc.).
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Definition: Elemenar anwendbare Anweisung
Eine 'elementare
Anweisung', wenn
Anweisung'
heißt
'elementar
anwendbare
1. mindestens eine Erkennungsstelle (Promotor) vorgeschaltet und
2. mindestens eine Terminatorsequenz nachgeschaltet ist.
Durchläuft eine 'elementar anwendbare Anweisung'
Proteinsyntheseprozeß, so wird dies Aktivierung genannt.
den
Beispiel: Operon
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Strukturgen
Operon
Elementare Anweisung
Aktivierung
Expression
Enzym
Syntheseprodukt
Substrat
Operator
Produkt
Biochemische
Operation
Reaktion
Promotor Strukturgen Terminator
Enzym
Substrat
Produkt
Elementar anwendbare
Anweisung
Komposition von elementaren Anweisungen:
- Operon mit mehreren Strukturgenen,
- Sequentielle Verkettung von 'elementar anwendbaren
Anweisungen' möglich (zu K1).
Spacer trennt diese Einheiten (Interpunktionszeichen (zu B4).
Beispiel: Das Lactose-Operon enthält die drei Strukturgene ß-Galactosidase (S1),
Galactosid-Permease (S2) und Thiogalactosid-Transacetylase (S3).
Promotor S1
S2
... Sn Terminator
A0  A1  An-1  An
Promotor S1 Terminator Spacer
A0  ...
... Promotor Sn Terminator Spacer ...
An-1  An
Bedingte Anweisung: Ein spezifisches Operon
Operon umfaßt einen Operator und zwei oder mehrere Strukturgene.
Eines dieser Strukturgene wirkt als Repressor des Operators, so dass
die 'elementar anwendbare Anweisung' nur eine definierte Operation
durchführt (zu K2).
Beispiel: Operon L14 von Escherichia coli reguliert eigene Synthese.
Promotor Operator_X
Regulator_X
Strukturgen S Terminator
A0  An
Der boolesche Wert der Bedingung B wird durch den Zustand des
Operators wie folgt festgelegt:
WAHR ::=
wenn der Operator geöffnet ist und
FALSCH ::= wenn der Operator geblockt ist.
Operator-X geöffnet
Aktivierung (Regulator-X und Strukturgen-S)
Dabei sorgt der Regulator-X für die 'einmalige' Operation, indem er
den spezifischen Operator-X blockiert.
Strukturgen-S repräsentiert die auszuführende Operation S.
Unter dieser Interpretation gilt:
Vorlesung
If B then S.
Modellierung & Simulation
DNA-Programmiersprache
Wiederholungsanweisungen
For-Anweisung:
Durch repetitive Sequenzen oder durch einen
Zählermechanismus realisierbar.
While-Anweisung:
Spezifisches Operon.
Beispiel:
Das Tryptophan-Operon besteht aus:
Promotor, Operator und den Strukturgenen
trpE, trpD, trpC, trpB, trpA sowie dem Terminator.
Promotor Operator Strukturgen Terminator
A B
Der boolesche Wert der Bedingung B wird durch den Zustand des
Operators wie folgt festgelegt:
WAHR ::=
Operator ist geöffnet und
FALSCH ::= Operator ist geblockt ist.
Das Strukturgen repräsentiert die auszuführende Operation S.
Operator geöffnet
 Strukturgen in Aktion, bis Operator geblockt (zu K3).
Unter dieser Interpretation gilt:
While B do S
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Beginn- und Endmarke einer Vererbungseinheit, somit eines DNAProgramms, repräsentieren die Telomer-Sequenzen (zu K4).
Ergebnis:
Die DNA erfüllt auf der Ebene der analysierten Strukturen
die Anforderungen einer Programmiersprache und ist als
Programmiersprache interpretierbar.
Klassifikation der DNA-Strukturen:
Strukturgen ist die 'elementare Anweisung'.
Es gibt drei Klassen von 'elementaren Anweisungen':
- Datenmanipulation (Katalyse),
- Zelluläre Betriebsmittelerstellung und
- Synthese von anderen Zellbausteinen.
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Operon ist die 'elementar anwendbare Anweisung‘.
Spacer ist das Interpunktionszeichen.
Kontrollanweisungen sind:
Promotor tritt mit den zellulären Betriebsmitteln in Wechselwirkung
und leitet die Transkription ein.
Enhancer beeinflusst die Promotoraffinität.
Terminator tritt mit den zellulären Betriebsmitteln (RNAPolymerase) in Wechselwirkung und beendet die Transkription.
Operator tritt mit Regulator-Molekülen (Daten bzw. Anweisungen)
in Wechselwirkung und steuert dadurch den Transkriptionsprozess.
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Regulator tritt über das Regulatorprotein mit der spezifischen
Operatorsequenz in Wechselwirkung und steuert dadurch den
Transkriptionsprozeß.
Origins, Palindrome und Shine-Dalgarno Sequenzen treten mit
Betriebsmitteln in Kontakt, so dass auch sie zur Klasse der
Kontrollanweisungen zählen.
Chronogene nehmen die Auswahl von verschiedenen
Differenzierungsprogrammen vor.
Homöogene aktivieren über ihre Syntheseprodukte die homöotischen
Strukturgene.
Transposonen, Viren-RNA und Genfähren enthalten
Kontrollanweisungen sowie 'elementar anwendbare Anweisungen‘.
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
DNA-Sprachstrukturen zeigen folgende Charakteristiken:
a)
Segregon, Chronogene und Homöogene dokumentieren die
Modularität des Genoms.
b)
Die Aktionsstärke einer 'elementar anwendbaren Anweisung‘ ist
probabilistisch (Promotoraffinität, freie Betriebsmitteln, ShineDalgarno Sequenz, Lebenszeit der mRNS und der Lebensdauer des
Syntheseproduktes).
c)
Dynamische DNA-Strukturen.
d)
Überlappende Gene (z.B. SV40-Virus).
e)
Alle geöffneten 'elementar anwendbaren Anweisungen‘ sind
simultan aktivierbar (parallele Abarbeitung).
f)
Operationen werden in Abhängigkeit von Daten gesteuert, da die
Operatoren von anderen Daten (Induktoren bzw. Repressoren)
'geöffnet' bzw. 'geblockt' werden (Datenfluss).
Ergebnis:
Die DNA zeigt auf der Ebene der analysierten
Strukturen komplexe Sprachkonstrukte.
Zusammenfassende Darstellung der Eigenschaften:
1.
Genom ist modular organisiert, Anweisungen und Module
können überlappen.
2.
Operationsstärke einer 'elementar anwendbaren Anweisung'
ist probabilistisch.
3.
Genom (DNA-Programm) ist dynamisch (Transposon,
Genfähre, Rekombination und Mutation).
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
4.
Simultane Aktivierung der 'elementar anwendbaren
Anweisungen' in Abhängigkeit von den vorhandenen
Betriebsmitteln und Kontrollanweisungen.
5.
Das Betriebsmittelreservoir ist variabel und vom
Programmablauf steuerbar, d.h. die Granularität der
genetischen Prozesse und Biosyntheseprozesse (Abarbeitung
des genetischen Programms) ist steuerbar.
6.
Daten und Kontrollanweisungen steuern den Programmfluß.
7.
Der genetische Speicher ist kein adressierbarer Raum.
(Fast) jede Körperzelle besitzt das gesamte genetische Programm.
Genom repräsentiert auch evolutionärer Redundanz.
Regelsystem zur Erzeugung syntaktisch korrekter
DNA-Programmsequenzen
DNA-Programm ~ eine lineare Verkettung von Funktionseinheiten.
 DNA-Programme sind Worte über dem Alphabet A,
das sich aus den DNA-Strukturen zusammensetzt.
Frage:
Gibt es eine Regelgrammatik, die syntaktisch korrekte DNAProgramme erzeugt ?
Vorlesung
Modellierung & Simulation
DNA-Programmiersprache
Herunterladen