5. Vorlesung Formale Sprachen Erweitertes Backus System DNA-Funktionseinheiten DNA-Sprachbetrachtungen Programmiersprache ? Literatur: Ratner V.A.: Molekulargenetische Steurungssysteme. Gustav Fischer Verlag, Stuttgart 1977. Atlan, H., Koppel, M.: The Cellular Computer DNA: Program or Data. Bulletin of Mathematical Biology, 52, 335 – 348, 1990. Vorlesung Modellierung & Simulation Überblick Erweitertes Backus-System Spezifikation der Basensequenz einer DNA Funktionseinheit erfordert die Berücksichtigung der folgenden Eigenarten: 1. Funktionseinheiten sind durch eine spezifische Länge charakterisiert (z. B. die Pribnow-Box 6 bp, der Promotor hat eine Länge von 64 bp). 2. Es gibt Funktionseinheiten, die durch eine spezifische Häufigkeit von gewissen Basenpaaren bestimmt werden (z.B. Anfangsstück des Promotors besteht aus einer GC-reichen Sequenz, der eine AT-reiche Sequenz folgt). Vorlesung Modellierung & Simulation Sprachen Zu 1.) Erweiterung des Backus-Systems Schreibweise: k x k'. x-mal Anwendung einer Backus-Regel. Es gelte i = 1..p, j = 1..q, i,ßi,j (θ-{A} )* und k k' mit k,k',p,q IN. Backus-System erweitert: (k:k') <A> ::= 1<A> ß1 | ... | p<A> ßp <A> ::= 1 . ... . q Vorlesung Modellierung & Simulation Sprachen Semantik: - <A> ::= <A~k'> | <A~k'-1> | ... | <A~k> wobei <A~i> für i = k..k' neue Variable sind - und <A~i> ::= 1<A~(i-1)> ß1 | ... | p <A~i-1> ßp <A~0> ::= 1 | ... | q wobei <A~i> für i = 0..k neue Variable sind. Vereinbarung: Steht zu Beginn der erweiterten Regel statt (k:k') nur (k), so bedeutet dies (k:k). Vorlesung Modellierung & Simulation Sprachen Beispiel: Gegeben seien die folgenden Regeln: (2) <A> ::= <A> a | <A> b <A> ::= <C> <C> ::= <A> | <C> diese Regeln bedeuten bezüglich der festgelegten Interpretation: <A> ::= <A~2> <A~2> ::= <A~1> a | <A~1> b <A~1> ::= <A~0> a | <A~0> b <A~0> ::= <C> <C> ::= <A> | <C> Mögliche Ableitung: <A> <A~2> <A~1> a <A~0> aa <C> aa <A> aa ... Vorlesung Modellierung & Simulation Sprachen 2. Erweiterung des Backus-Systems Sei p,p',q,q' IN+ und gelte p/q p'/q'. Zusätzliche Regel: <C> ::= <A> <C> | <B> <C> (p/q,p'/q') Semantik: Wird diese Regel in einer Ableitung verwendet, dann liegt die Häufigkeit der Anwendung von <C> <A> <C> Vorlesung zwischen p/q und p'/q'. Modellierung & Simulation Sprachen Beispiel: <Promotor> Sequenzierung Identifikation der charakteristischen Nukleotidsequenz (naïve): “GC-reiche Sequenz gefolgt von einer AT-reichen Sequenz und der Pribnow-Box” Spezifikation der Nukleotidsequenz: G(Promotor) = ( { Promotor, AT_P, GC_P, AT, GC }, { A, T, G, C, Sequenz, Pribnow-Box }, R, Promotor) mit R: Vorlesung Modellierung & Simulation Sprachen <Promotor> ::= <GC_P> <AT_P> Pribnow-Box Sequenz (10:15) <AT_P> ::= <AT> <AT_P> | <GC> <AT_P> (6/7,1) <AT_P> ::= A | T (10:15) <GC_P> ::= <GC> <GC_P> | <AT> <GC_P> (6/7,1) <GC_P> ::= G | C <AT> ::= A | T <GC> ::= G | C Vorlesung Modellierung & Simulation Sprachen Anwendungsbeispiel: Komplexität von Organismen Definition: Wert einer Regel Der Wert einer Regel ist durch die Multiplikation des Wiederholungsparameters (1, wenn kein Wert spezifiziert ist) mit der Anzahl der Substrings der rechten Seite der Regel gegeben. Definition: Komplexität eines erweiterten Backus Systems Die Summe aller Werte der zu einer Grammatik gehörenden Regeln spezifiziert die Komplexität des Backus Systems. Vorlesung Modellierung & Simulation Sprachen <EXAMPLE> ::= <AT <SEQ> <GC> 1 (19) <AT> ::= <AT> T | <AT> A 38 <AT> ::= T | A 2 <GC> ::= <GC> G | <GC> C 18 <GC> ::= G | C 2 <SEQ> ::= A <SEQ> | T <SEQ> | C <SEQ> | G <SEQ> 12 <SEQ> ::= A | T | G | C 4 (9) (3) Vorlesung Modellierung & Simulation Sprachen Summe 77 Interpretation: DNA als Sprache DNA: - Steuerungselement des Zellstoffwechsels. - Lineare Verkettung von Grundelementen. Grundelemente A = {A,T,G,C} oder {A,U,G,C} := Alphabet der Sprache. Gesucht: Vorlesung Spezifische Sprache S A*. Modellierung & Simulation Sprachen Interpretation: DNA als Sprache Es lassen sich zwei Ebenen der genetischen Sprache erkennen: - Polynukleotide (Alphabet = { A,G,C,T,U }) und - Polypeptide (Alphabet besteht aus den 20 Aminosäuren). Vorlesung Modellierung & Simulation Sprachen Interpretation: DNA als Sprache Genetische Sprache besitzt mindestens sechs Ebenen: - Codon, - Cistron, - Scripton, - Replicon, - Segregon und - Genom. Vorlesung Modellierung & Simulation Sprachen DNA-Strukturen Frage: Mehrzahl der real existierenden Strukturen erfasst ? - Annahme: Für Viren und Bakterien ist dies der Fall. - Annahme: DNA-Strukturen sind universell, d.h. sie treten in allen Organismen auf. Vorlesung Neben der “Universalität” des genetischen Codes ist von einer “Universalität” der DNA-Strukturen und somit der DNA-Sprache auszugehen. Modellierung & Simulation Sprachen Idee: DNA-Strukturen als Programmiersprache interpretierbar ? Diskussion: 1. Spezifikation der Funktionseinheiten, indem die Basensequenzen und ihre Funktion beschrieben werden. 2. Anforderungen einer Programmiersprache überprüfen. Vorlesung Modellierung & Simulation Sprachen DNA-Struktur Bemerkung Intron Teilstruktur des Strukturgens Exon Teilstruktur des Strukturgens Leader Teilstruktur spezieller Strukturgene Strukturgen durchläuft die Proteinsynthese Spacer gilt als Trennstruktur Repetitive Sequenz wiederholende Anordnung spezifischer Sequenzen Palindrom gegenläufige DNA-Sequenz Terminator signalisiert das Ende der Transkriptionseinheit Pribnow-Box Teilstruktur des Promotors Promotor signalisiert den Beginn der Transkriptionseinheit Operator Sequenz der Genregulation Regulator spezifisches Strukturgen Shine-Dalgarno Sequenz der Genregulation Operon Einheit der Proteinsynthese Centromer Erkennungssequenz der Kernspindel Telomer spezifische Endsequenzen DNA-Struktur Bemerkung Origin Erkennungssequenz der DNA-Polymerase Segregon Vererbungseinheit LTR long terminal repeat IS-Elemente dynamische Struktur des Genoms Transposon dynamische Struktur des Genoms Viren-DNA-RNA dynamische Struktur Genfähre dynamische Struktur Enhancer beeinflusst die benachbarten Promotoren Mutatorgen beeinflusst die Mutabilität spezifischer Sequenzen Onkogene Auslösung von Krebs Sonkogene steuern die Onkogene Historische Gene evolutionär stabile Sequenzen Stumme Gene spezifische Strukturgene Pseudogen spezifisches Strukturgen überlappende Gene spezifische Strukturgene Homöogen Operon, belegt die Modularität des Genoms Chronogen Operon, belegt die Modularität des Genoms Eigenschaften der DNA-Sprachstrukturen 1. Minimale Anforderungen einer Programmiersprache festlegen. 2. Anforderungen werden von spezifischen DNA-Strukturen erfüllt. Charakteristiken der DNA-Sprachstrukturen im Rahmen der genetischen Prozesse erarbeitet. Basis, für die Genetische Grammatik. Regelsystem (Syntax) Erzeugung syntaktisch korrekter DNA-Programmsequenzen. Vorlesung Modellierung & Simulation Sprachen Vorbemerkungen Das von Neumannsche Konzept der Datenverarbeitung Paralleler 'Universalrechner‘ ? Von Neumann Rechner: Programm ist eine lineare Kette von Instruktionen, die sequentiell abgearbeitet werden. Datentypen bzw. Datenstrukturen sind in Abhängigkeit von der benutzten Programmiersprache vordefiniert. Vorlesung Modellierung & Simulation Sprachen Strukturelemente einer Programmiersprache B1: Datentypen (definierbare Datentypen oder Standardtypen) Bemerkung: Theoretisch ist ein Datentyp ausreichend. B2: Operationen (Anweisungen) Standardoperationen oder definierbare Operationen B3: Kontrollanweisungen Bemerkung: Ablauf des Programms steuern B4: Interpunktionszeichen (Trennzeichen) Vorlesung Modellierung & Simulation Sprachen Kontrollanweisungen Semantik: Äquivalente Flussdiagramme. K1: Komposition von Anweisungen S1; S2;...; Sn Semikolon wird als Folgeoperator interpretiert; er besagt, dass die nachfolgende Anweisung erst ausgeführt wird, wenn die vorangehende beendet ist. S1 S2 ... Sn K2: Bedingte Anweisung (If-Anweisung) If B then S S sei eine Anweisung und B eine Bedingung, die den Wert WAHR oder FALSCH annehmen kann. Falsch B Wahr S K3: Wiederholungsanweisung (While-Anweisung) While B do S S sei eine Anweisung und B eine Bedingung, die den Wert WAHR oder FALSCH annehmen kann. B Wahr Falsch S Außerdem zählt die For-Anweisung For i=1 to n do S und die Repeat-Anweisung Repeat S until B zur Klasse der Wiederholungsanweisungen. Simulierbar: Spezifische While-Anweisungen. Vorlesung Modellierung & Simulation Sprachen K4: Beginn- und Endmarkierung des Programms Begin S1;...; Sn End Bemerkung: Wiederholungsanweisungen (While, For und Repeat) sind durch bedingte Anweisungen / Sprungbefehl simulierbar. Vorlesung Modellierung & Simulation Sprachen Interpretationsversuch als Pogrammiersprache DNA = Genetisches Programm einer Zelle. Datentypen = Zellplasma bzw. lokale Zellumgebung. Datentypen (Metabolitklassen) vorhanden/definierbar (B1). Bemerkung: Vorlesung Geeignete Kodierung erlaubt die Einschränkung auf einen Datentyp. Somit wollen wir die weitere Diskussion auf die Substanzen (S) beschränken. Modellierung & Simulation DNA-Programmiersprache Interpretationsversuch als Pogrammiersprache Operationen (Aktionen) Substanzklasse: Chemische Wechselwirkungen, die durch Enzyme katalysiert werden. Operatoren Enzyme: Im Genom durch Strukturgene repräsentiert (B2). ‘Elementare Anweisungen' DNA-Strukturen: Vorlesung Operationen auf Substanzen etc.. Modellierung & Simulation DNA-Programmiersprache Bemerkung Verschiedene Strukturgene repräsentieren neben den 'elementaren Anweisungen' Baupläne für zelluläre Betriebsmittel und werden 'elementare Anweisungen im erweiterten Sinn' genannt. Definition: Zelluläre Betriebsmittel Moleküle bzw. Makromoleküle, die die genetischen Prozesse ausführen oder an der Ausführung beteiligt sind (z.B. rRNA, tRNA, RNA-Polymerase, DNA-Polymerase, Ligase, Topoisomerase, etc.). Vorlesung Modellierung & Simulation DNA-Programmiersprache Definition: Elemenar anwendbare Anweisung Eine 'elementare Anweisung', wenn Anweisung' heißt 'elementar anwendbare 1. mindestens eine Erkennungsstelle (Promotor) vorgeschaltet und 2. mindestens eine Terminatorsequenz nachgeschaltet ist. Durchläuft eine 'elementar anwendbare Anweisung' Proteinsyntheseprozeß, so wird dies Aktivierung genannt. den Beispiel: Operon Vorlesung Modellierung & Simulation DNA-Programmiersprache Strukturgen Operon Elementare Anweisung Aktivierung Expression Enzym Syntheseprodukt Substrat Operator Produkt Biochemische Operation Reaktion Promotor Strukturgen Terminator Enzym Substrat Produkt Elementar anwendbare Anweisung Komposition von elementaren Anweisungen: - Operon mit mehreren Strukturgenen, - Sequentielle Verkettung von 'elementar anwendbaren Anweisungen' möglich (zu K1). Spacer trennt diese Einheiten (Interpunktionszeichen (zu B4). Beispiel: Das Lactose-Operon enthält die drei Strukturgene ß-Galactosidase (S1), Galactosid-Permease (S2) und Thiogalactosid-Transacetylase (S3). Promotor S1 S2 ... Sn Terminator A0 A1 An-1 An Promotor S1 Terminator Spacer A0 ... ... Promotor Sn Terminator Spacer ... An-1 An Bedingte Anweisung: Ein spezifisches Operon Operon umfaßt einen Operator und zwei oder mehrere Strukturgene. Eines dieser Strukturgene wirkt als Repressor des Operators, so dass die 'elementar anwendbare Anweisung' nur eine definierte Operation durchführt (zu K2). Beispiel: Operon L14 von Escherichia coli reguliert eigene Synthese. Promotor Operator_X Regulator_X Strukturgen S Terminator A0 An Der boolesche Wert der Bedingung B wird durch den Zustand des Operators wie folgt festgelegt: WAHR ::= wenn der Operator geöffnet ist und FALSCH ::= wenn der Operator geblockt ist. Operator-X geöffnet Aktivierung (Regulator-X und Strukturgen-S) Dabei sorgt der Regulator-X für die 'einmalige' Operation, indem er den spezifischen Operator-X blockiert. Strukturgen-S repräsentiert die auszuführende Operation S. Unter dieser Interpretation gilt: Vorlesung If B then S. Modellierung & Simulation DNA-Programmiersprache Wiederholungsanweisungen For-Anweisung: Durch repetitive Sequenzen oder durch einen Zählermechanismus realisierbar. While-Anweisung: Spezifisches Operon. Beispiel: Das Tryptophan-Operon besteht aus: Promotor, Operator und den Strukturgenen trpE, trpD, trpC, trpB, trpA sowie dem Terminator. Promotor Operator Strukturgen Terminator A B Der boolesche Wert der Bedingung B wird durch den Zustand des Operators wie folgt festgelegt: WAHR ::= Operator ist geöffnet und FALSCH ::= Operator ist geblockt ist. Das Strukturgen repräsentiert die auszuführende Operation S. Operator geöffnet Strukturgen in Aktion, bis Operator geblockt (zu K3). Unter dieser Interpretation gilt: While B do S Vorlesung Modellierung & Simulation DNA-Programmiersprache Beginn- und Endmarke einer Vererbungseinheit, somit eines DNAProgramms, repräsentieren die Telomer-Sequenzen (zu K4). Ergebnis: Die DNA erfüllt auf der Ebene der analysierten Strukturen die Anforderungen einer Programmiersprache und ist als Programmiersprache interpretierbar. Klassifikation der DNA-Strukturen: Strukturgen ist die 'elementare Anweisung'. Es gibt drei Klassen von 'elementaren Anweisungen': - Datenmanipulation (Katalyse), - Zelluläre Betriebsmittelerstellung und - Synthese von anderen Zellbausteinen. Vorlesung Modellierung & Simulation DNA-Programmiersprache Operon ist die 'elementar anwendbare Anweisung‘. Spacer ist das Interpunktionszeichen. Kontrollanweisungen sind: Promotor tritt mit den zellulären Betriebsmitteln in Wechselwirkung und leitet die Transkription ein. Enhancer beeinflusst die Promotoraffinität. Terminator tritt mit den zellulären Betriebsmitteln (RNAPolymerase) in Wechselwirkung und beendet die Transkription. Operator tritt mit Regulator-Molekülen (Daten bzw. Anweisungen) in Wechselwirkung und steuert dadurch den Transkriptionsprozess. Vorlesung Modellierung & Simulation DNA-Programmiersprache Regulator tritt über das Regulatorprotein mit der spezifischen Operatorsequenz in Wechselwirkung und steuert dadurch den Transkriptionsprozeß. Origins, Palindrome und Shine-Dalgarno Sequenzen treten mit Betriebsmitteln in Kontakt, so dass auch sie zur Klasse der Kontrollanweisungen zählen. Chronogene nehmen die Auswahl von verschiedenen Differenzierungsprogrammen vor. Homöogene aktivieren über ihre Syntheseprodukte die homöotischen Strukturgene. Transposonen, Viren-RNA und Genfähren enthalten Kontrollanweisungen sowie 'elementar anwendbare Anweisungen‘. Vorlesung Modellierung & Simulation DNA-Programmiersprache DNA-Sprachstrukturen zeigen folgende Charakteristiken: a) Segregon, Chronogene und Homöogene dokumentieren die Modularität des Genoms. b) Die Aktionsstärke einer 'elementar anwendbaren Anweisung‘ ist probabilistisch (Promotoraffinität, freie Betriebsmitteln, ShineDalgarno Sequenz, Lebenszeit der mRNS und der Lebensdauer des Syntheseproduktes). c) Dynamische DNA-Strukturen. d) Überlappende Gene (z.B. SV40-Virus). e) Alle geöffneten 'elementar anwendbaren Anweisungen‘ sind simultan aktivierbar (parallele Abarbeitung). f) Operationen werden in Abhängigkeit von Daten gesteuert, da die Operatoren von anderen Daten (Induktoren bzw. Repressoren) 'geöffnet' bzw. 'geblockt' werden (Datenfluss). Ergebnis: Die DNA zeigt auf der Ebene der analysierten Strukturen komplexe Sprachkonstrukte. Zusammenfassende Darstellung der Eigenschaften: 1. Genom ist modular organisiert, Anweisungen und Module können überlappen. 2. Operationsstärke einer 'elementar anwendbaren Anweisung' ist probabilistisch. 3. Genom (DNA-Programm) ist dynamisch (Transposon, Genfähre, Rekombination und Mutation). Vorlesung Modellierung & Simulation DNA-Programmiersprache 4. Simultane Aktivierung der 'elementar anwendbaren Anweisungen' in Abhängigkeit von den vorhandenen Betriebsmitteln und Kontrollanweisungen. 5. Das Betriebsmittelreservoir ist variabel und vom Programmablauf steuerbar, d.h. die Granularität der genetischen Prozesse und Biosyntheseprozesse (Abarbeitung des genetischen Programms) ist steuerbar. 6. Daten und Kontrollanweisungen steuern den Programmfluß. 7. Der genetische Speicher ist kein adressierbarer Raum. (Fast) jede Körperzelle besitzt das gesamte genetische Programm. Genom repräsentiert auch evolutionärer Redundanz. Regelsystem zur Erzeugung syntaktisch korrekter DNA-Programmsequenzen DNA-Programm ~ eine lineare Verkettung von Funktionseinheiten. DNA-Programme sind Worte über dem Alphabet A, das sich aus den DNA-Strukturen zusammensetzt. Frage: Gibt es eine Regelgrammatik, die syntaktisch korrekte DNAProgramme erzeugt ? Vorlesung Modellierung & Simulation DNA-Programmiersprache