Codierung und Repräsentation - Biologie - Block 4 – Codierung und Repräsentation Folie: 1 Codierung: Genotyp und Phänotypebene Vier Übergänge eines evolutionären Zyklus (nach Lewontin, 1974) T1: Die Verteilung der Genotypen G1 wird auf die Verteilung der Phänotypen P1 abgebildet T2: Prozesse wie Migration, Reproduktion und Selektion ergeben die Phänotypverteilung P2 Phänotypraum T3: Zugehörig zur Phänotypverteilung P2 ist die Genotypverteilung G2 T4: Variationen auf dem Genotyplevel, wie Mutation ergeben die Genotypverteilung G3 Genotypraum Fitnesswerte direkt mit dem Genotyplevel zu assoziieren (Populationsgenetik) oder die Transitionen T1 and T3 zu vernachlässigen (Räuber/Beute Modelle) schränkt die Aussagekraft der entsprechenden Modell stark ein Block 4 – Codierung und Repräsentation Folie: 2 Der biologische Code: Transkriptase 1. Schritt: DNA - Messenger RNA: Transkriptase Messenger RNAs werden mit Hilfe des Enzyms RNA-Polymerase gebildet, welche an die Promotersequenz bindet (TATAAT in Prokaryoten) Promoter und Terminator auf der DNA bestimmen Anfang und Ende des Ableseprozesses mRNA ist einstrangig, es hat ein Ribose anstelle des Deoxyribose - Zuckers und Thymin wird durch Uracil ersetzt. Es ist deutlich instabiler als das DNA Molekül Drei Nukleotide in der mRNA heissen ein Codon, sie kodieren eine Aminosäure (amino acid). Es gibt 20 Aminosäuren, d.h. der genetische Code ist redundant, denn 3 Positionen, Alphabet der Kardinalität 4 43 = 64 Kombinationen Block 4 – Codierung und Repräsentation Folie: 3 Codon - Aminosäuren Abbildung Mittlere Anzahl genutzter Codons / pro 1000 codons in E.coli und S.typhimurium (basierend auf einer DNA-Sequenz von 450.000 Genen) Block 4 – Codierung und Repräsentation Folie: 4 Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation tRNA (für Eukaryoten - Zellen mit Zellkern) Aminosäure Protein wird aufgebaut Trennung des Ortes der Transkription (Zellkern) vom Ort der Translation (Cytoplasma) in Eukaryoten (wahrscheinlich) entscheidend für die Evolution komplizierter Mehrzeller mit differenzierten Zellfunktionen Übersetzung der Codonsequenz der mRNA in die Aminosäuresequenz geschieht am Ribosom (sie bestehen aus rRNA und Proteinen) benötigt wird die tRNA, die mit spezifischen Aminosäuren beladen ist, GTP als Energielieferant und ein Enzym das tRNA Molekül besitzt ein Anti-codon mit dem es am Ribosom an die mRNA bindet Block 4 – Codierung und Repräsentation Folie: 5 Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation (für Eukaryoten - Zellen mit Zellkern) tRNA Aminosäure Protein wird aufgebaut das gebundene tRNA Molekül baut nun die richtige Aminosäue in die wachsende Peptidkette ein (für die vorherige Bindung der Aminosäuren an die tRNA ist ein eigenes Enzym verantwortlich beim Bildungsprozess der Aminosäurenkette unterscheidet man Initiation - Elongation - Termination Zelle DNA RNA-Polymerase mRNA Zellkern Cytoplasma tRNA - transfer Protein Block 4 – Codierung und Repräsentation Folie: 6 “Splicen” in Eukaryoten Prokaryoten Eukaryoten ? Block 4 – Codierung und Repräsentation Folie: 7 “Splicen” in Eukaryoten mit microRNA als Kontrollelemente RNA Introns als zusätzliche, effiziente und genaue Kontrollstrukturen z.B. zur Zelldifferenzierung Block 4 – Codierung und Repräsentation Folie: 8 Wobble Hypothese drei Codons sind Abbruchcodes für die Translation im Gegensatz zu den 61 Anticodons gibt es nur 50 (in E.coli nur 30-40) tRNA die meisten Codons für eine bestimmte Aminosäure unterscheiden sich nur in der dritten Base Wobble Hypothese: die dritte Base spielt bei der Erkennungsspezifizität eine geringere Rolle Block 4 – Codierung und Repräsentation Folie: 9 Der biologische Code: Faltung 3. Schritt: Strukturbildung des Proteins Aminosäure Aminosäure Lineare Peptidkette die Aminosäurenkette (Ordnung 10-1000) faltet sich und bildet ein Protein, der Faltungsprozess ist spontan, d.h. die 3D Struktur ist durch die Aminosäuresequenz determiniert Block 4 – Codierung und Repräsentation Folie: 10 Der biologische Code: Faltung (cont’d) die Struktur des Proteins ist die Grundlage für biochemische Reaktionen in der Zelle Proteinfaltung dauert ca. 40 Nanosekunden In Zellen von Säugetieren gibt es bis zu 20.000 Proteine mit unterschiedlicher Struktur Faltung des Proteins ist spontan; jedoch muss die lineare Aminosäurekette vor und während des Faltungsprozesses gegenüber äusseren (d.h. innerhalb der Zelle) Einflüssen geschützt werden (instabil) bestimmte Proteine - die Chaperons - übernehmen diese Aufgabe Krankheitbilder unkorrekter Faltung: Muskoviszidose, Alzheimer, etc Block 4 – Codierung und Repräsentation Folie: 11 Ursprung des Codes der genetische Code ist nahezu universell nur nahezu - zwei Veränderungen (global - keine einzelne Mutation) Darwin’sche Evolution Evolution des genetischen Codes stop codon codiert Aminosäuren Wechsel der codierten Aminosäuren der genetische Code ist variabel aber nur geringfügig und zumeist sind damit keine Variationen der codierten Proteine verbunden chemisch ähnliche Aminosäuren werden von ähnlichen (d.h. Abstand der Punktmutationen) Codons codiert der Effekt von Punktmutationen und von Translationsfehlern wird minimiert Codierung ist stabil Kriterium: strukturerhaltend – funktionerhaltend Hypothese 1: zunächst werden Aminosäuregruppen durch Codon Gruppen codiert, d.h. der Ur-Code war sowohl redundant als auch mehrdeutig (Abbildung war weder injektiv noch surjektiv) Block 4 – Codierung und Repräsentation Folie: 12 Ursprung des Codes (cont’d) Hypothese 2: Codons benachbarter Aminosäuren können durch Anwendung der Wobble Regeln und durch GC AT Mutationen ausgetauscht werden. D.h. solches codon swapping könnte iterativ zu einem generellen Codonaustausch (codon shuffling) und so zu einem fine-tuning des Codes geführt haben. Warum ist der Code redundant? Erhöhung der Stabilität aber Häufigkeit der Codierung einer Aminosäure (d.h. Anzahl der Codons) korreliert nicht mit der Funktionalität/Wichtigkeit der Aminosäure, aber strukturerhaltend? Neutraler Mutationsdruck hat dazu geführt, dass Aminosäuren mit mehr Codons häufiger auftreten Block 4 – Codierung und Repräsentation Folie: 13 Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Protein Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phenotyp: RNA Sekundärstrukturen (Strukturraum) Genotyp: Aminosäuresequenzen (Sequenzraum) Phenotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S() Shape (Sekundärstruktur) eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt Block 4 – Codierung und Repräsentation Folie: 14 Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Protein Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phenotyp: RNA Sekundärstrukturen (Strukturraum) Genotyp: Aminosäuresequenzen (Sequenzraum) Phenotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S() Shape (Sekundärstruktur) eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt Block 4 – Codierung und Repräsentation Folie: 15 Eigenschaften der Codierung - Neutrale Netze die neutralen Mengen S() der häufigen Strukturen bilden Netzwerke, die nahezu den gesamten Sequrenzraum durchdringen - Neutrale Netze “shape space covering”: in einer Kugel moderater Grösse um jeden beliebigen Punkt im Sequenzraum findet sich eine Sequenz, die auf eine beliebige vorgegebene Sekundärstruktur abbildet sind häufige Strukturen häufig weil sie einen selektiven Vorteil haben? Fitness Zufallsdrift auf neutralen Netzen Fitness lokale Optima Sequenzen Sequenzen Kombination von selektionsgetriebenem hill-climbing und Zufallsdrift durch neutrale Netze kann dazu dienen lokale Optima in der Fitnesslandschaft zu überwinden Block 4 – Codierung und Repräsentation Folie: 16 Codierung und Repräsentation - Evolutionäre Algorithmen - Block 4 – Codierung und Repräsentation Folie: 17 Repräsentation In evolutionären Algorithmen genutzte Repräsentationen: Reelwertige Repräsentation Lösungsvektor: x mit xi R Ist der phänotypische Suchraum reelwertig spricht man auch von der natürlichen Repräsentation Diskrete Repräsentation Lösung wird durch einen String über dem Alphabet der Kardinalität k codiert Ist der phänotypische Suchraum reelwertig so führt die diskrete Repräsentation zu limitierter Genauigkeit, zu zusätzlicher Nichtlinearität und zu künstlichen Problemen (wie Hamming Cliffs) in GA wird häufig Binärcodierung genutzt (Hintergrund ist die Maximierung der intrinsischen Parallelität) Genauigkeit: [b, a]: b-a kn - 1 #Schemata l=4 l=3 k Block 4 – Codierung und Repräsentation Folie: 18 Repräsentation (cont’d) In evolutionären Algorithmen genutzte Repräsentationen: Diskrete Repräsentation Hamming Cliffs (1. Ordnung) werden durch Gray Code aufgelöst Gray Code: Benachbarte ganze Zahlen unterscheiden sich nur in einer Bit Position Aufgrund des unklaren Zusammenhanges zwischen Schematheorem und Optimierungsfortschritt ist die natürliche Repräsentation zu bevorzugen Ausnahme: Pathologische Fitnessfunktionen Ist der phänotypische Suchraum nicht reelwertig kann eine diskrete Repräsentation die natürliche Repräsentation darstellen, z.B. Binarcodierung bei Boolschen Problemen Oftmals ist die natürliche Representation gemischt ganzzahlig und reellwertig, sie ist immer von der Problemstruktur abhängig: Strukturoptimierungsprobleme Block 4 – Codierung und Repräsentation • Matrizen • Baumstrukturen • rekursive Codierungen • Grammatiken Folie: 19 Wahl der Repräsentation die optimale Repräsentation hängt primär vom Problem (den Eigenschaften der Qualitätsfunktion) und von den Variationsoperatoren ab Eigenschaften: Vollständigkeit durch die Repräsentation sollten keine Lösungen apriori ausgeschlossen werden, die zur Menge der gültigen Lösungen gehören falls dies nicht möglich ist, ist eine hierarchische Repräsentation mit wachsender Genauigkeit empfelenswert Gleichmässigkeit Es sollten keine Lösungen bzw. Mengen von Lösungen allein durch die Repräsentation bevorzugt werden Menge der Elemente die (Gegenbeispiel: genetische Code) die Lösungsmenge A codieren Lösungsmenge A Menge C Menge B Menge D Menge C Repräsentation mit Bias Menge D Menge B Block 4 – Codierung und Repräsentation Folie: 20 Wahl der Repräsentation/Operatoren: Kausalität Starke Kausalität Kleine Variationen auf dem Genotypraum durch Mutation führen zu kleinen Variationen auf dem Phänotypraum konsistente Abbildung zwischen Distanzen auf dem Genotyp- und dem Phänotypraum Stabilität gegen Mutationen Block 4 – Codierung und Repräsentation Folie: 21 Starke Kausalität Eine Repräsentation, die nicht stark kausal ist, wird im Allgemeinen nicht die folgenden Eigenschaften haben: Selbstadaptation Selbstadaptation von Strategieparametern benötigt einen konsistente Abbildung zwischen Distanzen auf dem Genotyp und dem Phänotypraum Graduelle Akkumulation Die Akkumulation von kleinen Veränderungen benötigt eine konsistente Definition von “klein” im Genotyp und Phänotypraum Stabile Population um den Besten (Quasi-Spezies) das Herausbilden einer stabilen Population um das beste Individuum ist nur möglich, wenn eine konsistente Kontrolle der Mutationsweiten möglich ist Eigenschaften sind problematisch die eine selektionsgetriebene Kontrolle der Mutationsweiten benötigen Block 4 – Codierung und Repräsentation Folie: 22 Prinzip der adaptiven Codierung Für die meisten Struktur- und Designoptimierungsaufgaben ist es effizient die Codierung bzw. Repräsentation während der evolutionären Suche anzupassen xi i = 1,.., 6 Mutation der Codierung xi i = 1,.., 9 • hierarchische Optimierung • Optimierung der Strategie (siehe Selbstadaptation) • Dynamische Optimierung Prinzip: Selbst-organisation des Suchprozesses auf Unterräume Beachte: Optimierung auf unterschiedlichen Zeitskalen Erweiterung kann zunächst zu Nachteilen führen Ansatz: Neutrale Mutation der Codierung Block 4 – Codierung und Repräsentation Folie: 23 Zusammenfassung in einem evolutionären Zyklus sind ca. vier Transitionen auf und zwischen der Genotyp- und Phänotypebene zu unterscheiden biologische Code: Transkriptase (DNA mRNA), drei Nukleotide (Codon) kodieren eine Aminosäure, Translation (mRNA Protein-linear), Faltung der Proteine (spontan aber geschützt) genetische Code ist redundant und nahezu universell Urspungshypothesen: (1) Code wird während er Evolution immer spezifischer; (2) Code swapping und shuffling können ein fine-tuning des Codes ermöglichen Abbildungen vom Sequenz- in den Strukturraum (RNA und Proteine) offenbaren interessante Eigenschaften, z.B. eine Menge an Sequenzen bilden auf eine Struktur ab, diese Menge bildet neutrale Netzwerke, die durch den Sequenzraum perkolieren. die gängigsten Repräsentationen in EAs sind reelwertig bzw. diskret über einem Alphabet im allgmeinen sollten Repräsentationen vollständig, gleichmässig und stark kausal sein adaptive Codierungen in EAs ermöglichen eine schrittweise Optimierung (zunächst in Unterräumen) und somit in vielen Fällen eine effiziente Suche Block 4 – Codierung und Repräsentation Folie: 24 Weiterführende Literatur [1] H.-P. Schwefel, Evolution and Optimum Seeking. [2] Z. Michalewicz and D.B. Fogel, How to Solve It: Modern Heuristics. [3] T. Bäck and D.B. Fogel, Evolutionary Computation I and II. (Cook Book) [4] J. Maynard Smith and E. Szathmary, The Major Transitions in Evolution [5] S. Kauffman, The Origins of Order. [6] D.J. Futuyama, Evolutionary Biologie. Block 4 – Codierung und Repräsentation Folie: 25