Codierung und Repräsentation - Biologie - Codierung: Genotyp und Phänotypebene Vier Übergänge eines evolutionären Zyklus (nach Lewontin, 1974) § T1: Die Verteilung der Genotypen G1 wird auf die Verteilung der Phänotypen P1 abgebildet § T2: Prozesse wie Migration, Reproduktion und Selektion ergeben die Phänotypverteilung P2 Phänotypraum § T3: Zugehörig zur Phänotypverteilung P2 ist die Genotypverteilung G2 § T4: Variationen auf dem Genotyplevel, wie Mutation ergeben die Genotypverteilung G3 Genotypraum Fitnesswerte direkt mit dem Genotyplevel zu assoziieren (Populationsgenetik) oder die Transitionen T1 and T3 zu vernachlässigen (Räuber/Beute Modelle) schränkt die Aussagekraft der entsprechenden Modell stark ein Der biologische Code: Die (eukaryotische) Zelle 1. Nukleolus 2. Zellkern (Nukleus) 3. Ribosomen 4. Vesikel 5. Raues Endoplasmatisches Reticulum 6. Golgi-Apparat 7. Mikrotubuli 8. Glattes ER 9. Mitochondrien (ATP - Zellenergie) 10. Lysosom 11. Zytoplasma 12. Mikrobodies 13. Zentriolen Der biologische Code: Transkriptase 1. Schritt: DNA - Messenger RNA: Transkriptase § Messenger RNAs werden mit Hilfe des Enzyms RNA-Polymerase gebildet, welche an die Promotersequenz bindet (TATAAT in Prokaryoten) § Promoter und Terminator auf der DNA bestimmen Anfang und Ende des Ableseprozesses § mRNA ist einstrangig, es hat ein Ribose anstelle des Deoxyribose - Zuckers und Thymin wird durch Uracil ersetzt. Es ist deutlich instabiler als das DNA Molekül § Drei Nukleotide in der mRNA heissen ein Codon, sie kodieren eine Aminosäure (amino acid). Es gibt 20 Aminosäuren, d.h. der genetische Code ist redundant, denn 3 Positionen, Alphabet der Kardinalität 4 ⇒ 43 = 64 Kombinationen Codon - Aminosäuren Abbildung Mittlere Anzahl genutzter Codons / pro 1000 codons in E.coli und S.typhimurium (basierend auf einer DNA-Sequenz von 450.000 Genen) Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation tRNA (für Eukaryoten - Zellen mit Zellkern) Aminosäure Protein wird aufgebaut § Trennung des Ortes der Transkription (Zellkern) vom Ort der Translation (Cytoplasma) in Eukaryoten (wahrscheinlich) entscheidend für die Evolution komplizierter Mehrzeller mit differenzierten Zellfunktionen § Übersetzung der Codonsequenz der mRNA in die Aminosäuresequenz geschieht am Ribosom (sie bestehen aus rRNA und Proteinen) § benötigt wird die tRNA, die mit spezifischen Aminosäuren beladen ist, GTP als Energielieferant und ein Enzym § das tRNA Molekül besitzt ein Anti-codon mit dem es am Ribosom an die mRNA bindet Der biologische Code: Translation 2. Schritt: Messenger RNA - Proteine: Translation (für Eukaryoten - Zellen mit Zellkern) tRNA Aminosäure Protein wird aufgebaut § das gebundene tRNA Molekül baut nun die richtige Aminosäue in die wachsende Peptidkette ein (für die vorherige Bindung der Aminosäuren an die tRNA ist ein eigenes Enzym verantwortlich § beim Bildungsprozess der Aminosäurenkette unterscheidet man Initiation - Elongation - Termination Zelle DNA RNA-Polymerase mRNA tRNA - transfer Protein Zellkern Cytoplasma Splicen in Eukaryoten Prokaryoten Eukaryoten ? Splicen in Eukaryoten mit microRNA als Kontrollelemente RNA Introns als zusätzliche, effiziente und genaue Kontrollstrukturen z.B. zur Zelldifferenzierung Wobble Hypothese § drei Codons sind Abbruchcodes für die Translation § im Gegensatz zu den 61 Anticodons gibt es nur 50 (in E.coli nur 30-40) tRNA § die meisten Codons für eine bestimmte Aminosäure unterscheiden sich nur in der dritten Base § Wobble Hypothese: die dritte Base spielt bei der Erkennungsspezifizität eine geringere Rolle Der biologische Code: Faltung 3. Schritt: Strukturbildung des Proteins Aminosäure Aminosäure Lineare Peptidkette § die Aminosäurenkette (Ordnung 10-1000) faltet sich und bildet ein Protein, der Faltungsprozess ist spontan, d.h. die 3D Struktur ist durch die Aminosäuresequenz determiniert Der biologische Code: Faltung (cont d) § die Struktur des Proteins ist die Grundlage für biochemische Reaktionen in der Zelle § Proteinfaltung dauert ca. 40 Nanosekunden § In Zellen von Säugetieren gibt es bis zu 20.000 Proteine mit unterschiedlicher Struktur § Faltung des Proteins ist spontan; jedoch muss die lineare Aminosäurekette vor und während des Faltungsprozesses gegenüber äusseren (d.h. innerhalb der Zelle) Einflüssen geschützt werden (instabil) Ø bestimmte Proteine - die Chaperons - übernehmen diese Aufgabe § Krankheitbilder unkorrekter Faltung: Muskoviszidose, Alzheimer, etc Ursprung des Codes § der genetische Code ist nahezu universell § nur nahezu - zwei Veränderungen (global - keine einzelne Mutation) Ø stop Darwin sche Evolution Evolution des genetischen Codes codon codiert Aminosäuren Ø Wechsel der codierten Aminosäuren der genetische Code ist variabel aber nur geringfügig und zumeist sind damit keine Variationen der codierten Proteine verbunden § chemisch ähnliche Aminosäuren werden von ähnlichen (d.h. Abstand der Punktmutationen) Codons codiert der Effekt von Punktmutationen und von Translationsfehlern wird minimiert Codierung ist stabil Kriterium: strukturerhaltend – funktionerhaltend § Hypothese 1: zunächst werden Aminosäuregruppen durch Codon Gruppen codiert, d.h. der Ur-Code war sowohl redundant als auch mehrdeutig (Abbildung war weder injektiv noch surjektiv) Ursprung des Codes (cont d) § Hypothese 2: Codons benachbarter Aminosäuren können durch Anwendung der Wobble Regeln und durch GC → AT Mutationen ausgetauscht werden. D.h. solches codon swapping könnte iterativ zu einem generellen Codonaustausch (codon shuffling) und so zu einem fine-tuning des Codes geführt haben. § Warum ist der Code redundant? Erhöhung der Stabilität aber Häufigkeit der Codierung einer Aminosäure (d.h. Anzahl der Codons) korreliert nicht mit der Funktionalität/Wichtigkeit der Aminosäure, aber strukturerhaltend? Neutraler Mutationsdruck hat dazu geführt, dass Aminosäuren mit mehr Codons häufiger auftreten Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Protein Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phänotyp: RNA Sekundärstrukturen (Strukturraum) Genotyp: Aminosäuresequenzen (Sequenzraum) Phänotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S(ψ) Shape (Sekundärstruktur) ψ § eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) § der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n→∝ § die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt Eigenschaften der Codierung - Neutrale Netze (Schuster et al.) Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung in der biologischen Evolution RNA Welt Protein Welt Genotyp: Basensequenzen (Sequenzraum, dim n) Phänotyp: RNA Sekundärstrukturen (Strukturraum) Genotyp: Aminosäuresequenzen (Sequenzraum) Phänotyp: Protein Sekundärstrukturen (Strukturraum) in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen Sequenzraum S(ψ) Shape (Sekundärstruktur) ψ § eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab) § der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu und erreicht 1 bei n→∝ § die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im Sequenzraum verteilt Eigenschaften der Codierung - Neutrale Netze § die neutralen Mengen S(ψ) der häufigen Strukturen bilden Netzwerke, die nahezu den gesamten Sequrenzraum durchdringen - Neutrale Netze § shape space covering : in einer Kugel moderater Grösse um jeden beliebigen Punkt im Sequenzraum findet sich eine Sequenz, die auf eine beliebige vorgegebene Sekundärstruktur abbildet sind häufige Strukturen häufig weil sie einen selektiven Vorteil haben? Fitness Zufallsdrift auf neutralen Netzen Fitness lokale Optima Sequenzen Sequenzen § Kombination von selektionsgetriebenem hill-climbing und Zufallsdrift durch neutrale Netze kann dazu dienen lokale Optima in der Fitnesslandschaft zu überwinden Codierung und Repräsentation - Evolutionäre Algorithmen - Repräsentation In evolutionären Algorithmen genutzte Repräsentationen: § Reelwertige Repräsentation Lösungsvektor: x mit xi ∈ R Ist der phänotypische Suchraum reelwertig spricht man auch von der natürlichen Repräsentation § Diskrete Repräsentation Lösung wird durch einen String über dem Alphabet der Kardinalität k codiert Ist der phänotypische Suchraum reelwertig so führt die diskrete Repräsentation zu limitierter Genauigkeit, zu zusätzlicher Nichtlinearität und zu künstlichen Problemen (wie Hamming Cliffs) Ø in GA wird häufig Binärcodierung genutzt (Hintergrund ist die Maximierung der intrinsischen Parallelität) Genauigkeit: [b, a]: #Schemata l=4 l=3 k b-a kn - 1 Repräsentation (cont d) In evolutionären Algorithmen genutzte Repräsentationen: § Diskrete Repräsentation Hamming Cliffs (1. Ordnung) werden durch Gray Code aufgelöst Gray Code: Benachbarte ganze Zahlen unterscheiden sich nur in einer Bit Position Aufgrund des unklaren Zusammenhanges zwischen Schematheorem und Optimierungsfortschritt ist die natürliche Repräsentation zu bevorzugen Ausnahme: Pathologische Fitnessfunktionen § Ist der phänotypische Suchraum nicht reelwertig kann eine diskrete Repräsentation die natürliche Repräsentation darstellen, z.B. Binarcodierung bei Boolschen Problemen § Oftmals ist die natürliche Representation gemischt ganzzahlig und reellwertig, sie ist immer von der Problemstruktur abhängig: Strukturoptimierungsprobleme • Matrizen • Baumstrukturen • rekursive Codierungen • Grammatiken Wahl der Repräsentation die optimale Repräsentation hängt primär vom Problem (den Eigenschaften der Qualitätsfunktion) und von den Variationsoperatoren ab Eigenschaften: § Vollständigkeit durch die Repräsentation sollten keine Lösungen apriori ausgeschlossen werden, die zur Menge der gültigen Lösungen gehören falls dies nicht möglich ist, ist eine hierarchische Repräsentation mit wachsender Genauigkeit empfelenswert § Gleichmässigkeit Es sollten keine Lösungen bzw. Mengen von Lösungen allein durch die Repräsentation bevorzugt werden Menge der Elemente die (Gegenbeispiel: genetische Code) die Lösungsmenge A codieren Lösungsmenge A Menge C Menge B Menge D Menge C Repräsentation mit Bias Menge D Menge B Wahl der Repräsentation/Operatoren: Kausalität Starke Kausalität Kleine Variationen auf dem Genotypraum durch Mutation führen zu kleinen Variationen auf dem Phänotypraum § konsistente Abbildung zwischen Distanzen auf dem Genotyp- und dem Phänotypraum § Stabilität gegen Mutationen Starke Kausalität Eine Repräsentation, die nicht stark kausal ist, wird im Allgemeinen nicht die folgenden Eigenschaften haben: § Selbstadaptation Selbstadaptation von Strategieparametern benötigt einen konsistente Abbildung zwischen Distanzen auf dem Genotyp und dem Phänotypraum § Graduelle Akkumulation Die Akkumulation von kleinen Veränderungen benötigt eine konsistente Definition von klein im Genotyp und Phänotypraum § Stabile Population um den Besten (Quasi-Spezies) das Herausbilden einer stabilen Population um das beste Individuum ist nur möglich, wenn eine konsistente Kontrolle der Mutationsweiten möglich ist Eigenschaften sind problematisch die eine selektionsgetriebene Kontrolle der Mutationsweiten benötigen Distanzen auf dem Genotypraum § Distanzen auf dem Genotypraum sollten durch die genetischen Operatoren, die die Veränderungen der Genotypen verursachen, definiert werden § Mutation ist im allgemeinen von der Population unabhängig: § Crossover ist von der Zusammensetzung der Population und damit von der Zeit/Generation abhängig, Defintion ist schwieriger § metrischen Eigenschaften von d(gi, gj) sind zu überprüfen Prinzip der adaptiven Codierung Für die meisten Struktur- und Designoptimierungsaufgaben ist es effizient die Codierung bzw. Repräsentation während der evolutionären Suche anzupassen xi i = 1,.., 6 Mutation der Codierung xi i = 1,.., 9 • hierarchische Optimierung • Optimierung der Strategie (siehe Selbstadaptation) • Dynamische Optimierung Prinzip: Selbst-organisation des Suchprozesses auf Unterräume Beachte: Optimierung auf unterschiedlichen Zeitskalen Erweiterung kann zunächst zu Nachteilen führen Ansatz: Neutrale Mutation der Codierung Anwendung der adaptiven Codierung Optimierung des Repräsentation des Designs Hierarchie der Optimierung höhere Flexibilität - unabhängig von der initialen Paramerisierung § schrittweise Optimierung - vermeiden lokaler Optima § alle Phenotypen sind darstellbar (theo.) § effizientere Nutzung der Rechenzeit define parameter optimisation of the optimisation of the human representation representation pressure loss parameter parameter optimisation optimisation generations computer Zusammenfassung § in einem evolutionären Zyklus sind ca. vier Transitionen auf und zwischen der Genotyp- und Phänotypebene zu unterscheiden § biologische Code: Transkriptase (DNA → mRNA), drei Nukleotide (Codon) kodieren eine Aminosäure, Translation (mRNA → Protein-linear), Faltung der Proteine (spontan aber geschützt) § genetische Code ist redundant und nahezu universell § Urspungshypothesen: (1) Code wird während er Evolution immer spezifischer; (2) Code swapping und shuffling können ein fine-tuning des Codes ermöglichen § Abbildungen vom Sequenz- in den Strukturraum (RNA und Proteine) offenbaren interessante Eigenschaften, z.B. eine Menge an Sequenzen bilden auf eine Struktur ab, diese Menge bildet neutrale Netzwerke, die durch den Sequenzraum perkolieren. § die gängigsten Repräsentationen in EAs sind reelwertig bzw. diskret über einem Alphabet § im allgmeinen sollten Repräsentationen vollständig, gleichmässig und stark kausal sein § adaptive Codierungen in EAs ermöglichen eine schrittweise Optimierung (zunächst in Unterräumen) und somit in vielen Fällen eine effiziente Suche Weiterführende Literatur [1] H.-P. Schwefel, Evolution and Optimum Seeking. [2] Z. Michalewicz and D.B. Fogel, How to Solve It: Modern Heuristics. [3] T. Bäck and D.B. Fogel, Evolutionary Computation I and II. (Cook Book) [4] J. Maynard Smith and E. Szathmary, The Major Transitions in Evolution [5] S. Kauffman, The Origins of Order. [6] D.J. Futuyama, Evolutionary Biologie.