Codierung und Repräsentation

Werbung
Codierung und Repräsentation
- Biologie -
Codierung: Genotyp und Phänotypebene
Vier Übergänge eines evolutionären Zyklus (nach Lewontin, 1974)
§  T1: Die Verteilung der Genotypen G1 wird auf die
Verteilung der Phänotypen P1 abgebildet
§  T2: Prozesse wie Migration, Reproduktion und
Selektion ergeben die Phänotypverteilung P2
Phänotypraum
§  T3: Zugehörig zur Phänotypverteilung P2 ist die
Genotypverteilung G2
§  T4: Variationen auf dem Genotyplevel, wie
Mutation ergeben die Genotypverteilung G3
Genotypraum
Fitnesswerte direkt mit dem Genotyplevel zu assoziieren (Populationsgenetik) oder
die Transitionen T1 and T3 zu vernachlässigen (Räuber/Beute Modelle) schränkt
die Aussagekraft der entsprechenden Modell stark ein
Der biologische Code: Die (eukaryotische) Zelle
1.  Nukleolus
2.  Zellkern (Nukleus)
3.  Ribosomen
4.  Vesikel
5.  Raues Endoplasmatisches Reticulum
6.  Golgi-Apparat
7.  Mikrotubuli
8.  Glattes ER
9.  Mitochondrien (ATP - Zellenergie)
10. Lysosom
11.  Zytoplasma
12. Mikrobodies
13. Zentriolen
Der biologische Code: Transkriptase
1. Schritt: DNA - Messenger RNA: Transkriptase
§  Messenger RNAs werden mit Hilfe des Enzyms RNA-Polymerase gebildet, welche
an die Promotersequenz bindet (TATAAT in Prokaryoten)
§  Promoter und Terminator auf der DNA bestimmen Anfang und Ende des
Ableseprozesses
§  mRNA ist einstrangig, es hat ein Ribose anstelle des Deoxyribose - Zuckers und
Thymin wird durch Uracil ersetzt. Es ist deutlich instabiler als das DNA Molekül
§  Drei Nukleotide in der mRNA heissen ein Codon, sie kodieren eine Aminosäure
(amino acid). Es gibt 20 Aminosäuren, d.h.
der genetische Code ist redundant, denn
3 Positionen, Alphabet der Kardinalität 4
⇒ 43 = 64 Kombinationen
Codon - Aminosäuren Abbildung
Mittlere Anzahl genutzter Codons / pro 1000 codons in E.coli und S.typhimurium
(basierend auf einer DNA-Sequenz von 450.000 Genen)
Der biologische Code: Translation
2. Schritt: Messenger RNA - Proteine: Translation
tRNA
(für Eukaryoten - Zellen mit Zellkern)
Aminosäure
Protein wird aufgebaut
§  Trennung des Ortes der Transkription (Zellkern) vom Ort der Translation (Cytoplasma)
in Eukaryoten (wahrscheinlich) entscheidend für die Evolution komplizierter Mehrzeller
mit differenzierten Zellfunktionen
§  Übersetzung der Codonsequenz der mRNA in die Aminosäuresequenz geschieht am
Ribosom (sie bestehen aus rRNA und Proteinen)
§  benötigt wird die tRNA, die mit spezifischen Aminosäuren beladen ist, GTP als
Energielieferant und ein Enzym
§  das tRNA Molekül besitzt ein Anti-codon mit dem es am Ribosom an die mRNA bindet
Der biologische Code: Translation
2. Schritt: Messenger RNA - Proteine: Translation
(für Eukaryoten - Zellen mit Zellkern)
tRNA
Aminosäure
Protein wird aufgebaut
§  das gebundene tRNA Molekül baut nun die richtige Aminosäue in die wachsende
Peptidkette ein (für die vorherige Bindung der Aminosäuren an die tRNA ist ein
eigenes Enzym verantwortlich
§  beim Bildungsprozess der Aminosäurenkette
unterscheidet man
Initiation - Elongation - Termination
Zelle
DNA
RNA-Polymerase
mRNA
tRNA - transfer
Protein
Zellkern
Cytoplasma
Splicen in Eukaryoten
Prokaryoten
Eukaryoten
?
Splicen in Eukaryoten mit microRNA als Kontrollelemente
RNA Introns als zusätzliche,
effiziente und genaue
Kontrollstrukturen
z.B. zur Zelldifferenzierung
Wobble Hypothese
§  drei Codons sind Abbruchcodes
für die Translation
§  im Gegensatz zu den 61 Anticodons
gibt es nur 50 (in E.coli nur 30-40)
tRNA
§  die meisten Codons für eine
bestimmte Aminosäure unterscheiden
sich nur in der dritten Base
§  Wobble Hypothese: die dritte Base
spielt bei der Erkennungsspezifizität
eine geringere Rolle
Der biologische Code: Faltung
3. Schritt: Strukturbildung des Proteins
Aminosäure
Aminosäure
Lineare Peptidkette
§  die Aminosäurenkette (Ordnung 10-1000) faltet sich und bildet ein Protein, der
Faltungsprozess ist spontan, d.h. die 3D Struktur ist durch die Aminosäuresequenz
determiniert
Der biologische Code: Faltung (cont d)
§  die Struktur des Proteins ist die
Grundlage für biochemische
Reaktionen in der Zelle
§  Proteinfaltung dauert
ca. 40 Nanosekunden
§  In Zellen von Säugetieren
gibt es bis zu 20.000
Proteine mit
unterschiedlicher Struktur
§  Faltung des Proteins ist spontan; jedoch muss die
lineare Aminosäurekette vor und während des
Faltungsprozesses gegenüber äusseren (d.h. innerhalb
der Zelle) Einflüssen geschützt werden (instabil)
Ø  bestimmte Proteine - die Chaperons - übernehmen
diese Aufgabe
§  Krankheitbilder unkorrekter Faltung: Muskoviszidose, Alzheimer, etc
Ursprung des Codes
§  der genetische Code ist nahezu
universell
§  nur nahezu - zwei Veränderungen
(global - keine einzelne Mutation)
Ø  stop
Darwin sche Evolution
Evolution des
genetischen Codes
codon codiert Aminosäuren
Ø  Wechsel der codierten Aminosäuren
der genetische Code ist variabel aber nur geringfügig und zumeist sind damit keine
Variationen der codierten Proteine verbunden
§  chemisch ähnliche Aminosäuren werden von ähnlichen (d.h. Abstand der
Punktmutationen) Codons codiert
der Effekt von Punktmutationen und von Translationsfehlern wird minimiert
Codierung ist stabil
Kriterium: strukturerhaltend – funktionerhaltend
§  Hypothese 1: zunächst werden Aminosäuregruppen durch Codon Gruppen codiert,
d.h. der Ur-Code war sowohl redundant als auch mehrdeutig (Abbildung war weder
injektiv noch surjektiv)
Ursprung des Codes (cont d)
§  Hypothese 2: Codons benachbarter Aminosäuren können durch Anwendung der Wobble
Regeln und durch GC → AT Mutationen ausgetauscht werden.
D.h. solches codon swapping könnte iterativ zu einem generellen
Codonaustausch (codon shuffling) und so zu einem fine-tuning
des Codes geführt haben.
§  Warum ist der Code redundant?
Erhöhung der Stabilität
aber
Häufigkeit der Codierung einer Aminosäure (d.h. Anzahl der Codons) korreliert
nicht mit der Funktionalität/Wichtigkeit der Aminosäure, aber strukturerhaltend?
Neutraler Mutationsdruck hat dazu geführt, dass Aminosäuren mit mehr Codons
häufiger auftreten
Eigenschaften der Codierung - Neutrale Netze
(Schuster et al.)
Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung
in der biologischen Evolution
RNA Welt
Protein Welt
Genotyp:
Basensequenzen (Sequenzraum, dim n)
Phänotyp:
RNA Sekundärstrukturen (Strukturraum)
Genotyp:
Aminosäuresequenzen (Sequenzraum)
Phänotyp:
Protein Sekundärstrukturen (Strukturraum)
in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen
Sequenzraum S(ψ)
Shape (Sekundärstruktur) ψ
§  eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel
es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab)
§  der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu
und erreicht 1 bei n→∝
§  die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im
Sequenzraum verteilt
Eigenschaften der Codierung - Neutrale Netze
(Schuster et al.)
Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung
in der biologischen Evolution
RNA Welt
Protein Welt
Genotyp:
Basensequenzen (Sequenzraum, dim n)
Phänotyp:
RNA Sekundärstrukturen (Strukturraum)
Genotyp:
Aminosäuresequenzen (Sequenzraum)
Phänotyp:
Protein Sekundärstrukturen (Strukturraum)
in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen
Sequenzraum S(ψ)
Shape (Sekundärstruktur) ψ
§  eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel
es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab)
§  der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu
und erreicht 1 bei n→∝
§  die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im
Sequenzraum verteilt
Eigenschaften der Codierung - Neutrale Netze
§  die neutralen Mengen S(ψ) der häufigen Strukturen bilden Netzwerke, die nahezu den
gesamten Sequrenzraum durchdringen - Neutrale Netze
§  shape space covering : in einer Kugel moderater Grösse um jeden beliebigen Punkt im
Sequenzraum findet sich eine Sequenz, die auf eine beliebige vorgegebene
Sekundärstruktur abbildet
sind häufige Strukturen häufig weil sie einen selektiven Vorteil haben?
Fitness
Zufallsdrift auf neutralen Netzen
Fitness
lokale Optima
Sequenzen
Sequenzen
§  Kombination von selektionsgetriebenem hill-climbing und Zufallsdrift durch neutrale
Netze kann dazu dienen lokale Optima in der Fitnesslandschaft zu überwinden
Codierung und Repräsentation
- Evolutionäre Algorithmen -
Repräsentation
In evolutionären Algorithmen genutzte Repräsentationen:
§  Reelwertige Repräsentation
Lösungsvektor: x mit xi ∈ R
Ist der phänotypische Suchraum reelwertig spricht man auch von der
natürlichen Repräsentation
§  Diskrete Repräsentation
Lösung wird durch einen String über dem Alphabet der
Kardinalität k codiert
Ist der phänotypische Suchraum reelwertig so
führt die diskrete Repräsentation zu limitierter
Genauigkeit, zu zusätzlicher Nichtlinearität
und zu künstlichen Problemen (wie Hamming Cliffs)
Ø  in GA wird häufig Binärcodierung genutzt
(Hintergrund ist die Maximierung der
intrinsischen Parallelität)
Genauigkeit: [b, a]:
#Schemata
l=4
l=3
k
b-a
kn - 1
Repräsentation (cont d)
In evolutionären Algorithmen genutzte Repräsentationen:
§  Diskrete Repräsentation
Hamming Cliffs (1. Ordnung) werden durch Gray Code aufgelöst
Gray Code: Benachbarte ganze Zahlen unterscheiden sich nur in einer Bit Position
Aufgrund des unklaren Zusammenhanges zwischen Schematheorem und Optimierungsfortschritt ist die natürliche Repräsentation zu bevorzugen
Ausnahme: Pathologische Fitnessfunktionen
§  Ist der phänotypische Suchraum nicht reelwertig kann eine diskrete Repräsentation
die natürliche Repräsentation darstellen, z.B. Binarcodierung bei Boolschen Problemen
§  Oftmals ist die natürliche Representation gemischt ganzzahlig und reellwertig, sie ist
immer von der Problemstruktur abhängig:
Strukturoptimierungsprobleme
• Matrizen
• Baumstrukturen
• rekursive Codierungen
• Grammatiken
Wahl der Repräsentation
die optimale Repräsentation hängt primär vom Problem (den Eigenschaften der
Qualitätsfunktion) und von den Variationsoperatoren ab
Eigenschaften:
§  Vollständigkeit
durch die Repräsentation sollten keine Lösungen apriori ausgeschlossen werden,
die zur Menge der gültigen Lösungen gehören
falls dies nicht möglich ist, ist eine hierarchische
Repräsentation mit wachsender Genauigkeit
empfelenswert
§  Gleichmässigkeit
Es sollten keine Lösungen bzw. Mengen von Lösungen
allein durch die Repräsentation bevorzugt werden
Menge der Elemente die
(Gegenbeispiel: genetische Code)
die Lösungsmenge A codieren
Lösungsmenge A
Menge C
Menge B
Menge D
Menge C
Repräsentation
mit Bias
Menge D
Menge B
Wahl der Repräsentation/Operatoren: Kausalität
Starke Kausalität
Kleine Variationen auf dem Genotypraum durch
Mutation führen zu kleinen Variationen auf dem
Phänotypraum
§  konsistente Abbildung zwischen Distanzen auf
dem Genotyp- und dem Phänotypraum
§  Stabilität gegen Mutationen
Starke Kausalität
Eine Repräsentation, die nicht stark kausal ist, wird im Allgemeinen nicht
die folgenden Eigenschaften haben:
§  Selbstadaptation
Selbstadaptation von Strategieparametern benötigt einen konsistente
Abbildung zwischen Distanzen auf dem Genotyp und dem Phänotypraum
§  Graduelle Akkumulation
Die Akkumulation von kleinen Veränderungen benötigt eine konsistente
Definition von klein im Genotyp und Phänotypraum
§  Stabile Population um den Besten (Quasi-Spezies)
das Herausbilden einer stabilen Population um das beste Individuum ist nur
möglich, wenn eine konsistente Kontrolle der Mutationsweiten möglich ist
Eigenschaften sind problematisch die eine selektionsgetriebene
Kontrolle der Mutationsweiten benötigen
Distanzen auf dem Genotypraum
§  Distanzen auf dem Genotypraum sollten durch die genetischen Operatoren,
die die Veränderungen der Genotypen verursachen, definiert werden
§  Mutation ist im allgemeinen von der Population unabhängig:
§  Crossover ist von der Zusammensetzung der Population und damit von der
Zeit/Generation abhängig, Defintion ist schwieriger
§  metrischen Eigenschaften von d(gi, gj) sind zu überprüfen
Prinzip der adaptiven Codierung
Für die meisten Struktur- und Designoptimierungsaufgaben ist es effizient die Codierung
bzw. Repräsentation während der evolutionären Suche anzupassen
xi
i = 1,.., 6
Mutation der Codierung
xi
i = 1,.., 9
•  hierarchische Optimierung
•  Optimierung der Strategie
(siehe Selbstadaptation)
•  Dynamische Optimierung
Prinzip: Selbst-organisation des Suchprozesses auf Unterräume
Beachte: Optimierung auf unterschiedlichen Zeitskalen
Erweiterung kann zunächst zu Nachteilen führen
Ansatz: Neutrale Mutation der Codierung
Anwendung der adaptiven Codierung
Optimierung des Repräsentation des Designs
Hierarchie der Optimierung
höhere Flexibilität - unabhängig von der initialen
Paramerisierung
§  schrittweise Optimierung - vermeiden lokaler
Optima
§  alle Phenotypen sind darstellbar (theo.)
§  effizientere Nutzung der Rechenzeit
define parameter
optimisation
of the
optimisation
of the human
representation
representation
pressure loss
parameter
parameter
optimisation
optimisation
generations
computer
Zusammenfassung
§  in einem evolutionären Zyklus sind ca. vier Transitionen auf und zwischen der
Genotyp- und Phänotypebene zu unterscheiden
§  biologische Code: Transkriptase (DNA → mRNA), drei Nukleotide (Codon) kodieren
eine Aminosäure, Translation (mRNA → Protein-linear), Faltung der Proteine (spontan
aber geschützt)
§  genetische Code ist redundant und nahezu universell
§  Urspungshypothesen: (1) Code wird während er Evolution immer spezifischer; (2)
Code swapping und shuffling können ein fine-tuning des Codes ermöglichen
§  Abbildungen vom Sequenz- in den Strukturraum (RNA und Proteine) offenbaren
interessante Eigenschaften, z.B. eine Menge an Sequenzen bilden auf eine Struktur ab,
diese Menge bildet neutrale Netzwerke, die durch den Sequenzraum perkolieren.
§  die gängigsten Repräsentationen in EAs sind reelwertig bzw. diskret über einem Alphabet
§  im allgmeinen sollten Repräsentationen vollständig, gleichmässig und stark kausal sein
§  adaptive Codierungen in EAs ermöglichen eine schrittweise Optimierung (zunächst in
Unterräumen) und somit in vielen Fällen eine effiziente Suche
Weiterführende Literatur
[1]
H.-P. Schwefel, Evolution and Optimum Seeking.
[2]
Z. Michalewicz and D.B. Fogel, How to Solve It: Modern Heuristics.
[3]
T. Bäck and D.B. Fogel, Evolutionary Computation I and II. (Cook Book)
[4]
J. Maynard Smith and E. Szathmary, The Major Transitions in Evolution
[5]
S. Kauffman, The Origins of Order.
[6]
D.J. Futuyama, Evolutionary Biologie.
Herunterladen