Codierung und Repräsentation

Werbung
Codierung und Repräsentation
- Biologie -
Block 4 – Codierung und Repräsentation
Folie: 1
Codierung: Genotyp und Phänotypebene
Vier Übergänge eines evolutionären Zyklus (nach Lewontin, 1974)
T1: Die Verteilung der Genotypen G1 wird auf die
Verteilung der Phänotypen P1 abgebildet
T2: Prozesse wie Migration, Reproduktion und
Selektion ergeben die Phänotypverteilung P2
Phänotypraum
T3: Zugehörig zur Phänotypverteilung P2 ist die
Genotypverteilung G2
T4: Variationen auf dem Genotyplevel, wie
Mutation ergeben die Genotypverteilung G3
Genotypraum
Fitnesswerte direkt mit dem Genotyplevel zu assoziieren (Populationsgenetik) oder
die Transitionen T1 and T3 zu vernachlässigen (Räuber/Beute Modelle) schränkt
die Aussagekraft der entsprechenden Modell stark ein
Block 4 – Codierung und Repräsentation
Folie: 2
Der biologische Code: Transkriptase
1. Schritt: DNA - Messenger RNA: Transkriptase
Messenger RNAs werden mit Hilfe des Enzyms RNA-Polymerase gebildet, welche
an die Promotersequenz bindet (TATAAT in Prokaryoten)
Promoter und Terminator auf der DNA bestimmen Anfang und Ende des
Ableseprozesses
mRNA ist einstrangig, es hat ein Ribose anstelle des Deoxyribose - Zuckers und
Thymin wird durch Uracil ersetzt. Es ist deutlich instabiler als das DNA Molekül
Drei Nukleotide in der mRNA heissen ein Codon, sie kodieren eine Aminosäure
(amino acid). Es gibt 20 Aminosäuren, d.h.
der genetische Code ist redundant, denn
3 Positionen, Alphabet der Kardinalität 4
⇒ 43 = 64 Kombinationen
Block 4 – Codierung und Repräsentation
Folie: 3
Codon - Aminosäuren Abbildung
Mittlere Anzahl genutzter Codons / pro 1000 codons in E.coli und S.typhimurium
(basierend auf einer DNA-Sequenz von 450.000 Genen)
Block 4 – Codierung und Repräsentation
Folie: 4
Der biologische Code: Translation
2. Schritt: Messenger RNA - Proteine: Translation
tRNA
(für Eukaryoten - Zellen mit Zellkern)
Aminosäure
Protein wird aufgebaut
Trennung des Ortes der Transkription (Zellkern) vom Ort der Translation (Cytoplasma)
in Eukaryoten (wahrscheinlich) entscheidend für die Evolution komplizierter Mehrzeller
mit differenzierten Zellfunktionen
Übersetzung der Codonsequenz der mRNA in die Aminosäuresequenz geschieht am
Ribosom (sie bestehen aus rRNA und Proteinen)
benötigt wird die tRNA, die mit spezifischen Aminosäuren beladen ist, GTP als
Energielieferant und ein Enzym
das tRNA Molekül besitzt ein Anti-codon mit dem es am Ribosom an die mRNA bindet
Block 4 – Codierung und Repräsentation
Folie: 5
Der biologische Code: Translation
2. Schritt: Messenger RNA - Proteine: Translation
(für Eukaryoten - Zellen mit Zellkern)
tRNA
Aminosäure
Protein wird aufgebaut
das gebundene tRNA Molekül baut nun die richtige Aminosäue in die wachsende
Peptidkette ein (für die vorherige Bindung der Aminosäuren an die tRNA ist ein
eigenes Enzym verantwortlich
beim Bildungsprozess der Aminosäurenkette
unterscheidet man
Initiation - Elongation - Termination
Zelle
DNA
RNA-Polymerase
mRNA
Zellkern
Cytoplasma
tRNA - transfer
Protein
Block 4 – Codierung und Repräsentation
Folie: 6
“Splicen” in Eukaryoten
Prokaryoten
Eukaryoten
?
Block 4 – Codierung und Repräsentation
Folie: 7
“Splicen” in Eukaryoten mit microRNA als Kontrollelemente
RNA Introns als zusätzliche,
effiziente und genaue
Kontrollstrukturen
z.B. zur Zelldifferenzierung
Block 4 – Codierung und Repräsentation
Folie: 8
Wobble Hypothese
drei Codons sind Abbruchcodes
für die Translation
im Gegensatz zu den 61 Anticodons
gibt es nur 50 (in E.coli nur 30-40)
tRNA
die meisten Codons für eine
bestimmte Aminosäure unterscheiden
sich nur in der dritten Base
Wobble Hypothese: die dritte Base
spielt bei der Erkennungsspezifizität
eine geringere Rolle
Block 4 – Codierung und Repräsentation
Folie: 9
Der biologische Code: Faltung
3. Schritt: Strukturbildung des Proteins
Aminosäure
Aminosäure
Lineare Peptidkette
die Aminosäurenkette (Ordnung 10-1000) faltet sich und bildet ein Protein, der
Faltungsprozess ist spontan, d.h. die 3D Struktur ist durch die Aminosäuresequenz
determiniert
Block 4 – Codierung und Repräsentation
Folie: 10
Der biologische Code: Faltung (cont’d)
die Struktur des Proteins ist die
Grundlage für biochemische
Reaktionen in der Zelle
Proteinfaltung dauert
ca. 40 Nanosekunden
In Zellen von Säugetieren
gibt es bis zu 20.000
Proteine mit
unterschiedlicher Struktur
Faltung des Proteins ist spontan; jedoch muss die
lineare Aminosäurekette vor und während des
Faltungsprozesses gegenüber äusseren (d.h. innerhalb
der Zelle) Einflüssen geschützt werden (instabil)
bestimmte Proteine - die Chaperons - übernehmen
diese Aufgabe
Krankheitbilder unkorrekter Faltung: Muskoviszidose, Alzheimer, etc
Block 4 – Codierung und Repräsentation
Folie: 11
Ursprung des Codes
der genetische Code ist nahezu
universell
nur nahezu - zwei Veränderungen
(global - keine einzelne Mutation)
Darwin’sche Evolution
Evolution des
genetischen Codes
stop codon codiert Aminosäuren
Wechsel der codierten Aminosäuren
der genetische Code ist variabel aber nur geringfügig und zumeist sind damit keine
Variationen der codierten Proteine verbunden
chemisch ähnliche Aminosäuren werden von ähnlichen (d.h. Abstand der
Punktmutationen) Codons codiert
der Effekt von Punktmutationen und von Translationsfehlern wird minimiert
Codierung ist stabil
Kriterium: strukturerhaltend – funktionerhaltend
Hypothese 1: zunächst werden Aminosäuregruppen durch Codon Gruppen codiert,
d.h. der Ur-Code war sowohl redundant als auch mehrdeutig (Abbildung war weder
injektiv noch surjektiv)
Block 4 – Codierung und Repräsentation
Folie: 12
Ursprung des Codes (cont’d)
Hypothese 2: Codons benachbarter Aminosäuren können durch Anwendung der Wobble
Regeln und durch GC → AT Mutationen ausgetauscht werden.
D.h. solches codon swapping könnte iterativ zu einem generellen
Codonaustausch (codon shuffling) und so zu einem fine-tuning
des Codes geführt haben.
Warum ist der Code redundant?
Erhöhung der Stabilität
aber
Häufigkeit der Codierung einer Aminosäure (d.h. Anzahl der Codons) korreliert
nicht mit der Funktionalität/Wichtigkeit der Aminosäure, aber strukturerhaltend?
Neutraler Mutationsdruck hat dazu geführt, dass Aminosäuren mit mehr Codons
häufiger auftreten
Block 4 – Codierung und Repräsentation
Folie: 13
Eigenschaften der Codierung - Neutrale Netze
(Schuster et al.)
Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung
in der biologischen Evolution
RNA Welt
Protein Welt
Genotyp:
Basensequenzen (Sequenzraum, dim n)
Phenotyp:
RNA Sekundärstrukturen (Strukturraum)
Genotyp:
Aminosäuresequenzen (Sequenzraum)
Phenotyp:
Protein Sekundärstrukturen (Strukturraum)
in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen
Sequenzraum S(ψ)
Shape (Sekundärstruktur) ψ
eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel
es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab)
der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu
und erreicht 1 bei n→∝
die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im
Sequenzraum verteilt
Block 4 – Codierung und Repräsentation
Folie: 14
Eigenschaften der Codierung - Neutrale Netze
(Schuster et al.)
Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung
in der biologischen Evolution
RNA Welt
Protein Welt
Genotyp:
Basensequenzen (Sequenzraum, dim n)
Phenotyp:
RNA Sekundärstrukturen (Strukturraum)
Genotyp:
Aminosäuresequenzen (Sequenzraum)
Phenotyp:
Protein Sekundärstrukturen (Strukturraum)
in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen
Sequenzraum S(ψ)
Shape (Sekundärstruktur) ψ
eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel
es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab)
der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu
und erreicht 1 bei n→∝
die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im
Sequenzraum verteilt
Block 4 – Codierung und Repräsentation
Folie: 15
Eigenschaften der Codierung - Neutrale Netze
(Schuster et al.)
Analyse der Eigenschaften der Genotyp-Phenotyp Abbildung
in der biologischen Evolution
RNA Welt
Protein Welt
Genotyp:
Basensequenzen (Sequenzraum, dim n)
Phenotyp:
RNA Sekundärstrukturen (Strukturraum)
Genotyp:
Aminosäuresequenzen (Sequenzraum)
Phenotyp:
Protein Sekundärstrukturen (Strukturraum)
in beiden Fällen gibt es deutlich mehr mögliche Sequenzen als Sekundärstrukturen
Sequenzraum S(ψ)
Shape (Sekundärstruktur) ψ
eine Struktur ist häufig, wenn sie von mehr Sequenzen erzeugt wird als im Mittel
es gibt sehr wenige häufige Strukturen (der Anteil nimmt mit steigendem n ab)
der Anteil der Sequenzen, die auf eine häufige Struktur abbilden nimmt mit n zu
und erreicht 1 bei n→∝
die Sequenzen, die in dieselbe Struktur abbilden, sind (nahezu) zufällig im
Sequenzraum verteilt
Block 4 – Codierung und Repräsentation
Folie: 16
Eigenschaften der Codierung - Neutrale Netze
die neutralen Mengen S(ψ) der häufigen Strukturen bilden Netzwerke, die nahezu den
gesamten Sequrenzraum durchdringen - Neutrale Netze
“shape space covering”: in einer Kugel moderater Grösse um jeden beliebigen Punkt im
Sequenzraum findet sich eine Sequenz, die auf eine beliebige vorgegebene
Sekundärstruktur abbildet
sind häufige Strukturen häufig weil sie einen selektiven Vorteil haben?
Fitness
Zufallsdrift auf neutralen Netzen
Fitness
lokale Optima
Sequenzen
Sequenzen
Kombination von selektionsgetriebenem hill-climbing und Zufallsdrift durch neutrale
Netze kann dazu dienen lokale Optima in der Fitnesslandschaft zu überwinden
Block 4 – Codierung und Repräsentation
Folie: 17
Codierung und Repräsentation
- Evolutionäre Algorithmen -
Block 4 – Codierung und Repräsentation
Folie: 18
Repräsentation
In evolutionären Algorithmen genutzte Repräsentationen:
Reelwertige Repräsentation
Lösungsvektor: x mit xi ∈ R
Ist der phänotypische Suchraum reelwertig spricht man auch von der
natürlichen Repräsentation
Diskrete Repräsentation
Lösung wird durch einen String über dem Alphabet der
Kardinalität k codiert
Ist der phänotypische Suchraum reelwertig so
führt die diskrete Repräsentation zu limitierter
Genauigkeit, zu zusätzlicher Nichtlinearität
und zu künstlichen Problemen (wie Hamming Cliffs)
in GA wird häufig Binärcodierung genutzt
(Hintergrund ist die Maximierung der
intrinsischen Parallelität)
Genauigkeit: [b, a]:
b-a
kn - 1
#Schemata
l=4
l=3
k
Block 4 – Codierung und Repräsentation
Folie: 19
Repräsentation (cont’d)
In evolutionären Algorithmen genutzte Repräsentationen:
Diskrete Repräsentation
Hamming Cliffs (1. Ordnung) werden durch Gray Code aufgelöst
Gray Code: Benachbarte ganze Zahlen unterscheiden sich nur in einer Bit Position
Aufgrund des unklaren Zusammenhanges zwischen Schematheorem und Optimierungsfortschritt ist die natürliche Repräsentation zu bevorzugen
Ausnahme: Pathologische Fitnessfunktionen
Ist der phänotypische Suchraum nicht reelwertig kann eine diskrete Repräsentation
die natürliche Repräsentation darstellen, z.B. Binarcodierung bei Boolschen Problemen
Oftmals ist die natürliche Representation gemischt ganzzahlig und reellwertig, sie ist
immer von der Problemstruktur abhängig:
Strukturoptimierungsprobleme
Block 4 – Codierung und Repräsentation
• Matrizen
• Baumstrukturen
• rekursive Codierungen
• Grammatiken
Folie: 20
Wahl der Repräsentation
die optimale Repräsentation hängt primär vom Problem (den Eigenschaften der
Qualitätsfunktion) und von den Variationsoperatoren ab
Eigenschaften:
Vollständigkeit
durch die Repräsentation sollten keine Lösungen apriori ausgeschlossen werden,
die zur Menge der gültigen Lösungen gehören
falls dies nicht möglich ist, ist eine hierarchische
Repräsentation mit wachsender Genauigkeit
empfelenswert
Gleichmässigkeit
Es sollten keine Lösungen bzw. Mengen von Lösungen
allein durch die Repräsentation bevorzugt werden
Menge der Elemente die
(Gegenbeispiel: genetische Code)
die Lösungsmenge A codieren
Lösungsmenge A
Menge C
Menge B
Menge D
Menge C
Repräsentation
mit Bias
Menge D
Menge B
Block 4 – Codierung und Repräsentation
Folie: 21
Wahl der Repräsentation/Operatoren: Kausalität
Starke Kausalität
Kleine Variationen auf dem Genotypraum durch
Mutation führen zu kleinen Variationen auf dem
Phänotypraum
konsistente Abbildung zwischen Distanzen auf
dem Genotyp- und dem Phänotypraum
Stabilität gegen Mutationen
Block 4 – Codierung und Repräsentation
Folie: 22
Starke Kausalität
Eine Repräsentation, die nicht stark kausal ist, wird im Allgemeinen nicht
die folgenden Eigenschaften haben:
Selbstadaptation
Selbstadaptation von Strategieparametern benötigt einen konsistente
Abbildung zwischen Distanzen auf dem Genotyp und dem Phänotypraum
Graduelle Akkumulation
Die Akkumulation von kleinen Veränderungen benötigt eine konsistente
Definition von “klein” im Genotyp und Phänotypraum
Stabile Population um den Besten (Quasi-Spezies)
das Herausbilden einer stabilen Population um das beste Individuum ist nur
möglich, wenn eine konsistente Kontrolle der Mutationsweiten möglich ist
Eigenschaften sind problematisch die eine selektionsgetriebene
Kontrolle der Mutationsweiten benötigen
Block 4 – Codierung und Repräsentation
Folie: 23
Prinzip der adaptiven Codierung
Für die meisten Struktur- und Designoptimierungsaufgaben ist es effizient die Codierung
bzw. Repräsentation während der evolutionären Suche anzupassen
xi
i = 1,.., 6
Mutation der Codierung
xi
i = 1,.., 9
• hierarchische Optimierung
• Optimierung der Strategie
(siehe Selbstadaptation)
• Dynamische Optimierung
Prinzip: Selbst-organisation des Suchprozesses auf Unterräume
Beachte: Optimierung auf unterschiedlichen Zeitskalen
Erweiterung kann zunächst zu Nachteilen führen
Ansatz: Neutrale Mutation der Codierung
Block 4 – Codierung und Repräsentation
Folie: 24
Zusammenfassung
in einem evolutionären Zyklus sind ca. vier Transitionen auf und zwischen der
Genotyp- und Phänotypebene zu unterscheiden
biologische Code: Transkriptase (DNA → mRNA), drei Nukleotide (Codon) kodieren
eine Aminosäure, Translation (mRNA → Protein-linear), Faltung der Proteine (spontan
aber geschützt)
genetische Code ist redundant und nahezu universell
Urspungshypothesen: (1) Code wird während er Evolution immer spezifischer; (2)
Code swapping und shuffling können ein fine-tuning des Codes ermöglichen
Abbildungen vom Sequenz- in den Strukturraum (RNA und Proteine) offenbaren
interessante Eigenschaften, z.B. eine Menge an Sequenzen bilden auf eine Struktur ab,
diese Menge bildet neutrale Netzwerke, die durch den Sequenzraum perkolieren.
die gängigsten Repräsentationen in EAs sind reelwertig bzw. diskret über einem Alphabet
im allgmeinen sollten Repräsentationen vollständig, gleichmässig und stark kausal sein
adaptive Codierungen in EAs ermöglichen eine schrittweise Optimierung (zunächst in
Unterräumen) und somit in vielen Fällen eine effiziente Suche
Block 4 – Codierung und Repräsentation
Folie: 25
Weiterführende Literatur
[1]
H.-P. Schwefel, Evolution and Optimum Seeking.
[2]
Z. Michalewicz and D.B. Fogel, How to Solve It: Modern Heuristics.
[3]
T. Bäck and D.B. Fogel, Evolutionary Computation I and II. (Cook Book)
[4]
J. Maynard Smith and E. Szathmary, The Major Transitions in Evolution
[5]
S. Kauffman, The Origins of Order.
[6]
D.J. Futuyama, Evolutionary Biologie.
Block 4 – Codierung und Repräsentation
Folie: 26
Herunterladen