Folien

Werbung
Seminar Fortgeschrittene
Algorithmische Bioinformatik
Oligodesignprobleme
von
Oliver Arnold & Jan Hendrik Nielsen
Gliederung
Erster Teil: Einführung in DNA-Chip Design

Einleitung








DNA-Chips
Aufbau von cDNA-Chips
Aufbau von Oligo-Chips
Beobachtung der Genexpression
Synthese der Oligonukleotide
Merkmale der Oligo-Chips
Kriterien für optimale Oligos
Anwendungsgebiete
Zweiter Teil: Algorithmen zur Konstruktion von Oligos

später ...
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
2
DNA-Chips


werden allgemein benutzt um zu ermitteln ob Gene exprimiert
sind (kodieren für Proteine)
hauptsächlich 2 Arten von Chips:





cDNA Microarrays (Incyte Inc.)
Oligonucleotide Microarrays (Affymetrix)
Spots auf dem Chip müssen einzigartig für ein Gen sein
(Spezifität)
Spots müssen dieses Gen entdecken (Sensitivität)
alle Spots sollten unter den gleichen Bedingungen
funktionieren, z.B. Temperatur (Einheitlichkeit)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
3
Aufbau von cDNA-Chips







10000 Gene auf einem Chip
Oberfläche ist aus beschichtetem Glas
hohe Sensitivität, wegen langer Probe-Sequenzen
aber niedrige Spezifität, wegen vieler Fehl-Hybridisierungen
Probes können nicht zwischen ähnlichen oder gleichen
Subsequenzen unterscheiden
dadurch auch nicht zwischen Gen-Familien
mehrere cDNAs für ein Gen (Fehl-Hybridisierung!)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
4
Aufbau von Oligo-Chips





9000 Gene auf einem Chip
Oberfläche für Oligos ist aus
beschichtetem Glas oder
Silizium
Oligos sind in Arrays
angeordnet (65000-500000
auf einem Chip)
jedes Array (Spot) "erkennt"
ein Gen
extrahierte Gene (targets)
lagern sich an Oligos
(probes) an  Hybridisierung
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
[2]
5
Beobachtung der Genexpression (1)





Extrahieren der Gene
(mRNA) aus einem
Referenz- und einem
Mutationstyp
Reverse Transkription um
cDNAs zu erzeugen
Vervielfältigung der cDNAs
durch PCR
Markierung der Gene mit
unterschiedlich
fluoreszierenden
Farbstoffen (z.B. rot und
grün)
"Fluten" des Chips mit
markierten cDNAs
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
[2]
6
Beobachtung der Genexpression (2)



Temperatur-Erhöhung um
Fehl-Hybridisierungen zu
denaturieren
Waschen des Chips
 Beseitigung von
ungebundener cDNA
Auswertung der Daten, bzw.
Messen der Intensität der
Farbstoffe
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
7
Synthese der Oligonukleotide



benutzte Methode: Photolitographie
Oligos können parallel erzeugt werden
Maske mit Löchern wird benutzt







ultraviolettes Licht tritt nur durch die Löcher
beschienene Oligos werden "aktiviert"
Basen/Nukleotide können sich anlagern
Chip wird mit Nukleotiden einer Art "geflutet"
ungebundene Basen werden abgewaschen
nächste Maske wird benutzt
Wiederholung der einzelnen
Schritte (ca. 70 mal)
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
8
Merkmale der Oligo-Chips (1)



Oligos werden nur durch bekannte Sequenz-Informationen
produziert
jedes Oligo wird mit einem Mismatch-Oligo gepaart,
unterscheiden sich nur im Zentrum (durch eine Base)
typischerweise werden 20 Paare von Oligonukleotiden zur
Erkennung eines Gens verwendet (ein Spot)

Fehl-Hybridisierungen können erkannt werden

Oligos, die weniger (oder gleich) hybridisieren als MismatchOligos, implizieren geringe Spezifität
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
9
Merkmale der Oligo-Chips (2)

es gibt zwei Typen von Oligo-Chips


short Oligo-Chips (Länge: 20-25 bp)
long Oligo-Chips (Länge: 50-70 bp)






oft wird nur ein Oligonukleotide gebraucht, um ein Gen zu erkennen
weniger Fehl-Hybridisierungen
mögliche sich wiederholende oder ähnliche Sequenzen
vermeidbar
dadurch höhere Spezifität
Chips noch relativ teuer
gute Methoden/Algorithmen werden benötigt, um Oligos zu
erzeugen
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
10
Kriterien für optimale Oligos

6 Kriterien
1.
2.
3.
4.
5.
6.

Base Composition Limit: keine der Basen sollte 50% eines
Oligos ausmachen
Base Distribution Limit: Folge eines Basentypes sollte nicht 25%
eines Oligos überschreiten
GC-Content: sollte zwischen 30% und 70% liegen
Sekundärstruktur: Oligos sollten keine Dimers oder Hairpins
ausbilden
Länge eines zusammenhängenden, komplementären Match zu
non-targets sollte kleiner als 15 bp sein
Anteil der komplementären Nukleotide im Verhältnis zu nontargets sollte kleiner als 75% sein
Kriterien 1, 2 und 4 sind implizit in den anderen Bedingungen
enthalten
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
11
Anwendungsgebiete (1)



Erkennen von SNP‘s (Single Nucleotide Polymorphism)
die zusammenhängende Gensequenz wird durch sich
überschneidene Oligos der Länge 25 bp repräsentiert
drei Permutationen von jedem Oligo werden mit auf den Chip
gepackt


unterscheiden sich bloß im zentralen Nukleotid
dadurch können alle SNP‘s eines Gens durch den Chip
erkannt werden
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
12
Anwendungsgebiete (2)

Beobachtung der Effekte, Effizienz und Metabolismus von
Medikamenten





Leber = Hauptwirkungsstätte bei der Umwandlung von
Medikamenten und Hormonen
Untersuchung der Gene aus dem Leber-Gewebe daher
repräsentativ für den ganzen Organismus
Vergleiche der Genexpressionen können helfen die Wirkung
von Medikamenten festzustellen
Verstehen von Krankheitsverläufen
Bestimmen, welche Gene verschiedene Gewebe- und ZellTypen exprimieren
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
13
Es geht weiter ...
Zweiter Teil: Algorithmen zur Konstruktion von Oligos

Einleitung


Worum geht es?
Methoden der DNA-Array-Synthese

SADP – Synchronous Array Design Problem



der Epitaxial-Algorithmus
der Row-Epitaxial-AlgorithmusMatching
AADP – Asynchronous Array Design Problem

Algorithmen für „in-place Optimierung“:

Batched Greedy, Chessboard & der Sequential Algorithmus
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
14
Einleitung - Worum geht es? (1)



Oligodesignproblem (siehe vorheriger Teil)
Heute 500.000 Proben pro Chip (Tendenz steigend)
Prozess der Beleuchtung zur Verkettung von Nukleotiden
fehleranfällig



optische Effekte (Beugung, Brechung, etc.) können
unbeabsichtigte Beleuchtung verursachen
als Folge: unvorhergesehene Synthese (und vieles mehr…)
Lösung: Auswahl der Platzierung von Nukleotiden

Border Minimization Problem (BMP)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
15
Einleitung - Worum geht es? (2)

Border: Grenze zwischen zwei benachbarten Proben



maskiert / unmaskiert
Anzahl wird als conflicts bezeichnet
Minimization: Verteilung der Proben mit möglichst kleiner
Border Length (Summe der Border über alle Masken)
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
16
Methoden der DNA-Array-Synthese (1)

Synchrone Synthese:
 Jede
Periode der
Supersequenz S (= ACGT)
synthetisiert ein einzelnes
Nukleotid

Asynchrone Synthese:
 Erlaubt
willkürliches
Einsetzen der Nukleotide
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
17
Methoden der DNA-Array-Synthese (2)

Synchrones, sowie asynchrones Array-Design kann
durch Angabe einer mutmaßlichen unteren Grenze
errechnet werden. Basierend auf:
 dem
Hammingabstand bei synchroner Synthese
 dem LCS bei asynchroner Synthese

Aber:
 sehr
langsam
 exakt

deshalb nur Verwendung zum Vergleich der später
vorgestellten Heuristiken
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
18
SADP – Synchronous Array Design Problem

Ursprüngliche Vorgehensweise:
der Konflikt-Distanz: d(p, p‘) = 2h(p, p‘),
wobei p ≡ Proben und 2h ≡ zweifacher Hammingabstand
 danach TSP-Heuristik, um die Nukleotide mit minimiertem
Hammingabstand auf einer Site anzuordnen (Hannenhalli
et al., 2002; erstes Arraydesign bei Affymetrix)
 Berechnung

Aber: es geht "besser" (dieser Ansatz optimiert nur etwa
die Hälfte der benachbarten Paare) …
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
19
SADP
Der "epitaxial placement approach":
 Ursprung in der VLSI (Very Large Scale Integration)
 Idee: Zweidimensionale Anordnung von Proben um
einen einzelnen (zufällig gewählten und zentralen)
Startpunkt (seed)
 Epitaxial-Algorithmus ist nur bis zu einer Chipgröße von
300 x 300 Proben praktikabel
 daher:
Skalierung durch Aufteilung in K Subsets (chunks)
 Nachteil:


begrenzte Platzierungsmöglichkeit; Probe kann nicht überall
auf dem Array angelegt werden (nur in ihrem Subset)
keine Optimierung der Grenzen zwischen den chunks
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
20
SADP
Der Epitaxial-Algorithmus
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
21
SADP
Verbesserung (Kahng et al.): row-epitaxial-algorithm

Drei Haupteigenschaften:
1.



Umstrukturierung einer vorab optimierten, bestehenden
Anordnung - erste Platzierung kann durch verschiedene
Algorithmen erfolgen (z.B. Gray Code)
muss sehr schnell sein - TSP (Hannenhalli et al.) braucht
zu lange
gute initial-Anordnung: lexikographische Sortierung der
Proben (radix sort)
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
22
SADP
2. Auffüllung der leeren Flächen mit Proben, in einer
vordefinierten Reihenfolge (von links nach rechts, Reihe
für Reihe)
3. die Proben werden aus den nächsten k0 Reihen gewählt



k0 = Lookahead beim Algorithmus
dadurch Geschwindigkeit des Algorithmus erhöht
je größer k0, desto besser ist das Ergebnis

jedoch schlechtere Laufzeit
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
23
SADP
Vergleich der bisher vorgestellten Algorithmen
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
24
AADP – Asynchronous Array Design Problem
Algorithmen für "in-place Optimierung"
 Der Batched Greedy Algorithmus:
 sucht
die Probe mit höchstem "Gewinn" nach Umsetzung
und aktualisiert seine "Gewinnliste"
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
25
AADP

Die Chessboard Optimization
 Idee:
Maximiere Anzahl unabhängiger Nukleotide
 Ein Nukleotid ist unabhängig, wenn das Vertauschen Eines
die optimale Einbettung des Anderen nicht beeinflusst.
 Zweifärben der Array-site (Schachbrett);
alle weißen/schwarzen Felder können untereinander neu
angeordnet werden
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
26
AADP

Der Sequential Algorithmus
 ermöglicht
optimale Umsortierung der Nukleotide
 geht Array Reihe für Reihe durch

Nachteil von Batched Greedy, Chessboard:
 nur
unabhängige Nukleotide werden vertauscht
 Auswirkungen verbreiten sich langsam

Das wird durch die sequentielle Abarbeitung gelöst
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
27
AADP
[1]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
28
Quellenangabe
Paper:



Scalable Heuristics for Design of DNA Probe Arrays - Andrew B. Kahng, Ion I.
Măndoiu, Pavel A. Pevzner, Sherief Reda and Alexander Z. Zelikovsky
DNA chips: promising toys have become powerful tools - David Gerhold,
Thomas Rushmore and C. Thomas Caskey
Picky: oligo microarray design for large genomes - Hui-Hsien Chou, An-Ping
Hsia, Denise L. Mooney and Patrick S. Schnable
[1]
Links:






http://www.affymetrix.com
http://www.charite.de/molbiol/bioinf/tumbiol/Microarrayanalysis/Introduction/
http://www.math.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec11/node11.html
http://www.stat.berkeley.edu/users/terry/Classes/s260.1998/Week9b/week9b/n
ode1.html
http://www.lshtm.ac.uk/itd/grf/microarrayoverview.htm
http://www.hhmi.org/biointeractive/genomics/microarray.html
[2]
Seminar „Fortgeschrittene algorithmische Bioinformatik“, SS05 - Vortrag Oligodesignprobleme
29
Herunterladen