Folien - Institut für Informatik

Whole Genome Alignment
mit Suffixbäumen
„Fortgeschrittene Algorithmische Bioinformatik“
SoSe 2005
Emre Kutbay
1
Agenda
• Einleitung - Was ist MUMer?
• MUMer Core-Algorithmus
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
2
Einleitung – was ist MUMer
• Chromosome von
Säugetieren
alignieren
• Inversionen &
Duplikationen
finden
• alignieren der
DNA-Sequenzen
auf Proteinebene
Fortgeschrittene Algorithmische Bioinformatik, SS05
3
Einleitung – was ist MUMer
Quelle: Multi-BUS: An algorithm for resolving multi-species gene
correspondence and gene family relationships.
Fortgeschrittene Algorithmische Bioinformatik, SS05
4
Einleitung – was ist MUMer
• Output von verschiedenen Assemblern
bewerten
• Assemblierung in verschiedenen Stadien
eines WGSS-Projektes bewerten
• Modularer Aufbau
• Open Source http://mummer.sourceforge.net
Fortgeschrittene Algorithmische Bioinformatik, SS05
5
Agenda
• Einleitung
• MUMer Core-Algorithmus
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
6
Algorithmen
1. Suffix-Tree mit 12.5-15.4 bytes/bp
•
Krutz
2. Streaming der query-Sequenz
•
Nur eine Sequenz wird gespeichert
3. Cluster bilden und konsistente Pfade
innerhalb von Clustern finden
•
Rearrangements in Chromosomen finden
Fortgeschrittene Algorithmische Bioinformatik, SS05
7
Algorithmus: streaming
Querysequenz:
…atgtcc…
Refernzsequenz:
Fortgeschrittene Algorithmische Bioinformatik, SS05
8
Algorithmus: streaming
Vorteil:
• Nur einer der beiden Sequenzen wird
im Suffixtree gespeichert
• Viele Sequenzen können gegen diesen
gestreamt werden
Nachteil:
• Erhöht Aufwand um uniqueness in der
Querysequenz sicherzustellen…
•
braucht man nicht immer
Fortgeschrittene Algorithmische Bioinformatik, SS05
9
Agenda
• Einleitung
• Algorithmen von MUMer
• NUCmer – PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
10
NUCmer: clustering
1. mit MUMer: MUMs der Länge
mindestens l finden
2. 2 MUMs maximal g Nukleotide
voneinander entfernt: cluster bilden
3. Pfad mit den meisten kolinearen
Matches in jedem Cluster ermitteln
4. Wenn die Anzahl der Matches > c:
SW-Alignment in Zwischenräumen der
Matches und Grenzen des Clusters
Fortgeschrittene Algorithmische Bioinformatik, SS05
11
PROmer: entfernte Verwandte
1. Übersetzen aller 6 reading Frames der
Referenz- und der Querysequenz in
Proteine
2. MUMs finden mittels MUMer
3. Cluster bilden und erweitern mittels
BLOSSUM62
4. Alle Alignments zurück auf DNAKoordinaten abbilden
Fortgeschrittene Algorithmische Bioinformatik, SS05
12
NUCmer – PROmer: output
Output: Serie von unabhängigen
Alignment Regionen
Fortgeschrittene Algorithmische Bioinformatik, SS05
13
NUCmer – PROmer: Kritik
Clustering:
•
•
Problem: MUMs in einem Cluster
überlappen sich
NUCmer/PROmer sucht kolineares
Alignment, mit den meißten MUMs
•
•
am besten alle im Cluster
entfernen überlappender Teile der
MUMs -> inkonsistentes Alignment
Fortgeschrittene Algorithmische Bioinformatik, SS05
14
NUCmer – PROmer: Kritik
MUMs
Optimal
MUMer
Fortgeschrittene Algorithmische Bioinformatik, SS05
15
PROmer: Kritik
Sensitivität:
• MUMer sucht nach allen „l-guten“
Teilwörtern – auch bei Proteinen
• Blast:
1. erzeuge Keyword-Tree aller
Permutationen der Amino-Suchsequenz,
2. bewerte diese mit BLOSUM62
3. nimmt die Sequenzen mit einem größeren
Score als l mit in die Suchquery auf
Bsp.: MASGTLVWG und MTSDTSVRG
Fortgeschrittene Algorithmische Bioinformatik, SS05
16
Agenda
• Einleitung
• Algorithmen von MUMer
• NUCmer - PROmer
• weitere Tools
Fortgeschrittene Algorithmische Bioinformatik, SS05
17
shotgung-sequencing
1. Genom wird in Stücke zerlegt
•
Viele Millionen: 2 bis 150 kb
2. Ca. 650 bp werden sequenziert
•
•
Das sind die „reads“
Genom ist zu >99% sequenziert,
wenn man genug reads hat um es 8x
abzudecken
Stück (2 – 150kbp)
read (650bp)
Fortgeschrittene Algorithmische Bioinformatik, SS05
18
shotgung-sequencing
•
Bei 2Mb bakterielles Genom braucht
man ca. 25.000 reads, da:
25.000 x 650bp > 2.000.000bp x8
4. Reads werden assembliert
•
output: viele Tausend contigs
5. „Finishing“: Reihenfolge und
Orientierung der Contigs ermitteln und
Gaps füllen
Fortgeschrittene Algorithmische Bioinformatik, SS05
19
Weitere Tools – DisplayMUMs
zoomend in
nucleotide
alignment
alignment
summary
Alignment
tiles
Fortgeschrittene Algorithmische Bioinformatik, SS05
20
DisplayMUMs
•
Vergleich des Outputs zweier
Assembler
–
Bewertung der „Güte“ von Assemblern
aus: Weizman Institute of Science
•
Vergleich von Sequenzen zweier nah
verwandter Spezies
Fortgeschrittene Algorithmische Bioinformatik, SS05
21
Weitere Tools – MapView
Alternative
Referenzsequenz
Splicevarianten
100%
Match
75%
Vergrößerung
Fortgeschrittene Algorithmische Bioinformatik, SS05
50%
22
Referenzen
Referenzen:
Fast algorithms for large-scale genome alignment and comparison
•
Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L.
Versatile and open software for comparing large genomes
•
Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin
Shumway, Corina Antonescu and Steven L. Salzberg
An applications-focused review of comparative genomics tools: capabilities,
limitations and future challenges.
•
Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T.
Skript Bioinformatik WS 2004/2005
•
Leser U.
Fortgeschrittene Algorithmische Bioinformatik, SS05
23
Referenzen
Bildmaterial:
Multi-BUS: An algorithm for resolving multi-species gene correspondence
and gene family relationships
•
Matthew Rasmussen, Manolis Kellis
Weizman Institute of Science
•
http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html
Fortgeschrittene Algorithmische Bioinformatik, SS05
24
Ende
Fragen?
Fortgeschrittene Algorithmische Bioinformatik, SS05
25