Whole Genome Alignment mit Suffixbäumen „Fortgeschrittene Algorithmische Bioinformatik“ SoSe 2005 Emre Kutbay 1 Agenda • Einleitung - Was ist MUMer? • MUMer Core-Algorithmus • NUCmer - PROmer • weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05 2 Einleitung – was ist MUMer • Chromosome von Säugetieren alignieren • Inversionen & Duplikationen finden • alignieren der DNA-Sequenzen auf Proteinebene Fortgeschrittene Algorithmische Bioinformatik, SS05 3 Einleitung – was ist MUMer Quelle: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships. Fortgeschrittene Algorithmische Bioinformatik, SS05 4 Einleitung – was ist MUMer • Output von verschiedenen Assemblern bewerten • Assemblierung in verschiedenen Stadien eines WGSS-Projektes bewerten • Modularer Aufbau • Open Source http://mummer.sourceforge.net Fortgeschrittene Algorithmische Bioinformatik, SS05 5 Agenda • Einleitung • MUMer Core-Algorithmus • NUCmer - PROmer • weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05 6 Algorithmen 1. Suffix-Tree mit 12.5-15.4 bytes/bp • Krutz 2. Streaming der query-Sequenz • Nur eine Sequenz wird gespeichert 3. Cluster bilden und konsistente Pfade innerhalb von Clustern finden • Rearrangements in Chromosomen finden Fortgeschrittene Algorithmische Bioinformatik, SS05 7 Algorithmus: streaming Querysequenz: …atgtcc… Refernzsequenz: Fortgeschrittene Algorithmische Bioinformatik, SS05 8 Algorithmus: streaming Vorteil: • Nur einer der beiden Sequenzen wird im Suffixtree gespeichert • Viele Sequenzen können gegen diesen gestreamt werden Nachteil: • Erhöht Aufwand um uniqueness in der Querysequenz sicherzustellen… • braucht man nicht immer Fortgeschrittene Algorithmische Bioinformatik, SS05 9 Agenda • Einleitung • Algorithmen von MUMer • NUCmer – PROmer • weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05 10 NUCmer: clustering 1. mit MUMer: MUMs der Länge mindestens l finden 2. 2 MUMs maximal g Nukleotide voneinander entfernt: cluster bilden 3. Pfad mit den meisten kolinearen Matches in jedem Cluster ermitteln 4. Wenn die Anzahl der Matches > c: SW-Alignment in Zwischenräumen der Matches und Grenzen des Clusters Fortgeschrittene Algorithmische Bioinformatik, SS05 11 PROmer: entfernte Verwandte 1. Übersetzen aller 6 reading Frames der Referenz- und der Querysequenz in Proteine 2. MUMs finden mittels MUMer 3. Cluster bilden und erweitern mittels BLOSSUM62 4. Alle Alignments zurück auf DNAKoordinaten abbilden Fortgeschrittene Algorithmische Bioinformatik, SS05 12 NUCmer – PROmer: output Output: Serie von unabhängigen Alignment Regionen Fortgeschrittene Algorithmische Bioinformatik, SS05 13 NUCmer – PROmer: Kritik Clustering: • • Problem: MUMs in einem Cluster überlappen sich NUCmer/PROmer sucht kolineares Alignment, mit den meißten MUMs • • am besten alle im Cluster entfernen überlappender Teile der MUMs -> inkonsistentes Alignment Fortgeschrittene Algorithmische Bioinformatik, SS05 14 NUCmer – PROmer: Kritik MUMs Optimal MUMer Fortgeschrittene Algorithmische Bioinformatik, SS05 15 PROmer: Kritik Sensitivität: • MUMer sucht nach allen „l-guten“ Teilwörtern – auch bei Proteinen • Blast: 1. erzeuge Keyword-Tree aller Permutationen der Amino-Suchsequenz, 2. bewerte diese mit BLOSUM62 3. nimmt die Sequenzen mit einem größeren Score als l mit in die Suchquery auf Bsp.: MASGTLVWG und MTSDTSVRG Fortgeschrittene Algorithmische Bioinformatik, SS05 16 Agenda • Einleitung • Algorithmen von MUMer • NUCmer - PROmer • weitere Tools Fortgeschrittene Algorithmische Bioinformatik, SS05 17 shotgung-sequencing 1. Genom wird in Stücke zerlegt • Viele Millionen: 2 bis 150 kb 2. Ca. 650 bp werden sequenziert • • Das sind die „reads“ Genom ist zu >99% sequenziert, wenn man genug reads hat um es 8x abzudecken Stück (2 – 150kbp) read (650bp) Fortgeschrittene Algorithmische Bioinformatik, SS05 18 shotgung-sequencing • Bei 2Mb bakterielles Genom braucht man ca. 25.000 reads, da: 25.000 x 650bp > 2.000.000bp x8 4. Reads werden assembliert • output: viele Tausend contigs 5. „Finishing“: Reihenfolge und Orientierung der Contigs ermitteln und Gaps füllen Fortgeschrittene Algorithmische Bioinformatik, SS05 19 Weitere Tools – DisplayMUMs zoomend in nucleotide alignment alignment summary Alignment tiles Fortgeschrittene Algorithmische Bioinformatik, SS05 20 DisplayMUMs • Vergleich des Outputs zweier Assembler – Bewertung der „Güte“ von Assemblern aus: Weizman Institute of Science • Vergleich von Sequenzen zweier nah verwandter Spezies Fortgeschrittene Algorithmische Bioinformatik, SS05 21 Weitere Tools – MapView Alternative Referenzsequenz Splicevarianten 100% Match 75% Vergrößerung Fortgeschrittene Algorithmische Bioinformatik, SS05 50% 22 Referenzen Referenzen: Fast algorithms for large-scale genome alignment and comparison • Delcher, A. L., Phillippy, A., Carlton, J. and Salzberg, S. L. Versatile and open software for comparing large genomes • Stefan Kurtz, Adam Phillippy, Arthur L Delcher, Michael Smoot, Martin Shumway, Corina Antonescu and Steven L. Salzberg An applications-focused review of comparative genomics tools: capabilities, limitations and future challenges. • Chain, P., Kurtz, S., Ohlebusch, E. and Slezak, T. Skript Bioinformatik WS 2004/2005 • Leser U. Fortgeschrittene Algorithmische Bioinformatik, SS05 23 Referenzen Bildmaterial: Multi-BUS: An algorithm for resolving multi-species gene correspondence and gene family relationships • Matthew Rasmussen, Manolis Kellis Weizman Institute of Science • http://www.weizmann.ac.il/biological_services/dna_seq/dna_seq.html Fortgeschrittene Algorithmische Bioinformatik, SS05 24 Ende Fragen? Fortgeschrittene Algorithmische Bioinformatik, SS05 25