DIALIGN Seminarvortrag von Germar Brauer Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 Übersicht DIALIGN = DIagonal ALIGNment Versionen: DIALIGN, DIALIGN 2, DIALIGN-T neue und spezielle Methode für multiples Sequenzalignment (MSA) Idee: Finden von Proteinfamilien mit gleicher Funktion (hochkonservierte Stücke in verschiedenen Organismen) Einsatzgebiet: Nukleinsäuresequenzen, Proteinsequenzen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 1 Voraussetzungen Algorithmus von Needleman-Wunsch mit gegebener Matrix (PAM, BLOSUM) „lokale“ Version von Smith-Waterman Regionen mit hoher Ähnlichkeit werden von Regionen mit geringer Ähnlichkeit unterbrochen (Introns bei DNA, Loops bei Proteinen) es werden Blöcke statt einzelner Zeichen miteinander verglichen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 2 Was wird untersucht? untersucht werden nur die Diagonalen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 3 Konsistente und nicht-konsistente Paare konsistente Zuordnung Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 4 Konsistente und nicht-konsistente Paare nicht-konsistente Zuordnung a) doppelte Belegung b) cross-over Zuordnung Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 5 Algorithmus Bilden aller optimalen paarweisen Alignments Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 6 Algorithmus gegeben : Diagonale D mit Länge l und Anzahl m von Matchen l P(l , m) li p i (1 p ) l i i m P ist die Wahrscheinlichkeit eine Diagonale der Länge l mit mindestens m Matches zu bekommen p Wahrscheinlichkeit in Matrix ein Match zu repräsentieren p=0,25 bei DNA, p=0,05 bei Proteinen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 7 Algorithmus E (l , m) : log( P(l , m)) E (l , m), fallsE (l , m) T w( D) : 0, sonst T ist frei wählbarer Schwellenwert (verringert Rauschen) die Länge Diagonale ist mindestens 7 Werte Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 8 Algorithmus Problem: - Dialign bevorzugt viele kurze Diagonalen vor wenigen langen - signifikante lokale Gemeinsamkeiten gehen im „Rauschen“ der kleinen zufälligen Diagonalen unter keine allgemeine Regel für T (Schwellenwert) benötigte Mindestlänge der Diagonalen ist sehr willkürlich Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 9 Algorithmus Lösung: neue Wahrscheinlichkeit in Dialign 2 P* (l , m) finde eine Diagonale der Länge l mit mindestens m gemeinsamen Paaren, in einer Vergleichsmatrix von 2 zufälligen Sequenzen mit derselben Länge, wie die Originalsequenzen die Wahrscheinlichkeit hängt nun von l, m und der Länge der Sequenzen ab w2 ( D) log( P* (l , m)) Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 10 Algorithmus P* (l , m) 105 basieren auf experimentell ermittelten Werten für kleinere Werte gilt folgende Approximation P (l , m) l1 l2 P(l , m) * definiere: K : log l1 log l2 w2 ( D) log P* (l , m) log[ l1 l2 P(l , m)] log P(l , m) log l1 log l2 w( D) K Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 11 Algorithmus (Overlap) Sj gehört zu Dl und Dm ~ w( Dl , Dm ) : w( Dn ) Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 12 Algorithmus (Overlap) sind Dl und Dm identisch oder haben keinen Overlap ~ w( Dl , Dm ) : 0 für eine beliebige Diagonale D wird Overlap-Gewicht folgendermaßen definiert ~( D, E ) w* ( D) : w( D) w ED Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 13 Algorithmus Gewichtsscore für Diagonalen berechnen je größer das Gewicht, desto signifikanter die Diagonale Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 14 Algorithmus Überführen der Diagonalen in MSA mit Greedy-Strategie Diagonale mit höchsten Score wird die erste Diagonale Überprüfen der weiteren Diagonalen auf Konsistenz und MSA hinzufügen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 15 Algorithmus Wiederholen des Algorithmus – weitere Diagonale D5 mit Gewicht 4,6 zum MSA hinzufügen im weiteren Schritt keine neuen Diagonalen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 16 Algorithmus einmal hinzugefügte Diagonale kann nicht mehr entfernt werden Ergebnis: alle Diagonalen werden in Spalten angeordnet unbenutzte Zeichen werden klein geschrieben Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 17 Überblick Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 18 Zeitkomplexität b( x, i) und b ( x, i ) „consistency bounds“ für x und Sequenz S1 b( x,1) 5 b( x,1) 9 für x und Sequenz S2 b( x,2) 4 b( x,2) 7 benötigt O( N L) für jede Diagonale, die zu M2 kommt 2 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 19 Zeitkomplexität (a) O( N 2 L2 ) (b) O ( N 4 na2 ) (c) O ( N 2 na ) (d) O( N 2 na N 2 L) Gesamtkomplexität: O( N L ) 4 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 2 20 Ergebnisse Vergleich mit anderen MSA Algorithmen HTH Sequenzanzahl DIALIGN 1, T=10 DIALIGN 2, T=0 TWOALIGN ITERALIGN CLUSTAL W 30 19,2,2 24,2 10,6,3,3 16 5,3,2,2,2 Transferase 16 16 16 13,2 15 13 bHLH 9 9 9 9 9 3,2 (HTH = Helix-Turn-Helix, bHLH = basic Helix-Loop-Helix) Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 21 Vorteile beim globalen Alignment vergleichbare Ergebnisse mit anderen Standardmethoden (Clustal W) bessere Ergebnisse im Vergleich mit anderen Methoden beim lokalen Alignment kleine hochkonservierte Regionen werden erkannt keine Strafpunkte für Gaps Nachteil: Dialign kann leicht im lokalen Maximum laufen Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 22 Screenshot http://bibiserv.techfak.uni-bielefeld.de/dialign/ Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 23 Beispiel Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 24 Literatur B. Morgenstern (1999) DIALIGN 2: improvement of the segment-tosegment approach to multiple sequence alignment. Bioinformatics 15, 211-218 B. Morgenstern, W.R. Atchley, K. Hahn, A. Dress (1998) Segmentbased scores for pairwise and multiple sequence alignments. Proceedings ISMB'98, pp. 115-121 B. Morgenstern, A. Dress, T. Werner (1996) Multiple DNA and protein sequence alignment based on segment-to-segment comparison.Proc. Natl. Acad. Sci. USA 93, 12098-12103 B. Morgenstern, K. Frech, A. Dress, T. Werner (1998) DIALIGN: Finding local similarities by multiple sequence alignment.Bioinformatics 14, 290294 Humboldt-Universität zu Berlin, Institut für Informatik, Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005 25