Folien - Institut für Informatik

DIALIGN
Seminarvortrag von
Germar Brauer
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
Übersicht

DIALIGN = DIagonal ALIGNment

Versionen: DIALIGN, DIALIGN 2, DIALIGN-T

neue und spezielle Methode für multiples
Sequenzalignment (MSA)

Idee: Finden von Proteinfamilien mit gleicher Funktion
(hochkonservierte Stücke in verschiedenen Organismen)

Einsatzgebiet: Nukleinsäuresequenzen, Proteinsequenzen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
1
Voraussetzungen

Algorithmus von Needleman-Wunsch mit gegebener Matrix
(PAM, BLOSUM)

„lokale“ Version von Smith-Waterman

Regionen mit hoher Ähnlichkeit werden von Regionen mit
geringer Ähnlichkeit unterbrochen (Introns bei DNA, Loops
bei Proteinen)

es werden Blöcke statt einzelner Zeichen miteinander
verglichen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
2
Was wird untersucht?

untersucht werden nur die Diagonalen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
3
Konsistente und nicht-konsistente Paare

konsistente Zuordnung
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
4
Konsistente und nicht-konsistente Paare


nicht-konsistente Zuordnung
a) doppelte Belegung

b) cross-over Zuordnung
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
5
Algorithmus

Bilden aller optimalen paarweisen Alignments
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
6
Algorithmus

gegeben : Diagonale D mit Länge l und Anzahl m von
Matchen
l
P(l , m)    li p i (1  p ) l i
i m

P ist die Wahrscheinlichkeit eine Diagonale der Länge l
mit mindestens m Matches zu bekommen

p Wahrscheinlichkeit in Matrix ein Match zu
repräsentieren

p=0,25 bei DNA, p=0,05 bei Proteinen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
7
Algorithmus
E (l , m) :  log( P(l , m))
E (l , m), fallsE (l , m)  T
w( D) : 
0, sonst

T ist frei wählbarer Schwellenwert (verringert Rauschen)

die Länge Diagonale ist mindestens 7 Werte
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
8
Algorithmus

Problem: - Dialign bevorzugt viele kurze Diagonalen vor
wenigen langen
- signifikante lokale Gemeinsamkeiten gehen im
„Rauschen“ der kleinen zufälligen Diagonalen
unter

keine allgemeine Regel für T (Schwellenwert)

benötigte Mindestlänge der Diagonalen ist sehr willkürlich
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
9
Algorithmus

Lösung: neue Wahrscheinlichkeit in Dialign 2

P* (l , m) finde eine Diagonale der Länge l mit mindestens
m gemeinsamen Paaren, in einer Vergleichsmatrix von
2 zufälligen Sequenzen mit derselben Länge, wie die
Originalsequenzen

die Wahrscheinlichkeit hängt nun von l, m und der
Länge der Sequenzen ab
w2 ( D)   log( P* (l , m))
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
10
Algorithmus

P* (l , m)  105 basieren auf experimentell ermittelten
Werten

für kleinere Werte gilt folgende Approximation
P (l , m)  l1  l2  P(l , m)
*

definiere:
K : log l1  log l2
w2 ( D)   log P* (l , m)   log[ l1  l2  P(l , m)]
  log P(l , m)  log l1  log l2  w( D)  K
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
11
Algorithmus (Overlap)

Sj gehört zu Dl und Dm
~
w( Dl , Dm ) : w( Dn )
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
12
Algorithmus (Overlap)

sind Dl und Dm identisch oder haben keinen Overlap
~
w( Dl , Dm ) : 0

für eine beliebige Diagonale D wird Overlap-Gewicht
folgendermaßen definiert
~( D, E )
w* ( D) : w( D)   w
ED
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
13
Algorithmus

Gewichtsscore für Diagonalen berechnen

je größer das Gewicht, desto signifikanter die Diagonale
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
14
Algorithmus

Überführen der Diagonalen in MSA mit Greedy-Strategie

Diagonale mit höchsten Score wird die erste Diagonale

Überprüfen der weiteren Diagonalen auf Konsistenz und
MSA hinzufügen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
15
Algorithmus

Wiederholen des Algorithmus – weitere Diagonale

D5 mit Gewicht 4,6 zum MSA hinzufügen

im weiteren Schritt keine neuen Diagonalen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
16
Algorithmus

einmal hinzugefügte Diagonale kann nicht mehr entfernt
werden

Ergebnis: alle Diagonalen werden in Spalten angeordnet
unbenutzte Zeichen werden klein geschrieben
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
17
Überblick
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
18
Zeitkomplexität
b( x, i)
und
b ( x, i )

„consistency bounds“

für x und Sequenz S1
b( x,1)  5 b( x,1)  9

für x und Sequenz S2
b( x,2)  4 b( x,2)  7

benötigt
O( N  L) für jede Diagonale, die zu M2 kommt
2
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
19
Zeitkomplexität

(a)
O( N 2  L2 )

(b)
O ( N 4  na2 )

(c)
O ( N 2  na )

(d)
O( N 2  na  N 2  L)

Gesamtkomplexität:
O( N  L )
4
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
2
20
Ergebnisse

Vergleich mit anderen MSA Algorithmen
HTH
Sequenzanzahl
DIALIGN 1, T=10
DIALIGN 2, T=0
TWOALIGN
ITERALIGN
CLUSTAL W
30
19,2,2
24,2
10,6,3,3
16
5,3,2,2,2
Transferase
16
16
16
13,2
15
13
bHLH
9
9
9
9
9
3,2
(HTH = Helix-Turn-Helix, bHLH = basic Helix-Loop-Helix)
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
21
Vorteile

beim globalen Alignment vergleichbare Ergebnisse mit
anderen Standardmethoden (Clustal W)

bessere Ergebnisse im Vergleich mit anderen Methoden
beim lokalen Alignment

kleine hochkonservierte Regionen werden erkannt

keine Strafpunkte für Gaps

Nachteil: Dialign kann leicht im lokalen Maximum laufen
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
22
Screenshot
http://bibiserv.techfak.uni-bielefeld.de/dialign/
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
23
Beispiel
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
24
Literatur

B. Morgenstern (1999) DIALIGN 2: improvement of the segment-tosegment approach to multiple sequence alignment. Bioinformatics 15,
211-218

B. Morgenstern, W.R. Atchley, K. Hahn, A. Dress (1998) Segmentbased scores for pairwise and multiple sequence alignments.
Proceedings ISMB'98, pp. 115-121

B. Morgenstern, A. Dress, T. Werner (1996) Multiple DNA and protein
sequence alignment based on segment-to-segment comparison.Proc.
Natl. Acad. Sci. USA 93, 12098-12103

B. Morgenstern, K. Frech, A. Dress, T. Werner (1998) DIALIGN: Finding
local similarities by multiple sequence alignment.Bioinformatics 14, 290294
Humboldt-Universität zu Berlin, Institut für Informatik,
Seminar “Fortgeschrittene algorithmische Bioinformatik”, SS 2005
25