NJ-Algorithmus

Werbung
Bioinformatik
Neighbor Joining
Ulf Leser
Wissensmanagement in der
Bioinformatik
Tree of Life
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
2
Moderne Stammbaumberechnung
• Molecular phylogeny
• Mendel + Darwin: Das Erbgut unterliegt dem Wandel
• Berechnung von Stammbäumen aus molekularen Daten
– Zuckerkandl und Pauling, 1965
• Berechnung aufgrund von
DNA oder Proteinsequenzen
• Annahme: Evolution verläuft
in kleinen Schritten
• Wenn sich Sequenzen
ähnlich sind, sind die Spezies
evolutionär eng verwandt
– Denn zufällige Ähnlichkeit ist
zu unwahrscheinlich
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
3
Binäre versus Multifurcation Trees
A
B
C
D
E
• Erscheinen als
– Eines der Paare (A, B), (B,C), (A,C) wird minimal ähnlicher sein
A
B
C
D
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
E
4
Bäume ohne Wurzeln
• Kanten symbolisieren Veränderungen
• Viele Methoden berechnen nur innere Knoten, aber können keine
zeitliche Entwicklungsrichtung ableiten
AGT
1
GTA
GGA
AGA
ATA
1
1
1
1
CGA
AGA
AGA
ATA
AGT
GGA
CGA
GTA
GGA
ATA
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
AGT
CGA
GTA
5
Additive Bäume
• Ultrametriken: Label der inneren Knoten
• Andere Betrachtung: Berechnung der Kantenlabel
• Problem
Gegeben eine Ähnlichkeitsmatrix, finde einen binären
Baum so, dass die Summe der Kantenlabel auf dem Pfad
von jedem Knoten i zu jedem Knoten j gleich D[i,j] ist
• Bemerkung
– Da es nur Abstände gibt, hat der Baum zunächst keine Wurzel
2
A
B
C
B
C
D
6
8
12
4
8
6
1
B
1
1
1
C
B
5
5
5
D
A
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
1
D
A
1
C
5
D
6
Additive Bäume
• Definition
Sei D eine positive symmetrische Matrix mit n Spalten und
Zeilen und ∀i: D[i,i]=0. Ein Baum T heißt additiver Baum
für D gdw
– T hat n Blätter, beschriftet mit den Zeilen von D
– Innere Knoten in T sind nicht beschriftet, Kanten sind beschriftet
– Für jedes Paar i,j ist D[i,j] gleich der Summe der Kantenlabel auf
dem (eindeutigen) Pfad von i nach j
• Bemerkung
– Wenn eine Matrix einen additiven Baum besitzt, so nennen wir
auch die Matrix additiv
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
7
Neighbor-Joining
• Fragen
– Wie findet man einen additiven Baum zu einer gegebenen Matrix?
• Matrizen und Algorithmen
– Ultrametrische Matrizen – UPGMA
– Additive Matrizen – Neighbor Joining
• Hierarchisches Clusterverfahren (wie UPGMA)
– Erzeugt einen binären Baum ohne Wurzel
– Grundaufbau wie UPGMA
•
•
•
•
Beginne mit so vielen Clustern wie Blättern
Wähle nach bestimmtem Kriterium zwei Cluster
Verschmelze die zwei Cluster und verbinde Knoten im Baum
Iteriere, bis nur noch ein Cluster vorhanden ist
• Unterschiede
– UPGMA wählt Cluster zur Verschmelzung nur nach Nähe zueinander
– Neighbor Joining wählt Cluster nach der Nähe zueinander und dem
Abstand zu anderen Clustern
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
8
Verfahren 1
• Bilde aus jeder Zeile einen Cluster
• Berechne für jeden Cluster i den durchschnittlichen
Abstand ui zu allen anderen Clustern
D[i, k ]
ui = ∑
k ≠i n − 2
– n-2: Zahl innerer Knoten des ungewurzelten binären Baums
• Suche das Clusterpaar (i,j), für das gilt
D[i, j ] − ui − u j = min
!
– Möglich nahe beieinander
– Möglichst weit weg von allen anderen
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
9
Verfahren 2
• Erzeuge Cluster ij mit Kanten zu i und j mit Kantenlängen
d (i, ij ) =
D[i, j ] + ui − u j
2
d ( j , ij ) =
D[i, j ] + u j − ui
2
• Erzeuge neuen Clusterknoten ij mit Abständen zu anderen
Clustern
D[i, k ] + D[k , j ] − D[i, j ]
D[k , ij ] =
2
• Lösche Cluster i und j
• Iteriere, solange mehr als ein Cluster existiert
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
10
Erläuterung
• Idee für Kantenbeschriftungen
– Wir kennen x=a+b
i
(aus der Matrix)
b
c
– Wir kennen y=a+c
m
(aus den mittleren Abständen; uj)
a
j
– Genauso z=b+c
(aus den mittleren Abständen; ui)
– Es ergibt sich a = (x+y-z)/2 = (a+b+a+c-b-c)/2 = (2a)/2 = a
• Natürlich bildet ui, uj nicht genau y, z ab
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
11
Beispiel (hier scheiterte UPGMA)
NJ-Abstände der Clusterpaare
A
A
B
C
D
6
8
12
4
8
A
6
B
13
C
B
C
ui
13
9
A
A
9
B
CD
6
7
B
ui
13
9
B
C
D
-16
-14
-14
-14
-14
A
C
B
D
A
C
1
CD
5
B
-16
3
A
10
B
B
CD
-16
-16
D
A
C
CDB
-16
2
1
B
A
A
1
CD
5
A
BCD
D
5
C
5
CDBA 2
B
1
1
1
1
1
CD
5
D
Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010
B
5
A
1
C
5
12D
Herunterladen