Bioinformatik Neighbor Joining Ulf Leser Wissensmanagement in der Bioinformatik Tree of Life Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 2 Moderne Stammbaumberechnung • Molecular phylogeny • Mendel + Darwin: Das Erbgut unterliegt dem Wandel • Berechnung von Stammbäumen aus molekularen Daten – Zuckerkandl und Pauling, 1965 • Berechnung aufgrund von DNA oder Proteinsequenzen • Annahme: Evolution verläuft in kleinen Schritten • Wenn sich Sequenzen ähnlich sind, sind die Spezies evolutionär eng verwandt – Denn zufällige Ähnlichkeit ist zu unwahrscheinlich Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 3 Binäre versus Multifurcation Trees A B C D E • Erscheinen als – Eines der Paare (A, B), (B,C), (A,C) wird minimal ähnlicher sein A B C D Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 E 4 Bäume ohne Wurzeln • Kanten symbolisieren Veränderungen • Viele Methoden berechnen nur innere Knoten, aber können keine zeitliche Entwicklungsrichtung ableiten AGT 1 GTA GGA AGA ATA 1 1 1 1 CGA AGA AGA ATA AGT GGA CGA GTA GGA ATA Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 AGT CGA GTA 5 Additive Bäume • Ultrametriken: Label der inneren Knoten • Andere Betrachtung: Berechnung der Kantenlabel • Problem Gegeben eine Ähnlichkeitsmatrix, finde einen binären Baum so, dass die Summe der Kantenlabel auf dem Pfad von jedem Knoten i zu jedem Knoten j gleich D[i,j] ist • Bemerkung – Da es nur Abstände gibt, hat der Baum zunächst keine Wurzel 2 A B C B C D 6 8 12 4 8 6 1 B 1 1 1 C B 5 5 5 D A Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 1 D A 1 C 5 D 6 Additive Bäume • Definition Sei D eine positive symmetrische Matrix mit n Spalten und Zeilen und ∀i: D[i,i]=0. Ein Baum T heißt additiver Baum für D gdw – T hat n Blätter, beschriftet mit den Zeilen von D – Innere Knoten in T sind nicht beschriftet, Kanten sind beschriftet – Für jedes Paar i,j ist D[i,j] gleich der Summe der Kantenlabel auf dem (eindeutigen) Pfad von i nach j • Bemerkung – Wenn eine Matrix einen additiven Baum besitzt, so nennen wir auch die Matrix additiv Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 7 Neighbor-Joining • Fragen – Wie findet man einen additiven Baum zu einer gegebenen Matrix? • Matrizen und Algorithmen – Ultrametrische Matrizen – UPGMA – Additive Matrizen – Neighbor Joining • Hierarchisches Clusterverfahren (wie UPGMA) – Erzeugt einen binären Baum ohne Wurzel – Grundaufbau wie UPGMA • • • • Beginne mit so vielen Clustern wie Blättern Wähle nach bestimmtem Kriterium zwei Cluster Verschmelze die zwei Cluster und verbinde Knoten im Baum Iteriere, bis nur noch ein Cluster vorhanden ist • Unterschiede – UPGMA wählt Cluster zur Verschmelzung nur nach Nähe zueinander – Neighbor Joining wählt Cluster nach der Nähe zueinander und dem Abstand zu anderen Clustern Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 8 Verfahren 1 • Bilde aus jeder Zeile einen Cluster • Berechne für jeden Cluster i den durchschnittlichen Abstand ui zu allen anderen Clustern D[i, k ] ui = ∑ k ≠i n − 2 – n-2: Zahl innerer Knoten des ungewurzelten binären Baums • Suche das Clusterpaar (i,j), für das gilt D[i, j ] − ui − u j = min ! – Möglich nahe beieinander – Möglichst weit weg von allen anderen Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 9 Verfahren 2 • Erzeuge Cluster ij mit Kanten zu i und j mit Kantenlängen d (i, ij ) = D[i, j ] + ui − u j 2 d ( j , ij ) = D[i, j ] + u j − ui 2 • Erzeuge neuen Clusterknoten ij mit Abständen zu anderen Clustern D[i, k ] + D[k , j ] − D[i, j ] D[k , ij ] = 2 • Lösche Cluster i und j • Iteriere, solange mehr als ein Cluster existiert Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 10 Erläuterung • Idee für Kantenbeschriftungen – Wir kennen x=a+b i (aus der Matrix) b c – Wir kennen y=a+c m (aus den mittleren Abständen; uj) a j – Genauso z=b+c (aus den mittleren Abständen; ui) – Es ergibt sich a = (x+y-z)/2 = (a+b+a+c-b-c)/2 = (2a)/2 = a • Natürlich bildet ui, uj nicht genau y, z ab Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 11 Beispiel (hier scheiterte UPGMA) NJ-Abstände der Clusterpaare A A B C D 6 8 12 4 8 A 6 B 13 C B C ui 13 9 A A 9 B CD 6 7 B ui 13 9 B C D -16 -14 -14 -14 -14 A C B D A C 1 CD 5 B -16 3 A 10 B B CD -16 -16 D A C CDB -16 2 1 B A A 1 CD 5 A BCD D 5 C 5 CDBA 2 B 1 1 1 1 1 CD 5 D Ulf Leser: Algorithmische Bioinformatik, Wintersemester 2009/2010 B 5 A 1 C 5 12D