Algorithmen der Bioinformatik Vorlesung WS 2001/02 Prof. Dr. Volker Sperschneider Fachbereich Mathematik/Informatik Universität Osnabrück Inhaltsverzeichnis Einleitung Literatur §1 Genome Mapping 1.1 Single Digest 1.2 Double Digest 1.3 Mapping by Hybridization (MBH) 1.4 Intervallgraphen 1.5 Minimal Single Digest Setting 1 1 6 7 26 27 §2 Genome Sequencing 2.1 Shotgun-Methode und Shortest Super Strings 2.2 DNA-Chips und Sequencing by Hybridization (SBH) 28 28 48 §3 Sequence Alignment 3.1 Global Alignment 3.2 Semiglobales Alignment (Endspace Free Alignment) 3.3 Lokales Alignment 3.4 Gap Alignment 3.5 Alignment ähnlicher Strings 3.6 Einige Anwendungen und “Erfolgsstories” für Alignments 3.7 Multiples Alignment 3.7.1 Sum-of-pairs-Alignment (SP-Alignment) 3.7.2 Steiner-Strings 3.7.3 Consensus-Strings 3.7.4 Tree Alignment 3.7.5 Iteratives parrweises Alignment 3.7.6 Profil-Alignment 3.7.7 Motiv-Alignment und Clustering 3.7.8 HMM-Alignment 53 54 61 67 68 71 73 74 76 84 86 89 94 95 98 99 §4 Signal Finding and Gene Prediction 4.1 Exon Assembly Problem 4.2 Auftrittswahrscheinlichkeit von Wörtern in Texten 4.3 Log-Likelihood-Site-Test 107 107 113 120 §5 Genome Rearrangement 5.1 Directed Rearrangement 5.1.1 Elementare Begriffe 5.1.2 Break Points 5.1.3 Modellierungsebene 1 – Das Reality-Desire-Diagramm 5.1.4 Modellierungsebene 2 – Kreise im Reality-Desire-Diagramm 5.1.5 Modellierungsebene 3 – Familien von Kreisen 5.1.6 Modellierungsebene 4 – Familien von Zusammenhangskomponenten 5.2 Undirected Rearrangement 123 125 125 126 126 129 134 140 155 §6 Phylogenetic Trees 6.1 Vorbemerkungen zu binären Bäumen 6.2 Ultrametrische Bäume und Ultrametriken 6.3 Additive Bäume und additive Metriken 6.4 Umbau eines ultrametrischen Baumes in einen additiven Baum 6.5 Umbau eines ausbalancierten ultrametrischen Baumes in einen additiven Baum 6.6 Kompakte additive Bäume 6.7 Additivitätstest und Konstruktion eines additiven Baumes 6.8 Additivitätstest mittels ultrametrischer Bäume 6.9 Die 4-Punkt-Bedingung 6.10 Aus der 4-Punkt-Bedingung folgt die 3-Punkt-Bedingung 6.11 Sandwich-Probleme 6.12 Perfekte phylogenetische Bäume 6.13 Ungeordnete Merkmale 6.14 Konstruktion perfekter phylogenetischer Bäume mittels ultrametrischer Bäume 166 166 167 172 173 175 175 177 183 188 190 193 193 198 198 Anhang B (Biologie) B.1 Desoxyribonukleinsäure (DNA) B.2 Replikation B.3 Biochemische Verfahren zur Manipulation und Analyse von DNA B.4 Proteine B.5 Der genetische Code B.6 Proteinstruktur 199 202 203 205 207 208 Anhang I (Informatik) I.1 Strings I.2 Pattern Matching I.3 Suffix-Bäume I.4 Effiziente Algorithmen, Komplexitätstheorie, P und NP 210 210 211 221 228 Anhang M (Mathematik) M.1 Graphentheoretische Grundbegriffe M.2 Eulergraphen M.3 Minimale Spannbäume M.4 Hidden-Markov-Modelle (HMM) 234 234 240 243 248 Anhang W (Werkzeuge der Bioinformatik) W.1 PAM-Matrizen ( “point accepted mutation” oder “percent accepted mutation“) W.2 PROSITE (“protein sites”) W.3 BLOCKS (“blocks”) W.4 BLOSUM (“BLOCKS substitution”) W.5 FASTA (“fast-all”) W.6 BLAST (“basic local alignment search tool”) 257 258 260 260 261 262 267 Einleitung Das vorliegende Skriptum gibt den Stoff der von mir im WS 2001/02 im Fachbereich Mathematik/Informatik der Universität Osnabrück gehaltenen 4-stündigen Vorlesung „Bioinformatik“ wider. Thematischer Schwerpunkt dieser Vorlesung war der Entwurf und die Analyse von fundamentalen Algorithmen im Umfeld der Bioinformatik. Dabei habe ich mich auf klassische algorithmische Vorgehensweisen konzentriert; ausgeklammert – bzw. auf das SS 2002 in die Vorlesung „Spezielle Fragen der Bioinformatik“ verschoben – wurden Ansätze des Maschinellen Lernens. Die molekularbiologischen Hintergründe wurden nur insoweit skizziert, als es für das Verständnis der algorithmischen Problemstellungen erforderlich war. So gesehen hätte ein Biologe sicherlich andere Schwerpunkte gesetzt. Wenig eingegangen wurde auf Werkzeuge der Bioinformatik wie Datenbanken und Suchwerkzeuge, graphische Darstellungstools, Internet-basierte Werkzeuge, etc. Zwar sind solche vorgefertigten Werkzeuge für den praktisch arbeitenden Bioinformatiker sicherlich von größter Bedeutung, doch wurde die Vermittlung von handwerklichem Know-How in diesem Bereich anderen (existierenden) Lehrveranstaltungen an der Universität Osnabrück überlassen. Die Vorlesung richtete sich somit primär an den Informatiker, der die spezifischen algorithmischen Probleme und Fragestellungen der Molekularbiologie verstehen und Problemanalyse- und Algorithmenentwurfsmethoden kennen lernen möchte, mit denen er vorgelegte Probleme bearbeiten kann. Anders gesagt war der Blick hinter die Kulissen des Problemlösungs- und Algorithmenentwurfsgeschäft das Ziel der Vorlesung mit dem Anliegen, den Hörer auf eventuelle neue solche Aufgabenstellungen vorzubereiten. Die Themenauswahl ist dabei so zu verstehen, dass ausgehend von der Grobanalyse der DNA (Mapping), über ihre exakte Analyse (Sequencing), den Vergleich und die Suche nach Ähnlichkeiten (Alignment), die Interpretation von DNA im Hinblick auf Signale und Gene (Signal Finding and Gene Prediction), den Genomvergleich auf Genebene (Genome Rearrangement) bis hin zur Konstruktion phylogenetischer Bäume auf der Basis genomischer Information (Phylogenetic Trees) eine erste Übersicht über zentrale Themen hergestellt und in die genannten Bereiche in exemplarischer Weise hinein geleuchtet werden sollte. Dabei war in keinem der Themengebiete eine erschöpfende Abhandlung intendiert. Anliegen war es vielmehr, in einzelne Probleme und Algorithmen „spot-light-artig“ etwas detaillierter hineinzublicken. Das dabei erforderliche Handwerkszeug aus der Mathematik und Informatik (insbesondere aus den Bereichen Graphentheorie, Stochastik, Algorithmen und Datenstrukturen, Komplexität, NP-Theorie) wurde in Anhänge ausgelagert. Der Leser möge durch Blättern in diesen Anhängen gegebenenfalls versuchen, begriffliche und methodische Defizite auszugleichen. Ein sehr kurzer Anhang zur Molekularbiologie skizziert die wichtigsten Dinge aus der Biologie der Zellen, die zum Verständnis der Vorlesung erforderlich sind. Mein Dank gilt allen Hörern der Vorlesung, die meinen Vorlesungsstil 15 Wochen eisern ertragen haben – insbesondere im Hinblick auf meine zeichnerischen Fähigkeiten (Wer kann schon eine Doppelhelix oder ein Reality-Desire-Diagramm mit 74 Knoten an die Tafel malen?) -, ferner allen Teilnehmern, die mit eigenen, gelungenen Referaten das Themenspektrum der Vorlesung erweitert haben, ganz besonders aber Anja Siemer für das sorgfältige Korrekturlesen des Skriptums und Verbesserungsvorschläge und Jens Haubrich, der in hervorragender Weise für eine Web-Präsenz der Veranstaltung gesorgt hat. Osnabrück, Februar 2002 Volker Sperschneider Literatur Lehrbücher zur Bioinformatik Dan Gusfield: Algorithms on strings, trees, and sequences : computer science and computational biology, Cambridge Univ. Press, 1999, 534 S. ISBN 0521585198 João Setubal; João Meidanis: Introduction to computational molecular biology, Boston Mass., PWS Publ. Co., 2000, 296 S. ISBN 0534952623 Pavel A. Pevzner: Computationale Molecular Biology – An Algorithmic Approach, Bradford Book, 2000, 332 S. ISBN: 0262161974 Peter Clote; Rolf Backofen: Computational molecular biology : an introduction, Chichester, John Wiley, 2000, 286 S., ISBN 0471872512 ; 0471872520 Pierre Baldi; Søren Brunak: Bioinformatics : the machine learning approach, Cambridge, Mass., MIT Press, 1998, 351 S. ISBN 026202442X Kompendien der Molekularbiologie Bruce Alberts et al: Molecular biology of the cell, New York, Garland Publ., 1994 ISBN 0815316194 ; 0815316208 Christopher K. Mathews; K. E. van Holde: Biochemistry, Menlo Park, Calif., Benjamin/Cummings Pub., 1996, 1159 S. ISBN 0805339310 Benjamin Lewin: Genes VII, Oxford, Oxford Univ. Pr., 1990, [550 S]. ISBN 0198542682 Carl Branden; John Tooze: Introduction to protein structure, New York, Garland Publ., 1991, 302 S. ISBN 0815303440 ; 0815302703 Einführungen in die Theoretische Informatik und Komplexitätstheorie Volker Sperschneider; Barbara Hammer: Theoretische Informatik: eine problemorientierte Einführung, Berlin, Springer, 1996, 193 S. ISBN 3540608605 Online-Version (ps) verfügbar unter http://www.inf.uos.de/barbara/papers/pub_hammer.html. Christos H. Papadimitriou: Computational complexity, Reading, Mass., Addison-Wesley, 1995, 523 S. ISBN 0201530821