2 Genome Sequencing - Universität Osnabrück

Werbung
Algorithmen der Bioinformatik
Vorlesung WS 2001/02
Prof. Dr. Volker Sperschneider
Fachbereich Mathematik/Informatik
Universität Osnabrück
Inhaltsverzeichnis
Einleitung
Literatur
§1
Genome Mapping
1.1
Single Digest
1.2
Double Digest
1.3
Mapping by Hybridization (MBH)
1.4
Intervallgraphen
1.5
Minimal Single Digest Setting
1
1
6
7
26
27
§2
Genome Sequencing
2.1
Shotgun-Methode und Shortest Super Strings
2.2
DNA-Chips und Sequencing by Hybridization (SBH)
28
28
48
§3
Sequence Alignment
3.1 Global Alignment
3.2 Semiglobales Alignment (Endspace Free Alignment)
3.3 Lokales Alignment
3.4 Gap Alignment
3.5 Alignment ähnlicher Strings
3.6 Einige Anwendungen und “Erfolgsstories” für Alignments
3.7 Multiples Alignment
3.7.1
Sum-of-pairs-Alignment (SP-Alignment)
3.7.2
Steiner-Strings
3.7.3
Consensus-Strings
3.7.4
Tree Alignment
3.7.5
Iteratives parrweises Alignment
3.7.6
Profil-Alignment
3.7.7
Motiv-Alignment und Clustering
3.7.8
HMM-Alignment
53
54
61
67
68
71
73
74
76
84
86
89
94
95
98
99
§4
Signal Finding and Gene Prediction
4.1 Exon Assembly Problem
4.2 Auftrittswahrscheinlichkeit von Wörtern in Texten
4.3 Log-Likelihood-Site-Test
107
107
113
120
§5
Genome Rearrangement
5.1 Directed Rearrangement
5.1.1
Elementare Begriffe
5.1.2
Break Points
5.1.3
Modellierungsebene 1 – Das Reality-Desire-Diagramm
5.1.4
Modellierungsebene 2 – Kreise im Reality-Desire-Diagramm
5.1.5
Modellierungsebene 3 – Familien von Kreisen
5.1.6
Modellierungsebene 4 – Familien von Zusammenhangskomponenten
5.2 Undirected Rearrangement
123
125
125
126
126
129
134
140
155
§6
Phylogenetic Trees
6.1
Vorbemerkungen zu binären Bäumen
6.2
Ultrametrische Bäume und Ultrametriken
6.3
Additive Bäume und additive Metriken
6.4
Umbau eines ultrametrischen Baumes in einen additiven Baum
6.5
Umbau eines ausbalancierten ultrametrischen Baumes in einen additiven
Baum
6.6
Kompakte additive Bäume
6.7
Additivitätstest und Konstruktion eines additiven Baumes
6.8
Additivitätstest mittels ultrametrischer Bäume
6.9
Die 4-Punkt-Bedingung
6.10
Aus der 4-Punkt-Bedingung folgt die 3-Punkt-Bedingung
6.11
Sandwich-Probleme
6.12
Perfekte phylogenetische Bäume
6.13
Ungeordnete Merkmale
6.14
Konstruktion perfekter phylogenetischer Bäume mittels ultrametrischer
Bäume
166
166
167
172
173
175
175
177
183
188
190
193
193
198
198
Anhang B (Biologie)
B.1
Desoxyribonukleinsäure (DNA)
B.2
Replikation
B.3
Biochemische Verfahren zur Manipulation und Analyse von DNA
B.4
Proteine
B.5
Der genetische Code
B.6
Proteinstruktur
199
202
203
205
207
208
Anhang I (Informatik)
I.1
Strings
I.2
Pattern Matching
I.3
Suffix-Bäume
I.4
Effiziente Algorithmen, Komplexitätstheorie, P und NP
210
210
211
221
228
Anhang M (Mathematik)
M.1
Graphentheoretische Grundbegriffe
M.2
Eulergraphen
M.3
Minimale Spannbäume
M.4
Hidden-Markov-Modelle (HMM)
234
234
240
243
248
Anhang W (Werkzeuge der Bioinformatik)
W.1
PAM-Matrizen ( “point accepted mutation” oder “percent accepted
mutation“)
W.2
PROSITE (“protein sites”)
W.3
BLOCKS (“blocks”)
W.4
BLOSUM (“BLOCKS substitution”)
W.5
FASTA (“fast-all”)
W.6
BLAST (“basic local alignment search tool”)
257
258
260
260
261
262
267
Einleitung
Das vorliegende Skriptum gibt den Stoff der von mir im WS 2001/02 im Fachbereich Mathematik/Informatik der Universität Osnabrück gehaltenen 4-stündigen Vorlesung „Bioinformatik“ wider.
Thematischer Schwerpunkt dieser Vorlesung war der Entwurf und die Analyse von
fundamentalen Algorithmen im Umfeld der Bioinformatik. Dabei habe ich mich auf klassische algorithmische Vorgehensweisen konzentriert; ausgeklammert – bzw. auf das SS 2002
in die Vorlesung „Spezielle Fragen der Bioinformatik“ verschoben – wurden Ansätze des
Maschinellen Lernens. Die molekularbiologischen Hintergründe wurden nur insoweit skizziert, als es für das Verständnis der algorithmischen Problemstellungen erforderlich war. So
gesehen hätte ein Biologe sicherlich andere Schwerpunkte gesetzt. Wenig eingegangen wurde auf Werkzeuge der Bioinformatik wie Datenbanken und Suchwerkzeuge, graphische Darstellungstools, Internet-basierte Werkzeuge, etc. Zwar sind solche vorgefertigten Werkzeuge
für den praktisch arbeitenden Bioinformatiker sicherlich von größter Bedeutung, doch wurde
die Vermittlung von handwerklichem Know-How in diesem Bereich anderen (existierenden)
Lehrveranstaltungen an der Universität Osnabrück überlassen. Die Vorlesung richtete sich
somit primär an den Informatiker, der die spezifischen algorithmischen Probleme und Fragestellungen der Molekularbiologie verstehen und Problemanalyse- und Algorithmenentwurfsmethoden kennen lernen möchte, mit denen er vorgelegte Probleme bearbeiten kann.
Anders gesagt war der Blick hinter die Kulissen des Problemlösungs- und Algorithmenentwurfsgeschäft das Ziel der Vorlesung mit dem Anliegen, den Hörer auf eventuelle neue solche Aufgabenstellungen vorzubereiten.
Die Themenauswahl ist dabei so zu verstehen, dass ausgehend von der Grobanalyse der
DNA (Mapping), über ihre exakte Analyse (Sequencing), den Vergleich und die Suche nach
Ähnlichkeiten (Alignment), die Interpretation von DNA im Hinblick auf Signale und Gene
(Signal Finding and Gene Prediction), den Genomvergleich auf Genebene (Genome
Rearrangement) bis hin zur Konstruktion phylogenetischer Bäume auf der Basis genomischer Information (Phylogenetic Trees) eine erste Übersicht über zentrale Themen hergestellt und in die genannten Bereiche in exemplarischer Weise hinein geleuchtet werden sollte.
Dabei war in keinem der Themengebiete eine erschöpfende Abhandlung intendiert. Anliegen
war es vielmehr, in einzelne Probleme und Algorithmen „spot-light-artig“ etwas detaillierter
hineinzublicken.
Das dabei erforderliche Handwerkszeug aus der Mathematik und Informatik (insbesondere aus den Bereichen Graphentheorie, Stochastik, Algorithmen und Datenstrukturen, Komplexität, NP-Theorie) wurde in Anhänge ausgelagert. Der Leser möge durch Blättern in diesen Anhängen gegebenenfalls versuchen, begriffliche und methodische Defizite auszugleichen. Ein sehr kurzer Anhang zur Molekularbiologie skizziert die wichtigsten Dinge aus der
Biologie der Zellen, die zum Verständnis der Vorlesung erforderlich sind.
Mein Dank gilt allen Hörern der Vorlesung, die meinen Vorlesungsstil 15 Wochen eisern ertragen haben – insbesondere im Hinblick auf meine zeichnerischen Fähigkeiten (Wer
kann schon eine Doppelhelix oder ein Reality-Desire-Diagramm mit 74 Knoten an die Tafel
malen?) -, ferner allen Teilnehmern, die mit eigenen, gelungenen Referaten das Themenspektrum der Vorlesung erweitert haben, ganz besonders aber Anja Siemer für das sorgfältige
Korrekturlesen des Skriptums und Verbesserungsvorschläge und Jens Haubrich, der in hervorragender Weise für eine Web-Präsenz der Veranstaltung gesorgt hat.
Osnabrück, Februar 2002
Volker Sperschneider
Literatur
Lehrbücher zur Bioinformatik
Dan Gusfield: Algorithms on strings,
trees, and sequences : computer science
and computational biology, Cambridge
Univ. Press, 1999, 534 S.
ISBN 0521585198
João Setubal; João Meidanis: Introduction to computational molecular biology, Boston Mass., PWS Publ. Co., 2000,
296 S.
ISBN 0534952623
Pavel A. Pevzner: Computationale Molecular Biology – An Algorithmic Approach, Bradford Book, 2000, 332 S.
ISBN: 0262161974
Peter Clote; Rolf Backofen: Computational molecular biology : an introduction, Chichester, John Wiley, 2000, 286
S.,
ISBN 0471872512 ; 0471872520
Pierre Baldi; Søren Brunak: Bioinformatics : the machine learning approach, Cambridge, Mass., MIT Press,
1998, 351 S.
ISBN 026202442X
Kompendien der Molekularbiologie
Bruce Alberts et al: Molecular biology
of the cell, New York, Garland Publ.,
1994
ISBN 0815316194 ; 0815316208
Christopher K. Mathews; K. E. van
Holde: Biochemistry, Menlo Park, Calif., Benjamin/Cummings Pub., 1996,
1159 S.
ISBN 0805339310
Benjamin Lewin: Genes VII,
Oxford, Oxford Univ. Pr., 1990, [550 S].
ISBN 0198542682
Carl Branden; John Tooze: Introduction
to protein structure, New York, Garland Publ., 1991, 302 S.
ISBN 0815303440 ; 0815302703
Einführungen in die Theoretische Informatik und Komplexitätstheorie
Volker Sperschneider; Barbara Hammer:
Theoretische Informatik: eine problemorientierte
Einführung,
Berlin,
Springer, 1996, 193 S.
ISBN 3540608605
Online-Version (ps) verfügbar unter
http://www.inf.uos.de/barbara/papers/pub_hammer.html.
Christos H. Papadimitriou: Computational complexity, Reading, Mass., Addison-Wesley, 1995, 523 S.
ISBN 0201530821
Herunterladen