R - Chair of Computational Biology

V4 – Analyse von Genomsequenzen
- Gene identifizieren
Intrinsische und Extrinsische Verfahren:
Homologie bzw. Hidden Markov Modelle
- Transkriptionsfaktorbindestellen identifizieren
Position Specific Scoring Matrices (PSSM)
- Ganz kurz: finde Repeat-Sequenzen
Suche nach bekannten Repeat-Motiven
4. Vorlesung SS 2009
Softwarewerkzeuge
1
Aufbau der DNA
4. Vorlesung SS 2009
Softwarewerkzeuge
2
Aufbau der Doppelstrang-DNA
4. Vorlesung SS 2009
Softwarewerkzeuge
3
Packung der DNA
4. Vorlesung SS 2009
Softwarewerkzeuge
4
Transkription durch RNA Polymerase II
Tamkun J. Nat. Gen. 39, 1421 (2007)
Biological Sequence Analysis
SS 2009 – lecture 1
5
Transkriptions – Gen-Regulationsnetzwerke
Die Maschine, die ein Gen
transkribiert, besteht aus etwa 50
Proteinen, einschließlich der RNA
Polymerase. Dies ist ein Enzym,
das DNA code in RNA code
übersetzt.
Eine Gruppe von Transkriptionsfaktoren bindet an die DNA
gerade oberhalb der Stelle des
Kern-Promoters, während
assoziierte Aktivatoren an
Enhancer-Regionen weiter
oberhalb der Stelle binden.
http://www.berkeley.edu/news/features/1999/12/09_nogales.html a
4. Vorlesung SS 2009
Softwarewerkzeuge
6
Identifikation von Genen
Die einfachste Methode, DNA Sequenzen zu finden, die für Proteine kodieren,
ist nach offenen Leserahmen (open reading frames oder ORFs) zu suchen.
In jeder Sequenz gibt es 6 mögliche offene Leserahmen:
3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung,
3 ORFs starten an den Positionen 1, 2, und 3 und gehen in die 5‘ 3‘ Richtung des
komplementären Strangs.
In prokaryotischen Genomen werden Protein-kodierende DNA-Sequenzen
gewöhnlich in mRNA transkribiert und die mRNA wird ohne wesentliche
Änderungen direkt in einen Aminosäurestrang übersetzt.
Daher ist der längste ORF von dem ersten verfügbaren Met codon (AUG) auf
der mRNA bis zu dem nächsten Stopcodon in demselben offenen Leserahmen,
gewöhnlich eine gute Vorhersage für die Protein-kodierende Region.
4. Vorlesung SS 2009
Softwarewerkzeuge
7
Vorgehen zur Genidentifikation
Erhalte neue
genomische
DNA-Sequenz
Übersetze sie in allen
6 Leserahmen und
vergleiche sie mit der
Datenbank für Proteinsequenzen.
Führe Suche in ESTDatenbank oder cDNADatenbank desselben
Organismus nach
ähnlichen Sequenzen
durch, falls verfügbar.
4. Vorlesung SS 2009
Softwarewerkzeuge
Benutze Genvorhersageprogramm um Gene zu
finden
Analysiere regulatorische
Sequenzen des Gens.
8
Extrinsische und intrinsische Methoden
Viele Verfahren kombinieren nun
(a) Homologie-Methoden = „extrinsische Methoden“ mit
(b) Genvorhersage-Methoden = „intrinsische Methoden“
Etwa die Hälfte aller Gene kann durch Homologie zu anderen bekannten Genen oder
Proteinen gefunden werden (dieser Anteil wächst stetig, da die Anzahl an sequenzierten
Genomen und bekannten cDNA/EST Sequenzen kontinuierlich wächst.)
Um die übrige Hälfte an Genen zu finden, muß man prädiktive Methoden einsetzen.
4. Vorlesung SS 2009
Softwarewerkzeuge
9
Mathé et al. Nucl. Acids. Res. 30, 4103 (2002)
Beispiel: Vergleich von Glimmer und GeneMarksS
Besemer et al. Nucl. Acids. Res. 29, 2607 (2003)
4. Vorlesung SS 2009
Softwarewerkzeuge
10
Hidden Markov Models
Ein Hidden Markov Modell ist ein Graph,
der verschiedene Zustände verbindet.
Man möchte z.B. bestimmen, wo in einem
Genom Exons und Introns sind. Dazu soll
jedem Basenpaar der günstigste Zustand
zugeordnet werden.
Die Topologie (Verbindungspfeile) des
Graphen gibt an, zwischen welchen
Zuständen Übergänge erlaubt sind.
Das „Trainieren“ des Modells bezieht sich
auf die Bestimmung der günstigsten
Übergangswahrscheinlichkeiten
zwischen den Zuständen, so dass der
Output des Modells möglicht gut der
biologischen Wirklichkeit entspricht.
4. Vorlesung SS 2009
Softwarewerkzeuge
11
TIGR: GlimmerM, Exonomy und Unveil
Topologien von
Unveil
283-Zustands-HMM
Exonomy
23-Zustands-GHMM
Majoros et al. Nucl. Acids. Res. 31, 3601 (2003)
4. Vorlesung SS 2009
Softwarewerkzeuge
12
Methoden funktionieren nicht überall
Ein Beispiel, in dem Exonomy die
Gene richtig erkennt.
Ein Beispiel, in dem GlimmerM
die Gene richtig erkennt.
Ein Beispiel, in dem Unveil die
Gene richtig erkennt (auch
Genscan).
Majoros et al. Nucl. Acids. Res. 31, 3601 (2003)
4. Vorlesung SS 2009
Softwarewerkzeuge
13
Zusammenfassung - Genvorhersage
Die Resultate der intrinsischen Genvorhersage werden zuverlässiger; dennoch
sollte man sie stets mit Vorsicht behandeln.
Sie sind sehr nützlich um die Entdeckung von Genen zu beschleunigen.
Dennoch sind biologische Techniken notwendig um die Existenz von virtuellen
Proteinen zu bestätigen und um dessen biologischen Funktion zu finden bzw. zu
beweisen.
Deshalb werden vergleichende Genom-Ansätze immer wichtiger, in denen
Programme Genkandidaten auf Homologie mit exprimierten Sequenzen
vergleichen (EST oder cDNA Sequenzdaten).
Neue Arbeiten wenden sich nun ebenfalls RNA-kodierenden Genen zu.
Mathé et al. Nucl. Acids. Res. 30, 4103 (2002)
4. Vorlesung SS 2009
Softwarewerkzeuge
14
Transkriptions – Gen-Regulationsnetzwerke
Die Maschine, die ein Gen
transkribiert, besteht aus etwa 50
Proteinen, einschließlich der RNA
Polymerase. Dies ist ein Enzym,
das DNA code in RNA code
übersetzt.
Eine Gruppe von Transkriptionsfaktoren bindet an die DNA
gerade oberhalb der Stelle des
Kern-Promoters, während
assoziierte Aktivatoren an
Enhancer-Regionen weiter
oberhalb der Stelle binden.
http://www.berkeley.edu/news/features/1999/12/09_nogales.html a
4. Vorlesung SS 2009
Softwarewerkzeuge
15
Prokaryotische vs. eukaryotische Transkription
a
4. Vorlesung SS 2009
Softwarewerkzeuge
16
Promotervorhersage in E.coli
Um E.coli Promoter zu analysieren kann man eine Menge von Promotersequenzen bzgl. der Position alignieren, die den bekannten Transkriptionsstart
markiert und in den Sequenzen nach konservierten Regionen suchen.
 E.coli Promotoren enthalten 3 konservierte Sequenzmerkmale
- eine etwa 6bp lange Region mit dem Konsensusmotif TATAAT bei Position -10
- eine etwa 6bp lange Region mit dem Konsensusmotif TTGACA bei Position -35
- die Distanz zwischen den beiden Regionen von etwa 17bp ist relativ konstant
a
4. Vorlesung SS 2009
Softwarewerkzeuge
17
Machbarkeit der Motivsuche mit dem Computer?
Transkriptionsfaktorbindestellen mit einem Computerprogramm zu identifizieren
ist schwierig, da diese aus kurzen, entarteten Sequenzen bestehen, die häufig
ebenfalls durch Zúfall auftreten.
 Das Problem lässt daher sich schwer eingrenzen
Zum einen ist
• die Länge des gesuchten Motivs vorher nicht bekannt
• das Motiv braucht zwischen verschiedenen Promotern nicht stark konserviert
sein.
• die Sequenzen, mit denen man nach dem Motiv sucht, brauchen nicht
notwendigerweise dem gesamten Promoter entsprechen
• die zu untersuchenden Promotoren verschiedener Gene wurden oft durch
einen Clusteralgorithmus in eine Gruppe eingeteilt, der ebenfalls
Beschränkungen unterliegt.
4. Vorlesung SS 2009
Softwarewerkzeuge
18
Strategie 1
Wird seit der Verfügbarkeit von Microarray Gen-Expressionsdaten eingesetzt.
Durch Clustern erhält man Gruppen von Genen mit ähnlichen
Expressionsprofilen (z.B. solche, die zur selben Zeit im Zellzyklus aktiviert sind)
 Hypothese, dass dieses Profil, zumindest teilweise, durch eine ähnliche
Struktur der für die transkriptionelle Regulation verantwortlichen cisregulatorischen Regionen verursacht wird.
Suche daher nach gemeinsamen Motiven in < 1000 Basen upstream Region.
Bis heute wurde vor allem nach einzelnen Motiven gesucht (als TFBindestellen),
die in den Promotoren von möglicherweise koregulierten Genen gemeinsamen
auftreten.
Besser: suche nach dem gleichzeitigen Auftreten von 2 oder mehr Stellen in
einem vorgegebenen Abstand! Dadurch wird die Suche empfindlicher.
4. Vorlesung SS 2009
Softwarewerkzeuge
19
Motif-Identifizierung
A flowchart to illustrate the two
different approaches for motif
identification. We analyzed 800
bp upstream from the translation
start sites of the five genes from
the yeast gene family PHO by
the publicly available systems
MEME (alignment) and RSA
(exhaustive search). MEME was
run on both strands, one
occurrence per sequence mode,
and found the known motif
ranked as second best. RSA
Tools was run with oligo size 6
and noncoding regions as
background, as set by the demo
mode of the system. The wellconserved heptamer of the motifs
used by MEME to build the
weight matrix is printed in bold.
Ohler, Niemann Trends Gen 17, 2 (2001)
4. Vorlesung SS 2009
Softwarewerkzeuge
20
Strategie 2: Erschöpfende Motivsuche in upstream-Regionen
Benutze Beobachtung dass sich relevante Motive in der upstream-Region oft
viele Mal wiederholen, unter Umständen mit kleinen Variationen, damit die
regulatorische Wirkung effektiv ist.

Suche in der upstream-Region nach überrepräsentierten Motiven
(1) Ordne Gene nach den überrepräsentierten Motiven.
(2) Analysiere Gruppen von Genen, die Motive für Ko-Regulation in MicroarrayExperimenten gemeinsam haben.
(3) Betrachte überrepräsentierte Motive, die Gruppen von koregulierten Genen
als mögliche Bindungsstellen markieren.
Cora et al. BMC Bioinformatics 5, 57 (2004)
4. Vorlesung SS 2009
Softwarewerkzeuge
21
Erschöpfende Motivsuche in upstream-Regionen
Exploit
Cora et al. BMC Bioinformatics 5, 57 (2004)
4. Vorlesung SS 2009
Softwarewerkzeuge
22
Aktuelle Verfahren um Promotoren zu finden
Ohler, Niemann Trends Gen 17, 2 (2001)
4. Vorlesung SS 2009
Softwarewerkzeuge
23
Positions-spezifische Gewichtsmatrix
Populäres Verfahren wenn es eine Liste von Genen gibt, die ein TF-Bindungsmotiv gemeinsam haben. Bedingung: gute MSAs müssen vorhanden sein.
Alignment-Matrix: wie häufig treten die verschiedenen
Buchstaben an jeder Position im Alignment auf?
Hertz, Stormo (1999) Bioinformatics 15, 563
4. Vorlesung SS 2009
Softwarewerkzeuge
24
Positions-spezifische Gewichtsmatrix
Beispiele für Matrizen, die von YRSA verwendet werden:
http://forkhead.cgb.ki.se/YRSA/matrixlist.html
4. Vorlesung SS 2009
Softwarewerkzeuge
25
Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF
Relationelle Datenbank
6 Dateien:
FACTOR Wechselwirkung von TFs
SITE
ihre DNA-Bindungsstelle
GENE durch welche sie diese
Zielgene regulieren
CELL
wo kommt Faktor in Zelle vor?
MATRIX TF Nukleotid-Gewichtungsmatrix
CLASS Klassifizierungsschema der TFs
Wingender et al. (1998) J Mol Biol 284,241
4. Vorlesung SS 2009
Softwarewerkzeuge
26
Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF
Matys et al. (2003) Nucl Acid Res 31,374
4. Vorlesung SS 2009
Softwarewerkzeuge
27
Datenbank für eukaryotische Transkriptionsfaktoren: TRANSFAC
BIOBase / TU Braunschweig / GBF
Matys et al. (2003) Nucl Acid Res 31,374
4. Vorlesung SS 2009
Softwarewerkzeuge
28
TRANSFAC Klassifizierung
1 Superklasse basische Domänen
1.1 Leuzin-zipper Faktoren (bZIP)
1.2 Helix-Loop-Helix Faktoren (bHLH)
1.3 bHLH-bZIP
1.4 NF-1
1.5 RF-X
1.6 bHSH
3 Superklasse: Helix-turn-helix
4 Superklasse: beta-Scaffold
Faktoren mit Kontakt in der
Minor Groove
5 Superklasse: andere
2 Superklasse: Zink-koordinierende DNA-bindende Domänen
2.1 Cys4 Zinkfinger vom Typ nuklearer Rezeptor
2.2 verschiedene Cys4 Zinkfinger
2.3 Cys2His2 Zinkfinger Domänen
2.4 Cys6 Cystein-Zink Cluster
2.5 Zinkfinger mit abwechselnder Zusammensetzung
http://www.gene-regulation.com/pub/databases/transfac/cl.html
4. Vorlesung SS 2009
Softwarewerkzeuge
29
TRANSFAC Datenbank
Eintrag für 1.1 Leuzine-Zippers
http://www.gene-regulation.com
4. Vorlesung SS 2009
Softwarewerkzeuge
30
TRANSFAC Datenbank
http://www.gene-regulation.com
4. Vorlesung SS 2009
Softwarewerkzeuge
31
TRANSFAC Datenbank
http://www.gene-regulation.com
4. Vorlesung SS 2009
Softwarewerkzeuge
32
Identifizierung von Repeats: RepeatMasker
RepeatMasker: durchsucht DNA Sequenzen auf
- eingefügte Abschnitte, die bekannten Repeat-Motiven entsprechen
(dazu wird eine lange Tabelle mit bekannten Motiven verwendet)
und
- auf Regionen geringer Komplexität (z.B. lange Abschnitt AAAAAAAA).
Output:
- detaillierte Liste, wo die Repeats in der Sequenz auftauchen und
- eine modifizierte Version der Input-Sequenz, in der die Repeats „maskiert“
sind, z.B. durch N‘s ersetzt sind.
Für die Sequenzvergleiche wird eine effiziente Implementation des SmithWaterman-Gotoh Algorithmus verwendet.
http://www.gene-regulation.com
4. Vorlesung SS 2009
Softwarewerkzeuge
33
Zusammenfassung
Es gibt große Datenbanken (z.B. TRANSFAC) mit Informationen über
Promoterstellen. Diese Informationen sind experimentell überprüft.
Microarray-Daten erlauben es, nach gemeinsamen Motiven von ko-regulierten
Genen zu suchen.
Auch möglich: gemeinsame Annotation in der Gene Ontology etc.
TF-Bindungsmotive sind oft überrepräsentiert in der 1000 bp-Region upstream.
Die klare Funktion dieser Bindungsmotive ist oft unbekannt.
Allgemein gilt:
- relativ wenige TFs regulieren eine große Anzahl an Genen
- es gibt globale und lokale TFs
- Gene werden üblicherweise durch mehr als einen TF reguliert
http://www.gene-regulation.com
4. Vorlesung SS 2009
Softwarewerkzeuge
34
zusätzliche Folien
4. Vorlesung WS 2007/08
Softwarewerkzeuge
35
3D Strukturen von Transkriptionsfaktoren
1A02.pdb
1AU7.pdb
1AM9.pdb
TFs binden auf sehr
unterschiedliche Weise.
Manche sind sehr
selektiv für die
DNA-Konformation.
2 TFs bound!
1CIT.pdb
1GD2.pdb
1H88.pdb
http://www.rcsb.org
4. Vorlesung WS 2007/08
Softwarewerkzeuge
36
Computational Performance
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
37
Whole Genome Alignment (WGA)
Nachdem die genomische DNA-Sequenz eng verwandter Organismen verfügbar
wird, ist die erste Frage, wie das Alignment zweier Genome aussieht.
Globale Genom-Alignments machen nur für eng verwandte Organismen Sinn.
Im anderen Fall muß man erst die genomischen Rearrangements betrachten.
Dann kann man die systenischen Regionen (Regionen, in denen GenReihenfolge des nächsten gemeinsamen Vorfahrens in beiden Spezies konserviert
blieb) betrachten und lokale Genom-Alignments dieser Regionen produzieren.
4. Vorlesung WS 2007/08
Softwarewerkzeuge
38
Konservierung von Syntenie zwischen Mensch und Maus
Ein typisches 510-kb Segment des Maus-Chromosoms 12, das mit einem
600-kb Stück des menschlichen Chromosom 14 verwandt ist.
Blaue Linien: reziprok eindeutige Treffer in beiden Genomen.
Rote Markierungen kennzeichnen die Länge der passenden Regionen.
Die Abstände zwischen diesen „Landmarks“ sind im Maus-Genom kleiner als
im Mensch, was mit der 14% kürzeren Gesamtlänge des Genoms
übereinstimmt.
The mouse genome. Nature 420, 520 - 562
4. Vorlesung WS 2007/08
Softwarewerkzeuge
39
Entsprechung syntenischer Regionen
342 Segmente und 217 Blöcke >300 kb mit konservierter Syntenie im Mensch
sind im Maus-Genom markiert.
Jede Farbe entspricht einem bestimmten menschlichen Chromosom.
The mouse genome. Nature 420, 520 - 562
4. Vorlesung WS 2007/08
Softwarewerkzeuge
40
Sensitivität
Im globalen Mensch:Maus Alignment sind mehr als eine Millionen Regionen
stärker als 70% konserviert (auf 100-bp Level)
– diese Regionen decken > 200 Million bp ab.
Nur 62% von ihnen werden von (lokalen) BLAT-Treffern abgedeckt.
Dies bedeutet, daß man 38% der konservierten Abschnitte nur durch das globale
Alignment finden kann!
Idee: lokales Alignment soll als Anker-Verfahren für anschliessendes globales
Alignment dienen. Dadurch hofft man, viele zusätzliche konservierte Regionen
ausserhalb der Anker-Regionen zu finden.
Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
41
hohe Sensitivität von globalen Alignments
Beispiel: das globale Alignment der mouse finished sequence
NT_002570 gegen die Region, die mit BLAT-Ankern gefunden
wurde, zeigt konservierte kodierende und nicht-kodierende
Elemente, die mit BLAT nicht gefunden wurden.
Couronne, ..., Dubchak, Genome Res. 13, 73 (2003)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
42
Ankerbasierte Methoden für WGA
Diese Methoden versuchen sich entsprechende Teile der Buchstabenfolgen der
betrachteten Sequenzen zu finden, die wahrscheinlich zu einem globalen
Alignment gehören werden.
(Diese teilweisen Treffer können durch lokale Alignments gefunden werden).
Sie bilden „Anker“ in den beiden zu alignierenden Sequenzen.
In diesen Methoden werden zuerst die Ankerpunkte aligniert und dann die
Lücken dazwischen geschlossen.
MUMmer ist eine sehr erfolgreiche Implementation dieser Strategie für das
Alignment zweier genomischer Sequenzen.
4. Vorlesung WS 2007/08
Softwarewerkzeuge
43
Was ist MUMmer?
•
•
A.L. Delcher et al. 1999, 2002 Nucleic Acids Res.
http://www.tigr.org/tigr-scripts/CMR2/webmum/mumplot
•
•
•
•
Nimm an, dass zwei Sequenzen eng verwandt sind (sehr ähnlich)
MUMmer kann zwei bakterielle Genome in weniger als 1 Minute alignieren
nutzt Suffix-Bäume um Maximal Unique Matches zu finden
Definition eines Maximal Unique Matches (MUM):
– Eine Subsequenz, die in beiden Sequenzen genau einmal ohne
Abweichungen vorkommt und in keine Richtung verlängert werden kann.
Grundidee: ein MUM ausreichender Länge wird sicher Teil eines globalen
Alignments sein.
•
A maximal unique matching subsequence (MUM) of 39 nt (shown in uppercase) shared by
Genome A and Genome B. Any extension of the MUM will result in a mismatch.
By definition, an MUM does not occur anywhere else in either genome.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
44
MUMmer: wichtige Schritte
•
Erkenne MUMs (Länge wird vom Benutzer festgelegt)
ACTGATTACGTGAACTGGATCCA
ACTCTAGGTGAAGTGATCCA
ACTGATTACGTGAACTGGATCCA
ACTCTAGGTGAAGTGATCCA
1
10
20
1
10
20
ACTGATTACGTGAACTGGATCCA
ACTC--TAGGTGAAGTG-ATCCA
4. Vorlesung WS 2007/08
Softwarewerkzeuge
45
Definition von MUMmers
•
•
Für zwei Strings S1 und S2 und einen Parameter l
Der Substring u ist eine MUM Sequenz wenn gilt:
 |u| > l
 u kommt genau einmal in S1 und genau einmal in S2 (Eindeutigkeit) vor
 Für jeden Buchstaben a kommt weder ua noch au sowohl in
S1 als auch in S2 vor (Maximalität)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
46
Wie findet man MUMs?
•
Naiver Ansatz
– Vergleiche alle Teilsequenzen von A mit allen Teilsequenzen von B.
Dies dauert O(nn)
•
verwende Suffix-Bäume als Datenstruktur
– ein naiver Ansatz, einen Suffix-Baum zu konstruieren hat
eine quadratische Komplexität in der Rechenzeit und dem Speicherplatz
– durch klevere Benutzung von Pointern gibt es lineare Algorithmen in
Rechenzeit und Speicherplatz wie den Algorithmus von McCreight
4. Vorlesung WS 2007/08
Softwarewerkzeuge
47
Suffix-Bäume
CACATAG$
Suffix-Bäume sind seit über 20
Jahren wohl etabliert.
Einige ihrer Eigenschaften:
• ein “Suffix” beginnt an jeder
Position I der Sequenz und reicht
bis zu ihrem Ende.
• Eine Sequenz der Länge N hat N
Suffices.
• Es gibt N Blätter.
• Jeder interne Knoten hat mindest
zwei Kinder.
• 2 Kanten aus dem selben Knoten
können nicht mit dem selben
Buchstaben beginnen.
• Am Ende wird $ angefügt
4. Vorlesung WS 2007/08
Softwarewerkzeuge
48
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
C
A
1. CACATAG$
C
A
A
T
G
$
1
4. Vorlesung WS 2007/08
Softwarewerkzeuge
49
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
C
A
1. CACATAG$
2. ACATAG$
C
A
A
C
A
T
T
A
G
G
$
$
2
1
4. Vorlesung WS 2007/08
A
Softwarewerkzeuge
50
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
C
A
1. CACATAG$
2. ACATAG$
3. CATAG$
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
3
Softwarewerkzeuge
A
C
A
T
A
G
$
2
51
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
C
A
1. CACATAG$
2. ACATAG$
3. CATAG$
4. ATAG$
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
3
Softwarewerkzeuge
A
T
A
G
$
C
A
T
A
G
$
2
52
4
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
A
C
A
1. CACATAG$
2. ACATAG$
3. CATAG$
4. ATAG$
5. TAG$
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
T
A
G
$
C
T
A
T
A
A
G
$
G
$
$
3
Softwarewerkzeuge
5
2
53
4
Konstruktion eines Suffix-Baums
CACATAG$
Suffixes:
A
C
A
1. CACATAG$
2. ACATAG$
3. CATAG$
4. ATAG$
5. TAG$
6. AG$
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
T
A
G
$
C
T
G
A
$
G
$
6
Softwarewerkzeuge
T
A
G
$
$
3
A
5
2
54
4
Konstruktion eines Suffix-Baums
CACATAG$
G
Suffixes:
A
C
A
1. CACATAG$
2. ACATAG$
3. CATAG$
4. ATAG$
5. TAG$
6. AG$
7. G$
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
7
T
A
G
$
C
T
G
$
A
G
$
6
Softwarewerkzeuge
T
A
G
$
$
3
A
5
2
55
4
Konstruktion eines Suffix-Baums
CACATAG$
$
8
Suffixes:
G
A
C
1. CACATAG$
2. ACATAG$
3. CATAG$
4. ATAG$
5. TAG$
6. AG$
7. G$
8. $
A
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
7
T
A
G
$
C
T
G
$
A
G
$
6
Softwarewerkzeuge
T
A
G
$
$
3
A
5
2
56
4
Suchen in einem Suffix-Baum
Search Pattern:
CATA
$
8
G
A
C
A
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
7
T
A
G
$
C
T
G
$
A
G
$
6
Softwarewerkzeuge
T
A
G
$
$
3
A
5
2
57
4
Suchen in einem Suffix-Baum
Search Pattern:
ATCG
$
8
G
A
C
A
C
A
A
T
T
A
G
G
$
1
4. Vorlesung WS 2007/08
$
7
T
A
G
$
C
T
G
$
A
G
$
6
Softwarewerkzeuge
T
A
G
$
$
3
A
5
2
58
4
Sortieren der MUMs
•
MUMs werden nach ihren Positionen in Genom A sortiert
Genome A:
Genome B:
Genome A:
Genome B:
1
1
1
1
3
2
3
2
2
4
5
4
6
6
4
2
4
7
5
7
6
6
7
7
Jeder MUM ist nur mit seiner Nummer gekennzeichnet, ohne Berücksichtigung seiner Länge.
Das obere Alignment zeigt alle MUMs.
Die Verschiebung von MUM 5 in Genom B zeigt eine Transposition an.
Die Verschiebung von MUM 3 könnte ein Zufallstreffer oder Teil einer inexakten Repeat-Sequenz sein.
Unteres Alignment: suche in beiden Genomen die längste gemeinsam ansteigende Folge an
Subsequenzen
4. Vorlesung WS 2007/08
Softwarewerkzeuge
59
Beispiel: Alignment zweier Mikroorganismen
Das Genom von M.genitalium ist nur etwa 2/3 so
lang wie das von M.pneumoniae.
Obere Abbildung: FASTA-Alignment von
M.genitalium und M.pneumoniae.
Mitte: Alignment mit 25mers
Unten: Alignment mit MUMs. 5 Translokationen.
Ein Punkt bedeutet jeweils einen Treffer zwischen
den Genomen.
FASTA-Plot: ähnliche Gene
25-mer-Plot: 25-Basen-Sequenz, die in beiden
Sequenzen genau einmal vorkommt.
MUM-Plot: MUM-Treffer.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
60
Beispiel: Alignment Mensch:Maus
Alignment von weiter entfernt
liegenden Spezies:
Mensch gegen Maus.
Hier: Alignment einer 222 930 bp
Teilsequenz auf dem menschlichen Chromosom 12, accession
no. U47924, gegen eine 227 538
bp lange Teilsequenz des Mauschromosoms 6.
Jeder Punkt des Plots entspricht
einem MUM von [ge]15 bp.
Delcher et al. Nucleic Acids Res 27, 2369 (1999)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
61
Zusammenfassung
•
Die Anwendung der Suffix-Bäume war ein Durchbruch für die
Alignierung ganzer Genome
•
MUMmer 2 besitzt zusätzliche Verbesserung für die Rechenzeit und
den Speicherplatz
– die Verwendung von Suffix-Arrays anstatt von Suffix-Bäumen gibt
eine verbesserte Datenstruktur ( Stefan Kurtz, Hamburg)
– es wird nun möglich, mehr als zwei Genome zu alignieren
(implementiert in MGA)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
62
Whole Genome Shotgun Assemblierung
Es gibt 2 Strategien für die
Sequenzierung von Genomen:
clone-by-clone Methode
whole-genome shotgun Methode
(Celera, Gene Myers).
Die Shotgun Sequenzierung wurde
bereits 1977 von F. Sanger et al.
eingeführt und ist seither eine
Standardmethode für die
Sequenzierung von Genen.
Umstritten war jedoch, ob man sie
auch für komplette Genome
verwenden kann.
4. Vorlesung SS 2009
ED Green, Nat Rev Genet 2, 573 (2001)
Softwarewerkzeuge
63
Arachne Programm
von Serafin Batzoglou (MIT, Doktorarbeit 2000)
(i) konstruiere Graph G für Überlappungen zwischen Paaren von reads aus
Shotgun-Daten
(i) prozessiere G um Supercontigs von gemappten reads zu erhalten.
Wichtige Variation der whole-genome shotgun Sequenzierung:
sequenziere reads jeweils von beiden Enden eines Klons.
Da die Inserts nach ihrer Größe ausgewählt werden, ist damit der ungefähre
Abstand zwischen dem Paar von reads bekannt.
Man nennt diese earmuff (Ohrenwärmer) Verbindungen.
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
64
Arachne: erzeuge Überlappungsgraphen
Liste von reads R = (r1, ..., rN) , N ist die Anzahl der reads.
Jeder read ri besitzt eine Länge li < 1000.
Wenn beide reads von den Endpunkten desselben Klons stammen (earmuff link),
besitzt ri eine Verknüpfung zu einem anderen read rj in einer festen Distanz dij.
Erstes Ziel: erzeuge Graphen G der Überlappungen (Kanten) zwischen Paaren an
reads (Knoten)  dies ergibt die Paare an reads in R, die aligniert werden müssen.
Da R sehr lang sein kann, sind N2 alignments nicht praktikabel.
 erstelle Tabelle für das Vorkommen von k-Tupel (Strings der Länge k) in den reads,
zähle die Anzahl von k-Tupel Treffern für jedes Paar an reads.
Führe dann paarweise Alignments zwischen den Paaren an reads durch,
die mehr als cutoff gemeinsame k-mere besitzen.
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
65
Arachne: Tabelle für Vorkommen von k-meren
Ermittle die Anzahl an k-Tupel Treffern in der Vorwärts- und Rückwärts-Richtung
zwischen jedem Paar von reads in R.
(1) Ermittle alle Triplets (r,t,v)
r = Nummer des reads in R
t = Index eines k-mers, das in r vorkommt
v = Richtung des Auftretens (vorwärts oder rückwärts)
(2) sortiere die Menge der Paare nach den k-mer Indices t
(3) verwende eine sortierte Liste um eine Tabelle T von Quadrubletts (ri, rj, f, v)
zu erstellen, wobei ri und ri die reads sind, die mindestens einen gemeinsamen
k-mer enthalten, v die Richtung angiebt, und f die Anzahl an gemeinsamen
k-mers zwischen ri und rj in Richtung v.
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
66
Arachne: Tabelle für Vorkommen von k-mers
Hier:
k=3
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
67
Arachne: Tabelle für Vorkommen von k-mers
Wenn ein k-Tupel „zu oft“ auftritt  gehört er wahrscheinlich zu einer
Repeat-Sequenz.
Man sollte diese nicht für die Detektion von Überlappungen verwenden.
Implementierung
(1) finde k-Tupel (r,t,v) und sortieren sie in 64 Dateien entsprechend den ersten
drei Nukleotiden jedes k-mers.
(2) Für i=1,64
lade Datei in den Speicher, sortiere nach t, speichere sortierte Datei ab.
end
(3) lade 64 sortierte Dateien nacheinander in den Speicher,
fülle Tabelle T nacheinander auf.
In der Praxis ist k = 8 bis 24.
4. Vorlesung WS 2007/08
Batzoglou PhD thesis (2002)
Softwarewerkzeuge
68
Arachne: paarweise read-Alignments
Führe paarweise Alignments zwischen den Reads durch, die mehr als Cutoff
gemeinsame k-mers besitzen.
Sobald man zu häufige k-mers ausschließt (mehr als ein zweiter Cutoff),
ist sichergestellt, daß nur O(N) viele paarweise Sequenzalignments durchgeführt
werden müssen.
Nur eine kleine Anzahl an Basen-Austauschen und Indels ist in einer
überlappenden Region zweier alignierter reads erlaubt.
Output des Alignment-Algorithmus:
für die reads ri, rj gibt es Quadrubletts (b1, b2, e1, e2) für jede detektierte
Überlappungsregion mit den Anfangspositionen b1, b2 und Endpositionen e1,e2.
Falls eine signifikante Überlappungsregion vorliegt, wird (ri, rj, b1, b2, e1, e2) eine
Kante im Überlappungsgraphen G.
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
69
Kombination teilweiser Alignments
3 teilweise Alignments der Länge
k = 6 zwischen einem Paar von
reads werden zu einem einzigen
vollen Alignment der Länge k = 19
kombiniert.
Die vertikalen Linien verbinden
übereinstimmenden Basen,
wogegen x Mismatche sind.
Dies ist eine oft auftretende
Situation, in der ein ausgedehnter
k-mer Treffer ein volles Alignment
von zwei reads ist.
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
70
Repeats erzeugen Mehrdeutigkeit
Ohne das Auftreten von Sequenzierungsfehlern und Repeats wäre es
einfach, alle entdeckbaren paarweise
Abstände von reads zu finden und
den Graph G zu konstruieren.
Da Repeats jedoch sehr häufig
auftreten, bedeutet eine Verbindung
zwischen zwei reads in G nicht ohne
weiteres eine wahre Überlappung.
Eine „Repeat-Verbindung“ ist eine
Verbindung in G zwischen zwei
reads, die aus verschiedenen
Regionen des Genoms stammen und
in der repetitiven Sequenz übereinstimmen.
4. Vorlesung WS 2007/08
Softwarewerkzeuge
Batzoglou PhD thesis (2002)
71
Sequence contigs
unerläßlich für die Assemblierung ist die ausreichende Überdeckung (mehrfache
Sequenzierung = coverage) derselben Genomregionen
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
72
Verbinden von Contigs
Durch die Löschung von k-mers hoher Frequenz wird einiges an Repetition im
Genom vor der Erzeugung von G effizient maskiert.
Zur Erkennung von repetitiven Verbindung dienen weitere heuristische Algorithmen,
die hier nicht diskutiert werden sollen.
Sequenz-Contigs werden gebildet
indem Paare von reads verbunden
werden, die eindeutig verbunden
werden können.
Tatsächlich ist die Situation viel
schwieriger als hier gezeigt, da
Repeats häufig nicht zu 100%
zwischen Kopien konserviert sind.
Batzoglou PhD thesis (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
73
Benutze Überlapp-Paarungen um die reads zu verbinden
Arachne sucht nach 2 Plasmiden
mit gleicher Insert-Länge, deren
Sequenzen an beiden Enden
überlappen  paired pairs.
(A) A paired pair of overlaps.
The top two reads are end sequences from
one insert, and the bottom two reads are
end sequences from another.
The two overlaps must not imply too
large a discrepancy between the insert
lengths.
(B) Initially, the top two pairs of reads
are merged. Then the third pair of
reads is merged in, based on having
an overlap with one of the top two left
reads, an overlap with one of the top
two right reads, and consistent insert
lengths. The bottom pair is similarly
merged.
Unten: eine Menge von paired pairs
werden zu contigs zusammengefasst
und eine Konsensussequenz erzeugt.
4. Vorlesung WS 2007/08
Batzoglou et al. Genome Res 12, 177 (2002)
Softwarewerkzeuge
74
Detection of repeat contigs
Some of the identified contigs are repeat contigs in which nearly identical
sequence from distinct regions are collapsed together. Detection by
(a) repeat contigs usually have an unusually high depth of coverage.
(b) they will typically have conflicting links to other contigs.
Contig R is linked to contigs A and
B to the right. The distances
estimated between R and A and
R and B are such A and B cannot
be positioned without substantial
overlap between them. If there is
no corresponding detected overlap
between A and B then R is
probably a repeat linking to two
unique regions to the right.
After marking repeat contigs, the remaining
contigs should represent the correctly
assembled sequence.
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
75
Contig assembly
If (a,b) and (a,c) overlap, then
(b,c) are expected to overlap.
Moreover, one can calculate that
shift(b,c) = shift(a,c) - shift(a,b).
A repeat boundary is detected
toward the right of read a, if there
is no overlap (b,c), nor any path
of reads x1, ..., xk such that (b,x1),
(x1,x2) ..., (xk,c) are all overlaps,
and shift(b,x1) + ... + shift(xk,c) 
shift(a,c) – shift(a,b).
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
76
Consistency of forward-reverse links
(A) The distance d(A,B) (length of
gap or negated length of
overlap) between two linked
contigs A and B can be
estimated using the forwardreverse linked reads between
them.
(B) The distance d(B,C) between
two contigs B,C that are
linked to the same contig A
can be estimated from their
respective distances to the
linked contig.
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
77
Contig Coverage and Read Usage
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
78
Characterization of Contigs and Supercontigs
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
79
Base Pair Accuracy
base quality x*10 means that (on average) one sequencing error occurs
in 10-x bases.
Batzoglou et al. Genome Res 12, 177 (2002)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
80
Vergleich verschiedener Assemblierungen
man sollte gucken nach:
- welche Methode gibt die kleinste Anzahl an Contigs bzw. die kleinesten Anzahl
am festen Contigs bzw. falsch assemblierten Contigs
- die größt mögliche Abdeckung durch Contigs
- falsch assemblierte Contigs sollten einen möglichst geringen Teil des Genoms
ausmachen.
Pevzner, Tang, Waterman PNAS 98, 9748 (2001)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
81
There is no error-free assembler to date
Comparative analysis of EULER,
PHRAP, CAP, and TIGR assemblers
(NM sequencing project). Every box
corresponds to a contig in NM assembly
produced by these programs with
colored boxes corresponding to
assembly errors. Boxes in the IDEAL
assembly correspond to islands in the
read coverage.
Boxes of the same color show
misassembled contigs.
Repeats with similarity higher than 95%
are indicated by numbered boxes at the
solid line showing the genome.
To check the accuracy of the assembled
contigs, we fit each assembled contig
into the genomic sequence. Inability to
fit a contig into the genomic sequence
indicates that the contig is
misassembled. For example, PHRAP
misassembles 17 contigs in the NM
sequencing project, each contig
containing from two to four fragments
from different parts of the genome.
„Biologists "pay" for these errors at the
time-consuming finishing step“.
Pevzner, Tang, Waterman PNAS 98, 9748 (2001)
4. Vorlesung WS 2007/08
Softwarewerkzeuge
82