Text Analytics

Werbung
Introduction to Bioinformatics
Finish
Ulf Leser
This Lecture
Genomics
Proteomics
Sequencing
Gene prediction
Evolutionary
relationships
Motifs - TFBS
Transcriptomics
RNA folding
…
Structure prediction
… comparison
Motives, active sites
Docking
Protein-Protein
Interaction
Proteomics
…
Ulf Leser: Bioinformatics, Summer Semester 2013
Systems Biology
Medicine
Pathway analysis
Phenotype –
genotype
Gene regulation
Mutations and risk
Signaling
Population
Metabolism
genetics
Quantitative models
Adverse effects
Integrative analysis
…
…
2
Bioinformatics / Computational Biology
• Computer Science methods for
– Solving biologically relevant problems
– Analyzing and managing experimental data sets
• Empirical: Data from high throughput experiments
• Mostly focused on developing algorithms
• Problem are typically complex, data full of errors –
importance of heuristics and approximate methods
• Reductionist – Strings, graphs, sequences, signals
• Interdisciplinary: Biology, Computer Science, Physics,
Mathematics, Genetics, …
Ulf Leser: Bioinformatics, Summer Semester 2013
3
Searching Sequences (Strings)
• A chromosome is a string
• A sequencing machine generates strings
• Substrings may represent biologically important areas
–
–
–
–
–
Genes on a chromosome
Transcription factor binding sites
Same gene in a different species
Similar gene in a different species
…
• Exact or approximate string search
– Naive and Boyer-Moore algorithm
– PSWM: Approximate gap-free matching
– Local and global alignment
Ulf Leser: Bioinformatics, Summer Semester 2013
4
PAM as Distance Measure
• Definition
Let S1, S2 be two protein sequences with |S1|=|S2|. We say
S1 and S2 are x PAM distant, iff S1 most probably was
produced from S2 with x mutations per 100 AAs
– PAM is motivated by evolution
– Assumptions: Mutations happen
with the same rate at every
position of a sequence
– If mutation rate is high, mutations
will occur again and again at the
same position
– PAM ≠ %-sequence-identity
Observed substitutions
• Remarks
True # of mutations
Ulf Leser: Bioinformatics, Summer Semester 2013
5
Searching a Database of Strings
• Comparing two sequences is costly
• Given s, assume we want to find
the most similar s’ in a database
of all known sequences
– Naïve: Compare s with all strings in DB
– Will take years and years
• BLAST: Basic local alignment search tool
–
–
–
–
Ranks all strings in DB according to similarity to s
Similarity: High is s, s’ contain substrings that are highly similar
Heuristic: Might miss certain similar sequences
Extremely popular: You can “blast a sequence”
Ulf Leser: Bioinformatics, Summer Semester 2013
6
Multiple Sequence Alignment
• Given a set S of sequences: Find an arrangement of all
strings in S in columns such that there are (a) few columns
and (b) columns are maximally homogeneous
– Additional spaces allowed
Source: Pfam, Zinc finger domain
• Goal: Find commonality between a set of functionally
related sequences
– Proteins are composed of different functional domains
– Which domain performs a certain function?
Ulf Leser: Bioinformatics, Summer Semester 2013
7
Microarrays / Transcriptomics
Referenzarray
Zellprobe
(Probe)
(Sample)
Hybridisierung
Arrayaufbereitung
Scanning
TIFF Bild
Bilderkennung
Rohdaten
Ulf Leser: Bioinformatics, Summer Semester 2013
8
Predicting Secondary Structure
• SSP: Given a protein sequence, assign each AA in the
sequence to one of the three classes Helix (H), Strand (E),
or Coil (_)
KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD
GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK
KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL
KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD
-----HHHHHHHHH-------------EEEEE---------------GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK
----EEEEEE--------------------------------HHHHHH
KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL
HHH-------EEE--------------------
Ulf Leser: Bioinformatics, Summer Semester 2013
9
Proteomics
• The real workhorses in a cell are proteins
– Differential splicing, post-translational modifications, degradation
rates, various levels of regulation, …
• But: Much more difficult to study (compared to mRNA)
• Separation of proteins
– 2D page, GC / LC
• Identification of proteins
– Mass-spectrometry
Ulf Leser: Bioinformatics, Summer Semester 2013
10
Protein-Protein-Interactions
• Proteins do not work in isolation but
interact with each other
– Metabolism, complex formation, signal
transduction, transport, …
• PPI networks
– Neighbors tend to have similar functions
– Interactions tend to be evolutionary
conserved
– Dense subgraphs (cliques) tend to
perform distinct functions
– Are not random at all
Ulf Leser: Bioinformatics, Summer Semester 2013
11
Systems Biology
• Biological networks are more
than edges and nodes
• Example: Metabolic networks
– Graphs capturing biochemical
reactions
– Can be described quantitatively:
N2 + 3H2 → 2NH3
– Can be analyzed (Balanced flux?
Elements never produced /
consumed? …)
• Dynamic modeling: Kinetics
Ulf Leser: Bioinformatics, Summer Semester 2013
12
Topics Not Covered
•
•
•
•
•
•
•
•
•
Phylogenetic algorithms
Gene prediction
Protein 3D-structure prediction
Docking
(Next Generation) Sequencing
Genotype / Phenotype association studies
Biological Databases
Data Mining / Machine Learning in Life Science Data
…
Ulf Leser: Bioinformatics, Summer Semester 2013
13
Evaluation
Ulf Leser: Bioinformatics, Summer Semester 2013
14
Klausur
•
•
•
•
•
•
Zulassung
Lerngruppen
Ablauf Klausur
Ergebnisse
Klausureinsicht
Wiederholungen
Ulf Leser: Bioinformatics, Summer Semester 2013
15
Wissensmanagement in der Bioinformatik
• Our topics in research
–
–
–
–
Scientific database systems
Text Mining
Statistical, graph-based data analysis
Parallel data analysis; cloud computing
• Our topics in teaching
–
–
–
–
–
Grundlagen der Bioinformatik
Algorithmische Bioinformatik
Text Analytics
Data Warehousing und Data Mining
Informationsintegration
Ulf Leser: Bioinformatics, Summer Semester 2013
16
• Wenn Sie beim Lernen Fragen haben – Mail
• Wenn Sie beim Lernen Fehler in den Folien finden – Mail
• Wenn Sie an ihrem Studium schlimm zweifeln – Mail
• Viel Erfolg bei der Klausur
Ulf Leser: Bioinformatics, Summer Semester 2013
17
DNA Computing
• „The use of biological molecules, primarily DNA, DNA
analogs, and RNA, for computational purposes“
• Warum kann das interessant sein?
– Herkömmliche Chips stoßen an physikalische Grenzen
• Strukturen kleiner als Lichtwellenfrequenz
• Wege auf Chips so lange, dass Lichtgeschwindigkeit ein Problem wird
• Chips entwickeln zu viel Hitze
– DNA Moleküle: billig, relativ einfach zu handhaben, viele
– Massive Parallelität möglich
• 5 Gramm DNA enthalten ca. 1021 Basen
– Primitive Operationen (= biotechnische Verfahren) vorhanden
• Schneiden, Kopieren, Verlängern, Verkleben
Ulf Leser: Bioinformatics, Summer Semester 2013
18
Schneiden: Restriktionsenzyme
EcoRI
HindIII
AluI
HaeIII
Ulf Leser: Bioinformatics, Summer Semester 2013
19
Verkleben: Hybridisierung
A
B
a
b
100° C
HEAT
A
B
a
b
COOL
B
A
a
b
OR
A
B
a
b
Ulf Leser: Bioinformatics, Summer Semester 2013
20
Vervielfältigen: PCR
• Gegeben:
– Doppelsträngige DNA D
– Probe S mit bekannter Sequenz
• Frage:
– SD ?
3’
5’
5’
Primer I
Enthalten ?
Primer II
3’
5’
3’
Ulf Leser: Bioinformatics, Summer Semester 2013
21
Eulers Problem – Königsberger Brücken
• Gibt es einen Weg, der jede Brücke genau einmal
überquert?
• Und wieder da ankommt, wo man losgegangen ist?
Ulf Leser: Bioinformatics, Summer Semester 2013
22
Modellierung
Ulf Leser: Bioinformatics, Summer Semester 2013
23
Hamilton Path
• Gegeben ein Graph G mit
Knoten V und gerichteten
Kanten E
• Gibt es einen Pfad durch G,
der an Knoten V1 anfängt,
an Vn aufhört, und jeden
Knoten genau einmal
berührt?
• NP-vollständig
Ulf Leser: Bioinformatics, Summer Semester 2013
24
DNA Computing Methode
• Leonard M. Adleman, Molecular Computation of Solutions
to Combinatorial Problems, Science 226, 1994
• Abbildung des Graphen in DNA Moleküle
– Knoten V: eindeutige DNA Sequenz der Länge 10
– Kante E(Vi,Vj): DNA Sequenz gebildet aus: h(Vi[6...10])+h(Vj[1...5])
• h ist das Komplement einer Sequenz (A-T, C-G)
Prag
Berlin
Moskau
München
Peking
Prag
München
Moskau
Berlin
Peking
Ulf Leser: Bioinformatics, Summer Semester 2013
=
=
=
=
=
ACGTA
GTGAC
TGTAA
GAATA
TTGTA
ATGAC
TTGAC
AATGC
CGTAA
AATCG
Berlin-München = TACTG ACATT
Moskau-Peking = AACTG CTTAT
...
25
Nächster Schritt
• Erzeuge all das in großer Menge und mische es
– DNA lässt sich gezielt und billig synthetisieren
• Was passiert?
– Alle Wege werden per Hybridisierung als doppelsträngige DNA
entstehen
Prag
München
Berlin
München
Prag
ACGTAATGACTGTAAAATGCTTGTAAATCG
TTACTGACATTTTACGAACA
Berlin
Berlin-München München-Prag
Ulf Leser: Bioinformatics, Summer Semester 2013
26
Algorithmus
• Filter 1: Selektiere Pfade, die in V1 beginnen/in Vn aufhören
– Vervielfältige durch PCR mit Primern aus V1 und Vn
– Schneide Banden aus dem Gel
• Filter 2: Selektiere Pfade der Länge n
– Stränge durch Gelelektrophorese der Länge nach auftrennen
– Längenbestimmung durch Vergleichs-DNA
• Filter 3: Selektiere Pfade, die jede Stadt enthalten
– Baue „Städte“ mit magnetischem Anhängsel
– Trenne Doppelstränge; Sonde bindet; Filtern im magnetischen Feld
– Iterativ für jede Stadt
• Es gibt einen Hamilton Pfad von V1 nach Vn gdw.
mindestens eine Sequenz übrig bleibt
Ulf Leser: Bioinformatics, Summer Semester 2013
27
Probleme
• Hybridisierung nicht
perfekt
– Führt zu falsch Positiven und
falsch Negativen
• Selbsthybridisierung
• Viele Einzelschritte – fehleranfällig
– Gerade das Herausfiltern der „richtigen“ Pfade
• Größere Probleme verlangen sehr große Mengen DNA
– Mehr Knoten und mehr Kanten – viel mehr Pfade
– Wahrscheinlichkeit für Erzeugung jedes Pfades muss sehr hoch
sein, damit PCR sie findet
Ulf Leser: Bioinformatics, Summer Semester 2013
28
Neues Problem
• DNA Wort Design (Oligodesign)
–
–
–
–
–
–
Berechne n DNA Sequenzen so, dass
... nur die gewollten Hybridisierungen stattfinden
... möglichst wenig Kreuzhybridisierung stattfindet
... keine komplementäre Selbstähnlichkeit vorliegt
... Wahrscheinlichkeit für Hairpins minimal ist
... die Schmelzpunkte ungefähr gleich sind
• Vielfältige Anwendungen
–
–
–
–
Sequenzierung per Hybridisierung
Nachweis von Genexpression durch Chips
DNA Computing
...
Ulf Leser: Bioinformatics, Summer Semester 2013
29
Herunterladen