Introduction to Bioinformatics Finish Ulf Leser This Lecture Genomics Proteomics Sequencing Gene prediction Evolutionary relationships Motifs - TFBS Transcriptomics RNA folding … Structure prediction … comparison Motives, active sites Docking Protein-Protein Interaction Proteomics … Ulf Leser: Bioinformatics, Summer Semester 2013 Systems Biology Medicine Pathway analysis Phenotype – genotype Gene regulation Mutations and risk Signaling Population Metabolism genetics Quantitative models Adverse effects Integrative analysis … … 2 Bioinformatics / Computational Biology • Computer Science methods for – Solving biologically relevant problems – Analyzing and managing experimental data sets • Empirical: Data from high throughput experiments • Mostly focused on developing algorithms • Problem are typically complex, data full of errors – importance of heuristics and approximate methods • Reductionist – Strings, graphs, sequences, signals • Interdisciplinary: Biology, Computer Science, Physics, Mathematics, Genetics, … Ulf Leser: Bioinformatics, Summer Semester 2013 3 Searching Sequences (Strings) • A chromosome is a string • A sequencing machine generates strings • Substrings may represent biologically important areas – – – – – Genes on a chromosome Transcription factor binding sites Same gene in a different species Similar gene in a different species … • Exact or approximate string search – Naive and Boyer-Moore algorithm – PSWM: Approximate gap-free matching – Local and global alignment Ulf Leser: Bioinformatics, Summer Semester 2013 4 PAM as Distance Measure • Definition Let S1, S2 be two protein sequences with |S1|=|S2|. We say S1 and S2 are x PAM distant, iff S1 most probably was produced from S2 with x mutations per 100 AAs – PAM is motivated by evolution – Assumptions: Mutations happen with the same rate at every position of a sequence – If mutation rate is high, mutations will occur again and again at the same position – PAM ≠ %-sequence-identity Observed substitutions • Remarks True # of mutations Ulf Leser: Bioinformatics, Summer Semester 2013 5 Searching a Database of Strings • Comparing two sequences is costly • Given s, assume we want to find the most similar s’ in a database of all known sequences – Naïve: Compare s with all strings in DB – Will take years and years • BLAST: Basic local alignment search tool – – – – Ranks all strings in DB according to similarity to s Similarity: High is s, s’ contain substrings that are highly similar Heuristic: Might miss certain similar sequences Extremely popular: You can “blast a sequence” Ulf Leser: Bioinformatics, Summer Semester 2013 6 Multiple Sequence Alignment • Given a set S of sequences: Find an arrangement of all strings in S in columns such that there are (a) few columns and (b) columns are maximally homogeneous – Additional spaces allowed Source: Pfam, Zinc finger domain • Goal: Find commonality between a set of functionally related sequences – Proteins are composed of different functional domains – Which domain performs a certain function? Ulf Leser: Bioinformatics, Summer Semester 2013 7 Microarrays / Transcriptomics Referenzarray Zellprobe (Probe) (Sample) Hybridisierung Arrayaufbereitung Scanning TIFF Bild Bilderkennung Rohdaten Ulf Leser: Bioinformatics, Summer Semester 2013 8 Predicting Secondary Structure • SSP: Given a protein sequence, assign each AA in the sequence to one of the three classes Helix (H), Strand (E), or Coil (_) KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL KVYGRCELAAAMKRLGLDNYRGYSLGNWVCAAKFESNFNTHATNRNTD -----HHHHHHHHH-------------EEEEE---------------GSTDYGILQINSRWWCNDGRTPGSKNLCNIPCSALLSSDITASVNCAK ----EEEEEE--------------------------------HHHHHH KIASGGNGMNAWVAWRNRCKGTDVHAWIRGCRL HHH-------EEE-------------------- Ulf Leser: Bioinformatics, Summer Semester 2013 9 Proteomics • The real workhorses in a cell are proteins – Differential splicing, post-translational modifications, degradation rates, various levels of regulation, … • But: Much more difficult to study (compared to mRNA) • Separation of proteins – 2D page, GC / LC • Identification of proteins – Mass-spectrometry Ulf Leser: Bioinformatics, Summer Semester 2013 10 Protein-Protein-Interactions • Proteins do not work in isolation but interact with each other – Metabolism, complex formation, signal transduction, transport, … • PPI networks – Neighbors tend to have similar functions – Interactions tend to be evolutionary conserved – Dense subgraphs (cliques) tend to perform distinct functions – Are not random at all Ulf Leser: Bioinformatics, Summer Semester 2013 11 Systems Biology • Biological networks are more than edges and nodes • Example: Metabolic networks – Graphs capturing biochemical reactions – Can be described quantitatively: N2 + 3H2 → 2NH3 – Can be analyzed (Balanced flux? Elements never produced / consumed? …) • Dynamic modeling: Kinetics Ulf Leser: Bioinformatics, Summer Semester 2013 12 Topics Not Covered • • • • • • • • • Phylogenetic algorithms Gene prediction Protein 3D-structure prediction Docking (Next Generation) Sequencing Genotype / Phenotype association studies Biological Databases Data Mining / Machine Learning in Life Science Data … Ulf Leser: Bioinformatics, Summer Semester 2013 13 Evaluation Ulf Leser: Bioinformatics, Summer Semester 2013 14 Klausur • • • • • • Zulassung Lerngruppen Ablauf Klausur Ergebnisse Klausureinsicht Wiederholungen Ulf Leser: Bioinformatics, Summer Semester 2013 15 Wissensmanagement in der Bioinformatik • Our topics in research – – – – Scientific database systems Text Mining Statistical, graph-based data analysis Parallel data analysis; cloud computing • Our topics in teaching – – – – – Grundlagen der Bioinformatik Algorithmische Bioinformatik Text Analytics Data Warehousing und Data Mining Informationsintegration Ulf Leser: Bioinformatics, Summer Semester 2013 16 • Wenn Sie beim Lernen Fragen haben – Mail • Wenn Sie beim Lernen Fehler in den Folien finden – Mail • Wenn Sie an ihrem Studium schlimm zweifeln – Mail • Viel Erfolg bei der Klausur Ulf Leser: Bioinformatics, Summer Semester 2013 17 DNA Computing • „The use of biological molecules, primarily DNA, DNA analogs, and RNA, for computational purposes“ • Warum kann das interessant sein? – Herkömmliche Chips stoßen an physikalische Grenzen • Strukturen kleiner als Lichtwellenfrequenz • Wege auf Chips so lange, dass Lichtgeschwindigkeit ein Problem wird • Chips entwickeln zu viel Hitze – DNA Moleküle: billig, relativ einfach zu handhaben, viele – Massive Parallelität möglich • 5 Gramm DNA enthalten ca. 1021 Basen – Primitive Operationen (= biotechnische Verfahren) vorhanden • Schneiden, Kopieren, Verlängern, Verkleben Ulf Leser: Bioinformatics, Summer Semester 2013 18 Schneiden: Restriktionsenzyme EcoRI HindIII AluI HaeIII Ulf Leser: Bioinformatics, Summer Semester 2013 19 Verkleben: Hybridisierung A B a b 100° C HEAT A B a b COOL B A a b OR A B a b Ulf Leser: Bioinformatics, Summer Semester 2013 20 Vervielfältigen: PCR • Gegeben: – Doppelsträngige DNA D – Probe S mit bekannter Sequenz • Frage: – SD ? 3’ 5’ 5’ Primer I Enthalten ? Primer II 3’ 5’ 3’ Ulf Leser: Bioinformatics, Summer Semester 2013 21 Eulers Problem – Königsberger Brücken • Gibt es einen Weg, der jede Brücke genau einmal überquert? • Und wieder da ankommt, wo man losgegangen ist? Ulf Leser: Bioinformatics, Summer Semester 2013 22 Modellierung Ulf Leser: Bioinformatics, Summer Semester 2013 23 Hamilton Path • Gegeben ein Graph G mit Knoten V und gerichteten Kanten E • Gibt es einen Pfad durch G, der an Knoten V1 anfängt, an Vn aufhört, und jeden Knoten genau einmal berührt? • NP-vollständig Ulf Leser: Bioinformatics, Summer Semester 2013 24 DNA Computing Methode • Leonard M. Adleman, Molecular Computation of Solutions to Combinatorial Problems, Science 226, 1994 • Abbildung des Graphen in DNA Moleküle – Knoten V: eindeutige DNA Sequenz der Länge 10 – Kante E(Vi,Vj): DNA Sequenz gebildet aus: h(Vi[6...10])+h(Vj[1...5]) • h ist das Komplement einer Sequenz (A-T, C-G) Prag Berlin Moskau München Peking Prag München Moskau Berlin Peking Ulf Leser: Bioinformatics, Summer Semester 2013 = = = = = ACGTA GTGAC TGTAA GAATA TTGTA ATGAC TTGAC AATGC CGTAA AATCG Berlin-München = TACTG ACATT Moskau-Peking = AACTG CTTAT ... 25 Nächster Schritt • Erzeuge all das in großer Menge und mische es – DNA lässt sich gezielt und billig synthetisieren • Was passiert? – Alle Wege werden per Hybridisierung als doppelsträngige DNA entstehen Prag München Berlin München Prag ACGTAATGACTGTAAAATGCTTGTAAATCG TTACTGACATTTTACGAACA Berlin Berlin-München München-Prag Ulf Leser: Bioinformatics, Summer Semester 2013 26 Algorithmus • Filter 1: Selektiere Pfade, die in V1 beginnen/in Vn aufhören – Vervielfältige durch PCR mit Primern aus V1 und Vn – Schneide Banden aus dem Gel • Filter 2: Selektiere Pfade der Länge n – Stränge durch Gelelektrophorese der Länge nach auftrennen – Längenbestimmung durch Vergleichs-DNA • Filter 3: Selektiere Pfade, die jede Stadt enthalten – Baue „Städte“ mit magnetischem Anhängsel – Trenne Doppelstränge; Sonde bindet; Filtern im magnetischen Feld – Iterativ für jede Stadt • Es gibt einen Hamilton Pfad von V1 nach Vn gdw. mindestens eine Sequenz übrig bleibt Ulf Leser: Bioinformatics, Summer Semester 2013 27 Probleme • Hybridisierung nicht perfekt – Führt zu falsch Positiven und falsch Negativen • Selbsthybridisierung • Viele Einzelschritte – fehleranfällig – Gerade das Herausfiltern der „richtigen“ Pfade • Größere Probleme verlangen sehr große Mengen DNA – Mehr Knoten und mehr Kanten – viel mehr Pfade – Wahrscheinlichkeit für Erzeugung jedes Pfades muss sehr hoch sein, damit PCR sie findet Ulf Leser: Bioinformatics, Summer Semester 2013 28 Neues Problem • DNA Wort Design (Oligodesign) – – – – – – Berechne n DNA Sequenzen so, dass ... nur die gewollten Hybridisierungen stattfinden ... möglichst wenig Kreuzhybridisierung stattfindet ... keine komplementäre Selbstähnlichkeit vorliegt ... Wahrscheinlichkeit für Hairpins minimal ist ... die Schmelzpunkte ungefähr gleich sind • Vielfältige Anwendungen – – – – Sequenzierung per Hybridisierung Nachweis von Genexpression durch Chips DNA Computing ... Ulf Leser: Bioinformatics, Summer Semester 2013 29