Bioinformatik Was Wieso Warum Esther Ratsch 10. Oktober 2003 Was ist Bioinformatik? • Anwendung von Methoden der Informatik auf biologische Probleme • Speicherung großer Datenmengen • Kombination großer Datenmengen auf der Suche nach neuem Wissen • Unterstützt Laborbiologie an deren Grenzen • Planung von Experimenten Was ist Bioinformatik? • • • • • Verschiedene Arten der Bioinformatik, z.B.: Sequenzanalyse Modellierung von Proteinstrukturen Simulation von Netzwerken Erstellung von Datenbanken Genom und Gene gacaaggtga ttcagcaggc caggaatttt tggatgctta atgagataga aaaaatgaag taccgaaagt tattagtgtt tatgggcaat agaaaaaagt gcatactcgt tcatttccaa tcacacacag aatccctgga aggtggtctg caacagtggg aaccccatct cccagctact gtgagccgag aaaaaaaaaa atgggacatg ctgattcagt tttctcaagc cctcccaact ctaaccacaa ggaggaggag gatagaggaa cccaacggtc cattgggtgg ttgggtcatc ttccctgcaa ataaacagtg ccggtatagg gctgggacag gtggatcact ctactaaaaa ctaaggaaat ccagctactc aacagagcaa tggccctcct caggggacag catttgacta acttcttgcc tcctagtact attagttaat taaacctgta agatggtaaa tacatatagg tattttcctt acccacaatc gttctcaaac aagcctctaa caagtcactg cacactggga ggcatagaag tggatcagga ctactaaaaa tgggaggctg attgcaccac aaaaagagtg ggaggcatgg caaaagtcgt aagaaatatc gcactgatcc ccagttctgc tttggagaca gttatcttgg tccagccaga ctgttggatg tttactccag ttccttgggc taaccagaat cacacaatgg gctgggccat tgaggtcagg tacaaaaatt aattgatgat gggaggctga gataaccgtc tcctgcccct gtgctctcat gcatggctga tcaatattaa aaagccctaa taaggaaata attgacgatg acttataata atgaaaatca aaatcatata aaatagttat tttattgaca cagggagatg acaatattta aagttcttct atatcaaatt cttaaatgag cctagtgttt atttatgtga tcaccttgat gatgagtaat ttttcatcag tgaaaattat aattctagag cctgattcac gcagggcaaa agcttggttc agatattctg ggtgttgctg acaagagtgg gccgggcgcg ggaggtcagg agtttgagac tacaaaatat tagccgggca aggcaggaga attgcttgaa tgtactccac tccgccaaca ggtggcggga aggtggctga ttggcacgag ctcagcctga agtacttttc ctgctgagat ctcttctgtt tcagaattat tgtcccagag aggccctggg tctctcctgg ttcctgaaat gccctctacc agaagccaag tcctgcgccc acagtcccca tttcctgtcc ccttagcccc caggttactg ttggagtggg gtctcccttt catcctcctg taccagttcc tgacttttgt ttcagagggg ttagttgtgt tgagctgaga aatcttgggc ggctcatgcc tgtaatccca agttcaagac cagcctggcc agcttcttgc ctaaggaaaa gtggctagag gctagggcgt ggcagaagaa tcgcttgaac tcaaaaaaaa aaaaaaaaaa tcccc........ tgggaggatg aacacgcata tggcgagaga gaaacaactc atgaaatatt ctcagactaa tatcaatata gtattggtga agacaatgat tttgatttat attacttaaa aaagagccac cccttctcag tcccttgtcc gtggctcacg cagcctggcc tggtggcggg cccaggaggc gtgagagccc aggtaggagg ccagggccca tggtggccct tctgaatcat ctgcatcacc ccaggagcag aagaaagggg gggtcctcct accaagaacc ggatggccac tcttccctgg tcctttcaaa gtatcccctg tggtagtgct gcactttgga aacatggtga atacaaaaat ggtggcgggc cattgcacat aaaaaggctg aggtaaaatc cccaaatacg tttaactcca taagtatcta atacagacat aattgttaag taaaaatata gtggtgggat aaaccttgaa ttttattttt ggatgaaaaa tcgaccaact caggggacag cttggccaag cctgtaatcc aacatgttga cgcctgtaat agaggttgca tgtctcaaaa gggaacctaa gagaggtaga tttgctgggc taacccaagt taactgatca atggtggtgg agtgaggagg tcctgtgaag agaggctgcc ctgaggccaa gggcactcta ggaaccctgg gggacaagca aaattcaaag ggctgaggca aaccctgtat tacttcttgc acctgtaatc cagcctgggc gggacaatgc Teil der Sequenz des Gens für die leichte und schwere Kette der menschlichen Myeloperoxidase; EMBL AC X15377 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 1740 1800 1860 1920 1980 2040 2100 2160 2220 2280 2340 •Genom: Bauplan des Organismus •DNA: 4 Nukleotide (A,C,T und G) •Unterteilt in Gene, die für Proteine kodieren •Genomprojekte: -Viele Buchstaben - Wenig Sinn Vom Gen zum Protein • Transkription: DNA RNA • Translation: RNA Protein • Protein: aufgebaut aus Aminosäuren (20) Sequenzanalyse • Wo sind Gene in dem BuchstabenHaufen? • Ähnlichkeitssuchen zur Vorhersage der Verwandtschaftsbeziehungen eines Proteins und damit seiner Funktion MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS………….. ………. SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV gatccagctg taccattatg taatataata agacacggac gcac……... Proteine MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS………….. ………. SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV gatccagctg taccattatg taatataata agacacggac gcac……... Struktur-Modellierung • 3-dimensionale Struktur bestimmt die Funktion • Experimentelle Strukturaufklärung zeitaufwändig (damit teuer) und teilweise sehr schwer bis garnicht durchführbar. • Struktur ist durch Sequenz festgelegt und kann daher (näherungsweise) vorhergesagt werden. • Vorhersage basierend auf physikalischen Kräften oder Ähnlichkeitsanalysen. Reaktionen und Stoffwechselwege MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS………….. ………. SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV gatccagctg taccattatg taatataata agacacggac gcac……... Enzyme • Enzyme sind Bio-Katalysatoren (Reaktionsbeschleuniger) • Sie binden die Reaktanden und vereinfachen damit deren Interaktion, d.h. die Reaktion zwischen ihnen • Klassifizierung: EC-Nummer, z.B 2.7.1.40: –2 Transferases –2.7 Transfering phosphorus containing group –2.7.1 Phosphotransferases with an alcohol group as acceptor –2.7.1.40 Pyruvate kinase Pyruvate kinase complex with bis mg-atp-na-oxalate; Pfam Biochemische Netzwerke Simulationen • Das Gesamtheitnetzwerk ist sehr komplex und kann nicht intuitiv erfaßt werden. • Einfluß einzelner Vorgänge auf das Gesamtergebnis vorhersagen • Testen von Modellen/Hypothesen • Mathematische Beschreibung der Prozesse nötig Beispiel einer Simulation Experimentell bestimmte (oben) und simulierte (unten) CalciumKonzentration in Leberzellen. Datenbanken • Große Datenmengen • Speicherung so, daß Daten weiter nutzbar • Unterscheidung nach Inhalt (Proteinstrukturen, Reaktionen, Sequenzen) und Speicherformat (Tabelle, einfacher Text) • Unterstützen alle anderen Felder als Datenquelle und durch Speicherung der entstandenen Daten Ein Beispiel - Peroxidasen • Große Gruppe von Enzymen • Katalysieren viele verschiedene Reaktionen • Vorkommen in Pflanzen, Tieren, Pilzen und Bakterien • Abwehr von Krankheitserregern (bei Tieren und Pflanzen) Tagesablauf • Suche nach Daten zu Peroxidasen und ihren Reaktionen in verschiedenen Datenbanken • Nutzung ähnlicher Daten zur Simulation einer der katalysierten Reaktionen • Modellierung der Struktur der zugehörigen Peroxidase • Verbesserung der Simulation durch Daten, die bei der Modellierung des Proteins gewonnen werden