Biologie + Informatik = Bioinformatik??? Dr. Ursula Rost Bioinformatics and Computational Biochemistry European Media Laboratory Heidelberg Zur Person Ursula Rost − Studium Diplom-Informatik, TU Clausthal & Uni Karlsruhe (TH) − Promotion im FB Elektrotechnik, Uni Hannover − Wissenschaftlerin am EML, Gruppe: Bioinformatics and Computational Biochemistry European Media Laboratory (EML) − gegründet 1997, finanziert durch Klaus-Tschira-Stiftung − http://www.eml.org − Anwendungsnahe Forschung im IT-Bereich Gruppen und Projekte am EML Personal Memory − Intelligente Benutzer-Schnittstellen − z.B. Touristenführer Heidelberg Natural Language Processing Storage Technology − holographische Datenspeicherung (tesa-ROM) Scientific Databases and Visualization − Integration von Datenbanken zur Analyse und Visualisierung biochemischer Pfade Bioinformatics and Computational Biochemistry − Modellierung biochemischer Pfade − Funktionale Netzwerke − Simulation Molecular and Cellular Modelling IT in the Health Sector − nicht-invasive Überwachung von Lebensdaten − IT für den Dialog zwischem Arzt und Patient BioParc Dresden Klaus Tschira Stiftung + Wirtschaftsministerium Sachsen: − Renovierung+Ausbau des Lingner Schlößchens − Doppelhelix-Gebäude als Standort für Startup-Firmen im Bereich Bioinformatik − Fertigstellung ca. 2004 − www.bioparc.de Übersicht Bioinformatik: Was ist das? Teilgebiete der Bioinformatik Algorithmen zum Sequenzvergleich Bioinformatik in Deutschland Zusammenfassung Biologie : Informatik Biologie − Wissenschaft vom Lebendigen • Erscheinungsformen lebender Systeme, • ihre Beziehungen untereinander • Vorgänge, die sich in ihnen abspielen − in der Bioinformatik • Molekularbiologie • Biochemie Informatik − “Systematisches Studium von informationsbeschreibenden und -transformierenden Prozessen in Bezug auf deren Theorie, Analyse, Entwurf, Implementierung und Anwendung .“ (ACM) − Datenstrukturen, Algorithmen, Rechnerarchitektur, Rechnernetze, Kryptographie, Betriebssysteme, ... − In der Bioinformatik z.B. • Algorithmen • KI • Datenbanken • Bildverarbeitung Zellbestandteile Vom Gen zum Protein Gen © Geo 9/2000 Sequenzen DNA {A,T,G,C}* RNA {A,U,C,G}* Protein {A,C,D,...,Y}* Genetischer Code P1 G A C U Position 2 P3 G Gly Gly A Glu Glu C Ala Ala U Val Val Gly Gly Arg Arg Asp Asp Lys Lys Ala Ala Thr Thr Val Val Met Ile C U G A Ser Ser Arg Arg Asn Asn Gln Gln Thr Thr Pro Pro Ile Ile Leu Leu C U G A Pro Pro Ser Ser Leu Leu Leu Leu C U G A Ser Ser Phe Phe C U Arg His Arg His Trp STOP STOP STOP Cys Cys Tyr Tyr G A A C D E F G H I K L M N P Q R S T V W Y Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr Alanin Cystein Aspartat Glutatmat Phenyalanin Glycin Histidin Isoleucin Lysin Leucin Methionin Asparagin Prolin Glutamin Arginin Serin Threonin Valin Tryptophan Tyrosin Genetischer Code Genetischer Code: Abbildung von Basen-Tripletts (Codone) auf Aminosäuren {XYZ | X,Y,Z ∈ {A,C,G,U} → {Ala, Cys, Asp, ..., Tyr} Eigenschaften des Genetischen Codes: − redundant (64 Codone werden auf 20 Aminosäuren und drei STOP-Codone abgebildet) − wird bei allen bekannten Lebewesen verwendet ( mit leichten Abweichungen z.B. in Mitochondrien und in Prokaryonten, bisher 15 Code Tabellen bekannt) − fehlertolerant (gehört zu den 0.02 % Codierungen mit der höchsten Fehlertoleranz, d.h. Punktmutationen führen zu gleichen oder ähnlichen Aminosäuren) Das Biochemische Netzwerk MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS………….. ………. SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV gatccagctg taccattatg taatataata agacacggac gcac……... Metabolische Pfade Warum Informatik in der Biologie? Experimente liefern enorme Datenmengen − Das menschliche Genom enthält ≈ 2 900 000 000 Basenpaare, die ca. 100 000 Gene bilden (momentane Schätzung) − Die EMBL Sequenz-Datenbank enthält z.Z mehr als 10.2 Millionen Gensequenz-Einträge mit mehr als 11.1 Mrd. Basenpaaren (Stand 9.1.2001) − Die SWISS-PROT Datenbank enthält z.Z. über 91 000 Protein-Einträge − Trotzdem sind Datenbank sehr unvollständig: bisher publizierte vollständig sequenzierte Genome: • 31 Bakterien • 8 Archaea • 3 Eukaryonten Daten sind sehr komplex − Proteine enthalten Teilstrukturen mit unterschiedlicher Bedeutung, die für ihre Funktion wesentlich sind − Aktivitäten in der Zelle sind durch vielfältige Abhängigkeiten geprägt, die z.Z. nur in sehr geringem Umfang bekannt sind Ziele der Bioinformatik Verständnis über die Abläufe in der Zelle erhöhen Informationen bereitstellen, mit denen Genetic Engineering ermöglicht wird − Entwicklung von Medikamenten (z.B. um bestimmte Reaktionen in der Zelle zu ermöglichen oder zu verhindern) − heilen von genetischen Defekten (bis jetzt noch nicht gelungen) Fragen beantworten wie z.B. − Welche funktionale Bedeutung hat eine bestimmte Gensequenz? − Welche Moleküle können an ein gegebenes Protein binden? − Wie wird ein metabolisches Netzwerk reguliert? Versuch einer Definition In der Bioinformatik werden mit Hilfe von Methoden aus der Mathematik und Informatik biochemische (und hierbei insbesondere genetische) Abläufe in der Zelle untersucht. Daneben gibt es weitere Gebiete in der Biologie, die Methoden der Mathematik und Informatik einsetzen, z.B. − Biostatistik − Populationsdynamik (Theoretische Biologie) Vorgehensweise 1. Ansatz: C Probleme: − ineffiziente Verfahren − schwer zu bedienende Programme − nicht wiederverwertbare Programme 2. Ansatz: Probleme: − Ergebnisse haben keine biologische Bedeutung − Modelle oft zu simpel Vorgehensweise Bioinformatik erfordert interdisziplinäre Zusammenarbeit zwischen − Naturwissenschaftlern (aus der Biologie, Biochemie und Biophysik) und − “anderen” Wissenschaftlern (aus der Informatik und Mathematik) Biologische Experimente Hypothesen Datenanalyse- und Verarbeitung Daten Übersicht Bioinformatik: Was ist das? Teilgebiete der Bioinformatik − Fallstudie − Auftretende Probleme und Lösungsansätze Algorithmen zum Sequenzvergleich Bioinformatik in Deutschland Zusammenfassung Fallstudie Schritt 1: ...G A G A A C T G T T T A G A T G C A A A A T C C A C A A G T... Schritt 2: E N C L D A K S T S ... Schritt 3: Mensch ... E N C L D A K S T S ... Drosophila ... E N C L D A Q S T H ... C. elegans ... E N C L D A G A T E ... Hefe ... E N C I D A N A T M ... E. coli ... E N C L D A G A T R ... Fallstudie Schritt 5: Schritt 6: Fallstudie © Geo 9/2000 Schritt 6: Bioinformatik Teilgebiete der Bioinformatik − Sequenzanalyse (DNA, Proteine) • Assembling • Primer-Design • Genefinding • Sequenzvergleich • Phylogenie − Strukturanalyse, Molecular Modelling und Molecular Dynamics • 3D-Struktur von Proteinen • Molekülbewegungen − Expressionsdatenanalyse − Simulation Weitere relevante Diziplinen, die sich u.a. mit Bioinformatik beschäftigen − Datenbanken − Visualisierung Sequenzanalyse: Assembling ...G A G A A C T G G A G A G A T T T A G A T G C ... Problem: − Gene sind zu lang, um am Stück sequenziert zu werden (k ∗ 10 000 bp) − Sequenzierverfahren liefern viele kleine Stücke (k ∗ 1 000 bp), die zusammengefügt werden müssen − Whole Genome Shotgun Sequencing bringt heutzutage neue Herausforderungen mit sich Sequenzanalyse: Assembling Lösungsansätze: − Verfahren zur Lösung des Shortest Common Superstring Problems − Abbildung auf Graphen und Suche nach dem kürzesten Hamilton Pfad • Fragmente stellen Knoten dar • Überlappung von zwei Fragmenten wird durch Kante zwischen diesen Fragmenten repräsentiert • Länge der Überlappung kann in Distanz umgesetzt werden − Consensus-String aus Hamilton-Pfad ergibt gesuchte Sequenz Sequenzanalyse: Primer-Design ...G A G A A C T... ... T A G A T G C ... Problem: − Füllen von Lücken Biologischer Lösungsansatz: − Design von sog. Primern (ca 20-25 Nukleotide), die in der Nähe der Endstücke binden und mit denen diese schrittweise verlängert werden können − Primer müssen bestimmte Eigenschaften aufweisen, z.B. sollen sie ausschließlich an den gewünschten Stellen binden, aber nicht mit sich selbst Lösungsansatz aus der Informatik: − Qualitätsfunktion für die Bewertung eines spezifischen Primers − gerichtete Suchverfahren Sequenzanalyse: Genefinding ...G A G A A C T G G A G A G A T T T A G A T G C ... G A G A A C T G T T T A G A T G C E N C L D A... Probleme: − Suche nach Promotoren (Startregion eines Gens) − Suche nach Introns/Exons Lösungsansätze: − Ausnutzung statistischer Eigenschaften in unterschiedlichen Regionen (z.B. Verhältnis bestimmter Codone) − Generalisierte HMMs Sequenzanalyse: Vergleich Ziele: ... E N C L D A K S T S ... ... E N C L D A Q S T H ... − Paarweiser Vergleich von Sequenzen, um Verwandtschaftsgrad zu ermitteln − Vergleich mehrerer (relativ ähnlicher) Sequenzen zur Erstellung eines Profils für Familien von Proteinen − Suche nach wiederkehrenden Motiven, die funktionale Bedeutung haben Eingesetzte Methoden − − − − Stringverarbeitungsalgorithmen (Suche, Distanzmaße,...) statistische Auswertungsverfahren Clustering-Verfahren Optimierungsverfahren Anwendung − funktionale Annotation − Identifikation eines Gens durch eindeutigeTeilsequenz Phylogenie Ziel: − Analyse der evolutionsgeschichtlichen Beziehung von Organismen: Tree of Life Phylogenie Ansatz: − Aufbau eines phylogenetischen Baums durch Vergleich von einander entsprechenden DNA-, RNA- oder Proteinsequenzen verschiedener Organismen • Blätter sind Sequenzen • Kanten sind gewichtet: ihre Länge ist proportional zu einer evolutionären Distanz (Pfadmetrik) • innere Knoten repräsentieren unbekannte gemeinsame Vorfahren − Einsatz von mathematischen Optimierungsverfahren zur Konstruktion eines Baums Strukturanalyse, Molecular Modelling und Molecular Dynamics Ziele: − − − − Bestimmung der 3D-Struktur von Proteinen Analyse des Faltungsprozesses Suche nach Liganden Analyse der Bewegungen eines Moleküls Verwendete Techniken: − [Kristallographie und NMR (sehr aufwendig)] − Strukturvorhersage aus Strukturvergleich − Strukturvorhersage aus Sequenz mit Optimierungsverfahren • Energieminimierung • Berücksichtigung physikalisch-chemischer Eigenschaften − Ab Initio Vorhersage (auf Atomebene, extrem aufwendig) Potentielle Anwendungen − Drug Design − Vorhersage der Interaktion von Molekülen in der Zelle Expressionsdatenanalyse Ziel: − Vollständige Kenntnis eines Genoms ist wünschenswert, aber unzureichend − Genauere Kenntnis über die Abläufe in der Zelle erfordert die Analyse der wechselseitigen Beziehungen bzw. dem Zusammenspiel der Gene Verw. Technik: Microarrays − Messung der Expression von bis zu 10000 (bekannten) Genen gleichzeitig − Auswertung des Transkriptoms − welche Gene werden unter welchen Bedingungen exprimiert − welche Gene sind koreguliert unter verschiedenen Bedingungen Expressionsdatenanalyse Analyse-Methoden − Klassische Mustererkennungsverfahren (Statistik) − Maschinelle Lernverfahren (NN, induktive Lernverfahren) Potentielle Anwendungen: − Identifikation komplexer genetischer Krankheiten − Spezifische Entwicklung von Medikamenten (die auf den Genotyp bezogen sind) − Suche nach Mutationen − Zeitreihen zur Analyse verschiedener Krankheits-Stadien Simulation Ziel: − Modellierung biochemischer Prozesse in der Zelle Ansatz − Aufstellung mathematischer Modelle − Komponenten des Modells repräsentieren Moleküle bzw. Konzentrationen davon − Einsatz von numerischen und stochastischen Simulationsverfahren, sowie Prozeßalgebren Anwendungsgebiete − Aufklärung von Mechanismen des Stoffwechsels − Verständnis der Regulierungsmechanismen allgemein − Verifizierung von Expressionsdaten Simulation Beispiel: Calcium-Konzentration in Leberzellen Daten aus Experiment Daten aus Simulation Datenbanken Ziele: − Speicherung und Organisation großer Datenmengen − zielgerichteter Zugriff auf einzelne Daten Beispiele − Sequenzdatenbanken − Strukturdatenbanken − Datenbanken für bestimmte Organismen Visualisierung Ziele: − Interaktive Exploration großer Datenmengen − Sichtbarmachung von Zusammenhängen Beispiel: − Analyse großer Bäume (z.B. Proteinbäume, phylogenetische Bäume) Übersicht Bioinformatik: Was ist das? Teilgebiete der Bioinformatik Algorithmen zum Sequenzvergleich − paarweiser Vergleich − Vergleich mehrerer Sequenzen − Datenbanksuche Bioinformatik in Deutschland Zusammenfassung Sequenzanalyse Zentrales Dogma der Bioinformatik Wenn zwei Sequenzen sehr ähnlich sind, haben sie auch − eine ähnliche Funktion, − eine ähnliche Struktur, und sie haben einen gemeinsamen Vorfahren Vorsicht: das stimmt nicht immer !!! Das impliziert, daß − die Sequenz eine Syntax bildet, die eine Funktion codiert − es gibt auch Redundanz, da einige Elemente ausgetauscht werden können, ohne daß sich die Funktion ändert (robuste Semantik) Zentrale Vorgehensweise ist daher − Vergleich von Sequenzen, deren Funktion unbekannt ist, mit Sequenzen, deren Funktion aus Experimenten bekannt ist Je nach Organismus, können daher heute zwischen 10 und 70% der Proteinsequenzen annotiert werden. Annotation Sequenzanalyse Problem: − geg.: Sequenz mit unbekannter Funktion − ges.: ähnlichste Sequenz mit bekannter Funktion Ansatz: − Ähnlichkeitsmaß − Algorithmus zur Bestimmung der Ähnlichkeit R N I R V R N I L L R N I L V N I L V R D I S L V Konventionen Paarweiser Vergleich von je einem Buchstaben aus zwei Sequenzen, d.h. keine Betrachtung statistischer Abhängigkeiten innerhalb einer Sequenz Ähnlichkeit von zwei Sequenzen ergibt sich als Summe aus den Einzelähnlichkeiten (Markov-Modell) Aufstellung von sogenannten Scoring-Matrizen: Ähnlichkeitswert bezieht sich immer nur auf das dahinterliegende Modell Verfahren hauptsächlich für den Vergleich von Aminosäuresequenzen (Proteinen) R N I L L R N I L V Ähnlichkeitsmaß Einfachste Vergleichsmöglichkeit: Identitäts-Matrix − gleiche Buchstaben = 1, − ungleiche Buchstaben = 0 Ähnlichkeitsmaße, die über = / ≠ Vergleiche hinausgehen, nutzen − chemische oder strukturelle Eigenschaften: polar/unpolar, Form, Größe, Ladung − genetische Eigenschaften: minimale Anzahl ausgetauschter Basen in der dazugehörigen DNA − evolutionäre Distanz: beobachtete AustauschHäufigkeiten von Aminosäuren (in bekannten Proteinfamilien) PAM basiert auf evolutionärem Modell − ähnliche Proteine haben einen gemeinsamen Vorfahren, aus dem beide Sequenzen durch genetische Veränderungen wie z.B. Punktmutationen hervorgegangen sind ( Edit-Distanz) empirisch aus Vorkommen von Aminosäuren in ähnlichen (mindestens 85% identischen), homologen Proteinen abgeschätzt PAM : Accepted Point Mutation PAM 1 - Matrix − 1 evolutionärer Schritt − 1 Mutation pro 100 Residuen erlaubt (1% Unterschied) − wie hoch ist Wahrscheinlichkeit, daß sich ein Residuum ändert? PAM 250 - Matrix − entspricht 80 % Unterschied Dayhoff Matrix A R N D C Q E G H I L K M F P S T W Y V 4 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -4 1 1 1 -6 -3 0 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 2 2 -4 1 1 0 2 -2 -3 1 -2 -4 -1 1 0 -4 -2 -2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 4 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 5 -2 -3 -4 -2 -3 -5 -1 1 0 -7 -5 -1 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 6 -3 4 2 -3 -3 -2 -2 -1 2 5 0 -5 -1 0 0 -3 -4 -2 6 0 -2 -2 -1 -4 -2 2 A R N D C Q E G H I L K M MDM78 PAM250 9 -5 6 -3 1 3 -2 0 1 3 0 -6 -2 -5 17 7 -5 -3 -3 0 10 -1 -1 -1 0 -6 -2 F P S T W Y Gaps Neben Substitutionen können auch Einfügungen und Löschungen vorkommen ? R D I S L V K N A G I R N I L V S D A K N V G I Alignment: zeichenweise Anordnung von Sequenzen derart, daß − jeder Buchstabe einer Sequenz entweder einem anderen Buchstaben aus (je)der anderen Sequenz zugeordnet ist oder einer Lücke (“-”) − die relative Ordnung der Buchstaben einer Sequenz bleibt dabei gewahrt R D I R N I S L V K N A G I L V S D A K N V G I Gap Penalty Gaps in einem Alignment (Paarung einer Aminosäure mit einer Lücke) werden mit einem schlechten Wert bestraft, z.B . negativer Wert für jede − einzelne Gap, d.h. Funktion linear in der Länge k der eingefügten bzw. gelöschten Elemente g k =q⋅k − oder zusammengesetzter Wert für Einfügungen/Auslassungen beliebiger Länge a : Gap Eröffnungsstrafe b: Gap Ausweitungsstrafe g k =ab⋅k affin-lineare Gap Penalty Beispiel R D I R N I S L V Identitäts-M. : K N A G I L V S D A K N V G I 1 + 0 + 1 - g(1) + 1 + 1 - g(3) + 1 + 1 + 0 + 1 + 1 PAM250 : 6 + 2 + 5 - g(1) + 6 + 4 - g(3) + 5 + 2 + 0 + 5 + 5 Optimales Paarweises Alignment Ziel: Suche nach einem Alignment von zwei Sequenzen, so daß der Ähnlichkeitswert maximal ist (oder die Distanz minimal) R D I R N I S L V 2n = 2n ! ≈ 2 2n n n !2 2πn K N A G I L V S D A K N V G I Möglichkeiten für zwei Sequenzen der Länge n Alignment x1 x2 x3 x4 x5 y1 y2 y3 x i 1 − y4 − y j1 x i1 y j1 Alignment x1 x2 x3 x4 x5 y1 y2 y3 y4 x1 − x 2 x 3 x 4 x5 y1 y2 y3 − − y4 x1 x2 x3 x 4 x 5 y1 y2 y3 y4− Dynamische Programmierung Problem: Berechnung aller möglichen Alignments und Vergleich der Scores ist zu aufwendig Lösungsansatz: Dynamische Programmierung − Zerteilung des Problems in unabhängige Teilprobleme, Lösung der Teilprobleme und Kombination der Teillösungen zu Gesamtlösung − Bottom-Up Vorgehensweise mit Speicherung der Teillösungen optimal x A optimal Z optimal Globales Alignment Needleman-Wunsch Algorithmus − benutzt Prinzip der dynamischen Programmierung: optimales Alignment für zwei Sequenzen wird aus optimalen Alignments von Teilsequenzen bestimmt − kleinste Einheit: Alignment von zwei Buchstaben (Aminosäuren) bzw. Wert für eine Gap − 1. Schritt: Berechnung einer Matrix, die alle möglichen Alignments der Sequenzen repräsentiert. Mit Ausnahme der Initialwerte werden alle Einträge der Matrix mit Hilfe der bereits eingetragenen Werte und einer rekursiven Formel abgeleitet. − 2. Schritt: “Ablesen” des besten Alignments aus einem Pfad durch die Matrix (Verfolgung des besten Alignments vom Ziel zum Start) Needleman-Wunsch Algorithmus Sequenz 1: x 1 x 2 x 3 x m Sequenz 2: y 1 y 2 y 3 y n Matrix F wobei F i , j den Score für das optimale Alignment der Sequenz x 1 x 2 x i mit der Sequenz y 1 y 2 y j angibt F _ x1 x 2 x 3 x m _ y1 y2 y3 F 2,3 ⋮ yn Rekursionsformel Fi−1, j−1 F i , j−1 -g(1) + s(x , y ) Fi−1, j F i , j i j -g(1) { F i−1, j−1s x i , y j F i , j =max F i−1, j −g1 F i , j−1−g 1 Needleman-Wunsch: Beispiel R D I S L V R N I L V PAM 250 Lineare Gap Penalty mit q = -6 Needleman-Wunsch: Beispiel - R D I S L - 0 -6 -12 -18 -24 -30 R -6 6 0 N -12 I -18 L -24 V -30 V -36 Needleman-Wunsch: Beispiel - R D I S L V - 0 -6 -12 -18 -24 -30 -36 R -6 6 0 -6 -12 -18 -24 N -12 0 8 2 -4 -10 -16 I -18 -6 2 13 7 1 -5 L -24 -12 -4 7 10 13 7 V -30 -18 -10 1 6 12 17 Needleman-Wunsch: Beispiel - R D I S L V - 0 -6 -12 -18 -24 -30 -36 R -6 6 0 -6 -12 -18 -24 N -12 0 8 2 -4 -10 -16 I -18 -6 2 13 7 1 -5 L -24 -12 -4 7 10 13 7 V -30 -18 -10 1 6 12 17 Needleman-Wunsch: Beispiel Ergebnis-Score: 17 Alignment R D I S L V R N I L V Übersicht Bioinformatik: Was ist das? Teilgebiete der Bioinformatik Algorithmen zum Sequenzvergleich Bioinformatik in Deutschland − Studiengänge an Hochschulen − Forschungseinrichtungen Zusammenfassung Studiengänge an Hochschulen Universitäten: −Tübingen (seit WS 98/99) − Bielefeld − Halle(seit WS 99/00) − München (seit WS 99/00) − Berlin (seit WS 00/01) − Frankfurt (seit WS 00/01) − Jena (seit WS 00/01) − Saarbrücken (seit WS 01/02) − Hamburg (geplant) − Leipzig (geplant) + Lehrstühle in der Informatik/Biologie/Chemie Fachhochschulen: − Bingen (seit WS 00/01) − Gießen (seit WS 00/01) − Ostfriesland (seit WS 01/02) − Weihenstephan (seit WS 01/02) − Wildau (seit WS 01/02) − Rhein-Sieg (geplant) Curriculum Bioinformatik im Beispiel Tübingen (Diplom) Saarbrücken (Bachelor/Master) Ziel: Ziel: − Vollgültiges Informatikstudium − Vorbereitung auf berufliche Praxis mit starker Betonung des als Bioinformatiker Anwendungsfachs Bachelor (Semester 1 - 4 + 5 - 6) Grundstudium − Informatik : 38 SWS − Mathematik : 22 SWS − Biologie + Chemie : 24 SWS Hauptstudium − Informatik : 52 SWS − Anwendungsfach : 28 SWS Diplomarbeit − Lösung eines Problems aus dem Anwendungsfach mit Informatikmethoden Besonderheiten −spez. Algorithmenvorlesung −einzelne Spezialvorlesungen − Informatik : 12 + 6 SWS − Mathematik : 22 + 0 SWS − Bioinformatik : 12 + 6 SWS − Biowissenschaften : 24 + 7 SWS Master (Semester 7 - 8) − Informatik : 18 SWS − Bioinformatik : 6 SWS − Biowissenschaften : 8 SWS Master-Thesis Besonderheiten − umfangreiche Praktika − Industriepraktikum oder Forschungsaufenthalt Forschungseinrichtungen und Forschungsförderung Forschungseinrichtungen in Deutschland − − − − − EMBL Heidelberg DKFZ Heidelberg Max-Delbrück-Zentrum Berlin MIPS München ... Forschungsförderung aus öffentlicher Hand − DFG (50 Mio DM über 5 Jahre) • Bielefeld • München • Leipzig • Saarbrücken • Tübingen − BMBF (bis zu 100 Mio DM über 5 Jahre) • Berlin* • Braunschweig* • Gatersleben* • Jena* • Köln* • München* * Antragsteller Zusammenfassung Die Bioinformatik untersucht biochemische Prozesse in der Zelle mit Hilfe von Methoden aus der Mathematik und Informatik. Bioinformatik ≠ Biologie + Informatik stattdessen Bioinformatik ist (idealerweise) eine Symbiose zwischen der Biologie und der Informatik, die zu neuen Ansätzen führt Bioinformatiker benötigen daher − Verständnis biologischer Mechanismen − Wissen über Methoden der Informatik Beiträge aus der Biologie Genetik Biochemie phänomenologisches Wissen Beiträge aus der Informatik Algorithmik Datenbanken Visualisierung abstrakte Modelle