Einführung in die Bioinformatik und Vorstellung der Themen

Werbung
Lehrveranstaltung Sommersemester 2004
W. Kurth, G.H. Buck-Sorlin, O.Kniemeyer
Datenanalyse und Visualisierung in der Bioinformatik
(Praktikum, 1 SWS Präsenzveranstaltung + 4 SWS praktische
Taetigkeit (betreutes Arbeiten) )
Was ist Bioinformatik?
“Bioinformatik ist die Entwicklung und Anwendung von
Computeranwendungen für die Analyse, Interpretation,
Simulation und Vorhersage von biologischen
Systemen und korrespondierenden experimentellen Methoden in
den Naturwissenschaften”.
Steffen Schulze-Kremer (RZPD Deutsches Ressourcenzentrum für Genomforschung GmbH)
"Bioinformatik ist die computerunterstützte Analyse
biologischer Systeme."
Thomas Dandekar (EMBL Heidelberg)
"Bioinformatik besteht darin, biologische Gesetzmäßigkeiten der Entwicklung
neuer Algorithmen zugrunde zu legen und auf diese Weise zu synergistischen
Effekten zu kommen, die weder in der Biologie noch in der Informatik alleine
möglich wären."
Thomas Werner (CEO Genomatix Software GmbH München)
aus Hofestädt & Schnee (2002)
Was ist Bioinformatik?
1. Bio-Informatik = Probleme aus der Biologie + Methoden aus der
Informatik;
2. Bio-Informatik = Probleme aus der Informatik + Methoden aus
der Biologie.
Feinunterscheidung (nach Michael Waterman):
a. Schwerpunkt auf biologischer Fragestellung, Informatikwerkzeuge nach
Bedarf eingesetzt
b. Schwerpunkt auf Informatikmethoden, Biologie nur entfernte Motivation für
untersuchte Probleme
c. wirklich interdisziplinärer Ansatz: untersuchte Fragestellung und verwendete
Informatikmethoden werden in ständigem Prozess adaptiert. Notwendig, da die
Problemformalisierung nur eine Abstraktion des ursprünglichen Problems sein
kann.
Rolf Backofen (Institut für Informatik, LMU München)
aus Hofestädt & Schnee (2002)
aus Hofestädt & Schnee (2002)
Organismus
Drei Integrationsachsen
in der Computerbiologie System
Organ
funktional
Gewebe
Mathematische
Theorie
Physiko-chemische
erste Prinzipien
Netzwerk Vorhersagende
Modellierung
regulatorisch Wachs- Metabolik elektrisch mechanisch Transport
tum SystemZelle
analyse
Statistische
Organelle
Modellierung
Ontologien
Makromolekularer
Komplex
Empirische Daten
strukturell
zwischen Daten Protein
und Theorie
Gen nach McCULLOCH & HUBER (2002), verändert
Herausforderungen:
funktional
Systembiologie
nach McCULLOCH & HUBER (2002), verändert
Herausforderungen:
funktional
Zentrales Ziel der Systembiologie:
Funktional integrierte biologische
Modellierung
- datenbezogen datenintensiv
nach McCULLOCH & HUBER (2002), verändert
Herausforderungen:
funktional
Systembiologie
Computational
Biology
strukturell
nach McCULLOCH & HUBER (2002), verändert
Herausforderungen:
funktional
Systembiologie
Computational
Biology:
strukturell integriert
(z.B. Molekulare Dynamik,
Vorhersage der Proteinstruktur)
- gesteuert durch physicochemische 1. Prinzipien
 berechnungsintensiv
strukturell
nach McCULLOCH & HUBER (2002), verändert
Physico-chemische Erste Prinzipien:
- Problem der Proteinfaltung
- Massengleichgewicht bei Analysen metabolischer Flüsse
(auch bei sink-source-Modellen)
nach McCULLOCH & HUBER (2002), verändert
Beispiele für Schnittstellen zwischen strukturell und funktionell
integrierter Computational Biology:
• Kopplung zwischen biochemischen Netzwerken und räumlich
gekoppelten Netzwerken
• Nutzung physiko-chemischer Beschränkungen zur Optimierung
genomischer Systemmodelle des Zellmetabolismus
• Entwicklung kinetischer Modelle der Zellsignalübertragung in
Verbindung mit physiologischen Targets wie z.B. Energiestoffwechsel, Ionenflüsse oder Zellmotilität
• Nutzung empirischer Beschränkungen zur Optimierung von
Vorhersagen der Proteinfaltung
• Integration von Systemmodellen der Zelldynamik in Kontinuummodelle der Gewebe- und Organphysiologie
nach McCULLOCH & HUBER (2002), verändert
Das Zentrale Dogma
„The central dogma states that once
'information' has passed into a protein it
cannot get out again. The transfer of
information from nucleic acid to nucleic
acid, or from nucleic acid to protein, may
be possible, but transfer from protein to
protein, or from protein to nucleic acid,
is impossible. Information here means the
precise determination of sequence, either of
bases in the nucleic acid or of amino acid
residues in the protein"
Francis Crick (1958).
aus Waterman (1995)
Bioinformatik-Probleme
Probleme, die mit dem zentralen Dogma assoziiert sind: Alle Probleme, die
direkt mit einem spezifischen Level von Information (Sequenz, Struktur,
Funktion) assoziiert sind oder aber mehrere Levels umfassen.
Beispiele: Alignierungsverfahren (sequence alignment, structural alignment);
Proteinstrukturvorhersage
Probleme der Datenhaltung: Fragestellungen der Speicherung,
Wiedergewinnung und Analyse der Daten.
Beispiele: Aufbau von biologischen Datenbanken; data mining (Gewinnung neuen Wissens
aus der Ansammlung der Daten)
Simulation biologischer Systeme: Vorhersage des dynamischen Verhaltens eines
biologischen Systems auf der Basis seiner Komponenten.
Beispiel: Untersuchung metabolischer Netzwerke.
Rolf Backofen (Institut für Informatik, LMU München)
aus Hofestädt & Schnee (2002)
Allgemeine
Literatur:
Allgemeine Literatur:
1) Hofestädt, R., Schnee, R. (2002): Studien- und Forschungsführer
Bioinformatik. Spektrum-Verlag. 234 S.
2) Rashidi, H., Bühler, L.K. (2001): Grundriss der Bioinformatik.
Spektrum-Verlag. 215 S.
3) Hansen, A. (2001): Bioinformatik. Ein Leitfaden für
Naturwissenschaftler. Birkhäuser-Verlag. 112 S.
4) Waterman, M.S. (1995): Introduction to Computational Biology.
Maps, sequences and genomes. Chapman & Hall, London. 431 S.
5) Mount, D.W. (2001): Bioinformatics. Sequence and Genome
Analysis. Cold Spring Harbor Laboratory Press. 564 S.
Projekt T1: Erstellung einfacher genetischmetabolischer Regelungsnetzwerke mit Hilfe
der java-basierten Modellierplattform GroIMP
• Stark vereinfachtes Netzwerkmodell des Metabolismus einer Zelle
von E.coli.
• Ein Teilaspekt des Stoffwechsels (z.B. Atmung, N-Fixierung) wird
modelliert, Umfang des Modells: 10-15 Komponenten
• Komponentenklassen: Gene, kodierte Peptide, Enzyme, Reaktionen
(Metabolite).
• Regelungsnetzwerke anzufertigen und zu visualisieren in der
Modellierumgebung GroIMP: Growth grammar related Interactive
Modelling Platform; Formalisierung als Relational Growth Grammars
(erweiterte L-Systeme: Kniemeyer, Buck-Sorlin, und Kurth 2003) .
• GroIMP: arbeitet mit RGGs: java-basierte Modelliersprache, daher
formal sehr ähnlich zu Java. Einbettung von Java-Klassen in den XLCode erlaubt. Support: Ole Kniemeyer
Projekt T1: Regelungsnetzwerke mit GroIMP
Beispiel: ABC-Modell der Blüten-Morphogenese
(Portierung eines in "transsys" implementierten Modells von Jan T. Kim
(2001) nach XL)
XL erlaubt:
• die Modellierung der (Konzentrations-) Dynamik eines
Genregulationsnetzwerkes
f:Factor(c, d) ::> {f.concentration +:= -c * d;};
f:Factor <+ g:Gene(ct) ::> {f.concentration +:=
Math.max(0, sum((* Factor(c2,) Activate(s,m) g *),
m * c2 / (s + c2)) + ct);};
und
• die Modellierung der Genexpression
m:Meristem (* -factors-> Factor(a,) Factor(b,)
Factor(c,) *) ==>
ShootPiece((b > 80) ? ((c > a) ? STAMEN : PETAL)
: (a > 80) ? ((c > 80) ? SHOOT : SEPAL)
: (c > 80) ? CARPEL : PEDICEL) m;
ShootPiece(type) ==> ... graphical representation ...;
Projekt T1: Regelungsnetzwerke mit GroIMP
Beispiel: ABC-Modell der Blüten-Morphogenese
zugrundegelegtes Netzwerk (nach Kim 2001):
resultierende
Konzentrationsdynamik:
Projekt T2: Morphologisches Modell der sich
entwickelnden Raps-Pflanze
• Modellierung der Morphologie der Raps-Pflanze mittels relationaler
Wachstumsgrammatiken unter GroIMP, Verknüpfung biometrischer
Parameter mit genetischer Information, Modellierung von Dominanz
und Rezessivität.
• Grundlage: parametrische RGGs
• Vorgaben: Fotos und einige biometrische Messungen/Erfassungen
(Organgrössen, Winkel, ...)
• Abschätzen der anderen Parameter bzw. aus der Literatur
• Individuenmodell, Auflösung: Organebene (Blatt, Spross, Wurzel)
• Einbau genetischer Modellparameter aus der Literatur
• Visualisierung mit GroIMP
Projekt T2: Beispiel
Entwicklungsstudie Raps, durchgeführt mit cpfg/L-Studio
Projekt T3: 3D-Visualisierungs-/Animationstool
für zellbiologische Anwendungen
• Schaffung ein Visualisierungstool für die Anwendung in der
Zellbiologie auf der Basis von Java3D zum interaktiven Erstellen
von deskriptiven Graphiken und Animationen
• Eignung für die Erklärung von Methoden und Hypothesen v.a.
im zellbiologischen Bereich im Rahmen von Präsentationen.
• Erwünschte Eigenschaften:
• Interaktives Modellfenster, in dem das Modell in 2D und
eventuell in 3D darstellbar (und – falls 3D - möglichst drehbar)
ist.
• Eine Toolbox mit einem baumartig strukturierten Katalog von vorgefertigten
biologischen Grundobjekten (Bsp.: ‚Pilz’  ‚Spore’, ‚Hyphe’, ‚Haustorium’;
oder ‚Zelle’  ‚Zellkern’, ‚Golgi-Apparat’, ‚ER’, etc.).
• Möglichkeit, Grundobjekte zu editieren (Farbe etc.) sowie Tool-Elemente vor
einen importierten Hintergrund („Szene") zu stellen.
Projekt T3: 3D-Visualisierungs-/Animationstool
für zellbiologische Anwendungen
• Optionale Eigenschaften:
• Interaktive Erstellung (und Import in die Toolbox) weiterer Grundobjekte
• Drehbuch für Animationen
• Import von Pixelgrafiken in die Szene, Möglichkeit der Verknüpfung mit
dem Modell
• Ausgabeschnittstelle für gängige Animationsformate
• Objektkatalog baumförmig (hierarchisch)
• Anwendungsbeispiel:
• Wirt-Parasiten-System Gersten-Mehltau (Blumeria graminis hordei - Bgh) –
Gerstenblattoberfläche (Hordeum vulgare)
• Visualisiert werden soll der Entwicklungszyklus der Konidien (asexuellen
Sporen) von Blumeria graminis hordei.
Blumeria graminis
anamorph
...eine wichtige Getreidekrankheit.
teleomorph
24 h nach Inokulation
72 h nach Inokulation
Schema eines frühen Entwicklungsstadiums:
Hyphe
anamorph
Konidie
Haustorium
Epidermiszelle
Mesophyllzelle
teleomorph
Projekt T4: Visualisierung von
Proteinstrukturen
• Visualisierung von Proteinstrukturen aus einer ProteinstrukturDatenbank mittels GroIMP.
• Eingabeformat: PDB (Protein Data Bank, http://www.rcsb.org/pdb/):
Gibt Topologie und Geometrie (u.a.) aller beteiligten Atome vor.
• Direkte Visualisierung in GroIMP durch Interpretation der vorgegebenen Strukturinformation.
• Ausgabe: interaktives Makromolekülmodell als 'C-Backbone', Cartoon,
Kalottenmodell oder "Ball and Stick".
Projekt T4: Beispiel PDB-Format
........
........
........
........
Projekt T4: Beispiele für graphische
Ausgaben
backbone
(Kohlenstoffskelett)
stick
Kalottenmodell
cartoon
Projekt T5: Übersetzung von Root Typ in eine
Relationale Wachstumsgrammatik
• Wurzelarchitekturmodell RootTyp: (Loic Pagès, INRA Avignon,
Frankreich). Simuliert das Wachstum und die Verzweigung von
Wurzeln verschiedener botanischer Arten (Getreide, Unkräuter...)
unter Berücksichtigung eines eindimensionalen Bodenprofils.
• Simulierte Prozesse: Wurzelbildung, axiales und radiales
(Dicken)Wachstum, sequentielle Verzweigung, Reiteration,
Übergang, Verfaulen und Abwurf.
• Aufgabe:
• Übersetzung des Programms von C in ein durch GroIMP
darstellbares kompaktes RGG-Regelsystem mit
entsprechender Visualisierung
Graphische Ausgabe des Modells RootTyp:
links Original (Zeichnung), rechts Simulation
Herunterladen