Vortrag - Benutzer-Homepage-Server der TH Mittelhessen

Werbung
Datenbanken in der Bioinformatik
Thorsten Denhard
Seminarvortrag
im Studienschwerpunkt
technisch-wissenschaftliche Anwendungen
Sommersemester 2003
Prof. Dr. Klement, Prof. Dr. Kneisel
FH Giessen-Friedberg, Fachbereich MNI
TWA-Seminar Thorsten Denhard,
SS2003
1
Inhalt

Einführung Bioinformatik
Genetischer Code
Proteine

Einsatzgebiete für Datenbanken in der BI
Sequenzdatenbanken
Dynamische Prozesse, etc.

Datenmodellierung und Management
Konventionelle DBMS
Spezielle Systeme für biologische DBn

Datenbank-Retrieval
WWW-Schnittstellen
Meta-Suchen

DB-Pflege und Qualitätssicherung
Datenintegration
Annotationen
TWA-Seminar Thorsten Denhard,
SS2003
2
Einführung Bioinformatik


Fachgebiet im Wandel:
von der „klassischen“
hin zur Molekularbiologie
Heute erhobene Daten:
Gensequenzen, Proteinstrukturen

Scharfe, quantifizierbare Größen

Große Datenmenge

Algorithmen zur Analyse
 Methoden aus der Informatik
immer stärker gefordert
TWA-Seminar Thorsten Denhard,
SS2003
3
Genetischer Code




DNS: linearer Doppelstrang
Nucleotide:
Träger der Information, eine von vier
Basen (A,T,C,G)
Verbinden sich paarweise
Anzahl Basenpaare von ca.
0,172 * 106 (Virus) bis
3200 * 106 (Mensch)
„Gen“: ein Sequenzabschnitt, der ein
Protein codiert
TWA-Seminar Thorsten Denhard,
SS2003
4
Proteine
Aufbau

Bestehen aus Aminosäuren (20 verschiedene)

Lineare unverzweigte Kette

Länge: 50-3000 Elemente, im Mittel etwa 200
Gene codieren Proteine


Codierungsschema:
3 Nucleotide (Codon) codieren eine Aminosäure
Genetischer Standardcode gleich über Artgrenzen
Benennung der Aminosäuren:
drei oder ein Buchstabe (Glycin: Gly / G)
TWA-Seminar Thorsten Denhard,
SS2003
5
Proteine
Hierarchische Struktur

Primärstruktur:
Abfolge der Aminosäuren, linear

Sekundärstruktur: -Helix, -Faltblatt

Tertiärstruktur:
Faltung d. Sekundärstrukturelemente im Raum
Maßgebend für
die Funktionalität
des Proteins!
TWA-Seminar Thorsten Denhard,
SS2003
6
Einsatzfelder für Datenbanken

Sequenzdatenbanken

Protein-Raumstrukturen

Evolutionäre Entwicklungen (Phylogenetik)

Genexpression (Aktivität von Genen)

Stoffwechsel-Vorgänge (Metabolische Pfade)

Literaturdatenbanken
TWA-Seminar Thorsten Denhard,
SS2003
7
Sequenzdatenbanken

Gene: Nucleotidsequenzen


Proteine: Aminosäuresequenzen


z.B. SWISS-PROT
Sequenzierung:


z.B. GenBank, Human Genome DB
Codierende Sequenzen identifizieren
Exponentielles
Wachstum
Analyse: Sequenz-Alignment

Ähnlichkeit zw. Sequenzen bestimmen

In DB integriert oder separate Prog.
TWA-Seminar Thorsten Denhard,
SS2003
8
Proteinstrukturen


Strukturdatenbanken

z.B. Protein Data Bank (PDB)

3D-Koordinaten aller Atome

Zuordnung v. Sekundärstrukturen

Rel. wenige Moleküle untersucht
Einordnung neuer Sequenzen


Homologieansatz:
ähnliche Sequenzen  ähnliche Struktur
Vorhersage der Proteinfaltung wichtiges Forschungsthema!
TWA-Seminar Thorsten Denhard,
SS2003
9
Phylogenetische DBn

Verwandtschaftsbeziehungen zwischen Arten

Heute auf genetischer Basis

Erstellung phylogenetischer Bäume auf dieser
Basis



Algorithmen, Zugriff auf genetische Daten
Archivieren erstellter Bäume in Datenbanken
Bsp.: Tree Of Life - DB:
WWW-Projekt, ca. 350 teilnehmende
Wissenschaftler
TWA-Seminar Thorsten Denhard,
SS2003
10
Bsp.: Tree Of Life - DB
TWA-Seminar Thorsten Denhard,
SS2003
11
Metabolische Pfade
Beispiel: KEGG PATHWAY-DB




Stoffwechsel-Vorgänge
in Zellen
Codiert als XML-Dokument
Über Java-Applet
zugänglich
Verknüpungen mit z.B.
chemischer Datenbank
(per Mausklick)
TWA-Seminar Thorsten Denhard,
SS2003
12
Sonstige Einsatzgebiete
Genexpression

Genom: statischer „Bauplan“

Aber: Gene sind unterschiedlich aktiv

DNA-Chips erlauben Messungen d. Aktivität

Große Datenmengen, Analyse z.B. für neue
diagnostische u. therapeutische Verfahren
Literaturdatenbanken

Bsp.: MEDLINE-DB für Medizin und
Lebenswissenschaften
TWA-Seminar Thorsten Denhard,
SS2003
13
Modellierung u. Datenmanagement
Implementierungsalternativen

ASCII-Dateien (Flat Files)
 40 %

Relationales DBMS
 38%

Objektorientiertes / objektrelationales DBMS
9%

ACEDB
5%

OPM (Object Protocol Model)
2%
( Daten von 2001 aus einer Studie von Bry & Kröger )
TWA-Seminar Thorsten Denhard,
SS2003
14
Implementierung: Flat Files

ASCII-Dateien noch immer weit verbreitet

Zum Datenaustausch u. Analyse de facto Standard


Explizite Strukturierung:
Tags, erlauben komplexe Strukturen und
unvollständige Daten
Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)
ID
AC
DT
DT
DE
GN
OS
SQ
PILI_PSEAE
STANDARD;
PRT;
178 AA.
P43502;
01-NOV-1995 (Rel. 32, Created)
01-NOV-1995 (Rel. 32, Last sequence update)
Protein pilI.
PILI OR PA0410.
Pseudomonas aeruginosa.
SEQUENCE
178 AA; 19934 MW; 634A1A4B135A7E77 CRC64;
MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]
TWA-Seminar Thorsten Denhard,
SS2003
15
Implementierung: relationale DBMS

Relationale DBMS in anderen Feldern lange erprobt

Für wissenschaftliche Daten nicht optimal
 Komplexe Struktur führt zu uneinsichtigem
Tabellenverbund
 Administration und Abfragen daher unnötig
kompliziert
 Effiziente Speicherung u. Suche von Sequenzdaten
nicht hinreichend untersucht

Trotzdem rund 38 % der DBn
mit relationalem DBMS
TWA-Seminar Thorsten Denhard,
SS2003
16
Implementierung: ACEDB

A C. elegans DataBase

Speziell für wissenschaftliches Umfeld entworfen

Objektorientiertes Datenmodell, aber:

Keine Vererbung möglich

Baumstruktur von Objekten u. Attributen

Semistrukturierter Ansatz


Erlaubt Ausnahmen i.d. Datenstruktur
Query-Sprache AQL:

SQL-ähnlich, Pfad-Ausdrücke
TWA-Seminar Thorsten Denhard,
SS2003
17
Implementierung: ACEDB

Klassendefinition



Tags, Objekte, Basistypen,
Modifizierer
?Author Name
Paper
?Paper
Title
UNIQUE Text
Author
?Author
Abstract ?LongText
select
from
where
a->Paper->Author
a in class Author
a->Name like "*lesk*"
1:N-Beziehungen problemlos
modellierbar
Bsp. Abfrage:
Alle Co-Autoren in allen
Aufsätzen von Hr. Lesk finden
UNIQUE Text
?Paper
TWA-Seminar Thorsten Denhard,
SS2003
18
Implementierung: OPM
Object Protocol Model

Objektorientiertes Modell mit spezieller
Unterstützung für wissenschaftliche Daten/Prozesse

Kein DBMS, nur Datenmodell

Protokoll-Klassen


modellieren Experimente mit Input und Output
Tool-Suite zur Modellierung/Benutzung


Schema Editor:
Erlaubt Transformation in relationale Schemata
Browse & Query:
Anfragen u. Transaktionen in z.B. SQL umwandeln
TWA-Seminar Thorsten Denhard,
SS2003
19
Datenbank-Retrieval
Heterogenität



Vielzahl existierender DBn
 welche enthält relevante Daten?
 unterschiedliche Abfragearten
Ansatz: „Meta-Suchen“
z.B. SRS (Sequence Retrieval System)
 Zugriff auf ca. 500 DBn
 Folgt Hypertext-Links in Einträgen
Abfrage über WWW-Standardformular oder
Query-Language
[swissprot-id:acha-human] > prosite > swissprot
TWA-Seminar Thorsten Denhard,
SS2003
20
Datenintegration
Akquisition neuer Daten aus anderen DBn

Voll- oder semiautomatisch
Konflikte möglich, Einteilung in
semantische, deskriptive, strukturelle
Forschergruppen dürfen Daten einbringen

Qualität d. Daten, Validierungsprozess?
Übernahme aus der Literatur

Meist manuell, arbeitsintensiv
TWA-Seminar Thorsten Denhard,
SS2003
21
Qualitätssicherung
Annotationen


Meta-Daten, z.B.

Literaturreferenzen

Verknüpfungen zu anderen Datensätzen

Herkunft der Daten, experimentelle Methoden

Feature-Tables: biol. Bedeutung v. Sequenzen
Neuannotation von Einträgen

Macht Datenbestand „dynamisch“

Qualität d. Einträge, Bsp. EMBL-DB
ohne Annotation

vorläufig  ungeprüft  Standard
 Annotationen geben den Daten Bedeutung
TWA-Seminar Thorsten Denhard,
SS2003
22
Zusammenfassung




Molekularbiologische Daten

enorme Schärfe und Quantität

oft komplexe Strukturen
Datenbanken

bewährte DBMS bereits in Verwendung

spezielle Ansätze verfügbar, aber noch nicht verbreitet
Heterogenität von Datenbeständen

Verteiltheit und unterschiedliche Datenhaltung

Integration notwendig
Informatik-Expertise bei Biologen erforderlich
TWA-Seminar Thorsten Denhard,
SS2003
23
Herunterladen