Datenbanken - Oliver Kohlbacher

Bioinformatik
für Lebenswissenschaftler
Oliver Kohlbacher, Steffen Schmidt
SS 2010
07. Sequenzdatenbanken
Abt. Simulation biologischer Systeme
WSI/ZBIT, Eberhard Karls Universität Tübingen
Übersicht
•  Was sind Datenbanken?
•  Sequenzdatenbanken
–  Klassifizierung
–  Primäre Datenbanken
–  Sekundäre Datenbanken
•  Formate und Schnittstellen
2
Datenbanken - Definition
Datenbank (DB):
eine Datensammlung, die nach
bestimmten Kriterien organisiert ist.
Noch eine Definition
•  Zunehmend wird der Begriff Datenbank auch für
Datenbank-Managementsysteme (DBMS) gebraucht,
also eigentlich die Software, die die Daten verwaltet.
•  Gängige DBMSe sind z.B. Oracle, DB/2 (IBM), MySQL
oder SQL Server
www.dilbert.com
Sequenzdatenbanken
•  Margaret Dayhoff
veröffentlichte 1965-1978
ihren “Atlas”, der alle damals
bekannten Proteinsequenzen
(65!) enthielt
•  Der Atlas wurde 1984-2004 in
die Datenbank PIR (Protein
Information Resources)
umgewandelt (2004, ca.
280.000 Sequenzen)
•  Zusammen mit EBI (TrEMBL) &
SIB (SwissProt) wurde 2002
die UniProt Knowledgebase
gegründet
http://www.dayhoff.cc
http://pir.georgetown.edu/home.shtml
Sequenzdatenbanken
•  Es gibt zwei Typen von biologischen
Datenbanken:
–  Primärdatenbanken
• Enthalten experimentell ermittelte Daten
• Meist mit Herkunftsangabe (Quelle,
Literaturzitat)
–  Sekundärdatenbanken
• Werden aus primären Datenbanken abgeleitet
(daher oft auch abgeleitete Datenbanken)
• Enthalten gefilterte, interpretierte oder
annotierte Information, z.B. verifizierte
Proteinsequenzen oder Sequenzmotive
Sequenzdaten
•  Menge an bekannten Sequenzen ist in den
letzten Jahrzehnten stets exponentiell
angestiegen
•  Hauptgrund: Fortschritte in der
Sequenzierungstechnologie
–  Kapillarsequenzierer erzeugen große Mengen an
Sequenzdaten in sehr kurzer Zeit
–  WGS (whole genome shotgun)-Sequenzierung
erlaubt Sequenzierung ganzer Genome in
kürzester Zeit
•  Beispiel: Celera Genomics erzeugte 2001 mit
ca. 300 Sequenzierern 175.000 reads (à 500
bp) aus dem menschlichen Genom pro Tag
Sequencing by Synthesis
•  Sequencing by synthesis erzeugt durch
massive Parallelisierung immense
Datenmengen
•  Erkauft mit geringerer Qualität (= Länge)
der Sequenzstücke
www.454.com
NCBI
•  Der wichtigste Betreiber von
biologischen Datenbanken ist das
NCBI (National Center for
Biotechnology Information) am NIH
(National Institute for Health) in
Bethesda, MD, USA
•  NCBI stellt eine Vielzahl von
Ressourcen für die biomedizinische
Forschung zur Verfügung, darunter
auch viele relevante Datenbanken
(PubMed, GenBank)
•  Zu diesen Ressourcen gibt es ein
einheitliches Web-Interface zur
Recherche (ENTREZ)
http://www.ncbi.nih.gov/ENTREZ
GenBank
•  Die wichtigste (und größte) Datenbank für
Nukleinsäuresequenzen ist GenBank
(http://www.ncbi.nih.gov/Genbank/, seit 1979)
•  GenBank wird am NCBI gepflegt und erhält Daten
von japanischen und europäischen Datenbanken
(DDBJ, DNA Databank of Japan und EMBL)
•  Ziel von GenBank ist es, jede bekannte
Nukleinsäuresequenz zu archivieren
•  GenBank wird alle 24 h aktualisiert
•  GenBank enthält Sequenzen von über 140.000
Spezies
GenBank
•  Publikation neuer NA-Sequenzen in GenBank
ist zwingend erforderlich für praktisch alle
relevanten Zeitschriften der
Molekularbiologie
•  Dazu gibt es ein entsprechendes WebInterface
•  Neueinträge können für kurze Zeit (bis zur
Veröffentlichung der Publikation)
zurückgehalten werden
•  In der Publikation muss dann die zugehörige
Accession Number der Einträge benannt
werden
GenBank
GenBank – Wachstum
Anzahl bp in GenBank
Anzahl der Sequenzen in GenBank
120.000.000
100.000.000.000
100.000.000
80.000.000.000
80.000.000
60.000.000.000
60.000.000
40.000.000.000
40.000.000
20.000.000.000
20.000.000
0
0
1985
1990
1995
2000
2005
2010
1985
1990
1995
2000
2005
•  Größe von Genbank wächst immer noch
exponentiell an
•  Derzeit sind über 119 Mio. Sequenzen mit ca.
114 Mrd. bp gespeichert (Apr 2010)
2010
GenBank
•  Wie in allen Datenbanken wird jeder einzelne Eintrag
(Datensatz, record) in GenBank eindeutig
gekennzeichnet
•  Diesen Bezeichner oder ID nennt man Accession
Number
•  Beispiel: K02013 – Das komplette Genom von HIV1
•  Kenntnis der ID erlaubt direkten Zugriff auf den
Datensatz und ist eindeutig – unter diesem Bezeichner
werden Sie den Datensatz immer wieder finden und
keinem zweiten Datensatz wird die gleiche Nummer
zugeteilt werden
•  Nimmt man auf einen Eintrag Bezug, ist es notwendig
Datenbank und ID zu zitieren
GenBank – Beispiel
•  GenBank-Einträge werden in einem eigenen Format
abgelegt
•  Jeder Abschnitt beginnt mit einem Schlüsselwort,
dann die zugehörigen Daten (eingerückt)
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
MEDLINE
PUBMED
HIVBRUCG
9229 bp ss-RNA
linear
VRL 02-AUG-1993
Human immunodeficiency virus type 1, isolate BRU, complete genome
(LAV-1).
K02013
K02013.1 GI:326417
TAR protein; TAT protein; acquired immune deficiency syndrome;
complete genome; env protein; gag protein; long terminal repeat
(LTR); pol protein; polyprotein; proviral gene;
Human immunodeficiency virus 1 (HIV-1)
Human immunodeficiency virus 1
Viruses; Retroid viruses; Retroviridae; Lentivirus; Primate
lentivirus group.
1 (bases 1 to 9229)
Wain-Hobson,S., Sonigo,P., Danos,O., Cole,S. and Alizon,M.
Nucleotide sequence of the AIDS virus, LAV
Cell 40 (1), 9-17 (1985)
85099333
2981635
GenBank – Beispiel
FEATURES
source
Location/Qualifiers
1..9229
/organism="Human immunodeficiency virus 1"
/mol_type="genomic RNA"
/db_xref="taxon:11676"
prim_transcript 1..9229
/note="genomic mRNA„
CDS
8390..9010
/note="nef protein"
/codon_start=1
/protein_id="AAB59752.1"
/db_xref="GI:326425"
/translation="MGGKWSKSSVVGWPTVRERMRRAEPAADGVGAASRDLEKHGAIT
NTSLLHPVSLHGMDDPEREVLEWRFDSRLAFHHVARELHPEYFKNC"
LTR
8679..>9229
/note="3' LTR"
repeat_region
9133..9229
/note="R repeat 3' copy"
ORIGIN
Cap site of genomic RNA.
1 ggtctctctg gttagaccag atttgagcct gggagctctc tggctaacta gggaacccac
61 tgcttaagcc tcaataaagc ttgccttgag tgcttcaagt agtgtgtgcc cgtctgttgt
[...]
Primärdatenbanken für Nukleotide
Weitere Primärdatenbanken für NASequenzen sind:
–  EMBL Nucleotide Sequence Database
• Verwendet SRS als Suchmaschine
• Derzeit ca. 120 Mio. Sequenzen
(http://www.ebi.ac.uk/embl/)
–  DDBJ – DNA Databank of Japan
• Ebenfalls SRS
• Derzeit ca. 117 Mio. Sequenzen
(http://www.ddbj.nig.ac.jp/)
Primärdatenbanken
•  Große Primärdatenbanken wie GenBank haben zwei
Hauptprobleme
–  Redundanz: viele Sequenzen sind nicht nur einmal darin
enthalten, sondern in vielen, vielen Varianten oder gar Kopien
–  Qualität: in GenBank findet sich praktisch jeder irgendwann mal
sequenzierte Nukleinsäureschnipsel. Viel davon ist von minderer
Qualität oder unklarer Herkunft.
RefSeq-Nukleotid-Datenbank
•  Nichtredundante Datenbank von
Nukleotidsequenzen
•  Enthält Sequenzen genomischer DNA, von
mRNA und Proteinen
•  Statistik:
–  ca. 10.500 Spezien
–  DNA: ca. 2 Mio Einträge
–  RNA: ca. 2 Mio Einträge
•  Zugänglich über NCBI
www.ncbi.nlm.nih.gov/RefSeq/
Primärdatenbanken für Proteine
•  Neben Nukleotidsequenzen sind natürlich
Proteinsequenzen interessant
•  Die wichtigste Datenbank
–  UniProt Knowledgebase (UniProtKB) –
Universal Protein Resource
Bestehend aus den beiden Teildatenbanken
•  TrEMBL – Translated EMBL
•  Swiss-Prot
•  PIR
www.uniprot.org
UniProt – Universal Protein Resource
•  Am EMBL beheimatet, auch über NCBI
zugänglich
•  Aus drei Datenbanken durch Zusammenschluss
entstanden:
–  Swiss-Prot: qualitativ hochwertige,
nichtredundante und exzellent annotierte
Proteinsequenzen
–  PIR: Protein Information Ressource, aus Margaret
Dayhoffs Protein-Atlas hervorgegangen
–  TrEMBL: durch Translation der in der EMBLNukleotiddatenbank abgelegen NA-Sequenzen
erzeugte Proteindaten
UniProtKB/Swiss-Prot
•  1986 eingerichtet und betrieben vom
Swiss Institute of Bioinformatics (SIB)
and the European Bioinformatics
Institute (EBI)
•  Von Experten “kurierte” Informationen
mit hoher Qualität
“It strives to provide a high level of
annotation, a minimal level of redundancy,
a high level of integration with other
biomolecular databases as well as extensive
external documentation.” (R. Apweiler)
•  UniProtKB/Swiss-Prot enthält ca. 520.000
Einträge
http://www.expasy.org/sprot/
UniProtKB/Swiss-Prot & TrEMBL
•  Annotation und Kontrolle der
Proteinsequenzen für UniProtKB/Swiss-Prot
ist sehr zeit- und personalintensiv
•  Um Sequenzinformation kurzfristig verfügbar
zu machen, gibt es UniProtKB/TrEMBL
–  TrEMBL ist komplementär zu Swiss-Prot und
enthält computergenerierte Annotationen zu den
Sequenzen, die durch automatisches Übersetzen
den Genomsequenz aus der EMBL-Nukleotid-DB
entsteht
–  TrEMBL enthält derzeit ca. 10,8 Mio. Einträge
Ein UniProtKB/Swiss-Prot-Eintrag
ID
Beschreibung
Literaturzitate
ID
AC
DT
DT
DT
DE
GN
OS
OC
OC
RN
RP
RX
RA
RA
RL
RN
RP
RX
RA
RL
RN
RX
RA
RA
RA
RL
1A01_HUMAN
STANDARD;
PRT;
365 AA.
P30443;
01-APR-1993 (REL. 25, CREATED)
01-APR-1993 (REL. 25, LAST SEQUENCE UPDATE)
01-FEB-1996 (REL. 33, LAST ANNOTATION UPDATE)
HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, A-1
HLAA.
HOMO SAPIENS (HUMAN).
EUKARYOTA; METAZOA; ......................
EUTHERIA; PRIMATES.
[1]
SEQUENCE FROM N.A. (A*0101).
MEDLINE; 88234547.
PARHAM P., LOMEN C.E., LAWLOR D.A., WAYS J.P.,
SALTER R.D., WAN A.M., ENNIS P.D.;
PROC. NATL. ACAD. SCI. U.S.A. 85:4005-4009(1988).
[2]
SEQUENCE FROM N.A. (A*0101).
MEDLINE; 89235215.
PARHAM P., LAWLOR D.A., LOMEN C.E., ENNIS P.D.;
J. IMMUNOL. 142:3937-3950(1989).
[4]
MEDLINE; 95282145.
BROWNING M.J., MADRIGAL J.A., KRAUSA P., KOWALSKI
ALLSOPP C.E., LITTLE A.M., TURNER S., ADAMS E.J
BODMER W.F., PARHAM P.;
TISSUE ANTIGENS 45:177-187(1995).
Ein Swiss-Prot-Eintrag (Forts.)
Links zu
anderen
Datenbanken
Domänen
CC
CC
CC
CC
CC
CC
DR
DR
DR
DR
DR
KW
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
SQ
Sequenz
//
-!- FUNCTION: INVOLVED IN THE PRESENTATION OF FOREIGN ANTIGENS TO
THE IMMUNE SYSTEM.
-!- SUBUNIT: DIMER OF ALPHA CHAIN AND A BETA CHAIN (BETA-2MICROGLOBULIN).
-!- POLYMORPHISM: THE FOLLOWING ALLELES OF A-1 ARE KNOWN: A*0101
A*0102. THE SEQUENCE SHOWN IS THAT OF A*0101.
EMBL; M24043; G386893; -.
PIR; S14189; S14189.
HSSP; P01891; 1HSB.
MIM; 142800; 11TH EDITION.
PROSITE; PS00290; IG_MHC.
MHC I; TRANSMEMBRANE; GLYCOPROTEIN; SIGNAL; POLYMORPHISM.
SIGNAL
1
24
CHAIN
25
365
HLA CLASS I HISTOCOMPATIBILITY
ANTIGEN ALPHA CHAIN A-1.
DOMAIN
25
114
EXTRACELLULAR ALPHA-1.
DOMAIN
115
206
EXTRACELLULAR ALPHA-2.
DOMAIN
207
298
EXTRACELLULAR ALPHA-3.
DOMAIN
299
308
CONNECTING PEPTIDE.
TRANSMEM
309
332
DOMAIN
333
365
CYTOPLASMIC TAIL.
VARIANT
33
33
F -> S (IN A*0102).
VARIANT
41
41
R -> S (IN A*0102).
SEQUENCE
365 AA; 40846 MW; 8E680E9E CRC32;
MAVMAPRTLL LLLSGALALT QTWAGSHSMR YFFTSVSRPG RGEPRFIAVG YVDDTQFVRF
WQRDGEDQTQ DTELVETRPA GDGTFQKWAA VVVPSGEEQR YTCHVQHEGL PKPLTLRWEL
SSQPTIPIVG IIAGLVLLGA VITGAVVAAV MWRRKSSDRK GGSYTQAASS DSAQGSDVSL
TACKV
RefSeq protein database
•  Die Sequenzen aus RefSeq sind auch als
Proteinsequenzen verfügbar
•  Ziel der RefSeq-Protein-DB ist ähnlich zur
Nukleotid-DB:
„The Reference Sequence (RefSeq) collection aims
to provide a comprehensive, integrated, nonredundant set of sequences, including genomic
DNA, transcript (RNA), and protein products, for
major research organisms.“
•  Unterhalten am NCBI, zugänglich ebenso über
das NCBI-Webinterface
•  RefSeq enthält derzeit ca. 1,0 Mio. Einträge
http://www.ncbi.nlm.nih.gov/RefSeq/
Sekundärdatenbanken
•  Sekundärdatenbanken generieren aus
den Primärdaten neue Information
•  Einige dieser Datenbanken werden wir
später noch im Detail besprechen
•  Beispiele:
–  ProSite: Datenbank von Proteinfamilien
und –Domänen
us.expasy.org/prosite/
–  PFam: Datenbank für multiple Alignments
und Proteindomänen
www.sanger.ac.uk/Software/Pfam/
Formate
•  Praktisch jede größere Datenbank steht neben den
wohlbekannten Web-Interfaces auch als so genannte „Flatfiles“
zur Verfügung
•  Darin ist die Information der gesamten DB oder von Teilen
daraus in einer großen Datei (flat file) untergebracht
•  Für Bioinformatikanwendungen ist es oft bequemer diese flat
files herunter zu laden (Vorsicht! Oft SEHR groß!)
•  Mit den Ihnen bekannten Werkzeugen können Sie damit sehr
einfach Aufgaben lösen, die durch das Webinterface schwierig
oder unmöglich sind
•  Leider haben die unterschiedlichen Datenbanken
unterschiedliche Formate
•  Python-Erweiterung Biopython ist in der Lage die wichtigsten
Formate zu lesen (Details in den Übungen)
www.biopython.org
ENTREZ – Suchmaschine des NCBI
•  ENTREZ ist ein mächtiges Werkzeug zur Suche nach Sequenzen,
Strukturen, Taxonomie, Literatur u.v.m
•  ENTREZ erlaubt die Suche in den meisten hier genannten
Datenbanken
•  Sie sollten sich bei Gelegenheit zwei Nachmittage Zeit nehmen
und es ausgiebig erforschen – die Investition wird sich nach
kurzer Zeit amortisiert haben!
•  Machen Sie sich auch mit den erweiterten Suchmöglichkeiten
vertraut (Einschränkung auf Publikationsdatum, Organismus
etc.)
•  ENTREZ erlaubt auch die Suche über Accession Numbers:
einfach in die Suchmaske eingeben und los geht‘s…
ENTREZ – Neue Einstiegsseite
http://www.ncbi.nlm.nih.gov/Entrez/
ENTREZ - Datenbankauswahl
GenBank – Suche
GenBank - Datensatzanzeige
Graphische Anzeige des Genoms
Links und Infos
•  ENTREZ (NCBI)
http://www.ncbi.nlm.nih.gov/Entrez/
•  UniProtKB
http://www.uniprot.org
•  BioPython
http://www.biopython.org
•  Weitere Infos zu Datenbanken
–  Überblick über alle NCBI-Datenbanken
http://www.ncbi.nlm.nih.gov/Database/
–  Überblick über alle Datenbanken des EBI
http://www.ebi.ac.uk/Databases/
–  Materialien aus der Vorlesung von Per Kraulis
http://www.sbc.su.se/~per/molbioinfo2001/databases.html