Bioinformatik für Lebenswissenschaftler Oliver Kohlbacher, Steffen Schmidt SS 2010 07. Sequenzdatenbanken Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Übersicht • Was sind Datenbanken? • Sequenzdatenbanken – Klassifizierung – Primäre Datenbanken – Sekundäre Datenbanken • Formate und Schnittstellen 2 Datenbanken - Definition Datenbank (DB): eine Datensammlung, die nach bestimmten Kriterien organisiert ist. 1 Noch eine Definition • Zunehmend wird der Begriff Datenbank auch für Datenbank-Managementsysteme (DBMS) gebraucht, also eigentlich die Software, die die Daten verwaltet. • Gängige DBMSe sind z.B. Oracle, DB/2 (IBM), MySQL oder SQL Server www.dilbert.com Sequenzdatenbanken • Margaret Dayhoff veröffentlichte 1965-1978 ihren “Atlas”, der alle damals bekannten Proteinsequenzen (65!) enthielt • Der Atlas wurde 1984-2004 in die Datenbank PIR (Protein Information Resources) umgewandelt (2004, ca. 280.000 Sequenzen) • Zusammen mit EBI (TrEMBL) & SIB (SwissProt) wurde 2002 die UniProt Knowledgebase gegründet http://www.dayhoff.cc http://pir.georgetown.edu/home.shtml Sequenzdatenbanken • Es gibt zwei Typen von biologischen Datenbanken: – Primärdatenbanken • Enthalten experimentell ermittelte Daten • Meist mit Herkunftsangabe (Quelle, Literaturzitat) – Sekundärdatenbanken • Werden aus primären Datenbanken abgeleitet (daher oft auch abgeleitete Datenbanken) • Enthalten gefilterte, interpretierte oder annotierte Information, z.B. verifizierte Proteinsequenzen oder Sequenzmotive 2 Sequenzdaten • Menge an bekannten Sequenzen ist in den letzten Jahrzehnten stets exponentiell angestiegen • Hauptgrund: Fortschritte in der Sequenzierungstechnologie – Kapillarsequenzierer erzeugen große Mengen an Sequenzdaten in sehr kurzer Zeit – WGS (whole genome shotgun)-Sequenzierung erlaubt Sequenzierung ganzer Genome in kürzester Zeit • Beispiel: Celera Genomics erzeugte 2001 mit ca. 300 Sequenzierern 175.000 reads (à 500 bp) aus dem menschlichen Genom pro Tag Sequencing by Synthesis • Sequencing by synthesis erzeugt durch massive Parallelisierung immense Datenmengen • Erkauft mit geringerer Qualität (= Länge) der Sequenzstücke www.454.com NCBI • Der wichtigste Betreiber von biologischen Datenbanken ist das NCBI (National Center for Biotechnology Information) am NIH (National Institute for Health) in Bethesda, MD, USA • NCBI stellt eine Vielzahl von Ressourcen für die biomedizinische Forschung zur Verfügung, darunter auch viele relevante Datenbanken (PubMed, GenBank) • Zu diesen Ressourcen gibt es ein einheitliches Web-Interface zur Recherche (ENTREZ) http://www.ncbi.nih.gov/ENTREZ 3 GenBank • Die wichtigste (und größte) Datenbank für Nukleinsäuresequenzen ist GenBank (http://www.ncbi.nih.gov/Genbank/, seit 1979) • GenBank wird am NCBI gepflegt und erhält Daten von japanischen und europäischen Datenbanken (DDBJ, DNA Databank of Japan und EMBL) • Ziel von GenBank ist es, jede bekannte Nukleinsäuresequenz zu archivieren • GenBank wird alle 24 h aktualisiert • GenBank enthält Sequenzen von über 140.000 Spezies GenBank • Publikation neuer NA-Sequenzen in GenBank ist zwingend erforderlich für praktisch alle relevanten Zeitschriften der Molekularbiologie • Dazu gibt es ein entsprechendes WebInterface • Neueinträge können für kurze Zeit (bis zur Veröffentlichung der Publikation) zurückgehalten werden • In der Publikation muss dann die zugehörige Accession Number der Einträge benannt werden GenBank 4 GenBank – Wachstum Anzahl bp in GenBank Anzahl der Sequenzen in GenBank 120.000.000 100.000.000.000 100.000.000 80.000.000.000 80.000.000 60.000.000.000 60.000.000 40.000.000.000 40.000.000 20.000.000.000 20.000.000 0 0 1985 1990 1995 2000 2005 2010 1985 1990 1995 2000 2005 2010 • Größe von Genbank wächst immer noch exponentiell an • Derzeit sind über 119 Mio. Sequenzen mit ca. 114 Mrd. bp gespeichert (Apr 2010) GenBank • Wie in allen Datenbanken wird jeder einzelne Eintrag (Datensatz, record) in GenBank eindeutig gekennzeichnet • Diesen Bezeichner oder ID nennt man Accession Number • Beispiel: K02013 – Das komplette Genom von HIV1 • Kenntnis der ID erlaubt direkten Zugriff auf den Datensatz und ist eindeutig – unter diesem Bezeichner werden Sie den Datensatz immer wieder finden und keinem zweiten Datensatz wird die gleiche Nummer zugeteilt werden • Nimmt man auf einen Eintrag Bezug, ist es notwendig Datenbank und ID zu zitieren GenBank – Beispiel • GenBank-Einträge werden in einem eigenen Format abgelegt • Jeder Abschnitt beginnt mit einem Schlüsselwort, dann die zugehörigen Daten (eingerückt) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE PUBMED HIVBRUCG 9229 bp ss-RNA linear VRL 02-AUG-1993 Human immunodeficiency virus type 1, isolate BRU, complete genome (LAV-1). K02013 K02013.1 GI:326417 TAR protein; TAT protein; acquired immune deficiency syndrome; complete genome; env protein; gag protein; long terminal repeat (LTR); pol protein; polyprotein; proviral gene; Human immunodeficiency virus 1 (HIV-1) Human immunodeficiency virus 1 Viruses; Retroid viruses; Retroviridae; Lentivirus; Primate lentivirus group. 1 (bases 1 to 9229) Wain-Hobson,S., Sonigo,P., Danos,O., Cole,S. and Alizon,M. Nucleotide sequence of the AIDS virus, LAV Cell 40 (1), 9-17 (1985) 85099333 2981635 5 GenBank – Beispiel FEATURES source Location/Qualifiers 1..9229 /organism="Human immunodeficiency virus 1" /mol_type="genomic RNA" /db_xref="taxon:11676" prim_transcript 1..9229 /note="genomic mRNA„ CDS 8390..9010 /note="nef protein" /codon_start=1 /protein_id="AAB59752.1" /db_xref="GI:326425" /translation="MGGKWSKSSVVGWPTVRERMRRAEPAADGVGAASRDLEKHGAIT NTSLLHPVSLHGMDDPEREVLEWRFDSRLAFHHVARELHPEYFKNC" LTR 8679..>9229 /note="3' LTR" repeat_region 9133..9229 /note="R repeat 3' copy" ORIGIN Cap site of genomic RNA. 1 ggtctctctg gttagaccag atttgagcct gggagctctc tggctaacta gggaacccac 61 tgcttaagcc tcaataaagc ttgccttgag tgcttcaagt agtgtgtgcc cgtctgttgt [...] Primärdatenbanken für Nukleotide Weitere Primärdatenbanken für NASequenzen sind: – EMBL Nucleotide Sequence Database • Verwendet SRS als Suchmaschine • Derzeit ca. 120 Mio. Sequenzen (http://www.ebi.ac.uk/embl/) – DDBJ – DNA Databank of Japan • Ebenfalls SRS • Derzeit ca. 117 Mio. Sequenzen (http://www.ddbj.nig.ac.jp/) Primärdatenbanken • Große Primärdatenbanken wie GenBank haben zwei Hauptprobleme – Redundanz: viele Sequenzen sind nicht nur einmal darin enthalten, sondern in vielen, vielen Varianten oder gar Kopien – Qualität: in GenBank findet sich praktisch jeder irgendwann mal sequenzierte Nukleinsäureschnipsel. Viel davon ist von minderer Qualität oder unklarer Herkunft. 6 RefSeq-Nukleotid-Datenbank • Nichtredundante Datenbank von Nukleotidsequenzen • Enthält Sequenzen genomischer DNA, von mRNA und Proteinen • Statistik: – ca. 10.500 Spezien – DNA: ca. 2 Mio Einträge – RNA: ca. 2 Mio Einträge • Zugänglich über NCBI www.ncbi.nlm.nih.gov/RefSeq/ Primärdatenbanken für Proteine • Neben Nukleotidsequenzen sind natürlich Proteinsequenzen interessant • Die wichtigste Datenbank – UniProt Knowledgebase (UniProtKB) – Universal Protein Resource Bestehend aus den beiden Teildatenbanken • TrEMBL – Translated EMBL • Swiss-Prot • PIR www.uniprot.org UniProt – Universal Protein Resource • Am EMBL beheimatet, auch über NCBI zugänglich • Aus drei Datenbanken durch Zusammenschluss entstanden: – Swiss-Prot: qualitativ hochwertige, nichtredundante und exzellent annotierte Proteinsequenzen – PIR: Protein Information Ressource, aus Margaret Dayhoffs Protein-Atlas hervorgegangen – TrEMBL: durch Translation der in der EMBLNukleotiddatenbank abgelegen NA-Sequenzen erzeugte Proteindaten 7 UniProtKB/Swiss-Prot • 1986 eingerichtet und betrieben vom Swiss Institute of Bioinformatics (SIB) and the European Bioinformatics Institute (EBI) • Von Experten “kurierte” Informationen mit hoher Qualität “It strives to provide a high level of annotation, a minimal level of redundancy, a high level of integration with other biomolecular databases as well as extensive external documentation.” (R. Apweiler) • UniProtKB/Swiss-Prot enthält ca. 520.000 Einträge http://www.expasy.org/sprot/ UniProtKB/Swiss-Prot & TrEMBL • Annotation und Kontrolle der Proteinsequenzen für UniProtKB/Swiss-Prot ist sehr zeit- und personalintensiv • Um Sequenzinformation kurzfristig verfügbar zu machen, gibt es UniProtKB/TrEMBL – TrEMBL ist komplementär zu Swiss-Prot und enthält computergenerierte Annotationen zu den Sequenzen, die durch automatisches Übersetzen den Genomsequenz aus der EMBL-Nukleotid-DB entsteht – TrEMBL enthält derzeit ca. 10,8 Mio. Einträge Ein UniProtKB/Swiss-Prot-Eintrag ID Beschreibung Literaturzitate ID AC DT DT DT DE GN OS OC OC RN RP RX RA RA RL RN RP RX RA RL RN RX RA RA RA RL 1A01_HUMAN STANDARD; PRT; 365 AA. P30443; 01-APR-1993 (REL. 25, CREATED) 01-APR-1993 (REL. 25, LAST SEQUENCE UPDATE) 01-FEB-1996 (REL. 33, LAST ANNOTATION UPDATE) HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, A-1 HLAA. HOMO SAPIENS (HUMAN). EUKARYOTA; METAZOA; ...................... EUTHERIA; PRIMATES. [1] SEQUENCE FROM N.A. (A*0101). MEDLINE; 88234547. PARHAM P., LOMEN C.E., LAWLOR D.A., WAYS J.P., SALTER R.D., WAN A.M., ENNIS P.D.; PROC. NATL. ACAD. SCI. U.S.A. 85:4005-4009(1988). [2] SEQUENCE FROM N.A. (A*0101). MEDLINE; 89235215. PARHAM P., LAWLOR D.A., LOMEN C.E., ENNIS P.D.; J. IMMUNOL. 142:3937-3950(1989). [4] MEDLINE; 95282145. BROWNING M.J., MADRIGAL J.A., KRAUSA P., KOWALSKI ALLSOPP C.E., LITTLE A.M., TURNER S., ADAMS E.J BODMER W.F., PARHAM P.; TISSUE ANTIGENS 45:177-187(1995). 8 Ein Swiss-Prot-Eintrag (Forts.) Links zu anderen Datenbanken Domänen CC CC CC CC CC CC DR DR DR DR DR KW FT FT FT FT FT FT FT FT FT FT FT SQ Sequenz -!- FUNCTION: INVOLVED IN THE PRESENTATION OF FOREIGN ANTIGENS TO THE IMMUNE SYSTEM. -!- SUBUNIT: DIMER OF ALPHA CHAIN AND A BETA CHAIN (BETA-2MICROGLOBULIN). -!- POLYMORPHISM: THE FOLLOWING ALLELES OF A-1 ARE KNOWN: A*0101 A*0102. THE SEQUENCE SHOWN IS THAT OF A*0101. EMBL; M24043; G386893; -. PIR; S14189; S14189. HSSP; P01891; 1HSB. MIM; 142800; 11TH EDITION. PROSITE; PS00290; IG_MHC. MHC I; TRANSMEMBRANE; GLYCOPROTEIN; SIGNAL; POLYMORPHISM. SIGNAL 1 24 CHAIN 25 365 HLA CLASS I HISTOCOMPATIBILITY ANTIGEN ALPHA CHAIN A-1. DOMAIN 25 114 EXTRACELLULAR ALPHA-1. DOMAIN 115 206 EXTRACELLULAR ALPHA-2. DOMAIN 207 298 EXTRACELLULAR ALPHA-3. DOMAIN 299 308 CONNECTING PEPTIDE. TRANSMEM 309 332 DOMAIN 333 365 CYTOPLASMIC TAIL. VARIANT 33 33 F -> S (IN A*0102). VARIANT 41 41 R -> S (IN A*0102). SEQUENCE 365 AA; 40846 MW; 8E680E9E CRC32; MAVMAPRTLL LLLSGALALT QTWAGSHSMR YFFTSVSRPG RGEPRFIAVG YVDDTQFVRF WQRDGEDQTQ DTELVETRPA GDGTFQKWAA VVVPSGEEQR YTCHVQHEGL PKPLTLRWEL SSQPTIPIVG IIAGLVLLGA VITGAVVAAV MWRRKSSDRK GGSYTQAASS DSAQGSDVSL TACKV // RefSeq protein database • Die Sequenzen aus RefSeq sind auch als Proteinsequenzen verfügbar • Ziel der RefSeq-Protein-DB ist ähnlich zur Nukleotid-DB: „The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, nonredundant set of sequences, including genomic DNA, transcript (RNA), and protein products, for major research organisms.“ • Unterhalten am NCBI, zugänglich ebenso über das NCBI-Webinterface • RefSeq enthält derzeit ca. 1,0 Mio. Einträge http://www.ncbi.nlm.nih.gov/RefSeq/ Sekundärdatenbanken • Sekundärdatenbanken generieren aus den Primärdaten neue Information • Einige dieser Datenbanken werden wir später noch im Detail besprechen • Beispiele: – ProSite: Datenbank von Proteinfamilien und –Domänen us.expasy.org/prosite/ – PFam: Datenbank für multiple Alignments und Proteindomänen www.sanger.ac.uk/Software/Pfam/ 9 Formate • Praktisch jede größere Datenbank steht neben den wohlbekannten Web-Interfaces auch als so genannte „Flatfiles“ zur Verfügung • Darin ist die Information der gesamten DB oder von Teilen daraus in einer großen Datei (flat file) untergebracht • Für Bioinformatikanwendungen ist es oft bequemer diese flat files herunter zu laden (Vorsicht! Oft SEHR groß!) • Mit den Ihnen bekannten Werkzeugen können Sie damit sehr einfach Aufgaben lösen, die durch das Webinterface schwierig oder unmöglich sind • Leider haben die unterschiedlichen Datenbanken unterschiedliche Formate • Python-Erweiterung Biopython ist in der Lage die wichtigsten Formate zu lesen (Details in den Übungen) www.biopython.org ENTREZ – Suchmaschine des NCBI • ENTREZ ist ein mächtiges Werkzeug zur Suche nach Sequenzen, Strukturen, Taxonomie, Literatur u.v.m • ENTREZ erlaubt die Suche in den meisten hier genannten Datenbanken • Sie sollten sich bei Gelegenheit zwei Nachmittage Zeit nehmen und es ausgiebig erforschen – die Investition wird sich nach kurzer Zeit amortisiert haben! • Machen Sie sich auch mit den erweiterten Suchmöglichkeiten vertraut (Einschränkung auf Publikationsdatum, Organismus etc.) • ENTREZ erlaubt auch die Suche über Accession Numbers: einfach in die Suchmaske eingeben und los geht‘s… ENTREZ – Neue Einstiegsseite http://www.ncbi.nlm.nih.gov/Entrez/ 10 ENTREZ - Datenbankauswahl GenBank – Suche GenBank - Datensatzanzeige 11 Graphische Anzeige des Genoms Links und Infos • ENTREZ (NCBI) http://www.ncbi.nlm.nih.gov/Entrez/ • UniProtKB http://www.uniprot.org • BioPython http://www.biopython.org • Weitere Infos zu Datenbanken – Überblick über alle NCBI-Datenbanken http://www.ncbi.nlm.nih.gov/Database/ – Überblick über alle Datenbanken des EBI http://www.ebi.ac.uk/Databases/ – Materialien aus der Vorlesung von Per Kraulis http://www.sbc.su.se/~per/molbioinfo2001/databases.html 12