Textbasierte Datenbanksuche (27,0 KiB)

Werbung
Kurzreferat von Jan Benz und Jonas Binding
HDLSL - AG Bioinformatik, 20.10.2000
Textbasierte Datenbanksuche
Es gibt im Internet sehr viele Datenbanken zur Biologie. Es gibt nun zwei Wege, in diesen
Datenbanken zu suchen:
1. textbasierte Suche
2. Suche nach Sequenzdaten (Nukleotide oder Proteine)
Im folgenden werden drei Suchmaschinen für Biologie-Datenbanken vorgestellt, die
textbasierte Suche ermöglichen:
Name
URL
Entrez
http://www.ncbi.nlm.nih.gov
/Entrez/
Art der Daten - Literaturarchiv (PubMed)
- Nukleinsäuresequenzen
- Proteinsequenzen
- 3D-Struktur von
Makromolekülen
- Genome
- PopSet: Daten-Sets für
Populationsuntersuchungen
Datenfelder
für die Suche
etwa 23 Felder, z.B.
- Titel des Eintrags
- Autor
- Abkürzungen
- Phrasen
SRS
http://srs.ebi.ac.uk/
DBGET
http://www.genome.ad.jp/
dbget/dbget2.html
- Nukleinsäuresequenzen
- Proteinsequenzen
- 3D-Strukturen
- Enzymreaktionen
- metabolic pathways
- Aminosäuremutationen
- Genkrankheiten
- Literatur
- Genkataloge
5 Felder:
- Titel des Eintrags
- Autor
- Organismus
- Referenz
- Zugriffsnummer
- Sequenzdaten
- sequence related
- transcription factors
- 3D-Strukturen
- Genome
- mapping
- Mutationen
- SNPs
- metabolic pathways
etwa 17 Felder, z.B.
- Titel
- Autor
- Organismus
- Organelle
- Beschreibung
- Schlüsselwörter
- Sequenzlänge
Boolesche Operatoren, Boolesche Operatoren
reguläre Ausdrücke
Verknüpfung Boolesche Operatoren
(AND, OR, NOT)
von
Suchwörtern
12 Millionen Einträge
Datenmengen 10 Milliarden Basen
908 Genome
in 128 Datenbanken
über 10 000 3D-Strukturen
über 80 000 Organismen
Verknüpfung - Sequenzähnlichkeit:
"BLAST" vergleicht
zu anderen
Basensequenz bzw.
Datenbanken
Aminosäurensequenz mit
über...
allen anderen Sequenzen in
der Datenbank
- manuell erzeugte Links
13 Milliarden Basen
10 Millionen Einträge
- Sequenzähnlichkeit
- LinkDB: findet andere
Einträge, die etwas mit
gefundenem zu tun
haben
In manchen Feldern einer Datenbank können nur ganz bestimmte Werte stehen, z.B.
"Erscheinungsdatum" wird immer ein Datum sein. Andere Felder sind dagegen sehr frei und
können unterschiedliche Werte mit der gleichen Bedeutung enthalten, so z.B. "human p53"
bzw. "p53 of homo sapiens". Solche Unterschiede sollte man beim Suchen berücksichtigen.
Herunterladen