Kurzreferat von Jan Benz und Jonas Binding HDLSL - AG Bioinformatik, 20.10.2000 Textbasierte Datenbanksuche Es gibt im Internet sehr viele Datenbanken zur Biologie. Es gibt nun zwei Wege, in diesen Datenbanken zu suchen: 1. textbasierte Suche 2. Suche nach Sequenzdaten (Nukleotide oder Proteine) Im folgenden werden drei Suchmaschinen für Biologie-Datenbanken vorgestellt, die textbasierte Suche ermöglichen: Name URL Entrez http://www.ncbi.nlm.nih.gov /Entrez/ Art der Daten - Literaturarchiv (PubMed) - Nukleinsäuresequenzen - Proteinsequenzen - 3D-Struktur von Makromolekülen - Genome - PopSet: Daten-Sets für Populationsuntersuchungen Datenfelder für die Suche etwa 23 Felder, z.B. - Titel des Eintrags - Autor - Abkürzungen - Phrasen SRS http://srs.ebi.ac.uk/ DBGET http://www.genome.ad.jp/ dbget/dbget2.html - Nukleinsäuresequenzen - Proteinsequenzen - 3D-Strukturen - Enzymreaktionen - metabolic pathways - Aminosäuremutationen - Genkrankheiten - Literatur - Genkataloge 5 Felder: - Titel des Eintrags - Autor - Organismus - Referenz - Zugriffsnummer - Sequenzdaten - sequence related - transcription factors - 3D-Strukturen - Genome - mapping - Mutationen - SNPs - metabolic pathways etwa 17 Felder, z.B. - Titel - Autor - Organismus - Organelle - Beschreibung - Schlüsselwörter - Sequenzlänge Boolesche Operatoren, Boolesche Operatoren reguläre Ausdrücke Verknüpfung Boolesche Operatoren (AND, OR, NOT) von Suchwörtern 12 Millionen Einträge Datenmengen 10 Milliarden Basen 908 Genome in 128 Datenbanken über 10 000 3D-Strukturen über 80 000 Organismen Verknüpfung - Sequenzähnlichkeit: "BLAST" vergleicht zu anderen Basensequenz bzw. Datenbanken Aminosäurensequenz mit über... allen anderen Sequenzen in der Datenbank - manuell erzeugte Links 13 Milliarden Basen 10 Millionen Einträge - Sequenzähnlichkeit - LinkDB: findet andere Einträge, die etwas mit gefundenem zu tun haben In manchen Feldern einer Datenbank können nur ganz bestimmte Werte stehen, z.B. "Erscheinungsdatum" wird immer ein Datum sein. Andere Felder sind dagegen sehr frei und können unterschiedliche Werte mit der gleichen Bedeutung enthalten, so z.B. "human p53" bzw. "p53 of homo sapiens". Solche Unterschiede sollte man beim Suchen berücksichtigen.