Industrie-Applikationen 782 Die Umwandlung von Rohdaten der menschlichen Genomsequenz in nützliche Information Christine Schüller und Andreas Fritz, Biomax Informatics AG, Martinsried Einleitung Auch wenn die Veröffentlichung einer ersten Rohversion des Humangenoms (International Human Genome Sequencing Consortium, 2001) große Aufmerksamkeit auf sich gezogen hat, wird noch eine Menge Arbeit erforderlich sein, bevor der Nutzen des Sequenzieraufwands unter Beweis gestellt ist. Zum einen muss die Sequenz vervollkommnet (erwartete Fertigstellung 2003) und damit verbundene Fragen geklärt werden, wie beispielsweise Kontroversen über genetische Unterschiede zwischen verschiedenen menschlichen Populationen (siehe z.B. LEWIS, 2002 und FOSTER und SHARP, 2002). Zum anderen ist es eine für viele noch offene Frage, welchen Nutzen die Sequenzierung des Humangenoms für die Menschheit haben wird. Während man immer wieder Versprechungen von Wunderdrogen und auf DNA-Fingerabdrücken basierender medizinischer Versorgung hört (interessante Diskussionen hierzu finden sich bei LINDPAINTNER, 2002 und bei KIBERSTIS und ROBERTS, 2002), ist es immer noch eine komplizierte und schwierige Aufgabe, DNA-Sequenzinformation für die Entwicklung medizinisch relevanter Therapien zu nutzen. Denn selbst wenn nun erfreulicherweise umfangreiche Humansequenzdaten verfügbar sind, bringt dies das Problem der Informationsbewältigung mit sich. Riesige Mengen biologisch relevanter Daten, wie DNA-Sequenzen verschiedenster Organismen sowie in Datenbanken und wissenschaftlicher Literatur enthaltene Informationen über Proteinstruktur und -funktion, werden in einer unüberschaubaren Zahl von Quellen und in den Forscher, der eine differentiell in Krebszellen exprimierte mRNA identifiziert hat, die Datenbank nutzen, um umfangreiche Informationen verschiedensten Formaten bereitgehalten. dreidimensionalen Strukturen finden. Die Datenbank bietet nicht nur Sequenzdaten in höchster Qualität, die mit einer umfassenden Übersicht über die gewaltige Menge verfügbarer Informationen verknüpft sind, sondern dient auch als einzigartige Quelle für die Erweiterung und Aufwertung anderer bioinformatischer Anwendungen, wie z.B. Genexpressionsanalyse oder systematische Datensammlung. Damit wird die in der Datenbank enthaltene Information zum Angelpunkt eines wachsenden Netzwerks aus Werkzeugen, die uns einer Entschlüsselung der Geheimnisse des menschlichen Genoms zum Wohle des Menschen näher bringen werden. Der Aufbau einer besseren Datenbank Die Auswertung der Humangenominformation Dieser „biologische Turm zu Babel“ ist das Aufgabenfeld der Bioinformatik. Bei der Anwendung computerwissenschaftlicher Techniken auf die Probleme der Lebenswissenschaften werden Daten, die sonst schwer zu finden, abzurufen und zu interpretieren wären, in hochwertige Informationen umgewandelt, die für handfeste Fortschritte genutzt werden können. Die in Deutschlands führender Biotechnologieregion gelegene Bioinformatikfirma Biomax Informatics AG (Martinsried) hat bioinformatische Prinzipien auf die menschliche Genomsequenz angewandt. Mit dem Ziel, die beschleunigte Umwandlung gewaltiger Mengen von Rohdaten in nützliche Informationen zu ermöglichen und damit die Grundlage für die alltägliche Verwirklichung von Fortschritten zu liefern, hat die Firma jetzt eine manuell annotierte Version des Humangenoms auf den Markt gebracht. Die Biomax™ Human Genome Database ist dafür ausgelegt, mehr als nur DNA-Sequenzen zu präsentieren – die Sequenz ist in der Tat nur der Ausgangspunkt. Zum Beispiel kann ein über das entsprechende Protein zu erhalten. Er wird u.a. Angaben zu identifizierten Proteinmotiven und strukturellen Elementen, zu Ergebnissen aus Sequenzvergleichen, über funktionelle Klassifikation sowie Verknüpfungen zu Literaturzitaten und zu bereits bekannten verwandten Auf Grundlage der öffentlich zugänglichen Rohversion des Humangenoms (Version vom 12. Dezember 2001, http://genome. ucsc.edu/) wurden in einem ersten Schritt zur Gewinnung nützlicher Information aus der menschlichen DNA-Sequenz Gene und andere genetische Elemente identifiziert. Aus der Vielzahl der für die Vorhersage eukaryoter Gene verfügbaren Genvorhersagealgorithmen hat sich der in der FGENESH++ Genomgröße (einschließlich unklarer Nukleotide) 3.145.304.945 Basenpaare (bp) Gesamtsequenzlänge (ohne unklare Nukleotide) 2.795.152.898 bp Anzahl identifizierter Gene 39.882 Gene Durchschnittliche Gendichte, komplettes Genom 1 Gen pro 78,9 kbp Durchschnittliche Gendichte, sequenzierte Regionen 1 Gen pro 70,1 kbp Höchste chromosomale Gendichte (Chromosom 19) 1 Gen pro 37,7 kbp Niedrigste chromosomale Gendichte (Y-Chromosom) 1 Gen pro 274,0 kbp Durchschnittliche Genlänge (einschließlich Introns) 41,4 kbp Kleinste Genlänge (einschließlich Introns) 704 bp Größte Genlänge (einschließlich Introns) 18,1 Mbp Durchschnittliche vorhergesagte Proteinlänge 379 Aminosäuren Kürzeste vorhergesagte Proteinlänge 18 Aminosäuren Längste vorhergesagte Proteinlänge 26.926 Aminosäuren Durchschnittliche Anzahl Exons pro Gen 6,5 Exons Durchschnittliche Exonlänge 175 bp Durchschnittliche Anzahl Introns pro Gen 5,5 Introns Durchschnittliche Intronlänge 7,32 kbp Tab. 1: Allgemeine Statistik zur Biomax Human Genome Database BIOspektrum · 6/02 · 8. Jahrgang Industrie-Applikationen Abb. 1: Auf die Daten in der Biomax Human Genome Database kann von anderen Softwareanwendungen aus zugegriffen werden, so z.B. für die Analyse von Stoffwechselwegen. Analysesoftware (SALAMOY und SOLOVYEV, 2000) von Softberry, Inc. (Mount Kisco, NY, USA) genutzte als ebenbürtig und für bestimmte Aspekte sogar verlässlicher als andere erwiesen (ROGIC et al., 2001). So sind z.B. 50% der in der Biomax Human Genome Database gelisteten Gene nicht in der EnsemblDatenbank zu finden (V. SOLOVYEV, persönliche Mitteilung). (Die in Ensembl nicht gelisteten Gene entsprechen in der Biomax-Datenbank 6% der bekannten Gene, 50% der Gene mit Ähnlichkeiten zu bekannten Genen und 90% der Gene ohne Ähnlichkeit zu bekannten Genen.) Mit der Vervollständigung des Humangenoms und der Verbesserung der Sequenzqualität dürften auch der Algorithmus und die darauf basierende Genvorhersage eine Verfeinerung erfahren. Im menschlichen Genom kartierte die FGENESH++Software zunächst bereits bekannte Gene auf Grundlage der im Reference Sequence Project des National Center for Biotechnology Information verzeichneten Sequenzen (NCBI, Bethesda, MD, USA; http://www.ncbi.nlm.nih.gov/ LocusLink/refseq.html). Die RefSeq-Datenbank enthält eine nichtredundante Sammlung von Proteinsequenzen, die anhand von in der (ebenfalls vom NCBI verwalteten) GenBank Database hinterlegBIOspektrum · 6/02 · 8. Jahrgang ten menschlichen mRNA-Sequenzen identifiziert wurden. Diese Sammlung von Sequenzen wird von vielen Arbeitsgruppen als Referenzstandard für die Genomannotation verwendet. Anschließend wurde eine ab-initio-Genvorhersage zur Identifizierung bislang unbekannter Gene durchgeführt. Diese ersten Genvorhersagen wurden dann durch einen Vergleich mit einer nichtredundanten Proteinsequenzdatenbank verfeinert, die alle verfügbaren Sequenzen der verschiedensten Organismen umfasst. Die Ergebnisse der Softberry-Analyse des Humangenoms, für die Biomax die weltweit exklusive kommerzielle Lizenz besitzt, umfassen etwa 40.000 Gene, was mit den Vorhersagen über die Gesamtzahl menschlicher Gene (International Human Genome Sequencing Consortium, 2001) gut übereinstimmt. Fast 90% der bekannten Gene in der RefSeq-Datenbank wurden von der Software kartiert, was sich ebenfalls gut mit der Schätzung deckt, dass das menschliche Genom erst zu 94% sequenziert ist (International Human Genome Sequencing Consortium, 2001). Eine manuelle Annotation durch Biologen der Firma Biomax erfolgt nach einem Durchlauf automatischer Sequenzanalyse durch die technisch an- Industrie-Applikationen 784 spruchsvolle Pedant-Pro Sequence Analysis Suite (FRISHMAN und MEWES, 1997; FRISHMAN et al., 2001). Mehrere allgemeine Eigenschaften werden für die vorhergesagten Proteine berechnet, so z.B. Länge, Molekülmasse und isoelektrischer Punkt. Dann werden Sequenzvergleiche durchgeführt und die daraufhin aus verschiedenen Datenbanken extrahierten Informationen zur Annotation der vorhergesagten Gene mit Angaben über Proteinstruktur und -funktion genutzt (wie z.B. Klassifizierung enzymatischer oder anderer Funktionen, identifizierte Proteinmotive und Sekundärstrukturvorhersagen). In einem stetig weitergeführten Vorgang wird die so erstellte automatische Annotation von einem Team biologischer Experten ausgewertet und überprüft. Informationen, die die vorhergesagten Gene mit Einträgen in anderen Datenbanken wie Genname, Titel, Identifier oder Klassifikation verknüpfen, werden verifiziert und hinzugefügt. Proteinfunktionen werden anhand des FunCat™ Functional Catalogue klassifiziert (MEWES et al., 2000). Dieses Schema zur systematischen funktionellen Klassifikation ist mit dem GeneOntology-Vokabular kompatibel und erlaubt eine Annotation funktioneller Eigenschaften von Proteinen unabhängig vom Organismus. Mit Hilfe des Katalogs können die Daten innerhalb der Datenbank mit anderen Datensammlungen korreliert oder in andere Anwendungen, wie Analyse von Genexpression oder Stoffwechselzusammenhängen, integriert werden. Von Daten zu Ergebnissen Der sorgfältig erstellte Aufbau der Biomax-Datenbank ermöglicht es dem Wissenschaftler, sich schnell in der Masse der in der Datenbank enthaltenen Informationen zurechtzufinden und genau die für seine Forschungsvorhaben benötigten Daten zu finden. Über die Speicherung langer, ermüdender Sequenzen von As, Gs, Cs und Ts hinaus zeigt die Biomax Human Genome Database die DNA-Sequenz in einem biologisch relevanten Kontext. Als Werkzeug für den Zugriff auf menschliche Genominformation erlaubt die Biomax Human Genome Database einen leichten Zugang zu Daten und präsentiert sie auf internetbasierten graphischen Benutzeroberflächen in verschieden wählbaren Formaten. Benutzerfreundliche Werkzeuge helfen bei der Navigation innerhalb Sequenzen und bei der Übersicht über Proteineigenschaften sowie bei der Suche anhand von Genname, Identifier, Sequenz oder Sequenzmotiv. Ausführliche Querverweise zu öffentlich verfügbaren Informationen bieten eine Verbindung zu anderen Informationsquellen und erweitertem Fachwissen. Software für die Handhabung und Analyse genetischer Daten braucht Informationsquellen, die den leichten Austausch der Informationen zwischen verschiedenen Datensätzen, Experimenten und Forschungsgruppen erlaubt. Daher sind Gensequenzen und begleitende Information, wie vollständig sie auch sein mögen, von begrenztem Nutzen, wenn sie nicht direkt und zusammenhängend zugänglich sind. Die Biomax Human Genome Database stellt computerlesbare Information und standardisiertes Vokabular zur Verfügung, die einen Zugriff durch andere Softwareprogramme ermöglichen und damit auch verbesserte Ergebnisse aus Hochdurchsatzanalysen wie solchen von Genexpression, Proteininteraktionen oder Stoffwechselwegen. Der nächste Schritt Das menschliche Genom ist nicht das Ziel, sondern ein Sprungbrett für die Erreichung von Zielen. Wunderheilmittel, individuell angepasste medizinische Behandlungen und sogar die Ausschaltung von heute weit verbreiteten Krankheiten könnten Realität werden. Aber das Abb. 2: Der interaktive Protein Viewer zeigt Informationen zu dem Proteinprodukt des ausgewählten Gens. Die dargestellte Information umfasst Sekundärstruktureigenschaften, Ähnlichkeiten zu Einträgen in Proteindatenbanken, eventuelle funktionelle Domänen und Proteinmotive sowie die Proteinsequenz. wird noch eine Menge harter Arbeit erfordern. Wenigstens macht uns jetzt die Biomax Human Genome Database die Sache etwas leichter. Literatur Foster M.W. und Sharp R.R. (2002) Race, ethnicity, and genomics: Social classifications a proxies of biological heterogeneity. Genome Res 12: 844–850 Frishman D. und Mewes H.-W. (1997) PEDANTic genome analysis. Trends Genet 13: 415–6 Frishman D., Albermann K., Hani J., Heumann K., Metanomski A., Zollner A. und Mewes H.-W. (2001) Func- tional and structural genomics using PEDANT. Bioinformatics 17: 44–57 International Human Genome Sequencing Consortium (2001) Initial sequencing and analysis of the human genome. Nature 409: 860–921 Kiberstis P. und Roberts L. (2002) It’s not just the genes. Science 296: 685 Lewis, R. (2002) Race and the clinic: good science? The Scientist 16:16–18 Lindpaintner K. (2002) The impact of pharmacogenetics and pharmacogenomics on drug discovery. Nature Rev Drug Discovery 1: 463–469 Mewes H.-W., Frishman D., Guldener U., Mannhaupt G., Mayer K., Mokrejs M., Morgenstern B., Munsterkotter M., Rudd S. und Weil B. (2002) MIPS: A database for genomes and protein sequences. Nucleic Acids Res 30: 31–4 Rogic S., Mackworth A.K. und Ouellette F.B.F. (2001) Evaluation of gene- finding programs on mammalian sequences. Genome Res 11: 817–832 Salamoy A.A. und Solovyev V.V. (2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res 10: 391–7 Korrespondenzadresse: Christine Schüller und Andreas Fritz Biomax Informatics AG Lochhamer Str. 11 D-82152 Martinsried Tel: 089-895574-0 Fax: 089-895574-825 [email protected] www.biomax.com Hinweise zur Benutzung von Warenzeichen: Biomax, BioRS, BioXM, ConSequence, HarvESTer, PEDANT, Pedant-Pro und ReqALLer sind eingetragene Warenzeichen und FunCat ist ein Warenzeichen der Biomax Informatics AG in Deutschland und anderen Ländern. In diesem Dokument benutzte eingetragene Namen, Warenzeichen etc., auch wenn nicht als solche markiert, sind nicht als rechtlich ungeschützt zu betrachten. Dieser Artikel und die zugehörigen Abbildungen sind in elektronischer Form erhältlich (Kontakt: [email protected]) BIOspektrum · 6/02 · 8. Jahrgang