Die Umwandlung von Rohdaten der menschlichen

Industrie-Applikationen
782
Die Umwandlung von Rohdaten der menschlichen
Genomsequenz in nützliche Information
Christine Schüller und Andreas Fritz,
Biomax Informatics AG, Martinsried
Einleitung
Auch wenn die Veröffentlichung einer ersten Rohversion
des Humangenoms (International Human Genome Sequencing
Consortium, 2001) große Aufmerksamkeit auf sich gezogen
hat, wird noch eine Menge Arbeit erforderlich sein, bevor der
Nutzen des Sequenzieraufwands unter Beweis gestellt ist.
Zum einen muss die Sequenz
vervollkommnet (erwartete Fertigstellung 2003) und damit
verbundene Fragen geklärt werden, wie beispielsweise Kontroversen über genetische Unterschiede zwischen verschiedenen
menschlichen Populationen (siehe z.B. LEWIS, 2002 und FOSTER
und SHARP, 2002). Zum anderen
ist es eine für viele noch offene
Frage, welchen Nutzen die Sequenzierung des Humangenoms
für die Menschheit haben wird.
Während man immer wieder
Versprechungen von Wunderdrogen und auf DNA-Fingerabdrücken basierender medizinischer Versorgung hört (interessante Diskussionen hierzu finden sich bei LINDPAINTNER,
2002 und bei KIBERSTIS und
ROBERTS, 2002), ist es immer
noch eine komplizierte und
schwierige Aufgabe, DNA-Sequenzinformation für die Entwicklung medizinisch relevanter
Therapien zu nutzen. Denn
selbst wenn nun erfreulicherweise umfangreiche Humansequenzdaten verfügbar sind,
bringt dies das Problem der Informationsbewältigung mit sich.
Riesige Mengen biologisch relevanter Daten, wie DNA-Sequenzen verschiedenster Organismen sowie in Datenbanken
und wissenschaftlicher Literatur
enthaltene Informationen über
Proteinstruktur und -funktion,
werden in einer unüberschaubaren Zahl von Quellen und in den
Forscher, der eine
differentiell
in
Krebszellen exprimierte mRNA identifiziert hat, die Datenbank nutzen, um
umfangreiche Informationen
verschiedensten Formaten bereitgehalten.
dreidimensionalen Strukturen
finden.
Die Datenbank bietet nicht
nur Sequenzdaten in höchster
Qualität, die mit einer umfassenden Übersicht über die gewaltige Menge verfügbarer Informationen verknüpft sind, sondern dient auch als einzigartige
Quelle für die Erweiterung und
Aufwertung anderer bioinformatischer Anwendungen, wie z.B.
Genexpressionsanalyse oder systematische Datensammlung.
Damit wird die in der Datenbank enthaltene Information
zum Angelpunkt eines wachsenden Netzwerks aus Werkzeugen, die uns einer Entschlüsselung der Geheimnisse
des menschlichen Genoms zum
Wohle des Menschen näher
bringen werden.
Der Aufbau einer besseren
Datenbank
Die Auswertung der
Humangenominformation
Dieser „biologische Turm zu
Babel“ ist das Aufgabenfeld der
Bioinformatik. Bei der Anwendung computerwissenschaftlicher Techniken auf die Probleme der Lebenswissenschaften
werden Daten, die sonst schwer
zu finden, abzurufen und zu interpretieren wären, in hochwertige Informationen umgewandelt, die für handfeste Fortschritte genutzt werden können.
Die in Deutschlands führender Biotechnologieregion gelegene Bioinformatikfirma Biomax
Informatics AG (Martinsried) hat
bioinformatische Prinzipien auf
die menschliche Genomsequenz
angewandt. Mit dem Ziel, die
beschleunigte Umwandlung gewaltiger Mengen von Rohdaten
in nützliche Informationen zu ermöglichen und damit die Grundlage für die alltägliche Verwirklichung von Fortschritten zu liefern, hat die Firma jetzt eine manuell annotierte Version des
Humangenoms auf den Markt
gebracht.
Die Biomax™ Human Genome Database ist dafür ausgelegt,
mehr als nur DNA-Sequenzen
zu präsentieren – die Sequenz ist
in der Tat nur der Ausgangspunkt. Zum Beispiel kann ein
über
das
entsprechende
Protein zu erhalten. Er wird u.a. Angaben zu
identifizierten Proteinmotiven
und strukturellen Elementen, zu
Ergebnissen aus Sequenzvergleichen, über funktionelle Klassifikation sowie Verknüpfungen
zu Literaturzitaten und zu bereits bekannten verwandten
Auf Grundlage der öffentlich zugänglichen
Rohversion des Humangenoms (Version vom 12. Dezember 2001, http://genome.
ucsc.edu/) wurden in einem ersten
Schritt zur Gewinnung nützlicher Information aus der
menschlichen DNA-Sequenz
Gene und andere genetische
Elemente identifiziert. Aus der
Vielzahl der für die Vorhersage
eukaryoter Gene verfügbaren
Genvorhersagealgorithmen hat
sich der in der FGENESH++
Genomgröße (einschließlich unklarer Nukleotide)
3.145.304.945 Basenpaare (bp)
Gesamtsequenzlänge (ohne unklare Nukleotide)
2.795.152.898 bp
Anzahl identifizierter Gene
39.882 Gene
Durchschnittliche Gendichte, komplettes Genom
1 Gen pro 78,9 kbp
Durchschnittliche Gendichte, sequenzierte Regionen
1 Gen pro 70,1 kbp
Höchste chromosomale Gendichte (Chromosom 19)
1 Gen pro 37,7 kbp
Niedrigste chromosomale Gendichte (Y-Chromosom)
1 Gen pro 274,0 kbp
Durchschnittliche Genlänge (einschließlich Introns)
41,4 kbp
Kleinste Genlänge (einschließlich Introns)
704 bp
Größte Genlänge (einschließlich Introns)
18,1 Mbp
Durchschnittliche vorhergesagte Proteinlänge
379 Aminosäuren
Kürzeste vorhergesagte Proteinlänge
18 Aminosäuren
Längste vorhergesagte Proteinlänge
26.926 Aminosäuren
Durchschnittliche Anzahl Exons pro Gen
6,5 Exons
Durchschnittliche Exonlänge
175 bp
Durchschnittliche Anzahl Introns pro Gen
5,5 Introns
Durchschnittliche Intronlänge
7,32 kbp
Tab. 1: Allgemeine Statistik zur Biomax Human Genome Database
BIOspektrum · 6/02 · 8. Jahrgang
Industrie-Applikationen
Abb. 1: Auf die Daten in der Biomax Human Genome Database kann von
anderen Softwareanwendungen aus zugegriffen werden, so z.B. für die
Analyse von Stoffwechselwegen.
Analysesoftware (SALAMOY und
SOLOVYEV, 2000) von Softberry,
Inc. (Mount Kisco, NY, USA)
genutzte als ebenbürtig und für
bestimmte Aspekte sogar verlässlicher als andere erwiesen
(ROGIC et al., 2001). So sind z.B.
50% der in der Biomax Human
Genome Database gelisteten
Gene nicht in der EnsemblDatenbank zu finden (V. SOLOVYEV, persönliche Mitteilung).
(Die in Ensembl nicht gelisteten Gene entsprechen in der
Biomax-Datenbank 6% der bekannten Gene, 50% der Gene
mit Ähnlichkeiten zu bekannten Genen und 90% der Gene
ohne Ähnlichkeit zu bekannten Genen.) Mit der Vervollständigung des Humangenoms
und der Verbesserung der Sequenzqualität dürften auch der
Algorithmus und die darauf basierende Genvorhersage eine
Verfeinerung erfahren.
Im menschlichen Genom
kartierte die FGENESH++Software zunächst bereits bekannte Gene auf Grundlage
der im Reference Sequence
Project des National Center
for Biotechnology Information verzeichneten Sequenzen
(NCBI, Bethesda, MD, USA;
http://www.ncbi.nlm.nih.gov/
LocusLink/refseq.html). Die
RefSeq-Datenbank enthält
eine nichtredundante Sammlung von Proteinsequenzen,
die anhand von in der (ebenfalls vom NCBI verwalteten)
GenBank Database hinterlegBIOspektrum · 6/02 · 8. Jahrgang
ten menschlichen mRNA-Sequenzen identifiziert wurden.
Diese Sammlung von Sequenzen wird von vielen Arbeitsgruppen als Referenzstandard
für die Genomannotation verwendet. Anschließend wurde
eine ab-initio-Genvorhersage
zur Identifizierung bislang unbekannter Gene durchgeführt.
Diese ersten Genvorhersagen
wurden dann durch einen Vergleich mit einer nichtredundanten Proteinsequenzdatenbank verfeinert, die alle
verfügbaren Sequenzen der
verschiedensten Organismen
umfasst.
Die Ergebnisse der Softberry-Analyse des Humangenoms, für die Biomax die weltweit exklusive kommerzielle
Lizenz besitzt, umfassen etwa
40.000 Gene, was mit den Vorhersagen über die Gesamtzahl
menschlicher Gene (International Human Genome Sequencing Consortium, 2001)
gut übereinstimmt. Fast 90%
der bekannten Gene in der
RefSeq-Datenbank wurden
von der Software kartiert, was
sich ebenfalls gut mit der
Schätzung deckt, dass das
menschliche Genom erst zu
94% sequenziert ist (International Human Genome Sequencing Consortium, 2001).
Eine manuelle Annotation
durch Biologen der Firma Biomax erfolgt nach einem Durchlauf automatischer Sequenzanalyse durch die technisch an-
Industrie-Applikationen
784
spruchsvolle Pedant-Pro Sequence Analysis Suite (FRISHMAN und MEWES, 1997; FRISHMAN et al., 2001). Mehrere allgemeine Eigenschaften werden für
die vorhergesagten Proteine berechnet, so z.B. Länge, Molekülmasse und isoelektrischer
Punkt. Dann werden Sequenzvergleiche durchgeführt und die
daraufhin aus verschiedenen Datenbanken extrahierten Informationen zur Annotation der
vorhergesagten Gene mit Angaben über Proteinstruktur und
-funktion genutzt (wie z.B. Klassifizierung enzymatischer oder
anderer Funktionen, identifizierte Proteinmotive und Sekundärstrukturvorhersagen).
In einem stetig weitergeführten Vorgang wird die so erstellte
automatische Annotation von einem Team biologischer Experten ausgewertet und überprüft.
Informationen, die die vorhergesagten Gene mit Einträgen in
anderen Datenbanken wie Genname, Titel, Identifier oder
Klassifikation verknüpfen, werden verifiziert und hinzugefügt.
Proteinfunktionen werden anhand des FunCat™ Functional
Catalogue klassifiziert (MEWES
et al., 2000). Dieses Schema zur
systematischen funktionellen
Klassifikation ist mit dem GeneOntology-Vokabular kompatibel
und erlaubt eine Annotation
funktioneller Eigenschaften von
Proteinen unabhängig vom Organismus. Mit Hilfe des Katalogs
können die Daten innerhalb der
Datenbank mit anderen Datensammlungen korreliert oder in
andere Anwendungen, wie Analyse von Genexpression oder
Stoffwechselzusammenhängen,
integriert werden.
Von Daten zu Ergebnissen
Der sorgfältig erstellte Aufbau
der Biomax-Datenbank ermöglicht es dem Wissenschaftler,
sich schnell in der Masse der in
der Datenbank enthaltenen Informationen zurechtzufinden
und genau die für seine Forschungsvorhaben benötigten
Daten zu finden. Über die Speicherung langer, ermüdender Sequenzen von As, Gs, Cs und Ts
hinaus zeigt die Biomax Human
Genome Database die DNA-Sequenz in einem biologisch relevanten Kontext. Als Werkzeug
für den Zugriff auf menschliche
Genominformation erlaubt die
Biomax Human Genome Database einen leichten Zugang zu
Daten und präsentiert sie auf internetbasierten graphischen Benutzeroberflächen in verschieden wählbaren Formaten. Benutzerfreundliche Werkzeuge
helfen bei der Navigation innerhalb Sequenzen und bei der
Übersicht über Proteineigenschaften sowie bei der Suche anhand von Genname, Identifier,
Sequenz oder Sequenzmotiv.
Ausführliche Querverweise zu
öffentlich verfügbaren Informationen bieten eine Verbindung
zu anderen Informationsquellen
und erweitertem Fachwissen.
Software für die Handhabung
und Analyse genetischer Daten
braucht Informationsquellen,
die den leichten Austausch der
Informationen zwischen verschiedenen Datensätzen, Experimenten und Forschungsgruppen erlaubt. Daher sind Gensequenzen und begleitende Information, wie vollständig sie auch
sein mögen, von begrenztem
Nutzen, wenn sie nicht direkt
und zusammenhängend zugänglich sind. Die Biomax Human
Genome Database stellt computerlesbare Information und standardisiertes Vokabular zur Verfügung, die einen Zugriff durch
andere Softwareprogramme ermöglichen und damit auch verbesserte Ergebnisse aus Hochdurchsatzanalysen wie solchen
von Genexpression, Proteininteraktionen oder Stoffwechselwegen.
Der nächste Schritt
Das menschliche Genom ist
nicht das Ziel, sondern ein
Sprungbrett für die Erreichung
von Zielen. Wunderheilmittel,
individuell angepasste medizinische Behandlungen und sogar
die Ausschaltung von heute weit
verbreiteten Krankheiten könnten Realität werden. Aber das
Abb. 2: Der interaktive Protein Viewer zeigt Informationen zu dem
Proteinprodukt des ausgewählten Gens. Die dargestellte Information
umfasst Sekundärstruktureigenschaften, Ähnlichkeiten zu Einträgen in
Proteindatenbanken, eventuelle funktionelle Domänen und Proteinmotive
sowie die Proteinsequenz.
wird noch eine Menge harter Arbeit erfordern. Wenigstens
macht uns jetzt die Biomax Human Genome Database die Sache etwas leichter.
Literatur
Foster M.W. und Sharp R.R. (2002)
Race, ethnicity, and genomics: Social classifications a proxies of biological heterogeneity. Genome Res 12: 844–850
Frishman D. und Mewes H.-W.
(1997) PEDANTic genome analysis. Trends
Genet 13: 415–6
Frishman D., Albermann K., Hani J.,
Heumann K., Metanomski A., Zollner A. und Mewes H.-W. (2001) Func-
tional and structural genomics using
PEDANT. Bioinformatics 17: 44–57
International Human Genome
Sequencing Consortium (2001) Initial
sequencing and analysis of the human
genome. Nature 409: 860–921
Kiberstis P. und Roberts L. (2002) It’s
not just the genes. Science 296: 685
Lewis, R. (2002) Race and the clinic:
good science? The Scientist 16:16–18
Lindpaintner K. (2002) The impact of
pharmacogenetics and pharmacogenomics on drug discovery. Nature Rev
Drug Discovery 1: 463–469
Mewes H.-W., Frishman D., Guldener U., Mannhaupt G., Mayer K.,
Mokrejs M., Morgenstern B., Munsterkotter M., Rudd S. und Weil B.
(2002) MIPS: A database for genomes
and protein sequences. Nucleic Acids Res
30: 31–4
Rogic S., Mackworth A.K. und Ouellette F.B.F. (2001) Evaluation of gene-
finding programs on mammalian sequences. Genome Res 11: 817–832
Salamoy A.A. und Solovyev V.V.
(2000) Ab initio gene finding in Drosophila genomic DNA. Genome Res 10: 391–7
Korrespondenzadresse:
Christine Schüller und Andreas Fritz
Biomax Informatics AG
Lochhamer Str. 11
D-82152 Martinsried
Tel: 089-895574-0
Fax: 089-895574-825
[email protected]
www.biomax.com
Hinweise zur Benutzung von Warenzeichen: Biomax, BioRS, BioXM, ConSequence, HarvESTer,
PEDANT, Pedant-Pro und ReqALLer sind eingetragene Warenzeichen und FunCat ist ein Warenzeichen der Biomax Informatics AG in Deutschland und anderen Ländern.
In diesem Dokument benutzte eingetragene Namen, Warenzeichen etc., auch wenn nicht als
solche markiert, sind nicht als rechtlich ungeschützt zu betrachten.
Dieser Artikel und die zugehörigen Abbildungen sind in elektronischer Form erhältlich
(Kontakt: [email protected])
BIOspektrum · 6/02 · 8. Jahrgang