Wissen strukturieren Ontologie und biomedizinische Datenbanken Ludger Jansen Institut für Philosophie & ZLWWG [email protected] Das Problem • Ein Kreiskrankenhaus mit 500 Betten verwaltet ca. 500.000 Krankenakten. • Jährlich ca. 10 Millionen neue wissenschaftlich-technische Publikationen • Mehrere Wochen für das Lesen einer Tagesproduktion medizinischen Wissens • Allein in der Toxikologie erscheinen jährlich ca. 80.000 neue Arbeiten. Biologischer ArtenReichtum • Ca. 1,5 Millionen Arten beschrieben • Schätzungen: jetzt ca. 15 Millionen Arten • Seit Beginn des Phanerozoikums vor 542 Mio. Jahren: ca. 1,5 Millarden Arten Das alte Proble m Genetische Datenfülle • • • • Homo sapiens 46 Chromosomen 20.000 - 25.000 Gene 3,2 × 109 Basenpaare (= 3,2 Milliarden) Die Lösung 1 Das neue Problem • Vielzahl von Datenbanken Desiderata • Information Retrieval – mit unterschiedlichen Ad-hoc-Strukturen – die untereinander nicht kompatibel sind – Dinge suchen, nicht Zeichenketten! • Automatic Reasoning • und einer Vielzahl von Versionen – konsistente Datenbanken – formal charakterisierte Relationen – die untereinander nicht vergleichbar sind • Ungenutze informationstechnische Möglichkeiten (data mining) • Informationsaustausch – Vernetzbarkeit verschiedener Datenbanken • Vergleichbarkeit trotz Aktualisierung Die neue Lösung Was ist die Ontologie? • Ontologie Computer + Ontologie als wissenschaftliche Disziplin – Wissenschaft vom Seienden als solchem (Aristoteles) – Wissenschaft von den allgemeinsten Arten von Dingen und den Beziehungen zwischen ihnen ONTOLOGIE Allgemeine Ontologie Biomedizinische Ontologie Bereichsontologien Sozialontologie Andere Bereichsontologien 2 Was ist eine Ontologie? • Ontologie als Produkt – „an explicit representation of a conceptualization“ (Gruber) – „a representation of some pre-existing domain of reality“ (Smith) – „representational artifacts whose representational units are designates to designate classes or types in reality and to relate them to each other“ (Schulz/Johansson) Eine frühe Ontologie: Der Porphyrische Baum • Genus, Gattung • Differentia, Differenz • Species, Art • Ablesbar: Definitio, Definition Fallstudie 1 Der NCIT: National Cancer Institute Thesaurus NCIT Terminology Browser http://nciterms.nci.nih.gov/ NCI Thesaurus • Mehr als 110.000 Terme und • Mehr als 36.000 Begriffe mit Relevanz für Krebs und Krebsforschung • Darunter: – 10 000 Arten von medizinischen Diagnosen oder Befunden, – mehr als 5000 anatomische Arten – mehr als 3500 chemische (Wirk-)Stoffe – mehr als 2000 Arten von Genen etc. • Eine Ontologie ist eine Hierarchie von – Termen (sprachlich) – Begriffen (mental) – Klassen, Typen, Taxa – Universalien • Sie enthält – Kategorien – Gattungen – Arten – Subsumptionsrelationen („… ist ein …“) 3 Chinesische Tiere nach Jorge L. Borges • „eine gewisse chinesische Enzyklopädie mit Namen Das himmlische Reich des wohlgefälligen Wissens“ Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • Die Borges-Taxonomie Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, Strukturiertheit 5. Sirenen, ... Unterklasse von … 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • • Struktur! Disjunktheit! Die Borges-Taxonomie Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • • Vollständigkeit! Keine Mehrdeutigkeit! 4 Die Borges-Taxonomie Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • • Keine Meta-Kategorien! Ontische Fundierung! Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen • • Exlizitheit! Präzision! „Good Practice in Taxonomy“ • • • • • • Die Borges-Taxonomie • 1. Tiere, die dem Kaiser gehören, 2. einbalsamierte Tiere, 3. gezähmte Tiere, 4. Milchschweine, 5. Sirenen, 6. Fabeltiere, 7. herrenlose Hunde, 8. in diese Gruppierung gehörige, 9. die sich wie Tolle gebärden, 10. unzählbare, 11. die mit einem ganz feinen Pinsel aus Kamelhaar gezeichnet sind, 12. und so weiter, 13. die den Wasserkrug zerbrochen haben, 14. die von weitem wie Fliegen aussehen Strukturiertheit Uniformität Disjunktivität + Exhaustivität (JEPD) Keine Meta-Kategorien Explizitheit + Präzision Ontische Positivität Uniformität! Foucaults Irrtum „Bei dem Erstaunen über diese Taxonomie erreicht man mit einem Sprung, was in dieser Aufzählung uns als der exotische Zauber eines anderen Denkens bezeichnet wird – die Grenze unseres Denkens: die schiere Unmöglichkeit, das zu denken.“ (Foucault, Die Ordnung der Dinge, 1974, 17) 5 Die Taxonomie der Tiere im NCIT • Subgroup := NCI|A subdivision of a larger group with members often exhibiting similar characteristics. • Group := Any number of entities (members) considered as a unit. • Grouping := NCI|A system for classifying things into groups or the activity of putting things together in groups. Uniformität: Labortiere • Untertypen von “Laboratory Animal” – – – – Congenic_Strain Inbred_Strain Control_Animal Genetically_Engineered_Mouse NSF_N_Mice – Tool_Mouse • Subgroup := NCI|A subdivision of a larger group with members often exhibiting similar characteristics. • Group := Any number of entities (members) considered as a unit. • Grouping := NCI|A system for classifying things into groups or the activity of putting things together in groups. • Absurde Folgerung daraus: A subgroup is a system for classifying things into groups or the activity of putting things together in groups. Disjunktivität + Exhaustivität Consomic_Strain Recombinant_Inbred_Strain Female-to-Male_Transsexual_Animal Male-to-Female_Transsexual_Animal SENCAR_Mouse Transgenic_Animal • Widerfahrnisse: Genetically_Engineered_Mouse – NCI|A mouse that has been genetically modified by introducing new genetic characteristics to it. […] • Funktion im Versuchsdesign: Control_Animal, – NCI-GLOSS|The animals in a study that do not receive the treatment being tested. Comparing the health of control animals with the health of treated animals allows researchers to evaluate the effects of a treatment more accurately. Multidimensionale Klassifikation in SNOMED Welche morphologische Struktur? morphology M Wo? topography T Welche Ursache? etiology E Welche Wirkung? function F Welche Erkrankung? disease D Welches Verfahren wurde angewandt? procedure P Verbindung zum Beruf? J job Virusenzephalitis bei einem Waldarbeiter: TX2000 M40000 E30000 J63230 6 Explizitheit + Präzisision • Kein Witz: – Other := NCI|Different than the one(s) previously specified or mentioned. – Untertyp von General Modifier • Zahlreiche “Other F”-Einträge – Carcinoma, Other, of the Mouse Pulmonary System NCIT-Meta-Kategorien Other Others • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Carcinoma, Other, of the Mouse Pulmonary System Clinical Trial, Other Epidemiology, Other Genital System Female Other Murine Genital System Female Other Murine Male Genital Organs Murine Other Specified Parts of Female Genital Organs Murine Other Specified Parts of Male Genital Organs Murine Other Specified Parts of Pancreas Murine Other and Unspecified Female Genital Organs Murine Other/unique Body System Murine Salivary Glands Other Adnexal Neoplasms of the Mouse Skin Other Agency or Organization Other Anatomic Concept Other Biochemical Pathway Other Body Fluids and Secretions Other Body Part Other Cancer of the Mouse Mammary Gland NOS Other Clinical Research Support Shared Resource Other Cutaneous Neoplasms of Hematopoetic Origin of Mouse Other Device Component Other Embryologic Structure Other Epidemiology and Cancer Control Shared Resource Other Evaluation of Risk Factors Other Finding Other Focal Hyperplasias of the Mouse Mammary Gland Other Imaging Modalities Other Inbred Strains Other Informatics Shared Resource • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Other Laboratory Science Support Shared Resource Other Lymphomas of the Mouse Skin Other Mammary Carcinoma of Mouse Other Metaplastic Carcinomas of the Mouse Mammary Gland Other Minority Other Monodermal Teratomas of the Mouse Ovary Other Mouse Melanoma Other Multiple Areas Other Non-Neoplastic Proliferation of the Mouse Prostate Gland Other Non-neoplastic Proliferations of the Mouse Mammary Gland Other Organism Groupings Other Prior Therapy Other Recombinant Chemokine Other Resources Other Route of Administration Other Specified Parts of Female Genital Organ Other Specified Parts of Male Genital Organs Other Specified Parts of Pancreas Other Support Update Other Thecoma-Fibroma Type Tumors of the Mouse Ovary, Not Specified Other Therapy Other Tumors of the Mouse Ovary of Uncertain Origin or Miscellaneous Other Types of Training Other Variants of Basaloid Follicular Neoplasm of the Mouse Skin Other Virus Grouping Other Working Groups Other and Unspecified Female Genital Organ Other/Unique Body System Other Fallstudie 2: Geschlechtsklassifikationen • NCI-Thesaurus_Property – NCI|A specific terminology property present in the NCI Thesaurus – Subtyp von Property • Retired_Concept – NCI|Concept has been retired, and should not be used except to deal with old data. – Top-level-Kategorie! Mann und Frau Vgl. Chris Partridge, Business Objects. Re-Engineering for Re-Use, Oxford 1996, 80. Bildquelle: http://www.boroprogram.org/boro_program/pdfs_wps/OP2.pdf 7 Männlich & Weiblich „Arten“ von Females • =def A person who belongs to the sex that normally produces ova. The term is used to indicate biological sex distinctions, or cultural gender role distinctions, or both. „Arten“ von Females „Arten“ von Females • Female_Phenotype =def An animal who is observed by researcher or clinician to be female, the sex that ordinarily produces ova. • Female_Self-Report =def An individual who reports to be female, the sex that ordinarily produces ova. • Female_Gender =def An individual who reports belonging to the cultural gender role distinction of female. • Castrated_Female =def A female individual who has had her ovaries removed. Fallstudie 3: Tendenzen • Standard-Definition (Ingvar Johansson) – “a tendency is an entity which can be counteracted by other tendencies” or – “a potentiality which may be exercised without being realized” Warum Tendenzen wichtig sind • Medline database – “tendency”: 48884 Fundstellen (+ 4720 für den Plural) • Manche Tendenzen sind medizinische Befunde – psychopathic tendency, – suicidal tendency T3: air resistance – tendency to bleed or T2: tail wind – thrombophilic tendency. • Viele medizinische Behandlungen beugen der Realisierung vorhandener Tendenzen vor – prevent the realization of a suicidal tendency T1: forward drive through engine 8 Das Schweigen der Medizininformatik Der merkwürdige Befund • Unified Medical Language System (UMLS) – 23 hits for “tendency” either as part of lemmas or of definitions – no entry for “tendency” on its own, – Weite Verbreitung von “tendency” und “disposition” in der Forschungsliteratur • National Cancer Institute Thesaurus (NCIT) – NCI|Disposition =def the tendency of something to act in a certain manner under given circumstances resulting from natural constitution; nature; quality; orderly arrangement – Keine adäquate Repräsentation in medizinischen Informationssystemen – Nicht synonyme Bestandteile: nature, quality, orderly arrangement – Nicht eindeutig (entgegen der offiziellen Intention des NCIT) – Obertyp: Conceptual Entity (nicht Property or Attribute) – Nicht Untertyp von Disposition Hilfe von der Philosophie • Philosophische Autor(itäten)en: – Aristotle (dynamis, physis, hexis) – Roy Bhaskar, Rom Harré, Nancy Cartwright – T.S. Champlin, – Quentin Gibson, – Ingvar Johansson – Jonathan Lowe – Daniel von Wachter Tendenz-Typen und Tendenz-Token • Type/Token, Universalien/Einzeldinge • Wieviele Buchstaben enthält das Wort “Otto”? – Zwei Typen! – Vier Token! Einige Eigenschaften von Tendenzen – Tendenzen “zeigen” auf etwas, das sie ermöglichen/ verursachen/wahrscheinlich machen (Realisierung) • Tendency to bleed “points” to bleeding – Realisierung verschieden von der Tendenz: • tendency to bleed: qualitative Eigenschaft • bleeding: Prozess oder Aktivität – Tendenzen können existieren ohne realisiert zu sein: • Ein Patient kann Bluter sein ohne zu bluten – d.h. die Tendenz zum Bluten zu einem Zeitpunkt haben, an dem er nicht blutet Tendenz-Typen und Tendenz-Token • Zuschreibung von Tendenz-Token zu Individuen – “Patient #12 has a tendency to vomit”, – “Rosie tends to get sunburn quickly” – “Mr Smith suffers from ecdysiasm” • Zuschreibung von Tendenz-Typen zu Universalien – “The red haired have the tendency to get sunburn quickly” 9 The Standard Square of Tendency Ascription • (S1) U _correlated with_ T • (S2) x _has_ t • (S3) x _instance_of_ U • (S4) t _instance_of_ T Zwei Nicht-Standard-Fälle • Bloße Korrelationen: U ___correlated_with__ T | instance_of | x ∅ • Kontingente individuelle Tendenz: • • • ∅ U ___correlated_with___ T | | instance_of instance_of | | x ________has__ ______ t Epistemische Varianten ? T | instance_of | x _______has________ t Nicht: “x has a tendency t”, Aber: “Patient x instantiates a universal U that is correlated with a certain tendency type T. Therefore, there is a certain probability P that x possesses a token t, instantiating T.” Wo kann die Ontologie den Ontologien helfen? konsistente Axiomatik Zusammenfassung • Für den behandelnden Arzt sind sowohl Zuschreibungen von Tendenz-Token zu Individuen, als auch von Tendenz-Typen zu Universalien relevant. • Standard- und Nicht-Standard-Fälle U ___correlated_with__ T | instance_of | x ? Bereitstellung von Prinzipien Orientierung an den Dingen in der Welt strikte Charakterisierung von top level-Kategorien T | instance_of | x _____has______t • statt Ad-hocLösungen • statt Suche nach Zeichenketten • statt Cluster begrifflicher Assoziationen • statt falscher Schlüsse und Widersprüche • Jede Repräsentation medizinischen Wissens sollte diese Möglichkeiten berücksichtigen und in der Lage sein, zwischen ihnen zu unterscheiden. • Jede Ontologie sollte Tendenzen gerecht werden. Zum Weiterlesen Zum Weiterlesen vdf Zürich, 2008 10