Ontologie und biomedizinische Datenbanken

Werbung
Wissen
strukturieren
Ontologie und
biomedizinische
Datenbanken
Ludger Jansen
Institut für Philosophie
& ZLWWG
[email protected]
Das Problem
• Ein Kreiskrankenhaus mit 500 Betten
verwaltet ca. 500.000 Krankenakten.
• Jährlich ca. 10 Millionen neue
wissenschaftlich-technische Publikationen
• Mehrere Wochen für das Lesen einer
Tagesproduktion medizinischen Wissens
• Allein in der Toxikologie erscheinen jährlich
ca. 80.000 neue Arbeiten.
Biologischer
ArtenReichtum
• Ca. 1,5 Millionen Arten
beschrieben
• Schätzungen: jetzt
ca. 15 Millionen Arten
• Seit Beginn des
Phanerozoikums vor
542 Mio. Jahren:
ca. 1,5 Millarden Arten
Das
alte
Proble
m
Genetische
Datenfülle
•
•
•
•
Homo sapiens
46 Chromosomen
20.000 - 25.000 Gene
3,2 × 109 Basenpaare
(= 3,2 Milliarden)
Die Lösung
1
Das neue Problem
• Vielzahl von Datenbanken
Desiderata
• Information Retrieval
– mit unterschiedlichen Ad-hoc-Strukturen
– die untereinander nicht kompatibel sind
– Dinge suchen, nicht Zeichenketten!
• Automatic Reasoning
• und einer Vielzahl von Versionen
– konsistente Datenbanken
– formal charakterisierte Relationen
– die untereinander nicht vergleichbar sind
• Ungenutze informationstechnische
Möglichkeiten (data mining)
• Informationsaustausch
– Vernetzbarkeit verschiedener Datenbanken
• Vergleichbarkeit trotz Aktualisierung
Die neue Lösung
Was ist die Ontologie?
•
Ontologie
Computer
+
Ontologie als wissenschaftliche Disziplin
– Wissenschaft vom Seienden als solchem
(Aristoteles)
– Wissenschaft von den allgemeinsten Arten von
Dingen und den Beziehungen zwischen ihnen
ONTOLOGIE
Allgemeine Ontologie
Biomedizinische
Ontologie
Bereichsontologien
Sozialontologie
Andere
Bereichsontologien
2
Was ist eine Ontologie?
•
Ontologie als Produkt
– „an explicit representation of a conceptualization“
(Gruber)
– „a representation of some pre-existing domain of
reality“ (Smith)
– „representational artifacts whose representational
units are designates to designate classes or
types in reality and to relate them to each other“
(Schulz/Johansson)
Eine frühe
Ontologie:
Der Porphyrische
Baum
• Genus, Gattung
• Differentia,
Differenz
• Species, Art
• Ablesbar:
Definitio, Definition
Fallstudie 1
Der NCIT:
National Cancer
Institute Thesaurus
NCIT Terminology Browser
http://nciterms.nci.nih.gov/
NCI Thesaurus
• Mehr als 110.000 Terme und
• Mehr als 36.000 Begriffe mit Relevanz für
Krebs und Krebsforschung
• Darunter:
– 10 000 Arten von medizinischen Diagnosen
oder Befunden,
– mehr als 5000 anatomische Arten
– mehr als 3500 chemische (Wirk-)Stoffe
– mehr als 2000 Arten von Genen etc.
• Eine Ontologie ist eine
Hierarchie von
– Termen (sprachlich)
– Begriffen (mental)
– Klassen, Typen, Taxa
– Universalien
• Sie enthält
– Kategorien
– Gattungen
– Arten
– Subsumptionsrelationen
(„… ist ein …“)
3
Chinesische Tiere
nach Jorge L. Borges
• „eine gewisse chinesische
Enzyklopädie mit Namen
Das himmlische Reich des
wohlgefälligen Wissens“
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
•
Die Borges-Taxonomie
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
Strukturiertheit
5. Sirenen, ... Unterklasse von …
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
•
•
Struktur!
Disjunktheit!
Die Borges-Taxonomie
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
•
•
Vollständigkeit!
Keine Mehrdeutigkeit!
4
Die Borges-Taxonomie
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
•
•
Keine
Meta-Kategorien!
Ontische
Fundierung!
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
•
•
Exlizitheit!
Präzision!
„Good Practice in
Taxonomy“
•
•
•
•
•
•
Die Borges-Taxonomie
• 1. Tiere, die dem Kaiser gehören,
2. einbalsamierte Tiere,
3. gezähmte Tiere,
4. Milchschweine,
5. Sirenen,
6. Fabeltiere,
7. herrenlose Hunde,
8. in diese Gruppierung gehörige,
9. die sich wie Tolle gebärden,
10. unzählbare,
11. die mit einem ganz feinen Pinsel aus Kamelhaar
gezeichnet sind,
12. und so weiter,
13. die den Wasserkrug zerbrochen haben,
14. die von weitem wie Fliegen aussehen
Strukturiertheit
Uniformität
Disjunktivität + Exhaustivität (JEPD)
Keine Meta-Kategorien
Explizitheit + Präzision
Ontische Positivität
Uniformität!
Foucaults Irrtum
„Bei dem Erstaunen über
diese Taxonomie erreicht
man mit einem Sprung, was
in dieser Aufzählung uns als
der exotische Zauber eines
anderen Denkens bezeichnet
wird – die Grenze unseres
Denkens: die schiere Unmöglichkeit, das zu denken.“
(Foucault, Die Ordnung der
Dinge, 1974, 17)
5
Die Taxonomie der Tiere im NCIT
• Subgroup := NCI|A subdivision of a larger group with members often
exhibiting similar characteristics.
• Group := Any number of entities (members) considered as a unit.
• Grouping := NCI|A system for classifying things into groups or the
activity of putting things together in groups.
Uniformität: Labortiere
• Untertypen von “Laboratory Animal”
–
–
–
–
Congenic_Strain
Inbred_Strain
Control_Animal
Genetically_Engineered_Mouse
NSF_N_Mice
– Tool_Mouse
• Subgroup := NCI|A subdivision of a larger group with members often
exhibiting similar characteristics.
• Group := Any number of entities (members) considered as a unit.
• Grouping := NCI|A system for classifying things into groups or the
activity of putting things together in groups.
• Absurde Folgerung daraus: A subgroup is a system for classifying
things into groups or the activity of putting things together in groups.
Disjunktivität +
Exhaustivität
Consomic_Strain
Recombinant_Inbred_Strain
Female-to-Male_Transsexual_Animal
Male-to-Female_Transsexual_Animal
SENCAR_Mouse
Transgenic_Animal
• Widerfahrnisse: Genetically_Engineered_Mouse
– NCI|A mouse that has been genetically modified by introducing new
genetic characteristics to it. […]
• Funktion im Versuchsdesign: Control_Animal,
– NCI-GLOSS|The animals in a study that do not receive the treatment
being tested. Comparing the health of control animals with the health of
treated animals allows researchers to evaluate the effects of a treatment
more accurately.
Multidimensionale
Klassifikation
in SNOMED
Welche morphologische Struktur?
morphology
M
Wo?
topography
T
Welche Ursache?
etiology
E
Welche Wirkung?
function
F
Welche Erkrankung?
disease
D
Welches Verfahren wurde angewandt? procedure
P
Verbindung zum Beruf?
J
job
Virusenzephalitis bei einem Waldarbeiter:
TX2000 M40000 E30000 J63230
6
Explizitheit + Präzisision
• Kein Witz:
– Other := NCI|Different than the one(s)
previously specified or mentioned.
– Untertyp von General Modifier
• Zahlreiche “Other F”-Einträge
– Carcinoma, Other, of the Mouse Pulmonary
System
NCIT-Meta-Kategorien
Other Others
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Carcinoma, Other, of the Mouse Pulmonary System
Clinical Trial, Other
Epidemiology, Other
Genital System Female Other
Murine Genital System Female Other
Murine Male Genital Organs
Murine Other Specified Parts of Female Genital Organs
Murine Other Specified Parts of Male Genital Organs
Murine Other Specified Parts of Pancreas
Murine Other and Unspecified Female Genital Organs
Murine Other/unique Body System
Murine Salivary Glands
Other Adnexal Neoplasms of the Mouse Skin
Other Agency or Organization
Other Anatomic Concept
Other Biochemical Pathway
Other Body Fluids and Secretions
Other Body Part
Other Cancer of the Mouse Mammary Gland NOS
Other Clinical Research Support Shared Resource
Other Cutaneous Neoplasms of Hematopoetic Origin of Mouse
Other Device Component
Other Embryologic Structure
Other Epidemiology and Cancer Control Shared Resource
Other Evaluation of Risk Factors
Other Finding
Other Focal Hyperplasias of the Mouse Mammary Gland
Other Imaging Modalities
Other Inbred Strains
Other Informatics Shared Resource
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Other Laboratory Science Support Shared Resource
Other Lymphomas of the Mouse Skin
Other Mammary Carcinoma of Mouse
Other Metaplastic Carcinomas of the Mouse Mammary Gland
Other Minority
Other Monodermal Teratomas of the Mouse Ovary
Other Mouse Melanoma
Other Multiple Areas
Other Non-Neoplastic Proliferation of the Mouse Prostate Gland
Other Non-neoplastic Proliferations of the Mouse Mammary Gland
Other Organism Groupings
Other Prior Therapy
Other Recombinant Chemokine
Other Resources
Other Route of Administration
Other Specified Parts of Female Genital Organ
Other Specified Parts of Male Genital Organs
Other Specified Parts of Pancreas
Other Support Update
Other Thecoma-Fibroma Type Tumors of the Mouse Ovary, Not
Specified
Other Therapy
Other Tumors of the Mouse Ovary of Uncertain Origin or
Miscellaneous
Other Types of Training
Other Variants of Basaloid Follicular Neoplasm of the Mouse Skin
Other Virus Grouping
Other Working Groups
Other and Unspecified Female Genital Organ
Other/Unique Body System
Other
Fallstudie 2:
Geschlechtsklassifikationen
• NCI-Thesaurus_Property
– NCI|A specific terminology property present in
the NCI Thesaurus
– Subtyp von Property
• Retired_Concept
– NCI|Concept has been retired, and should not
be used except to deal with old data.
– Top-level-Kategorie!
Mann und Frau
Vgl. Chris Partridge, Business Objects. Re-Engineering for Re-Use, Oxford 1996, 80.
Bildquelle: http://www.boroprogram.org/boro_program/pdfs_wps/OP2.pdf
7
Männlich & Weiblich
„Arten“ von Females
• =def
A person who belongs to
the sex that normally
produces ova.
The term is used to
indicate biological sex
distinctions, or cultural
gender role distinctions,
or both.
„Arten“ von Females
„Arten“ von Females
• Female_Phenotype =def
An animal who is observed by researcher or clinician
to be female, the sex that ordinarily produces ova.
• Female_Self-Report =def
An individual who reports to be female, the sex that
ordinarily produces ova.
• Female_Gender =def
An individual who reports belonging to the cultural
gender role distinction of female.
• Castrated_Female =def
A female individual who has had her ovaries removed.
Fallstudie 3: Tendenzen
• Standard-Definition (Ingvar Johansson)
– “a tendency is an entity which can be counteracted by other
tendencies” or
– “a potentiality which may be exercised without being
realized”
Warum Tendenzen wichtig sind
• Medline database
– “tendency”: 48884 Fundstellen (+ 4720 für den Plural)
• Manche Tendenzen sind medizinische Befunde
– psychopathic tendency,
– suicidal tendency
T3: air resistance
– tendency to bleed or
T2: tail wind
– thrombophilic tendency.
• Viele medizinische Behandlungen beugen der
Realisierung vorhandener Tendenzen vor
– prevent the realization of a suicidal tendency
T1: forward drive
through engine
8
Das Schweigen der
Medizininformatik
Der merkwürdige
Befund
• Unified Medical Language System (UMLS)
– 23 hits for “tendency” either as part of lemmas or of definitions
– no entry for “tendency” on its own,
– Weite Verbreitung von “tendency” und
“disposition” in der Forschungsliteratur
• National Cancer Institute Thesaurus (NCIT)
– NCI|Disposition =def the tendency of something to act in a certain
manner under given circumstances resulting from natural
constitution; nature; quality; orderly arrangement
– Keine adäquate Repräsentation in
medizinischen Informationssystemen
– Nicht synonyme Bestandteile:
nature, quality, orderly arrangement
– Nicht eindeutig (entgegen der offiziellen Intention des NCIT)
– Obertyp: Conceptual Entity (nicht Property or Attribute)
– Nicht Untertyp von Disposition
Hilfe von der
Philosophie
• Philosophische Autor(itäten)en:
– Aristotle (dynamis, physis, hexis)
– Roy Bhaskar, Rom Harré, Nancy Cartwright
– T.S. Champlin,
– Quentin Gibson,
– Ingvar Johansson
– Jonathan Lowe
– Daniel von Wachter
Tendenz-Typen und
Tendenz-Token
• Type/Token, Universalien/Einzeldinge
• Wieviele Buchstaben enthält das Wort
“Otto”?
– Zwei Typen!
– Vier Token!
Einige Eigenschaften von
Tendenzen
– Tendenzen “zeigen” auf etwas, das sie ermöglichen/
verursachen/wahrscheinlich machen (Realisierung)
• Tendency to bleed “points” to bleeding
– Realisierung verschieden von der Tendenz:
• tendency to bleed: qualitative Eigenschaft
• bleeding: Prozess oder Aktivität
– Tendenzen können existieren ohne realisiert zu sein:
• Ein Patient kann Bluter sein ohne zu bluten – d.h. die Tendenz
zum Bluten zu einem Zeitpunkt haben, an dem er nicht blutet
Tendenz-Typen und
Tendenz-Token
• Zuschreibung von Tendenz-Token zu Individuen
– “Patient #12 has a tendency to vomit”,
– “Rosie tends to get sunburn quickly”
– “Mr Smith suffers from ecdysiasm”
• Zuschreibung von Tendenz-Typen zu Universalien
– “The red haired have the tendency to get sunburn
quickly”
9
The Standard Square
of Tendency Ascription
• (S1)
U _correlated with_ T
• (S2)
x _has_ t
• (S3)
x _instance_of_ U
• (S4)
t _instance_of_ T
Zwei Nicht-Standard-Fälle
• Bloße Korrelationen:
U ___correlated_with__ T
|
instance_of
|
x
∅
• Kontingente individuelle Tendenz:
•
•
•
∅
U ___correlated_with___ T
|
|
instance_of
instance_of
|
|
x ________has__ ______ t
Epistemische Varianten
?
T
|
instance_of
|
x _______has________ t
Nicht: “x has a tendency t”,
Aber: “Patient x instantiates a universal U that is correlated with
a certain tendency type T. Therefore, there is a certain
probability P that x possesses a token t, instantiating T.”
Wo kann die Ontologie
den Ontologien helfen?
konsistente Axiomatik
Zusammenfassung
• Für den behandelnden Arzt sind sowohl
Zuschreibungen von Tendenz-Token zu
Individuen, als auch von Tendenz-Typen zu
Universalien relevant.
• Standard- und Nicht-Standard-Fälle
U ___correlated_with__ T
|
instance_of
|
x
?
Bereitstellung von
Prinzipien
Orientierung an den
Dingen in der Welt
strikte Charakterisierung
von top level-Kategorien
T
|
instance_of
|
x _____has______t
• statt Ad-hocLösungen
• statt Suche nach
Zeichenketten
• statt Cluster
begrifflicher
Assoziationen
• statt falscher
Schlüsse und
Widersprüche
• Jede Repräsentation medizinischen Wissens
sollte diese Möglichkeiten berücksichtigen und in
der Lage sein, zwischen ihnen zu unterscheiden.
• Jede Ontologie sollte Tendenzen gerecht werden.
Zum
Weiterlesen
Zum Weiterlesen
vdf Zürich, 2008
10
Herunterladen