PowerPoint-Präsentation - Medizinische Universitaet Graz

Werbung
Medizinische Dokumentenrecherche mit
MorphoSaurus
───
Sprachübergreifend und benutzerfreundlich
durch semantische Indexierung
Kornél Markó, Philipp Daumke
Medizinische Informatik,
Universitätsklinikum Freiburg
Übersicht
1. Kurze Vorstellung der Medizinischen Informatik in
Freiburg
2. Ebenen der Suche (Laien, Experten, Sprachen)
3. Vorstellung der Technologie
4. Evaluation
5. Anwendungen
•
SOMED-Studie
•
ICD-Suche
6. Perspektiven / Einsatzmöglichkeiten im DIMDI
Zeitbedarf ca. 60 Minuten
MI in Freiburg
• Medizinische Informatik Direktor Prof. Dr. Klar
• Wissenschaftliche Schwerpunkte
– Patientenbezogene Dienste: MIRA-Plus (KIS)
– Patientenunabhängige Auskunfts- und Wissensdienste: InfoServer
– Grundlagen zur Modellierung medizinischer Konzepte mittels
terminologischer Logik
– Begriffliche Ordnungssysteme in der Medizin
– Konzepte zur Integration von Elektronischer Patientenakte und
medizinischen Wissensdiensten
– MorphoSaurus / Text-Retrieval / Cross-Language Retrieval
MorphoSaurus - Entwicklung
• 1998: Entwicklung der ersten Version im Rahmen einer
Promotion (Medizin)
• Seit 2000: Kooperation mit der Catholic University of
Paraná, Brasilien (BMBF-Förderungen)
• Seit 2003: DFG-Projekt morphologisches Indexieren
• Seit 2004: EU Network of Excellence Semantic Mining
(WP multi-lingual lexicon, ontologies, text mining)
MorphoSaurus
Einsprachige Textrecherche
Suchmaschine
Triviale Suche: Laien
„hoher
Blutdruck“
Triviale Suche: Laien
„hoher
Blutdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Laien
„hoher
Blutdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Laien
„hoher
Blutdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Laien
„hoher
Blutdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Experten
„Risiken bei
Bluthochdruck“
Triviale Suche: Experten
„Risiken bei
Bluthochdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Experten
„Risiken bei
Bluthochdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Experten
„Risiken bei
Bluthochdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Triviale Suche: Experten
„Risiken bei
Bluthochdruck“
Suchmaschine:
Abgleich von
Zeichenketten
Morphologie der Wörter
Linguistische Phänomene erschweren die medizinische
Textrecherche !
–
–
–
–
–
Flexion: Erkrankungen, Bluthochdrucks, Risiken
Derivation: Krankheit, diastolisch, leukozytär
Komposition: Gemeinde|krank|en|pflege|station|en
Akronyme: AIDS, SARS, OECD
Orthografische Varianten:
•
•
•
Kolonkarzinom, Colonkarzinom,
Ösophagus, Oesophagus,
ulzerierend, ulcerierend
– Synonyme:
• Bluthochdruck – Hypertonie,
• Prophylaxe – Vorbeugung
– Eigennamen: Aspirin, ASS, ...
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„Correlation of high
blood pressure and
lesion of the white
substance“
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„Correlation of high
blood pressure and
lesion of the white
substance“
Suchmaschine
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„Correlation of high
blood pressure and
lesion of the white
substance“
Suchmaschine
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„Correlation of high
blood pressure and
lesion of the white
substance“
Suchmaschine
Triviale Suche: Experten II
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„Correlation of high
blood pressure and
lesion of the white
substance“
Suchmaschine
Mehrsprachige Textrecherche
Suchmaschine
Ansätze
• Übersetzung der Benutzeranfrage
A
B
B
• Übersetzung der Dokumente
A
A
B
• Übersetzung in eine Interlingua
A
IL
IL
B
Lösungsansatz
• Subwörter sind atomare konzeptuelle oder linguistische
Einheiten:
–
–
–
–
Stämme: verletz, entzünd, magen, schleimhaut
Präfixe: ab-, an-, anti-, ge-, hervor-, hyperSuffixe: -abel, -bar, -haft, -ion, -itis
Infixe: -o-, -s-
• Synonyme Subwörter werden (sprachübergreifend) in
Äquivalenzklassen gruppiert:
#derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … }
#inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog,
inflam, flog, -iolitis, ... }
• Empirische Kriterien:
– hypertonie = {#hyper #tens #blood}
Ressourcen
• Subwort-Lexikon:
– Organisiert Subwörter (atomare
Bedeutungseinheiten) in mehreren
Sprachen
• Subwort-Thesaurus:
– Gruppiert synonyme Lexikoneinträge
(auch sprachübergreifend)
MorphoSaurus
• Zerlegungsalgorithmus:
– Extraktion von Subwörtern und
Zuweisung von Äquivalenzklassen
Subwort: Lexikon & Thesaurus
Subwort Lexikon:
gastr
stomach
magen
ventric
chamber
hepat,hepar
liver
leber
-itis, inflamm,
entzünd
nephr
ren
kidney
niere
Subwort Thesaurus:
Gruppierung von synonymen
Subwörtern zu Äquivalenzklassen
#GASTR
#CHAMBER
#HEPAR
#INFLAMM
#NEPHR
Beispiel
High TSH values suggest the Orthografische high tsh values suggest the
diagnosis of primary hypo- Normalisierung diagnosis of primary hypothyroidism ...
thyroidism ...
Erhöhte TSH-Werte erlauben Orthografische erhoehte tsh werte erlauben
die Diagnose einer primären
die diagnose einer primaeren
Regeln
Schilddrüsenunterfunktion ...
schilddruesenunterfunktion ...
Original
Interlingua
#up tsh
#diagnost
#thyre
Zerlegungsalgorithmus
Subwort-Lexikon
#value #suggest
high tsh value s suggest the
Semantische
#primar
#hypo
diagnos is of primar y hypo
Normalisierung
thyroid ism
#up
tsh
#value
#permit
er hoeh te tsh wert e erlaub en
Subwortdie diagnos e einer primaer en
#diagnost
#primar
#thyre
Thesaurus
schilddruese n unter funktion
#hypo #function
Beispiel
High TSH values suggest the Orthografische high tsh values suggest the
diagnosis of primary hypo- Normalisierung diagnosis of primary hypothyroidism ...
thyroidism ...
Erhöhte TSH-Werte erlauben Orthografische erhoehte tsh werte erlauben
die Diagnose einer primären
die diagnose einer primaeren
Regeln
Schilddrüsenunterfunktion ...
schilddruesenunterfunktion ...
Original
Interlingua
#up tsh
#diagnost
#thyre
Zerlegungsalgorithmus
Subwort-Lexikon
#value #suggest
high tsh value s suggest the
Semantische
#primar #hypo
diagnos is of primar y hypo
Normalisierung
thyroid ism
#up tsh #value #permit
er hoeh te tsh wert e erlaub en
Subwortdie diagnos e einer primaer en
#diagnost #primar #thyre
Thesaurus
schilddruese n unter funktion
#hypo #function
Suche mit MorphoSaurus
Suche mit MorphoSaurus
Suche mit MorphoSaurus
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
Suche mit MorphoSaurus
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„#correl #hyper
#tens #lesion #whit
#matter“
Suche mit MorphoSaurus
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„#correl #hyper
#tens #lesion #whit
#matter“
Suchmaschine:
Abgleich von
Zeichenketten
Suche mit MorphoSaurus
„Korrelation von
Hypertonie und
Läsion der
Weißen Substanz“
„#correl #hyper
#tens #lesion #whit
#matter“
Suchmaschine:
Abgleich von
Zeichenketten
Studie
Studie: Google
Studie: Google
Studie: PubMed
Studie: PubMed
Studie: DIMDI
Studie: DIMDI
Studie: MorphoSaurus
Studie: MorphoSaurus
Sprachübergreifende Suche
Evaluation
Evaluationsszenarien
• Baseline: einsprachige Textrecherche
– Englische Benutzeranfragen
– Englische Texte
• Übersetzung der Benutzeranfrage
– Google Übersetzer
– Mehrsprachiges Medizinlexikon aus UMLS
• MorphoSaurus
– Interlingua-Repräsentation der Anfragen und der
Dokumente
Experimente
OHSUMED-Corpus (Hersh et al., 1994)
– Untermenge von MEDLINE
– ~233,000 englische Dokumente
– 106 englische Benutzeranfragen, von Experten
übersetzt ins Deutsche und Portugiesische
– Relevanz der Dokumente manuell markiert
Suchmaschine:
– Open-Source der Apache-Foundation: Lucene
– http://lucene.apache.org/
Resultate
Deutsch
0,45
Top 200
Portugiesisch
Baseline
Morphosaurus
Übersetzung
0,4
0,35
Baseline
Morphosaurus
Übersetzung
Precision
0,3
0,25
0,2
0,15
0,1
0,05
0
00 0,1
0,5 0,6
0,6 0,7
0,7 0,8 0,9
0,9 1,0
1
0,3 0,4
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Baseline
MorphoSaurus
Übersetzung der Anfrage
00 0,1
0,3 0,4
0,50,60,60,70,70,80,80,90,91 1,0
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Resultate
Deutsch
0,45
Top 200
Portugiesisch
Baseline
Morphosaurus
Übersetzung
0,4
0,35
Baseline
Morphosaurus
Übersetzung
Precision
0,3
0,25
68% der Baseline
0,2
0,15
0,1
0,05
54% der Baseline
0
00 0,1
0,5 0,6
0,6 0,7
0,7 0,8 0,9
0,9 1,0
1
0,3 0,4
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Baseline
MorphoSaurus
Übersetzung der Anfrage
00 0,1
0,3 0,4
0,50,60,60,70,70,80,80,90,91 1,0
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Resultate
Deutsch
0,45
Top 200
Portugiesisch
Baseline
Morphosaurus
Übersetzung
0,4
0,35
Baseline
Morphosaurus
Übersetzung
Precision
0,3
0,25
0,2
93% der Baseline
68% der Baseline
0,15
0,1
0,05
0
62% der Baseline
00 0,1
0,5 0,6
0,6 0,7
0,7 0,8 0,9
0,9 1,0
1
0,3 0,4
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Baseline
MorphoSaurus
Übersetzung der Anfrage
54% der Baseline
00 0,1
0,3 0,4
0,50,60,60,70,70,80,80,90,91 1,0
0,4 0,5
0,1 0,2
0,2 0,3
Recall
Zusammenfassung
• Innovatives und erfolgreiches Suchverfahren
–
–
–
–
Komposita – Suche
Synonym – Suche
Sprachübergreifende Suche (EN, DE, PT, FR, SP, SV)
Ergebnisse nach Relevanz sortiert
• Sprachübergreifende Suche
–
erreicht bis zu 93% gegenüber einsprachiger Suche
(Meth Inf Med, 2005)
• Semantische Indexierung und Suche
–
ist einsetzbar mit allen Suchmaschinen
• Einfache Pflege (Kostenersparnis)
–
Pflege des Subwortlexikons im Vergleich zur Pflege eines Vollformensynonymlexikons
überschaubar
• SOMED Prototyp:
–
http://morphine.coling.uni-freiburg.de/somed/search.php
Anwendungen
Proof-of-Concept: SOMED
336.250 Dokumente (543MB XML) wurden
– nach Sprachen kategorisiert (TextCat):
• ~3000/Minute = 2 Stunden
– mit MorphoSaurus bearbeitet
• ~3000/Minute = 2 Stunden
• 1.7 GB XML (nur für Highlighting der Treffer)
Suchmaschine: Lucene
• ~9000/Minute = 40 Minuten
• 940 MB für 2 Indices (Original + MorphoSaurus)
• 340 MB für 1 Index (MorphoSaurus)
Proof-of-Concept: SOMED
 Dekomposition der Suchanfragen
• „Darmkrebsrisikoreduzierung“
• #enteral #neoplas #malign #risk #reduc
 Formulierung der Suchanfrage
• 1. Suche mit „UND“
• 2. Falls keine Treffer: Suche mit „ODER“
 Es wurden 2 Indizes erstellt:
#enteral AND #neoplas AND #malign AND #risk AND #reduc OR
(original:darmkrebsrisikoreduzierung)
 Besseres Ranking, gleiche Ergebnismenge,
höherer Speicherbedarf
Proof-of-Concept: SOMED
Diagnosenkodierung nach ICD
• Suche in 15,278 ICD-Codes
• Erste Tests durch Uniklinik Freiburg erfolgreich, vor
allem im Vergleich zu
– ICD-Browser des Zentralinstituts für die kassenärztliche
Versorgung in der BRD (http://www.zi-berlin.de/)
– Kodierbrowser der Uniklinik Münster (http://drg.unimuenster.de/de/webgroup/m.brdiagnosen.php)
• Anwendbar auf andere Klassifikationen: OPS, …
Universitätsklinikum Münster
Zentralinstitut Berlin (3M)
MorphoSaurus ICD-Suche
ICD verbunden mit MEDLINE
ICD verbunden mit MEDLINE
Forschungsbezogene Nutzung
• Texte in klinischen DB (Uniklinik Freiburg)
• Sprachübergreifende Suche im Web (HON)
• Suche in Bilddatenbanken (mit Uni Münster)
• Mapping von Terminologien (Ukl Freiburg)
MorphoSaurus - Zukunft
Projekte, in denen MorphoSaurus zum Einsatz
kommt:
• 2006: ZBMED: Integration in MedPilot
2 Jahre
• 2006: EU BOOTStrep (Bootstrapping of Ontologies and
Terminologies Strategic Research Project)
3 Jahre
• 2006: @neurIST (Integrated Biomedical Informatics for the
Management of Cerebral Aneurysm)
4 Jahre
www.morphosaurus.net
MorphoEdit WEB
Suchmaschinen-Indices
•
Liest Dokumente ein und generiert einen Index mit gewichteten
Indextermen (für Ranking).
– „Wort x kommt in Dokumenten ID1,ID2,ID6,… vor“
•
Normalerweise sind Indexterme Wörter der Dokumentenkollektion
•
MorphoSaurus: Äquivalenzklassen bilden Indexterme
Lucene: Indexerstellung
Indexterm
(Original)
ID
Indexterm
(MorphoSaurus)
ID
Bluthochdruck
#1
#blood
#1
Hypertonie
#1
#high
#1
Erhöhung
#1
#tense
#1
Blutdruckes
#1
#value
#1
Erhöhten
#1
#measure
#1
Blutdruckwerte
#1
Blutdruckmessung
#1
Lucene: Indexerstellung
Indexterm
(Original)
ID
Indexterm
(MorphoSaurus)
ID
Bluthochdruck
#1
#blood
#1 #2
Hypertonie
#1 #2
#high
#1 #2
Erhöhung
#1
#tense
#1 #2
Blutdruckes
#1
#value
#1
Erhöhten
#1
#measure
#1
Blutdruckwerte
#1
#risk
#2
Blutdruckmessung
#1
#factor
#2
Hypertension
#2
#eval
#2
Blutdruck
#2
Risiko
#2
Hypertonikers
#2
Belastungsblutdruck
#2
Ruheblutdruck
#2
Risikofaktor
#2
Risiko
#2
Risikofaktoren
#2
Risikoevaluation
#2
Herunterladen