Medizinische Dokumentenrecherche mit MorphoSaurus ─── Sprachübergreifend und benutzerfreundlich durch semantische Indexierung Kornél Markó, Philipp Daumke Medizinische Informatik, Universitätsklinikum Freiburg Übersicht 1. Kurze Vorstellung der Medizinischen Informatik in Freiburg 2. Ebenen der Suche (Laien, Experten, Sprachen) 3. Vorstellung der Technologie 4. Evaluation 5. Anwendungen • SOMED-Studie • ICD-Suche 6. Perspektiven / Einsatzmöglichkeiten im DIMDI Zeitbedarf ca. 60 Minuten MI in Freiburg • Medizinische Informatik Direktor Prof. Dr. Klar • Wissenschaftliche Schwerpunkte – Patientenbezogene Dienste: MIRA-Plus (KIS) – Patientenunabhängige Auskunfts- und Wissensdienste: InfoServer – Grundlagen zur Modellierung medizinischer Konzepte mittels terminologischer Logik – Begriffliche Ordnungssysteme in der Medizin – Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten – MorphoSaurus / Text-Retrieval / Cross-Language Retrieval MorphoSaurus - Entwicklung • 1998: Entwicklung der ersten Version im Rahmen einer Promotion (Medizin) • Seit 2000: Kooperation mit der Catholic University of Paraná, Brasilien (BMBF-Förderungen) • Seit 2003: DFG-Projekt morphologisches Indexieren • Seit 2004: EU Network of Excellence Semantic Mining (WP multi-lingual lexicon, ontologies, text mining) MorphoSaurus Einsprachige Textrecherche Suchmaschine Triviale Suche: Laien „hoher Blutdruck“ Triviale Suche: Laien „hoher Blutdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Laien „hoher Blutdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Laien „hoher Blutdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Laien „hoher Blutdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Experten „Risiken bei Bluthochdruck“ Triviale Suche: Experten „Risiken bei Bluthochdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Experten „Risiken bei Bluthochdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Experten „Risiken bei Bluthochdruck“ Suchmaschine: Abgleich von Zeichenketten Triviale Suche: Experten „Risiken bei Bluthochdruck“ Suchmaschine: Abgleich von Zeichenketten Morphologie der Wörter Linguistische Phänomene erschweren die medizinische Textrecherche ! – – – – – Flexion: Erkrankungen, Bluthochdrucks, Risiken Derivation: Krankheit, diastolisch, leukozytär Komposition: Gemeinde|krank|en|pflege|station|en Akronyme: AIDS, SARS, OECD Orthografische Varianten: • • • Kolonkarzinom, Colonkarzinom, Ösophagus, Oesophagus, ulzerierend, ulcerierend – Synonyme: • Bluthochdruck – Hypertonie, • Prophylaxe – Vorbeugung – Eigennamen: Aspirin, ASS, ... Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „Correlation of high blood pressure and lesion of the white substance“ Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „Correlation of high blood pressure and lesion of the white substance“ Suchmaschine Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „Correlation of high blood pressure and lesion of the white substance“ Suchmaschine Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „Correlation of high blood pressure and lesion of the white substance“ Suchmaschine Triviale Suche: Experten II „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „Correlation of high blood pressure and lesion of the white substance“ Suchmaschine Mehrsprachige Textrecherche Suchmaschine Ansätze • Übersetzung der Benutzeranfrage A B B • Übersetzung der Dokumente A A B • Übersetzung in eine Interlingua A IL IL B Lösungsansatz • Subwörter sind atomare konzeptuelle oder linguistische Einheiten: – – – – Stämme: verletz, entzünd, magen, schleimhaut Präfixe: ab-, an-, anti-, ge-, hervor-, hyperSuffixe: -abel, -bar, -haft, -ion, -itis Infixe: -o-, -s- • Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert: #derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … } #inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis, ... } • Empirische Kriterien: – hypertonie = {#hyper #tens #blood} Ressourcen • Subwort-Lexikon: – Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen • Subwort-Thesaurus: – Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) MorphoSaurus • Zerlegungsalgorithmus: – Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen Subwort: Lexikon & Thesaurus Subwort Lexikon: gastr stomach magen ventric chamber hepat,hepar liver leber -itis, inflamm, entzünd nephr ren kidney niere Subwort Thesaurus: Gruppierung von synonymen Subwörtern zu Äquivalenzklassen #GASTR #CHAMBER #HEPAR #INFLAMM #NEPHR Beispiel High TSH values suggest the Orthografische high tsh values suggest the diagnosis of primary hypo- Normalisierung diagnosis of primary hypothyroidism ... thyroidism ... Erhöhte TSH-Werte erlauben Orthografische erhoehte tsh werte erlauben die Diagnose einer primären die diagnose einer primaeren Regeln Schilddrüsenunterfunktion ... schilddruesenunterfunktion ... Original Interlingua #up tsh #diagnost #thyre Zerlegungsalgorithmus Subwort-Lexikon #value #suggest high tsh value s suggest the Semantische #primar #hypo diagnos is of primar y hypo Normalisierung thyroid ism #up tsh #value #permit er hoeh te tsh wert e erlaub en Subwortdie diagnos e einer primaer en #diagnost #primar #thyre Thesaurus schilddruese n unter funktion #hypo #function Beispiel High TSH values suggest the Orthografische high tsh values suggest the diagnosis of primary hypo- Normalisierung diagnosis of primary hypothyroidism ... thyroidism ... Erhöhte TSH-Werte erlauben Orthografische erhoehte tsh werte erlauben die Diagnose einer primären die diagnose einer primaeren Regeln Schilddrüsenunterfunktion ... schilddruesenunterfunktion ... Original Interlingua #up tsh #diagnost #thyre Zerlegungsalgorithmus Subwort-Lexikon #value #suggest high tsh value s suggest the Semantische #primar #hypo diagnos is of primar y hypo Normalisierung thyroid ism #up tsh #value #permit er hoeh te tsh wert e erlaub en Subwortdie diagnos e einer primaer en #diagnost #primar #thyre Thesaurus schilddruese n unter funktion #hypo #function Suche mit MorphoSaurus Suche mit MorphoSaurus Suche mit MorphoSaurus „Korrelation von Hypertonie und Läsion der Weißen Substanz“ Suche mit MorphoSaurus „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „#correl #hyper #tens #lesion #whit #matter“ Suche mit MorphoSaurus „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „#correl #hyper #tens #lesion #whit #matter“ Suchmaschine: Abgleich von Zeichenketten Suche mit MorphoSaurus „Korrelation von Hypertonie und Läsion der Weißen Substanz“ „#correl #hyper #tens #lesion #whit #matter“ Suchmaschine: Abgleich von Zeichenketten Studie Studie: Google Studie: Google Studie: PubMed Studie: PubMed Studie: DIMDI Studie: DIMDI Studie: MorphoSaurus Studie: MorphoSaurus Sprachübergreifende Suche Evaluation Evaluationsszenarien • Baseline: einsprachige Textrecherche – Englische Benutzeranfragen – Englische Texte • Übersetzung der Benutzeranfrage – Google Übersetzer – Mehrsprachiges Medizinlexikon aus UMLS • MorphoSaurus – Interlingua-Repräsentation der Anfragen und der Dokumente Experimente OHSUMED-Corpus (Hersh et al., 1994) – Untermenge von MEDLINE – ~233,000 englische Dokumente – 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche und Portugiesische – Relevanz der Dokumente manuell markiert Suchmaschine: – Open-Source der Apache-Foundation: Lucene – http://lucene.apache.org/ Resultate Deutsch 0,45 Top 200 Portugiesisch Baseline Morphosaurus Übersetzung 0,4 0,35 Baseline Morphosaurus Übersetzung Precision 0,3 0,25 0,2 0,15 0,1 0,05 0 00 0,1 0,5 0,6 0,6 0,7 0,7 0,8 0,9 0,9 1,0 1 0,3 0,4 0,4 0,5 0,1 0,2 0,2 0,3 Recall Baseline MorphoSaurus Übersetzung der Anfrage 00 0,1 0,3 0,4 0,50,60,60,70,70,80,80,90,91 1,0 0,4 0,5 0,1 0,2 0,2 0,3 Recall Resultate Deutsch 0,45 Top 200 Portugiesisch Baseline Morphosaurus Übersetzung 0,4 0,35 Baseline Morphosaurus Übersetzung Precision 0,3 0,25 68% der Baseline 0,2 0,15 0,1 0,05 54% der Baseline 0 00 0,1 0,5 0,6 0,6 0,7 0,7 0,8 0,9 0,9 1,0 1 0,3 0,4 0,4 0,5 0,1 0,2 0,2 0,3 Recall Baseline MorphoSaurus Übersetzung der Anfrage 00 0,1 0,3 0,4 0,50,60,60,70,70,80,80,90,91 1,0 0,4 0,5 0,1 0,2 0,2 0,3 Recall Resultate Deutsch 0,45 Top 200 Portugiesisch Baseline Morphosaurus Übersetzung 0,4 0,35 Baseline Morphosaurus Übersetzung Precision 0,3 0,25 0,2 93% der Baseline 68% der Baseline 0,15 0,1 0,05 0 62% der Baseline 00 0,1 0,5 0,6 0,6 0,7 0,7 0,8 0,9 0,9 1,0 1 0,3 0,4 0,4 0,5 0,1 0,2 0,2 0,3 Recall Baseline MorphoSaurus Übersetzung der Anfrage 54% der Baseline 00 0,1 0,3 0,4 0,50,60,60,70,70,80,80,90,91 1,0 0,4 0,5 0,1 0,2 0,2 0,3 Recall Zusammenfassung • Innovatives und erfolgreiches Suchverfahren – – – – Komposita – Suche Synonym – Suche Sprachübergreifende Suche (EN, DE, PT, FR, SP, SV) Ergebnisse nach Relevanz sortiert • Sprachübergreifende Suche – erreicht bis zu 93% gegenüber einsprachiger Suche (Meth Inf Med, 2005) • Semantische Indexierung und Suche – ist einsetzbar mit allen Suchmaschinen • Einfache Pflege (Kostenersparnis) – Pflege des Subwortlexikons im Vergleich zur Pflege eines Vollformensynonymlexikons überschaubar • SOMED Prototyp: – http://morphine.coling.uni-freiburg.de/somed/search.php Anwendungen Proof-of-Concept: SOMED 336.250 Dokumente (543MB XML) wurden – nach Sprachen kategorisiert (TextCat): • ~3000/Minute = 2 Stunden – mit MorphoSaurus bearbeitet • ~3000/Minute = 2 Stunden • 1.7 GB XML (nur für Highlighting der Treffer) Suchmaschine: Lucene • ~9000/Minute = 40 Minuten • 940 MB für 2 Indices (Original + MorphoSaurus) • 340 MB für 1 Index (MorphoSaurus) Proof-of-Concept: SOMED Dekomposition der Suchanfragen • „Darmkrebsrisikoreduzierung“ • #enteral #neoplas #malign #risk #reduc Formulierung der Suchanfrage • 1. Suche mit „UND“ • 2. Falls keine Treffer: Suche mit „ODER“ Es wurden 2 Indizes erstellt: #enteral AND #neoplas AND #malign AND #risk AND #reduc OR (original:darmkrebsrisikoreduzierung) Besseres Ranking, gleiche Ergebnismenge, höherer Speicherbedarf Proof-of-Concept: SOMED Diagnosenkodierung nach ICD • Suche in 15,278 ICD-Codes • Erste Tests durch Uniklinik Freiburg erfolgreich, vor allem im Vergleich zu – ICD-Browser des Zentralinstituts für die kassenärztliche Versorgung in der BRD (http://www.zi-berlin.de/) – Kodierbrowser der Uniklinik Münster (http://drg.unimuenster.de/de/webgroup/m.brdiagnosen.php) • Anwendbar auf andere Klassifikationen: OPS, … Universitätsklinikum Münster Zentralinstitut Berlin (3M) MorphoSaurus ICD-Suche ICD verbunden mit MEDLINE ICD verbunden mit MEDLINE Forschungsbezogene Nutzung • Texte in klinischen DB (Uniklinik Freiburg) • Sprachübergreifende Suche im Web (HON) • Suche in Bilddatenbanken (mit Uni Münster) • Mapping von Terminologien (Ukl Freiburg) MorphoSaurus - Zukunft Projekte, in denen MorphoSaurus zum Einsatz kommt: • 2006: ZBMED: Integration in MedPilot 2 Jahre • 2006: EU BOOTStrep (Bootstrapping of Ontologies and Terminologies Strategic Research Project) 3 Jahre • 2006: @neurIST (Integrated Biomedical Informatics for the Management of Cerebral Aneurysm) 4 Jahre www.morphosaurus.net MorphoEdit WEB Suchmaschinen-Indices • Liest Dokumente ein und generiert einen Index mit gewichteten Indextermen (für Ranking). – „Wort x kommt in Dokumenten ID1,ID2,ID6,… vor“ • Normalerweise sind Indexterme Wörter der Dokumentenkollektion • MorphoSaurus: Äquivalenzklassen bilden Indexterme Lucene: Indexerstellung Indexterm (Original) ID Indexterm (MorphoSaurus) ID Bluthochdruck #1 #blood #1 Hypertonie #1 #high #1 Erhöhung #1 #tense #1 Blutdruckes #1 #value #1 Erhöhten #1 #measure #1 Blutdruckwerte #1 Blutdruckmessung #1 Lucene: Indexerstellung Indexterm (Original) ID Indexterm (MorphoSaurus) ID Bluthochdruck #1 #blood #1 #2 Hypertonie #1 #2 #high #1 #2 Erhöhung #1 #tense #1 #2 Blutdruckes #1 #value #1 Erhöhten #1 #measure #1 Blutdruckwerte #1 #risk #2 Blutdruckmessung #1 #factor #2 Hypertension #2 #eval #2 Blutdruck #2 Risiko #2 Hypertonikers #2 Belastungsblutdruck #2 Ruheblutdruck #2 Risikofaktor #2 Risiko #2 Risikofaktoren #2 Risikoevaluation #2