Vortragstitel - Medizinische Universitaet Graz

Werbung
Automatische
Verarbeitung
medizinischer Sprache
Stefan Schulz
Abteilung Medizinische Informatik
Universitätsklinikum Freiburg
Medizinische
Inhalte
Natürliche
Sprache
Strukturierte
Daten
Natürliche
Sprache
 … unverzichtbar für
 Kommunikation zwischen
Mitarbeitern des
Gesundheitswesens
Natürliche
Sprache
 Wissenschaftliche
Structured
Kommunikation

Data
Klinische Dokumentation
 Wissenschaftliches
Publikationswesen
 Vermittlung kanonischen
Fachwissens an Fachleute,
Studierende und Laien
…unverzichtbar für
 Kodierung von Diagnosen
und Prozeduren, DRGs
 Klinische und epidemiologische
Studien
 Gesundheitsberichterstattung
 Krankheitsspezifische
Register
 Qualitätssicherung, Controlling
 Dokumentenindexierung
und Retrieval
 etc.
Strukturierte
Daten
…erfordern medizinische
Terminologiesysteme






ICD
OPS 301
SNOMED
LOINC
MeSH
etc., etc.
Strukturierte
Daten
Natürliche
Sprache
Strukturierte
Daten
Schwerpunkt:
Erfassung von Daten
Natürliche
Sprache
Strukturierte
Daten
+
-
Qualität
Kosten
+
Abhängigkeit:
Datenmenge – Datenqualität - Motivation
Goldstandard
Datenqualität
Hohe
Motivation
Geringe
Motivation
Keinerlei
Motivation
Datenmenge
Schwerpunkt:
Auswertung von Daten
Natürliche
Sprache
Strukturierte
Daten
+
Qualität +
Kosten -
Natürliche
Sprache
Strukturierte
Daten
Automatische Verarbeitung
medizinischer Sprache
Natürliche
Sprache
Strukturierte
Daten
Automatische
Verarbeitung
medizinischer Sprache
Stefan Schulz
Abteilung Medizinische Informatik
Universitätsklinikum Freiburg
speech
content
Automatische
Verarbeitung
medizinischer Sprache
Stefan Schulz
Abteilung Medizinische Informatik
Universitätsklinikum Freiburg
speech
content
Automatische
Verarbeitung
medizinischer Sprache
Stefan Schulz
Abteilung Medizinische Informatik
Universitätsklinikum Freiburg
Auffälligkeiten der Medizinsprache

Sprachmix: Deutsch / English / Lateinisch

Unterschiedliche Sprachebenen: Ärzte- vs. Laiensprache

Griechisch/Lateinische Wordstämme, Lateinische Flexionen:
Thyreoglobulin, Ulzera, E.coli, Kolibakterien

Hohe lexikalische Produktivität:
 Komposita: Bypassoperation, Kaliumüberdosierung
 Eponyme: Parkinsonsche Erkrankung, M. Alzheimer
 Akronyme, Wortneubildungen: SARS, AIDS, ARDS, 5-FU, HWI, psbAI,
GGDEF, WDWN

Paragrammatikalität / Jargon:
Kein Anhalt für Malignität. (Unvollständiger Satz)

Agrammatikalität (Diktier-, Schreibfehler)

Extragrammatikalität: Gewebe wurde lymphoztyär infiltriert
Zwei Hauptszenarien der medizinischen
Textanalyse
 Information Retrieval:
gezieltes Suchen nach Informationen in einer oder
mehreren großen Informationssammlungen.
 Text Mining:
Technologien, die es ermöglichen, relevante und
„neue“ Information in unstrukturierten Texten
automatisch zu erkennen und zu extrahieren
IR vs. TM
Information Retrieval
IR vs. TM
Information Retrieval
Text Mining
Information Retrieval
Beispiel: Sprachübergreifendes
Dokumentenretrieval: MorphoSaurus
• Subwort-Lexikon:
– Organisiert bedeutungstragende
Wortstämme und Affixe in
mehreren Sprachen
• Subwort-Thesaurus:
– Gruppiert synonyme
Lexikoneinträge (auch
sprachübergreifend)
Morphosaurus
• Zerlegungsalgorithmus:
– Extraktion von Subwörtern und
Zuweisung von
Bedeutungsklassen
MorphosaurusIdentifier (MID)
MID
MorphoSaurus: Sprachübergreifendes med.
Dokumentenretrieval (Deutsch / Englisch)
Hahn, Schulz et al., RIAO 2004
Text Mining
num. Daten
(Labor)
Freitexte
Administrative
Daten
459300402 GGT ALAT ASAT
2004-09-02 12 2,5
3,4
2004-09-03
2004-09-03
13
13
1,9
0,6
1,8
0,7
• Stammdaten
ID: 459300402
Lüdenscheid, Iris
* 12.12.1961
79138 Waldkirch
AOK Südl. Oberrhein
• Falldaten
B16.9
F32.0
K70.0
manuell
kodierte
Diagnosen+
Prozeduren
• Stammdaten
ID: 333400112
Schindler, Elisabeth
* 13.01.1959
33733 Bielefeld
AOK Westfalen-Lippe
• Falldaten
B16.9
F32.0
K70.0
HL7
KIS
Arztbriefe,
Befundberichte,
OP-Berichte,
Arzneiverordnungen
459300402
sich wahrscheinlich im Stadium der
Ausheilung der Hepatitis-B-Virusinfektion.
Nach Rücksprache mit dem Hepatologen
Prof. Leber haben wir der Patientin die
nochmalige Kontrolle der HepatitisSerologie im Dezember 2004 nahegelegt.
Von der von Frau Lüdenscheid
gewünschten Nachsorge in der
Schwarzwaldklinik haben wir ihr strikt
abgeraten.
mit freundlichen, kollegialen Grüßen
Prof. Dr. Baum, Dr. Herz
num. Daten
(Labor)
Freitexte
333400112 GGT ALAT ASAT
2004-09-02 12 2,5
3,4
2004-09-03 13
2004-09-03 13
1,9
0,6
1,8
0,7
Text-MiningSystem
(klinikintern)
(semi)automatische
Pseudonymisierung
Arztbriefe,
Befundberichte,
OP-Berichte,
Arzneiverordnungen
333400112
sich wahrscheinlich im Stadium der
Ausheilung der Hepatitis-B-Virusinfektion.
Nach Rücksprache mit dem Hepatologen
Prof. Hagedorn haben wir der Patientin die
nochmalige Kontrolle der HepatitisSerologie im Dezember 2004 nahegelegt.
Von der von Frau Schindler
gewünschten Nachsorge in der
Nordseeklinik haben wir ihr strikt
abgeraten.
mit freundlichen, kollegialen Grüßen
Prof. Dr. Klaus, Dr. Fuchs
Text-MiningSystem
(klinikextern)
Text Mining: Anwendungsszenario I
shadow was pointed out on a routine chest X-ray film, but she had no further examination.
Physical examination on admission revealed purpura of the upper and lower extremities,
swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia
gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%,
myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical
lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further
laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12
(2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow
with a decreased number of erythroblasts and megakaryocytes and an increased number of
monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative
for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a
mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest
showed a left anterior mediastinal mass . Based on these findings, the patient was diagnosed
with a mediastinal tumor accompanied by AMoL. First, in June 1991, the patient was treated
with DCMP therapy: daunorubicin (DNR) (25 mg/m2, days 1, 2, 3, 4, 6 and 8), cytosine
arabinoside (Ara-C) (100 mg/m2, days 1-9), 6MP-riboside (6-MP) (70 mg/m2, days 1-9) and
prednisolone (PSL) (20 mg/m2, days 1-9), followed by five courses of consolidation
chemotherapy [1, DCMP; 2, ID-Ara-C:adriacin (ADR), vincristine (VCR), Ara-C, PSL; 3,
DCMP; 4, ID-Ara-C; 5, A-triple V: Ara-C, VP-16, VCR, vinblastine (VBL)]. After induction
chemotherapy, a hematological examination and bone marrow findings had improved to
normal, and complete remission was attained. Chest CT scan after chemotherapy in November
1991 revealed regression of the mediastinal tumor . An invasive thymic tumor was suspected
and surgery was undertaken in January 1992. The tumor (50 × 45 × 45 mm), located mainly in
the anterior mediastinum, was strongly adhered to the adjacent tissues. Resection of the tumor
included the left upper lobe of the lung, the phrenic nerve and pericardium. The histological
finding was that the tumor cells have large, vesicular nuclei and prominent nucleoli, but
keratinazation was unclear . The results of immunohistochemical finding of anti-TdT was
negative. From these findings, we diagnosed poorly or moderately differentiated squamous cell
carcinoma of the thymus. The postoperative course was uneventful. The patient underwent
radiation therapy of the mediastinum and left hilum at doses of 4000 cGy delivered over 4
weeks. She was discharged in March 1992. After the first AMoL remission, the patient suffered
a relapse six times and was repeatedly admitted for chemotherapy. During these periods, chest
X-ray and CT revealed no recurrence of the mediastinal tumor. During her tenth admission,
the patient developed pneumonia during chemotherapy and died in October 1996. No autopsy
was performed.
Tumorregister - Template
Datum
Erstdiagnose
Primärlokalisation
Grading
Staging
Morphologie
Datum
Ersttherapie
Chemotherapie
Bestrahlung
Text Mining: Anwendungsszenario II
Milde und Schwere Verlaufsformen: EB simplex (EBS), EB dystrophica (EBD)
Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen
bei Epidermolysis bullosa dystrophica
 Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit Mutationen
in Genen für Strukturproteine der dermo-epidermalen Basalmembranzone.
Inzidenz: 1 / 100.000 Geburten.
 Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleimhäuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narbenbildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können.
Text Mining: Anwendungsszenario II
EB dystrophica (EBD)
 mehr als 300 unterschiedliche Mutationen des Kollagen VII-Gens
publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert
weitere, noch nicht bekannte Mutationen.
 Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden
bislang unentdeckter Korrelationen zwischen Art und Lokalisation der
Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung
maligner Entartungen
 Abgleichen der Daten
 in der Literatur,
 in Mutations-Datenbanken,
 in eigenen Laborbefunden etc.
 in internen und externen klinischen Dokumenten
Architektur eines Biomedizinischen Textanalyse-Kernsystems
Architektur eines Biomedizinischen Textanalyse-Kernsystems
„A severe infection ended the pregnancy“
ended
infection
a
severe
Ending
pregnancy
the
end + edPastTense
E-patient
E-agent
Pregnancy
Infection
I-degree
severe
Morphologie
Prozessor
Syntax
Prozessor
Semantik
Interpreter
Lexikon
Grammatik
Regelbasis
POS-annotierte Korpora, Treebanks, Proposition Banks
#pregnancy
P-patient
#mother
P-co-patient
#baby
IF ... #oregnancy & #inf.
THEN ... #mortal danger
*
The baby survived
Inferenz
maschine
Domänen
ontologie
Methoden, Werkzeuge und Ressourcen
 Morphologiewerkzeuge (Stemmer)
 POS (part-of-speech) Tagger
 Chunker (NP), (shallow) Parser
 Lexika, Endliche Automaten, Grammatiken,
Ontologien
 Namenserkenner (NE recognition)
 Große Textkorpora (annotiert, nichtannotiert)
 Machine learning – Verfahren, e.g. SVM
 Evaluationsstandards
Methoden, Werkzeuge und Ressourcen
 Morphologiewerkzeuge (Stemmer)
 POS (part-of-speech) Tagger
 Chunker (NP), (shallow) Parser
 Lexika, Endliche Automaten, Grammatiken,
Ontologien
 Namenserkenner (NE recognition)
 Große Textkorpora (annotiert, nichtannotiert)
 Machine learning – Verfahren, e.g. SVM
 Evaluationsstandards
Paradigmenwechsel in der
Computerlinguistik
Regelbasiert, KI
Stochastisch, ML
Herausforderung für medizinische
Sprachverarbeitung
 Ambiguität
 Lexikalisch: Bruch (Hernie) vs. Bruch (Fraktur)
 Syntaktisch: z.B. Anbindung von PPs
 extraction [of the transplant [with a scalpel] ]
 [extraction] {of the transplant} [with a scalpel]
 Semantisch, z.B. Skopus von Quantoren, Negationen, Koordinationen,
Gradaussagen
 each sample showed an increased Ph value
 Komplexität, Berechenbarkeit, z.B.
 Dependenzgrammatiken: NP-complete
 Prädikatenlogik höherer Ordnung, Modallogik: unentscheidbar
 Kombination mit Ontologien und medizinischen Terminologiesystem
 Kombination von symbolischen und stochastischen Ansätzen
Ausblick: Menschliche vs. Maschinelle
Sprachverarbeitung
Goldstandard
Datenqualität
Hohe
Motivation
Geringe
Motivation
Keinerlei
Motivation
Datenmenge
Ausblick: Menschliche vs. Maschinelle
Sprachverarbeitung
Goldstandard
Datenqualität
2005
Hohe
Motivation
Geringe
Motivation
Keinerlei
Motivation
Datenmenge
Ausblick: Menschliche vs. Maschinelle
Sprachverarbeitung
Goldstandard
Datenqualität
20??
200?
2005
Hohe
Motivation
Geringe
Motivation
Keinerlei
Motivation
Datenmenge
Aktivitäten MI Freiburg
 EU 6th Framework :
Network of Excellence “SemanticMining”
(Semantic Interoperability and Data Mining in Biomedicine):
2004 – 2006, 25 Partner
www.semanticmining.org
 Gründung: AMIA Working Group Group KR-SIG
“Formal (Bio)medical Knowledge Representation”, 2003
 Veranstalter: Workshop KR-MED 2004 in Whistler/Canada, Juni
2004
 Initiative BioTem (Zentrum für biomedizinisches Text Mining)
 Veranstalter: Konferenz SMBM 2005 (Semantic Mining in
Biomedicine), in Cambridge UK, April 2005
 Wichtiger Partner: Udo Hahn, Computerlinguistik Universität Jena
(bis 2004 in Freiburg)
Medical Terminology:
Poor retrieval performance
Frequency of synonymous German Word forms in Google Searches
Spelling Variants
Synonyms
Inflections
Kolonkarzinom
2070
1780
Colonkarzinom
Coloncarcinom
Colon-Ca
Kolon-Ca
Dickdarmkrebs
Dickdarmkarzinom
Dickdarmcarcinom
Kolonkarzinoms
Kolonkarzinome
Kolonkarzinomen
248
111
203
66
4000
288
13
471
275
265
135
73
169
46
3610
175
10
253
139
166
Number of Hits
Number of exclusive hits (no other form matches)
Neue Anwendungsszenarien
 The Semantic Electronic Health Record
 Named entity recognition challenged by the deluge of new proper names
from the bio domain
 Use huge (Terabyte !) medical corpora (from all sources including
anonymized EHR data) for the discovery of domain and linguistic
knowledge
 Use content technologies to match genotype information (Bio-DBs) with
phenotype information (EHR).
(1.) In einem Partikel mit 4 mm Durchmesser wurde
eine Magenschleimhaut vom Antrumtyp erfaßt.
(2.) Das ödematöse Stroma wird massiv von
Lymphozyten infiltriert.
In einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.
Semantische Interpretation
In einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.
In
einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.
 x  PassivAux : Subj (x, y)  Vrbpart(x, z)
 Con( z ), Con( y )  CONCEPTS :
Patient (Con( z ), Con( y ))
Konzept-Graph von Satz 1
In einem Partikel mit 4 mm Durchmesser wurde eine Magenschleimhaut vom Antrumtyp erfaßt.
Semantische Interpretation:
• Berechnung der konzeptuellen Relationierungen
• “Normalisierung” des Passivs
• Korrekte Anbindung der Präpositionalphrasen (in, mit, vom)
Konzept-Graph von Satz 2
Das ödematöse Stroma wird massiv von Lymphozyten infiltriert.
Ergebnis der satzorientierten Analyse:
• Pro Satz ein isolierter Konzeptgraph
• Ist dies eine adäquate Inhaltsrepräsentation des Texts?
Medizinisches Domänenwissen
Physical
Object
Anatomical
Structure
Stroma
consists-of Mucosa
GastricMucosa
Gland
 part-of GastricGland
Kombinierter Konzept-Graph von Satz 1 und 2
Formale Rekonstruktion des impliziten textuellen Bezugs:
Konzeptgraph von Satz 1 (gelb) und Konzeptgraph von
Satz 2 (grün) werden über die inferierte Rolle (rot) relationiert.
Stand der Kunst

Umfassende Dokumentenkollektionen:
 KIS, EPA, WWW, ...

Computerlinguistische Engpässe
 unvollständige (manuell erstellte) Lexika, Grammatiken, Domänenmodelle

1. Ausweg:
 robuste Textanalyse mit unvollständigen Ressourcen

2. Ausweg:
 automatisches Lernen sprachlichen Wissens (Vervollständigung linguistischer
Ressourcen)
Zentrale sprachtechnologische Methode:
Part-of-Speech (POS) Tagging
Ausgeprägt multiple Oberschenkelhämatome beidseits .
ADJD
ADJA
NN
ADV
ST
Was aber
bleibt
(gleich) …?
 Analyse geschriebener Texte
 Fachsprache (IT, Medizin/Biologie)
Architektur eines
Textanalysesyste
ended
ms
infection
a
severe
pregnancy
the
end + edPastTense
Morphologie
Prozessor
Lexikon
# 150,000
# 1,000,000
Pregnancy
Ending
E-patient
E-agent
Pregnancy
Infection
I-degree
severe
Syntax
Prozessor
(Parser)
Grammatik
# 10,000
# 10,000
P-patient
P-co-patient
P-affected-by
Female
Foetus
Infection
IF ... Pregnancy & infect
THEN ... mortal danger
*
The baby survived
Semantik
Interpreter
Inferenz
Maschine
Semantische
Regelbasis
Domänen
Ontologie
# 150,000
# 1,000,000
Herunterladen