Medizinische Informatik

Werbung
10. Natürliche Sprache in Biologie
und Medizin
Wintersemester 2010/11
Dozent: Univ.-Prof. Dr. med. Stefan Schulz
Ebenen der Sprachtechnologie
I. „Speech“
Erkennung gesprochener Sprache (speech recognition)
Erzeugung gesprochener Sprache (speech synthesis)
II. „Content“
Textretrieval
Text Mining
Textgenerierung
Textzusammenfassung
Informationsextraktion
Maschinelle Übersetzung
Information Retrieval
Anfrage
(Query)
?
Kollektion von Dokumenten
(Dokumentationseinheiten)
Suchergebnisse
Informationsextraktion
Template
PersonOut
PersonIn
Position
Organization
TimeOut
TimeIn
PersonOut
Dr. Hermann Wirth
PersonIn
Sabine Klinger
Position
Leiter
Organization Musikhochschule M
TimeOut
Heute
TimeIn
Pressenotiz
Dr. Hermann Wirth, bisheriger Leiter der
Musikhochschule München,
verabschiedete sich heute aus seinem
Amt. Der 65-jährige tritt seinen
wohlverdienten Ruhestand an. Als seine
Nachfolgerin wurde Sabine Klinger
benannt. Ebenfalls neu bestzt wurde die
Stelle des Musikdirektors. Annelie Häfner
folgt Christian Meindl nach
PersonOut
Christian Meindl
PersonIn
Annelie Häfner
Position
Musikdirektor
Organization Musikhochschule M
TimeOut
TimeIn
Maschinelle Übersetzung
Question Answering
Grundbegriffe der Linguistik
•
•
•
•
•
•
•
•
•
•
Semiotik
Phonetik, Phonologie
Morphologie
Syntax
Grammatik
Semantik
Pragmatik
Textlinguistik
Lexikographie
Terminologie
Ebenen der Linguistik
• Morphologie:
– be + end + en, In + fekt + ion, In + fekt + ion + en
• Syntax:
– Eine schwere Infektion beendete die Schwangerschaft vs.
– Eine Infektion schwere die Schwangerschaft beendete.
• Semantik:
– Es wurde eine Entbindung per Kaiserschnitt vorgenommen
– Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen
• Textverstehen:
– Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene
befindet sich in gutem Allgemeinzustand
– Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat
wurde bisher nicht abgestoßen.
Medizinische Anwendungen von
Sprachtechnologien
• Unterstützung der Befunderstellung durch
Spracherkennungssysteme
• Dokumentenretrieval aus computerisierten
Krankenblattarchiven, Literaturdatenbanken, WWWDokumenten, WWW-Portalen
• Zusammenfassung von Krankengeschichten
• Automatische Wissensaquisition aus medizinischen Freitexten
• Automatisierte Verordungen
• Multilinguale Erzeugung von Patienteninformation
• Automatische Kodierung / Klassifikation von Diagnosen und
Prozeduren
Semiotik... Lehre von den Zeichen
•
•
•
•
•
Ein Zeichen ist Stellvertreter für etwas Bezeichnetes
Alles sinnlich wahrnehmbare kann Zeichen sein
Alles beliebige kann als Zeichen fungieren
Sprachwissenschaft: Zeichensystem „Sprache“
Das semiotische Dreieck
Begriff, Gedanke, Inhalt, Konzept
Denkeinheit, die aus einer Menge von Gegenständen unter
Ermittlung der diesen Gegenständen gemeinsamen Eigenscha
mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit
sprachlichen oder anderen Mitteln
Symbol, Wort,
Code, Bezeichner
"Stuhl", "chair"
Objekt,
Instanz
Referent
Beliebiger Ausschnitt aus der
wahrnehmbaren oder vorstellbaren Welt.
Sprachliche Zeichen
• Laute
• Phoneme
• Morpheme
ver auf mitt haut
• einfache Wörter
Magen, Schleim, Haut
• Komplexe Wörter
Magen-schleim-haut
• Phrasen
das ödematös aufgelockerte Stroma
• Sätze
Es finden sich vereinzelt Lymphfollikel.
• Texte
Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhaut
vom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrt
basophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen.
Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend
von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt
Lymphfollikel.
Linguistische Betrachtungsweisen
• Grammatik: Zeichenformen und Möglichkeiten ihrer
Kombination
• Semantik: Bedeutung einfacher und komplexer
Zeichenformen
• Pragmatik: Allgemeine Regularitäten, die dem
Sprachgebrauch zugrundeliegen
Grammatik
• Lehre vom
–
–
–
–
Wort (Morphologie, Morphosyntax)
Satz (Syntax)
Laut (Phonologie)
Text (Textgrammatik)
• Formale Seite sprachlicher Ausdrücke:
– System minimaler Einheiten mit Regeln zur Generierung
komplexerer Einheiten
– Berührung zur Theorie der formalen Sprachen
Sprachliche Zeichen
• Charakteristikum: Verkettung von
Einzelzeichen zu komplexeren Einheiten
Morphembedeutung
Laute
Phoneme
Wortbedeutung
Phrasen bedeutung
Satzbedeutung
Text
bedeutung
Phrasen
Sätze
Texte
Wörter
Morpheme
(einfach /
komplex)
Grammatik: Morphologie, Übung
• Morphologie = Lehre vom Wort
• Was ist ein Wort ?
• Beispiel:
Wenn hinter Fliegen eine Fliege fliegt,
fliegt eine Fliege Fliegen nach.
• Übung: Wie viele Wörter hat dieser Satz ?
Token, Type, Lexem
• Token: Einzelne Vorkommen eines Zeichens (Wortes)
1
2
3
4
5
6
Wenn hinter Fliegen eine Fliege fliegt,
fliegt eine Fliege Fliegen nach
7
8
9
10
11
• Type: Einzelne Muster eines Zeichens (Wortes)
1
2
3
4
5
6
Wenn hinter Fliegen eine Fliege fliegt,
fliegt eine Fliege Fliegen nach
6
4
5
3
7
• Lexem: Zusammenfassung mehrerer Types
(unterschiedlicher syntaktischer Wörter)
1
2
3
4
3
6
Wenn hinter Fliegen eine Fliege fliegt,
fliegt eine Fliege Fliegen nach
6
4
3
3
6
Morphosyntax
• Morphemarten: Stamm, Präfix, Suffix
• Bildungsregeln „wohlgeformter“ (well-formed)
Wörter:
Beispiele:
– Kein Wort kann mit einem Suffix beginnen
– Keine zwei Beugungssuffixe hintereinander
– Kein Wort kann nur aus Affixen bestehen
• Beugungsregeln z.B.
pres
past
part
go
went gone
Morphologische Besonderheiten der
Bio/Medizinsprache (I)
•
•
•
Morpheme aus dem Griechischen, Lateinischen,
Deutschen, zunehmend dem Englischen
Fugen-o typisch für lat./gr. Lehnwörter:
hepatozellulär, gastrointestinal
Zwei Wortbildungsschemata:
1. Deutsch: Orthographische Anpassung
lateinischer Morpheme caka; ceze; cizi; coko; cuku;
es gelten deutsche Wortbildungsregeln
wenige hybride Pluralbildungen (-itis , -itiden, -zera)
2. Lateinisch:
Großschreibung der Substantive, sonst gelten die
Wortbildungsregeln des Lateinischen
Morphologische Besonderheiten der
Medizinsprache (II)
•
Eponyme (Eigennamen) werden oft wie Wortstämme
behandelt
Parkinsonismus
•
•
Akronyme (Kürzel) sehr häufig, verweisen oft auf
englische NPs (ARDS, MALT, AIDS) und können zu
normalen Wortstämmen mutieren (der Aidspatient)
Abkürzungen (in der geschriebenen Sprache):
meist Wortstämme
chron., persist., Herzinsuff.,
•
Ad-hoc Kompositabildung
lymphoplasmazellulär
Becherzellbesatz
Wortbildungsphänomene in der
Molekularbiologie
Syntax
• Lehre vom Satz
– Regeln zur Bildung „well-formed“ Wordgruppen
– Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.)
Worttypen: POS („Part of Speech“)
• Komponenten:
– Lexikon, Syntax:
– Regeln der Kombination elementarer Ausdrücke zu
komplexen Ausdrücke
• Ähnlichkeit zu formalen Sprachen (z.B.
Programmiersprachen)
Syntax: Konstituentenstruktur
• Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort
bis zum Satz
– np:
– vp:
– pp:
Nominalphrase „Hans“, „der Arzt“
Verbalphrase „verlegt“, „verlegt Hans“
Präpositionalphrase „auf die Intensivstation“
• Einfachstbeispiel:
Regeln
s-->np,vp.
np-->det,n.
np-->n.
vp-->v,np.
vp-->v.
vp-->vp,pp.
np-->np,pp.
pp-->p,np.
Lexikon
n-->[Hans].
n-->[Arzt].
n-->[Intensivstation].
det-->[der].
det-->[die].
v-->[verlegt].
p-->[auf].
Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ...
Beispiel: Strukturbaum
s
vp
vp
pp
np
vp
np
np
det
n
v
p
det
n
n
Der
Arzt
verlegt
auf
die
Intensivstation
Hans
Parser
Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer
Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder
mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen
Lesarten entsprechen)
s
s
vp
vp
vp
np
pp
pp
np
vp
np
np
np
vp
np
np
pn
v
det
n p det
n
Wir beobachten das Kind mit dem Fernglas
Wir beobachten das Kind mit dem Fahrrad
pn
v
det
n p det
n
Wir beobachten das Kind mit dem Fernglas
Wir beobachten das Kind mit dem Fahrrad
Semantik
Begriff, Gedanke, Inhalt, Konzept
Denkeinheit, die aus einer Menge von Gegenständen unter
Ermittlung der diesen Gegenständen gemeinsamen Eigenscha
mittels Abstraktion gebildet wird.
Repräsentation eines Begriffs mit
sprachlichen oder anderen Mitteln
Symbol, Wort,
Code, Bezeichner
"Stuhl", "chair"
Objekt,
Instanz
Referent
Beliebiger Ausschnitt aus der
wahrnehmbaren oder vorstellbaren Welt.
Begriffsinhalt / Begriffsumfang
Die Semantik erforscht die Bedeutung sprachlicher
Ausdrücke

Begriffsinhalt (intensionale Bedeutung): definiert den
Begriffsinhalt auf der Ebene des Denkens

Begriffsumfang (extensionale Bedeutung): definiert den
Begriffsumfang auf der Ebene der Wirklichkeit
Abstraktion: Übergang von der extensionalen zur
intensionalen Bedeutung
Aufgaben von Semantik
• Welche Bedeutung kommt einem (sprachlichen)
Zeichen zu ?
• Welche Beziehungen gibt es hinsichtlich der
Bedeutung sprachlicher Ausdrücke ?
• Semantik der Arbitrarität oder lexikalische Semantik:
definitorische Zuordnung von Bedeutung zu
Ausdrücken, z.B.
Stethoskop
Bedeutung
• Semantik der Kompositionalität: Aufbau der
Bedeutung komplexer Ausdrücke aus den
Bedeutungen ihrer Teile
• Unterdeterminiertheit:
Diaphyse: dia = auseinander, physis = Natur
durch die Lappen gehen
• Synonymie: Bauchspeicheldrüse = Pankreas
• Mehrdeutigkeit:
– Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit
– Syntaktische Ambiguität:
Ich sehe das Kind mit dem Fernglas
Merkmalssemantik
• Theorie vom Begriff
(Aristoteles: genus proximum et differentia specifica)
• Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in
Bedeutungseinheiten zerlegen
• Ähnlichkeit zu formalen Ontologien
weiblich
erwachsen
menschlich
Mann
-
+
+
Frau
+
+
+
Mädchen
+
-
+
Weibchen
+
0
-
• Defizit: viele Begriffe lassen sich so nicht definieren
Modelltheoretische Semantik
• Beschreibung der Bedeutung von Sprache mit Hilfe der
Mathematik (formale Logik)
• Wahrheit von Aussagen in möglichen Welten (Modellen)
Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn
• arzt(x): Funktion arzt bildet jedes der Elemente x auf die
Werte True oder False ab
Analog chirurg(x)
Falls Teilmengenbeziehung, dann besteht zwischen arzt und
chirurg eine Hypernymie/Hyponymie-Beziehung (is-a)
(mengentheoretische Semantik, z.B. Beschreibungslogik)
• Problem: Adäquate Beschreibung erfordert Logiken höherer
Ordnung => Berechnungskomplexität !
Zusammenspiel Sytax / Semantik: Beispiel
aus medizinischem Textverstehenssystem
Datenbasis
medizinischer
Freitexte
Syntaktische
Repräsentation
Inhaltliche
Repräsentation
........
T1
.......
T2
.......
?
...
Tn
........
.....
........
........
.........
.....
........
.......
.......
........
.....
........
........
.........
.....
Dependenzgrammatik
• Kanten repräsentieren syntaktische Rollen
• Begriffe:
– syntaktischer Kopf
– syntaktischer Modifier
zeigt
subject:
spec:
Das
Partikel
genatt:
Colonschleimhaut
spec:
einer
ppatt:
mit
pobj:
adj:
ödematösen
Zotten
Ontologische Repräsentation
Show.5
Particle.1
show-patient
Colon-Mucosa.2
anatomical-fragment-of
Villus.4
has-anatomical-part
Edema.3
has-phenomenon
zeigt
subject:
spec:
Partikel
Syntaktische
Ebene
genatt:
Colonschleimhaut
Das
spec:
einer
ppattr:
mit
pobj:
Zotten
adj:
ödematösen
Particle.1
Show.5
Villus.4
Colon-Mucosa.2
Ontologische
Ebene
Edema.3
zeigt
subj:
spec:
Partikel
Das
Syntaktische
Ebene
genatt:
Colonschleimhaut
spec:
einer
ppatt:
mit
pobj:
Zotten
adj:
ödematösen
Particle.1
Show.5
Villus.4
Colon-Mucosa.2
Ontologische
Ebene
Edema.3
Von der Semantik zur Pragmatik
• Gegenstand der Semantik ist, was ein sprachlicher
Ausdruck immer bedeutet
Patient mit karzinomverdächtigem Befund der linken Lunge
• Gegenstand der Pragmatik ist, was ein sprachlicher
Ausdruck situationsbedingt bedeutet.
„Ihr Befund ist positiv“
• Gesagtes, Mitgeteiltes und Gemeintes.
„Ich war hier“
„Es zieht“
„Tupfer!“ „Kompresse!“
• Pragmatik untersucht den kommunikativen
Austausch
Pragmatik
• Sprechakttheorie:
– Konstative Sätze (Behauptungen)
– Performative Sätze (Aktionen)
1.
2.
3.
4.
•
Äußerung „Der Hund ist bissig“ (Grammatik, Syntax)
Proposition bissig(Hund) = True (Semantik)
Warnung oder Empfehlung
Hörer entfernt sich oder Hörer kauft den Hund
Indirekte Sprechakte
„Können Sie mir sagen, wie spät es ist ?“
Kontext
• Lokaler Kontext
„Der Bruch wurde eingegipst“
• Sprachlicher Kontext:
„Diabetes“ als Diagnose, Verdacht, oder Familienanamnese
• Intentionaler Kontext
„es ist kalt“ (Fenster schließen !)
• Situativer Kontext
„der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke)
Generisches Textverstehenssystem
ended
infection
a
severe
Pregnancy
Ending
pregnancy
the
end + edPastTense
E-patient
E-agent
P-patient
Pregnancy
Infection
I-degree
severe
IF ... Pregnancy & inf.
THEN ... mortal danger
*
Morphological
Processor
Lexicon
# 150,000
# 1,000,000
Syntactic
Processor
(Parser/
Generator)
Semantic
Interpreter
Grammar
Semantic
Rule Base
# 10,000
# 10,000
Mother
Baby
P-co-patient
The baby survived
Inference
Engine
Domain
Ontology
# 150,000
# 1,000,000
Generisches Textverstehenssystem
• Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis
nach syntaktischer und semantischer Analyse, sowie der
Anwendung semantischer Interpretationsregeln, bis hin zu
Textverstehen (Auflösung von Koreferenzen,
Diskursrelationen)
• Einzig und allein Prototypen vorbehalten, die in
eingeschränkten Diskursbereichen ausgewählte
Sprachphänomene implementieren.
• In der Praxis: Kompromisslösungen zwischen theoretischen
Forderungen und pragmatischen Anforderungen
Text-Mining statt Textverstehen
• Seit 15 Jahren: Probabilistische Verfahren
lösen KI-basierte Verfahren ab:
– exponentielle Komplexität der wissensintensiven
Verfahren
– „Knowledge acquisition bottleneck“
– Verfügbarkeit riesiger Textmengen (WWW)
– Skalierbarkeit („shallow“ methods)
Standardtools und - ressourcen
•
•
•
•
•
Tagger
Chunker / partielle Parser
Namenserkenner
…
Textkorpora
– annotiert (POS, Chunks, Nes, Semantik)
– nicht annotiert
Beispiel: Tagging
A severe infection ended the pregnancy .
DET ADJ
NOUN
VERB DET NOUN
ST
45
Tag Set (Penn treebank)
Tag
Description
Examples
.
sentence terminator . ! ?
DT
determiner
all an many such that the them these this
JJ
adjective, numeral
first oiled separable battery-powered
NN
common noun
cabbage thermostat investment
PRP
personal pronoun
herself him it me one oneself theirs they
IN
preposition
among out within behind into next
VB
verb (base form)
ask assess assign begin break bring
VBD
verb (past tense)
asked assessed assigned began broke
WP
WH-pronoun
that what which who whom
Statistisches HMM – Tagging (I)
• Wahrscheinlichkeit eines Tags im Vergleich zu n
anchfolgenden Tags
– P1(Tagi | Tagi-1 ... Tagi-n)
• Wahrscheinlichkeit eines Tokens bzgl. eines Tags
– P2(Tokeni | Tagi)
• die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN
Statistisches HMM – Tagging (I)
• State transition probabilities (trigrams):
– P1(DET
– P1(PREL
| COMMA NOUN) = 0.0007
| COMMA NOUN) = 0.01
• State emission probabilities:
– P2( die | DET)
– P2( die | PREL)
= 0.7
= 0.2
• Compute probabilistic evidence for the tag being
– DET:
– PREL:
P1 • P2 = 0.00049
P1 • P2 = 0.002
• die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN
Statistische Methoden erfordern
Trainingsdaten
Herunterladen