10. Natürliche Sprache in Biologie und Medizin Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz Ebenen der Sprachtechnologie I. „Speech“ Erkennung gesprochener Sprache (speech recognition) Erzeugung gesprochener Sprache (speech synthesis) II. „Content“ Textretrieval Text Mining Textgenerierung Textzusammenfassung Informationsextraktion Maschinelle Übersetzung Information Retrieval Anfrage (Query) ? Kollektion von Dokumenten (Dokumentationseinheiten) Suchergebnisse Informationsextraktion Template PersonOut PersonIn Position Organization TimeOut TimeIn PersonOut Dr. Hermann Wirth PersonIn Sabine Klinger Position Leiter Organization Musikhochschule M TimeOut Heute TimeIn Pressenotiz Dr. Hermann Wirth, bisheriger Leiter der Musikhochschule München, verabschiedete sich heute aus seinem Amt. Der 65-jährige tritt seinen wohlverdienten Ruhestand an. Als seine Nachfolgerin wurde Sabine Klinger benannt. Ebenfalls neu bestzt wurde die Stelle des Musikdirektors. Annelie Häfner folgt Christian Meindl nach PersonOut Christian Meindl PersonIn Annelie Häfner Position Musikdirektor Organization Musikhochschule M TimeOut TimeIn Maschinelle Übersetzung Question Answering Grundbegriffe der Linguistik • • • • • • • • • • Semiotik Phonetik, Phonologie Morphologie Syntax Grammatik Semantik Pragmatik Textlinguistik Lexikographie Terminologie Ebenen der Linguistik • Morphologie: – be + end + en, In + fekt + ion, In + fekt + ion + en • Syntax: – Eine schwere Infektion beendete die Schwangerschaft vs. – Eine Infektion schwere die Schwangerschaft beendete. • Semantik: – Es wurde eine Entbindung per Kaiserschnitt vorgenommen – Es wurde eine Osteosynthese per Kaiserschnitt vorgenommen • Textverstehen: – Eine schwere Infektion beendete die Schwangerschaft. Das Neugeborene befindet sich in gutem Allgemeinzustand – Eine schwere Infektion beendete die Schwangerschaft. Das Transplantat wurde bisher nicht abgestoßen. Medizinische Anwendungen von Sprachtechnologien • Unterstützung der Befunderstellung durch Spracherkennungssysteme • Dokumentenretrieval aus computerisierten Krankenblattarchiven, Literaturdatenbanken, WWWDokumenten, WWW-Portalen • Zusammenfassung von Krankengeschichten • Automatische Wissensaquisition aus medizinischen Freitexten • Automatisierte Verordungen • Multilinguale Erzeugung von Patienteninformation • Automatische Kodierung / Klassifikation von Diagnosen und Prozeduren Semiotik... Lehre von den Zeichen • • • • • Ein Zeichen ist Stellvertreter für etwas Bezeichnetes Alles sinnlich wahrnehmbare kann Zeichen sein Alles beliebige kann als Zeichen fungieren Sprachwissenschaft: Zeichensystem „Sprache“ Das semiotische Dreieck Begriff, Gedanke, Inhalt, Konzept Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenscha mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort, Code, Bezeichner "Stuhl", "chair" Objekt, Instanz Referent Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt. Sprachliche Zeichen • Laute • Phoneme • Morpheme ver auf mitt haut • einfache Wörter Magen, Schleim, Haut • Komplexe Wörter Magen-schleim-haut • Phrasen das ödematös aufgelockerte Stroma • Sätze Es finden sich vereinzelt Lymphfollikel. • Texte Zusammen gut reiskorngroßes Biopsiematerial einer Magenschleimhaut vom Antrumtyp mit mittelgradig verplumpten, verlängerten und vermehrt basophilen Foveolen, die streckenweise einen Becherzellbesatz aufweisen. Das ödematös aufgelockerte Stroma wird mittelgradig vermehrt überwiegend von Lymphozyten und Plasmazellen infiltriert. Es finden sich vereinzelt Lymphfollikel. Linguistische Betrachtungsweisen • Grammatik: Zeichenformen und Möglichkeiten ihrer Kombination • Semantik: Bedeutung einfacher und komplexer Zeichenformen • Pragmatik: Allgemeine Regularitäten, die dem Sprachgebrauch zugrundeliegen Grammatik • Lehre vom – – – – Wort (Morphologie, Morphosyntax) Satz (Syntax) Laut (Phonologie) Text (Textgrammatik) • Formale Seite sprachlicher Ausdrücke: – System minimaler Einheiten mit Regeln zur Generierung komplexerer Einheiten – Berührung zur Theorie der formalen Sprachen Sprachliche Zeichen • Charakteristikum: Verkettung von Einzelzeichen zu komplexeren Einheiten Morphembedeutung Laute Phoneme Wortbedeutung Phrasen bedeutung Satzbedeutung Text bedeutung Phrasen Sätze Texte Wörter Morpheme (einfach / komplex) Grammatik: Morphologie, Übung • Morphologie = Lehre vom Wort • Was ist ein Wort ? • Beispiel: Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach. • Übung: Wie viele Wörter hat dieser Satz ? Token, Type, Lexem • Token: Einzelne Vorkommen eines Zeichens (Wortes) 1 2 3 4 5 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 7 8 9 10 11 • Type: Einzelne Muster eines Zeichens (Wortes) 1 2 3 4 5 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 6 4 5 3 7 • Lexem: Zusammenfassung mehrerer Types (unterschiedlicher syntaktischer Wörter) 1 2 3 4 3 6 Wenn hinter Fliegen eine Fliege fliegt, fliegt eine Fliege Fliegen nach 6 4 3 3 6 Morphosyntax • Morphemarten: Stamm, Präfix, Suffix • Bildungsregeln „wohlgeformter“ (well-formed) Wörter: Beispiele: – Kein Wort kann mit einem Suffix beginnen – Keine zwei Beugungssuffixe hintereinander – Kein Wort kann nur aus Affixen bestehen • Beugungsregeln z.B. pres past part go went gone Morphologische Besonderheiten der Bio/Medizinsprache (I) • • • Morpheme aus dem Griechischen, Lateinischen, Deutschen, zunehmend dem Englischen Fugen-o typisch für lat./gr. Lehnwörter: hepatozellulär, gastrointestinal Zwei Wortbildungsschemata: 1. Deutsch: Orthographische Anpassung lateinischer Morpheme caka; ceze; cizi; coko; cuku; es gelten deutsche Wortbildungsregeln wenige hybride Pluralbildungen (-itis , -itiden, -zera) 2. Lateinisch: Großschreibung der Substantive, sonst gelten die Wortbildungsregeln des Lateinischen Morphologische Besonderheiten der Medizinsprache (II) • Eponyme (Eigennamen) werden oft wie Wortstämme behandelt Parkinsonismus • • Akronyme (Kürzel) sehr häufig, verweisen oft auf englische NPs (ARDS, MALT, AIDS) und können zu normalen Wortstämmen mutieren (der Aidspatient) Abkürzungen (in der geschriebenen Sprache): meist Wortstämme chron., persist., Herzinsuff., • Ad-hoc Kompositabildung lymphoplasmazellulär Becherzellbesatz Wortbildungsphänomene in der Molekularbiologie Syntax • Lehre vom Satz – Regeln zur Bildung „well-formed“ Wordgruppen – Früher: Satzgliedlehre (Subjekt, Prädikat, Objekt etc.) Worttypen: POS („Part of Speech“) • Komponenten: – Lexikon, Syntax: – Regeln der Kombination elementarer Ausdrücke zu komplexen Ausdrücke • Ähnlichkeit zu formalen Sprachen (z.B. Programmiersprachen) Syntax: Konstituentenstruktur • Konstituente: Überbegriff für sämtliche Einheiten vom Einzelwort bis zum Satz – np: – vp: – pp: Nominalphrase „Hans“, „der Arzt“ Verbalphrase „verlegt“, „verlegt Hans“ Präpositionalphrase „auf die Intensivstation“ • Einfachstbeispiel: Regeln s-->np,vp. np-->det,n. np-->n. vp-->v,np. vp-->v. vp-->vp,pp. np-->np,pp. pp-->p,np. Lexikon n-->[Hans]. n-->[Arzt]. n-->[Intensivstation]. det-->[der]. det-->[die]. v-->[verlegt]. p-->[auf]. Nichtterminalsymbole: s, np, det, ...; Terminalsymbole: Hans, Arzt, der, ... Beispiel: Strukturbaum s vp vp pp np vp np np det n v p det n n Der Arzt verlegt auf die Intensivstation Hans Parser Ein Parser ist ein Programm, das einen gegebenen Satz anhand einer Grammatik syntaktisch analysiert. Es Programm ordnet dem Satz ein oder mehrere Strukturbäume zu (welche einer oder mehreren mehrdeutigen Lesarten entsprechen) s s vp vp vp np pp pp np vp np np np vp np np pn v det n p det n Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fahrrad pn v det n p det n Wir beobachten das Kind mit dem Fernglas Wir beobachten das Kind mit dem Fahrrad Semantik Begriff, Gedanke, Inhalt, Konzept Denkeinheit, die aus einer Menge von Gegenständen unter Ermittlung der diesen Gegenständen gemeinsamen Eigenscha mittels Abstraktion gebildet wird. Repräsentation eines Begriffs mit sprachlichen oder anderen Mitteln Symbol, Wort, Code, Bezeichner "Stuhl", "chair" Objekt, Instanz Referent Beliebiger Ausschnitt aus der wahrnehmbaren oder vorstellbaren Welt. Begriffsinhalt / Begriffsumfang Die Semantik erforscht die Bedeutung sprachlicher Ausdrücke Begriffsinhalt (intensionale Bedeutung): definiert den Begriffsinhalt auf der Ebene des Denkens Begriffsumfang (extensionale Bedeutung): definiert den Begriffsumfang auf der Ebene der Wirklichkeit Abstraktion: Übergang von der extensionalen zur intensionalen Bedeutung Aufgaben von Semantik • Welche Bedeutung kommt einem (sprachlichen) Zeichen zu ? • Welche Beziehungen gibt es hinsichtlich der Bedeutung sprachlicher Ausdrücke ? • Semantik der Arbitrarität oder lexikalische Semantik: definitorische Zuordnung von Bedeutung zu Ausdrücken, z.B. Stethoskop Bedeutung • Semantik der Kompositionalität: Aufbau der Bedeutung komplexer Ausdrücke aus den Bedeutungen ihrer Teile • Unterdeterminiertheit: Diaphyse: dia = auseinander, physis = Natur durch die Lappen gehen • Synonymie: Bauchspeicheldrüse = Pankreas • Mehrdeutigkeit: – Polysemie , Homonymie: „Krebs“ : Tier oder Krankheit – Syntaktische Ambiguität: Ich sehe das Kind mit dem Fernglas Merkmalssemantik • Theorie vom Begriff (Aristoteles: genus proximum et differentia specifica) • Bedeutung eines Zeichens ist nicht atomar, sondern lässt sich in Bedeutungseinheiten zerlegen • Ähnlichkeit zu formalen Ontologien weiblich erwachsen menschlich Mann - + + Frau + + + Mädchen + - + Weibchen + 0 - • Defizit: viele Begriffe lassen sich so nicht definieren Modelltheoretische Semantik • Beschreibung der Bedeutung von Sprache mit Hilfe der Mathematik (formale Logik) • Wahrheit von Aussagen in möglichen Welten (Modellen) Der Mensch hat 32 Zähne, Ein Einhorn hat ein Horn • arzt(x): Funktion arzt bildet jedes der Elemente x auf die Werte True oder False ab Analog chirurg(x) Falls Teilmengenbeziehung, dann besteht zwischen arzt und chirurg eine Hypernymie/Hyponymie-Beziehung (is-a) (mengentheoretische Semantik, z.B. Beschreibungslogik) • Problem: Adäquate Beschreibung erfordert Logiken höherer Ordnung => Berechnungskomplexität ! Zusammenspiel Sytax / Semantik: Beispiel aus medizinischem Textverstehenssystem Datenbasis medizinischer Freitexte Syntaktische Repräsentation Inhaltliche Repräsentation ........ T1 ....... T2 ....... ? ... Tn ........ ..... ........ ........ ......... ..... ........ ....... ....... ........ ..... ........ ........ ......... ..... Dependenzgrammatik • Kanten repräsentieren syntaktische Rollen • Begriffe: – syntaktischer Kopf – syntaktischer Modifier zeigt subject: spec: Das Partikel genatt: Colonschleimhaut spec: einer ppatt: mit pobj: adj: ödematösen Zotten Ontologische Repräsentation Show.5 Particle.1 show-patient Colon-Mucosa.2 anatomical-fragment-of Villus.4 has-anatomical-part Edema.3 has-phenomenon zeigt subject: spec: Partikel Syntaktische Ebene genatt: Colonschleimhaut Das spec: einer ppattr: mit pobj: Zotten adj: ödematösen Particle.1 Show.5 Villus.4 Colon-Mucosa.2 Ontologische Ebene Edema.3 zeigt subj: spec: Partikel Das Syntaktische Ebene genatt: Colonschleimhaut spec: einer ppatt: mit pobj: Zotten adj: ödematösen Particle.1 Show.5 Villus.4 Colon-Mucosa.2 Ontologische Ebene Edema.3 Von der Semantik zur Pragmatik • Gegenstand der Semantik ist, was ein sprachlicher Ausdruck immer bedeutet Patient mit karzinomverdächtigem Befund der linken Lunge • Gegenstand der Pragmatik ist, was ein sprachlicher Ausdruck situationsbedingt bedeutet. „Ihr Befund ist positiv“ • Gesagtes, Mitgeteiltes und Gemeintes. „Ich war hier“ „Es zieht“ „Tupfer!“ „Kompresse!“ • Pragmatik untersucht den kommunikativen Austausch Pragmatik • Sprechakttheorie: – Konstative Sätze (Behauptungen) – Performative Sätze (Aktionen) 1. 2. 3. 4. • Äußerung „Der Hund ist bissig“ (Grammatik, Syntax) Proposition bissig(Hund) = True (Semantik) Warnung oder Empfehlung Hörer entfernt sich oder Hörer kauft den Hund Indirekte Sprechakte „Können Sie mir sagen, wie spät es ist ?“ Kontext • Lokaler Kontext „Der Bruch wurde eingegipst“ • Sprachlicher Kontext: „Diabetes“ als Diagnose, Verdacht, oder Familienanamnese • Intentionaler Kontext „es ist kalt“ (Fenster schließen !) • Situativer Kontext „der Hubschrauber ist gelandet“ (Notfallaufnahme, Spielecke) Generisches Textverstehenssystem ended infection a severe Pregnancy Ending pregnancy the end + edPastTense E-patient E-agent P-patient Pregnancy Infection I-degree severe IF ... Pregnancy & inf. THEN ... mortal danger * Morphological Processor Lexicon # 150,000 # 1,000,000 Syntactic Processor (Parser/ Generator) Semantic Interpreter Grammar Semantic Rule Base # 10,000 # 10,000 Mother Baby P-co-patient The baby survived Inference Engine Domain Ontology # 150,000 # 1,000,000 Generisches Textverstehenssystem • Tiefstmögliche Textanalyse: Instantiierung einer Wissensbasis nach syntaktischer und semantischer Analyse, sowie der Anwendung semantischer Interpretationsregeln, bis hin zu Textverstehen (Auflösung von Koreferenzen, Diskursrelationen) • Einzig und allein Prototypen vorbehalten, die in eingeschränkten Diskursbereichen ausgewählte Sprachphänomene implementieren. • In der Praxis: Kompromisslösungen zwischen theoretischen Forderungen und pragmatischen Anforderungen Text-Mining statt Textverstehen • Seit 15 Jahren: Probabilistische Verfahren lösen KI-basierte Verfahren ab: – exponentielle Komplexität der wissensintensiven Verfahren – „Knowledge acquisition bottleneck“ – Verfügbarkeit riesiger Textmengen (WWW) – Skalierbarkeit („shallow“ methods) Standardtools und - ressourcen • • • • • Tagger Chunker / partielle Parser Namenserkenner … Textkorpora – annotiert (POS, Chunks, Nes, Semantik) – nicht annotiert Beispiel: Tagging A severe infection ended the pregnancy . DET ADJ NOUN VERB DET NOUN ST 45 Tag Set (Penn treebank) Tag Description Examples . sentence terminator . ! ? DT determiner all an many such that the them these this JJ adjective, numeral first oiled separable battery-powered NN common noun cabbage thermostat investment PRP personal pronoun herself him it me one oneself theirs they IN preposition among out within behind into next VB verb (base form) ask assess assign begin break bring VBD verb (past tense) asked assessed assigned began broke WP WH-pronoun that what which who whom Statistisches HMM – Tagging (I) • Wahrscheinlichkeit eines Tags im Vergleich zu n anchfolgenden Tags – P1(Tagi | Tagi-1 ... Tagi-n) • Wahrscheinlichkeit eines Tokens bzgl. eines Tags – P2(Tokeni | Tagi) • die/DET Frau/NOUN ,/COMMA die/DET or PREL singt/VFIN Statistisches HMM – Tagging (I) • State transition probabilities (trigrams): – P1(DET – P1(PREL | COMMA NOUN) = 0.0007 | COMMA NOUN) = 0.01 • State emission probabilities: – P2( die | DET) – P2( die | PREL) = 0.7 = 0.2 • Compute probabilistic evidence for the tag being – DET: – PREL: P1 • P2 = 0.00049 P1 • P2 = 0.002 • die/DET Frau/NOUN ,/COMMA die/PREL singt/VFIN Statistische Methoden erfordern Trainingsdaten