Computerlinguistik 1 Themenübersicht Computerlinguistik Semiotische Grundlagen und Lexikon Zeichen und ihre Bedeutung Computerlexikographie Syntax und Morphologie Konstituenten Phrasenstruktur- und Kategorialgrammatik Parsen Morphologe Unifikationsgrammatiken Dependenzen und Rollen Semantik Prinzipien semantischer Verarbeitung Referenzsemantik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 2 Strukturalistische Semantik Anwendungen Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 3 Computerlinguistik Definition: Simulation sprachlicher Prozesse auf dem Computer Sprachliche Prozesse: lautliche und kognitive Prozesse, die auf linguistischen Ebenen realisiert werden Linguistik: algorithmische Beschreibung von Sprache Merkmal der Computerlinguistik: • Kognitionswissenschaftlicher Hintergrund Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 4 ... auf dem Computer Simulation: (auf dem Computer) sprachliche Prozesse können als informationsverarbeitende bzw. symbolische Prozesse implementiert werden Annahme: Denken ist Symbolverarbeitung (sog. starke These der KI) Merkmal der Computerlinguistik: • Abgrenzung gegenüber Sprachtechnologie Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 5 Sprachliche Prozesse Explanandum Laute (tokens) Lautgruppen/Äquivalenzklassen Explanans Phonetik Phonem: kleinste bedeutungsunterscheidende Einheit Gruppen von Phonemen Morphem: kleinste bedeutungstragende Einheit Allomorphe Bsp.: sprech={sprech, sprich, sprach, ...} Phonologie Morphologie Gruppen von Morphemen: Wortformen (flektierte Formen eines Wortes) Wort: Äquivalenzklasse v. Wortformen Phrasen (Gruppen von Wörtern) Sätze (vollständig, grammatisch) Aussagen (wahrheitsfähig) Uwe Quasthoff, Universität Leipzig, Institut für Informatik Syntax Semantik / WS 99/00 Computerlinguistik Sprechakte (zustandsverändernd) Uwe Quasthoff, Universität Leipzig, Institut für Informatik 6 Pragmatik WS 99/00 Computerlinguistik 7 Semiotische Grundlagen Zeichen (G. Klaus): Äquivalenzklasse aller physikalischen Signale, die auf denselben Gegenstand, Sachverhalt usw. hinweisen (i.a. Träger v. Informationen) zum Verständnis eines Zeichens ist ein Interpretationsschlüssel erforderlich ! Beispiel: Karte u. Legende Nach Ch.S. Peiree Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 8 Linguistische Ebenen bei der Zerlegung eines Satzes 1) in eine Kette von Buchstaben: Ü-b-e-r-d-e-m-A-t-l-a-n-t-i-k-b-e-f-a-n-d-s-i-c-h-e-i-n-b-ar-o-m-e-t-r-i-s-c-h-e-s-M-i-n-i-m-u-m 2) in eine Kette von Silben: über-dem-At-lan-tik-be-fand-sich-ein-ba-ro-me-tri-sches Mi-ni-mum 3) in eine Kette von Morphen: über-dem-Atlant-ik-be-fand-sich-ein-bar-o-metr-isch-es Minim-um 4) in eine Kette von Wortformen: Über-dem-Atlantik-befand-sich-ein-barometrisches-Minimum 5) in eine Kette von Satzteilen: Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 9 Über dem Atlantik - befand sich - ein barometrisches Minimum Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 10 Das Zeichenmodell Ferdinand de Saussures Nach der Definition de Saussures ist ein sprachliches Zeichen die Verbindung aus der Vorstellung, die man von einem Symbol hat, und dem Lautbild, das mit ebendiesem Symbol verbunden ist. Beliebigkeit: die Vorstellung eines Symbols ist durch keinerlei natürliche Beziehung mit der Lautfolge verbunden, die es bezeichnet (die Verbindung ist arbiträr). Auf dieser Grundlage läßt sich auch das Vorhandensein mehrerer Sprachen erklären. Nichtsdestotrotz ist diese willkürliche Verbindung zugleich auch konventionell; jeder Sprecher einer Sprache muß sich an diese "Regel" halten, um verstanden zu werden. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 11 Linearer Charakter: Die Bezeichnung verläuft in der Zeit und hat deshalb ebenfalls Eigenschaften, die zeitlich bestimmt sind. Die Ausprägung dieser Eigenschaften ist, wenn man sie aufzeichnet, fast linear. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 12 Die Veränderlichkeit der Sprache Unveränderlichkeit Bezeichnungen können nicht beliebig durch andere ersetzt werden Sprache wird "weitervererbt" Sprache beruht auf keinerlei Norm und kann daher auch nicht in Frage gestellt werden die Zahl der Zeichen ist unveränderbar (zu große Anzahl) Sprache = "Institution" Uwe Quasthoff, Universität Leipzig, Institut für Informatik Veränderlichkeit auch Sprache wird im Laufe der Zeit verändert, selbst wenn es sich um einen längeren Zeitraum handelt Gesamtheit der sprachlichen Gewohnheiten eines Individuums Ohne Sprachgemeinschaft keine lebendige Sprache (soziale Wirklichkeit fehlt) WS 99/00 Computerlinguistik 13 sowohl Sprachgemeinschaft als auch Zeit sind für Sprachwandel unverzichtbar! Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 14 Saussure: Die Sprache kommt als das Ergebnis der Sprachverwendung hervor, und sie enthält "weder Vorstellungen noch Laute, die gegenüber dem sprachlichen System präexistent wären, sondern nur begriffliche und lautliche Verschiedenheiten, die sich aus dem System ergeben." Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 15 Syntax Gegenstand: Wörter bzw. Wortformen und deren Kombination zu Sätzen Definition (Chomsky): „Syntax is the study of principles and processes by which sentences are constructed in particular languages“ - Grammatik der Einzelsprachen (z.B. Deutsch, Englisch, ...) - Universalgrammatik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 16 Ziele: 1) Syntaktische Struktur - welche Elemente ? - wie kombiniert ? 2) Grammatikalität 3) Prinzipien der Universalgrammatik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 17 Die Mediziner ringen um den Erhalt des Gehörs 1) Welche Elemente ? Wortformen (nicht Wörter) Wörter: der Mediziner ringen um der Erhalt das Gehör 2) Wie kombiniert ? Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Uwe Quasthoff, Universität Leipzig, Institut für Informatik 18 WS 99/00 Computerlinguistik 19 Tests für Konstituenten: Was sind richtige Strukturen ? 1. Ersetzungsprobe Wortfolgen, die sich füreinander ersetzen lassen, ohne daß sich an der Grammatikalität des Ganzen etwas ändert, sind (möglicherweise) Konstituenten. 2. Pronominalisierungstest Pronomina: Er, sie, dort, damals ... Was sich pronominalisieren läßt (worauf man sich mit einer Proform beziehen kann), ist eine Konstituente. „Der Pilot starb durch 2 Pistolenkugeln in Hildesheim“ er dadurch Uwe Quasthoff, Universität Leipzig, Institut für Informatik dort WS 99/00 Computerlinguistik 20 „Ede will einen Pudding essen.“ Das will ich auch. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 21 Tests für Konstituenten II 3. Weglaßprobe „der Pilot starb ...“ 4. Fragetest wer, wann, wo, wohin, wie, womit, was, warum, ... 5. Koordinierungstest (Verbindung durch „und“) 6. Verschiebeprobe „In Hildesheim starb der Pilot durch 2 Pistolenkugeln.“ Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 22 Formale Grammatik a) Erzeugungsgrammatik b) Erkennungsgrammatik Chomsky - Grammatik < s, T, N, P > T = Mengen der Terminalen Symbole N = Mengen der Nichtterminale s = Startsymbol, sN P = Produktionsregeln Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 23 (Ersetzungsregeln) Als Vokabular V bezeichnen wir V=NT Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 24 Ersetzungsregeln uv Eine Kette w2 ist aus einer Kette w1 direkt ableitbar, wenn es eine Ersetzungsregel p q gibt und sich w2 von w1 dadurch unterscheidet, daß die Teilkette p in w1 durch die Teilkette q in w2 ersetzt ist. Allgemein ist wn ableitbar aus w1, wenn es eine Folge direkt ableitbarer Ketten wie folgt gibt: w1 ... wi ... wn Typ 0 : unbeschränkte Ersetzungssysteme keine Beschränkungen an die Form der Regeln Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 25 Typ 1 : kontext-sensitive Grammatik xAy xvy AN, x, yV*, vV+ Beschreibung: Ersetze A durch v im Kontext x, y Beispiel Mit einer kontext-sensitiven Grammatik läßt sich die Menge {an bn cn} ableiten. Grammatik: T={a, b, c}, N={s, x, y, z} Regeln: s abc s axbcy x axbc x az cy yc zb bz cb bc Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 26 zy bc Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 27 Typ 2 : kontext-freie Grammatik A v AN, vV* Beispiel 1 Mit einer kontext-freien Grammatik läßt sich die Menge {an bn} ableiten. Grammatik: T={a, b}, N={s, x} Regeln: s ab s axb x ab x axb Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 28 Beispiel 2 Mit einer kontext- freien Grammatik läßt sich die Menge {an bk cn} ableiten. Grammatik: T={a, b, c}, N={s, x, y} Regeln: s ac s axc x axc x ayc y yb yb ABER Mit einer kontext- freien Grammatik läßt sich nicht die Menge {an bn cn} ableiten. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 29 Typ 3 : reguläre Grammatik Regeln der Form A a A B b (links-linear) bzw. mit A b B (rechts-linear) A, BN, vV* Beispiel Mit einer regulären Grammatik läßt sich nicht die Menge {an bn} ableiten. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 30 Frage: Was ist die “richtige” Komplexität für natürliche Sprache? a) unbeschränkt? ok aber wahrscheinlich zu mächtig (weil zu wenig Struktur bzw. Beschränkung) b) regulär ? zu schwach Kriterien für die Beurteilung einer Grammatik: beobachtungsadäquat : richtige Daten beschreibungsadäquat : richtige Struktur erklärungsadäquat : richtige Struktur + richtige Theorie Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 31 Probleme 1) Richtige Daten • Untergenerierung • Übergenerierung 2) Richtige Struktur: Rekursivität der Sprache Bsp. 1) Der Mann s1 liest das Buch s2 2) Das Buch ist 1957 geschrieben 3) Der Mann s3 empfiehlt das Buch s2 Die Satzvariablen s1 und s3 können die Sätze 1 und 3, s2 den Satz 2 als Wert nehmen. Rekursive Verknüpfung der Sätze: Der Mann, der das Buch, das 1957 geschrieben worden ist, liest, empfiehlt das Buch weiter Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 32 Das ist eine Struktur der Form an bn, also nicht regulär beschreibbar. c) Kontextfrei: Phrasenstrukturgrammatik (Chomsky 1957, 1965) S = T = N= P = Satzsymbol Lexikon (Wortformen) {S, N, V, Adj, P, NP, VP, ... Art ... } S NP VP NP (Art) N . . . Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 33 Einfaches Beispiel Regeln: S NP VP NP Art N VP V NP PP P NP NP NP PP S VP NP PP NP NP Art N der Bayer V stellt Art die NP N Maß Uwe Quasthoff, Universität Leipzig, Institut für Informatik P auf den Art N Tisch WS 99/00 Computerlinguistik 34 Abarbeitung (Parsing): Top-Down oder Bottom-up ??? Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 35 Erzeugungsgrammatik S NP VP Art N VP der N VP der Bayer VP . . . der Bayer stellt die ... Probleme 1) Wortstellung Die Maß stellt der Bayer auf den Tisch. Auf den Tisch stellt der Bayer die Maß. S PP V NP NP ? übergeneriert !! Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Uwe Quasthoff, Universität Leipzig, Institut für Informatik 36 WS 99/00 Computerlinguistik 37 Traditionelle Lösung Phrasenstruktur liefert nur Syntax-Basis (Tiefenstruktur) Tiefenstruktur wird transformiert in Oberflächenstruktur Basis (PS) Transformationen (z.B. Passiv, Topikalisierung, Morphologie) Satzoberfläche 2) Was steht im Lexikon ? A) Stammformlexikon Stammformen (nicht Wortformen) Morphologie wird durch Transformationen angefügt B) Vollformenlexikon Vollformen mit Verweis auf die Grundform Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 38 3) Rektion und Kongruenz Rektion: Abhängigkeit nachfolgender Ausdrücke von einem vorangehenden Ausdruck (z.B. Präposition) hinsichtlich morpho-syntaktischer Kategorien (z.B. Kasus, Genus, ...) Kongruenz: Übereinstimmung von Satzteilen/Phrasen hinsichtlich morpho-syntaktischer Kategorien (z.B. Kasus, Numerus, Person, Genus, ...) Alternative: Unifikationsgrammatik 4) Thematische Rollen inhaltliche Beschränkungen 5) Subkategorisierung x stell y (auf z) x schlaf x grüßt y Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 39 6) nicht kontextfrei sondern kontextsensitiv ? Beispiel 1 daß Hans1 Maria2 Peter3 Beate über die Brücke hat helfen3 lassen2 gehen1 liefert eine Konstruktion vom Typ a b c c b a Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 40 Beispiel 2 Peter bzw. Maria bzw. Paul a a a wandern bzw. schwimmen bzw. fahren Fahrrad b b b nach Naumburg bzw. an der Ostsee bzw. im Rosenthal c c c liefert eine Konstruktion vom Typ an bn cn Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 41 Kategorialgrammatik Ajdukiewicz (Anwendung Logik) Montague Idee: Das Ganze ist mehr als Summe seiner Teile — erst die richtige Aneinanderreihung von Ausdrücken ergibt einen Satz (vollständiges Ganzes) [ Peter schläft ] n s/n Peter = n schläft = s/n tief = (s/n) / (s/n) s n * s/n = s Peter schläft n s/n Uwe Quasthoff, Universität Leipzig, Institut für Informatik tief (s/n) / (s/n) WS 99/00 Computerlinguistik 42 s/n s Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 43 Eigenschaften 1) Grammatikalische Grundausdrücke (Basiskategiorien); andere Kategorien wurden abgeleitet 2) Grammatische Informationen im Lexikon (komplexe Kategorien) 3) Grammatikalische Regel : Kürze 4) Parallelität von Syntax und Semantik ABCD ABy (C' (D') (A (B')) CDx/y A(y/x) Bx C((x/y)/y) Dy Syntax Uwe Quasthoff, Universität Leipzig, Institut für Informatik A' (B') C' (D') A' B' C' D' Semantik WS 99/00 Computerlinguistik 44 z.B. Peter schläft = SCHLÄFT (Peter) Formale Präzisierung Eine Kategorialgrammatik ist ein Quadrupel G=<VT, VA, S,F> mit VT = VA = S = F = Terminale Alphabet der Grundkategorien (Basisausdrücke) Satzkategorie V A Funktion von VT nach (L), mit L der Menge der (abgeleiteten) Kategorien L wird induktiv definiert 1) Für alle x VA , x L 2) Wenn x und y in L sind, dann auch (x/y) und (x\y). 3) Nichts ist in L außer nach (1) und (2) definiert. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 45 Grammatikregeln (Kürze in einem Schritt) Für alle Kategorien x,y in C und eine endliche Folge von Kategorien x/y y x y y\x x (Kürze in 0 oder mehr Schritten): reflexiver transitiver Abschluß von Eine Folge w VT+ wird von G generiert dann und nur dann, wenn w = w1 ... wn und es n Kategoriensymbole L1 ... Ln gibt, so daß F(w1) = L1 (1i n) und L1 ... Ln S. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 46 Beispiel G = < VT, VA, S, F > mit VT = {a,b} VA = {S,B} F(a) = {S/B}, F(b) = {B, S\B} Ableitung von a3 b3 S S/B B S S\B S/B B S S/B S\B B Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik a 47 a a b Uwe Quasthoff, Universität Leipzig, Institut für Informatik b b WS 99/00 Computerlinguistik 48 Verhältnis Kategorialgrammatik zu kontextfreien Sprachen: schwach äquivalent Anwendung auf Analyse natürlicher Sprache 1) Grundausdrücke 2) Phrasen, komplexe Kategorien 3) Kürzungsregeln / Formationsregeln Montague: Proper Treatment of Quantification in Englisch (PTQ) Alle Menschen sind sterblich Sokrates Sokrates ist ein Mensch ist sterblich Universal Grammar Algebra der natürlichen Sprache Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 49 Statistische Verfahren zur strukturellen Analyse Types of annotation Certain kinds of linguistic annotation, which involve the attachment of special codes to words in order to indicate particular features, are often known as "tagging" rather than annotation, and the codes which are assigned to features are known as "tags". These terms will be used in the sections which follow: Part of Speech annotation Lemmatisation Parsing Semantics Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 50 Part-of-speech Annotation This is the most basic type of linguistic corpus annotation - the aim being to assign to each lexical unit in the text a code indicating its part of speech. Part-of-speech annotation is useful because it increases the specificity of data retrieval from corpora, and also forms an esential foundation for further forms of analysis (such as syntactic parsing and semantic field annotation). Part-of-speech annotation also allows us to distinguish between homographs. Part-of-speech annotation was one of the first types of annotation to be formed on corpora and is the most common today. One reason for this is because it is a task that can be carried out to a high degree of accuracy by a computer. Greene and Rubin (1971) achieved a 71% accuracy rate of correctly tagged words with their early part-of-speech tagging program (TAGGIT). In the early 1980s the UCREL team at Lancaster University reported a success rate of 95% using their program CLAWS. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 51 Part-of-speech Annotation: The Tags used AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun NP0: proper noun POS: genitive marker Uwe Quasthoff, Universität Leipzig, Institut für Informatik PNP: PRF: PRP: PUN: TO0: VBI: VM0: VVB: VVD: VVG: VVI: VVN: pronoun of prepostition punctuation infintive to be modal auxiliary base form of lexical verb past tense form of lexical verb -ing form of lexical verb infinitive form of lexical verb past participle form of lexical verb WS 99/00 Computerlinguistik 52 Lemmatisation Lemmatisation is closely allied to the identification of parts-of-speech and involves the reduction of the words in a corpus to their respective lexemes. Lemmatisation allows the researcher to extract and examine all the variants of a particular lexeme without having to input all the possible variants, and to produce frequency and distribution information for the lexeme. Although accurate software has been developed for this purpose (Beale 1987), lemmatisation has not been applied to many of the more widely available corpora. However, the SUSANNE corpus does contain lemmatised forms of the corpus words, along with other information. See the example below - the fourth column contains the lemmatised words: Example ID/Line/Pos POS Word Lexeme N12:0510g - PPHS1m N12:0510h - VVDv He studied he study Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik N12:0510i - AT N12:0510j - NN1c 53 the problem Uwe Quasthoff, Universität Leipzig, Institut für Informatik the problem WS 99/00 Computerlinguistik 54 Example N12:0510g N12:0510h N12:0510i N12:0510j N12:0510k N12:0510m N12:0510n N12:0510p N12:0520a N12:0520b N12:0520c N12:0520d N12:0520e N12:0520f N12:0520g N12:0520h N12:0520i N12:0520j N12:0520k N12:0520m - PPHS1m VVDv AT NN1c IF DD221 DD222 NNT2 CC VVDv IO AT1 NNc IIb DDQr PPH1 VMd VB0 VVNt YF He studied the problem for a few seconds and thought of a means by which it might be solved +. Uwe Quasthoff, Universität Leipzig, Institut für Informatik he study the problem for a few second and think of a means by which it may be solve WS 99/00 Computerlinguistik 55 Semantics Two types of semantic annotation can be identified: 1.The marking of semantic relationships between items in the text, for example the agents or patients of particular actions. This has scarcely begun to be widely accepted at the time of writing, although some forms of parsing capture much of its import. 2.The marking of semantic features of words in the text, essentially the annotation of word senses in one form or another. This has quite a long history, dating back to the 1960s. There is no universal agreement about which semantic features ought to be annotated in fact in the past much of the annotation was motivated by social scientific theories of, for instance, social interaction. However, Sedelow and Sedelow (1969) made use of Roget's Thesarus - in which words are organised into general semantic categories. The example below (Wilson, forthcoming) is intended to give the reader an idea of the types of categories used in semantic tagging: Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Uwe Quasthoff, Universität Leipzig, Institut für Informatik 56 WS 99/00 Computerlinguistik 57 Semantic Tagging Example And the soldiers platted a crown of thorns and put it on his head and they put on him 00000000 00000000 23241000 21072000 00000000 21110400 00000000 13010000 00000000 21072000 00000000 00000000 00000000 21030000 00000000 00000000 21072000 00000000 00000000 Uwe Quasthoff, Universität Leipzig, Institut für Informatik a purple robe 00000000 31241100 21110321 WS 99/00 Computerlinguistik Tags: 00000000 13010000 21030000 21072000 21110321 21110400 23231000 31241100 58 Low content word (and, the, a, of, on, his, they etc) Plant life in general Body and body parts Object-oriented physical activity (e.g. put) Men's clothing: outer clothing Headgear War and conflict: general Colour Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 59 Sie gehen gewagte Verbindungen und Risiken ein, versuchen ihre Möglichkeiten auszureizen. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 60 Export Format: #BOS 2 2 899973978 1 Sie PPER gehen VVFIN gewagte ADJA Verbindungen NN und KON Risiken NN ein PTKVZ , $, versuchen VVFIN ihre PPOSAT Möglichkeiten NN auszureizen VVIZU . $. #500 NP #501 NP #502 CNP #503 VP #504 S #505 S #506 CS 3.Pl.*.Nom 3.Pl.Pres.Ind Pos.*.Akk.Pl.St Fem.Akk.Pl.* -Neut.Akk.Pl.* --3.Pl.Pres.Ind *.Akk.Pl Fem.Akk.Pl.* ---------- Uwe Quasthoff, Universität Leipzig, Institut für Informatik SB HD NK NK CD CJ SVP -HD NK NK HD -CJ OA OA OC CJ CJ -- WS 99/00 504 504 500 500 502 502 504 0 505 501 501 503 0 502 503 504 505 506 506 0 Computerlinguistik 61 Das „Stuttgart/Tübinger Tagset’’ (STTS) I ADJA ADJD attributives Adjektiv adverbiales oder prädikatives Adjektiv ADV Adverb APPR Präposition; Zirkumposition links APPRART Präposition mit Artikel APPO Postposition APZR Zirkumposition rechts ART bestimmter oder unbestimmter Artikel CARD Kardinalzahl FM Fremdsprachliches Material ITJ ORD KOUI KOUS KON KOKOM NN NE PDS Interjektion Ordinalzahl unterordnende Konjunktion mit ``zu'' und Infinitiv unterordnende Konjunktion mit Satz nebenordnende Konjunktion Vergleichskonjunktion normales Nomen Eigennamen substituierendes Demonstrativpronomen Uwe Quasthoff, Universität Leipzig, Institut für Informatik [das] große [Haus] [er fährt] schnell [er ist] schnell schon, bald, doch in [der Stadt], ohne [mich] im [Haus], zur [Sache] [ihm] zufolge, [der Sache] wegen [von jetzt] an der, die, das, ein, eine, ... zwei [Männer], [im Jahre] 1994 [Er hat das mit ``] A big fish ['' übersetzt] mhm, ach, tja [der] neunte [August] um [zu leben], anstatt [zu fragen] weil, daß, damit, wenn, ob und, oder, aber als, wie Tisch, Herr, [das] Reisen Hans, Hamburg, HSV dieser, jener WS 99/00 Computerlinguistik 62 Das „Stuttgart/Tübinger Tagset’’ (STTS) II PDAT PIS PIAT PIDAT PPER PPOSS PPOSAT PRELS PRELAT PRF PWS PWAT PWAV PAV PTKZU PTKNEG attribuierendes Demonstrativpronomen substituierendes Indefinitpronomen attribuierendes Indefinitpronomen ohne Determiner attribuierendes Indefinitpronomen mit Determiner irreflexives Personalpronomen substituierendes Possessivpronomen attribuierendes Possessivpronomen substituierendes Relativpronomen attribuierendes Relativpronomen reflexives Personalpronomen substituierendes Interrogativpronomen attribuierendes Interrogativpronomen adverbiales Interrogativoder Relativpronomen Pronominaladverb ``zu'' vor Infinitiv Negationspartikel Uwe Quasthoff, Universität Leipzig, Institut für Informatik jener [Mensch] keiner, viele, man, niemand kein [Mensch], irgendein [Glas] [ein] wenig [Wasser], [die] beiden [Brüder] ich, er, ihm, mich, dir meins, deiner mein [Buch], deine [Mutter] [der Hund ,] der [der Mann ,] dessen [Hund] sich, einander, dich, mir wer, was welche [Farbe], wessen [Hut] warum, wo, wann, worüber, wobei dafür, dabei, deswegen, trotzdem zu [gehen] nicht WS 99/00 Computerlinguistik 63 Das „Stuttgart/Tübinger Tagset’’ (STTS) III PTKVZ PTKANT PTKA SGML SPELL TRUNC VVFIN VVIMP VVINF VVIZU VVPP VAFIN VAIMP VAINF VAPP VMFIN VMINF VMPP XY \$, \$. \$( abgetrennter Verbzusatz Antwortpartikel Partikel bei Adjektiv oder Adverb SGML Markup Buchstabierfolge Kompositions-Erstglied finites Verb, voll Imperativ, voll Infinitiv, voll Infinitiv mit ``zu'', voll Partizip Perfekt, voll finites Verb, aux Imperativ, aux Infinitiv, aux Partizip Perfekt, aux finites Verb, modal Infinitiv, modal Partizip Perfekt, modal Nichtwort, Sonderzeichen enthaltend Komma Satzbeendende Interpunktion sonstige Satzzeichen; satzintern Uwe Quasthoff, Universität Leipzig, Institut für Informatik [er kommt] an, [er fährt] rad ja, nein, danke, bitte am [schönsten], zu [schnell] S-C-H-W-E-I-K-L An- [und Abreise] [du] gehst, [wir] kommen [an] komm [!] gehen, ankommen anzukommen, loszulassen gegangen, angekommen [du] bist, [wir] werden sei [ruhig !] werden, sein gewesen dürfen wollen gekonnt, [er hat gehen] können 3:7, H2O, D2XW3 , . ? ! ; : - [,]() WS 99/00 Computerlinguistik 64 Beispiele für Symbolfolgen Symbolfolgen dienen in vielen Fällen als Grundlage für semantische Aussagen. Meßwerte aus einer kontinuierlichen Symbolmenge Meßdaten für den Wetterbericht Blutdruckwerte Schallwellen Meßwerte sind in der Regel mit Meßfehlern behaftet. Folgen mit endlichen Symbolmengen verschlüsselte Texte als zu knackende Symbolfolge ja / nein - Meßwerte Text als Buchstabenfolge Text als Wortfolge gesprochener Text als Phonemfolge Die Symbole sind in der Regel nicht fehlerhaft. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 65 Strukturen in Symbolfolgen Kontextabhängigkeit in Symbolfolgen Je nach dem Charakter einer Folge können benachbarte Zeichen unabhängig voneinander sein oder es können Abhängigkeiten bestehen, z.B. verschiedene Aufeinanderfolgen können verboten sein. Beispiel: Die Mittagstemperaturen aufeinanderfolgender Tage werden sich um nicht mehr als 15 Grad unterscheiden. In einem Text als Wortfolge werden (wahrscheinlich) nicht die Wörter schläfst und Gedankens (in dieser Reihenfolge) nebeneinander stehen In einem deutschen Text als Buchstabenfolge wird nicht die Buchstabenfolge yyy auftauchen. Achtung: Diese Eigenschaft der Kontextabhängigkeit ist nicht unabhängig unter Isomorphismen (z.B. Übersetzung) Sind gewisse Aufeinanderfolgen von gewissen Symbolen verboten, so sprechen wir von topologischen Markov-Folgen. Übergangswahrscheinlichkeiten Haben wir Informationen, wie häufig gewisse Symbole unmittelbar hintereinander auftreten, so sprechen wir von Übergangswahrscheinlichkeiten. Übergangswahrscheinlichkeiten von Symbolpaaren beschreiben Mengen von Symbolfolgen i.a. noch nicht vollständig, z.B. in der natürlichen Sprache. Ist eine vollständige Beschreibung mit Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 66 Übergangswahrscheinlichkeiten möglich, so sprechen wir von Markov-Folgen. Erzeugung von BernoulliFolgen Beispiel 1 Erzeuge mit wiederholtem Münzwurf eine Folge von Nullen und Einsen je nachdem, ob Wappen oder Zahl geworfen wird. Beispiel 2 Erzeuge mit wiederholtem Würfeln eine Folge bestehend aus den Symbolen 1,2,3,4,5 und 6. Verallgemeinerung: N Symbole 1,2,...,N. Jedes Symbol n wird mit einer Wahrscheinlichkeit pn gewürfelt. Eigenschaften Wir betrachten unendlich lange Symbolfolgen. Und zwar entweder zweiseitig unendlich lange Symbolfolgen (diese haben weder Anfang noch Ende), oder nach rechts unendlich lange Symbolfolgen (diese haben einen Anfang, aber kein Ende). Die Folgenglieder sind unabhängig voneinander, das zuletzt erzeugte Symbol hat keinen Einfluß auf das folgende Symbol. Der Symbolraum ist das (einseitige oder zweiseitige) unendliche kartesische Produkt von Exemplaren der Symbolmenge. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 67 Die Wahrscheinlichkeiten erzeugen ein Maß auf dem Produktraum. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 68 Erzeugung von Markov-Folgen Die Aufeinanderfolge der Symbole ist nicht länger unabhängig, Beispiel Über der Symbolmenge {1,2,3} wird eine Folge gebildet, so daß auf ein Element stets mit Wahrscheinlichkeit 1/2 eines der beiden anderen Symbole folgt. Eine so erzeugte Folge ist z.B. ... 1 2 1 3 2 3 1 2 1 2 3 1 3 ... Eine so erzeugte Folge enthält also niemals das gleiche Symbol zweimal unmittelbar hintereinander. Die Übergangswahrscheinlichkeiten können durch eine Matrix beschrieben werden: 0 1/2 1/2 1/2 0 1/2 1/2 1/2 0 Die möglichen Übergänge werden durch positive Übergangswahrscheinlichkeiten beschrieben. Nebenbedingung Die Spaltensumme in jeder Spalte der Übergangsmatrix ist 1. Die Symbolwahrscheinlichkeiten der einzelnen Symbole ergeben sich als linker Eigenvektor der Übergangsmatrix zum Eigenwert 1. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 69 Markov-Folgen aus nGrammen I Markov-Folgen aus n-Grammen lassen sich durch eine Vergrößerung der Symbolmenge auf Markov-Folgen aus Bigrammen reduzieren: Beispiel Wir betrachten Folgen aus den Symbolen 0, 1 mit den verbotenen Wörtern 000 und 111. Alle anderen Kombinationen seien erlaubt. Wir ordnen jetzt Wörtern der Länge 2 neue Symbole aus {A,B,C,D} zu: 00 01 10 11 A B C D Damit lassen sich jeder Folge über {0,1} eine Folge über {A,B,C,D} zuordnen: .. 0 1 1 0 1 1 0 0 1 0 0 1 .. .. .. B D C B D C A B C D B .. Jedem Wort der Länge 3 über {0,1} ist damit ein Wort der Länge 2 über {A,B,C,D} zugeordnet. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 70 Markov-Folgen aus nGrammen II Aus Kompatibilitätsgründen sind die Wörter AC, AD, BA, BB, CC, CD, DA und DB verboten, das Verbot der Wörter 000 und 111 liefert zusätzlich das Verbot von AA und DD. Es ergibt sich folgende Übergangsmatrix: A B C D A 0 1 0 0 B 0 0 1 1 C 1 1 0 0 D 0 0 1 0 Die einzige 1 in der ersten Zeile sagt z.B., daß auf das Symbol A nur B folgen kann, da A dem Paar 00 entspricht, das Folgepaar also mit 0 beginnt, also nur A oder B in Frage kommen. Da aber die Dreiergruppe 000 verboten ist, entfällt die Kombination AA und es bleibt nur AB. Beobachtung Mit diesem Verfahren kommen wir nicht von Bigrammen zu Einzelsymbolen, da die neu entstehenden Kompatibilitätsbedingungen stets Bigramm-Bedingungen sind. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 71 Topologische Markov-Folgen Gibt es erlaubte und nicht erlaubte Folgen, ist aber über Wahrscheinlichkeiten nichts bekannt, so betrachten wir topologische Markov-Folgen: In der Übergangsmatrix stehen jetzt jeweils 1 oder 0 je nachdem, ob der entsprechende Übergang erlaubt ist. Das Vorgehen entspricht dem Erklären der syntaktischen Korrektheit einer Folge unabhängig von der tatsächlichen Nutzungsfrequenz. Beispiel Über der Symbolmenge {1,2,3} wird eine Folge gebildet, so daß auf ein Element eines der beiden anderen Symbole folgt. Eine so erzeugte Folge ist z.B. ... 1 2 1 3 2 3 1 2 1 2 3 1 3 ... Die erlaubten Übergänge können durch eine Matrix beschrieben werden: 0 1 1 1 0 1 1 1 0 Analog lassen sich die erlaubten Übergänge durch einen gerichteten Graphen darstellen: Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 72 Bernoulli-Maße für Symbolfolgen Symbolwahrscheinlichkeiten Für jedes der einzelnen Symbole wird eine Symbolwahrscheinlichkeit vorgegeben. Nebenbedingung Die einzelnen Symbolwahrscheinlichkeiten müssen positiv sein (einzelne Symbole mit Wahrscheinlichkeit 0 liefern Wahrscheinlichkeit 0 auch für alle Wörter, die dieses Symbol enthalten und werden deshalb nicht betrachtet) und sich zu 1 summieren. Das Maß eines Wortes Das Maß eines Wortes, genauer der Menge von Symbolfolgen, die an einer bestimmten Stelle beginnend das gewünschte Wort enthalten, berechnet man als Produkt der einzelnen Symbol-Wahrscheinlichkeiten. Generierung Die Generierung von Symbolfolgen mit diesen Symbolwahrscheinlichkeiten erzeugt gerade die zu dieser Wahrscheinlichkeit gehörenden Bernoulli-Folgen. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 73 Bernoulli-Maße für Symbolfolgen Symbolwahrscheinlichkeiten Für jedes der einzelnen Symbole wird eine Sybolwahrscheinlichkeit vorgegeben. Nebenbedingung Die einzelnen Symbolwahrscheinlichkeiten müssen positiv sein (einzelne Symbole mit Wahrscheinlichkeit 0 liefern Wahrscheinlichkeit 0 auch für alle Wörter, die dieses Symbol enthalten und werden deshalb nicht betrachtet) und sich zu 1 summieren. Das Maß eines Wortes Das Maß eines Wortes, genauer der Menge von Symbolfolgen, die an einer bestimmten Stelle beginnend das gewünschte Wort enthalten, berechnet man als Produkt der einzelnen Symbol-Wahrscheinlichkeiten. Generierung Die Generierung von Symbolfolgen mit diesen Symbolwahrscheinlichkeiten erzeugt gerade die zu dieser Wahrscheinlichkeit gehörenden Bernoulli-Folgen. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 74 Textgenerierung aus Buchstabenblöcken mit nGramm-Modellen Mit vollständiger Information und fester Länge (Turing (engl.), Küpfmüller (dt.), ca. 1950) Für die Länge N (N=1,2,3 oder 4, fest) werden die Übergangswahrscheinlichkeiten (oder im Falle N=1: die Einzelwahrscheinlichkeiten) für alle Buchstabenblöcke der Länge N ermittelt. (Bei 30 Buchstaben sind das 30N Übergangswahrscheinlichkeiten). Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 75 Morphologie (Formenlehre) Morphem: kleinste bedeutungstragende Einheit freie Morpheme z.B. Buch gebundene Morpheme z.B. vor (Präposition, Präfix) er (Proform, Pl ) Normalisierung insb.: Präfixe (z.B. vor) Suffixe (z.B. +er) Fugenelemente (z.B. -s-, -en-) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 76 3 Bereiche 1) Flektion 2) Derivation 3) Komposition Wortarten offenen (produktiv) geschlossene (nicht produktiv) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Verben Nomina Adjektive 77 Artikel Präpositionen Konjunktive Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 78 1) Flektion a) Nomina: Deklination Sekundärkategorien Kasus (Nom, Gen, Dat, Akk, ...) Genus (..., fem, neutr.) Numerus (sg, pl, ...) Flektionstabelle Numerus Kasus sg pl Norm Haus Häus+er Haus Gen Haus+es Häus+er Häus (Ablaute) Dat Haus+le Häus+er Akk. Haus Häus+er Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Uwe Quasthoff, Universität Leipzig, Institut für Informatik 79 WS 99/00 Computerlinguistik 80 b) Verben: Konjugation Sekundärkategorien Person (1., 2., 3.) Tempus (Präs., Prät., ...) Numerus (sg, pl) Modus (Indikativ, Konjunktiv, Imperativ, ...) Aspekt (Abgeschlossenheit, ...) wichtig für • Kongruenz • Rektion (Übereinstimmung im Kasus) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 81 2) Derivation allg. Form eines Wortes Präfix* - Stamm - (Fugenelement) - Suffix* N A V N A V 3) Komposition Probleme der Morphologie 1) Klassifikation lern + bar + keit 2) Auflösung von Mehrdeutigkeiten Abt + reibung (?) Ab + treib + ung Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 82 zu + greif + en zug + reifen Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 83 S [NUM: pl] NP Art Die *Das VP [NUM: pl] N Kinder Uwe Quasthoff, Universität Leipzig, Institut für Informatik V Präp Art [NUM: pl] [KAS: Akk] warten *wartet auf WS 99/00 den *des [NUM: pl] PP [KAS: Akk] NP [KAS: Akk] N Weihnachtsmann --- " --- Computerlinguistik 84 Kat: N NUM: pl GEN: neutr . . Uwe Quasthoff, Universität Leipzig, Institut für Informatik Kat: V pers: 3 NUM: pl KAS: Akk WS 99/00 KAS NUM: sg KAS: Akk Computerlinguistik 85 Unifikationsgrammatik Probleme mit PSG: 1) Kongruenz 2) Rektion (Subkategorisierung, thematische Rollen, ...) Darstellung morphologischer Abhängigkeiten Erweiterung des Lexikons durch Attribut-Wert-Matrizen (AVM) PSG: Kinder, N AVM: Form : Kinder Kat : Num : Kas : Gen : N Pl Nom Neutr. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 86 . . . Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 87 Attribut-Wert-Strukturen d a b S pers = 3 NUM = sg agr = subj = prod = Maria VP c e agr = NP V obj = pers = 3 NUM = sg prod = Josef pred = lieb+t NP TEMPUS = präs Maria liebt Josef Uwe Quasthoff, Universität Leipzig, Institut für Informatik NUM = sg WS 99/00 Computerlinguistik 88 Eine Attribut-Wert-Struktur ist ein Tripel A = < F, C, > mit F eine Menge von Attributen (Features) C eine Teilmenge von F (Kategorien) eine partielle Funktion F x F F Bsp.: F = {subj, obj, pred, tempus, a,b,c,...} C = F \ {a,b,c,d,e,f} : (a, subj) = b (a, tempus) = präs ... Ergebnis: HPSG (Head-driven Phrase structure Grammar) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 89 Beispiel F : { CAT, PLU, PER } g : g (CAT) = {S, VP, NP, V, N ... } g (PER) = {1,2,3 } g (PLU) = {+,-} S : [CAT S] FA : {PLU, PER} VT : {ich, schlafe, Nikolaus, Kinder ...} Lexikon {[CAT V] [PER 3] [PLU -]} schläft {[CAT V] [PER 1] [PLU -]} schlafe {[CAT N][PER 1]} ich . Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 90 . . [CAT S] [CAT NP] [CAT VP] Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 91 "ich schlafe" = ([CAT S], [PER I], [PLU -] S NP VP N V ich schlafe CAT N PER I CAT V PER 1 PLU - Unifikationsgrammatiken Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 92 Problem: NP - vollständig ! Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 93 Semantik: Bedeutungslehre Definition: Darstellung von Bedeutung durch eine Bedeutungsrepräsentationssprache Allgemeines Schema Semantik Semantische Sätze der natürlichen Sprache Interpretation --> SRS Bedeutung unterschiedliche Paradigmen - prozedurale Semantik - referentielle Semantik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 94 (Referenzsemantik) - strukturalistische Semantik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 95 Semantisches Paradigma vergleichbar Prinzip typisches Beispiel Tradition prozedural operationalistische S. "Mini" B. liegt im Gebrauch Befehle (Imperative) Wittgenstein "Stop" Winograd "rot" (Blockswelt) referentiell denotationale S. B. ist das Objekt / Sachverhalt Eigennamen Frege ("Kurt") Montague Stoffnamen ("Gold") strukturalistisch axiomatische S. B. ist der Zusammenhang der Wörter Definition "Ein Junggeselle ist ein unverh. Mann" Wortsemantik Satzsemantik Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Saussure Katz Schank Computerlinguistik 96 Satzsemantische Prinzipien 1. Wenn A und B Sätze sind, u. A wahr ist u. B falsch ist, dann bedeuten A und B nicht dasselbe. 2. Kennt eine Person wortwendige und hinreichende Bedingungen für die Wahrheit / Falschheit eines Satzes, dann kennt diese Person auch die Bedeutung dieses Satzes. 3. Kennt eine Person die Bedeutung eines Satzes, dann sind dieser Person auch die notwendigen u. hinreichenden Bedingungen der Wahrheit dieses Satzes bekannt. 4. Frage-Prinzip: Die Bedeutung eines ganzen Satzes ist eine Funktion der Bedeutung seiner Teile. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 97 Faktorenanalyse Mutter ------- = Kind Kuh ----Kälbchen = Stute -----Fohlen = ... +/- erwachsen +/- weiblich Vater ------Kind = Stier ----Kälbchen Frau + weiblich + erwachsen + menschlich Mann - weiblich + erwachsen + menschlich Uwe Quasthoff, Universität Leipzig, Institut für Informatik Kind - erwachsen + menschlich WS 99/00 Computerlinguistik Kuh + weiblich + erwachsen - menschlich + Bovide 98 Stute + weiblich + erwachsen - menschlich + Equide Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 99 Repräsentation von Sätzen und Stories 12 elementare Handlungen nach Schank Physische Handlungen (belebtes Objekt wirkt auf Gegenstand ein) PROPEL: Physische Kraft wirkt auf physischen Gegenstand MOVE: Bewegung eines Körperteils INGEST: Aufnehmen: Einverleiben eines Gegenstandes in ein belebtes Objekt EXPEL: Einen Gegenstand aus einem belebten Objekt ausscheiden GRASP: Einen Gegenstand physisch ergreifen. Globale Handlungen (-> Zustandsänderung) PTRANS: Ortsveränderung eines physischen Gegenstandes ATRANS: Veränderung einer abstrakten Beziehung zu einem physischen Gegenstand (z. B. Besitz, Eigentum) Instrumentale Handlung (Verwendung bei MTRANS) SPEAK ATTEND: Ein Sinnesorgan auf einen bestimmten Reiz richten Mentale Handlungen MTRANS: Informationstransfer Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 100 CONC: Über etwas nachdenken bezüglich bereits vollzogener Konzeptionalisierungen. MBUILD: Bildung neuer Information durch kognitive Prozesse, Konzeptualisierung Zusätzliche soziale Aktionen: AUTHORIZE: erlauben ORDER: befehlen DISPUTE: ein Wechselgespräch führen PETITION: erbitten Zustände (bewertbar -10 ... +10) POSS: Besitz, Eigentum, Verfügung PSTATE: äußerlicher Zustand eines Physikalischen Gegenstandes HEALTH: Gesundheit MSTATE: mentaler Zustand, Stimmung (gebrochen - niedergeschlagen - normal - froh glücklich) ANTICIPATION: Erwartung, ängstlich - nervös - hoffend - sicher AWARENESS: Bewußtseinszustand (tot - bewußtlos - schlafend - wach - begeistert) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 101 Beispiele für Repräsentationen einfacher Sätze ( bezeichnet Kusalität) John killed Mary. John DO Mary HEALTH(-10) John kicked Mary. John PROPEL foot to Mary foot(John) BE PHYSICAL CONTACT (Mary) John told Mary that Bill was happy. John MTRANS(Bill BE MSTATE(5)) to Mary John read a book. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 102 John MTRANS(Information) to LTM(John) from book inst(John ATTEND eyes to book) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 103 Kausale Zusammenhänge Ein ACT kann eine STATE erzeugen / verändern (result in) ACT r STATE Ein STATE kann einen ACT bewirken (Enable) STATE E ACT Ein STATE kann einen ACT beenden (disable) STATE dE ACTION Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 104 Ein STATE (oder ACT) kann einen MSTATE erzeugen (Initiate) STATE (or ACT) I MSTATE Ein MSTATE kann ein Grund für eine ACTION sein (Reason) MSTATE R ACTION Folgende Zusammensetzungen sind möglich: rE: Ein ACT erzeugt einen STATE, der wiederum einen ACT bewirkt IR: Ein ACT (oder STATE) erzeugt einen Gedanken, der eine ACTION bewirkt. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 105 Beispiel für einen kausalen Zusammenhang: John gave Bill an orange for his cold. John ATRANS orange to Bill rE Bill INGEST orange to inside(Bill) r Bill HEALTH(POS change) Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 106 John was thirsty. He opened a can of beer and went into the den. There he saw a new chair. He sat down on it. Suddenly the chair tilted over and John fell on the floor. His beer spilled all over the chair. When his wife heard the noise she ran into the den. She was very angry that her new chair had be ruined. Mit DO ist eine unbekannte Aktion bezeichnet. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 107 Repräsentation von Stories: Beispiel: Restaurant-Script Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik Uwe Quasthoff, Universität Leipzig, Institut für Informatik 108 WS 99/00 Computerlinguistik 109 Abweichen von Scripten Typen von Abweichungen Weicht eine Handlung von einem Script ab, so kann das die folgenden Gründe haben: Hindernis: Voraussetzung für eine folgende Handlung im Script ist nicht erfüllt Fehler: Wurde eine Handlung anders als üblich (d.h. mit anderem Effekt) ausgeführt oder an einem anderen Objekt? Rezept: Wird eine korrigierende Handlung beschrieben? Z.B., um ein Hindernis zu umgehen. Wiederholung: Wird die Wiederholung einer vorangegangenen Aktion beschrieben? Z.B. nach Fehler. Reaktion: Wird eine emotionale Reaktion der handelnden Person beschrieben? Ablenkung: Hat die handelnde Person jetzt ein anderes Ziel? Damit wird ein Abweichen vom jetzt gültigen Script signalisiert. Erweiterung: Wird die Handlung durch die handelnde Person mit Absicht erweitert? Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 110 Verkettung von einzelnen Abweichungen Folgende Abläufe sind typisch: Hindernis – Rezept – Erfolg Hindernis – Rezept – Mißerfolg – Rezept – Mißerfolg - ... Hindernis – Rezept – Mißerfolg – Reaktion Hindernis – Rezept – Mißerfolg – Reaktion - Ablenkung Fehler – Wiederholung – Erfolg Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 111 Beispiele für Abweichungen vom Restaurant-Script John went to a restaurant. He sat down. He discovered he didn’t have his magnifying glass. He asked the waitress to read him the menu. She agreed. John went to a restaurant. He odered a beer. The weather was rather poor. John went to a restaurant. He sat down and signaled the waitress. He got mad. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00 Computerlinguistik 112 He left. Uwe Quasthoff, Universität Leipzig, Institut für Informatik WS 99/00