Semantikkonstruktion mit DRT Prozedurale “direkte” Implementation; Vorbemerkungen tritt an die Stelle der Konstruktion mit Merkmalstrukturen Die wesentlichen Aufgaben und Techniken der Konstruktion semantischer Eigener logischer Kalkül für DRSen; existiert als theoretischer Entwurf (z.B. Repräsentationen im Rahmen der DRT wurden in Teil II des Semantikkapitels Muskens u.a.), Implementation nicht bekannt behandelt. Implementation von DRS-Konstruktion und -Auswertung in PROLOG Hinweise zur Implementation der -DRT: (Referenzauflösung nach Wada und Asher): Semantikkonstruktion mit Merkmalstrukturen: J. Bos, P. Blackburn: Representation and Inference for Natural Language. 2 Darstellung der DRSen durch Merkmalsstrukturen, funktionale Applikation wird Bde., 1999 Text und Implementation online verfügbar: www.comsem.org durch Merkmalsunifikation realisiert — siehe oben. Schnittstelle Syntax–Semantik mit semantischen Konstruktionsoperatoren für Hier: Semantische Resolution (Auflösung anaphorischer Referenzen) verschiedene theoretische Ansätze (Montague, Situationssemantik, Davidsons Schnittstelle zur weiteren Verarbeitung: Auswertung von Ausdrücken mit Ereignislogik, DRT), implementert in PROLOG: DRT-Operatoren (Junktoren, Duplexbedingung) sowie Ausführung spezieller M. Johnson, M. Kay: Semantic Abstraction and Anaphora. COLING 1990 Berechnungen (z.B. Kalenderrechnung) 1 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 2 Semantische Resolution in der -DRT: Auflösung anaphorischer Referenzen (B. Geistert) Motivation Auflösung der Referenz von Anaphern hängt von mehreren Faktoren ab: Auflösung anaphorischer Referenzen in der Sprachverarbeitung: linguistisches Wissen (Syntax und Semantik) 1. Anapher: abgekürzte linguistische Einheit, deren volle Bedeutung nur unter Weltwissen: Inferenzen werden notwendig Bezugnahme auf den Kontext geklärt werden kann, wie z.B. These: Wissensarten sind kooperativ, Information ist redundant Personalpronomen wie er, sie, es gleiche Beschränkungen bei Referenzauflösung treten in mehreren Reflexivpronomen wie sich Wissensquellen auf definite Nominalphrasen (NPs) beziehen sich auf Bekanntes, wie das Buch weitergehende (aufwendige) pragmatische Analyse ist in den meisten Fällen 2. mit dem Antezedenten (z.B. indefinite NPs — führen Objekte ein — oder nicht erforderlich. Eigennamen im vorangehenden Kontext) steht die Anapher in Beziehung (Koreferenz) Antezedent steht vor Anapher, sonst: Katapher 3 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 4 Anaphernresolution in der DRT Mehrere aufeinaderfolgende Sätze: DRS-Vereinigung Ansatz zur Behandlung von Anaphern mit prozeß- und kontextorientierter DRS-UNION Sichtweise von Semantik Mächtige allgemeine Behandlung von Anaphern durch Bindung von Variablen: Für Pronomina wird ein neuer Diskursreferent eingeführt, der mit einem bereits Kontextsensitivität über die Satzebene hinaus vorhandenen Referenten gleichgesetzt wird. Nützliche Beschränkungen der Koreferenz, die die Nicht-Akzeptierbarkeit von Problem: Wahl des passenden Antezedenten Sätzen erklärt (durch DRS-Zugänglichkeitsbeschränkungen) 5 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 6 Ansätze zur Anaphernresolution Beispiel: Maria hat ein Buch. Sie liest es. (Beachte Ankerliste) Einfache anaphorische Referenz (Allen): – Anapher und vorangehender Antezedent müssen in Numerus, Person und xywz Genus übereinstimmen – Bindungsprinzipien: regeln Arbeitsteilung zwischen Reflexiv- und Personalpronomen Maria(x) haben(x,y) – konfigurationelle, d.h. die syntaktische Oberflächenstruktur betreffenden Buch(y) Restriktionen w=x Problem: Komplexität der NP-vollständigen Anaphernresolution mit heuristischen z=y Lösungsansätzen verringern lesen(w,z) intrasententiell: Antezedent tritt im gleichen Satz auf wie die Anapher, insbesondere Reflexivpronomina intersententiell: Liste von Objekten in der history list NP im Plural: Objekte zu Mengen vereinigen 7 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 8 Anaphernresolution in der -DRT Anaphernresolution wird aufgeteilt in Stichwörtern, Tempuswechsel, . . . Diskursstruktur: Diskurs hierarchisch strukturiert: Stack-Modell, getriggert von Restriktionsmechanismen: strikte linguistische Beschränkungen; schließen Fokussierung mit Diskursfokus (worüber der Sprecher Aussagen machen will) von vorneherein den Bezug zwischen Anapher und betrachtetem Antezedent und Aktorfokus (Agent des letzten Satzes) nach Sidner: Aufwand für Inferenzen aus mit Weltwissen wird verringert Prioritätsgewichtungen: schwächere linguistische Einschränkungen; gewisse Lesarten werden gewichtet 9 Textstrom G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 10 Lexikon & Grammatik inkrementeller Chart-Parser inkrementelle Anaphernresolution kompositionale Bildung von Diskursrepräsentationstrukturen Ziel: Inkrementelle Anaphernresolution Parser erzeugt inaktive Kante mit Eintrag Die Anaphernresolution soll inkrementell erfolgen. Dazu wird die -DRT erweitert in der Liste der bindungsfähigen Diskursreferenten Beschränkung durch Beschränkungen semantische Typen Zugänglichkeitsbeschränkungen um weitere Merkmale: Schnittstellen strike grammatische für weitere anchor : Ankerlisten für Eigennamen Beschränkungen agrm: verbindet semantische mit syntaktischen Einträgen während der inaktive Kanten der Chart mit den Restriktionen genügenden, Initialisierung der Chart über Satzgrenzen hinaus aufgelösten Referenzen Gewichtung Distanz- context: Diskurskontext Parallelitäts- Fokussierungs-Topikalisierungs- Schnittstelle Gewichtung Gewichtung Gewichtung weight: Kantengewichtung für weitere Gewichtungen Beispiel: Prioritätssteuerung aus Strategie-Gewichtung und Kandidatenbewertung Vereinigung der DRSen über Satzgrenzen hinaus Strom aus DRSen (bis zum Schluss vorläufig und unvollständig) 11 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 12 Restriktionen Strikte grammatische Beschränkungen: Kongruenz morphologischer Merkmale dr: drs: 1 lambda: – Genus (im Deutschen): m, f, n — relativ wirkungsvoller Ausschluss, z.B. liest es . 1 arg: Natalia hat [ein Buch] . Sie Buch pred: con: – Numerus: Bei Plural Gruppe von Antezedenten (ohne Genusmarkierung) – Person: nur 3. Person; 1. und 2. Person immer deiktisch bdr: Gleichzeitiger Vergleich der Einträge der agrm-Listen anchor: Schlägt dieser fehl agrm: Bindungsprinzipien: Reflexivpronomina beziehen sich immer auf das Subjekt des Teilsatzes, in dem context: sie vorkommen: Peter mag sich . ; weight: betrachteter Antezedent wird nicht weiter bearbeitet 1 13 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 . Personalpronomina nicht: Peter mag ihn c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 14 Restriktionen (Forts.) Konfigurationsbeschränkungen: Bezüge von Nicht-Reflexivpronomen sind – ein Bezug von Teilen eines Summationsprädikates auf das Subjekt eines nicht zulässig, bei denen Verbs hergestellt wird, wenn das Summationsprädikat Objekt des Verbs ist, – sich mehrere anaphorische Valenzstellen ein und desselben Verbs auf den z.B. gleichen Antezedenten beziehen, z.B. Silvia lügt. Silke arbeitet. Grit schläft. . Silvia und Silke spielen. Sie mag sie . Silvia mag Silke und sie – die Anapher und der Antezedent aus einem DRS-Prädikat stammen, z.B. Prüfung der Argumente der mehrstelligen DRS-Prädikate (Verben, Summation): Susanne mag Nicole und sie Besteht Koreferenzeintrag? – sich Teile eines Summationsprädikats auf den gleichen Antezedenten beziehen, z.B. . 15 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 Andrea und Maria lügen. Peter mag sie und sie c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 16 Restriktionen (Forts.) wz DRS-Zugänglichkeitsbeschränkungen: Struktur eines Satzes spiegelt sich in der Lage der Referenten in verschieden tief verschachtelten DRSen wider, y x daraus aufgestellte Zugänglichkeitsbedingungen schränken die möglichen Anaphern bei der Resolution ein. Alle Diskursreferenten, die von einem Diskursreferenten in der DRS Buch(y) Frau(x) haben(x,y) aus zugänglich sind, kann man dadurch finden, dass die Universen derjenigen DRSen betrachtet werden, die “links” oder über der DRS lesen(w,z) liegen Beispiel: Jede Frau hat ein Buch. *Sie liest es. w=? Das Pronomen Sie darf sich nicht auf Frau, und es sich nicht auf Buch beziehen: z=? 17 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 18 Restriktionen (Forts.) Problem der Standard-DRS- Zugänglichkeitsbeschränkungen: – Koordinierte Teilsätze Antezedenten werden in belebt oder unbelebt eingeteilt, Anaphern übernehmen diesen Typ: Verbvalenzen sind in belebt/unbelebt/unspezifiziert eingeteilt, z.B. [Jede Frau] hat [ein Buch] und sie liest es . hat eine Zeitung Margit . Sie liest sie. [Jede Frau] hat [ein Buch] . Normalerweise liest sie es . – Modale Subordination Nur intersententielle Zugriffsbeschränkungen modellieren: Von den Mögliche Erweiterungen mittels inkrementeller Schnittstelle: DRSen des zurückliegenden Diskurses kommen nur die (atomaren) – Semantische Beschränkungen (Konzeptlexikon für thematische Rollen) Bedingungen auf oberster DRS-Ebene als Antezedenten überhaupt in Frage – Pragmatische Beschränkungen (Vor- und Nachbedingungen) (Ausnahme: Eigennamen kommen mit der Ankerliste nach “oben”) Semantische Restriktionen: Prüfung auf Konsistenz einfacher semantischer Typen, sobald Valenzstelle bestimmt ist. 19 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 20 Prioritätsgewichtungen Distanzgewichtung (zwischen Anapher und Antezedent): Der letzterwähnte, allen Restriktionen genügende Ausdruck ist mit hoher Wahrscheinlichkeit der syntaktische Parallelität koordinierter Satzteile richtige Antezedent. Peter schlägt Paul und Constanze tritt ihn mit dem Fuß. – In ein und demselben Satz auftretende mögliche Antezedenten werden von Maria schenkt Claudia ein Buch und sie gibt ihr eine Zeitung. der Distanz her immer gleich bewertet Denjenigen Antezedenten des ersten Teilsatzes bevorzugen, der die gleiche (durch Multiplikation mit Distanzgewichtungsfaktor – Gewichtungen werden bei jedem neuen verarbeiteten Satz abgewertet Valenzstelle eines Verbs wie die betrachtete Anapher im zweiten Teilsatz ) ausfüllt. – Wiederaufwertung bei Entscheidung für die Wiederverwendung letztmalig erwähnten Antezedenten: eines im -ten Satz ( -ten Satz gültige Distanzgewichtung Abwertung anderer Antezedenten mit Parallelitätsgewichtungsfaktor ) Im 21 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 22 Prioritätsgewichtungen (Forts.) Fokussierungsgewichtung: Markierung einer Nominalphrase als prominenter Kandidat für den anaphorischen Bezug mit grammatischen (z.B. Topikalisierungsgewichtung: im Deutschen durch Satzgliederststellung eines Demonstrativpronomina) oder prosodischen Mitteln (Betonung). Objekts, z.B. bei Hier zwei Fokussierungsalgorithmen: Sich hat Hans gewählt. – Mit grammatischen Markierungen: definite NP (statt Pronomen) Wenn die freie Wortstellung im Deutschen aufgrund von Topikalisierung in der Aufwertung zusammen mit Wiederaufwertung der Distanzgewichtung, hier DRS dargestellt werden soll, muss die Nominalphrase in Satzgliederststellung auf vom Parser als Topik markiert werden. – Vereinfachtes Modell der Diskurs- und Aktorfokus von Sidner: Aufwertung der Koreferenz auf einen topikalisierten Antezedenten mit Satz mit einem Verb mit zwei Valenzen erzeugt einen Diskursfokus (direktes Topikalisierungsgewichtungsfaktor Objekt) und einen Aktorfokus (Subjekt). Ähnlich Parallelität, aber Diskurs- und Aktorfokus können über mehrere Sätze lang unverändert bleiben. 23 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 24 Inkrementelle Anaphernresolution Vorteile eines kompositionalen und inkrementellen Ansatzes: Bei bereits kompositionaler Semantikkonstruktion sollen die Koreferenzen Beispiel ebenso aufgelöst werden können (1) Michaela hat [einen Ball] . Für die weitere, z.B. pragmatische, Verarbeitung der DRS stehen alle (2) [Den Ball] wirft Egon . Informationen so früh wie möglich bereit (3) Er ist schön. Kognitiv adäquate Vorgehensweise, bei der Bezüge schon hergestellt werden 1. Die definite Nominalphrase in Satz (2) wird vom Parser als Topik markiert können, bevor der ganze Satz verarbeitet ist. Nachteile: 2. Die Anapher er in Satz (3) erhält dann für die Referenz er die Gewichtung , 3. und für die Referenz er die Gewichtung Verarbeitung aufwendiger, da Zwischenergebnisse des Parsings betrachtet . werden müssen Intrasententielle DRS-Zugänglichkeitsbeschränkungen können nur schwer modelliert werden 25 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 Die Reihenfolge bei der kompositionalen Semantikkonstruktion könnte negative 26 Resolution von Pronomina Auswirkungen haben: Sicherstellen, dass der Informationsverlauf über die Reflexivpronomina: Antezedenten bei der kompositionalen Semantikkonstruktion dem Antezedent eines Reflexivpronomens ist Subjekt des Teilsatzes, in dem es links-nach-rechts Vorgehen nicht widerspricht, z.B. auftritt mag [eine Frau] . Sie Satzsubjekt ist Subjektstelle (1. Valenzstelle) des Verbs, in dem das Vorgehen: Reflexivpronomen als direktes oder indirektes Objekt (2. / 3.) auftritt Referenzauflösung wird mit dem Chart-Parser verbunden, der während der Personalpronomina: Verarbeitung aktive und inaktive Kanten erzeugt Alle möglichen Antezenten müssen bereits zuvor aufgetreten sein Inaktive Kanten sind zum Einhängen geeignet, da sie syntaktisch vollständig Intrasententiell: Suche in antecs-Liste analysierten Satzteilen entsprechen Intersententiell: Suche in context-drs Inaktive Kanten mit nicht aufgelöster Referenzbeziehung werden durch einen Pseudo-intrasententiell: Im Satz bereits wiederholte intersententielle Anaphern Eintrag in der bdr -Liste markiert 27 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 28 Ausblick Ergebnisse: Inkrementelle Auflösung durch Restriktionen und Prioritätsgewichtungen Resolution von definiten NPs und Eigennamen Teilweise Behandlung intrasententieller Kataphern möglich Definite NPs: Inkrementelle Vereinigung der Ergebnisse mit Kontext: Frühestmögliche Alle möglichen Antezenten müssen bereits zuvor aufgetreten sein Bereitstellung, vor Beendigung der Semantikkonstruktion Verwendung des besten Ergebnisses auf Satzebene zur Vermeidung Eigennamen: kombinatorischer Explosion Treten gleiche Eigennamen in einem Text wiederholt auf, werden ihnen Erweiterungsmöglichkeiten: Koreferenzeinträge mitgegeben (Eintrag in der bdr -Liste) Bisher nicht behandelte Phänomene bei Anaphern: DRS-Zugänglichkeitsbeschränkungen sinnlos, da die Eigennamen dieses – Allgemeine definite Beschreibungen Modell mit Hilfe der Ankerliste durchbrechen – Allgemeine Pluralanaphern – Possessivpronomina, . . . – allgemeine DRS-Zugänglichkeitsbeschränkungen 29 Verwandte Phänomene: – Verbalphrasen- und Satzanaphern – Ellipsen – Allgemeine freie Wortstellung – Allgemeine DRS-Vereinigung Resolution mit Diskursstruktur: Diskurssegmentierung Problem: Fälle, in denen nicht-linguistische Plausibilitätskriterien wichtig sind, wie z.B. Peter mag seinen Hund, obwohl er ihn manchmal beißt. G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 31 G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 c G. Görz, K. Bücher, M. Klarner, FAU Erlangen-Nürnberg, Inf. 8 30