Wie man aus Wörtern Bedeutungen macht: Semantische Typen treffen Syntaktische Dependenzen Patrick Hanks Institut für Formale und Angewandte Linguistik, Karls-Universität zu Prag, Tschechische Republik 1 Outline • Bedeutung ist kontextabhängig • Kontext besteht aus Valenz (für Englisch, Herbst et al. 2004) und Kollokation (Sinclair 1991, 2004) • Valenz alleine genügt nicht • Kollokationen allein genügen nicht • Kollokationen können in Gruppen von semantischen Typen (Pustejovsky 1995) zusammengefasst werden • Corpus Pattern Analysis (CPA) ist eine Methode der Identifizierung relevanter semantischer Typen und Kollokationen • Implikationen für linguistische Theorie • Die neue Theorie wird sich sowohl mit “normalen” Sprachgebrauchsmustern als auch mit “Sprachsgebrauchsmusterexploitationen” auseinandersetzen 2 Eine Frage von Methodologie: Korpusbasiert oder korpusgesteuert? • Warum ist es sinnvoll, einen Korpus zu benutzen? Liegt der Wert eines Korpus hauptsächlich darin, daß er uns mit Belegen versorgt, die Theorien entweder bestätigen oder entkräften? [Korpusbasierte Forschung] ODER Ist der Sinn und Zweck eines Korpus, daß er uns eine neue Perspektive darauf ermöglicht, was vor sich geht, wenn Sprache benutzt wird, so daß ggf neue Theorien formuliert werden können? [Korpusgesteuerte Forschung] Valenzen Durch Valenzen entstehen (oft) semantische Unterschiede, z.B.: das englische Verb ‘shower’: – She showered [NO OBJ] = sie duschte – She showered [NP] = sie duschte jemanden – sehr selten – kommt im BNC nicht vor. Wenn es vorkäme, wäre [NP] ein Kind oder ein Hund IM GEGENSATZ ZU: – She showered [NP1] with [NP2] = sie gab [NP1] viel/e [NP2] UND: – She showered [NP2] on [NP1] = die gleiche Bedeutung Hier wird durch das Vorhandensein bzw. Nichtvorhandensein eines Adverbials ein semantischer Kontrast erzeugt. A “Filling” verb in FrameNet, like paint, splash, cover, and many others 4 Einführung Semantische Typen • [[Human1]] shower [[Human2]] with [[Gift, PLURAL]] = [[Human1]] gibt [[Human2]] viele [[Gift, PLURAL]] – Ereignistyp: GEBEN • [[Human1]] shower [[Human2]] with [[Physical Object, PLURAL]] = [[Human1]] gibt [[Human2]] viele [[Physical Object, PLURAL]] – Ereignistyp: WERFEN • [[Human1]] shower [[Human2]] with [[Speech Act, MASS]] = [[Human1]] spricht [[Human2]] viel [[Speech Act, MASS]] aus. – Ereignistyp: SPRECHEN – [[Speech Act]] ist oft Lob oder Tadel 5 Some typical sentences in BNC She was advised to […] shower daily the church treasury was showered with gifts of the finest reliquaries they were showered with snuffboxes and other trinkets Mr Reagan was […] showered with splintered glass the DC-10 exploded, showering them with debris were among the stars who showered him with praise Chinese parents do […] shower love and attention on [..] children writs for libel were showered upon him Der semantische Typ des Subjekts kann auch relevant sein • [[Human]] shower [NP2] on [NP1] Ereignistyp: Geben oder Sprechakt – He showered gifts on the woman/ Er gab der Frau viele Geschenke – He showered abuse on us/ Er beschimpfte uns vielfach • [[Event]] shower [NP2] on [NP1] Ereignistyp: Naturereignis – The eruption showered debris on Pompeii/ Durch die Eruption wurden Gesteinsbrocken auf Pompeji geschleudert 7 Der semantische Typ des Subjekts • Die Bedeutung eines Verbs wird (oft) von den semantischen Typen seiner Argumente beeinflusst oder entschieden • Triangulation von Argumenten: Technik zur Errechnung der wahrscheinlichen Bedeutung eines Verbs im Kontext 8 Triangulation der Verbbedeutung SUBJ OBJ semantic type semantic type ADVL semantic type Semantische Typen vs. Semantische Rollen Beispiel: Das englische Verb ‘sentence’ • hat nur ein Muster: • MUSTER: [[Human 1]] sentence [[Human 2]] to [[Time Period | Event]] • IMPLIKATUR: [[Human 1 = Richter]] verurteilt [[Human 2 = Verbrecher]] zu [[{Time Period | Event} = {Gefängnisstrafe | Tod | usw.}]] • BEISPIEL: {Mr Woods} sentenced {Bailey} to {7 years}. Nichts in der intrinsischen Semantik von “Mr Woods” oder “Bailey” bedeutet ‘Richter’ oder ‘Verbrecher’. Dies sind semantische Rollen, die vom Kontext zugewiesen werden. 10 Semantische Typen vs. Semantische Rollen • Ein semantischer Typ ist eine intrinsische Eigenschaft eines lexikalischen Elements. • Eine semantische Rolle wird durch den Kontext zugewiesen. • Die Implikatur ist mit dem Muster durch die semantischen Typen der Argumente verbunden. 11 Semantische Typen und Ontologie • semantische Typen: in doppelten eckigen Klammern, e.g.: [[Human]], [[Physical Object]] • Semantische Typen werden in einer „flachen Ontologie” gespeichert. – (Daran wird derzeit (u.a.) im CPA-Projekt gearbeitet.) – Vgl. Pustejovsky, Rumshisky, and Hanks 2004 • Jeder semantische Typ in der Ontologie wird mit einem Set von lexikalischen Elementen ausgestattet sein, basierend auf den im Korpus für jedes Muster gefundenen Beispielen. 12 Sinclairs "Idiom Principle" • Es gibt im Wortgebrauch eine Spannung zwischen „terminological tendency” (terminologischer Tendenz) und „phraseological tendency” (phraseologischer Tendenz): – terminological tendency: Die Tendenz von Wörtern, in Isolation Bedeutung(en) zu tragen. – phraseological tendency: Die Tendenz von Wortbedeutungen, im Gebrauchskontext aktiviert zu werden. 13 Sinclairs "Idiom Principle" Wortbedeutungen haben zwei Tendenzen: 1) Terminologische Tendenz, 2) Phraseologische Tendenz BEISPIEL: admit, Verb (Zwei Bedeutungen, viele phraseologische Normen mit einer davon) 1) The skylights in the galleries admit light through angled screens. 2) The Baltic nations were admitted to the United Nations [in 1991]; He was admitted to hospital following a heart attack; the proportion of older children admitted into care. IM GEGENSATZ ZU: 1) He admitted stealing the money [[Bad Act]] EXPLOITATION: He admitted that he could not speak German. Construction Grammar … ist sehr wichtig, aber wäre noch besser, wenn es empirisch gut begründet ware. Spekulative Linguistik erfindet gern Beispiele und Belege, spekuliert über selbige, und stellt darauf basierend Thesen auf. BEISPIEL: “Fred/the gardener watered the flowers flat” – resultative Konstruktion, nach Goldberg and Jackendoff. Vgl. – So I cut out a straight section of wire coat hanger, heated one end until it was cherry red , hammered it flat, then … – I was knocked flat on my face … – the sheer ebullient power of his music can knock you flat Verwirrung des Möglichen mit dem Wahrscheinlichen: Das Ziel, Theorien zu entwerfen, die alle möglichen Sprachäußerungen erklären, hat dazu geführt, daß Linguistik heute in einem Meer von Spekulationen über Grenzfälle ertrinkt. CPA • CPA = Corpus Pattern Analysis (‘Korpusmusteranalyse’) • CPA konzentriert sich auf Verben, denn das Verb ist das Gelenk des Satzes • CPA ist die methodische Grundlage von PDEV (Pattern Dictionary of English Verbs) • http://nlp.fi.muni.cz/projects/cpa 16 CPA: Eine empirische Methode zur semantischen Analyse Voraussetzung: POS-getaggtes Korpus (z. B. BNC für British English) Schritte: • Sketch Engine-Ergebnisse anschauen • • • • Untersuchung jedes statistisch signifikanten Kollokats des Verbs Aktiviert es eine bestimmte Bedeutung? Wenn ja, tagge alle relevanten Korpuszeilen und erstelle ein Muster Erstelle zufallsgeneratorisch ein Subkorpus von Beispielzeilen Tagge jede Zeile im Subkorpus nach einer der folgenden Kategorien: • • • Musternummer (Neue Muster (und ihre Nummern) werden nach Bedarf hinzugefügt), ODER Exploitation von einem vorhandenen Muster, ODER Auszuschliessen (Zitat, Namensteil, tagging-Fehler, oder einfach unsinnig) 17 Sprachgebrauchsmusterexploitationen • Sprachbenutzer weichen zu verschiedenen Zwecken von den Regeln normalen Sprachgebrauchs ab: • Um sprachlich schnell und sparsam zu kommunizieren – Unterhaltungen werden schnell geführt – Zuhörer (und Leser) sind leicht gelangweilt – Manches Phrase kann weggelassen werden (aber welche?) • um Neues auszudrücken – Entdeckungsberichte, Formulieren von Hypothesen, ... • um Altes auf neue Art zu sagen – Rhetorik, Humor, Poesie, Politik … 18 Der Ausdruck “Exploitation” • Herkunft: H. P. Grice (1975), Logik and Konversation • Nach Grice ist “exploitation” eine Methode der Bedeutungsvermittlung, bei der man darauf verzichtet, explizit zu sagen, was man meint. Ein bekanntes Grice’sches Beispiel ist ein Empfehlungsschreiben für einen ehemaligen Philosophiestudenten. “Dear Sir, Mr. X’s command of English is excellent, and his attendance at lectures has been regular. ...” Die Tatsache, dass der Empfehler Philosophie gar nicht erwähnt, ist an sich vielsagend. • Ich verwende den Begriff “Exploitation” im Zusammenhang mit Wortwahl und Wortbedeutung Mustererkennung im Korpus Wenn man eine Konkordanz das erste Mal öffnet, springen nach und nach verschiedene Muster ins Auge. Je länger man hinsieht, desto mehr Muster erkennt man. – Muster basieren auf Kollokationen. – Um zu sehen, wie die Kookkurenzen von Wörtern Bedeutungen kreieren, müssen wir Kollokationen analysieren. ABER • Kollokationen neigen zur Variabilität. • Wenn man versucht, diese Muster zu formalisieren, erkennt man mehr und mehr Ausnahmen. • Die Grenzen zwischen Mustern und Ausnahmen sind verwischt. • Die meisten Verwendungen eines Wortes können einem Muster zugewiesen werden, aber es gibt fast immer einige (~10%), die ungewöhnlich sind. 20 Was ist ein Muster? • Ein Muster ist eine Festschreibung der Struktur eines Satzes (Valenz), verbunden mit der Bedeutung eines Verbs – Zusammen mit typischen semantischen Werten jedes Arguments, realisiert von salienten Kollokaten • Verschiedene semantische Werte von Argumenten aktivieren verschiedene Bedeutungen jedes Verbs. 21 Muster sind kontrastiv Beispiel: Das Verb fire • [[Human]] fire [[Firearm]] (at [[Phys Obj = Target]]) • [[Human]] fire [[Projectile]] (from [[Firearm]]) (at [[Phys Obj = Target]]) • [[Human 1]] fire [[Human 2]] • [[Anything]] fire [[Human]] {with enthusiasm} • [[Human]] fire [NO OBJ] .... (= 1 or 2, but not 3 or 4) • Etc. [12 weitere Muster für dieses Verb] 22 Ellipse • Die Ellipse ist nur unter bestimmten Umständen als Alternation zuzulassen. – Wir wissen (noch) nicht genau, unter welchen Umständen … • Der Gebrauch eines Verbs mit einem elliptischen Argument könnte ein eigenes Muster sein. ‘He fired’ kann nur bedeuten ‘He caused [[Firearm]] to discharge [[Projectile]]’ Und nicht: ‘Er entließ einen/mehrere Arbeitnehmer.’ 23 Die Hypothese von der linguistischen ‘Doppelhelix’ • Eine Sprache ist ein System von regelgeleitetem Verhalten. • Es gibt ZWEI (miteinander verbundene, interaktive) Sets von Regeln: • Regeln, die den Normalgebrauch von Wörtern regulieren • Regeln, die alle Abweichungen von der Norm regulieren. Die ‘Regeln’ stellen Wahrscheinlichkeiten – keine Notwendigkeiten – fest. 24 Wortschatz und Prototypen • Jedes Wort wird typischerweise in einem oder mehr Gebrauchsmustern (Valenz + Kollokationen) verwendet. • Jedes Muster ist mit einer Bedeutung verbunden: – Eine Bedeutung ist ein Set von prototypischen Annahmen – In CPA werden Bedeutungen als ‘verankerte Implikaturen’ ausgedrückt. – Nur wenige Muster sind mit mehr als einer Bedeutung verbunden. 25 Wortschatz und Prototypen • Anhand von Korpusdaten können wir die Muster entdecken, die mit jedem Wort auftreten (Kollokationen). • Die Verbindung zwischen Muster und Bedeutung ist typisch (und statistisch meßbar) – es gibt keine notwendige Bedingung. 26 Typen und Qualia in CPA • Der Apparat, den man für die Analyse von Nomina braucht unterscheidet sich von dem, der für Verben benutzt wird. – Plug and socket • Verben benötigen event typing und Argumentstruktur 27 Typen und Qualia in CPA • Nomina (noun-y nouns) benötigen Qualia – – – – Was für eine Art von Ding ist es? (Formal) Wofür ist es? (Telic) Woraus besteht es? (Constitutive) Was ist seine Ursprung? (Agentive) UND (stelle ich vor): – Ist es gut oder schlecht? (und für wen?): das “axiologische” Quale 28 Semantische Prosodie • Viele Wörter haben gute/neutrale/schlechte Implikationen; z.B. incite ist normalerweise schlecht. • Vgl. incite und encourage (Fast-Synonyme) • Encourage ist axiologisch neutral, incite ist negativ. – You incite people to do bad things. – I can encourage you to write a dictionary (neutral value judgement), but if I incite you to write a dictionary, I’m implying that writing dictionaries is a bad thing to do. • Sinclair nennt dieses Phänomen “semantische Prosodie”. 29 Muster-Beispiel: • Das englische Verb pander: • BEDEUTUNG: gratify or indulge (an immoral or distasteful desire OR or a person with such a desire or taste). • BEISPIELE: newspapers are pandering to people's baser instincts. … we pander to his every whim … we pander to our superiors while neglecting our subordinates. • MUSTER: [[Human 1]] pander to [[Emotion = Bad | Human 2]] • IMPLIKATUR: [[Human 1]] gratifies or indulges [[Emotion = Bad]] of [[Human 2]] • ETYMOLOGIE: von Pandarus, Name eines Charakters in Chaucers Troilus and Criseyde 30 Axiologische Komplexität • Der Gebrauch des Verbs pander to (im Vgl. zu gratify, please, or indulge) impliziert: – SPRECHER: pandering ist etwas Schlechtes. – SPRECHER: die Einstellung/Emotion von PATIENT ist schlecht. – AGENT (the panderer): pandering ist gut, obwohl Einstellung/Emotion des PATIENTEN schlecht ist. – PATIENT (the pandered-to) hat keine Meinung diesbezüglich. • Das präpositionale Objekt (nach to) kann zwei semantische Typen haben: [[Human]] oder [[Emotion]]: – Beide sind immer impliziert; Selektion ist eine Sache des Fokus. – Eine solche Alternation kommt in der Argumentstruktur sehr häufig vor. 31 Lexical conceptual paradigm (lcp) • “useful for capturing the systematic ambiguities that are so pervasive in language. ... Nouns such as newspaper appear in many semantically distinct contexts, able to function sometimes as an organization, a physical object, or the information contained in the articles within the newspaper. a. The newspapers attacked the President for raising taxes. b. Mary spilled coffee on the newspaper. c. John got angry at the newspaper.” —Pustejovsky (1995) 32 Jedes Argument eines Verbs ist ein komplexes lcp • [[Event | Human]] calm [[Animate]] – calm a hysterical patient/ calm the horses – But can you *calm a cockroach? • Not part of the lcp for “calm [[Animate]]” – not a norm – Calm {[POSDET] {nerves | anxiety} [= properties of [[Animate]] ] – Calm a riot [= behaviour of [[Animate]] ] – Calm the market [[= Location = Activity in Location = Human Group Acting in Location]] 33 Schimmernde lexikalische Sets • Lexikalische Sets sind nicht stabil • Beispiel aus Hanks and Jezek (2008): – [[Human]] attend [[Event]] – [[Event]] = meeting/Treffen, wedding/Hochzeit, funeral/Beerdigung, etc. – Aber nicht alle Ereignisse: nicht thunderstorm/Gewitter, suicide/Selbstmord. – und nicht nur Ereignisse: attend school, attend a clinic • Ein weiteres Muster für attend: – [[Human 1]] attend [[Human 2 = High Status]] 34 Bedeutungen und Grenzen • Grenzen aller linguistischen und lexikalischen Kategorien sind verschwommen. – Es gibt zahllose schwierige Grenzfälle. • Anstatt über Grenzen zu streiten, sollten wir Prototypen identifizieren. • Anschliessend wird man in der Lage sein, zu entscheiden, was womit korreliert. – Viele Entscheidungen werden offensichtlich sein. – Einige Entscheidungen – insbesondere bezüglich Grenzfällen – werden willkürlich getroffen werden. 35 Korpuslinguistik Korpuslinguistik hat gezeigt, daß natürliches linguistisches Verhalten viel stärker geregelt[?] ist, als die meisten von uns dachten. Viele Muster sind entdeckt worden; andere werden ohne Zweifel noch entdeckt werden. Alle bisherigen theoretischen Spekulationen müssen im Licht der neuen Korpusdaten neu bewertet warden. Gibt es dennoch einen Daseinszweck für spekulative Linguistik? Meine Antworten: Für die Interpretation von Daten: Ja. Für die Erfindung von Daten: Hmmm. Eher nicht. Aber kontrastive negative Beispiele (“You can’t say X”) können durch korpuslinguistische Methoden nicht entdeckt werden. Zusammenfassende Bemerkungen Sprache ist ein analoges System – oder eine verwirrende Mischung von Analogie und Prädikatenlogik. Außerhalb mathematischer Logik gibt es keine scharfen Grenzen. Kollokationen sind analoge Sets. Kollokationen können – und müssen – gemessen warden, wenn wir die Grundlagen von Bedeutung verstehen wollen. Bedeutungen sind holistisch – der Feind ist geistlose Kompositionalität (bzw. grammatikalischer Reduktionismus). Phraseologie! Wahrscheinlichkeiten! Statistik! Current work in progress • Hanks (forthcoming): Analyzing the Lexicon: Norms and Exploitations. MIT Press. – A corpus-driven, lexically based theory of meaning in language • Linked to PDEV (A Pattern Dictionary of English Verbs) by CPA (Corpus Pattern Analysis) – A basic infrastructure resource – 468 verbs analyzed and released, freely available – http://nlp.fi.muni.cz/projects/cpa – Experiments with automating the analytical procedure and applying the results for NLP (IR, MT, …) and language teaching (lexical syllabus design) – Building a shallow ontology is in progress 38