Was ist ein Muster?

Werbung
Wie man aus Wörtern
Bedeutungen macht:
Semantische Typen treffen
Syntaktische Dependenzen
Patrick Hanks
Institut für Formale und Angewandte Linguistik,
Karls-Universität zu Prag, Tschechische Republik
1
Outline
• Bedeutung ist kontextabhängig
• Kontext besteht aus Valenz (für Englisch, Herbst et al. 2004) und
Kollokation (Sinclair 1991, 2004)
• Valenz alleine genügt nicht
• Kollokationen allein genügen nicht
• Kollokationen können in Gruppen von semantischen Typen (Pustejovsky
1995) zusammengefasst werden
• Corpus Pattern Analysis (CPA) ist eine Methode der Identifizierung
relevanter semantischer Typen und Kollokationen
• Implikationen für linguistische Theorie
• Die neue Theorie wird sich sowohl mit “normalen”
Sprachgebrauchsmustern als auch mit “Sprachsgebrauchsmusterexploitationen” auseinandersetzen
2
Eine Frage von Methodologie:
Korpusbasiert oder korpusgesteuert?
• Warum ist es sinnvoll, einen Korpus zu benutzen?
Liegt der Wert eines Korpus hauptsächlich darin, daß er uns mit
Belegen versorgt, die Theorien entweder bestätigen oder
entkräften?
[Korpusbasierte Forschung]
ODER
Ist der Sinn und Zweck eines Korpus, daß er uns eine neue
Perspektive darauf ermöglicht, was vor sich geht, wenn Sprache
benutzt wird, so daß ggf neue Theorien formuliert werden können?
[Korpusgesteuerte Forschung]
Valenzen
Durch Valenzen entstehen (oft) semantische Unterschiede,
z.B.: das englische Verb ‘shower’:
– She showered [NO OBJ] = sie duschte
– She showered [NP] = sie duschte jemanden
– sehr selten – kommt im BNC nicht vor. Wenn es vorkäme, wäre [NP]
ein Kind oder ein Hund
IM GEGENSATZ ZU:
– She showered [NP1] with [NP2] = sie gab [NP1] viel/e [NP2]
UND:
– She showered [NP2] on [NP1] = die gleiche Bedeutung
Hier wird durch das Vorhandensein bzw. Nichtvorhandensein
eines Adverbials ein semantischer Kontrast erzeugt.
A “Filling” verb in FrameNet, like paint, splash, cover, and many others
4
Einführung Semantische Typen
• [[Human1]] shower [[Human2]] with [[Gift, PLURAL]]
= [[Human1]] gibt [[Human2]] viele [[Gift, PLURAL]]
– Ereignistyp: GEBEN
• [[Human1]] shower [[Human2]] with [[Physical Object,
PLURAL]]
= [[Human1]] gibt [[Human2]] viele [[Physical Object, PLURAL]]
– Ereignistyp: WERFEN
• [[Human1]] shower [[Human2]] with [[Speech Act, MASS]]
= [[Human1]] spricht [[Human2]] viel [[Speech Act, MASS]] aus.
– Ereignistyp: SPRECHEN
– [[Speech Act]] ist oft Lob oder Tadel
5
Some typical sentences in BNC
She was advised to […]
shower
daily
the church treasury was
showered
with gifts of the finest reliquaries
they were
showered
with snuffboxes and other trinkets
Mr Reagan was […]
showered
with splintered glass
the DC-10 exploded,
showering
them with debris
were among the stars who showered
him with praise
Chinese parents do […]
shower
love and attention on [..] children
writs for libel were
showered
upon him
Der semantische Typ des Subjekts
kann auch relevant sein
• [[Human]] shower [NP2] on [NP1]
Ereignistyp: Geben oder Sprechakt
– He showered gifts on the woman/ Er gab der Frau viele
Geschenke
– He showered abuse on us/ Er beschimpfte uns vielfach
• [[Event]] shower [NP2] on [NP1]
Ereignistyp: Naturereignis
– The eruption showered debris on Pompeii/ Durch die Eruption
wurden Gesteinsbrocken auf Pompeji geschleudert
7
Der semantische Typ des Subjekts
• Die Bedeutung eines Verbs wird (oft) von den
semantischen Typen seiner Argumente beeinflusst
oder entschieden
• Triangulation von Argumenten: Technik zur
Errechnung der wahrscheinlichen Bedeutung eines
Verbs im Kontext
8
Triangulation der Verbbedeutung
SUBJ
OBJ
semantic
type
semantic
type
ADVL
semantic
type
Semantische Typen vs. Semantische
Rollen
Beispiel: Das englische Verb ‘sentence’
• hat nur ein Muster:
• MUSTER: [[Human 1]] sentence [[Human 2]] to [[Time
Period | Event]]
• IMPLIKATUR: [[Human 1 = Richter]] verurteilt [[Human 2
= Verbrecher]] zu [[{Time Period | Event} =
{Gefängnisstrafe | Tod | usw.}]]
• BEISPIEL: {Mr Woods} sentenced {Bailey} to {7 years}.
Nichts in der intrinsischen Semantik von “Mr Woods” oder
“Bailey” bedeutet ‘Richter’ oder ‘Verbrecher’. Dies sind
semantische Rollen, die vom Kontext zugewiesen werden.
10
Semantische Typen vs. Semantische
Rollen
• Ein semantischer Typ ist eine intrinsische Eigenschaft
eines lexikalischen Elements.
• Eine semantische Rolle wird durch den Kontext
zugewiesen.
• Die Implikatur ist mit dem Muster durch die semantischen
Typen der Argumente verbunden.
11
Semantische Typen und Ontologie
• semantische Typen: in doppelten eckigen
Klammern, e.g.: [[Human]], [[Physical Object]]
• Semantische Typen werden in einer „flachen
Ontologie” gespeichert.
– (Daran wird derzeit (u.a.) im CPA-Projekt gearbeitet.)
– Vgl. Pustejovsky, Rumshisky, and Hanks 2004
• Jeder semantische Typ in der Ontologie wird mit einem Set
von lexikalischen Elementen ausgestattet sein, basierend
auf den im Korpus für jedes Muster gefundenen
Beispielen.
12
Sinclairs "Idiom Principle"
• Es gibt im Wortgebrauch eine Spannung zwischen
„terminological tendency” (terminologischer
Tendenz) und „phraseological tendency”
(phraseologischer Tendenz):
– terminological tendency: Die Tendenz von Wörtern, in
Isolation Bedeutung(en) zu tragen.
– phraseological tendency: Die Tendenz von
Wortbedeutungen, im Gebrauchskontext aktiviert zu
werden.
13
Sinclairs "Idiom Principle"
Wortbedeutungen haben zwei Tendenzen:
1) Terminologische Tendenz, 2) Phraseologische Tendenz
BEISPIEL: admit, Verb (Zwei Bedeutungen, viele phraseologische
Normen mit einer davon)
1) The skylights in the galleries admit light through angled screens.
2) The Baltic nations were admitted to the United Nations [in 1991]; He
was admitted to hospital following a heart attack; the proportion of
older children admitted into care.
IM GEGENSATZ ZU:
1) He admitted stealing the money [[Bad Act]]
EXPLOITATION: He admitted that he could not speak German.
Construction Grammar
… ist sehr wichtig, aber
wäre noch besser, wenn es empirisch gut begründet ware.
Spekulative Linguistik erfindet gern Beispiele und Belege, spekuliert über
selbige, und stellt darauf basierend Thesen auf.
BEISPIEL: “Fred/the gardener watered the flowers flat” – resultative
Konstruktion, nach Goldberg and Jackendoff. Vgl.
– So I cut out a straight section of wire coat hanger, heated one end
until it was cherry red , hammered it flat, then …
– I was knocked flat on my face …
– the sheer ebullient power of his music can knock you flat
Verwirrung des Möglichen mit dem Wahrscheinlichen: Das Ziel, Theorien
zu entwerfen, die alle möglichen Sprachäußerungen erklären, hat dazu
geführt, daß Linguistik heute in einem Meer von Spekulationen über
Grenzfälle ertrinkt.
CPA
• CPA = Corpus Pattern Analysis (‘Korpusmusteranalyse’)
• CPA konzentriert sich auf Verben, denn das Verb ist das
Gelenk des Satzes
• CPA ist die methodische Grundlage von PDEV (Pattern
Dictionary of English Verbs)
• http://nlp.fi.muni.cz/projects/cpa
16
CPA: Eine empirische Methode zur
semantischen Analyse
Voraussetzung: POS-getaggtes Korpus (z. B. BNC für British English)
Schritte:
• Sketch Engine-Ergebnisse anschauen
•
•
•
•
Untersuchung jedes statistisch signifikanten Kollokats des Verbs
Aktiviert es eine bestimmte Bedeutung? Wenn ja, tagge alle relevanten
Korpuszeilen und erstelle ein Muster
Erstelle zufallsgeneratorisch ein Subkorpus von Beispielzeilen
Tagge jede Zeile im Subkorpus nach einer der folgenden
Kategorien:
•
•
•
Musternummer (Neue Muster (und ihre Nummern) werden nach Bedarf
hinzugefügt), ODER
Exploitation von einem vorhandenen Muster, ODER
Auszuschliessen (Zitat, Namensteil, tagging-Fehler, oder einfach unsinnig)
17
Sprachgebrauchsmusterexploitationen
• Sprachbenutzer weichen zu verschiedenen Zwecken von
den Regeln normalen Sprachgebrauchs ab:
• Um sprachlich schnell und sparsam zu kommunizieren
– Unterhaltungen werden schnell geführt
– Zuhörer (und Leser) sind leicht gelangweilt
– Manches Phrase kann weggelassen werden (aber
welche?)
• um Neues auszudrücken
– Entdeckungsberichte, Formulieren von Hypothesen, ...
• um Altes auf neue Art zu sagen
– Rhetorik, Humor, Poesie, Politik …
18
Der Ausdruck “Exploitation”
• Herkunft: H. P. Grice (1975), Logik and Konversation
• Nach Grice ist “exploitation” eine Methode der
Bedeutungsvermittlung, bei der man darauf verzichtet, explizit
zu sagen, was man meint. Ein bekanntes Grice’sches Beispiel ist
ein Empfehlungsschreiben für einen ehemaligen
Philosophiestudenten.
“Dear Sir, Mr. X’s command of English is excellent, and his
attendance at lectures has been regular. ...”
Die Tatsache, dass der Empfehler Philosophie gar nicht erwähnt,
ist an sich vielsagend.
• Ich verwende den Begriff “Exploitation” im Zusammenhang mit
Wortwahl und Wortbedeutung
Mustererkennung im Korpus
Wenn man eine Konkordanz das erste Mal öffnet, springen
nach und nach verschiedene Muster ins Auge. Je länger
man hinsieht, desto mehr Muster erkennt man.
– Muster basieren auf Kollokationen.
– Um zu sehen, wie die Kookkurenzen von Wörtern Bedeutungen
kreieren, müssen wir Kollokationen analysieren.
ABER
• Kollokationen neigen zur Variabilität.
• Wenn man versucht, diese Muster zu formalisieren, erkennt man mehr
und mehr Ausnahmen.
• Die Grenzen zwischen Mustern und Ausnahmen sind verwischt.
• Die meisten Verwendungen eines Wortes können einem Muster
zugewiesen werden, aber es gibt fast immer einige (~10%), die
ungewöhnlich sind.
20
Was ist ein Muster?
• Ein Muster ist eine Festschreibung der Struktur
eines Satzes (Valenz), verbunden mit der
Bedeutung eines Verbs
– Zusammen mit typischen semantischen Werten
jedes Arguments, realisiert von salienten Kollokaten
• Verschiedene semantische Werte von Argumenten
aktivieren verschiedene Bedeutungen jedes Verbs.
21
Muster sind kontrastiv
Beispiel: Das Verb fire
• [[Human]] fire [[Firearm]] (at [[Phys Obj = Target]])
• [[Human]] fire [[Projectile]] (from [[Firearm]]) (at [[Phys
Obj = Target]])
• [[Human 1]] fire [[Human 2]]
• [[Anything]] fire [[Human]] {with enthusiasm}
• [[Human]] fire [NO OBJ] .... (= 1 or 2, but not 3 or 4)
• Etc. [12 weitere Muster für dieses Verb]
22
Ellipse
• Die Ellipse ist nur unter bestimmten Umständen als
Alternation zuzulassen.
– Wir wissen (noch) nicht genau, unter welchen
Umständen …
• Der Gebrauch eines Verbs mit einem elliptischen Argument
könnte ein eigenes Muster sein.
‘He fired’ kann nur bedeuten ‘He caused [[Firearm]] to
discharge [[Projectile]]’
Und nicht: ‘Er entließ einen/mehrere Arbeitnehmer.’
23
Die Hypothese von der linguistischen
‘Doppelhelix’
• Eine Sprache ist ein System von regelgeleitetem Verhalten.
• Es gibt ZWEI (miteinander verbundene, interaktive) Sets
von Regeln:
• Regeln, die den Normalgebrauch von Wörtern
regulieren
• Regeln, die alle Abweichungen von der Norm
regulieren.
Die ‘Regeln’ stellen Wahrscheinlichkeiten – keine
Notwendigkeiten – fest.
24
Wortschatz und Prototypen
• Jedes Wort wird typischerweise in einem oder
mehr Gebrauchsmustern (Valenz + Kollokationen)
verwendet.
• Jedes Muster ist mit einer Bedeutung verbunden:
– Eine Bedeutung ist ein Set von prototypischen Annahmen
– In CPA werden Bedeutungen als ‘verankerte Implikaturen’
ausgedrückt.
– Nur wenige Muster sind mit mehr als einer Bedeutung
verbunden.
25
Wortschatz und Prototypen
• Anhand von Korpusdaten können wir die Muster
entdecken, die mit jedem Wort auftreten (Kollokationen).
• Die Verbindung zwischen Muster und Bedeutung ist
typisch (und statistisch meßbar) – es gibt keine
notwendige Bedingung.
26
Typen und Qualia in CPA
• Der Apparat, den man für die Analyse von
Nomina braucht unterscheidet sich von dem, der
für Verben benutzt wird.
– Plug and socket
• Verben benötigen event typing und Argumentstruktur
27
Typen und Qualia in CPA
• Nomina (noun-y nouns) benötigen Qualia
–
–
–
–
Was für eine Art von Ding ist es? (Formal)
Wofür ist es? (Telic)
Woraus besteht es? (Constitutive)
Was ist seine Ursprung? (Agentive)
UND (stelle ich vor):
– Ist es gut oder schlecht? (und für wen?): das
“axiologische” Quale
28
Semantische Prosodie
• Viele Wörter haben gute/neutrale/schlechte Implikationen; z.B. incite ist normalerweise schlecht.
• Vgl. incite und encourage (Fast-Synonyme)
• Encourage ist axiologisch neutral, incite ist negativ.
– You incite people to do bad things.
– I can encourage you to write a dictionary (neutral value
judgement), but if I incite you to write a dictionary, I’m
implying that writing dictionaries is a bad thing to do.
• Sinclair nennt dieses Phänomen “semantische
Prosodie”.
29
Muster-Beispiel:
• Das englische Verb pander:
• BEDEUTUNG: gratify or indulge (an immoral or distasteful
desire OR or a person with such a desire or taste).
• BEISPIELE: newspapers are pandering to people's baser
instincts. … we pander to his every whim … we pander to
our superiors while neglecting our subordinates.
• MUSTER: [[Human 1]] pander to [[Emotion = Bad | Human 2]]
• IMPLIKATUR: [[Human 1]] gratifies or indulges [[Emotion =
Bad]] of [[Human 2]]
• ETYMOLOGIE: von Pandarus, Name eines Charakters in
Chaucers Troilus and Criseyde
30
Axiologische Komplexität
• Der Gebrauch des Verbs pander to (im Vgl. zu gratify,
please, or indulge) impliziert:
– SPRECHER: pandering
ist etwas Schlechtes.
– SPRECHER: die Einstellung/Emotion von PATIENT ist
schlecht.
– AGENT (the panderer): pandering ist gut, obwohl
Einstellung/Emotion des PATIENTEN schlecht ist.
– PATIENT (the pandered-to) hat keine Meinung diesbezüglich.
• Das präpositionale Objekt (nach to) kann zwei semantische
Typen haben: [[Human]] oder [[Emotion]]:
– Beide sind immer impliziert; Selektion ist eine Sache des
Fokus.
– Eine solche Alternation kommt in der Argumentstruktur sehr
häufig vor.
31
Lexical conceptual paradigm (lcp)
• “useful for capturing the systematic ambiguities that are so
pervasive in language. ... Nouns such as newspaper appear
in many semantically distinct contexts, able to function
sometimes as an organization, a physical object, or the
information contained in the articles within the newspaper.
a. The newspapers attacked the President for raising taxes.
b. Mary spilled coffee on the newspaper.
c. John got angry at the newspaper.”
—Pustejovsky (1995)
32
Jedes Argument eines Verbs ist ein
komplexes lcp
• [[Event | Human]] calm [[Animate]]
– calm a hysterical patient/ calm the horses
– But can you *calm a cockroach?
• Not part of the lcp for “calm [[Animate]]” – not a norm
– Calm {[POSDET] {nerves | anxiety} [= properties of
[[Animate]] ]
– Calm a riot [= behaviour of [[Animate]] ]
– Calm the market [[= Location = Activity in Location =
Human Group Acting in Location]]
33
Schimmernde lexikalische Sets
• Lexikalische Sets sind nicht stabil
• Beispiel aus Hanks and Jezek (2008):
– [[Human]] attend [[Event]]
– [[Event]] = meeting/Treffen, wedding/Hochzeit,
funeral/Beerdigung, etc.
– Aber nicht alle Ereignisse: nicht thunderstorm/Gewitter,
suicide/Selbstmord.
– und nicht nur Ereignisse: attend school, attend a clinic
• Ein weiteres Muster für attend:
– [[Human 1]] attend [[Human 2 = High Status]]
34
Bedeutungen und Grenzen
• Grenzen aller linguistischen und lexikalischen
Kategorien sind verschwommen.
– Es gibt zahllose schwierige Grenzfälle.
• Anstatt über Grenzen zu streiten, sollten wir
Prototypen identifizieren.
• Anschliessend wird man in der Lage sein, zu
entscheiden, was womit korreliert.
– Viele Entscheidungen werden offensichtlich sein.
– Einige Entscheidungen – insbesondere bezüglich
Grenzfällen – werden willkürlich getroffen werden.
35
Korpuslinguistik
Korpuslinguistik hat gezeigt, daß natürliches linguistisches
Verhalten viel stärker geregelt[?] ist, als die meisten von uns
dachten.
Viele Muster sind entdeckt worden; andere werden ohne Zweifel
noch entdeckt werden.
Alle bisherigen theoretischen Spekulationen müssen im Licht der
neuen Korpusdaten neu bewertet warden.
Gibt es dennoch einen Daseinszweck für spekulative Linguistik?
Meine Antworten:
Für die Interpretation von Daten: Ja.
Für die Erfindung von Daten: Hmmm. Eher nicht.
Aber kontrastive negative Beispiele (“You can’t say X”) können
durch korpuslinguistische Methoden nicht entdeckt werden.
Zusammenfassende Bemerkungen
Sprache ist ein analoges System – oder eine verwirrende
Mischung von Analogie und Prädikatenlogik.
Außerhalb mathematischer Logik gibt es keine scharfen
Grenzen.
Kollokationen sind analoge Sets.
Kollokationen können – und müssen – gemessen warden,
wenn wir die Grundlagen von Bedeutung verstehen
wollen.
Bedeutungen sind holistisch – der Feind ist geistlose
Kompositionalität (bzw. grammatikalischer
Reduktionismus).
Phraseologie! Wahrscheinlichkeiten! Statistik!
Current work in progress
• Hanks (forthcoming): Analyzing the Lexicon: Norms and
Exploitations. MIT Press.
– A corpus-driven, lexically based theory of meaning in
language
• Linked to PDEV (A Pattern Dictionary of English Verbs)
by CPA (Corpus Pattern Analysis)
– A basic infrastructure resource
– 468 verbs analyzed and released, freely available
– http://nlp.fi.muni.cz/projects/cpa
– Experiments with automating the analytical procedure
and applying the results for NLP (IR, MT, …) and
language teaching (lexical syllabus design)
– Building a shallow ontology is in progress
38
Herunterladen