Learning Expressive Models for Word Sense Disambiguation

Werbung
Lucia Specia – Mark Stevenson –
Maria das Graças V. Nunes:
Learning Expressive Models for Word
Sense Disambiguation
Referat
Galina Sîrcu
Éva Mújdricza
Maschinelles Lernen WS07/08, Dozent: Philipp Cimiano
Ruprecht-Karls-Universität Heidelberg
23.01.2007
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
2
Einleitung: Motivation
 Das Papier präsentiert einen neuen Ansatz für das
Disambiguierungsproblem auf Wortebene.
 Methode:
– hybrid:
• korpusbasiert +
• bezieht Hintergrundwissen ein
– relational: benutzt einen ILP-Algorithmus
Learning Expressive Models for WSD
3
Word Sense Disambiguation
 Lexikalische Ambiguitäten sind eine der wichtigsten
Hindernisse des erfolgreichen Sprachverstehens.
→ Ziel: Word Sense Disambiguation (WSD)
 Zum WSD wird der Kontext betrachtet.
 z.B. „run”
– ’to move fast by using one’s feet’
– ’to direct or control’
 Anwendungen der WSD:
– Informationsgewinnung, Informationserschließung,
maschinelle Übersetzung
Learning Expressive Models for WSD
4
WSD-Systeme: 3 Ansätze für den Aufbau
 a) wissensbasierte Systeme: nutzen linguistisches Wissen,
manual kodiert oder aus lexikalischen Quellen extrahiert.
 b) korpusbasierte Systeme: nehmen aus Korpora automatisch
erhaltenes flaches Wissen, und induzieren das
Disambiguierungsmodell mit statistischen oder maschinellen
Lernalgorithmen.
 c) hybride Systeme: eine Mischung aus a) und b) –
automatisches Erstellen von Disambiguierungsmodellen aus
Korpora mit Hilfe von linguistischen Wissen.
Learning Expressive Models for WSD
5
Traditionelle Methode
 Gängige Methoden:
– korpusbasiert mit verschiedenen lexikalischen Ressourcen
– mit überwachtem Training
– möglichst ohne linguistisches Wissen
– liefern auch gute Ergebnisse
 Nachteil: eingeschränkte Wissensrepräsentation und
Modellierungstechniken.
(herkömmliche Algorithmen zum maschinellen Lernen, bzw. Attribut-WertVektoren zur Instanzrepräsentation)
→ Schwierigkeiten bei tiefen Wissensquellen
(d.h. direkt aus dem Korpus extrahiertes Wissen, z.B.: Wortbündel (bags-ofwords) oder Kollokationen, oder bereitgestellt von flachen Natural Language
Tools wie POS-Taggers.)
Learning Expressive Models for WSD
6
Traditionelle Methode
 Tiefes Wissen: z.B. Auswahlpräferenzen (selectional
preferences)
– wird entweder in einer Vektor-Repräsentation umgesetzt, die
an den Lernalgorithmus angepasst ist,
– oder es wird zur Ausfilterung möglicher Bedeutungen
verwendet.
 Aber: Das führt zum Informationsverlust → tiefe Wissensquellen
können ihre Wirkung im Lernprozess nicht ausüben!
 Folge: Die Modelle spiegeln nur das flache Wissen wider, das
vom Lernalgorithmus unterstützt wird.
Learning Expressive Models for WSD
7
Hybride Systeme
 Hybride Systeme kombinieren die Vorteile beider Strategien.
– kombinieren Hintergrundwissen mit aus dem Korpus
gewonnenen Merkmalen (corpus-based evidence).
– nützlich bei Aufgaben, bei denen tiefes Wissen nötig ist.
 Linguistische Wissensquellen: WordNet, elektronische
Wörterbücher, Parser.
 Repräsentation des tiefen Wissens über Beispiele:
– Formalismus erster Ordnung (first-order formalism) +
– leistungsstarke Modellierungstechnik für die Erschließung
der Regeln, die auf den Beispielen und dem
Hintergrundwissen basieren.
• Verfahren: ILP = induktive logische Programmierung
(bisher noch nicht auf WSD angewendet!)
Learning Expressive Models for WSD
8
Relationale Systeme
 Relationale Systeme unterstützen das Einbinden von
unterschiedlichem Hintergrundwissen. Die Repräsentation ist
mächtig genug, kontextuelle Relationen darstellen zu können.
 Jedes Beispiel wird von den anderen unabhängig repräsentiert;
so ist das Datenseltenheitsproblem (data sparseness problem)
minimiert.
 z.B.: John and Anna gave Mary a present.
– has_subject(verb, subject)
• has_subject(give, john)
• has_subject(give, anna)
Learning Expressive Models for WSD
9
Hybride relationale Systeme
 Annahme: Die Kombination von hybriden und relationalen
Methoden erhöht die Leistung des WSD-Systems.
– Wenn ein sehr ausdrucksstarker Repräsentationsformalismus mit einer Reihe von (tiefen und flachen)
Wissensquellen und ILP als Lerntechnik eingesetzt wird,
kann man ein Modell generieren, das eine höhere
Genauigkeit hat und für den Menschen einfacher
interpretierbar ist, als die herkömmlichen Algorithmen für
maschinelles Lernen.
Learning Expressive Models for WSD
10
Hybride relationale Systeme
 Bisher waren die WSD-Systeme am erfolgreichsten bei Nomen.
 Die Disambiguierung der Verben wird unterstützt von mehr
spezifischeren Wissensbasen, z.B. Relationen zwischen dem
Verb und anderen Elementen im Satz.
– Annahme: für die Disambiguierung der Verben eignet sich
ILP.
 WSD wurde bisher immer wieder als eine in sich geschlossene,
eigenständige Aufgabe dargestellt.
 Aber: Ein angemessen spezialisiertes WSD-Modul kann die
Leistungsfähigkeit eines mehrsprachigen maschinellen
Übersetzungssystems erhöhen.
Learning Expressive Models for WSD
11
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
12
Konkrete Aufgabe
 Übersetzung mit WSD-Komponent:
– mehrsprachiges Modul: 10 häufig vorkommende, hochambige
englische Verben ins Portugiesische zu übersetzen.
– einsprachiges Modul: 32 englische Verben aus dem
Senseval-3-Beispiele zu disambiguieren.
 Dazu werden 12 syntaktische, semantische und pragmatische
Merkmale als Wissensbasis genommen.
– Davon werden mit Hilfe von Aleph Regeln generiert =
A Learning Engine for Proposing Hypotheses:
• in PROLOG
• hat einen kompletten Inferenzmechanismus
• iterative Schritte
Learning Expressive Models for WSD
13
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
14
Zielfunktion
 Die Inferenzmaschine erzeugt eine symbolische Regelmenge
(anhand von Beispielen, Hintergrundwissen und einer Reihe von
Umgebungen (settings), die das zu lernende Prädikat
spezifizieren).
 Die zu lernende Hypothese ist eine Klausel mit dem Kopf sense
(die Bedeutung des Verbs in einem Satz) → Ziel ist es, Regeln
der folgenden Form zu lernen:
sense(snt, sense) ← Merkmale
 Die gelernte Hypothese ist leicht zu interpretieren.
 Die Regeln sind von verschiedener Tiefe.
Learning Expressive Models for WSD
15
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
16
Merkmale / Hintergrundwissen
Beispielsatz:
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
Learning Expressive Models for WSD
17
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS1: has_bag(snt, word)
– Wortbündel (bag-of-word) – Kontext von 5 Wörtern rechts und
links vom Verb, wobei Stoppwörter nicht betrachtet werden.
– has_bag(snt1, mind), has_bag(snt1, not), ...
 KS2: has_bigram(snt, word1, word2)
– Die mindestens zehn mal im Korpus vorkommenden
Bigramme werden notiert.
– has_bigram(snt1, back, as), has_bigram(snt1, such, a)
Learning Expressive Models for WSD
18
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS3: has_narrow(snt, word_position, word)
– Ein enger Kontext von 5 Wörtern rechts und links vom Verb.
– has_narrow(snt1, 1st_word_left, mind), has_narrow(snt1,
1st_word_right, back)
 KS4: has_pos(snt, word_position, word)
– POS-Tags von 5 Wörtern rechts und links vom Verb.
– has_position(snt1, 1st_word_left, nn), has_position(snt1,
1st_word_right, rb)
Learning Expressive Models for WSD
19
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS5: has_collocation(snt, type, collocation)
– 11 Kollokationen:
• erste Präposition nach rechts
• erstes und zweites Wort links und rechts
• erstes Nomen links und rechts
• erstes Adjektiv links und rechts
• erstes Verb links und rechts
– has_collocation(snt1, 1st_prep_right, back),
has_collocation(snt1, 1st_noun_left, mind)
Learning Expressive Models for WSD
20
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS6: has_rel(snt, type, word)
– Subjekt und Objekt (durch Minipar ermittelt)
– has_rel(snt1, subject, i), has_rel(snt1, object, nil)
Learning Expressive Models for WSD
21
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS7: has_related_pair(snt, word1, word2)
– mehr als 10mal vorkommende grammatische Relationen (mit
Minipar ermittelt)
• Verb – Subjekt
• Verb – Modifizierer/Argument
• Subjekt – Modifizierer
• Objekt – Modifizierer
• has_related_pair(snt1, there, be)
Learning Expressive Models for WSD
22
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS8: has_overlapping(snt, translation)
– Die Bedeutung mit der höchsten Anzahl von überlappenden
Wörtern aus dem Wörterbuch und dem Satz (ausschließlich
Stoppwörter).
– has_overlapping(snt1, voltar)
Learning Expressive Models for WSD
23
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 KS9: satisfy_restriction(snt, rest_subject, rest_object)
– (Mit LDOCE definierte) Selektionsbeschränkungen des Verbs.
Dazu wird WordNet benutzt, wenn die Beschränkungen von
der Argumentstruktur des Verbs festgelegt werden, aber man
sie aus Synonymen oder Hyperonymen der Argumente
ermitteln kann.
– satisfy_restriction(snt1, [human], nil), satisfy_restriction(snt1,
[animal, human], nil)
Learning Expressive Models for WSD
24
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 K10: has_expression(snt, verbal_expression)
– nur für das mehrsprachige Tool
– phrasale Verben
– has_expression(snt1, „come back”)
Learning Expressive Models for WSD
25
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 K11: has_bag_trns(snt, portuguese_word)
– nur für das mehrsprachige Tool
– 5 Wörter rechts und links vom Zielverb in der portugiesischen
Übersetzung. Diese werden mit Hilfe von parallelen Korpora
ermittelt.
– has_bag_trns(snt1, coelho), has_bag_trns(snt1,
reincarnação)
Learning Expressive Models for WSD
26
Merkmale / Hintergrundwissen
„If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.“
 K12: has_narrrow_trns(snt, word_position,
portuguese_word)
– nur für das mehrsprachige Tool
– Enger Kontext von 5 Kollokationen des Verbs in der
portugiesischen Übersetzung, wobei auch die Position des
Wortes in Bezug genommen wird.
– has_narrrow_trns(snt1, 1st_word_right, como),
has_narrrow_trns(snt1, 2nd_word_right, um)
Learning Expressive Models for WSD
27
Beispiele für Regeln (mehrspr. Modul)
 „If there is such a thing as reincarnation, I would not mind coming
back as a squirrel.”
 Rule_1. sense(A, voltar) :has_collocation(A, 1st_prep_right, back).
 Rule_2. sense(A, chegar) :has_rel(A, subj, B), has_bigram(A, today, B), has_bag_trans(A,
hoje).
 Rule_3. sense(A, chegar) :satisfy_restriction(A, [animal, human], [concrete]);
has_expression(A, 'come at').
 Rule_4. sense(A, vir) :satisfy_restriction(A, [animate], nil); (has_rel(A, subj, B),
(has_pos(A, B, nnp); has_pos(A, B, prp))).
Learning Expressive Models for WSD
28
Erklärungen für die Beispielregeln
 Rule 1: Die Übersetzung des Verbs im Satz A ist voltar (‚return’),
wenn als erste Präposition rechts vom Verb im Satz back steht.
 Rule 2: Die Übersetzung des Verbs ist chegar (‚arrive’), wenn es
ein Subjekt B hat, das mit dem Wort today als Bigramm
vorkommt, und wenn der teilweise übersetzte Satz das Wort hoje
(‚today’) enthält.
 Rule 3: Die Übersetzung des Verbs ist chegar (‚reach’), wenn das
Subjekt des Verbs das Merkmal [animal] oder [human] hat, und
das Objekt das Merkmal [concrete] hat, oder wenn das Verb im
Ausdruck come at vorkommt.
 Rule 4: Die Übersetzung des Verbs ist vir (‚move toward’), wenn
das Subjekt des Verbs das Merkmal [animate] hat und es kein
Objekt im Satz gibt, oder wenn das Verb ein Subjekt B hat, das
ein Eigenname oder ein Personalpronomen ist.
Learning Expressive Models for WSD
29
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
30
ILP
 ILP = Induktive logische Programmierung (inductive logic
programming)
 Techniken vom maschinellen Lernen + logischer Programmierung
 Ziel: ausdrucksstarke Disambiguierungsregeln zu generieren,
die verschiedenes Hintergrundwissen verarbeiten und auch die
Beziehungen zwischen diesen erfassen können.
 Mit Hilfe der Logik erster Ordnung
 Vorteil: ILP erlaubt Repräsentation von Variablen und n-stelligen
Prädikaten, d.h. relationale Beziehungen.
Learning Expressive Models for WSD
31
Aleph: ein ILP-System
 Iterative Schritte:
1. Eine Instanz wird zufällig zum Generalisieren ausgewählt.
2. Eine spezifischere Klausel – die untere Klausel – wird gebildet
mit Hilfe der inversen Implikation. Dabei wird das Wissen über
das Beispiel repräsentiert.
3. Eine allgemeinere als die untere Klausel wird gesucht.
4. Die beste Klausel wird zur Hypothese hinzugefügt, und die
Beispiele, die von der Klausel abgedeckt sind, werden aus der
Beispielmenge entfernt.
5. Gibt es in der Trainingsmenge keine Beispiele mehr, stoppt
der Algorithmus, sonst macht er mit Schritt 1 weiter.
Learning Expressive Models for WSD
32
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
33
Trainings- und Testdaten:
mehrsprachiges Modul
 Korpus: 500 Sätze wurden für die 10 Verben generiert. Der Text
wurde zufällig von verschiedenen Themen und Genren
ausgewählt.
 Dieses Korpus wurde automatisch annotiert mit der
Übersetzung des Verbs mit Hilfe eines parallelen Korpus. Die
automatische Annotation wurde anschließend manuell
nachgebessert.
 Für jedes Verb wurde eine Bedeutungssammlung (sense
repository) definiert: eine Menge von möglichen Übersetzungen.
 80% des Korpus wurde als Trainingskorpus genommen.
Learning Expressive Models for WSD
34
Trainings- und Testdaten:
mehrsprachiges Modul
 Beispieldaten für das
mehrsprachige Modul
Learning Expressive Models for WSD
35
Trainings- und Testdaten:
einsprachiges Modul
 Korpus: Zwischen 40 und 398 Beispiele wurden für die 32
Verben generiert.
 Jedes Verb hat zwischen 3 und 10 Bedeutungen (in 55% von
Beispielen wird die häufigste Bedeutung getroffen). Die getaggten
Texte und die Bedeutungssammlungen für die Verben wurden
aus Senseval-3 genommen.
 Beide Korpora wurden lemmatisiert und nach Wortarten getaggt
(mit Minipar und MXpost).
 Anschließend wurden die Eigennamen erkannt und
ausgezeichnet: (proper_noun).
 Pronomen wurden unterschieden und nach ihren Klassen
markiert z.B.: relative_pronoun.
Learning Expressive Models for WSD
36
Trainings- und Testdaten:
einsprachiges Modul
 32 englische Verben
Learning Expressive Models for WSD
37
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
38
Evaluierung: mehrsprachiges Modul
 Bessere
durchschnittliche
Genauigkeit (average
accuracy) als die
gängigen MLTechniken:
 Jedes Verb wurde auf
der entsprechenden
Testmenge getestet
mit allem verfügbaren
Hintergrundwissen.
Learning Expressive Models for WSD
39
Evaluierung: mehrsprachiges Modul
 Aleph: 50 bis 96 Regeln (nicht so viel) – alle sind wichtig.
 Die „Hauptbedeutung”-Spalte zeigt die häufigste Übersetzung in
dem Trainingsset.
– Weniger mögliche Übersetzungen → höhere Genauigkeit
 Noch 3 andere, oft benutzte Lernalgorithmen zum Vergleich:
Attribut-Wert-Vektoren (C4.5), naïve Bayes, Support Vector
Machine (SVM).
– Die ILP-Methode ist erheblich besser als die Baseline und
auch besser als die anderen Lernalgorithmen.
 Die Ergebnisse wurden dadurch negativ beeinflusst, dass
– diese Verben sehr viele Bedeutungen haben,
– das Tagging automatisch durchgeführt wurde,
– gleiche Übersetzungen sehr selten im Korpus vorkamen.
Learning Expressive Models for WSD
40
Evaluierung: einsprachiges Modul
 Ähnliche
durchschnittliche
Genauigkeit wie der
Stand der Technik.
 Ergebnisse (accuracy)
für die besten auf der
Senseval-3 getesteten
Systeme:
Learning Expressive Models for WSD
41
Evaluierung: einsprachiges Modul
 Syntalex-3: (Mohammad and Pedersen, 2004), basiert auf einer
Kombination von gebündelten (gebagged) Entscheidungsbäumen
mit wenigen POS-Merkmalen und Bigrammen.
 CLaC1 (Lamjiri et al., 2004): benutzt einen Naïve-BayesAlgorithmus mit einem dynamisch angepassten Kontextfenster
um das Zielwort herum.
 MC-WSD (Ciaramita and Johnson, 2004): ein multi-class
Durchschnittsperzeptron (average perceptron), das syntaktische
und eingeschränkte Kontextmerkmale benutzt.
 Aleph: Die Ergebnisse sind sehr ermutigend. Die ILP-Methode ist
viel besser als die Baseline.
– Es wurde eine geringe Anzahl von Regeln benutzt: 6 bis 88.
Auch hier wurde alles Hintergrundwissen eingesetzt.
Learning Expressive Models for WSD
42
Übersicht
 Einleitung
 Aufgabe
 Zielfunktion
 Merkmale
 Lernalgorithmus
 Trainings- / Testdaten
 Evaluierung
 Fazit
Learning Expressive Models for WSD
43
Fazit
 Beide Module haben gezeigt, dass man mit ILP ausdrucksstarke
Regeln generieren kann, die viel Hintergrundwissen integrieren
und dieses miteinander kombinieren können.
– sowohl tiefes als auch flaches Hintergrundwissen wurde
einbezogen!
 ILP wurde bisher schon erfolgreich bei POS-Tagging,
Grammatikerfassung und semantischem Parsen eingesetzt.
 Dieses Papier hat gezeigt, dass Aleph bei der
Wortbedeutungsdisambiguierung gute Ergebnisse liefert mit einer
hybriden, relationalen Methode.
Learning Expressive Models for WSD
44
Ausblick
 Sie werden ihr System auch
– auf anderen Wortmengen testen
– mit anderen POS-Mengen.
Learning Expressive Models for WSD
45
Literatur
 Specia, L. & Stevenson, M. & Nunes, M. (2007): Learning
Expressive Models for Word Sense Disambiguation, Proceedings
of the 45th Annual Meeting of the Association of Computational
Linguistics, S. 41–48.
– http://acl.ldc.upenn.edu/P/P07/P07-1006.pdf (Stand: 17.11.2007)
 MarkStevenson: WSD (Folien)
– tutorialresearch.microsoft.com/india/nlpsummerschool/data/fil
es/MarkStevenson%20-%20WSD%20tutorial.pdf (Stand:
16.01.2008)
Learning Expressive Models for WSD
46
Herunterladen