Crash-Kurs in Computerlinguistik

Werbung
Crash-Kurs in Computerlinguistik
Universität Zürich
Prof. Dr. Michael Hess
Wintersemester 1998/99
Seminar ‘‘Computerlinguistische Methoden im IR’’
1. Ausgangspunkte
Feststellungen:
1. Natürliche Sprache enthält Unmengen an Struktur.
2. Diese Struktur ist semantisch relevant.
Hypothesen:
Die Struktur kann ausgenutzt werden:
1. sicher beim textbasierten Fragenbeantworten
2. wahrscheinlich beim Suchen
a. von Phrasen (also: sehr kurzen Passagen)
b. anhand natürlichsprachlicher Fragen (kurz, ± präzis)
c.
über relativ kleinen Textmengen
3. eventuell auch im klassischen IR (Dokumentenretrieval)
Probleme: Die Struktur
1. ist (meist) implizit
2. ist ‘‘organisch gewachsen’’, nicht entworfen
3. hat sich zur Verwendung durch Menschen entwickelt
4. hat sich zum Einsatz in realen Situationen entwickelt
Konsequenzen:
1. Entwicklung der Methoden für die Sprachanalyse ist eine schwierige empirische Aufgabe.
2. Sprachanalyse selbst ist eine wissensintensive Aufgabe.
2. Einige retrievalrelevante Eigenschaften der
natürlichen Sprache
Relevante Phänomene der natürlichen Sprache sind u.a. :
1. Struktur des sprachlichen Begriffssystems:
a.
Hyponymie:
file ⊃ text
file ⊃ document
b. Synonymie:
delete (a file/directory/...) ≈ remove (ditto)
c.
Meronymie:
file system |>| directory
d. Homonymie:
•
Bank
•
Tau
•
Schloss
2. Ausdruckskraft der natürlichen Sprache:
a.
Funktionswörter denotieren immer semantische Relationen
1)
? Conversion from ISO characters to DOS characters
darf nicht finden
2)
dos2unix converts characters in the DOS extended character set to the corresponding
ISO standard characters.
b. Morpheme denotieren meist semantische Eigenschaften oder Relationen.
Beispiel Pluralität:
the command deletes the file
the commands delete the file
the command deletes the files <etc.>
c. Natürlichsprachliche Terme denotieren oft relationale und funktionale Objekte:
modifier
gift
translation
→ modifier(M,X)
→ gift(G,X,Y)
→ translation(T,X,Y,Z)
father
→ father(X)
d. syntaktische Adjunktion denotiert (meist) funktionale Applikation:
N’
Adj
N
λP. λX. [ long(X) ∧ P(X) ] (λF.file(F))
⇓
long
file
λF. file(F)
λP. λX. [ long(X) ∧ P(X) ]
Daher:
function modifier ≠ modifier function
table translation ≠ translation table
3. Einige Methoden
Zielführend sind nur
λF. long(F)
∧
file(F)
1. wissensintensive
2. kooperativ eingesetzte
Methoden.
Was heisst ‘‘wissensintensiv’’?
Verwendung von:
1. lexikographischen Ressourcen:
a.
Lexika: morphologische + syntaktische Information; Verwendungsmuster
b. Thesauri: Hypo/Hyperonymie, Synonymie, Meronymie
c.
Terminologien: Begriffsdefinitionen
2. numerischen Werten:
a. absoluten Verwendungshäufigkeiten
b. bedingten Wahrscheinlichkeiten
von Wortformen, Wörtern, Wortkategorien, Bedeutungen u.a.
Ist ein Mengenproblem! Siehe ↓
Was heisst ‘‘kooperative’’ Verwendung von Methoden?
Bestimmte Phänomene
1. scheinen systematisch zu interagieren
2. müssen daher durch simultanen Einsatz mehrerer Methoden erfasst werden
Wenn man eine Methoden nach der andern versucht, wird jeder Versuch zu jämmerlichen Resultaten
führen!
3.1 Morphologieanalyse
Stufen der Morphologieanalyse:
1. Flexion
produced
producing
a.
→
→
produce
produce
Regeln: ca. 2 Seiten
b. Daten (‘‘Ausnahmen’’): ca. 15 Seiten
→ struck
→ went
→ mice
strike
go
mouse
c.
aber auch: Lexikon
→ trial (Substantiv plural)
(nicht Verb singular)
trials
2. Derivation (anti A symmetry; hard A ness)
a.
Regeln: einige Seiten )
b. Daten: Suffixlisten von typischerweise <100 Einträgen
3. Komposition (car park; on-line, online; Erdbeertorte)
a.
Regeln: einige Seiten )
b. Daten: Suffixlisten von typischerweise <100 Einträgen
c.
aber auch: Lexikon
come round:
understand:
mushroom:
nicht ‘‘come + round’’
nicht ‘‘under+stand’’
nicht ‘‘mush+room’’
Erdbeere
Einbaum
nicht ‘‘Erd+Beere’’
nicht ‘‘Ein+Baum’’
Dimensionen des Mengenproblems:
1. Lexika.
•
allgemeine Wörterbücher: 200’000+ Einträge.
Beispiel Langenscheidts ‘‘Grosser Muret-Sanders’’: 220.000/340.000 Begriffe
•
Fachwörterbücher: 30’000+ Begriffe
Beispiel Langenscheidts ‘‘Fachwörterbuch Technik und angewandte Wissenschaften’’: 84
000 Begriffe.
2. Thesauri.
Beispiel WordNet: 99642 ‘‘Synsets’’
3. Terminologien:
Beispiel EURODICAUTOM: 630,000 Konzepte und 200,000 Abkürzungen in 9 Sprachen
Beachte:
"flies" Verb
Substantiv
3+singular Präsens
plural
oder
"fly"
Verb
1+singular Präsens
2+singular Präsens
1+plural Präsens
2+plural Präsens
3+plural Präsens
Imperativ
Infinitiv
Subjunktiv
Substantiv singular
Verb und Substantiv bedeutungsmässig nur sehr schwach verwandt - müssten also unterschieden
werden.
Daher unerlässlich: Berücksichtigung des syntaktischen Kontexts. )
3.2 Wortkategorien-Tagging
Verwendete Verfahren:
1. regelbasiert, ev. lernend (z.B. Brill)
2. statistisch basiert
Beispiel: Brill-Tagger, trainiert über spezifischem Bereich:
Präzision: ca. 95%.
Handgetrimmte Tagger: bis 98%.
Hilft natürlich nichts in Fällen wie
3)
The selection of telephone receivers was enlarged by the addition of [ COMTEL ], which enables
conversations and connections with Videotex data banks to be carried out simultaneously.
4)
As a result, the demand for investment credit not only continued to rise but more medium-term
funds also flowed into the banks.
Das braucht:
3.3 Wortbedeutungsdesambiguierung
Meist: Der Kontext bestimmt die Bedeutung (und umgekehrt).
Methoden:
•
Verwendung der Definitionen in maschinenlesbaren Wörterbücher
•
Vergleich über multilingualen (alignierten) Corpora
•
lernende Tagger über (hand-)etikettierten Corpora
•
lokaler Kontext (einige wenige Wörter), Wortkategorie und morphologische Information
•
↑ plus Verb-Objekt Relationen
•
partielle Syntaxstrukturen
Leistungen:
1. Wortkategorie, morphologische Information plus Verb-Objekt Relationen: ca. 90%
2. partielle Syntaxstrukturen: bis 93%
Aber: Was heissen diese Präzisionswerte?
Hängt sehr von der lexikalischen Auflösung ab!
Beispiel Collins (EN/DE):
1. bank1:
a.
(of earth, sand) Wall, Damm <etc.>
b. (of river, lake) Ufer
c.
(in sea, river) (Sand)bank
d. (of clouds) Wand, Bank
e.
(Aviat) Querlage
2. bank2:
a. Bank
b. (Gambling) Bank
c.
(Med) Bank
d. (fig) Vorrat
3. bank3:
a.
(Naut: rower’s bank) Ruderbank
b. (row of objects, oars) Reihe, (on organ) (Tasten)reihe
3.4 Syntaxanalyse
Zu unterscheiden:
1. vollständige Parser
2. robuste Parser:
a. beschränkte Parser:
i. partielle
ii. seichte
b. fehlertolerante Parser
Kombinationen üblich: Reine NP-Spotter sind seicht und partiell.
Methoden:
Für vollständige Parser
•
meist unifikationsbasierte Grammatiktheorien mit (in realen Anwendungen)
a. bottom-up Chart-Parsern
b. Left-Corner Parsern
c. ev. TD-/DF-Parsern
•
auch dependenzorientierte Grammatiktheorien mit spezifischen Parsern
•
auch transformationsorientierte Grammatiktheorien
Für beschränkte Parser:
•
finite-state Methoden (‘‘finite state approximations’’ an kontextfreie Grammatiken)
•
Relaxationstechniken (beschränktes Parsen als Rückfallposition)
•
Probabilistische Modelle
Offenbar kaum geeignet zum Parsen: Neuronale Netzwerke u.dgl.
Verfügbarkeit von ± grossen Grammatiken+Parsern:
•
für das Englische nur 2 frei verfügbare, etwa 2 kommerzielle
•
andere Sprachen: offenbar nichts
Leistung:
•
hängt sehr von der Differenziertheit der Grammatik ab
•
Schätzungen für ‘‘traditionellere’’ Paser (für beliebigen Text): 75%
4. Einige spezifische Probleme
1. Syntaktische Variabilität:
5)
Utilisation de vues aériennes et inventaire complet des dégâts
6)
Inventaire des dégâts causés par les tempêtes au moyen de vue aériennes
7)
Inventaire des dégâts causés par les tempêtes à l’aide de vues aériennes - Bilan en décembre
1990
2. syntaktische Diskontinuitäten:
a. Fernabhängigkeiten (Verschiebungen)
b. ‘‘Quasi-Kontextsensitivät’’
3. Unerschöpflichkeit des Wortschatzes
4. Ambiguitäten
4.1 Ambiguitäten
4.1.1 Typen von Ambiguität
4.1.1.1 Lexikalische Ambiguität
Für viele Nicht-Linguisten die einzig bewusste Art vom Mehrdeutigkeit.
Beispiele (wiederholt):
•
Bank
•
Tau
•
Schloss
4.1.1.2 Syntaktische Ambiguität
Ein und dieselbe Zeichen- resp. Wortfolge (bis hin zum ganzen Satz) erlaubt
•
verschiedene (morpho-)syntaktische Analysen und damit (fast immer)
•
verschiedene Bedeutungen
der Zeichen-/WortFolge. Hierbei kann man unterscheiden zwischen drei Fällen: Morphologische,
kategoriale und strukturelle Ambiguität.
4.1.1.2.1 Morphologische Ambiguität
Bei der morphologischen Ambiguität erfüllt ein und dieselbe Form eines Wortes verschieden
syntaktische Funktionen innerhalb der selben Kategorie.
Wiederholt:
"fly"
1+singular Präsens
2+singular Präsens
1+plural Präsens
2+plural Präsens
3+plural Präsens
Imperativ
Infinitiv
Subjunktiv
Aber auch:
Abteilungen
→
→
Abteilung A en
Abtei A lungen
4.1.1.2.2 Kategoriale Ambiguität
Bie der kategorialen Ambiguität gehört ein und dieselbe Wortform sogar in verschiedene
grammatikalische Wortkategorien (und erfüllt damit, a fortiori auch verschiedene syntaktische
Funktionen), wobei oft in allen Fällen im Kern (oder zumindest historisch) die gleiche Bedeutung
ausgedrückt wird
time
Hauptverb
Substantiv
fly
Hauptverb
Substantiv
like
Präposition
Hauptverb
Substantiv
4.1.1.2.3 Strukturelle Ambiguität
Oft ist in einem Satz keine einzige Wortform morphologisch oder kategorial ambig, und dennoch hat
eine bestimmte Gruppe von Wörtern als Ganzes (und manchmal der ganze Satz) verschiedene
syntaktische Analysen.
4.1.1.2.3.1 Anschlussambiguität
Eine besonders notorische Quelle struktureller Ambiguität sind Präpositionalphrasen. So hat
8)
Ich sah den Mann im Park mit dem Teleskop
mind. vier syntaktische Analysen: Die Präpositionalphrasen modifizieren entweder eine der
Substantivkonstruktionen, oder die Verbalkonstruktion (einfach oder doppelt). Jeder Syntaxstruktur
entspricht eine andere Bedeutung:
1. Ich sah den Mann, der im Park mit dem Teleskop war
2. Ich sah den Mann, der im Park war, mit Hilfe des Teleskops
3. Ich sah den Mann, als ich im Park mit dem Teleskop war
4. Ich sah den Mann, als ich im Park war, mit Hilfe des Teleskops
Hier liegt ein Fall von sog. Anschlussambiguität (attachment ambiguity)vor: Der ‘‘Anschluss’’ einer
ersten syntaktischen Komponente an eine zweite kann auf verschiedene Art vorgenommen werden.
4.1.1.2.4 Ambiguität von Nominalkomposita und Nominalverkettungen
Beispiele:
9)
Airport long term car park courtesy vehicle pickup point
Zwei verschiedene Probleme:
1. syntaktisch ambig (Klammerung)
2. und: Interpretation der Syntaxstruktur
Vergleiche zum zweiten:
10) Computertyrannei
11) Computerspeicher
Beachte: In manchen Sprachen weniger problematisch:
10) --> tyrannie par l’ordinateur
11) --> mémoire de l’ordinateur
aber immerhin:
danger d’avalanches
4.1.1.2.5 Skopus-Ambiguitäten
Der Satz
12) Jeder Mann liebt eine Frau
hat die beiden Lesarten:
13) Für jeden Mann gibt es (mindestens) eine (möglicherweise andere) Frau, die er liebt
14) Es gibt eine (und zwar ein und dieselbe) Frau, welche von allem Männern geliebt wird
die sich aber in einer oberflächenorientierten Syntaxanalyse nicht ausdrücken.
4.1.1.3 Kombinationen von Ambiguitäten
Oft treten die verschiedenen Typen von Ambiguität in ein und demselben Satz, ja manchmal sogar in
ein und derselben Wortform kombiniert auf. So sind in
15) I saw that gas can explode
z.B. die Wortformen ‘‘that’’ und ‘‘can’’ sowohl lexikalisch wie kategorial ambig.
Herunterladen