Crash-Kurs in Computerlinguistik Universität Zürich Prof. Dr. Michael Hess Wintersemester 1998/99 Seminar ‘‘Computerlinguistische Methoden im IR’’ 1. Ausgangspunkte Feststellungen: 1. Natürliche Sprache enthält Unmengen an Struktur. 2. Diese Struktur ist semantisch relevant. Hypothesen: Die Struktur kann ausgenutzt werden: 1. sicher beim textbasierten Fragenbeantworten 2. wahrscheinlich beim Suchen a. von Phrasen (also: sehr kurzen Passagen) b. anhand natürlichsprachlicher Fragen (kurz, ± präzis) c. über relativ kleinen Textmengen 3. eventuell auch im klassischen IR (Dokumentenretrieval) Probleme: Die Struktur 1. ist (meist) implizit 2. ist ‘‘organisch gewachsen’’, nicht entworfen 3. hat sich zur Verwendung durch Menschen entwickelt 4. hat sich zum Einsatz in realen Situationen entwickelt Konsequenzen: 1. Entwicklung der Methoden für die Sprachanalyse ist eine schwierige empirische Aufgabe. 2. Sprachanalyse selbst ist eine wissensintensive Aufgabe. 2. Einige retrievalrelevante Eigenschaften der natürlichen Sprache Relevante Phänomene der natürlichen Sprache sind u.a. : 1. Struktur des sprachlichen Begriffssystems: a. Hyponymie: file ⊃ text file ⊃ document b. Synonymie: delete (a file/directory/...) ≈ remove (ditto) c. Meronymie: file system |>| directory d. Homonymie: • Bank • Tau • Schloss 2. Ausdruckskraft der natürlichen Sprache: a. Funktionswörter denotieren immer semantische Relationen 1) ? Conversion from ISO characters to DOS characters darf nicht finden 2) dos2unix converts characters in the DOS extended character set to the corresponding ISO standard characters. b. Morpheme denotieren meist semantische Eigenschaften oder Relationen. Beispiel Pluralität: the command deletes the file the commands delete the file the command deletes the files <etc.> c. Natürlichsprachliche Terme denotieren oft relationale und funktionale Objekte: modifier gift translation → modifier(M,X) → gift(G,X,Y) → translation(T,X,Y,Z) father → father(X) d. syntaktische Adjunktion denotiert (meist) funktionale Applikation: N’ Adj N λP. λX. [ long(X) ∧ P(X) ] (λF.file(F)) ⇓ long file λF. file(F) λP. λX. [ long(X) ∧ P(X) ] Daher: function modifier ≠ modifier function table translation ≠ translation table 3. Einige Methoden Zielführend sind nur λF. long(F) ∧ file(F) 1. wissensintensive 2. kooperativ eingesetzte Methoden. Was heisst ‘‘wissensintensiv’’? Verwendung von: 1. lexikographischen Ressourcen: a. Lexika: morphologische + syntaktische Information; Verwendungsmuster b. Thesauri: Hypo/Hyperonymie, Synonymie, Meronymie c. Terminologien: Begriffsdefinitionen 2. numerischen Werten: a. absoluten Verwendungshäufigkeiten b. bedingten Wahrscheinlichkeiten von Wortformen, Wörtern, Wortkategorien, Bedeutungen u.a. Ist ein Mengenproblem! Siehe ↓ Was heisst ‘‘kooperative’’ Verwendung von Methoden? Bestimmte Phänomene 1. scheinen systematisch zu interagieren 2. müssen daher durch simultanen Einsatz mehrerer Methoden erfasst werden Wenn man eine Methoden nach der andern versucht, wird jeder Versuch zu jämmerlichen Resultaten führen! 3.1 Morphologieanalyse Stufen der Morphologieanalyse: 1. Flexion produced producing a. → → produce produce Regeln: ca. 2 Seiten b. Daten (‘‘Ausnahmen’’): ca. 15 Seiten → struck → went → mice strike go mouse c. aber auch: Lexikon → trial (Substantiv plural) (nicht Verb singular) trials 2. Derivation (anti A symmetry; hard A ness) a. Regeln: einige Seiten ) b. Daten: Suffixlisten von typischerweise <100 Einträgen 3. Komposition (car park; on-line, online; Erdbeertorte) a. Regeln: einige Seiten ) b. Daten: Suffixlisten von typischerweise <100 Einträgen c. aber auch: Lexikon come round: understand: mushroom: nicht ‘‘come + round’’ nicht ‘‘under+stand’’ nicht ‘‘mush+room’’ Erdbeere Einbaum nicht ‘‘Erd+Beere’’ nicht ‘‘Ein+Baum’’ Dimensionen des Mengenproblems: 1. Lexika. • allgemeine Wörterbücher: 200’000+ Einträge. Beispiel Langenscheidts ‘‘Grosser Muret-Sanders’’: 220.000/340.000 Begriffe • Fachwörterbücher: 30’000+ Begriffe Beispiel Langenscheidts ‘‘Fachwörterbuch Technik und angewandte Wissenschaften’’: 84 000 Begriffe. 2. Thesauri. Beispiel WordNet: 99642 ‘‘Synsets’’ 3. Terminologien: Beispiel EURODICAUTOM: 630,000 Konzepte und 200,000 Abkürzungen in 9 Sprachen Beachte: "flies" Verb Substantiv 3+singular Präsens plural oder "fly" Verb 1+singular Präsens 2+singular Präsens 1+plural Präsens 2+plural Präsens 3+plural Präsens Imperativ Infinitiv Subjunktiv Substantiv singular Verb und Substantiv bedeutungsmässig nur sehr schwach verwandt - müssten also unterschieden werden. Daher unerlässlich: Berücksichtigung des syntaktischen Kontexts. ) 3.2 Wortkategorien-Tagging Verwendete Verfahren: 1. regelbasiert, ev. lernend (z.B. Brill) 2. statistisch basiert Beispiel: Brill-Tagger, trainiert über spezifischem Bereich: Präzision: ca. 95%. Handgetrimmte Tagger: bis 98%. Hilft natürlich nichts in Fällen wie 3) The selection of telephone receivers was enlarged by the addition of [ COMTEL ], which enables conversations and connections with Videotex data banks to be carried out simultaneously. 4) As a result, the demand for investment credit not only continued to rise but more medium-term funds also flowed into the banks. Das braucht: 3.3 Wortbedeutungsdesambiguierung Meist: Der Kontext bestimmt die Bedeutung (und umgekehrt). Methoden: • Verwendung der Definitionen in maschinenlesbaren Wörterbücher • Vergleich über multilingualen (alignierten) Corpora • lernende Tagger über (hand-)etikettierten Corpora • lokaler Kontext (einige wenige Wörter), Wortkategorie und morphologische Information • ↑ plus Verb-Objekt Relationen • partielle Syntaxstrukturen Leistungen: 1. Wortkategorie, morphologische Information plus Verb-Objekt Relationen: ca. 90% 2. partielle Syntaxstrukturen: bis 93% Aber: Was heissen diese Präzisionswerte? Hängt sehr von der lexikalischen Auflösung ab! Beispiel Collins (EN/DE): 1. bank1: a. (of earth, sand) Wall, Damm <etc.> b. (of river, lake) Ufer c. (in sea, river) (Sand)bank d. (of clouds) Wand, Bank e. (Aviat) Querlage 2. bank2: a. Bank b. (Gambling) Bank c. (Med) Bank d. (fig) Vorrat 3. bank3: a. (Naut: rower’s bank) Ruderbank b. (row of objects, oars) Reihe, (on organ) (Tasten)reihe 3.4 Syntaxanalyse Zu unterscheiden: 1. vollständige Parser 2. robuste Parser: a. beschränkte Parser: i. partielle ii. seichte b. fehlertolerante Parser Kombinationen üblich: Reine NP-Spotter sind seicht und partiell. Methoden: Für vollständige Parser • meist unifikationsbasierte Grammatiktheorien mit (in realen Anwendungen) a. bottom-up Chart-Parsern b. Left-Corner Parsern c. ev. TD-/DF-Parsern • auch dependenzorientierte Grammatiktheorien mit spezifischen Parsern • auch transformationsorientierte Grammatiktheorien Für beschränkte Parser: • finite-state Methoden (‘‘finite state approximations’’ an kontextfreie Grammatiken) • Relaxationstechniken (beschränktes Parsen als Rückfallposition) • Probabilistische Modelle Offenbar kaum geeignet zum Parsen: Neuronale Netzwerke u.dgl. Verfügbarkeit von ± grossen Grammatiken+Parsern: • für das Englische nur 2 frei verfügbare, etwa 2 kommerzielle • andere Sprachen: offenbar nichts Leistung: • hängt sehr von der Differenziertheit der Grammatik ab • Schätzungen für ‘‘traditionellere’’ Paser (für beliebigen Text): 75% 4. Einige spezifische Probleme 1. Syntaktische Variabilität: 5) Utilisation de vues aériennes et inventaire complet des dégâts 6) Inventaire des dégâts causés par les tempêtes au moyen de vue aériennes 7) Inventaire des dégâts causés par les tempêtes à l’aide de vues aériennes - Bilan en décembre 1990 2. syntaktische Diskontinuitäten: a. Fernabhängigkeiten (Verschiebungen) b. ‘‘Quasi-Kontextsensitivät’’ 3. Unerschöpflichkeit des Wortschatzes 4. Ambiguitäten 4.1 Ambiguitäten 4.1.1 Typen von Ambiguität 4.1.1.1 Lexikalische Ambiguität Für viele Nicht-Linguisten die einzig bewusste Art vom Mehrdeutigkeit. Beispiele (wiederholt): • Bank • Tau • Schloss 4.1.1.2 Syntaktische Ambiguität Ein und dieselbe Zeichen- resp. Wortfolge (bis hin zum ganzen Satz) erlaubt • verschiedene (morpho-)syntaktische Analysen und damit (fast immer) • verschiedene Bedeutungen der Zeichen-/WortFolge. Hierbei kann man unterscheiden zwischen drei Fällen: Morphologische, kategoriale und strukturelle Ambiguität. 4.1.1.2.1 Morphologische Ambiguität Bei der morphologischen Ambiguität erfüllt ein und dieselbe Form eines Wortes verschieden syntaktische Funktionen innerhalb der selben Kategorie. Wiederholt: "fly" 1+singular Präsens 2+singular Präsens 1+plural Präsens 2+plural Präsens 3+plural Präsens Imperativ Infinitiv Subjunktiv Aber auch: Abteilungen → → Abteilung A en Abtei A lungen 4.1.1.2.2 Kategoriale Ambiguität Bie der kategorialen Ambiguität gehört ein und dieselbe Wortform sogar in verschiedene grammatikalische Wortkategorien (und erfüllt damit, a fortiori auch verschiedene syntaktische Funktionen), wobei oft in allen Fällen im Kern (oder zumindest historisch) die gleiche Bedeutung ausgedrückt wird time Hauptverb Substantiv fly Hauptverb Substantiv like Präposition Hauptverb Substantiv 4.1.1.2.3 Strukturelle Ambiguität Oft ist in einem Satz keine einzige Wortform morphologisch oder kategorial ambig, und dennoch hat eine bestimmte Gruppe von Wörtern als Ganzes (und manchmal der ganze Satz) verschiedene syntaktische Analysen. 4.1.1.2.3.1 Anschlussambiguität Eine besonders notorische Quelle struktureller Ambiguität sind Präpositionalphrasen. So hat 8) Ich sah den Mann im Park mit dem Teleskop mind. vier syntaktische Analysen: Die Präpositionalphrasen modifizieren entweder eine der Substantivkonstruktionen, oder die Verbalkonstruktion (einfach oder doppelt). Jeder Syntaxstruktur entspricht eine andere Bedeutung: 1. Ich sah den Mann, der im Park mit dem Teleskop war 2. Ich sah den Mann, der im Park war, mit Hilfe des Teleskops 3. Ich sah den Mann, als ich im Park mit dem Teleskop war 4. Ich sah den Mann, als ich im Park war, mit Hilfe des Teleskops Hier liegt ein Fall von sog. Anschlussambiguität (attachment ambiguity)vor: Der ‘‘Anschluss’’ einer ersten syntaktischen Komponente an eine zweite kann auf verschiedene Art vorgenommen werden. 4.1.1.2.4 Ambiguität von Nominalkomposita und Nominalverkettungen Beispiele: 9) Airport long term car park courtesy vehicle pickup point Zwei verschiedene Probleme: 1. syntaktisch ambig (Klammerung) 2. und: Interpretation der Syntaxstruktur Vergleiche zum zweiten: 10) Computertyrannei 11) Computerspeicher Beachte: In manchen Sprachen weniger problematisch: 10) --> tyrannie par l’ordinateur 11) --> mémoire de l’ordinateur aber immerhin: danger d’avalanches 4.1.1.2.5 Skopus-Ambiguitäten Der Satz 12) Jeder Mann liebt eine Frau hat die beiden Lesarten: 13) Für jeden Mann gibt es (mindestens) eine (möglicherweise andere) Frau, die er liebt 14) Es gibt eine (und zwar ein und dieselbe) Frau, welche von allem Männern geliebt wird die sich aber in einer oberflächenorientierten Syntaxanalyse nicht ausdrücken. 4.1.1.3 Kombinationen von Ambiguitäten Oft treten die verschiedenen Typen von Ambiguität in ein und demselben Satz, ja manchmal sogar in ein und derselben Wortform kombiniert auf. So sind in 15) I saw that gas can explode z.B. die Wortformen ‘‘that’’ und ‘‘can’’ sowohl lexikalisch wie kategorial ambig.