Parsen natürlicher Sprache Wo steht Englisch in der ChomskyHierarchie? Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 1 / 25 Motivation • Informationsextraktion • Automatische Übersetzung • Vorstufe zum „richtigen“ Turing-Test Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 2 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 3 / 25 Metrik für Parserqualität Penn Treebank: • Basiert auf Newsartikeln aus Wall-StreetJournal • Per Hand geparste Sätze mit bis zu >100 Wörtern • Aufgeteilt in mehrere Sektionen à ca. 2000 Sätze Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 4 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 5 / 25 Kontextfreie Grammatik • S NP VP • NP DT NN • VP Verb NP • Verb = be, do, like, talk, ... • NN = ... Perlen der Weisheit, 15.04.2003 • • • • • S = Sentence NP = Noun Phrase VP = Verb Phrase DT = Determiner NN = Noun Leo Kof. Parsen natürlicher Sprache 6 / 25 CFG, Probleme • Problem 1: Postscript language • Lösung 1: NN NN NN • Problem 2: Postscript language input file • Lösung 2: ??? Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 7 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 8 / 25 Probabilistische CFG • Grundidee: jede Regel wird mit Wahrscheinlichkeit versehen • Aufgabe des Parsers: finde den Baum mit maximaler Wahrscheinlichkeit • Abschätzung der Wahrscheinlichkeiten: Im Trainingssatz angewendete Regeln nachzählen • Problem: Postscript language input file Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 9 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 10 / 25 Head-lexicalized PCFG • Grundidee: Für jede Regel wird ein Element (lexical head) ausgezeichnet • S NP VP NP DT NN VP Verb NP Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 11 / 25 Head-lexicalized PCFG S / is NP / tree DT / this VP / is NN / tree Verb / is NP / example DT / an NN / example This tree is an example Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 12 / 25 HPCGF, Probabilismus Wahrscheinlichkeiten: P(category(root(T))) P(head(root(T))|category(root(T))) P(head(n)|category(n),category(parent(n)), head(parent(n)) P(<word(n)>|cat(n), head(n)) Erste Wahrscheinlichkeitsabschätzung: In Trainingsdaten Häufigkeiten nachzählen Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 13 / 25 HPCFG, Sparse Data Problem • Abschätzung z. B. durch Unabhängigkeitsannahmen: Z.B. P(<word>|cat(n), head(n)) = P(<word>)/P(cat(n),head(n)) • Es gibt auch andere Verfahren • Generell: komplizierte Geschichte Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 14 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 15 / 25 Link-Grammatik Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 16 / 25 Link-Grammatik Der Satz ist geparst, wenn es keine freien Links mehr gibt: Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 17 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 18 / 25 Probabilistische Links (1/2) • Vereinfachung: – Reduktion auf basis-NPs – Beschränkung von Links auf reduzierte Sätze • Weitere Vereinfachungen: – Part-of-Speech Tagging als Preprocessing – Reduktion von basis-NPs auf head words Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 19 / 25 Basis-NPs • Beim Training: Markierung der Zwischenräume als: (NP-)Start, Continuation, End, Between, Null: S This C sentence E is S an C example E . • Beim Parsen: Einbeziehung der Markierungen ins Wahrscheinlichkeitsmodell Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 20 / 25 Probabilistische Links (2/2) • Wahrscheinlichkeiten: P(ArrowFrom(modifier, head, Relation)) • Wahrscheinlichkeitsabschätzung: Count(<word1, Tag1>, <word2, Tag2>) Count(Relation|<word1, Tag1>, <word2, Tag2>) Daraus lässt sich P(ArrowFrom(...)) ausrechnen Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 21 / 25 Überblick Kontextfreie Grammatik (CFG) LinkGrammatik Probabilistische CFG (PCFG) Probabilistische Links Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 22 / 25 Collins-Parser • Head-lexicalized PCFG • Kompliziertes Wahrscheinlichkeitsmodell: Wahrscheinlichkeiten für – – – – Grammatikregeln Links Distanzen zwischen Wörtern etc. Komplizierte Ausrechnung von Einzelwahrscheinlichkeiten Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 23 / 25 Parserqualität: Trefferquoten Kontextfreie Grammatik (CFG) LinkGrammatik ca. 70% Probabilistische CFG (PCFG) Probabilistische Links ca. 75% Head-lexicalized PCFG CollinsParser Perlen der Weisheit, 15.04.2003 ca. 85% bis 89% Leo Kof. Parsen natürlicher Sprache 24 / 25 Zusammenfassung • Es werden immer bessere Ergebnisse erzielt. Preis: Modellkomplexität • Es gibt immer noch keinen Parser mit 100%-Trefferquote • Portierung für andere Sprachen oft schwierig Perlen der Weisheit, 15.04.2003 Leo Kof. Parsen natürlicher Sprache 25 / 25