FRIEDRICH−SCHILLER−UNIVERSITÄT JENA Fakultät für Mathematik und Informatik Motivation INSTITUT für INFORMATIK GOOGLE 1 Die Informatik hat uns sprudelnde Quellen der Weisheit versprochen. VORLESUNG IM WINTERSEMESTER STOCHASTISCHE GRAMMATIKMODELLE Geliefert hat sie uns unermeßliche Datenfriedhfe. Wissen Ernst Günter Schukat-Talamazzini Das Wissen dieser Welt befindet sich im Internet - zu 5% strukturiert! 01. Verarbeitung natürlicher Sprache Manches als Tabelle, etliches als Bilder — das meiste (noch!) in Textform! Quelle: /home/schukat/latex/FOLIEN/Sprachmodelle-00/SSM-01.tex — 30. September 2013 Intelligente Informationsverarbeitung • Numerisch (sensorisch) Musteranalyse Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Sprache, Modell & Statistik . . . . . . . . . . . . . . . . . . . . 3 NLP — Anwendungsgebiete . . . . . . . . . . . . . . . . . . . . 4 KI versus Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 6 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Strikte versus statistische Grammatiken . . . . . . . . . . . . . . 11 Statistische Dekodierung . . . . . . . . . . . . . . . . . . . . . . 12 • Symbolisch Künstliche Intelligenz (Schließen, Planen, Spielen) • Numerisch & kategorial Maschinelles Lernen, Datamining • Texte (natürlich/künstlich) ... sind ein viertes Gebiet c Schukat-Talamazzini, Institut für Informatik, FSU Jena Verarbeitung natürlicher Sprache Motivation 2 Sprache, Modell & Statistik 3 Sprache • Natürliche Sprache Aufgabenstellungen und Informatikmethoden • • Formale Sprache Fortran, C++, Java, LaTeX, HTML, Postscript Matchingalgorithmen Information Retrieval per Schlüsselwortkombination • Deutsch, Englisch, Italienisch, Armenisch, Bairisch, Sorbisch • Deskriptive Sprache DNS-Ketten, chemische Strukturformeln, Notenpartituren Relevanzmodelle Rangfolge der Angebote • • Modell / Grammatik Textextraktion Kurzfassung der Angebote • Abstrakter Sprachenbegriff: Language Identication • Sprache Landessprachenidentifikation • – Manche Sprachen besitzen mehrere Grammatiken ! Kategorisierung Familienfilter • Statistik Gruppierung • Traditionelles Lernproblem Thematische Verzeichnisse • endliche Beschreibung einer Sprache – Nicht jede Sprache besitzt eine Grammatik ! Übersetzungsoption • i.a. abzählbar unendliche Wortmenge • Grammatik Machine Translation L ⊆ V∗ Positive/negative Lernbeispiele — welches Modell ? — Konstruktionsvorschrift ? Netzwerkanalyse • Weiche“ Wortzugehörigkeit statistischer Sprachen: ” PL : w → [0, 1] ⊂ IR Qualitätsindex • Lernen aus positiven Beispielen Verarbeitung natürlicher Sprache c Schukat-Talamazzini, Institut für Informatik, FSU Jena Verarbeitung natürlicher Sprache c Schukat-Talamazzini, Institut für Informatik, FSU Jena NLP — Anwendungsgebiete 4 Dokumentenanalyse NLP — Anwendungsgebiete 5 Schlüsselwortdetektion (Geiselaustausch, Watergate, Ausreiseantrag) • Layoutsegmentierung (Bilder, Absätze, Zeilen, Formeln etc.) • Optische Zeichenerkennung (OCR) Textindizierung und -abstracting (wissenschaftliche Publikationen) • Zeichenstatistiken, Wortgrammatiken, Layoutstrukturen Textkompression (Verteilungsfunktion + arithmetische Kodierung) Automatische Erkennung gesprochener Sprache • Worterkennung Bedeutungsanalyse • Grammatische Sprachmodelle • Kommandoidentifikation (Ende, Aus, Tschüß, Auf Wiedersehen) • Schlüsselwortklassifikation (FROM=Jena, TO=Hannover, TIME=abends, DATE=Montag) Teilsprachenerkennung (sublanguage identification) • Sprechaktklassifikation (Dialogsysteme) • Datenbankanfragen (SQL Queries) • Textsortenerkennung (Prosa, Lyrik, Wetterbericht, Pornographie) • Semantische Netze, logische Ausdrücke, Attribut-Wert-Hierarchien • Sprachenidentifikation (Deutsch, Englisch, Latein; LaTeX, C-Kode) Sprachübersetzung (text/text, speech/speech) • Autorenerkennung (Goethe, Puschkin, Konsalik, Wechsung, Meinhof) Diskursanalyse (Textlinguistik) • Genetische Kodes, Tierlaute, Bohrkerne, Seismik, EKG/EEG • Topikanalyse (Physik, Chemie, Biologie, Astronomie, Astrologie) Verarbeitung natürlicher Sprache c Schukat-Talamazzini, Institut für Informatik, FSU Jena KI versus Statistik 6 NLP — Natural Language Processing Verarbeitung natürlicher Sprache Künstliche Intelligenz / NLP Sprechen & Schreiben ⇒ Kommunikation von Fakten über die ” Welt“ • Lügen? Rhetorik? Fiktionale Texte? • nur die Spitze des Eisbergs (Sachverhalte) wird formuliert! • der Hörer-Leser verfügt über komplexes Weltwissen. • der Sprecher-Schreiber komplettiert nur das Weltwissen. Dialogmodellierung (Mensch–Maschine, Mensch–Mensch) c Schukat-Talamazzini, Institut für Informatik, FSU Jena Verarbeitung natürlicher Sprache Morphologie 7 Morphologie — Wortstruktur Wort = ˆ lexikalische Form (Grundformen + Flexeme) • Verbpräfixe — um+fahren“, ab+fahren“, über+fahren“, be+steigen“ ” ” ” ” • Konjugation — • Deklination — • Komposita — wohn+te“, ge+wohnt“, wohn+en“, ging“? ” ” ” ” Katze+n“, Hund+e“, Häus+er“? ” ” ” Bauern+leber+wurst“, Imker+honig“, dumm+dreist“ ” ” ” Wortkategorien (part-of-speech) BEISPIEL: Was tut Alice?“ Sie geht zum Supermarkt.“ (und kauft Lebensmittel ein) ” ” Wissensrepräsentation • Formalismen: nichtmonotone Logik, Semantische Netze, Regelwerke, Beliefnetze • Allgemeinwissen keine umfassende Wissensbasis verfügbar trotz langjähriger Anstrengungen Statistik / NLP • basiert auf der Analyse realer Texte • automatisches Lernen komplexer (Wort)statistiken • Techniken: Markovprozesse, Hidden Markov Modelle, statistische Grammatiken Verarbeitung natürlicher Sprache c Schukat-Talamazzini, Institut für Informatik, FSU Jena N Pro Pos Verb Adj Det Prop Conj Prep Aux Modal Adv Wh Punc Nomen Pronomen Possessivum Verb Adjektiv Determinans Eigenname Konjunktion Präposition Hilfsverb Modalverb Adverb W-Fragewort Satzzeichen Hund, Gleichung, Konzerte ich, du, es, sie, ihnen mein, dein, unser ist, berühre, ging roter, große, begrünten der, ein, manche Nastassja, Shakespeare, Jena, Rhein und, oder, aber, seit im, nach, durch sein, haben wollen, können, müssen, sollen, möchten schnell, vorsichtig wer, was, wo ., !, ? Merkmale (features) ⇒ Kongruenz (z.B. Subjekt–Verb) • Kasus, Numerus, Genus • Person, Tempus, Aktiv/Passiv, Indikativ/Konjunktiv Verarbeitung natürlicher Sprache c Schukat-Talamazzini, Institut für Informatik, FSU Jena Syntax 8 Syntax 9 Syntax — Satzstruktur Probleme mit kontextfreien PSGs Phrasenstrukturgrammatik Kongruenz PS-Regel S → N P V P • Terminale Symbole (Wörter, Satzzeichen) • The ” • The ” • The ” • The ” • Nichtterminale Symbole (grammatische Kategorien) S = Satz es regnet“ ” VP = Verbphrase ißt“, tritt den Hund“ ” ” NP = Nominalphrase Dr. Brinkmann“, es“, der grüne Pfeil“ ” ” ” PP = Präpositionalphrase ”nach Weimar“, ”mit seinem Ferrari“ → → → → → → dogs eats“ (*) • S → NP-plur VP-plur NP VP Verb Det N der Hund frißt • S → NP-sing-1P VP-sing-1P ... Langzeitabhängigkeiten S • Whom did Fred give the ball to?“ ” • Whom does Alice believe Fred wants to give the ball to?“ ” S VP VP NP Verb Det Salespeople sold dog eat“ (*) • S → NP-sing VP-sing Ableitungsbaum (Mehrdeutigkeit!) N dogs eat“ Merkmale ausmultiplizieren Kontextfreie Regeln S VP NP Det N Verb dog eats“ the NP N N dog biscuits Verarbeitung natürlicher Sprache N Verb Det Salespeople sold the Zuordnung von PP oder NP (attachment) NP N N dog biscuits c Schukat-Talamazzini, Institut für Informatik, FSU Jena Semantik 10 • I saw the statue with a telescope in the park“ ” • (song/metal/inexpensive) bird feeder kit“ ” c Schukat-Talamazzini, Institut für Informatik, FSU Jena Verarbeitung natürlicher Sprache Strikte versus statistische Grammatiken 11 Semantik — Satzbedeutung Bedeutungsrepräsentation (Präd.logik ohne Variablen/Quantoren) • der blaue Ball“ ” • ( (Spielball Ball-1) & (Farbe Ball-1 blau) ) Kompositionelle Semantik Bedeutung komplexer Strukturen = ˆ F(Bedeutung v. Teilstrukturen) • (Spielball Ball-1) oder (Festball Ball-1) Wortschatz (Vokabular) von L Wörtern V = {W1, W2, . . . , WL} Sätze der Lange T VT = V . . × V} = {w1w2 . . . wT | wt ∈ V, t = 1, . . . , T } | × .{z T mal Sätze über V • (Farbe Ball-1 blau) oder (Mentalzustand Ball-1 betrunken) Strikte Sprache (Teilmenge grammatisch korrekter Sätze) • Alice gab dem Hund den Knochen“ ” • (geben Alice-1 Hund-2 Knochen-3) L ⊆ V⋆ ( der Hund frißt“∈ L, frißt Hund der der“ ∈ / L) ” ” Geber, Empfänger, Gegenstand Gleiche Bedeutung ⇐⇒ gleiche formale Ausdrücke • Alice gab den Knochen dem Hund“ ” • Dem Hund wurde von Alice der Knochen gegeben“ ” Textbedeutung (Anaphern, Ellipsen) Statistische Sprache (Wahrscheinlichkeitsverteilung) X P (w) = 1 P : V ⋆ 7→ IR+ mit w∈V ⋆ Grammatik = ˆ endlicher Mechanismus zur Berechnng von • Was für ein schöner Pullover!“ Ist der neu?“ ” ” • Nein, [...] mit Perwoll gewaschen!“ ” Verarbeitung natürlicher Sprache VT T =1 (Selektionsbeschränkungen: Spielball, Festball inkompatibel zu Mentalzustand) Komposition ∞ [ V⋆ = c Schukat-Talamazzini, Institut für Informatik, FSU Jena (w ∈ L) Verarbeitung natürlicher Sprache bzw. P (w) c Schukat-Talamazzini, Institut für Informatik, FSU Jena Statistische Dekodierung 12 Informationstheoretisches Kommunikationsmodell w1 w2 . . . wN Sender Empfänger P (w) Sprecher Schreiberin Referent ... Vererbung w∗ x1 x2 . . . xT Kanal P (w∗ |x) → MAX P (x|w) Artikulation Handmotorik Übersetzung ... Chromosomalstruktur Hörerin Leser Dolmetscher ... Mikrobiologe BAYES-Regel Maximum a posteriori Entscheidung w∗ = argmax P (w|x) = argmax w Verarbeitung natürlicher Sprache w P (w) · P (x|w) P (x, w) = argmax P (x) P (x) w c Schukat-Talamazzini, Institut für Informatik, FSU Jena