STOCHASTISCHE GRAMMATIKMODELLE GOOGLE Wissen

Werbung
FRIEDRICH−SCHILLER−UNIVERSITÄT JENA
Fakultät für Mathematik und Informatik
Motivation
INSTITUT für INFORMATIK
GOOGLE
1
Die Informatik hat uns sprudelnde Quellen der Weisheit
versprochen.
VORLESUNG IM WINTERSEMESTER
STOCHASTISCHE
GRAMMATIKMODELLE
Geliefert hat sie uns unermeßliche Datenfriedhfe.
Wissen
Ernst Günter Schukat-Talamazzini
Das Wissen dieser Welt befindet sich im Internet - zu 5%
strukturiert!
01. Verarbeitung natürlicher Sprache
Manches als Tabelle, etliches als Bilder
— das meiste (noch!) in Textform!
Quelle: /home/schukat/latex/FOLIEN/Sprachmodelle-00/SSM-01.tex — 30. September 2013
Intelligente Informationsverarbeitung
•
Numerisch (sensorisch)
Musteranalyse
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Sprache, Modell & Statistik . . . . . . . . . . . . . . . . . . . .
3
NLP — Anwendungsgebiete . . . . . . . . . . . . . . . . . . . .
4
KI versus Statistik . . . . . . . . . . . . . . . . . . . . . . . . .
6
Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Semantik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Strikte versus statistische Grammatiken . . . . . . . . . . . . . .
11
Statistische Dekodierung . . . . . . . . . . . . . . . . . . . . . .
12
•
Symbolisch
Künstliche Intelligenz (Schließen, Planen, Spielen)
•
Numerisch & kategorial
Maschinelles Lernen, Datamining
•
Texte (natürlich/künstlich)
... sind ein viertes Gebiet
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Verarbeitung natürlicher Sprache
Motivation
2
Sprache, Modell & Statistik
3
Sprache
• Natürliche Sprache
Aufgabenstellungen und
Informatikmethoden
•
• Formale Sprache
Fortran, C++, Java, LaTeX, HTML, Postscript
Matchingalgorithmen
Information Retrieval per Schlüsselwortkombination
•
Deutsch, Englisch, Italienisch, Armenisch, Bairisch, Sorbisch
• Deskriptive Sprache
DNS-Ketten, chemische Strukturformeln, Notenpartituren
Relevanzmodelle
Rangfolge der Angebote
•
•
Modell / Grammatik
Textextraktion
Kurzfassung der Angebote
• Abstrakter Sprachenbegriff:
Language Identication
• Sprache
Landessprachenidentifikation
•
– Manche Sprachen besitzen mehrere Grammatiken !
Kategorisierung
Familienfilter
•
Statistik
Gruppierung
• Traditionelles Lernproblem
Thematische Verzeichnisse
•
endliche Beschreibung einer Sprache
– Nicht jede Sprache besitzt eine Grammatik !
Übersetzungsoption
•
i.a. abzählbar unendliche Wortmenge
• Grammatik
Machine Translation
L ⊆ V∗
Positive/negative Lernbeispiele — welches Modell ? — Konstruktionsvorschrift ?
Netzwerkanalyse
• Weiche“ Wortzugehörigkeit statistischer Sprachen:
”
PL : w → [0, 1] ⊂ IR
Qualitätsindex
• Lernen aus positiven Beispielen
Verarbeitung natürlicher Sprache
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Verarbeitung natürlicher Sprache
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
NLP — Anwendungsgebiete
4
Dokumentenanalyse
NLP — Anwendungsgebiete
5
Schlüsselwortdetektion (Geiselaustausch, Watergate,
Ausreiseantrag)
• Layoutsegmentierung (Bilder, Absätze, Zeilen, Formeln etc.)
• Optische Zeichenerkennung (OCR)
Textindizierung und -abstracting (wissenschaftliche
Publikationen)
• Zeichenstatistiken, Wortgrammatiken, Layoutstrukturen
Textkompression (Verteilungsfunktion + arithmetische
Kodierung)
Automatische Erkennung gesprochener
Sprache
• Worterkennung
Bedeutungsanalyse
• Grammatische Sprachmodelle
• Kommandoidentifikation (Ende, Aus, Tschüß, Auf Wiedersehen)
• Schlüsselwortklassifikation
(FROM=Jena, TO=Hannover, TIME=abends, DATE=Montag)
Teilsprachenerkennung (sublanguage identification)
• Sprechaktklassifikation (Dialogsysteme)
• Datenbankanfragen (SQL Queries)
• Textsortenerkennung (Prosa, Lyrik, Wetterbericht,
Pornographie)
• Semantische Netze, logische Ausdrücke,
Attribut-Wert-Hierarchien
• Sprachenidentifikation (Deutsch, Englisch, Latein; LaTeX,
C-Kode)
Sprachübersetzung (text/text, speech/speech)
• Autorenerkennung (Goethe, Puschkin, Konsalik, Wechsung,
Meinhof)
Diskursanalyse (Textlinguistik)
• Genetische Kodes, Tierlaute, Bohrkerne, Seismik, EKG/EEG
• Topikanalyse (Physik, Chemie, Biologie, Astronomie, Astrologie)
Verarbeitung natürlicher Sprache
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
KI versus Statistik
6
NLP — Natural Language Processing
Verarbeitung natürlicher Sprache
Künstliche Intelligenz / NLP
Sprechen & Schreiben ⇒ Kommunikation von Fakten über die
”
Welt“
• Lügen? Rhetorik? Fiktionale Texte?
• nur die Spitze des Eisbergs (Sachverhalte) wird formuliert!
• der Hörer-Leser verfügt über komplexes Weltwissen.
• der Sprecher-Schreiber komplettiert nur das Weltwissen.
Dialogmodellierung (Mensch–Maschine, Mensch–Mensch)
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Verarbeitung natürlicher Sprache
Morphologie
7
Morphologie — Wortstruktur
Wort =
ˆ lexikalische Form (Grundformen + Flexeme)
• Verbpräfixe —
um+fahren“, ab+fahren“, über+fahren“, be+steigen“
”
”
”
”
• Konjugation —
• Deklination —
• Komposita —
wohn+te“, ge+wohnt“, wohn+en“, ging“?
”
”
”
”
Katze+n“, Hund+e“, Häus+er“?
”
”
”
Bauern+leber+wurst“, Imker+honig“, dumm+dreist“
”
”
”
Wortkategorien (part-of-speech)
BEISPIEL:
Was tut Alice?“ Sie geht zum Supermarkt.“ (und kauft Lebensmittel ein)
”
”
Wissensrepräsentation
• Formalismen:
nichtmonotone Logik, Semantische Netze, Regelwerke, Beliefnetze
• Allgemeinwissen
keine umfassende Wissensbasis verfügbar trotz langjähriger Anstrengungen
Statistik / NLP
• basiert auf der Analyse realer Texte
• automatisches Lernen komplexer (Wort)statistiken
• Techniken:
Markovprozesse, Hidden Markov Modelle, statistische Grammatiken
Verarbeitung natürlicher Sprache
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
N
Pro
Pos
Verb
Adj
Det
Prop
Conj
Prep
Aux
Modal
Adv
Wh
Punc
Nomen
Pronomen
Possessivum
Verb
Adjektiv
Determinans
Eigenname
Konjunktion
Präposition
Hilfsverb
Modalverb
Adverb
W-Fragewort
Satzzeichen
Hund, Gleichung, Konzerte
ich, du, es, sie, ihnen
mein, dein, unser
ist, berühre, ging
roter, große, begrünten
der, ein, manche
Nastassja, Shakespeare, Jena, Rhein
und, oder, aber, seit
im, nach, durch
sein, haben
wollen, können, müssen, sollen, möchten
schnell, vorsichtig
wer, was, wo
., !, ?
Merkmale (features) ⇒ Kongruenz (z.B. Subjekt–Verb)
• Kasus, Numerus, Genus
• Person, Tempus, Aktiv/Passiv, Indikativ/Konjunktiv
Verarbeitung natürlicher Sprache
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Syntax
8
Syntax
9
Syntax — Satzstruktur
Probleme mit kontextfreien PSGs
Phrasenstrukturgrammatik
Kongruenz
PS-Regel S → N P V P
• Terminale Symbole (Wörter, Satzzeichen)
• The
”
• The
”
• The
”
• The
”
• Nichtterminale Symbole (grammatische Kategorien)
S = Satz
es regnet“
”
VP = Verbphrase
ißt“, tritt den Hund“
”
”
NP = Nominalphrase
Dr. Brinkmann“, es“, der grüne Pfeil“
”
”
”
PP = Präpositionalphrase ”nach Weimar“, ”mit seinem Ferrari“
→
→
→
→
→
→
dogs eats“ (*)
• S → NP-plur VP-plur
NP VP
Verb
Det N
der
Hund
frißt
• S → NP-sing-1P VP-sing-1P
...
Langzeitabhängigkeiten
S
• Whom did Fred give the ball to?“
”
• Whom does Alice believe Fred wants to give the ball to?“
”
S
VP
VP
NP
Verb Det
Salespeople sold
dog eat“ (*)
• S → NP-sing VP-sing
Ableitungsbaum (Mehrdeutigkeit!)
N
dogs eat“
Merkmale ausmultiplizieren
Kontextfreie Regeln
S
VP
NP
Det
N
Verb
dog eats“
the
NP
N
N
dog
biscuits
Verarbeitung natürlicher Sprache
N
Verb Det
Salespeople sold
the
Zuordnung von PP oder NP (attachment)
NP
N
N
dog
biscuits
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Semantik
10
• I saw the statue with a telescope in the park“
”
• (song/metal/inexpensive) bird feeder kit“
”
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Verarbeitung natürlicher Sprache
Strikte versus statistische Grammatiken
11
Semantik — Satzbedeutung
Bedeutungsrepräsentation
(Präd.logik ohne Variablen/Quantoren)
• der blaue Ball“
”
• ( (Spielball Ball-1) & (Farbe Ball-1 blau) )
Kompositionelle Semantik
Bedeutung komplexer Strukturen =
ˆ F(Bedeutung v. Teilstrukturen)
• (Spielball Ball-1) oder (Festball Ball-1)
Wortschatz (Vokabular) von L Wörtern
V = {W1, W2, . . . , WL}
Sätze der Lange T
VT = V
. . × V} = {w1w2 . . . wT | wt ∈ V, t = 1, . . . , T }
| × .{z
T mal
Sätze über V
• (Farbe Ball-1 blau) oder (Mentalzustand Ball-1 betrunken)
Strikte Sprache (Teilmenge grammatisch korrekter Sätze)
• Alice gab dem Hund den Knochen“
”
• (geben Alice-1 Hund-2 Knochen-3)
L ⊆ V⋆
( der Hund frißt“∈ L, frißt Hund der der“ ∈
/ L)
”
”
Geber, Empfänger, Gegenstand
Gleiche Bedeutung ⇐⇒ gleiche formale Ausdrücke
• Alice gab den Knochen dem Hund“
”
• Dem Hund wurde von Alice der Knochen gegeben“
”
Textbedeutung (Anaphern, Ellipsen)
Statistische Sprache (Wahrscheinlichkeitsverteilung)
X
P (w) = 1
P : V ⋆ 7→ IR+ mit
w∈V ⋆
Grammatik =
ˆ endlicher Mechanismus zur Berechnng von
• Was für ein schöner Pullover!“ Ist der neu?“
”
”
• Nein, [...] mit Perwoll gewaschen!“
”
Verarbeitung natürlicher Sprache
VT
T =1
(Selektionsbeschränkungen: Spielball, Festball inkompatibel zu Mentalzustand)
Komposition
∞
[
V⋆ =
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
(w ∈ L)
Verarbeitung natürlicher Sprache
bzw.
P (w)
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Statistische Dekodierung
12
Informationstheoretisches
Kommunikationsmodell
w1 w2 . . . wN
Sender
Empfänger
P (w)
Sprecher
Schreiberin
Referent
...
Vererbung
w∗
x1 x2 . . . xT
Kanal
P (w∗ |x) → MAX
P (x|w)
Artikulation
Handmotorik
Übersetzung
...
Chromosomalstruktur
Hörerin
Leser
Dolmetscher
...
Mikrobiologe
BAYES-Regel
Maximum a posteriori Entscheidung
w∗ = argmax P (w|x) = argmax
w
Verarbeitung natürlicher Sprache
w
P (w) · P (x|w)
P (x, w)
= argmax
P (x)
P (x)
w
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Herunterladen