stochastische grammatikmodelle - Fakultät für Mathematik und

FRIEDRICH−SCHILLER−UNIVERSITÄT JENA
Fakultät für Mathematik und Informatik
Motivation
INSTITUT für INFORMATIK
Wörter und Wortkategorien
1
Der spanische Jesuit Pedro Bermudo (1610–1648) teilte die Liste der Wörter in jeder Sprache
in 44 Grundkategorien ein (s. Umberto Eco ’94):
VORLESUNG IM WINTERSEMESTER
1. Elemente. 2. Himmlische Größen. 3. Geistige Größen. 4. Weltliche Größen.
5. Kirchliche Größen. 6. Kunstgriffe. 7. Instrumente. 8. Affekte. 9. Religion.
10. Sakramentale Konfession. 11. Gericht. 12. Armee. 13. Medizin. 14. Häßliche
Tiere. 15. Vögel. 16. Reptilien und Fische. 18. Gerätschaften. 19. Speisen.
20. Getränke und andere Flüssigkeiten. 21. Kleider. 22. Seidengewebe.
23. Wollstoffe. 24. Segeltücher und andere Textilien. 25. Nautica und Aromen.
26. Metalle und Münzen. 27. Diverse Artefakte. 28. Steine. 29. Juwelen. 30. Bäume
und Früchte. 31. Öffentliche Orte. 32. Maße und Gewichte. 33. Zahlen. 34. Zeit.
35-42. Nomina, Adjektive, Adverbien und so weiter. 43. Personen.
44. Wanderschaft.
STOCHASTISCHE
GRAMMATIKMODELLE
Ernst Günter Schukat-Talamazzini
15. Lernen von Wortkategorien
Quelle: /home/schukat/latex/FOLIEN/Sprachmodelle-00/SSM-15.tex — 30. September 2013
Wörter mit ähnlichen statistischen
Verteilungseigenschaften:
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Deterministische Kategoriensysteme . . . . . . . . . . . . . . . .
3
Nichtdeterministische Kategoriensysteme . . . . . . . . . . . . .
5
Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . .
6
Optimierung disjunkter Kategoriesysteme . . . . . . . . . . . . .
16
Kategorisierung von Wortvorkommen . . . . . . . . . . . . . . .
25
Kategoriesysteme im praktischen Einsatz . . . . . . . . . . . . .
26
Markus
läuft
Maximilian
springt
Miriam
hüpft
Sebastian
lacht
Benedikt
schreit
Hannah
stinkt
Name
Verb
3. Person
Singular
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Morivation
2
GRUPPIERUNG VON WÖRTERN MIT ÄHNLICHEM
GRAMMATISCHEN u/o STATISTISCHEN VERHALTEN:
Deterministische Kategoriensysteme
3
Deterministische Kategoriensysteme
syntaktisch: Nomina, Verben, Adjektive von gleichem Genus, Kasus, Tempus, ... ;
System von K Wortkategorien (Wortklassen)
semantisch: Ordinal- oder Kardinalzahlwörter;
Wörter, die Farbe, Größe, Temperatur, ... charakterisieren;
C = {c1, c2 , . . . , cK }
pragmatisch: Eigennamen für Personen, Städte, Straßen, ... ;
Nomina für Tiere, Pflanzen, Materialien, klinische DIagnosen, ... ;
Wörter und ihre Kategorien
Repräsentation von Wortassoziationen
• Eindeutige Wort-Kategorie-Abbildung:
Nil
Pferd
Kuh Schwein
zwei
drei
vier
rot
gelb
Rhein
Donau
Hrsg.
Ohio
Papier
Story
California Utah
Maine Virginia Georgia
Holz
Nevada Texas
blau
κ : V 7→ C
Buch
Flöte
sowie
κ : V T 7→ C T
• Kategorien als Partition (disjunkte Zerlegung) von V
V = c1 ∪ c2 ∪ . . . ∪ cK und ci ∩cj = ∅ für alle i, j
Baum
disjunkte Kategorien
überlappende Kategorien
Beziehungsgeflecht
• Eindeutige kategoriale Annotation
w1 . . . wT ; c1 . . . cT = κ(w1) . . . κ(wT )
Unschärfe — nichttransitive Synonymie
Kategoriebezogene bedingte Wortwahrscheinlichkeiten:
hartnäckig
standhaft
zuverlässig
Lernen von Wortkategorien
eigensinnig
unberechenbar
unzuverlässig
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
P (wt | w1 . . . wt−1 ) = P (wt, ct | w1 . . . wt−1 )
= P (wt | ct , w1 . . . wt−1 ) · P (ct | w1 . . . wt−1 )
≈ P (wt|ct ) · P (ct | c1 . . . ct−1 )
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Deterministische Kategoriensysteme
4
Kategoriebezogene Satzwahrscheinlichkeiten:
P (w1 . . . wT ) =
T
Y
=
=
t=1
T
Y
Zweistufiger Zufallsprozeß mit 2T Zufallsvariablen
P (wt | w1 . . . wt−1 )
• Beobachtbare Wortfolge
w = w1 w2 . . . wT
[P (wt|ct ) · P (ct | c1 . . . ct−1 )]
P (wt|ct) ·
|t=1 {z
Bemerkung:
P (w|c)
T
Y
• Verborgene Kategorienfolge
P (ct | c1 . . . ct−1 )
} |t=1
{z
P (c)
c = c1 c2 . . . cT
}
Sprachmodell als Randverteilung
X
X
P (w) =
P (w, c) =
P (w|c) · P (c)
Das kategoriebezogene n-Gramm-Modell besitzt
c∈C T
(K n − 1) + (L − K)
freie Wahrscheinlichkeitsparameter, z.B. (106 − 1 + 900) statt (109 − 1) im Falle n = 3,
L = 103 , K = 102 .
Kategoriebezogene Zählfunktion
X
X
#(c1 . . . cn ) =
...
#(w1 . . . wn )
w1 ∈c1
c∈C T
Kategoriales Bigramm-Modell
#
"
T
X
Y
P (w) =
{P (wt|ct ) · P (ct|ct−1 )}
P (c1) · P (w1|c1) ·
t=2
c∈C T
wn ∈cn
Maximum-Likelihood-Schätzformeln
P̂ (cn |cn−1
1 ) =
5
Nichtdeterministische Kategoriensysteme
t=1
T
Y
Nichtdeterministische Kategoriensysteme
Peter
Paul
Frauen
Katze
Hund
Baum
... ... ...
#(c1 . . . cn )
#(w)
und P̂ (w|c) =
#(c1 . . . cn−1 )
#(c)
N
V
Adj
PROBLEMSTELLUNG:
lacht
weint
lieben
kratze
beißen
gewachsen
... ... ...
dumm
dreist
scharfe
getigertes
rassig
grüner
... ... ...
Entwurf geeigneter Kategoriensysteme
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
6
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
7
Satzerzeugungswahrscheinlichkeiten
Definition 9.1:
Ein (diskretwertiges) Hidden Markov Modell (HMM) ist ein
zweistufiger Zufallsprozeß (C, W ) verborgener Zufallsvariablen
Ct ∈ C sowie beobachtbarer Zufallsvariablen Wt ∈ V mit dem
Parameterfeld λ = (π, A, B), bestehend aus:
Modellbedingte a priori Verteilung der Kategoriefolgen:
P (c|λ) = P (c1 . . . cT | λ) = πc1 ·
T
Y
act−1ct
t=2
Kategoriebedingte Verteilung der Ausgabewortfolge:
Anfangswahrscheinlichkeiten π ∈ IRK
P (w | c, λ) = P (w1 . . . wT | c1 . . . cT , λ) =
i
πi = P (C1 = c )
b ct w t
t=1
Übergangswahrscheinlichkeiten A ∈ IRK×K
aij = P (Ct = cj | Ct−1 = ci)
Ausgabewahrscheinlichkeiten B ∈ IR
T
Y
K×L
Verbundwahrscheinlichkeit für das gemeinsame Auftreten von c, w:
P (w, c | λ) = P (w | c, λ) · P (c|λ) = πc1 bc1 w1 ·
T
Y
t=2
bjk = P (Wt = v k | Ct = cj )
act−1ct bctwt
Satzproduktionswahrscheinlichkeit als Marginalverteilung:
"
#
T
X
X
Y
P (w|λ) =
P (w, c | λ) =
π c1 b c1 w 1 ·
act−1ct bctwt
c∈C T
PROBLEMSTELLUNGEN:
• Effiziente Berechnung der Satzwahrscheinlichkeiten P (w)
• Dekodierung der verborgenen Kategorienfolge C1 . . . CT
• Schätzung der HMM-Parameter λ = (π, A, B)
c∈C T
t=2
Bemerkung:
• P (w|λ) genügt der Normierungsbedingung
X
X
...
P (w|λ) = 1
w1 ∈V
wT ∈V
• Die Berechnung von P (w|λ) erfordert ca. 2T · K T Multiplikationen — exponentielle
Komplexität!
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Hidden Markov Modelle
8
Hidden Markov Modelle
Lemma 9.2:
Lemma 9.1:
(Vorwärtswahrscheinlichkeiten)
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem
Vorwärtsalgorithmus
9
(Rückwärtswahrscheinlichkeiten)
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem
Rückwärtsalgorithmus
• Initialisierung: Für alle i = 1, . . . , K setze
• Initialisierung: Für alle j = 1, . . . , K setze
α1 (j) = πj · bjk
βT (i) = 1
(w1 = v k )
• Rekursion: Für t > 1 und alle j = 1, . . . , K setze
!
K
X
αt−1 (i) · aij · bjk
αt (j) =
• Rekursion: Für t < T und alle i = 1, . . . , K setze
i=1
P (w|λ) =
(wt+1 = v k )
(aij · bjk · βt+1 (j))
j=1
(wt = v )
berechneten (T × K)-Matrixeinträge βt(i) gilt die Aussage
berechneten (T × K)-Matrixeinträge αt(j) gilt die Aussage
K
X
K
X
βt (i) =
k
P (w|λ) =
αT (j)
K
X
(w1 = v k )
πj · bjk · β1(j)
j=1
j=1
Darüberhinaus gilt für alle 1 ≤ t ≤ T , 1 ≤ j ≤ K die Aussage
αt (j) · βt(j) = P (w, Ct = cj | λ)
BEWEIS:
Zeige induktiv αt (j) = P (w1 . . . wt , Ct = cj | λ) für alle t, j !
und es existieren noch die folgenden Summendarstellungen:
P (w|λ) =
w1
wt−1
wt
K
X
(αt (j) · βt (j)) ,
t = 1, . . . , T
j=1
wT
c1
BEWEIS:
Zeige induktiv βt (i) = P (wt+1 . . . wT | Ct = ci , λ) für alle t, i !
c2
c3
c4
c5
spaltenweise
Bemerkung:
zeilenweise
• Die Berechnung der (T × K)-Matrizen α bzw. β erfordert je 2 · K 2 · T Multiplikationen.
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
10
Schätzung der verborgenen Kategoriefolge
A posteriori Wahrscheinlichkeit von c bzgl. w:
P (w, c | λ)
P (c | w, λ) =
P (w|λ)
c∗ ist eine optimale Kategoriefolge, falls gilt:
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
11
Maximum a posteriori Kategorisierung
• Viterbi-Annotation —
Kategorien der optimalen Zustandsfolge
• MAP-Annotation —
Folge der lokal optimalen Wortkategorien
P (w, c∗ | λ) = max P (w, c | λ) =: P ∗(w|λ)
c∈C T
Ct =?
Lemma 9.3: Es seien λ = (π, A, B) die Parameter eines Hidden
Markov Modells und w ∈ V T eine Wortfolge der Länge T . Die gemäß
dem VITERBI-Algorithmus
w1
w2
wt
wt+τ
KAUSAL
PROSPEKTIV
wT
GLOBAL
• Initialisierung: Für alle j = 1, . . . , K setze
(w1 = v k ) und ψ1 (j) = undef
ϑ1 (j) = πj · bjk
γt(j) := P (Ct = cj | w, λ) =
• Rekursion: Für t > 1 und alle j = 1, . . . , K setze
ϑt (j) = max (ϑt−1 (i) · aij ) · bjk
i
Maximiere die globale a posteriori Wahrscheinlichkeit
(wt = v k )
ψt (j) = argmax (ϑt−1 (i) · aij )
Die Gesamtfolge w1 . . . wT dient als Entscheidungsgrundlage.
i
• Terminierung:
c∗T = argmax ϑT (j)
Maximiere die kausale a posteriori Wahrscheinlichkeit
j
• Rückverfolgung: Für t = T − 1, . . . , 1 setze
c∗t = ψt+1 (c∗t+1 )
berechnete Kategoriefolge c∗ = c∗1 . . . c∗T ist optimal bezüglich der
Eingabewortfolge w.
BEWEIS:
Zeige induktiv für alle t, j:
ϑt (j) = max P (w1 . . . wt , c1 . . . ct | λ) | c ∈ C t mit ct = cj
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
P (w, Ct = cj | λ)
αt (j) · βt (j)
= P
P (w|λ)
i αt (i) · βt (i)
P (Ct = cj | w1 . . . wt , λ) =
P (w1 . . . wt , Ct = cj | λ)
αt (j)
= P
P (w1 . . . wt | λ)
i αt (i)
Die Anfangsteilfolge w1 . . . wt dient als Entscheidungsgrundlage.
Maximiere die τ -prospektive a posteriori Wahrscheinlichkeit
P (Ct = cj | w1 . . . wt+τ , λ)
Die Anfangsteilfolge w1 . . . wt und der τ -lookahead wt+1 . . . wt+τ
dienen als Entscheidungsgrundlage.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Hidden Markov Modelle
12
Schätzung der HMM-Parameter
c∈C T
für eine vorgegebene, nichtannotierte Lernstichprobe w = w1 . . . wT .
LÖSUNG — EM-Algorithmus
1
P (w|λ)
αt (j) · βt(j)
γt(j) = P (Ct = cj | w, λ) = X
,
αt (i) · βt (i)
i
ξt (i, j) = P (Ct = ci, Ct+1 = cj | w, λ)
P (w, c | λ) · log P (w, c | λ′ )
=
c∈C T
Logarithmierte Verbundverteilung des neuen“ Modells:
”
′
log πc′ 1
log P (w, c | λ ) =
1≤t≤T
die a posteriori Wahrscheinlichkeit für die Kategorie ci zum
Zeitpunkt t; die Größe
Iterative Maximierung der Kullback-Leibler-Statistik
Q(λ, λ′ ) =
13
Definition 9.2: Es seien λ = (π, A, B) die Parameter eines
Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T .
Dann bezeichne die Größe
PROBLEM — Optimiere die ML-Zielfunktion
X
ℓML (λ) = log P (w|λ) = log
P (w, c | λ)
X
Hidden Markov Modelle
+
T
X
log a′ct−1 ct
+
T
X
=
log b′ct wt
t=1
t=2
P (Ct = ci, Ct+1 = cj , w | λ)
P (w|λ)
αt (i) · aij · bjwt+1 · βt+1(j)
,
K
X
αt (l) · βt(l)
1≤t<T
l=1
Einsetzen in Q(λ, λ′ ) und Umgruppieren nach Parametern von λ′ :
Q(λ, λ′ ) = Qπ′ (λ, π ′ ) +
K
X
Qa′i,· (λ, a′i,· ) +
i=1
K
X
die a posteriori Wahrscheinlichkeit des Kategorieübergangs ci 7→ cj
zum Zeitpunkt t.
Qb′j,· (λ, b′j,· )
j=1
Bemerkung:
• Es gilt der Zusammenhang
(2K + 1) separierte Maximierungsaufgaben mit linearer Nebenbedingung:
Qπ′ (λ, π ′ ) =
K
X
γt (i) =
T −1
K
X
X
Qb′j,· (λ, b′j,· )
=
T
X
ξt (i, j)
t=1
j=1
γt (j) ·
!
• Es bezeichnen die Summen
· log a′ij
log b′jwt
=
t=1
γ̄(i) =
K
T
X
X
γt (j) · χ[wt =vk ]
t=1
k=1
!
·
log b′jk
Hidden Markov Modelle
14
T −1
X
ξt (i, j)
t=1
T −1
K X
X
T −1
X
=
j=1 t=1
=
T
X
γt (i)
t=1
T
K X
X
ξt (i, j)
t=1
T −1
X
ξt (i, j)
b′jk
ξt (i, j)
t=1
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Nichtdeterministische Kategoriensysteme
15
(Baum-Welch-Trainingsformeln für diskretwertige HMMs)
i=1
=
T −1
X
¯ j) =
γt (i) und ξ(i,
die empirischen Erwartungswerte für die Häufigkeiten der Kategorie ci bzw. der
Kategorieübergänge ci 7→ cj .
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die modifizierten
Parameter λ′ = (π ′, A′, B ′) mit
γ1(i)
γ1(i)
=
πi′ = K
T
X
γ1(i)
a′ij
T
X
t=1
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Lemma 9.4:
ξt (i, j)
j=1
γ1 (i) · log πi′
i=1
Qa′i,· (λ, a′i,· ) =
K
X
γt(i)
· χ[wt=vk ]
=
k=1 t=1
γt(i) · χ[wt=vk ]
T
X
γt(i)
t=1
und
∝ #(C1 = ci )
âij = #(ci cj ) / #(ci)
∝ #(Ct−1 = ci , Ct = cj )
(0)
mit den oben definierten a posteriori Wahrscheinlichkeiten γt(i),
ξt (i, j) gelten die Ungleichungen
Q(λ, λ′ ) ≥ Q(λ, λ)
π̂i = #($ci) / #($)
Strukturüberwacht — mit bekanntem Kategoriensystem
t=1
γt(i) · χ[wt=vk ]
Überwacht — mit kategorialer Annotation
b̂jk = #(cj &v k ) / #(cj ) ∝ #(Ct = cj , Wt = v k )
t=1
T
X
Schätzung von HMM-Sprachmodellen
• Initialisiere π̂ (0) und Â uniform; setze
(1
/|cj |
falls v k ∈ cj
(0)
b̂jk =
0
sonst
(r)
• Berechne λ̂ , r > 0 mittels EM-Algorithmus.
(r)
(Nicht-annotierte Stichprobe; verschwindende b̂jk werden reproduziert“.)
”
P (w|λ′) ≥ P (w|λ) .
Entscheidungsüberwacht — mit Viterbi-Algorithmus
Bemerkung:
(0)
Damit gelten für den Baum-Welch-Trainingsalgorithmus
0. Initialisiere r = 0 sowie λ̂ .
(r)
• Initialisierung:
(0)
πi
1. Berechne zum Trainingskorpus w die Viterbi-Annotation c(r) mittels Modell λ̂ .
(0)
(0)
bjk = 1/L ,
aij = 1/K ,
= 1/K ,
1 ≤ i, j ≤ K , 1 ≤ k ≤ L
• Iterationsschritt:
(r+1)
λ
= λ
′
(r)
′
(r)
(r)
mit Q(λ , λ ) ≥ Q(λ , λ ) nach obigem Lemma
2. Schätze aus (w, c(r) ) überwacht das neue Modell λ̂
(r+1)
.
3. Prüfe Abbruchkriterium; setze ggf. r = r + 1 und ⇒ 1.
die Konvergenzaussagen des EM-Algorithmus.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
16
Optimierung disjunkter Kategoriesysteme
17
Logarithmierte ML-Zielfunktion:
ML-Optimierung disjunkter Kategoriesysteme
ℓML(κ) = log Pκ(w) =
GEGEBEN:
=
1
2
T
X
log q(wt | κ(wt−1 ))
t=1
X
X
#(vw) · log q(w | κ(v))
v∈V w∈V
L
• Wortschatz V = {v , v , . . . , v }
|
• Kategoriealphabet C = {c1 , c2, . . . , cK }
{z
ℓvML (κ)
}
NEY’s entscheidungsüberwachter EM-Algorithmus:
• Lernstichprobe w ∈ V T
(0) Setze r = 0 und wähle eine Startpartition
GESUCHT:
κ(0) : V 7→ C
Ein disjunktes Kategoriesystem (Partition von V) κ : V 7→ C
mit
!
Pκ(w) = P (w | κ(w)) · P (κ(w)) = MAX
(1) Bestimme die Maximum-Likelihood-Parameter
X
#(vw)
q (r)(w|c) =
Bigramm-ML-Sprachmodell ohne Glättung


T
Y
P (wt | κ(wt)) · P (κ(wt) | κ(wt−1 ))
Pκ(w) =
| {z }
| {z } | {z }
t=1
ct
c
ct−1
{z t
}
|
Spezialfall:
w ∈ V, c ∈ C
(2) Bestimme wortweise eine verbesserte Partition κ(r+1) mit
X
#(vw) · log q (r)(w|c)
κ(r+1)(v) = argmax
c∈C
#(vw)
w∈V
(3) Teste geeignetes Abbruchkriterium, setze r = r + 1 und gehe
⇒ Schritt (1).
κ(v)=c
X
#(v)
des kategorialen Bigramm-Sprachmodells Pκ(r) .
q(wt |ct−1 )
#(cw)
q(w|c) = P̂ (Wt = w | κ(Wt−1) = c) =
=
#(c)
X
κ(r) (v)=c
mit den Maximum-Likelihood-Schätzwerten
X
κ(r) (v)=c
#(v)
Bemerkung:
κ(v)=c
• Ney’s Algorithmus verfängt sich gern in (suboptimalen) lokalen Maxima.
• Gelernte Kategorien i.a. handgefertigten“ Systemen unterlegen (Perplexität!).
”
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Optimierung disjunkter Kategoriesysteme
ML-Zielfunktion des Standard-Kategoriebigramms:
log P̂κ (w) =
18
=
log
t=1
=
X
log
t=1
#(w) log #(w) −
X
κ∗ = argmax f (κ)
#(ct−1 ct )
#(ct )
X
κ
#(c) log #(c) +
#(c′ c) log #(c′ c) − 2 ·
X
#(c′ c) log #(c′ c) −
c,c′ ∈C
c∈C
w∈V
=
#(wt )
+
#(ct )
X
X
#(c) log #(c)
c∈C
#(c) log #(c) + konstant
c∈C
c,c′ ∈C
Leave-one-out Kategoriebigramm mit Verfärbung

#(c′ c) − λ




#(c′ )
′
P̃ (c|c ) =
 ρ(c′ )
λ


·

L − ρ(c′ ) #(c′ )
′
#(c c) > 0
#(c′ c) = 0
X
BM — British Museum“ Algorithmus
”
Berechne f (κ) explizit für alle κ ∈ C V .
HC — Hill Climbing“ Verfahren (steilster Aufstieg)
”
0. Wähle zufällig κ∗ ∈ C V und setze φ∗ = f (κ∗ ).
1. Bestimme die Menge U = U(κ∗ ) benachbarter Lösungskandidaten.
2. Bestimme den lokalen Sieger κ̃ = argmaxκ∈U f (κ) und seine Bewertung
φ̃ = maxκ∈U f (κ).
Leave-one-out Zielfunktion:
log P̃κ (w) =
19
Iterationsverfahren zur näherungsweisen Berechnung von
t=1
T
X
Optimierung disjunkter Kategoriesysteme
Kombinatorische Suche
T h
i
X
log P̂ (wt |ct ) + log P̂ (ct |ct−1 )
T
X
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
3. Falls φ̃ < φ∗ , war κ∗ schon lokal optimal; ⇒ ENDE.
#(c′ c) log [#(c′ c) − 1 − λ]
4. Sonst ersetze κ∗ = κ̃, φ∗ = φ̃ und marschiere zurück ⇒ [1].
c,c′ ∈C
2
L − η0 − 1
·λ
+ η1 · log
η0 + 1
X
#(c) log [#(c) − 1]
− 2·
f (κ)
globales Optimum
c∈C
U(κ∗ )
Das kombinatorische Optimierungsproblem
lokales Optimum
κ∗ = argmax f (κ)
κ∈C V
mit
f (κ) = log P̂κ(w) oder f (κ) = log P̃κ(w)
κ∗
ist von exponentieller Komplexität, da es K L verschiedene, genauer:
KL
/K! wesentlich verschiedene Kategoriesysteme κ gibt.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
κ
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
Optimierung disjunkter Kategoriesysteme
20
21
Inkrementelle Berechnung der Zielfunktion
Stetigkeit“: kleine ∆κ implizieren kleine ∆f (κ)
”

→
C
V
κik :
ck
j=i
j
7→
v
κ(v j )
j=
6 i
Stochastische Suchverfahren
deterministischer Umgebungsbegriff ⇒ randomisierte
Transformation
τ : C V −→ C V
Differentielle Zielfunktionsberechnung:
∆ik (κ) = log P̂κik (w) − log P̂κ(w)
X
#κik (c′ c) log #κik (c′ c) − #κ(c′ c) log #κ(c′ c)
=
|
{z
}
′
c,c
0. Initialisiere zufällig:
2
ηκ;i,k
− 2·
X
c
=
SR — Stochastische Relaxation
X
2. Bewerte Nachfolger:
f (κ)
globales Optimum
1
2
1
1
Ckl
= {ck , cl } und Ckl
= {(c, c′ ) ∈ C 2 | c ∈ Ckl
oder c′ ∈ Ckl
}
1
k
l
κ∗ = κ, φ∗ = φ
5. Prüfe Abbruchbedingung; ggf. ⇒ [1] oder ⇒ ENDE
mit dem Herkunftsindex l des bewegten Wortes v i (κ(v i) = cl )
und den Summationsbereichen
1
φ > φ∗ ?
4. Ersetze im Erfolgsfall die Aktuallösung:
1
ηκ;i,k
1
c∈Ckl
2
(c,c′ )∈Ckl
φ = f (κ)
3. Prüfe Annahmebedingung:
1
ηκ;i,k
2
ηκ;i,k
−
κ = τ (κ∗ )
1. Würfele Nachfolger aus:
# (c) log #κik (c) − #κ(c) log #κ(c)
| κik
{z
}
X
κ∗ ∈ C V , φ∗ = f (κ∗ )
lokales Optimum
K
k
Wort v i wechselt von Kategorie cl nach ck
ANNAHME
φ∗
κ∗
l
ABLEHNUNG
Spalten/Zeilen mit nichtverschwindender Differenz
κ
Doppelt auftretende Differenzen
K
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Optimierung disjunkter Kategoriesysteme
GD — Sintflutalgorithmus ( great deluge“)
”
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
22
Führe einen zeitabhängigen Wasserstand ein
23
RT — Record-to-Record Travelling
Φ : IN −→ IR
Prüfe die Bewertung relativ zum kumulierten Maximum
(Rekordinhaber!)
φ > φmax
− ∆t
t
mit einer geeigneten Flutungsstrategie (monoton steigend)
Φt+1 = Φt + δ
und überprüfe die Annahmebedingung
(kein Abdriften“ durch sukzessive Detailverschlechterung)
”
φ > Φt
f (κ)
globales Optimum
f (κ)
schrumpfende Toleranzmarge
lokales Optimum
κ∗
φ∗
ANNAHME
ABLEHNUNG
Φt
κ
TA — Schwellwertannahme
φmax
t
∆t
φ
ANNAHME
κ∗
∗
ABLEHNUNG
(threshold acceptance)
κ
Führe zeitabhängige Toleranzschwelle ∆ : IN → IR ein, z.B.:
∆t+1 = ∆t · (1 − δ)
und überprüfe die Annahmebedingung
φ > φ∗ − ∆t
SA — Simulated Annealing
f (κ)
schrumpfende Toleranzmarge
κ∗
φ∗
∆t
ANNAHME
ABLEHNUNG
( simuliertes Auskühlen“)
”
Prüfe die randomisierte Annahmebedingung
(
falls φ > φ∗
1 ∗ Pt(”κ annehmen“ ) =
φ −φ
falls
exp − ∆t
mit geeignetem Abkühlplan ∆ : IN → IR, ∆t → 0.
κ
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
Kategorisierung von Wortvorkommen
24
BEISPIEL: (Intercity-Korpus; T = 19 894, |V| = 684)
Kategorisierung von Wortvorkommen
• Wortkontexte clustern ⇒ Ambiguitäten auflösen
Bigrammperplexität optimierter Kategoriensysteme
• Nur Kontexte ⇒
55
65
mit Teststichprobe 1+2
mit Teststichprobe 1
mit Teststichprobe 2
handg. Kat.system (Testst. 1+2)
handg. Kat.system (Testst. 1)
handg. Kat.system (Testst. 2)
automatisch berechnete Kategoriensysteme
manuell erstelltes Kategoriensystem
50
60
40
manuell erstelltes Kategoriensystem
35
30
25
the soldiers {rarely|will} come home“
”
Ballungsanalyse von Wortvorkommen:
55
Testkorpus-Perplexität
Trainingskorpus-Perplexität
45
25
1. Repräsentiere Wortvorkommen durch Kontextvektoren
50
2. Reduziere Vektordimension durch PCA/SVD
(Hauptachsentransformation/Singulärwertzerlegung)
45
20
40
15
10
35
0
20
40
60
80
100
120
Kategorienzahl
140
160
180
200
0
20
40
Lernstichprobe
60
80
100
120
Kategorienzahl
140
160
180
Teststichprobe
200
3. Ballungsanalyse ( Clustering“) ⇒ Kategoriensystem
”
Distributionelle Wortrepräsentation:
• Linkskontextvektor xL (w) von Wort w ∈ V
Einige Kategorien ...
xLi (w) = #(v i w) / #(w)
1. wo wann ob mitnehmen*
• Rechtskontextvektor xR (w) von Wort w ∈ V
2. Vormittag Nachmittag Mittag Abend März Zeiten*
i
xR
i (w) = #(wv ) / #(w)
3. einundzwanzigsten zehnten einunddreißigsten* vierten siebten elften Weihnachtsfeiertag
zweiten fünften ersten vierundzwanzigsten sechsten* siebzehnten zweiundzwanzigsten*
neunzehnten* dreiundzwanzigsten siebenundzwanzigsten* dritten zehnter*
4. Koblenz Hof* Dortmund Saarbrücken Osnabrück* Ulm Augsburg Frankfurt Paris Nürnberg
Göttingen* Köln Bebra Weihnachten Heidelberg Würzburg Bonn
5. Ochtrup Mannheim Bamberg* Hamburg Athen Düsseldorf Graz* Berlin Abensberg*
Solingen* Kiel* Oberstaufen* Utting* London Aachen Bremen Regensburg Wien Hause*
Münster Stuttgart Rom Ansbach* Offenburg* Wuppertal* Hannover Karlsruhe Amsterdam*
6. Februar April Mai Juni Juli August September* Oktober Dezember* zweiundneunzig
Vormittags einundneunzig Feiertag* neunzehnhunderteinundneunzig* Weihnachtstag
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Kategoriesysteme im praktischen Einsatz
26
(häufigkeitsverteilungsorientiert)
• Ordne den Wortschatz V = {v 1 , . . . , v L } nach Frequenzen: i < j ⇒ #(v i ) ≥ #(v j )
k
{v }
für k < K
• Definiere C = {c1 , . . . , cK } mit ck =
{v K , . . . , v L }
für k = K
Parts-of-Speech (POS)
(syntaktisch orientiert)
• Syntaktische Wortcharakteristiken, z.B. Wortart, Kasus, Numerus, Genus, Tempus, ...
• Inventare von 50–120 Kategorien; ambige Wortformen in separaten Klassen
• Ungesehene Formen & Hapax Legomena in gemeinsamer Kategorie
• Volle Wirkungsentfaltung in Flexionssprachen (dt., frz., it.)
Adrien est gracieux/se“
”
Lemmata
( Adrian ist graziös“)
”
(semantisch / morphologisch orientiert)
• Kategorien flektierter Wortformen mit identischer Stammform
z.B. c27 = { sein“, bin“, bist“, ist“, sind“, seid“, war“, warst“, waren“}
”
”
”
”
”
”
”
”
”
Kombinierte Sprachmodelle
• Lineare Interpolation:
t−1
t−1
t−1
P (wt |wt−1
1 ) = λ1 · Pwort (wt |w 1 ) + λ2 · Ppos (wt |w 1 ) + λ3 · Plemma (wt |w 1 )
• Faktorisierte Prädiktorformel:
XX
t−1
t−1
P (wt |wt−1
P (wt | c, g) · P (c, g | wt−1
1 ) =
1 , c1 , g 1 )
c∈C g∈G
≈
X
{P (c | ct−2 ct−1 ) · P (g | gt′ gt′′ )}
ω(c,g)=wt
falls (C, G) vollständig orthogonal, d.h. w = ω(c, g) = ω(c′ , g ′) ⇒ c = c′ und g = g ′.
• Desambiguierung von ...
a.
... weil Mutter blutarm ist/ißt“
”
... weil Nastassia fettarm ist/ißt“
”
c. ... weil Buttermilch fettarm ist/ißt“
”
b.
Lernen von Wortkategorien
hxL(wt ), xR (wt−1 ), xL(wt+1), xR (wt)i
1. Ballungsanalyse aller Linkskontexte xL (w), w ∈ V
P
2. Definiere y R (w) mit ykR (w) = v∈Ωk #(wv)/#(w)
8. Feiertagen Fahrrad* Gültigkeit* sechzehnten* Abfahrtszeit Woche S-Bahn
Lernen von Wortkategorien
Distributionelle Wortvorkommenrepräsentation:
Verallgemeinerte Kontextvektoren
7. vierzehn wieviel neunzehn einundzwanzig fünfzehn zehn zwei vierundzwanzig dreizehn
zweiundzwanzig zwanzig dreiundzwanzig achtzehn
Rangkategorien
hxL (w), xR (w)i
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena

Zugehörige Unterlagen

Workshop Bewerbung Bewerbungsunterlagen Veranstaltungsart

stochastische grammatikmodelle - Fakultät für Mathematik und

Zugehörige Unterlagen

Produkte

Unterstützung

stochastische grammatikmodelle - Fakultät für Mathematik und

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können