stochastische grammatikmodelle - Fakultät für Mathematik und

Werbung
FRIEDRICH−SCHILLER−UNIVERSITÄT JENA
Fakultät für Mathematik und Informatik
Motivation
INSTITUT für INFORMATIK
Wörter und Wortkategorien
1
Der spanische Jesuit Pedro Bermudo (1610–1648) teilte die Liste der Wörter in jeder Sprache
in 44 Grundkategorien ein (s. Umberto Eco ’94):
VORLESUNG IM WINTERSEMESTER
1. Elemente. 2. Himmlische Größen. 3. Geistige Größen. 4. Weltliche Größen.
5. Kirchliche Größen. 6. Kunstgriffe. 7. Instrumente. 8. Affekte. 9. Religion.
10. Sakramentale Konfession. 11. Gericht. 12. Armee. 13. Medizin. 14. Häßliche
Tiere. 15. Vögel. 16. Reptilien und Fische. 18. Gerätschaften. 19. Speisen.
20. Getränke und andere Flüssigkeiten. 21. Kleider. 22. Seidengewebe.
23. Wollstoffe. 24. Segeltücher und andere Textilien. 25. Nautica und Aromen.
26. Metalle und Münzen. 27. Diverse Artefakte. 28. Steine. 29. Juwelen. 30. Bäume
und Früchte. 31. Öffentliche Orte. 32. Maße und Gewichte. 33. Zahlen. 34. Zeit.
35-42. Nomina, Adjektive, Adverbien und so weiter. 43. Personen.
44. Wanderschaft.
STOCHASTISCHE
GRAMMATIKMODELLE
Ernst Günter Schukat-Talamazzini
15. Lernen von Wortkategorien
Quelle: /home/schukat/latex/FOLIEN/Sprachmodelle-00/SSM-15.tex — 30. September 2013
Wörter mit ähnlichen statistischen
Verteilungseigenschaften:
Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Deterministische Kategoriensysteme . . . . . . . . . . . . . . . .
3
Nichtdeterministische Kategoriensysteme . . . . . . . . . . . . .
5
Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . .
6
Optimierung disjunkter Kategoriesysteme . . . . . . . . . . . . .
16
Kategorisierung von Wortvorkommen . . . . . . . . . . . . . . .
25
Kategoriesysteme im praktischen Einsatz . . . . . . . . . . . . .
26
Markus
läuft
Maximilian
springt
Miriam
hüpft
Sebastian
lacht
Benedikt
schreit
Hannah
stinkt
Name
Verb
3. Person
Singular
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Morivation
2
GRUPPIERUNG VON WÖRTERN MIT ÄHNLICHEM
GRAMMATISCHEN u/o STATISTISCHEN VERHALTEN:
Deterministische Kategoriensysteme
3
Deterministische Kategoriensysteme
syntaktisch: Nomina, Verben, Adjektive von gleichem Genus, Kasus, Tempus, ... ;
System von K Wortkategorien (Wortklassen)
semantisch: Ordinal- oder Kardinalzahlwörter;
Wörter, die Farbe, Größe, Temperatur, ... charakterisieren;
C = {c1, c2 , . . . , cK }
pragmatisch: Eigennamen für Personen, Städte, Straßen, ... ;
Nomina für Tiere, Pflanzen, Materialien, klinische DIagnosen, ... ;
Wörter und ihre Kategorien
Repräsentation von Wortassoziationen
• Eindeutige Wort-Kategorie-Abbildung:
Nil
Pferd
Kuh Schwein
zwei
drei
vier
rot
gelb
Rhein
Donau
Hrsg.
Ohio
Papier
Story
California Utah
Maine Virginia Georgia
Holz
Nevada Texas
blau
κ : V 7→ C
Buch
Flöte
sowie
κ : V T 7→ C T
• Kategorien als Partition (disjunkte Zerlegung) von V
V = c1 ∪ c2 ∪ . . . ∪ cK und ci ∩cj = ∅ für alle i, j
Baum
disjunkte Kategorien
überlappende Kategorien
Beziehungsgeflecht
• Eindeutige kategoriale Annotation
w1 . . . wT ; c1 . . . cT = κ(w1) . . . κ(wT )
Unschärfe — nichttransitive Synonymie
Kategoriebezogene bedingte Wortwahrscheinlichkeiten:
hartnäckig
standhaft
zuverlässig
Lernen von Wortkategorien
eigensinnig
unberechenbar
unzuverlässig
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
P (wt | w1 . . . wt−1 ) = P (wt, ct | w1 . . . wt−1 )
= P (wt | ct , w1 . . . wt−1 ) · P (ct | w1 . . . wt−1 )
≈ P (wt|ct ) · P (ct | c1 . . . ct−1 )
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Deterministische Kategoriensysteme
4
Kategoriebezogene Satzwahrscheinlichkeiten:
P (w1 . . . wT ) =
T
Y
=
=
t=1
T
Y
Zweistufiger Zufallsprozeß mit 2T Zufallsvariablen
P (wt | w1 . . . wt−1 )
• Beobachtbare Wortfolge
w = w1 w2 . . . wT
[P (wt|ct ) · P (ct | c1 . . . ct−1 )]
P (wt|ct) ·
|t=1 {z
Bemerkung:
P (w|c)
T
Y
• Verborgene Kategorienfolge
P (ct | c1 . . . ct−1 )
} |t=1
{z
P (c)
c = c1 c2 . . . cT
}
Sprachmodell als Randverteilung
X
X
P (w) =
P (w, c) =
P (w|c) · P (c)
Das kategoriebezogene n-Gramm-Modell besitzt
c∈C T
(K n − 1) + (L − K)
freie Wahrscheinlichkeitsparameter, z.B. (106 − 1 + 900) statt (109 − 1) im Falle n = 3,
L = 103 , K = 102 .
Kategoriebezogene Zählfunktion
X
X
#(c1 . . . cn ) =
...
#(w1 . . . wn )
w1 ∈c1
c∈C T
Kategoriales Bigramm-Modell
#
"
T
X
Y
P (w) =
{P (wt|ct ) · P (ct|ct−1 )}
P (c1) · P (w1|c1) ·
t=2
c∈C T
wn ∈cn
Maximum-Likelihood-Schätzformeln
P̂ (cn |cn−1
1 ) =
5
Nichtdeterministische Kategoriensysteme
t=1
T
Y
Nichtdeterministische Kategoriensysteme
Peter
Paul
Frauen
Katze
Hund
Baum
... ... ...
#(c1 . . . cn )
#(w)
und P̂ (w|c) =
#(c1 . . . cn−1 )
#(c)
N
V
Adj
PROBLEMSTELLUNG:
lacht
weint
lieben
kratze
beißen
gewachsen
... ... ...
dumm
dreist
scharfe
getigertes
rassig
grüner
... ... ...
Entwurf geeigneter Kategoriensysteme
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
6
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
7
Satzerzeugungswahrscheinlichkeiten
Definition 9.1:
Ein (diskretwertiges) Hidden Markov Modell (HMM) ist ein
zweistufiger Zufallsprozeß (C, W ) verborgener Zufallsvariablen
Ct ∈ C sowie beobachtbarer Zufallsvariablen Wt ∈ V mit dem
Parameterfeld λ = (π, A, B), bestehend aus:
Modellbedingte a priori Verteilung der Kategoriefolgen:
P (c|λ) = P (c1 . . . cT | λ) = πc1 ·
T
Y
act−1ct
t=2
Kategoriebedingte Verteilung der Ausgabewortfolge:
Anfangswahrscheinlichkeiten π ∈ IRK
P (w | c, λ) = P (w1 . . . wT | c1 . . . cT , λ) =
i
πi = P (C1 = c )
b ct w t
t=1
Übergangswahrscheinlichkeiten A ∈ IRK×K
aij = P (Ct = cj | Ct−1 = ci)
Ausgabewahrscheinlichkeiten B ∈ IR
T
Y
K×L
Verbundwahrscheinlichkeit für das gemeinsame Auftreten von c, w:
P (w, c | λ) = P (w | c, λ) · P (c|λ) = πc1 bc1 w1 ·
T
Y
t=2
bjk = P (Wt = v k | Ct = cj )
act−1ct bctwt
Satzproduktionswahrscheinlichkeit als Marginalverteilung:
"
#
T
X
X
Y
P (w|λ) =
P (w, c | λ) =
π c1 b c1 w 1 ·
act−1ct bctwt
c∈C T
PROBLEMSTELLUNGEN:
• Effiziente Berechnung der Satzwahrscheinlichkeiten P (w)
• Dekodierung der verborgenen Kategorienfolge C1 . . . CT
• Schätzung der HMM-Parameter λ = (π, A, B)
c∈C T
t=2
Bemerkung:
• P (w|λ) genügt der Normierungsbedingung
X
X
...
P (w|λ) = 1
w1 ∈V
wT ∈V
• Die Berechnung von P (w|λ) erfordert ca. 2T · K T Multiplikationen — exponentielle
Komplexität!
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Hidden Markov Modelle
8
Hidden Markov Modelle
Lemma 9.2:
Lemma 9.1:
(Vorwärtswahrscheinlichkeiten)
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem
Vorwärtsalgorithmus
9
(Rückwärtswahrscheinlichkeiten)
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem
Rückwärtsalgorithmus
• Initialisierung: Für alle i = 1, . . . , K setze
• Initialisierung: Für alle j = 1, . . . , K setze
α1 (j) = πj · bjk
βT (i) = 1
(w1 = v k )
• Rekursion: Für t > 1 und alle j = 1, . . . , K setze
!
K
X
αt−1 (i) · aij · bjk
αt (j) =
• Rekursion: Für t < T und alle i = 1, . . . , K setze
i=1
P (w|λ) =
(wt+1 = v k )
(aij · bjk · βt+1 (j))
j=1
(wt = v )
berechneten (T × K)-Matrixeinträge βt(i) gilt die Aussage
berechneten (T × K)-Matrixeinträge αt(j) gilt die Aussage
K
X
K
X
βt (i) =
k
P (w|λ) =
αT (j)
K
X
(w1 = v k )
πj · bjk · β1(j)
j=1
j=1
Darüberhinaus gilt für alle 1 ≤ t ≤ T , 1 ≤ j ≤ K die Aussage
αt (j) · βt(j) = P (w, Ct = cj | λ)
BEWEIS:
Zeige induktiv αt (j) = P (w1 . . . wt , Ct = cj | λ) für alle t, j !
und es existieren noch die folgenden Summendarstellungen:
P (w|λ) =
w1
wt−1
wt
K
X
(αt (j) · βt (j)) ,
t = 1, . . . , T
j=1
wT
c1
BEWEIS:
Zeige induktiv βt (i) = P (wt+1 . . . wT | Ct = ci , λ) für alle t, i !
c2
c3
c4
c5
spaltenweise
Bemerkung:
zeilenweise
• Die Berechnung der (T × K)-Matrizen α bzw. β erfordert je 2 · K 2 · T Multiplikationen.
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
10
Schätzung der verborgenen Kategoriefolge
A posteriori Wahrscheinlichkeit von c bzgl. w:
P (w, c | λ)
P (c | w, λ) =
P (w|λ)
c∗ ist eine optimale Kategoriefolge, falls gilt:
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Hidden Markov Modelle
11
Maximum a posteriori Kategorisierung
• Viterbi-Annotation —
Kategorien der optimalen Zustandsfolge
• MAP-Annotation —
Folge der lokal optimalen Wortkategorien
P (w, c∗ | λ) = max P (w, c | λ) =: P ∗(w|λ)
c∈C T
Ct =?
Lemma 9.3: Es seien λ = (π, A, B) die Parameter eines Hidden
Markov Modells und w ∈ V T eine Wortfolge der Länge T . Die gemäß
dem VITERBI-Algorithmus
w1
w2
wt
wt+τ
KAUSAL
PROSPEKTIV
wT
GLOBAL
• Initialisierung: Für alle j = 1, . . . , K setze
(w1 = v k ) und ψ1 (j) = undef
ϑ1 (j) = πj · bjk
γt(j) := P (Ct = cj | w, λ) =
• Rekursion: Für t > 1 und alle j = 1, . . . , K setze
ϑt (j) = max (ϑt−1 (i) · aij ) · bjk
i
Maximiere die globale a posteriori Wahrscheinlichkeit
(wt = v k )
ψt (j) = argmax (ϑt−1 (i) · aij )
Die Gesamtfolge w1 . . . wT dient als Entscheidungsgrundlage.
i
• Terminierung:
c∗T = argmax ϑT (j)
Maximiere die kausale a posteriori Wahrscheinlichkeit
j
• Rückverfolgung: Für t = T − 1, . . . , 1 setze
c∗t = ψt+1 (c∗t+1 )
berechnete Kategoriefolge c∗ = c∗1 . . . c∗T ist optimal bezüglich der
Eingabewortfolge w.
BEWEIS:
Zeige induktiv für alle t, j:
ϑt (j) = max P (w1 . . . wt , c1 . . . ct | λ) | c ∈ C t mit ct = cj
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
P (w, Ct = cj | λ)
αt (j) · βt (j)
= P
P (w|λ)
i αt (i) · βt (i)
P (Ct = cj | w1 . . . wt , λ) =
P (w1 . . . wt , Ct = cj | λ)
αt (j)
= P
P (w1 . . . wt | λ)
i αt (i)
Die Anfangsteilfolge w1 . . . wt dient als Entscheidungsgrundlage.
Maximiere die τ -prospektive a posteriori Wahrscheinlichkeit
P (Ct = cj | w1 . . . wt+τ , λ)
Die Anfangsteilfolge w1 . . . wt und der τ -lookahead wt+1 . . . wt+τ
dienen als Entscheidungsgrundlage.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Hidden Markov Modelle
12
Schätzung der HMM-Parameter
c∈C T
für eine vorgegebene, nichtannotierte Lernstichprobe w = w1 . . . wT .
LÖSUNG — EM-Algorithmus
1
P (w|λ)
αt (j) · βt(j)
γt(j) = P (Ct = cj | w, λ) = X
,
αt (i) · βt (i)
i
ξt (i, j) = P (Ct = ci, Ct+1 = cj | w, λ)
P (w, c | λ) · log P (w, c | λ′ )
=
c∈C T
Logarithmierte Verbundverteilung des neuen“ Modells:
”
′
log πc′ 1
log P (w, c | λ ) =
1≤t≤T
die a posteriori Wahrscheinlichkeit für die Kategorie ci zum
Zeitpunkt t; die Größe
Iterative Maximierung der Kullback-Leibler-Statistik
Q(λ, λ′ ) =
13
Definition 9.2: Es seien λ = (π, A, B) die Parameter eines
Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T .
Dann bezeichne die Größe
PROBLEM — Optimiere die ML-Zielfunktion
X
ℓML (λ) = log P (w|λ) = log
P (w, c | λ)
X
Hidden Markov Modelle
+
T
X
log a′ct−1 ct
+
T
X
=
log b′ct wt
t=1
t=2
P (Ct = ci, Ct+1 = cj , w | λ)
P (w|λ)
αt (i) · aij · bjwt+1 · βt+1(j)
,
K
X
αt (l) · βt(l)
1≤t<T
l=1
Einsetzen in Q(λ, λ′ ) und Umgruppieren nach Parametern von λ′ :
Q(λ, λ′ ) = Qπ′ (λ, π ′ ) +
K
X
Qa′i,· (λ, a′i,· ) +
i=1
K
X
die a posteriori Wahrscheinlichkeit des Kategorieübergangs ci 7→ cj
zum Zeitpunkt t.
Qb′j,· (λ, b′j,· )
j=1
Bemerkung:
• Es gilt der Zusammenhang
(2K + 1) separierte Maximierungsaufgaben mit linearer Nebenbedingung:
Qπ′ (λ, π ′ ) =
K
X
γt (i) =
T −1
K
X
X
Qb′j,· (λ, b′j,· )
=
T
X
ξt (i, j)
t=1
j=1
γt (j) ·
!
• Es bezeichnen die Summen
· log a′ij
log b′jwt
=
t=1
γ̄(i) =
K
T
X
X
γt (j) · χ[wt =vk ]
t=1
k=1
!
·
log b′jk
Hidden Markov Modelle
14
T −1
X
ξt (i, j)
t=1
T −1
K X
X
T −1
X
=
j=1 t=1
=
T
X
γt (i)
t=1
T
K X
X
ξt (i, j)
t=1
T −1
X
ξt (i, j)
b′jk
ξt (i, j)
t=1
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Nichtdeterministische Kategoriensysteme
15
(Baum-Welch-Trainingsformeln für diskretwertige HMMs)
i=1
=
T −1
X
¯ j) =
γt (i) und ξ(i,
die empirischen Erwartungswerte für die Häufigkeiten der Kategorie ci bzw. der
Kategorieübergänge ci 7→ cj .
Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells
und w ∈ V T eine Wortfolge der Länge T . Für die modifizierten
Parameter λ′ = (π ′, A′, B ′) mit
γ1(i)
γ1(i)
=
πi′ = K
T
X
γ1(i)
a′ij
T
X
t=1
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Lemma 9.4:
ξt (i, j)
j=1
γ1 (i) · log πi′
i=1
Qa′i,· (λ, a′i,· ) =
K
X
γt(i)
· χ[wt=vk ]
=
k=1 t=1
γt(i) · χ[wt=vk ]
T
X
γt(i)
t=1
und
∝ #(C1 = ci )
âij = #(ci cj ) / #(ci)
∝ #(Ct−1 = ci , Ct = cj )
(0)
mit den oben definierten a posteriori Wahrscheinlichkeiten γt(i),
ξt (i, j) gelten die Ungleichungen
Q(λ, λ′ ) ≥ Q(λ, λ)
π̂i = #($ci) / #($)
Strukturüberwacht — mit bekanntem Kategoriensystem
t=1
γt(i) · χ[wt=vk ]
Überwacht — mit kategorialer Annotation
b̂jk = #(cj &v k ) / #(cj ) ∝ #(Ct = cj , Wt = v k )
t=1
T
X
Schätzung von HMM-Sprachmodellen
• Initialisiere π̂ (0) und  uniform; setze
(1
/|cj |
falls v k ∈ cj
(0)
b̂jk =
0
sonst
(r)
• Berechne λ̂ , r > 0 mittels EM-Algorithmus.
(r)
(Nicht-annotierte Stichprobe; verschwindende b̂jk werden reproduziert“.)
”
P (w|λ′) ≥ P (w|λ) .
Entscheidungsüberwacht — mit Viterbi-Algorithmus
Bemerkung:
(0)
Damit gelten für den Baum-Welch-Trainingsalgorithmus
0. Initialisiere r = 0 sowie λ̂ .
(r)
• Initialisierung:
(0)
πi
1. Berechne zum Trainingskorpus w die Viterbi-Annotation c(r) mittels Modell λ̂ .
(0)
(0)
bjk = 1/L ,
aij = 1/K ,
= 1/K ,
1 ≤ i, j ≤ K , 1 ≤ k ≤ L
• Iterationsschritt:
(r+1)
λ
= λ
′
(r)
′
(r)
(r)
mit Q(λ , λ ) ≥ Q(λ , λ ) nach obigem Lemma
2. Schätze aus (w, c(r) ) überwacht das neue Modell λ̂
(r+1)
.
3. Prüfe Abbruchkriterium; setze ggf. r = r + 1 und ⇒ 1.
die Konvergenzaussagen des EM-Algorithmus.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
16
Optimierung disjunkter Kategoriesysteme
17
Logarithmierte ML-Zielfunktion:
ML-Optimierung disjunkter Kategoriesysteme
ℓML(κ) = log Pκ(w) =
GEGEBEN:
=
1
2
T
X
log q(wt | κ(wt−1 ))
t=1
X
X
#(vw) · log q(w | κ(v))
v∈V w∈V
L
• Wortschatz V = {v , v , . . . , v }
|
• Kategoriealphabet C = {c1 , c2, . . . , cK }
{z
ℓvML (κ)
}
NEY’s entscheidungsüberwachter EM-Algorithmus:
• Lernstichprobe w ∈ V T
(0) Setze r = 0 und wähle eine Startpartition
GESUCHT:
κ(0) : V 7→ C
Ein disjunktes Kategoriesystem (Partition von V) κ : V 7→ C
mit
!
Pκ(w) = P (w | κ(w)) · P (κ(w)) = MAX
(1) Bestimme die Maximum-Likelihood-Parameter
X
#(vw)
q (r)(w|c) =
Bigramm-ML-Sprachmodell ohne Glättung


T
Y
P (wt | κ(wt)) · P (κ(wt) | κ(wt−1 ))
Pκ(w) =
| {z }
| {z } | {z }
t=1
ct
c
ct−1
{z t
}
|
Spezialfall:
w ∈ V, c ∈ C
(2) Bestimme wortweise eine verbesserte Partition κ(r+1) mit
X
#(vw) · log q (r)(w|c)
κ(r+1)(v) = argmax
c∈C
#(vw)
w∈V
(3) Teste geeignetes Abbruchkriterium, setze r = r + 1 und gehe
⇒ Schritt (1).
κ(v)=c
X
#(v)
des kategorialen Bigramm-Sprachmodells Pκ(r) .
q(wt |ct−1 )
#(cw)
q(w|c) = P̂ (Wt = w | κ(Wt−1) = c) =
=
#(c)
X
κ(r) (v)=c
mit den Maximum-Likelihood-Schätzwerten
X
κ(r) (v)=c
#(v)
Bemerkung:
κ(v)=c
• Ney’s Algorithmus verfängt sich gern in (suboptimalen) lokalen Maxima.
• Gelernte Kategorien i.a. handgefertigten“ Systemen unterlegen (Perplexität!).
”
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Optimierung disjunkter Kategoriesysteme
ML-Zielfunktion des Standard-Kategoriebigramms:
log P̂κ (w) =
18
=
log
t=1
=
X
log
t=1
#(w) log #(w) −
X
κ∗ = argmax f (κ)
#(ct−1 ct )
#(ct )
X
κ
#(c) log #(c) +
#(c′ c) log #(c′ c) − 2 ·
X
#(c′ c) log #(c′ c) −
c,c′ ∈C
c∈C
w∈V
=
#(wt )
+
#(ct )
X
X
#(c) log #(c)
c∈C
#(c) log #(c) + konstant
c∈C
c,c′ ∈C
Leave-one-out Kategoriebigramm mit Verfärbung

#(c′ c) − λ




#(c′ )
′
P̃ (c|c ) =
 ρ(c′ )
λ


·

L − ρ(c′ ) #(c′ )
′
#(c c) > 0
#(c′ c) = 0
X
BM — British Museum“ Algorithmus
”
Berechne f (κ) explizit für alle κ ∈ C V .
HC — Hill Climbing“ Verfahren (steilster Aufstieg)
”
0. Wähle zufällig κ∗ ∈ C V und setze φ∗ = f (κ∗ ).
1. Bestimme die Menge U = U(κ∗ ) benachbarter Lösungskandidaten.
2. Bestimme den lokalen Sieger κ̃ = argmaxκ∈U f (κ) und seine Bewertung
φ̃ = maxκ∈U f (κ).
Leave-one-out Zielfunktion:
log P̃κ (w) =
19
Iterationsverfahren zur näherungsweisen Berechnung von
t=1
T
X
Optimierung disjunkter Kategoriesysteme
Kombinatorische Suche
T h
i
X
log P̂ (wt |ct ) + log P̂ (ct |ct−1 )
T
X
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
3. Falls φ̃ < φ∗ , war κ∗ schon lokal optimal; ⇒ ENDE.
#(c′ c) log [#(c′ c) − 1 − λ]
4. Sonst ersetze κ∗ = κ̃, φ∗ = φ̃ und marschiere zurück ⇒ [1].
c,c′ ∈C
2
L − η0 − 1
·λ
+ η1 · log
η0 + 1
X
#(c) log [#(c) − 1]
− 2·
f (κ)
globales Optimum
c∈C
U(κ∗ )
Das kombinatorische Optimierungsproblem
lokales Optimum
κ∗ = argmax f (κ)
κ∈C V
mit
f (κ) = log P̂κ(w) oder f (κ) = log P̃κ(w)
κ∗
ist von exponentieller Komplexität, da es K L verschiedene, genauer:
KL
/K! wesentlich verschiedene Kategoriesysteme κ gibt.
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
κ
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
Optimierung disjunkter Kategoriesysteme
20
21
Inkrementelle Berechnung der Zielfunktion
Stetigkeit“: kleine ∆κ implizieren kleine ∆f (κ)
”

→
C
V
κik :
ck
j=i
j
7→
v
κ(v j )
j=
6 i
Stochastische Suchverfahren
deterministischer Umgebungsbegriff ⇒ randomisierte
Transformation
τ : C V −→ C V
Differentielle Zielfunktionsberechnung:
∆ik (κ) = log P̂κik (w) − log P̂κ(w)
X
#κik (c′ c) log #κik (c′ c) − #κ(c′ c) log #κ(c′ c)
=
|
{z
}
′
c,c
0. Initialisiere zufällig:
2
ηκ;i,k
− 2·
X
c
=
SR — Stochastische Relaxation
X
2. Bewerte Nachfolger:
f (κ)
globales Optimum
1
2
1
1
Ckl
= {ck , cl } und Ckl
= {(c, c′ ) ∈ C 2 | c ∈ Ckl
oder c′ ∈ Ckl
}
1
k
l
κ∗ = κ, φ∗ = φ
5. Prüfe Abbruchbedingung; ggf. ⇒ [1] oder ⇒ ENDE
mit dem Herkunftsindex l des bewegten Wortes v i (κ(v i) = cl )
und den Summationsbereichen
1
φ > φ∗ ?
4. Ersetze im Erfolgsfall die Aktuallösung:
1
ηκ;i,k
1
c∈Ckl
2
(c,c′ )∈Ckl
φ = f (κ)
3. Prüfe Annahmebedingung:
1
ηκ;i,k
2
ηκ;i,k
−
κ = τ (κ∗ )
1. Würfele Nachfolger aus:
# (c) log #κik (c) − #κ(c) log #κ(c)
| κik
{z
}
X
κ∗ ∈ C V , φ∗ = f (κ∗ )
lokales Optimum
K
k
Wort v i wechselt von Kategorie cl nach ck
ANNAHME
φ∗
κ∗
l
ABLEHNUNG
Spalten/Zeilen mit nichtverschwindender Differenz
κ
Doppelt auftretende Differenzen
K
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
Optimierung disjunkter Kategoriesysteme
GD — Sintflutalgorithmus ( great deluge“)
”
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
22
Führe einen zeitabhängigen Wasserstand ein
23
RT — Record-to-Record Travelling
Φ : IN −→ IR
Prüfe die Bewertung relativ zum kumulierten Maximum
(Rekordinhaber!)
φ > φmax
− ∆t
t
mit einer geeigneten Flutungsstrategie (monoton steigend)
Φt+1 = Φt + δ
und überprüfe die Annahmebedingung
(kein Abdriften“ durch sukzessive Detailverschlechterung)
”
φ > Φt
f (κ)
globales Optimum
f (κ)
schrumpfende Toleranzmarge
lokales Optimum
κ∗
φ∗
ANNAHME
ABLEHNUNG
Φt
κ
TA — Schwellwertannahme
φmax
t
∆t
φ
ANNAHME
κ∗
∗
ABLEHNUNG
(threshold acceptance)
κ
Führe zeitabhängige Toleranzschwelle ∆ : IN → IR ein, z.B.:
∆t+1 = ∆t · (1 − δ)
und überprüfe die Annahmebedingung
φ > φ∗ − ∆t
SA — Simulated Annealing
f (κ)
schrumpfende Toleranzmarge
κ∗
φ∗
∆t
ANNAHME
ABLEHNUNG
( simuliertes Auskühlen“)
”
Prüfe die randomisierte Annahmebedingung
(
falls φ > φ∗
1 ∗ Pt(”κ annehmen“ ) =
φ −φ
falls
exp − ∆t
mit geeignetem Abkühlplan ∆ : IN → IR, ∆t → 0.
κ
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Optimierung disjunkter Kategoriesysteme
Kategorisierung von Wortvorkommen
24
BEISPIEL: (Intercity-Korpus; T = 19 894, |V| = 684)
Kategorisierung von Wortvorkommen
• Wortkontexte clustern ⇒ Ambiguitäten auflösen
Bigrammperplexität optimierter Kategoriensysteme
• Nur Kontexte ⇒
55
65
mit Teststichprobe 1+2
mit Teststichprobe 1
mit Teststichprobe 2
handg. Kat.system (Testst. 1+2)
handg. Kat.system (Testst. 1)
handg. Kat.system (Testst. 2)
automatisch berechnete Kategoriensysteme
manuell erstelltes Kategoriensystem
50
60
40
manuell erstelltes Kategoriensystem
35
30
25
the soldiers {rarely|will} come home“
”
Ballungsanalyse von Wortvorkommen:
55
Testkorpus-Perplexität
Trainingskorpus-Perplexität
45
25
1. Repräsentiere Wortvorkommen durch Kontextvektoren
50
2. Reduziere Vektordimension durch PCA/SVD
(Hauptachsentransformation/Singulärwertzerlegung)
45
20
40
15
10
35
0
20
40
60
80
100
120
Kategorienzahl
140
160
180
200
0
20
40
Lernstichprobe
60
80
100
120
Kategorienzahl
140
160
180
Teststichprobe
200
3. Ballungsanalyse ( Clustering“) ⇒ Kategoriensystem
”
Distributionelle Wortrepräsentation:
• Linkskontextvektor xL (w) von Wort w ∈ V
Einige Kategorien ...
xLi (w) = #(v i w) / #(w)
1. wo wann ob mitnehmen*
• Rechtskontextvektor xR (w) von Wort w ∈ V
2. Vormittag Nachmittag Mittag Abend März Zeiten*
i
xR
i (w) = #(wv ) / #(w)
3. einundzwanzigsten zehnten einunddreißigsten* vierten siebten elften Weihnachtsfeiertag
zweiten fünften ersten vierundzwanzigsten sechsten* siebzehnten zweiundzwanzigsten*
neunzehnten* dreiundzwanzigsten siebenundzwanzigsten* dritten zehnter*
4. Koblenz Hof* Dortmund Saarbrücken Osnabrück* Ulm Augsburg Frankfurt Paris Nürnberg
Göttingen* Köln Bebra Weihnachten Heidelberg Würzburg Bonn
5. Ochtrup Mannheim Bamberg* Hamburg Athen Düsseldorf Graz* Berlin Abensberg*
Solingen* Kiel* Oberstaufen* Utting* London Aachen Bremen Regensburg Wien Hause*
Münster Stuttgart Rom Ansbach* Offenburg* Wuppertal* Hannover Karlsruhe Amsterdam*
6. Februar April Mai Juni Juli August September* Oktober Dezember* zweiundneunzig
Vormittags einundneunzig Feiertag* neunzehnhunderteinundneunzig* Weihnachtstag
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Kategoriesysteme im praktischen Einsatz
26
(häufigkeitsverteilungsorientiert)
• Ordne den Wortschatz V = {v 1 , . . . , v L } nach Frequenzen: i < j ⇒ #(v i ) ≥ #(v j )
k
{v }
für k < K
• Definiere C = {c1 , . . . , cK } mit ck =
{v K , . . . , v L }
für k = K
Parts-of-Speech (POS)
(syntaktisch orientiert)
• Syntaktische Wortcharakteristiken, z.B. Wortart, Kasus, Numerus, Genus, Tempus, ...
• Inventare von 50–120 Kategorien; ambige Wortformen in separaten Klassen
• Ungesehene Formen & Hapax Legomena in gemeinsamer Kategorie
• Volle Wirkungsentfaltung in Flexionssprachen (dt., frz., it.)
Adrien est gracieux/se“
”
Lemmata
( Adrian ist graziös“)
”
(semantisch / morphologisch orientiert)
• Kategorien flektierter Wortformen mit identischer Stammform
z.B. c27 = { sein“, bin“, bist“, ist“, sind“, seid“, war“, warst“, waren“}
”
”
”
”
”
”
”
”
”
Kombinierte Sprachmodelle
• Lineare Interpolation:
t−1
t−1
t−1
P (wt |wt−1
1 ) = λ1 · Pwort (wt |w 1 ) + λ2 · Ppos (wt |w 1 ) + λ3 · Plemma (wt |w 1 )
• Faktorisierte Prädiktorformel:
XX
t−1
t−1
P (wt |wt−1
P (wt | c, g) · P (c, g | wt−1
1 ) =
1 , c1 , g 1 )
c∈C g∈G
≈
X
{P (c | ct−2 ct−1 ) · P (g | gt′ gt′′ )}
ω(c,g)=wt
falls (C, G) vollständig orthogonal, d.h. w = ω(c, g) = ω(c′ , g ′) ⇒ c = c′ und g = g ′.
• Desambiguierung von ...
a.
... weil Mutter blutarm ist/ißt“
”
... weil Nastassia fettarm ist/ißt“
”
c. ... weil Buttermilch fettarm ist/ißt“
”
b.
Lernen von Wortkategorien
hxL(wt ), xR (wt−1 ), xL(wt+1), xR (wt)i
1. Ballungsanalyse aller Linkskontexte xL (w), w ∈ V
P
2. Definiere y R (w) mit ykR (w) = v∈Ωk #(wv)/#(w)
8. Feiertagen Fahrrad* Gültigkeit* sechzehnten* Abfahrtszeit Woche S-Bahn
Lernen von Wortkategorien
Distributionelle Wortvorkommenrepräsentation:
Verallgemeinerte Kontextvektoren
7. vierzehn wieviel neunzehn einundzwanzig fünfzehn zehn zwei vierundzwanzig dreizehn
zweiundzwanzig zwanzig dreiundzwanzig achtzehn
Rangkategorien
hxL (w), xR (w)i
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Lernen von Wortkategorien
c Schukat-Talamazzini, Institut für Informatik, FSU Jena
Herunterladen