FRIEDRICH−SCHILLER−UNIVERSITÄT JENA Fakultät für Mathematik und Informatik Motivation INSTITUT für INFORMATIK Wörter und Wortkategorien 1 Der spanische Jesuit Pedro Bermudo (1610–1648) teilte die Liste der Wörter in jeder Sprache in 44 Grundkategorien ein (s. Umberto Eco ’94): VORLESUNG IM WINTERSEMESTER 1. Elemente. 2. Himmlische Größen. 3. Geistige Größen. 4. Weltliche Größen. 5. Kirchliche Größen. 6. Kunstgriffe. 7. Instrumente. 8. Affekte. 9. Religion. 10. Sakramentale Konfession. 11. Gericht. 12. Armee. 13. Medizin. 14. Häßliche Tiere. 15. Vögel. 16. Reptilien und Fische. 18. Gerätschaften. 19. Speisen. 20. Getränke und andere Flüssigkeiten. 21. Kleider. 22. Seidengewebe. 23. Wollstoffe. 24. Segeltücher und andere Textilien. 25. Nautica und Aromen. 26. Metalle und Münzen. 27. Diverse Artefakte. 28. Steine. 29. Juwelen. 30. Bäume und Früchte. 31. Öffentliche Orte. 32. Maße und Gewichte. 33. Zahlen. 34. Zeit. 35-42. Nomina, Adjektive, Adverbien und so weiter. 43. Personen. 44. Wanderschaft. STOCHASTISCHE GRAMMATIKMODELLE Ernst Günter Schukat-Talamazzini 15. Lernen von Wortkategorien Quelle: /home/schukat/latex/FOLIEN/Sprachmodelle-00/SSM-15.tex — 30. September 2013 Wörter mit ähnlichen statistischen Verteilungseigenschaften: Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Deterministische Kategoriensysteme . . . . . . . . . . . . . . . . 3 Nichtdeterministische Kategoriensysteme . . . . . . . . . . . . . 5 Hidden Markov Modelle . . . . . . . . . . . . . . . . . . . . . . 6 Optimierung disjunkter Kategoriesysteme . . . . . . . . . . . . . 16 Kategorisierung von Wortvorkommen . . . . . . . . . . . . . . . 25 Kategoriesysteme im praktischen Einsatz . . . . . . . . . . . . . 26 Markus läuft Maximilian springt Miriam hüpft Sebastian lacht Benedikt schreit Hannah stinkt Name Verb 3. Person Singular c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Morivation 2 GRUPPIERUNG VON WÖRTERN MIT ÄHNLICHEM GRAMMATISCHEN u/o STATISTISCHEN VERHALTEN: Deterministische Kategoriensysteme 3 Deterministische Kategoriensysteme syntaktisch: Nomina, Verben, Adjektive von gleichem Genus, Kasus, Tempus, ... ; System von K Wortkategorien (Wortklassen) semantisch: Ordinal- oder Kardinalzahlwörter; Wörter, die Farbe, Größe, Temperatur, ... charakterisieren; C = {c1, c2 , . . . , cK } pragmatisch: Eigennamen für Personen, Städte, Straßen, ... ; Nomina für Tiere, Pflanzen, Materialien, klinische DIagnosen, ... ; Wörter und ihre Kategorien Repräsentation von Wortassoziationen • Eindeutige Wort-Kategorie-Abbildung: Nil Pferd Kuh Schwein zwei drei vier rot gelb Rhein Donau Hrsg. Ohio Papier Story California Utah Maine Virginia Georgia Holz Nevada Texas blau κ : V 7→ C Buch Flöte sowie κ : V T 7→ C T • Kategorien als Partition (disjunkte Zerlegung) von V V = c1 ∪ c2 ∪ . . . ∪ cK und ci ∩cj = ∅ für alle i, j Baum disjunkte Kategorien überlappende Kategorien Beziehungsgeflecht • Eindeutige kategoriale Annotation w1 . . . wT ; c1 . . . cT = κ(w1) . . . κ(wT ) Unschärfe — nichttransitive Synonymie Kategoriebezogene bedingte Wortwahrscheinlichkeiten: hartnäckig standhaft zuverlässig Lernen von Wortkategorien eigensinnig unberechenbar unzuverlässig c Schukat-Talamazzini, Institut für Informatik, FSU Jena P (wt | w1 . . . wt−1 ) = P (wt, ct | w1 . . . wt−1 ) = P (wt | ct , w1 . . . wt−1 ) · P (ct | w1 . . . wt−1 ) ≈ P (wt|ct ) · P (ct | c1 . . . ct−1 ) Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Deterministische Kategoriensysteme 4 Kategoriebezogene Satzwahrscheinlichkeiten: P (w1 . . . wT ) = T Y = = t=1 T Y Zweistufiger Zufallsprozeß mit 2T Zufallsvariablen P (wt | w1 . . . wt−1 ) • Beobachtbare Wortfolge w = w1 w2 . . . wT [P (wt|ct ) · P (ct | c1 . . . ct−1 )] P (wt|ct) · |t=1 {z Bemerkung: P (w|c) T Y • Verborgene Kategorienfolge P (ct | c1 . . . ct−1 ) } |t=1 {z P (c) c = c1 c2 . . . cT } Sprachmodell als Randverteilung X X P (w) = P (w, c) = P (w|c) · P (c) Das kategoriebezogene n-Gramm-Modell besitzt c∈C T (K n − 1) + (L − K) freie Wahrscheinlichkeitsparameter, z.B. (106 − 1 + 900) statt (109 − 1) im Falle n = 3, L = 103 , K = 102 . Kategoriebezogene Zählfunktion X X #(c1 . . . cn ) = ... #(w1 . . . wn ) w1 ∈c1 c∈C T Kategoriales Bigramm-Modell # " T X Y P (w) = {P (wt|ct ) · P (ct|ct−1 )} P (c1) · P (w1|c1) · t=2 c∈C T wn ∈cn Maximum-Likelihood-Schätzformeln P̂ (cn |cn−1 1 ) = 5 Nichtdeterministische Kategoriensysteme t=1 T Y Nichtdeterministische Kategoriensysteme Peter Paul Frauen Katze Hund Baum ... ... ... #(c1 . . . cn ) #(w) und P̂ (w|c) = #(c1 . . . cn−1 ) #(c) N V Adj PROBLEMSTELLUNG: lacht weint lieben kratze beißen gewachsen ... ... ... dumm dreist scharfe getigertes rassig grüner ... ... ... Entwurf geeigneter Kategoriensysteme c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Hidden Markov Modelle 6 c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Hidden Markov Modelle 7 Satzerzeugungswahrscheinlichkeiten Definition 9.1: Ein (diskretwertiges) Hidden Markov Modell (HMM) ist ein zweistufiger Zufallsprozeß (C, W ) verborgener Zufallsvariablen Ct ∈ C sowie beobachtbarer Zufallsvariablen Wt ∈ V mit dem Parameterfeld λ = (π, A, B), bestehend aus: Modellbedingte a priori Verteilung der Kategoriefolgen: P (c|λ) = P (c1 . . . cT | λ) = πc1 · T Y act−1ct t=2 Kategoriebedingte Verteilung der Ausgabewortfolge: Anfangswahrscheinlichkeiten π ∈ IRK P (w | c, λ) = P (w1 . . . wT | c1 . . . cT , λ) = i πi = P (C1 = c ) b ct w t t=1 Übergangswahrscheinlichkeiten A ∈ IRK×K aij = P (Ct = cj | Ct−1 = ci) Ausgabewahrscheinlichkeiten B ∈ IR T Y K×L Verbundwahrscheinlichkeit für das gemeinsame Auftreten von c, w: P (w, c | λ) = P (w | c, λ) · P (c|λ) = πc1 bc1 w1 · T Y t=2 bjk = P (Wt = v k | Ct = cj ) act−1ct bctwt Satzproduktionswahrscheinlichkeit als Marginalverteilung: " # T X X Y P (w|λ) = P (w, c | λ) = π c1 b c1 w 1 · act−1ct bctwt c∈C T PROBLEMSTELLUNGEN: • Effiziente Berechnung der Satzwahrscheinlichkeiten P (w) • Dekodierung der verborgenen Kategorienfolge C1 . . . CT • Schätzung der HMM-Parameter λ = (π, A, B) c∈C T t=2 Bemerkung: • P (w|λ) genügt der Normierungsbedingung X X ... P (w|λ) = 1 w1 ∈V wT ∈V • Die Berechnung von P (w|λ) erfordert ca. 2T · K T Multiplikationen — exponentielle Komplexität! Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Hidden Markov Modelle 8 Hidden Markov Modelle Lemma 9.2: Lemma 9.1: (Vorwärtswahrscheinlichkeiten) Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem Vorwärtsalgorithmus 9 (Rückwärtswahrscheinlichkeiten) Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T . Für die gemäß dem Rückwärtsalgorithmus • Initialisierung: Für alle i = 1, . . . , K setze • Initialisierung: Für alle j = 1, . . . , K setze α1 (j) = πj · bjk βT (i) = 1 (w1 = v k ) • Rekursion: Für t > 1 und alle j = 1, . . . , K setze ! K X αt−1 (i) · aij · bjk αt (j) = • Rekursion: Für t < T und alle i = 1, . . . , K setze i=1 P (w|λ) = (wt+1 = v k ) (aij · bjk · βt+1 (j)) j=1 (wt = v ) berechneten (T × K)-Matrixeinträge βt(i) gilt die Aussage berechneten (T × K)-Matrixeinträge αt(j) gilt die Aussage K X K X βt (i) = k P (w|λ) = αT (j) K X (w1 = v k ) πj · bjk · β1(j) j=1 j=1 Darüberhinaus gilt für alle 1 ≤ t ≤ T , 1 ≤ j ≤ K die Aussage αt (j) · βt(j) = P (w, Ct = cj | λ) BEWEIS: Zeige induktiv αt (j) = P (w1 . . . wt , Ct = cj | λ) für alle t, j ! und es existieren noch die folgenden Summendarstellungen: P (w|λ) = w1 wt−1 wt K X (αt (j) · βt (j)) , t = 1, . . . , T j=1 wT c1 BEWEIS: Zeige induktiv βt (i) = P (wt+1 . . . wT | Ct = ci , λ) für alle t, i ! c2 c3 c4 c5 spaltenweise Bemerkung: zeilenweise • Die Berechnung der (T × K)-Matrizen α bzw. β erfordert je 2 · K 2 · T Multiplikationen. c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Hidden Markov Modelle 10 Schätzung der verborgenen Kategoriefolge A posteriori Wahrscheinlichkeit von c bzgl. w: P (w, c | λ) P (c | w, λ) = P (w|λ) c∗ ist eine optimale Kategoriefolge, falls gilt: c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Hidden Markov Modelle 11 Maximum a posteriori Kategorisierung • Viterbi-Annotation — Kategorien der optimalen Zustandsfolge • MAP-Annotation — Folge der lokal optimalen Wortkategorien P (w, c∗ | λ) = max P (w, c | λ) =: P ∗(w|λ) c∈C T Ct =? Lemma 9.3: Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T . Die gemäß dem VITERBI-Algorithmus w1 w2 wt wt+τ KAUSAL PROSPEKTIV wT GLOBAL • Initialisierung: Für alle j = 1, . . . , K setze (w1 = v k ) und ψ1 (j) = undef ϑ1 (j) = πj · bjk γt(j) := P (Ct = cj | w, λ) = • Rekursion: Für t > 1 und alle j = 1, . . . , K setze ϑt (j) = max (ϑt−1 (i) · aij ) · bjk i Maximiere die globale a posteriori Wahrscheinlichkeit (wt = v k ) ψt (j) = argmax (ϑt−1 (i) · aij ) Die Gesamtfolge w1 . . . wT dient als Entscheidungsgrundlage. i • Terminierung: c∗T = argmax ϑT (j) Maximiere die kausale a posteriori Wahrscheinlichkeit j • Rückverfolgung: Für t = T − 1, . . . , 1 setze c∗t = ψt+1 (c∗t+1 ) berechnete Kategoriefolge c∗ = c∗1 . . . c∗T ist optimal bezüglich der Eingabewortfolge w. BEWEIS: Zeige induktiv für alle t, j: ϑt (j) = max P (w1 . . . wt , c1 . . . ct | λ) | c ∈ C t mit ct = cj Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena P (w, Ct = cj | λ) αt (j) · βt (j) = P P (w|λ) i αt (i) · βt (i) P (Ct = cj | w1 . . . wt , λ) = P (w1 . . . wt , Ct = cj | λ) αt (j) = P P (w1 . . . wt | λ) i αt (i) Die Anfangsteilfolge w1 . . . wt dient als Entscheidungsgrundlage. Maximiere die τ -prospektive a posteriori Wahrscheinlichkeit P (Ct = cj | w1 . . . wt+τ , λ) Die Anfangsteilfolge w1 . . . wt und der τ -lookahead wt+1 . . . wt+τ dienen als Entscheidungsgrundlage. Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Hidden Markov Modelle 12 Schätzung der HMM-Parameter c∈C T für eine vorgegebene, nichtannotierte Lernstichprobe w = w1 . . . wT . LÖSUNG — EM-Algorithmus 1 P (w|λ) αt (j) · βt(j) γt(j) = P (Ct = cj | w, λ) = X , αt (i) · βt (i) i ξt (i, j) = P (Ct = ci, Ct+1 = cj | w, λ) P (w, c | λ) · log P (w, c | λ′ ) = c∈C T Logarithmierte Verbundverteilung des neuen“ Modells: ” ′ log πc′ 1 log P (w, c | λ ) = 1≤t≤T die a posteriori Wahrscheinlichkeit für die Kategorie ci zum Zeitpunkt t; die Größe Iterative Maximierung der Kullback-Leibler-Statistik Q(λ, λ′ ) = 13 Definition 9.2: Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T . Dann bezeichne die Größe PROBLEM — Optimiere die ML-Zielfunktion X ℓML (λ) = log P (w|λ) = log P (w, c | λ) X Hidden Markov Modelle + T X log a′ct−1 ct + T X = log b′ct wt t=1 t=2 P (Ct = ci, Ct+1 = cj , w | λ) P (w|λ) αt (i) · aij · bjwt+1 · βt+1(j) , K X αt (l) · βt(l) 1≤t<T l=1 Einsetzen in Q(λ, λ′ ) und Umgruppieren nach Parametern von λ′ : Q(λ, λ′ ) = Qπ′ (λ, π ′ ) + K X Qa′i,· (λ, a′i,· ) + i=1 K X die a posteriori Wahrscheinlichkeit des Kategorieübergangs ci 7→ cj zum Zeitpunkt t. Qb′j,· (λ, b′j,· ) j=1 Bemerkung: • Es gilt der Zusammenhang (2K + 1) separierte Maximierungsaufgaben mit linearer Nebenbedingung: Qπ′ (λ, π ′ ) = K X γt (i) = T −1 K X X Qb′j,· (λ, b′j,· ) = T X ξt (i, j) t=1 j=1 γt (j) · ! • Es bezeichnen die Summen · log a′ij log b′jwt = t=1 γ̄(i) = K T X X γt (j) · χ[wt =vk ] t=1 k=1 ! · log b′jk Hidden Markov Modelle 14 T −1 X ξt (i, j) t=1 T −1 K X X T −1 X = j=1 t=1 = T X γt (i) t=1 T K X X ξt (i, j) t=1 T −1 X ξt (i, j) b′jk ξt (i, j) t=1 c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Nichtdeterministische Kategoriensysteme 15 (Baum-Welch-Trainingsformeln für diskretwertige HMMs) i=1 = T −1 X ¯ j) = γt (i) und ξ(i, die empirischen Erwartungswerte für die Häufigkeiten der Kategorie ci bzw. der Kategorieübergänge ci 7→ cj . Es seien λ = (π, A, B) die Parameter eines Hidden Markov Modells und w ∈ V T eine Wortfolge der Länge T . Für die modifizierten Parameter λ′ = (π ′, A′, B ′) mit γ1(i) γ1(i) = πi′ = K T X γ1(i) a′ij T X t=1 c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Lemma 9.4: ξt (i, j) j=1 γ1 (i) · log πi′ i=1 Qa′i,· (λ, a′i,· ) = K X γt(i) · χ[wt=vk ] = k=1 t=1 γt(i) · χ[wt=vk ] T X γt(i) t=1 und ∝ #(C1 = ci ) âij = #(ci cj ) / #(ci) ∝ #(Ct−1 = ci , Ct = cj ) (0) mit den oben definierten a posteriori Wahrscheinlichkeiten γt(i), ξt (i, j) gelten die Ungleichungen Q(λ, λ′ ) ≥ Q(λ, λ) π̂i = #($ci) / #($) Strukturüberwacht — mit bekanntem Kategoriensystem t=1 γt(i) · χ[wt=vk ] Überwacht — mit kategorialer Annotation b̂jk = #(cj &v k ) / #(cj ) ∝ #(Ct = cj , Wt = v k ) t=1 T X Schätzung von HMM-Sprachmodellen • Initialisiere π̂ (0) und  uniform; setze (1 /|cj | falls v k ∈ cj (0) b̂jk = 0 sonst (r) • Berechne λ̂ , r > 0 mittels EM-Algorithmus. (r) (Nicht-annotierte Stichprobe; verschwindende b̂jk werden reproduziert“.) ” P (w|λ′) ≥ P (w|λ) . Entscheidungsüberwacht — mit Viterbi-Algorithmus Bemerkung: (0) Damit gelten für den Baum-Welch-Trainingsalgorithmus 0. Initialisiere r = 0 sowie λ̂ . (r) • Initialisierung: (0) πi 1. Berechne zum Trainingskorpus w die Viterbi-Annotation c(r) mittels Modell λ̂ . (0) (0) bjk = 1/L , aij = 1/K , = 1/K , 1 ≤ i, j ≤ K , 1 ≤ k ≤ L • Iterationsschritt: (r+1) λ = λ ′ (r) ′ (r) (r) mit Q(λ , λ ) ≥ Q(λ , λ ) nach obigem Lemma 2. Schätze aus (w, c(r) ) überwacht das neue Modell λ̂ (r+1) . 3. Prüfe Abbruchkriterium; setze ggf. r = r + 1 und ⇒ 1. die Konvergenzaussagen des EM-Algorithmus. Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Optimierung disjunkter Kategoriesysteme 16 Optimierung disjunkter Kategoriesysteme 17 Logarithmierte ML-Zielfunktion: ML-Optimierung disjunkter Kategoriesysteme ℓML(κ) = log Pκ(w) = GEGEBEN: = 1 2 T X log q(wt | κ(wt−1 )) t=1 X X #(vw) · log q(w | κ(v)) v∈V w∈V L • Wortschatz V = {v , v , . . . , v } | • Kategoriealphabet C = {c1 , c2, . . . , cK } {z ℓvML (κ) } NEY’s entscheidungsüberwachter EM-Algorithmus: • Lernstichprobe w ∈ V T (0) Setze r = 0 und wähle eine Startpartition GESUCHT: κ(0) : V 7→ C Ein disjunktes Kategoriesystem (Partition von V) κ : V 7→ C mit ! Pκ(w) = P (w | κ(w)) · P (κ(w)) = MAX (1) Bestimme die Maximum-Likelihood-Parameter X #(vw) q (r)(w|c) = Bigramm-ML-Sprachmodell ohne Glättung T Y P (wt | κ(wt)) · P (κ(wt) | κ(wt−1 )) Pκ(w) = | {z } | {z } | {z } t=1 ct c ct−1 {z t } | Spezialfall: w ∈ V, c ∈ C (2) Bestimme wortweise eine verbesserte Partition κ(r+1) mit X #(vw) · log q (r)(w|c) κ(r+1)(v) = argmax c∈C #(vw) w∈V (3) Teste geeignetes Abbruchkriterium, setze r = r + 1 und gehe ⇒ Schritt (1). κ(v)=c X #(v) des kategorialen Bigramm-Sprachmodells Pκ(r) . q(wt |ct−1 ) #(cw) q(w|c) = P̂ (Wt = w | κ(Wt−1) = c) = = #(c) X κ(r) (v)=c mit den Maximum-Likelihood-Schätzwerten X κ(r) (v)=c #(v) Bemerkung: κ(v)=c • Ney’s Algorithmus verfängt sich gern in (suboptimalen) lokalen Maxima. • Gelernte Kategorien i.a. handgefertigten“ Systemen unterlegen (Perplexität!). ” c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Optimierung disjunkter Kategoriesysteme ML-Zielfunktion des Standard-Kategoriebigramms: log P̂κ (w) = 18 = log t=1 = X log t=1 #(w) log #(w) − X κ∗ = argmax f (κ) #(ct−1 ct ) #(ct ) X κ #(c) log #(c) + #(c′ c) log #(c′ c) − 2 · X #(c′ c) log #(c′ c) − c,c′ ∈C c∈C w∈V = #(wt ) + #(ct ) X X #(c) log #(c) c∈C #(c) log #(c) + konstant c∈C c,c′ ∈C Leave-one-out Kategoriebigramm mit Verfärbung #(c′ c) − λ #(c′ ) ′ P̃ (c|c ) = ρ(c′ ) λ · L − ρ(c′ ) #(c′ ) ′ #(c c) > 0 #(c′ c) = 0 X BM — British Museum“ Algorithmus ” Berechne f (κ) explizit für alle κ ∈ C V . HC — Hill Climbing“ Verfahren (steilster Aufstieg) ” 0. Wähle zufällig κ∗ ∈ C V und setze φ∗ = f (κ∗ ). 1. Bestimme die Menge U = U(κ∗ ) benachbarter Lösungskandidaten. 2. Bestimme den lokalen Sieger κ̃ = argmaxκ∈U f (κ) und seine Bewertung φ̃ = maxκ∈U f (κ). Leave-one-out Zielfunktion: log P̃κ (w) = 19 Iterationsverfahren zur näherungsweisen Berechnung von t=1 T X Optimierung disjunkter Kategoriesysteme Kombinatorische Suche T h i X log P̂ (wt |ct ) + log P̂ (ct |ct−1 ) T X c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien 3. Falls φ̃ < φ∗ , war κ∗ schon lokal optimal; ⇒ ENDE. #(c′ c) log [#(c′ c) − 1 − λ] 4. Sonst ersetze κ∗ = κ̃, φ∗ = φ̃ und marschiere zurück ⇒ [1]. c,c′ ∈C 2 L − η0 − 1 ·λ + η1 · log η0 + 1 X #(c) log [#(c) − 1] − 2· f (κ) globales Optimum c∈C U(κ∗ ) Das kombinatorische Optimierungsproblem lokales Optimum κ∗ = argmax f (κ) κ∈C V mit f (κ) = log P̂κ(w) oder f (κ) = log P̃κ(w) κ∗ ist von exponentieller Komplexität, da es K L verschiedene, genauer: KL /K! wesentlich verschiedene Kategoriesysteme κ gibt. Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena κ Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Optimierung disjunkter Kategoriesysteme Optimierung disjunkter Kategoriesysteme 20 21 Inkrementelle Berechnung der Zielfunktion Stetigkeit“: kleine ∆κ implizieren kleine ∆f (κ) ” → C V κik : ck j=i j 7→ v κ(v j ) j= 6 i Stochastische Suchverfahren deterministischer Umgebungsbegriff ⇒ randomisierte Transformation τ : C V −→ C V Differentielle Zielfunktionsberechnung: ∆ik (κ) = log P̂κik (w) − log P̂κ(w) X #κik (c′ c) log #κik (c′ c) − #κ(c′ c) log #κ(c′ c) = | {z } ′ c,c 0. Initialisiere zufällig: 2 ηκ;i,k − 2· X c = SR — Stochastische Relaxation X 2. Bewerte Nachfolger: f (κ) globales Optimum 1 2 1 1 Ckl = {ck , cl } und Ckl = {(c, c′ ) ∈ C 2 | c ∈ Ckl oder c′ ∈ Ckl } 1 k l κ∗ = κ, φ∗ = φ 5. Prüfe Abbruchbedingung; ggf. ⇒ [1] oder ⇒ ENDE mit dem Herkunftsindex l des bewegten Wortes v i (κ(v i) = cl ) und den Summationsbereichen 1 φ > φ∗ ? 4. Ersetze im Erfolgsfall die Aktuallösung: 1 ηκ;i,k 1 c∈Ckl 2 (c,c′ )∈Ckl φ = f (κ) 3. Prüfe Annahmebedingung: 1 ηκ;i,k 2 ηκ;i,k − κ = τ (κ∗ ) 1. Würfele Nachfolger aus: # (c) log #κik (c) − #κ(c) log #κ(c) | κik {z } X κ∗ ∈ C V , φ∗ = f (κ∗ ) lokales Optimum K k Wort v i wechselt von Kategorie cl nach ck ANNAHME φ∗ κ∗ l ABLEHNUNG Spalten/Zeilen mit nichtverschwindender Differenz κ Doppelt auftretende Differenzen K c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien Optimierung disjunkter Kategoriesysteme GD — Sintflutalgorithmus ( great deluge“) ” Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Optimierung disjunkter Kategoriesysteme 22 Führe einen zeitabhängigen Wasserstand ein 23 RT — Record-to-Record Travelling Φ : IN −→ IR Prüfe die Bewertung relativ zum kumulierten Maximum (Rekordinhaber!) φ > φmax − ∆t t mit einer geeigneten Flutungsstrategie (monoton steigend) Φt+1 = Φt + δ und überprüfe die Annahmebedingung (kein Abdriften“ durch sukzessive Detailverschlechterung) ” φ > Φt f (κ) globales Optimum f (κ) schrumpfende Toleranzmarge lokales Optimum κ∗ φ∗ ANNAHME ABLEHNUNG Φt κ TA — Schwellwertannahme φmax t ∆t φ ANNAHME κ∗ ∗ ABLEHNUNG (threshold acceptance) κ Führe zeitabhängige Toleranzschwelle ∆ : IN → IR ein, z.B.: ∆t+1 = ∆t · (1 − δ) und überprüfe die Annahmebedingung φ > φ∗ − ∆t SA — Simulated Annealing f (κ) schrumpfende Toleranzmarge κ∗ φ∗ ∆t ANNAHME ABLEHNUNG ( simuliertes Auskühlen“) ” Prüfe die randomisierte Annahmebedingung ( falls φ > φ∗ 1 ∗ Pt(”κ annehmen“ ) = φ −φ falls exp − ∆t mit geeignetem Abkühlplan ∆ : IN → IR, ∆t → 0. κ Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena Optimierung disjunkter Kategoriesysteme Kategorisierung von Wortvorkommen 24 BEISPIEL: (Intercity-Korpus; T = 19 894, |V| = 684) Kategorisierung von Wortvorkommen • Wortkontexte clustern ⇒ Ambiguitäten auflösen Bigrammperplexität optimierter Kategoriensysteme • Nur Kontexte ⇒ 55 65 mit Teststichprobe 1+2 mit Teststichprobe 1 mit Teststichprobe 2 handg. Kat.system (Testst. 1+2) handg. Kat.system (Testst. 1) handg. Kat.system (Testst. 2) automatisch berechnete Kategoriensysteme manuell erstelltes Kategoriensystem 50 60 40 manuell erstelltes Kategoriensystem 35 30 25 the soldiers {rarely|will} come home“ ” Ballungsanalyse von Wortvorkommen: 55 Testkorpus-Perplexität Trainingskorpus-Perplexität 45 25 1. Repräsentiere Wortvorkommen durch Kontextvektoren 50 2. Reduziere Vektordimension durch PCA/SVD (Hauptachsentransformation/Singulärwertzerlegung) 45 20 40 15 10 35 0 20 40 60 80 100 120 Kategorienzahl 140 160 180 200 0 20 40 Lernstichprobe 60 80 100 120 Kategorienzahl 140 160 180 Teststichprobe 200 3. Ballungsanalyse ( Clustering“) ⇒ Kategoriensystem ” Distributionelle Wortrepräsentation: • Linkskontextvektor xL (w) von Wort w ∈ V Einige Kategorien ... xLi (w) = #(v i w) / #(w) 1. wo wann ob mitnehmen* • Rechtskontextvektor xR (w) von Wort w ∈ V 2. Vormittag Nachmittag Mittag Abend März Zeiten* i xR i (w) = #(wv ) / #(w) 3. einundzwanzigsten zehnten einunddreißigsten* vierten siebten elften Weihnachtsfeiertag zweiten fünften ersten vierundzwanzigsten sechsten* siebzehnten zweiundzwanzigsten* neunzehnten* dreiundzwanzigsten siebenundzwanzigsten* dritten zehnter* 4. Koblenz Hof* Dortmund Saarbrücken Osnabrück* Ulm Augsburg Frankfurt Paris Nürnberg Göttingen* Köln Bebra Weihnachten Heidelberg Würzburg Bonn 5. Ochtrup Mannheim Bamberg* Hamburg Athen Düsseldorf Graz* Berlin Abensberg* Solingen* Kiel* Oberstaufen* Utting* London Aachen Bremen Regensburg Wien Hause* Münster Stuttgart Rom Ansbach* Offenburg* Wuppertal* Hannover Karlsruhe Amsterdam* 6. Februar April Mai Juni Juli August September* Oktober Dezember* zweiundneunzig Vormittags einundneunzig Feiertag* neunzehnhunderteinundneunzig* Weihnachtstag c Schukat-Talamazzini, Institut für Informatik, FSU Jena Kategoriesysteme im praktischen Einsatz 26 (häufigkeitsverteilungsorientiert) • Ordne den Wortschatz V = {v 1 , . . . , v L } nach Frequenzen: i < j ⇒ #(v i ) ≥ #(v j ) k {v } für k < K • Definiere C = {c1 , . . . , cK } mit ck = {v K , . . . , v L } für k = K Parts-of-Speech (POS) (syntaktisch orientiert) • Syntaktische Wortcharakteristiken, z.B. Wortart, Kasus, Numerus, Genus, Tempus, ... • Inventare von 50–120 Kategorien; ambige Wortformen in separaten Klassen • Ungesehene Formen & Hapax Legomena in gemeinsamer Kategorie • Volle Wirkungsentfaltung in Flexionssprachen (dt., frz., it.) Adrien est gracieux/se“ ” Lemmata ( Adrian ist graziös“) ” (semantisch / morphologisch orientiert) • Kategorien flektierter Wortformen mit identischer Stammform z.B. c27 = { sein“, bin“, bist“, ist“, sind“, seid“, war“, warst“, waren“} ” ” ” ” ” ” ” ” ” Kombinierte Sprachmodelle • Lineare Interpolation: t−1 t−1 t−1 P (wt |wt−1 1 ) = λ1 · Pwort (wt |w 1 ) + λ2 · Ppos (wt |w 1 ) + λ3 · Plemma (wt |w 1 ) • Faktorisierte Prädiktorformel: XX t−1 t−1 P (wt |wt−1 P (wt | c, g) · P (c, g | wt−1 1 ) = 1 , c1 , g 1 ) c∈C g∈G ≈ X {P (c | ct−2 ct−1 ) · P (g | gt′ gt′′ )} ω(c,g)=wt falls (C, G) vollständig orthogonal, d.h. w = ω(c, g) = ω(c′ , g ′) ⇒ c = c′ und g = g ′. • Desambiguierung von ... a. ... weil Mutter blutarm ist/ißt“ ” ... weil Nastassia fettarm ist/ißt“ ” c. ... weil Buttermilch fettarm ist/ißt“ ” b. Lernen von Wortkategorien hxL(wt ), xR (wt−1 ), xL(wt+1), xR (wt)i 1. Ballungsanalyse aller Linkskontexte xL (w), w ∈ V P 2. Definiere y R (w) mit ykR (w) = v∈Ωk #(wv)/#(w) 8. Feiertagen Fahrrad* Gültigkeit* sechzehnten* Abfahrtszeit Woche S-Bahn Lernen von Wortkategorien Distributionelle Wortvorkommenrepräsentation: Verallgemeinerte Kontextvektoren 7. vierzehn wieviel neunzehn einundzwanzig fünfzehn zehn zwei vierundzwanzig dreizehn zweiundzwanzig zwanzig dreiundzwanzig achtzehn Rangkategorien hxL (w), xR (w)i c Schukat-Talamazzini, Institut für Informatik, FSU Jena Lernen von Wortkategorien c Schukat-Talamazzini, Institut für Informatik, FSU Jena