SNLP SNLP Entropie I Arithmetische Kodierung Welche Schlagzeile hat die groeren Chancen in einer Boulevard-Zeitung zu erscheinen? Idee: Das Intervall [0,1) wird in soviele Teilintervalle unterteilt, wie es zu kodierende Zeichen gibt. { Brieftrager von Hund gebissen { Hund von Brieftrager gebissen Die Groe jedes Teilintervalles entspricht der Wahrscheinlichkeit des Zeichens. Eine Nachricht ist umso informativer, je unerwarteter sie ist. Entropie: Wenn ( ) die Verteilungsfunktion einer Zufallsvariablen ist, dann ist die Entropie folgendermaen deniert: X () ( ) = ( (1 ) ) ( )= ( )=? p x X H p H X x 2 p x log p x E log X p x Anwendung: Die Entropie gibt an, wieviele Bits im Mittel mindestens benotigt werden, um ein Symbol zu kodieren. Helmut Schmid 21 SNLP Die gemeinsame Entropie zweier Zufallsvariablen und ist deniert als: X X ( ) ( ) ( )=? Y H X; Y 2 x X y p x; y 2 log p x; y Y Die bedingte Entropie der Zufallsvariablen , wenn die Zufallsvariable gegeben ist, lautet: X () ( j = ) ( j ) = Y X H Y X x = 2 p x H Y X X X 2 X p(x) 4? x 3 p(y jx) log p(y jx)5 2X X 2 p(x; y ) log p(y jx) = ? 2 2 x X x Es gilt: ( H X; Y y X y 22 Mutual Information I Aufgrund der Kettenregel fur die Entropie gilt ( )= ( )+ ( j )= ( )+ ( j ) und somit ( )? ( j )= ( )? ( j )= ( ; ) H X; Y H X H X H Y X H X Y H Y H Y H Y X H X Y I X Y Mutual Information ( ; ): Menge der Information, die eine Zufallsvariable uber eine andere enthalt X ( ) ( ; )= ( ) ()() I X I X p x; y Y Y log p x; y p x p y Punktweise Mutual Information: ein Ma fur die Korreliertheit von bspw. zwei Wortern ( ) ( ; )= ()() n H Xi X : : : Xi I x y i Helmut Schmid Helmut Schmid H Y X Die Kettenregel fur bedingte Entropie X ( j 1 ( 1 )= ?1) =1 Wenn die Wahrscheinlichkeit eines Zeichens exakt modelliert werden kann, erreicht arithmetische Kodierung eine Komprimierung, die ganz nahe am Optimum ist. MI ist ein symmetrisches nicht-negatives Ma der gemeinsamen Information zweier Zufallsvariablen. )= ( )+ ( j ) H X ; : : : ; Xn Nach der Kodierung des letzten Zeichens wahlt man eine beliebige Zahl innerhalb der Intervallgrenzen und uebertragt diese als Code der Nachricht. x;y Y Y H X Bei jeder Kodierung eines Zeichens wird das aktuelle Intervall durch das entsprechende Teilintervall ersetzt. SNLP Entropie II X Die Kodierung beginnt mit dem Intervall [0,1). 23 Helmut Schmid log p x; y p x p y 24 SNLP SNLP Relative Entropie (Kullback-Leibler-Abstand) zweier Verteilungsfunktionen ( ) und ( ) ist deniert als X () () ( jj ) = () Mutual Information II p x D p q Bezug zur Entropie ( )= ( )+ ( )? ( ; ) H X; Y H X H Y I X x Y Wegen ( j ) = 0 gilt ( )= ( )? ( j )= ( ; ) Daher wird die Entropie auch manchmal als Eigeninformation bezeichnet. H X X H X H X H X X I X Relative Entropie X 2 p x log X q x p x q x Die relative Entropie ist ein Ma fur die Unterschiedlichkeit zweier Verteilungen. Sie gibt an, wieviel Bits im Mittel verschwendet werden, wenn Ereignisse mit der Verteilung mit einem Code auf Basis der Verteilung kodiert werden. p q Die relative Entropie ist immer nicht-negativ und ( jj ) = 0 gilt gdw. = . D p q p q Die Mutual Information ist ein Ma dafur, wie weit eine gemeinsame Verteilung von einer unabhangigen Verteilung entfernt ist: ( ; ) = ( ( ) jj ( ) ( )) I X Helmut Schmid 25 SNLP Cross-Entropie zwischen einer Zufallsvariablen , die -verteilt ist, und einer Verteilungsfunktion X ( ) = ? () () = ( (1 ) ) = ( ) + ( jj ) X p q H X; q p x log q x x Ep log H X q x D p q Die Cross-Entropie eines Korpus gendermaen deniert: ( 1 ) = ?1 (1) H x n; p n x1n ist fol- log p x n Statt der Cross-Entropie wird gelegentlich auch die Perplexitat verwendet ( 1 ) = 2 ( 1n ) = ( 1 )? n1 perp x n ; p Helmut Schmid H x ;p p x n 27 D p x; y p x p y Helmut Schmid SNLP Cross-Entropie Y 26 Kollokationen Kollokationen sind mehr oder weniger feste Wortverbindungen, die beim Erwerb einer Sprache gelernt werden mussen. Die genaue Denition ist bei verschiedenen Autoren unterschiedlich. Haug verwendete Kriterien sind fehlende Kompositionalitat: Die Bedeutung einer Kollokation ergibt sich nicht kompositionell aus der Bedeutung der Einzelworter Beispiele: auf die Palme bringen, mit den Wolfen heulen, Rede halten fehlende Ersetzbarkeit: Teile einer Kollokation konnen nicht frei gegen semantisch aquivalente Worter ausgetauscht werden. Beispiele: steife Brise, *steifer Wind tiefes Vertrauen, hohe Achtung fehlende Modizierbarkeit: Viele Kollokationen konnen nicht modiziert werden. Beispiele: im Auge behalten, ? in beiden Augen behalten Guten Morgen, Mit freundlichen Gruen Helmut Schmid 28 SNLP SNLP Kollokationen III haugste Wortpaare in New York Times Haugkeit 80871 58841 26430 21842 21839 18568 16121 15630 15494 13899 13689 13361 Kollokationen II Weiteres Kriterium: fehlende direkte U bersetzbarkeit \eine Entscheidung treen" kann nicht als \to hit a decision" ins Englische ubersetzt werden. Fur manche Autoren sind auch stark miteinander assoziierte Worter wie Hund { bellen oder auch Arzt { Krankenhaus Kollokationen. Helmut Schmid 29 SNLP Wort of in to on for and that at to in of by Wort the the the the the the the the be a a the haugste Adjektiv-Nomen-Paare Haugkeit 11487 7261 5412 3301 3191 2699 2514 2378 2161 2106 2001 1942 Wort New United Los last Saudi last vice Persian San President Middle Saddam Wort York States Angeles year Arabia week president Gulf Francisco Bush East Hussein Helmut Schmid 30 SNLP Kollokationen IV Statistische Tests Kollokationen mit variablem Wortabstand ) Fenster (Abstand x bis y) { wenn die einzelnen Worter haug sind haugste Verb-Nomen-Paare mit maximalem Abstand 5 Verb spielen sagen stellen sehen geben schutteln kommen geben geben sagen erzahlen kosten kommen erscheinen machen tragen Helmut Schmid Nomen Rolle Mann Frage Seite Grund Kopf Jahr Zeit Moglichkeit Frau Geschichte Geld Frage Buch Spa Name Haugkeit 28 20 18 16 16 16 14 14 12 12 12 11 11 11 10 10 { wenn sie eine Kollokation bilden 31 Wortpaare sind haug Bei der Suche nach Kollokationen interessieren diejenigen Paare, die hauger sind als auf Grund der Wahrscheinlichkeiten der Einzelworte zu erwarten ist. Welche Paare das sind, sagt ein statistischer Test. Helmut Schmid 32 SNLP SNLP Statistische Tests III Statistische Tests II : Es besteht keine Beziehung zwischen den Einzelwortern Nullhypothese Berechne die Gesamtwahrscheinlichkeit p aller moglichen Testergebnisse, die mindestens so weit vom Erwartungswert abweichen wie das beobachtete Ergebnis. Verwerfe die Nullhypothese, falls p zu klein ist { p < 0:05 (signikante Abweichung) { p < 0:01 { p < 0:001 Beispiel: Ist das Bigram \new companies" signikant hauger als erwartet? Datenbasis: In 14307668 Wortern tauchte new 15828-mal auf, companies 4675-mal und new companies 8-mal. Nullhypothese: Das Bigramm hat die Wahrscheinlichkeit p0 = p~new p~companies = fN Nf n c Die Wahrscheinlichkeit, bei N = 14307668 Wiederholungen eines Bernoulli-Experimentes mit der Wahrscheinlichkeit p0 mind. 8 Einser-Ereignisse zu bekommen, ist b( 8; N; p0) = 1 ? X7 b(i; N; p0) 0:15 i=0 Bei Ablehnung der Nullhypothese betragt die Irrtumswahrscheinlichkeit 15 %. ) Ergebnis nicht signikant Helmut Schmid 33 SNLP Helmut Schmid SNLP t-Test t-Test II Der t-Test pruft, ob zwei Stichproben der Groe N1 und N2 mit den Mittelwerten x1; x2 und den Standardabweichungen s1; s2 von derselben Normalverteilung stammen. Beim zweiseitigen t-Test muss der t-Score doppelt so hoch sein, damit das Ergebnis signikant ist. Der t-Test ist relativ robust gegenuber Verletzungen der Bedingung der Normalverteilung. Dazu wird der t-Score berechnet x ? x t = r 21 2 2 s1 + s2 N1?1 n2?1 Der t-Score berechnet die Dierenz zwischen den Mittelwerten und skaliert sie mit der Varianz der Daten. Die Zahl der Freiheitsgrade ist N1 + N2 ? 2. Statistische Tabellen geben an, welches Signikanzniveau dem t-Score bei der geg. Zahl der Freiheitsgrade entspricht. Helmut Schmid 34 35 Zur Prufung, ob eine Stichprobe von einer geg. Normalverteilung mit Erwartungswert stammt, wird folg. t-Score verwendet. x ? t=r 2 s N ?1 Herleitung: N2 auf der letzten Folie gegen unendlich gehen lassen Die Zahl der Freiheitsgrade betragt hier N ? 1. Helmut Schmid 36 SNLP t-Test SNLP III 2-Test Anwendung auf Kollokationssuche statt Normalverteilung eine Bernoulli-Verteilung mit p0 = 15828 4675=143076682 Stichprobengroe 14307668 Fur die Varianz s2 der Stichprobe eines BernoulliExperimentes mit einer kleinen emp. Wahrscheinlichkeit gilt: fnc Der 2-Test wird auf Kontingenz-Tabellen angewendet. w1 = new w1 6= new 8 4667 4675 15820 14287173 14302993 15828 14291840 14307668 w2 = companies w2 6= companies Der 2-Test ist deniert durch 2 X 2 = (O E? E ) ij ij ij i;j N f f s2 = Nf? 1 1 ? 2 fN + N 2 N ?1 nc nc nc Berechnung des t-Scores x ? p0 r ? f p?f t=r 2 fnc N ?1 s N fn fc N N fnc (N ?1)2 nc nc O sind die Werte aus der Kontingenztabelle E sind die entsprechenden Erwartungswerte unter der Annahme der Unabhangigkeit. E = p ?p? N = OO?O? ?? ij ij i fn fc N nc 0:999932 Der t-Score liegt unter dem kritischen Wert 1.645 und ist somit nicht signikant. Helmut Schmid 37 SNLP ij i j j Das zugehorige Signikanzniveau liest man wiederum aus einer Tabelle ab. Beispiel: 2 1:55 < 3:84 ) nicht signikant Helmut Schmid 38 SNLP Likelihood-Ratio-Test Der Likelihood-Ratio-Test vergleicht zwei Hypothesen und berechnet, wieviel Mal wahrscheinlicher die erste Hypothese ist. Probleme Statistischer Tests Die meisten Bigramme sind signikant haug, weil die Unabhangigkeitsannahme auch fur NichtKollokationen selten erfullt ist. ) Verwendung der Scores (ohne Signikanz) Hypothese 1: Bigramme mit niedrigen Frequenzen erhalten zu hohe Scores. ) Cuto von bspw. 5 verwenden Hypothese 2: (Unabhangigkeit) P (companiesjnew) = p = P (companiesj:new) (Abhangigkeit) P (companiesjnew) = p1 6= p2 = P (companiesj:new) p = fN p1 = ff p2 = fN ??ff nc nc n c Helmut Schmid 39 Helmut Schmid nc n 40 SNLP SNLP Likelihood-Ratio-Test II Likelihood-Ratio-Test III Der Likelihood-Ratio ist deniert als Daten) = PPH1 ((Daten ) H2 b ( f ; f ; p fnc; N ? fn; p) nc n = b(f ; f ; p )) bb((ffc ? ? nc n 1 c fnc; N ? fn; p2) L ( ? fnc; N ? fn; p) = L(ffnc; f; fn; p; p)) LL((ffc ? f ;N ? f ;p ) nc n 1 c nc b(r; n; p) = nr pr (1 ? p)n?r L(r; n; p) = pr (1 ? p)n?r n Der Likelihood-Ratio-Test liefert bessere Ergebnisse fur seltene Bigramme. Kontingenztabelle companies :companies new a b :new c d 2 Der Wert ?2log ist asymptotisch 2-verteilt mit Freiheitsgrad 1. Das Signikanzniveau kann daher in einer 2-Tabelle nachgeschlagen werden. ?2 [logL(fnc; fn; p) + logL(fc ? fnc; N ? fn; p) ? logL(fnc; fn; p1) ? logL(fc ? fnc; N ? fn; p2)] Helmut Schmid 41 SNLP Der Log-Likelihood-Score ergibt sich fur diese Tabelle durch ?2log = 2 (a loga + b logb + c logc + d logd ?(a + b) log(a + b) ? (a + c) log(a + c) ?(b + d) log(b + d) ? (c + d) log(c + d) +(a + b + c + d) log(a + b + c + d)) (Beweis: U bung) Helmut Schmid 42 SNLP Likelihood-Ratio-Test IV Genaugenommen berechnet der Likelihood-RatioTest folgendes: maxH1 p(H1jDaten) = max H2 p(H2jDaten) max DatenjH1) p(H1) p(Daten) = maxH1 pp((Daten jH2) p(H2) p(Daten) H2 H1 p(DatenjH1) p(H1) = max maxH2 p(DatenjH2) p(H2) Wenn die moglichen Modelle a priori alle gleich wahrscheinlich sind, gilt maxH1 p(DatenjH1) = max H2 p(DatenjH2) und die Wahrscheinlichkeiten konnen mit den relativen Haugkeiten geschatzt werden (MaximumLikelihood-Schatzungen). Likelihood-Ratio-Test V Aufgrund der Beziehung f p(f ) = const (! Good-Turing Smoothing) gilt naherungsweise fur die Modellwahrscheinlichkeiten P (p) = C=p Bei der Kollokationssuche ist das nicht der Fall, da die meisten Bigramme eine sehr kleine Wahrscheinlichkeit haben. Helmut Schmid 43 Helmut Schmid 44