Entropie I Arithmetische Kodierung Entropie II Mutual Information I

Werbung
SNLP
SNLP
Entropie I
Arithmetische Kodierung
Welche Schlagzeile hat die groeren Chancen
in einer Boulevard-Zeitung zu erscheinen?
Idee: Das Intervall [0,1) wird in soviele Teilintervalle unterteilt, wie es zu kodierende Zeichen gibt.
{ Brieftrager von Hund gebissen
{ Hund von Brieftrager gebissen
Die Groe jedes Teilintervalles entspricht der
Wahrscheinlichkeit des Zeichens.
Eine Nachricht ist umso informativer, je unerwarteter sie ist.
Entropie: Wenn ( ) die Verteilungsfunktion
einer Zufallsvariablen ist, dann ist die Entropie folgendermaen deniert:
X
()
( ) = ( (1 ) )
( )= ( )=?
p x
X
H p
H X
x
2
p x
log p x
E log
X
p x
Anwendung: Die Entropie gibt an, wieviele
Bits im Mittel mindestens benotigt werden,
um ein Symbol zu kodieren.
Helmut Schmid
21
SNLP
Die gemeinsame Entropie zweier Zufallsvariablen und ist deniert als:
X X
( )
( )
( )=?
Y
H X; Y
2
x
X y
p x; y
2
log p x; y
Y
Die bedingte Entropie der Zufallsvariablen
, wenn die Zufallsvariable gegeben ist, lautet:
X
() ( j = )
( j ) =
Y
X
H Y X
x
=
2
p x H Y X
X
X
2
X
p(x) 4?
x
3
p(y jx) log p(y jx)5
2X X 2
p(x; y ) log p(y jx)
= ?
2 2
x
X
x
Es gilt:
(
H X; Y
y
X y
22
Mutual Information I
Aufgrund der Kettenregel fur die Entropie gilt
( )= ( )+ ( j )= ( )+ ( j )
und somit
( )? ( j )= ( )? ( j )= ( ; )
H X; Y
H X
H X
H Y X
H X Y
H Y
H Y
H Y X
H X Y
I X
Y
Mutual Information ( ; ): Menge der Information, die eine Zufallsvariable uber eine
andere enthalt
X
( )
( ; )= ( )
()()
I X
I X
p x; y
Y
Y
log
p x; y
p x p y
Punktweise Mutual Information: ein Ma
fur die Korreliertheit von bspw. zwei Wortern
( )
( ; )=
()()
n
H Xi X
: : : Xi
I x y
i
Helmut Schmid
Helmut Schmid
H Y X
Die Kettenregel fur bedingte Entropie
X
( j 1
( 1
)=
?1)
=1
Wenn die Wahrscheinlichkeit eines Zeichens
exakt modelliert werden kann, erreicht arithmetische Kodierung eine Komprimierung, die
ganz nahe am Optimum ist.
MI ist ein symmetrisches nicht-negatives Ma
der gemeinsamen Information zweier Zufallsvariablen.
)= ( )+ ( j )
H X ; : : : ; Xn
Nach der Kodierung des letzten Zeichens wahlt
man eine beliebige Zahl innerhalb der Intervallgrenzen und uebertragt diese als Code der
Nachricht.
x;y
Y
Y
H X
Bei jeder Kodierung eines Zeichens wird das
aktuelle Intervall durch das entsprechende Teilintervall ersetzt.
SNLP
Entropie II
X
Die Kodierung beginnt mit dem Intervall [0,1).
23
Helmut Schmid
log
p x; y
p x p y
24
SNLP
SNLP
Relative Entropie (Kullback-Leibler-Abstand)
zweier Verteilungsfunktionen ( ) und ( ) ist
deniert als
X () ()
( jj ) =
()
Mutual Information II
p x
D p q
Bezug zur Entropie
( )= ( )+ ( )? ( ; )
H X; Y
H X
H Y
I X
x
Y
Wegen ( j ) = 0 gilt
( )= ( )? ( j )= ( ; )
Daher wird die Entropie auch manchmal als
Eigeninformation bezeichnet.
H X X
H X
H X
H X X
I X
Relative Entropie
X
2
p x
log
X
q x
p x
q x
Die relative Entropie ist ein Ma fur die Unterschiedlichkeit zweier Verteilungen.
Sie gibt an, wieviel Bits im Mittel verschwendet werden, wenn Ereignisse mit der Verteilung mit einem Code auf Basis der Verteilung
kodiert werden.
p
q
Die relative Entropie ist immer nicht-negativ
und ( jj ) = 0 gilt gdw. = .
D p q
p
q
Die Mutual Information ist ein Ma dafur, wie
weit eine gemeinsame Verteilung von einer unabhangigen Verteilung entfernt ist:
( ; ) = ( ( ) jj ( ) ( ))
I X
Helmut Schmid
25
SNLP
Cross-Entropie zwischen einer Zufallsvariablen , die -verteilt ist, und einer Verteilungsfunktion
X
( ) = ? ()
()
= ( (1 ) )
= ( ) + ( jj )
X
p
q
H X; q
p x
log q x
x
Ep log
H X
q x
D p q
Die Cross-Entropie eines Korpus
gendermaen deniert:
( 1 ) = ?1
(1)
H x n; p
n
x1n
ist fol-
log p x n
Statt der Cross-Entropie wird gelegentlich auch
die Perplexitat verwendet
( 1 ) = 2 ( 1n ) = ( 1 )? n1
perp x n ; p
Helmut Schmid
H x
;p
p x n
27
D p x; y
p x p y
Helmut Schmid
SNLP
Cross-Entropie
Y
26
Kollokationen
Kollokationen sind mehr oder weniger feste Wortverbindungen, die beim Erwerb einer Sprache gelernt werden mussen. Die genaue Denition ist bei
verschiedenen Autoren unterschiedlich.
Haug verwendete Kriterien sind
fehlende Kompositionalitat: Die Bedeutung
einer Kollokation ergibt sich nicht kompositionell aus der Bedeutung der Einzelworter
Beispiele: auf die Palme bringen, mit den Wolfen
heulen, Rede halten
fehlende Ersetzbarkeit: Teile einer Kollokation konnen nicht frei gegen semantisch aquivalente Worter ausgetauscht werden.
Beispiele: steife Brise, *steifer Wind
tiefes Vertrauen, hohe Achtung
fehlende Modizierbarkeit: Viele Kollokationen konnen nicht modiziert werden.
Beispiele: im Auge behalten, ? in beiden Augen
behalten
Guten Morgen, Mit freundlichen Gruen
Helmut Schmid
28
SNLP
SNLP
Kollokationen III
haugste Wortpaare in New York Times
Haugkeit
80871
58841
26430
21842
21839
18568
16121
15630
15494
13899
13689
13361
Kollokationen II
Weiteres Kriterium: fehlende direkte U bersetzbarkeit
\eine Entscheidung treen" kann nicht als \to hit
a decision" ins Englische ubersetzt werden.
Fur manche Autoren sind auch stark miteinander
assoziierte Worter wie Hund { bellen oder auch
Arzt { Krankenhaus Kollokationen.
Helmut Schmid
29
SNLP
Wort
of
in
to
on
for
and
that
at
to
in
of
by
Wort
the
the
the
the
the
the
the
the
be
a
a
the
haugste Adjektiv-Nomen-Paare
Haugkeit
11487
7261
5412
3301
3191
2699
2514
2378
2161
2106
2001
1942
Wort
New
United
Los
last
Saudi
last
vice
Persian
San
President
Middle
Saddam
Wort
York
States
Angeles
year
Arabia
week
president
Gulf
Francisco
Bush
East
Hussein
Helmut Schmid
30
SNLP
Kollokationen IV
Statistische Tests
Kollokationen mit variablem Wortabstand
) Fenster (Abstand x bis y)
{ wenn die einzelnen Worter haug sind
haugste Verb-Nomen-Paare mit maximalem
Abstand 5
Verb
spielen
sagen
stellen
sehen
geben
schutteln
kommen
geben
geben
sagen
erzahlen
kosten
kommen
erscheinen
machen
tragen
Helmut Schmid
Nomen
Rolle
Mann
Frage
Seite
Grund
Kopf
Jahr
Zeit
Moglichkeit
Frau
Geschichte
Geld
Frage
Buch
Spa
Name
Haugkeit
28
20
18
16
16
16
14
14
12
12
12
11
11
11
10
10
{ wenn sie eine Kollokation bilden
31
Wortpaare sind haug
Bei der Suche nach Kollokationen interessieren diejenigen Paare, die hauger sind als auf
Grund der Wahrscheinlichkeiten der Einzelworte zu erwarten ist.
Welche Paare das sind, sagt ein statistischer
Test.
Helmut Schmid
32
SNLP
SNLP
Statistische Tests III
Statistische Tests II
: Es besteht keine Beziehung
zwischen den Einzelwortern
Nullhypothese
Berechne die Gesamtwahrscheinlichkeit p aller
moglichen Testergebnisse, die mindestens so
weit vom Erwartungswert abweichen wie das
beobachtete Ergebnis.
Verwerfe die Nullhypothese, falls p zu klein ist
{
p < 0:05
(signikante Abweichung)
{
p < 0:01
{
p < 0:001
Beispiel: Ist das Bigram \new companies" signikant hauger als erwartet?
Datenbasis: In 14307668 Wortern tauchte new
15828-mal auf, companies 4675-mal und new
companies 8-mal.
Nullhypothese: Das Bigramm hat die Wahrscheinlichkeit p0 = p~new p~companies = fN Nf
n c
Die Wahrscheinlichkeit, bei N = 14307668 Wiederholungen eines Bernoulli-Experimentes mit
der Wahrscheinlichkeit p0 mind. 8 Einser-Ereignisse zu bekommen, ist
b( 8; N; p0) = 1 ?
X7 b(i; N; p0) 0:15
i=0
Bei Ablehnung der Nullhypothese betragt die
Irrtumswahrscheinlichkeit 15 %.
) Ergebnis nicht signikant
Helmut Schmid
33
SNLP
Helmut Schmid
SNLP
t-Test
t-Test II
Der t-Test pruft, ob zwei Stichproben der Groe
N1 und N2 mit den Mittelwerten x1; x2 und
den Standardabweichungen s1; s2 von derselben Normalverteilung stammen.
Beim zweiseitigen t-Test muss der t-Score doppelt so hoch sein, damit das Ergebnis signikant ist.
Der t-Test ist relativ robust gegenuber Verletzungen der Bedingung der Normalverteilung.
Dazu wird der t-Score berechnet
x ? x
t = r 21 2 2
s1 + s2
N1?1 n2?1
Der t-Score berechnet die Dierenz zwischen
den Mittelwerten und skaliert sie mit der Varianz der Daten.
Die Zahl der Freiheitsgrade ist N1 + N2 ? 2.
Statistische Tabellen geben an, welches Signikanzniveau dem t-Score bei der geg. Zahl der
Freiheitsgrade entspricht.
Helmut Schmid
34
35
Zur Prufung, ob eine Stichprobe von einer geg.
Normalverteilung mit Erwartungswert stammt,
wird folg. t-Score verwendet.
x ? t=r 2
s
N ?1
Herleitung: N2 auf der letzten Folie gegen unendlich gehen lassen
Die Zahl der Freiheitsgrade betragt hier N ? 1.
Helmut Schmid
36
SNLP
t-Test
SNLP
III
2-Test
Anwendung auf Kollokationssuche
statt Normalverteilung eine Bernoulli-Verteilung
mit p0 = 15828 4675=143076682
Stichprobengroe 14307668
Fur die Varianz s2 der Stichprobe eines BernoulliExperimentes mit einer kleinen emp. Wahrscheinlichkeit gilt:
fnc
Der 2-Test wird auf Kontingenz-Tabellen angewendet.
w1 = new w1 6= new
8
4667
4675
15820 14287173 14302993
15828 14291840 14307668
w2 = companies
w2 6= companies
Der 2-Test ist deniert durch
2
X
2 = (O E? E )
ij
ij
ij
i;j
N
f f
s2 = Nf? 1 1 ? 2 fN + N
2
N ?1
nc
nc
nc
Berechnung des t-Scores
x ? p0 r ?
f p?f
t=r
2
fnc
N
?1
s
N
fn fc
N N
fnc
(N ?1)2
nc
nc
O sind die Werte aus der Kontingenztabelle
E sind die entsprechenden Erwartungswerte unter der Annahme der Unabhangigkeit.
E = p ?p? N = OO?O?
??
ij
ij
i
fn fc
N
nc
0:999932
Der t-Score liegt unter dem kritischen Wert
1.645 und ist somit nicht signikant.
Helmut Schmid
37
SNLP
ij
i
j
j
Das zugehorige Signikanzniveau liest man wiederum aus einer Tabelle ab.
Beispiel: 2 1:55 < 3:84 ) nicht signikant
Helmut Schmid
38
SNLP
Likelihood-Ratio-Test
Der Likelihood-Ratio-Test vergleicht zwei Hypothesen und berechnet, wieviel Mal wahrscheinlicher die erste Hypothese ist.
Probleme Statistischer Tests
Die meisten Bigramme sind signikant haug,
weil die Unabhangigkeitsannahme auch fur NichtKollokationen selten erfullt ist.
) Verwendung der Scores (ohne Signikanz)
Hypothese 1:
Bigramme mit niedrigen Frequenzen erhalten
zu hohe Scores.
) Cuto von bspw. 5 verwenden
Hypothese 2:
(Unabhangigkeit)
P (companiesjnew) = p = P (companiesj:new)
(Abhangigkeit)
P (companiesjnew) = p1 6= p2 = P (companiesj:new)
p = fN
p1 = ff
p2 = fN ??ff
nc
nc
n
c
Helmut Schmid
39
Helmut Schmid
nc
n
40
SNLP
SNLP
Likelihood-Ratio-Test II
Likelihood-Ratio-Test III
Der Likelihood-Ratio ist deniert als
Daten)
= PPH1 ((Daten
)
H2
b
(
f
;
f
;
p
fnc; N ? fn; p)
nc
n
= b(f ; f ; p )) bb((ffc ?
?
nc n 1 c fnc; N ? fn; p2)
L
(
? fnc; N ? fn; p)
= L(ffnc; f; fn; p; p)) LL((ffc ?
f ;N ? f ;p )
nc n
1
c
nc
b(r; n; p) = nr pr (1 ? p)n?r
L(r; n; p) = pr (1 ? p)n?r
n
Der Likelihood-Ratio-Test liefert bessere Ergebnisse fur seltene Bigramme.
Kontingenztabelle
companies :companies
new a
b
:new c
d
2
Der Wert ?2log ist asymptotisch 2-verteilt mit
Freiheitsgrad 1. Das Signikanzniveau kann daher
in einer 2-Tabelle nachgeschlagen werden.
?2 [logL(fnc; fn; p) + logL(fc ? fnc; N ? fn; p)
? logL(fnc; fn; p1) ? logL(fc ? fnc; N ? fn; p2)]
Helmut Schmid
41
SNLP
Der Log-Likelihood-Score ergibt sich fur diese Tabelle durch
?2log = 2 (a loga + b logb + c logc + d logd
?(a + b) log(a + b) ? (a + c) log(a + c)
?(b + d) log(b + d) ? (c + d) log(c + d)
+(a + b + c + d) log(a + b + c + d))
(Beweis: U bung)
Helmut Schmid
42
SNLP
Likelihood-Ratio-Test IV
Genaugenommen berechnet der Likelihood-RatioTest folgendes:
maxH1 p(H1jDaten)
= max
H2 p(H2jDaten)
max
DatenjH1) p(H1) p(Daten)
= maxH1 pp((Daten
jH2) p(H2) p(Daten)
H2
H1 p(DatenjH1) p(H1)
= max
maxH2 p(DatenjH2) p(H2)
Wenn die moglichen Modelle a priori alle gleich
wahrscheinlich sind, gilt
maxH1 p(DatenjH1)
= max
H2 p(DatenjH2)
und die Wahrscheinlichkeiten konnen mit den relativen Haugkeiten geschatzt werden (MaximumLikelihood-Schatzungen).
Likelihood-Ratio-Test V
Aufgrund der Beziehung
f p(f ) = const
(! Good-Turing Smoothing) gilt naherungsweise
fur die Modellwahrscheinlichkeiten
P (p) = C=p
Bei der Kollokationssuche ist das nicht der Fall,
da die meisten Bigramme eine sehr kleine Wahrscheinlichkeit haben.
Helmut Schmid
43
Helmut Schmid
44
Herunterladen