14a

Werbung
Vorlesung 13b
Relative Entropie
1
S sei eine abzählbare Menge (ein “Alphabet”).
Die Elemente von S nennen wir Buchstaben.
X sei eine S-wertieg Zufallsvariable
(ein “zufälliger Buchstabe”).
H2[X] := −
X
ν(a) log2 ν(a)
a∈S
heißt die Entropie von X (zur Basis 2).
2
Es ist sinnvoll, auch andere Basen zu erlauben.
Wir schreiben
H[X] := −
X
ν(a) log ν(a),
a∈S
wobei log zu einer beliebigen, festen Basis genommen wird:
Hb[X] := −
X
a∈S
ν(a) logb ν(a).
3
Die Entropie ist der fundamentale Begriff
der Informationstheorie.
Nach dem Quellenkodierungssatz gibt die Entropie
fast genau die mittlere Anzahl von Ja-Nein Fragen an,
die notwendig und
- bei guter Wahl des Codes - auch hinreichend ist,
um den unbekannten Wert von X von jemandem zu erfragen,
der X beobachten kann.
Dies ist gemeint, wenn man die Entropie beschreibt als den
Grad von Unbestimmtheit oder Ungewissheit
über den Wert, den X annimmt.
4
Die relative Entropie
Definition: Seien ν und ρ Wahrscheinlichkeitsverteilungen
mit Gewichten ν(a) und ρ(a), a ∈ S. Dann ist die relative
Entropie von ν bzgl. ρ definiert als
ν(a)
D(νkρ) :=
ν(a) log
,
ρ(a)
a∈S
X
wobei die Summanden mit ν(a) = 0
gleich 0 gesetzt werden.
5
Interpretation der relativen Entropie:
Man denke sich einen zufälligen Buchstaben mit Verteilung ν
mit einem Shannon-Code codiert, der nicht der Verteilung ν,
sondern der Verteilung ρ angepasst ist,
also mit Codewortlängen
− log ρ(a) ≤ ℓ(a) < − log ρ(a) + 1.
Dann ist die Zunahme der erwarteten Codelänge
bis auf ein Bit gleich
−
X
a
ν(a) log ρ(a) −
−
X
a
ν(a) log ν(a) = D(νkρ).
6
In der Tat gilt ja für die Länge ℓρ des
an ρ angepassten Shannon-Codes:
− a ν(a) log ρ(a) ≤ E[ℓρ(X)] < − a ν(a) log ρ(a) + 1.
P
P
Und für für die Länge ℓρ des
an ν angepassten Shannon-Codes gilt:
− a ν(a) log ν(a) ≤ E[kν (X)] < − a ν(a) log ν(a) + 1.
P
P
Daraus folgt für die Differenz:
E[ℓρ(X)] − E[ℓν (X)] ∈ [D(νkρ) − 1, D(νkρ) + 1). 2
7
Satz: (“Informationsungleichung”) D(νkρ) ≥ 0.
Beweis: Wieder verwenden wir die Abschätzung
log x ≤ c · (x − 1) mit passendem c > 0:
ρ(a)
D(νkρ) = −
ν(a) log
ν(a)
a:ν(a)>0
X
ρ(a)
−1
≥−
ν(a) c ·
ν(a)
a:ν(a)>0
X
= −c
X
a:ν(a)>0
ρ(a) −
X
a
ν(a) ≥ 0.
2
8
Bemerkung: Aus D(νkρ) = 0 folgt ν = ρ.
In der Tat: In
log x ≤ c(x − 1)
besteht abgesehen für x = 1 strikte Ungleichung.
Also folgt aus
X
X
ρ(a)
ρ(a)
−
ν(a) log
= −c
ν(a)
−1 ,
ν(a)
ν(a)
a:ν(a)>0
a:ν(a)>0
dass
ρ(a) = ν(a) für alle a mit ν(a) > 0.
Und aus
X
a:ν(a)>0
folgt
ρ(a) −
X
a
ν(a) = 0
ρ(a) = ν(a) für alle a mit ν(a) = 0. 2
9
Zusammenfassend ergibt sich der
Satz (von der relativen Entropie):
Die relative Entropie D(νkρ) ist nichtnegativ,
und verschwindet genau für ν = ρ.
10
In den folgenden Beispielen
benutzen wir den Satz in der Gestalt
(∗)
−
X
a
ν(a) log ν(a) ≤ −
X
a
ν(a) log ρ(a)
mit Gleichheit genau für ν = ρ.
Wir sehen:
Hat X die Verteilung ν,
so liefert jede Wahl von ρ eine Schranke für H[X],
mit Gleichheit genau für ν = ρ.
11
Beispiel: Vegleich mit der uniformen Verteilung:
Sei S endlich mit n Elementen
und sei ρ(a) = 1/n für alle a ∈ S.
Dann folgt aus (∗):
X
1
H[X] ≤ − ν(a) log( ) = log n .
n
a
H[X] ≤ log n.
Gleichheit gilt genau im Fall der uniformen Verteilung,
sie maximiert auf S die Entropie.
2
12
Beispiel: Vergleich mit (verschobener) geom. Verteilung:
Sei nun S = {0, 1, 2, . . .}, und ρ(k) := 2−k−1
Dann folgt aus (∗):
H2[X] ≤
=
∞
X
X
a
ν(a) log2(−2−k−1)
(k + 1)ν(k) = (E[X] + 1) .
k=0
Gleichheit gilt für ν(k) = 2−k−1, dann ist H2[X] = 2. Also:
Unter allen N0-wertigen ZV’en mit EW ≤ 1
hat das X mit Gewichten 2−k−1 die größte Entropie,
nämlich H2[X] = 2. 2
13
Beispiel: Vergleich mit einer “Gibbsverteilung”:
Gegeben sei u : S → R, β ≥ 0.
Wir definieren die Gewichte ρ(a) := e−βu(a)/z mit
z :=
X
e−βu(a) ( Annahme: z < ∞.)
a∈S
Die Abschätzung (∗) ergibt
He[X] ≤ β E[u(X)] + ln z .
Ist E[u(X)] ≤
He[X] ≤ β
X
a
X
a
u(a)ρ(a), so folgt
u(a)ρ(a) + ln z = −
X
a
ρ(a) ln ρ(a),
mit Gleichheit genau dann, wenn X die Verteilung ρ hat.
14
Zusammengefasst:
Unter allen Zufallsvariablen mit
Erwartungswert ≤
X
a
u(a)e−βu(a)/z
hat diejenige die größte Entropie,
die die Verteilungsgewichte e−βu(a)/z hat.
Die Verteilung mit diesen Gewichten heißt Gibbsverteilung
zum Potenzial u mit Parameter β.
2
15
Beispiel:
ν und ρ binomialverteilt zu den Parametern (n, α) bzw. (n, p)
D(νkρ) =?
ν(k)
αk (1 − α)n−k
1−α
α
log
= log k
= k log +(n−k) log
n−k
ρ(k)
p (1 − p)
p
1−p
Wegen
P
k ν(k) = nα ist somit
D(νkρ) =
=

n α log
X
ν(k)
ν(k) log
ρ(k)

α
1 − α
+ (1 − α) log
=: n h(α, p).
p
1−p
2
16
Beispiel: Für p ∈ (0, 1) sei Y1, Y2, . . . ein p-Münzwurf.
Kn := Y1 + . . . + Yn sei die “Anzahl der Erfolge” bis n.
Sei [c, d] ein Intervall rechts von p (mit p < c < d).
Satz (Boltzmann)
Kn
ln P
∈ [c, d] ∼ −n h(c, p)
n
(
)
für n → ∞,
mit h wie im vorigen Beispiel.
Beweis: siehe Skript Wakolbinger, Seite 96-98.
17
S = k log W
Entropie =
k mal
Logarithmus der
Wahrscheinlichkeit
Ludwig Boltzmann
1844-1906
Grabmal am
Wiener
Zentralfriedhof
18
Herunterladen