Kapitel 5 Entropie

Werbung
Kapitel 5
Entropie
Das Wort Entropie“ bedeutet Unordnung. In der Theorie dynamischer Syste”
me messen wir damit die Unvorhersagbarkeit von Orbits.
5.1 Topologische Entropie
5.1.1 Topologische Invarianten
Wir betrachten metrische Räume und Abbildungen f : X → X und wollen Eigenschaften solcher Abbildungen betrachten, die unter Konjugation mit einem
Homöomorphismus erhalten bleiben. Wir beginnen dabei mit einem recht einfachen Konzept.
Definition 5.1.1 Ist f : X → X stetig, so sei Pn (f ) die Anzahl der periodischen
Punkte der Periode n. Dabei ist ist nicht die Anzahl der periodischen Punkte mit
minimaler Periode n gemeint.
Offensichtlich ist Pn eine Zahl, die sich unter Konjugation mit einem Homöomorphismus nicht ändert. Um die asymptotische Verhalten von Pn zu beschreiben,
führt man folgende Größe ein.
Definition 5.1.2 Es sei
log(max(Pn (f ), 1))
.
n→∞
n
p(f ) = lim
Ist p(f ) < ∞ so kann man die Wachstumsrate der Anzahl der periodischen
Punkte, gut ein einer einzigen Funktion kodieren.
85
KAPITEL 5. ENTROPIE
86
Definition 5.1.3 Für geeignete z ∈ C definieren wir
ζf (z) = exp
∞
X
Pn (f )
n=1
n
zn.
Um den Definitionsbereich dieser Funktion zu ermitteln reicht es natürlich zu
untersuchen, für welche z ∈ C die angegebene Reihe konvergiert. Der Konvergenzradius ist exp(−p(f ).
Beispiel 5.1.4
1. Em :
ζEm (z) = exp
∞
X
mn − 1
n=1
n
zn
!
= exp(− log(1−mz)+log(1−z))) =
2. σ2
ζσ2 = exp
∞
X
2n
n=1
n
zn =
1−z
.
1 − mz
1
.
1 − 2z
3. FL
Ähnliche Definitionen kann man für Flüsse angeben und entsprechende Invariante dabei aufzeigen.
Definition 5.1.5 Sei ϕt ein Fluss auf X. Setze PT (ϕt ) als die Zahl der periodischen
Orbits von der Periode höchstens T . Setze
p(ϕt ) = lim sup
T →∞
log(max P T (ϕt ), 1)
.
T
Die entsprechende Zetafunktion wird hier definiert als
Y
(1 − exp(−zℓ(γ))),
ζϕt (z) =
γ
wobei das Produkt über alle echten periodischen Orbits genommen wird und ℓ(gamma)
deren minimale (positive) Periode ist.
Das Produkt konvergiert für Re z > p(ϕt ) und hat auf der Geraden Re z = p(ϕt )
Singularitäten.
Beachte Orbitäquivalenz erhält diese Größen nicht. Es gilt aber noch der folgende Satz.
Satz 5.1.6 Es seien X, Y kompakte metrische Räume und ϕt : X → X, ψ t : Y → Y
orbitäquivalente Flüsse. Ist p(ψ t ) = 0, so gilt dies auch für p(ϕt ).
Beweis. Übungen.
5.1. TOPOLOGISCHE ENTROPIE
87
5.1.2 Topologische Entropie von Abbildungen
Definition 5.1.7 Sei X kompakter metrischer Raum, f : X → X stetig. Auf X
definieren wir eine neue Metrik:
dnf (x, y) :=
max
i∈{0,1,...,n}
d(f i(x), f i (y)).
Offensichtliche Folgerungen sind:
• dnf (x, y) ≥ d(x, y),
n
• m > n impliziert dm
f (x, y) ≥ df (x, y).
Definition 5.1.8 Sei Nd (f, n, r) die minimale Zahl von Bällen bezüglich der Metrik
dnf von Radius r, die X überdeckt, d.h.
(
Nd (f, n, r) = min #A | X ⊂
[
a∈A
dn
Br f (a)
)
.
Diese Zahl ist (für festes f, d, r) monoton wachsend in n. Wir interessieren uns
dafür, wie schnell es wächst. Wenn Nd (f, n, r) sich mit wachsendem n verhält
wie eαn , so ist die exponentielle Wachstumsrate gleich α. Diese Größe ermitteln
wir wie folgt:
Definition 5.1.9 Sei hd (f, r) die exponentielle Wachstumsrate von Nd (f, n, r) in n,
d.h.
1
hd (f, r) = lim log Nd (f, n, r).
n→∞ n
Zuletzt definieren wir
h(f ) = lim hd (f, r).
r→0
h(f ) heißt die topologische Entropie von f.
Bemerkung 5.1.10 limr→0 hd (f, r) existiert, da hd (f, r) monoton in r ist. Genauer
gilt ist r ′ < r, so ist hd (f, r ′) ≥ hd (f, r).
Bemerkung 5.1.11 In der Definition von h wird die Metrik benutzt. Dennoch heißt
h topologische Entropie und nicht metrische Entropie. Denn wie folgender Satz uns
mitteilt, hängt h wirklich nur von der Topologie ab.
KAPITEL 5. ENTROPIE
88
Satz 5.1.12 Seien d′ und d Metriken auf X, die die gleiche Topologie erzeugen (dies
ist eine schwächere Eigenschaft, als Äquivalenz von Metriken). Dann ist
lim hd (f, r) = lim hd′ (f, r),
r→0
r→0
und die Definition von h(f ) hängt nicht davon ab, ob es bezüglich der Metrik d oder
der Metrik d′ ermittelt wird.
Beweis. Wir betrachten die Menge Dε aller Paare (x1 , x2 ) ∈ X×X mit d(x1 , x2 ) ≥
ε. Diese Menge ist kompakt in X × X. Die Funktion
d′ : X × X → R
ist stetig und nimmt daher ihr Minimum auf Dε an. Dieses Minimum ist nicht
negativ und in der Tat sogar positiv. Ansonsten hätten wir x1 6= x2 mit d′ (x1 , x2 ) =
0. Damit gilt
d′ (x, x′ ) < δ ⇒ d(x1 , x2 ) < ε.
Damit sind δ-Bälle für d′ in ε-Bällen für d enthalten. Dieses Argument überträgt
sich sofort auf dfn und dfn′ . daraus folgt dann aber, dass Nd (f, n, ε) ≤ Nd′ (f, n, δ).
Damit ist hd′ (f, δ) ≥ hd (f, ε). Dann ist
hd′ (f ) ≥ lim hd (f, ε) = hd (f ).
ε→0
Vertauschen der Rollen von d und d′ beweist das Resultat.
Weiterhin gilt:
Satz 5.1.13 Sei f : X → X (X kompakt) topologisch konjugiert zu g : Y → Y, d.h.
es gebe einen Homöomorphismus k : X → Y mit f = k −1 ◦ g ◦ k. Dann haben f und
g dieselbe topologische Entropie.
Beweis. So ein k erzeugt aus einer Topologie auf X eine auf Y , und sogar aus
einer Metrik d auf X eine Metrik d˜ auf Y , definiert durch
˜ b) = d(k −1 (a), k −1 (b))
d(a,
für a, b ∈ Y . und somit können wir die topologische Entropie von g bezüglich
d˜ berechnen. Dies ist leicht: Die Bilder unter k von d-Bällen von Radius r in
˜
X sind genau die d-Bälle
von Radius r in Y. Somit sind die Bilder unter k von
Überdeckungen von X mit d-Bällen von Radius r genau die Überdeckungen
˜
von Y mit d-Bällen
von Radius r. Also ist
Nd (f, n, r) = Nd˜(g, n, r)
und daraus folgt sofort h(f ) = h(g).
Mit diesem Satz können wir nun reichhaltig Kapital schlagen aus unserer Kenntnis von topologischer Konjugation, um topologische Entropien zu berechnen.
5.1. TOPOLOGISCHE ENTROPIE
89
Satz 5.1.14 Die topologische Entropie h hat folgende Eigenschaften:
1. h(f ) ≥ 0 für alle f .
2. h(1l) = 0.
3. Ist Λ ⊂ X abgeschlossen und f -invariant, so gilt h(f|Λ ) ≤ h(f ).
S
4. Ist X = ni=1 Λi , wobei jedes Λi abgeschlossen und f -invariant sei, so ist
h(f ) = max h(fΛi ).
1≤i≤m
5. h(f 2 ) = 2h(f ), h(f 3 ) = 3h(f ), . . . .
6. Wenn f invertierbar ist, gilt h(f −1 ) = h(f ).
7. h(f m ) = |m|h(f ) für alle m ∈ N und bei invertierbarem f für alle m ∈
(Dies ist die Zusammenfassung der vorherigen beiden Zeilen.)
Z.
8. h(f × g) = h(f ) + h(g), wobei f : X → X, g : Y → Y und
f × g : X × Y → X × Y : (x, y) 7→ (f (x), g(y)).
Beweis.
1. Ist offensichtlich.
2. In diesem Fall hängt Nd (f, n, r) nicht von n ab, daraus folgt die Aussage
unmittelbar.
3. Eine Überdeckung von X überdeckt auch Λ, also ist
Nd (f|Λ , n, r) ≤ Nd (f, n, r).
Damit folgt
hd (f|Λ , r) ≤ h(f, r)
und damit
h(f|Λ ) ≤ h(f ).
4. Hat man eine Vereinigung von Überdeckungen, die alle Λi überdecken,
so ist dies auch eine Überdeckung von X. Also ist
Nd (f, n, r) ≤
m
X
i=1
Nd (f|Λi , n, r).
KAPITEL 5. ENTROPIE
90
Daher gilt für mindestens einen Summanden
Nd (f|Λi ≥
1
Nd (f, n, r).
m
Da es nur endlich viele i’s gibt, erhält man eine entsprechende Aussage
für ein i für unendliche viele n. Daher folgt dann
lim sup
log Nd (f|Λi , n, r)
n
n→∞
log Nd (f, n, r) − log m
= hd (f, r).
n
n→∞
≥ lim sup
5. Dies ein Spezialfall der allgemeineren Aussage, die wir beweisen werden.
6. Für invertierbares f : X → X vergleichen wir die Mächtigkeit von
f
Überdeckungen mit Mengen der Form Bεdn (x) und solchen der Form
f −1
f −1
f
Bεdn (f n (x)). Ist y ∈ Bεdn (x), so ist f n (y) ∈ Bεdn (f n (x)). Also bekommen wir eine Injektion von einer Überdeckung mit zulässigen Mengen
U in eine Überdeckung mit zulässigen Mengen für f −1 , indem wir U auf
f n (U) abbilden. Da wir f und f −1 vertauschen können sind zwei solche
Überdeckungen gleichmächtig, d.h.
Nd (f, n, ε) = Nd (f −1 , n, ε).
Dann ist aber h(f ) = h(f −1 ).
7. Wir beweisen dies zunächst für positives m, die Aussage für m < 0 folgt
dann aus den beiden Aussagen für f −1 und der für positives m. Sei also
m > 0. Dann ist
m
dfn (x, y) = max d(f mi (x), f mi (y)) ≤ max d(f i (x), f i (y)) = dfmn (x, y).
0≤i≤mn
i∈{0,...,n}
Damit ist für x ∈ X und r > 0
f
fm
Brdmn (x) ⊂ Brdn (x).
Damit ist
Nd (f m , n, r) ≤ Nd (f, mn, r).
Dann ist
hd (f m , r) = lim sup
n→∞
log Nd (f m , n, r)
log Nd (f, mn, r)
≤ lim sup
m = mhd (f, r).
n
mn
n→∞
Damit ist h(f m ) ≤ mh(f ).
Ein Kompaktheitsargument wie zuvor zeigt, dass es zu ε > 0 ein δ > 0
gibt, so dass für alle x ∈ X gilt
f
Bδd (x) ⊂ Bεdm (x).
5.1. TOPOLOGISCHE ENTROPIE
fm
Bδdn (x) =
91
n n
o
\
y ∈ Bδd (x) f im (y) ∈ Bδd (f im (x))
i=1
⊂
\
i=1
dfmn
= Bε
n
(x).
n
y∈
Bεd (x)
o
im
dfm
im
f (y) ∈ Bε (f (x))
Also ist
Nd (f, mn, r) ≤ Nd (f m , n, r).
Wie oben schließt man nun, dass
hd (f m , r) = lim sup
n→∞
log Nd (f m , n, r)
log Nd (f, mn, r)
≥ lim sup m
= mhd (f, r)
n
mn
n→∞
und damit
mh(f ) ≤ h(f m ).
8. Aus der Beziehung
Nmax{d,d′ } (f × g, n, ε) = Nd (f, n, ε)Nd′ (g, nε)
folgt h(g × g) ≤ h(f ) + h(g). Die umgekehrte Ungleichung zeigen wir
nachdem wir alternative Definitionen der topologischen Entropie angegeben haben.
Es gibt eine ganze Reihe von Alternativen zur Definition der topologischen
Entropie, der Vollständigkeit halber wollen wir einige davon erwähnen. Setze Dd (f, ε, n) als die minimale Anzahl von Mengen in einer Überdeckung von
X, so dass alle Elemente dieser Überdeckung bezüglich dfn einen Durchmesser
von höchstens ε haben. Wegen der wechselseitigen Enhaltenseinsbeziehung
(jede ε Kugel hat Durchmesser höchstens 2ε jede Menge mit Durchmesser
höchstens ε liegt auch einer ε-Kugel) erhält man
Dd (f, 2ε, n) ≤ Nd (f, ε, n) ≤ Dd (f, ε, n).
Aufgabe 5.1.15 Zeigen Sie,
1.
Dd (f, ε, m + n) ≤ Dd (f, ε, n)Dd (f, ε, m).
2. für jedes ε > 0 existiert der Grenzwert
1
log Dd (f, ε, n).
n→∞ n
lim
KAPITEL 5. ENTROPIE
92
Aufgabe 5.1.16 Setze
1
log Dd (f, ε, n).
n→∞ n
h̃(f, ε) = lim
Zeigen Sie:
lim h̃(f, ε) − h(f, ε) = 0.
ε→0
Definition 5.1.17 Wir nennen eine Teilmenge A ⊂ X (n, ε)-diskret, falls für je zwei
Punkte x, y ∈ A gilt
dfn (x, y) ≥ ε.
Hat A unter allen (n, ε)diskreten Mengen die maximale Mächtigket, so nennen wir A
(n, ε)-seoariert. Die Anzahl von Elementen in einer (n, ε)-separierten Menge A ⊂ X
werde mit Sd (f, ε, n) bezeichnet.
Für eine (n, ε)-separierte Menge A ist natürlich die Vereinigung
f
{Bεdn (a)}a∈A
eine Überdeckung von X, also folgt
Sd (f, ε, n) ≥ Nd (f, ε, n).
(5.1.18)
Man sieht leicht, dass diese Ungleichung auch strikt sein kann, betrachte ein
gleichseitiges Dreieck D mit Eckenmenge A = {a1 , a2 , a3 } und ε > 0 welches
kleiner als die Länge einer Kante, aber größer als der Radius des Umkreises
ist. Betrachten wir nun die identische Abbildung, so ist A (n, ε)-separiert für
jedes n, aber D ⊂ Bε (S), wobei S der schwerpunkt des Dreiecks ist. Dann ist
Nd (1l, n, ε) = 1. Umgekehrt kann keine ε-Kugel Punkte enthalten, die mehr als
2ε voneinander entfernt sind, daher folgt
Nd (f, ε, n) ≥ Sd (f, 2ε, n).
(5.1.19)
Zur Begründung betrachte man eine (n, 2ε)-separierte Menge und eine Überdeckung U entsprechend der Definition von Nd . Betrachte die Abbildung A →
U : x 7→ U : x ∈ U. Diese Abbildung ist injektiv, also ist Mächtigkeit von A
höchstens die von U und wir erhalten die Gleichung (5.1.19). Nun folgt aus der
ersten Gleichung (5.1.18)
lim sup
n→∞
1
log Sd (f, ε, n) ≥ hd (f, ε)
n
und aus der zweiten (5.1.19)erhalten wir
lim inf
n→∞
1
1
log Sd (f, 2ε, n) ≤ lim sup log Sd (f, 2ε, n) ≤ hd (f, ε).
n
n→∞ n
5.1. TOPOLOGISCHE ENTROPIE
93
Insgesamt ergibt sich
1
1
log Sd (f, ε, n) ≥ h(f ) ≥ lim lim sup log Sd (f, 2ε, n).
ε→0 n→∞ n
n
lim lim sup
ε→0
n→∞
Damit erhält man
h(f ) = lim lim sup
ε→0
1
1
log Sd (f, ε, n) = lim lim inf log Sd (f, ε, n).
ε→0 n→∞ n
n
Beweis der Rückrichtung von 8 aus Satz 5.1.14. Wir bekommen
Smax{d,d′ } (f × g, ε, n) ≥ Sd (f, ε, n) · Sd′ (f, ε, n).
Daher ist
h(f × g) ≥ h(f ) · h(g).
5.1.3 Topologische Entropie von Flüssen
Für einen Fluss definieren wir die topologische Entropie auf zweierlei Weise:
Zunächst erzeugt jeder Fluss eine Zeit-1-Abbildung, deren topologische Entropie wir verwenden können:
Definition 5.1.20 Sei ϕ ein C 1 -Fluss auf X. Definiere
h(ϕ) := h(ϕ1 ).
D.h., die topologische Entropie des Flusses ϕ wird definiert als die topologische Entropie der Zeit-1-Abbildung von ϕ.
Zweitens können wir die Definition leicht von Abbildungen auf Flüsse übertragen:
Definition 5.1.21 Wir können auf X eine Metrik dTϕ definieren mittels
dTϕ = max d(ϕt (x), ϕt (y)).
t∈[0,T ]
Damit können wir wie bei Abbildungen definieren
(
Nd (ϕ, T, r) = min #A | X ⊂
[
dT
Br ϕ (a)
a∈A
1
log Nd (ϕ, n, r),
T →∞ T
hd (ϕ, r) = lim
Zuletzt können wir definieren:
h(f ) = lim hd (ϕ, r).
r→0
)
,
KAPITEL 5. ENTROPIE
94
Diese beiden Definitionen stimmen überein.Man prüfe dies nach.
Lemma 5.1.22 Die topologische Entropie des Gradientenflusses auf der 2-Sphäre x2 +
y 2 + z 2 = 1, der durch Integration des Vektorfeldes
v(x, y, z) = (xz, yz, −x2 − y 2 )
entsteht. Dann ist die topologische Entropie 0.
Beweis. Offensichtlich sind die Punkte N = (0, 0, 1) und S = (0, 0, −1) Fixpunkte dieses Flusses. Betrachte ε > 0 Umgebungen Nε und Sε und die Menge Kε = S 2 \ (Nε ∪ Sε ). Jeder Orbit durchquert Ke ps in endlicher Zeit. und
bleibt danach in Sε . Damit kann man endlich viele Orbitsegmente Mε in Kε
auswählen jedes höchstens Tε lang, so dass jedes Orbitsegment bei der Durchquerung von K nahe einem aus Mε ist. Betrachtet man nun einen beliebigen
Orbit, der nahe N startet, so bleibt er zunächst lange in Nε durchquert in der
zeit höchstens Tε die Menge Kε und bleibt danach für immer in Sε . Nun sind
je zwei Punkte in Nε und Sε ε-nahe, das Segment in Kε ist ε-nahe zu einem der
Mε .
Daraus folgt dann leicht, dass Nd (ϕt , T, ε) linear in
pologische Entropie 0.
1
ε
ist und daher ist die to-
Das angegebene Argument ist relativ allgemein und kann an beliebige Gradientensysteme mit diskreter Fixpunktmenge angepasst werden. Eine andere
wichtige Frage ist die der Endlichkeit der topologischen Entropie.
Aufgabe 5.1.23 Man berechne die topologische Entropie für σ2 , wobei als Metrik
∞
X
|ωn − ωn′ |
d(ω1 , ω2 ) =
20|n|
n=−∞
zugrunde gelegt werde.
Lemma 5.1.24 Für |m| ≥ 2 ist h(Em ) = log |m|.
Beweis. Wir beschränken uns im Moment auf den Fall m > 0. Die Abbildung
ist für m ≥ 2 expandierend und daher streben Orbits zunächst auseinander,
bis sie einen bestimmten von Em abhängigen Maximalabstand erreicht haben
−n−1
(dies ist für Em der Wert 1/2m. Sei nun x, y ∈ S 1 mit d(x, y) < m 2 . Wir
betrachten nun
n
n
(x), Em
(y).
dnEm (x, y) = d(Em
Daraus folgt nun, dass
dnEm (x, y) > ε falls d(x, y) > εm−n .
5.1. TOPOLOGISCHE ENTROPIE
95
Nun wollen wir uns mit der Frage befassen, ob die Entropie jeweils endlich
ist.
Definition 5.1.25 Es sei X ein kompakter metrischer Raum und für ε > 0 sei b(ε) die
minimale Mächtigkeit von Überdeckungen von X mit Kugeln vom radius höchstens
ε. Dann ist
log b(ε)
BD(X) = lim sup
∈ R ∪ {∞}
| log ε|
ε→0
die Kugeldimension (engl. ball dimension) von X.
Definition 5.1.26 Es sei X ein kompakter metrischer Raum ,f : X → X. Dann
heißt eine stetige Abbildung Lipschitz stetig, falls
d(f (x), f (y))
< ∞.
d(x, y)
x,y,x6=y
sup
Dieses Supremum heißt dann auch Lipschitz-Konstante.
Lemma 5.1.27 Sei X ein kompakter metrischer Raum von endlicher Kugeldimension
und f L : X → X sei Lipschitz stetig, so ist
h(f ) ≤ BD(X) max{0, log L(f )}.
Beweis. Sei L > L(f ), dann ist
d(f (x), f (y)) ≤ Ld(x, y) für alle x, y ∈ X.
Insbesondere folgt für
r=
ε
,
Ln
dass f m (Brd (x) ⊂ Bεd (f m (x) für 0 ≤ m ≤ n. Darus folgt sofort, dass
f
Brd (x) ⊂ Bεdn (x).
Und dies gilt für alle x ∈ X, n ∈ N und ε > 0. Daher ist
Nd (f, ε, n) ≤ b(r).
Da
| log(r)| = n log L − log ε|
KAPITEL 5. ENTROPIE
96
erhalten wir
log r ε
n = 1+
log L |logr|
1
1
| log(r)| 1 + O( ) .
=
log L
n
Also schätzen wir ab:
lim sup
n→∞
log Nd (f, ε, n)
log b(r)
log(b(r))
≤ lim sup
= log(L) lim sup
= BD(X) log(L).
n
n
| log(r)|
n→∞
n→∞
Damit hat man
h(f ) ≤ BD(X) log(L).
5.2 Maß-theoretische Entropie
Im Folgenden reden wir von Räumen (X, µ), die ein Maß µ haben. Dieses soll
endlich sein, also µ(X) < ∞. Praktisch und keine Einschränkung der Allgemeinheit ist, µ(X) = 1 anzunehmen.
5.2.1 Information und Entropie einer Partition
Als Motivation überlegen wir uns Folgendes: Wenn wir über ein zufälliges
Ereignis im Voraus wissen, dass es mit Wahrscheinlichkeit p eintritt und mit
Wahrscheinlichkeit 1 − p nicht, und wir im Nachhinein die Nachricht erhalten, dass es eingetreten ist, wieviel neue Information“ haben wir durch diese
”
Nachricht gewonnen? Z.B. ist die Wahrscheinlichkeit dafür, dass es an einem
gegebenen Werktag in mindestens einem Supermarkt etwas zu kaufen gibt,
fast 1; die Nachricht, dass es an einem bestimmten solchen Tag etwas zu kaufen gab, enthält somit sehr wenig neue Information. Dagegen wäre die Nachricht, dass es an einem bestimmten Werktag in keinem einzigen Supermarkt
etwas zu kaufen gab, sehr überraschend und wurde sehr viel Information
übermitteln. Es soll also gelten: Information ist eine Funktion der Wahrscheinlichkeit, und zwar eine monoton fallende, also
I = I(p)
und
lim I(p) = 0.
p→1
5.2. M-THEORETISCHE ENTROPIE
97
Weiterhin ist sinnvoll zu fordern, dass für zwei unabhängige Ereignisse die
Information, dass beide eingetreten sind, gleich ist der Information, dass das
eine eingetreten ist plus die Information, dass das andere eingetreten ist, also
I(p · q) = I(p) + I(q).
Es gibt (bis auf Multiplikation mit einer Konstanten) eine einzige solche Funktion: Einen Logarithmus.
Definition 5.2.28 Sei p ∈ [0, 1]. Dann ist die Information von p gegeben durch
I(p) := − log p ∈ [0, ∞].
Bemerkung 5.2.29 Hierbei gibt es verschiedene Möglichkeiten, die Basis von log
festzulegen. Praktisch nützlich sind die Basen 2 und e; mit e lässt sich ein wenig leichter differenzieren, aber um praktische Beispiele anzugeben, ist die Basis e unbrauchbar
und 2 sehr gut zu handhaben. Um Mehrdeutigkeiten zu vermeiden, definieren wir die
Einheit
bit = log 2.
Dann können wir Ergebnisse immer in der Einheit ,,bit” angeben, und es kommt exakt
derselbe Zahlenwert heraus, unabhängig von der Basis des Logarithmus.,,Bit” steht
für ,,binary unit”. Dieser Begriff ist uns natürlich aus der Computertechnik bekannt.
Definition 5.2.30 Sei (X, µ) ein Maßraum mit µ(X) =
Sn1. Eine endliche Partition
von X ist eine Menge P = {C1 , . . . , Cn } mit X = i=1 Ci und die Ci disjunkt.
Hierbei ist unsere Notation grundsätzlich (ohne dass wir es noch sagen) mod 0, das
heißt, wir sagen A = B für A, B ⊂ X wenn gilt µ(A∆B) = 0; hierbei ist A∆B =
(A \ B) ∪ (B \ A). Wir setzen auch stillschweigend voraus, dass alle Mengen, die wir
betrachten, messbar sind.
Definition 5.2.31 Sei nun P eine endliche Partition von X. Dann ist die Information auf X bezüglich P definiert als
IP : X → [0, ∞]
IP (x) = − log µ(C),
wobei x ∈ C ∈ P.
Der Mittelwert der Information heißt Entropie und wird mit H bezeichnet:
Z
Z
H(P ) = IP dµ =
IP (x)dµ(x).
x∈X
KAPITEL 5. ENTROPIE
98
Es gilt sicherlich: Wenn wir die Partition weiter unterteilen, wird die Information größer oder bleibt gleich (je nachdem, wo x in der Partition liegt). Wir
erhalten sofort eine alternative Darstellung der Entropie als
(5.2.32)
H(P ) = −
X
µ(C) log µ(C).
C∈P
Definition 5.2.33 Eine Partition Q heißt Verfeinerung der Partition P , geschrieben
P ≤Q
(oder Q ≥ P ),
wenn jedes Element D ∈ Q enthalten ist in einem Element C ∈ P. Äquivalent dazu
ist, dass alle Elemente C ∈ P Vereinigungen sind von Elementen D1 ∪ · · · ∪ Dk ∈ Q.
Wir sagen auch, die Partition Q ist größer als P. Auch: P ist kleiner als Q. Ebenfalls:
P ist gröber als Q.
Bemerkung 5.2.34 Eine besondere Fußangel hält die deutsche Sprache hier für uns
parat: gröber“ klingt ähnlich wie größer“, das eine bedeutet aber die Umkehrung des
”
”
anderen. Ebenso mit feiner“ und kleiner“.
”
”
Bemerkung 5.2.35 Die Relation ≥ auf Partitionen ist keine Halbordnung; im allgemeinen gilt weder P ≥ Q noch Q ≥ P. Folglich ist es auch falsch, P ≥ Q auszusprechen als ,,P ist nicht kleiner als Q”.
Bemerkung 5.2.36 Ist T : X → X eine maßerhaltende Transformation, so ist
o
n
−1
−1
T (P ) = T (C) C ∈ P
wieder eine meßbare Partition und es gilt
H(T −1(P )) = H(P ).
5.2.2 Bedingte Entropie
Definition 5.2.37 Im folgenden schreiben wir
µ(A|B) =
für das bedingte Maß von A bezüglich B.
µ(A ∩ B)
,
µ(B)
5.2. M-THEORETISCHE ENTROPIE
99
Definition 5.2.38 Gegeben seien zwei messbare Partitionen P1 , P2 , dann ist die bedingte Entropie von P1 bzgl. P2 gegeben durch
X
X
µ(D|C) log µ(D|C).
µ(C)
H(P1 |P2 ) = −
D∈P2
C∈P1
Wir führen nun eine bedingte Information ein und können damit wieder die
bedingte Entropie darstellen, dies hat den Vorteil, dass man auch mit allgemeineren Partitionen arbeiten kann.
Definition 5.2.39 Die bedingte Information zu Partitionen den P1 , P2 ist eine auf
X definierte Funktion, gegeben durch
IP1 ,P2 (x) = − log µ(C|D) x ∈ C ∩ D.
Lemma 5.2.40 Mit dieser Definition wird
H(P1 |P2 ) =
Z
IP1 ,P 2 dµ.
X
Beweis. Offensichtlich!
Wir beachten folgende einfache Beobachtung: gegeben zwei Partitionen P1 , P2
so definiert P2 eine Partition der Elemente C ∈ P1 durch
[
(D ∩ C) .
C=
D∈P2
Offensichtlich können hier mehr Terme auftreten als wir tatsächlich benötigen.
Wir lassen die Terme mit
µ(C ∩ D) = 0, D ∈ P2
in der Partition von C weg. Entsprechend der obigen Definition von gröber
und feiner, wollen wir diese Begriffe auch für zwei Partitionen einführen.
1. Seien P1 , P2 Partitionen, so ist die vereinigte Partition
o
n
P1 ∨ P2 = C ∩ D C ∈ P1 , D ∈ P2 , µ(C ∩ D) > 0 .
Definition 5.2.41
2. Die beiden Partitionen sind unabhängig, falls
µ(C ∩ D) = µ(C)µ(D), ∀(C, D) ∈ P1 × P2 .
KAPITEL 5. ENTROPIE
100
Der folgende Satz gibt eine Kollektion von Eigenschaften der maßtheoretischen Entropie.
Satz 5.2.42 Es sei (X, A, µ) ein Wahrscheinlichkeitsraum mit Partitionen P1 , P2 und
P3 . Q stehe für die triviale Partition Q = {X}. Dann gilt
1. 0 ≤ − log supC∈P1 µ(C) ≤ H(P1) ≤ log |P1 |, wobei |P1 | die Anzahl der Elemente in P1 angibt. In der letzten Ungleichung erhält man Gleichheit, also
H(P1 ) = log |P1 | genau dann falls alle Elemente in P1 gleiches Maß haben.
2. 0 ≤ H(P1|P2 ) ≤ H(P1 ). Gleichheit H(P1 |P2 ) = H(P1 ) gilt genau, wenn P1
und P2 unabhängig sind. H(P1 |P2 ) = 0 genau dann falls P1 ≤ P2 . Ist P3 ≥ P2 ,
so gilt H(P1 |P3 ) ≤ H(P1|P2 ).
3. H(P1 ∨ P2 |P3 ) = H(P1 |P3 ) + H(P2|P1 ∨ P3 ). Insbesondere gilt für P3 = Q
H(P1 ∨ P2 ) = H(P1 ) + H(P2 |P1 ).
4. H(P1 ∨ P2 |P3 ) ≤ H(P1 |P3 ) + H(P2 |P3 ). Insbesondere gilt
H(P1 ∨ P2 ) ≤ H(P1 ) + H(P2 ).
5. H(P1 |P2 ) + H(P2|P3 ) ≥ H(P1 |P3 ).
6. Ist λ ein weiteres Maß auf X, dann gilt gür jede bezüglich beiden Maßen meßbare Partition P und für jedes p ∈ [0, 1]
pHµ (P ) + (1 − p)Hλ (P ) ≤ Hpµ+(1−p)λ (P ).
Beweis.
1. Die Nichtnegativität folgt sofort aus der Darstellung von H in Gleichung
(5.2.32) . Ist H(P ) = 0 so sind alle Summanden null und demzufolge
log(µ(C)) = 0 für C ∈ P . Dann ist µ(C) = 1 und P = Q. Enthält P zwei
Elemente positiven Maßes, so ist H positiv. Aufgrund der Definition von
maßtheoretischer Entropie ist − log(supC∈P µ(C)) = inf I. Um zu zeigen,
dass H(P ) ≤ log(|P |) betrachten wir die Hilfsfunktion
x log(x) x ≥ 0
Φ(x) =
0
x < 0.
Auf der positiven Halbachse ist Φ′′ (x) = x1 > 0 und damit ist die Funktion strikt konvex, also insbesondere gilt für eine Konvexkombination
n
X
i=1
ai xi , mit
n
X
i=1
ai = 1 ai ≥ 0
5.2. M-THEORETISCHE ENTROPIE
101
eine Ungleichung der Form
Φ
n
X
ai xi
i=1
Sei nun P = (C1 , . . . , Cn ), ai =
1
1
− log(n) = Φ
=Φ
n
n
1
n
!
≤
n
X
ai Φ(xi ).
i=1
und xi = µ(Ci ), so gilt
n
1X
µ(Ci)
n i=1
!
n
X
1
1
≤
Φ(µ(Ci)) = − H(P ).
n
n
i=1
Damit ist H(P ) ≤ log n.
2. Wir beginnen mit der Definition der bedingten Entropie, natürlich (mit
dem gleichen Argument wie oben) nchtneagtiv ist, also gilt
0 ≤ H(P1 |P2 ) = −
X
µ(D)
Φ(µ(C|D))
C∈P1
D∈P2
= −
X
X X
µ(D)Φ(µ(C|D))
X
X
C∈P1 D∈P2
≤ −
= −
Φ
C∈P1
D∈P2
X
Φ(µ(C))
µ(D)µ(C|D)
!
C∈P1
= H(P1 ).
Nun ist für x ∈ (0, 1) der Wert Φ(x) < 0 und damit folgt aus H(P1|P2 ) =
0, dass jeder Summand (mit µ(D) > 0) den Wert 0 hat, also Φ(µ(C|D)) =
0 für alle C ∈ P1 . Demzufolge ist P1 ≤ P2 . Für die zweite Behauptung
dieses Punktes nehmen wir an
H(P1 |P2 ) = H(P1 ).
Dann gilt in der obigen Abschätzung Gleichheit und insbesondere die
Gleichheit in der mittleren Abschätzung für jedes C ∈ P1 gegeben, also
Φ(µ(C)) = Φ
X
D∈P2
µ(D)µ(C|D)
!
=
X
µ(D)Φ(µ(C|D)).
D∈P2
Aufgrund der strengen Konvexität von Φ ist dann jeweils
µ(C) = µ(C|D)
Herunterladen