Kapitel 5 Entropie Das Wort Entropie“ bedeutet Unordnung. In der Theorie dynamischer Syste” me messen wir damit die Unvorhersagbarkeit von Orbits. 5.1 Topologische Entropie 5.1.1 Topologische Invarianten Wir betrachten metrische Räume und Abbildungen f : X → X und wollen Eigenschaften solcher Abbildungen betrachten, die unter Konjugation mit einem Homöomorphismus erhalten bleiben. Wir beginnen dabei mit einem recht einfachen Konzept. Definition 5.1.1 Ist f : X → X stetig, so sei Pn (f ) die Anzahl der periodischen Punkte der Periode n. Dabei ist ist nicht die Anzahl der periodischen Punkte mit minimaler Periode n gemeint. Offensichtlich ist Pn eine Zahl, die sich unter Konjugation mit einem Homöomorphismus nicht ändert. Um die asymptotische Verhalten von Pn zu beschreiben, führt man folgende Größe ein. Definition 5.1.2 Es sei log(max(Pn (f ), 1)) . n→∞ n p(f ) = lim Ist p(f ) < ∞ so kann man die Wachstumsrate der Anzahl der periodischen Punkte, gut ein einer einzigen Funktion kodieren. 85 KAPITEL 5. ENTROPIE 86 Definition 5.1.3 Für geeignete z ∈ C definieren wir ζf (z) = exp ∞ X Pn (f ) n=1 n zn. Um den Definitionsbereich dieser Funktion zu ermitteln reicht es natürlich zu untersuchen, für welche z ∈ C die angegebene Reihe konvergiert. Der Konvergenzradius ist exp(−p(f ). Beispiel 5.1.4 1. Em : ζEm (z) = exp ∞ X mn − 1 n=1 n zn ! = exp(− log(1−mz)+log(1−z))) = 2. σ2 ζσ2 = exp ∞ X 2n n=1 n zn = 1−z . 1 − mz 1 . 1 − 2z 3. FL Ähnliche Definitionen kann man für Flüsse angeben und entsprechende Invariante dabei aufzeigen. Definition 5.1.5 Sei ϕt ein Fluss auf X. Setze PT (ϕt ) als die Zahl der periodischen Orbits von der Periode höchstens T . Setze p(ϕt ) = lim sup T →∞ log(max P T (ϕt ), 1) . T Die entsprechende Zetafunktion wird hier definiert als Y (1 − exp(−zℓ(γ))), ζϕt (z) = γ wobei das Produkt über alle echten periodischen Orbits genommen wird und ℓ(gamma) deren minimale (positive) Periode ist. Das Produkt konvergiert für Re z > p(ϕt ) und hat auf der Geraden Re z = p(ϕt ) Singularitäten. Beachte Orbitäquivalenz erhält diese Größen nicht. Es gilt aber noch der folgende Satz. Satz 5.1.6 Es seien X, Y kompakte metrische Räume und ϕt : X → X, ψ t : Y → Y orbitäquivalente Flüsse. Ist p(ψ t ) = 0, so gilt dies auch für p(ϕt ). Beweis. Übungen. 5.1. TOPOLOGISCHE ENTROPIE 87 5.1.2 Topologische Entropie von Abbildungen Definition 5.1.7 Sei X kompakter metrischer Raum, f : X → X stetig. Auf X definieren wir eine neue Metrik: dnf (x, y) := max i∈{0,1,...,n} d(f i(x), f i (y)). Offensichtliche Folgerungen sind: • dnf (x, y) ≥ d(x, y), n • m > n impliziert dm f (x, y) ≥ df (x, y). Definition 5.1.8 Sei Nd (f, n, r) die minimale Zahl von Bällen bezüglich der Metrik dnf von Radius r, die X überdeckt, d.h. ( Nd (f, n, r) = min #A | X ⊂ [ a∈A dn Br f (a) ) . Diese Zahl ist (für festes f, d, r) monoton wachsend in n. Wir interessieren uns dafür, wie schnell es wächst. Wenn Nd (f, n, r) sich mit wachsendem n verhält wie eαn , so ist die exponentielle Wachstumsrate gleich α. Diese Größe ermitteln wir wie folgt: Definition 5.1.9 Sei hd (f, r) die exponentielle Wachstumsrate von Nd (f, n, r) in n, d.h. 1 hd (f, r) = lim log Nd (f, n, r). n→∞ n Zuletzt definieren wir h(f ) = lim hd (f, r). r→0 h(f ) heißt die topologische Entropie von f. Bemerkung 5.1.10 limr→0 hd (f, r) existiert, da hd (f, r) monoton in r ist. Genauer gilt ist r ′ < r, so ist hd (f, r ′) ≥ hd (f, r). Bemerkung 5.1.11 In der Definition von h wird die Metrik benutzt. Dennoch heißt h topologische Entropie und nicht metrische Entropie. Denn wie folgender Satz uns mitteilt, hängt h wirklich nur von der Topologie ab. KAPITEL 5. ENTROPIE 88 Satz 5.1.12 Seien d′ und d Metriken auf X, die die gleiche Topologie erzeugen (dies ist eine schwächere Eigenschaft, als Äquivalenz von Metriken). Dann ist lim hd (f, r) = lim hd′ (f, r), r→0 r→0 und die Definition von h(f ) hängt nicht davon ab, ob es bezüglich der Metrik d oder der Metrik d′ ermittelt wird. Beweis. Wir betrachten die Menge Dε aller Paare (x1 , x2 ) ∈ X×X mit d(x1 , x2 ) ≥ ε. Diese Menge ist kompakt in X × X. Die Funktion d′ : X × X → R ist stetig und nimmt daher ihr Minimum auf Dε an. Dieses Minimum ist nicht negativ und in der Tat sogar positiv. Ansonsten hätten wir x1 6= x2 mit d′ (x1 , x2 ) = 0. Damit gilt d′ (x, x′ ) < δ ⇒ d(x1 , x2 ) < ε. Damit sind δ-Bälle für d′ in ε-Bällen für d enthalten. Dieses Argument überträgt sich sofort auf dfn und dfn′ . daraus folgt dann aber, dass Nd (f, n, ε) ≤ Nd′ (f, n, δ). Damit ist hd′ (f, δ) ≥ hd (f, ε). Dann ist hd′ (f ) ≥ lim hd (f, ε) = hd (f ). ε→0 Vertauschen der Rollen von d und d′ beweist das Resultat. Weiterhin gilt: Satz 5.1.13 Sei f : X → X (X kompakt) topologisch konjugiert zu g : Y → Y, d.h. es gebe einen Homöomorphismus k : X → Y mit f = k −1 ◦ g ◦ k. Dann haben f und g dieselbe topologische Entropie. Beweis. So ein k erzeugt aus einer Topologie auf X eine auf Y , und sogar aus einer Metrik d auf X eine Metrik d˜ auf Y , definiert durch ˜ b) = d(k −1 (a), k −1 (b)) d(a, für a, b ∈ Y . und somit können wir die topologische Entropie von g bezüglich d˜ berechnen. Dies ist leicht: Die Bilder unter k von d-Bällen von Radius r in ˜ X sind genau die d-Bälle von Radius r in Y. Somit sind die Bilder unter k von Überdeckungen von X mit d-Bällen von Radius r genau die Überdeckungen ˜ von Y mit d-Bällen von Radius r. Also ist Nd (f, n, r) = Nd˜(g, n, r) und daraus folgt sofort h(f ) = h(g). Mit diesem Satz können wir nun reichhaltig Kapital schlagen aus unserer Kenntnis von topologischer Konjugation, um topologische Entropien zu berechnen. 5.1. TOPOLOGISCHE ENTROPIE 89 Satz 5.1.14 Die topologische Entropie h hat folgende Eigenschaften: 1. h(f ) ≥ 0 für alle f . 2. h(1l) = 0. 3. Ist Λ ⊂ X abgeschlossen und f -invariant, so gilt h(f|Λ ) ≤ h(f ). S 4. Ist X = ni=1 Λi , wobei jedes Λi abgeschlossen und f -invariant sei, so ist h(f ) = max h(fΛi ). 1≤i≤m 5. h(f 2 ) = 2h(f ), h(f 3 ) = 3h(f ), . . . . 6. Wenn f invertierbar ist, gilt h(f −1 ) = h(f ). 7. h(f m ) = |m|h(f ) für alle m ∈ N und bei invertierbarem f für alle m ∈ (Dies ist die Zusammenfassung der vorherigen beiden Zeilen.) Z. 8. h(f × g) = h(f ) + h(g), wobei f : X → X, g : Y → Y und f × g : X × Y → X × Y : (x, y) 7→ (f (x), g(y)). Beweis. 1. Ist offensichtlich. 2. In diesem Fall hängt Nd (f, n, r) nicht von n ab, daraus folgt die Aussage unmittelbar. 3. Eine Überdeckung von X überdeckt auch Λ, also ist Nd (f|Λ , n, r) ≤ Nd (f, n, r). Damit folgt hd (f|Λ , r) ≤ h(f, r) und damit h(f|Λ ) ≤ h(f ). 4. Hat man eine Vereinigung von Überdeckungen, die alle Λi überdecken, so ist dies auch eine Überdeckung von X. Also ist Nd (f, n, r) ≤ m X i=1 Nd (f|Λi , n, r). KAPITEL 5. ENTROPIE 90 Daher gilt für mindestens einen Summanden Nd (f|Λi ≥ 1 Nd (f, n, r). m Da es nur endlich viele i’s gibt, erhält man eine entsprechende Aussage für ein i für unendliche viele n. Daher folgt dann lim sup log Nd (f|Λi , n, r) n n→∞ log Nd (f, n, r) − log m = hd (f, r). n n→∞ ≥ lim sup 5. Dies ein Spezialfall der allgemeineren Aussage, die wir beweisen werden. 6. Für invertierbares f : X → X vergleichen wir die Mächtigkeit von f Überdeckungen mit Mengen der Form Bεdn (x) und solchen der Form f −1 f −1 f Bεdn (f n (x)). Ist y ∈ Bεdn (x), so ist f n (y) ∈ Bεdn (f n (x)). Also bekommen wir eine Injektion von einer Überdeckung mit zulässigen Mengen U in eine Überdeckung mit zulässigen Mengen für f −1 , indem wir U auf f n (U) abbilden. Da wir f und f −1 vertauschen können sind zwei solche Überdeckungen gleichmächtig, d.h. Nd (f, n, ε) = Nd (f −1 , n, ε). Dann ist aber h(f ) = h(f −1 ). 7. Wir beweisen dies zunächst für positives m, die Aussage für m < 0 folgt dann aus den beiden Aussagen für f −1 und der für positives m. Sei also m > 0. Dann ist m dfn (x, y) = max d(f mi (x), f mi (y)) ≤ max d(f i (x), f i (y)) = dfmn (x, y). 0≤i≤mn i∈{0,...,n} Damit ist für x ∈ X und r > 0 f fm Brdmn (x) ⊂ Brdn (x). Damit ist Nd (f m , n, r) ≤ Nd (f, mn, r). Dann ist hd (f m , r) = lim sup n→∞ log Nd (f m , n, r) log Nd (f, mn, r) ≤ lim sup m = mhd (f, r). n mn n→∞ Damit ist h(f m ) ≤ mh(f ). Ein Kompaktheitsargument wie zuvor zeigt, dass es zu ε > 0 ein δ > 0 gibt, so dass für alle x ∈ X gilt f Bδd (x) ⊂ Bεdm (x). 5.1. TOPOLOGISCHE ENTROPIE fm Bδdn (x) = 91 n n o \ y ∈ Bδd (x) f im (y) ∈ Bδd (f im (x)) i=1 ⊂ \ i=1 dfmn = Bε n (x). n y∈ Bεd (x) o im dfm im f (y) ∈ Bε (f (x)) Also ist Nd (f, mn, r) ≤ Nd (f m , n, r). Wie oben schließt man nun, dass hd (f m , r) = lim sup n→∞ log Nd (f m , n, r) log Nd (f, mn, r) ≥ lim sup m = mhd (f, r) n mn n→∞ und damit mh(f ) ≤ h(f m ). 8. Aus der Beziehung Nmax{d,d′ } (f × g, n, ε) = Nd (f, n, ε)Nd′ (g, nε) folgt h(g × g) ≤ h(f ) + h(g). Die umgekehrte Ungleichung zeigen wir nachdem wir alternative Definitionen der topologischen Entropie angegeben haben. Es gibt eine ganze Reihe von Alternativen zur Definition der topologischen Entropie, der Vollständigkeit halber wollen wir einige davon erwähnen. Setze Dd (f, ε, n) als die minimale Anzahl von Mengen in einer Überdeckung von X, so dass alle Elemente dieser Überdeckung bezüglich dfn einen Durchmesser von höchstens ε haben. Wegen der wechselseitigen Enhaltenseinsbeziehung (jede ε Kugel hat Durchmesser höchstens 2ε jede Menge mit Durchmesser höchstens ε liegt auch einer ε-Kugel) erhält man Dd (f, 2ε, n) ≤ Nd (f, ε, n) ≤ Dd (f, ε, n). Aufgabe 5.1.15 Zeigen Sie, 1. Dd (f, ε, m + n) ≤ Dd (f, ε, n)Dd (f, ε, m). 2. für jedes ε > 0 existiert der Grenzwert 1 log Dd (f, ε, n). n→∞ n lim KAPITEL 5. ENTROPIE 92 Aufgabe 5.1.16 Setze 1 log Dd (f, ε, n). n→∞ n h̃(f, ε) = lim Zeigen Sie: lim h̃(f, ε) − h(f, ε) = 0. ε→0 Definition 5.1.17 Wir nennen eine Teilmenge A ⊂ X (n, ε)-diskret, falls für je zwei Punkte x, y ∈ A gilt dfn (x, y) ≥ ε. Hat A unter allen (n, ε)diskreten Mengen die maximale Mächtigket, so nennen wir A (n, ε)-seoariert. Die Anzahl von Elementen in einer (n, ε)-separierten Menge A ⊂ X werde mit Sd (f, ε, n) bezeichnet. Für eine (n, ε)-separierte Menge A ist natürlich die Vereinigung f {Bεdn (a)}a∈A eine Überdeckung von X, also folgt Sd (f, ε, n) ≥ Nd (f, ε, n). (5.1.18) Man sieht leicht, dass diese Ungleichung auch strikt sein kann, betrachte ein gleichseitiges Dreieck D mit Eckenmenge A = {a1 , a2 , a3 } und ε > 0 welches kleiner als die Länge einer Kante, aber größer als der Radius des Umkreises ist. Betrachten wir nun die identische Abbildung, so ist A (n, ε)-separiert für jedes n, aber D ⊂ Bε (S), wobei S der schwerpunkt des Dreiecks ist. Dann ist Nd (1l, n, ε) = 1. Umgekehrt kann keine ε-Kugel Punkte enthalten, die mehr als 2ε voneinander entfernt sind, daher folgt Nd (f, ε, n) ≥ Sd (f, 2ε, n). (5.1.19) Zur Begründung betrachte man eine (n, 2ε)-separierte Menge und eine Überdeckung U entsprechend der Definition von Nd . Betrachte die Abbildung A → U : x 7→ U : x ∈ U. Diese Abbildung ist injektiv, also ist Mächtigkeit von A höchstens die von U und wir erhalten die Gleichung (5.1.19). Nun folgt aus der ersten Gleichung (5.1.18) lim sup n→∞ 1 log Sd (f, ε, n) ≥ hd (f, ε) n und aus der zweiten (5.1.19)erhalten wir lim inf n→∞ 1 1 log Sd (f, 2ε, n) ≤ lim sup log Sd (f, 2ε, n) ≤ hd (f, ε). n n→∞ n 5.1. TOPOLOGISCHE ENTROPIE 93 Insgesamt ergibt sich 1 1 log Sd (f, ε, n) ≥ h(f ) ≥ lim lim sup log Sd (f, 2ε, n). ε→0 n→∞ n n lim lim sup ε→0 n→∞ Damit erhält man h(f ) = lim lim sup ε→0 1 1 log Sd (f, ε, n) = lim lim inf log Sd (f, ε, n). ε→0 n→∞ n n Beweis der Rückrichtung von 8 aus Satz 5.1.14. Wir bekommen Smax{d,d′ } (f × g, ε, n) ≥ Sd (f, ε, n) · Sd′ (f, ε, n). Daher ist h(f × g) ≥ h(f ) · h(g). 5.1.3 Topologische Entropie von Flüssen Für einen Fluss definieren wir die topologische Entropie auf zweierlei Weise: Zunächst erzeugt jeder Fluss eine Zeit-1-Abbildung, deren topologische Entropie wir verwenden können: Definition 5.1.20 Sei ϕ ein C 1 -Fluss auf X. Definiere h(ϕ) := h(ϕ1 ). D.h., die topologische Entropie des Flusses ϕ wird definiert als die topologische Entropie der Zeit-1-Abbildung von ϕ. Zweitens können wir die Definition leicht von Abbildungen auf Flüsse übertragen: Definition 5.1.21 Wir können auf X eine Metrik dTϕ definieren mittels dTϕ = max d(ϕt (x), ϕt (y)). t∈[0,T ] Damit können wir wie bei Abbildungen definieren ( Nd (ϕ, T, r) = min #A | X ⊂ [ dT Br ϕ (a) a∈A 1 log Nd (ϕ, n, r), T →∞ T hd (ϕ, r) = lim Zuletzt können wir definieren: h(f ) = lim hd (ϕ, r). r→0 ) , KAPITEL 5. ENTROPIE 94 Diese beiden Definitionen stimmen überein.Man prüfe dies nach. Lemma 5.1.22 Die topologische Entropie des Gradientenflusses auf der 2-Sphäre x2 + y 2 + z 2 = 1, der durch Integration des Vektorfeldes v(x, y, z) = (xz, yz, −x2 − y 2 ) entsteht. Dann ist die topologische Entropie 0. Beweis. Offensichtlich sind die Punkte N = (0, 0, 1) und S = (0, 0, −1) Fixpunkte dieses Flusses. Betrachte ε > 0 Umgebungen Nε und Sε und die Menge Kε = S 2 \ (Nε ∪ Sε ). Jeder Orbit durchquert Ke ps in endlicher Zeit. und bleibt danach in Sε . Damit kann man endlich viele Orbitsegmente Mε in Kε auswählen jedes höchstens Tε lang, so dass jedes Orbitsegment bei der Durchquerung von K nahe einem aus Mε ist. Betrachtet man nun einen beliebigen Orbit, der nahe N startet, so bleibt er zunächst lange in Nε durchquert in der zeit höchstens Tε die Menge Kε und bleibt danach für immer in Sε . Nun sind je zwei Punkte in Nε und Sε ε-nahe, das Segment in Kε ist ε-nahe zu einem der Mε . Daraus folgt dann leicht, dass Nd (ϕt , T, ε) linear in pologische Entropie 0. 1 ε ist und daher ist die to- Das angegebene Argument ist relativ allgemein und kann an beliebige Gradientensysteme mit diskreter Fixpunktmenge angepasst werden. Eine andere wichtige Frage ist die der Endlichkeit der topologischen Entropie. Aufgabe 5.1.23 Man berechne die topologische Entropie für σ2 , wobei als Metrik ∞ X |ωn − ωn′ | d(ω1 , ω2 ) = 20|n| n=−∞ zugrunde gelegt werde. Lemma 5.1.24 Für |m| ≥ 2 ist h(Em ) = log |m|. Beweis. Wir beschränken uns im Moment auf den Fall m > 0. Die Abbildung ist für m ≥ 2 expandierend und daher streben Orbits zunächst auseinander, bis sie einen bestimmten von Em abhängigen Maximalabstand erreicht haben −n−1 (dies ist für Em der Wert 1/2m. Sei nun x, y ∈ S 1 mit d(x, y) < m 2 . Wir betrachten nun n n (x), Em (y). dnEm (x, y) = d(Em Daraus folgt nun, dass dnEm (x, y) > ε falls d(x, y) > εm−n . 5.1. TOPOLOGISCHE ENTROPIE 95 Nun wollen wir uns mit der Frage befassen, ob die Entropie jeweils endlich ist. Definition 5.1.25 Es sei X ein kompakter metrischer Raum und für ε > 0 sei b(ε) die minimale Mächtigkeit von Überdeckungen von X mit Kugeln vom radius höchstens ε. Dann ist log b(ε) BD(X) = lim sup ∈ R ∪ {∞} | log ε| ε→0 die Kugeldimension (engl. ball dimension) von X. Definition 5.1.26 Es sei X ein kompakter metrischer Raum ,f : X → X. Dann heißt eine stetige Abbildung Lipschitz stetig, falls d(f (x), f (y)) < ∞. d(x, y) x,y,x6=y sup Dieses Supremum heißt dann auch Lipschitz-Konstante. Lemma 5.1.27 Sei X ein kompakter metrischer Raum von endlicher Kugeldimension und f L : X → X sei Lipschitz stetig, so ist h(f ) ≤ BD(X) max{0, log L(f )}. Beweis. Sei L > L(f ), dann ist d(f (x), f (y)) ≤ Ld(x, y) für alle x, y ∈ X. Insbesondere folgt für r= ε , Ln dass f m (Brd (x) ⊂ Bεd (f m (x) für 0 ≤ m ≤ n. Darus folgt sofort, dass f Brd (x) ⊂ Bεdn (x). Und dies gilt für alle x ∈ X, n ∈ N und ε > 0. Daher ist Nd (f, ε, n) ≤ b(r). Da | log(r)| = n log L − log ε| KAPITEL 5. ENTROPIE 96 erhalten wir log r ε n = 1+ log L |logr| 1 1 | log(r)| 1 + O( ) . = log L n Also schätzen wir ab: lim sup n→∞ log Nd (f, ε, n) log b(r) log(b(r)) ≤ lim sup = log(L) lim sup = BD(X) log(L). n n | log(r)| n→∞ n→∞ Damit hat man h(f ) ≤ BD(X) log(L). 5.2 Maß-theoretische Entropie Im Folgenden reden wir von Räumen (X, µ), die ein Maß µ haben. Dieses soll endlich sein, also µ(X) < ∞. Praktisch und keine Einschränkung der Allgemeinheit ist, µ(X) = 1 anzunehmen. 5.2.1 Information und Entropie einer Partition Als Motivation überlegen wir uns Folgendes: Wenn wir über ein zufälliges Ereignis im Voraus wissen, dass es mit Wahrscheinlichkeit p eintritt und mit Wahrscheinlichkeit 1 − p nicht, und wir im Nachhinein die Nachricht erhalten, dass es eingetreten ist, wieviel neue Information“ haben wir durch diese ” Nachricht gewonnen? Z.B. ist die Wahrscheinlichkeit dafür, dass es an einem gegebenen Werktag in mindestens einem Supermarkt etwas zu kaufen gibt, fast 1; die Nachricht, dass es an einem bestimmten solchen Tag etwas zu kaufen gab, enthält somit sehr wenig neue Information. Dagegen wäre die Nachricht, dass es an einem bestimmten Werktag in keinem einzigen Supermarkt etwas zu kaufen gab, sehr überraschend und wurde sehr viel Information übermitteln. Es soll also gelten: Information ist eine Funktion der Wahrscheinlichkeit, und zwar eine monoton fallende, also I = I(p) und lim I(p) = 0. p→1 5.2. M-THEORETISCHE ENTROPIE 97 Weiterhin ist sinnvoll zu fordern, dass für zwei unabhängige Ereignisse die Information, dass beide eingetreten sind, gleich ist der Information, dass das eine eingetreten ist plus die Information, dass das andere eingetreten ist, also I(p · q) = I(p) + I(q). Es gibt (bis auf Multiplikation mit einer Konstanten) eine einzige solche Funktion: Einen Logarithmus. Definition 5.2.28 Sei p ∈ [0, 1]. Dann ist die Information von p gegeben durch I(p) := − log p ∈ [0, ∞]. Bemerkung 5.2.29 Hierbei gibt es verschiedene Möglichkeiten, die Basis von log festzulegen. Praktisch nützlich sind die Basen 2 und e; mit e lässt sich ein wenig leichter differenzieren, aber um praktische Beispiele anzugeben, ist die Basis e unbrauchbar und 2 sehr gut zu handhaben. Um Mehrdeutigkeiten zu vermeiden, definieren wir die Einheit bit = log 2. Dann können wir Ergebnisse immer in der Einheit ,,bit” angeben, und es kommt exakt derselbe Zahlenwert heraus, unabhängig von der Basis des Logarithmus.,,Bit” steht für ,,binary unit”. Dieser Begriff ist uns natürlich aus der Computertechnik bekannt. Definition 5.2.30 Sei (X, µ) ein Maßraum mit µ(X) = Sn1. Eine endliche Partition von X ist eine Menge P = {C1 , . . . , Cn } mit X = i=1 Ci und die Ci disjunkt. Hierbei ist unsere Notation grundsätzlich (ohne dass wir es noch sagen) mod 0, das heißt, wir sagen A = B für A, B ⊂ X wenn gilt µ(A∆B) = 0; hierbei ist A∆B = (A \ B) ∪ (B \ A). Wir setzen auch stillschweigend voraus, dass alle Mengen, die wir betrachten, messbar sind. Definition 5.2.31 Sei nun P eine endliche Partition von X. Dann ist die Information auf X bezüglich P definiert als IP : X → [0, ∞] IP (x) = − log µ(C), wobei x ∈ C ∈ P. Der Mittelwert der Information heißt Entropie und wird mit H bezeichnet: Z Z H(P ) = IP dµ = IP (x)dµ(x). x∈X KAPITEL 5. ENTROPIE 98 Es gilt sicherlich: Wenn wir die Partition weiter unterteilen, wird die Information größer oder bleibt gleich (je nachdem, wo x in der Partition liegt). Wir erhalten sofort eine alternative Darstellung der Entropie als (5.2.32) H(P ) = − X µ(C) log µ(C). C∈P Definition 5.2.33 Eine Partition Q heißt Verfeinerung der Partition P , geschrieben P ≤Q (oder Q ≥ P ), wenn jedes Element D ∈ Q enthalten ist in einem Element C ∈ P. Äquivalent dazu ist, dass alle Elemente C ∈ P Vereinigungen sind von Elementen D1 ∪ · · · ∪ Dk ∈ Q. Wir sagen auch, die Partition Q ist größer als P. Auch: P ist kleiner als Q. Ebenfalls: P ist gröber als Q. Bemerkung 5.2.34 Eine besondere Fußangel hält die deutsche Sprache hier für uns parat: gröber“ klingt ähnlich wie größer“, das eine bedeutet aber die Umkehrung des ” ” anderen. Ebenso mit feiner“ und kleiner“. ” ” Bemerkung 5.2.35 Die Relation ≥ auf Partitionen ist keine Halbordnung; im allgemeinen gilt weder P ≥ Q noch Q ≥ P. Folglich ist es auch falsch, P ≥ Q auszusprechen als ,,P ist nicht kleiner als Q”. Bemerkung 5.2.36 Ist T : X → X eine maßerhaltende Transformation, so ist o n −1 −1 T (P ) = T (C) C ∈ P wieder eine meßbare Partition und es gilt H(T −1(P )) = H(P ). 5.2.2 Bedingte Entropie Definition 5.2.37 Im folgenden schreiben wir µ(A|B) = für das bedingte Maß von A bezüglich B. µ(A ∩ B) , µ(B) 5.2. M-THEORETISCHE ENTROPIE 99 Definition 5.2.38 Gegeben seien zwei messbare Partitionen P1 , P2 , dann ist die bedingte Entropie von P1 bzgl. P2 gegeben durch X X µ(D|C) log µ(D|C). µ(C) H(P1 |P2 ) = − D∈P2 C∈P1 Wir führen nun eine bedingte Information ein und können damit wieder die bedingte Entropie darstellen, dies hat den Vorteil, dass man auch mit allgemeineren Partitionen arbeiten kann. Definition 5.2.39 Die bedingte Information zu Partitionen den P1 , P2 ist eine auf X definierte Funktion, gegeben durch IP1 ,P2 (x) = − log µ(C|D) x ∈ C ∩ D. Lemma 5.2.40 Mit dieser Definition wird H(P1 |P2 ) = Z IP1 ,P 2 dµ. X Beweis. Offensichtlich! Wir beachten folgende einfache Beobachtung: gegeben zwei Partitionen P1 , P2 so definiert P2 eine Partition der Elemente C ∈ P1 durch [ (D ∩ C) . C= D∈P2 Offensichtlich können hier mehr Terme auftreten als wir tatsächlich benötigen. Wir lassen die Terme mit µ(C ∩ D) = 0, D ∈ P2 in der Partition von C weg. Entsprechend der obigen Definition von gröber und feiner, wollen wir diese Begriffe auch für zwei Partitionen einführen. 1. Seien P1 , P2 Partitionen, so ist die vereinigte Partition o n P1 ∨ P2 = C ∩ D C ∈ P1 , D ∈ P2 , µ(C ∩ D) > 0 . Definition 5.2.41 2. Die beiden Partitionen sind unabhängig, falls µ(C ∩ D) = µ(C)µ(D), ∀(C, D) ∈ P1 × P2 . KAPITEL 5. ENTROPIE 100 Der folgende Satz gibt eine Kollektion von Eigenschaften der maßtheoretischen Entropie. Satz 5.2.42 Es sei (X, A, µ) ein Wahrscheinlichkeitsraum mit Partitionen P1 , P2 und P3 . Q stehe für die triviale Partition Q = {X}. Dann gilt 1. 0 ≤ − log supC∈P1 µ(C) ≤ H(P1) ≤ log |P1 |, wobei |P1 | die Anzahl der Elemente in P1 angibt. In der letzten Ungleichung erhält man Gleichheit, also H(P1 ) = log |P1 | genau dann falls alle Elemente in P1 gleiches Maß haben. 2. 0 ≤ H(P1|P2 ) ≤ H(P1 ). Gleichheit H(P1 |P2 ) = H(P1 ) gilt genau, wenn P1 und P2 unabhängig sind. H(P1 |P2 ) = 0 genau dann falls P1 ≤ P2 . Ist P3 ≥ P2 , so gilt H(P1 |P3 ) ≤ H(P1|P2 ). 3. H(P1 ∨ P2 |P3 ) = H(P1 |P3 ) + H(P2|P1 ∨ P3 ). Insbesondere gilt für P3 = Q H(P1 ∨ P2 ) = H(P1 ) + H(P2 |P1 ). 4. H(P1 ∨ P2 |P3 ) ≤ H(P1 |P3 ) + H(P2 |P3 ). Insbesondere gilt H(P1 ∨ P2 ) ≤ H(P1 ) + H(P2 ). 5. H(P1 |P2 ) + H(P2|P3 ) ≥ H(P1 |P3 ). 6. Ist λ ein weiteres Maß auf X, dann gilt gür jede bezüglich beiden Maßen meßbare Partition P und für jedes p ∈ [0, 1] pHµ (P ) + (1 − p)Hλ (P ) ≤ Hpµ+(1−p)λ (P ). Beweis. 1. Die Nichtnegativität folgt sofort aus der Darstellung von H in Gleichung (5.2.32) . Ist H(P ) = 0 so sind alle Summanden null und demzufolge log(µ(C)) = 0 für C ∈ P . Dann ist µ(C) = 1 und P = Q. Enthält P zwei Elemente positiven Maßes, so ist H positiv. Aufgrund der Definition von maßtheoretischer Entropie ist − log(supC∈P µ(C)) = inf I. Um zu zeigen, dass H(P ) ≤ log(|P |) betrachten wir die Hilfsfunktion x log(x) x ≥ 0 Φ(x) = 0 x < 0. Auf der positiven Halbachse ist Φ′′ (x) = x1 > 0 und damit ist die Funktion strikt konvex, also insbesondere gilt für eine Konvexkombination n X i=1 ai xi , mit n X i=1 ai = 1 ai ≥ 0 5.2. M-THEORETISCHE ENTROPIE 101 eine Ungleichung der Form Φ n X ai xi i=1 Sei nun P = (C1 , . . . , Cn ), ai = 1 1 − log(n) = Φ =Φ n n 1 n ! ≤ n X ai Φ(xi ). i=1 und xi = µ(Ci ), so gilt n 1X µ(Ci) n i=1 ! n X 1 1 ≤ Φ(µ(Ci)) = − H(P ). n n i=1 Damit ist H(P ) ≤ log n. 2. Wir beginnen mit der Definition der bedingten Entropie, natürlich (mit dem gleichen Argument wie oben) nchtneagtiv ist, also gilt 0 ≤ H(P1 |P2 ) = − X µ(D) Φ(µ(C|D)) C∈P1 D∈P2 = − X X X µ(D)Φ(µ(C|D)) X X C∈P1 D∈P2 ≤ − = − Φ C∈P1 D∈P2 X Φ(µ(C)) µ(D)µ(C|D) ! C∈P1 = H(P1 ). Nun ist für x ∈ (0, 1) der Wert Φ(x) < 0 und damit folgt aus H(P1|P2 ) = 0, dass jeder Summand (mit µ(D) > 0) den Wert 0 hat, also Φ(µ(C|D)) = 0 für alle C ∈ P1 . Demzufolge ist P1 ≤ P2 . Für die zweite Behauptung dieses Punktes nehmen wir an H(P1 |P2 ) = H(P1 ). Dann gilt in der obigen Abschätzung Gleichheit und insbesondere die Gleichheit in der mittleren Abschätzung für jedes C ∈ P1 gegeben, also Φ(µ(C)) = Φ X D∈P2 µ(D)µ(C|D) ! = X µ(D)Φ(µ(C|D)). D∈P2 Aufgrund der strengen Konvexität von Φ ist dann jeweils µ(C) = µ(C|D)