ERGODENTHEORIE Jörn Steuding

Werbung
ERGODENTHEORIE
Jörn Steuding
Die Ergodentheorie studiert das Langzeitverhalten dynamischer Systeme
mit maß- bzw. wahrscheinlichkeitstheoretischen Methoden. Aus dem Griechischen übersetzt bedeuten ergon und odon nichts anderes als Arbeit und
Weg. Die Ursprünge der Ergodentheorie liegen in der Himmelsmechanik,
insbesondere in den Arbeiten von Boltzmann und später Poincaré. In
dieser Vorlesung beweisen wir die fundamentalen Sätze der Ergodentheorie
(Poincarés Wiederkehrsatz, Birkhoffs Ergodensatz) und behandeln eine
Vielzahl von meist zahlentheoretischen Anwendungen: z.B. Billiard, Benfords Gesetz, Gleichverteilung, Normalität und metrische Theorie der Kettenbrüche.
Das Titelbild zeigt den Beginn der binären Ziffernentwicklung der Kreiszahl π (links) und seiner rationalen Näherung 22
7 (rechts), angeordnet in einer Spirale, wobei je nach Ziffer ein blaues oder ein rotes Quadrat gewählt
wird. Man vermutet, dass das Muster für π in einem gewissen Sinne zufällig
ist (d.h. jedes mögliche Muster kehrt mit einer gewissen positiven Wahrscheinlichkeit unendlich oft wieder), während sich Rationalität in einer periodischen Entwicklung niederschlägt und somit nur gewisse Muster zulässt.
Dies und noch mehr behandeln wir im Kapitel über Normalität.
Dieses Skript ist als Begleitlektüre zu meiner Vorlesung gleichen Namens im Wintersemester 2007/08 an der Universität Würzburg entstanden.
Im Wesentlichen folgen wir den Büchern von Dajani & Kraaikamp bzw.
Coppel [21, 19] sowie der Vorlesung von Einsiedler & Ward [26]. Die
Monographien [43, 66] enthalten weiteres Material und ihre Lektüre ist
empfehlenswert. Das schöne Buch von Choe [33] enthält zusätzlich MapleProgramme für ein Experimentieren mit dem Stoff — hier gilt mein Dank
meiner Frau Rasa für das Erstellen der schönen Graphiken. Vorkenntnisse aus der Maßtheorie (bzw. Stochastik) sind äußerst hilfreich (siehe etwa
[27, 52]). Für eine allgemeinere Theorie der dynamischen Systeme verweisen
wir auf [23, 66]; zahlentheoretische Grundlagen kann man in [75] nachschlagen.
Mein Dank gilt Christian Beck für Korrekturen einiger Fehler und Unstimmigkeiten in einer vorangegangenen Version des Skriptes. Für weitere
Hinweise auf Druckfehler und Kommentare jeder Art bin ich dankbar. Viel
Spaß!
Jörn Steuding, Würzburg, November 2009.∗
∗
Institut für Mathematik, Universität Würzburg, Am Hubland, 97 218 Würzburg,
[email protected]
Inhaltsverzeichnis
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Motivation: Benford und Billiard
1
Klassische diophantische Approximationssätze
3
Gleichverteilung modulo Eins und die Sätze von Weyl
6
Maßtreue Abbildungen
13
Ergodizität und Mischen
26
Die Ergodensätze von Birkhoff und von Neumann
32
Die Wiederkehrsätze von Poincaré und Kac
43
Arithmetische Progressionen und der Satz von van der Waerden 49
Normale Zahlen
60
Elementare Theorie der Kettenbrüche
66
Metrische Theorie der Kettenbrüche
74
Worüber wir nicht gesprochen haben...
87
Literaturverzeichnis
90
II
1. Motivation: Benford und Billiard
1
1. Motivation: Benford und Billiard
Das Benfordsche Gesetz beschreibt Unregelmäßigkeiten in der Verteilung der Ziffern in gewissen empirischen Datensätzen. 1881 bemerkte Newcomb, dass in Büchern mit Logarithmenafeln die Seiten mit Tabellen mit
Eins als erster Ziffer deutlich abgenutzter waren als die anderen. Dies wurde
1938 durch den Physiker Benford [6] wiederentdeckt und durch eine statistische Analyse diverser Datensätze belegt, z.B. Einwohnerzahlen in amerikansichen Ortschaften. Natürlich gilt dies nicht für jeden Datensatz positiver
reeller Zahlen. Hier ein illustrierendes Beispiel (auch als Gelfands Problem
bekannt): Wir bilden die Zweierpotenzen 2n und beobachten, dass unter den
ersten
1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8092, . . .
mehr Zahlen mit der Ziffer 1 beginnen, als etwa mit der Ziffer 3. Für eine
(m + 1)-ziffrige Zweierpotenz, deren Dezimaldarstellung mit einer Ziffer k ∈
{1, 2, . . . , 9} startet gilt offensichtlich die Ungleichung
10m k ≤ 2n < 10m (k + 1)
bzw. durch Logarithmieren
m + log10 k ≤ n log10 2 < m + log10 (k + 1),
und umgekehrt. Schreiben wir eine reelle Zahl x als x = [x] + {x}, d.h. als
Ganzteil [x] ∈ Z plus ihrem gebrochenen Anteil {x} ∈ [0, 1), so folgt
log10 k ≤ {n log10 2} < log10 (k + 1).
Auf Grund der Konvexität des Logarithmus ist das Intervall
[log10 k, log10 (k + 1)) für kleine k größer. Tatsächlich führt dies dazu,
dass ≈ log10 k+1
k Prozent der Zweierpotenzen eine Dezimaldarstellung mit
Startziffer k besitzen; speziell für die Startziffer 1 ist der Anteil ca. 30, 1
Prozent, während Startziffer 7 nur für etwa 5, 8 Prozent gilt. In diesem
Sinne ist das Benfordsche Gesetz nichts anderes als die Wahrscheinlichkeitsverteilung der Mantisse bzgl. der Basis. Wir werden dies später mit
Ergodentheorie (bzw. etwas weniger als das) begründen. Darüber hinaus
soll das Benfordsche Gesetz – also die obige Verteilung für die Startziffer
– für viele andere Zahlenfolgen gelten, etwa für physikalische Konstanten,
Aktienindizes und vieles mehr,† allerdings sicherlich nicht für die Folge der
natürlichen Zahlen selbst oder die Zehnerpotenzen.
†
Angeblich wurde mit Hilfe des Benfordschen Gesetzes das kreative Rechnungswesen
von Enron aufgedeckt und seitdem wird es auch von den Steuerbehörden der USA und
einiger anderer Länder zum Nachweis gefälschter Steuererklärungen benutzt.
2
ERGODENTHEORIE
Als zweiten Aufhänger betrachten wir nun eine mathematisches Problemstellung beim Billiard, zuerst aufgeworfen durch König & Szücs [53].
Dabei spielen wir Billiard auf einem quadratischen Tisch ohne Widerstand.
Alternativ denke man an ein Quadrat mit Spiegeln als Seiten; ein Lichtstrahl verläßt einen Punkt im Innern des Quadrates und wird reflektiert
von den Spiegeln — welchen Weg wird der Lichtstrahl zurücklegen? Wir
können uns leicht einen Lichtstrahl vorstellen, der einen periodischen Weg
zurücklegt, aber unter welchen Umständen tritt eben diese Situation ein?
Wie könnten andere Szenarien aussehen? Tatsächlich wird dieses Problem
etwas einfacher, wenn wir das Quadrat durch einen Kreis ersetzen, denn
dann wird ein Lichtstrahl aus dem Inneren des Kreises stets in demselben
Winkel reflektiert (der Leser mache sich klar, dass dies tatsächlich so ist —
das Stichwort hierzu heißt Rotationssymmetrie). Wir dürfen uns den Kreis
als den Einheitskreis in C vorstellen, das ist die so genannte Kreisgruppe
(die multiplikative Gruppe aller kompexen Zahlen mit Betrag 1)
√
T := {exp(2πix) : x ∈ [0, 1)}
mit i = −1.
Die Exponentialabbildung
exp : R → T,
x 7→ exp(2πix)
ist bekanntlich ein surjektiver, aber nicht injektiver Gruppenhomomorphismus. Mit dem Isomorphiesatz ergibt sich
T∼
= R / Z,
d.h. wir können T als isomorphes Bild der reellen Zahlengeraden R modulo
Z bzw. als isomorphes Bild des Einheitsintervalls [0, 1) auffassen. Diese Idee
werden wir im Folgenden des öfteren benutzen. Sei nun πα der Winkel zwischen dem Lichtstrahl und dem Kreis T. Bezeichnen wir mit ζn = exp(2πixn )
den n-ten Punkt auf dem Kreis, den der Lichtstrahl getroffen hat, so gilt
xn − xn−1 ≡ 2πα mod 1
bzw.
xn = x0 + 2πnα
für n ∈ N,
wobei x0 der erste Schnittpunkt des Lichtstrahls mit dem Kreis sei. Ist also
der Winkel α rational, so ist der Lichtstrahl offensichtlich periodisch. Genauer: gilt 2α = pq mit p, q ∈ N, so ist der Lichtstrahl q-periodisch (d.h.
xn+q ≡ xn mod 1). Was aber, wenn α irrational ist? In diesem Fall kann
man beweisen (und der geneigte Leser versuche sich daran), dass der Lichtstrahl jedes noch so kleine, nicht leere Segment auf dem Kreisrand früher
oder später trifft.
Die Behandlung dieser beiden Problemstellungen erfolgt nun mit klassischen Methoden der Theorie der diophantischen Approximation und Gleichverteilung.
2. Klassische diophantische Approximationssätze
3
Abbildung 1. Ein periodischer Lichtstrahl beim Billiard im
1
π bzw. 18◦ .
Kreis; hier ist 2πα = 10
2. Klassische diophantische Approximationssätze
Die rationalen Zahlen liegen bekanntlich dicht in R und erlauben dank
des folgenden klassischen Approximationssatzes von Dirichlet (aus dem
Jahr 1842) beliebig gute rationale Näherungen an reelle Irrationalzahlen:
Satz 1. Zu ξ ∈ R \ Q gibt es unendlich viele rationale Zahlen
ξ − p < 1 .
q q2
p
q
mit
(1)
Diese Eigenschaft charakterisiert Irrationalzahlen, d.h. ist ξ rational, so besitzt die Ungleichung (1) nur endlich viele Lösungen pq .
Beweis. Wir benutzen ein Schubfachprinzip: Verteilt man n+1 Gegenstände
auf n Schubfächer, so gibt es mindestens ein Schubfach mit mindestens zwei
Gegenständen. Zu Q ∈ N liegen die Q + 1 Punkte 0, {ξ}, {2ξ}, . . . , {Qξ} in
den Q disjunkten Intervallen
j−1 j
,
für j = 1, . . . Q.
Q Q
Also gibt es (nach dem Schubfachprinzip) mindestens ein Intervall, das mindestens zwei Punkte enthält, etwa {kξ} ≥ {ℓξ} mit 0 ≤ k, ℓ ≤ Q und k 6= ℓ.
Es folgt
{kξ} − {ℓξ} = kξ − [kξ] − ℓξ + [ℓξ]
= {(k − ℓ)ξ} + [(k − ℓ)ξ] + [ℓξ] − [kξ] .
{z
}
|
(2)
∈Z
1
Q)
Da {kξ} − {ℓξ} in dem Intervall [0,
liegt, summieren sich die Ganzteile
in (2) zu Null auf. Sei q = k − ℓ, dann gilt also
{qξ} = {kξ} − {ℓξ} <
1
.
Q
4
ERGODENTHEORIE
Mit p := [qξ] folgt daher
ξ −
p |qξ − p|
{qξ}
1
=
=
<
,
q
q
q
qQ
(3)
was die Ungleichung (1) impliziert (da ja q < Q).
Sei nun ξ irrational. Angenommen, es gibt nur endlich viele Lösungen
pn
p1
q1 , . . . , qn von (1). Da ξ 6∈ Q, gibt es ein Q mit
p
j
ξ − > 1
für j = 1, . . . , n,
qj Q
im Widerspruch zu (3).
Nun nehmen wir an, dass ξ rational ist, etwa ξ =
Für ξ = ab 6= pq , folgt
ξ − p = |aq − bp| ≥ 1 ,
q
bq
bq
a
b
mit a ∈ Z und b ∈ N.
und (1) impliziert q < b. Also gibt es nur endlich viele
ist bewiesen. •
(4)
p
q
mit (1). Der Satz
Tatsächlich kannte bereits Lagrange diesen Satz (mit einem Beweis, den
wir in Kapitel 7 kennen lernen werden); allerdings bewies Dirichlet
(mit Hilfe der obigen Beweisidee) allgemeiner: Angenommen ξij ∈ R mit
1 ≤ i ≤ m, 1 ≤ j ≤ n und 1 < Q ∈ Z, dann existieren ganze Zahlen
p1 , . . . , pm , q1 , . . . , qn mit
1 ≤ max{|qj | : 1 ≤ j ≤ n} < Qm/n
und
|ξi1 q1 + . . . + ξin qn − pi | ≤
1
Q
für 1 ≤ i ≤ m.
Aufgabe 1. Man i) beweise diese Aussage (Hinweis: mit einem Schubfachprinzip wie oben) und ii) zeige, dass dies in der Tat den wesentlichen Teil
von Satz 1 verallgemeinert.
Der Kroneckersche Approximationssatz von 1884 verallgemeinert Satz
1 auf den inhomogenen Fall:‡
Satz 2. Sei ξ ∈ R \ Q und η ∈ R. Dann gibt es zu jedem N ∈ N ein Q ∈ N
mit Q > N und P ∈ Z, so dass
3
|Qξ − P − η| < .
Q
‡
In [37],§23.6, wird ein mehrdimensionales Analogon dieses Satzes durch die Autoren
Hardy & Wright als einer jener Sätze beschrieben, die besagen, dass alles was nicht
unmöglich ist, auch irgendwann eintreten wird, ungeachtet dessen wie unwahrscheinlich es
auch sein mag (frei übersetzt) — eine Idee, die auch als ‘Murphy’s law’ bekannt ist.
2. Klassische diophantische Approximationssätze
5
Beweis. Nach Satz 1 gibt es teilerfremde ganze Zahlen q > 2N und p, so
dass
1
|qξ − p| < .
q
Angenommen, m ist die ganze Zahl bzw. eine der zwei ganzen Zahlen, für
die
1
|qη − m| ≤
2
gilt. Nach dem Satz von Bezout (aus der elementaren Zahlentheorie) gibt
es dann eine Darstellung m = px − qy mit ganzen Zahlen x, y, wobei |x| ≤
1
2 q (tatsächlich folgt dies aus dem euklidischen Algorithmus für p und q
rückwärts; siehe etwa [75]). Damit folgt
q(xξ − y − η) = x(qξ − p) − (qη − m),
bzw.
1 1 1
|q(xξ − y − η)| < q · + = 1.
2 q 2
Wir setzen Q = q + x sowie P = p + y und erhalten
3
1
N < q ≤ Q ≤ q.
2
2
Also folgt
|Qξ − P − η| ≤ |xξ − y − η| + |qξ − p| <
2
3
1 1
+ = ≤ ,
q
q
q
Q
was zu beweisen war. •
Der Kroneckersche Approximationssatz erlaubt die Lösung unseres
Billiardproblems aus Kapitel 1. Wir dürfen uns das Quadrat mit Seiten normiert auf die Länge 1 denken, also gewissermaßen gegeben durch
[0, 1)2 ⊂ R2 . Ist γ der Winkel zwischen einer Seite des Quadrates und der
Anfangsrichtung des Strahls, so wird der Lichtstrahl durch die Gleichung
y = ξx + β
beschrieben, wobei ξ = tan γ und β irgendeine reelle Zahl ist (entsprechend
des Ausgangspunktes des Lichtstrahls). Der Lichtstrahl ist genau dann periodisch, wenn die obige Gerade modulo Z2 in eine endliche Vereinigung geradliniger Segmente zerfällt. Andernfalls liegt der Strahl dicht im Quadrat
p
T×T ∼
= (R/Z)2 . Angenommen, ξ ist rational, etwa ξ = q mit teilerfremden
ganzen Zahlen p, q, dann ist die Gerade invariant unter den Transformationen
x
x
q
7→
+k
für k ∈ Z.
y
y
p
6
ERGODENTHEORIE
Nun nehmen wir an, dass ξ irrational ist. Zu jedem Punkt (x1 , y1 ) ∈ R2
und jedem ǫ > 0 gibt es nach dem Kroneckerschen Approximationssatz
2, angewandt mit η = −y1 + β + ξx1 , ein Paar ganzer Zahlen P, Q, so dass
|y1 + P − (ξ(x1 + Q) + β)| = | y1 − β − ξx1 +P − Qξ| < ǫ.
|
{z
}
=−η
Damit liegen der allgemeine Punkt (x1 , y1 ) und der Geradenpunkt
(x1 , ξ(x1 + Q) + β) modulo Z2 um weniger als ǫ von einander entfernt.
Abbildung 2. Die Wege zweier Lichtstrahlen, einer mit rationaler, der andere mit irrationaler Tangente.
Also ist der Lichtstrahl genau dann geschlossen bzw. periodisch, wenn
der Winkel γ eine rationale Tangente besitzt, also ξ = tan γ ∈ Q; ansonsten
kommt der Lichtstrahl jedem Punkt im Quadrat beliebig nahe. Aber wie
spielt man Billiard auf nicht quadratischen Tischen? Zu diesem und weiteren verwandten Themen verweisen wir auf das unterhaltsame Buch von
Tabachnikov [78]; das Thema des kreisrunden Billiardtisches sei dem Leser nach der Lektüre des nächsten Kapitels als Übungsaufgabe überlassen.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
Insbesondere zeigt der Kroneckersche Approximationssatz 2, dass die
gebrochenen Anteile der Folge nξ bei laufendem n ∈ N genau dann dicht im
Einheitsintervall liegen, wenn ξ irrational ist. Wir wollen diesen Zusammenhang und insbesondere den Begriff der Dichtheit im Folgenden etwas genauer
unter die Lupe nehmen. Eine Folge (xn ) reeller Zahlen heißt gleichverteilt
modulo 1, wenn für alle α, β mit 0 ≤ α < β ≤ 1 gilt, dass
1
♯{1 ≤ n ≤ N : {xn } ∈ [α, β)} = β − α,
N →∞ N
wenn also die Proportion der gebrochenen Anteile der Folgeglieder xn in
einem beliebig vorgegebenen Intervall der Länge dieses Intervalls entspricht.
Offensichtlich genügt es hierbei Teilintervalle der Form [0, β) mit beliebigem
β ∈ (0, 1) zu betrachten.
Die ersten wichtigen Resultate in dieser Theorie gelangen Hermann
Weyl 1913-16 (siehe [88]) in Gestalt zweier Sätze, die wir im Folgenden
herleiten.
lim
3. Gleichverteilung modulo Eins und die Sätze von Weyl
7
Satz 3. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo
1, wenn für jede Riemann-integrierbare Funktion f : [0, 1] → C gilt, dass
Z 1
N
1 X
f (x) dx.
f ({xn }) =
N →∞ N
0
n=1
lim
(5)
Beweis. Zu α, β ∈ [0, 1) sei χ[α,β) die Indikatorfunktion des Intervalls [α, β),
also
1 falls α ≤ x < β,
χ[α,β) (x) =
0 sonst.
Dann ist
Z
1
χ[α,β) (x) dx = β − α.
0
Damit ist die Folge (xn ) genau dann gleichverteilt modulo 1, wenn für beliebige α, β ∈ [0, 1) stets
Z 1
N
1 X
χ[α,β) (x) dx
χ[α,β) ({xn }) =
lim
N →∞ N
0
n=1
gilt. Besteht also die Asymptotik (5) für alle Riemann-integrierbaren f , so
ist die Folge (xn ) sicherlich gleichverteilt. Es verbleibt also, die Notwendigkeit der Bedingung des Satzes zu zeigen.
Sei also die Folge (xn ) gleichverteilt modulo 1. Dann gilt (5) mit f = χα,β
(s.o.); darüber hinaus aber auch für jede Linearkombination von solchen
Indikatorfunktionen und somit insbesondere für jede Treppenfunktion. Zu
jeder reellwertigen, Riemann-integrierbaren Funktion f und jedem ǫ > 0
gibt es Treppenfunktionen t− , t+ , so dass
t− (x) ≤ f (x) ≤ t+ (x)
und
Z
und damit
Z
(t+ (x) − t− (x)) dx < ǫ.
1
0
x ∈ [0, 1]
1
0
Also folgt
für alle
f (x) dx ≥
Z
1
0
t− (x) dx >
Z
1
0
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
t+ (x) dx − ǫ
n=1
≤
Z 1
N
1 X
t+ (x) dx + ǫ,
t+ ({xn }) −
N
0
n=1
8
ERGODENTHEORIE
welches kleiner 2ǫ ist für alle hinreichend großen N ; analog gewinnt man
Z 1
N
1 X
f (x) dx > −2ǫ
f ({xn }) −
N n=1
0
für alle hinreichend großen N . Also gilt (5) für alle reellwertigen, Riemannintegrierbaren f . Mit der Linearität folgt die Aussage auch für komplexwertige, Riemann-integrierbare Funktionen. •
In diesem Zusammenhang ist einmal das Riemann-Integral besser als das
Lebesgue-Integral! Wie bereits Weyl bemerkte, sind die auftretenden Limiten gleichmäßig, was interessante Fragen aufwirft und in der Theorie der
Gleichverteilung unter dem Begriff Diskrepanz weiter untersucht wurde. Dies
hat wichtige und amüsante Anwendungen, etwa beim Billiard. Hier mag
man sich fragen, wie bald bzw. wie oft ein nicht periodischer Lichtstrahl ein
vorgegebenes Gebiet treffen mag? Die ersten Antworten hierzu gab bereits
Weyl [89] — was mag seine Antwort gewesen sein? Eine wichtige Rolle
spielen hierbei auch effektive Versionen des inhomogenen Kroneckerschen
Approximationssatzes wie etwa in [67].
Die Umkehrung des Weylschen Satzes wurde von de Bruijn [14] bewiesen: Besitzt eine Funktion f : [0, 1) → C die Eigenschaft, dass der Grenzwert
N
1 X
f ({xn })
lim
N →∞ N
n=1
für jede modulo 1 gleichverteilte Folge (xn ) existiert, dann ist f Riemannintegrierbar.
Im Folgenden spielt die Parametrisierung des Einheitsintervalls durch
die Exponentialfunktion (siehe Kap. 1) eine wichtige Rolle. Für reelle ξ
schreiben wir abkürzend e(ξ) = exp(2πiξ) (was mit der 2πi-Periodizität
der Exponentialfunktion also = e(ξ + Z) ist).
Satz 4. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo
1, wenn für jede ganze Zahl m 6= 0 gilt, dass
N
1 X
e(mxn ) = 0.
N →∞ N
n=1
lim
(6)
Beweis. Angenommen, die Folge (xn ) ist gleichverteilt modulo 1, dann folgt
aus dem vorangegangenen Satz mit f (x) = e(mx)
Z 1
N
1 X
e(mx) dx.
e(mxn ) =
lim
N →∞ N
0
n=1
Für eine ganze Zahl m 6= 0 ist die rechte Seite gleich Null, also gilt (6).
3. Gleichverteilung modulo Eins und die Sätze von Weyl
9
Nun zum Beweis der Umkehrung: Gilt hingegen (6) für alle ganzen Zahlen m 6= 0, so folgt für das trigonometrische Polynom
+M
X
P (x) =
am e(mx)
mit
m=−M
am ∈ C
über die Linearität sofort
N
1 X
lim
P ({xn }) =
N →∞ N
n=1
+M
X
m=−M
= a0 =
Z
N
1 X
am · lim
e(mxn )
N →∞ N
n=1
1
P (x) dx.
(7)
0
Der Weierstraßsche Approximationssatz besagt, dass zu einer jeden stetigen, 1-periodischen Funktion f und jedem ǫ > 0 ein trigonometrisches
Polynom P existiert, so dass
|f (x) − P (x)| < ǫ
für 0 ≤ x < 1
(8)
(das beweist man leicht mit Fourier-Analysis; siehe etwa [42]§). Mit solch
einem Polynom folgt
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
n=1
Z 1
N
N
1 X
1 X
P (x) dx
(f ({xn }) − P ({xn })) + P ({xn }) −
≤ N
N
0
n=1
n=1
Z 1
+ (P (x) − f (x)) dx ;
0
hierin sind der erste und dritte Term der rechten Seite jeweils kleiner ǫ
vermöge (8), während der zweite Term klein ist nach (7). Also gilt die zu
beweisende Formel (6) für alle stetigen 1-periodischen Funktionen f . Bezeichnet χ[α,β) wie im Beweis des vorigen Satzes die Indikatorfunktion des
Intervalls [α, β), dann gibt es zu jedem ǫ > 0 stetige, 1-periodische Funktionen f− , f+ mit
f− (x) ≤ χ[α,β) (x) ≤ f+ (x)
und
§
Z
für alle
0≤x<1
1
0
(f+ (x) − f− (x)) dx < ǫ.
Tatsächlich schreiben die Autoren diesen Satz Fejer zu und geben einen Beweis, der
im Prinzip nur auf der Cauchyschen Integralformel beruht.
10
ERGODENTHEORIE
Daraus folgt nun ganz ähnlich wie oben, dass
Z 1
N
1 X
lim
χ[α,β) (x) dx.
χ[α,β) ({xn }) =
N →∞ N
0
n=1
Also ist die Folge (xn ) gleich verteilt modulo 1. •¶
Aufgabe 2. Man beweise: Eine reelle Zahlenfolge (xn ) ist gleichverteilt modulo 1, wenn für jede natürliche Zahl m die Folge (xm+n − xn ) gleichverteilt
P
ist modulo 1. (Hinweis: Schätze zunächst | n e(xn )|2 nach oben ab; mehr
Hilfe bietet [19].)
Eine wichtige Anwendung von Satz 4 ist das folgende Resultat des lettischen Mathematikers Bohl [11], der unsere Bemerkung über die Dichtheit
zu Beginn dieses Kapitels präzisiert:k
Korollar 5. Sei ξ ∈ R. Dann ist die Folge (nξ) genau dann gleichverteilt
modulo 1, wenn ξ irrational ist.
Beweis. Ist ξ irrational, so folgt mit der Formel für die endliche geometrische
Reihe
N
X
e(mN ξ) − 1
e(mnξ) = e(mξ)
e(mξ) − 1
n=1
für alle ganzen Zahlen m 6= 0. Da dies beschränkt ist (unabhängig von N ),
ergibt sich
N
1 X
lim
exp(2πimnξ) = 0.
N →∞ N
n=1
Gilt hingegen ξ = ab für gewisse a, b ∈ Z, b 6= 0, so ist der Grenzwert ungleich
Null für alle Vielfachen m von b. Mit Satz 4 folgt die Behauptung. •
Korollar 5 lässt sich auf verschiedene Arten verallgemeinern. Vinogradov [85] bewies die ternäre Goldbach-Vermutung, dass nämlich jede hinreichend große ungerade natürliche Zahl als Summe von drei Primzahlen
darstellbar ist — die binäre Goldbach-Vermutung behauptet, dass jede
hinreichend große gerade natürliche Zahl Summe von zwei Primzahlen ist,
was aber noch immer unbewiesen ist. Ein wichtiges Zwischenergebnis in seinem Beweis war eine Abschätzung der Exponentialsumme
X
e(ξpn ),
pn ≤N
¶
Einen nahezu längenfreien, auf dem Heiratssatz basierenden Beweis der Weylschen
Sätze findet man in [43].
k
Tatsächlich hatten fast zeitgleich auch Sierpinski und Weyl vergleichbare Resultate; für die interessante Geschichte empfehlen wir die Lektüre [40].
3. Gleichverteilung modulo Eins und die Sätze von Weyl
11
1
20
y
0
0
0
1
0
200
x
Abbildung
3. Die Gleichverteilung modulo 1 der Folge
√
√
(n 2); links ein Histogramm für die Verteilung von {n 2}
j
für n = 1, . . . , 500 in den Intervallen [ j−1
10 , 10 ) für 1 ≤ j ≤ 10,
√
rechts die Punkte (n, {n 2}) im Einheitsquadrat.
wobei pn für die n-te Primzahl (der Größe nach geordnet) steht. Diese impliziert, dass für irrationales ξ, die Folge (ξpn ) gleichverteilt ist modulo 1.
Um einen ersten Eindruck von der Tiefe dieses Resultates zu gewinnen, sei
der geneigte Leser ermuntert, sich Gedanken über den keineswegs trivialen
Fall der Verteilung von (ξpn ) modulo 1 mit rationalem ξ zu machen. Eine
andere Verallgemeinerung von Korollar 5 durch Weyl zeigt, dass, gegeben
ein Polynom
P = ad X d + . . . + a1 X + a0
mit reellen Koeffizienten, wobei mindestens einer der Koeffizienten aj mit
j 6= 0 irrational ist, die Werte dieses Polynoms auf N gleichverteilt modulo
1 sind.
Aufgabe 3. Man gebe einen Beweis dieser Behauptung. (Hinweis: Für jedes
m ∈ N ist P (X + m) − P (X) ein Polynom vom Grad d − 1; man setze dies in
Verbindung mit der vorangegangenen Aufgabe.)
Man kennt mittlerweile recht viele gleichverteilte Folgen, die wesentlich schwieriger zu behandeln sind. So weiss man, dass die Imaginärteile
der nichttrivialen Nullstellen der berühmten Riemannschen Zetafunktion
gleichverteilt sind modulo 1 dank Hlawaka [38] und den Vorarbeiten von
Rademacher (der dasselbe Ergebnis unter Annahme der Riemannschen
Vermutung beiwesen hatte).∗∗ Auf der anderen Seite ist aber vieles noch
∗∗
Es studierten u.a. Harald Bohr (der Bruder des Physik-Nobelpreisträgers) und
das englische Gespann Hardy und Littlewood die Gleichverteilungstheorie, insbesondere um Anwendungen auf die Zetafunktion bemüht. Hier ist insbesondere die Arbeit von
Harald Bohr [12] und ihre Fortführungen (teilweise mit Courant bzw. Jessen) zu
nennen, diophantische und probabilistische Methoden in die Wertverteilungstheorie der
Zetafunktion begründet haben.
12
ERGODENTHEORIE
unbekannt: Einerseits gelang Koksma [54] der Beweis, dass die Folge (αn )
für fast alle α > 0 (d.h. bis auf α aus einer Nullmenge) gleichverteilt sind,
jedoch ist kein einziges solches α explizit bekannt; es ist also ungelöst ob die
(schnell wachsende) Folge {exp(n)} gleichverteilt ist oder nicht.
Wir wollen noch einmal kurz das Gelfondsche Problem aus Kapitel
1 aufgreifen: Die Folge xn = 2n gehorcht dem Benfordschen Gesetz. Um
dies nachzuweisen, bemerken wir zunächst, dass die Folge der Logarithmen
log10 xn = n log10 2 nach Satz 5 gleichverteilt ist modulo 1, denn log10 2 6∈ Q
(was man leicht aus der eindeutigen Primfaktorzerlegung gewinnt). Entsprechend ist der Anteil der xn mit Startziffer k ∈ {1, 2, 3, . . . , 9} unseren
Überlegungen aus Kapitel 1 folgend im Grenzwert n → ∞ gleich der Länge
des Intervalls [log10 k, log10 (k + 1)), also
log10 (k + 1) − log10 k = log10 (1 + k1 ).
Tatsächlich genügt eine Folge (xn ) genau dann dem Benfordschen Gesetz, wenn die Folge ihrer Logarithmen (log10 xn ) modulo 1 gleichverteilt ist
(wenngleich wir den einfachen Beweis dem Leser überlassen). Nennen wir eine solche Folge nun benfordsch, so ist z.B. die Folge der Fibonacci-Zahlen
benfordsch, nicht aber die Folge der Primzahlen. Dies ergibt sich aus den
Arbeiten von Jolissaint [45] sowie Diaconis [24]. Neuere Untersuchungen
zeigen, dass gewisse stochastische Prozesse (etwa geometrische Brownsche
Bewegungen) oder auch die 3X +1-Iterierten benfordsch sind (siehe Kontorovich & Miller [55]). Tatsächlich erfreut sich das Benfordsche Gesetz
einer enormen Popularität.††
Aufgabe 4. Man entwickle eine Theorie zur Verteilung der ersten m Ziffern in der b-adischen Entwicklung von Potenzen an bei n ∈ N.
Eine wichtige Anwendung gleichverteilter Folgen sind die Monte-CarloMethoden der numerischen Integration. Schießt man N mal zufällig auf ein
Quadrat der Kantenlänge 1 und zählt die Anzahl M der Treffer, die in einem
Viertelkreis vom Radius 1 um einen der Eckpunkte liegen, so ist der Quotient M/N eine Näherung an den Flächeninhalt des Viertelkreises π/4; mit
wachsendem N sollten diese Approximationen π besser und besser annähern.
Es ist klar, wie sich diese einfache Idee mit Hilfe gleichverteilter Folgen zur
numerischen Integration von nicht elementar lösbaren Integralen wie etwa
R
exp(−x2 ) dx verallgemeinern lässt. Mehr Information zu diesem Thema
findet man etwa bei Hlawka [39] (hier findet man auch eine Erweiterung
††
Z.B. wurde es namentlich erwähnt in der amerikanischen Serie NUMB3RS (in der
Episode “The Running Man”). Auch beschäftigte man sich mit der Frage, ob die Datensätze in der Bibel benfordsch sind oder nicht. Interessanter: Die kleinste natürliche
Zahl, die nicht in der Bibel explizit auftaucht, ist 43.
4. Maßtreue Abbildungen
13
der Theorie auf mehrdimensionale Folgen). Ferner gibt es Anwendungen in
der Theorie der Pseudo-Zufallszahlen (pseudorandom number generators)
und für einen ersten Einblick verweisen wir hier auf [20].
*
*
*
Unser Ziel sind die wichtigen Ergodensätze von Birkhoff u.a., welche
gewissermaßen Gleichverteilungssätze sind (was dann auch erklärt, warum
wir mit eben diesen angefangen haben). Tatsächlich entstanden die mathematischen Grundlagen der Ergodentheorie erst in den 1920er und 1930er Jahren, also nach den Weylschen Gleichverteilungssätzen. Wichtige Einflüsse
hierbei waren die Maßtheorie mit dem so wichtigen Lebesgue-Integral (was
man ungefähr auf 1903 datieren kann) und natürlich die Axiomatisierung
der Wahrscheinlichkeitstheorie durch Kolmogorov (um ca. 1930). Zuerst
müssen wir jedoch eben diese Fundamente legen.
4. Maßtreue Abbildungen
Im vorigen Kapitel haben wir modulo 1 gleichverteilte Folgen charakterisiert, wie etwa N ∋ n 7→ xn := nξ für irrationales ξ. Entsprechend könnten
wir uns auch fragen, ob die Folge (xn + β) mit beliebigem β ∈ R diese Eigenschaft erbt — natürlich benötigen wir hier nicht für jedes β eine eigene
Verteilungsstatistik. Auch können wir uns ähnliche Abbildungen vorstellen,
gebildet aus wiederholtem Anwenden einer gewissen Operation, zu denen
sich analoge Fragen stellen. Wir wollen deshalb nun allgemeiner als bislang
Abbildungen T : X → X auf gewissen Räumen X studieren und dabei auch
Augenmerk auf die Dynamik der Iteration von T verwenden. Hierbei ist es
sinnvoll, von T zu fordern, die Struktur von X zu erhalten. Ist also X ein
topologischer Raum, so sollte T stetig sein; besitzt X eine differenzierbare
Struktur, so sollte T ein Diffeomorphismus sein. Wir werden im Folgenden
oft in Wahrscheinlichkeitsräumen arbeiten, weshalb wir fordern werden, dass
T meßbar ist. Zuerst wiederholen wir einige grundlegende Begriffe der Maßtheorie und Stochastik.∗ Für die maßtheoretischen Grundlagen verweisen
wir auf [27], für die wahrscheinlichkeitstheoretischen Sachverhalte z.B. auf
[52].
Bekanntlich lässt sich nicht jeder Teilmenge des R3 ein verallgemeinertes
geometrisches Volumen zuordnen; tatsächlich zeigte G. Vitali 1905 sogar
die Unlösbarkeit dieses so genannten Maßproblems für jeden Raum Rd . Ein
∗
Tatsächlich könnten wir die gesamte Theorie ausschließlich maßtheoretisch formulieren, aber die Sprache und Denkweise der Wahrscheinlichkeitstheorie erweist sich oft als
gewinnbringend.
14
ERGODENTHEORIE
Beispiel für den eindimensionalen Fall findet man vermöge der auf [0, 1)
erklärten Äquivalenzrelation
x∼y
⇐⇒
x − y ∈ Q;
bildet man nämlich mit Hilfe des (hier nicht zu umgehenden) Auswahlaxioms
die Menge A ⊂ [0, 1], bestehend aus jeweils genau einem Vertreter einer
jeden Äquivalenzklasse, so kann man dieser Menge A wegen
X
1 = µ([0, 1]) ≤
µ(A + {x}) ≤ µ([−1, 2]) = 3
|
{z
}
x∈[−1,1]∩Q
=µ(A)
kein sinnvolles Volumen µ zuordnen (d.h. monoton, translationsinvariant
und abzählbar additiv); der Fall in beliebiger Dimension d erfolgt mit denselben Ideen.† Es war Lebesgues geniale Idee sich stattdessen auf meßbare
Mengen zurückzuziehen und darauf eine schlagkräftige Integrationstheorie
zu begründen (und nicht eine auf den Funktionen basierende Integration wie
sein Vorgänger Riemann).‡
Sei X eine nicht leere Menge und P(X) ihre Potenzmenge. Ein nicht
leeres Mengensystem F ⊂ P(X) heißt eine Algebra, wenn X ∈ F und wenn
mit A, B in F auch A ∪ B sowie X \ B in F enthalten sind. Eine solche
Algebra F heißt eine σ-Algebra, wenn F bzgl. abzählbarer Vereinigungen
abgeschlossen ist, wenn also insgesamt folgende Axiome gelten:
Wegen
• ∅, X ∈ F;
• mit A ∈ F ist auch das Komplement X \ A ∈ F;
S
• mit einer abzählbaren Folge Aj ∈ F ist auch j Aj ∈ F.
\
j
Aj = A \
[
j
(A \ Aj )
für A :=
[
Aj
j
T
gilt mit dem letzten Axiom auch j Aj ∈ F. Damit ist eine σ-Algebra
also abgeschlossen bzgl. der Bildung von abzählbaren Vereinigungen und
Schnitten. Zu X 6= ∅ sind {X, ∅} und die Potenzmenge P(X) von X stets
σ-Algebren, allerdings sind diese zu grob bzw. zu fein, um im Weiteren von
Interesse zu sein. Man macht sich leicht klar, dass der abzählbare Schnitt
†
3
Noch spektakulärer ist das Banach-Tarski-Paradoxon: eine Vollkugel im R kann
so in (fünf nicht meßbare) Teile zerlegt werden, dass diese zu zwei Vollkugeln desselben
Radius zusammengefügt werden können: • = • + •.
‡
Tragisch für W.H. Young, der unabhängig zwei Jahre nach Lebesgue eine analoge
Theorie entwickelte.
4. Maßtreue Abbildungen
15
von σ-Algebren stets wieder eine σ-Algebra ist. Insofern ist zu einem Mengensystem ∅ =
6 E ⊂ P(X) der Schnitt
\
Aσ (E) =
F
E⊂F
F ist σ−Algebra
die kleinste σ-Algebra, die E enthält; man nennt Aσ (E) auch die von E
erzeugte σ-Algebra. Eine ganz wichtige σ-Algebra (nicht nur für unsere folgenden Untersuchungen) ist die Borelsche σ-Algebra B eines (nicht leeren)
metrischen Raum X, definiert als die von allen offenen Mengen in X erzeugte
kleinste σ-Algebra.
Eine nicht negative Funktion µ, definiert auf einer σ-Algebra F zu einem
gegebenen Raum X 6= ∅, heißt ein Maß, wenn gilt:
• µ(∅) = 0;
• für jede abzählbare Folge paarweise disjunkter Mengen Aj ∈ F
gilt
[ X
Aj =
µ
µ(Aj );
j
j
wegen dieser letzten Eigenschaft heißt µ auch σ-additiv (bzw. abzählbar additiv). Hierbei ist ausdrücklich zugelassen, dass µ den Wert +∞ annehmen
kann (wobei natürliche Rechengesetze mit diesem Symbol vorausgesetzt werden). Das Tripel (X, F, µ) heißt dann ein Maßraum und die Mengen in F
meßbar. Ein wichtiges Konzept in dieser Theorie ist der Begriff der Nullmenge, wie jede Menge A mit der Eigenschaft µ(A) = 0 genannt wird. Erste
Eigenschaften in diesem Zusammenhang sind u.a.
• Monotonie: Mit meßbaren Mengen A ⊂ B gilt µ(A) ≤ µ(B);
• Schachtelungsprinzip: Für eine Folge von ineinander geschachtelten meßbaren Mengen A1 ⊃ A2 ⊃ . . . gilt
\ An .
lim µ(An ) = µ
n→∞
n
Beispiele für Maße sind etwa das Zählmaß
♯A falls ♯A < +∞,
A 7→ |A| =
+∞ sonst,
wobei ♯A für die Anzahl der Elemente der endlichen Menge A steht, das
Dirac-Maß
1 falls x ∈ A,
A 7→ δx (A) =
0 sonst,
16
ERGODENTHEORIE
und natürlich das Lebesgue-Maß, welches wir mit λ notieren werden. Das
Lebesgue-Maß erklärt man zunächst für Quader vermöge
λ(Q) =
d
Y
(βj − αj )
j=1
für Q = [α1 , β1 ] × . . . × [αd , βd ]
(9)
mit reellen Zahlen αj ≤ βj , wobei man auch Intervalle anderer Form zulässt,
dann für Figuren (das sind endliche Vereinigungen von Quadern) mittels
Additivität über disjunkte Zerlegungen in Quader, und schließlich durch
Identifikation mit dem äußeren Maß λ∗ für allgemeine meßbare Mengen A
(also A ∈ F) über abzählbare Vereinigungen von Grenzwerten A von Folgen
von Figuren An (modulo Nullmengen), wobei
An → A für n → ∞
⇐⇒
lim λ∗ (An ∆A) = 0.
n→∞
Hierbei ist
A∆B := (A \ B) ∪ (B \ A)
die symmetrische Differenz A∆B von A und B und das äußere Maß definiert
durch
∞
X
λ(An ),
λ∗ (A) = inf
n=1
wobei das Infimum über alle abzählbaren Überdeckungen von A durch offene
Figuren An genommen wird. Man beachte, dass λ∗ (A∆B) klein ist, wenn sich
A und B nur um eine Menge mit kleinem Maß unterscheiden. Diese (äußerst
skizzenhafte) Konstruktion des Lebesgue-Maßes geht auf Carathéodory
zurück und kann ohne großen Aufwand verallgemeinert werden.§ Wichtig
ist die Translationsinvarianz des Lebesgue-Maßes, d.h. λ(A) = λ(A + {x})
für alle meßbaren A und alle Punkte x, aber auch die Eindeutigkeit unter
allen normierten Maßen mit diesen Eigenschaften. Beispiele für LebesgueNullmengen sind Q bzw. Qd , je nachdem in welchem Raum wir uns bewegen,
bzw. allgemeiner alle abzählbaren Mengen. Abzählbare Vereinigungen von
Nullmengen sind wiederum Nullmengen.
Wir sprechen von einem Wahrscheinlichkeitsmaß P, wenn die Werte von
P allesamt in [0, 1] liegen, wobei P(X) = 1 ist. Dies ist stets zu erzwingen,
sofern wir ein endliches Maß µ zur Verfügung haben; in diesem Fall normiert
man µ gemäß P(A) = µ(A)/µ(X). Eine wichtige allgemeine Eigenschaft
eines Wahrscheinlichkeitsmaßes ist
P(X \ A) = 1 − P(A)
§
für jedes
A ∈ F.
Tatsächlich erinnert die Idee, die Menge der Figuren, die keine σ-Algebra bilden, um
die Grenzwerte von Figuren modulo Nullmengen zu erweitern, an Cantors Konstruktion
der reellen Zahlen.
4. Maßtreue Abbildungen
17
Ein Tripel (X, F, P) bestehend aus einer Menge X 6= ∅, einer σ-Algebra F
und einem Wahrscheinlichkeitsmaß heißt Wahrscheinlichkeitsraum. Die σAlgebra bezeichnet man hierbei auch als Ereignisraum und seine Elemente
E als die Ereignisse, die mit der Wahrscheinlichkeit P(E) auftreten.
Die Wahrscheinlichkeitstheorie ermöglicht oft einen interessanten Blick
auf zahlentheoretische Fragestellungen, insbesondere im Zusammenhang mit
Verteilungseigenschaften von zahlentheoretischen Funktionen (komplexwertigen Zahlenfolgen). Ist (Xn ) eine Folge von unabhängigen, auf [0, 1) gleichverteilten Zufallsvariablen, so gilt nach dem Gesetz vom iterierten Logarithmus für beliebiges m 6= 0
P
| n≤N e(mXn )|
=1
fast sicher,
lim sup √
2N log log N
N →∞
d.h. mit Wahrscheinlichkeit P(E) = 1, wobei E für dieses Ereignis steht; das
bedeutet, dass die Menge aller Folgen {xn } in [0, 1), für die die obige lim supBedingung nicht gilt, eine Nullmenge ist. (Für das Gesetz des iterierten
Logarithmus siehe etwa [7, 52].) Man vergleiche dies mit dem Weylschen
Satz 4.
Wir geben nun weitere Definitionen, die die Basis für unsere späteren ergodentheoretischen Untersuchungen bilden. Gegeben ein Maßraum
(X, F, µ), so heißt eine Abbildung T : X → X meßbar (bzw. µ-meßbar),
wenn T −1 A := {x : T (x) ∈ A} ∈ F für alle A ∈ F gilt. Ein solches T heißt
invertierbar, falls T A := {T (x) : x ∈ A} ∈ F für alle A ∈ F und T X = X
gelten. Eine meßbare Abbildung T heißt maßtreu bzgl. µ, wenn
µ(T −1 A) = µ(A)
für alle A ∈ F;
im Falle invertierbarer T ist diese Bedingung äquivalent zu µ(T A) = µ(A).
Ist T maßtreu, so nennt man (X, F, µ, T ) ein dynamisches System. Aus Sicht
des Maßes sagt man statt ’T ist µ-maßtreu’ auch ’µ ist T -invariant’.
Zu einer Abbildung T wie oben und x ∈ X sei
T 0 (x) = x, T 1 (x) = T (x)
und
T n+1 (x) = T (T n (x))
für n ∈ N;
wir schreiben auch T n x statt T n (x). Der Orbit von x unter T ist definiert als
die Menge {T n x : n ∈ N0 }; er Orbit enthält wichtige Informationen über
den Punkt x bzw. die Abbildung T . Bei invertierbaren Abbildungen macht
es auch Sinn, die Vergangenheit zu betrachten, d.h den erweiterten Orbit
. . . , T −2 x, T −1 x, T 0 x = x, T x, T 2 x, . . . .
Wir haben bereits zwei sehr interessante Abbildungen kennen gelernt,
mit denen wir uns jetzt mit Hilfe unserer neuen Sprache etwas genauer
18
ERGODENTHEORIE
beschäftigen wollen. Unser zu Grunde liegender Maßraum ist dabei gegeben durch X = [0, 1), der Borelschen σ-Algebra B, ausgestattet mit dem
Lebesgue-Maß λ.
♣ Bsp. 1): Die Abbildung beim Kreisbilliard heißt Kreisrotation (auch
Translation) und wird für festes θ ∈ (0, 1) definiert durch
Rθ : T → T ,
x 7→ x + θ
Natürlich können wir stattdessen auch Rθ auf [0, 1) durch Rθ (x) = {x +
θ} = x + θ mod 1 definieren. Z.B. die Projektion der Folge n 7→ nξ auf die
Kreisgruppe T ist eine Kreisrotation: Für das n-te Folgeglied xn gilt dabei
Rξn = xn . Was können wir in Hinblick auf unsere neuen Begriffe sagen?
Offensichtlich ist Rθ stets meßbar bzgl. des Lebesgue-Maßes: Ist nämlich
(α, β) irgendein Intervall in [0, 1), so gilt
Rθ−1 (α, β) = (α − θ, β − θ)
bzw.
(1 + α − θ, 1 + β − θ),
falls θ ≤ α bzw. β ≤ θ, sowie
Rθ−1 (α, β) = (0, β − θ) ∪ (1 + α − θ, 1),
falls α < θ ≤ β. Ferner folgt hieraus sofort, dass Rθ maßtreu ist bzgl. λ,
denn in jedem der Fälle gilt
λ(Rθ−1 (α, β)) = β − α = λ((α, β)).
Wir durften uns hier auf den Fall der Untersuchung von Intervallen
beschränken, da die Borelsche σ-Algebra von den offenen Mengen in
X = [0, 1) erzeugt wird (ebenso von den abgeschlossenen Mengen, wie man
durch Komplementbildung findet). Diese erhebliche Erleichterung basiert
auf dem Begriff der monotonen Klasse C bestehend aus allen endlichen disjunkten Vereinigungen von Elementen einer Algebra A. Ist hierzu F die
von C erzeugte σ-Algebra und das Tripel (X, F, µ) ein Maßraum, so gibt
es zu jedem A ∈ F und jedem ǫ > 0 ein B ∈ C, so dass µ(A∆B) < ǫ ist
(also B das gegebene A beliebig gut approximiert). Mit diesem Approximationssatz transportieren sich die Eigenschaften der Meßbarkeit und der
Maßtreue von C auf die Vervollständigung F bzgl. µ. Dies ist der Satz von
Hahn-Kolmogorov; mehr dazu findet man in [21] oder [87].
♣ Bsp. 2): Die Abbildung des Gelfandschen Problemes ist
2x
falls 0 ≤ x < 12 ,
T : [0, 1) → [0, 1),
x 7→ 2x mod 1 =
2x − 1 falls 21 ≤ x < 1
(in der Literatur auch “multiplication by 2 modulo 1 - map”). Ist (α, β)
irgendein Intervall in [0, 1), so ist
β+1
T −1 (α, β) = ( α2 , β2 ) ∪ ( α+1
2 , 2 ),
4. Maßtreue Abbildungen
19
was wiederum in B liegt; also ist T Lebesgue-meßbar. Die Vereinigung
rechts ist disjunkt (da a + 1 ≥ b) und damit gilt ausserdem
λ(T −1 (α, β)) = β − α = λ((α, β)).
Also ist T auch maßtreu bzgl. des Lebesgue-Maßes. So einfach dieses Beispiel auch sein mag, die Iterationen dieser Abbildung liefern die Binärentwicklung der Punkte aus [0, 1). Zu x ∈ [0, 1) definiere
0 falls 0 ≤ x < 12 ,
a1 = a1 (x) =
1 falls 12 ≤ x < 1.
Dann gilt T x = 2x − a1 (x) und wir definieren ferner
an = an (x) = a1 (T n−1 x)
für n ∈ N.
Wir haben damit
x = 21 (a1 + T x)
und
T x = 12 (a2 + T 2 x)
...
bzw.
an T n x
a1 a2
+ 2 + ... + n + n
für n ∈ N.
2
2
2
2
Wegen 0 ≤ T n x < 1 konvergiert der Reihenrest bei n → ∞ gegen Null und
wir erhalten die Binärdarstellung
x=
x=
∞
X
an
k=0
2n
.
Hierbei bilden die Ziffern a1 , a2 , . . . eine unabhängige Folge von identisch
verteilten Bernoulli-Zufallsvariablen. Dieses einfache Beispiel besitzt eine
Reihe von Verallgemeinerungen, die wir jetzt unter die Lupe nehmen.
√
♣ Bsp. 3): Mit denselben Bezeichnungen wie oben sei G = 12 ( 5 + 1) der
goldene Schnitt (es gilt also G2 = G + 1) sowie TG : X → X definiert durch
Gx
falls 0 ≤ x < G1 ,
TG x = Gx mod 1 =
Gx − 1 falls G1 ≤ x < 1.
Dann ist TG zwar nicht maßtreu bzgl. des Lebesgue-Maßes, wohl aber bzgl.
des Maßes µ definiert durch
(
Z
G3
falls 0 ≤ x < G1 ,
1+G2
g(x) dx
mit g(x) =
µ(A) =
G
falls G1 ≤ x < 1.
A
1+G
Die Iterierten TGn x liefern die so genannte G-Entwicklung von x ∈ [0, 1)
∞
X
bn
x=
Gn
n=1
mit bn ∈ {0, 1} und bn bn+1 = 0 für alle n ∈ N.
20
ERGODENTHEORIE
Aufgabe 5. Man verifiziere all diese Aussagen über TG und die GEntwicklung.
♣ Bsp. 4): Nun eine zweidimensionale Verallgemeinerung der GelfandAbbildung, die so genannte ’baker’s transformation’; hier Blätterteigabbildung. Hierzu sei X = [0, 1)2 ausgestattet mit Produkt-σ-Algebra B × B und
dem Produkt-Lebesgue-Maß λ × λ (das sich in natürlicher Weise durch
Produktbildung des eindimensionalen Maßes λ ergibt). Unsere Abbildung
ist gegeben durch
falls 0 ≤ x < 12 ,
(2x, y2 )
2
2
b : [0, 1) → [0, 1) ,
(x, y) 7→ b(x, y) =
1
(2x − 1, y+1
2 ) falls 2 ≤ x < 1.
1
1
Tz
z
0
1/2
1
0
1
2
0
1
Abbildung 4. Die Blätterteigabbildung b in Zeitlupe.
Diese Bilder entstammen den Maple-notebooks von Geon Ho Choe [33].
Die Bilder entstehen durch mathematischen Pointillismus¶: hier werden die
Punkte (xj , b(xj ) für eine große Menge von (möglichst gleichverteilten) xj
als Approximation an den Graphen von b gezeichnet.
Die Blätterabbildung b ist meßbar, invertierbar und maßtreu bzgl. des
Produktmaßes λ × λ; sie verdankt ihren Namen dem Mischprozess, den ein
Bäcker Wasser und Mehl beim Zubereiten von Teig unterwirft.
1
1
y
1
y
0
y
0
0
1
x
0
0
1
x
0
1
x
Abbildung 5. Die Iterationen b, b2 , b3 der Blätterteigabbildung.
¶
Wörtlich: etwas mit Punkten darstellen; Stilrichtung im Impressionismus mit Georges Seurat als prominentestem Vertreter.
4. Maßtreue Abbildungen
21
Aufgabe 6. Man verifiziere alle Aussagen über die Baker-Abbildung.
1
5
y
y
0
0
0
0
1
1
x
x
Abbildung 6. Die logistische Transformation: links der
Graph y = 4x(1 − x), rechts der Graph der Dichte.
♣ Bsp. 5): Die so genannte logistische Transformation
T : [0, 1] → [0, 1]
x 7→ 4x(1 − x)
ist meßbar und maßtreu bzgl.
1
µ(A) =
π
Z
A
p
dx
.
x(1 − x)
Tatsächlich tritt diese Dichte auch in der kürzlich durch Taylor bewiesenen Vermutung von Sato & Tate über die Verteilung der Gruppenordnungen modulo p reduzierter elliptischer Kurven im Hasse-Intervall auf (siehe
[81]).k
♣ Bsp. 6): Identifizieren wir die Kreisgruppe T (wie schon zuvor) mit dem
Einheitsintervall [0, 1) modulo 1, so ist T2 = T × T das Einheitsquadrat
[0, 1)2 , bei dem gegenüberliegende Seiten miteinander identifiziert werden.
Damit ist T2 der zweidimensionale Torus. Die Abbildung
x
2 1
x
2
2
A : T →T ,
7→
mod 1
y
1 1
y
(komponentenweise) ist invertierbar (da die auftretende Matrix nicht verschwindende Determinante hat) und maßtreu bzgl. des zweidimensionalen
Lebesgue-Maßes. Man nennt A auch “Arnold cat map” zu Ehren von V.I.
Arnold — wer sich fragt warum, der möge in dem Buch [1] nachschlagen.
Die Abbildung A ist ein Beispiel eines so genannten toralen Automorphismus.
k
Es ist die Gleichverteilung auf den Konjugationsklassen der ‘special unitary group’
SU2 (C) bzgl. des Haarschen Maßes. Ähnlich kann man den berühmten Nachweis der
Weilschen Vermutungen durch Deligne [22] als Gleichverteilungsresultat der Frobenius
Konjugationsklassen auffassen.
22
ERGODENTHEORIE
1
1
y
1
y
0
y
0
0
1
0
0
x
1
0
x
Abbildung 7. Iterationen der “Arnold cat
A, A2 , A3 von links nach rechts. Wo ist die Katze?
1
x
map”,
Ein vorerst letztes Beispiel, das wir aber nicht vertiefen werden, ist das so
genannte 3X +1-Problem (auch Collatz- oder Syracuse-Problem), welches
auf der folgenden Iterationsvorschrift basiert:
x/2 falls x gerade,
x 7→ T x =
3x + 1 falls x ungerade,
angewandt auf N. Es gilt also z.B.
... 7→ 12 7→ 6 7→ 3 7→ 10 7→ 5 7→ 16 7→ 8 7→ 4 7→ 2 7→ 1 7→ ...,
was also zyklisch wird. Es wird vermutet, dass diese Iteration jede beliebige natürliche Zahl schließlich in den Zykel . . . 7→ 4 7→ 2 7→ 1 7→ 4 7→ ...
führt, bzw. etwas schwächer, dass diese Iteration keine divergenten Trajektorien besitzt. Die Abbildung T ist sicherlich nicht injektiv. Dieses Beispiel
illustriert sehr schön, dass es Sinn macht, wenn möglich, auch die Vergangenheit einer Iteration zu studieren: Was wird unter der Iteration von T alles
auf 1 abgebildet? Tatsächlich besteht ein interessanter ergodischer Ansatz
zur Lösung des 3X +1-Problemes, da die Abbildung T maßtreu auf den ganzen 2-adischen Zahlen Z2 ausgestattet mit dem Haarschen Maß ist. Diese
Beobachtung geht zurück auf Matthews & Watts [59]; sie zeigten u.a.,
dass die Iterierten T n x für fast alle x ∈ Z2 gleichverteilt sind modulo 2k für
jedes k ∈ N (mit Hilfe des Birkhoffschen Ergodensatzes). Leider würde
eine Herleitung uns hier zu weit führen; weitere Information über dieses
Problem findet man in dem Übersichtsartikel von Lagarias [57] bzw. bei
Wirsching [91].
Weitere interessante Beispiele maßtreuer Abbildungen findet man in
[33]. Für den wichtigen Fall der Bernoulli-shifts schaue man in [21].
Aufgabe 7. Sei X = [0, 1) und B die Borelsche σ-Algebra mit dem
Lebesgue-Maß λ sowie die Abbildung T definiert durch T 0 = 0 und
T x = { x1 } für x ∈ (0, 1). Gesucht ist ein Maß µ auf X, so dass T maßtreu bzgl. µ ist.
4. Maßtreue Abbildungen
23
Jetzt wiederholen wir skizzenhaft die Einführung des LebesgueIntegrals bzw. die Integration bzgl. eines allgemeinen Maßes µ. Gegeben
also ein Maßraum (X, F, µ), so heißt eine Funktion f : X → R meßbar
(bzw. µ-meßbar), wenn die Menge {x ∈ X : f (x) < α} für jedes α ∈ R
meßbar ist (also in F liegt). Insbesondere sind also stetige Funktionen meßbar bzgl. des Lebesgue-Maßes bzw. allgemeinen Maßen zu Borelschen
σ-Algebren. Zunächst erklärt man das Integral für nicht negative, einfache
Funktionen η (d.h., das Bild von η ist endlich). Dazu schreibt man η als
endliche Linearkombination von Indikatorfunktionen
η=
m
X
mit Bj := {x : η(x) = cj }
cj χBj
j=1
und paarweise verschiedenen cj ≥ 0, deren Gesamtheit η(X) ausmacht (insbesondere sind dann die Mengen Bj disjunkt). Hierbei ist die zu B ⊂ X
erklärte Indikatorfunktion χB definiert durch
1 falls x ∈ B,
χB (x) =
0 falls x 6∈ B;
offensichtlich ist diese Funktion genau dann meßbar, wenn B meßbar ist und
Entsprechendes gilt für einfache η. Das Integral von χB mit B ∈ F über eine
meßbare Menge A ist sinnvoll erklärt durch
Z
χB dµ = µ(A ∩ B).
A
bzw. für meßbare einfache Funktionen η (wie oben) durch
Z
Z
m
m
X
X
cj µ(A ∩ Bj ).
cj
χBj dµ =
η dµ =
A
A
j=1
j=1
Mit einfachen Funktionen lässt sich jede nicht negative, reellwertige meßbare
Funktion f beliebig genau approximieren und das Lebesgue-Integral hierzu
wird erklärt durch
Z
Z
ηµ,
f dµ = sup
A
A
wobei das Supremum über alle meßbaren einfachen Funktionen η mit 0 ≤
η ≤ f genommen wird. Mit der Youngschen Zerlegung
f = f+ − f−
mit
f + := max{f, 0},
f − := − min{f, 0}
(10)
gewinnt man das Integral für eine allgemeine meßbare reellwertige Funktion
f , nämlich
Z
Z
Z
f − dµ
f + dµ −
f dµ =
A
A
A
24
ERGODENTHEORIE
für jede meßbare Menge A, durch Anwendung auf die Summanden f + und
f − . Die Funktion f heißt dabei integrierbar (bzw. µ-integrierbar), wenn beide Integrale auf der rechten Seite endlich sind. Das so erklärte LebesgueIntegral hat alle wichtigen Eigenschaften eines Integrals wie etwa Monotonie
und Linearität (womit wir auch das Integral für komplexwertige meßbare Funktionen definieren können), auch hängt es nicht von der Wahl der
Darstellungen der einfachen Funktionen als Linearkombination von Indikatorfunktionen ab. Wichtig bei dieser Konstruktion ist die σ-Additivität
des zu Grunde liegenden Maßes, mit dessen Hilfe sich bei Funktionenfolgen Eigenschaften wie Meßbarkeit und Integrierbarkeit auf deren Limiten
vererben! Dies äußert sich insbesondere in den Lebesgueschen Konvergenzsätzen (wie z.B. dem Satz von der majorisierten Konvergenz), die nicht
für das Riemann-Integral bestehen. Diese sind wichtige Werkzeuge im weiteren Verlauf der Vorlesung. Zu 1 ≤ p < +∞ notieren wir den Vektorraum
aller µ-integrierbaren Funktionen f : X → C mit
1
Z
p
p
< +∞
|f | dµ
kf kp :=
X
mit
Lp (X, F, µ).
f ∼g
Teilen wir diesen Raum nach der Äquivalenzrelation
: ⇐⇒
{x ∈ X : f (x) 6= g(x)}
ist Nullmenge
aus, so erhalten wir einen normierten Quotientenvektorraum
Lp (X, F, µ) = Lp (X, F, µ)/ ∼
oder kurz Lp , in dem zwei Funktionen, deren Werte sich höchstens auf einer Nullmenge unterscheiden, in ein und derselben Äquivalenzklasse liegen;
dabei wird die Norm als Fortsetzung von k · kp definiert. Der berühmte Satz
von Riesz & Fischer besagt, dass die Räume Lp vollständig sind. Der Fall
p = +∞ spielt im Weiteren keine wichtige Rolle.
Ein sehr schönes und prägnantes Zitat zum Vergleich zwischen
Lebesgue- und Riemann-Integral von Lebesgue selbst:
“The geometers of the seventeenth century considered the integral
of f (x) — the word ‘integral’ had not been invented, but that does
not matter — as the sum of an infinity of indivisibles, each of which
was the ordinate, positive or negative, of f (x). Very well! We have
simply grouped together the indivisibles of comparable size. (...)
One could say that, according to Riemann’s procedure, one tried to
add the indivisibles by taking them in the order in which they were
furnished by variation in x, like an unsystematic merchant who
counts coins and bills at random in the order in which they came
to hand, while we operate like a methodical merchant who says:
4. Maßtreue Abbildungen
25
I have m(E1 ) pennies which are worth 1 · m(E1 ),
I have m(E2 ) nickels which are worth 5 · m(E2 ),
I have m(E3 ) dimes which are worth 10 · m(E3 ), etc.
Altogether then I have
S = 1 · m(E1 ) + 5 · m(E2 ) + 10 · m(E3 ) + . . .
The two procedures will certainly lead the merchant to the same
result becaue no matter how much money he has there is only a
finite number of coins or bills to count. But for us who must add
an infinite number of indivisibles the difference between the two
methods is of capital importance.” (Henri Lebesgue)
Nun weiter mit einem Kriterium zur Maßtreue (analog zum Weylschen
Satz 3 zur Gleichverteilung modulo Eins):
Satz 6. Eine Abbildung T : X → X ist genau dann µ-treu, wenn für alle
µ-integrierbaren Funktionen f : X → C gilt, dass
Z
Z
f ◦ T dµ.
(11)
f dµ =
X
X
Im Falle metrischer Räume genügt es, die Bedingung nur für auf X stetige
Funktionen f zu fordern. Eine Implikation ergibt sich dabei durch den folgenden Beweis von Satz 6; die andere folgt mit den Darstellungssätzen von
Hahn-Banach und Riesz (siehe etwa [70]).
Beweis. Gilt (11), so folgt mit der Indikatorfunktion χA einer meßbaren
Menge A insbesondere
Z
Z
Z
χT −1 A dµ = µ(T −1 A),
χA ◦ T dµ =
χA dµ =
µ(A) =
X
X
X
also ist T maßtreu.
Angenommen, T ist maßtreu, so gilt (11) (nach dem bereits Bewiesenen) insbesondere für alle Indikatorfunktionen und damit auch für jede einfache Funktion (d.h, für jede Funktion mit endlichem Bild). Sei zunächst
f ≥ 0 und (fn ) eine konvergente Folge meßbarer einfacher Funktionen mit
Grenzwert f , dann gilt auch limn→∞ fn ◦ T = f ◦ T . Lebesgues Satz von
der majorisierten Konvergenz besagt für eine Folge von meßbaren Funktionen gn : X → R mit fast überall existierenden und meßbaren Grenzwert
g = limn→∞ gn sowie |gn (x)| ≤ G(x) für fast alle x ∈ X mit einer integrierbaren Funktion G, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
n→∞ X
X n→∞
Speziell mit gn = fn ◦ T bzw. mit gn = fn folgt hier
Z
Z
Z
Z
f ◦ T dµ = lim
fn ◦ T dµ = lim
fn dµ = f dµ,
n→∞
n→∞
26
ERGODENTHEORIE
wobei wir im vorletzten Schritt (11) für einfache Funktionen anwenden durften. Mittels der Zerlegung (10) folgt (wie üblich in der Maßtheorie) die
Behauptung für allgemeine reellwertige f ; den Fall komplexwertiger f bekommt man (wie auch schon im Beweis von Satz 4) über die Zerlegung in
Real- und Imaginärteil. Der Satz ist bewiesen. •
♣ Bsp. 7): Es sei T : R → R definiert durch T 0 = 0 und
1
1
Tx = 2 x −
für x 6= 0.
x
Es gilt
T −1 (α, β) = (α −
p
α2 + 1, β −
p
β 2 + 1) ∪ (α +
p
α2 + 1, β +
p
β 2 + 1),
also ist T meßbar. Für jede Lebesgue-integrierbare Funktion f besteht mit
der Substitution y = T x, dy = 21 (1 + x12 ) dx die Identität
Z +∞
Z +∞
dy
dx
f (y)
=
.
f (T x)
2
1+x
1 + y2
−∞
−∞
Also ist T nach Satz 6 maßtreu bzgl. des Wahrscheinlichkeitsmaßes P, definiert durch
Z
1 β dx
P((α, β)) =
.
π α 1 + x2
Hier kann man auch alternativ das Additionstheorem
p
p
arctan(x + x2 + 1) + arctan(x − x2 + 1) = arctan(x)
benutzen. Übrigens rührt die Abbildung T von Newtons Näherungsverfahren angewandt zur Auffindung der reellen Nullstellen von f (x) = x2 + 1 her.
Die Newton-Iteration übersetzt sich wie folgt:
f (xn )
1
x2 + 1
1
xn+1 = xn − ′
↔
Tx = x −
= 2 x−
.
f (xn )
2x
x
Gäbe es eine reelle Nullstelle, so würde die Folge der xn konvergieren, da aber
stets f (x) 6= 0, ist die Iteration nicht konvergent. Dieses Beispiel stammt von
D. Lind (cf. [33]).
Aufgabe 8. Sei (X, F, µ) ein Maßraum und T : X → X meßbar. Man
zeige, dass die Menge aller T -invarianten Mengen A eine σ-Algebra bilden.
5. Ergodizität und Mischen
Bekanntlich können bei der Lebesgue-Integration Nullmengen außer
Acht gelassen werden. Z.B. ist die Dirichlet-Funktion δ = χQ , erklärt
5. Ergodizität und Mischen
27
durch δ(x) = 1 für x ∈ Q und δ(x) = 0 für x ∈ R \ Q, nicht Riemannintegrierbar, wohl aber Lebesgue-integrierbar mit dem Integral
Z
δ dλ = λ([0, 1] ∩ Q) = 0
[0,1]
(da Q abzählbar ist und damit eine Nullmenge). Dies spiegelt genau das wieder, was wir von einem Integral über eine Funktion, die meist gleich Null ist,
erwarten. Gilt eine Eigenschaft E für alle x ∈ A \ B, wobei A, B µ-meßbare
Mengen sind und ist B eine Nullmenge, also µ(B) = 0, so sagen wir E gilt
für fast alle x ∈ A bzw. E gilt fast überall auf A. Ist µ ein Wahrscheinlichkeitsmaß, so können wir das auch kurz mit µ(A) = 1 notieren und das
Ereignis E mit A identifizieren.
Im Folgenden wollen wir uns bis auf weiteres in einem Wahrscheinlichkeitsraum (X, F, µ) bewegen. Eine maßtreue Abbildung T : X → X heißt
ergodisch bzgl. µ, wenn für jede meßbare Menge A mit T −1 A = A entweder
µ(A) = 0 oder µ(A) = 1 gilt. In diesem Fall sprechen wir auch von einem
ergodischen dynamischen System (X, F, µ, T ). Ergodisch bedeutet also, dass
jede meßbare T -invariante Menge entweder eine Nullmenge ist oder volles
Maß hat.∗∗
Satz 7. Die folgenden Aussagen sind äquivalent:
(i)
(ii)
(iii)
(iv)
T ist ergodisch;
für B ∈ F mit µ(T −1 B∆B) = 0 gilt µ(B) = 0 oder = 1;
S
für A ∈ F mit µ(A) > 0 gilt µ( n T −n A) = 1;
für A, B ∈ F mit µ(A) > 0 und µ(B) > 0 existiert ein n ∈ N mit
µ(T −n A ∩ B) > 0.
Ist T invertierbar, so kann man in diesen Bedingungen natürlich T −n durch
T n ersetzen. Jetzt ein wenig Interpretation dieser Formeln: Die Bedingung
(iii) besagt, dass, wenn A positives Maß besitzt, fast jedes x ∈ X schließlich
(und sogar unendlich oft — warum?) A besuchen wird, bzw. (iv) zeigt, dass
jedes Element von B fast sicher irgendwann unter T nach A gelangt.
Beweis. (i) ⇒ (ii): Angenommen B ist meßbar mit µ(T −1 B∆B) = 0 und
T ist ergodisch. Wir bilden den Limes superior
∞ [
∞
\
T −n B.
C :=
m=0 n=m
Für m ∈ N0 gilt
B∆
∞
[
n=m
∗∗
T −n B ⊂
∞
[
B∆T −n B.
n=m
In der Wahrscheinlichkeitstheorie kennt man viele so genannte 0 − 1-Gesetze (etwa
die von Kolmogorv, Borel).
28
ERGODENTHEORIE
Da
B∆T −nB ⊂
n−1
[
T −k B∆T −(k+1) B
k=0
und die Menge auf der rechten Seite Maß Null hat, folgt µ(B∆T −n B) = 0
S
−n B, so sind die C ineinander
für beliebiges n ∈ N. Sei jetzt Cm = ∞
m
n=m T
geschachtelt:
C0 ⊃ C1 ⊃ C2 ⊃ . . .
und es gilt µ(Cm ) = µ(B) für jedes m ∈ N0 . Also folgt µ(C∆B) = 0 bzw.
µ(C) = µ(B). Ferner ist
T −1 C =
∞ [
∞
\
T −(n+1) B =
m=0 n=m
∞
\
∞
[
T −n B = C
m=0 n=m+1
und nach Voraussetzung folgt µ(C) = 0 oder µ(C) = 1. Mit dem zuvor
Gezeigten folgt nun µ(B) = 0 oder µ(B) = 1.
S
−n A.
(ii) ⇒ (iii): Sei nun A gegeben mit µ(A) > 0 und sei B = ∞
n=1 T
Dann gilt
∞
[
−1
T −n A ⊂ B.
T B=
n=2
Da T maßtreu ist, folgt weiter µ(T −1 B) = µ(B) und damit
µ(B∆T −1 B) = µ(B) − µ(T −1 B) = 0.
Also folgt µ(B) = 0 oder µ(B) = 1; da T −1 A ⊂ B und µ(A) > 0 ist
µ(B) = 1.
(iii) ⇒ (iv): Seien A und B Mengen positiven Maßes. Nach (iii) gilt
!
∞
[
T −n A = 1
µ
n=1
und damit
0 < µ(B) = µ
∞
[
n=1
B∩T
−n
!
A
≤
∞
X
n=1
µ(B ∩ T −n A);
∩ T −n A)
insbesondere existiert also ein n mit µ(B
> 0.
−1
(iv) ⇒ (i): Sei A eine Menge mit T A = A, dann gilt
0 = µ(A ∩ X \ A) = µ(T −n A ∩ X \ A)
für beliebiges n ≥ 1. Also folgt aus (iv), dass µ(A) = 0 oder µ(X \ A) = 0
bzw. µ(A) = 1 − µ(X \ A) = 1. Der Satz ist bewiesen. •
Jetzt kommen wir zu einem weiteren Kriterium für Ergodizität, das für
viele praktische Anwendungen einfacher zu verifizieren ist.
Satz 8. Die folgenden Aussagen sind äquivalent:
5. Ergodizität und Mischen
29
(i) T ist ergodisch;
(v) ist f eine meßbare Funktion mit f (T x) = f (x) für (fast) alle x,
dann ist f fast überall konstant.
(vi) ist f ∈ L2 (X, F, µ) mit f (T x) = f (x) für (fast) alle x, dann ist f
fast überall konstant.
In den Bedingungen (v) und (vi) mag man die Gleichung f (T x) = f (x) für
alle oder auch nur für fast alle x ∈ X fordern; wegen der Vernachlässigbarkeit
von Nullmengen bei der Lebesgue-Integration besteht hier Äquivalenz.
Beweis. (i) ⇒ (v): Angenommen, T ist ergodisch und f : X → C meßbar
und T -invariant. Da dann insbesondere der Realteil und der Imaginärteil
von f T -invariant sind, dürfen wir uns auf den Fall eines reellwertigen f
beschränken. Für k ∈ Z und n ∈ N sei
Akn = {x ∈ X : f (x) ∈ [ nk , k+1
n )}.
Dann gilt
T −1 Akn ∆Akn ⊂ {x ∈ X : f ◦ T (x) 6= f (x)};
da die Menge auf der rechten Seite eine Nullmenge ist, folgt nach Satz 7,
(ii), dass µ(Akn ) ∈ {0, 1}. Für jedes n ist X die disjunkte Vereinigung der
S
Mengen Akn , also X = k∈Z Akn . Also gibt es ein eindeutiges k(n) (abhängig
k(n)
von n), so dass µ(An
) = 1. Bilden wir also die Menge
Y =
∞
\
Ak(n)
n ,
n=1
so gilt µ(Y ) = 1 und f ist konstant auf Y (klar?). Da sich Y und X höchstens
um eine Nullmenge von einander unterscheiden, folgt somit, dass f fast
überall konstant ist.
Die Implikation (v) ⇒ (vi) ist trivial; es verbleibt also der Beweis von
(vi) ⇒ (i): Angenommen, T −1 A = A für eine meßbare Menge A positiven
Maßes, so haben wir µ(A) = 1 zu zeigen. Für die Indikatorfunktion zu A
gilt χA ∈ L2 (X, F, µ) und χA ◦ T = χT −1 A = χA . Nach Vorraussetzung ist
χA fast überall konstant, d.h. χA (x) = 1 für fast alle x. Damit folgt aber
µ(A) = 1. Der Satz ist bewiesen. •
Nun wollen wir zwei Beispiele von maßtreuen Abbildungen aus dem vorigen Kapitel auf Ergodizität untersuchen. Beide sind über eine Periodizitätsvorschrift erklärt, was in diesen beiden Fällen nahe legt, Kriterium (vi) des
gerade bewiesenen Satzes mit Methoden der Fourier-Analysis benutzen
zu wollen. Wir erinnern daran, dass jede L2 -Funktion durch ihre FourierReihe dargestellt wird (siehe etwa [70]).
30
ERGODENTHEORIE
♣ Bsp. 1): Die Kreisrotation Rθ : [0, 1) → [0, 1), x 7→ x + θ mod 1
beschreibt die Verteilung der gebrochenen Anteile der reellen Zahlenfolge
xn = nθ + β mit β = Rθ 0. Korollar 5 zeigte, dass die Folge (nθ) genau
dann modulo 1 gleichverteilt ist, wenn θ irrational ist. Ganz analog gilt
dies natürlich auch für ‘geshiftete’ Folgen (nθ + β). Der nachfolgende Satz
erläutert, dass dies ein ergodisches Phänomen ist:
Satz 9. Die Kreisrotation Rθ ist genau dann ergodisch bzgl. des LebesgueMaßes, wenn θ irrational ist.
Beweis. Ist θ = pq rational, so ist x 7→ e(qx) eine nicht konstante Rθ invariante Funktion:
e(qRθ x) = exp(2πiq(x + pq )) = exp(2πiqx) exp(2πip) = e(qx).
Insbesondere ist Rθ nach Satz 8, (vi), also nicht ergodisch.
Ist θ irrational, und
X
f (x) =
cn e(nx)
(12)
n
die Fourier-Reihe einer Rθ -invarianten Funktion f ∈ L2 , dann gilt
X
f (x) = f (Rθ x) = f (x + θ) =
cn e(nθ) e(nx)
n
und also mit der Eindeutigkeit der Fourier-Entwicklung cn = cn e(nθ) bzw.
cn (1 − e(nθ)) = 0
für n ∈ Z.
Für n 6= 0 folgt e(nθ) 6= 1 mit der Irrationalität von θ und also cn = 0. Damit
ist f (x) = c0 , also konstant und mit Satz 8, (vi), folgt die Ergodizität von
Rθ . Der Satz ist bewiesen. (Für einen Beweis frei von Fourier-Analysis
verweisen wir auf [26].) •
♣ Bsp. 2): Wir betrachten also die Abbildung T : [0, 1) → [0, 1), x 7→
2x mod 1. Wie oben gehen wir wieder von einer T -invarianten Funktion
f ∈ L2 mit Fourier-Entwicklung (12) aus. Dann gilt
X
f (x) = f (T x) =
cn e(2nx)
n
und ein Koeffizientenvergleich liefert nun cn = c2n . Nach der Parsevalschen
Gleichung gilt für die Koeffizienten
Z 1
X
2
|f (x)|2 dx =
|cn |2 < +∞.
kf k2 =
0
n
Also kann es kein cn 6= 0 mit n 6= 0 geben. Damit ist höchstens c0 verschieden
von Null und mit Satz 8, (v), folgt die Ergodizität von T . Dies lässt sich auf
torale Endomorphismen erweitern:
5. Ergodizität und Mischen
31
Satz 10. Es sei A ∈ Zd×d eine Matrix und
Tφ : Td → Td ,
φ(x) = Ax mod 1
für x ∈ Td . Dann ist Tφ genau dann ergodisch, wenn A keine Einheitswurzel
als Eigenwert besitzt.
Insbesondere ist die Abbildung x 7→ x mod 1 nicht ergodisch (klar!). Der
Beweis dieses allgemeinen Kriteriums ist nicht viel schwieriger als der skizzierte Spezialfall (nur länger) und kann in [19, 33] nachgelesen werden.
Aufgabe 9. Es sei m > 1 eine natürliche Zahl und X = Z/mZ der zugehörige Restklassenring modulo m (siehe etwa [75]). Sei ferner F = P(X)
und µ die Gleichverteilung auf X. Zu b ∈ {1, 2, . . . , m} sei
Tb : X → X,
x 7→ x + b mod m.
Zeige: i) Tb ist maßtreu, und ii) (X, F, µ, Tb ) ist genau dann ergodisch, wenn
b und m teilerfremd sind.
Der Ergodizität verwandt ist der Begriff des Mischens. Wir sagen eine
Abbildung T ist stark mischend, wenn für alle A, B ∈ F
lim µ(A ∩ T −n B) = µ(A)µ(B)
n→∞
gilt. Demgegenüber heißt T schwach mischend, falls stattdessen
1 X
|µ(A ∩ T −n B) − µ(A)µ(B)| = 0
lim
N →∞ N
0≤n<N
gilt. Es besteht die folgende Kette von Implikationen:
stark mischend
⇒
schwach mischend
⇒
ergodisch.
Ein Beispiel für einen stark mischenden Prozess ist etwa die Blätterteigabbildung β; hingegen sind Kreisrotationen Rθ mit irrationalem θ nur ergodisch,
nicht aber stark mischend; ein Beispiel zur Abgrenzung zwischen schwachem
und starkem Mischen findet man bei Kakutani [48].
Aufgabe 10. Man beweise all diese Behauptungen über Mischen und Ergodizität, insbesondere deren Hierarchie.
Halmos [36] fand für die Mischungsbegriffe das folgende intuitive Beispiel: Gegeben ein Beh¨lter mit 90 Prozent Gin und 10 Prozent Wermut;
nach Rühren vermischen sich die beiden Flüssigkeiten zu einem Getränk
und nach hinreichend langer Zeit sollte jede Borel-Menge des Behälters
annähernd denselben Anteil von Gin bzw. von Wermut besitzen.
32
ERGODENTHEORIE
6. Die Ergodensätze von Birkhoff und von Neumann
In der statistischen Mechanik berechnet man die physikalischen Eigenschaften eines Systems durch Mittelung über alle möglichen Zustände des
Systems. Diese Idee geht auf Boltzmann (1871) zurück, der hierzu die
Ergodenhypothese aufgestellt hat. Diese Hypothese behauptet eine Äquivalenz bzgl. der Mittelung entlang einer Trajektorie (griechisch odos) des
Systems und der Mittelung aller möglichen Zustände gleicher Energie (griechisch ergon) (bzw. Gleichheit zwischen dem zeitlichen Mittelwert und dem
Ensemble- oder Scharmittelwert). Maxwell (1879) formulierte hierzu, dass
jedes System in irgendeinem Zustand, früher oder später, jeden mit den physikalischen Gegebenheiten konsistenten Zustand durchlaufen wird. Poincaré entdeckte (1890), dass es zu restriktiv ist zu fordern, dass die Trajektorie jeden Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar
ist) tatsächlich besucht, dass also diese strenge Ergodenhypothese falsch ist.
Poincaré formulierte stattdessen eine abgeschwächte Ergodenhypothese,
derzufolge die Trajektorie jedem Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar ist) in endlicher Zeit beliebig nahe kommt (ihn aber
nicht unbedingt durchlaufen muss). Die Ergodensätze geben eine mathematische Begründung dieser abgeschwächten Ergodenhypothese und bilden
damit die Grundlage der statistischen Mechanik.∗
Einer der ersten Ergodensätze (und vielleicht auch der wichtigste) ist
der von G.D. Birkhoff [9]:
Satz 11. Sei T eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ). Gilt dann f ∈ L(X, F, µ), so existiert für fast alle
x ∈ X der Grenzwert
1 X
f (T n x)
f ∗ (x) := lim
N →∞ N
0≤n<N
und es gelten f ∗ (T x) = f ∗ (x) sowie f ∗ ∈ L(X, B, µ) und
Z
Z
f dµ.
f ∗ dµ =
X
(13)
X
Ist ferner T ergodisch, so ist f ∗ fast überall konstant und es gilt
Z
1 X
n
lim
f dµ.
f (T x) =
N →∞ N
X
(14)
0≤n<N
∗
Im Falle spontaner Symmetriebrechung kann die Ergodenhypothese verletzt werden
(Ergodizitätsbrechung) — es können dann disjunkte ergodische Bereiche im Phasenraum
auftreten; dieses Szenario kann bei Phasenübergängen auftreten, wie etwa beim Erstarren
einer Flüssigkeit oder bei Spingläsern.
6. Die Ergodensätze von Birkhoff und von Neumann
33
Dieser Satz heißt auch punktweiser Ergodensatz. Er besagt, dass das Zeitmittel von f längs eines Orbits {T n x} für fast alle x gleich dem Scharmittel
von f (über den gesamten Raum X) ist. Dies liefert i.A. eine sehr präzise
Vorhersage, obwohl kaum etwas über f oder T bekannt sein mag. Sei etwa
M ⊂ X meßbar, so folgt mit f = χM bei ergodischem T , dass das Mittel
der Besuche von T n x in M für fast alle x gleich dem Maß von M ist — Ergodizität erzwingt gewissermaßen eine Gleichverteilung! Birkhoff [10] gibt
denn auch Anwendungen im idealisierten Erde–Sonne–Mond–Problem (ein
eingeschränktes Dreikörperproblem).† Wir gehen später etwas detaillierter
auf diesen Aspekt ein.
Unser Beweis folgt Kamae & Keane [49]:
Beweis. Offensichtlich genügt es den Satz für nicht negative Funktionen zu
beweisen, da ansonsten (wie stets in der Integrationstheorie) mit Hilfe der
Linearität des Integrals zunächst für reellwertige f jeder der Summanden
in der Zerlegung f = f + − f − mit nicht negativen f + , f − für sich behandelt werden kann (siehe (10)), und dann der Übergang zu komplexwertigen
Funktionen durch separate Betrachtung ihrer Real- bzw. Imaginärteile gelingt. Sei also f ≥ 0. Dann definieren wir punktweise
X
fN (x) =
f (T n x)
0≤n<N
sowie
f (x) = lim sup
N →∞
fN (x)
N
und
f (x) = lim inf
N →∞
fN (x)
.
N
Damit sind f und f meßbar (denn ganz allgemein gilt lim supN →∞ gN (x) =
inf m supN ≥m gN (x) bzw. etwas analoges für lim inf). Wegen
fN (T x)
fN +1 (x) N + 1 f (x)
f (T x) = lim sup
= lim sup
·
−
N
N +1
N
N
N →∞
N →∞
fN +1 (x)
= f (x)
= lim sup
N +1
N →∞
ist f also T -invariant; ganz analog zeigt man f (T x) = f (x). Um die Existenz
des Grenzwertes f ∗ , seine Integrierbarkeit und T -Invarianz zu zeigen, genügt
es
Z
Z
Z
f dµ
f dµ ≤
f dµ ≤
(15)
X
X
X
nachzuweien, denn dann folgt über f ≤ f zunächst f (x) = f (x) = f ∗ (x)
für fast alle x und nach Integration somit (13). (Ist nämlich das LebesgueIntegral über eine nicht negative Funktion gleich Null, so ist die Funktion
fast überall gleich Null.)
†
Und auch zum konvexen Billiard.
34
ERGODENTHEORIE
Nun sei ǫ ∈ (0, 1) und L > 0 beliebig gegeben. Nach Definition von f
gibt es dann zu jedem x ∈ X eine natürliche Zahl m mit
fm
≥ (1 − ǫ) min{f (x), L}.
m
Zu jedem δ > 0 gibt es ferner eine natürliche Zahl M , so dass
X+ := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≥ m(1 − ǫ) min{f (x), L}
ein Maß größer gleich 1 − δ besitzt. Definiere nun
f (x) falls x ∈ X+ ,
˜
f (x) =
L
sonst.
Dann gilt f ≤ f˜; ist nämlich x ∈ X \ X+ , so gilt
fm (x) < m(1 − ǫ) min{f (x), L}
und damit f ≤ L. Für x ∈ X und n ∈ N0 sei
an := an (x) := f˜(T n x)
und
bn := bn (x) := (1 − ǫ) min{f (x), L}.
Dann gibt es für jedes n ∈ N0 eine natürliche Zahl 1 ≤ m ≤ M , so dass
an + . . . + an+m−1 ≥ bn + . . . + bn+m−1 .
(16)
Um dies zu verifizieren, nehmen wir zunächst T n x ∈ X+ an. In diesem
Fall gibt es ein 1 ≤ m ≤ M , so dass
fm (T n x) ≥ m(1 − ǫ) min{f (T n x), L}
= m(1 − ǫ) min{f (x), L} = bn + . . . + bn+m−1 ;
hier haben wir die oben bewiesene T -Invarianz von f benutzt. Also gilt
an + . . . + an+m−1 = f˜(T n x) + . . . + f˜(T n+m−1 x)
≥ f (T n x) + . . . + f (T n+m−1 x) = fm (T n x)
= bn + . . . + bn+m−1 .
Ist hingegen T n x 6∈ X+ , so mag man m = 1 nehmen, denn dann gilt
an = f˜(T n x) = L ≥ (1 − ǫ) min{f (x), L} = bn .
Also ist unsere Behauptung über (16) bewiesen.
Mit (16) gibt es nun zu jeder natürlichen Zahl N > M rekursiv definierte
ganze Zahlen m0 < m1 < . . . < mk < N mit m0 ≤ M, mj+1 − mj ≤ M für
j = 0, 1, . . . , k − 1 und N − mk ≤ M sowie
a0 + . . . + am0 −1 ≥ b0 + . . . + bm0 −1 ,
am0 + . . . + am1 −1 ≥ bm0 + . . . + bm1 −1 ,
...
...
amk−1 + . . . + amk −1 ≥ bmk−1 + . . . + bmk −1 .
6. Die Ergodensätze von Birkhoff und von Neumann
35
Addition dieser Ungleichungen führt auf
a0 + . . . + aN −1 ≥ a0 + . . . + amk −1
(17)
≥ b0 + . . . + bmk −1 ≥ b0 + . . . + bN −M −1 .
Übersetzt bedeutet dies
X
f˜(T n x) ≥ (N − M )(1 − ǫ) min{f (x), L}
0≤n<N
(man beachte dabei, dass die bn allesamt unabhängig von n sind). Wir integrieren diese Ungleichung über X und erhalten
Z
X Z
n
˜
min{f (x), L} dµ(x).
f (T x) dµ(x) ≥ (N − M )(1 − ǫ)
0≤n<N
X
X
Wegen der Maßtreue von T gilt nach Satz 6
Z
Z
g(x) dµ(x)
g(T x) dµ(x) =
X
X
für alle integrierbaren Funktionen g, insbesondere für g = f˜. Damit entledigen wir uns der Mittelung über 0 ≤ n < N und erhalten
Z
Z
˜
min{f (x), L} dµ(x).
f dµ ≥ (N − M )(1 − ǫ)
N
X
X
Da
Z
f˜(x) dµ(x) =
Z
X+
X
f (x) dµ(x) + Lµ(X \ X+ ),
ergibt sich nach Konstruktion
Z
Z
Z
f˜(x) dµ(x) − Lµ(X \ X+ )
f (x) dµ(x) =
f (x) dµ(x) ≥
X
X+
X
Z
N −M
min{f (x), L} dµ(x) − Lδ.
(1 − ǫ)
≥
N
X
Nun lassen wir zunächst N gegen Unendlich streben, dann δ und ǫ gegen
Null und erhalten
Z
Z
min{f , L} dµ.
f dµ ≥
X
X
Der Satz von der monotonen Konvergenz besagt für eine (bis auf eine vernachlässigbare Nullmenge) monoton wachsende Folge nicht negativer meßbarer Funktionen gn : X → R, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
X n→∞
n→∞ X
Speziell mit gL = min{f , L} und L → ∞ können wir also Limesbildung und
Integration vertauschen:
Z Z
Z
lim min{f , L} dµ =
f dµ.
min{f , L} dµ =
lim
L→∞ X
X
L→∞
X
36
ERGODENTHEORIE
Also ergibt sich
Z
X
f dµ ≥
Z
f dµ.
X
Dies ist die zweite Ungleichung in (15).
Für den Nachweis der ersten Ungleichung in (15) starten wir ähnlich wie
oben: Für ǫ > 0 existiert zu jedem x ∈ X eine natürliche Zahl m mit
fm (x)
≤ f (x) + ǫ.
m
Zu beliebigem δ > 0 gibt es eine natürliche Zahl M , so dass
X− := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≤ m(f (x) + ǫ)
ein Maß mindestens 1 − δ besitzt. Jetzt definiere man
f (x) falls x ∈ X− ,
ˆ
f (x) =
0
sonst.
Dann gilt fˆ ≤ f und mit bn = fˆ(T n x) und an = f (x) + ǫ (unabhängig von
n diesmal) folgt via (16) und (17) nun
X
fˆ(T n x) ≤ N (f (x) + ǫ).
0≤n<N −M
Integration beider Seiten ergibt unter Berücksichtigung der Maßtreue von T
Z
Z
ˆ
f dµ + ǫN.
f dµ ≤ N
(N − M )
X
X
Da f ≥ 0, ist das Maß µ̃ definiert durch
Z
f dµ
µ̃(A) =
A
absolut stetig, d.h. es gibt ein δ̃ > 0, so dass µ̃(A) < δ, wenn immer µ(A) < δ̃.
Wegen µ(X \ X− ) < δ, folgt deshalb
Z
Z
Z
Z
N
ˆ
f dµ ≤
f dµ +
f dµ =
(f + ǫ) dµ + δ̃
N −M X
X\X−
X
X
Mit zunächst N → ∞, dann δ → 0 (und damit ebenso δ̃ → 0) und letztendlich ǫ → 0 ergibt sich
Z
Z
f (x) dµ(x)
f (x) dµ(x) ≤
X
X
und damit ist (15) bewiesen.
Es verbleibt im Falle einer ergodischen Abbildung T , die Identität (14)
zu zeigen. Nach Satz 8, (v), ist f ∗ fast überall konstant, also f ∗ (x) = c für
fast alle x ∈ X. Dann gilt aber
Z
Z
f dµ.
f ∗ dµ =
c=
X
X
6. Die Ergodensätze von Birkhoff und von Neumann
37
Der Satz ist bewiesen. •
Die Konvergenz im Birkhoffschen Satz kann sehr langsam sein. Speziell in den vorangegangenen Beispielen illustriert sich dies mit Hilfe von
Simulationen wie folgt:
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
0
1000
0
0
n
1000
0
1000
n
n
Abbildung 8. Links T x = 2x mod 1, in der Mitte die logistische Abbildung T x = 4x(1 − x), rechts der Graph der
Abbildung T x = {1/x}, die später eine wichtige Rolle spielen
wird.
Als erste Anwendung des Birkhoffschen Ergodensatz beweisen wir nun
eine weitere maßtheoretische Charakterisierung von Ergodizität:
Satz 12. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu bzgl. µ. Dann ist T genau dann ergodisch, wenn für alle A, B ∈ F
gilt, dass
1 X
µ(T −n A ∩ B) = µ(A)µ(B).
(18)
lim
N →∞ N
0≤n<N
Der Satz besagt also, dass die Bilder einer Menge A unter einer ergodischen
Abbildung T im Mittel einen Teil einer beliebig gegebenen meßbaren Menge
B überdecken, der proportional zum Maß von B ist! Man vergleiche diese Charakterisierung von Ergodizität mit den Begriffen des schwachen und
starken Mischens aus dem vorangegangenen Kapitel.
Beweis. Angenommen, T ist ergodisch, dann liefert der Birkhoffsche Ergodensatz 11 angewandt mit der Indikatorfunktion f = χA
Z
1 X
n
χA dµ = µ(A)
(19)
χA (T x) =
lim
N →∞ N
X
0≤n<N
für fast alle x. Damit folgt
1 X
1
lim
χT −n A∩B (x) = lim
N →∞ N
N →∞ N
0≤n<N
X
χA (T n x)χB (x) = µ(A)χB (x)
0≤n<N
fast überall. Für jedes N ist der links auftretende Limes beschränkt gegen
die Funktion konstant 1. Also ergibt sich mit dem Lebesgueschen Satz von
38
ERGODENTHEORIE
der majorisierten Konvergenz (zitiert im Beweis von Satz 6) sofort
Z
1 X
1 X
−n
lim
lim
µ(T A ∩ B) =
χT −n A∩B (x) dµ(x)
N →∞ N
X N →∞ N 0≤n<N
0≤n<N
Z
χB (x) dµ(x) = µ(A)µ(B),
= µ(A)
X
also Formel (18).
Für die Umkehrung nehmen wir an, dass T −1 A = A gelte. Mittels A = B
folgt dann aus (18), dass
1 X
µ(A) = µ(A)2 ,
lim
N →∞ N
0≤n<N
was auf µ(A) = 0 oder µ(A) = 1 führt. Der Satz ist bewiesen. •
Es gibt viele verschiedene Beweise dieses Satzes. Einen alternativen Beweis,
der auf der Wienerschen Maximalungleichung beruht, findet man in [26].
Wir werden in den folgenden Kapiteln viele Anwendungen des Birkhoffschen Ergodensatzes geben. Zum Aufwärmen mag man die Beispiele
aus den vorangegangenen Kapiteln untersuchen.
Aufgabe 11. Man wende den Birkhoffschen Ergodensatz 11 auf die
Kreisrotation an und gebe damit einen alternativen Beweis für Korollar 5.
Als Nächstes beweisen wir den Ergodensatz von John von Neumann
[60]. Dies ist tatsächlich der erste Ergodensatz überhaupt (auch wenn dieses
Ergebnis erst ein Jahr nach Birkhoff veröffentlicht wurde).
Satz 13. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu. Dann gilt für f, g ∈ L2 (X, F, µ), dass der Grenzwert
Z
1 X
f (T n x)g(x) dµ(x)
N
X
0≤n<N
für N → ∞ existiert; ist T ergodisch so gilt
Z
Z
Z
1 X
n
g dµ.
f dµ
lim
f (T x)g(x) dµ(x) =
N →∞ N
X
X
X
(20)
0≤n<N
Dieser Satz heißt auch Ergodensatz im Mittel, da hier noch über X integriert
wird; die Funktion g beschreibt dabei irgendeine zulässige Gewichtsfunktion.
Speziell mit g = f ergibt sich die L2 -Konvergenz
1 X
lim f (T n x) − f ∗ 2 = 0
(21)
N →∞ N
0≤n<N
gegen eine T -invariante Grenzfunktion f ∗ ∈ L2 . Der von Neumannsche Ergodensatz ist eine funktionalanalytische Variante. Die rechte Seite ist dabei
6. Die Ergodensätze von Birkhoff und von Neumann
39
gerade die orthogonale Projektion von f auf den Raum der T -invarianten
fR im Hilbert-Raum L2 versehen mit dem Skalarprodukt hf, gi = kf gk22 =
f g dµ. Wir geben nun die Skizze vom
Beweis. Betrachte den Unterraum aller T -invarianten Funktionen
I := {f ∈ L2 : f ◦ T = f }
sowie
J := {f ∈ L2 : ∃ h ∈ L2 mit f = h ◦ T − h}.
Für f1 ∈ I und f2 = h ◦ T − h ∈ J gilt offenbar
1 X
1 X
1
f1 (T n x) = f1 (x) und
f2 (T n x) = (h(T N x) − h(x))
N
N
N
0≤n<N
0≤n<N
für jedes N ∈ N. Mit der Cauchy-Schwarzschen Ungleichung folgt
Z
1 2
n
(h(T x) − h(x))g(x) dµ(x) ≤ khk2 kgk2 ,
N X
N
was für N → ∞ gegen Null geht. Können wir f gemäß f = f1 + f2 mit
solchen f1 , f2 zerlegen, so folgt also
Z
1 X
f (T n x)g(x) dµ(x)
N
X
0≤<N
Z
Z
1 X
f1 (x)g(x) dµ(x) +
=
f2 (T n x)g(x) dµ(x)
N
X
X
0≤<N
und damit
Z
Z
Z
1 X
f g dµ.
f1 g dµ =
f (T n x)g(x) dµ(x) =
N →∞ N
X
X
X
lim
0≤<N
Im Allgemeinen gibt es allerdings keine solche Zerlegung von f . Tatsächlich
genügt es, für beliebig kleines ǫ > 0 Funktionen f1 ∈ I und f2 ∈ J zu
finden, so dass
Z
|f − (f1 + f2 )|2 dµ < ǫ
X
gilt, also f1 + f2 die Zielfunktion f im quadratischen Mittel beliebig genau
approximieren. Ganz ähnlich wie oben im Falle f = f1 + f2 skizziert, ergibt
sich dann
Z
Z
Z
1 X
g dµ.
lim
f dµ
f (T n x)g(x) dµ(x) =
N →∞ N
X
X
X
0≤n<N
Zum Abschluss des Beweises verbleibt also lediglich zu zeigen, dass eine
Zerlegung von L2 in eine direkte Summe L2 = I + J existiert, wobei J für
40
ERGODENTHEORIE
den Abschluss von J steht. Dazu nehmen wir an, dass f orthogonal auf J
steht, also hf, f2 i = 0 für alle f2 ∈ J gilt, bzw. insbesondere
Z
Z
|f |2 dµ = f ◦ T · f dµ.
X
Dann ist zu zeigen, dass f ∈ I. Hierzu berechnet man leicht
Z
|f ◦ T − f |2 dµ = 0.
X
Also gilt f ◦ T = f fast überall, d.h. f ∈ I, was den Beweis abschließt. •
Aufgabe 12. Man vervollständige die obige Berweisskizze (etwa mit Hilfe
von [66]) und schlussfolgere ausserdem (21). Man zeige ferner, dass für
f ∈ Lp mit 1 ≤ p < +∞ die Konvergenz (21) gegen dieselbe Aussage bzgl.
der p-Norm mit einem Grenzwert f ∗ ∈ Lp ersetzt werden kann
Birkhoff wählte gegenüber den Vorarbeiten von von Neumann das
Konzept des Maßraumes, was zu einem allgemeineren und stärkeren Ergodensatz führt. Wichtige Verallgemeinerungen beider Ergodensätze gelangen
u.a. Wiener & Wintner [90] durch Betrachtung allgemeiner Maßräume,
Hurewicz [41]‡ unter Einbeziehung von Gewichten, und schließlich – noch
allgemeiner – Chacon & Ornstein [16] (siehe hierzu auch [23]).
Diese Ergodensätze wurden von Kolmogorov und Kchintchine in die
Sprache der Wahrscheinlichkeitstheorie übertragen (siehe hierzu [52, 33]).
R
Im Satz von Birkhoff ist dabei f ∗ = f dµ im Falle einer ergodischen Abbildung T als Erwartungswert von f zu verstehen. Diese Sichtweise erlaubt
weitreichende Verallgemeinerungen eines fundamentalen Gleichverteilungssatz: Das Gesetz der großen Zahlen besagt, dass zu einer gegebenen Folge
von identisch verteilten, unabhängigen Zufallsvariablen X1 , X2 , . . . auf einem
Wahrscheinlichkeitsraum mit endlichem Erwartungswert E|Xn | < +∞, im
Grenzwert
N
1 X
Xn = EX1
fast überall
lim
N →∞ N
n=1
gilt. Die Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen kann also mit der Mittelung über die möglichen Realisierungen einer
einzigen vertauscht werden — ohne ein solches Grenzverhalten wäre eine
Theorie des Zufalls unmöglich. Diese Beobachtung geht bereits zuruück auf
Daniel Bernoulli; die erste Formulierung für Zufallsvariable verdanken
wir Tschebyscheff.
‡
siehe dazu auch das exzellente Internetskript von Dajani, zu finden unter
http://www.math.uu.nl/people/dajani/lecturenotes2006.pdf
6. Die Ergodensätze von Birkhoff und von Neumann
41
Eine wichtige Anwendung besitzt der Birkhoffsche Ergodensatz in der
Wertverteilungstheorie von Zeta- und L-Funktionen. Voronin bewies eine
erstaunliche Approximationseigenschaft für die Riemannsche Zetafunktion
∞
X
Y
1
1 −1
ζ(s) :=
(22)
=
1− s
ns
p
p
n=1
für Re s > 1, wobei das Produkt über alle Primzahlen erhoben wird (und die
Identität zwischen Produkt und Reihe eine analytsiche Version der eindeutigen Primfaktorzerlegung in Z ist); ζ(s) besitzt eine analytische Fortsetzung
nach C \{1} (in s = 1 besteht mit der harmonischen Reihe eine Singularität).
Voronin [86] bewies: Sei 0 < r < 41 und g(s) eine nicht verschwindende
stetige Funktion definiert auf der Kreisscheibe |s| ≤ r, die im Inneren analytisch ist, dann gibt es ein reelles τ > 0 mit
max ζ s + 34 + iτ − g(s) < ǫ;
|s|≤r
die Menge aller τ ∈ [0, T ] mit dieser Eigenschaft hat eine positive untere Dichte bzgl. des Lebesgue-Maßes. Mittlerweile kennt man viele ähnliche Beispiele universeller Zetafunktionen, die also die Approximation einer
großen Klasse von Funktion durch Translate ihrer selbst erlauben. Man vermutet, dass jede Dirichlet-Reihe mit hinreichend reichhaltiger Wertverteilung diese Eigenschaft mit der Zetafunktion teilt; in diesem Zusammenhang
besteht auch die Frage: Ist Universalität ein ergodisches Phänomen? Die modernen Beweise von solchen Universalitätstheoremen benutzen tatsächlich
den Birkhoffschen Ergodensatz, erlauben aber leider nicht, Universalität
als eine ergodische Eigenschaft von Zetafunktionen zu verstehen. Interessanterweise publizierte Birkhoff auch einen Universalitätssatz in [8]: Es gibt
eine ganze Funktion f (z) mit der Eigenschaft, dass es zu jeder gegebenen
ganzen Funktion g(z) eine Folge komplexer Zahlen an gibt mit
f (z + an )
−→ g(z)
n→∞
gleichmäßig auf Kompakta in C.
Obwohl das Resultat dem Voroninschen sehr ähnelt, so ist die Birkhoffsche universelle Funktion f nicht explizit bekannt; tatsächlich sind die
Riemannsche Zetafunktion und ihre Verwandten die einzigen explizit bekannten universellen Funktionen. Mehr zu diesem faszinierenden Themenkreis findet man in [76].
Abschliessend etwas Biographisches zu unseren Protagonisten (cf.
‘The MacTutor History of Mathematics archive’ http://turnbull.mcs.stand.ac.uk/ history/): George D. Birkhoff, ∗1884 -†1944, vielleicht der
bekannteste amerikanische Mathematiker seiner Zeit, lehrte und arbeitete
in Harvard und Princeton über mathematische Physik, insbesondere Differentialgleichungen (bewies u.a. Poincarés ‘Last Geometric Theorem’, ein
42
ERGODENTHEORIE
Spezialfall des Dreikörperproblems), dem Vierfarbenproblem, und natürlich
dynamischen Systemen und Ergodentheorie. Sein Ergodensatz gab der kinematischen Gastheorie von Maxwell und Boltzmann ein rigoroses Fundament.
“Birkhoff ’s discovery of what has come to be known as the
’ergodic theorem’ in 1931 - 32 is his most well-known contribution to dynamics. This theory, which resolved in principle
one of the fundamental problems arising in the theory of gases and statistical mechanics, has been influential not only in
dynamics itself but also in probability theory, group theory,
and functional analysis.” (Butler)
Birkhoff gewann den ersten Bocher Memorial Prize der American Mathematical Society und engagierte sich als deren Vizepräsident. Es gibt jedoch auch eine negative Seite: So beschrieb ihn Einstein als einer der Welt
größten Antisemiten; Birkhoff hat aus seiner einflussreichen Position heraus bei der Besetzung von Professuren kategorisch die Einstellung von Juden
verhindert. In der Ergodentheorie spielt auch sein Sohn Garrett Birkhoff, ∗1911-†1996, eine wichtige Rolle. Im Gegensatz zu seinem Vater, war
Garrett nicht antisemitisch eingestellt. Zuerst arbeitete er in der Gruppentheorie, während des zweiten Weltkrieges und auch später dann mehr zu
angewandten Problemen der Mathematik (insbesondere numerische lineare
Algebra). In dieser Zeit befreundete er sich mit John von Neumann.
John von Neumann (eigentlich János mit Vornamen), ∗1903 -†1957,
wuchs in einer jüdischen Familie in Budapest auf und beeindruckte seine
Umwelt schon sehr früh mit seinem phänomenalen Gedächtnis:
“At the age of six, he was able to exchange jokes with his
father in classical Greek. The Neumann family sometimes
entertained guests with demonstrations of Johnny’s ability
to memorise phone books. A guest would select a page and
column of the phone book at random. Young Johnny read
the column over a few times, then handed the book back to
the guest. He could answer any question put to him (who
has number such and such?) or recite names, addresses, and
numbers in order.” (Poundstone)
von Neumann studierte Mathematik (aber auch Chemie!) ab 1921 in Budapest, Berlin und Zürich u.a. bei Weyl und Pólya; er promovierte 1926
mit einer Arbeit über Ordinalzahlen in der Mengenlehre. Er lehrte daraufhin in Berlin, Hamburg und Göttingen (noch zu Zeiten Hilberts). Auf
Einladung von Veblen kam von Neumann 1929 nach Princeton, um über
Quantenmechanik vorzutragen; kurz danach wurde er dort Professor am
7. Die Wiederkehrsätze von Poincaré und Kac
43
neugegründeten Institute for Advanced Studies (zusammen mit Alexander, Einstein, Morse, Veblen und Weyl). Nebenbei hatte er auch
noch akademische Positionen in Deutschland inne, von denen er jedoch sofort bei der Machtergreifung durch die Nazis zurücktrat. von Neumann
ist auch bekannt durch seine Vorliebe für ausschweifende Parties! In der
Mathematik beschäftigte er sich u.a. mit Logik und axiomatischer Mengenlehre, Maßtheorie, der mathematischen Begründung der Quantenmechanik, statistischer Mechanik und Operatortheorie. In diesem Kontext gelang
ihm auch der erste Beweis eines Ergodensatzes überhaupt; auch fand er
mit diesen Ideen und Haars Entwicklung der Maßtheorie für Gruppen eine
Teillösung des fünften Hilbertschen Problems (über die Charakterisierung
von Lie-Gruppen). Ferner arbeitete er zur Spieltheorie (die er im Wesentlichen begründete), fastperiodischen Funktionen, nicht linearen partiellen
Differentialgleichungen, aber auch in der Begründung der Informatik (zelluläre Automaten). Während des zweiten Weltkrieges trug er in Los Alamos
mit wesentlichen Ideen zum Bau der Atom- und Wasserstoffbombe bei. Er
gewann viele Preise und Ehrungen und starb recht jung an Krebs.
7. Die Wiederkehrsätze von Poincaré und Kac
Ist unser Sonnensystem stabil? Die Dynamik von zwei Körpern im
Raum unter Berücksichtigung ihrer Anziehungskräfte werden von den Keplerschen Gesetzen beschrieben. Henri Poincaré gelang in seiner 270seitigen Arbeit [64] eine Teillösung des so genannten Dreikörperproblems,
d.h. die mathematische Beschreibung des Bahnverlaufes von drei Körpern
unter dem gegenseitigen Einfluss ihrer gegenseitigen Gravitationskräfte.§ In
dieser Arbeit sowie dem monumentalen dreibändigen Werk [65] legt Poincaré die Fundamente für die mathematische Ergodentheorie. Hier findet
sich u.a. auch der berühmte Wiederkehrsatz von Poincaré.¶ Zuallererst
§
Diese ausserordentliche Arbeit wurde vom schwedischen König Oscar II. aus Anlass
seines sechzigsten Geburtstages prämiert; allerdings verzögerte sich die Publikation um
drei Jahre (bzw. fünfzig Briefen Korrespondenz mit Phragmén und Mittag-Leffler,
die einen Fehler in der ursprünglichen Fassung gefunden hatten). Sie enthält die wesentlichen Ideen und Konzepte zur Behandlung chaotischer Bewegungen und invarianter Integrale. Die allgemeine analytische Lösung des Dreikörperproblems fand Sundman 1907.
Die Stabilität eines Dreikörpersystems beschreibt die KAM-Theorie von Kolmogorov,
Arnold & Moser aus der Periode 1954-1964.
¶
Über Poincaré gäbe es noch sehr viel zu berichten, z.B., dass er mit Lorentz und natürlich Einstein zu den Entdeckern der speziellen Relativitätstheorie
gehört, und natürlich seine Arbeiten zur Topologie, incl. dem ersten geknackten der sieben Millenniumsprobleme, nämlich der kürzlich von Perelman bewiesenen PoincaréVermutung. Für eine ausführliche Würdigung seines Wirkens siehe http://turnbull.mcs.stand.ac.uk/∼history/.
44
ERGODENTHEORIE
benötigen wir aber noch ein wenig Vokabular. Sei T eine maßtreue Abbildung auf einem Wahrscheinlichkeitsraum (X, F, µ) und A eine meßbare
Menge. Ein Punkt x ∈ A heißt dann A-rekurrent, wenn es eine natürliche
Zahl n gibt, so dass T n x ∈ A gilt. Der Rekurrenzbegriff ist von zentraler
Bedeutung in der topologischen Dynamik. Tritt derselbe Zustand in einem
dynamischen System exakt in derselben Weise wieder ein, so sprechen wir
auch von Periodizität. Abschwächend dazu gibt es auch den von Bohr entwickelten Begriff der Fastperidoizität, falls man nur auf die ein oder andere
Weise in die Nähe des Zustandes gelangt. Poincarés Wiederkehrsatz gibt
sogar noch mehr als bloße Rekurrenz:
Satz 14. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und A eine meßbare Menge mit µ(A) > 0.
Dann kehrt für fast alle x ∈ A der Orbit {T n x}n unendlich oft nach A
zurück, insbesondere ist x fast sicher A-rekurrent.
P
n
Äquivalent hierzu ist die Divergenz der unendlichen Reihe ∞
n=0 χA (T x)
für fast alle x. Diese Formulierung erinnert an die fast überall bestehende
Gleichung (19) aus dem Beweis von Satz 12. Tatsächlich folgt direkt aus
dem Birkhoffschen Ergodensatz
Z
1 X
n
χA dµ = µ(A).
χA (T x) =
lim
N →∞ N
X
0≤n<N
Die Einschränkung, dass Rekurrenz i.A. nur fast überall besteht, es also eine Nullmenge von nicht-rekurrenten Punkten geben kann, sieht man leicht
mit Hilfe der Abbildung T x = 2x mod 1 aus dem Gelfandschen Problem
ein: Der Orbit von x = 21 (oder irgendeinem Reziproken einer Zweierpotenz)
ist schließlich stationär in 0. Der Poincarésche Wiederkehrsatz liefert allerdings einen Beweis der schwachen Ergodenhypothese (die wir im vorigen
Kapitel kurz angesprochen hatten). Natürlich hat Poincaré seinen Satz
nicht in der Sprache der Maßtheorie verfasst und bewiesen.
Wir geben jetzt einen alternativen Beweis, der weniger schweres
Geschütz benutzt:
Beweis. Sei B die Teilmenge von A, die genau aus den nicht A-rekurrenten
x besteht, d.h.
B = {x ∈ A : T n x 6∈ A
für alle n ∈ N}.
Wir zeigen zunächst µ(B) = 0. Es gilt B ∩ T −n B = ∅ für beliebiges
n und damit T −m B ∩ T −n B = ∅ für alle m 6= n. Also sind die Mengen B, T −1 B, T −2 B, . . . paarweise disjunkt und weil T maßtreu ist, folgt
7. Die Wiederkehrsätze von Poincaré und Kac
45
µ(B) = µ(T −n B) für alle n ∈ N. Angenommen, µ(B) > 0, dann folgte

1 = µ(X) ≥ µ 
[
n∈N0
T
−n

B =
∞
X
µ(B) = +∞,
n=0
ein Widerspruch. Dies beweist bereits die A-Rekurrenz µ-fast aller x ∈ A.
Tatsächlich kehren aber sogar fast alle x unendlich oft nach A zurück, denn
bezeichnet
C = {x ∈ A : T n x ∈ A nur für endlich viele n ∈ N},
so gilt
C = {x ∈ A : T n x ∈ B für irgendein n ∈ N0 } ⊂
∞
[
T −n B.
n=0
Wegen µ(B) = 0 folgt mit der Maßtreue von T nun µ(C) = 0. Der Satz ist
bewiesen. •
Dieser Satz (und natürlich auch sein Beweis) basiert darauf, dass wir
es mit einem endlichen Maß zu tun haben. Beispielsweise ist die Abbildung
T : R → R, T (x) = x+1 maßtreu auf R bzgl. des Lebesgue-Maßes, aber für
jede beschränkte Menge A ⊂ R mit x ∈ A ist die Menge {n ∈ N : T n x ∈ A}
endlich, womit T keine Rekurrenz zulässt. Dies zeigt auf, dass die Behandlung maßtreuer Abbildungen in Wahrscheinlichkeitsräumen wesentlich einfacher als in allgemeinen Maßräumen ist. Ist übrigens (X, F, µ, T ) ein ergodisches System mit diskretem Zustandsraum X und Gleichverteilung µ, so
ist die Wiederkehr ganz sicher (warum?).
Aufgabe 13. Man beweise folgende metrische Version: Es gelten dieselben
Voraussetzungen wie in Satz 14 und X besitze zusätzlich die Struktur einer
mit µ verträglichen Metrik d. Dann gilt für fast alle x
lim inf d(x, T n x) = 0.
n→∞
Nun eine physikalische Interpretation des Wiederkehrsatzes: Gegeben ein
Container im R3 mit evakuierter rechter Kammer, getrennt von seiner mit
einem Gas gefüllten linken Kammer durch eine Trennwand. Nun wird die
Trennwand entfernt. Ohne die Orte und Geschwindigkeiten der Gasmoleküle
zu diesem Zeitpunkt zu kennen, ist zu erwarten, dass diese nicht in der linken
Kammer verbleiben, sondern sich so mit dem Vakuum rechts mischen, dass
46
ERGODENTHEORIE
– mehr oder weniger – eine Gleichverteilung entsteht.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
|
|
|
|
|
|
|
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
−→
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
◦
•
◦
•
•
•
◦
•
•
•
◦
•
•
◦
•
◦
◦
◦
◦
◦
•
•
◦
•
◦
•
◦
◦
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
•
◦
•
◦
•
•
◦
◦
•
•
◦
◦
◦
•
•
•
Entgegen unserer Intuition folgt nach dem Poincaréschens Wiederkehrsatz, dass sich nach endlicher Zeit die Ausgangskonstellation, also rechts das
Vakuum (◦), links sämtliche Gasmoleküle (•) wieder einstellt. Dies ist ein
scheinbarer Widerspruch zum zweiten Hauptsatz der Thermodynamik und
Boltzmanns Satz, demzufolge nämlich die Entropie eines abgeschlossenen
Systems nicht abnehmen kann.k Allerdings sind diese Aussagen primär statistischer Natur und die scheinbare Inkompatibilität hebt sich auf, wenn man
die erwartete Rückkehrzeit berücksichtigt, die in allen denkbaren praktischen Fällen weit jenseits des Alters unseres Universums ist. Für eine Wahrscheinlichkeitsanalyse, solche Verletzungen des zweiten Hauptsatzes beobachten zu können, siehe Evans & Searls [29].
Im Kontext des Poincaréschen Wiederkehrsatzes 14 ist also die Frage
interessant, wie bald denn der Orbit {T n x} die meßbare Menge A besucht.
Für unsere weiteren Untersuchungen in diese Richtung greifen wir eine Idee
von Kakutani [47] auf, nämlich die Abbildung T nur dann zu betrachten,
wenn T n x sich in A befindet. Zu x ∈ A definieren wir die Rückkehrzeit von
x nach A durch
nA (x) = min{n ∈ N : T n x ∈ A}.
Als Minimum ist nA meßbar (hierbei setzen wir natürlich A als meßbar
voraus). Nach Poincarés Wiederkehrsatz 14 ist nA (x) für fast alle x endlich.
Nun entfernen wir aus A ∈ F die Nullmenge all der x, für die nA (x) =
+∞ gilt und schreiben hierfür wiederum A. Dazu erklären wir ein von µ
induziertes Maß auf der von F ∩ A erzeugten σ-Algebra vermöge
µA (B) =
µ(B)
µ(A)
für B ⊂ A
(was uns an den Begriff der bedingten Wahrscheinlichkeit aus der Stochastik erinnert) und erhalten damit einen weiteren Wahrscheinlichkeitsraum
(A, F ∩ A, µA ). Ferner bilden wir zu T die induzierte Abbildung
TA : A → A,
k
x 7→ T nA (x) x.
Nach dem zweiten Hauptsatz ist übrigens eine Perpetuum mobile unmöglich.
7. Die Wiederkehrsätze von Poincaré und Kac
47
Als Nächstes beweisen wir folgenden technischen
Satz 15. Es sei A meßbar und es gelten die obigen Definitionen und Voraussetzungen. Dann ist die Abbildung TA maßtreu bzgl. µA . Ferner ist mit
T auch TA ergodisch.
Beweis. Für jedes n ∈ N sei
An = {x ∈ A : n(x) = n},
Bn = {x ∈ X \ A : T x, . . . , T n−1 x 6∈ A, T n x ∈ A}.
Dann gilt An ∩ Bm = ∅ und es folgt
T −1 A = A1 ∪ B1
T −1 Bn = An+1 ∪ Bn+1
und
für n ∈ N.
(23)
Sei jetzt C ∈ F ∩ A. Da T maßtreu bzgl. µ ist, gilt µ(C) = µ(T −1 C) und
wir haben selbiges für µA zu zeigen. Es gilt
∞
∞
[
[
An ∩ T −n C,
An ∩ TA−1 C =
TA−1 C =
n=1
n=1
wobei die Mengen An ∩
T −n C
paarweise disjunkt sind. Also folgt
µ(TA−1 C) =
∞
X
n=1
µ(An ∩ T −n C).
(24)
Andererseits liefert wiederholtes Anwenden von (23) unter Berücksichtigung
der Maßtreue
µ(T −1 C)
=
=
=
...
=
µ(A1 ∩ T −1 C) + µ(B1 ∩ T −1 C)
µ(A1 ∩ T −1 C) + µ(T −1 (B1 ∩ T −1 C))
µ(A1 ∩ T −1 C) + µ(A2 ∩ T −2 C) + µ(B2 ∩ T −2 C)
N
X
n=1
Nun gilt ähnlich
1≥µ
also strebt µ(Bn
∞
[
µ(An ∩ T −n C) + µ(BN ∩ T −N C).
n=1
Bn ∩ T
∩ T −n C)
µ(C) = µ(T
−1
−n
C
µA (C) =
=
∞
X
n=1
µ(Bn ∩ T −n C),
mit n → ∞ gegen Null. Das impliziert via (24)
C) =
∞
X
n=1
was auf
!
µ(An ∩ T −n C) = µ(TA−1 C),
µ(TA−1 C)
µ(C)
=
= µA (TA−1 C)
µ(A)
µ(A)
48
ERGODENTHEORIE
führt. Also ist TA maßtreu bzgl. µA .
Es verbleibt zu zeigen, dass TA die Ergodizitätseigenschaft erbt. Nehmen
wir also an, dass T ergodisch ist, dann ist für eine T -invariante Menge B ⊂ A
positiven Maßes µA (B) > 0 zu zeigen, dass µA (B) = 1 gilt. Mit der T Invarianz gilt B = TA−1 B = TA−2 B = . . . usw. Also
!
∞
[
−n
T B ∩ A.
B =
n=0
Ist T ergodisch, so folgt wegen 0 < µA (B) = µ(B)/µ(A) also 0 < µ(B) = 1.
Damit gilt
!
∞
[
−n
T B =1
µ
n=0
S
−n B bzw. B = A und somit µ (B) = 1. Der Satz
und es folgt X = ∞
T
A
n=0
ist vollständig bewiesen. •
Aufgabe 14. Man zeige, dass mit den obigen Notationen mit T auch TA
invertierbar ist.
Zur Beantwortung der Frage, wie schnell ein Orbit eine gegebene meßbare Menge wieder besucht, ist es sinnvoll mit dem Ergodensatz von Birkhoff
unser bislang stärkstes Werkzeug zu Hilfe zu ziehen. Wir beweisen nun einen
Erwartungswert für die erste Wiederkehr.
Satz 16. Sei T : X → X eine maßtreue ergodische Transformation auf
einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge
mit µ(A) > 0. Dann ist n ∈ L1 und für die früheste Rückkehr nA (x) eines
Punktes x ∈ A gilt
Z
Z
1
nA (x) dµ(x) = 1
bzw.
nA (x) dµA (x) =
µ(A)
A
A
sowie
1
1 X
nA (T n x) =
.
lim
N →∞ N
µ(A)
0≤n<N
Dieser Satz heißt auch das Lemma von Kac [46] und ist eine quantitative
Version des Wiederkehrsatzes von Poincaré. Der Satz besagt, dass die erste
Wiederkehr nach einer Zeit 1/µ(A) zu erwarten ist.
Beweis. Zu x ∈ A betrachten wir den Orbit von x unter TA , also
x, TA x, . . . , TAn x, . . . , TAN x, . . . .
P
Wir setzen t := 0≤n<N nA (TAn x), dann ist t die Zeitdauer, die der Orbit
von x unter T benötigt, die Menge A genau N mal zu besuchen, d.h.
X
χA (T n x) = N.
0≤n<t
8. Arithmetische Progressionen und der Satz von van der Waerden
49
Jetzt wenden wir den Birkhoffschen Ergodensatz 11 auf TA und T an (mit
N → ∞ bzw. t → ∞) und erhalten
Z
1 X
nA (TAn x)
nA (x) dµA (x) = lim
N
→∞
N
A
0≤n<N
−1
Z
t
1
= lim P
.
=
χA dµ
=
n
t→∞
µ(A)
X
0≤n<t χA (T x)
Die Berechnung des Grenzwertes erfolgt ebenso mit dem Birkhoffschen
Ergodensatz. Der Satz ist bewiesen. •
Eine schöne Beweisvariante findet man bei Baéz-Duarte [2].
Jetzt wollen wir noch eine mengentheoretische Variante von Satz 14
beweisen:
Satz 17. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0.
Dann gilt µ(A ∩ T −n A) > 0 für unendlich viele n.
Beweis. Da T nach Voraussetzung maßtreu ist, haben die Mengen
A, T −1 A, T −2 A, . . . dasselbe Maß. Wären all diese Mengen paarweise disjunkt, so würde eine endliche Vereinigung derselben ein Maß größer als
µ(X) = 1 haben, ein Widerspruch. Also gibt es natürliche Zahlen m < n,
so dass µ(T −n A ∩ T −m A) > 0. Mit k = n − m und der Maßtreue von
T folgt daraus µ(A ∩ T −k A) > 0. Wiederholen wir dieses Argument für
A, T −k A, T −2k A, . . ., so ergibt sich µ(A ∩ T −n A) > 0 für unendlich viele n.
Der Satz ist bewiesen. •
Aufgabe 15. Man folgere aus dem obigen Beweis, dass bereits für ein n ≤
1 + [1/µ(A)] die Ungleichung µ(A ∩ T −n A) > 0 bestehen muss.
Dieser Satz kehrt im nächsten Kapitel wieder...
8. Arithmetische Progressionen und der Satz von van der
Waerden
Unter einer arithmetischen Progression der Länge ℓ verstehen wir eine
Folge
a, a + d, a + 2d, . . . , a + (ℓ − 1)d
mit ganzen Zahlen a, d, ℓ, wobei d, ℓ ≥ 1. Beispielsweise ist
3, 13, 23, 33, 43, 53, 63, 73
eine arithmetische Progression der Länge 8. Wir interessieren uns hier für
Mengen ganzer Zahlen, die arithmetische Progressionen beliebiger Länge
enthalten. Beispielsweise enthalten die geraden (bzw. ungeraden) Zahlen
50
ERGODENTHEORIE
arithmetische Progressionen beliebiger Länge. Wir fragen: Was macht eine solche Menge aus? Wie erkennt man eine Menge mit solch einer Eigenschaft? Was ist ein natürliches Kriterium für die Existenz von arithmetischen Progressionen beliebiger Länge? Sicherlich benötigen wir für deren
Existenz, dass unsere zugrundeliegende Teilmenge unendlich groß ist. Das
allein ist aber sicherlich kein Kriterium, denn etwa die Folge der Zehnerpotenzen,
1, 10, 100, 1000, . . . , 10k , . . . ,
ist ohne jede arithmetische Progression.
Erdös & Turán [28] vermuteten dass jede Teilmenge {a1 , a2 , . . .} ⊂ N
mit positiver unterer Dichte, d.h.
1 X
lim sup
1 > 0,
N →∞ N
an ≤N
beliebig lange arithmetische Progressionen enthält. Das ist eine ’unwahrscheinliche’ Behauptung, da keinerlei Strukturvoraussetzungen über die
Menge der an gemacht wird, lediglich dass sie in einem gewissen Sinne groß
ist. Zur Illustration: die Menge der ungeraden ganzen Zahlen (ist hinreichend
groß und) besitzt keine Tripel der Form x, y, x + y, allerdings jedoch Tripel
der Gestalt x, 12 (x + y), y, welches eine arithmetische Progression der Länge
drei ist. Tatsächlich geht es hier um eine ganz besondere Eigenschaft von
arithmetischen Progressionen! Die Vermutung von Erdös & Turán wurde zuerst von Szemerédi [77] mit einem komplizierten kombinatorischen
Argument bewiesen. Er zeigte tatsächlich etwas mehr: Bezeichnet rℓ (n) die
maximale Anzahl einer Menge in [1, n], die keine arithmetische Progression
der Länge ℓ enthält, dann gilt
rℓ (n)
= 0.
(25)
n→∞ n
Wie folgt hieraus die Vermutung von Erdös & Turán? Die Funktion rℓ (n)
ist offensichtlich subadditiv, d.h.
lim
rℓ (m + n) ≤ rℓ (m) + rℓ (n)
für alle m, n ∈ N. Damit folgt aber
rℓ (n)
rℓ (kn)
≤
,
kn
n
womit also der Grenzwert limn→∞ rℓn(n) für jedes ℓ ∈ N existiert und endlich
ist. Die quantitative Version der Vermutung von Erdös & Turán besagt
nun, dass all diese Grenzwerte gleich Null sind, kurz die Gültigkeit von
(25). Den allerersten Schritt in diese Richtung – den Fall von arithmetischen
Progressionen der Länge drei – hatte allerdings bereits Roth [69] geleistet,
8. Arithmetische Progressionen und der Satz von van der Waerden
51
der r3n(n) → 0 zeigte. An dem Beispiel von Progressionen der Länge drei
kann man aber auch etwas über das Wachstum von r3 (n) lernen. Hier eine
Aufgabe von Szekeres zu diesem Thema:
Aufgabe 16. Jede natürliche Zahl besitzt eine eindeutige ternäre Entwicklung, d.h.
m
X
n=
ak 3k
mit ak ∈ {0, 1, 2}
k=0
mit einem passenden m (abhängig von n). Man zeige, dass es in der Teilmenge der natürlichen Zahlen, deren ternäre Entwicklung keine Ziffer 2 enthält,
keine arithmetische Progression der Länge drei gibt. Man folgere
r3 ( 21 (3k + 1)) ≥ 2k .
Furstenberg [31] untersuchte sehr erfolgreich das Problem der simultanen Wiederkehr von Mengen positiven Maßes. In diesem Zusammenhang bewies er eine weitreichende Verallgemeinerung von Satz 17: Sei
T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0. Dann gibt es
zu jeder natürlichen Zahl k eine natürliche Zahl n, so dass
µ(A ∩ T −n A ∩ . . . ∩ T −kn A) > 0.
(26)
Dieser Satz bildet das Herz des ergodischen Beweises den Furstenberg
für Szemerédis Satz (25) gefunden hat. Wir wollen diesen Zusammenhang
kurz illustrieren, ohne aber den schwierigen Beweis tatsächlich zu geben
(wofür wir an dieser Stelle auf [66] verweisen). Wir schreiben Ω = {0, 1}Z
für den Raum aller beidseitig unendlichen {0, 1}-Folgen und interpretieren
seine Elemente als charakteristische Funktionen χA zu Mengen A ⊂ Z. Da
{0, 1} kompakt ist, ist auch Ω nach dem Satz von Tychonoff (siehe etwa
[44]) kompakt und wir erklären eine Metrik auf Ω wie folgt: Gegeben zwei
Folgen x = (xn ), y = (yn ), so sei
N (x, y) = min{N ∈ N : xN 6= yN oder x−N 6= y−N }
für x 6= y, und
d(x, y) =
2−N (x,y)
0
falls x 6= y,
sonst.
(27)
Man verifiziert leicht, dass d eine Metrik auf Ω ist und somit (Ω, d) ein
kompakter metrischer Raum (wir greifen dies in Satz 19 noch einmal auf).
Wir untersuchen nun die shift-Abbildung
σ : Ω → Ω, ,
ω(n) 7→ σω(n) = ω(n + 1).
(28)
52
ERGODENTHEORIE
Gegeben ein Element ω ∈ Ω, so sagen wir, dass 1 mit positiver BanachDichte auftritt, wenn die Menge Z := {n ∈ Z : ω(n) = 1} eine positive
Banach-Dichte besitzt, d.h.
♯Z ∩ I
lim sup
> 0,
♯I
♯I→∞
wobei I durch die Menge der Intervalle von Z läuft, was also gut in unseren
Kontext passt und ♯I für die Anzahl der ganzen Zahlen in I steht. Wir setzen
ferner zu ω ∈ Ω nun X = {σ n ω : n ∈ Z} ⊂ Ω. Dann kann man zeigen, dass
genau dann, wenn 1 mit positiver oberer Banach-Dichte auftritt, ein σinvariantes Maß µ auf X existiert mit
µ(A) > 0
für A := {ω ∈ Ω : ω(0) = 1}.
Jetzt skizzieren wir, wie man Furstenbergs simultanen Wiederkehrsatz
(26) auf die Erdös-Turan-Vermutung anwenden kann (gewisse Details
werden weiter unten in einem ähnlichen Zusammenhang detailliert wiederholt). Angenommen, B ⊂ Z besitzt eine positive obere Banach-Dichte.
Dann gibt es nach (26) also zu gegebenem k eine natürliche Zahl n und
einen Punkt ω ∈ Ω, so dass σ jn ω ∈ B ∩ X für 0 ≤ j < k. Dies impliziert
aber
ω(0) = ω(n) = . . . = ω((k − 1)n) = 1.
Weil ω ∈ X der Grenzwert von Translaten der charakteristischen Funktion
χA ist, folgt
χA (b) = χA (b + n) = . . . = χA (b + (k − 1)n) = 1
für ein b ∈ Z, so dass also A die arithmetische Progression b, b + n, . . . , b +
(k − 1)n enthält. Das ist die Essenz des Furstenbergschen Beweises des
Satzes von Szemerédi. ◦
Furstenbergs ergodischer Zugang steht für den Beginn einer beeindruckenden Erfolgsgeschichte. Den Anfang gibt wieder ein offenes Problem,
das nicht unter die Sätze von Szemerédi und Furstenberg fällt: Enthalten die Primzahlen beliebig lange arithmetische Progressionen? Zählt π(x)
die Anzahl der Primzahlen p ≤ x, so besagt der Primzahlsatz
x
für x → ∞
π(x) := ♯{p ≤ x : p prim} ∼
log x
(siehe etwa [37] für einen elementaren Beweis nach Erdös und Selberg).
Also haben die Primzahlen asymptotische Dichte Null in N und somit greift
Szemerédis Satz nicht. Aufbauend auf den Vorarbeiten von Gowers (mittels harmonischer Analysis) bewiesen im Jahr 2004 Green & Tao [35]
Die Menge der Primzahlen enthält beliebig lange arithmetische
Progressionen.
8. Arithmetische Progressionen und der Satz von van der Waerden
53
Die zur Zeit längste bekannte Sequenz von Primzahlen in arithmetischer
Progression hat Länge 23:
56 211 383 760 397 + 44 546 738 095 860 k
für k = 0, 1, . . . , 22
und wurde berechnet von Frind, Underwood & Jobling (cf. dem oben
genannten Artikel von Green & Tao). Zur Illustration der Tiefe des Satzes
von Green & Tao, versuche der geneigte Leser diesen Rekord zu brechen!
Die neuen Methoden von Green & Tao sind anwendbar auf sehr dünne
Mengen (tatsächlich benutzen sie neben Maßtheorie fast nur klassische Zahlentheorie) und man darf spekulieren, dass sich mit ihren Werkzeugen noch
viele weitere Ergebnisse erzielen lassen. Besonders interessant ist in diesem
Zusammenhang die offene Primzahlzwillingsvermutung, die besagt, dass es
unendlich viele Paare von Primzahlen der Form p, p + 2 gibt, was allerdings
ohne weitere Ideen bislang noch nicht anreifbar ist. Gowers und später
Tao [79] haben quantitative Ergebnisse erzielt.∗
Hier wollen wir nun einen dynamischen Beweis des verwandten Satzes
von van der Waerden [83] geben:
Satz 18. Teilt man Z in endlich viele Klassen ein, so enthält mindestens
eine dieser Klassen beliebig lange arithmetische Progressionen.
Dieser Satz ist zwar nicht ganz so spektakulär wie der Satz von Green
& Tao, aber trotzdem sehr interessant. Teilt man die ganzen Zahlen in r
Klassen (disjunkte Teilmengen) auf,
Z = A1 ∪ . . . ∪ Ar ,
(29)
so kann man also nicht in allen Mengen Aj arithmetische Progressionen
beliebiger Länge vermeiden. Allerdings muss es nicht notwendig unendliche
arithmetische Progressionen geben (und tatsächlich ist dies i.A. auch falsch).
Die Aussage des Satzes bleibt richtig, wenn wir Z durch N ersetzen und
alle bekannten Beweise gehen auch mit dieser Einschränkung ohne weiteres
durch. Ein jeder Beweis dieses Satzes ist nicht zu leicht (ungeachtet dessen,
welchen Zugang man wählt). Es gibt natürlich so etwas wie eine Invarianz
des Schwierigkeitsgrades mathematischer Behauptungen — ein tiefliegender
Satz kann keinen einfachen Beweis haben und verschiedene Beweise haben
irgendwo ihre schwierigen Stellen!†
∗
Zu den Arbeiten über lange arithmetische Progressionen wurden bislang zwei FieldsMedaillen vergeben: T. Gowers 1998 auf dem ICM in Berlin, T. Tao 2006 auf dem
ICM in Madrid. K.F. Roth bekam 1958 in Edinburgh die Fields-Medaille, allerdings
hauptsächlich für seine Verschärfung der Approximationssätze von Thue und Siegel; J.
Bourgain, der auch wichtige Arbeiten zu dieser Thematik verfasste, wurde 1994 auf dem
ICM in Zürich ausgezeichnet.
†
Interessant ist die Geschichte dieses Beweises, aufgeschrieben von van der Waerden
[84], und auch ein einfacher kombinatorischer Beweis von Lukomskaya, zu finden in [51].
54
ERGODENTHEORIE
Jetzt gehen wir einen dynamischen Beweis des Satzes 18 von van der
Waerden an. Wir verlassen hierzu nun kurz die Maßtheorie und widmen
uns metrischen Räumen. Im Folgenden spielt insofern auch die Topologie
eine wichtige Rolle! Wir erinnern: Ein Homöomorphismus ist eine bijektive,
stetige Abbildung, deren Umkehrabbildung ebenfalls stetig ist. Das Studium
der Dynamik solcher Abbildungen nennt man topologische Dynamik.
Zunächst beweisen wir einen technischen Satz über einen Folgenraum:
Für k ≥ 2 sei Ωk = {1, 2, . . . , k}Z der Raum aller beidseitig unendlichen
Folgen ω = (ω(n))n∈Z mit Werten in {1, 2, . . . , k}. Auf Ωk definieren wir
vermöge (27) dieselbe Metrik d mit Ωk statt Ω bzw. vermöge (28) ebenso
die shift-Abbildung.
Satz 19. Mit den obigen Bezeichnungen gilt:
(i) Ωk ist ein kompakter metrischer Raum mit Metrik d.
(ii) Die shift-Abbildung σ : Ωk → Ωk ist ein Homöomorphismus.
Beweis. Zunächst verifizieren wir, dass d eine Metrik auf Ωk ist. Man sieht
sofort, dass d(x, y) stets nicht negativ ist, wobei d(x, y) = 0 genau für x = y
gilt; die Symmetrie ist ebenfalls klar. Zum Nachweis der Dreiecksungleichung
seien o.B.d.A. x, y, z ∈ Ωk paarweise verschieden, also ist
2−N (x,y) = d(x, y) ≤ d(x, z) + d(z, y) = 2−N (x,z) + 2−N (z,y)
zu verifizieren. Dies ist äquivalent zu
2N (z,y)+N (x,z) ≤ 2N (x,y)+N (z,y) + 2N (x,y)+N (x,z) = 2N (x,y) (2N (z,y) + 2N (x,z) ).
Dies ist aber offensichtlich (tatsächlich ist N (x, y) ≥ N (x, z) ≥ N (z, y) der
einzige nicht völlig triviale Fall). Die Menge {1, 2, . . . , k} ist kompakt und
nach dem Satz von Tychonoff (siehe etwa [44]) ist dann auch Ωk kompakt.
Damit ist (i) bewiesen.
Zum Beweis von (ii) seien x, y ∈ Ωk mit x 6= y und d(x, y) = 2−N
gegeben. Dann gilt xi = yi für −N < i < N und also (σx)(i) = xi+1 =
yi+1 = (σy)(i) für −(N + 1) < i < N − 1. Also folgt
d(σx, σy) ≤ 21−N = 2 d(x, y).
Also ist σ stetig. Offensichtlich ist σ auch invertierbar und die Umkehrabbildung σ −1 ist ebenfalls stetig (mit demselben Argument wie oben für σ).
Der Satz ist bewiesen. •
Das ursprüngliche Problem wurde vermutlich von Schur für den Fall r = 2 aufgeworfen,
und nicht von Baudet, allerdings zeigte sich — und das ist außerordentlich interessant
—, dass eine allgemeinere Sichtweise, d.h. beliebiges r, einen einfacheren Beweis zulässt.
8. Arithmetische Progressionen und der Satz von van der Waerden
55
Die wesentliche Beweislast unseres Beweises des Satzes von van der
Waerden ist enthalten in dem mehrdimensionalen Wiederkehrsatz von
Furstenberg & Weiss [32]:
Satz 20. Seien T1 , . . . , TN : X → X Homöomorphismen eines kompakten
metrischen Raumes mit der Eigenschaft Ti Tj = Tj Ti für 1 ≤ i, j ≤ N .
Dann gibt es ein x ∈ X und eine bestimmt gegen +∞ divergierende Folge
natürlicher Zahlen nk , so dass
lim d(Tink x, x) = 0
k→∞
für jedes
i = 1, 2, . . . , N.
Die Vertauschbarkeit der Hintereinanderschaltung der Abbildungen Ti ist
von entscheidender Bedeutung (hierbei steht Ti Tj für Ti ◦ Tj ) und unerlässlich. Damit wird die Menge der Abbildungen eine Halbgruppe.
Wir zeigen jetzt, wie man mit Hilfe von Satz 20 den Satz 18 von van
der Waerden gewinnt:
Beweis von Satz 18. Zu einer gegebenen Partition von Z in disjunkte
Teilmengen
Z = A1 ∪ . . . ∪ Ak
assoziieren wir eine Folge ω = (ω(n))n∈Z ∈ Ωk durch die Vorschrift, dass
ω(n) = i genau für n ∈ Ai gelte. Jetzt sei σ die shift-Abbildung aus (28). Wir
betrachten den Orbit {σ n ω : n ∈ Z} und schreiben X für seinen Abschluss
bzgl. d. Wir wenden Satz 20 mit Ti = σi := σ i (= σ ◦ . . . ◦ σ) an und erhalten
für ein hinreichend kleines ǫ < 1 die Existenz eines x ∈ X und eines d ∈ N
mit
d(σid x, x) < 1
2−N (x,y)
Wegen d(x, y) =
0-ten Folgeglieder:
für i = 1, . . . , N.
ergibt sich eine Übereinstimmung der jeweiligen
x0 = xid = σid x(0)
für i = 0, 1, . . . , N.
Die Sequenz {xn }0≤n≤N d muss nach Konstruktion irgendwo in der Folge ω
auftreten, etwa startend an der Stelle a, so dass also
ω(a) = x0 = xid = σid x(0) = ω(a + id)
für i = 0, 1, . . . N.
gilt. Damit ist a + id ∈ Aω(a) für i = 0, 1, . . . N und Satz 18 ist bewiesen. •
Zu jedem ℓ = N + 1 haben wir also ein j gefunden, so dass die Menge Aj
eine arithmetische Progression der Länge ℓ enthält. Es ist damit klar, dass
es mindestens ein j in einer jeden Klassenzerlegung (29) gibt, die beliebig
lange arithmetische Progressionen enthält! Der Beweis hat etliche Ideen aus
dem Ansatz von Furstenberg für Szemerédis Satz wieder aufgegriffen.
56
ERGODENTHEORIE
Wir beweisen Satz 20 nur für den Spezialfall, dass die Homöomorphismen Ti von der Form Ti = T i für i = 1, . . . , N zu einem einzigen Homömorphismus T sind. Wir starten mit dem Fall N = 1, der sich auf den Birkhoffschen Wiederkehrsatz (nicht zu verwechseln mit seinem Ergodensatz)
reduziert:
Satz 21. Sei T : X → X ein Homöomorphismus kompakter metrischer
Räume X, so gibt es ein x ∈ X mit T nk x → x für eine divergente Folge
natürlicher Zahlen nk → ∞.
Beweis. Wir benutzen jetzt implizit das Zornsche Lemma.‡ Ist E die Familie aller nicht leeren, abgeschlossenen, T -invarianten Teilmengen Z von X,
ausgerüstet mit der Halbordnung
Z1 ≤ Z2
: ⇐⇒
Z1 ⊂ Z2 ,
so existiert also zu einer jeden Kette {Zκ }κ ein maximales, vollständig geordnetes Teilsystem F ⊂ E — dies ist der so genannte Hausdorffsche MaT
ximalkettensatz (siehe [70]). Jetzt ist die Menge Z = κ Zκ aller Zκ ∈ F
selbst abgeschlossen, T -invariant und nach Konstruktion zudem minimal,
d.h. keine nicht leere, echte abgeschlossene Teilmenge von Z ist T -invariant.
Ferner ist Z nicht leer, weil X kompakt ist. Ist nun A eine abgeschlossene
T -invariante Teilmenge von Z, dann gilt also entweder A = ∅ oder A = Z
(ähnlich zum Ergodizitätsbegriff). Insbesondere folgt für den Abschluss A
des Orbits {T n x : n ∈ Z} mit irgendeinem x ∈ Z nun A = Z ⊂ X. Damit
gibt es zu jedem ǫ > 0 ein n ∈ N mit d(T n x, x) < ǫ. § Hieraus ergibt sich
unmittelbar die Aussage von Satz 21. •
Der Rest des Beweises von Satz 20 erfolgt per Induktion nach N , so dass
also zu zeigen verbleibt, dass, wenn die Aussage für N −1 Homöomorphismen
T1 = T, . . . TN −1 = T N −1 gilt, dann auch für N solche, also zusätzlich mit
TN = T N . Dabei dürfen wir annehmen, dass X die kleinste abgeschlossene
Menge ist, die invariant unter jedem T j mit j = 1, . . . , N ist (wieder mit dem
Maximalkettensatz von Hausdorff wie im vorigen Beweis, also X = Z).
Als Erstes zeigen wir, dass zu gegebenem ǫ > 0 und beliebigen x, x′ ∈ X
eine endliche Menge K ⊂ N existiert, so dass
d(T k x, x′ ) < ǫ
‡
für ein
k ∈ K.
(30)
bekannt und berüchtigt, weil es äquivalent zum ungeliebten Auswahlaxiom ist, besagt
es, dass jede nicht leere halbgeordnete Menge, in der jede Kette (d.h. jede total geordnete
Teilmenge) eine obere Schranke hat, mindestens ein maximales Element enthält. Entdeckt
wurde dies durch Zorn im Jahre 1935.
§
Die T -Invarianz erlaubt hier also mehr als nur den üblichen Schluß, nämlich die
Existenz eines Häufungspunktes.
8. Arithmetische Progressionen und der Satz von van der Waerden
57
Ist ∅ =
6 B ⊂ X offen, so gibt es wiederum mit der Minimalität von X zu
S
jedem z ∈ X ein n ∈ N mit T n z ∈ B. Also X = n∈N T −n B. Da X nach
Voraussetzung kompakt ist und die Mengen T −n B offen, folgt mit dem Satz
von Heine-Borel, dass X eine endliche Teilüberdeckung der Form
[
X=
T −k B
k∈K(B)
mit einer endlichen Teilmenge K(B) ⊂ N besitzt. Und noch einmal: Wiederum auf Grund der Kompaktheit von X gibt es endlich viele offene Kugeln
B1 , . . . , Br mit Radius 2ǫ , so dass
X=
r
[
Bj .
j=1
x, x′
Zu
∈ X gilt dann x ∈ Bi für ein i ∈ {1, . . . , r} und x′ ∈ T −k Bi für ein
S
k ∈ K(Bi ). Also gilt (30) mit K = rj=1 K(Bj ).
Als Nächstes zeigen wir, dass zu jedem ǫ > 0 und beliebigem x ∈ X, ein
y ∈ X und ein n ∈ N existieren, so dass
d(T jn y, x) < ǫ
für j = 1, . . . , N.
(31)
Da jeder Homöomorphismus T k gleichmäßig stetig auf der kompakten
Menge X ist, gibt es ein ρ > 0, so dass
d(T k x1 , T k x2 ) < ǫ
für x1 , x2 ∈ X
mit
d(x1 , x2 ) < ρ.
(32)
Tatsächlich dürfen wir dies auch gleich für alle k der endlichen(!) Teilmenge
K, definiert gemäß (30) fordern (die Gleichmäßigkeit der T k und somit die
Kompaktheit von X sind hier entscheidend). Nach Induktionsvoraussetzung
gibt es ein x′ ∈ X und ein n ∈ N, so dass
d(T jnx′ , x′ ) < ρ
für j = 1, . . . , N − 1.
Da X kompakt ist, ist die T -invariante Menge T X abgeschlossen, also gilt
T X = X (nach Konstruktion) bzw. T n X = X. Damit finden wir ein y ′ ∈ X,
so dass T n y ′ = x′ gilt und somit
d(T n y ′ , x′ ) = 0,
d(T jn y ′ , x′ ) < ρ
für j = 2, . . . , N.
Mit unserer vorangegangenen gleichmäßigen Abschätzung (32) folgt also
d(T jn+k y ′ , T k x′ ) < ǫ
für k ∈ K, j = 1, . . . , N.
Für jedes x ∈ X gibt es ein k ∈ K mit d(T k x′ , x) < ǫ, d.h. mit y := T k y ′
und der Dreiecksungleichung folgt nun
d(T jn y, x) ≤ d(T jn+k y ′ , T k x′ ) + d(T k x′ , x) < 2ǫ
für j = 1, . . . , N . Da ǫ > 0 hierbei beliebig ist, ergibt sich (31).
58
ERGODENTHEORIE
Wir nähern uns dem Ende des Beweises! Seien ǫ0 > 0 und x0 ∈ X
beliebig gegeben. Nach (31) existieren x1 ∈ X und n1 ∈ N, so dass
d(T jn1 x1 , x0 ) < ǫ0
für j = 1, . . . , N.
Jetzt wählen wir ǫ1 ∈ (0, ǫ0 ) so, dass mit d(x, x1 ) < ǫ1
d(T jn1 x, x0 ) < ǫ0
für j = 1, . . . , N
gilt. Wir setzen dies wie folgt induktiv fort: Angenommen, wir haben definiert
• Punkte x1 , . . . , xk ∈ X,
• natürliche Zahlen n1 , . . . , nk , und
• eine streng monoton fallende Folge positiver reeller Zahlen
ǫ 1 , . . . , ǫk ,
mit der Eigenschaft, dass für i = 1, . . . , k − 1
d(T jni xi , xi−1 ) < ǫi−1
für j = 1, . . . , N
(33)
für j = 1, . . . , N
(34)
und, falls d(x, xi ) < ǫi , auch
d(T jni x, xi−1 ) < ǫi−1
gilt. Nach (31) gibt es dann (wie im Falle i = 0 oben) xk+1 ∈ X und
nk+1 ∈ N, so dass
d(T jnk+1 xk+1 , xk ) < ǫk
für j = 1, . . . , N ;
wir wählen nun ein ǫk+1 ∈ (0, ǫk ) so, dass d(x, xk+1 ) < ǫk+1 impliziert, dass
d(T jnk+1 x, xk ) < ǫk
für j = 1, . . . , N.
Dies sind (33) bzw. (34) mit i = k + 1. Dieser Prozess lässt sich also ad
infinitum fortführen; die Induktion ist abgeschlossen.
Jetzt nehmen wir sukzessive i = ℓ − 1, ℓ − 2, . . . und erhalten für i < ℓ
vermöge (33) bzw. (34) nun
d(T j(ni+1 +...+nℓ ) xℓ , xi ) < ǫi
für j = 1, . . . , N.
Da X kompakt ist, gibt es eine endliche Überdeckung von X durch r offene
Kugeln vom Radius ǫ0 . Damit gibt es Indizes i, ℓ mit 0 ≤ i < ℓ ≤ r, so dass
d(xi , xℓ ) < ǫ0 gilt. Mit m = ni+1 + . . . + nℓ folgt dann wegen ǫi < ǫ0 mit der
Dreiecksungleichung
d(T jm xℓ , xℓ ) ≤ d(T jmxℓ , xi ) + d(xi , xℓ ) < 2ǫ0
für j = 1, . . . , N.
Da ǫ0 > 0 beliebig war, ergibt sich die Behauptung von Satz 20 im Spezialfall
Tj = T j für j = 1, . . . , N . •
Der obige Beweis des Satzes von van der Waerden benutzt einige “unendliche” Elemente (der Satz von Tychonoff, das Lemma von Zorn und den
8. Arithmetische Progressionen und der Satz von van der Waerden
59
Satz von Heine-Borel). Tatsächlich kann man diese umgehen, in dem man
quantitativ argumentiert, allerdings führt dies letztlich auf einen kombinatorischen Beweis. Sehr lesenswert für weitere Gedanken in diese Richtung
ist [80].
Aufgabe 17. Man gebe einen Beweis von Satz 20 für den allgemeinen Fall
beliebiger kommutierender Homöomorphismen T1 , . . . , TN . (Hilfe findet man
in [66].)
Chaotische oder zufällige Strukturen können, wenn sie hinreichend groß
sind, nicht so unregelmäßig sein, dass sie nicht doch sehr reguläre Teilstrukturen enthalten. Wir haben mit den obigen Sätzen eindrucksvolle Beispiele
für diese Beobachtung am Beispiel arithmetischer Strukturen gesehen. Van
der Waerdens Satz besitzt eine Vielzahl von Anwendungen. Wir geben
ein Beispiel im Zusammenhang mit der Frage der Verteilung der Werte quadratischer Polynome modulo Eins (was uns auch in die Nähe eines späteren
Themas dieser Vorlesung bringt):
Korollar 22. Es sei α eine reelle Zahl und ǫ > 0 beliebig. Dann gibt es
unendlich viele m ∈ N, so dass
kαm2 k < ǫ.
Hier steht kxk für den minimalen Abstand von x zu einer ganzen Zahl. Es
gibt einige wesentlich verschiedene Beweise dieser Behauptung (etwa mittels
Gleichverteilungssätzen von Weyl).
Beweis. Wir zerlegen das Einheitsintervall in endlich viele kleine Intervalle
I einer Länge ≤ 2ǫ und betrachten die Mengen
{n ∈ N :
2
1
2 αn
mod 1 ∈ I}.
Eine jede solche definiert uns eine Klasse in N. Nach dem Satz von van der
Waerden enthält eine dieser Klassen eine artithmetische Progression der
Länge drei mit beliebig großer Differenz d (durch Streichen aus arithmetischen Progressionen größerer Länge); es gibt also ein n ∈ N mit
2 1
1
2 αn , 2 α(n
+ d)2 ,
1
2 α(n
+ 2d)2 ∈ I
für ein I. Nun besteht die Identität
2
1
2 αn
− 2 · 21 α(n + d)2 + 21 α(n + 2d)2 = αd2 .
Die linke Seite ist modulo 1 die Summe zweier Differenzen von Zahlen in I,
also summandenweise ≤ 2ǫ . Damit ergibt sich die Ungleichung für m = d;
mit ǫ → 0 ergeben sich so unendlich viele m ∈ N. •
60
ERGODENTHEORIE
Erdös setzte einen Preis von 3000 US-Dollar für den Beweis folgender
Vermutung aus:¶ Ist (an ) eine streng monoton wachsende Folge natürlicher
Zahlen und
∞
X
1
n=1
an
divergent, so enthält die Folge der an arithmetische Progressionen beliebiger
Länge. Tatsächlich würde auch der Satz von Green & Tao aus der Vermutung von Erdös folgen (was vielleicht seine Tiefe andeutet), da die Reihe
über die Reziproken der Primzahlen divergiert, was Euler bereits wusste
und auf sehr eindrucksvolle Art und Weise wie folgt notierte:
1 1 1 1
+ + + + . . . = log log ∞.
2 3 5 7
Das ist tatsächlich eine einfache Folgerung aus dem Primzahlsatz (der aber
zu Eulers Zeit noch unbekannt war).
*
*
*
Nach unserem Ausflug in die topologische Dynamik geht es im nächsten
Kapitel um normale Zahlen — was soll das sein? Mit diesem Attribut sollte
man natürlich nur Zahlen belegen, die keine besonderen Merkmale besitzen,
wobei vielleicht auch noch zu fordern wäre, dass die meisten Zahlen normal
sein sollten. Kann dabei normal überhaupt ein interessanter Begriff sein?
9. Normale Zahlen
Sei b eine natürliche Zahl größer Eins. Jede relle Zahl x besitzt eine
Darstellung bzgl. der Basis b (auch b-adische Entwicklung), d.h.
x=
∞
X
n=0
an b−n
mit a0 ∈ Z, an ∈ {0, 1, . . . , b − 1}
(35)
für n ∈ N; hierbei ist a0 = [x] der Ganzteil von x und die an sind die
b-adischen Ziffern von {x} ∈ [0, 1). Diese Darstellung ist nicht eindeutig,
was uns aber nicht weiter stört, da diese Nichteindeutigkeit sich nur auf
eine Nullmenge bezieht, wie wir kurz am Beispiel der Dezimaldarstellung
illustrieren:
0, 9 = 0, 99999 99999 . . . = 1, 0 = 1,
¶
Erdös hat tatsächlich viele solcher Preise für seine zahllosen Vermutungen ausgesetzt, den Geldbetrag als Index für den vermeintlichen Schwierigkeitsgrad. Angeblich soll
Erdös sogar gesagt haben, dass er einen Preis von 106 Dollar aussetzen können, da er
den Beweis sowieso nicht erleben werde. Erdös verstarb 1996.
9. Normale Zahlen
61
wobei wie üblich der Ausdruck 9 für die unendliche Folge der Ziffer 9 steht.
Besitzt nämlich x eine schließlich periodische b-adische Darstellung, so ist x
rational und entspringt damit einer Lebesgue-Nullmenge; ist die Entwicklung hingegen nicht schließlich periodisch, so ist die Darstellung eindeutig
und x irrational.
Eine reelle Zahl x heißt normal zur Basis b, falls für jedes k ∈ N jeder
Ziffernblock α1 . . . αk mit αj ∈ {0, 1, . . . , b − 1} mit derselben Häufigkeit in
der b-adischen Entwicklung von x = a0 , a1 a2 . . . auftritt. Im Falle k = 1
bedeutet dies, dass jede Ziffer gleich häufig auftritt:
1
1
♯{n ≤ N : an = α} =
N
b
im Falle k = 2 gilt hingegen
lim
N →∞
lim
N →∞
für jedes α ∈ {0, 1, . . . , b − 1};
1
1
♯{n ≤ N : an = α, an+1 = α′ } = 2 für alle α, α′ ∈ {0, 1, . . . , b − 1};
N
b
im allgemeinen Falle tritt der Block α1 . . . αk mit jeweils αj ∈ {0, 1, . . . , b−1}
mit der asymptotischen Häufigkeit b−k auf. Offensichtlich genügt es hierbei,
nur die b-adische Entwicklung des gebrochenen Anteils {x} ∈ [0, 1) zu betrachten. Borel [13] zeigte:
Satz 23. Fast alle reellen x sind normal zu jeder Basis b.
Dieser Satz rechtfertigt also, Zahlen mit der obigen Eigenschaft tatsächlich
mit dem Attribut normal zu belegen.
Beweis. Nach obiger Bemerkung genügt es, Zahlen x ∈ [0, 1) zu untersuchen. Die Abbildung Tb : [0, 1) → [0, 1), definiert durch Tb x = bx mod 1,
ist maßtreu bzgl. des Lebesgue-Maßes λ und ergodisch (dies weist man im
allgemeinen Fall genauso nach, wie für den Spezialfall b = 2, den wir in Bsp.
2 in Kapitel 4 betrachtet haben). Sei nun x zur Basis b gegeben durch (35).
Offensichtlich gilt genau dann
α α+1
n
Tb x ∈
,
=: I(α)
b
b
für ein fest vorgegebenes α ∈ {0, 1, . . . , b − 1}, wenn an+1 = α. Mit dem
Birkhoffschen Ergodensatz 11 folgt jetzt
Z
1
1 X
n
χI(α) dλ = λ(I(α)) =
χI(α) (Tb x) =
lim
N →∞ N
b
[0,1)
0≤n<N
für fast alle x. Dies liefert die Behauptung im Falle eines Blockes bestehend
aus einer Ziffer α (also k = 1). Der allgemeine Fall (k ∈ N) ergibt sich mittels
α α+1
α := α1 bk−1 + α2 bk−2 + . . . + αk
und
I(α, k) := k , k
b
b
62
ERGODENTHEORIE
völlig analog:
1
lim
N →∞ N
X
χI(α,k) (Tbn x)
0≤n<N
=
Z
[0,1)
χI(α,k) dλ = λ(I(α, k)) =
1
bk
Der Satz ist bewiesen. •
Natürlich hat Borel nicht die Ergodentheorie benutzt, um seinen Satz zu
beweisen; tatsächlich arbeitete er mit dem so genannten Borel-Cantelli–
Lemma aus der Stochastik. Einen elementaren, dabei aber Borels Ideen
folgenden Beweis findet man sehr schön aufgeschrieben in Niven [61]. Einen
von Borel verschiedenen Ansatz erdachte Turing [82]; seine Arbeit wurde
allerdings nie veröffentlicht, jedoch vor kurzem durch Becher, Figueira
& Picchi [5] mathematisch vervollständigt.
Obwohl nach dem Borelschen Satz 23 fast alle reellen Zahlen normal
sind, und zwar zu jeder Basis, ist es ein ganz anderes Problem, eine gegebene reelle Zahl als normal zu auch nur einer einzigen Basis b zu outen.
Beispielsweise ist es unbekannt, ob die Kreiszahl
π = 3, 14159 26535 89793 23846 26433 83279 50288 41971 69399 37510
58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 . . .
normal bzgl. irgendeiner Basis ist.k Insofern ist das Problem der Normalität
womöglich noch schwieriger, als das verwandte Problem, eine gegebene Zahl
als entweder algebraisch oder als transzendent nachzuweisen, wofür man
mehr Techniken kennt.∗∗ Kanada berechnete mehr als die ersten 50 Milliarden(!) Nachkommastellen der Dezimalbruchentwicklung von π und die
zugehörige Ziffernstatistik zeigt bei allen Ziffern eine Abweichung von weniger als 0, 002% vom Erwartungswert. Für andere Zahlen
sieht es nicht besser
√
aus: So weiss man auch nicht, ob e = exp(1) oder 2 normal zu irgendeiner
Basis sind. Bailey & Crandall [4]
√ haben jüngst vermutet, dass jede algebraische Irrationalzahl (wie z.B. 2) normal ist. Das selbe Schicksal der
Ungewissheit teilt die fast ganze Zahl
√
exp(π 163) = 262 53741 26407 68743, 99999 99999 992 . . . ;
das Auftreten der erstaunlich vielen 9en kann man mit der Theorie der
imaginär-quadratischen Zahlkörper und der elliptischen j-Funktion erklären,
hilft aber hinsichtlich der Frage der Normalität überhaupt nicht weiter.
k
Dieses Problem wird auch in dem extravaganten Spielfilm Pi von D. Aronofsky
aufgegriffen.
∗∗
So weiss man, dass π transzendent ist, was als Erster Lindemann 1882 bewies,
womit auch das antike Problem der Kreisquadratur allein mit Zirkel und Lineal unmöglich
ist. Lindemann war zuvor für eine kurze Zeit in Würzburg tätig und hat sich dort/hier
1877 habilitiert.
9. Normale Zahlen
63
Klar ist, dass rationale Zahlen nicht normal sind, haben diese doch eine schließlich periodische b-adische Ziffernentwicklung (hier wird jetzt auch
klar, warum man bei der Definition von Normalität nicht einfach nur die Ziffernverteilung, sondern Blöcke beliebiger Länge zu Grunde legt). Ein etwas
anspruchsvolleres Beispiel für nicht normale Zahlen: Die Cantor-Menge
C entsteht aus dem Einheitsintervall [0, 1] durch sukzessives Entfernen der
mittleren Drittel. Genauer gilt
n
C = [0, 1] \
∞ [
2
[
n=0 j=1
(xnj + 3−n−1 , xnj + 2 · 3−n−1 )
mit gewissen rationalen Zahlen xnj . Bekanntlich (siehe etwa [27]) ist die
Cantor-Menge C ein Beispiel einer überabzählbaren, perfekten Menge ohne innere Punkte; hierbei heißt eine unendliche Menge perfekt, wenn jedes
Element Häufungspunkt ist. Die Elemente von C sind genau die x ∈ [0, 1],
deren ternäre Ziffernentwicklung keine 1 enthält (die mittleren Drittel wurden ja entfernt), also
x∈C
⇐⇒
x=
∞
X
n=1
an 3−n
mit an ∈ {0, 2};
die xnj aus der obigen Darstellung für C sind dabei gerade alle möglichen
Partialsummen solcher x. Es folgt unmittelbar, dass die Cantor-Menge
keine einzige zur Basis 3 normale Zahl enthält; insbesondere folgt aus Satz
23, dass C eine Lebesgue-Nullmenge ist.
Aufgabe 18. Man beweise all diese Aussagen über C, insbesondere gebe
man einen direkten Beweis, dass λ(C) = 0 gilt.
Eine Zahl kann normal zur Basis b, aber nicht normal zur Basis b′ sein.
Dies entdeckten Cassels [15] und Schmidt [71], die bewiesen, dass jede
normale Zahl zur Basis b genau dann normal bzgl. einer Basis b′ ist, wenn
log b/ log b′ rational ist.
Man kennt einige wenige Konstruktionsmethoden normaler Zahlen. Die
erste explizite normale Zahl konstruierte Sierpinski [74]. Beispielsweise gelang Champernowne [17] der Nachweis der Normalität der nach ihm benannten Champernowneschen Zahl
0, 123456789 10111213141516171819 2021 . . . .
Copeland & Erdös [18] haben ferner gezeigt, dass die Zahl
0, 23571113171923293137414347 . . . ,
gebildet aus der Primzahlenfolge, normal bzgl. der Basis 10 ist. Das Bildungsgesetz in diesen Beispielen ist offensichtlich! Man kann unschwer jede
64
ERGODENTHEORIE
beliebige Nachkommastelle berechnen ohne Kenntnis über die vorangegangenen Ziffern zu besitzen. Insofern ist Normalität übrigens nicht der richtige
Begriff, um Zufallszahlen zu konstruieren.
Abbildung 9. Die ersten 1600 binären Ziffern von π und
seiner rationalen Approximation 22
7 zeilenweise angeordnet
(im Gegensatz zum spiralförmigen Titelbild).
Wir kehren zurück zur Zahl π. Man vermutet, dass es keine Muster in
der Dezimalentwicklung von π gibt, und deshalb ist es auch naheliegend zu
vermuten, dass π normal ist bzgl. der Dezimalentwicklung (also b = 10).
Gleiches gilt auch für jede andere b-adische Entwicklung. In dieser Richtung
gelang Bailey, Borwein & Plouffe [3] vor ca. zehn Jahren eine kleine
Sensation. Ihre so genannte BBP-Formel (nach ihren Initialien) ermöglicht
die Berechnung einer beliebigen Nachkommastelle von π im Hexadezimalsystem (also zur Basis 16) ohne irgendeine der vorherigen Nachkommastellen
wissen zu müssen:
∞
X
4
2
1
1
1
−
−
−
.
(36)
π=
16n 8n + 1 8n + 4 8n + 5 8n + 6
n=0
Wir geben eine kurze Beweisskizze für die BBP-Formel. Zunächst verifiziert
man
Z 1/√2 k−1
Z 1/√2 X
∞
∞
X
x
1
1
k−1+8m
− k2
x
dx
=
2
dx
=
·
.
8
m
1−x
16
8m + k
0
0
m=0
m=0
Damit ist (36) äquivalent zu
√
Z 1
Z 1/√2 √
4 2 − 8x3 − 4 2x4 − 8x5
y−1
dx = 16
dy
π=
8
4
3
1−x
0
0 y − 2y + 4y − 4
√
vermöge der Substitution y = 2x. Mit Hilfe von
Z x
du
arctan x =
1
+
u2
0
9. Normale Zahlen
65
und Partialbruchzerlegung (oder Computeralgebra) ergibt sich nun leicht
die BBP-Formel (36).
Aufgabe 19. Man vervollständige die obige Beweisskizze für (36).
Wie gewinnt man aber nun aus (36) effektiv eine beliebige Nachkommastelle von π bzgl. der Basis 16? Wir erläutern dies an einem etwas einfacheren
Beispiel (die Vereinfachung bezieht sich hier aber lediglich auf eine übersichtlichere Darstellung): Bekanntlich gilt
log 2 =
∞
X
1
,
k2k
k=1
was fast unmittelbar aus der Potenzreihenentwicklung des Logarithmus und
dem Abelschen Grenzwertsatz folgt. Die (d + 1)-te Ziffer der Binärentwicklung von log 2 ist damit gleich
)
(∞
X 2d−k
d
{2 log 2} =
k
k=0
(( d
) ( ∞
))
X 2d−k mod k
X 2d−k
=
+
.
k
k
k=0
k=d+1
Die Zähler 2d−k mod k in der ersten Summe lassen sich schnell mit schneller
Exponentiation†† modulo k berechnen; die zweite Summe konvergiert dabei
sehr schnell, so dass hier nur einige wenige Terme tatsächlich berechnet werden müssen. Ganz ähnlich kann man unschwer beliebige Ziffern der Hexadezimalentwicklung von π mit Hilfe der BBP-Formel (36) berechnen. Trotzdem kann man aus solchen Bildungsgesetzen — im Gegensatz zur Champernowneschen Zahl — leider bislang keine Aussage über die Normalität
bzgl. der entsprechenden Basis entlocken. Allerdings haben jüngst Bailey
& Crandall [4] eine Vermutung aufgestellt, wie einer BBP-Formel, wie
oben etwa für π bzw. log 2, eine reelle Zahlenfolge zugeordnet werden kann,
die genau dann modulo 1 gleichverteilt ist, wenn die zu Grunde liegende Zahl
normal ist. Wir gehen hier nicht in die recht technischen Details, sondern
erwähnen nur, dass unter Annahme dieser Vermutung dann beispielsweise
π normal zur Basis 16 wäre, wenn die Folge (xn ) definiert durch
x0 = 0,
xn = 16xn−1 +
120n2 − 89n + 16
512n4 − 1024n3 + 712n2 − 206n + 21
(37)
gleichverteilt modulo 1 ist. Dies gibt immerhin Hoffnung, dass in naher Zukunft wenigstens die Normalität von π zur Basis b = 16 (und damit auch
††
Z.B. gilt 217 = ((((22 )2 )2 )2 ) · 2 entsprechend 17 = 24 + 20 .
66
ERGODENTHEORIE
bzgl. b = 2, 4, 8) bewiesen werden kann. Im Falle der Binärentwicklung von
log 2 erfolgte die Normalität aus der Gleichverteilung der Folge
1
x0 = 0, xn+1 = 2 xn +
mod 1.
n
Allerdings weiss man für keine der beiden angeführten Folgen, ob sie
tatsächlich gleichverteilt sind. Mittlerweile kennt man noch eine Vielzahl
weiterer BBP-Formeln für andere Basen bzw. andere wichtige Konstanten,
allerdings keine für π in der Dezimalentwicklung; der interessierte Leser findet hierzu unschwer eine Vielzahl von Artikeln im Internet.
Aufgabe 20. Man implementiere einen Algorithmus zur Berechnung der
Hexadezimalziffern von π mit Hilfe der BBP-Formel. Man vergleiche die
Resultate mit den Werten xn gemäß der Entwicklung (37) und erstelle eine
Ziffernstatistik.
Eine Kuriosität zum Abschluss: Ist π tatsächlich normal, sagen wir zur
Basis b = 26, und weisen wir jeder der 26 Ziffern bijektiv einen Buchstaben
unseres Alphabetes zu, etwa A 7→ 1, B 7→ 2, . . ., dann ist in der 26-adischen
Entwicklung von π auch ein Beweis der Normalität von π kodiert enthalten,
vorausgesetzt, dass diese Behauptung beweisbar ist.‡‡
*
*
*
Im Folgenden wollen wir eine auf Gauss zurückgehende Fragestellung
mit Ergodentheorie behandeln. Hierbei geht es um statistische Eigenschaften von Kettenbrüchen, die sich ganz hervorragend zur rationalen Approximation von Irrationalzahlen eignen. Zunächst entwickeln wir die wichtigste
Eigenschaften dieser klassischen Objekte.
10. Elementare Theorie der Kettenbrüche
Kettenbrüche als Werkzeug zur Findung geeigneter rationaler (diophantischer) Approximationen an Irrationalzahlen wurden in vielen Kulturen
benutzt; eine systematische Theorie hingegen wurde aber erst durch den
Astronomen Huygens im 17. Jahrhundert gegeben (als dieser ein mechanisches Modell unseres Sonnensystems bauen wollte).
‡‡
Unter http://www.angio.net/pi/bigpi.cgi findet man ein kleines Programm, das einem
das erste Auftreten eines beliebigen Datums (etwa das Geburtsdatum) in der Dezimalentwicklung von π heraussucht. Mein Geburtsdatum startet an der Stelle 151897.
10. Elementare Theorie der Kettenbrüche
67
Zunächst betrachten wir den euklidischen Algorithmus: Gegeben zwei
natürliche Zahlen a und b, definiere man r−1 := a, r0 := b und wende sukzessive Division mit Rest gemäß
rn−1 = an rn + rn+1
mit
0 ≤ rn+1 < rn .
für n = 0, 1, 2 . . . an. Da die Folge der Reste rn stets kleiner wird, terminiert
der Algorithmus und auf Grund elementarer Teilbarkeitseigenschaften ist der
kleinste nichtverschwindende Rest rm der größte gemeinsame Teiler von a
und b, in Zeichen rm = ggT(a, b). Wir können den euklidischen Algorithmus
umschreiben als
rn−1
rn−1
rn+1
=
mit 0 ≤ rn+1 < rn
(38)
+
rn
rn
rn
h
i
für n ≤ m. Hierin ist an = rn−1
und somit ergibt sich
rn
r−1
a
=
= a0 +
b
r0
r0
r1
−1
= a0 +
1
−1 = . . . .
r1
a1 +
r2
Die erste Gleichung liefert den Ganzteil von ab ; jede weitere gibt bessere und
bessere Näherungen (mit den kleinst möglichen Nennern entsprechend der
Approximationsqualität).
Ein Beispiel: Das Sonnenjahr hat ungefähr
419
Tage.
1730
Unglücklicherweise ist dies keine ganze Zahl, wie also bildet man einen guten
Kalender? Mit dem euklidischen Algorithmus findet man
365 Tage 5 Stunde 48 Minuten und 45.8 Sekunden
1730
=
419
=
54
=
...
≈
365 +
4 · 419 + 54,
7 · 54 + 41,
1 · 41 + 13,
In Hinblick auf (38) kommt
54
1730
=4+
,
419
419
bzw.
419
365 +
= 365 +
1730
1730
419
−1
≈ 365 +
1
.
4
Dies ist nichts anderes als der Julianische Kalender (nach Julius Caesar): Alle vier Jahre ein Schaltjahr. Mit dem vollständigen euklidischen
68
ERGODENTHEORIE
Algorithmus ergibt sich
365 +
419
= 365 +
1730
1
.
1
4+
1
7+
1
1+
1
3+
6+
Diese rationale Näherung ohne den letzten Bruch
365 +
1
2
1
2
liefert die Approximation
194
419
≈ 365 +
,
801
1730
welche unseren derzeitigen Gregorianischen Kalender (nach Papst Gregor XIII, 1582) repräsentiert: In 800 Jahren werden 6 (= 200 − 194) der
Schaltjahre ausgelassen.
Der Ausdruck
1
a0 +
1
a1 +
a2 + ...
1
+
1
am−1 +
am
heißt ein regulärer Kettenbruch (engl. regular continued fraction); man
spricht von irregulären Kettenbrüchen, wenn auch andere Zähler als Eins
zugelassen sind, was wir im Folgenden aber ausklammern. Die an nennt
man Teilnenner. Wir notieren einen solchen Kettebruch kurz mit
[a0 , a1 , a2 , . . . , am ].
Zunächst betrachten wir [a0 , . . . , am ] als eine Funktion in unabhängigen Variablen a0 , . . . , am . Offensichtlich gilt
[a0 ] = a0 ,
[a0 , a1 ] =
und
[a0 , a1 , a2 ] =
a1 a0 + 1
a1
a2 a1 a0 + a2 + a0
.
a2 a1 + 1
Per Induktion zeigt man
1
[a0 , a1 , . . . , an ] = a0 , a1 , . . . , an−1 +
an
und
[a0 , a1 , . . . , an ] = a0 +
1
= [a0 , [a1 , . . . , an ]].
[a1 , . . . , an ]
(39)
10. Elementare Theorie der Kettenbrüche
69
Für n ≤ m nennen wir [a0 , a1 , . . . , an ] den n-ten Näherungsbruch an
[a0 , a1 , . . . , am ]. Wir definieren desweiteren

p−1 = 1, p0 = a0 , und
pn = an pn−1 + pn−2 , 
(40)

q−1 = 0, q0 = 1, und
qn = an qn−1 + qn−2 .
Die Berechnung der Näherungsbrüche erfolgt leicht vermöge
Satz 24. Für 0 ≤ n ≤ m gilt
pn
= [a0 , a1 , . . . , an ].
qn
Beweis per Induktion nach n. Der Fall n = 0 ist trivial. Der Fall n = 1
folgt unmittelbar aus
[a0 , a1 ] =
a1 a0 + 1
p1
= .
a1
q1
Angenommen die Formel ist richtig für n. In Anbetracht von (39) gilt
1
.
[a0 , a1 , . . . , an , an+1 ] = a0 , a1 , . . . , an +
an+1
Mit der Rekursionsformel für die pn , qn ergibt sich dies als
1
an + an+1
pn−1 + pn−2
(an+1 an + 1)pn−1 + an+1 pn−2
=
1
(an+1 an + 1)qn−1 + an+1 qn−2
qn−1 + qn−2
an + an+1
=
an+1 pn + pn−1
pn+1
=
,
an+1 qn + qn−1
qn+1
was die Induktion abschließt. •
Die Folgen der Zähler und Nenner haben interessante arithmetische Eigenschaften:
Satz 25. Für 1 ≤ n ≤ m gilt
pn qn−1 − pn−1 qn = (−1)n−1 ,
und
pn qn−2 − pn−2 qn = (−1)n an .
Beweis. Nach obigem gilt
pn qn−1 − pn−1 qn = (an pn−1 + pn−2 )qn−1 − pn−1 (an qn−1 + qn−2 )
= −(pn−1 qn−2 − pn−2 qn−1 ).
70
ERGODENTHEORIE
Wiederholen wir dieses Argument für n − 1, n − 2, . . . , 2, 1, so ergibt sich die
erste Behauptung. Ähnlich
pn qn−2 − pn−2 qn = (an pn−1 + pn−2 )qn−2 − pn−2 (an qn−1 + qn−2 )
= an (pn−1 qn−2 − pn−2 qn−1 ),
und somit folgt die zweite Behauptung aus der ersten. •
Jetzt weisen wir den Teilnennern an und somit auch dem Kettenbruch
[a0 , a1 , . . .] numerische Werte zu. Wir fordern a0 ∈ Z und an ∈ N für 1 ≤
n < m, sowie am ≥ 1. Dann zeigt Satz 24, dass pn und qn ganze Zahlen
für n < m sind, und die erste Behauptung von Korollar 25 impliziert ihre
Teilerfremdheit.
Sei jetzt α irgendeine rationale Zahl. Dann gibt es teilerfremde ganze
Zahlen a und b > 0, so dass α = ab . Es folgt aus der Variation des euklidischen
Algorithmus (38) angewandt auf r−1 = a und r0 = b, dass α als endlicher
Kettenbruch dargestellt werden kann:
rn−1
a
= [a0 , a1 , a2 , . . . , am ]
mit an =
.
b
rn
Diese Darstellung ist nicht eindeutig, da
[a0 , a1 , a2 , . . . , am ] = [a0 , a1 , a2 , . . . , am − 1, 1];
wenn wir allerdings am ≥ 2 fordern, so ist die Darstellung eindeutig. Wir
fassen zusammen:
Satz 26. Jede rationale Zahl besitzt eine Darstellung als endlicher Kettenbruch; diese Darstellung ist eindeutig, wenn der letzte Teilnenner als echt
größer Eins genommen wird.
Aufgabe 21. Man beweise die Formel
m
X (−1)n−1
pm
= a0 +
.
qm
qn qn−1
n=1
Wir können den Algorithmus (38) zur Berechnung der Kettenbruchentwicklung von rationalen Zahlen umschreiben als
α0 := α,
αn = [αn ] +
1
αn+1
für n = 0, 1, . . . .
(41)
Setzen wir an = [αn ], so erhalten wir α = [a0 , a1 , . . . , an , αn+1 ]. Dieser Algorithmus ist der Kettenbruchalgorithmus. Ist α rational, dann bricht die
Iteration nach endlich vielen Schritten ab und der Kettenbruchalgorithmus
10. Elementare Theorie der Kettenbrüche
71
ist nichts anderes als der euklidische Algorithmus in Verkleidung. Was passiert für eine Irrationalzahl? Z.B. kommt für α = π = 3.14159 . . .
1
a0 = [π] = 3
und
α1 =
= 7.06251 . . . ,
π−3
1
= 15.99744 . . . ,
a1 = [7.06251 . . .] = 7
und
α2 =
7.06251 . . . − 7
1
a2 = [15.99744 . . .] = 15
und
α3 =
.
15.99744 . . . − 15
Dies gibt π = [3, 7, 15, α3 ].
Sei jetzt α irgendeine Irrationalzahl. Dann bricht die Iteration nicht ab,
da ansonsten α ja eine Darstellung als endlicher Kettenbruch hätte und
somit rational wäre. Also liefert die Iteration für Irrationalzahlen eine unendliche Folge endlicher Kettenbrüche:
[a0 , a1 , . . .] := lim [a0 , a1 , . . . , αm ].
m→∞
Der Grenzwert [a0 , a1 , a2 , . . .] heißt unendlicher Kettenbruch und das Erste,
was wir uns zu fragen haben, ist, ob dieser unendliche Prozess konvergent
ist, und wenn ja, ob der Grenzwert etwas mit α zu tun hat.
Satz 27. Sei α = [a0 , a1 , . . . , an , αn+1 ] irrational mit Näherungsbrüchen
Dann gilt
(−1)n
pn
=
.
α−
qn
qn (αn+1 qn + qn−1 )
Insbesondere
pn
α = lim
= [a0 , a1 , a2 , . . .].
n→∞ qn
pn
qn .
Beweis. Zunächst bemerken wir, dass alle unsere Beobachtungen über endliche Kettenbrüche sich auf unendliche Kettenbrüche übertragen - insbesondere (40) und Satz 24. Eine kurze Berechnung zeigt
pn
αn+1 pn + pn−1 pn
pn−1 qn − pn qn−1
α−
=
−
=
.
qn
αn+1 qn + qn−1
qn
qn (αn+1 qn + qn−1 )
Satz 25 impliziert damit die erste Behauptung.
Wegen an+1 ≤ αn+1 folgt ferner
1
α − pn ≤
.
qn qn (an+1 qn + qn−1 )
Im Falle eines irrationalen α sind die Folgen der pn und qn jeweils streng
monoton wachsend für n ≥ 2. Damit ist die Folge der Näherungsbrüche pqnn
abwechselnd größer bzw. kleiner als α; die mit geradem Index n liegen links,
die mit ungeradem Index rechts:
p2
p3
p1
p0
<
< ... < α < ... <
< .
q0
q2
q3
q1
72
ERGODENTHEORIE
Ist α irrational, dann terminiert der Kettenbruchalgorithmus nicht und die
Folge der Nenner qn der Näherungsbrüche ist unbeschränkt. Also folgt aus
der ersten Behauptung, dass der Abstand aufeinanderfolgender Näherungsbrüche kleiner und kleiner wird und gegen Null konvergiert. Also konvergieren die pqnn gegen den Grenzwert [a0 , a1 , . . .] und dieser Grenzwert ist gleich
α. Der Satz ist damit vollständig bewiesen. •
Man sieht leicht, dass die Kettenbruchentwicklung einer Irrationalzahl
eindeutig ist. Dies liefert eine Möglichkeit, die Menge R der reellen Zahlen
aus der Menge Q der rationalen Zahlen zu konstruieren. Ferner liefert die
Kettenbruchentwicklung eine Ordnung auf der reellen Achse. Gegeben zwei
reelle Zahlen α = [a0 , . . . , an , αn+1 ] und α′ = [a0 , . . . , an , α′n+1 ] mit denselben ersten Teilnennern, dann folgt, dass jedes α′′ , das zwischen α und α′
liegt, eine Kettenbruchentwicklung besitzt, die mit denselben Teilnennern
startet, wie die von α und α′ , nämlich:
α′′ = [a0 , . . . , an , α′′n+1 ]
für irgendein α′′n+1 zwischen αn+1 und α′′n+1 . Dies zeigt man mit Induktion.
Satz 27 zeigt, wie wichtig Kettenbrüche in der Theorie der diophantischen Approximation sind. Es folgt unmittelbar
Korollar 28. Sei α = [a0 , a1 , . . .] irrational mit Näherungsbrüuchen pqnn .
Dann gilt
1
p
n
α − <
.
(42)
qn an+1 qn2
Diese Aussage verschärft den klassischen Dirichletschen Approximationssatz 1: Die Folge der Näherungsbrüche approximiert α besser und besser
(denn die Teilnenner wachsen streng monoton und jeder Teilnenner ist größer
gleich Eins). Tatsächlich besagt der Approximationssatz von Hurwitz: Zu
α ∈ R \ Q gibt es unendlich viele rationale Zahlen pq mit
p
ξ − < √ 1 ;
(43)
q
5q 2
√
hierbei kann man 5 durch keine größere Konstante ersetzen. Für den Beweis betrachte man den am langsamsten konvergierenden Kettenbruch
√
Fn+1
5+1
= [1, 1, 1, 1, 1, . . .] = lim
,
n→∞ Fn
2
wobei Fn die n-te Fibonacci-Zahl bezeichne, rekursiv definiert durch
F0 := 0, F1 := 1
und Fn+1 = Fn + Fn−1
für n ∈ N.
10. Elementare Theorie der Kettenbrüche
73
Aufgabe√22. Man beweise den Hurwitzschen Approximationssatz; die
Schranke 5 steht dabei in direktem Zusammenhang mit [1, 1, . . .] (Hinweis:
Man benutze zudem das Gesetz der besten Approximation, Satz 29 weiter unten
und nicht Korollar 28).
Als weiteres Beispiel eines unendlichen Kettenbruches betrachten wir
den Kettenbruch für π:∗ Zunächst berechnen wir
π = [3, 7, 15, 1, 292, 1, 1, 1, 21, 31, 14, 2, 1, 2, 2, 2, . . .].
Schneiden wir den Kettenbruch etwa vor 292 ab, so erhalten wir
355
p3
= [3, 7, 15, 1] = .
113
q3
Da a4 = 292 im Vergleich zu q3 = 113, ist dies eine exzellente Approximation:
1
355
−π <
= 0.00000 02682 . . . ,
0<
113
292 · 1132
wie bereits der chinesische Mathematiker Tsu Chung Chi ca. 500 n. Chr.
wußte. Ausserdem folgt, dass der nächste Näherungsbruch einen extrem
großen Nenner besitzt, denn q4 = a4 q3 + q2 = 292 · 113 + 106 = 33 102.
Die Folge der ersten Näherungsbrüche ist identisch mit den best möglichen
rationalen Approximationen an π:
333
1 03993
355
22
3
<
<
< ... < π < ... <
< .
1
106
33102
113
7
Diese Beobachtung ist kein Wunder wie Lagrange 1770 bewiesen hat.
Satz 29. Sei α irgendeine reelle Zahl mit Näherungsbrüchen pqnn . Ist n ≥ 2
und sind p, q natürliche Zahlen mit 0 < q ≤ qn und pq 6= pqnn , so gilt
|qn α − pn | < |qα − p|.
Dies ist das sogenannte Gesetz der besten Approximation und zeigt, dass
man grundsätzlich nicht besser mit rationalen Zahlen approximieren kann,
als durch die Näherungsbrüche der Kettenbruchentwicklung.
Beweis. Wir nehmen an, dass p und q teilerfremd sind. Wegen
|qn α − pn | < |qn−1 α − pn−1 |
genügt es die Behauptung unter der Annahme qn−1 < q ≤ qn zu zeigen; die
volle Aussage ergibt sich dann per Induktion.
Gilt q = qn , so ist p 6= pn und
p pn − ≥ 1.
q
qn qn
∗
Bislang kennt man kein Muster in der regulären Kettenbruchentwicklung von π,
übrigens im Gegensatz zu e = exp(1) = [2, 1, 2, 1, 1, 4, 1, . . . , 1, 2n, 1, . . .] – die Schreibweise
erklärt sich hier von selbst.
74
ERGODENTHEORIE
Allerdings gilt
1
1
α − pn ≤
<
qn
qn qn+1
2qn
nach Satz 27 und qn+1 ≥ 3 (denn n ≥ 2). Mit der Dreiecksungleichung folgt
α − p ≥ p − pn − α − pn > 1 > α − pn ,
q q
qn qn 2qn qn was die zu beweisende Ungleichung nach Multiplikation mit q = qn liefert.
Angenommen qn−1 < q < qn . Nach Satz 25 besitzt das lineare Gleichungssystem
pn X + pn−1 Y = p
und
qn X + qn−1 Y = q
die eindeutige Lösung
x=
und
pqn−1 − qpn−1
= ±(pqn−1 − qpn−1 )
pn qn−1 − pn−1 qn
pqn − qpn
= ±(pqn − qpn ).
pn qn−1 − pn−1 qn
Damit sind x und y von Null verschiedene ganze Zahlen. Offensichtlich haben
x und y unterschiedliches Vorzeichen und damit qn α − pn und qn−1 α − pn−1
ebenso. Also besitzen x(qn α − pn ) und y(qn−1 α − pn−1 ) dasselbe Vorzeichen.
Wegen
qα − p = x(qn α − pn ) + y(qn−1 α − pn−1 )
y=
folgt
|qα − p| > |qn−1 α − pn−1 | > |qn α − pn |,
was zu zeigen war. •
11. Metrische Theorie der Kettenbrüche
In einem Brief an Laplace vom 30. Januar 1812 beschreibt Gauss ein
’seltsames Problem’, das ihn zu dieser Zeit bereits zwölf Jahre beschäftigte
und er bis dato nicht zu seiner Zufriedenheit lösen konnte. Hier ist sein
Problem: Sei 0 ≤ ξ ≤ 1 und mn (ξ) die Wahrscheinlichkeit, dass eine reelle
Zahl α = [0, a1 , a2 , . . . , an , αn+1 ] ∈ [0, 1) der Ungleichung
1
<ξ
αn+1
genügt. Es ist klar, dass m0 (ξ) = ξ gilt und, dass mn+1 von mn abhängt.
Man kann davon ausgehen, dass Gauss ferner die Identität
∞ X
1
mn ( k1 ) − mn ( k+ξ
mn+1 (ξ) =
)
k=1
11. Metrische Theorie der Kettenbrüche
75
kannte. Gauss schrieb nämlich, dass er einen einfachen Beweis für
lim mn (ξ) =
n→∞
log(1 + ξ)
log 2
(44)
hatte und, dass dieser Grenzwert die Funktionalgleichung
m(ξ) =
∞ X
1
)
m( k1 ) − m( k+ξ
k=1
mit zusätzlich m(0) = 0 und m(1) = 1 erfülle. Er konnte allerdings nicht
die Differenz mn (ξ) − log(1+ξ)
log 2 , also die Abweichung vom Grenzwert oder
den Fehlerterm der Asymptotik für große n beschreiben. Mehr als ein Jahrhundert später gelang Kusmin [56] die Lösung des Gaussschen Problems
(incl. eines ersten publizierten Beweises von (44)) durch die Angabe eines
expliziten Fehlerterms; diesen verbesserte Lévy [58] zu
mn (ξ) =
log(1 + ξ)
+ O(q n )
log 2
für ein q ∈ (0, 0.76); die schärfste Abschätzung gelang Wirsing [92]. Dieses Ergebnis ist dann auch in der Literatur bekannt als Satz von Gauss–
Kusmin–Lévy. Mit diesem wichtigen Ergebnis als Werkzeug gewannen
Lévy und Kchintchine kurz darauf interessante Ergebnisse über die
Statistik von Kettenbrüchen, wie etwa, dass für fast alle Kettenbrüche
[0, a1 , a2 , . . .] die Konvergenz
lim
N →∞
N
Y
n=1
an
! N1
=
∞ Y
k=1
1
1+ 2
k + 2k
log k
log 2
(45)
besteht. Diese fast sichere Asymptotik für das geometrische Mittel (und
noch einiges mehr) werden wir weiter unten mit Hilfe von Ergodentheorie
(und ohne den tiefen Satz von Gauss–Kusmin–Lévy) beweisen. Während
die Ansätze von Khintchine und Lévy ursprünglich probabilistischer
Natur waren, entdeckten 1940 Doeblin† und 1951 (unabhängig?) RyllNardzewski, dass ein ergodisches System hinter der schwierigen Arithmetik von Kettenbrüchen steht.
†
Wofgang Doeblin, Schüler von Lévy und Sohn des bekannten Schriftstellers Alfred Doeblin (Berlin Alexanderplatz). Von Doeblins mathematischen Werk war bis vor
kurzem nichts bekannt — sein mathematisches Testament lag fast sechzig Jahre ungeöffnet
in einer Pariser Universität; hierunter sind wichtige Entdeckungen über die Brownsche
Bewegung und stochastische Analysis, die erst Jahre später von Ito und Doob gefunden wurden. M. Petits Buch ’Die verlorene Gleichung’ gibt einen Abriss seines kurzen
Lebens, dass mit seinem Freitod in den Wirren des zweiten Weltkrieges tragisch endete.
76
ERGODENTHEORIE
Die Kettenbruchabbildung (oder auch Gauss-Abbildung) T : [0, 1) →
[0, 1) ist definiert durch
1
mod 1
für 0 < x < 1
x
undT 0 = 0; wir hätten natürlich für 0 < x < 1 stattdessen auch T x =
1
1
1
n
x − x = { x } schreiben können. Offensichtlich gilt T x = 0 für ein n, wenn
Tx =
1
1
y
y
0
0
0
1
x
0
1
x
Abbildung 10. Die Kettenbruchabbildung: links der Graph
der Transformation, rechts der Graph der Dichte.
und nur wenn x rational ist, was sofort aus dem vorigen Kapitel folgt, denn
es gilt
T [0, a1 , a2 , . . .] = [a1 , a2 , a3 , . . .] mod 1 = [0, a2 , a3 , . . .].
(46)
Für unsere ergodentheoretische Maschinerie ist es von entscheidender Bedeutung ein Maß zu finden, bzgl. dessen T maßtreu ist. Dies ist im Allgemeinen
– und hier ebenso – keine einfache Aufgabe (siehe Übungsaufgabe 7).
Aufgabe 23. Man zeige, dass die Abbildung T nicht maßtreu bzgl. des
Lebesgue-Maßes ist.
Hier kommt die Lösung: Das Gauss-Maß µ ist für Lebesgue-meßbare
Mengen A definiert durch
Z
dx
1
.
µ(A) =
log 2 A 1 + x
Offensichtlich ist µ ein Wahrscheinlichkeitsmaß auf [0, 1). Als Grundlage
unseres ergodentheoretischen Ansatzes beweisen wir zunächst, dass die Kettenbruchabbildung T maßtreu bzgl. des Gauss-Maßes µ ist.
Es genügt zu zeigen, dass µ(T −1 (0, ξ)) = µ((0, ξ)) bzw.
Z
Z
dx
dx
=
(0,ξ) 1 + x
T −1 (0,ξ) 1 + x
11. Metrische Theorie der Kettenbrüche
77
für jedes ξ ∈ [0, 1) gilt. Dazu bemerken wir
∞ [
1
1
−1
T (0, ξ) =
,
,
n+ξ n
n=1
wobei die rechte Seite wegen 0 ≤ ξ < 1 eine disjunkte Vereinigung ist. Wegen
Z 1/n
1
1
dx
= log 1 +
− log 1 +
n
n+ξ
1/(n+ξ) 1 + x
folgt damit
Z
T −1 (0,ξ)
dx
1+x
∞ Z
X
1/n
dx
1+x
n=1 1/(n+ξ)
∞ X
1
1
=
log 1 +
− log 1 +
n
n+ξ
=
(47)
n=1
(die auftretenden Reihen sind offensichtlich konvergent). Wegen
1 + nξ
1 + n1
n+1 n+ξ
=
=
1
ξ
n n+1+ξ
1 + n+ξ
1 + n+1
können wir die Reihe in (47) ersetzen durch
∞ X
ξ
ξ
− log 1 +
.
log 1 +
n
n+1
n=1
Lesen wir nun alles rückwärts, so ergibt sich
Z ξ
Z
∞ Z ξ/n
X
dx
dx
dx
=
=
,
T −1 (0,ξ) 1 + x
0 1+x
ξ/(n+1) 1 + x
n=1
was zu zeigen war. Die Abbildung T ist also maßtreu bzgl. µ.
Als Nächstes wollen wir zeigen, dass µ ergodisch ist, was leider etwas
aufwendiger ist. Dazu definieren wir für irgendwelche natürlichen Zahlen aj
zunächst die Mengen
∆n := ∆n (a1 , . . . , an )
:= {x = [0, a1 (x), a2 (x), . . .] ∈ [0, 1) : a1 (x) = a1 , . . . , an (x) = an }.
Diese Mengen bestehen also aus den x des Einheitsintervalls, deren Teilnenner aj (x) mit den vorgegebenen Werten aj für j = 1, . . . , n übereinstimmen,
z.B.
1
1
1
∆1 (1) =
, 1 , ∆1 (n) =
,
für n ≥ 2.
2
n+1 n
Tatsächlich sind die Mengen ∆n halboffene Intervalle mit Endpunkten
pn + pn−1
pn
und
;
qn
qn + qn−1
78
ERGODENTHEORIE
dies folgt unmittelbar mit der bijektiven Abbildung
pn + tpn−1
[0, 1] ∋ t 7→
= [0, a1 , . . . , an + t]
qn + tqn−1
(und unseren Beobachtungen zu Kettenbrüchen aus dem vorigen Kapitel).
Sei D die Menge aller Intervalle ∆n (mit allen möglichen Ingredienzen
a1 , . . . , an ∈ N und allen n ∈ N). Dann geben die Endpunkte all dieser ∆n
genau die Menge der rationalen Zahlen im Einheitsintervall [0, 1). Insofern
haben wir mit D eine abzählbare Familie von halb-offenen Intervallen gefunden, die einerseits viel mit Kettenbrüchen zu tun haben, und ausserdem
die so wichtige Borelsche σ-Algebra erzeugen.
Ferner berechnet sich mit Hilfe von Satz 25 das Lebesgue-Maß der ∆n
als
1
.
(48)
λ(∆n (a1 , . . . , an )) =
qn (qn + qn−1 )
Ferner folgt für 0 ≤ a < b ≤ 1, dass entweder
pn + apn−1 pn + bpn−1
n
{x : a ≤ T x ≤ b} ∩ ∆n =
,
(49)
qn + aqn−1 qn + bqn−1
oder
pn + bpn−1 pn + apn−1
,
{x : a ≤ T x ≤ b} ∩ ∆n =
qn + bqn−1 qn + aqn−1
je nachdem, ob n gerade oder ungerade ist. Hierbei gilt
n
,
(50)
qn (qn + qn−1 )
.
(qn + aqn−1 )(qn + bqn−1 )
(51)
{x : a ≤ T n x ≤ b} = T −n [a, b)
und auch
λ(T −n [a, b) ∩ ∆n ) = λ([a, b))λ(∆n )
Diese Rechnungen sind allesamt technischer Natur und wir überlassen ihren
Nachweis dem geneigten Leser als
Aufgabe 24. Man beweise die Aussagen (48)-(51).
Mit der Monotonie einer jeden Folge der qn gilt
qn
qn (qn + qn−1 )
qn (qn + qn−1 )
1
<
<
<
< 2.
2
qn + qn−1
(qn + aqn−1 )(qn + bqn−1 )
qn2
Nun folgt aus (51) sofort für irgendein Intervall I ⊂ [0, 1) die Ungleichung
1
λ(I)λ(∆n ) < λ(T −n I ∩ ∆n ) < 2λ(I)λ(∆n ).
2
Dieselbe Ungleichungskette gilt natürlich auch, wenn wir I durch eine beliebige endliche disjunkte Vereinigung A von solchen Intervallen ersetzen:
1
λ(A)λ(∆n ) < λ(T −n A ∩ ∆n ) < 2λ(A)λ(∆n ).
(52)
2
11. Metrische Theorie der Kettenbrüche
79
Die Menge solcher endlicher disjunkter Vereinigungen A von Intervallen erzeugt die Borelsche σ-Algebra. Somit gilt (52) auch für jede Borel-Menge
und insbesondere für jede Lebesgue-meßbare Menge A.
Natürlich geht es uns um das Gauss-Maß µ, welches wir nun ins Spiel
bringen. Es ist
1
1
1
1
≤
<
2 log 2
log 2 1 + x
log 2
für 0 ≤ x < 1.
Durch diesen Vergleich der Dichten von λ und µ gelten für jedes Lebesguemeßbare A die Ungleichungen
1
1
λ(A) ≤ µ(A) <
λ(A).
2 log 2
log 2
(53)
Jetzt benutzen wir die obigen Ungleichungen, um uns von den auftretenden
Lebesgue-Maßen zu lösen. Es folgt aus (52) und (53)
log 2
µ(A)µ(∆n ).
(54)
4
Nun haben wir alle Vorbereitungen getroffen, den folgenden wichtigen
Satz zu beweisen:
µ(T −n A ∩ ∆n ) >
Satz 30. Die Kettenbruchabbildung T ist eine maß-erhaltende, ergodische
Transformation auf dem Wahrscheinlichkeitsraum ([0, 1), L, µ), wobei L die
Familie der Lebesgue-meßbaren Mengen von [0, 1) ist und µ das GaussMaß µ. Damit ist ([0, 1), L, µ, T ) ein ergodisches dynamisches System.
Beweis. Die Maßtreue von T bzgl. µ haben wir bereits gezeigt, so dass
also lediglich noch der Nachweis der Ergodizität zu erbringen ist. Gegeben
eine Lebesgue-Menge B positiven Maßes. Angenommen, das Komplement
von B hätte positives Maß, dann besitzt B eine Darstellung als disjunkte
Vereinigung B = E ∪F , wobei E eine Borel-Menge vom Maß µ(E) = µ(B)
und F eine Nullmenge ist (siehe hierzu etwa [27]). Mit dem Komplement
von B besitzt dann auch das Komplement E c von E positives Maß. Zu
jedem ǫ > 0 existiert dann eine Menge Gǫ , die eine Darstellung als endliche
disjunkte Vereinigung unserer offenen Intervalle ∆n aus D besitzt, und eine
kleine symmetrische Differenz mit E c hat:
µ(E c ∆Gǫ ) < ǫ
(sie also gewissermaßen approximiert). Nun gilt nach (54) die Abschätzung
µ(E ∩ Gǫ ) ≥ γµ(Gǫ )
mit
γ=
log 2
µ(B).
4
Und nach Konstruktion ergibt sich damit
µ(E c ∆Gǫ ) ≥ µ(E ∩ Gǫ ) ≥ γµ(Gǫ ) ≥ γµ(E c ∩ Gǫ ) > γ(µ(E c ) − ǫ),
80
ERGODENTHEORIE
was auf
γ(µ(E c ) − ǫ) < µ(E c ∆Gǫ ) < ǫ
führt. Dies gibt die Ungleichung γµ(E c ) < ǫ + ǫγ, welche für hinreichend
kleines ǫ > 0 unmöglich ist. Also haben wir einen Widerspruch und somit
µ(B) = 1. Der Satz ist bewiesen. •
In unserem Beweis haben wir das Lemma von Knopp benutzt (incl.
seines Beweises): Gegeben ein Wahrscheinlichkeitsraum ([0, 1), F, λ). Ist B
eine Lebesgue-meßbare Menge und C eine Klasse von Teilintervallen von
[0, 1) mit den Eigenschaften:
• Jedes offene Teilintervall von [0, 1) ist darstellbar als eine abzählbare Vereinigung disjunkter Elemente von C;
• für alle A ∈ C gilt λ(A ∩ B) ≥ γλ(A) mit einer positiven, von A
unabhängigen Konstanten γ.
Dann gilt λ(B) = 1. Dieses Ergodizitätskriterium ist sehr wichtig und hilfreich in der Praxis.
Aufgabe 25. Man gebe einen Beweis des Knoppschen Lemmas in seiner
vollen Allgemeinheit. (Hilfestellung gibt [21].)
Jetzt lassen wir unsere Maschinerie auf das ergodische dynamische System ([0, 1), L, µ, T ) los, um einige erstaunliche Resultate über die Statistik
von Kettenbruchentwicklungen zu gewinnen. Wir starten mit fast sicheren
Asymptotiken für einige Mittelwerten für die Teilnenner (wie etwa (45)).
Khintchine [50] bewies:
Satz 31. Für fast alle x = [0, a1 , a2 , . . .] ∈ [0, 1) gilt:
(i) Die natürliche Zahl k ∈ N tritt in der Folge der Teilnenner an mit
der asymptotischen Dichte
1
1
1
lim
♯{1 ≤ n ≤ N : an = k} =
log 1 +
.
N →∞ N
log 2
k(k + 2)
(ii) Für das arithmetische Mittel der Teilnenner gilt
N
1 X
an = +∞.
N →∞ N
lim
n=1
(iii) Für das geometrische Mittel gilt
lim
N →∞
N
Y
n=1
an
! N1
=
∞ Y
k=1
1
1+
k(k + 2)
log k
log 2
.
11. Metrische Theorie der Kettenbrüche
81
3
40
2
20
1
0
0
1000
0
0
n
1000
n
Abbildung 11. Die langsame Konvergenz des geometrischen Mittels (links) und des arithmetischen Mittels (Mitte)
der Teilnenner im Falle x = π − 3.
Nach (i) tritt also der Teilnenner 1 bei fast allen x aus dem Einheitsintervall
4/3
mit einer Häufigkeit von ungefähr log
log 2 ≈ 41.50 . . . Prozent auf, hingegen
9/8
der Teilnenner 2 nur mit ungefähr log
log 2 ≈ 16.99 . . . Prozent.
Beweis. Wir schreiben x = [0, a1 (x), a2 (x), . . .]. Dann gilt a1 (x) = [ x1 ] =
[T x] bzw. a2 (x) = a1 (T x) nach (46), woraus sich an (x) = a1 (T n−1 x) für
1
, k1 ] gilt a1 (ξ) = k genau
n ≥ 2 ableitet. Mit unseren Intervallen ∆k := ( k+1
für {ξ} ∈ ∆k und damit also
an (x) = k
a1 (T n−1 x) = k
⇐⇒
⇐⇒
T n x ∈ ∆k . (55)
Die Folge der Teilnenner der Kettenbruchentwicklung x
=
[0, a1 (x), a2 (x), . . .] steht also in eindeutigem Zusammenhang mit den
Bildern der Iterierten Kettenbruchabbildung T n in den Intervallen ∆k .
Jetzt geht’s los:
Für die erste Behauptung bemühen wir den Birkhoffschen Ergodensatz 11 für die nach Satz 30 ergodische Kettenbruchabbildung T mit der
charakteristischen Funktion f = χ∆k . Wir erhalten
Z 1
1 X
lim
χ∆k dµ = µ(∆k );
χ∆k (T n x) =
N →∞ N
0
0≤n<N
dieses letzte Integral berechnet sich als
Z 1/k
dx
1
1
1
=
log 1 +
− log 1 +
log 2
k
k+1
1/(k+1) 1 + x
=
k+1k+1
1
log
,
log 2
k k+2
also schließlich der in (i) auftretende Wert. Da hier χ∆k (T n x) = 1 nach (55)
genau für an = k gilt, ist (i) bewiesen.
82
ERGODENTHEORIE
Die zweite Behauptung ergibt sich ähnlich mit der Treppenfunktion
R1
f (x) = [ x1 ] = a1 (x). In diesem Fall ist das Integral 0 f dµ offensichtlich
bestimmt divergent gegen Unendlich. Für (iii) betrachten wir die Treppenfunktion f (x) = log a1 (x), die wir wegen (55) auch als f (x) = log k für
x ∈ ∆k darstellen können. Es gilt
Z
1
f (x) dx =
0
∞
X
k=1
was auch die Konvergenz von
R1
µ(∆k ) log k ≤
∞
X
log k
k=1
k2
,
f dµ impliziert, da
0
dµ
1
1
=
≪1
dx
log 2 1 + x
für x ∈ [0, 1).
Der Ergodensatz 11 liefert also
1
lim
N →∞ N
X
log an =
0≤n<N
Z
1
f (x) dµ(x)
0
Das Integral rechts berechnet sich leicht als
Z
1
f (x) dµ(x) =
0
=
Z
∞
X
log k
k=1
∞
X
k=1
log 2
1/k
1/(k+1)
dx
1+x
1
log k
log 1 +
;
log 2
k(k + 2)
log k
bei k → ∞, womit
hierin wachsen die Summanden asymptotisch wie k(k+2)
also die auftretende unendliche Reihe und damit auch das uneigentliche
Integral konvergieren. Für das geometrische Mittel folgt entsprechend
lim
N →∞
N
Y
n=1
an
! N1
= exp
Z
1
0
= exp
∞
X
k=1
f (x) dµ(x)
!
1
log k
log 1 +
,
log 2
k(k + 2)
was genau den Grenzwert in (iii) gibt. Der Satz ist bewiesen. •
Für N → ∞ konvergiert der fast sichere Grenzwert für das geometrische
Mittel gegen die so genannte Khintchine-Konstante
√
N
a1 a2 · . . . · aN
−→
∞ Y
k=1
1
1+
k(k + 2)
log k
log 2
= 2.68545 20010 . . . .
11. Metrische Theorie der Kettenbrüche
83
Wir diskutieren kurz einige spezielle Kettenbrüche und die Mittelwerte ihrer
Teilnenner. Die Eulersche Zahl besitzt eine regelmäßige Kettenbruchentwicklung:
e = exp(1) = [2, 1, 2, 1, 1, 4, 1, 1, 6, 1, . . . , 1, 2n, 1, . . .]
(einen Beweis findet man etwa in [75]). Hier wächst das arithmetische Mittel
der Teilnenner gemäß a1 +a2 +. . .+aN ∼ 19 N , während für das geometrische
Mittel
r
2
3
√
2N
2
N
N
N! ∼
a1 a2 · . . . · aN ∼
3
3e
gilt, also im letzten Falle ein abweichendes Verhalten. Für π hingegen legen Computerexperimente ein reguläres Verhalten im Sinne des Khintchineschen Satzes nahe. Nach einem klassischen Satz von Lagrange besitzen
genau die quadratischen Irrationalzahlen (also die Nullstellen irreduzibler
quadratischer Polynome mit ganzzahligen Koeffizienten) eine schließlich periodische Kettenbruchentwicklung (siehe [75]). Als Beispiel mögen hier etwa
√
√
√
5+1
3+1
= [1, 1, 1, 1, . . .],
= [1, 2, 1, 2, . . .]
2 = [1, 2, 2, 2, . . .],
2
2
dienen. Insbesondere sind die Teilnennerfolgen quadratischer Irrationalitäten beschränkt. √
Tatsächlich weiß man nicht, ob z.B. kubische Irrationalzahlen – wie etwa 3 2 – oder algebraische Irrationalitäten höheren Grades
eine unbeschränkte Teilnennerfolge besitzen oder nicht.
Aufgabe 26. Man berechne für einige quadratische und kubische Irrationalitäten die ersten Teilnenner und versuche das Grenzwertverhalten der
geometrischen und arithmetischen Mittelwerte ihrer Teilnennerfolge zu prognostizieren. Ist die Konvergenz im Falle quadratischer Irrationalitäten sicher? Wenn ja, versuche man dies zu beweisen und den Grenzwert exakt zu
bestimmen.
Der Birkhoffsche Ergodensatz erlaubt viele weitere fast sichere Asymptotiken für die Teilnennerfolgen.
Aufgabe 27. Man beweise: Für fast alle x = [0, a1 , a2 , . . .] gilt
lim
N →∞ 1
a1
N
+ ... +
1
aN
= 1.74540 . . . .
Als Nächstes untersuchen wir die Folge der Nenner qn der Näherungsbrüche. Insbesondere ihr Wachstumsverhalten qn → ∞ erlaubt einige interessante Aussagen über das Approximationsverhalten. Hier gilt nach Lévy
[58]:
84
ERGODENTHEORIE
Satz 32. Es bezeichne
x ∈ [0, 1) gilt
pn (x)
qn (x)
den n-ten Näherungsbruch an x. Für fast alle
1
π2
log qn (x) =
n→∞ n
12 log 2
lim
und
−π 2
pn 1
.
lim log x − =
n→∞ n
qn
6 log 2
Beweis. Wegen
pm (x)
qm (x)
=
1
1
=
p
(T x)
m−1
a1 + [0, a2 , a3 , . . . , am ]
a1 + qm−1 (T
x)
=
qm−1 (T x)
,
pm−1 (T x) + a1 qm−1 (T x)
(56)
(57)
folgt pm (x) = qm−1 (T x) für m ∈ N (denn die Näherungsbrüche sind als
beste Approximationen gekürzt). Damit gilt
1
qn (x)
=
pn (x)
1
p2 (T n−2 x)
· ... ·
qn (x) qn−1 (T x)
q1 (T n−1 x)
=
pn (x) pn−1 (T x)
p1 (T n−1 x)
· ... ·
.
qn (x) qn−1 (T x)
q1 (T n−1 x)
Logarithmieren liefert also
− log qn (x) =
Nun approximieren die
pn (x)
qn (x)
X
0≤j<n
log
pn−j (T j x)
.
qn−j (T j x)
die Zahl x und deshalb schreiben wir
1
1
1 X
− log qn (x) =
log(T j x) + Rn (x)
n
n
n
(58)
0≤j<n
mit einem Fehlerterm
Rn (x) =
X 0≤j<n
pn−j (T j x)
j
log
− log(T x) .
qn−j (T j x)
Zunächst schätzen wir den Fehler Rn (x) ab. Wir erinnern uns, dass x
p +pk−1
liegt. Insbesondere
in einem Intervall ∆k mit Endpunkten pqkk und qkk +qk−1
folgt mit Satz 27 und dem Mittelwertsatz der Integralrechnung bei geradem
k, dass
Z x
du
pk
=
0 < log x − log
qk
pk /qk u
pk 1
qk
1
1
=
x−
≤
<
qk ξ
qk (qk + qk−1 ) pk
qk
11. Metrische Theorie der Kettenbrüche
85
mit einem ξ ∈ ( pqkk , x). Ähnlich zeigt sich
1
pk
< log x − log
qk
qk
für ungerades k. Bezeichnet wie üblich Fk die k-te Fibonacci-Zahl (siehe
letztes Kapitel), so folgt mit deren rekursiven Definition die Abschätzung
qk (x)
√ ≥ Fk (wobei Gleichheit genau im Falle des goldenen Schnittes x =
1
5 + 1) auftritt), so folgt
(
2
|Rn (x)| ≤
n
X
1
,
Fk
k=1
was sich mit Hilfe der Binetschen Formel
1
Fk = √ (Gk − (−1)k G−k )
5
mit
√
5+1
G :=
2
(59)
leicht gegen eine konvergente geometrische Reihe abschätzen lässt:
|Rn (x)| <
∞
∞
X
X
1
<
G−k < +∞.
Fk
k=1
k=1
Insbesondere folgt
1
Rn (x) = 0
n
für alle x. Damit kann der Fehlerterm Rn (x) in (58) vernachlässigt werden.
Existiert also der Grenzwert
lim
n→∞
n
1X
log(T n−j x),
n→∞ n
− lim
(60)
j=1
so auch limn→∞ n1 log qn (x) und beide Werte stimmen überein. Der Ausdruck
(60) lässt sich mit dem Birkhoffschen Ergodensatz auswerten und wir
erhalten für fast alle x
Z 1
n
log x
π2
1X
j
log(T x) =
dx = −
(61)
lim
n→∞ n
6
0 1+x
j=1
Es verbleibt hierbei lediglich noch das auftretende Integral zu berechnen.
Hierzu benötigen wir zwei wichtige Funktionen. Einerseits die Riemannsche Zetafunktion, gegeben durch die für s > 1 konvergente ReihenP
1
darstellung ζ(s) = ∞
n=1 ns (siehe (22)). Tatsächlich gilt (wie man leicht
sieht) ferner die Darstellung
ζ(s) = (1 − 21−s )−1
∞
X
(−1)n−1
n=1
ns
86
ERGODENTHEORIE
für alle komplexen s mit positivem Realteil, abgesehen von s = 1, denn für
diesen Wert besitzt ζ(s) einen einfachen Pol (harmonische Reihe).‡ Zweitens
benötigen wir die Gamma-Funktion, für komplexe s mit positivem Realteil
definiert durch das uneigentliche Integral
Z ∞
y s−1 exp(−y) dy.
Γ(s) =
0
Dann gilt
n−s Γ(s) =
bzw.
∞
X
(−1)n
n=1
ns
Γ(s) =
Z
Z
∞
∞
us−1 exp(−nu) du
0
u
∞
X
s−1
0
!
n
(−1) exp(−nu)
n=1
du;
hier ist das Vertauschen von Summation und Integration auf Grund der
gleichmässigen Konvergenz erlaubt. Mit u = − log x und
∞
X
n
(−1) exp(−nu) =
1−s
(1 − 2
und insbesondere
(−1)n xn = x
n=1
n=1
folgt
∞
X
)ζ(s)Γ(s) =
Z
1
(− log x)s−1
0
Z
1
1+x
dx
1+x
1
dx
1
= ζ(2).
1+x
2
0
Weiter mit Eulers berühmter Formel
(− log x)
1
1
1
π2
+
+
+
.
.
.
=
(62)
22 32 42
6
(dies zeigt man z.B. mit der Produktentwicklung des Sinus oder aber
Fourier-Analysis) ergibt sich jetzt (61). Damit folgt (56) nun aus (58).
Nach Satz 27 ist
1
pn 1
< x − <
.
2qn qn+1
qn
qn qn+1
ζ(2) = 1 +
Mit dem bereits Bewiesenen in Gestalt von (56) ergibt sich nun auch leicht
(57). Der Satz ist bewiesen. •
Aufgabe 28. Man schließe alle Lücken, wie etwa die Binetsche Formel
(59) oder Eulers Formel (62) über die Summe der Reziproken Quadrate
(oder auch der Schluss von (56) auf (57)).
‡
Tatsächlich ist dieser einzige Pol für die Zahlentheorie sehr wichtig und letztlich
verantwortlich für die Asymptotik im Primzahlsatz verantwortlich.
13. Worüber wir nicht gesprochen haben...
87
Tatsächlich weiss man einiges Interessantes über den Lévysche Satz hinaus. Philipp & Stackelberg [63] zeigten genauer
2
| log qn (x) − 12nπ
log 2 |
lim sup p
=1
n→∞
2σ 2 n log log n
für fast alle x ∈ [0, 1), wobei
2
Z dx
nπ 2
1 1
2
log qn (x) −
σ = lim
n→∞ n 0
12 log 2
(log 2)(1 + x)
eine positive Konstante ist. Ein weiteres Resultat von Philipp [62] zeigt
eine Gausssche Normalverteilung auf:
!
2
Z z
log qn (x) − 12nπ
1
log 2
√
<z = √
exp(− 21 u2 ) du,
lim µ x ∈ [0, 1] :
n→∞
σ n
2π −∞
wobei µ irgendein bzgl. des Lebesgue-Maßes absolut stetiges Wahrscheinlichkeitsmaß ist.
Erwähnenswert sind auch die Untersuchungen von Faivre [30] für quadratische Irrationalzahlen x. In diesem Fall konvergiert die Folge n1 log qn (x)
stets (was mit der speziellen, nämlich schließlich periodischen Kettenbruchentwicklung zusammenhängt) und ihr Grenzwert β(x) ist die so genannte
Lévy-Konstante. Hier stellen sich Fragen wie: Was für Grenzwerte kommen
für β(x) in Frage?
In unseren metrischen Untersuchungen haben wir die Gausssche Grenzwertformel (44) gar nicht benötigt; sie übersetzt sich zu
lim λ(T −n [0, ξ]) = µ([0, ξ]).
n→∞
Wer sich trotzdem für den Beweis interessiert, sei auf die Monographie von
Rockett & Szüsz [68] verwiesen, wo sogar der Satz von Gauss–Kusmin–
Lévy mit explizitem Fehlerterm bewiesen wird. Weitere tiefe Ergebnisse
zur metrischen Kettenbruchtheorie (wie etwa der Beweis der Doeblin–
Lenstra–Vermutung durch Bosma, Jager & Wiedijk) findet man in
[21]. Hier finden sich auch andere Erscheinungsformen von Kettenbrüchen
mit ihrer eigenen Ergodentheorie. [72] behandelt höherdimensionale Kettenbrüche.
12. Worüber wir nicht gesprochen haben...
Was kam zu kurz? Vieles! Fangen wir mit der Liste unserer Auslassungen gleich mit unserem letzten Thema, der metrischen diophantischen
Approximationstheorie. Die Theorie der Kettenbrüche lehrt, dass zu jedem
x ∈ R eine Folge (qm ) natürlicher Zahlen mit qm → ∞ und qm kqm xk < 1
88
ERGODENTHEORIE
existiert (wobei k . k wie oben für das Minimum zur nächsten ganzen Zahl
steht). Littlewood vermutete darüber hinaus, dass
lim inf nknxkknyk = 0
n→∞
für alle
x, y ∈ R.
Einsiedler, Katok & Lindenstrauss [25] bewiesen kürzlich, dass dies
tatsächlich fast immer der Fall ist: Die Hausdorff-Dimension der Menge der
Paare (x, y) ∈ R2 mit dieser Eigenschaft ist gleich Null. Auch zu kurz gekommen sind die Anwendungen der Ergodentheorie auf diophantische Gleichungen, also (in ihrer einfachsten Form) polynomielle Gleichungen über Q,
die in ganzen oder rationalen Zahlen zu lösen sind. Margulis bewies 1986
die Oppenheim-Vermutung (1929): Sei Q eine indefinite quadratische Form
in n ≥ 3 Variablen, die kein Vielfaches einer rationalen Form ist, dann ist
Q(Zn ) dicht in R.
Unsere Akzente haben wir in arithmetischen Anwendungen gesetzt. Viele
schöne und aktuelle Themen der Zahlentheorie, die hier trotzdem zu kurz
oder gar nicht behandelt wurden, werden in der Sammlung [34] behandelt,
etwa Quantum-Gleichverteilung, Verteilung von Punkten auf Varietäten, . . ..
Vieles, wenn nicht gar alles, was wir gemacht haben, lässt sich auch
in der Sprache der Stochastik formulieren. Dabei ergeben sich in diesem
Kontext viele neue Fragen und Anwendungen. Zum Beispiel wird hier Ergodizität auch in der Zeitreihenanalyse benutzt. Für die statistische Inferenz
mit Zeitreihen müssen Annahmen getroffen werden (weil in der Praxis oft
nur eine Realisierung des die Zeitreihe generierenden Prozesses vorliegt). Die
Annahme der Ergodizität bedeutet dann, dass Stichprobenmomente, die aus
einer endlichen Zeitreihe gewonnen werden, für T → ∞ gegen die Momente
der Grundgesamtheit konvergieren. Diese Eigenschaft lässt sich bei abhängigen Zufallsvariablen nicht empirisch nachweisen und muss daher unterstellt
werden.
Ein weiteres, nicht weniger spannendes Thema der Stochastik sind Irrfahrten und zufällige Prozesse. Tatsächlich kann man die Rekurrenz von
Irrfahrten ergodentheoretisch behandeln (siehe etwa [52]), was in Hinblick
auf den Poincaréschen Rückkehrsatz vielleicht gar nicht so verwunderlich
ist. Irrfahrten auf dem Kreis werden in [33] behandelt. Ein enger Zusammenhang besteht natürlich auch zwischen Markov-Ketten und diskreten
dynamischen Systemen (insbesondere symbolischer Dynamik).
Untersuchungen über ergodische Flüsse auf Mannigfaltigkeiten sind seit
den fundamentalen Arbeiten von Hopf und Asonov Gegenstand zahlreicher Arbeiten. Insbesondere strukturelle Eigenschaften der SL2 (R) bzw. allgemeiner Riemannsche Flächen negativer Krümmung spielen hier eine wichtige Rolle.
13. Worüber wir nicht gesprochen haben...
89
Und schließlich haben wir überhaupt nicht über die wichtigen Anwendungen der Ergodentheorie in der Informationstheorie gesprochen. Dieses
Gebiet hat sich seit seiner Einführung durch Shannon [73] im Jahre 1948 als
wegweisend für Anwendungen der Mathematik wie Codierungstheorie u.ä.
erwiesen. Wir wollen hier nur den zentralen Begriff der Entropie erwähnen
– ohne aber überhaupt seine Definition wiederzugeben. Die Entropie der
Kettenbruchabbildung T aus dem letzten Kapitel ist
2
qn+1
π2
lim
= exp
= 10.731 . . . ,
2
n→∞ qn
6 log 2
wobei wir im letzten Schritt den Lévyschen Satz 32 in der Form qn ∼
2
exp( 12πlogn 2 ) verwendet haben. Dieser Entropiewert ist knapp größer als Zehn,
die Entropie der Dezimalentwicklung, womit sich Kettenbrüche als Informationsträger als ein wenig effizienter als Dezimalbrüche erweisen. Dieses
Schlusswort ist natürlich unbefriedigend, da wir hier nicht wirklich begründen, was Entropie tatsächlich ist, macht aber vielleicht neugierig. Das
Semester ist zu Ende und es verbleibt uns an dieser Stelle nichts weiter, als
auf [21, 23] zu verweisen.
Literaturverzeichnis
[1] V.I. Arnold, A. Avez, Ergodic Problems of classical mechanics, Benjamin, NY 1968
[2] L. Baéz-Duarte, Sobre el promedio espacial del ciclo de Poincaré,
Bull. Venezuela Acad. Sciences 24 (1964), 64-66; engl. Übersetzung unter
http://front.math.ucdavis.edu/0505.5625
[3] D.H. Bailey, P.B. Borwein, S. Plouffe, On the rapid computation of various
polylogarithmic constants, Math. Comp. 66 (1997), 903-913
[4] D.H. Bailey & R.E. Crandall (On the random character of fundamental constant
expansions, Exper. Math. 10 (2001), 175-190
[5] V. Becher, S. Figueira & R. Picchi, Turing’s unpublished algorithm for normal
numbers, Theor. Computer Science 377 (2007), 126-138
[6] F. Benford, The law of anomalous numbers, Proc. Amer. Philos. Soc. 78 (1938),
551-572
[7] P. Billingsley, Ergodic theory and Information, John Wiley & Sons, New York 1965
[8] G.D. Birkhoff, Démonstration d’un théorème élémentaire sur les fonctions entières,
C. R. Acad. Sci. Paris 189 (1929), 473-475
[9] G.D. Birkhoff, Proof of the ergodic theorem, Proc. Nat. Acad. Sci. USA 17 (1931),
656-660
[10] G.D. Birkhoff, What is the ergodic theorem?, Amer. Math. Monthly 49 (1942),
222-226
[11] P. Bohl, Über ein in der Theorie der säkularen Störungen vorkommendes Problem,
J. f. Math. 135 (1909), 189-283
[12] H. Bohr, Zur Theorie der Riemann’schen Zetafunktion im kritischen Streifen, Acta
Math. 40 (1915), 67-100
[13] É. Borel, Les probabilités dénombrables et leurs applications arithmétiques, Rend.
Circ. Matematico di Palermo 27 (1909), 247-271
[14] N.G. de Bruijn, K.A. Post, A remark on uniformly distributed sequences and
Riemann integrability, Indagationes math. 30 (1968), 149-150
[15] J.W.S. Cassels, On a problem of Steinhaus about normal numbers, Colloq. Math.
7 (1959), 95-101
[16] R.V. Chacon, D.S. Ornstein, A general ergodic theorem, III. Journal Math. 4
(1960), 153-160
[17] D.G. Champernowne, The construction of decimals normal in the scale of ten, J.
London Math. Soc. 8 (1933), 254-260
[18] A.H. Copeland, P. Erdös, Note on normal numbers, Bull. Amer. Math. Soc. 52
(1946), 857-860
[19] W.A. Coppel, Number Theory. An Introduction to Mathematics, Springer 2006 (zwei
Bände)
[20] R. Crandall, C. Pomerance, Prime numbers. A computational perspective, Springer, 2001
90
Literaturverzeichnis
91
[21] K. Dajani, C. Kraaikamp, Ergodic theory of numbers, Mathematical Association
of America, Washington DC 2002
[22] P. Deligne, La conjecture de Weil. II. Publ. Math., Inst. Hautes Étud. Sci. 52 (1980),
137-252
[23] M. Denker, Einführung in die Analysis dynamischer Systeme, Springer 2005
[24] P. Diaconis, The distributions of leading digits and uniform distribution mod 1,
Ann. Probab. 5 (1977), 72-81
[25] M. Einsiedler, A. Katok & E. Lindenstrauss, Invariant measures and the set of
exceptions to Littlewood’s conjecture, Ann. of Math. 164 (2005), 513-560
[26] M. Einsiedler, T. Ward, Ergodic Theory: with a view towards Number Theory,
www.mth.uea.ac.uk/ergodic/
[27] J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 8.Auflage
[28] P. Erdös & P. Turán, On some integer sequences, J. London Math. Society 11
(1936), 261-264
[29] D. Evans, D. Searls, The fluctuation theorem, Advances in Physics 51 (2002),
1529-1585
[30] C. Faivre, Distribution of Lévy constants for quadratic numbers, Acta Arith. 61
(1992), 13-34
[31] H. Furstenberg, Ergodic behavior of diagonal measures and a theorem of Szemerédi
on arithmetic progressions, J. d’Analyse Math. 71 (1977), 204-256
[32] H. Furstenberg & B. Weiss, Topological dynamics and combinatorial number
theory, J. d’Analyse Math. 34 (1978), 61-85
[33] Geon Ho Choe, Computational Ergodic Theory, Springer 2005
[34] A. Granville, Z. Rudnick (eds.), Equidistribution in Number Theory, an introduction, Nato Science Series, vol. 237, Springer 2005
[35] B.J. Green, T. Tao, The Primes contain arbitrarily long arithmetic progressions, Annals of Math. (im Druck), auch erhältlich unter
http://arxiv.org/abs/math.NT/0404188
[36] P.R. Halmos, Lectures on Ergodic Theory, Math. Soc. of Japan, Tokyo 1956
[37] G.H. Hardy, E.M. Wright, An introduction to the theory of numbers, Clarendon
Press, Oxford, 1979, 5th ed.
[38] E. Hlawka, Über die Gleichverteilung gewisser Folgen, welche mit den Nullstellen
der Zetafunktion zusammenhängen, Österr. Akad. Wiss., Math.-Naturw. Kl. Abt. II
184 (1975), 459-471
[39] E. Hlawka, Theorie der Gleichverteilung, BIB, Mannheim, 1979
[40] E. Hlawka, C. Binder, Über die Entwicklung der Theorie der Gleichverteilung in
den Jahren 1909 bis 1916, Arch. Histor. Exact Sciences 36 (1986), 197-249
[41] W. Hurewicz, Ergodic theorem without invariant measure, Ann. Math. 45 (1944),
192-206
[42] A. Hurwitz, R. Courant, Funktionentheorie, Springer, 4. Auflage 1964
[43] K. Jacobs, Selecta Mathematica IV, Springer 1972
[44] K. Jänich, Topologie, Springer
[45] P. Jolissaint, Loi de Benford, relations de récurrence et suites équidistribuées, Elem.
Math. 60 (2005), 10-18
[46] M. Kac, On the notion of recurrence in discrete stochastic processes, Bull. Amer.
Math. Soc. 53 (1947), 1002-1010
[47] S. Kakutani, Induced measure preserving transformations, Proc. Imp. Acad. Tokyo
19 (1943), 635-641
92
ERGODENTHEORIE
[48] S. Kakutani, Examples of ergodic measure preserving transformations which are
weakly mixing but not strongly mixing, in “Recent advances in topological dynamics”,
Proceedings Conference Yale University in honour of G.A. Hedlund, Lecture Notes
Math. 318, Springer 1973, 143-149
[49] T. Kamae & M. Keane, A simple proof of the ratio ergodic theorem, Osaka J.
Math. 34 (1997), 653-657
[50] A.Y. Khintchine, Metrische Kettenbruchtheorie, Compositio Math. 1 (1935), 361382
[51] A.Y. Khintchine, Three pearls of number theory, Graylock Press, Baltimore 1952
[52] A. Klenke, Wahrscheinlichkeitstheorie, Springer 2006
[53] D. König, A. Szücs, Mouvement d’un point abandonné à l’intérieur d’un cube,
Palermo Rend. 36 (1913), 79-90 (in Ungarisch)
[54] J.F. Koksma, Ein mengentheoretischer Satz über die Gleichverteilung modulo 1,
Compositio Math. 2 (1935), 250-258
[55] A.V. Kontorovich, S.J. Miller, Benford’s law, values of L-functions and the 3x+1
Problem, Acta Arith. 120 (2005), 269-297
[56] R.O. Kusmin, Sur un problem de Gauss, Atti Congr. Itern. Bologne 6 (1928), 83-89
[57] J.C. Lagarias, The ’3X + 1’ Problem and its generalizations, Amer. Math. Mon. 92
(1985), 3-23
[58] P. Lévy, Sur les lois de probabilité dont dépendent les quotients complets et incomplets d’une fraction continue, Bull. Soc. Math. France 57 (1929), 178-194
[59] K.R. Matthews, A.M. Watts, A generalization of Hasse’s generalization of the
Syracuse algorithm, Acta Arith. 43 (1984), 167-175
[60] J. von Neumann, Proof of the quasi-ergodic hypothesis, Nat. Proc. Acad. Sci USA
18 (1932), 70-82
[61] I. Niven, Irrational numbers, Carus Mathematical Monographs, John Wiley & Sons
1963
[62] W. Philipp, Mixing sequences of random variables and probabilistic number theory,
Memoirs Amer. Math. Soc. 114, 1971
[63] W. Philipp, O.P. Stackelberg, Zwei Gesetze für Kettenbrüche, Math. Ann. 181
(1969), 152-156
[64] H. Poincaré, Sur le problème des trois corps et les équations de la dynamique, Acta
Math. 13 (1890), 1-270
[65] H. Poincaré, Les méthodes nouvelles de la mécanique céleste, Paris. Gauthier-Villars
et Fils, 1892-1899
[66] M. Pollicott, M. Yuri, Dynamical Systems and Ergodic Theory, London Mathematical Society 40, Cambridge University Press, 1998
[67] G.J. Rieger, Effective simultaneous approximation of complex numbers by conjugate
algebraic integers, Acta Arith. 63 (1993), 325-334
[68] A.M. Rockett, P. Szüsz, Continued fractions, World Scientific 1992
[69] K.F. Roth, On certain sets of integers, J. London Math. Soc. 28 (1953), 104-109
[70] W. Rudin, Reelle und Komplexe Analysis, Oldenbourg 1989
[71] W. Schmidt, On normal numbers, Pacific J. Math. 10 (1960), 661-672
[72] F. Schweiger, Multidimensional continued fractions, Oxford 2000
[73] C.E. Shannon, A mathematical theory of communication, Bell System Technical J.
27 (1948), 379-423, 623-656
Literaturverzeichnis
93
[74] W. Sierpinski, Démonstration élémentaire d’un théoreme de M. Borel sur les nombres absolument normaux et détermination effective d’un tel nombre, Bull. Soc. Math.
France 45 (1917), 125-144
[75] J. Steuding, Diophantine Analysis, Chapman & Hall/CRC Press, Boca Raton 2005
[76] J. Steuding, Value distribution of L-functions, Lecture Notes in Mathematics 1877,
Springer 2007
[77] E. Szemerédi, On sets of integers containing no k elements in arithmetic progression,
Acta Arith. 27 (1975), 199-224
[78] S. Tabachnikov, Geometry and billiards, Amer. Math. Soc., Providence 2005
[79] T. Tao, A quantitative ergodic theory proof of Szemerédi’s theorem, Electronic J.
Combinatorics 13 (2006), R99
[80] T. Tao, The ergodic and combinatorial approaches to Szemerédi’s theorem, preprint
erhältlich unter http://uk.arxiv.org/pdf/math.CO/0604456.pdf
[81] R. Taylor, Automorphy for some l-adic lifts of automorphic mod l representations.
II. erhältlich unter http://www.math.harvard.edu/∼rtaylor/
[82] A.M. Turing, A note on normal numbers, Collected Works of A.M. Turing, J.L.
Britton (Ed.), North Holland, Amsterdam 1992, 117-119
[83] B.L. van der Waerden, Beweis einer Baudetschen Vermutung, Nieuw Arch. Wisk.
15 (1928), 212-216
[84] B.L. van der Waerden, Wie der Beweis der Vermutung von Baudet gefunden wurde, Elem. Math. 9 (1954), 49-56; Nachdruck in Elem. Math. 53 (1998), 139-148
[85] I.M. Vinogradov, Darstellung einer ungeraden Zahl als Summe von drei Primzahlen, Doklady Akad. Nauk SSSR 15 (1937), 291-294 (in Russisch)
[86] S.M. Voronin, Theorem on the ’universality’ of the Riemann zeta-function, Izv.
Akad. Nauk SSSR, Ser. Matem., 39 (1975), 475-486 (Russisch); Math. USSR Izv. 9
(1975), 443-445
[87] P. Walters, Ergodic Theory - Introductory lectures, Lecture Notes in Mathematics
458, Springer 1975
[88] H. Weyl, Über die Gleichverteilung von Zahlen mod. Eins, Math. Ann. 77 (1916),
313-352
[89] H. Weyl, Sur une application de la théorie des nombres à la mécaniques statistique
et la théorie des pertubations, L’Enseign. math 16 (1914), 455-467
[90] N. Wiener, A. Wintner, Harmonic analysis and ergodic theory, Amer. J. Math.
63 (1941, 415-426
[91] G. Wirsching, The Dynamical system generated by the 3X + 1 function, Lecture
Notes in Mathematics 1681, Springer 1998
[92] E. Wirsing, On the theorem of Gauss-Kusmin-Lévy and a Frobenius-type theorem
for function spaces, Acta Arith. 24 (1973/74), 507-528
Herunterladen