ergodentheorie - Institut für Mathematik

ERGODENTHEORIE
JÖRN STEUDING
Die Ergodentheorie studiert das Langzeitverhalten dynamischer Systeme
mit maß- bzw. wahrscheinlichkeitstheoretischen Methoden. Aus dem Griechischen übersetzt bedeuten ergon und odon nichts anderes als Arbeit und
Weg. Die Ursprünge der Ergodentheorie liegen in der Himmelsmechanik,
insbesondere in den Arbeiten von Boltzmann und später Poincaré. In
dieser Vorlesung beweisen wir die fundamentalen Sätze der Ergodentheorie
(Poincarés Wiederkehrsatz, Birkhoffs Ergodensatz) und behandeln eine
Vielzahl von meist zahlentheoretischen Anwendungen (Billiard, Benfords
Gesetz, Gleichverteilung, metrische Theorie der Kettenbrüche, rekurrente
Irrfahrten). Im Wesentlichen folgen wir den Büchern von Dajani & Kraaikamp bzw. Coppel [3, 2] sowie der Vorlesung von Einsiedler & Ward
[5]. Die Monographien [8, 10] enthalten weiteres Material und ihre Lektüre
ist empfehlenswert. Das schöne Buch von Choe [7] enthält zusätzlich MapleProgramme für ein Experimentieren mit dem Stoff — hier gilt mein Dank
meiner Frau Rasa für das Erstellen der schönen Graphiken. Vorkenntnisse aus der Maßtheorie (bzw. Stochastik) sind äußerst hilfreich (siehe etwa
[6, 9]). Für eine allgemeinere Theorie der dynamischen Systeme verweisen
wir auf [4, 10]; zahlentheoretische Grundlagen kann man in [11] nachschlagen. Für Kommentare jeder Art bin ich dankbar. Viel Spaß!
Literatur
[1] P. Billingsley, Ergodic theory and Information, John Wiley & Sons, New York 1965
[2] W.A. Coppel, Number Theory. An Introduction to Mathematics, Springer 2006 (zwei
Bände)
[3] K. Dajani, C. Kraaikamp, Ergodic theory of numbers, Mathematical Association of
America, Washington DC 2002
[4] M. Denker, Einführung in die Analysis dynamischer Systeme, Springer 2005
[5] M. Einsiedler, T. Ward, Ergodic Theory: with a view towards Number Theory,
www.mth.uea.ac.uk/ergodic/
[6] J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 5.Auflage
[7] Geon Ho Choe, Computational Ergodic Theory, Springer 2005
[8] K. Jacobs, Selecta Mathematica IV, Springer 1972
[9] A. Klenke, Wahrscheinlichkeitstheorie, Springer 2006
[10] M. Pollicott, M. Yuri, Dynamical Systems and Ergodic Theory, London Mathematical Society 40, Cambridge University Press, 1998
[11] J. Steuding, Diophantine Analysis, Chapman & Hall/CRC Press, Boca Raton 2005
Date: Wintersemester 2007/08, Universität Würzburg.
1
2
16. Okt. 2007
ERGODENTHEORIE
1. Motivation: Benford und Billiard
Das Benfordsche Gesetz beschreibt Unregelmäßigkeiten in der Verteilung der Ziffern in gewissen empirischen Datensätzen. 1881 bemerkte Newcomb, dass in Büchern mit Logarithmenafeln die Seiten mit Tabellen mit
Eins als erster Ziffer deutlich abgenutzter waren als die anderen. Dies wurde
1938 durch den Physiker Benford wiederentdeckt und durch eine statistische Analyse diverser Datensätze belegt, z.B. Einwohnerzahlen in amerikansichen Ortschaften (siehe F. Benford, The law of anomalous numbers,
Proc. Amer. Philos. Soc. 78 (1938), 551-572). Natürlich gilt dies nicht für
jeden Datensatz positiver reeller Zahlen. Hier ein illustrierendes Beispiel
(auch als Gelfands Problem bekannt): Wir bilden die Zweierpotenzen 2n
und beobachten, dass unter den ersten
1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8092, . . .
mehr Zahlen mit der Ziffer 1 beginnen, als etwa mit der Ziffer 3. Für eine
(m + 1)-ziffrige Zweierpotenz, deren Dezimaldarstellung mit einer Ziffer k ∈
{1, 2, . . . , 9} startet gilt offensichtlich die Ungleichung
10m k ≤ 2n < 10m (k + 1)
bzw. durch Logarithmieren
m + log10 k ≤ n log10 2 < m + log10 (k + 1),
und umgekehrt. Schreiben wir eine reelle Zahl x als x = [x] + {x}, d.h. als
Ganzteil [x] ∈ Z plus ihrem gebrochenen Anteil {x} ∈ [0, 1), so folgt
log10 k ≤ {n log10 2} < log10 (k + 1).
Auf Grund der Konvexität des Logarithmus ist das Intervall
[log10 k, log10 (k + 1)) für kleine k größer. Tatsächlich führt dies dazu,
dass ≈ log10 k+1
k Prozent der Zweierpotenzen eine Dezimaldarstellung mit
Startziffer k besitzen; speziell für die Startziffer 1 ist der Anteil ca. 30, 1
Prozent, während Startziffer 7 nur für etwa 5, 8 Prozent gilt. In diesem
Sinne ist das Benfordsche Gesetz nichts anderes als die Wahrscheinlichkeitsverteilung der Mantisse bzgl. zur Basis. Wir werden dies später mit
Ergodentheorie (bzw. etwas weniger als das) begründen. Darüber hinaus
soll das Benfordsche Gesetz – also die obige Verteilung für die Startziffer
– für viele andere Zahlenfolgen gelten, etwa für physikalische Konstanten,
Aktienindizes und vieles mehr,1 allerdings sicherlich nicht für die Folge der
1Angeblich wurde mit Hilfe des Benfordschen Gesetzes das kreative Rechnungswesen
von Enron aufgedeckt und seitdem wird es auch von den Steuerbehörden der USA und
einiger anderer Länder zum Nachweis gefälschter Steuererklärungen benutzt.
1. Motivation: Benford und Billiard
3
natürlichen Zahlen selbst oder die Zehnerpotenzen — was macht hier den
Unterschied aus?
Als zweiten Aufhänger betrachten wir nun eine mathematisches Problemstellung beim Billiard, zuerst aufgeworfen durch D. König & A. Szücs,
Mouvement d’un point abandonné à l’intérieur d’un cube, Palermo Rend.
36 (1913), 79-90 (in Ungarisch). Dabei spielen wir Billiard auf einem quadratischen Tisch ohne Widerstand. Alternativ denke man an ein Quadrat
mit Spiegeln als Seiten; ein Lichtstrahl verläßt einen Punkt im Innern des
Quadrates und wird reflektiert von den Spiegeln — welchen Weg wird der
Lichtstrahl zurücklegen? Wir können uns leicht einen Lichtstrahl vorstellen, der einen periodischen Weg zurücklegt, aber unter welchen Umständen
tritt eben diese Situation ein? Wie könnten andere Szenarien aussehen?
Tatsächlich wird dieses Problem etwas einfacher, wenn wir das Quadrat
durch einen Kreis ersetzen, denn dann wird ein Lichtstrahl aus dem Inneren
des Kreises stets in demselben Winkel reflektiert (der Leser mache sich klar,
dass dies tatsächlich so ist — das Stichwort hierzu heißt Rotationssymmetrie). Wir dürfen uns den Kreis als den Einheitskreis in C vorstellen, das
ist die so genannte Kreisgruppe (die multiplikative Gruppe aller kompexen
Zahlen mit Betrag 1)
√
T := {exp(2πix) : x ∈ [0, 1)}
mit i = −1.
Die Exponentialabbildung
exp : R → T,
x 7→ exp(2πix)
ist bekanntlich ein surjektiver, aber nicht injektiver Gruppenhomomorphismus. Mit dem Isomorphiesatz ergibt sich
T∼
= R / Z,
d.h. wir können T als isomorphes Bild der reellen Zahlengeraden R modulo
Z bzw. als isomorphes Bild des Einheitsintervalls [0, 1) auffassen. Diese Idee
werden wir im Folgenden des öfteren benutzen. Sei nun πα der Winkel zwischen dem Lichtstrahl und dem Kreis T. Bezeichnen wir mit ζn = exp(2πixn )
den n-ten Punkt auf dem Kreis, den der Lichtstrahl getroffen hat, so gilt
xn − xn−1 ≡ 2πα mod 1
bzw.
xn = x0 + 2πnα
für n ∈ N,
wobei x0 der erste Schnittpunkt des Lichtstrahls mit dem Kreis sei. Ist also
der Winkel α rational, so ist der Lichtstrahl offensichtlich periodisch. Genauer: gilt 2α = pq mit p, q ∈ N, so ist der Lichtstrahl q-periodisch (d.h.
xn+q ≡ xn mod 1). Was aber, wenn α irrational ist? In diesem Fall kann
4
ERGODENTHEORIE
man beweisen (und der geneigte Leser versuche sich daran), dass der Lichtstrahl jedes noch so kleine, nicht leere Segment auf dem Kreisrand früher
oder später trifft.
Abbildung 1. Ein periodischer Lichtstrahl beim Kreisbilli1
π bzw. 18◦ .
ard; hier ist 2πα = 10
Die Behandlung dieser beiden Problemstellungen erfolgt nun mit klassischen Methoden der Theorie der diophantischen Approximation und Gleichverteilung.
2. Klassische diophantische Approximationssätze
Die rationalen Zahlen liegen bekanntlich dicht in R und erlauben dank
des folgenden klassischen Approximationssatzes von Dirichlet (aus dem
Jahr 1842) beliebig gute rationale Näherungen an reelle Irrationalzahlen:
Satz 1. Zu ξ ∈ R \ Q gibt es unendlich viele rationale Zahlen
ξ −
p 1
< 2.
q
q
p
q
mit
(1)
Diese Eigenschaft charakterisiert Irrationalzahlen, d.h. ist ξ rational, so besitzt die Ungleichung (1) nur endlich viele Lösungen pq .
Beweis. Wir benutzen ein Schubfachprinzip: Verteilt man n+1 Gegenstände
auf n Schubfächer, so gibt es mindestens ein Schubfach mit mindestens zwei
Gegenständen. Zu Q ∈ N liegen die Q + 1 Punkte 0, {ξ}, {2ξ}, . . . , {Qξ} in
den Q disjunkten Intervallen
j−1 j
,
für j = 1, . . . Q.
Q Q
Also gibt es (nach dem Schubfachprinzip) mindestens ein Intervall, das mindestens zwei Punkte enthält, etwa {kξ} ≥ {ℓξ} mit 0 ≤ k, ℓ ≤ Q und k 6= ℓ.
2. Klassische diophantische Approximationssätze
5
Es folgt
{kξ} − {ℓξ} = kξ − [kξ] − ℓξ + [ℓξ]
= {(k − ℓ)ξ} + [(k − ℓ)ξ] + [ℓξ] − [kξ] .
|
{z
}
(2)
∈Z
1
) liegt, summieren sich die Ganzteile
Da {kξ} − {ℓξ} in dem Intervall [0, Q
in (2) zu Null auf. Sei q = k − ℓ, dann gilt
{qξ} = {kξ} − {ℓξ} <
Mit p := [qξ] folgt daher
ξ −
1
.
Q
p |qξ − p|
{qξ}
1
=
=
<
,
q
q
q
qQ
(3)
was die Ungleichung (1) impliziert (da ja q < Q).
Sei nun ξ irrational. Angenommen, es gibt nur endlich viele Lösungen
pn
p1
q1 , . . . , qn von (1). Da ξ 6∈ Q, gibt es ein Q mit
ξ − pj > 1
für j = 1, . . . , n,
qj Q
im Widerspruch zu (3).
Nun nehmen wir an, dass ξ rational ist, etwa ξ =
Für ξ = ab 6= pq , folgt
p
ξ − = |aq − bp| ≥ 1 ,
q
bq
bq
a
b
mit a ∈ Z und b ∈ N.
und (1) impliziert q < b. Also gibt es nur endlich viele
ist bewiesen. •
(4)
p
q
mit (1). Der Satz
Tatsächlich kannte bereits Lagrange diesen Satz (mit einem Beweis, den
wir in §7 kennen lernen werden); allerdings bewies Dirichlet (mit Hilfe der
obigen Beweisidee) allgemeiner: Angenommen ξij mit 1 ≤ i ≤ m, 1 ≤ j ≤ n
sind reelle Zahlen und Q > 1 ist eine ganze Zahl, dann existieren ganze
Zahlen p1 , . . . , Pm , q1 , . . . , qn mit
1 ≤ max{|qj | : 1 ≤ j ≤ n} < Qm/n
und
|ξi1 q1 + . . . + ξin qn − pi | ≤
1
Q
für 1 ≤ i ≤ m.
Aufgabe 1. Man i) beweise diese Aussage (Hinweis: mit einem Schubfachprinzip wie oben) und ii) zeige, dass dies in der Tat den wesentlichen Teil
von Satz 1 verallgemeinert.
6
ERGODENTHEORIE
Der Kroneckersche Approximationssatz von 1884 verallgemeinert Satz
1 auf den inhomogenen Fall:2
Satz 2. Sei ξ ∈ R \ Q und η ∈ R. Dann gibt es zu jedem N ∈ N ein Q ∈ N
mit Q > N und P ∈ Z, so dass
3
|Qξ − P − η| < .
Q
Beweis. Nach Satz 1 gibt es teilerfremde ganze Zahlen q > 2N und p, so
dass
1
|qξ − p| < .
q
Angenommen, m ist die ganze Zahl bzw. eine der zwei ganzen Zahlen, für
die
1
|qη − m| ≤
2
gilt. Nach dem Satz von Bezout (aus der elementaren Zahlentheorie) gibt
es dann eine Darstellung m = px − qy mit ganzen Zahlen x, y, wobei |x| ≤
1
2 q (tatsächlich folgt dies aus dem euklidischen Algorithmus für p und q
rückwärts; siehe etwa [11]). Damit
q(xξ − y − η) = x(qξ − p) − (qη − m),
bzw.
23. Okt. 2007
1 1 1
|q(xξ − y − η)| < q · + = 1.
2 q 2
Wir setzen Q = q + x sowie P = p + y und erhalten
3
1
N < q ≤ Q ≤ q.
2
2
Also folgt
1 1
2
3
|Qξ − P − η| ≤ |xξ − y − η| + |qξ − p| < + = ≤ ,
q
q
q
Q
was zu beweisen war. •
Der Kroneckersche Approximationssatz erlaubt die Lösung unseres Billiardproblems aus §1. Wir dürfen uns das Quadrat mit Seiten normiert auf
die Länge 1 denken, also gewissermaßen gegeben durch [0, 1)2 ⊂ R2 . Ist γ
der Winkel zwischen einer Seite des Quadrates und der Anfangsrichtung des
Strahls, so wird der Lichtstrahl durch die Gleichung
y = ξx + β
2In dem Buch von G.H. Hardy, E.M. Wright, An introduction to the theory of
numbers, Oxford Science Publications, §23.6, wird ein mehrdimensionales Analogon dieses
Satzes als einer jener Sätze beschrieben, die besagen, dass alles was nicht unmöglich ist,
auch irgendwann eintreten wird, ungeachtet dessen wie unwahrscheinlich es auch sein mag
(frei übersetzt) — eine Idee, die auch als ‘Murphy’s law’ bekannt ist.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
7
beschrieben, wobei ξ = tan γ und β irgendeine reelle Zahl ist (entsprechend
des Ausgangspunktes des Lichtstrahls). Der Lichtstrahl ist genau dann periodisch, wenn die obige Gerade modulo Z2 in eine endliche Vereinigung geradliniger Segmente zerfällt. Andernfalls liegt der Strahl dicht im Quadrat
T×T ∼
= (R/Z)2 . Angenommen, ξ ist rational, etwa ξ = pq mit teilerfremden
ganzen Zahlen p, q, dann ist die Gerade invariant unter den Transformationen
x
x
q
7→
+k
für k ∈ Z.
y
y
p
Angenommen, ξ ist irrational. Zu jedem Punkt (x1 , y1 ) ∈ R2 und jedem ǫ > 0
gibt es nach dem Kroneckerschen Approximationssatz 2, angewandt mit
η = −y1 + β + ξx1 , ein Paar ganzer Zahlen P, Q, so dass
|y1 + P − (ξ(x1 + Q) + β)| = | y1 − β − ξx1 +P − Qξ| < ǫ.
|
{z
}
=−η
Damit liegen der allgemeine Punkt (x1 , y1 ) und der Geradenpunkt
(x1 , ξ(x1 + Q) + β) modulo Z2 um weniger als ǫ von einander entfernt.
Abbildung 2. Die Wege zweier Lichtstrahlen, einer mit rationaler, der andere mit irrationaler Tangente.
Also ist der Lichtstrahl genau dann geschlossen bzw. periodisch, wenn
der Winkel γ eine rationale Tangente besitzt, also ξ = tan γ ∈ Q; ansonsten
kommt der Lichtstrahl jedem Punkt im Quadrat beliebig nahe. Aber wie
spielt man Billiard auf nicht quadratischen Tischen? Zu diesem und weiteren verwandten Themen verweisen wir auf das unterhaltsame Buch von S.
Tabachnikov, Geometry and billiards, Amer. Math. Soc., Providence 2005;
das Thema des kreisrunden Billiardtisches sei dem Leser nach der Lektüre
des nächsten Kapitels als Übungsaufgabe überlassen.
Eine wichtige Rolle spielen effektive Versionen des inhomogenen Approximationssatzes wie etwa der von G.J. Rieger, Effective simultaneous approximation of complex numbers by conjugate algebraic integers, Acta Arith.
63 (1993), 325-334.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
Insbesondere zeigt der Kroneckersche Approximationssatz 2, dass die gebrochenen Anteile der Folge nξ bei laufendem n ∈ N genau dann dicht im
8
ERGODENTHEORIE
Einheitsintervall liegen, wenn ξ irrational ist. Wir wollen diesen Zusammenhang und insbesondere den Begriff der Dichtheit im Folgenden etwas genauer
unter die Lupe nehmen. Eine Folge (xn ) reeller Zahlen heißt gleichverteilt
modulo 1, wenn für alle α, β mit 0 ≤ α < β ≤ 1 gilt, dass
1
♯{1 ≤ n ≤ N : {xn } ∈ [α, β)} = β − α,
N →∞ N
wenn also die Proportion der gebrochenen Anteile der Folgeglieder xn in
einem beliebig vorgegebenen Intervall der Länge dieses Intervalls entspricht.
Offensichtlich genügt es hierbei Teilintervalle der Form [0, β) mit beliebigem
β ∈ (0, 1) zu betrachten.
Die ersten wichtigen Resultate in dieser Theorie gelangen Hermann
Weyl 1913-16 (gesammelt in: Über die Gleichverteilung von Zahlen mod.
Eins, Math. Ann. 77 (1916), 313-352) in Gestalt der folgenden zwei Sätze:
lim
Satz 3. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1,
wenn für jede Riemann-integrierbare Funktion f : [0, 1] → C gilt, dass
Z 1
N
1 X
f (x) dx.
f ({xn }) =
lim
N →∞ N
0
n=1
Beweis. Zu α, β ∈ [0, 1) sei χ[α,β) die Indikatorfunktion des Intervalls [α, β),
also
1 falls α ≤ x < β,
χ[α,β) (x) =
0 sonst.
Dann ist
Z
0
1
χ[α,β) (x) dx = β − α.
Damit ist die Folge (xn ) genau dann gleichverteilt modulo 1, wenn für beliebige α, β ∈ [0, 1) stets
Z 1
N
1 X
χ[α,β) (x) dx
χ[α,β) ({xn }) =
lim
N →∞ N
0
n=1
gilt. Besteht also die Asymptotik des Satzes für alle Riemann-integrierbaren
f , so ist die Folge (xn ) sicherlich gleichverteilt. Es verbleibt also, die Notwendigkeit der Bedingung des Satzes zu zeigen.
Sei also die Folge (xn ) gleichverteilt modulo 1. Dann gilt die Asymptotik
des Satzes mit f = χα,β (s.o.); darüber hinaus aber auch für jede Linearkombination von solchen Indikatorfunktionen und somit insbesondere für jede
Treppenfunktion. Zu jeder reellwertigen, Riemann-integrierbaren Funktion
f und jedem ǫ > 0 gibt es Treppenfunktionen t− , t+ mit
t− (x) ≤ f (x) ≤ t+ (x)
für alle
x ∈ [0, 1]
3. Gleichverteilung modulo Eins und die Sätze von Weyl
und
Z
1
0
Also folgt
und damit
Z
(t+ (x) − t− (x)) dx < ǫ.
1
0
9
f (x) dx ≥
Z
1
0
t− (x) dx >
Z
1
0
t+ (x) dx − ǫ
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
n=1
≤
Z 1
N
1 X
t+ (x) dx + ǫ,
t+ ({xn }) −
N
0
n=1
welches kleiner 2ǫ ist für alle hinreichend großen N ; analog gewinnt man
Z 1
N
1 X
f (x) dx > −2ǫ
f ({xn }) −
N
0
n=1
für alle hinreichend großen N . Also gilt die zu beweisende Asymptotik für
alle reellwertigen, Riemann-integrierbaren f . Mit der Linearität folgt die
Aussage auch für komplexwertige, Riemann-integrierbare Funktionen. •
In diesem Zusammenhang ist einmal das Riemann-Integral besser als das
Lebesgue-Integral! Wie bereits Weyl bemerkte, sind die auftretenden Limiten gleichmäßig, was interessante Fragen aufwirft und in der Theorie der
Gleichverteilung unter dem Begriff Diskrepanz weiter untersucht wurde. Dies
hat wichtige und amüsante Anwendungen, etwa beim Billiard. Hier mag man
sich fragen, wie bald bzw. wie oft ein nicht periodischer Lichtstrahl ein vorgegebenes Gebiet treffen mag? Die ersten Antworten hierzu gab bereits H.
Weyl (Sur une application de la théorie des nombres à la mécaniques statistique et la théorie des pertubations, L’Enseign. math 16 (1914), 455-467)
— wie mag seine Antwort gewesen sein?
Die Umkehrung des Weylschen Satzes wurde von N.G. de Bruijn &
K.A. Post, A remark on uniformly distributed sequences and Riemann
integrability, Indagationes math. 30 (1968), 149-150, bewiesen: Besitzt eine
Funktion f : [0, 1) → C die Eigenschaft, dass der Grenzwert
N
1 X
f ({xn })
lim
N →∞ N
n=1
für jede modulo 1 gleichverteilte Folge (xn ) existiert, dann ist f Riemannintegrierbar.
Im Folgenden spielt die Parametrisierung des Einheitsintervalls durch
die Kreisgruppe (siehe §1) eine wichtige Rolle. Für reelle ξ schreiben wir
10
ERGODENTHEORIE
abkürzend e(ξ) = exp(2πiξ) (was mit der 2πi-Periodizität der Exponentialfunktion also = e(ξ + Z) ist).
Satz 4. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1,
wenn für jede ganze Zahl m 6= 0 gilt, dass
N
1 X
e(mxn ) = 0.
N →∞ N
n=1
lim
Beweis. Angenommen, die Folge (xn ) ist gleichverteilt modulo 1, dann folgt
aus dem vorangegangenen Satz mit f (x) = e(mx)
Z 1
N
1 X
lim
e(mx) dx.
e(mxn ) =
N →∞ N
0
n=1
Für eine ganze Zahl m 6= 0 ist die rechte Seite gleich Null, also gilt die
gewünschte Asymptotik.
Gilt hingegen die Asymptotik des Satzes für alle ganzen Zahlen m 6= 0,
so folgt für das trigonometrische Polynom
P (x) =
+M
X
am e(mx)
mit
m=−M
am ∈ C
über die Linearität sofort
N
1 X
P ({xn }) =
lim
N →∞ N
n=1
+M
X
m=−M
= a0 =
Z
N
1 X
am · lim
e(mxn )
N →∞ N
n=1
1
P (x) dx.
(5)
0
Der Weierstraßsche Approximationssatz besagt, dass zu einer jeden stetigen, 1-periodischen Funktion f und jedem ǫ > 0 ein trigonometrisches
Polynom P existiert, so dass
|f (x) − P (x)| < ǫ
für 0 ≤ x < 1
(6)
(das beweist man leicht mit Fourier-Analysis; siehe etwa A. Hurwitz R.
Courant, Funktionentheorie, Springer, 4. Auflage 1964).3 Mit solch einem
3Tatsächlich schreiben die Autoren diesen Satz Fejer zu und geben dessen Beweis, der
im Prinzip nur auf der Cauchyschen Integralformel beruht.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
11
Polynom folgt
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
n=1
Z 1
N
N
1 X
1 X
P (x) dx
(f ({xn }) − P ({xn })) + P ({xn }) −
≤ N
N
0
n=1
n=1
Z 1
+ (P (x) − f (x)) dx ;
0
hierin sind der erste und dritte Term der rechten Seite jeweils kleiner ǫ
vermöge (6), während der zweite Term klein ist nach (5). Also gilt die zu
beweisende Formel für alle stetigen 1-periodischen Funktionen f . Bezeichnet
χ[α,β) wie im Beweis des vorigen Satzes die Indikatorfunktion des Intervalls
[α, β), dann gibt es zu jedem ǫ > 0 stetige, 1-periodische Funktionen f− , f+
mit
f− (x) ≤ χ[α,β) (x) ≤ f+ (x)
für alle 0 ≤ x < 1
und
Z
1
0
(f+ (x) − f− (x)) dx < ǫ.
Daraus folgt nun ganz ähnlich wie oben, dass
Z 1
N
1 X
χ[α,β) (x) dx.
χ[α,β) ({xn }) =
lim
N →∞ N
0
n=1
Also ist die Folge (xn ) gleich verteilt modulo 1. •4
Aufgabe 2. Man beweise: Eine reelle Zahlenfolge (xn ) ist genau dann
gleichverteilt modulo 1, wenn für jede natürliche Zahl m die Folge (xm+n −
P
xn ) gleichverteilt ist modulo 1. (Hinweis: Schätze zunächst | n e(xn )|2 nach
oben ab; mehr Hinweise gibt es in [2].)
Eine wichtige Anwendung von Satz 4 ist das folgende Resultat des lettischen Mathematikers Piers Bohl (Über ein in der Theorie der säkularen
Störungen vorkommendes Problem, J. f. Math. 135 (1909), 189-283), der
unsere Bemerkung über die Dichtheit zu Beginn dieses Kapitels präzisiert:5
Korollar 5. Sei ξ ∈ R. Dann ist die Folge (nξ) genau dann gleichverteilt
modulo 1, wenn ξ irrational ist.
4Einen nahezu längenfreien, auf dem Heiratssatz basierenden Beweis der Weylschen
Sätze findet man ion [8].
5Tatsächlich hatten fast zeitgleich auch Sierpinski und Weyl vergleichbare Resultate;
für die interessante Geschichte empfehlen wir die Lektüre von E. Hlawka, C. Binder,
Über die Entwicklung der Theorie der Gleichverteilung in den Jahren 1909 bis 1916, Arch.
Histor. Exact Sciences 36 (1986), 197-249.
12
ERGODENTHEORIE
Beweis. Ist ξ irrational, so folgt mit der Formel für die endliche geometrische
Reihe
N
X
e(mN ξ) − 1
e(mnξ) = e(mξ)
e(mξ) − 1
n=1
für alle ganzen Zahlen m 6= 0. Da dies beschränkt ist (unabhängig von N ),
ergibt sich
N
1 X
exp(2πimnξ) = 0.
lim
N →∞ N
n=1
a
b
Gilt hingegen ξ = für gewisse a, b ∈ Z, b 6= 0, so ist der Grenzwert ungleich
Null für alle Vielfachen m von b. Mit Satz 4 folgt die Behauptung. •
1
20
y
0
0
0
1
0
200
x
Abbildung
3. Die Gleichverteilung modulo 1 der Folge
√
√
(n 2); links ein Histogramm für die Verteilung von {n 2}
j
für n = 1, . . . , 500 in den Intervallen [ j−1
10 , 10 ) für 1 ≤ j ≤ 10,
√
rechts die Punkte (n, {n 2}) im Einheitsquadrat.
Korollar 5 lässt sich auf verschiedene Arten verallgemeinern. I.M. Vinogradov, Darstellung einer ungeraden Zahl als Summe von drei Primzahlen, Doklady Akad. Nauk SSSR 15 (1937), 291-294 (Russisch), bewies die
ternäre Goldbach-Vermutung, dass nämlich jede hinreichend große ungerade natürliche Zahl als Summe von drei Primzahlen darstellbar ist — die
binäre Goldbach-Vermutung behauptet, dass jede hinreichend große gerade natürliche Zahl Summe von zwei Primzahlen ist, was aber noch immer
unbewiesen ist. Ein wichtiges Zwischenergebnis in seinem Beweis war eine
Abschätzung der Exponentialsumme
X
e(ξpn ),
pn ≤N
wobei pn für die n-te Primzahl (der Größe nach geordnet) steht. Dies impliziert fast unmittelbar, dass für irrationales ξ, die Folge (ξpn ) gleichverteilt
ist modulo 1. Um einen ersten Eindruck von der Tiefe dieses Resultates zu
3. Gleichverteilung modulo Eins und die Sätze von Weyl
13
gewinnen, sei der geneigte Leser ermuntert, sich Gedanken über den keineswegs trivialen Fall der Verteilung von (ξpn ) modulo 1 mit rationalem ξ zu
machen. Eine andere Verallgemeinerung von Korollar 5 durch Weyl zeigt,
dass, gegeben ein Polynom
P = ad X d + . . . + a1 X + a0
mit reellen Koeffizienten, wobei mindestens einer der Koeffizienten aj mit
j 6= 0 irrational ist, die Werte dieses Polynoms auf N gleichverteilt modulo
1 sind.
Aufgabe 3. Man gebe einen Beweis dieser Behauptung. (Hinweis: Für jedes
m ∈ N ist P (X + m) − P (X) ein Polynom vom Grad d − 1; man setze dies
in Verbindung mit der vorangegangenen Aufgabe.)
Man kennt mittlerweile recht viele gleichverteilte Folgen, die wesentlich
schwieriger zu behandeln sind. So weiss man, dass die Imaginärteile der
nichttrivialen Nullstellen der berühmten Riemannschen Zetafunktion gleichverteilt sind modulo 1 dank E. Hlawka, (Über die Gleichverteilung gewisser Folgen, welche mit den Nullstellen der Zetafunktion zusammenhängen,
Österr. Akad. Wiss., Math.-Naturw. Kl. Abt. II 184 (1975), 459-471) und
den Vorarbeiten von Rademacher (der dasselbe Ergebnis unter Annahme
der Riemannschen Vermutung beiwesen hatte).6 Auf der anderen Seite ist
aber vieles noch unbekannt: Einerseits gelang J.F. Koksma, Ein mengentheoretischer Satz über die Gleichverteilung modulo 1, Compositio Math. 2
(1935), 250-258, der beweis, dass die Folge (αn ) für fast alle α > 0 (d.h.
bis auf α aus einer Nullmenge) gleichverteilt sind, jedoch ist kein einziges
solches α explizit bekannt; es ist also ungelöst ob die (schnell wachsende)
Folge {exp(n)} gleichverteilt ist oder nicht.
Wir wollen noch einmal kurz das Gelfondsche Problem aus §1 aufgreifen: Die Folge xn = 2n gehorcht dem Benfordschen Gesetz. Um
dies nachzuweisen, bemerken wir zunächst, dass die Folge der Logarithmen
log10 xn = n log10 2 nach Satz 5 gleichverteilt ist modulo 1, denn log10 2 6∈ Q
(was man leicht aus der eindeutigen Primfaktorzerlegung gewinnt). Entsprechend ist der Anteil der xn mit Startziffer k ∈ {1, 2, 3, . . . , 9} unseren
Überlegungen aus §1 folgend im Grenzwert n → ∞ gleich der Länge des
6Es studierten u.a. Harald Bohr und Hardy und Littlewood die Gleichverteilungs-
theorie, insbesondere um Anwendungen auf die Zetafunktion bemüht. Hier ist insbesondere die Arbeit von H. Bohr, Zur Theorie der Riemann’schen Zetafunktion im kritischen
Streifen, Acta Math. 40 (1915), 67-100, und ihre Fortführungen (teilweise mit Courant
bzw. Jessen) zu nennen, diophantische und probabilistische Methoden in die Wertverteilungstheorie der Zetafunktion begründet haben.
14
ERGODENTHEORIE
Intervalls [log10 k, log10 (k + 1)), also
log10 (k + 1) − log10 k = log10 (1 + k1 ).
Tatsächlich genügt eine Folge (xn ) genau dann dem Benfordschen Gesetz, wenn die Folge ihrer Logarithmen (log10 xn ) modulo 1 gleichverteilt ist
(wenn gleich wir den einfachen Beweis auch dem Leser überlassen). Nennen
wir eine solche Folge nun benfordsch, so ist z.B. die Folge der FibonacciZahlen benfordsch, nicht aber die Folge der Primzahlen. Dies ergibt sich aus
den Arbeiten von P. Jolissaint, Loi de Benford, relations de récurrence
et suites équidistribuées, Elem. Math. 60 (2005), 10-18, sowie P. Diaconis, The distributions of leading digits and uniform distribution mod 1,
Ann. Probab. 5 (1977), 72-81. Neuere Untersuchungen zeigen, dass gewisse stochastische Prozesse (etwa geometrische Brownsche Bewegungen) oder
auch die 3X + 1-Iterierten benfordsch sind (siehe A.V. Kontorovich, S.J.
Miller, Benford’s law, values of L-functions and the 3x + 1 Problem, Acta Arith. 120 (2005), 269-297). Tatsächlich erfreut sich das Benfordsche
Gesetz einer enormen Popularität.7
Aufgabe 4. Man entwickle eine Theorie zur Verteilung der ersten m Ziffern
in der b-adischen Entwicklung von Potenzen an bei n ∈ N.
Eine wichtige Anwendung gleichverteilter Folgen sind die Monte-CarloMethoden der numerischen Integration. Schießt man N mal zufällig auf
ein Quadrat der Kantenlänge 1 und zählt die Anzahl M der Treffer, die
in einem Viertelkreis vom Radius 1 um einen der Eckpunkte liegen, so ist
der Quotient M/N eine Näherung an den Flächeninhalt des Viertelkreises
π/4; mit wachsendem N sollten diese Approximationen π besser und besser
annähern. Es ist klar, wie sich diese einfache Idee mit Hilfe gleichverteilter
Folgen zur numerischen Integration von nicht elementaren Integralen wie etR
wa exp(−x2 ) dx verallgemeinern lässt. Mehr Information zu diesem Thema findet man etwa bei E. Hlawka, Theorie der Gleichverteilung, BIB,
Mannheim, 1979 (hier findet man auch eine Erweiterung der Theorie auf
mehrdimensionale Folgen). Ferner gibt es Anwendungen in der Theorie der
Pseudo-Zufallszahlen (pseudorandom number generators); für einen ersten
Einblick verweisen wir auf R. Crandall & C. Pomerance, Prime numbers. A computational perspective, Springer, 2001.
*
*
*
7Z.B. wurde es namentlich erwähnt in der amerikanischen Serie NUMB3RS (in der
Episode “The Running Man”). Auch beschäftigte man sich mit der Frage, ob die Datensätze in der Bibel benfordsch sind oder nicht. Interessanter: Die kleinste natürliche
Zahl, die nicht in der Bibel explizit auftaucht, ist 43.
4. Maßtreue Abbildungen
15
Unser Ziel sind die wichtigen Ergodensätze von Birkhoff u.a., welche
gewissermaßen Gleichverteilungssätze sind (was dann auch erklärt, warum
wir mit eben diesen angefangen haben). Tatsächlich entstanden die mathematischen Grundlagen der Ergodentheorie erst in den 1920er und 1930er
Jahren, also nach den Weylschen Gleichverteilungssätzen. Wichtige Einflüsse hierbei war die Maßtheorie mit dem so wichtigen Lebesgue-Integral
(was man ungefähr auf 1903 datieren kann) und natürlich die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorov (um ca. 1930).
Zuerst müssen wir jedoch eben diese Fundamente legen.
4. Maßtreue Abbildungen
Im vorigen Kapitel haben wir modulo 1 gleichverteilte Folgen charakterisiert, wie etwa N ∋ n 7→ xn := nξ für irrationales ξ. Entsprechend könnten
wir uns auch fragen, ob die Folge (xn + β) mit beliebigem β ∈ R diese Eigenschaft erbt — natürlich benötigen wir hier nicht für jedes β eine eigene
Verteilungsstatistik. Auch können wir uns ähnliche Abbildungen vorstellen,
gebildet aus wiederholtem Anwenden einer gewissen Operation, zu denen
sich analoge Fragen stellen. Wir wollen deshalb nun allgemeiner als bislang
Abbildungen T : X → X auf gewissen Räumen X studieren und dabei auch
Augenmerk auf die Dynamik der Iteration von T verwenden. Hierbei ist es
sinnvoll, von T zu fordern, die Struktur von X zu erhalten. Ist also X ein
topologischer Raum, so sollte T stetig sein; besitzt X eine differenzierbare
Struktur, so sollte T ein Diffeomorphismus sein. Wir werden im Folgenden oft in Wahrscheinlichkeitsräumen arbeiten, weshalb wir fordern werden,
dass T meßbar ist. Zuerst wiederholen wir einige grundlegende Begriffe der
Maßtheorie und Stochastik.8 Für die maßtheoretischen Grundlagen verweisen wir auf J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 8.
Auflage, für die wahrscheinlichkeitstheoretischen Sachverhalte z.B. [9].
Bekanntlich lässt sich nicht jeder Teilmenge von Rd ein verallgemeinertes
geometrisches Volumen zuordnen; tatsächlich zeigte G. Vitali 1905 sogar
die Unlösbarkeit dieses so genannten Maßproblems für jede beliebige Dimension d. Ein Beispiel für den eindimensionalen Fall findet man vermöge der
auf [0, 1) erklärten Äquivalenzrelation
x∼y
⇐⇒
x − y ∈ Q;
8Tatsächlich könnten wir die gesamte Theorie ausschließlich maßtheoretisch formulie-
ren, aber die Sprache und Denkweise der Wahrscheinlichkeitstheorie erweist sich oft als
gewinnbringend.
30. Okt. 2007
16
ERGODENTHEORIE
bildet man nämlich mit Hilfe des (hier nicht zu umgehenden) Auswahlaxioms
die Menge A ⊂ [0, 1], bestehend aus jeweils genau einem Vertreter einer
jeden Äquivalenzklasse, so kann man dieser Menge A wegen
X
1 = µ([0, 1]) ≤
µ(A + {x}) ≤ µ([−1, 2]) = 3
|
{z
}
x∈[−1,1]∩Q
=µ(A)
kein sinnvolles Volumen µ zuordnen (d.h. monoton, translationsinvariant
und abzählbar additiv); der Fall in beliebiger Dimension d erfolgt mit denselben Ideen.9 Es war Lebesgues geniale Idee sich stattdessen auf meßbare
Mengen zurückzuziehen und darauf eine schlagkräftige Integrationstheorie
zu begründen (und nicht eine auf den Funktionen basierende Integration wie
sein Vorgänger Riemann).10
Sei X eine nicht leere Menge und P(X) ihre Potenzmenge. Ein nicht leeres
Mengensystem F ⊂ P heißt eine Algebra, wenn X ∈ F und wenn mit A, B
in F auch A ∪ B sowie X \ B in F enthalten sind. Eine solche Algebra F
heißt eine σ-Algebra, wenn F bzgl. abzählbarer Vereinigungen abgeschlossen
ist, wenn also insgesamt folgende Axiome gelten:
• ∅, X ∈ F;
• mit A ∈ F ist auch das Komplement X \ A ∈ F;
S
• mit einer abzählbaren Folge Aj ∈ F, gilt auch j Aj ∈ F.
Wegen
\
j
Aj = A \
[
j
(A \ Aj )
für A :=
[
Aj
j
T
gilt mit dem letzten Axiom auch j Aj ∈ F. Damit ist eine σ-Algebra
also abgeschlossen bzgl. der Bildung von abzählbaren Vereinigungen und
Schnitten. Zu X 6= ∅ sind {X, ∅} und die Potenzmenge P(X) von X stets
σ-Algebren, allerdings sind diese zu grob bzw. zu fein, um im Weiteren von
Interesse zu sein. Man macht sich leicht klar, dass der abzählbare Schnitt
von σ-Algebren stets wieder eine σ-Algebra ist. Insofern ist zu einem Mengensystem ∅ =
6 E ⊂ P(X) der Schnitt
\
Aσ (E) =
F
E⊂F
F ist σ−Algebra
die kleinste σ-Algebra, die E enthält; man nennt Aσ (E) auch die von E
erzeugte σ-Algebra. Eine ganz wichtige σ-Algebra (nicht nur für unsere folgenden Untersuchungen) ist die Borelsche σ-Algebra B eines (nicht leeren)
9Noch spektakulärer ist das Banach-Tarski-Paradoxon: eine Vollkugel im
R3 kann
so in (fünf nicht meßbare) Teile zerlegt werden, dass diese zu zwei Vollkugeln desselben
Radius zusammengefügt werden können: • = • + •.
10
Tragisch für W.H. Young, der unabhängig zwei Jahre nach Lebesgue eine analoge
Theorie entwickelte.
4. Maßtreue Abbildungen
17
metrischen Raum X, definiert als die von allen offenen Mengen in X erzeugte
kleinste σ-Algebra.
Eine nicht negative Funktion µ, definiert auf einer σ-Algebra F zu einem
gegebenen Raum X 6= ∅, heißt ein Maß, wenn gilt:
• µ(∅) = 0;
• für jede abzählbare Folge paarweise disjunkter Mengen Aj ∈ F gilt


[
X
µ(Aj );
µ  Aj  =
j
j
wegen dieser letzten Eigenschaft heißt µ auch σ-additiv (bzw. abzählbar additiv). Hierbei ist ausdrücklich zugelassen, dass µ den Wert +∞ annehmen
kann (wobei natürliche Rechengesetze mit diesem Symbol vorausgesetzt werden). Das Tripel (X, F, µ) heißt dann ein Maßraum und die Mengen in F
meßbar. Ein wichtiges Konzept in dieser Theorie ist der Begriff der Nullmenge, wie jede Menge A mit der Eigenschaft µ(A) = 0 genannt wird. Erste
Eigenschaften in diesem Zusammenhang sind u.a.
• Monotonie: Mit meßbaren Mengen A ⊂ B gilt µ(A) ≤ µ(B);
• Schachtelungsprinzip: Für eine Folge von ineinander geschachtelten
meßbaren Mengen A1 ⊃ A2 ⊃ . . . gilt
!
\
An .
lim µ(An ) = µ
n→∞
n
Beispiele für Maße sind etwa das Zählmaß
♯A falls ♯A < +∞,
A 7→ |A| =
+∞ sonst,
wobei ♯A für die Anzahl der Elemente der endlichen Menge A steht, das
Dirac-Maß
1 falls x ∈ A,
A 7→ δx (A) =
0 sonst,
und natürlich das Lebesgue-Maß, welches wir mit λ notieren werden. Das
Lebesgue-Maß erklärt man zunächst für Quader vermöge
λ(Q) =
d
Y
(βj − αj )
j=1
für Q = [α1 , β1 ] × . . . × [αd , βd ],
(7)
wobei man auch Intervalle anderer Form zulässt, dann für Figuren (das sind
endliche Vereinigungen von Quadern) mittels Additivität über disjunkte Zerlegungen in Quader, und schließlich durch Identifikation mit dem äußeren
Maß λ∗ für allgemeine meßbare Mengen A (also A ∈ F) über abzählbare Vereinigungen von Grenzwerten A von Folgen von Figuren An (modulo
18
ERGODENTHEORIE
Nullmengen), wobei
An → A für n → ∞
⇐⇒
lim λ∗ (An ∆A) = 0;
n→∞
hierbei ist
A∆B := (A \ B) ∪ (B \ A)
die symmetrische Differenz A∆B von A und B und das äußere Maß definiert
durch
∞
X
∗
λ(An ),
λ (A) = inf
n=1
wobei das Infimum über alle abzählbaren Überdeckungen von A durch offene
Figuren An genommen wird. Man beachte, dass λ∗ (A∆B) klein ist, wenn sich
A und B nur um eine Menge mit kleinem Maß unterscheiden. Diese (äußerst
skizzenhafte) Konstruktion des Lebesgue-Maßes geht auf Carathéodory
zurück und kann ohne großen Aufwand verallgemeinert werden.11 Wichtig
ist die Translationsinvarianz des Lebesgue-Maßes, d.h. λ(A) = λ(A + {x})
für alle meßbaren A und alle Punkte x, aber auch die Eindeutigkeit unter
allen normierten Maßen mit diesen Eigenschaften. Beispiele für LebesgueNullmengen sind Q bzw. Qd , je nachdem in welchem Raum wir uns bewegen,
bzw. allgemeiner alle abzählbaren Mengen. Abzählbare Vereinigungen von
Nullmengen sind wiederum Nullmengen.
Wir sprechen von einem Wahrscheinlichkeitsmaß P, wenn die Werte von
P allesamt in [0, 1] liegen, wobei P(X) = 1 ist. Dies ist stets zu erzwingen,
sofern wir ein endliches Maß µ zur Verfügung haben; in diesem Fall normiert
man µ gemäß P(A) = µ(A)/µ(X). Eine wichtige allgemeine Eigenschaft
eines Wahrscheinlichkeitsmaßes ist
P(X \ A) = 1 − P(A)
für jedes
A ∈ F.
Ein Tripel (X, F, P) bestehend aus einer Menge X 6= ∅, einer σ-Algebra F
und einem Wahrscheinlichkeitsmaß heißt Wahrscheinlichkeitsraum. Die σAlgebra bezeichnet man hierbei auch als Ereignisraum und seine Elemente
E als die Ereignisse, die mit der Wahrscheinlichkeit P(E) auftreten.
Die Wahrscheinlichkeitstheorie ermöglicht oft einen interessanten Blick
auf zahlentheoretische Fragestellungen, insbesondere im Zusammenhang mit
11Tatsächlich erinnert die Idee, die Menge der Figuren, die keine σ-Algebra bilden, um
die Grenzwerte von Figuren modulo Nullmengen zu erweitern, an Cantors Konstruktion
der reellen Zahlen.
4. Maßtreue Abbildungen
19
Verteilungseigenschaften von zahlentheoretischen Funktionen (komplexwertigen Zahlenfolgen). Ist (Xn ) eine Folge von unabhängigen, auf [0, 1) gleichverteilten Zufallsvariablen, so gilt nach dem Gesetz vom iterierten Logarithmus für beliebiges m 6= 0
P
| n≤N e(mXn )|
=1
fast sicher,
lim sup √
2N log log N
N →∞
d.h. mit Wahrscheinlichkeit P(E) = 1, wobei E für dieses Ereignis steht; das
bedeutet, dass die Menge aller Folgen {xn } in [0, 1), für die die obige lim supBedingung nicht gilt, eine Nullmenge ist. (Für das Gesetz des iterierten
Logarithmus siehe etwa [1, 9].) Man vergleiche dies mit dem Weylschen
Satz 4.
Wir geben nun weitere Definitionen, die die Basis für unsere späteren ergodentheoretischen Untersuchungen bilden. Gegeben ein Maßraum (X, F, µ),
so heißt eine Abbildung T : X → X meßbar (bzw. µ-meßbar), wenn
T −1 A := {x : T (x) ∈ A} ∈ F für alle A ∈ F gilt.12 Ein solches T heißt
invertierbar, falls T A := {T (x) : x ∈ A} ∈ F für alle A ∈ F und T X = X
gelten. Eine meßbare Abbildung T heißt maßtreu bzgl. µ, wenn
µ(T −1 A) = µ(A)
für alle A ∈ F;
im Falle invertierbarer T ist diese Bedingung äquivalent zu µ(T A) = µ(A).
Ist T maßtreu, so nennt man (X, F, µ, T ) ein dynamisches System. Aus Sicht
des Maßes sagt man statt ’T ist µ-maßtreu’ auch ’µ ist T -invariant’.
Zu einer Abbildung T wie oben und x ∈ X sei
T 0 (x) = x, T 1 (x) = T (x)
und
T n+1 (x) = T (T n (x))
für n ∈ N;
wir schreiben auch T n x statt T n (x). Der Orbit von x unter T ist definiert
als die Menge {T n x : n ∈ N0 }; der Orbit enthält wichtige Informationen
über den Punkt x bzw. die Abbildung T . Bei invertierbaren Abbildungen
macht es auch Sinn, die Vergangenheit zu betrachten, d.h den erweiterten
Orbit
. . . , T −2 x, T −1 x, T 0 x = x, T x, T 2 x, . . . .
Wir haben bereits zwei sehr interessante Abbildungen kennen gelernt, mit
denen wir uns jetzt mit Hilfe unserer neuen Sprache etwas genauer beschäftigen wollen. Unser zu Grunde liegender Maßraum ist dabei gegeben durch
X = [0, 1), der Borelschen σ-Algebra B, ausgestattet mit dem LebesgueMaß λ.
12Diese Definition variiert von der für die Meßbarkeit einer Funktion in der Lebesgue-
Theorie!
20
ERGODENTHEORIE
♣ Bsp. 1): Die Abbildung beim Kreisbilliard heißt Kreisrotation (auch
Translation) und wird für festes θ ∈ (0, 1) definiert durch
Rθ : T → T ,
x 7→ x + θ
Natürlich können wir stattdessen auch Rθ auf [0, 1) durch Rθ (x) = {x +
θ} = x + θ mod 1 definieren. Z.B. die Projektion der Folge n 7→ nξ auf die
Kreisgruppe T ist eine Kreisrotation: Für das n-te Folgeglied xn gilt dabei
Rξn = xn . Was können wir in Hinblick auf unsere neuen Begriffe sagen?
Offensichtlich ist Rθ stets meßbar bzgl. des Lebesgue-Maßes: Ist nämlich
(α, β) irgendein Intervall in [0, 1), so gilt
Rθ−1 (α, β) = (α − θ, β − θ)
bzw.
(1 + α − θ, 1 + β − θ)
falls θ ≤ α bzw. β ≤ θ, sowie
Rθ−1 (α, β) = (0, β − θ) ∪ (1 + α − θ, 1)
falls α < θ ≤ β. Ferner folgt hieraus sofort, dass Rθ maßtreu ist bzgl. λ,
denn in jedem der Fälle gilt
λ(Rθ−1 (α, β)) = β − α = λ((α, β)).
Wir durften uns hier auf den Fall der Untersuchung von Intervallen
beschränken, da die Borelsche σ-Algebra von den offenen Mengen in
X = [0, 1) erzeugt wird (ebenso von den abgeschlossenen Mengen, wie man
durch Komplementbildung findet). Diese erhebliche Erleichterung basiert
auf dem Begriff der monotonen Klasse C bestehend aus allen endlichen disjunkten Vereinigungen von Elementen einer Algebra A. Ist hierzu F die
von C erzeugte σ-Algebra und das Tripel (X, F, µ) ein Maßraum, so gibt
es zu jedem A ∈ F und jedem ǫ > 0 ein B ∈ C, so dass µ(A∆B) < ǫ ist
(also B das gegebene A beliebig gut approximiert). Mit diesem Approximationssatz transportieren sich die Eigenschaften der Meßbarkeit und der
Maßtreue von C auf die Vervollständigung F bzgl. µ. Dies ist der Satz von
Hahn-Kolmogorov; mehr dazu findet man in [3] oder P. Walters, Ergodic Theory - Introductory lectures, Lecture Notes in Mathematics 458,
Springer 1975.
♣ Bsp. 2): Die Abbildung des Gelfandschen Problemes ist
2x
falls 0 ≤ x < 21 ,
T : [0, 1) → [0, 1),
x 7→ 2x mod 1 =
2x − 1 falls 21 ≤ x < 1
(in der Literatur auch “multiplication by 2 modulo 1 - map”). Ist (α, β)
irgendein Intervall in [0, 1), so ist
β+1
T −1 (α, β) = ( α2 , β2 ) ∪ ( α+1
2 , 2 ),
4. Maßtreue Abbildungen
21
was wiederum in B liegt; also ist T Lebesgue-meßbar. Die Vereinigung
rechts ist disjunkt (da a + 1 ≥ b) und damit gilt ausserdem
λ(T −1 (α, β)) = β − α = λ((α, β)).
Also ist T auch maßtreu bzgl. des Lebesgue-Maßes. So einfach dieses Beispiel auch sein mag, die Iterationen dieser Abbildung liefern die Binärentwicklung der Punkte aus [0, 1). Zu x ∈ [0, 1) definiere
0 falls 0 ≤ x < 12 ,
a1 = a1 (x) =
1 falls 12 ≤ x < 1.
Dann gilt T x = 2x − a1 (x) und wir definieren ferner
an = an (x) = a1 (T n−1 x)
für n ∈ N.
Wir haben damit
x = 21 (a1 + T x)
und
T x = 12 (a2 + T 2 x)
...
bzw.
a1 a2
an T n x
+ 2 + ... + n + n
für n ∈ N.
2
2
2
2
Wegen 0 ≤ T n x < 1 konvergiert der Reihenrest bei n → ∞ gegen Null und
wir erhalten die Binärdarstellung
x=
x=
∞
X
an
k=0
2n
.
Hierbei bilden die Ziffern a1 , a2 , . . . eine unabhängige Folge von identisch
verteilten Bernoulli-Zufallsvariablen. Dieses einfache Beispiel besitzt eine
Reihe von Verallgemeinerungen, die wir jetzt unter die Lupe nehmen.
√
♣ Bsp. 3): Mit denselben Bezeichnungen wie oben sei β = 12 ( 5 + 1) der
goldene Schnitt (es gilt also β 2 = β + 1) sowie Tβ : X → X definiert durch
(
βx
falls 0 ≤ x < β1 ,
Tβ x = βx mod 1 =
βx − 1 falls β1 ≤ x < 1.
Dann ist Tβ zwar nicht maßtreu bzgl. des Lebesgue-Maßes, wohl aber bzgl.
des Maßes µ definiert durch
( β3
Z
1
1+β 2 falls 0 ≤ x < β ,
g(x) dx
mit g(x) =
µ(A) =
2
β
falls β1 ≤ x < 1.
A
1+β 2
Die Iterierten Tβn x liefern die so genannte β-Entwicklung von x ∈ [0, 1)
∞
X
bn
x=
βn
n=1
mit bn ∈ {0, 1} und bn bn+1 = 0 für alle n ∈ N.
22
ERGODENTHEORIE
Aufgabe 5. Man verifiziere all diese Aussagen über Tβ und die βEntwicklung.
6. Nov. 2007
♣ Bsp. 4): Nun eine zweidimensionale Verallgemeinerung der GelfandAbbildung, die so genannte ’baker’s transformation’; hier Blätterteigabbildung. Hierzu sei X = [0, 1)2 ausgestattet mit Produkt-σ-Algebra B × B und
dem Produkt-Lebesgue-Maß λ × λ (das sich in natürlicher Weise durch
Produktbildung des eindimensionalen Maßes λ ergibt). Unsere Abbildung
ist gegeben durch
(2x, y2 )
falls 0 ≤ x < 12 ,
2
2
b : [0, 1) → [0, 1) ,
(x, y) 7→ b(x, y) =
1
(2x − 1, y+1
2 ) falls 2 ≤ x < 1
1
1
Tz
z
0
1/2
1
0
1
2
0
1
Abbildung 4. Die Blätterteigabbildung b in Zeitlupe.
Diese Bilder entstammen den Maple-notebooks von Geon Ho Choe [7].
Die Bilder entstehen durch mathematischen Pointillismus13: hier werden die
Punkte (xj , b(xj ) für eine große Menge von (möglichst gleichverteilten) xj
als Approximation an den Graphen von b gezeichnet.
Die Blätterabbildung b ist invertierbar, meßbar und maßtreu bzgl. des
Produktmaßes λ × λ; sie verdankt ihren Namen dem Mischprozess, den ein
Bäcker Wasser und Mehl beim Zubereiten von Teig unterwirft.
1
1
y
1
y
0
y
0
0
1
0
0
x
1
x
0
1
x
Abbildung 5. Die Iterationen b, b2 , b3 der Blätterteigabbildung.
13Wörtlich: etwas mit Punkten darstellen; Stilrichtung im Impressionismus mit Geor-
ges Seurat als prominentestem Vertreter.
4. Maßtreue Abbildungen
23
Aufgabe 6. Man verifiziere alle Aussagen über die Baker-Abbildung.
1
5
y
y
0
0
0
0
1
1
x
x
Abbildung 6. Die logistische Transformation: links der
Graph y = 4x(1 − x), rechts der Graph der Dichte.
♣ Bsp. 5): Die so genannte logistische Transformation
T : [0, 1] → [0, 1]
x 7→ 4x(1 − x)
ist meßbar und maßtreu bzgl.
1
µ(A) =
π
Z
A
p
dx
.
x(1 − x)
Tatsächlich tritt diese Dichte auch in der kürzlich durch R. Taylor bewiesenen Vermutung von Sato & Tate über die Verteilung der Gruppenordnungen modulo p reduzierter elliptischer Kurven im Hasse-Intervall auf (siehe
R. Taylor, Automorphy for some l-adic lifts of automorphic mod l representations. II. erhältlich unter http://www.math.harvard.edu/∼rtaylor/).14
♣ Bsp. 6): Identifizieren wir die Kreisgruppe T (wie schon zuvor) mit dem
Einheitsintervall [0, 1) modulo 1, so ist T2 = T × T das Einheitsquadrat
[0, 1)2 , bei dem gegenüberliegende Seiten miteinander identifiziert werden.
Damit ist T2 der zweidimensionale Torus. Die Abbildung
x
2 1
x
2
2
A : T →T ,
7→
mod 1
y
1 1
y
(komponentenweise) ist invertierbar (da die auftretende Matrix nicht verschwindende Determinante hat) und maßtreu bzgl. des zweidimensionalen
Lebesgue-Maßes. Man nennt A auch “Arnold cat map” zu Ehren von V.I.
Arnold — wer sich fragt warum, der möge in V.I. Arnold, A. Avez, Ergodic Problems of classical mechanics, Benjamin, NY 1968, nachschlagen.
14Es ist die Gleichverteilung auf den Konjugationsklassen der ‘special unitary group’
SU2 (C) bzgl. des Haarschen Maßes. Ähnlich kann man den berühmten Nachweis der
Weilschen Vermutungen durch P. Deligne, La conjecture de Weil. II. Publ. Math., Inst.
Hautes Étud. Sci. 52 (1980), 137-252, als Gleichverteilungsresultat der Frobenius Konjugationsklassen auffassen.
24
ERGODENTHEORIE
Die Abbildung A ist ein Beispiel eines so genannten toralen Automorphismus.
1
1
y
1
y
0
y
0
0
1
0
0
x
1
0
x
Abbildung 7. Iterationen der “Arnold cat
A, A2 , A3 von links nach rechts. Wo ist die Katze?
1
x
map”,
Ein vorerst letztes Beispiel, das wir aber nicht vertiefen werden, ist das so
genannte 3X +1-Problem (auch Collatz- oder Syracuse-Problem), welches
auf der folgenden Iterationsvorschrift basiert:
x/2 falls x gerade,
x 7→ T x =
3x + 1 falls x ungerade,
angewandt auf N. Es gilt also z.B.
... 7→ 12 7→ 6 7→ 3 7→ 10 7→ 5 7→ 16 7→ 8 7→ 4 7→ 2 7→ 1 7→ ...,
was also zyklisch wird. Es wird vermutet, dass diese Iteration jede beliebige
natürliche Zahl schließlich in den Zykel . . . 7→ 4 7→ 2 7→ 1 7→ 4 7→ ... abbildet, bzw. etwas schwächer, dass diese Iteration keine divergenten Trajektorien besitzt. Die Abbildung T ist sicherlich nicht injektiv. Dieses Beispiel
illustriert sehr schön, dass es Sinn macht, wenn möglich, auch die Vergangenheit einer Iteration zu studieren: Was wird unter der Iteration von T
alles auf 1 abgebildet? Tatsächlich besteht ein interessanter ergodischer Ansatz zur Lösung des 3X + 1-Problemes, da die Abbildung T maßtreu auf
den ganzen 2-adischen Zahlen Z2 ausgestattet mit dem Haarschen Maß
ist. Diese Beobachtung geht zurück auf K.R. Matthews & A.M. Watts,
A generalization of Hasse’s generalization of the Syracuse algorithm, Acta
Arith. 43 (1984), 167-175; sie zeigten u.a., dass die Iterierten T n x für fast
alle x ∈ Z2 gleichverteilt sind modulo 2k für jedes k ∈ N (mit Hilfe des Birkhoffschen Ergodensatzes). Leider würde eine Herleitung derselben uns hier
zu weit führen; weitere Information über dieses Problem findet man in dem
Übersichtsartikel von J.C. Lagarias, The ’3X + 1’ Problem and its generalizations, Amer. Math. Mon. 92 (1985), 3-23, bzw. bei G. Wirsching,
The Dynamical system generated by the 3X + 1 function, Lecture Notes in
Mathematics 1681, Springer 1998.
4. Maßtreue Abbildungen
25
Weitere interessante Beispiele maßtreuer Abbildungen findet man in [7].
Für den wichtigen Fall der Bernoulli-shifts schaue man in [3].
Aufgabe 7. Sei X = [0, 1) und B die Borelsche σ-Algebra mit dem
Lebesgue-Maß λ sowie die Abbildung T definiert durch T 0 = 0 und
T x = { x1 } für x ∈ (0, 1). Gesucht ist ein Maß µ auf X, so dass T maßtreu bzgl. µ ist.
Jetzt wiederholen wir skizzenhaft die Einführung des Lebesgue-Integrals
bzw. die Integration bzgl. eines allgemeinen Maßes µ. Gegeben also ein
Maßraum (X, F, µ), so heißt eine Funktion f : X → R meßbar (bzw. µmeßbar), wenn die Menge {x ∈ X : f (x) < α} für jedes α ∈ R meßbar
ist (also in F liegt). Insbesondere sind also stetige Funktionen meßbar bzgl.
des Lebesgue-Maßes bzw. allgemeinen Maßen zu Borelschen σ-Algebren.
Zunächst erklärt man das Integral für nicht negative, einfache Funktionen η
(d.h., das Bild von η ist endlich). Dazu schreibt man η als endliche Linearkombination von Indikatorfunktionen
η=
m
X
mit Bj := {x : η(x) = cj }
cj χBj
j=1
und paarweise verschiedenen cj ≥ 0, deren Gesamtheit η(X) ausmacht (insbesondere sind dann die Mengen Bj disjunkt). Hierbei ist die zu B ⊂ X
erklärte Indikatorfunktion χB definiert durch
1 falls x ∈ B,
χB (x) =
0 falls x 6∈ B;
offensichtlich ist diese Funktion genau dann meßbar, wenn B meßbar ist und
Entsprechendes gilt für einfache η. Das Integral von χB mit B ∈ F über eine
meßbare Menge A ist sinnvoll erklärt durch
Z
χB dµ = µ(A ∩ B).
A
bzw. für meßbare einfache Funktionen η (wie oben) durch
Z
Z
m
m
X
X
cj µ(A ∩ Bj ).
χBj dµ =
cj
η dµ =
A
A
j=1
j=1
Mit einfachen Funktionen lässt sich jede nicht negative, reellwertige meßbare
Funktion f beliebig genau approximieren und das Lebesgue-Integral hierzu
wird erklärt durch
Z
Z
ηµ,
f dµ = sup
A
A
26
ERGODENTHEORIE
wobei das Supremum über alle meßbaren einfachen Funktionen η mit 0 ≤
η ≤ f genommen wird. Mit der Youngschen Zerlegung
f = f+ − f−
mit f + := max{f, 0},
f − := − min{f, 0}
(8)
gewinnt man das Integral für eine allgemeine meßbare reellwertige Funktion
f , nämlich
Z
Z
Z
f dµ =
A
A
f + dµ −
f − dµ
A
für jede meßbare Menge A, durch Anwendung auf die Summanden f + und
f − . Die Funktion f heißt dabei integrierbar (bzw. µ-integrierbar), wenn beide Integrale auf der rechten Seite endlich sind. Das so erklärte LebesgueIntegral hat alle wichtigen Eigenschaften eines Integrals wie etwa Monotonie
und Linearität (womit wir auch das Integral für komplexwertige meßbare Funktionen definieren können), auch hängt es nicht von der Wahl der
Darstellungen der einfachen Funktionen als Linearkombination von Indikatorfunktionen ab. Wichtig bei dieser Konstruktion ist die σ-Additivität
des zu Grunde liegenden Maßes, mit dessen Hilfe sich bei Funktionenfolgen Eigenschaften wie Meßbarkeit und Integrierbarkeit auf deren Limiten
vererben! Dies äußert sich insbesondere in den Lebesgueschen Konvergenzsätzen (wie z.B. der Satz von der majorisierten Konvergenz), die nicht
für das Riemann-Integral bestehen. Diese sind wichtige Werkzeuge im weiteren Verlauf der Vorlesung. Zu 1 ≤ p < +∞ notieren wir den Vektorraum
aller µ-integrierbaren Funktionen f : X → C mit
1
Z
p
p
< +∞
|f | dµ
kf kp :=
X
mit
Lp (X, F, µ).
f ∼g
Teilen wir diesen Raum nach der Äquivalenzrelation
: ⇐⇒
{x ∈ X : f (x) 6= g(x)}
ist Nullmenge
aus, so erhalten wir einen normierten Quotientenvektorraum
Lp (X, F, µ) = Lp (X, F, µ)/ ∼
oder kurz Lp , in dem zwei Funktionen, deren Werte sich höchstens auf einer Nullmenge unterscheiden, in ein und derselben Äquivalenzklasse liegen;
dabei wird die Norm als Fortsetzung von k · k definiert. Der berühmte Satz
von Riesz & Fischer besagt, dass die Räume Lp vollständig sind. Der Fall
p = +∞ spielt im Weiteren keine wichtige Rolle.
Ein sehr schönes und prägnantes Zitat zum Vergleich zwischen Lebesgueund Riemann-Integral von Lebesgue selbst:
“The geometers of the seventeenth century considered the integral
of f (x) — the word ‘integral’ had not been invented, but that does
not matter — as the sum of an infinity of indivisibles, each of which
4. Maßtreue Abbildungen
27
was the ordinate, positive or negative, of f (x). Very well! We have
simply grouped together the indivisibles of comparable size. (...)
One could say that, according to Riemann’s procedure, one tried to
add the indivisibles by taking them in the order in which they were
furnished by variation in x, like an unsystematic merchant who
counts coins and bills at random in the order in which they came
to hand, while we operate like a methodical merchant who says:
I have m(E1 ) pennies which are worth 1 · m(E1 ),
I have m(E2 ) nickels which are worth 5 · m(E2 ),
I have m(E3 ) dimes which are worth 10 · m(E3 ), etc.
Altogether then I have
S = 1 · m(E1 ) + 5 · m(E2 ) + 10 · m(E3 ) + . . .
The two procedures will certainly lead the merchant to the same
result becaue no matter how much money he has there is only a
finite number of coins or bills to count. But for us who must add
an infinite number of indivisibles the difference between the two
methods is of capital importance.” (Lebesgue, 1966).
Nun weiter mit einem Kriterium zur Maßtreue (analog zum Weylschen
Satz 3 zur Gleichverteilung modulo Eins):
Satz 6. Eine Abbildung T : X → X ist genau dann µ-treu, wenn für alle
µ-integrierbaren Funktionen f : X → C gilt, dass
Z
Z
f dµ = f ◦ T dµ.
(9)
Im Falle metrischer Räume genügt es, die Bedingung nur für auf X stetige Funktionen f zu fordern. Eine Implikation ergibt sich dabei durch den
folgenden Beweis von Satz 6; die andere folgt mit den Darstellungssätzen
von Hahn-Banach und Riesz (siehe etwa W. Rudin, Real and complex
analysis, Oldenbourg 1987.)
Beweis. Gilt (9), so folgt mit der Indikatorfunktion χA einer meßbaren
Menge A insbesondere
Z
Z
Z
µ(A) = χA dµ = χA ◦ T dµ = χT −1 A dµ = µ(T −1 A),
also ist T maßtreu.
Angenommen, T ist maßtreu, so gilt (9) (nach dem bereits Bewiesenen)
insbesondere für alle Indikatorfunktionen und damit auch für jede einfache Funktion (d.h, für jede Funktion mit endlichem Bild). Sei zunächst
f ≥ 0 und (fn ) eine konvergente Folge meßbarer einfacher Funktionen mit
Grenzwert f , dann gilt auch limn→∞ fn ◦ T = f ◦ T . Lebesgues Satz von
28
ERGODENTHEORIE
der majorisierten Konvergenz besagt für eine Folge von meßbaren Funktionen gn : X → R mit fast überall existierenden und meßbaren Grenzwert
g = limn→∞ gn sowie |gn (x)| ≤ G(x) für fast alle x ∈ X mit einer integrierbaren Funktion G, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
X n→∞
n→∞ X
Speziell mit gn = fn ◦ T bzw. mit gn = fn folgt hier
Z
Z
Z
Z
fn dµ = f dµ,
fn ◦ T dµ = lim
f ◦ T dµ = lim
n→∞
n→∞
wobei wir im vorletzten Schritt (9) für einfache Funktionen anwenden durften. Mittels der Zerlegung (8) folgt (wie üblich in der Maßtheorie) die Behauptung für allgemeine reellwertige f ; den Fall komplexwertiger f bekommt
man (wie auch schon im Beweis von Satz 4) über die Zerlegung in Real- und
Imaginärteil. Der Satz ist bewiesen. •
♣ Bsp. 7): Es sei T : R → R definiert durch T 0 = 0 und
1
1
Tx = 2 x −
für x 6= 0.
x
Es gilt
T −1 (α, β) = (α −
p
α2 + 1, β −
p
β 2 + 1) ∪ (α +
p
α2 + 1, β +
p
β 2 + 1),
also ist T meßbar. Für jede Lebesgue-integrierbare Funktion f besteht mit
der Substitution y = T x, dy = 21 (1 + x12 ) dx die Identität
Z +∞
Z +∞
dy
dx
f (y)
=
.
f (T x)
2)
π(1
+
x
π(1
+ y2 )
−∞
−∞
Also ist T nach Satz 6 maßtreu bzgl. des Wahrscheinlichkeitsmaßes P, definiert durch
Z β
dx
.
P((α, β)) =
2
α π(1 + x )
Hier kann man auch alternativ das Additionstheorem
p
p
arctan(x + x2 + 1) + arctan(x − x2 + 1) = arctan(x)
benutzen. Übrigens rührt die Abbildung T von Newtons Näherungsverfahren angewandt zur Auffindung der reellen Nullstellen von f (x) = x2 + 1 her.
Die Newton-Iteration übersetzt sich wie folgt:
f (xn )
x2 + 1
1
1
xn+1 = xn − ′
↔
Tx = x −
= 2 x−
.
f (xn )
2x
x
Gäbe es eine reelle Nullstelle, so würde die Folge der xn konvergieren, da aber
stets f (x) 6= 0, ist die Iteration nicht konvergent. Dieses Beispiel stammt von
D. Lind (cf. [7]).
5. Ergodizität und Mischen
29
Aufgabe 8. Sei (X, F, µ) ein Maßraum und T : X → X meßbar. Man
zeige, dass die Menge aller T -invarianten Mengen A eine σ-Algebra bilden.
5. Ergodizität und Mischen
Bekanntlich können bei der Lebesgue-Integration Nullmengen außer
Acht gelassen werden. Z.B. ist die Dirichlet-Funktion δ = χQ , erklärt
durch δ(x) = 1 für x ∈ Q und δ(x) = 0 für x ∈ R \ Q nicht Riemannintegrierbar, wohl aber existiert das Lebesgue-Integral
Z
δ dλ = λ([0, 1] ∩ Q) = 0
[0,1]
(da Q abzählbar ist und damit eine Nullmenge). Dies spiegelt genau das wieder, was wir von einem Integral über eine Funktion, die meist gleich Null ist,
erwarten. Gilt eine Eigenschaft E für alle x ∈ A \ B, wobei A, B µ-meßbare
Mengen sind und ist B eine Nullmenge, also µ(B) = 0, so sagen wir E gilt
für fast alle x ∈ A bzw. E gilt fast überall auf A. Ist µ ein Wahrscheinlichkeitsmaß, so können wir das auch kurz mit µ(A) = 1 notieren und das
Ereignis E mit A identifizieren.
Im Folgenden wollen wir uns bis auf weiteres in einem Wahrscheinlichkeitsraum (X, F, µ) bewegen. Eine maßtreue Abbildung T : X → X heißt
ergodisch bzgl. µ, wenn für jede meßbare Menge A mit T −1 A = A entweder
µ(A) = 0 oder µ(A) = 1 gilt. In diesem Fall sprechen wir auch von einem
ergodischen dynamischen System (X, F, µ, T ). Ergodisch bedeutet also, dass
jede meßbare T -invariante Menge entweder eine Nullmenge ist oder volles
Maß hat.15
Satz 7. Die folgenden Aussagen sind äquivalent:
(i)
(ii)
(iii)
(iv)
T ist ergodisch;
Für B ∈ F mit µ(T −1 B∆B) = 0 gilt µ(B) = 0 oder = 1;
S
Für A ∈ F mit µ(A) > 0 gilt µ( n T −n A) = 1;
Für A, B ∈ F mit µ(A) > 0 und µ(B) > 0 existiert ein n ∈ N mit
µ(T −n A ∩ B) > 0.
Ist T invertierbar, so kann man in diesen Bedingungen natürlich T −n durch
T n ersetzen. Jetzt ein wenig Interpretation dieser Formeln: Die Bedingung
(iii) besagt, dass, wenn A positives Maß besitzt, fast jedes x ∈ X schließlich
(und sogar unendlich oft — warum?) A besuchen wird, bzw. (iv) zeigt, dass
jedes Element von B fast sicher irgendwann unter T nach A gelangt.
15In der Wahrscheinlichkeitstheorie kennt man viele so genannte 0 − 1-Gesetze (etwa
die von Kolmogorv, Borel).
30
ERGODENTHEORIE
Beweis. (i) ⇒ (ii): Angenommen B ist meßbar mit µ(T −1 B∆B) = 0 und
T ist ergodisch. Wir bilden den Limes superior
C :=
∞ [
∞
\
T −n B.
m=0 n=m
Für m ∈ N0 gilt
B∆
∞
[
T
−n
n=m
Da
B∆T
−n
B ⊂
B ⊂
n−1
[
∞
[
B∆T −n B.
n=m
T −k B∆T −(k+1) B
k=0
und die Menge auf der rechten Seite Maß Null hat, folgt µ(B∆T −n B) = 0
S
−n B, so sind die C ineinander
für beliebiges n ∈ N. Sei jetzt Cm = ∞
m
n=m T
geschachtelt:
C0 ⊃ C1 ⊃ C2 ⊃ . . .
und es gilt µ(Cm ) = µ(B) für jedes m ∈ N0 . Also folgt µ(C∆B) = 0 bzw.
µ(C) = µ(B). Ferner ist
T −1 C =
∞ [
∞
\
T −(n+1) B =
m=0 n=m
∞
\
∞
[
T −n B = C
m=0 n=m+1
und nach Voraussetzung folgt µ(C) = 0 oder µ(C) = 1. Mit dem zuvor
Gezeigten folgt nun µ(B) = 0 oder µ(B) = 1.
S
−n A.
(ii) ⇒ (iii): Sei nun A gegeben mit µ(A) > 0 und sei B = ∞
n=1 T
Dann gilt
∞
[
−1
T −n A ⊂ B.
T B=
n=2
Da T maßtreu ist, folgt weiter µ(T −1 B) = µ(B) und damit
µ(B∆T −1 B) = µ(B) − µ(T −1 B) = 0.
Also folgt µ(B) = 0 oder µ(B) = 1; da T −1 A ⊂ B und µ(A) > 0 ist
µ(B) = 1.
(iii) ⇒ (iv): Seien A und B Mengen positiven Maßes. Nach (iii) gilt
!
∞
[
T −n A = 1
µ
n=1
und damit
0 < µ(B) = µ
∞
[
n=1
B∩T
−n
!
A
insbesondere existiert also ein n mit µ(B
≤
∞
X
n=1
µ(B ∩ T −n A);
∩ T −n A)
> 0.
5. Ergodizität und Mischen
31
(iv) ⇒ (i): Sei A eine Menge mit T −1 A = A, dann gilt
0 = µ(A ∩ X \ A) = µ(T −n A ∩ X \ A)
für beliebiges n ≥ 1. Also folgt aus (iv), dass µ(A) = 0 oder µ(X \ A) = 0
bzw. µ(A) = 1 − µ(X \ A) = 1. Der Satz ist bewiesen. •
Jetzt kommen wir zu einem weiteren Kriterium für Ergodizität, das für
viele praktische Anwendungen einfacher zu verifizieren ist.
Satz 8. Die folgenden Aussagen sind äquivalent:
(i) T ist ergodisch;
(v) Ist f eine meßbare Funktion mit f (T x) = f (x) für (fast) alle x,
dann ist f fast überall konstant.
(vi) Ist f ∈ L2 (X, F, µ) mit f (T x) = f (x) für (fast) alle x, dann ist f
fast überall konstant.
In den Bedingungen (v) und (vi) mag man die Gleichung f (T x) = f (x) für
alle oder auch nur für fast alle x ∈ X fordern; wegen der Vernachlässigbarkeit
von Nullmengen bei der Lebesgue-Integration besteht hier Äquivalenz.
Beweis. (i) ⇒ (v): Angenommen, T ist ergodisch und f : X → C meßbar
und T -invariant. Da dann insbesondere der Realteil und der Imaginärteil
von f T -invariant sind, dürfen wir uns auf den Fall eines reellwertigen f
beschränken. Für k ∈ Z und n ∈ N sei
Akn = {x ∈ X : f (x) ∈ [ nk , k+1
n )}.
Dann gilt
T −1 Akn ∆Akn ⊂ {x ∈ X : f ◦ T (x) 6= f (x)};
da die Menge auf der rechten Seite eine Nullmenge ist, folgt nach Satz 7,
(ii), dass µ(Akn ) ∈ {0, 1}. Für jedes n ist X die disjunkte Vereinigung der
S
Mengen Akn , also X = k∈Z Akn . Also gibt es ein eindeutiges k(n) (abhängig
k(n)
von n), so dass µ(An
) = 1. Bilden wir also die Menge
Y =
∞
\
Ak(n)
n ,
n=1
so gilt µ(Y ) = 1 und f ist konstant auf Y (klar?). Da sich Y und X höchstens
bis auf eine Nullmenge unterscheiden, folgt somit, dass f fast überall konstant ist.
Die Implikation (v) ⇒ (vi) ist trivial; es verbleibt also der Beweis von
(vi) ⇒ (i): Angenommen, T −1 A = A für eine meßbare Menge A positiven
Maßes, so haben wir µ(A) = 1 zu zeigen. Für die Indikatorfunktion zu A
gilt χA ∈ L2 (X, F, µ) und χA ◦ T = χT −1 A = χA . Nach Vorraussetzung ist
13. Nov. 2007
32
ERGODENTHEORIE
χA fast überall konstant, d.h. χA (x) = 1 für fast alle x. Damit folgt aber
µ(A) = 1. Der Satz ist bewiesen. •
Nun wollen wir einige Beispiele von maßtreuen Abbildungen aus dem
vorigen Kapitel auf Ergodizität untersuchen. Beide sind über eine Periodizitätsvorschrift erklärt, was in diesen beiden Fällen nahe legt, Kriterium
(vi) des gerade bewiesenen Satzes mit Methoden der Fourier-Analysis benutzen zu wollen. Wir erinnern hierzu, dass jede L2 -Funktion durch ihre
Fourier-Reihe dargestellt wird (siehe etwa W. Rudin, Reelle und Komplexe Analysis, Oldenbourg 1989).
♣ Bsp. 1): Die Kreisrotation Rθ : [0, 1) → [0, 1), x 7→ x + θ mod 1
beschreibt die Verteilung der gebrochenen Anteile der reellen Zahlenfolge
xn = nθ + β mit β = Rθ 0. Korollar 5 zeigte, dass die Folge (nθ) genau
dann modulo 1 gleichverteilt ist, wenn θ irrational ist. Ganz analog gilt
dies natürlich auch für ‘geshiftete’ Folgen (nθ + β). Der nachfolgende Satz
erläutert, dass dies ein ergodisches Phänomen ist:
Satz 9. Die Kreisrotation Rθ ist genau dann ergodisch bzgl. des LebesgueMaßes, wenn θ irrational ist.
Beweis. Ist θ = pq rational, so ist x 7→ e(qx) eine nicht konstante Rθ invariante Funktion:
e(qRθ x) = exp(2πiq(x + pq )) = exp(2πiqx) exp(2πip) = e(qx).
Insbesondere ist Rθ nach Satz 8, (vi), also nicht ergodisch.
Ist θ irrational, und
X
f (x) =
cn e(nx)
(10)
n
die Fourier-Reihe einer Rθ -invarianten Funktion f ∈ L2 , dann gilt
X
f (x) = f (Rθ x) = f (x + θ) =
cn e(nθ) e(nx)
n
und also mit der Eindeutigkeit der Fourier-Entwicklung cn = cn e(nθ) bzw.
cn (1 − e(nθ) = 0
für n ∈ Z.
Für n 6= 0 folgt e(nθ) 6= 1 mit der Irrationalität von θ und also cn = 0. Damit
ist f (x) = c0 , also konstant und mit Satz 8, (vi), folgt die Ergodizität von
Rθ . Der Satz ist bewiesen. (Für einen Beweis frei von Fourier-Analysis
verweisen wir auf [5].) •
♣ Bsp. 2): Wir betrachten also die Abbildung T : [0, 1) → [0, 1), x 7→
2x mod 1. Wie oben gehen wir wieder von einer T -invarianten Funktion
5. Ergodizität und Mischen
33
f ∈ L2 mit Fourier-Entwicklung (10) aus. Dann gilt
X
f (x) = f (T x) =
cn e(2nx)
n
und ein Koeffizientenvergleich liefert nun cn = c2n . Nach der Parsevalschen
Gleichung gilt für die Koeffizienten
Z 1
X
2
|f (x)|2 dx =
|cn |2 < +∞.
kf k2 =
0
n
Also kann es kein cn 6= 0 mit n 6= 0 geben. Damit ist höchstens c0 verschieden
von Null und mit Satz 8, (v), folgt die Ergodizität von T . Dies lässt sich auf
torale Endomorphismen erweitern:
Satz 10. Es sei A ∈ Zd×d eine Matrix und
Tφ : Td → Td ,
φ(x) = Ax mod 1
für x ∈ Td . Dann ist Tφ genau dann ergodisch, wenn A keine Einheitswurzel
als Eigenwert besitzt.
Insbesondere ist die Abbildung x 7→ x mod 1 nicht ergodisch. Der Beweis
dieses allgemeinen Kriteriums ist nicht viel schwieriger als der skizzierte
Spezialfall (nur länger) und kann in [2, 7] nachgelesen werden.
Aufgabe 9. Es sei m > 1 eine natürliche Zahl und X = Z/mZ der zugehörige Restklassenring modulo m (siehe etwa [11]). Sei ferner F = P(X)
und µ die Gleichverteilung auf X. Zu b ∈ {1, 2, . . . , m} sei
Tb : X → X,
x 7→ x + b mod m.
Zeige: i) Tb ist maßtreu, und ii) (X, F, µ, Tb ) ist genau dann ergodisch, wenn
b und m teilerfremd sind.
Der Ergodizität verwandt ist der Begriff des Mischens. Wir sagen eine
Abbildung T ist stark mischend, wenn für alle A, B ∈ F
lim µ(A ∩ T −n B) = µ(A)µ(B)
n→∞
gilt. Demgegenüber heißt T schwach mischend, falls stattdessen
1 X
lim
|µ(A ∩ T −n B) − µ(A)µ(B)| = 0
N →∞ N
0≤n<N
gilt. Es besteht die folgende Kette von Implikationen:
stark mischend
⇒
schwach mischend
⇒
ergodisch.
Ein Beispiel für einen stark mischenden Prozess ist etwa die Blätterteigabbildung β; hingegen sind Kreisrotationen Rθ mit irrationalem θ nur ergodisch,
34
ERGODENTHEORIE
nicht aber stark mischend; ein Beispiel zur Abgrenzung zwischen schwachem und starkem Mischen findet man bei S. Kakutani, Examples of ergodic measure preserving transformations which are weakly mixing but not
strongly mixing, in “Recent advances in topological dynamics”, Proceedings
Conference Yale University in honour of G.A. Hedlund, Lecture Notes Math.
318, Springer 1973, 143-149.
Aufgabe 10. Man beweise all diese Behauptungen über Mischen und Ergodizität, insbesondere deren Hierarchie.
6. Die Ergodensätze von Birkhoff und von Neumann
In der statistischen Mechanik berechnet man die physikalischen Eigenschaften eines Systems durch Mittelung über alle möglichen Zustände des
Systems. Diese Idee geht auf Boltzmann (1871) zurück, der hierzu die
Ergodenhypothese aufgestellt hat. Diese Hypothese behauptet eine Äquivalenz bzgl. der Mittelung entlang einer Trajektorie (griechisch odos) des
Systems und der Mittelung aller möglichen Zustände gleicher Energie (griechisch ergon) (bzw. Gleichheit zwischen dem zeitlichen Mittelwert und dem
Ensemble- oder Scharmittelwert). Maxwell (1879) formulierte hierzu, dass
jedes System in irgendeinem Zustand, früher oder später, jeden mit den physikalischen Gegebenheiten konsistenten Zustand durchlaufen wird. Poincaré entdeckte (1890), dass es zu restriktiv ist zu fordern, dass die Trajektorie jeden Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar
ist) tatsächlich besucht, dass also diese strenge Ergodenhypothese falsch ist.
Poincaré formulierte stattdessen eine abgeschwächte Ergodenhypothese,
derzufolge die Trajektorie jedem Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar ist) in endlicher Zeit beliebig nahe kommt (ihn aber
nicht unbedingt durchlaufen muss). Die Ergodensätze geben eine mathematische Begründung dieser abgeschwächten Ergodenhypothese und bilden
damit die Grundlage der statistischen Mechanik.16
Einer der ersten Ergodensätze (und vielleicht auch der wichtigste) ist der
von G.D. Birkhoff, Proof of the ergodic theorem, Proc. Nat. Acad. Sci.
USA 17 (1931), 656-660:
Satz 11. Sei T eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ). Gilt dann f ∈ L(X, F, µ), so existiert für fast alle
16Im Falle spontaner Symmetriebrechung kann die Ergodenhypothese verletzt werden
(Ergodizitätsbrechung) — es können dann disjunkte ergodische Bereiche im Phasenraum
auftreten; dieses Szenario kann bei Phasenübergängen auftreten, wie etwa beim Erstarren
einer Flüssigkeit oder bei Spingläsern.
6. Die Ergodensätze von Birkhoff und von Neumann
x ∈ X der Grenzwert
1
N →∞ N
f ∗ (x) := lim
X
35
f (T n x)
0≤n<N
und es gelten f ∗ (T x) = f ∗ (x) sowie f ∗ ∈ L(X, B, µ) und
Z
Z
f dµ.
f ∗ dµ =
(11)
X
X
Ist ferner T ergodisch, so ist f ∗ fast überall konstant und es gilt
Z
1 X
f dµ.
f (T n x) =
lim
N →∞ N
X
(12)
0≤n<N
Dieser Satz heißt auch punktweiser Ergodensatz. Er besagt, dass das Zeitmittel von f längs eines Orbits {T n x} für fast alle x gleich dem Scharmittel
von f (über den gesamten Raum X) ist. Dies liefert i.A. eine sehr präzise
Vorhersage, obwohl kaum etwas über f oder T bekannt sein mag. Sei etwa
M ⊂ X meßbar, so folgt mit f = χM bei ergodischem T , dass das Mittel
der Besuche von T n x in M für fast alle x gleich dem Maß von M ist — Ergodizität erzwingt gewissermaßen eine Gleichverteilung! G.D. Birkhoff,
What is the ergodic theorem?, Amer. Math. Monthly 49 (1942), 222-226,
gibt denn auch Anwendungen im idealisierten Erde–Sonne–Mond–Problem
(ein eingeschränktes Dreikörperproblem).17 Unser Beweis folgt T. Kamae
& M. Keane, A simple proof of the ratio ergodic theorem, Osaka J. Math.
34 (1997), 653-657.
Beweis. Offensichtlich genügt es den Satz für nicht negative Funktionen zu
beweisen, da ansonsten (wie stets in der Integrationstheorie) mit Hilfe der
Linearität des Integrals zunächst für reellwertige f jeder der Summanden in
der Zerlegung f = f + − f − mit nicht negativen f + , f − für sich behandelt
werden kann (siehe (8)), und dann der Übergang zu komplexwertigen Funktionen durch separate Betrachtung ihrer Real- bzw. Imaginärteils gelingt.
Sei also f ≥ 0. Dann definieren wir punktweise
X
fN (x) =
f (T n x)
0≤n<N
sowie
f (x) = lim sup
N →∞
fN (x)
N
17Und auch zum konvexen Billiard.
und
f (x) = lim inf
N →∞
fN (x)
.
N
36
ERGODENTHEORIE
Damit sind f und f meßbar (denn ganz allgemein gilt lim supN →∞ gN (x) =
inf m supN ≥m gN (x) bzw. etwas analoges für lim inf). Wegen
fN (T x)
fN +1 (x) N + 1 f (x)
f (T x) = lim sup
= lim sup
·
−
N
N +1
N
N
N →∞
N →∞
fN +1 (x)
= f (x)
= lim sup
N +1
N →∞
ist f also T -invariant; ganz analog zeigt man f (T x) = f (x). Um die Existenz
des Grenzwertes f ∗ , seine Integrierbarkeit und T -Invarianz zu zeigen, genügt
es
Z
Z
Z
X
20. Nov. 2007
f dµ ≤
X
f dµ ≤
f dµ
(13)
X
zu zeigen, denn dann folgt über f ≤ f zunächst f (x) = f (x) = f ∗ (x) für fast
alle x und nach Integration somit (11). (Ist nämlich das Lebesgue-Integral
über eine nicht negative Funktion gleich Null, so ist die Funktion fast überall
gleich Null.)
Nun sei ǫ ∈ (0, 1) und L > 0 beliebig gegeben. Nach Definition von f gibt
es dann zu jedem x ∈ X eine natürliche Zahl m mit
fm
≥ (1 − ǫ) min{f (x), L}.
m
Zu jedem δ > 0 gibt es ferner eine natürliche Zahl M , so dass
X+ := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≥ m(1 − ǫ) min{f (x), L}
ein Maß größer gleich 1 − δ besitzt. Definiere nun
f (x) falls x ∈ X+ ,
˜
f (x) =
L
sonst.
Dann gilt f ≤ f˜; ist nämlich x ∈ X \ X+ , so gilt fm (x) < m(1 −
ǫ) min{f (x), L} und damit f ≤ L. Für x ∈ X und n ∈ N0 sei
an := an (x) := f˜(T n x)
und
bn := bn (x) := (1 − ǫ) min{f (x), L}.
Dann gibt es für jedes n ∈ N0 eine natürliche Zahl 1 ≤ m ≤ M , so dass
an + . . . + an+m−1 ≥ bn + . . . + bn+m−1 .
(14)
Um dies zu verifizieren, nehmen wir zunächst T n x ∈ X+ an. In diesem
Fall gibt es ein 1 ≤ m ≤ M , so dass
fm (T n x) ≥ m(1 − ǫ) min{f (T n x), L}
= m(1 − ǫ) min{f (x), L} = bn + . . . + bn+m−1 ;
6. Die Ergodensätze von Birkhoff und von Neumann
37
hier haben wir die oben bewiesene T -Invarianz von f benutzt. Also gilt
an + . . . + an+m−1 = f˜(T n x) + . . . + f˜(T n+m−1 x)
≥ f (T n x) + . . . + f (T n+m−1 x) = fm (T n x)
= bn + . . . + bn+m−1 .
Ist hingegen T n x 6∈ X+ , so mag man m = 1 nehmen, denn dann gilt
an = f˜(T n x) = L ≥ (1 − ǫ) min{f (x), L} = bn .
Also ist unsere Behauptung über (14) bewiesen.
Mit (14) gibt es nun zu jeder natürlichen Zahl N > M rekursiv definierte
ganze Zahlen m0 < m1 < . . . < mk < N mit m0 ≤ M, mj+1 − mj ≤ M für
j = 0, 1, . . . , k − 1 und N − mk ≤ M sowie
a0 + . . . + am0 −1 ≥ b0 + . . . + bm0 −1 ,
am0 + . . . + am1 −1 ≥ bm0 + . . . + bm1 −1 ,
...
...
amk−1 + . . . + amk −1 ≥ bmk−1 + . . . + bmk −1 .
Addition dieser Ungleichungen führt auf
a0 + . . . + aN −1 ≥ a0 + . . . + amk −1
(15)
≥ b0 + . . . + bmk −1 ≥ b0 + . . . + bN −M −1 .
Übersetzt bedeutet dies
X
f˜(T n x) ≥ (N − M )(1 − ǫ) min{f (x), L}
0≤n<N
(man beachte dabei, dass die bn allesamt unabhängig von n sind). Wir integrieren diese Ungleichung über X und erhalten
Z
X Z
n
˜
min{f (x), L} dµ(x).
f (T x) dµ(x) ≥ (N − M )(1 − ǫ)
0≤n<N
X
X
Wegen der Maßtreue von T gilt nach Satz 6
Z
Z
g(x) dµ(x)
g(T x) dµ(x) =
X
X
für alle integrierbaren Funktionen g, insbesondere für g = f˜. Damit entledigen wir uns der Mittelung über 0 ≤ n < N und erhalten
Z
Z
˜
min{f (x), L} dµ(x).
f dµ ≥ (N − M )(1 − ǫ)
N
X
X
Da
Z
X
f˜(x) dµ(x) =
Z
X+
f (x) dµ(x) + Lµ(X \ X+),
38
ERGODENTHEORIE
ergibt sich nach Konstruktion
Z
Z
Z
f˜(x) dµ(x) − Lµ(X \ X+ )
f (x) dµ(x) =
f (x) dµ(x) ≥
X
X+
X
Z
N −M
≥
min{f (x), L} dµ(x) − Lδ.
(1 − ǫ)
N
X
Nun lassen wir zunächst N gegen Unendlich streben, dann δ und ǫ gegen
Null und erhalten
Z
Z
min{f , L} dµ.
f dµ ≥
X
X
Der Satz von der monotonen Konvergenz besagt für eine (bis auf eine vernachlässigbare Nullmenge) monoton wachsende Folge nicht negativer meßbarer Funktionen gn : X → R, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
X n→∞
n→∞ X
Speziell mit gL = min{f , L} und L → ∞ können wir also Limesbildung und
Integration vertauschen:
Z Z
Z
lim min{f , L} dµ =
f dµ.
min{f , L} dµ =
lim
L→∞ X
Also ergibt sich
X
Z
X
L→∞
f dµ ≥
Z
X
f dµ.
X
Dies ist die zweite Ungleichung in (13).
Für den Nachweis der ersten Ungleichung in (13) starten wir ähnlich wie
oben: Für ǫ > 0 existiert zu jedem x ∈ X eine natürliche Zahl m mit
fm (x)
≤ f (x) + ǫ.
m
Zu beliebigem δ > 0 gibt es eine natürliche Zahl M , so dass
X− := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≤ m(f (x) + ǫ)
ein Maß mindestens 1 − δ besitzt. Jetzt definiere man
f (x) falls x ∈ X− ,
fˆ(x) =
0
sonst.
Dann gilt fˆ ≤ f und mit bn = fˆ(T n x) und an = f (x) + ǫ (unabhängig von
n diesmal) folgt via (14) und (15) nun
X
fˆ(T n x) ≤ N (f (x) + ǫ).
0≤n<N −M
Integration beider Seiten ergibt unter Berücksichtigung der Maßtreue von T
Z
Z
f dµ + ǫN.
fˆ dµ ≤ N
(N − M )
X
X
6. Die Ergodensätze von Birkhoff und von Neumann
39
Da f ≥ 0, ist das Maß µ̃ definiert durch
Z
f dµ
µ̃(A) =
A
absolut stetig, d.h. es gibt ein δ̃ > 0, so dass µ̃(A) < δ, wenn immer µ(A) < δ̃.
Wegen µ(X \ X− ) < δ, folgt deshalb
Z
Z
Z
Z
N
ˆ
f dµ ≤
f dµ +
f dµ =
(f + ǫ) dµ + δ̃
N −M X
X\X−
X
X
Mit zunächst N → ∞, dann δ → 0 (und damit ebenso δ̃ → 0) und letztendlich ǫ → 0 ergibt sich
Z
Z
f (x) dµ(x)
f (x) dµ(x) ≤
X
X
und damit ist (13) bewiesen.
Es verbleibt im Falle einer ergodischen Abbildung T , die Identität (12)
zu zeigen. Nach Satz 8, (v), ist f ∗ fast überall konstant, also f ∗ (x) = c für
fast alle x ∈ X. Dann gilt aber
Z
Z
∗
f dµ.
f dµ =
c=
X
X
Der Satz ist bewiesen. •
Die Konvergenz im Birkhoffschen Satz kann sehr langsam sein. Speziell in den vorangegangenen Beispielen illustriert sich dies mit Hilfe von
Simulationen wie folgt:
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
0
1000
n
0
0
1000
n
0
1000
n
Abbildung 8. Links T x = 2x mod 1, in der Mitte die logistische Abbildung T x = 4x(1 − x), rechts der Graph der
Abbildung T x = {1/x}, die später eine wichtige Rolle spielen
wird.
Als erste Anwendung des Birkhoffschen Ergodensatz beweisen wir nun
eine weitere maßtheoretische Charakterisierung von Ergodizität:
Satz 12. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu bzgl. µ. Dann ist T genau dann ergodisch, wenn für alle A, B ∈ F
40
ERGODENTHEORIE
gilt, dass
1
N →∞ N
lim
X
0≤n<N
µ(T −n A ∩ B) = µ(A)µ(B).
(16)
Der Satz besagt also, dass die Bilder einer Menge A unter einer ergodischen
Abbildung T im Mittel einen Teil einer beliebig gegebenen meßbaren Menge
B überdecken, der proportional zum Maß von B ist! Man vergleiche diese Charakterisierung von Ergodizität mit den Begriffen des schwachen und
starken Mischens aus dem vorangegangenen Kapitel.
Beweis. Angenommen, T is ergodisch, dann liefert der Birkhoffsche Ergodensatz 11 angewandt mit der Indikatorfunktion f = χA
Z
1 X
χA dµ = µ(A)
(17)
χA (T n x) =
lim
N →∞ N
X
0≤n<N
für fast alle x. Damit folgt
1 X
1
lim
χT −n A∩B (x) = lim
N →∞ N
N →∞ N
0≤n<N
X
χA (T n x)χB (x) = µ(A)χB (x)
0≤n<N
fast überall. Für jedes N ist der links auftretende Limes beschränkt gegen
die Funktion konstant 1. Also ergibt sich mit dem Lebesgueschen Satz von
der majorisierten Konvergenz (zitiert im Beweis von Satz 6) sofort
Z
1 X
1 X
lim
lim
µ(T −n A ∩ B) =
χT −n A∩B (x) dµ(x)
N →∞ N
N →∞ N
X
0≤n<N
0≤n<N
Z
χB (x) dµ(x) = µ(A)µ(B),
= µ(A)
X
also Formel (16).
Für die Umkehrung nehmen wir an, dass T −1 A = A gelte. Mittels A = B
folgt dann aus (16), dass
1 X
µ(A) = µ(A)2 ,
lim
N →∞ N
0≤n<N
was auf µ(A) = 0 oder µ(A) = 1 führt. Der Satz ist bewiesen. •
Es gibt viele verschiedene Beweise dieses Satzes. Einen alternativen Beweis,
der auf der Wienerschen Maximalungleichung beruht, findet man etwa in
[5].
Wir werden in den folgenden Kapiteln viele Anwendungen des Birkhoffschen Ergodensatzes geben. Zum Aufwärmen mag man die Beispiele
aus den vorangegangenen Kapiteln untersuchen.
Aufgabe 11. Man wende den Birkhoffschen Ergodensatz 11 auf die
Kreisrotation an und gebe damit einen alternativen Beweis für Korollar 5.
6. Die Ergodensätze von Birkhoff und von Neumann
41
Als Nächstes beweisen wir den Ergodensatz von John von Neumann,
Proof of the quasi-ergodic hypothesis, Nat. Proc. Acad. Sci USA 18 (1932),
70-82. Dies ist tatsächlich der erste Ergodensatz überhaupt (auch wenn sein
Ergebnis erst ein Jahr nach Birkhoff veröffentlicht wurde).
Satz 13. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu. Dann gilt für f, g ∈ L2 (X, F, µ), dass der Grenzwert
Z
1 X
f (T n x)g(x) dµ(x)
N
X
0≤n<N
für N → ∞ existiert; ist T ergodisch so gilt
Z
Z
Z
1 X
g dµ.
f dµ
f (T n x)g(x) dµ(x) =
lim
N →∞ N
X
X
X
(18)
0≤n<N
Dieser Satz heißt auch Ergodensatz im Mittel, da hier noch über X integriert
wird; die Funktion g beschreibt dabei irgendeine zulässige Gewichtsfunktion.
Speziell mit g = f ergibt sich die L2 -Konvergenz
1
lim N →∞ N
X
0≤n<N
f (T n x) − f ∗ 2 = 0
(19)
gegen eine T -invariante Grenzfunktion f ∗ ∈ L2 . Der von Neumannsche Ergodensatz ist eine funktionalanalytische Variante. Die rechte Seite ist dabei
gerade die orthogonale Projektion von f auf den Raum der T -inavrianten
fR im Hilbert-Raum L2 versehen mit dem Skalarprodukt hf, gi = kf gk22 =
f g dµ. Wir geben nur eine Skizze vom
Beweis. Betrachte den Unterraum aller T -invarianten Funktionen
I := {f ∈ L2 : f ◦ T = f }
sowie
J := {f ∈ L2 : ∃ h ∈ L2 mit f = h ◦ T − h}.
Für f1 ∈ I und f2 = h ◦ T − h ∈ J gilt offenbar
1
N
X
0≤n<N
f1 (T n x) = f1 (x)
und
1
N
X
0≤n<N
f2 (T n x) =
1
(h(T N x) − h(x))
N
für jedes N ∈ N. Mit der Cauchy-Schwarzschen Ungleichung folgt
Z
1 2
n
(h(T x) − h(x))g dµ(x) ≤ khk2 kgk2 ,
N X
N
42
ERGODENTHEORIE
was gegen Null geht für N → ∞. Können wir f gemäß f = f1 + f2 mit
solchen f1 , f2 zerlegen, so folgt also
Z
1 X
f (T n x)g(x) dµ(x)
N
0≤<N X
Z
Z
1 X
f2 (T n x)g(x) dµ(x)
f1 (x)g(x) dµ(x) +
=
N
X
X
0≤<N
und damit
Z
Z
Z
1 X
n
lim
f g dµ.
f1 g dµ =
f (T x)g(x) dµ(x) =
N →∞ N
X
X
X
0≤<N
I.A. gibt es allerdings keine solche Zerlegung von f . Tatsächlich genügt es,
für beliebig kleines ǫ > 0 Funktionen f1 ∈ I und f2 ∈ J zu finden, so dass
Z
|f − (f1 + f2 )|2 dµ < ǫ
X
gilt, also f1 + f2 die Zielfunktion f im quadratischen Mittel beliebig genau
approximieren. Ganz ähnlich wie oben im Falle f = f1 + f2 skizziert, ergibt
sich dann
Z
Z
Z
1 X
n
lim
g dµ.
f dµ
f (T x)g(x) dµ(x) =
N →∞ N
X
X
X
0≤n<N
Zum Abschluss des Beweises verbleibt also lediglich zu zeigen, dass eine
Zerlegung von L2 in eine direkte Summe L2 = I + J existiert, wobei J für
den Abschluss von J steht. Dazu nehmen wir an, dass f orthogonal auf J
steht, also hf, f2 i = 0 für alle f2 ∈ J gilt, bzw. insbesondere
Z
Z
2
|f | dµ = f ◦ T · f dµ.
X
Dann ist zu zeigen, dass f ∈ I. Hierzu berechnet man leicht
Z
|f ◦ T − f |2 dµ = 0.
X
Also gilt f ◦ T = f fast überall, d.h. f ∈ I, was den Beweis abschließt. •
Aufgabe 12. Man vervollständige die obige Berweisskizze (etwa mit Hilfe
von [10]) und schlussfolgere ausserdem (19). Man zeige ferner, dass für f ∈
Lp mit 1 ≤ p < +∞ die Konvergenz (19) gegen dieselbe Aussage bzgl. der
p-Norm mit einem Grenzwert f ∗ ∈ Lp ersetzt werden kann
Birkhoff wählte gegenüber den Vorarbeiten von von Neumann das
Konzept des Maßraumes, was i.A. zu einem allgemeineren und stärkeren
Ergodensatz führt. Wichtige Verallgemeinerungen beider Ergodensätze gelangen u.a. N. Wiener & A. Wintner, Harmonic analysis and ergodic
theory, Amer. J. Math. 63 (1941, 415-426, durch Betrachtung allgemeiner
6. Die Ergodensätze von Birkhoff und von Neumann
43
Maßräume, W. Hurewicz, Ergodic theorem without invariant measure,
Ann. Math. 45 (1944), 192-206,18 unter Einbeziehung von Gewichten, und
schließlich – noch allgemeiner – R.V. Chacon & D.S. Ornstein, A general ergodic theorem, III. Journal Math. 4 (1960), 153-160 (siehe hierzu auch
[4]).
Diese Ergodensätze wurden von Kolmogorov und Kchintchine in die
Sprache der Wahrscheinlichkeitstheorie übertragen (siehe hierzu [9, 7]). Im
R
Satz von Birkhoff ist dabei f ∗ = f dµ im Falle einer ergodischen Abbildung T als Erwartungswert von f zu verstehen. Diese Sichtweise erlaubt
weitreichende Verallgemeinerungen eines fundamentalen Gleichverteilungssatz: Das Gesetz der großen Zahlen besagt, dass zu einer gegebenen Folge
von identisch verteilten, unabhängigen Zufallsvariablen X1 , X2 , . . . auf einem
Wahrscheinlichkeitsraum mit endlichem Erwartungswert E|Xn | < +∞, im
Grenzwert
N
1 X
Xn = EX1
fast überall
lim
N →∞ N
n=1
gilt. Die Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen kann also mit der Mittelung über die möglichen Realisierungen einer
einzigen vertauscht werden — ohne ein solches Grenzverhalten wäre eine
Theorie des Zufalls unmöglich. Diese Beobachtung geht bereits zuruück auf
Daniel Bernoulli; die erste Formulierung für Zufallsvariable verdanken
wir Tschebyscheff.
Eine wichtige Anwendung besitzt der Birkhoffsche Ergodensatz in der
Wertverteilungstheorie von Zeta- und L-Funktionen. Voronin bewies eine
erstaunliche Approximationseigenschaft für die Riemannsche Zetafunktion
∞
Y
X
1 −1
1
=
1
−
ζ(s) :=
ns
ps
p
n=1
für Re s > 1, wobei das Produkt über alle Primzahlen erhoben wird (und die
Identität zwischen Produkt und Reihe eine analytsiche Version der eindeutigen Primfaktorzerlegung in Z ist); ζ(s) besitzt eine analytische Fortsetzung
nach C \{1} (in s = 1 besteht mit der harmonischen Reihe eine Singularität).
Voronin bewies: Sei 0 < r < 41 und g(s) eine nicht verschwindende stetige
Funktion definiert auf der Kreisscheibe |s| ≤ r, die im Inneren analytisch
ist, dann gibt es ein reelles τ > 0 mit
max ζ s + 43 + iτ − g(s) < ǫ;
|s|≤r
18siehe dazu auch das exzellente Internetskript von Dajani, zu finden unter
http://www.math.uu.nl/people/dajani/lecturenotes2006.pdf
44
ERGODENTHEORIE
die Menge aller τ ∈ [0, T ] mit dieser Eigenschaft hat eine positive untere
Dichte bzgl. des Lebesgue-Maßes (siehe S.M. Voronin, Theorem on the
’universality’ of the Riemann zeta-function, Izv. Akad. Nauk SSSR, Ser. Matem., 39 (1975), 475-486 (Russisch); Math. USSR Izv. 9 (1975), 443-445).
Mittlerweile kennt man viele ähnliche Beispiele universeller Zetafunktionen,
die also die Approximation einer großen Klasse von Funktion durch Translate ihrer selbst erlauben. Man vermutet, dass jede Dirichlet-Reihe mit hinreichend reichhaltiger Wertverteilung diese Eigenschaft mit der Zetafunktion teilt; in diesem Zusammenhang besteht auch die Frage: Ist Universalität
ein ergodisches Phänomen? Die modernen Beweise von solchen Universalitätstheoremen benutzen tatsächlich den Birkhoffschen Ergodensatz, erlauben aber leider nicht, Universalität als eine ergodische Eigenschaft von
Zetafunktionen zu verstehen. Interessanterweise publizierte Birkhoff auch
einen Universalitätssatz (Démonstration d’un théorème élémentaire sur les
fonctions entières, C. R. Acad. Sci. Paris 189 (1929), 473-475): Es gibt eine
ganze Funktion f (z) mit der Eigenschaft, dass es zu jeder gegebenen ganzen
Funktion g(z) eine Folge komplexer Zahlen an gibt mit
f (z + an )
−→ g(z)
n→∞
gleichmäßig auf Kompakta in C.
Obwohl das Resultat dem Voroninschen sehr ähnelt, so ist die Birkhoffsche universelle Funktion f nicht explizit bekannt; tatsächlich kennt
man nur explizite universelle Funktionen, die der Riemannschen Zetafunktion in einem gewissen Sinne ähnlich sind. Mehr zu diesem Themenkreis
findet man in J. Steuding, Value distribution of L-functions, Lecture Notes in Mathematics 1877, Springer 2007.
Abschliessend etwas Biographisches zu unseren Protagonisten (cf. ‘The MacTutor History of Mathematics archive’ http://turnbull.mcs.st-and.ac.uk/ history/): George D. Birkhoff, ∗1884 -†1944, vielleicht der bekannteste amerikanische Mathematiker seiner Zeit, lehrte und arbeitete in Harvard und Princeton über mathematische Physik, insbesondere Differentialgleichungen (bewies u.a. Poincarés ‘Last
Geometric Theorem’, ein Spezialfall des Dreikörperproblems), dem Vierfarbenproblem, und natürlich dynamischen Systemen und Ergodentheorie. Sein Ergodensatz
gab der kinematischen Gastheorie von Maxwell und Boltzmann ein rigoroses
Fundament.
“Birkhoff ’s discovery of what has come to be known as the ’ergodic theorem’ in 1931 - 32 is his most well-known contribution
to dynamics. This theory, which resolved in principle one of the
fundamental problems arising in the theory of gases and statistical mechanics, has been influential not only in dynamics itself but
also in probability theory, group theory, and functional analysis.”
(Butler)
6. Die Ergodensätze von Birkhoff und von Neumann
45
Er gewann den ersten Bocher Memorial Prize der American Mathematical Society
und engagierte sich als deren Vizepräsident. Es gibt jedoch auch eine negative
Seite: So beschrieb ihn Einstein als einer der Welt größten Antisemiten; Birkhoff
hat aus seiner einflussreichen Position heraus bei der Besetzung von Professuren
kategorisch die Einstellung von Juden verhindert. In der Ergodentheorie spielt auch
sein Sohn Garrett Birkhoff, ∗1911-†1996, eine wichtige Rolle. Im Gegensatz
zu seinem Vater, war Garrett nicht antisemitisch eingestellt. Zuerst arbeitete
er in der Gruppentheorie, während des zweiten Weltkrieges und auch später dann
mehr zu angewandten Problemen der Mathematik (insbesondere numerische lineare
Algebra). In dieser Zeit befreundete er sich mit John von Neumann.
John von Neumann (eigentlich János mit Vornamen), ∗1903 -†1957, wuchs in
einer jüdischen Familie in Budapest auf und beeindruckte seine Umwelt schon sehr
früh mit seinem phänomenalen Gedächtnis:
“At the age of six, he was able to exchange jokes with his father in
classical Greek. The Neumann family sometimes entertained guests
with demonstrations of Johnny’s ability to memorise phone books.
A guest would select a page and column of the phone book at random. Young Johnny read the column over a few times, then handed
the book back to the guest. He could answer any question put to him
(who has number such and such?) or recite names, addresses, and
numbers in order.” (Poundstone)
von Neumann studierte Mathematik (aber auch Chemie!) ab 1921 in Budapest,
Berlin und Zürich u.a. bei Weyl und Pólya; er promovierte 1926 mit einer Arbeit
über Ordinalzahlen in der Mengenlehre. Er lehrte daraufhin in Berlin, Hamburg
und Göttingen (noch zu Zeiten Hilberts). Auf Einladung von Veblen kam von
Neumann 1929 nach Princeton um über Quantenmechanik vorzutragen; kurz danach wurde er dort Professor am neugegründeten Institute for Advanced Studies
(zusammen mit Alexander, Einstein, Morse, Veblen und Weyl). Nebenbei
hatte er auch noch akademische Positionen in Deutschland inne, von denen er jedoch sofort bei der Machtergreifung durch die Nazis zurücktrat. von Neumann
ist auch bekannt durch seine Vorliebe für ausschweifende Parties. In der Mathematik beschäftigte er sich u.a. mit Logik und axiomatischer Mengenlehre, Maßtheorie,
der mathematischen Begründung der Quantenmechanik, statistischer Mechanik und
Operatortheorie. In diesem Kontext gelang ihm auch der erste Beweis eines Ergodensatzes überhaupt; auch gelang ihm mit diesen Ideen und Haars Entwicklung
der Maßtheorie für Gruppen eine Teillösung des fünften Hilbertschen Problems
(über die Charakterisierung von Lie-Gruppen). Ferner arbeitete er zur Spieltheorie (die er im Wesentlichen begründete), fastperiodischen Funktionen, nicht linearen
partiellen Differentialgleichungen, aber auch in der Begründung der Informatik (zelluläre Automaten). Während des zweiten Weltkrieges trug er in Los Alamos mit
wesentlichen Ideen am Bau der Atom- und Wasserstoffbombe bei. Er gewann viele
Preise und Ehrungen und starb recht jung an Krebs.
46
ERGODENTHEORIE
7. Die Wiederkehrsätze von Poincaré und Kac
27. Nov. 2007
Ist unser Sonnensystem stabil? Die Dynamik von zwei Körpern im
Raum unter Berücksichtigung ihrer Anziehungskräfte werden von den Keplerschen Gesetzen beschrieben. H. Poincaré gelang in seiner Arbeit: Sur
le problème des trois corps et les équations de la dynamique, Acta Math. 13
(1890), 1-270(!!!), eine Teillösung des so genannten Dreikörperproblems, d.h.
die mathematische Beschreibung des Bahnverlaufes von drei Körpern unter
dem gegenseitigen Einfluss ihrer gegenseitigen Gravitationskräfte.19 In dieser
Arbeit sowie dem monumentalen, dreibändigen Werk Les méthodes nouvelles de la mécanique céleste, Paris. Gauthier-Villars et Fils, 1892-1899, legt
H. Poincaré die Fundamente für die mathematische Ergodentheorie. Hier
findet sich u.a. auch der berühmte Wiederkehrsatz von Poincaré.20 Zuallererst benötigen wir aber noch ein wenig Vokabular. Sei T eine maßtreue
Abbildung auf einem Wahrscheinlichkeitsraum (X, F, µ) und A eine meßbare Menge. Ein Punkt x ∈ A heißt dann A-rekurrent, wenn es eine natürliche
Zahl n gibt, so dass T n x ∈ A gilt. Der Rekurrenzbegriff ist von zentraler
Bedeutung in der topologischen Dynamik. Tritt derselbe Zustand in einem
dynamischen System exakt in derselben Weise wieder ein, so sprechen wir
auch von Periodizität. Abschwächend dazu gibt es auch den von H. Bohr
entwickelten Begriff der Fastperidoizität, falls man nur auf die ein oder andere Weise in die Nähe des Zustandes gelangt. Poincarés Wiederkehrsatz
gibt sogar noch mehr als bloße Rekurrenz:
Satz 14. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0.
Dann kehrt für fast alle x ∈ A der Orbit {T n x}n unendlich oft nach A
zurück, insbesondere ist x fast sicher A-rekurrent.
19Diese
ausserordentliche Arbeit wurde vom schwedischen König Oscar II. aus Anlass
seines sechzigsten Geburtstages prämiert; allerdings verzögerte sich die Publikation um
drei Jahre (bzw. fünfzig Briefen Korrespondenz mit Phragmén und Mittag-Leffler,
die einen Fehler in der ursprünglichen Fassung gefunden hatten). Sie enthält die wesentlichen Ideen und Konzepte zur Behandlung chaotischer Bewegungen und invarianter Integrale. Die allgemeine analytische Lösung des Dreikörperproblems fand Sundman 1907.
Die Stabilität eines Dreikörpersystems beschreibt die KAM-Theorie von Kolmogorov,
Arnold & Moser aus der Periode 1954-1964.
20Über Poincaré gäbe es noch sehr viel zu berichten, z.B., dass er mit Lorentz und natürlich Einstein zu den Entdeckern der speziellen Relativitätstheorie
gehört, und natürlich seine Arbeiten zur Topologie, incl. dem ersten geknackten der sieben Millenniumsprobleme, nämlich der kürzlich von Perelman bewiesenen PoincaréVermutung. Für eine ausführliche Würdigung seines Wirkens siehe http://turnbull.mcs.stand.ac.uk/ history/.
7. Die Wiederkehrsätze von Poincaré und Kac
47
P
n
Äquivalent hierzu ist die Divergenz der unendlichen Reihe ∞
n=0 χA (T x)
für fast alle x. Diese Formulierung erinnert an die fast überall bestehende
Gleichung (17) aus dem Beweis von Satz 12. Tatsächlich folgt direkt aus
dem Birkhoffschen Ergodensatz
Z
1 X
n
χA dµ = µ(A).
χA (T x) =
lim
N →∞ N
X
0≤n<N
Die Einschränkung, dass Rekurrenz i.A. nur fast überall besteht, es also eine
Nullmenge von nicht-rekurrenten Punkten geben kann, sieht man leicht mit
Hilfe der Abbildung T x = 2x mod 1 aus dem Gelfandschen Problem ein:
Der Orbit von x = 12 ist schließlich stationär in 0. Der Poincarésche Wiederkehrsatz liefert allerdings einen Beweis der schwachen Ergodenhypothese.
Natürlich hat Poincaré seinen Satz nicht in der Sprache der Maßtheorie
verfasst und bewiesen.
Wir geben jetzt einen alternativen Beweis, der weniger schweres Geschütz
benutzt:
Beweis. Sei B die Teilmenge von A, die genau aus den nicht A-rekurrenten
x besteht, d.h.
B = {x ∈ A : T n x 6∈ A
für alle n ∈ N}.
Wir zeigen zunächst µ(B) = 0. Es gilt B ∩ T −n B = ∅ für beliebiges
n und damit T −m B ∩ T −n B = ∅ für alle m 6= n. Also sind die Mengen B, T −1 B, T −2 B, . . . paarweise disjunkt und weil T maßtreu ist, folgt
µ(B) = µ(T −n B) für alle n ∈ N. Angenommen, µ(B) > 0, dann folgte
1 = µ(X) ≥ µ
[
n∈N0
T
−n
B =
∞
X
µ(B) = +∞,
n=0
ein Widerspruch. Dies beweist bereits die A-Rekurrenz µ-fast aller x ∈ A.
Tatsächlich kehren aber sogar fast alle x unendlich oft nach A zurück, denn
bezeichnet
C = {x ∈ A : T n x ∈ A nur für endlich viele n ∈ N},
so gilt
C = {x ∈ A : T n x ∈ B für irgendein n ∈ N0 } ⊂
∞
[
T −n B.
n=0
Wegen µ(B) = 0 folgt mit der Maßtreue von T nun µ(C) = 0. Der Satz ist
bewiesen. •
Dieser Satz (und natürlich auch sein Beweis) basiert darauf, dass wir
es mit einem endlichen Maß zu tun haben. Beispielsweise ist die Abbildung
T : R → R, T (x) = x+1 maßtreu auf R bzgl. des Lebesgue-Maßes, aber für
48
ERGODENTHEORIE
jede beschränkte Menge A ⊂ R mit x ∈ A ist die Menge {n ∈ N : T n x ∈ A}
endlich, womit T keine Rekurrenz zulässt. Dies zeigt auf, dass die Behandlung maßtreuer Abbildungen in Wahrscheinlichkeitsräumen wesentlich einfacher als in allgemeinen Maßräumen ist. Ist übrigens (X, F, µ, T ) ein ergodisches System mit diskretem Zustandsraum X und Gleichverteilung µ, so
ist die Wiederkehr ganz sicher (warum?).
Aufgabe 13. Man beweise folgende metrische Version: Es gelten dieselben
Voraussetzungen wie in Satz 14 und X besitze zusätzlich die Struktur einer
mit µ verträglichen Metrik d. Dann gilt für fast alle x
lim inf d(x, T n x) = 0.
n→∞
Nun eine physikalische Interpretation des Wiederkehrsatzes: Gegeben ein
Container im R3 mit evakuierter rechter Kammer, getrennt von seiner mit
einem Gas gefüllten linken Kammer durch eine Trennwand. Nun wird die
Trennwand entfernt. Ohne die Orte und Geschwindigkeiten der Gasmoleküle
zu diesem Zeitpunkt zu kennen, ist zu erwarten, dass diese nicht in der linken
Kammer verbleiben, sondern sich so mit dem Vakuum rechts mischen, dass
– mehr oder weniger – eine Gleichverteilung entsteht.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
|
|
|
|
|
|
|
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
−→
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
◦
•
◦
•
•
•
◦
•
•
•
◦
•
•
◦
•
◦
◦
◦
◦
◦
•
•
◦
•
◦
•
◦
◦
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
•
◦
•
◦
•
•
◦
◦
•
•
◦
◦
◦
•
•
•
Entgegen unserer Intuition folgt nach dem Poincaréschens Wiederkehrsatz, dass sich nach endlicher Zeit die Ausgangskonstellation, also rechts das
Vakuum (◦), links sämtliche Gasmoleküle (•) wieder einstellt. Dies ist ein
scheinbarer Widerspruch zum zweiten Hauptsatz der Thermodynamik und
Boltzmanns Satz, demzufolge nämlich die Entropie eines abgeschlossenen
Systems nicht abnehmen kann.21 Allerdings sind diese Aussagen primär statistischer Natur und die scheinbare Inkompatibilität hebt sich auf, wenn man
die erwartete Rückkehrzeit berücksichtigt, die in allen denkbaren praktischen Fällen weit jenseits des Alters unseres Universums ist. Für eine Wahrscheinlichkeitsanalyse, solche Verletzungen des zweiten Hauptsatzes beobachten zu können, siehe D. Evans & D. Searls, The fluctuation theorem,
Advances in Physics 51 (2002), 1529-1585.
21Nach dem zweiten Hauptsatz ist übrigens eine Perpetuum mobile unmöglich.
7. Die Wiederkehrsätze von Poincaré und Kac
49
Im Kontext des Poincaréschen Wiederkehrsatzes 14 ist also die Frage
interessant, wie bald denn der Orbit {T n x} die meßbare Menge A besucht.
Für unsere weiteren Untersuchungen in diese Richtung greifen wir eine Idee
von S. Kakutani, Induced measure preserving transformations, Proc. Imp.
Acad. Tokyo 19 (1943), 635-641, auf, nämlich die Abbildung T nur dann
zu betrachten, wenn T n x sich in A befindet. Zu x ∈ A definieren wir die
Rückkehrzeit von x nach A durch
nA (x) = min{n ∈ N : T n x ∈ A}.
Als Minimum ist nA meßbar (hierbei setzen wir natürlich A als meßbar
voraus). Nach Poincarés Wiederkehrsatz 14 ist nA (x) für fast alle x endlich.
Nun entfernen wir aus A ∈ F die Nullmenge all der x, für die nA (x) =
+∞ gilt und schreiben hierfür wiederum A. Dazu erklären wir ein von µ
induziertes Maß auf der von F ∩ A erzeugten σ-Algebra vermöge
µA (B) =
µ(B)
µ(A)
für B ⊂ A
(was uns an den Begriff der bedingten Wahrscheinlichkeit aus der Stochastik erinnert) und erhalten damit einen weiteren Wahrscheinlichkeitsraum
(A, F ∩ A, µA ). Ferner bilden wir zu T die induzierte Abbildung
TA : A → A,
x 7→ T nA (x) x.
Als Nächstes beweisen wir folgenden technischen
Satz 15. Es sei A meßbar und es gelten die obigen Definitionen und Voraussetzungen. Dann ist die Abbildung TA maßtreu bzgl. µA . Ferner ist mit
T auch TA ergodisch.
Beweis. Für jedes n ∈ N sei
An = {x ∈ A : n(x) = n},
Bn = {x ∈ X \ A : T x, . . . , T n−1 x 6∈ A, T n x ∈ A}.
Dann gilt An ∩ Bm = ∅ und es folgt
T −1 A = A1 ∪ B1
und
T −1 Bn = An+1 ∪ Bn+1
für n ∈ N.
(20)
Sei jetzt C ∈ F ∩ A. Da T maßtreu bzgl. µ ist, gilt µ(C) = µ(T −1 C) und
wir haben selbiges für µA zu zeigen. Es gilt
∞
∞
[
[
−1
−1
An ∩ T −n C,
An ∩ TA C =
TA C =
n=1
n=1
wobei die Mengen An ∩
T −n C
paarweise disjunkt sind. Also folgt
∞
X
µ(An ∩ T −n C).
µ(TA−1 C) =
n=1
(21)
50
ERGODENTHEORIE
Andererseits liefert wiederholtes Anwenden von (20) unter Berücksichtigung
der Maßtreue
µ(T −1 C)
=
=
=
...
=
µ(A1 ∩ T −1 C) + µ(B1 ∩ T −1 C)
µ(A1 ∩ T −1 C) + µ(T −1 (B1 ∩ T −1 C))
µ(A1 ∩ T −1 C) + µ(A2 ∩ T −2 C) + µ(B2 ∩ T −2 C)
N
X
n=1
Nun gilt ähnlich
1≥µ
also strebt µ(Bn
∞
[
µ(An ∩ T −n C) + µ(BN ∩ T −N C).
n=1
Bn ∩ T −n C
∩ T −n C)
!
=
∞
X
n=1
µ(Bn ∩ T −n C),
mit n → ∞ gegen Null. Das impliziert via (21)
µ(C) = µ(T −1 C) =
∞
X
n=1
was auf
µ(An ∩ T −n C) = µ(TA−1 C),
µ(TA−1 C)
µ(C)
=
= µA (TA−1 C)
µ(A)
µ(A)
führt. Also ist TA maßtreu bzgl. µA .
Es verbleibt zu zeigen, dass TA die Ergodizitätseigenschaft erbt. Nehmen
wir also an, dass T ergodisch ist, dann ist für eine T -invariante Menge B ⊂ A
positiven Maßes µA (B) > 0 zu zeigen, dass µA (B) = 1 gilt. Mit der T Invarianz gilt B = TA−1 B = TA−2 B = . . . usw. Also
!
∞
[
B =
T −n B ∩ A.
µA (C) =
n=0
Ist T ergodisch, so folgt wegen 0 < µA (B) = µ(B)/µ(A) also 0 < µ(B) = 1.
Damit gilt
!
∞
[
−n
T B =1
µ
n=0
S∞
T −n B
und es folgt X = n=0
ist vollständig bewiesen. •
bzw. B = A und somit µA (B) = 1. Der Satz
Aufgabe 14. Man zeige, dass mit den obigen Notationen mit T auch TA
invertierbar ist.
Zur Beantwortung der Frage, wie schnell ein Orbit eine gegebene meßbare
Menge wieder besucht, ist es sinnvoll mit dem Ergodensatz von Birkhoff
unser bislang stärkstes Werkzeug zu Hilfe zu ziehen. Wir beweisen nun einen
7. Die Wiederkehrsätze von Poincaré und Kac
51
Erwartungswert von M. Kac, On the notion of recurrence in discrete stochastic processes, Bull. Amer. Math. Soc. 53 (1947), 1002-1010, für die erste
Wiederkehr.
Satz 16. Sei T : X → X eine maßtreue ergodische Transformation auf
einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge
mit µ(A) > 0. Dann ist n ∈ L1 und für die früheste Rückkehr nA (x) eines
Punktes x ∈ A gilt
Z
Z
1
nA (x) dµA (x) =
nA (x) dµ(x) = 1
bzw.
µ(A)
A
A
sowie
1
N →∞ N
lim
X
0≤n<N
nA (T n x) =
1
.
µ(A)
Dieser Satz heißt auch das Lemma von Kac und ist eine quantitative Version des Wiederkehrsatzes von Poincaré. Der Satz besagt, dass die erste
Wiederkehr nach ca. 1/µ(A) zu erwarten ist.
Beweis. Zu x ∈ A betrachten wir den Orbit von x unter TA , also
x, TA x, . . . , TAn x, . . . , TAN x, . . . .
P
Wir setzen t := 0≤n<N nA (TAn x), dann ist t die Zeitdauer, die der Orbit
von x unter T benötigt, die Menge A genau N mal zu besuchen, d.h.
X
χA (T n x) = N.
0≤n<t
Jetzt wenden wir den Birkhoffschen Ergodensatz 11 auf TA und T an (mit
N → ∞ bzw. t → ∞) und erhalten
Z
t
1 X
nA (TAn x) = lim P
nA (x) dµA (x) = lim
n
t→∞
N →∞ N
A
0≤n<t χA (T x)
0≤n<N
−1
Z
1
.
=
χA dµ
=
µ(A)
X
Die Berechnung des Grenzwertes erfolgt ebenso mit dem Birkhoffschen
Ergodensatz. Der Satz ist bewiesen. •
Eine schöne Beweisvariante findet man bei L. Baéz-Duarte, Sobre el promedio espacial del ciclo de Poincaré, Bull. Venezuela Acad. Sciences 24
(1964), 64-66.22
Jetzt wollen wir noch eine mengentheoretische Variante von Satz 14 beweisen:
22engl. Übersetzung unter http://front.math.ucdavis.edu/0505.5625.
4. Dez. 2007
52
ERGODENTHEORIE
Satz 17. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0.
Dann gilt µ(A ∩ T −n A) > 0 für unendlich viele n.
Beweis. Da T nach Voraussetzung maßtreu ist, haben die Mengen
A, T −1 A, T −2 A, . . . dasselbe Maß. Wären all diese Mengen paarweise disjunkt, so würde eine endliche Vereinigung derselben ein Maß größer als
µ(X) = 1 haben, ein Widerspruch. Also gibt es natürliche Zahlen m < n,
so dass µ(T −n A ∩ T −m A) > 0. Mit k = n − m und der Maßtreue von
T folgt daraus µ(A ∩ T −k A) > 0. Wiederholen wir dieses Argument für
A, T −k A, T −2k A, . . ., so ergibt sich µ(A ∩ T −n A) > 0 für unendlich viele n.
Der Satz ist bewiesen. •
Aufgabe 15. Man folgere aus dem obigen Beweis, dass bereits für ein n ≤
1 + [1/µ(A)] die Ungleichung µ(A ∩ T −n A) > 0 bestehen muss.
Dieser Satz kehrt im nächsten Kapitel wieder...
8. Arithmetische Progressionen und der Satz von van der
Waerden
Unter einer arithmetischen Progression der Länge ℓ verstehen wir eine
Folge
a, a + d, a + 2d, . . . , a + (ℓ − 1)d
mit ganzen Zahlen a, d, ℓ, wobei d, ℓ ≥ 1. Beispielsweise ist
3, 13, 23, 33, 43, 53, 63, 73
eine arithmetische Progression der Länge 8. Wir interessieren uns hier für
Mengen ganzer Zahlen, die arithmetische Progressionen beliebiger Länge
enthalten. Beispielsweise enthalten die geraden (bzw. ungeraden) Zahlen
arithmetische Progressionen beliebiger Länge. Wir fragen: Was macht eine solche Menge aus? Wie erkennt man eine Menge mit solch einer Eigenschaft? Was ist ein natürliches Kriterium für die Existenz von arithmetischen Progressionen beliebiger Länge? Sicherlich benötigen wir für deren
Existenz, dass unsere zugrundeliegende Teilmenge unendlich groß ist. Das
allein ist aber sicherlich kein Kriterium, denn etwa die Folge der Zehnerpotenzen,
1, 10, 100, 1000, . . . , 10k , . . . ,
ist ohne jede arithmetische Progression.
P. Erdös & P. Turán, On some integer sequences, J. London Math.
Society 11 (1936), 261-264, vermuteten dass jede Teilmenge {a1 , a2 , . . .} ⊂ N
8. Arithmetische Progressionen und der Satz von van der Waerden
53
mit positiver unterer Dichte, d.h.
lim sup
N →∞
1 X
1 > 0,
N
an ≤N
beliebig lange arithmetische Progressionen enthält. Das ist eine ’unwahrscheinliche’ Behauptung, da keinerlei Strukturvoraussetzungen über die
Menge der an gemacht wird, lediglich dass sie in einem gewissen Sinne groß
ist. Zur Illustration: die Menge der ungeraden ganzen Zahlen (ist hinreichend groß und) besitzt keine Tripel der Form x, y, x + y, allerdings jedoch
Tripel der Gestalt x, 12 (x + y), y, welches eine arithmetische Progression der
Länge drei ist. Tatsächlich geht es hier um eine ganz besondere Eigenschaft
von arithmetischen Progressionen! Die Vermutung von Erdös & Turán
wurde zuerst von E. Szemerédi, On sets of integers containing no k elements in arithmetic progression, Acta Arith. 27 (1975), 199-224, mit einem
komplizierten kombinatorischen Argument bewiesen. Er zeigte tatsächlich
etwas mehr: Bezeichnet rℓ (n) die maximale Anzahl einer Menge in [1, n],
die keine arithmetische Progression der Länge ℓ enthält, dann gilt
rℓ (n)
= 0.
n→∞ n
lim
(22)
Wie folgt hieraus die Vermutung von Erdös & Turán? Die Funktion rℓ (n)
ist offensichtlich subadditiv, d.h.
rℓ (m + n) ≤ rℓ (m) + rℓ (n)
für alle m, n ∈ N. Damit folgt aber
rℓ (n)
rℓ (kn)
≤
,
kn
n
womit also der Grenzwert limn→∞ rℓn(n) für jedes ℓ ∈ N existiert und endlich
ist. Die quantitative Version der Vermutung von Erdös & Turán besagt
nun, dass all diese Grenzwerte gleich Null sind, kurz die Gültigkeit von
(22). Den allerersten Schritt in diese Richtung – den Fall von arithmetischen
Progressionen der Länge drei – hatte allerdings bereits K.F. Roth (On
certain sets of integers, J. London Math. Soc. 28 (1953), 104-109) geleistet,
der r3n(n) → 0 zeigte. An dem Beispiel von Progressionen der Länge drei
kann man aber auch schön etwas über das Wachstum von r3 (n) lernen. Hier
eine Aufgabe von Szekeres zu diesem Thema:
Aufgabe 16. Jede natürliche Zahl besitzt eine eindeutige ternäre Entwicklung, d.h.
m
X
n=
ak 3k
mit ak ∈ {0, 1, 2}
k=0
54
ERGODENTHEORIE
mit einem passenden m (abhängig von n). Man zeige, dass es in der Teilmenge der natürlichen Zahlen, deren ternäre Entwicklung keine Ziffer 2 enthält,
keine arithmetische Progression der Länge drei gibt. Man folgere
r3 ( 21 (3k + 1)) ≥ 2k .
H. Furstenberg (Ergodic behavior of diagonal measures and a theorem of Szemerédi on arithmetic progressions, J. d’Analyse Math. 71 (1977),
204-256) untersuchte sehr erfolgreich das Problem der simultanen Wiederkehr von Mengen positiven Maßes. In diesem Zusammenhang bewies er eine
weitreichende Verallgemeinerung von Satz 17: Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei
A eine meßbare Menge mit µ(A) > 0. Dann gibt es für jede natürliche Zahl
k eine natürliche Zahl n, so dass
µ(A ∩ T −n A ∩ . . . ∩ T −kn A) > 0.
(23)
Dieser Satz bildet das Herz des ergodischen Beweises den Furstenberg
für Szemerédis Satz (22) gefunden hat. Wir wollen diesen Zusammenhang
kurz illustrieren, ohne aber den schwierigen Beweis tatsächlich zu geben
(wofür wir an dieser Stelle auf [10] verweisen). Wir schreiben Ω = {0, 1}Z
für den Raum aller beidseitig unendlichen {0, 1}-Folgen und interpretieren
seine Elemente als charakteristische Funktionen χA zu Mengen A ⊂ Z. Da
{0, 1} kompakt ist, ist auch Ω nach dem Satz von Tychonoff (siehe etwa
Jänich, Topologie, Springer) kompakt und wir erklären eine Metrik auf Ω
wie folgt: Gegeben zwei Folgen x = (xn ), y = (yn ), so sei
N (x, y) = min{N ∈ N : xN 6= yN oder x−N 6= y−N }
für x 6= y, und
d(x, y) =
2−N (x,y)
0
falls x 6= y,
sonst.
(24)
Man verifiziert leicht, dass d eine Metrik auf Ω ist und somit (Ω, d) ein
kompakter metrischer Raum (wir greifen dies in Satz 19 noch einmal auf).
Wir untersuchen nun die shift-Abbildung
σ : Ω → Ω, ,
ω(n) 7→ σω(n) = ω(n + 1).
(25)
Gegeben ein Element ω ∈ Ω, so sagen wir, dass 1 mit positiver BanachDichte auftritt, wenn die Menge Z := {n ∈ Z : ω(n) = 1} eine positive
Banach-Dichte besitzt, d.h.
lim sup
♯I→∞
♯Z ∩ I
> 0,
♯I
wobei I durch die Menge der Intervalle von Z läuft, was also gut in unseren
Kontext passt und ♯I für die Anzahl der ganzen Zahlen in I steht. Wir setzen
8. Arithmetische Progressionen und der Satz von van der Waerden
55
ferner zu ω ∈ Ω nun X = {σ n ω : n ∈ Z} ⊂ Ω. Dann kann man zeigen, dass
genau dann, wenn 1 mit positiver oberer Banach-Dichte auftritt, ein σinvariantes Maß µ auf X existiert mit
µ(A) > 0
für A := {ω ∈ Ω : ω(0) = 1}.
Jetzt skizzieren wir, wie man Furstenbergs simultanen Wiederkehrsatz
(23) auf die Erdös-Turan-Vermutung anwenden kann (gewisse Details
werden weiter unten in einem ähnlichen Zusammenhang detailliert wiederholt). Angenommen, M ⊂ Z besitzt eine positive obere Banach-Dichte.
Dann gibt es nach (23) also zu gegebenem k eine natürliche Zahl n und
einen Punkt ω ∈ Ω, so dass σ jn ω ∈ B ∩ X für 0 ≤ j < k. Dies impliziert
aber
ω(0) = ω(n) = . . . = ω((k − 1)n) = 1.
Weil ω ∈ X der Grenzwert von Translaten der charakteristischen Funktion
χA ist, folgt
χA (b) = χA (b + n) = . . . = χA (b + (k − 1)n) = 1
für ein b ∈ Z, so dass also A die arithmetische Progression b, b + n, . . . , b +
(k − 1)n enthält. Das ist die Essenz des Furstenbergschen Beweises des
Satzes von Szemerédi. ◦
Furstenbergs ergodischer Zugang steht für den Beginn einer beeindruckenden Erfolgsgeschichte. Den Anfang gibt wieder ein offenes Problem,
das nicht unter die Sätze von Szemerédi und Furstenberg fällt: Enthalten die Primzahlen beliebig lange arithmetische Progressionen? Zählt π(x)
die Anzahl der Primzahlen p ≤ x, so besagt der Primzahlsatz
x
für x → ∞
π(x) := ♯{p ≤ x : p prim} ∼
log x
(siehe etwa G.H. Hardy, E.M. Wright, An introduction to the theory of
numbers, Oxford Science Publications, für einen elementaren Beweis nach
Erdös und Selberg). Also haben die Primzahlen asymptotische Dichte
Null in N und somit greift Szemerédis Satz nicht. Aufbauend auf den Vorarbeiten von T. Gowers (mittels harmonischer Analysis) bewiesen im Jahr
2004 B.J. Green & T. Tao, The Primes contain arbitrarily long arithmetic
progressions, Annals of Math. (im Druck):23
Die Menge der Primzahlen enthält beliebig lange arithmetische
Progressionen.
Die zur Zeit längste bekannte Sequenz von Primzahlen in arithmetischer
Progression hat Länge 23:
56 211 383 760 397 + 44 546 738 095 860 k
für k = 0, 1, . . . , 22
23auch erhältlich unter http://arxiv.org/abs/math.NT/0404188
56
ERGODENTHEORIE
und wurde berechnet von M. Frind, P. Underwood & P. Jobling (cf.
dem oben genannten Artikel von Green & Tao). Zur Illustration der Tiefe
des Satzes von Green & Tao, versuche der geneigte Leser diesen Rekord zu
brechen! Die neuen Methoden von Green & Tao sind anwendbar auf sehr
dünne Mengen (tatsächlich benutzen sie neben Maßtheorie fast nur klassische Zahlentheorie) und man darf spekulieren, dass sich mit ihren Werkzeugen noch viele weitere Ergebnisse erzielen lassen. Besonders interessant ist in
diesem Zusammenhang die offene Primzahlzwillingsvermutung, die besagt,
dass es unendlich viele Paare von Primzahlen der Form p, p + 2 gibt, was
allerdings ohne weitere Ideen bislang noch nicht anreifbar ist. T. Gowers
und später T. Tao, A quantitative ergodic theory proof of Szemerédi’s
theorem, Electronic J. Combinatorics 13 (2006), R99, haben quantitative
Ergebnisse erzielt.24
Hier wollen wir nun einen dynamischen Beweis des verwandten Satzes von
B.L. van der Waerden (Beweis einer Baudetschen Vermutung, Nieuw
Arch. Wisk. 15 (1928), 212-216) geben:
Satz 18. Teilt man Z in endlich viele Klassen ein, so enthält mindestens
eine dieser Klassen beliebig lange arithmetische Progressionen.
Dieser Satz ist zwar nicht ganz so spektakulär wie der Satz von Green
& Tao, aber trotzdem sehr interessant. Teilt man die ganzen Zahlen in r
Klassen (disjunkte Teilmengen) auf,
Z = A1 ∪ . . . ∪ Ar ,
11. Dez. 2007
(26)
so kann man also nicht in allen Mengen Aj arithmetische Progressionen
beliebiger Länge vermeiden. Allerdings muss es nicht notwendig unendliche
arithmetische Progressionen geben (und tatsächlich ist dies i.A. auch falsch).
Die Aussage des Satzes bleibt richtig, wenn wir Z durch N ersetzen und alle
bekannten Beweise gehen auch mit dieser Einschränkung durch. Jeder Beweis dieses Satzes ist nicht zu leicht (ungeachtet dessen, welchen Zugang
man wählt). Es gibt natürlich so etwas wie eine Invarianz des Schwierigkeitsgrades mathematischer Behauptungen — ein tiefliegender Satz kann
keinen einfachen Beweis haben und verschiedene Beweise haben irgendwo
ihre schwierigen Stellen!25
Jetzt gehen wir einen dynamischen Beweis des Satzes 18 von van der
Waerden an. Wir verlassen hierzu nun kurz die Maßtheorie und widmen
uns metrischen Räumen. Im Folgenden spielt insofern auch die Topologie
24Zu den Arbeiten über lange arithmetische Progressionen wurden bislang zwei Fields-
Medaillen vergeben: T. Gowers 1998 auf dem ICM in Berlin, T. Tao 2006 auf dem
ICM in Madrid. K.F. Roth bekam 1958 in Edinburgh die Fields-Medaille, allerdings
hauptsächlich für seine Verschärfung der Approximationssätze von Thue und Siegel; J.
8. Arithmetische Progressionen und der Satz von van der Waerden
57
eine wichtige Rolle! Wir erinnern: Ein Homöomorphismus ist eine bijektive,
stetige Abbildung, deren Umkehrabbildung ebenfalls stetig ist. Das Studium
der Dynamik solcher Abbildungen nennt man topologische Dynamik.
Zunächst beweisen wir einen technischen Satz über einen Folgenraum:
Für k ≥ 2 sei Ωk = {1, 2, . . . , k}Z der Raum aller beidseitig unendlichen
Folgen ω = (ω(n))n∈Z mit Werten in {1, 2, . . . , k}. Auf Ωk definieren wir
vermöge (24) dieselbe Metrik d mit Ωk statt Ω bzw. vermöge (25) ebenso
die shift-Abbildung.
Satz 19. Mit den obigen Bezeichnungen gilt:
(i) Ωk ist ein kompakter metrischer Raum mit Metrik d.
(ii) Die shift-Abbildung σ : Ωk → Ωk ist ein Homöomorphismus.
Beweis. Zunächst verifizieren wir, dass d eine Metrik auf Ωk ist. Man sieht
sofort, dass d(x, y) stets nicht negativ ist, wobei d(x, y) = 0 genau für x = y
gilt; die Symmetrie ist ebenfalls klar. Zum Nachweis der Dreiecksungleichung
seien o.B.d.A. x, y, z ∈ Ωk paarweise verschieden, also ist
2−N (x,y) = d(x, y) ≤ d(x, z) + d(z, y) = 2−N (x,z) + 2−N (z,y)
zu verifizieren. Dies ist äquivalent zu
2N (z,y)+N (x,z) ≤ 2N (x,y)+N (z,y) + 2N (x,y)+N (x,z) = 2N (x,y) (2N (z,y) + 2N (x,z) ).
Dies ist aber offensichtlich (tatsächlich ist N (x, y) ≥ N (x, z) ≥ N (z, y) der
einzige nicht völlig triviale Fall). Die Menge {1, 2, . . . , k} ist kompakt und
nach dem Satz von Tychonoff (siehe etwa Jänich, Topologie, Springer
2000, 7. Aufl.) ist dann auch Ωk kompakt. Damit ist (i) bewiesen.
Zum Beweis von (ii) seien x, y ∈ Ωk mit x 6= y und d(x, y) = 2−N gegeben.
Dann gilt xi = yi für −N < i < N und also (σx)(i) = xi+1 = yi+1 = (σy)(i)
für −(N + 1) < i < N − 1. Also folgt
d(σx, σy) ≤ 21−N = 2 d(x, y).
Also ist σ stetig. Offensichtlich ist σ auch invertierbar und die Umkehrabbildung σ −1 ist ebenfalls stetig (mit demselben Argument wie oben für σ).
Der Satz ist bewiesen. •
Bourgain, der auch wichtige Arbeiten zu dieser Thematik verfasste, wurde 1994 auf dem
ICM in Zürich ausgezeichnet.
25Interessant ist die Geschichte dieses Beweises, aufgeschrieben von B.L. van der
Waerden, Wie der Beweis der Vermutung von Baudet gefunden wurde, Elem. Math.
9 (1954), 49-56; Nachdruck in Elem. Math. 53 (1998), 139-148, und auch ein einfacher
kombinatorischer Beweis von Lukomskaya, zu finden in dem Buch: A.Y. Khinchin,
Three pearls of number theory, Graylock Press, Baltimore 1952. Das ursprüngliche Problem
wurde vermutlich von Schur für den Fall r = 2 aufgeworfen, und nicht von Baudet,
allerdings zeigte sich — und das ist außerordentlich interessant —, dass eine allgemeinere
Sichtweise, d.h. beliebiges r, einen einfacheren Beweis zulässt.
58
ERGODENTHEORIE
Die wesentliche Beweislast unseres Beweises des Satzes von van der
Waerden ist enthalten in dem mehrdimensionalen Wiederkehrsatz von H.
Furstenberg & B. Weiss, Topological dynamics and combinatorial number theory, J. d’Analyse Math. 34 (1978), 61-85:
Satz 20. Seien T1 , . . . , TN : X → X Homöomorphismen eines kompakten
metrischen Raumes mit der Eigenschaft Ti Tj = Tj Ti für 1 ≤ i, j ≤ N .
Dann gibt es ein x ∈ X und eine bestimmt gegen +∞ divergierende Folge
natürlicher Zahlen nk , so dass
lim d(Tink x, x) = 0
k→∞
für jedes
i = 1, 2, . . . , N.
Die Vertauschbarkeit der Hintereinanderschaltung der Abbildungen Ti ist
von entscheidender Bedeutung (hierbei steht Ti Tj für Ti ◦ Tj ) und unerlässlich. Damit wird die Menge der Abbildungen eine Halbgruppe.
Wir zeigen jetzt, wie man mit Hilfe von Satz 20 den Satz 18 von van der
Waerden gewinnt:
Beweis von Satz 18. Zu einer gegebenen Partition von Z in disjunkte
Teilmengen
Z = A1 ∪ . . . ∪ Ak
assoziieren wir eine Folge ω = (ω(n))n∈Z ∈ Ωk durch die Vorschrift, dass
ω(n) = i genau für n ∈ Ai gelte. Jetzt sei σ die shift-Abbildung aus (25). Wir
betrachten den Orbit {σ n ω : n ∈ Z} und schreiben X für seinen Abschluss
bzgl. d. Wir wenden Satz 20 mit Ti = σi := σ i (= σ ◦ . . . ◦ σ) an und erhalten
für ein hinreichend kleines ǫ < 1 die Existenz eines x ∈ X und eines d ∈ N
mit
d(σid x, x) < 1
für i = 1, . . . , N.
Wegen d(x, y) = 2−N (x,y) ergibt sich eine Übereinstimmung der jeweiligen
0-ten Folgeglieder:
x0 = xid = σid x(0)
für i = 0, 1, . . . , N.
Die Sequenz {xn }0≤n≤N d muss nach Konstruktion irgendwo in der Folge ω
auftreten, etwa startend an der Stelle a, so dass also
ω(a) = x0 = xid = σid x(0) = ω(a + id)
für i = 0, 1, . . . N.
gilt. Damit ist a + id ∈ Aω(a) für i = 0, 1, . . . N und Satz 18 ist bewiesen. •
Zu jedem ℓ = N + 1 haben wir also ein j gefunden, so dass die Menge Aj
eine arithmetische Progression der Länge ℓ enthält. Es ist damit klar, dass
es mindestens ein j in einer jeden Klassenzerlegung (26) gibt, die beliebig
lange arithmetische Progressionen enthält! Der Beweis hat etliche Ideen aus
dem Ansatz von Furstenberg für Szemerédis Satz wieder aufgegriffen.
8. Arithmetische Progressionen und der Satz von van der Waerden
59
Wir beweisen Satz 20 nur für den Spezialfall, dass die Homöomorphismen
Ti von der Form Ti = T i für i = 1, . . . , N zu einem einzigen Homömorphismus T sind. Wir starten mit dem Fall N = 1, der sich auf den Birkhoffschen Wiederkehrsatz (nicht zu verwechseln mit seinem Ergodensatz)
reduziert:
Satz 21. Sei T : X → X ein Homöomorphismus kompakter metrischer
Räume X, so gibt es ein x ∈ X mit T nk x → x für eine divergente Folge
natürlicher Zahlen nk → ∞.
Beweis. Wir benutzen jetzt implizit das Zornsche Lemma26 an. Ist E die
Familie aller nicht leeren, abgeschlossenen, T -invarianten Teilmengen Z von
X, ausgerüstet mit der Halbordnung
Z1 ≤ Z2
: ⇐⇒
Z1 ⊂ Z2 ,
so existiert also zu einer jeden Kette {Zκ }κ ein maximales vollständig geordnetes Teilsystem F ⊂ E — dies ist der so genannte Hausdorffsche
Maximalkettensatz (siehe W. Rudin, Reelle und komplexe Analysis, Oldenbourg). Jetzt ist die Menge Z = ∩κ Zκ aller Zκ ∈ F selbst abgeschlossen,
T -invariant und nach Konstruktion zudem minimal, d.h. keine nicht leere,
echte abgeschlossene Teilmenge von Z ist T -invariant. Ferner ist Z nicht leer,
weil X kompakt ist. Ist nun A eine abgeschlossene T -invariante Teilmenge
von Z, dann gilt also entweder A = ∅ oder A = Z (ähnlich zum Ergodizitätsbegriff). Insbesondere folgt für den Abschluss A des Orbits {T n x : n ∈ Z}
mit irgendeinem x ∈ Z nun A = Z ⊂ X. Damit gibt es zu jedem ǫ > 0 ein
n ∈ N mit d(T n x, x) < ǫ. 27 Hieraus ergibt sich unmittelbar die Aussage
von Satz 21. •
Der Rest des Beweises von Satz 20 erfolgt per Induktion nach N , so dass
also zu zeigen verbleibt, dass, wenn die Aussage für N −1 Homöomorphismen
T1 = T, . . . TN −1 = T N −1 gilt, dann auch für N solche, also zusätzlich mit
TN = T N . Dabei dürfen wir annehmen, dass X die kleinste abgeschlossene
Menge ist, die invariant unter jedem T j mit j = 1, . . . , N ist (wieder mit dem
Maximalkettensatz von Hausdorff wie im vorigen Beweis, also X = Z).
Als Erstes zeigen wir, dass zu gegebenem ǫ > 0 und beliebigen x, x′ ∈ X
eine endliche Menge K ⊂ N existiert, so dass
d(T k x, x′ ) < ǫ
für ein
k ∈ K.
(27)
26bekannt und berüchtigt, weil es äquivalent zum ungeliebten Auswahlaxiom ist, besagt
es, dass jede nicht leere halbgeordnete Menge, in der jede Kette (d.h. jede total geordnete
Teilmenge) eine obere Schranke hat, mindestens ein maximales Element enthält. Entdeckt
wurde dies durch Zorn im Jahre 1935.
27Die T -Invarianz erlaubt hier also mehr als nur den üblichen Schluß nämlich die
Existenz eines Häufungspunktes.
60
ERGODENTHEORIE
Ist ∅ =
6 B ⊂ X offen, so gibt es wiederum mit der Minimalität von X zu
S
jedem z ∈ X ein n ∈ N mit T n z ∈ B. Also X = n∈N T −n B. Da X nach
Voraussetzung kompakt ist und die Mengen T −n B offen, folgt mit HeineBorel, dass X eine endliche Teilüberdeckung der Form
[
X=
T −k B
k∈K(B)
mit einer endlichen Teilmenge K(B) ⊂ N besitzt. Und noch einmal: Wiederum auf Grund der Kompaktheit von X gibt es endlich viele offene Kugeln
B1 , . . . , Br mit Radius 2ǫ , so dass
X=
r
[
Bj .
j=1
x, x′
Zu
∈ X gilt dann x ∈ Bi für ein i ∈ {1, . . . , r} und x′ ∈ T −k Bi für ein
S
k ∈ K(Bi ). Also gilt (27) mit K = rj=1 K(Bj ).
Als Nächstes zeigen wir, dass zu jedem ǫ > 0 und beliebigem x ∈ X, ein
y ∈ X und ein n ∈ N existieren, so dass
d(T jn y, x) < ǫ
für j = 1, . . . , N.
(28)
Da jeder Homöomorphismus T k gleichmäßig stetig auf der kompakten
Menge X ist, gibt es ein ρ > 0, so dass
d(T k x1 , T k x2 ) < ǫ
für x1 , x2 ∈ X
mit
d(x1 , x2 ) < ρ.
(29)
Tatsächlich dürfen wir dies auch gleich für alle k der endlichen(!) Teilmenge
K, definiert gemäß (27) fordern (die Gleichmäßigkeit der T k und somit die
Kompaktheit von X sind hier entscheidend). Nach Induktionsvoraussetzung
gibt es ein x′ ∈ X und ein n ∈ N, so dass
d(T jnx′ , x′ ) < ρ
für j = 1, . . . , N − 1.
Da X kompakt ist, ist die T -invariante Menge T X abgeschlossen, also gilt
T X = X (nach Konstruktion) bzw. T n X = X. Damit finden wir ein y ′ ∈ X,
so dass T n y ′ = x′ gilt und somit
d(T n y ′ , x′ ) = 0,
d(T jn y ′ , x′ ) < ρ
für j = 2, . . . , N.
Mit unserer vorangegangenen gleichmäßigen Abschätzung (29) folgt also
d(T jn+k y ′ , T k x′ ) < ǫ
für k ∈ K, j = 1, . . . , N.
Für jedes x ∈ X gibt es ein k ∈ K mit d(T k x′ , x) < ǫ, d.h. mit y := T k y ′
und der Dreiecksungleichung folgt nun
d(T jn y, x) ≤ d(T jn+k y ′ , T k x′ ) + d(T k x′ , x) < 2ǫ
für j = 1, . . . , N . Da ǫ > 0 hierbei beliebig ist, ergibt sich (28).
8. Arithmetische Progressionen und der Satz von van der Waerden
61
Wir nähern uns dem Ende des Beweises! Seien ǫ0 > 0 und x0 ∈ X beliebig
gegeben. Nach (28) existieren x1 ∈ X und n1 ∈ N, so dass
d(T
jn1
x1 , x0 ) < ǫ0
für j = 1, . . . , N.
Jetzt wählen wir ǫ1 ∈ (0, ǫ0 ) so, dass mit d(x, x1 ) < ǫ1
d(T jn1 x, x0 ) < ǫ0
für j = 1, . . . , N
gilt. Wir setzen dies induktiv fort wie folgt: Angenommen, wir haben definiert
• Punkte x1 , . . . , xk ∈ X,
• natürliche Zahlen n1 , . . . , nk , und
• eine streng monoton fallende Folge positiver reeller Zahlen
ǫ 1 , . . . , ǫk ,
mit der Eigenschaft, dass für i = 1, . . . , k − 1
d(T jni xi , xi−1 ) < ǫi−1
für j = 1, . . . , N
(30)
für j = 1, . . . , N
(31)
und, falls d(x, xi ) < ǫi , auch
d(T jni x, xi−1 ) < ǫi−1
gilt. Nach (28) gibt es dann (wie im Falle i = 0 oben) xk+1 ∈ X und
nk+1 ∈ N, so dass
d(T jnk+1 xk+1 , xk ) < ǫk
für j = 1, . . . , N ;
wir wählen nun ein ǫk+1 ∈ (0, ǫk ) so, dass d(x, xk+1 ) < ǫk+1 impliziert, dass
d(T jnk+1 x, xk ) < ǫk
für j = 1, . . . , N.
Dies sind (30) bzw. (31) mit i = k + 1. Dieser Prozess lässt sich also ad
infinitum fortführen; die Induktion ist abgeschlossen.
Jetzt nehmen wir sukzessive i = ℓ − 1, ℓ − 2, . . . und erhalten für i < ℓ
vermöge (30) bzw. (31) nun
d(T j(ni+1 +...+nℓ ) xℓ , xi ) < ǫi
für j = 1, . . . , N.
Da X kompakt ist, gibt es eine endliche Überdeckung von X durch r offene
Kugeln vom Radius ǫ0 . Damit gibt es Indizes i, ℓ mit 0 ≤ i < ℓ ≤ r, so dass
d(xi , xℓ ) < ǫ0 gilt. Mit m = ni+1 + . . . + nℓ folgt dann wegen ǫi < ǫ0 mit der
Dreiecksungleichung
d(T jm xℓ , xℓ ) ≤ d(T jmxℓ , xi ) + d(xi , xℓ ) < 2ǫ0
für j = 1, . . . , N.
Da ǫ0 > 0 beliebig war, ergibt sich die Behauptung von Satz 20 im Spezialfall
Tj = T j für j = 1, . . . , N . •
Der obige Beweis des Satzes von van der Waerden benutzt einige “unendliche” Elemente (der Satz von Tychonoff, das Lemma von Zorn und den
18. Dez. 2007
62
ERGODENTHEORIE
Satz von Heine-Borel). Tatsächlich kann man diese umgehen, in dem man
quantitativ argumentiert, allerdings führt dies letztlich auf einen kombinatorischen Beweis. Sehr lesenswert für weitere Gedanken in diese Richtung
ist der Artikel T. Tao, The ergodic and combinatorial approaches to Szemerédi’s theorem, preprint.28
Aufgabe 17. Man gebe einen Beweis von Satz 20 für den allgemeinen Fall
beliebiger kommutierender Homöomorphismen T1 , . . . , TN . (Hilfe findet man
in [10].)
Chaotische oder zufällige Strukturen können, wenn sie hinreichend groß
sind, nicht so unregelmäßig sein, dass sie nicht doch sehr reguläre Teilstrukturen enthalten. Wir haben mit den obigen Sätzen eindrucksvolle Beispiele
für diese Beobachtung am Beispiel arithmetischer Strukturen gesehen. Van
der Waerdens Satz besitzt eine Vielzahl von Anwendungen. Wir geben
ein Beispiel im Zusammenhang mit der Frage der Verteilung der Werte quadratischer Polynome modulo Eins (was uns auch in die Nähe eines späteren
Themas dieser Vorlesung bringt):
Korollar 22. Es sei α eine reelle Zahl und ǫ > 0 beliebig. Dann gibt es
unendlich viele m ∈ N gibt, so dass
kαm2 k < ǫ.
Hier steht kxk für den minimalen Abstand von x zu einer ganzen Zahl steht.
Es gibt einige wesentlich verschiedene Beweise dieser Behauptung (etwa mittels Gleichverteilungssätzen von Weyl).
Beweis. Wir zerlegen das Einheitsintervall in endlich viele kleine Intervalle
I einer Länge ≤ 2ǫ und betrachten die Mengen
{n ∈ N :
2
1
2 αn
mod 1 ∈ I}.
Eine jede solche definiert uns eine Klasse in N. Nach dem Satz von van der
Waerden enthält eine dieser Klassen eine artithmetische Progression der
Länge 3 mit beliebig großer Differenz d (durch Streichen aus arithmetischen
Progressionen größerer Länge); es gibt also ein n ∈ N mit
2 1
1
2 αn , 2 α(n
+ d)2 ,
1
2 α(n
+ 2d)2 ∈ I
für ein I. Nun besteht die Identität
2
1
2 αn
− 2 · 21 α(n + d)2 + 21 α(n + 2d)2 = αd2 .
Die linke Seite ist modulo 1 die Summe zweier Differenzen von Zahlen in I,
also summandenweise ≤ 2ǫ . Damit ergibt sich die Ungleichung für m = d;
mit ǫ → 0 ergeben sich so unendlich viele m ∈ N. •
28erhältlich unter http://uk.arxiv.org/pdf/math.CO/0604456.pdf
11. Normale Zahlen
63
Erdös setzte einen Preis von 3000 US-Dollar für den Beweis folgender
Vermutung aus:29 Ist (an ) eine streng monoton wachsende Folge natürlicher
Zahlen und
∞
X
1
n=1
an
divergent, so enthält die Folge der an arithmetische Progressionen beliebiger
Länge. Tatsächlich würde auch der Satz von Green & Tao aus der Vermutung von Erdös folgen (was vielleicht seine Tiefe andeutet), da die Reihe
über die Reziproken der Primzahlen divergiert, was Euler bereits wusste
und auf sehr eindrucksvolle Art und Weise wie folgt notierte:
1 1 1 1
+ + + + . . . = log log ∞.
2 3 5 7
Das ist tatsächlich eine einfache Folgerung aus dem Primzahlsatz (der aber
zu Eulers Zeit noch unbekannt war).
*
*
*
Nach unserem Ausflug in die topologische Dynamik geht es im nächsten
Kapitel um normale Zahlen — was soll das sein? Mit diesem Attribut sollte
man natürlich nur Zahlen belegen, die keine besonderen Merkmale besitzen,
wobei vielleicht auch noch zu fordern wäre, dass die meisten Zahlen normal
sein sollten. Kann dabei normal überhaupt ein interessanter Begriff sein?
9. Normale Zahlen
15. Jan. 2008
Sei b eine natürliche Zahl größer Eins. Jede relle Zahl x besitzt eine Darstellung bzgl. der Basis b (bzw. b-adische Entwicklung), d.h.
x=
∞
X
n=0
an b−n
mit a0 ∈ Z, an ∈ {0, 1, . . . , b − 1}
(32)
für n ∈ N; hierbei ist a0 = [x] der Ganzteil von x und die an sind die
b-adischen Ziffern von {x} ∈ [0, 1). Diese Darstellung ist nicht eindeutig,
was uns aber nicht weiter stört, da diese Nichteindeutigkeit sich nur auf
eine Nullmenge bezieht, wie wir kurz am Beispiel der Dezimaldarstellung
illustrieren:
0, 9 = 0, 99999 99999 . . . = 1, 0 = 1,
29Erdös hat tatsächlich viele solcher Preise für seine zahllosen Vermutungen ausge-
setzt, den Geldbetrag als Index für den vermeintlichen Schwierigkeitsgrad. Angeblich soll
Erdös sogar gesagt haben, dass er einen Preis von 106 Dollar aussetzen können, da er
den Beweis sowieso nicht erleben werde. Erdös verstarb 1996.
64
ERGODENTHEORIE
wobei wie üblich der Ausdruck 9 für die unendliche Folge der Ziffer 9 steht.
Besitzt nämlich x eine schließlich periodische b-adische Darstellung, so ist x
rational und damit eine Lebesgue-Nullmenge; ist die Entwicklung hingegen
nicht schließlich periodisch, so ist die Darstellung eindeutig und x irrational.
Eine reelle Zahl x heißt normal zur Basis b, falls für jedes k ∈ N jeder
Ziffernblock α1 . . . αk mit αj ∈ {0, 1, . . . , b − 1} mit derselben Häufigkeit in
der b-adischen Entwicklung von x = a0 , a1 a2 . . . auftritt. Im Falle k = 1
bedeutet dies, dass jede Ziffer gleich häufig auftritt:
1
1
♯{n ≤ N : an = α} =
für jedes α ∈ {0, 1, . . . , b − 1};
lim
N →∞ N
b
im Falle k = 2 gilt hingegen
1
1
lim
♯{n ≤ N : an = α, an+1 = α′ } = 2 für alle α, α′ ∈ {0, 1, . . . , b−1};
N →∞ N
b
im allgemeinen Falle tritt der Block α1 . . . αk mit jeweils αj ∈ {0, 1, . . . , b−1}
mit der asymptotischen Häufigkeit b−k auf. Offensichtlich genügt es hierbei, nur die b-adische Entwicklung des gebrochenen Anteils {x} ∈ [0, 1) zu
betrachten. É. Borel (Les probabilités dénombrables et leurs applications arithmétiques, Rend. Circ. Matematico di Palermo 27 (1909), 247-271)
zeigte:
Satz 23. Fast alle reellen x sind normal zu jeder Basis b.
Dieser Satz rechtfertigt also, Zahlen mit der obigen Eigenschaft tatsächlich
mit dem Attribut normal zu belegen.
Beweis. Nach obiger Bemerkung genügt es, Zahlen x ∈ [0, 1) zu untersuchen. Die Abbildung Tb : [0, 1) → [0, 1), definiert durch Tb x = bx mod 1,
ist maßtreu bzgl. des Lebesgue-Maßes λ und ergodisch (dies weist man im
allgemeinen Fall genauso nach, wie für den Spezialfall b = 2, den wir in Bsp.
2 in Kapitel 4 betrachtet haben). Sei nun x zur Basis b gegeben durch (32).
Offensichtlich gilt genau dann
α α+1
n
,
=: I(α)
Tb x ∈
b
b
für ein fest vorgegebenes α ∈ {0, 1, . . . , b − 1}, wenn an+1 = α gilt. Mit dem
Birkhoffschen Ergodensatz 11 folgt jetzt
Z
1
1 X
n
χI(α) dλ = λ(I(α)) =
χI(α) (Tb x) =
lim
N →∞ N
b
[0,1)
0≤n<N
für fast alle x. Dies liefert die Behauptung im Falle eines Blockes bestehend
aus einer Ziffer α (also k = 1). Der allgemeine Fall (k ∈ N) ergibt sich mittels
α α+1
α := α1 bk−1 + α2 bk−2 + . . . + αk
und
I(α, k) := k , k
b
b
11. Normale Zahlen
völlig analog:
1
lim
N →∞ N
X
χI(α,k) (Tbn x)
0≤n<N
=
Z
[0,1)
χI(α,k) dλ = λ(I(α, k)) =
65
1
bk
Der Satz ist bewiesen. •
Natürlich hat Borel nicht die Ergodentheorie benutzt, um seinen Satz zu
beweisen; tatsächlich arbeitete er mit dem so genannten Borel-Cantelli–
Lemma aus der Stochastik. Einen elementaren, dabei aber Borels Ideen
folgenden Beweis findet man sehr schön aufgeschrieben in I. Niven, Irrational numbers, Carus Mathematical Monographs, John Wiley & Sons 1963.
Einen von Borel verschiedenen Ansatz erdachte Alan Turing (A note
on normal numbers, Collected Works of A.M. Turing, J.L. Britton (Ed.),
North Holland, Amsterdam 1992, 117-119); seine Arbeit wurde allerdings
nie veröffentlicht, jedoch vor kurzem durch V. Becher, S. Figueira & R.
Picchi (Turing’s unpublished algorithm for normal numbers, Theor. Computer Science 377 (2007), 126-138) mathematisch vervollständigt.
Obwohl nach dem Borelschen Satz 23 fast alle reellen Zahlen normal
sind, und zwar zu jeder Basis, ist es ein ganz anderes Problem, eine gegebene reelle Zahl als normal zu auch nur einer einzigen Basis b zu outen.
Beispielsweise ist es unbekannt, ob die Kreiszahl
π = 3, 14159 26535 89793 23846 26433 83279 50288 41971 69399 37510
58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 . . .
normal bzgl. irgendeiner Basis ist.30 Insofern ist das Problem der Normalität
womöglich noch schwieriger, als das verwandte Problem, eine gegebene Zahl
als entweder algebraisch oder als transzendent nachzuweisen, wofür man
mehr Techniken kennt.31 Kanada berechnete mehr als die ersten 50 Milliarden(!) Nachkommastellen der Dezimalbruchentwicklung von π und die
zugehörige Ziffernstatistik zeigt bei allen Ziffern eine Abweichung von weniger als 0, 002% vom Erwartungswert. Für andere Zahlen
sieht es nicht besser
√
aus: So weiss man auch nicht, ob e = exp(1) oder 2 normal zu irgendeiner
Basis sind. D.H. Bailey & R.E. Crandall (On the random character of
fundamental constant expansions, Exper. Math. 10 (2001), 175-190)
haben
√
jüngst vermutet, dass jede algebraische Irrationalzahl (wie z.B. 2) normal
ist. Das selbe Schicksal der Ungewissheit teilt die fast ganze Zahl
√
exp(π 163) = 262 53741 26407 68743, 99999 99999 992 . . . ;
30Dieses Problem wird auch in dem extravaganten Spielfilm Pi von D. Aronofsky
aufgegriffen.
31So weiss man, dass π transzendent ist, was als Erster Lindemann 1882 bewies, womit
das antike Problem der Kreisquadratur unmöglich ist. Lindemann war zuvor für eine kurze
Zeit in Würzburg tätig und hat sich dort/hier 1877 habilitiert.
66
ERGODENTHEORIE
das Auftreten der erstaunlich vielen 9en kann man mit der Theorie der
imaginär-quadratischen Zahlkörper und der elliptischen j-Funktion erklären,
hilft aber hinsichtlich der Frage der Normalität überhaupt nicht weiter.
Klar ist, dass rationale Zahlen nicht normal sind, haben diese doch eine schließlich periodische b-adische Ziffernentwicklung (hier wird jetzt auch
klar, warum man bei der Definition von Normalität nicht einfach nur die Ziffernverteilung, sondern Blöcke beliebiger Länge zu Grunde legt). Ein etwas
anspruchsvolleres Beispiel für nicht normale Zahlen: Die Cantor-Menge
C entsteht aus dem Einheitsintervall [0, 1] durch sukzessives Entfernen der
mittleren Drittel. Genauer gilt
n
C = [0, 1] \
∞ [
2
[
n=0 j=1
(xnj + 3−n−1 , xnj + 2 · 3−n−1 )
mit gewissen rationalen Zahlen xnj . Bekanntlich (siehe etwa Elstrodt,
Maß- und Integrationstheorie, Springer 2007) ist die Cantor-Menge C ein
Beispiel einer überabzählbaren, perfekten Menge ohne innere Punkte; hierbei heißt eine unendliche Menge perfekt, wenn jedes Element Häufungspunkt
ist. Die Elemente von C sind genau die x ∈ [0, 1], deren ternäre Ziffernentwicklung keine 1 enthält (die mittleren Drittel wurden ja entfernt), also
x∈C
⇐⇒
x=
∞
X
n=1
an 3−n
mit an ∈ {0, 2};
die xnj aus der obigen Darstellung für C sind dabei gerade alle möglichen
Partialsummen solcher x. Es folgt unmittelbar, dass die Cantor-Menge
keine einzige zur Basis 3 normale Zahl enthält; insbesondere folgt aus Satz
23, dass C eine Lebesgue-Nullmenge ist.
Aufgabe 18. Man beweise all diese Aussagen über C, insbesondere gebe
man einen direkten Beweis, dass λ(C) = 0 gilt.
Eine Zahl kann normal zur Basis b, aber nicht normal zur Basis b′ sein.
Dies entdeckten J.W.S. Cassels (On a problem of Steinhaus about normal numbers, Colloq. Math. 7 (1959), 95-101) und W. Schmidt (On normal
numbers, Pacific J. Math. 10 (1960), 661-672), die bewiesen, dass jede normale Zahl zur Basis b genau dann normal bzgl. einer Basis b′ ist, wenn
log b/ log b′ rational ist.
Man kennt einige wenige Konstruktionsmethoden normaler Zahlen. Die
erste explizite normale Zahl konstruierte W. Sierpinski, Démonstration
élémentaire d’un théoreme de M. Borel sur les nombres absolument normaux et détermination effective d’un tel nombre, Bull. Soc. Math. France 45 (1917), 125-144. Beispielsweise gelang D.G. Champernowne (The
construction of decimals normal in the scale of ten, J. London Math. Soc.
11. Normale Zahlen
67
8 (1933), 254-260) der Nachweis der Normalität der nach ihm benannten
Champernowneschen Zahl
0, 123456789 10111213141516171819 2021 . . . .
A.H. Copeland & P. Erdös (Note on normal numbers, Bull. Amer. Math.
Soc. 52 (1946), 857-860) haben ferner gezeigt, dass die Zahl
0, 23571113171923293137414347 . . . ,
gebildet aus der Primzahlenfolge, normal bzgl. der Basis 10 ist. Das Bildungsgesetz in diesen Beispielen ist offensichtlich! Man kann unschwer jede
beliebige Nachkommastelle berechnen ohne Kenntnis über die vorangegangenen Ziffern zu besitzen. Insofern ist Normalität übrigens nicht der richtige
Begriff, um Zufallszahlen zu konstruieren.
Abbildung 9. Die ersten 1600 binären Ziffern von π und
seiner rationalen Approximation 22
7 .
Wir kehren zurück zur Zahl π. Man vermutet, dass es keine Muster in
der Dezimalentwicklung von π gibt, und deshalb ist es auch naheliegend zu
vermuten, dass π normal ist bzgl. der Dezimalentwicklung (also b = 10).
Gleiches gilt auch für jede andere b-adische Entwicklung. In dieser Richtung gelang D.H. Bailey, P.B. Borwein & S. Plouffe (On the rapid
computation of various polylogarithmic constants, Math. Comp. 66 (1997),
903-913) vor ca. zehn Jahren eine kleine Sensation. Ihre so genannte BBPFormel (nach ihren Initialien) ermöglicht die Berechnung einer beliebigen
Nachkommastelle von π im Hexadezimalsystem (also zur Basis 16) ohne
irgendeine der vorherigen Nachkommastellen wissen zu müssen:
π=
∞
X
4
2
1
1
1
−
−
−
.
16n 8n + 1 8n + 4 8n + 5 8n + 6
n=0
(33)
68
ERGODENTHEORIE
Wir geben eine kurze Beweisskizze für die BBP-Formel. Zunächst verifiziert
man
Z 1/√2 X
Z 1/√2 k−1
∞
∞
X
1
1
x
k−1+8m
− k2
x
dx = 2
dx =
·
.
8
m
1−x
16
8m + k
0
0
m=0
m=0
Damit ist (33) äquivalent zu
√
Z 1/√2 √
Z 1
y−1
4 2 − 8x3 − 4 2x4 − 8x5
π=
dx = 16
dy
8
4
3
1−x
0 y − 2y + 4y − 4
0
√
vermöge der Substitution y = 2x. Mit Hilfe von
Z x
du
arctan x =
2
0 1+u
und Partialbruchzerlegung (oder Computeralgebra) ergibt sich nun leicht
die BBP-Formel (33).
Aufgabe 19. Man vervollständige die obige Beweisskizze für (33).
Wie gewinnt man aber nun aus (33) effektiv eine beliebige Nachkommastelle von π bzgl. der Basis 16? Wir erläutern dies an einem etwas einfacheren
Beispiel (die Vereinfachung bezieht sich hier aber lediglich auf eine übersichtlichere Darstellung): Bekanntlich gilt
log 2 =
∞
X
1
,
k2k
k=1
was fast unmittelbar aus der Potenzreihenentwicklung des Logarithmus und
dem Abelschen Grenzwertsatz folgt. Die (d + 1)-te Ziffer der Binärentwicklung von log 2 ist damit gleich
)
(∞
X 2d−k
{2d log 2} =
k
k=0
(( d
) ( ∞
))
X 2d−k mod k
X 2d−k
=
+
.
k
k
k=0
k=d+1
Die Zähler 2d−k mod k in der ersten Summe lassen sich schnell mit schneller Exponentiation32 modulo k berechnen; die zweite Summe konvergiert
dabei sehr schnell, so dass hier nur einige wenige Terme tatsächlich berechnet werden müssen. Ganz ähnlich kann man unschwer beliebige Ziffern
der Hexadezimalentwicklung von π mit Hilfe der BBP-Formel (33) berechnen. Trotzdem kann man aus solchen Bildungsgesetzen — im Gegensatz zur
Champernowneschen Zahl — leider bislang keine Aussage über die Normalität bzgl. der entsprechenden Basis entlocken. Allerdings haben jüngst
32Z.B. gilt 217 = ((((22 )2 )2 )2 ) · 2 entsprechend 17 = 24 + 20 .
11. Normale Zahlen
69
D.H. Bailey & R.E. Crandall (in derselben Quelle wie oben) eine Vermutung aufgestellt, wie einer BBP-Formel, wie oben etwa für π bzw. log 2,
eine reelle Zahlenfolge zugeordnet werden kann, die genau dann modulo 1
gleichverteilt ist, wenn die zu Grunde liegende Zahl normal ist. Wir gehen
hier nicht in die recht technischen Details, sondern erwähnen nur, dass unter
Annahme dieser Vermutung dann beispielsweise π normal zur Basis 16 wäre,
wenn die Folge (xn ) definiert durch
x0 = 0,
xn = 16xn−1 +
120n2 − 89n + 16
512n4 − 1024n3 + 712n2 − 206n + 21
(34)
gleichverteilt modulo 1 ist. Dies gibt immerhin Hoffnung, dass in naher Zukunft wenigstens die Normalität von π zur Basis b = 16 (und damit auch
bzgl. b = 2, 4, 8) bewiesen werden kann. Im Falle der Binärentwicklung von
log 2 erfolgte die Normalität aus der Gleichverteilung der Folge
x0 = 0,
xn+1
1
= 2 xn +
n
mod 1.
Allerdings weiss man für keine der beiden angeführten Folgen, ob sie
tatsächlich gleichverteilt sind. Mittlerweile kennt man noch eine Vielzahl
weiterer BBP-Formeln für andere Basen bzw. andere wichtige Konstanten,
allerdings keine für π in der Dezimalentwicklung; der interessierte Leser findet hierzu unschwer eine Vielzahl von Artikeln im Internet.
Aufgabe 20. Man implementiere einen Algorithmus zur Berechnung der
Hexadezimalziffern von π mit Hilfe der BBP-Formel. Man vergleiche die
Resultate mit den Werten xn gemäß der Entwicklung (34) und erstelle eine
Ziffernstatistik.
Eine Kuriosität zum Abschluss: Ist π tatsächlich normal, sagen wir zur
Basis b = 26, und weisen wir jeder der 26 Ziffern bijektiv einen Buchstaben
unseres Alphabetes zu, etwa A 7→ 1, B 7→ 2, . . ., dann ist in der 26-adischen
Entwicklung von π auch ein Beweis der Normalität von π kodiert enthalten,
vorausgesetzt, dass diese Behauptung beweisbar ist.33
*
*
*
33Unter http://www.angio.net/pi/bigpi.cgi findet man ein kleines Programm, das einem
das erste Auftreten eines beliebigen Datums (etwa das Geburtsdatum) in der Dezimalentwicklung von π heraussucht. Mein Geburtsdatum startet an der Stelle 151897.
70
ERGODENTHEORIE
Im Folgenden wollen wir eine auf Gauss zurückgehende Fragestellung
mit Ergodentheorie behandeln. Hierbei geht es um statistische Eigenschaften von Kettenbrüchen, die sich ganz hervorragend zur rationalen Approximation von Irrationalzahlen eignen. Zunächst entwickeln wir die wichtigste
Eigenschaften dieser klassischen Objekte.
22. Jan. 2008
10. Elementare Theorie der Kettenbrüche
Kettenbrüche als Werkzeug zur Findung geeigneter rationaler (diophantischer) Approximationen an Irrationalzahlen wurden in vielen Kulturen
benutzt; eine systematische Theorie hingegen wurde aber erst durch den
Astronomen Huygens im 17. Jahrhundert gegeben (als dieser ein mechanisches Modell unseres Sonnensystems bauen wollte).
Zunächst betrachten wir den euklidischen Algorithmus: Gegeben zwei
natürliche Zahlen a und b, definiere man r−1 := a, r0 := b und wende sukzessive Division mit Rest gemäß
rn−1 = an rn + rn+1
mit
0 ≤ rn+1 < rn .
für n = 0, 1, 2 . . . an. Da die Folge der Reste rn stets kleiner wird, terminiert
der Algorithmus und auf Grund elementarer Teilbarkeitseigenschaften ist der
kleinste nichtverschwindende Rest rm der größte gemeinsame Teiler von a
und b, in Zeichen rm = ggT(a, b). Wir können den euklidischen Algorithmus
umschreiben als
rn−1
rn+1
rn−1
=
mit 0 ≤ rn+1 < rn
(35)
+
rn
rn
rn
i
h
und somit ergibt sich
für n ≤ m. Hierin ist an = rn−1
rn
a
r−1
=
= a0 +
b
r0
r0
r1
−1
= a0 +
1
−1 = . . . .
r1
a1 +
r2
Die erste Gleichung liefert den Ganzteil von ab ; jede weitere gibt bessere und
bessere Näherungen (mit den kleinst möglichen Nennern entsprechend der
Approximationsqualität).
Ein Beispiel: Das Sonnenjahr hat ungefähr
365 Tage 5 Stunde 48 Minuten und 45.8 Sekunden
≈
365 +
419
Tage.
1730
10. Elementare Theorie der Kettenbrüche
71
Unglücklicherweise ist dies keine ganze Zahl, wie also bildet man einen guten
Kalender? Mit dem euklidischen Algorithmus findet man
1730
=
419
=
54
=
...
4 · 419 + 54,
7 · 54 + 41,
1 · 41 + 13,
In Hinblick auf (35) kommt
1730
54
=4+
,
419
419
bzw.
419
1730 −1
1
= 365 +
≈ 365 + .
1730
419
4
Dies ist nichts anderes als der Julianische Kalender (nach Julius Caesar): Alle vier Jahre ein Schaltjahr. Mit dem vollständigen euklidischen
Algorithmus ergibt sich
1
419
.
= 365 +
365 +
1
1730
4+
1
7+
1
1+
1
3+
1
6+
2
1
Diese rationale Näherung ohne den letzten Bruch 2 liefert die Approximation
365 +
194
419
≈ 365 +
,
801
1730
welche unseren derzeitigen Gregorianischen Kalender (nach Papst Gregor XIII, 1582) repräsentiert: In 800 Jahren werden 6 (= 200 − 194) der
Schaltjahre ausgelassen.
Der Ausdruck
1
a0 +
1
a1 +
a2 + ...
1
+
1
am−1 +
am
heißt ein regulärer Kettenbruch (engl. regular continued fraction); man
spricht von irregulären Kettenbrüchen, wenn auch andere Zähler als Eins
zugelassen sind, was wir im Folgenden aber ausklammern. Die an nennt
man Teilnenner. Wir notieren einen solchen Kettebruch kurz mit
365 +
[a0 , a1 , a2 , . . . , am ].
72
ERGODENTHEORIE
Zunächst betrachten wir [a0 , . . . , am ] als eine Funktion in unabhängigen Variablen a0 , . . . , am . Offensichtlich gilt
[a0 ] = a0 ,
[a0 , a1 ] =
und
[a0 , a1 , a2 ] =
a1 a0 + 1
a1
a2 a1 a0 + a2 + a0
.
a2 a1 + 1
Per Induktion zeigt man
1
[a0 , a1 , . . . , an ] = a0 , a1 , . . . , an−1 +
an
(36)
und
1
= [a0 , [a1 , . . . , an ]].
[a1 , . . . , an ]
Für n ≤ m nennen wir [a0 , a1 , . . . , an ] den n-ten Näherungsbruch an
[a0 , a1 , . . . , am ]. Wir definieren desweiteren

p−1 = 1, p0 = a0 , and
pn = an pn−1 + pn−2 , 
(37)

q−1 = 0, q0 = 1, and
qn = an qn−1 + qn−2 .
[a0 , a1 , . . . , an ] = a0 +
Die Berechnung der Näherungsbrüche erfolgt leicht vermöge
Satz 24. Für 0 ≤ n ≤ m gilt
pn
= [a0 , a1 , . . . , an ].
qn
Beweis per Induktion nach n. Der Fall n = 0 ist trivial. Der Fall n = 1
folgt unmittelbar aus
[a0 , a1 ] =
p1
a1 a0 + 1
= .
a1
q1
Angenommen die Formel ist richtig für n. In Anbetracht von (36) gilt
1
[a0 , a1 , . . . , an , an+1 ] = a0 , a1 , . . . , an +
.
an+1
Mit der Rekursionsformel für die pn , qn ergibt sich dies als
1
pn−1 + pn−2
an + an+1
(an+1 an + 1)pn−1 + an+1 pn−2
=
1
(an+1 an + 1)qn−1 + an+1 qn−2
an + an+1 qn−1 + qn−2
=
an+1 pn + pn−1
pn+1
=
,
an+1 qn + qn−1
qn+1
was die Induktion abschließt. •
Als einfache Anwendung dieses Satzes folgt
10. Elementare Theorie der Kettenbrüche
73
Korollar 25. Für 1 ≤ n ≤ m gilt
pn qn−1 − pn−1 qn = (−1)n−1 ,
und
pn qn−2 − pn−2 qn = (−1)n an .
Beweis. Nach obigem gilt
pn qn−1 − pn−1 qn = (an pn−1 + pn−2 )qn−1 − pn−1 (an qn−1 + qn−2 )
= −(pn−1 qn−2 − pn−2 qn−1 ).
Wiederholen wir dieses Argument für n − 1, n − 2, . . . , 2, 1, so ergibt sich die
erste Behauptung. Ähnlich
pn qn−2 − pn−2 qn = (an pn−1 + pn−2 )qn−2 − pn−2 (an qn−1 + qn−2 )
= an (pn−1 qn−2 − pn−2 qn−1 ),
und somit folgt die zweite Behauptung aus der ersten. •
Jetzt weisen wir den Teilnennern an und somit auch dem Kettenbruch
[a0 , a1 , . . .] numerische Werte zu. Wir fordern a0 ∈ Z und an ∈ N für 1 ≤
n < m, sowie am ≥ 1. Dann zeigt Satz 24, dass pn und qn ganze Zahlen
für n < m sind, und die erste Behauptung von Korollar 25 impliziert ihre
Teilerfremdheit.
Sei jetzt α irgendeine rationale Zahl. Dann gibt es teilerfremde ganze
Zahlen a und b > 0, so dass α = ab . Es folgt aus der Variation des euklidischen
Algorithmus (35) angewandt auf r−1 = a und r0 = b, dass α als endlicher
Kettenbruch dargestellt werden kann:
rn−1
a
= [a0 , a1 , a2 , . . . , am ]
mit an =
.
b
rn
Diese Darstellung ist nicht eindeutig, da
[a0 , a1 , a2 , . . . , am ] = [a0 , a1 , a2 , . . . , am − 1, 1];
wenn wir allerdings am ≥ 2 fordern, so ist die Darstellung eindeutig.
Satz 26. Jede rationale Zahl besitzt eine Darstellung als endlicher Kettenbruch; diese Darstellung ist eindeutig, wenn der letzte Teilnenner als echt
größer Eins genommen wird.
Aufgabe 21. Man beweise die Formel
m
X
(−1)n−1
pm
= a0 +
.
qm
q
q
n
n−1
n=1
74
ERGODENTHEORIE
Wir können den Algorithmus (35) zur Berechnung der Kettenbruchentwicklung von rationalen Zahlen umschreiben als
α0 := α,
αn = [αn ] +
1
αn+1
für n = 0, 1, . . . .
(38)
Setzen wir an = [αn ], so erhalten wir α = [a0 , a1 , . . . , an , αn+1 ]. Dieser Algorithmus ist der Kettenbruchalgorithmus. Ist α rational, dann bricht die
Iteration nach endlich vielen Schritten ab und der Kettenbruchalgorithmus
ist nichts anderes als der euklidische Algorithmus in Verkleidung. Was passiert für eine Irrationalzahl? Z.B. kommt für α = π = 3.14159 . . .
a0 = [π] = 3
und
a1 = [7.06251 . . .] = 7
und
a2 = [15.99744 . . .] = 15
und
1
= 7.06251 . . . ,
π−3
1
= 15.99744 . . . ,
α2 =
7.06251 . . . − 7
1
.
α3 =
15.99744 . . . − 15
α1 =
Dies gibt π = [3, 7, 15, α3 ].
Sei jetzt α irgendeine Irrationalzahl. Dann bricht die Iteration nicht ab, da
ansonsten α ja eine Darstellung als endlicher Kettenbruch hätte und somit
rational wäre. Also liefert die Iteration für Irrationalzahlen eine unendliche
Folge endlicher Kettenbrüche:
[a0 , a1 , . . .] := lim [a0 , a1 , . . . , αm ].
m→∞
Der Grenzwert [a0 , a1 , a2 , . . .] heißt unendlicher Kettenbruch und das Erste,
was wir uns zu fragen haben, ist, ob dieser unendliche Prozess konvergent
ist, und wenn ja, ob der Grenzwert etwas mit α zu tun hat.
Satz 27. Sei α = [a0 , a1 , . . . , an , αn+1 ] irrational mit Näherungsbrüchen
Dann gilt
pn
(−1)n
α−
.
=
qn
qn (αn+1 qn + qn−1 )
Insbesondere
pn
qn .
pn
= [a0 , a1 , a2 , . . .].
n→∞ qn
α = lim
Beweis. Zunächst bemerken wir, dass alle unsere Beobachtungen über endliche Kettenbrüche sich auf unendliche Kettenbrüche übertragen - insbesondere (37) und Satz 24. Eine kurze Berechnung zeigt
α−
αn+1 pn + pn−1 pn
pn−1 qn − pn qn−1
pn
.
=
−
=
qn
αn+1 qn + qn−1
qn
qn (αn+1 qn + qn−1 )
Korollar 25 impliziert damit die erste Behauptung.
10. Elementare Theorie der Kettenbrüche
75
Wegen an+1 ≤ αn+1 folgt ferner
p
1
n
α − ≤
.
qn
qn (an+1 qn + qn−1 )
Im Falle eines irrationalen α sind die Folgen der pn und qn jeweils streng
monoton wachsend für n ≥ 2. Damit ist die Folge der Näherungsbrüche pqnn
abwechselnd größer bzw. kleiner als α; die mit geradem Index n liegen links,
die mit ungeradem Index rechts:
p0
p2
p3
p1
<
< ... < α < ... <
< .
q0
q2
q3
q1
Ist α irrational, dann terminiert der Kettenbruchalgorithmus nicht und die
Folge der Nenner qn der Näherungsbrüche ist unbeschränkt. Also folgt aus
der ersten Behauptung, dass der Abstand aufeinanderfolgender Näherungsbrüche kleiner und kleiner wird und gegen Null konvergiert. Also konvergieren die pqnn gegen den Grenzwert [a0 , a1 , . . .] und dieser Grenzwert ist gleich
α. Der Satz ist damit vollständig bewiesen. •
Man sieht leicht, dass die Kettenbruchentwicklung einer Irrationalzahl
eindeutig ist. Dies liefert eine Möglichkeit, die Menge R der reellen Zahlen
aus der Menge Q der rationalen Zahlen zu konstruieren. Ferner liefert die
Kettenbruchentwicklung liefert eine Ordnung auf der reellen Achse. Gegeben
zwei reelle Zahlen α = [a0 , . . . , an , αn+1 ] und α′ = [a0 , . . . , an , α′n+1 ] mit
denselben ersten Teilnennern, dann folgt, dass jedes α′′ , das zwischen α und
α′ liegt, eine Kettenbruchentwicklung besitzt, die mit denselben Teilnennern
startet, wie die von α und α′ , nämlich:
α′′ = [a0 , . . . , an , α′′n+1 ]
für irgendein α′′n+1 zwischen αn+1 und α′′n+1 . Dies zeigt man mit Induktion.
Satz 27 zeigt, wie wichtig Kettenbrüche in der Theorie der diophantischen
Approximation sind. Es folgt unmittelbar
Korollar 28. Sei α = [a0 , a1 , . . .] irrational mit Näherungsbrüuchen pqnn .
Dann gilt
1
p
n
α − <
.
(39)
qn an+1 qn2
Diese Aussage verschärft den klassischen Dirichletschen Approximationssatz 1: Die Folge der Näherungsbrüche approximiert α besser und besser
(denn die Teilnenner wachsen streng monoton und jeder Teilnenner ist größer
gleich Eins). Tatsächlich besagt der Approximationssatz von Hurwitz: Zu
α ∈ R \ Q gibt es unendlich viele rationale Zahlen pq mit
p
ξ − < √ 1 ;
(40)
q
5q 2
76
ERGODENTHEORIE
√
hierbei kann man 5 durch keine größere Konstante ersetzen. Für den Beweis betrachte man den am langsamsten konvergierenden Kettenbruch
√
5+1
Fn+1
= [1, 1, 1, 1, 1, . . .] = lim
,
n→∞
2
Fn
wobei Fn die n-te Fibonacci-Zahl bezeichne, rekursiv definiert durch
F0 := 0, F1 := 1
und Fn+1 = Fn + Fn−1
für n ∈ N.
Aufgabe√22. Man beweise den Hurwitzschen Approximationssatz 40; die
Schranke 5 steht dabei in direktem Zusammenhang mit [1, 1, , . . .] (Hinweis:
Man benutze zudem das Gesetz der besten Approximation, Satz 29 weiter
unten und nicht Korollar 28).
29. Jan. 2008
Als weiteres Beispiel eines unendlichen Kettenbruches betrachten wir den
Kettenbruch für π: Zunächst berechnen wir34
π = [3, 7, 15, 1, 292, 1, 1, 1, 21, 31, 14, 2, 1, 2, 2, 2, . . .].
Schneiden wir den Kettenbruch etwa vor 292 ab, so erhalten wir
355
p3
= [3, 7, 15, 1] = .
113
q3
Da a4 = 292 im Vergleich zu q3 = 113, ist dies eine exzellente Approximation:
1
355
−π <
= 0.00000 02682 . . . ,
0<
113
292 · 1132
wie bereits der chinesische Mathematiker Tsu Chung Chi ca. 500 n. Chr.
wußte. Ausserdem folgt, dass der nächste Näherungsbruch einen extrem
großen Nenner besitzt, denn q4 = a4 q3 + q2 = 292 · 113 + 106 = 33 102.
Die Folge der ersten Näherungsbrüche ist identisch mit den best möglichen
rationalen Approximationen an π:
333
1 03993
355
22
3
<
<
< ... < π < ... <
< .
1
106
33102
113
7
Diese Beobachtung ist kein Wunder wie Lagrange 1770 bewiesen hat.
Satz 29. Sei α irgendeine reelle Zahl mit Näherungsbrüchen pqnn . Ist n ≥ 2
und sind p, q natürliche Zahlen mit 0 < q ≤ qn und pq 6= pqnn , so gilt
|qn α − pn | < |qα − p|.
34Bislang kennt man kein Muster in der regulären Kettenbruchentwicklung von π,
übrigens im Gegensatz zu e = exp(1) = [2, 1, 2, 1, 1, 4, 1, . . . , 1, 2n, 1, . . .] – die Schreibweise
erklärt sich hier von selbst.
10. Elementare Theorie der Kettenbrüche
77
Dies ist das sogenannte Gesetz der besten Approximation und zeigt, dass
man grundsätzlich nicht besser mit rationalen Zahlen approximieren kann,
als durch die Näherungsbrüche der Kettenbruchentwicklung.
Beweis. Wir nehmen an, dass p und q teilerfremd sind. Wegen
|qn α − pn | < |qn−1 α − pn−1 |
genügt es die Behauptung unter der Annahme qn−1 < q ≤ qn zu zeigen; die
volle Aussage ergibt sich dann per Induktion.
Gilt q = qn , so ist p 6= pn und
p pn − ≥ 1.
q
qn qn
Allerdings gilt
1
1
p
n
α − ≤
<
qn
qn qn+1
2qn
nach Satz 27 und qn+1 ≥ 3 (denn n ≥ 2). Mit der Dreiecksungleichung folgt
α − p ≥ p − pn − α − pn > 1 > α − pn ,
q
q
qn
qn
2qn
qn was die zu beweisende Ungleichung nach Multiplikation mit q = qn liefert.
Angenommen qn−1 < q < qn . Nach Satz 25 besitzt das lineare Gleichungssystem
pn X + pn−1 Y = p
und
qn X + qn−1 Y = q
die eindeutige Lösung
x=
pqn−1 − qpn−1
= ±(pqn−1 − qpn−1 )
pn qn−1 − pn−1 qn
und
y=
pqn − qpn
= ±(pqn − qpn ).
pn qn−1 − pn−1 qn
Damit sind x und y von Null verschiedene ganze Zahlen. Offensichtlich haben
x und y unterschiedliches Vorzeichen und damit qn α − pn und qn−1 α − pn−1
ebenso. Also besitzen x(qn α − pn ) und y(qn−1 α − pn−1 ) dasselbe Vorzeichen.
Wegen
qα − p = x(qn α − pn ) + y(qn−1 α − pn−1 )
folgt
|qα − p| > |qn−1 α − pn−1 | > |qn α − pn |,
was zu zeigen war. •
78
ERGODENTHEORIE
11. Metrische Theorie der Kettenbrüche
In einem Brief an Laplace vom 30. Januar 1812 beschreibt Gauss ein
’seltsames Problem’, das ihn zu dieser Zeit bereits zwölf Jahre beschäftigte
und er bis dato nicht zu seiner Zufriedenheit lösen konnte. Hier ist sein
Problem: Sei 0 ≤ ξ ≤ 1 und mn (ξ) die Wahrscheinlichkeit, dass eine reelle
Zahl α = [0, a1 , a2 , . . . , an , αn+1 ] ∈ [0, 1) der Ungleichung
1
αn+1
<ξ
genügt. Es ist klar, dass m0 (ξ) = ξ gilt und, dass mn+1 von mn abhängt.
Man kann davon ausgehen, dass Gauss ferner die Identität
∞ X
1
)
mn+1 (ξ) =
mn ( k1 ) − mn ( k+ξ
k=1
kannte. Gauss schrieb nämlich, dass er einen einfachen Beweis für
lim mn (ξ) =
n→∞
log(1 + ξ)
log 2
(41)
hatte und, dass dieser Grenzwert die Funktionalgleichung
m(ξ) =
∞ X
1
)
m( k1 ) − m( k+ξ
k=1
mit zusätzlich m(0) = 0 und m(1) = 1 erfülle. Er konnte allerdings nicht
die Differenz mn (ξ) − log(1+ξ)
log 2 , also die Abweichung vom Grenzwert oder der
Fehlerterm der Asymptotik für große n beschreiben. Mehr als ein Jahrhundert später gelang R.O. Kusmin (Sur un problem de Gauss, Atti Congr.
Itern. Bologne 6 (1928), 83-89) die Lösung des Gaussschen Problems (incl.
eines ersten publizierten Beweises von (41)) durch die Angabe eines expliziten Fehlerterms; diesen verbesserte P. Lévy (Sur les lois de probabilité
dont dépendent les quotients complets et incomplets d’une fraction continue,
Bull. Soc. Math. France 57 (1929), 178-194) zu
mn (ξ) =
log(1 + ξ)
+ O(q n )
log 2
für ein q ∈ (0, 0.76); die schärfste Abschätzung gelang E. Wirsing (On the
theorem of Gauss-Kusmin-Lévy and a Frobenius-type theorem for function
spaces, Acta Arith. 24 (1973/74), 507-528). Dieses Ergebnis ist dann auch
in der Literatur bekannt als Satz von Gauss–Kusmin–Lévy. Mit diesem
wichtigen Ergebnis als Werkzeug gewannen Lévy und Kchintchine kurz
darauf interessante Ergebnisse über die Statistik von Kettenbrüchen, wie
11. Metrische Theorie der Kettenbrüche
79
etwa, dass für fast alle Kettenbrüche [0, a1 , a2 , . . .] die Konvergenz
! N1
log k
N
∞ Y
Y
log 2
1
an
lim
=
1+ 2
N →∞
k +k
n=1
(42)
k=1
besteht. Diese fast sichere Asymptotik für das arithmetische Mittel (und
noch einiges mehr) werden wir weiter unten mit Hilfe von Ergodentheorie
(und ohne den tiefen Satz von Gauss–Kusmin–Lévy) beweisen. Während
die Ansätze von Khintchine und Lévy ursprünglich probabilistischer Natur waren, entdeckten 1940 W. Doeblin35 und 1951 (unabhängig?) RyllNardzewski, dass ein ergodisches System hinter der schwierigen Arithmetik von Kettenbrüchen steht.
Die Kettenbruchabbildung (oder auch Gauss-Abbildung) T : [0, 1) →
[0, 1) ist definiert durch
1
mod 1
für 0 < x < 1
x
undT 0 = 0; wir hätten natürlich für 0 < x < 1 stattdessen auch T x =
1
1
1
n
x − x = { x } schreiben können. Offensichtlich gilt T x = 0 für ein n, wenn
Tx =
1
1
y
y
0
0
0
1
x
0
1
x
Abbildung 10. Die Kettenbruchabbildung: links der Graph
der Transformation, rechts der Graph der Dichte.
und nur wenn x rational ist, was sofort aus dem vorigen Kapitel folgt, denn
es gilt
T [0, a1 , a2 , . . .] = [a1 , a2 , a3 , . . .] mod 1 = [0, a2 , a3 , . . .].
(43)
35Walter Doeblin, Schüler von Lévy und Sohn des bekannten Schriftstellers Alfred
Doeblin (Berlin Alexanderplatz). Von Doeblins mathematischen Werk war bis vor kurzem nichts bekannt — sein mathematisches Testament lag fast sechzig Jahre ungeöffnet
in einer Pariser Universität; hierunter sind wichtige Entdeckungen über die Brownsche
Bewegung und stochastische Analysis, die erst Jahre später von Ito und Doob gefunden
wurden. M. Petits Roman ’Die verlorene Gleichung’ gibt einen Abriss seines kurzen Lebens, dass mit seinem Selbstmord in den Wirren des zweiten Weltkrieges tragisch endete.
80
ERGODENTHEORIE
Für unsere ergodentheoretische Maschinerie ist es von entscheidender Bedeutung ein Maß zu finden, bzgl. dessen T maßtreu ist. Dies ist im Allgemeinen –
und auch hier im Speziellen – keine einfache Aufgabe (siehe Übungsaufgabe
7).
Aufgabe 23. Man zeige, dass die Abbildung T nicht maßtreu bzgl. des
Lebesgue-Maßes ist.
Hier kommt die Lösung: Das Gauss-Maß µ ist für Lebesgue-meßbare
Mengen A definiert durch
Z
dx
1
.
µ(A) =
log 2 A 1 + x
Offensichtlich ist µ ein Wahrscheinlichkeitsmaß auf [0, 1). Als Grundlage
unseres ergodentheoretischen Ansatzes beweisen wir zunächst, dass die Kettenbruchabbildung T maßtreu bzgl. des Gauss-Maßes µ ist.
Es genügt zu zeigen, dass µ(T −1 (0, ξ)) = µ((0, ξ)) bzw.
Z
Z
dx
dx
=
T −1 (0,ξ) 1 + x
(0,ξ) 1 + x
für jedes ξ ∈ [0, 1) gilt. Dazu bemerken wir
∞ [
1
1
−1
T (0, ξ) =
,
,
n+ξ n
n=1
wobei die rechte Seite wegen 0 ≤ ξ < 1 eine disjunkte Vereinigung ist. Wegen
Z 1/n
1
1
dx
= log 1 +
− log 1 +
n
n+ξ
1/(n+ξ) 1 + x
folgt damit
Z
T −1 (0,ξ)
dx
1+x
∞ Z
X
1/n
dx
1+x
n=1 1/(n+ξ)
∞
X
1
1
− log 1 +
=
log 1 +
n
n+ξ
=
n=1
(die auftretenden Reihen sind offensichtlich konvergent). Wegen
1 + n1
1 + nξ
n+1 n+ξ
=
1 =
ξ
n n+1+ξ
1 + n+ξ
1 + n+1
können wir die Reihe in (44) ersetzen durch
∞ X
ξ
ξ
log 1 +
− log 1 +
.
n
n+1
n=1
(44)
11. Metrische Theorie der Kettenbrüche
81
Lesen wir nun alles rückwärts, so ergibt sich
Z
Z ξ
∞ Z ξ/n
X
dx
dx
dx
=
=
,
1
+
x
1
+
x
1
+x
T −1 (0,ξ)
0
n=1 ξ/(n+1)
was zu zeigen war. Die Abbildung T ist also maßtreu bzgl. µ.
Als Nächstes wollen wir zeigen, dass µ ergodisch ist, was leider etwas
aufwendiger ist. Dazu definieren wir für irgendwelche natürlichen Zahlen aj
zunächst die Mengen
∆n := ∆n (a1 , . . . , an )
:= {x = [0, a1 (x), a2 (x), . . .] ∈ [0, 1) : a1 (x) = a1 , . . . , an (x) = an }.
Diese Mengen bestehen also aus den x des Einheitsintervalls, deren Teilnenner aj (x) mit den vorgegebenen Werten aj für j = 1, . . . , n übereinstimmen,
z.B.
1
1
1
, 1 , ∆1 (n) =
,
für n ≥ 2.
∆1 (1) =
2
n+1 n
Tatsächlich sind die Mengen ∆n halboffene Intervalle mit Endpunkten
pn
pn + pn−1
und
qn
qn + qn−1
ist; dies folgt unmittelbar mit der bijektiven Abbildung
pn + tpn−1
= [0, a1 , . . . , an + t]
[0, 1] ∋ t 7→
qn + tqn−1
(und unseren Beobachtungen zu Kettenbrüchen aus dem vorigen Kapitel).
Sei D die Menge aller Intervalle ∆n (mit allen möglichen Ingredienzen
a1 , . . . , an ∈ N und allen n ∈ N). Dann geben die Endpunkte all dieser ∆n
genau die Menge der rationalen Zahlen im Einheitsintervall [0, 1). Insofern
haben wir mit D eine abzählbare Familie von halb-offenen Intervallen gefunden, die einerseits viel mit Kettenbrüchen zu tun haben, und ausserdem
die so wichtige Borelsche σ-Algebra erzeugen.
Ferner berechnet sich mit Hilfe von Korollar 25 das Lebesgue-Maß der
∆n als
1
(45)
λ(∆n (a1 , . . . , an )) =
qn (qn + qn−1 )
besitzt. Ferner folgt für 0 ≤ a < b ≤ 1, dass entweder
pn + apn−1 pn + bpn−1
,
{x : a ≤ T n x ≤ b} ∩ ∆n =
(46)
qn + aqn−1 qn + bqn−1
oder
pn + bpn−1 pn + apn−1
,
{x : a ≤ T x ≤ b} ∩ ∆n =
qn + bqn−1 qn + aqn−1
je nachdem, ob n gerade oder ungerade ist. Hierbei gilt
n
{x : a ≤ T n x ≤ b} = T −n [a, b)
,
(47)
82
ERGODENTHEORIE
und auch
λ(T −n [a, b) ∩ ∆n ) = λ([a, b))λ(∆n )
qn (qn + qn−1 )
.
(qn + aqn−1 )(qn + bqn−1 )
(48)
Diese Rechnungen sind allesamt technischer Natur und wir überlassen ihren
Nachweis dem geneigten Leser als
Aufgabe 24. Man beweise die Aussagen (45)-(48).
Mit der Monotonie einer jeden Folge der qn gilt
1
qn
qn (qn + qn−1 )
qn (qn + qn−1 )
<
<
<
< 2.
2
qn + qn−1
(qn + aqn−1 )(qn + bqn−1 )
qn2
Nun folgt aus (48) sofort für irgendein Intervall I ⊂ [0, 1) die Ungleichung
1
λ(I)λ(∆n ) < λ(T −n I ∩ ∆n ) < 2λ(I)λ(∆n ).
2
Dieselbe Ungleichungskette gilt natürlich auch, wenn wir I durch eine beliebige endliche disjunkte Vereinigung A von solchen Intervallen ersetzen:
1
λ(A)λ(∆n ) < λ(T −n A ∩ ∆n ) < 2λ(A)λ(∆n ).
(49)
2
Die Menge solcher endlicher disjunkter Vereinigungen A von Intervallen erzeugt die Borelsche σ-Algebra. Somit gilt (49) auch für jede Borel-Menge
und insbesondere für jede Lebesgue-meßbare Menge A.
Natürlich geht es uns um das Gauss-Maß µ, welches wir nun ins Spiel
bringen. Es ist
1
1
1
1
≤
<
für 0 ≤ x < 1.
2 log 2
log 2 1 + x
log 2
Durch diesen Vergleich der Dichten von λ und µ gelten für jedes Lebesguemeßbare A die Ungleichungen
1
1
λ(A) ≤ µ(A) <
λ(A).
2 log 2
log 2
(50)
Jetzt benutzen wir die obigen Ungleichungen, um uns von den auftretenden
Lebesgue-Maßen zu lösen. Es folgt aus (49) und (50)
log 2
µ(A)µ(∆n ).
(51)
4
Nun haben wir alle Vorbereitungen getroffen, den folgenden wichtigen
Satz zu beweisen:
µ(T −n A ∩ ∆n ) >
5. Feb. 2008
Satz 30. Die Kettenbruchabbildung T ist eine maß-erhaltende, ergodische
Transformation auf dem Wahrscheinlichkeitsraum ([0, 1), L, µ), wobei L die
Familie der Lebesgue-meßbaren Mengen von [0, 1) ist und µ das GaussMaß µ. Damit ist ([0, 1), L, µ, T ) ein ergodisches dynamisches System.
11. Metrische Theorie der Kettenbrüche
83
Beweis. Die Maßtreue von T bzgl. µ haben wir bereits gezeigt, so dass
also lediglich noch der Nachweis der Ergodizität zu erbringen ist. Gegeben
eine Lebesgue-Menge B positiven Maßes. Angenommen, das Komplement
von B hätte positives Maß, dann besitzt B eine Darstellung als disjunkte
Vereinigung B = E ∪ F , wobei E eine Borel-Menge vom Maß µ(E) =
µ(B) und F eine Nullmenge ist (siehe hierzu etwa Elstrodt, Maß- und
Integrationstheorie, Springer). Mit dem Komplement von B besitzt dann
auch das Komplement E c von E positives Maß. Zu jedem ǫ > 0 existiert
dann eine Menge Gǫ , die eine Darstellung als endliche disjunkte Vereinigung
unserer offenen Intervalle ∆n aus D besitzt, und eine kleine symmetrische
Differenz mit E c hat:
µ(E c ∆Gǫ ) < ǫ
(sie also gewissermaßen approximiert). Nun gilt nach (51) die Abschätzung
µ(E ∩ Gǫ ) ≥ γµ(Gǫ )
mit
γ=
log 2
µ(B).
4
Und nach Konstruktion ergibt sich damit
µ(E c ∆Gǫ ) ≥ µ(E ∩ Gǫ ) ≥ γµ(Gǫ ) ≥ γµ(E c ∩ Gǫ ) > γ(µ(E c ) − ǫ),
was auf
γ(µ(E c ) − ǫ) < µ(E c ∆Gǫ ) < ǫ
führt. Dies gibt die Ungleichung γµ(E c ) < ǫ + ǫγ, welche für hinreichend
kleines ǫ > 0 unmöglich ist. Also haben wir einen Widerspruch und somit
µ(B) = 1. Der Satz ist bewiesen. •
In unserem Beweis haben wir das Lemma von Knopp benutzt (incl. seines
Beweises): Gegeben ein Wahrscheinlichkeitsraum ([0, 1), F, λ). Ist B eine
Lebesgue-meßbare Menge und C eine Klasse von Teilintervallen von [0, 1)
mit den Eigenschaften:
• Jedes offene Teilintervall von [0, 1) ist darstellbar als eine abzählbare
Vereinigung disjunkter Elemente von C;
• für alle A ∈ C gilt λ(A ∩ B) ≥ γλ(A) mit einer positiven, von A
unabhängigen Konstanten γ.
Dann gilt λ(B) = 1. Dieses Ergodizitätskriterium ist sehr wichtig und hilfreich in der Praxis.
Aufgabe 25. Man gebe einen Beweis des Knoppschen Lemmas in seiner
vollen Allgemeinheit. (Hilfestellung gibt [3].)
Jetzt lassen wir unsere Maschinerie auf das ergodische dynamische System
([0, 1), L, µ, T ) los, um einige erstaunliche Resultate über die Statistik von
Kettenbruchentwicklungen zu gewinnen. Wir starten mit einer fast sicheren
Asymptotiken für einige Mittelwerten für die Teilnenner (wie etwa (42)). A.
84
ERGODENTHEORIE
Khintchine, Metrische Kettenbruchtheorie, Compositio Math. 1 (1935),
361-382, bewies:
Satz 31. Für fast alle x = [0, a1 , a2 , . . .] ∈ [0, 1) gilt:
(i) Die natürliche Zahl k ∈ N tritt in der Folge der Teilnenner an mit
der asymptotischen Dichte
1
1
1
lim
♯{1 ≤ n ≤ N : an = k} =
log 1 +
.
N →∞ N
log 2
k(k + 2)
(ii) Für das geometrische Mittel der Teilnenner gilt
N
1 X
an = +∞.
lim
N →∞ N
n=1
(iii) Für das arithmetische Mittel gilt
lim
N →∞
N
Y
n=1
an
! N1
=
∞ Y
k=1
1
1+
k(k + 2)
log k
log 2
.
Nach (i) tritt also der Teilnenner 1 bei fast allen x aus dem Einheitsintervall
4/3
mit einer Häufigkeit von ungefähr log
log 2 ≈ 41.50 . . . Prozent auf, hingegen
der Teilnenner 2 nur mit ungefähr
log 9/8
log 2
≈ 16.99 . . . Prozent.
1.5
3
40
1
2
20
0.5
1
0
0
1000
n
0
0
0
1000
0
n
1000
n
Abbildung 11. Die langsame Konvergenz des geometrischen Mittels (links) und des arithmetischen Mittels (Mitte)
der Teilnenner, sowie schließlich log qn /n (rechts) bei n → ∞
im Falle x = π − 3.
Beweis. Wir schreiben auch x = [0, a1 (x), a2 (x), . . .]. Dann gilt a1 (x) =
[ x1 ] = [T x] bzw. a2 (x) = a1 (T x) nach (43), woraus sich an (x) = a1 (T n−1 x)
1
, k1 ] gilt a1 (ξ) = k
für n ≥ 2 ableitet. Mit unseren Intervallen ∆k := ( k+1
genau für {ξ} ∈ ∆k und damit also
an (x) = k
⇐⇒
a1 (T n−1 x) = k
⇐⇒
T n x ∈ ∆k . (52)
11. Metrische Theorie der Kettenbrüche
85
Die Folge der Teilnenner der Kettenbruchentwicklung x
=
[0, a1 (x), a2 (x), . . .] steht also in eindeutigem Zusammenhang mit den
Bildern der Iterierten Kettenbruchabbildung T n in den Intervallen ∆k .
Jetzt geht’s los:
Für die erste Behauptung bemühen wir den Birkhoffschen Ergodensatz 11 für die nach Satz 30 ergodische Kettenbruchabbildung T mit der
charakteristischen Funktion f = χ∆k . Wir erhalten
Z 1
1 X
n
lim
χ∆k (T x) =
χ∆k dµ = µ(∆k );
N →∞ N
0
0≤n<N
dieses letzte Integral berechnet sich als
Z 1/k
dx
1
1
1
=
log 1 +
− log 1 +
log 2
k
k+1
1/(k+1) 1 + x
=
k+1k+1
1
log
,
log 2
k k+2
also schließlich der in (i) auftretende Wert. Da hier χ∆k (T n x) = 1 nach (52)
genau für an = k gilt, ist (i) bewiesen.
Die zweite Behauptung ergibt sich ähnlich mit der Treppenfunktion
R1
f (x) = [ x1 ] = a1 (x). In diesem Fall ist das Integral 0 f dµ offensichtlich
bestimmt divergent gegen Unendlich. Für (iii) betrachten wir die Treppenfunktion f (x) = log a1 (x), die wir wegen (52) auch als f (x) = log k für
x ∈ ∆k darstellen können. Es gilt
Z 1
∞
∞
X
X
log k
,
f (x) dx =
µ(∆k ) log k ≤
k2
0
k=1
was auch die Konvergenz von
R1
0
k=1
f dµ impliziert, da
1
1
dµ
=
≪1
dx
log 2 1 + x
für x ∈ [0, 1).
Der Ergodensatz 11 liefert also
1
lim
N →∞ N
X
log an =
0≤n<N
Z
1
f (x) dµ(x)
0
Das Integral rechts berechnet sich leicht als
Z 1
Z
∞
X
log k 1/k
dx
f (x) dµ(x) =
log 2 1/(k+1) 1 + x
0
k=1
∞
X
log k
1
=
log 1 +
;
log 2
k(k + 2)
k=1
86
ERGODENTHEORIE
log k
hierin wachsen die Summanden asymptotisch wie k(k+2)
bei k → ∞, womit
also die auftretende unendliche Reihe und damit auch das uneigentliche
Integral konvergieren. Für das arithmetische Mittel folgt entsprechend
! N1
Z 1
N
Y
f (x) dµ(x)
= exp
lim
an
N →∞
0
n=1
= exp
∞
X
log k
k=1
1
log 1 +
log 2
k(k + 2)
!
,
was genau den Grenzwert in (iii) gibt. Der Satz ist bewiesen. •
Für N → ∞ konvergiert der fast sichere Grenzwert für das arithmetische
Mittel gegen die so genannte Khintchine-Konstante
log k
∞ Y
log 2
√
1
N
a1 a2 · . . . · aN −→
1+
= 2.68545 20010 . . . .
k(k + 2)
k=1
Wir diskutieren kurz einige spezielle Kettenbrüche und die Mittelwerte ihrer
Teilnenner. Die Eulersche Zahl besitzt eine regelmäßige Kettenbruchentwicklung:
e = exp(1) = [2, 1, 2, 1, 1, 4, 1, 1, 6, 1, . . . , 1, 2n, 1, . . .]
(einen Beweis findet man etwa in [11]). Hier wächst das geometrische Mittel
der Teilnenner gemäß a1 +a2 +. . .+aN ∼ 91 N , während für das arithmetische
Mittel
r
2
√
2N 3
N 2
N
a1 a2 · . . . · aN ∼
N! ∼
3
3e
gilt, also im letzten Falle ein abweichendes Verhalten. Für π hingegen legen Computerexperimente ein reguläres Verhalten im Sinne des Khintchineschen Satzes nahe. Nach einem klassischen Satz von Lagrange besitzen
genau die quadratischen Irrationalzahlen (also die Nullstellen irreduzibler
quadratischer Polynome mit ganzzahligen Koeffizienten) eine schließlich periodische Kettenbruchentwicklung (siehe [11]). Als Beispiel mögen hier etwa
√
√
√
5+1
3+1
= [1, 1, 1, 1, . . .],
= [1, 2, 1, 2, . . .]
2 = [1, 2, 2, 2, . . .],
2
2
dienen. Insbesondere sind die Teilnennerfolgen quadratischer Irrationalitäten beschränkt. √
Tatsächlich weiß man nicht, ob z.B. kubische Irrationalzahlen – wie etwa 3 2 – oder algebraische Irrationalitäten höheren Grades
eine unbeschränkte Teilnennerfolge besitzen oder nicht.
Aufgabe 26. Man berechne für einige quadratische und kubische Irrationalitäten die ersten Teilnenner und versuche das Grenzwertverhalten der
11. Metrische Theorie der Kettenbrüche
87
geometrischen und arithmetischen Mittelwerte ihrer Teilnennerfolge zu prognostizieren. Ist die Konvergenz im Falle quadratischer Irrationalitäten sicher? Wenn ja, versuche man dies zu beweisen und den Grenzwert exakt zu
bestimmen.
Der Birkhoffsche Ergodensatz erlaubt viele weitere fast sichere Asymptotiken für die Teilnennerfolgen.
Aufgabe 27. Man beweise: Für fast alle x = [0, a1 , a2 , . . .] gilt
lim
N →∞ 1
a1
N
+ ... +
1
aN
= 1.74540 . . . .
Als Nächstes untersuchen wir die Folge der Nenner qn der Näherungsbrüche. Insbesondere ihr Wachstumsverhalten qn → ∞ erlaubt einige interessante Aussagen über das Approximationsverhalten. Hier gilt nach P.
Lévy (Sur les lois de probabilité dont dépendent les quotients complets
et incomplets d’une fraction continue, Bull. Soc. Math. France 57 (1929),
178-194):
Satz 32. Es bezeichne
x ∈ [0, 1) gilt
pn (x)
qn (x)
den n-ten Näherungsbruch an x. Für fast alle
1
π2
log qn (x) =
n→∞ n
12 log 2
lim
und
−π 2
p
1
n
.
lim log x − =
n→∞ n
qn
6 log 2
Beweis. Wegen
pm (x)
qm (x)
=
1
1
=
p
m−1 (T x)
a1 + [0, a2 , a3 , . . . , am ]
a1 + qm−1
(T x)
=
qm−1 (T x)
,
pm−1 (T x) + a1 qm−1 (T x)
(53)
(54)
folgt pm (x) = qm−1 (T x) für m ∈ N (denn die Näherungsbrüche sind als
beste Approximationen gekürzt). Damit gilt
1
qn (x)
=
=
pn (x)
1
p2 (T n−2 x)
· ... ·
qn (x) qn−1 (T x)
q1 (T n−1 x)
p1 (T n−1 x)
pn (x) pn−1 (T x)
· ... ·
.
qn (x) qn−1 (T x)
q1 (T n−1 x)
Logarithmieren liefert also
− log qn (x) =
X
0≤j<n
log
pn−j (T j x)
.
qn−j (T j x)
88
ERGODENTHEORIE
Nun approximieren die
pn (x)
qn (x)
die Zahl x und deshalb schreiben wir
1
1 X
1
log(T j x) + Rn (x)
− log qn (x) =
n
n
n
(55)
0≤j<n
mit einem Fehlerterm
Rn (x) =
X 0≤j<n
pn−j (T j x)
j
− log(T x) .
log
qn−j (T j x)
Zunächst schätzen wir den Fehler Rn (x) ab. Wir erinnern uns, dass x in
p +pk−1
einem Intervall ∆k mit Endpunkten pqkk und qkk +qk−1
liegt. Insbesondere folgt
mit Satz 27 und dem Mittelwertsatz der Integralrechnung bei geradem k,
dass
Z x
pk
du
0 < log x − log
=
qk
pk /qk u
qk
1
1
pk 1
≤
<
=
x−
qk ξ
qk (qk + qk−1 ) pk
qk
mit einem ξ ∈ ( pqkk , x). Ähnlich zeigt sich
pk
1
< log x − log
qk
qk
für ungerades k. Bezeichnet wie üblich Fk die k-te Fibonacci-Zahl (siehe
letztes Kapitel), so folgt mit deren rekursiven Definition die Abschätzung
qk (x)
√ ≥ Fk (wobei Gleichheit genau im Falle des goldenen Schnittes x =
1
5 + 1) auftritt), so folgt
(
2
n
X
1
,
|Rn (x)| ≤
Fk
k=1
was sich mit Hilfe der Binetschen Formel36
1
Fk = √ (Gk − (−1)k G−k )
5
mit
√
5+1
G :=
2
(56)
leicht gegen eine konvergente geometrische Reihe abschätzen lässt:
|Rn (x)| <
Insbesondere folgt
∞
∞
X
X
1
G−k < +∞.
<
Fk
k=1
k=1
1
Rn (x) = 0
n
für alle x. Damit kann der Fehlerterm Rn (x) in (55) vernachlässigt werden.
lim
n→∞
36Der Beweis derselben ist eine einfache Induktion.
11. Metrische Theorie der Kettenbrüche
89
Existiert also der Grenzwert
n
1X
log(T n−j x),
n→∞ n
lim
(57)
j=1
so auch − limn→∞ n1 log qn (x) und beide Werte stimmen überein. Der Ausdruck (57) lässt sich mit dem Birkhoffschen Ergodensatz auswerten und
wir erhalten für fast alle x
Z 1
n
log x
π2
1X
log(T j x) =
dx = −
(58)
lim
n→∞ n
6
0 1+x
j=1
Es verbleibt also lediglich noch das auftretende Integral zu berechnen.
Hierzu benötigen wir zwei wichtige Funktionen. Einerseits die Riemannsche Zetafunktion, gegeben durch die für s > 1 konvergente ReihenP
1
darstellung ζ(s) = ∞
n=1 ns . Tatsächlich gilt (wie man leicht sieht) ferner
die Darstellung
∞
X
(−1)n
ζ(s) = (1 − 21−s )
ns
n=1
für alle komplexen s mit positivem Realteil, abgesehen von s = 1, denn für
diesen Wert besitzt ζ(s) einen einfachen Pol (harmonische Reihe).37 Zweitens
benötigen wir die Gamma-Funktion, für komplexe s mit positivem Realteil
definiert durch das Integral
Z ∞
y s−1 exp(−y) dy.
Γ(s) =
0
Dann gilt
n
bzw.
∞
X
(−1)n
n=1
ns
−s
Γ(s) =
Γ(s) =
Z
Z
∞
∞
us−1 exp(−nu) du
0
∞
X
us−1
0
!
(−1)n exp(−nu)
n=1
du;
hier ist das Vertauschen von Summation und Integration auf Grund der
gleichmässigen Konvergenz erlaubt. Mit u = − log x und
∞
X
(−1)n exp(−nu) =
(−1)n xn = x
n=1
n=1
folgt
∞
X
1−s
(1 − 2
)ζ(s)Γ(s) =
Z
1
0
(− log x)s
1
1+x
dx
1+x
37Tatsächlich ist dieser einzige Pol für die Zahlentheorie sehr wichtig und letztlich
verantwortlich für die Asymptotik im Primzahlsatz verantwortlich.
90
ERGODENTHEORIE
und insbesondere
Z
1
dx
1
= ζ(2).
1+x
2
0
Weiter mit Eulers berühmter Formel
(− log x)
ζ(2) = 1 +
1
1
π2
1
+
+
+
.
.
.
=
22 32 42
6
(59)
(dies zeigt man z.B. mit der Produktentwicklung des Sinus oder FourierAnalysis) ergibt sich jetzt (58). Damit folgt (53) nun aus (55).
Nach Satz 27 ist
1
1
pn < x − <
.
2qn qn+1
qn
qn qn+1
Mit dem bereits Bewiesenen in Gestalt von (53) ergibt sich nun auch leicht
(54). Der Satz ist bewiesen. •
Aufgabe 28. Man schließe alle Lücken, wie etwa die Binetsche Formel
(56) oder Eulers Formel (59) über die Summe der Reziproken Quadrate
(oder auch der Schluss von (53) auf (54)).
Tatsächlich weiss man einiges Interessantes über den Lëvysche Satz hinaus. W. Philipp & O.P. Stackelberg, Zwei Gesetze für Kettenbrüche,
Math. Ann. 181 (1969), 152-156, zeigten genauer
2
| log qn (x) − 12nπ
log 2 |
=1
lim sup p
n→∞
2σ 2 n log log n
für fast alle x ∈ [0, 1), wobei
2
Z 1 1
dx
nπ 2
2
σ = lim
log qn (x) −
n→∞ n 0
12 log 2
(log 2)(1 + x)
eine positive Konstante ist. Ein weiteres Resultat von W. Philipp (Mixing sequences of random variables and probabilistic number theory, Memoirs
Amer. Math. Soc. 114, 1971) zeigt eine Gausssche Normalverteilung auf:
Mit
Z 1
dx
π2
1
2
σ := lim
log qN (x) − N
N →∞ N log 2 0
12 log 2 1 + x
besteht der Grenzwert
2
log qN (x) − N 12πlog 2
√
<z
lim µ x ∈ [0, 1] :
N →∞
σ N
!
1
=√
2π
Z
z
−∞
exp(− 12 u2 ) du,
wobei µ irgendein bzgl. des Lebesgue-Maßes absolut stetiges Wahrscheinlichkeitsmaß ist. In diesem Zusammenhang ist dann auch das folgende Gesetz
13. Worüber wir nicht gesprochen haben...
91
vom iterierten Logarithmus nicht weiter verwunderlich: Für fast alle x
π2
12 log 2 log qN (x) − N σ√N lim sup p
= 1.
N →∞
2σ 2 N log log N
Erwähnenswert sind auch die Untersuchungen von C. Faivre (Distribution of Lévy constants for quadratic numbers, Acta Arith. 61 (1992), 13-34)
für quadratische Irrationalzahlen x. In diesem Fall konvergiert die Folge
1
n log qn (x) stets (was mit der speziellen, nämlich schließlich periodischen
Kettenbruchentwicklung zusammenhängt) und ihr Grenzwert β(x) ist die
so genannte Lévy-Konstante. Hier stellen sich Fragen wie: Was für Grenzwerte kommen für β(x) in Frage?
In unseren metrischen Untersuchungen haben wir die Gausssche Grenzwertformel (41) gar nicht benötigt; sie übersetzt sich zu
lim λ(T −n [0, ξ]) = µ([0, ξ]).
n→∞
Wer sich trotzdem für den Beweis interessiert, sei auf die Monographie A.M.
Rockett, P. Szüsz, Continued fractions, World Scientific 1992, verwiesen,
wo sogar der Satz von Gauss–Kusmin–Lévy mit explizitem Fehlerterm
bewiesen wird. Weitere tiefe Ergebnisse zur metrischen Kettenbruchtheorie
(wie etwa der Beweis der Doeblin–Lenstra–Vermutung durch Bosma,
Jager und Wiedijk) findet man in [3]. Hier finden sich auch andere Erscheiningsformen von Kettenbrüchen mit ihrer eigenen Ergodentheorie. Das
Buch F. Schweiger, Multidimensional continued fractions, Oxford 2000,
behandelt höherdimensionale Kettenbrüche.
12. Worüber wir nicht gesprochen haben...
Was kam zu kurz? Vieles! Fangen wir mit der Liste unserer Auslassungen
gleich mit unserem letzten Thema, der metrischen diophantischen Approximationstheorie. Es sei hti das Minimum einer reellen Zahl zur nächsten
ganzen Zahl, also hti = min{|t − z| : z ∈ Z}. Die Theorie der Kettenbrüche
lehrt, dass zu jedem x ∈ R eine Folge (qm ) natürlicher Zahlen mit qm → ∞
und qm hqm xi < 1 existiert. Littlewood vermutete, dass
lim inf nhnxihnyi = 0
n→∞
für alle
x, y ∈ R.
M. Einsiedler, A. Katok & E. Lindenstrauss (Invariant measures
and the set of exceptions to Littlewood’s conjecture, Ann. of Math. 164
(2005), 513-560) bewiesen, dass dies tatsächlich fast immer der Fall ist:
Die Hausdorff-Dimension der Menge der Paare (x, y) ∈ R2 mit dieser Eigenschaft ist gleich Null. Auch zu kurz gekommen sind die Anwendungen
92
ERGODENTHEORIE
der Ergodentheorie auf diophantische Gleichungen, also (in ihrer einfachsten Form) polynomielle Gleichungen über Q, di in ganzen oder rationalen
Zahlen zu lösen sind. Margulis bewies 1986 die Oppenheim-Vermutung
(1929): Sei Q eine indefinite quadratische Form in n ≥ 3 Variablen, die kein
Vielfaches einer rationalen Form ist, dann ist Q(Zn ) dicht in R.
Unsere Akzente haben wir in arithmetischen Anwendungen gesetzt. Viele
schöne und aktuelle Themen der Zahlentheorie, die hier trotzdem zu kurz
oder gar nicht behandelt wurden, werden in der Sammlung Equidistribution
in Number Theory, an introduction, herausgegeben von A. Granville und
Z. Rudnick (Nato Science Series, vol. 237, Springer 2005), behandelt, etwa
Quantum-Gleichverteilung, Verteilung von Punkten auf Varietäten, . . ..
Vieles, wenn nicht gar alles, was wir gemacht haben, lässt sich auch in der
Sprache der Stochastik formulieren. Zum Beispiel wird hier Ergodizität auch
in der Zeitreihenanalyse benutzt. Für die statistische Inferenz mit Zeitreihen müssen Annahmen getroffen werden (weil in der Praxis oft nur eine
Realisierung des die Zeitreihe generierenden Prozesses vorliegt). Die Annahme der Ergodizität bedeutet dann, dass Stichprobenmomente, die aus einer
endlichen Zeitreihe gewonnen werden, für T → ∞ gegen die Momente der
Grundgesamtheit konvergieren. Diese Eigenschaft lässt sich bei abhängigen
Zufallsvariablen nicht empirisch nachweisen und muss daher unterstellt werden.
Ein weiteres, nicht weniger spannendes Thema der Stochastik sind Irrfahrten und zufällige Prozesse. Tatsächlich kann man die Rekurrenz von
Irrfahrten ergodentheoretisch behandeln (siehe etwa [9]), was in Hinblick
auf den Poincaréschen Rückkehrsatz vielleicht gar nicht so verwunderlich
ist. Irrfahrten auf dem Kreis werden in [7] behandelt. Ein enger Zusammenhang besteht natürlicha uch zwischen Markov-Ketten und diskreten
dynamischen Systemen (insbesondere symbolischer Dynamik).
Untersuchungen über ergodische Flüsse auf Mannigfaltigkeiten sind seit
den fundamentalen Arbeiten von E. Hopf (Statistik der geodätischen Linien in Mannigfaltigkeiten negativer Krümmung, Ber. Verh. Sächs. Akad.
Wiss. Leipzig 91 (1939), 261-304) und Asonov Gegenstand zahlreicher Arbeiten. Insbesondere strukturelle Eigenschaften der SL2 (R) bzw. allgemeiner
Riemannsche Flächen negativer Krümmung spielen hier eine wichtige Rolle.
Und schließlich haben wir überhaupt nicht über die wichtigen Anwendungen der Ergodentheorie für die Informationstheorie gesprochen. Dieses
Gebiet hat sich seit seiner Einführung durch Shannon im Jahre 1949 als
wegweisend für Anwendungen der Mathematik wie Codierungstheorie u.ä.
erwiesen. Wir wollen hier nur den zentralen Begriff der Entropie erwähnt
– ohne aber überhaupt seine Definition wiederzugeben. Die Entropie der
13. Worüber wir nicht gesprochen haben...
Kettenbruchabbildung T aus dem letzten Kapitel ist
2
qn+1
π2
lim
= exp
= 10.731 . . . ,
2
n→∞ qn
6 log 2
93
2
wobei wir im letzten Schritt Satz 32 in der Form qn ∼ exp( 12πlogn 2 ) verwendet haben. Dieser Entropiewert ist knapp größer als Zehn, die Entropie
der Dezimalentwicklung, womit sich Kettenbrüche als Informationsträger
als ein wenig effizienter als Dezimalbrüche erweisen. Dieses Schlusswort ist
natürlich unbefriedigend, da wir hier nicht wirklich begründen, was Entropie tatsächlich ist, macht aber vielleicht neugierig. Das Semester ist zu Ende
und es verbleibt uns an dieser Stelle nichts weiter, als auf [3, 4] zu verweisen.
Inhaltsverzeichnis
Literatur
1
1. Motivation: Benford und Billiard
2
2. Klassische diophantische Approximationssätze
4
3. Gleichverteilung modulo Eins und die Sätze von Weyl
7
4. Maßtreue Abbildungen
15
5. Ergodizität und Mischen
29
6. Die Ergodensätze von Birkhoff und von Neumann
34
7. Die Wiederkehrsätze von Poincaré und Kac
46
8. Arithmetische Progressionen und der Satz von van der Waerden 52
9. Normale Zahlen
63
10. Elementare Theorie der Kettenbrüche
70
11. Metrische Theorie der Kettenbrüche
78
12. Worüber wir nicht gesprochen haben...
91