ergodentheorie - Institut für Mathematik

Werbung
ERGODENTHEORIE
JÖRN STEUDING
Die Ergodentheorie studiert das Langzeitverhalten dynamischer Systeme
mit maß- bzw. wahrscheinlichkeitstheoretischen Methoden. Aus dem Griechischen übersetzt bedeuten ergon und odon nichts anderes als Arbeit und
Weg. Die Ursprünge der Ergodentheorie liegen in der Himmelsmechanik,
insbesondere in den Arbeiten von Boltzmann und später Poincaré. In
dieser Vorlesung beweisen wir die fundamentalen Sätze der Ergodentheorie
(Poincarés Wiederkehrsatz, Birkhoffs Ergodensatz) und behandeln eine
Vielzahl von meist zahlentheoretischen Anwendungen (Billiard, Benfords
Gesetz, Gleichverteilung, metrische Theorie der Kettenbrüche, rekurrente
Irrfahrten). Im Wesentlichen folgen wir den Büchern von Dajani & Kraaikamp bzw. Coppel [3, 2] sowie der Vorlesung von Einsiedler & Ward
[5]. Die Monographien [8, 10] enthalten weiteres Material und ihre Lektüre
ist empfehlenswert. Das schöne Buch von Choe [7] enthält zusätzlich MapleProgramme für ein Experimentieren mit dem Stoff — hier gilt mein Dank
meiner Frau Rasa für das Erstellen der schönen Graphiken. Vorkenntnisse aus der Maßtheorie (bzw. Stochastik) sind äußerst hilfreich (siehe etwa
[6, 9]). Für eine allgemeinere Theorie der dynamischen Systeme verweisen
wir auf [4, 10]; zahlentheoretische Grundlagen kann man in [11] nachschlagen. Für Kommentare jeder Art bin ich dankbar. Viel Spaß!
Literatur
[1] P. Billingsley, Ergodic theory and Information, John Wiley & Sons, New York 1965
[2] W.A. Coppel, Number Theory. An Introduction to Mathematics, Springer 2006 (zwei
Bände)
[3] K. Dajani, C. Kraaikamp, Ergodic theory of numbers, Mathematical Association of
America, Washington DC 2002
[4] M. Denker, Einführung in die Analysis dynamischer Systeme, Springer 2005
[5] M. Einsiedler, T. Ward, Ergodic Theory: with a view towards Number Theory,
www.mth.uea.ac.uk/ergodic/
[6] J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 5.Auflage
[7] Geon Ho Choe, Computational Ergodic Theory, Springer 2005
[8] K. Jacobs, Selecta Mathematica IV, Springer 1972
[9] A. Klenke, Wahrscheinlichkeitstheorie, Springer 2006
[10] M. Pollicott, M. Yuri, Dynamical Systems and Ergodic Theory, London Mathematical Society 40, Cambridge University Press, 1998
[11] J. Steuding, Diophantine Analysis, Chapman & Hall/CRC Press, Boca Raton 2005
Date: Wintersemester 2007/08, Universität Würzburg.
1
2
16. Okt. 2007
ERGODENTHEORIE
1. Motivation: Benford und Billiard
Das Benfordsche Gesetz beschreibt Unregelmäßigkeiten in der Verteilung der Ziffern in gewissen empirischen Datensätzen. 1881 bemerkte Newcomb, dass in Büchern mit Logarithmenafeln die Seiten mit Tabellen mit
Eins als erster Ziffer deutlich abgenutzter waren als die anderen. Dies wurde
1938 durch den Physiker Benford wiederentdeckt und durch eine statistische Analyse diverser Datensätze belegt, z.B. Einwohnerzahlen in amerikansichen Ortschaften (siehe F. Benford, The law of anomalous numbers,
Proc. Amer. Philos. Soc. 78 (1938), 551-572). Natürlich gilt dies nicht für
jeden Datensatz positiver reeller Zahlen. Hier ein illustrierendes Beispiel
(auch als Gelfands Problem bekannt): Wir bilden die Zweierpotenzen 2n
und beobachten, dass unter den ersten
1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8092, . . .
mehr Zahlen mit der Ziffer 1 beginnen, als etwa mit der Ziffer 3. Für eine
(m + 1)-ziffrige Zweierpotenz, deren Dezimaldarstellung mit einer Ziffer k ∈
{1, 2, . . . , 9} startet gilt offensichtlich die Ungleichung
10m k ≤ 2n < 10m (k + 1)
bzw. durch Logarithmieren
m + log10 k ≤ n log10 2 < m + log10 (k + 1),
und umgekehrt. Schreiben wir eine reelle Zahl x als x = [x] + {x}, d.h. als
Ganzteil [x] ∈ Z plus ihrem gebrochenen Anteil {x} ∈ [0, 1), so folgt
log10 k ≤ {n log10 2} < log10 (k + 1).
Auf Grund der Konvexität des Logarithmus ist das Intervall
[log10 k, log10 (k + 1)) für kleine k größer. Tatsächlich führt dies dazu,
dass ≈ log10 k+1
k Prozent der Zweierpotenzen eine Dezimaldarstellung mit
Startziffer k besitzen; speziell für die Startziffer 1 ist der Anteil ca. 30, 1
Prozent, während Startziffer 7 nur für etwa 5, 8 Prozent gilt. In diesem
Sinne ist das Benfordsche Gesetz nichts anderes als die Wahrscheinlichkeitsverteilung der Mantisse bzgl. zur Basis. Wir werden dies später mit
Ergodentheorie (bzw. etwas weniger als das) begründen. Darüber hinaus
soll das Benfordsche Gesetz – also die obige Verteilung für die Startziffer
– für viele andere Zahlenfolgen gelten, etwa für physikalische Konstanten,
Aktienindizes und vieles mehr,1 allerdings sicherlich nicht für die Folge der
1Angeblich wurde mit Hilfe des Benfordschen Gesetzes das kreative Rechnungswesen
von Enron aufgedeckt und seitdem wird es auch von den Steuerbehörden der USA und
einiger anderer Länder zum Nachweis gefälschter Steuererklärungen benutzt.
1. Motivation: Benford und Billiard
3
natürlichen Zahlen selbst oder die Zehnerpotenzen — was macht hier den
Unterschied aus?
Als zweiten Aufhänger betrachten wir nun eine mathematisches Problemstellung beim Billiard, zuerst aufgeworfen durch D. König & A. Szücs,
Mouvement d’un point abandonné à l’intérieur d’un cube, Palermo Rend.
36 (1913), 79-90 (in Ungarisch). Dabei spielen wir Billiard auf einem quadratischen Tisch ohne Widerstand. Alternativ denke man an ein Quadrat
mit Spiegeln als Seiten; ein Lichtstrahl verläßt einen Punkt im Innern des
Quadrates und wird reflektiert von den Spiegeln — welchen Weg wird der
Lichtstrahl zurücklegen? Wir können uns leicht einen Lichtstrahl vorstellen, der einen periodischen Weg zurücklegt, aber unter welchen Umständen
tritt eben diese Situation ein? Wie könnten andere Szenarien aussehen?
Tatsächlich wird dieses Problem etwas einfacher, wenn wir das Quadrat
durch einen Kreis ersetzen, denn dann wird ein Lichtstrahl aus dem Inneren
des Kreises stets in demselben Winkel reflektiert (der Leser mache sich klar,
dass dies tatsächlich so ist — das Stichwort hierzu heißt Rotationssymmetrie). Wir dürfen uns den Kreis als den Einheitskreis in C vorstellen, das
ist die so genannte Kreisgruppe (die multiplikative Gruppe aller kompexen
Zahlen mit Betrag 1)
√
T := {exp(2πix) : x ∈ [0, 1)}
mit i = −1.
Die Exponentialabbildung
exp : R → T,
x 7→ exp(2πix)
ist bekanntlich ein surjektiver, aber nicht injektiver Gruppenhomomorphismus. Mit dem Isomorphiesatz ergibt sich
T∼
= R / Z,
d.h. wir können T als isomorphes Bild der reellen Zahlengeraden R modulo
Z bzw. als isomorphes Bild des Einheitsintervalls [0, 1) auffassen. Diese Idee
werden wir im Folgenden des öfteren benutzen. Sei nun πα der Winkel zwischen dem Lichtstrahl und dem Kreis T. Bezeichnen wir mit ζn = exp(2πixn )
den n-ten Punkt auf dem Kreis, den der Lichtstrahl getroffen hat, so gilt
xn − xn−1 ≡ 2πα mod 1
bzw.
xn = x0 + 2πnα
für n ∈ N,
wobei x0 der erste Schnittpunkt des Lichtstrahls mit dem Kreis sei. Ist also
der Winkel α rational, so ist der Lichtstrahl offensichtlich periodisch. Genauer: gilt 2α = pq mit p, q ∈ N, so ist der Lichtstrahl q-periodisch (d.h.
xn+q ≡ xn mod 1). Was aber, wenn α irrational ist? In diesem Fall kann
4
ERGODENTHEORIE
man beweisen (und der geneigte Leser versuche sich daran), dass der Lichtstrahl jedes noch so kleine, nicht leere Segment auf dem Kreisrand früher
oder später trifft.
Abbildung 1. Ein periodischer Lichtstrahl beim Kreisbilli1
π bzw. 18◦ .
ard; hier ist 2πα = 10
Die Behandlung dieser beiden Problemstellungen erfolgt nun mit klassischen Methoden der Theorie der diophantischen Approximation und Gleichverteilung.
2. Klassische diophantische Approximationssätze
Die rationalen Zahlen liegen bekanntlich dicht in R und erlauben dank
des folgenden klassischen Approximationssatzes von Dirichlet (aus dem
Jahr 1842) beliebig gute rationale Näherungen an reelle Irrationalzahlen:
Satz 1. Zu ξ ∈ R \ Q gibt es unendlich viele rationale Zahlen
ξ −
p 1
< 2.
q
q
p
q
mit
(1)
Diese Eigenschaft charakterisiert Irrationalzahlen, d.h. ist ξ rational, so besitzt die Ungleichung (1) nur endlich viele Lösungen pq .
Beweis. Wir benutzen ein Schubfachprinzip: Verteilt man n+1 Gegenstände
auf n Schubfächer, so gibt es mindestens ein Schubfach mit mindestens zwei
Gegenständen. Zu Q ∈ N liegen die Q + 1 Punkte 0, {ξ}, {2ξ}, . . . , {Qξ} in
den Q disjunkten Intervallen
j−1 j
,
für j = 1, . . . Q.
Q Q
Also gibt es (nach dem Schubfachprinzip) mindestens ein Intervall, das mindestens zwei Punkte enthält, etwa {kξ} ≥ {ℓξ} mit 0 ≤ k, ℓ ≤ Q und k 6= ℓ.
2. Klassische diophantische Approximationssätze
5
Es folgt
{kξ} − {ℓξ} = kξ − [kξ] − ℓξ + [ℓξ]
= {(k − ℓ)ξ} + [(k − ℓ)ξ] + [ℓξ] − [kξ] .
|
{z
}
(2)
∈Z
1
) liegt, summieren sich die Ganzteile
Da {kξ} − {ℓξ} in dem Intervall [0, Q
in (2) zu Null auf. Sei q = k − ℓ, dann gilt
{qξ} = {kξ} − {ℓξ} <
Mit p := [qξ] folgt daher
ξ −
1
.
Q
p |qξ − p|
{qξ}
1
=
=
<
,
q
q
q
qQ
(3)
was die Ungleichung (1) impliziert (da ja q < Q).
Sei nun ξ irrational. Angenommen, es gibt nur endlich viele Lösungen
pn
p1
q1 , . . . , qn von (1). Da ξ 6∈ Q, gibt es ein Q mit
ξ − pj > 1
für j = 1, . . . , n,
qj Q
im Widerspruch zu (3).
Nun nehmen wir an, dass ξ rational ist, etwa ξ =
Für ξ = ab 6= pq , folgt
p
ξ − = |aq − bp| ≥ 1 ,
q
bq
bq
a
b
mit a ∈ Z und b ∈ N.
und (1) impliziert q < b. Also gibt es nur endlich viele
ist bewiesen. •
(4)
p
q
mit (1). Der Satz
Tatsächlich kannte bereits Lagrange diesen Satz (mit einem Beweis, den
wir in §7 kennen lernen werden); allerdings bewies Dirichlet (mit Hilfe der
obigen Beweisidee) allgemeiner: Angenommen ξij mit 1 ≤ i ≤ m, 1 ≤ j ≤ n
sind reelle Zahlen und Q > 1 ist eine ganze Zahl, dann existieren ganze
Zahlen p1 , . . . , Pm , q1 , . . . , qn mit
1 ≤ max{|qj | : 1 ≤ j ≤ n} < Qm/n
und
|ξi1 q1 + . . . + ξin qn − pi | ≤
1
Q
für 1 ≤ i ≤ m.
Aufgabe 1. Man i) beweise diese Aussage (Hinweis: mit einem Schubfachprinzip wie oben) und ii) zeige, dass dies in der Tat den wesentlichen Teil
von Satz 1 verallgemeinert.
6
ERGODENTHEORIE
Der Kroneckersche Approximationssatz von 1884 verallgemeinert Satz
1 auf den inhomogenen Fall:2
Satz 2. Sei ξ ∈ R \ Q und η ∈ R. Dann gibt es zu jedem N ∈ N ein Q ∈ N
mit Q > N und P ∈ Z, so dass
3
|Qξ − P − η| < .
Q
Beweis. Nach Satz 1 gibt es teilerfremde ganze Zahlen q > 2N und p, so
dass
1
|qξ − p| < .
q
Angenommen, m ist die ganze Zahl bzw. eine der zwei ganzen Zahlen, für
die
1
|qη − m| ≤
2
gilt. Nach dem Satz von Bezout (aus der elementaren Zahlentheorie) gibt
es dann eine Darstellung m = px − qy mit ganzen Zahlen x, y, wobei |x| ≤
1
2 q (tatsächlich folgt dies aus dem euklidischen Algorithmus für p und q
rückwärts; siehe etwa [11]). Damit
q(xξ − y − η) = x(qξ − p) − (qη − m),
bzw.
23. Okt. 2007
1 1 1
|q(xξ − y − η)| < q · + = 1.
2 q 2
Wir setzen Q = q + x sowie P = p + y und erhalten
3
1
N < q ≤ Q ≤ q.
2
2
Also folgt
1 1
2
3
|Qξ − P − η| ≤ |xξ − y − η| + |qξ − p| < + = ≤ ,
q
q
q
Q
was zu beweisen war. •
Der Kroneckersche Approximationssatz erlaubt die Lösung unseres Billiardproblems aus §1. Wir dürfen uns das Quadrat mit Seiten normiert auf
die Länge 1 denken, also gewissermaßen gegeben durch [0, 1)2 ⊂ R2 . Ist γ
der Winkel zwischen einer Seite des Quadrates und der Anfangsrichtung des
Strahls, so wird der Lichtstrahl durch die Gleichung
y = ξx + β
2In dem Buch von G.H. Hardy, E.M. Wright, An introduction to the theory of
numbers, Oxford Science Publications, §23.6, wird ein mehrdimensionales Analogon dieses
Satzes als einer jener Sätze beschrieben, die besagen, dass alles was nicht unmöglich ist,
auch irgendwann eintreten wird, ungeachtet dessen wie unwahrscheinlich es auch sein mag
(frei übersetzt) — eine Idee, die auch als ‘Murphy’s law’ bekannt ist.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
7
beschrieben, wobei ξ = tan γ und β irgendeine reelle Zahl ist (entsprechend
des Ausgangspunktes des Lichtstrahls). Der Lichtstrahl ist genau dann periodisch, wenn die obige Gerade modulo Z2 in eine endliche Vereinigung geradliniger Segmente zerfällt. Andernfalls liegt der Strahl dicht im Quadrat
T×T ∼
= (R/Z)2 . Angenommen, ξ ist rational, etwa ξ = pq mit teilerfremden
ganzen Zahlen p, q, dann ist die Gerade invariant unter den Transformationen
x
x
q
7→
+k
für k ∈ Z.
y
y
p
Angenommen, ξ ist irrational. Zu jedem Punkt (x1 , y1 ) ∈ R2 und jedem ǫ > 0
gibt es nach dem Kroneckerschen Approximationssatz 2, angewandt mit
η = −y1 + β + ξx1 , ein Paar ganzer Zahlen P, Q, so dass
|y1 + P − (ξ(x1 + Q) + β)| = | y1 − β − ξx1 +P − Qξ| < ǫ.
|
{z
}
=−η
Damit liegen der allgemeine Punkt (x1 , y1 ) und der Geradenpunkt
(x1 , ξ(x1 + Q) + β) modulo Z2 um weniger als ǫ von einander entfernt.
Abbildung 2. Die Wege zweier Lichtstrahlen, einer mit rationaler, der andere mit irrationaler Tangente.
Also ist der Lichtstrahl genau dann geschlossen bzw. periodisch, wenn
der Winkel γ eine rationale Tangente besitzt, also ξ = tan γ ∈ Q; ansonsten
kommt der Lichtstrahl jedem Punkt im Quadrat beliebig nahe. Aber wie
spielt man Billiard auf nicht quadratischen Tischen? Zu diesem und weiteren verwandten Themen verweisen wir auf das unterhaltsame Buch von S.
Tabachnikov, Geometry and billiards, Amer. Math. Soc., Providence 2005;
das Thema des kreisrunden Billiardtisches sei dem Leser nach der Lektüre
des nächsten Kapitels als Übungsaufgabe überlassen.
Eine wichtige Rolle spielen effektive Versionen des inhomogenen Approximationssatzes wie etwa der von G.J. Rieger, Effective simultaneous approximation of complex numbers by conjugate algebraic integers, Acta Arith.
63 (1993), 325-334.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
Insbesondere zeigt der Kroneckersche Approximationssatz 2, dass die gebrochenen Anteile der Folge nξ bei laufendem n ∈ N genau dann dicht im
8
ERGODENTHEORIE
Einheitsintervall liegen, wenn ξ irrational ist. Wir wollen diesen Zusammenhang und insbesondere den Begriff der Dichtheit im Folgenden etwas genauer
unter die Lupe nehmen. Eine Folge (xn ) reeller Zahlen heißt gleichverteilt
modulo 1, wenn für alle α, β mit 0 ≤ α < β ≤ 1 gilt, dass
1
♯{1 ≤ n ≤ N : {xn } ∈ [α, β)} = β − α,
N →∞ N
wenn also die Proportion der gebrochenen Anteile der Folgeglieder xn in
einem beliebig vorgegebenen Intervall der Länge dieses Intervalls entspricht.
Offensichtlich genügt es hierbei Teilintervalle der Form [0, β) mit beliebigem
β ∈ (0, 1) zu betrachten.
Die ersten wichtigen Resultate in dieser Theorie gelangen Hermann
Weyl 1913-16 (gesammelt in: Über die Gleichverteilung von Zahlen mod.
Eins, Math. Ann. 77 (1916), 313-352) in Gestalt der folgenden zwei Sätze:
lim
Satz 3. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1,
wenn für jede Riemann-integrierbare Funktion f : [0, 1] → C gilt, dass
Z 1
N
1 X
f (x) dx.
f ({xn }) =
lim
N →∞ N
0
n=1
Beweis. Zu α, β ∈ [0, 1) sei χ[α,β) die Indikatorfunktion des Intervalls [α, β),
also
1 falls α ≤ x < β,
χ[α,β) (x) =
0 sonst.
Dann ist
Z
0
1
χ[α,β) (x) dx = β − α.
Damit ist die Folge (xn ) genau dann gleichverteilt modulo 1, wenn für beliebige α, β ∈ [0, 1) stets
Z 1
N
1 X
χ[α,β) (x) dx
χ[α,β) ({xn }) =
lim
N →∞ N
0
n=1
gilt. Besteht also die Asymptotik des Satzes für alle Riemann-integrierbaren
f , so ist die Folge (xn ) sicherlich gleichverteilt. Es verbleibt also, die Notwendigkeit der Bedingung des Satzes zu zeigen.
Sei also die Folge (xn ) gleichverteilt modulo 1. Dann gilt die Asymptotik
des Satzes mit f = χα,β (s.o.); darüber hinaus aber auch für jede Linearkombination von solchen Indikatorfunktionen und somit insbesondere für jede
Treppenfunktion. Zu jeder reellwertigen, Riemann-integrierbaren Funktion
f und jedem ǫ > 0 gibt es Treppenfunktionen t− , t+ mit
t− (x) ≤ f (x) ≤ t+ (x)
für alle
x ∈ [0, 1]
3. Gleichverteilung modulo Eins und die Sätze von Weyl
und
Z
1
0
Also folgt
und damit
Z
(t+ (x) − t− (x)) dx < ǫ.
1
0
9
f (x) dx ≥
Z
1
0
t− (x) dx >
Z
1
0
t+ (x) dx − ǫ
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
n=1
≤
Z 1
N
1 X
t+ (x) dx + ǫ,
t+ ({xn }) −
N
0
n=1
welches kleiner 2ǫ ist für alle hinreichend großen N ; analog gewinnt man
Z 1
N
1 X
f (x) dx > −2ǫ
f ({xn }) −
N
0
n=1
für alle hinreichend großen N . Also gilt die zu beweisende Asymptotik für
alle reellwertigen, Riemann-integrierbaren f . Mit der Linearität folgt die
Aussage auch für komplexwertige, Riemann-integrierbare Funktionen. •
In diesem Zusammenhang ist einmal das Riemann-Integral besser als das
Lebesgue-Integral! Wie bereits Weyl bemerkte, sind die auftretenden Limiten gleichmäßig, was interessante Fragen aufwirft und in der Theorie der
Gleichverteilung unter dem Begriff Diskrepanz weiter untersucht wurde. Dies
hat wichtige und amüsante Anwendungen, etwa beim Billiard. Hier mag man
sich fragen, wie bald bzw. wie oft ein nicht periodischer Lichtstrahl ein vorgegebenes Gebiet treffen mag? Die ersten Antworten hierzu gab bereits H.
Weyl (Sur une application de la théorie des nombres à la mécaniques statistique et la théorie des pertubations, L’Enseign. math 16 (1914), 455-467)
— wie mag seine Antwort gewesen sein?
Die Umkehrung des Weylschen Satzes wurde von N.G. de Bruijn &
K.A. Post, A remark on uniformly distributed sequences and Riemann
integrability, Indagationes math. 30 (1968), 149-150, bewiesen: Besitzt eine
Funktion f : [0, 1) → C die Eigenschaft, dass der Grenzwert
N
1 X
f ({xn })
lim
N →∞ N
n=1
für jede modulo 1 gleichverteilte Folge (xn ) existiert, dann ist f Riemannintegrierbar.
Im Folgenden spielt die Parametrisierung des Einheitsintervalls durch
die Kreisgruppe (siehe §1) eine wichtige Rolle. Für reelle ξ schreiben wir
10
ERGODENTHEORIE
abkürzend e(ξ) = exp(2πiξ) (was mit der 2πi-Periodizität der Exponentialfunktion also = e(ξ + Z) ist).
Satz 4. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1,
wenn für jede ganze Zahl m 6= 0 gilt, dass
N
1 X
e(mxn ) = 0.
N →∞ N
n=1
lim
Beweis. Angenommen, die Folge (xn ) ist gleichverteilt modulo 1, dann folgt
aus dem vorangegangenen Satz mit f (x) = e(mx)
Z 1
N
1 X
lim
e(mx) dx.
e(mxn ) =
N →∞ N
0
n=1
Für eine ganze Zahl m 6= 0 ist die rechte Seite gleich Null, also gilt die
gewünschte Asymptotik.
Gilt hingegen die Asymptotik des Satzes für alle ganzen Zahlen m 6= 0,
so folgt für das trigonometrische Polynom
P (x) =
+M
X
am e(mx)
mit
m=−M
am ∈ C
über die Linearität sofort
N
1 X
P ({xn }) =
lim
N →∞ N
n=1
+M
X
m=−M
= a0 =
Z
N
1 X
am · lim
e(mxn )
N →∞ N
n=1
1
P (x) dx.
(5)
0
Der Weierstraßsche Approximationssatz besagt, dass zu einer jeden stetigen, 1-periodischen Funktion f und jedem ǫ > 0 ein trigonometrisches
Polynom P existiert, so dass
|f (x) − P (x)| < ǫ
für 0 ≤ x < 1
(6)
(das beweist man leicht mit Fourier-Analysis; siehe etwa A. Hurwitz R.
Courant, Funktionentheorie, Springer, 4. Auflage 1964).3 Mit solch einem
3Tatsächlich schreiben die Autoren diesen Satz Fejer zu und geben dessen Beweis, der
im Prinzip nur auf der Cauchyschen Integralformel beruht.
3. Gleichverteilung modulo Eins und die Sätze von Weyl
11
Polynom folgt
Z 1
N
1 X
f (x) dx
f ({xn }) −
N
0
n=1
Z 1
N
N
1 X
1 X
P (x) dx
(f ({xn }) − P ({xn })) + P ({xn }) −
≤ N
N
0
n=1
n=1
Z 1
+ (P (x) − f (x)) dx ;
0
hierin sind der erste und dritte Term der rechten Seite jeweils kleiner ǫ
vermöge (6), während der zweite Term klein ist nach (5). Also gilt die zu
beweisende Formel für alle stetigen 1-periodischen Funktionen f . Bezeichnet
χ[α,β) wie im Beweis des vorigen Satzes die Indikatorfunktion des Intervalls
[α, β), dann gibt es zu jedem ǫ > 0 stetige, 1-periodische Funktionen f− , f+
mit
f− (x) ≤ χ[α,β) (x) ≤ f+ (x)
für alle 0 ≤ x < 1
und
Z
1
0
(f+ (x) − f− (x)) dx < ǫ.
Daraus folgt nun ganz ähnlich wie oben, dass
Z 1
N
1 X
χ[α,β) (x) dx.
χ[α,β) ({xn }) =
lim
N →∞ N
0
n=1
Also ist die Folge (xn ) gleich verteilt modulo 1. •4
Aufgabe 2. Man beweise: Eine reelle Zahlenfolge (xn ) ist genau dann
gleichverteilt modulo 1, wenn für jede natürliche Zahl m die Folge (xm+n −
P
xn ) gleichverteilt ist modulo 1. (Hinweis: Schätze zunächst | n e(xn )|2 nach
oben ab; mehr Hinweise gibt es in [2].)
Eine wichtige Anwendung von Satz 4 ist das folgende Resultat des lettischen Mathematikers Piers Bohl (Über ein in der Theorie der säkularen
Störungen vorkommendes Problem, J. f. Math. 135 (1909), 189-283), der
unsere Bemerkung über die Dichtheit zu Beginn dieses Kapitels präzisiert:5
Korollar 5. Sei ξ ∈ R. Dann ist die Folge (nξ) genau dann gleichverteilt
modulo 1, wenn ξ irrational ist.
4Einen nahezu längenfreien, auf dem Heiratssatz basierenden Beweis der Weylschen
Sätze findet man ion [8].
5Tatsächlich hatten fast zeitgleich auch Sierpinski und Weyl vergleichbare Resultate;
für die interessante Geschichte empfehlen wir die Lektüre von E. Hlawka, C. Binder,
Über die Entwicklung der Theorie der Gleichverteilung in den Jahren 1909 bis 1916, Arch.
Histor. Exact Sciences 36 (1986), 197-249.
12
ERGODENTHEORIE
Beweis. Ist ξ irrational, so folgt mit der Formel für die endliche geometrische
Reihe
N
X
e(mN ξ) − 1
e(mnξ) = e(mξ)
e(mξ) − 1
n=1
für alle ganzen Zahlen m 6= 0. Da dies beschränkt ist (unabhängig von N ),
ergibt sich
N
1 X
exp(2πimnξ) = 0.
lim
N →∞ N
n=1
a
b
Gilt hingegen ξ = für gewisse a, b ∈ Z, b 6= 0, so ist der Grenzwert ungleich
Null für alle Vielfachen m von b. Mit Satz 4 folgt die Behauptung. •
1
20
y
0
0
0
1
0
200
x
Abbildung
3. Die Gleichverteilung modulo 1 der Folge
√
√
(n 2); links ein Histogramm für die Verteilung von {n 2}
j
für n = 1, . . . , 500 in den Intervallen [ j−1
10 , 10 ) für 1 ≤ j ≤ 10,
√
rechts die Punkte (n, {n 2}) im Einheitsquadrat.
Korollar 5 lässt sich auf verschiedene Arten verallgemeinern. I.M. Vinogradov, Darstellung einer ungeraden Zahl als Summe von drei Primzahlen, Doklady Akad. Nauk SSSR 15 (1937), 291-294 (Russisch), bewies die
ternäre Goldbach-Vermutung, dass nämlich jede hinreichend große ungerade natürliche Zahl als Summe von drei Primzahlen darstellbar ist — die
binäre Goldbach-Vermutung behauptet, dass jede hinreichend große gerade natürliche Zahl Summe von zwei Primzahlen ist, was aber noch immer
unbewiesen ist. Ein wichtiges Zwischenergebnis in seinem Beweis war eine
Abschätzung der Exponentialsumme
X
e(ξpn ),
pn ≤N
wobei pn für die n-te Primzahl (der Größe nach geordnet) steht. Dies impliziert fast unmittelbar, dass für irrationales ξ, die Folge (ξpn ) gleichverteilt
ist modulo 1. Um einen ersten Eindruck von der Tiefe dieses Resultates zu
3. Gleichverteilung modulo Eins und die Sätze von Weyl
13
gewinnen, sei der geneigte Leser ermuntert, sich Gedanken über den keineswegs trivialen Fall der Verteilung von (ξpn ) modulo 1 mit rationalem ξ zu
machen. Eine andere Verallgemeinerung von Korollar 5 durch Weyl zeigt,
dass, gegeben ein Polynom
P = ad X d + . . . + a1 X + a0
mit reellen Koeffizienten, wobei mindestens einer der Koeffizienten aj mit
j 6= 0 irrational ist, die Werte dieses Polynoms auf N gleichverteilt modulo
1 sind.
Aufgabe 3. Man gebe einen Beweis dieser Behauptung. (Hinweis: Für jedes
m ∈ N ist P (X + m) − P (X) ein Polynom vom Grad d − 1; man setze dies
in Verbindung mit der vorangegangenen Aufgabe.)
Man kennt mittlerweile recht viele gleichverteilte Folgen, die wesentlich
schwieriger zu behandeln sind. So weiss man, dass die Imaginärteile der
nichttrivialen Nullstellen der berühmten Riemannschen Zetafunktion gleichverteilt sind modulo 1 dank E. Hlawka, (Über die Gleichverteilung gewisser Folgen, welche mit den Nullstellen der Zetafunktion zusammenhängen,
Österr. Akad. Wiss., Math.-Naturw. Kl. Abt. II 184 (1975), 459-471) und
den Vorarbeiten von Rademacher (der dasselbe Ergebnis unter Annahme
der Riemannschen Vermutung beiwesen hatte).6 Auf der anderen Seite ist
aber vieles noch unbekannt: Einerseits gelang J.F. Koksma, Ein mengentheoretischer Satz über die Gleichverteilung modulo 1, Compositio Math. 2
(1935), 250-258, der beweis, dass die Folge (αn ) für fast alle α > 0 (d.h.
bis auf α aus einer Nullmenge) gleichverteilt sind, jedoch ist kein einziges
solches α explizit bekannt; es ist also ungelöst ob die (schnell wachsende)
Folge {exp(n)} gleichverteilt ist oder nicht.
Wir wollen noch einmal kurz das Gelfondsche Problem aus §1 aufgreifen: Die Folge xn = 2n gehorcht dem Benfordschen Gesetz. Um
dies nachzuweisen, bemerken wir zunächst, dass die Folge der Logarithmen
log10 xn = n log10 2 nach Satz 5 gleichverteilt ist modulo 1, denn log10 2 6∈ Q
(was man leicht aus der eindeutigen Primfaktorzerlegung gewinnt). Entsprechend ist der Anteil der xn mit Startziffer k ∈ {1, 2, 3, . . . , 9} unseren
Überlegungen aus §1 folgend im Grenzwert n → ∞ gleich der Länge des
6Es studierten u.a. Harald Bohr und Hardy und Littlewood die Gleichverteilungs-
theorie, insbesondere um Anwendungen auf die Zetafunktion bemüht. Hier ist insbesondere die Arbeit von H. Bohr, Zur Theorie der Riemann’schen Zetafunktion im kritischen
Streifen, Acta Math. 40 (1915), 67-100, und ihre Fortführungen (teilweise mit Courant
bzw. Jessen) zu nennen, diophantische und probabilistische Methoden in die Wertverteilungstheorie der Zetafunktion begründet haben.
14
ERGODENTHEORIE
Intervalls [log10 k, log10 (k + 1)), also
log10 (k + 1) − log10 k = log10 (1 + k1 ).
Tatsächlich genügt eine Folge (xn ) genau dann dem Benfordschen Gesetz, wenn die Folge ihrer Logarithmen (log10 xn ) modulo 1 gleichverteilt ist
(wenn gleich wir den einfachen Beweis auch dem Leser überlassen). Nennen
wir eine solche Folge nun benfordsch, so ist z.B. die Folge der FibonacciZahlen benfordsch, nicht aber die Folge der Primzahlen. Dies ergibt sich aus
den Arbeiten von P. Jolissaint, Loi de Benford, relations de récurrence
et suites équidistribuées, Elem. Math. 60 (2005), 10-18, sowie P. Diaconis, The distributions of leading digits and uniform distribution mod 1,
Ann. Probab. 5 (1977), 72-81. Neuere Untersuchungen zeigen, dass gewisse stochastische Prozesse (etwa geometrische Brownsche Bewegungen) oder
auch die 3X + 1-Iterierten benfordsch sind (siehe A.V. Kontorovich, S.J.
Miller, Benford’s law, values of L-functions and the 3x + 1 Problem, Acta Arith. 120 (2005), 269-297). Tatsächlich erfreut sich das Benfordsche
Gesetz einer enormen Popularität.7
Aufgabe 4. Man entwickle eine Theorie zur Verteilung der ersten m Ziffern
in der b-adischen Entwicklung von Potenzen an bei n ∈ N.
Eine wichtige Anwendung gleichverteilter Folgen sind die Monte-CarloMethoden der numerischen Integration. Schießt man N mal zufällig auf
ein Quadrat der Kantenlänge 1 und zählt die Anzahl M der Treffer, die
in einem Viertelkreis vom Radius 1 um einen der Eckpunkte liegen, so ist
der Quotient M/N eine Näherung an den Flächeninhalt des Viertelkreises
π/4; mit wachsendem N sollten diese Approximationen π besser und besser
annähern. Es ist klar, wie sich diese einfache Idee mit Hilfe gleichverteilter
Folgen zur numerischen Integration von nicht elementaren Integralen wie etR
wa exp(−x2 ) dx verallgemeinern lässt. Mehr Information zu diesem Thema findet man etwa bei E. Hlawka, Theorie der Gleichverteilung, BIB,
Mannheim, 1979 (hier findet man auch eine Erweiterung der Theorie auf
mehrdimensionale Folgen). Ferner gibt es Anwendungen in der Theorie der
Pseudo-Zufallszahlen (pseudorandom number generators); für einen ersten
Einblick verweisen wir auf R. Crandall & C. Pomerance, Prime numbers. A computational perspective, Springer, 2001.
*
*
*
7Z.B. wurde es namentlich erwähnt in der amerikanischen Serie NUMB3RS (in der
Episode “The Running Man”). Auch beschäftigte man sich mit der Frage, ob die Datensätze in der Bibel benfordsch sind oder nicht. Interessanter: Die kleinste natürliche
Zahl, die nicht in der Bibel explizit auftaucht, ist 43.
4. Maßtreue Abbildungen
15
Unser Ziel sind die wichtigen Ergodensätze von Birkhoff u.a., welche
gewissermaßen Gleichverteilungssätze sind (was dann auch erklärt, warum
wir mit eben diesen angefangen haben). Tatsächlich entstanden die mathematischen Grundlagen der Ergodentheorie erst in den 1920er und 1930er
Jahren, also nach den Weylschen Gleichverteilungssätzen. Wichtige Einflüsse hierbei war die Maßtheorie mit dem so wichtigen Lebesgue-Integral
(was man ungefähr auf 1903 datieren kann) und natürlich die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorov (um ca. 1930).
Zuerst müssen wir jedoch eben diese Fundamente legen.
4. Maßtreue Abbildungen
Im vorigen Kapitel haben wir modulo 1 gleichverteilte Folgen charakterisiert, wie etwa N ∋ n 7→ xn := nξ für irrationales ξ. Entsprechend könnten
wir uns auch fragen, ob die Folge (xn + β) mit beliebigem β ∈ R diese Eigenschaft erbt — natürlich benötigen wir hier nicht für jedes β eine eigene
Verteilungsstatistik. Auch können wir uns ähnliche Abbildungen vorstellen,
gebildet aus wiederholtem Anwenden einer gewissen Operation, zu denen
sich analoge Fragen stellen. Wir wollen deshalb nun allgemeiner als bislang
Abbildungen T : X → X auf gewissen Räumen X studieren und dabei auch
Augenmerk auf die Dynamik der Iteration von T verwenden. Hierbei ist es
sinnvoll, von T zu fordern, die Struktur von X zu erhalten. Ist also X ein
topologischer Raum, so sollte T stetig sein; besitzt X eine differenzierbare
Struktur, so sollte T ein Diffeomorphismus sein. Wir werden im Folgenden oft in Wahrscheinlichkeitsräumen arbeiten, weshalb wir fordern werden,
dass T meßbar ist. Zuerst wiederholen wir einige grundlegende Begriffe der
Maßtheorie und Stochastik.8 Für die maßtheoretischen Grundlagen verweisen wir auf J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 8.
Auflage, für die wahrscheinlichkeitstheoretischen Sachverhalte z.B. [9].
Bekanntlich lässt sich nicht jeder Teilmenge von Rd ein verallgemeinertes
geometrisches Volumen zuordnen; tatsächlich zeigte G. Vitali 1905 sogar
die Unlösbarkeit dieses so genannten Maßproblems für jede beliebige Dimension d. Ein Beispiel für den eindimensionalen Fall findet man vermöge der
auf [0, 1) erklärten Äquivalenzrelation
x∼y
⇐⇒
x − y ∈ Q;
8Tatsächlich könnten wir die gesamte Theorie ausschließlich maßtheoretisch formulie-
ren, aber die Sprache und Denkweise der Wahrscheinlichkeitstheorie erweist sich oft als
gewinnbringend.
30. Okt. 2007
16
ERGODENTHEORIE
bildet man nämlich mit Hilfe des (hier nicht zu umgehenden) Auswahlaxioms
die Menge A ⊂ [0, 1], bestehend aus jeweils genau einem Vertreter einer
jeden Äquivalenzklasse, so kann man dieser Menge A wegen
X
1 = µ([0, 1]) ≤
µ(A + {x}) ≤ µ([−1, 2]) = 3
|
{z
}
x∈[−1,1]∩Q
=µ(A)
kein sinnvolles Volumen µ zuordnen (d.h. monoton, translationsinvariant
und abzählbar additiv); der Fall in beliebiger Dimension d erfolgt mit denselben Ideen.9 Es war Lebesgues geniale Idee sich stattdessen auf meßbare
Mengen zurückzuziehen und darauf eine schlagkräftige Integrationstheorie
zu begründen (und nicht eine auf den Funktionen basierende Integration wie
sein Vorgänger Riemann).10
Sei X eine nicht leere Menge und P(X) ihre Potenzmenge. Ein nicht leeres
Mengensystem F ⊂ P heißt eine Algebra, wenn X ∈ F und wenn mit A, B
in F auch A ∪ B sowie X \ B in F enthalten sind. Eine solche Algebra F
heißt eine σ-Algebra, wenn F bzgl. abzählbarer Vereinigungen abgeschlossen
ist, wenn also insgesamt folgende Axiome gelten:
• ∅, X ∈ F;
• mit A ∈ F ist auch das Komplement X \ A ∈ F;
S
• mit einer abzählbaren Folge Aj ∈ F, gilt auch j Aj ∈ F.
Wegen
\
j
Aj = A \
[
j
(A \ Aj )
für A :=
[
Aj
j
T
gilt mit dem letzten Axiom auch j Aj ∈ F. Damit ist eine σ-Algebra
also abgeschlossen bzgl. der Bildung von abzählbaren Vereinigungen und
Schnitten. Zu X 6= ∅ sind {X, ∅} und die Potenzmenge P(X) von X stets
σ-Algebren, allerdings sind diese zu grob bzw. zu fein, um im Weiteren von
Interesse zu sein. Man macht sich leicht klar, dass der abzählbare Schnitt
von σ-Algebren stets wieder eine σ-Algebra ist. Insofern ist zu einem Mengensystem ∅ =
6 E ⊂ P(X) der Schnitt
\
Aσ (E) =
F
E⊂F
F ist σ−Algebra
die kleinste σ-Algebra, die E enthält; man nennt Aσ (E) auch die von E
erzeugte σ-Algebra. Eine ganz wichtige σ-Algebra (nicht nur für unsere folgenden Untersuchungen) ist die Borelsche σ-Algebra B eines (nicht leeren)
9Noch spektakulärer ist das Banach-Tarski-Paradoxon: eine Vollkugel im
R3 kann
so in (fünf nicht meßbare) Teile zerlegt werden, dass diese zu zwei Vollkugeln desselben
Radius zusammengefügt werden können: • = • + •.
10
Tragisch für W.H. Young, der unabhängig zwei Jahre nach Lebesgue eine analoge
Theorie entwickelte.
4. Maßtreue Abbildungen
17
metrischen Raum X, definiert als die von allen offenen Mengen in X erzeugte
kleinste σ-Algebra.
Eine nicht negative Funktion µ, definiert auf einer σ-Algebra F zu einem
gegebenen Raum X 6= ∅, heißt ein Maß, wenn gilt:
• µ(∅) = 0;
• für jede abzählbare Folge paarweise disjunkter Mengen Aj ∈ F gilt


[
X
µ(Aj );
µ  Aj  =
j
j
wegen dieser letzten Eigenschaft heißt µ auch σ-additiv (bzw. abzählbar additiv). Hierbei ist ausdrücklich zugelassen, dass µ den Wert +∞ annehmen
kann (wobei natürliche Rechengesetze mit diesem Symbol vorausgesetzt werden). Das Tripel (X, F, µ) heißt dann ein Maßraum und die Mengen in F
meßbar. Ein wichtiges Konzept in dieser Theorie ist der Begriff der Nullmenge, wie jede Menge A mit der Eigenschaft µ(A) = 0 genannt wird. Erste
Eigenschaften in diesem Zusammenhang sind u.a.
• Monotonie: Mit meßbaren Mengen A ⊂ B gilt µ(A) ≤ µ(B);
• Schachtelungsprinzip: Für eine Folge von ineinander geschachtelten
meßbaren Mengen A1 ⊃ A2 ⊃ . . . gilt
!
\
An .
lim µ(An ) = µ
n→∞
n
Beispiele für Maße sind etwa das Zählmaß
♯A falls ♯A < +∞,
A 7→ |A| =
+∞ sonst,
wobei ♯A für die Anzahl der Elemente der endlichen Menge A steht, das
Dirac-Maß
1 falls x ∈ A,
A 7→ δx (A) =
0 sonst,
und natürlich das Lebesgue-Maß, welches wir mit λ notieren werden. Das
Lebesgue-Maß erklärt man zunächst für Quader vermöge
λ(Q) =
d
Y
(βj − αj )
j=1
für Q = [α1 , β1 ] × . . . × [αd , βd ],
(7)
wobei man auch Intervalle anderer Form zulässt, dann für Figuren (das sind
endliche Vereinigungen von Quadern) mittels Additivität über disjunkte Zerlegungen in Quader, und schließlich durch Identifikation mit dem äußeren
Maß λ∗ für allgemeine meßbare Mengen A (also A ∈ F) über abzählbare Vereinigungen von Grenzwerten A von Folgen von Figuren An (modulo
18
ERGODENTHEORIE
Nullmengen), wobei
An → A für n → ∞
⇐⇒
lim λ∗ (An ∆A) = 0;
n→∞
hierbei ist
A∆B := (A \ B) ∪ (B \ A)
die symmetrische Differenz A∆B von A und B und das äußere Maß definiert
durch
∞
X
∗
λ(An ),
λ (A) = inf
n=1
wobei das Infimum über alle abzählbaren Überdeckungen von A durch offene
Figuren An genommen wird. Man beachte, dass λ∗ (A∆B) klein ist, wenn sich
A und B nur um eine Menge mit kleinem Maß unterscheiden. Diese (äußerst
skizzenhafte) Konstruktion des Lebesgue-Maßes geht auf Carathéodory
zurück und kann ohne großen Aufwand verallgemeinert werden.11 Wichtig
ist die Translationsinvarianz des Lebesgue-Maßes, d.h. λ(A) = λ(A + {x})
für alle meßbaren A und alle Punkte x, aber auch die Eindeutigkeit unter
allen normierten Maßen mit diesen Eigenschaften. Beispiele für LebesgueNullmengen sind Q bzw. Qd , je nachdem in welchem Raum wir uns bewegen,
bzw. allgemeiner alle abzählbaren Mengen. Abzählbare Vereinigungen von
Nullmengen sind wiederum Nullmengen.
Wir sprechen von einem Wahrscheinlichkeitsmaß P, wenn die Werte von
P allesamt in [0, 1] liegen, wobei P(X) = 1 ist. Dies ist stets zu erzwingen,
sofern wir ein endliches Maß µ zur Verfügung haben; in diesem Fall normiert
man µ gemäß P(A) = µ(A)/µ(X). Eine wichtige allgemeine Eigenschaft
eines Wahrscheinlichkeitsmaßes ist
P(X \ A) = 1 − P(A)
für jedes
A ∈ F.
Ein Tripel (X, F, P) bestehend aus einer Menge X 6= ∅, einer σ-Algebra F
und einem Wahrscheinlichkeitsmaß heißt Wahrscheinlichkeitsraum. Die σAlgebra bezeichnet man hierbei auch als Ereignisraum und seine Elemente
E als die Ereignisse, die mit der Wahrscheinlichkeit P(E) auftreten.
Die Wahrscheinlichkeitstheorie ermöglicht oft einen interessanten Blick
auf zahlentheoretische Fragestellungen, insbesondere im Zusammenhang mit
11Tatsächlich erinnert die Idee, die Menge der Figuren, die keine σ-Algebra bilden, um
die Grenzwerte von Figuren modulo Nullmengen zu erweitern, an Cantors Konstruktion
der reellen Zahlen.
4. Maßtreue Abbildungen
19
Verteilungseigenschaften von zahlentheoretischen Funktionen (komplexwertigen Zahlenfolgen). Ist (Xn ) eine Folge von unabhängigen, auf [0, 1) gleichverteilten Zufallsvariablen, so gilt nach dem Gesetz vom iterierten Logarithmus für beliebiges m 6= 0
P
| n≤N e(mXn )|
=1
fast sicher,
lim sup √
2N log log N
N →∞
d.h. mit Wahrscheinlichkeit P(E) = 1, wobei E für dieses Ereignis steht; das
bedeutet, dass die Menge aller Folgen {xn } in [0, 1), für die die obige lim supBedingung nicht gilt, eine Nullmenge ist. (Für das Gesetz des iterierten
Logarithmus siehe etwa [1, 9].) Man vergleiche dies mit dem Weylschen
Satz 4.
Wir geben nun weitere Definitionen, die die Basis für unsere späteren ergodentheoretischen Untersuchungen bilden. Gegeben ein Maßraum (X, F, µ),
so heißt eine Abbildung T : X → X meßbar (bzw. µ-meßbar), wenn
T −1 A := {x : T (x) ∈ A} ∈ F für alle A ∈ F gilt.12 Ein solches T heißt
invertierbar, falls T A := {T (x) : x ∈ A} ∈ F für alle A ∈ F und T X = X
gelten. Eine meßbare Abbildung T heißt maßtreu bzgl. µ, wenn
µ(T −1 A) = µ(A)
für alle A ∈ F;
im Falle invertierbarer T ist diese Bedingung äquivalent zu µ(T A) = µ(A).
Ist T maßtreu, so nennt man (X, F, µ, T ) ein dynamisches System. Aus Sicht
des Maßes sagt man statt ’T ist µ-maßtreu’ auch ’µ ist T -invariant’.
Zu einer Abbildung T wie oben und x ∈ X sei
T 0 (x) = x, T 1 (x) = T (x)
und
T n+1 (x) = T (T n (x))
für n ∈ N;
wir schreiben auch T n x statt T n (x). Der Orbit von x unter T ist definiert
als die Menge {T n x : n ∈ N0 }; der Orbit enthält wichtige Informationen
über den Punkt x bzw. die Abbildung T . Bei invertierbaren Abbildungen
macht es auch Sinn, die Vergangenheit zu betrachten, d.h den erweiterten
Orbit
. . . , T −2 x, T −1 x, T 0 x = x, T x, T 2 x, . . . .
Wir haben bereits zwei sehr interessante Abbildungen kennen gelernt, mit
denen wir uns jetzt mit Hilfe unserer neuen Sprache etwas genauer beschäftigen wollen. Unser zu Grunde liegender Maßraum ist dabei gegeben durch
X = [0, 1), der Borelschen σ-Algebra B, ausgestattet mit dem LebesgueMaß λ.
12Diese Definition variiert von der für die Meßbarkeit einer Funktion in der Lebesgue-
Theorie!
20
ERGODENTHEORIE
♣ Bsp. 1): Die Abbildung beim Kreisbilliard heißt Kreisrotation (auch
Translation) und wird für festes θ ∈ (0, 1) definiert durch
Rθ : T → T ,
x 7→ x + θ
Natürlich können wir stattdessen auch Rθ auf [0, 1) durch Rθ (x) = {x +
θ} = x + θ mod 1 definieren. Z.B. die Projektion der Folge n 7→ nξ auf die
Kreisgruppe T ist eine Kreisrotation: Für das n-te Folgeglied xn gilt dabei
Rξn = xn . Was können wir in Hinblick auf unsere neuen Begriffe sagen?
Offensichtlich ist Rθ stets meßbar bzgl. des Lebesgue-Maßes: Ist nämlich
(α, β) irgendein Intervall in [0, 1), so gilt
Rθ−1 (α, β) = (α − θ, β − θ)
bzw.
(1 + α − θ, 1 + β − θ)
falls θ ≤ α bzw. β ≤ θ, sowie
Rθ−1 (α, β) = (0, β − θ) ∪ (1 + α − θ, 1)
falls α < θ ≤ β. Ferner folgt hieraus sofort, dass Rθ maßtreu ist bzgl. λ,
denn in jedem der Fälle gilt
λ(Rθ−1 (α, β)) = β − α = λ((α, β)).
Wir durften uns hier auf den Fall der Untersuchung von Intervallen
beschränken, da die Borelsche σ-Algebra von den offenen Mengen in
X = [0, 1) erzeugt wird (ebenso von den abgeschlossenen Mengen, wie man
durch Komplementbildung findet). Diese erhebliche Erleichterung basiert
auf dem Begriff der monotonen Klasse C bestehend aus allen endlichen disjunkten Vereinigungen von Elementen einer Algebra A. Ist hierzu F die
von C erzeugte σ-Algebra und das Tripel (X, F, µ) ein Maßraum, so gibt
es zu jedem A ∈ F und jedem ǫ > 0 ein B ∈ C, so dass µ(A∆B) < ǫ ist
(also B das gegebene A beliebig gut approximiert). Mit diesem Approximationssatz transportieren sich die Eigenschaften der Meßbarkeit und der
Maßtreue von C auf die Vervollständigung F bzgl. µ. Dies ist der Satz von
Hahn-Kolmogorov; mehr dazu findet man in [3] oder P. Walters, Ergodic Theory - Introductory lectures, Lecture Notes in Mathematics 458,
Springer 1975.
♣ Bsp. 2): Die Abbildung des Gelfandschen Problemes ist
2x
falls 0 ≤ x < 21 ,
T : [0, 1) → [0, 1),
x 7→ 2x mod 1 =
2x − 1 falls 21 ≤ x < 1
(in der Literatur auch “multiplication by 2 modulo 1 - map”). Ist (α, β)
irgendein Intervall in [0, 1), so ist
β+1
T −1 (α, β) = ( α2 , β2 ) ∪ ( α+1
2 , 2 ),
4. Maßtreue Abbildungen
21
was wiederum in B liegt; also ist T Lebesgue-meßbar. Die Vereinigung
rechts ist disjunkt (da a + 1 ≥ b) und damit gilt ausserdem
λ(T −1 (α, β)) = β − α = λ((α, β)).
Also ist T auch maßtreu bzgl. des Lebesgue-Maßes. So einfach dieses Beispiel auch sein mag, die Iterationen dieser Abbildung liefern die Binärentwicklung der Punkte aus [0, 1). Zu x ∈ [0, 1) definiere
0 falls 0 ≤ x < 12 ,
a1 = a1 (x) =
1 falls 12 ≤ x < 1.
Dann gilt T x = 2x − a1 (x) und wir definieren ferner
an = an (x) = a1 (T n−1 x)
für n ∈ N.
Wir haben damit
x = 21 (a1 + T x)
und
T x = 12 (a2 + T 2 x)
...
bzw.
a1 a2
an T n x
+ 2 + ... + n + n
für n ∈ N.
2
2
2
2
Wegen 0 ≤ T n x < 1 konvergiert der Reihenrest bei n → ∞ gegen Null und
wir erhalten die Binärdarstellung
x=
x=
∞
X
an
k=0
2n
.
Hierbei bilden die Ziffern a1 , a2 , . . . eine unabhängige Folge von identisch
verteilten Bernoulli-Zufallsvariablen. Dieses einfache Beispiel besitzt eine
Reihe von Verallgemeinerungen, die wir jetzt unter die Lupe nehmen.
√
♣ Bsp. 3): Mit denselben Bezeichnungen wie oben sei β = 12 ( 5 + 1) der
goldene Schnitt (es gilt also β 2 = β + 1) sowie Tβ : X → X definiert durch
(
βx
falls 0 ≤ x < β1 ,
Tβ x = βx mod 1 =
βx − 1 falls β1 ≤ x < 1.
Dann ist Tβ zwar nicht maßtreu bzgl. des Lebesgue-Maßes, wohl aber bzgl.
des Maßes µ definiert durch
( β3
Z
1
1+β 2 falls 0 ≤ x < β ,
g(x) dx
mit g(x) =
µ(A) =
2
β
falls β1 ≤ x < 1.
A
1+β 2
Die Iterierten Tβn x liefern die so genannte β-Entwicklung von x ∈ [0, 1)
∞
X
bn
x=
βn
n=1
mit bn ∈ {0, 1} und bn bn+1 = 0 für alle n ∈ N.
22
ERGODENTHEORIE
Aufgabe 5. Man verifiziere all diese Aussagen über Tβ und die βEntwicklung.
6. Nov. 2007
♣ Bsp. 4): Nun eine zweidimensionale Verallgemeinerung der GelfandAbbildung, die so genannte ’baker’s transformation’; hier Blätterteigabbildung. Hierzu sei X = [0, 1)2 ausgestattet mit Produkt-σ-Algebra B × B und
dem Produkt-Lebesgue-Maß λ × λ (das sich in natürlicher Weise durch
Produktbildung des eindimensionalen Maßes λ ergibt). Unsere Abbildung
ist gegeben durch
(2x, y2 )
falls 0 ≤ x < 12 ,
2
2
b : [0, 1) → [0, 1) ,
(x, y) 7→ b(x, y) =
1
(2x − 1, y+1
2 ) falls 2 ≤ x < 1
1
1
Tz
z
0
1/2
1
0
1
2
0
1
Abbildung 4. Die Blätterteigabbildung b in Zeitlupe.
Diese Bilder entstammen den Maple-notebooks von Geon Ho Choe [7].
Die Bilder entstehen durch mathematischen Pointillismus13: hier werden die
Punkte (xj , b(xj ) für eine große Menge von (möglichst gleichverteilten) xj
als Approximation an den Graphen von b gezeichnet.
Die Blätterabbildung b ist invertierbar, meßbar und maßtreu bzgl. des
Produktmaßes λ × λ; sie verdankt ihren Namen dem Mischprozess, den ein
Bäcker Wasser und Mehl beim Zubereiten von Teig unterwirft.
1
1
y
1
y
0
y
0
0
1
0
0
x
1
x
0
1
x
Abbildung 5. Die Iterationen b, b2 , b3 der Blätterteigabbildung.
13Wörtlich: etwas mit Punkten darstellen; Stilrichtung im Impressionismus mit Geor-
ges Seurat als prominentestem Vertreter.
4. Maßtreue Abbildungen
23
Aufgabe 6. Man verifiziere alle Aussagen über die Baker-Abbildung.
1
5
y
y
0
0
0
0
1
1
x
x
Abbildung 6. Die logistische Transformation: links der
Graph y = 4x(1 − x), rechts der Graph der Dichte.
♣ Bsp. 5): Die so genannte logistische Transformation
T : [0, 1] → [0, 1]
x 7→ 4x(1 − x)
ist meßbar und maßtreu bzgl.
1
µ(A) =
π
Z
A
p
dx
.
x(1 − x)
Tatsächlich tritt diese Dichte auch in der kürzlich durch R. Taylor bewiesenen Vermutung von Sato & Tate über die Verteilung der Gruppenordnungen modulo p reduzierter elliptischer Kurven im Hasse-Intervall auf (siehe
R. Taylor, Automorphy for some l-adic lifts of automorphic mod l representations. II. erhältlich unter http://www.math.harvard.edu/∼rtaylor/).14
♣ Bsp. 6): Identifizieren wir die Kreisgruppe T (wie schon zuvor) mit dem
Einheitsintervall [0, 1) modulo 1, so ist T2 = T × T das Einheitsquadrat
[0, 1)2 , bei dem gegenüberliegende Seiten miteinander identifiziert werden.
Damit ist T2 der zweidimensionale Torus. Die Abbildung
x
2 1
x
2
2
A : T →T ,
7→
mod 1
y
1 1
y
(komponentenweise) ist invertierbar (da die auftretende Matrix nicht verschwindende Determinante hat) und maßtreu bzgl. des zweidimensionalen
Lebesgue-Maßes. Man nennt A auch “Arnold cat map” zu Ehren von V.I.
Arnold — wer sich fragt warum, der möge in V.I. Arnold, A. Avez, Ergodic Problems of classical mechanics, Benjamin, NY 1968, nachschlagen.
14Es ist die Gleichverteilung auf den Konjugationsklassen der ‘special unitary group’
SU2 (C) bzgl. des Haarschen Maßes. Ähnlich kann man den berühmten Nachweis der
Weilschen Vermutungen durch P. Deligne, La conjecture de Weil. II. Publ. Math., Inst.
Hautes Étud. Sci. 52 (1980), 137-252, als Gleichverteilungsresultat der Frobenius Konjugationsklassen auffassen.
24
ERGODENTHEORIE
Die Abbildung A ist ein Beispiel eines so genannten toralen Automorphismus.
1
1
y
1
y
0
y
0
0
1
0
0
x
1
0
x
Abbildung 7. Iterationen der “Arnold cat
A, A2 , A3 von links nach rechts. Wo ist die Katze?
1
x
map”,
Ein vorerst letztes Beispiel, das wir aber nicht vertiefen werden, ist das so
genannte 3X +1-Problem (auch Collatz- oder Syracuse-Problem), welches
auf der folgenden Iterationsvorschrift basiert:
x/2 falls x gerade,
x 7→ T x =
3x + 1 falls x ungerade,
angewandt auf N. Es gilt also z.B.
... 7→ 12 7→ 6 7→ 3 7→ 10 7→ 5 7→ 16 7→ 8 7→ 4 7→ 2 7→ 1 7→ ...,
was also zyklisch wird. Es wird vermutet, dass diese Iteration jede beliebige
natürliche Zahl schließlich in den Zykel . . . 7→ 4 7→ 2 7→ 1 7→ 4 7→ ... abbildet, bzw. etwas schwächer, dass diese Iteration keine divergenten Trajektorien besitzt. Die Abbildung T ist sicherlich nicht injektiv. Dieses Beispiel
illustriert sehr schön, dass es Sinn macht, wenn möglich, auch die Vergangenheit einer Iteration zu studieren: Was wird unter der Iteration von T
alles auf 1 abgebildet? Tatsächlich besteht ein interessanter ergodischer Ansatz zur Lösung des 3X + 1-Problemes, da die Abbildung T maßtreu auf
den ganzen 2-adischen Zahlen Z2 ausgestattet mit dem Haarschen Maß
ist. Diese Beobachtung geht zurück auf K.R. Matthews & A.M. Watts,
A generalization of Hasse’s generalization of the Syracuse algorithm, Acta
Arith. 43 (1984), 167-175; sie zeigten u.a., dass die Iterierten T n x für fast
alle x ∈ Z2 gleichverteilt sind modulo 2k für jedes k ∈ N (mit Hilfe des Birkhoffschen Ergodensatzes). Leider würde eine Herleitung derselben uns hier
zu weit führen; weitere Information über dieses Problem findet man in dem
Übersichtsartikel von J.C. Lagarias, The ’3X + 1’ Problem and its generalizations, Amer. Math. Mon. 92 (1985), 3-23, bzw. bei G. Wirsching,
The Dynamical system generated by the 3X + 1 function, Lecture Notes in
Mathematics 1681, Springer 1998.
4. Maßtreue Abbildungen
25
Weitere interessante Beispiele maßtreuer Abbildungen findet man in [7].
Für den wichtigen Fall der Bernoulli-shifts schaue man in [3].
Aufgabe 7. Sei X = [0, 1) und B die Borelsche σ-Algebra mit dem
Lebesgue-Maß λ sowie die Abbildung T definiert durch T 0 = 0 und
T x = { x1 } für x ∈ (0, 1). Gesucht ist ein Maß µ auf X, so dass T maßtreu bzgl. µ ist.
Jetzt wiederholen wir skizzenhaft die Einführung des Lebesgue-Integrals
bzw. die Integration bzgl. eines allgemeinen Maßes µ. Gegeben also ein
Maßraum (X, F, µ), so heißt eine Funktion f : X → R meßbar (bzw. µmeßbar), wenn die Menge {x ∈ X : f (x) < α} für jedes α ∈ R meßbar
ist (also in F liegt). Insbesondere sind also stetige Funktionen meßbar bzgl.
des Lebesgue-Maßes bzw. allgemeinen Maßen zu Borelschen σ-Algebren.
Zunächst erklärt man das Integral für nicht negative, einfache Funktionen η
(d.h., das Bild von η ist endlich). Dazu schreibt man η als endliche Linearkombination von Indikatorfunktionen
η=
m
X
mit Bj := {x : η(x) = cj }
cj χBj
j=1
und paarweise verschiedenen cj ≥ 0, deren Gesamtheit η(X) ausmacht (insbesondere sind dann die Mengen Bj disjunkt). Hierbei ist die zu B ⊂ X
erklärte Indikatorfunktion χB definiert durch
1 falls x ∈ B,
χB (x) =
0 falls x 6∈ B;
offensichtlich ist diese Funktion genau dann meßbar, wenn B meßbar ist und
Entsprechendes gilt für einfache η. Das Integral von χB mit B ∈ F über eine
meßbare Menge A ist sinnvoll erklärt durch
Z
χB dµ = µ(A ∩ B).
A
bzw. für meßbare einfache Funktionen η (wie oben) durch
Z
Z
m
m
X
X
cj µ(A ∩ Bj ).
χBj dµ =
cj
η dµ =
A
A
j=1
j=1
Mit einfachen Funktionen lässt sich jede nicht negative, reellwertige meßbare
Funktion f beliebig genau approximieren und das Lebesgue-Integral hierzu
wird erklärt durch
Z
Z
ηµ,
f dµ = sup
A
A
26
ERGODENTHEORIE
wobei das Supremum über alle meßbaren einfachen Funktionen η mit 0 ≤
η ≤ f genommen wird. Mit der Youngschen Zerlegung
f = f+ − f−
mit f + := max{f, 0},
f − := − min{f, 0}
(8)
gewinnt man das Integral für eine allgemeine meßbare reellwertige Funktion
f , nämlich
Z
Z
Z
f dµ =
A
A
f + dµ −
f − dµ
A
für jede meßbare Menge A, durch Anwendung auf die Summanden f + und
f − . Die Funktion f heißt dabei integrierbar (bzw. µ-integrierbar), wenn beide Integrale auf der rechten Seite endlich sind. Das so erklärte LebesgueIntegral hat alle wichtigen Eigenschaften eines Integrals wie etwa Monotonie
und Linearität (womit wir auch das Integral für komplexwertige meßbare Funktionen definieren können), auch hängt es nicht von der Wahl der
Darstellungen der einfachen Funktionen als Linearkombination von Indikatorfunktionen ab. Wichtig bei dieser Konstruktion ist die σ-Additivität
des zu Grunde liegenden Maßes, mit dessen Hilfe sich bei Funktionenfolgen Eigenschaften wie Meßbarkeit und Integrierbarkeit auf deren Limiten
vererben! Dies äußert sich insbesondere in den Lebesgueschen Konvergenzsätzen (wie z.B. der Satz von der majorisierten Konvergenz), die nicht
für das Riemann-Integral bestehen. Diese sind wichtige Werkzeuge im weiteren Verlauf der Vorlesung. Zu 1 ≤ p < +∞ notieren wir den Vektorraum
aller µ-integrierbaren Funktionen f : X → C mit
1
Z
p
p
< +∞
|f | dµ
kf kp :=
X
mit
Lp (X, F, µ).
f ∼g
Teilen wir diesen Raum nach der Äquivalenzrelation
: ⇐⇒
{x ∈ X : f (x) 6= g(x)}
ist Nullmenge
aus, so erhalten wir einen normierten Quotientenvektorraum
Lp (X, F, µ) = Lp (X, F, µ)/ ∼
oder kurz Lp , in dem zwei Funktionen, deren Werte sich höchstens auf einer Nullmenge unterscheiden, in ein und derselben Äquivalenzklasse liegen;
dabei wird die Norm als Fortsetzung von k · k definiert. Der berühmte Satz
von Riesz & Fischer besagt, dass die Räume Lp vollständig sind. Der Fall
p = +∞ spielt im Weiteren keine wichtige Rolle.
Ein sehr schönes und prägnantes Zitat zum Vergleich zwischen Lebesgueund Riemann-Integral von Lebesgue selbst:
“The geometers of the seventeenth century considered the integral
of f (x) — the word ‘integral’ had not been invented, but that does
not matter — as the sum of an infinity of indivisibles, each of which
4. Maßtreue Abbildungen
27
was the ordinate, positive or negative, of f (x). Very well! We have
simply grouped together the indivisibles of comparable size. (...)
One could say that, according to Riemann’s procedure, one tried to
add the indivisibles by taking them in the order in which they were
furnished by variation in x, like an unsystematic merchant who
counts coins and bills at random in the order in which they came
to hand, while we operate like a methodical merchant who says:
I have m(E1 ) pennies which are worth 1 · m(E1 ),
I have m(E2 ) nickels which are worth 5 · m(E2 ),
I have m(E3 ) dimes which are worth 10 · m(E3 ), etc.
Altogether then I have
S = 1 · m(E1 ) + 5 · m(E2 ) + 10 · m(E3 ) + . . .
The two procedures will certainly lead the merchant to the same
result becaue no matter how much money he has there is only a
finite number of coins or bills to count. But for us who must add
an infinite number of indivisibles the difference between the two
methods is of capital importance.” (Lebesgue, 1966).
Nun weiter mit einem Kriterium zur Maßtreue (analog zum Weylschen
Satz 3 zur Gleichverteilung modulo Eins):
Satz 6. Eine Abbildung T : X → X ist genau dann µ-treu, wenn für alle
µ-integrierbaren Funktionen f : X → C gilt, dass
Z
Z
f dµ = f ◦ T dµ.
(9)
Im Falle metrischer Räume genügt es, die Bedingung nur für auf X stetige Funktionen f zu fordern. Eine Implikation ergibt sich dabei durch den
folgenden Beweis von Satz 6; die andere folgt mit den Darstellungssätzen
von Hahn-Banach und Riesz (siehe etwa W. Rudin, Real and complex
analysis, Oldenbourg 1987.)
Beweis. Gilt (9), so folgt mit der Indikatorfunktion χA einer meßbaren
Menge A insbesondere
Z
Z
Z
µ(A) = χA dµ = χA ◦ T dµ = χT −1 A dµ = µ(T −1 A),
also ist T maßtreu.
Angenommen, T ist maßtreu, so gilt (9) (nach dem bereits Bewiesenen)
insbesondere für alle Indikatorfunktionen und damit auch für jede einfache Funktion (d.h, für jede Funktion mit endlichem Bild). Sei zunächst
f ≥ 0 und (fn ) eine konvergente Folge meßbarer einfacher Funktionen mit
Grenzwert f , dann gilt auch limn→∞ fn ◦ T = f ◦ T . Lebesgues Satz von
28
ERGODENTHEORIE
der majorisierten Konvergenz besagt für eine Folge von meßbaren Funktionen gn : X → R mit fast überall existierenden und meßbaren Grenzwert
g = limn→∞ gn sowie |gn (x)| ≤ G(x) für fast alle x ∈ X mit einer integrierbaren Funktion G, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
X n→∞
n→∞ X
Speziell mit gn = fn ◦ T bzw. mit gn = fn folgt hier
Z
Z
Z
Z
fn dµ = f dµ,
fn ◦ T dµ = lim
f ◦ T dµ = lim
n→∞
n→∞
wobei wir im vorletzten Schritt (9) für einfache Funktionen anwenden durften. Mittels der Zerlegung (8) folgt (wie üblich in der Maßtheorie) die Behauptung für allgemeine reellwertige f ; den Fall komplexwertiger f bekommt
man (wie auch schon im Beweis von Satz 4) über die Zerlegung in Real- und
Imaginärteil. Der Satz ist bewiesen. •
♣ Bsp. 7): Es sei T : R → R definiert durch T 0 = 0 und
1
1
Tx = 2 x −
für x 6= 0.
x
Es gilt
T −1 (α, β) = (α −
p
α2 + 1, β −
p
β 2 + 1) ∪ (α +
p
α2 + 1, β +
p
β 2 + 1),
also ist T meßbar. Für jede Lebesgue-integrierbare Funktion f besteht mit
der Substitution y = T x, dy = 21 (1 + x12 ) dx die Identität
Z +∞
Z +∞
dy
dx
f (y)
=
.
f (T x)
2)
π(1
+
x
π(1
+ y2 )
−∞
−∞
Also ist T nach Satz 6 maßtreu bzgl. des Wahrscheinlichkeitsmaßes P, definiert durch
Z β
dx
.
P((α, β)) =
2
α π(1 + x )
Hier kann man auch alternativ das Additionstheorem
p
p
arctan(x + x2 + 1) + arctan(x − x2 + 1) = arctan(x)
benutzen. Übrigens rührt die Abbildung T von Newtons Näherungsverfahren angewandt zur Auffindung der reellen Nullstellen von f (x) = x2 + 1 her.
Die Newton-Iteration übersetzt sich wie folgt:
f (xn )
x2 + 1
1
1
xn+1 = xn − ′
↔
Tx = x −
= 2 x−
.
f (xn )
2x
x
Gäbe es eine reelle Nullstelle, so würde die Folge der xn konvergieren, da aber
stets f (x) 6= 0, ist die Iteration nicht konvergent. Dieses Beispiel stammt von
D. Lind (cf. [7]).
5. Ergodizität und Mischen
29
Aufgabe 8. Sei (X, F, µ) ein Maßraum und T : X → X meßbar. Man
zeige, dass die Menge aller T -invarianten Mengen A eine σ-Algebra bilden.
5. Ergodizität und Mischen
Bekanntlich können bei der Lebesgue-Integration Nullmengen außer
Acht gelassen werden. Z.B. ist die Dirichlet-Funktion δ = χQ , erklärt
durch δ(x) = 1 für x ∈ Q und δ(x) = 0 für x ∈ R \ Q nicht Riemannintegrierbar, wohl aber existiert das Lebesgue-Integral
Z
δ dλ = λ([0, 1] ∩ Q) = 0
[0,1]
(da Q abzählbar ist und damit eine Nullmenge). Dies spiegelt genau das wieder, was wir von einem Integral über eine Funktion, die meist gleich Null ist,
erwarten. Gilt eine Eigenschaft E für alle x ∈ A \ B, wobei A, B µ-meßbare
Mengen sind und ist B eine Nullmenge, also µ(B) = 0, so sagen wir E gilt
für fast alle x ∈ A bzw. E gilt fast überall auf A. Ist µ ein Wahrscheinlichkeitsmaß, so können wir das auch kurz mit µ(A) = 1 notieren und das
Ereignis E mit A identifizieren.
Im Folgenden wollen wir uns bis auf weiteres in einem Wahrscheinlichkeitsraum (X, F, µ) bewegen. Eine maßtreue Abbildung T : X → X heißt
ergodisch bzgl. µ, wenn für jede meßbare Menge A mit T −1 A = A entweder
µ(A) = 0 oder µ(A) = 1 gilt. In diesem Fall sprechen wir auch von einem
ergodischen dynamischen System (X, F, µ, T ). Ergodisch bedeutet also, dass
jede meßbare T -invariante Menge entweder eine Nullmenge ist oder volles
Maß hat.15
Satz 7. Die folgenden Aussagen sind äquivalent:
(i)
(ii)
(iii)
(iv)
T ist ergodisch;
Für B ∈ F mit µ(T −1 B∆B) = 0 gilt µ(B) = 0 oder = 1;
S
Für A ∈ F mit µ(A) > 0 gilt µ( n T −n A) = 1;
Für A, B ∈ F mit µ(A) > 0 und µ(B) > 0 existiert ein n ∈ N mit
µ(T −n A ∩ B) > 0.
Ist T invertierbar, so kann man in diesen Bedingungen natürlich T −n durch
T n ersetzen. Jetzt ein wenig Interpretation dieser Formeln: Die Bedingung
(iii) besagt, dass, wenn A positives Maß besitzt, fast jedes x ∈ X schließlich
(und sogar unendlich oft — warum?) A besuchen wird, bzw. (iv) zeigt, dass
jedes Element von B fast sicher irgendwann unter T nach A gelangt.
15In der Wahrscheinlichkeitstheorie kennt man viele so genannte 0 − 1-Gesetze (etwa
die von Kolmogorv, Borel).
30
ERGODENTHEORIE
Beweis. (i) ⇒ (ii): Angenommen B ist meßbar mit µ(T −1 B∆B) = 0 und
T ist ergodisch. Wir bilden den Limes superior
C :=
∞ [
∞
\
T −n B.
m=0 n=m
Für m ∈ N0 gilt
B∆
∞
[
T
−n
n=m
Da
B∆T
−n
B ⊂
B ⊂
n−1
[
∞
[
B∆T −n B.
n=m
T −k B∆T −(k+1) B
k=0
und die Menge auf der rechten Seite Maß Null hat, folgt µ(B∆T −n B) = 0
S
−n B, so sind die C ineinander
für beliebiges n ∈ N. Sei jetzt Cm = ∞
m
n=m T
geschachtelt:
C0 ⊃ C1 ⊃ C2 ⊃ . . .
und es gilt µ(Cm ) = µ(B) für jedes m ∈ N0 . Also folgt µ(C∆B) = 0 bzw.
µ(C) = µ(B). Ferner ist
T −1 C =
∞ [
∞
\
T −(n+1) B =
m=0 n=m
∞
\
∞
[
T −n B = C
m=0 n=m+1
und nach Voraussetzung folgt µ(C) = 0 oder µ(C) = 1. Mit dem zuvor
Gezeigten folgt nun µ(B) = 0 oder µ(B) = 1.
S
−n A.
(ii) ⇒ (iii): Sei nun A gegeben mit µ(A) > 0 und sei B = ∞
n=1 T
Dann gilt
∞
[
−1
T −n A ⊂ B.
T B=
n=2
Da T maßtreu ist, folgt weiter µ(T −1 B) = µ(B) und damit
µ(B∆T −1 B) = µ(B) − µ(T −1 B) = 0.
Also folgt µ(B) = 0 oder µ(B) = 1; da T −1 A ⊂ B und µ(A) > 0 ist
µ(B) = 1.
(iii) ⇒ (iv): Seien A und B Mengen positiven Maßes. Nach (iii) gilt
!
∞
[
T −n A = 1
µ
n=1
und damit
0 < µ(B) = µ
∞
[
n=1
B∩T
−n
!
A
insbesondere existiert also ein n mit µ(B
≤
∞
X
n=1
µ(B ∩ T −n A);
∩ T −n A)
> 0.
5. Ergodizität und Mischen
31
(iv) ⇒ (i): Sei A eine Menge mit T −1 A = A, dann gilt
0 = µ(A ∩ X \ A) = µ(T −n A ∩ X \ A)
für beliebiges n ≥ 1. Also folgt aus (iv), dass µ(A) = 0 oder µ(X \ A) = 0
bzw. µ(A) = 1 − µ(X \ A) = 1. Der Satz ist bewiesen. •
Jetzt kommen wir zu einem weiteren Kriterium für Ergodizität, das für
viele praktische Anwendungen einfacher zu verifizieren ist.
Satz 8. Die folgenden Aussagen sind äquivalent:
(i) T ist ergodisch;
(v) Ist f eine meßbare Funktion mit f (T x) = f (x) für (fast) alle x,
dann ist f fast überall konstant.
(vi) Ist f ∈ L2 (X, F, µ) mit f (T x) = f (x) für (fast) alle x, dann ist f
fast überall konstant.
In den Bedingungen (v) und (vi) mag man die Gleichung f (T x) = f (x) für
alle oder auch nur für fast alle x ∈ X fordern; wegen der Vernachlässigbarkeit
von Nullmengen bei der Lebesgue-Integration besteht hier Äquivalenz.
Beweis. (i) ⇒ (v): Angenommen, T ist ergodisch und f : X → C meßbar
und T -invariant. Da dann insbesondere der Realteil und der Imaginärteil
von f T -invariant sind, dürfen wir uns auf den Fall eines reellwertigen f
beschränken. Für k ∈ Z und n ∈ N sei
Akn = {x ∈ X : f (x) ∈ [ nk , k+1
n )}.
Dann gilt
T −1 Akn ∆Akn ⊂ {x ∈ X : f ◦ T (x) 6= f (x)};
da die Menge auf der rechten Seite eine Nullmenge ist, folgt nach Satz 7,
(ii), dass µ(Akn ) ∈ {0, 1}. Für jedes n ist X die disjunkte Vereinigung der
S
Mengen Akn , also X = k∈Z Akn . Also gibt es ein eindeutiges k(n) (abhängig
k(n)
von n), so dass µ(An
) = 1. Bilden wir also die Menge
Y =
∞
\
Ak(n)
n ,
n=1
so gilt µ(Y ) = 1 und f ist konstant auf Y (klar?). Da sich Y und X höchstens
bis auf eine Nullmenge unterscheiden, folgt somit, dass f fast überall konstant ist.
Die Implikation (v) ⇒ (vi) ist trivial; es verbleibt also der Beweis von
(vi) ⇒ (i): Angenommen, T −1 A = A für eine meßbare Menge A positiven
Maßes, so haben wir µ(A) = 1 zu zeigen. Für die Indikatorfunktion zu A
gilt χA ∈ L2 (X, F, µ) und χA ◦ T = χT −1 A = χA . Nach Vorraussetzung ist
13. Nov. 2007
32
ERGODENTHEORIE
χA fast überall konstant, d.h. χA (x) = 1 für fast alle x. Damit folgt aber
µ(A) = 1. Der Satz ist bewiesen. •
Nun wollen wir einige Beispiele von maßtreuen Abbildungen aus dem
vorigen Kapitel auf Ergodizität untersuchen. Beide sind über eine Periodizitätsvorschrift erklärt, was in diesen beiden Fällen nahe legt, Kriterium
(vi) des gerade bewiesenen Satzes mit Methoden der Fourier-Analysis benutzen zu wollen. Wir erinnern hierzu, dass jede L2 -Funktion durch ihre
Fourier-Reihe dargestellt wird (siehe etwa W. Rudin, Reelle und Komplexe Analysis, Oldenbourg 1989).
♣ Bsp. 1): Die Kreisrotation Rθ : [0, 1) → [0, 1), x 7→ x + θ mod 1
beschreibt die Verteilung der gebrochenen Anteile der reellen Zahlenfolge
xn = nθ + β mit β = Rθ 0. Korollar 5 zeigte, dass die Folge (nθ) genau
dann modulo 1 gleichverteilt ist, wenn θ irrational ist. Ganz analog gilt
dies natürlich auch für ‘geshiftete’ Folgen (nθ + β). Der nachfolgende Satz
erläutert, dass dies ein ergodisches Phänomen ist:
Satz 9. Die Kreisrotation Rθ ist genau dann ergodisch bzgl. des LebesgueMaßes, wenn θ irrational ist.
Beweis. Ist θ = pq rational, so ist x 7→ e(qx) eine nicht konstante Rθ invariante Funktion:
e(qRθ x) = exp(2πiq(x + pq )) = exp(2πiqx) exp(2πip) = e(qx).
Insbesondere ist Rθ nach Satz 8, (vi), also nicht ergodisch.
Ist θ irrational, und
X
f (x) =
cn e(nx)
(10)
n
die Fourier-Reihe einer Rθ -invarianten Funktion f ∈ L2 , dann gilt
X
f (x) = f (Rθ x) = f (x + θ) =
cn e(nθ) e(nx)
n
und also mit der Eindeutigkeit der Fourier-Entwicklung cn = cn e(nθ) bzw.
cn (1 − e(nθ) = 0
für n ∈ Z.
Für n 6= 0 folgt e(nθ) 6= 1 mit der Irrationalität von θ und also cn = 0. Damit
ist f (x) = c0 , also konstant und mit Satz 8, (vi), folgt die Ergodizität von
Rθ . Der Satz ist bewiesen. (Für einen Beweis frei von Fourier-Analysis
verweisen wir auf [5].) •
♣ Bsp. 2): Wir betrachten also die Abbildung T : [0, 1) → [0, 1), x 7→
2x mod 1. Wie oben gehen wir wieder von einer T -invarianten Funktion
5. Ergodizität und Mischen
33
f ∈ L2 mit Fourier-Entwicklung (10) aus. Dann gilt
X
f (x) = f (T x) =
cn e(2nx)
n
und ein Koeffizientenvergleich liefert nun cn = c2n . Nach der Parsevalschen
Gleichung gilt für die Koeffizienten
Z 1
X
2
|f (x)|2 dx =
|cn |2 < +∞.
kf k2 =
0
n
Also kann es kein cn 6= 0 mit n 6= 0 geben. Damit ist höchstens c0 verschieden
von Null und mit Satz 8, (v), folgt die Ergodizität von T . Dies lässt sich auf
torale Endomorphismen erweitern:
Satz 10. Es sei A ∈ Zd×d eine Matrix und
Tφ : Td → Td ,
φ(x) = Ax mod 1
für x ∈ Td . Dann ist Tφ genau dann ergodisch, wenn A keine Einheitswurzel
als Eigenwert besitzt.
Insbesondere ist die Abbildung x 7→ x mod 1 nicht ergodisch. Der Beweis
dieses allgemeinen Kriteriums ist nicht viel schwieriger als der skizzierte
Spezialfall (nur länger) und kann in [2, 7] nachgelesen werden.
Aufgabe 9. Es sei m > 1 eine natürliche Zahl und X = Z/mZ der zugehörige Restklassenring modulo m (siehe etwa [11]). Sei ferner F = P(X)
und µ die Gleichverteilung auf X. Zu b ∈ {1, 2, . . . , m} sei
Tb : X → X,
x 7→ x + b mod m.
Zeige: i) Tb ist maßtreu, und ii) (X, F, µ, Tb ) ist genau dann ergodisch, wenn
b und m teilerfremd sind.
Der Ergodizität verwandt ist der Begriff des Mischens. Wir sagen eine
Abbildung T ist stark mischend, wenn für alle A, B ∈ F
lim µ(A ∩ T −n B) = µ(A)µ(B)
n→∞
gilt. Demgegenüber heißt T schwach mischend, falls stattdessen
1 X
lim
|µ(A ∩ T −n B) − µ(A)µ(B)| = 0
N →∞ N
0≤n<N
gilt. Es besteht die folgende Kette von Implikationen:
stark mischend
⇒
schwach mischend
⇒
ergodisch.
Ein Beispiel für einen stark mischenden Prozess ist etwa die Blätterteigabbildung β; hingegen sind Kreisrotationen Rθ mit irrationalem θ nur ergodisch,
34
ERGODENTHEORIE
nicht aber stark mischend; ein Beispiel zur Abgrenzung zwischen schwachem und starkem Mischen findet man bei S. Kakutani, Examples of ergodic measure preserving transformations which are weakly mixing but not
strongly mixing, in “Recent advances in topological dynamics”, Proceedings
Conference Yale University in honour of G.A. Hedlund, Lecture Notes Math.
318, Springer 1973, 143-149.
Aufgabe 10. Man beweise all diese Behauptungen über Mischen und Ergodizität, insbesondere deren Hierarchie.
6. Die Ergodensätze von Birkhoff und von Neumann
In der statistischen Mechanik berechnet man die physikalischen Eigenschaften eines Systems durch Mittelung über alle möglichen Zustände des
Systems. Diese Idee geht auf Boltzmann (1871) zurück, der hierzu die
Ergodenhypothese aufgestellt hat. Diese Hypothese behauptet eine Äquivalenz bzgl. der Mittelung entlang einer Trajektorie (griechisch odos) des
Systems und der Mittelung aller möglichen Zustände gleicher Energie (griechisch ergon) (bzw. Gleichheit zwischen dem zeitlichen Mittelwert und dem
Ensemble- oder Scharmittelwert). Maxwell (1879) formulierte hierzu, dass
jedes System in irgendeinem Zustand, früher oder später, jeden mit den physikalischen Gegebenheiten konsistenten Zustand durchlaufen wird. Poincaré entdeckte (1890), dass es zu restriktiv ist zu fordern, dass die Trajektorie jeden Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar
ist) tatsächlich besucht, dass also diese strenge Ergodenhypothese falsch ist.
Poincaré formulierte stattdessen eine abgeschwächte Ergodenhypothese,
derzufolge die Trajektorie jedem Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar ist) in endlicher Zeit beliebig nahe kommt (ihn aber
nicht unbedingt durchlaufen muss). Die Ergodensätze geben eine mathematische Begründung dieser abgeschwächten Ergodenhypothese und bilden
damit die Grundlage der statistischen Mechanik.16
Einer der ersten Ergodensätze (und vielleicht auch der wichtigste) ist der
von G.D. Birkhoff, Proof of the ergodic theorem, Proc. Nat. Acad. Sci.
USA 17 (1931), 656-660:
Satz 11. Sei T eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ). Gilt dann f ∈ L(X, F, µ), so existiert für fast alle
16Im Falle spontaner Symmetriebrechung kann die Ergodenhypothese verletzt werden
(Ergodizitätsbrechung) — es können dann disjunkte ergodische Bereiche im Phasenraum
auftreten; dieses Szenario kann bei Phasenübergängen auftreten, wie etwa beim Erstarren
einer Flüssigkeit oder bei Spingläsern.
6. Die Ergodensätze von Birkhoff und von Neumann
x ∈ X der Grenzwert
1
N →∞ N
f ∗ (x) := lim
X
35
f (T n x)
0≤n<N
und es gelten f ∗ (T x) = f ∗ (x) sowie f ∗ ∈ L(X, B, µ) und
Z
Z
f dµ.
f ∗ dµ =
(11)
X
X
Ist ferner T ergodisch, so ist f ∗ fast überall konstant und es gilt
Z
1 X
f dµ.
f (T n x) =
lim
N →∞ N
X
(12)
0≤n<N
Dieser Satz heißt auch punktweiser Ergodensatz. Er besagt, dass das Zeitmittel von f längs eines Orbits {T n x} für fast alle x gleich dem Scharmittel
von f (über den gesamten Raum X) ist. Dies liefert i.A. eine sehr präzise
Vorhersage, obwohl kaum etwas über f oder T bekannt sein mag. Sei etwa
M ⊂ X meßbar, so folgt mit f = χM bei ergodischem T , dass das Mittel
der Besuche von T n x in M für fast alle x gleich dem Maß von M ist — Ergodizität erzwingt gewissermaßen eine Gleichverteilung! G.D. Birkhoff,
What is the ergodic theorem?, Amer. Math. Monthly 49 (1942), 222-226,
gibt denn auch Anwendungen im idealisierten Erde–Sonne–Mond–Problem
(ein eingeschränktes Dreikörperproblem).17 Unser Beweis folgt T. Kamae
& M. Keane, A simple proof of the ratio ergodic theorem, Osaka J. Math.
34 (1997), 653-657.
Beweis. Offensichtlich genügt es den Satz für nicht negative Funktionen zu
beweisen, da ansonsten (wie stets in der Integrationstheorie) mit Hilfe der
Linearität des Integrals zunächst für reellwertige f jeder der Summanden in
der Zerlegung f = f + − f − mit nicht negativen f + , f − für sich behandelt
werden kann (siehe (8)), und dann der Übergang zu komplexwertigen Funktionen durch separate Betrachtung ihrer Real- bzw. Imaginärteils gelingt.
Sei also f ≥ 0. Dann definieren wir punktweise
X
fN (x) =
f (T n x)
0≤n<N
sowie
f (x) = lim sup
N →∞
fN (x)
N
17Und auch zum konvexen Billiard.
und
f (x) = lim inf
N →∞
fN (x)
.
N
36
ERGODENTHEORIE
Damit sind f und f meßbar (denn ganz allgemein gilt lim supN →∞ gN (x) =
inf m supN ≥m gN (x) bzw. etwas analoges für lim inf). Wegen
fN (T x)
fN +1 (x) N + 1 f (x)
f (T x) = lim sup
= lim sup
·
−
N
N +1
N
N
N →∞
N →∞
fN +1 (x)
= f (x)
= lim sup
N +1
N →∞
ist f also T -invariant; ganz analog zeigt man f (T x) = f (x). Um die Existenz
des Grenzwertes f ∗ , seine Integrierbarkeit und T -Invarianz zu zeigen, genügt
es
Z
Z
Z
X
20. Nov. 2007
f dµ ≤
X
f dµ ≤
f dµ
(13)
X
zu zeigen, denn dann folgt über f ≤ f zunächst f (x) = f (x) = f ∗ (x) für fast
alle x und nach Integration somit (11). (Ist nämlich das Lebesgue-Integral
über eine nicht negative Funktion gleich Null, so ist die Funktion fast überall
gleich Null.)
Nun sei ǫ ∈ (0, 1) und L > 0 beliebig gegeben. Nach Definition von f gibt
es dann zu jedem x ∈ X eine natürliche Zahl m mit
fm
≥ (1 − ǫ) min{f (x), L}.
m
Zu jedem δ > 0 gibt es ferner eine natürliche Zahl M , so dass
X+ := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≥ m(1 − ǫ) min{f (x), L}
ein Maß größer gleich 1 − δ besitzt. Definiere nun
f (x) falls x ∈ X+ ,
˜
f (x) =
L
sonst.
Dann gilt f ≤ f˜; ist nämlich x ∈ X \ X+ , so gilt fm (x) < m(1 −
ǫ) min{f (x), L} und damit f ≤ L. Für x ∈ X und n ∈ N0 sei
an := an (x) := f˜(T n x)
und
bn := bn (x) := (1 − ǫ) min{f (x), L}.
Dann gibt es für jedes n ∈ N0 eine natürliche Zahl 1 ≤ m ≤ M , so dass
an + . . . + an+m−1 ≥ bn + . . . + bn+m−1 .
(14)
Um dies zu verifizieren, nehmen wir zunächst T n x ∈ X+ an. In diesem
Fall gibt es ein 1 ≤ m ≤ M , so dass
fm (T n x) ≥ m(1 − ǫ) min{f (T n x), L}
= m(1 − ǫ) min{f (x), L} = bn + . . . + bn+m−1 ;
6. Die Ergodensätze von Birkhoff und von Neumann
37
hier haben wir die oben bewiesene T -Invarianz von f benutzt. Also gilt
an + . . . + an+m−1 = f˜(T n x) + . . . + f˜(T n+m−1 x)
≥ f (T n x) + . . . + f (T n+m−1 x) = fm (T n x)
= bn + . . . + bn+m−1 .
Ist hingegen T n x 6∈ X+ , so mag man m = 1 nehmen, denn dann gilt
an = f˜(T n x) = L ≥ (1 − ǫ) min{f (x), L} = bn .
Also ist unsere Behauptung über (14) bewiesen.
Mit (14) gibt es nun zu jeder natürlichen Zahl N > M rekursiv definierte
ganze Zahlen m0 < m1 < . . . < mk < N mit m0 ≤ M, mj+1 − mj ≤ M für
j = 0, 1, . . . , k − 1 und N − mk ≤ M sowie
a0 + . . . + am0 −1 ≥ b0 + . . . + bm0 −1 ,
am0 + . . . + am1 −1 ≥ bm0 + . . . + bm1 −1 ,
...
...
amk−1 + . . . + amk −1 ≥ bmk−1 + . . . + bmk −1 .
Addition dieser Ungleichungen führt auf
a0 + . . . + aN −1 ≥ a0 + . . . + amk −1
(15)
≥ b0 + . . . + bmk −1 ≥ b0 + . . . + bN −M −1 .
Übersetzt bedeutet dies
X
f˜(T n x) ≥ (N − M )(1 − ǫ) min{f (x), L}
0≤n<N
(man beachte dabei, dass die bn allesamt unabhängig von n sind). Wir integrieren diese Ungleichung über X und erhalten
Z
X Z
n
˜
min{f (x), L} dµ(x).
f (T x) dµ(x) ≥ (N − M )(1 − ǫ)
0≤n<N
X
X
Wegen der Maßtreue von T gilt nach Satz 6
Z
Z
g(x) dµ(x)
g(T x) dµ(x) =
X
X
für alle integrierbaren Funktionen g, insbesondere für g = f˜. Damit entledigen wir uns der Mittelung über 0 ≤ n < N und erhalten
Z
Z
˜
min{f (x), L} dµ(x).
f dµ ≥ (N − M )(1 − ǫ)
N
X
X
Da
Z
X
f˜(x) dµ(x) =
Z
X+
f (x) dµ(x) + Lµ(X \ X+),
38
ERGODENTHEORIE
ergibt sich nach Konstruktion
Z
Z
Z
f˜(x) dµ(x) − Lµ(X \ X+ )
f (x) dµ(x) =
f (x) dµ(x) ≥
X
X+
X
Z
N −M
≥
min{f (x), L} dµ(x) − Lδ.
(1 − ǫ)
N
X
Nun lassen wir zunächst N gegen Unendlich streben, dann δ und ǫ gegen
Null und erhalten
Z
Z
min{f , L} dµ.
f dµ ≥
X
X
Der Satz von der monotonen Konvergenz besagt für eine (bis auf eine vernachlässigbare Nullmenge) monoton wachsende Folge nicht negativer meßbarer Funktionen gn : X → R, dass
Z
Z
( lim gn ) dµ.
gn dµ =
lim
X n→∞
n→∞ X
Speziell mit gL = min{f , L} und L → ∞ können wir also Limesbildung und
Integration vertauschen:
Z Z
Z
lim min{f , L} dµ =
f dµ.
min{f , L} dµ =
lim
L→∞ X
Also ergibt sich
X
Z
X
L→∞
f dµ ≥
Z
X
f dµ.
X
Dies ist die zweite Ungleichung in (13).
Für den Nachweis der ersten Ungleichung in (13) starten wir ähnlich wie
oben: Für ǫ > 0 existiert zu jedem x ∈ X eine natürliche Zahl m mit
fm (x)
≤ f (x) + ǫ.
m
Zu beliebigem δ > 0 gibt es eine natürliche Zahl M , so dass
X− := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≤ m(f (x) + ǫ)
ein Maß mindestens 1 − δ besitzt. Jetzt definiere man
f (x) falls x ∈ X− ,
fˆ(x) =
0
sonst.
Dann gilt fˆ ≤ f und mit bn = fˆ(T n x) und an = f (x) + ǫ (unabhängig von
n diesmal) folgt via (14) und (15) nun
X
fˆ(T n x) ≤ N (f (x) + ǫ).
0≤n<N −M
Integration beider Seiten ergibt unter Berücksichtigung der Maßtreue von T
Z
Z
f dµ + ǫN.
fˆ dµ ≤ N
(N − M )
X
X
6. Die Ergodensätze von Birkhoff und von Neumann
39
Da f ≥ 0, ist das Maß µ̃ definiert durch
Z
f dµ
µ̃(A) =
A
absolut stetig, d.h. es gibt ein δ̃ > 0, so dass µ̃(A) < δ, wenn immer µ(A) < δ̃.
Wegen µ(X \ X− ) < δ, folgt deshalb
Z
Z
Z
Z
N
ˆ
f dµ ≤
f dµ +
f dµ =
(f + ǫ) dµ + δ̃
N −M X
X\X−
X
X
Mit zunächst N → ∞, dann δ → 0 (und damit ebenso δ̃ → 0) und letztendlich ǫ → 0 ergibt sich
Z
Z
f (x) dµ(x)
f (x) dµ(x) ≤
X
X
und damit ist (13) bewiesen.
Es verbleibt im Falle einer ergodischen Abbildung T , die Identität (12)
zu zeigen. Nach Satz 8, (v), ist f ∗ fast überall konstant, also f ∗ (x) = c für
fast alle x ∈ X. Dann gilt aber
Z
Z
∗
f dµ.
f dµ =
c=
X
X
Der Satz ist bewiesen. •
Die Konvergenz im Birkhoffschen Satz kann sehr langsam sein. Speziell in den vorangegangenen Beispielen illustriert sich dies mit Hilfe von
Simulationen wie folgt:
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
0
1000
n
0
0
1000
n
0
1000
n
Abbildung 8. Links T x = 2x mod 1, in der Mitte die logistische Abbildung T x = 4x(1 − x), rechts der Graph der
Abbildung T x = {1/x}, die später eine wichtige Rolle spielen
wird.
Als erste Anwendung des Birkhoffschen Ergodensatz beweisen wir nun
eine weitere maßtheoretische Charakterisierung von Ergodizität:
Satz 12. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu bzgl. µ. Dann ist T genau dann ergodisch, wenn für alle A, B ∈ F
40
ERGODENTHEORIE
gilt, dass
1
N →∞ N
lim
X
0≤n<N
µ(T −n A ∩ B) = µ(A)µ(B).
(16)
Der Satz besagt also, dass die Bilder einer Menge A unter einer ergodischen
Abbildung T im Mittel einen Teil einer beliebig gegebenen meßbaren Menge
B überdecken, der proportional zum Maß von B ist! Man vergleiche diese Charakterisierung von Ergodizität mit den Begriffen des schwachen und
starken Mischens aus dem vorangegangenen Kapitel.
Beweis. Angenommen, T is ergodisch, dann liefert der Birkhoffsche Ergodensatz 11 angewandt mit der Indikatorfunktion f = χA
Z
1 X
χA dµ = µ(A)
(17)
χA (T n x) =
lim
N →∞ N
X
0≤n<N
für fast alle x. Damit folgt
1 X
1
lim
χT −n A∩B (x) = lim
N →∞ N
N →∞ N
0≤n<N
X
χA (T n x)χB (x) = µ(A)χB (x)
0≤n<N
fast überall. Für jedes N ist der links auftretende Limes beschränkt gegen
die Funktion konstant 1. Also ergibt sich mit dem Lebesgueschen Satz von
der majorisierten Konvergenz (zitiert im Beweis von Satz 6) sofort
Z
1 X
1 X
lim
lim
µ(T −n A ∩ B) =
χT −n A∩B (x) dµ(x)
N →∞ N
N →∞ N
X
0≤n<N
0≤n<N
Z
χB (x) dµ(x) = µ(A)µ(B),
= µ(A)
X
also Formel (16).
Für die Umkehrung nehmen wir an, dass T −1 A = A gelte. Mittels A = B
folgt dann aus (16), dass
1 X
µ(A) = µ(A)2 ,
lim
N →∞ N
0≤n<N
was auf µ(A) = 0 oder µ(A) = 1 führt. Der Satz ist bewiesen. •
Es gibt viele verschiedene Beweise dieses Satzes. Einen alternativen Beweis,
der auf der Wienerschen Maximalungleichung beruht, findet man etwa in
[5].
Wir werden in den folgenden Kapiteln viele Anwendungen des Birkhoffschen Ergodensatzes geben. Zum Aufwärmen mag man die Beispiele
aus den vorangegangenen Kapiteln untersuchen.
Aufgabe 11. Man wende den Birkhoffschen Ergodensatz 11 auf die
Kreisrotation an und gebe damit einen alternativen Beweis für Korollar 5.
6. Die Ergodensätze von Birkhoff und von Neumann
41
Als Nächstes beweisen wir den Ergodensatz von John von Neumann,
Proof of the quasi-ergodic hypothesis, Nat. Proc. Acad. Sci USA 18 (1932),
70-82. Dies ist tatsächlich der erste Ergodensatz überhaupt (auch wenn sein
Ergebnis erst ein Jahr nach Birkhoff veröffentlicht wurde).
Satz 13. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X
maßtreu. Dann gilt für f, g ∈ L2 (X, F, µ), dass der Grenzwert
Z
1 X
f (T n x)g(x) dµ(x)
N
X
0≤n<N
für N → ∞ existiert; ist T ergodisch so gilt
Z
Z
Z
1 X
g dµ.
f dµ
f (T n x)g(x) dµ(x) =
lim
N →∞ N
X
X
X
(18)
0≤n<N
Dieser Satz heißt auch Ergodensatz im Mittel, da hier noch über X integriert
wird; die Funktion g beschreibt dabei irgendeine zulässige Gewichtsfunktion.
Speziell mit g = f ergibt sich die L2 -Konvergenz
1
lim N →∞ N
X
0≤n<N
f (T n x) − f ∗ 2 = 0
(19)
gegen eine T -invariante Grenzfunktion f ∗ ∈ L2 . Der von Neumannsche Ergodensatz ist eine funktionalanalytische Variante. Die rechte Seite ist dabei
gerade die orthogonale Projektion von f auf den Raum der T -inavrianten
fR im Hilbert-Raum L2 versehen mit dem Skalarprodukt hf, gi = kf gk22 =
f g dµ. Wir geben nur eine Skizze vom
Beweis. Betrachte den Unterraum aller T -invarianten Funktionen
I := {f ∈ L2 : f ◦ T = f }
sowie
J := {f ∈ L2 : ∃ h ∈ L2 mit f = h ◦ T − h}.
Für f1 ∈ I und f2 = h ◦ T − h ∈ J gilt offenbar
1
N
X
0≤n<N
f1 (T n x) = f1 (x)
und
1
N
X
0≤n<N
f2 (T n x) =
1
(h(T N x) − h(x))
N
für jedes N ∈ N. Mit der Cauchy-Schwarzschen Ungleichung folgt
Z
1 2
n
(h(T x) − h(x))g dµ(x) ≤ khk2 kgk2 ,
N X
N
42
ERGODENTHEORIE
was gegen Null geht für N → ∞. Können wir f gemäß f = f1 + f2 mit
solchen f1 , f2 zerlegen, so folgt also
Z
1 X
f (T n x)g(x) dµ(x)
N
0≤<N X
Z
Z
1 X
f2 (T n x)g(x) dµ(x)
f1 (x)g(x) dµ(x) +
=
N
X
X
0≤<N
und damit
Z
Z
Z
1 X
n
lim
f g dµ.
f1 g dµ =
f (T x)g(x) dµ(x) =
N →∞ N
X
X
X
0≤<N
I.A. gibt es allerdings keine solche Zerlegung von f . Tatsächlich genügt es,
für beliebig kleines ǫ > 0 Funktionen f1 ∈ I und f2 ∈ J zu finden, so dass
Z
|f − (f1 + f2 )|2 dµ < ǫ
X
gilt, also f1 + f2 die Zielfunktion f im quadratischen Mittel beliebig genau
approximieren. Ganz ähnlich wie oben im Falle f = f1 + f2 skizziert, ergibt
sich dann
Z
Z
Z
1 X
n
lim
g dµ.
f dµ
f (T x)g(x) dµ(x) =
N →∞ N
X
X
X
0≤n<N
Zum Abschluss des Beweises verbleibt also lediglich zu zeigen, dass eine
Zerlegung von L2 in eine direkte Summe L2 = I + J existiert, wobei J für
den Abschluss von J steht. Dazu nehmen wir an, dass f orthogonal auf J
steht, also hf, f2 i = 0 für alle f2 ∈ J gilt, bzw. insbesondere
Z
Z
2
|f | dµ = f ◦ T · f dµ.
X
Dann ist zu zeigen, dass f ∈ I. Hierzu berechnet man leicht
Z
|f ◦ T − f |2 dµ = 0.
X
Also gilt f ◦ T = f fast überall, d.h. f ∈ I, was den Beweis abschließt. •
Aufgabe 12. Man vervollständige die obige Berweisskizze (etwa mit Hilfe
von [10]) und schlussfolgere ausserdem (19). Man zeige ferner, dass für f ∈
Lp mit 1 ≤ p < +∞ die Konvergenz (19) gegen dieselbe Aussage bzgl. der
p-Norm mit einem Grenzwert f ∗ ∈ Lp ersetzt werden kann
Birkhoff wählte gegenüber den Vorarbeiten von von Neumann das
Konzept des Maßraumes, was i.A. zu einem allgemeineren und stärkeren
Ergodensatz führt. Wichtige Verallgemeinerungen beider Ergodensätze gelangen u.a. N. Wiener & A. Wintner, Harmonic analysis and ergodic
theory, Amer. J. Math. 63 (1941, 415-426, durch Betrachtung allgemeiner
6. Die Ergodensätze von Birkhoff und von Neumann
43
Maßräume, W. Hurewicz, Ergodic theorem without invariant measure,
Ann. Math. 45 (1944), 192-206,18 unter Einbeziehung von Gewichten, und
schließlich – noch allgemeiner – R.V. Chacon & D.S. Ornstein, A general ergodic theorem, III. Journal Math. 4 (1960), 153-160 (siehe hierzu auch
[4]).
Diese Ergodensätze wurden von Kolmogorov und Kchintchine in die
Sprache der Wahrscheinlichkeitstheorie übertragen (siehe hierzu [9, 7]). Im
R
Satz von Birkhoff ist dabei f ∗ = f dµ im Falle einer ergodischen Abbildung T als Erwartungswert von f zu verstehen. Diese Sichtweise erlaubt
weitreichende Verallgemeinerungen eines fundamentalen Gleichverteilungssatz: Das Gesetz der großen Zahlen besagt, dass zu einer gegebenen Folge
von identisch verteilten, unabhängigen Zufallsvariablen X1 , X2 , . . . auf einem
Wahrscheinlichkeitsraum mit endlichem Erwartungswert E|Xn | < +∞, im
Grenzwert
N
1 X
Xn = EX1
fast überall
lim
N →∞ N
n=1
gilt. Die Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen kann also mit der Mittelung über die möglichen Realisierungen einer
einzigen vertauscht werden — ohne ein solches Grenzverhalten wäre eine
Theorie des Zufalls unmöglich. Diese Beobachtung geht bereits zuruück auf
Daniel Bernoulli; die erste Formulierung für Zufallsvariable verdanken
wir Tschebyscheff.
Eine wichtige Anwendung besitzt der Birkhoffsche Ergodensatz in der
Wertverteilungstheorie von Zeta- und L-Funktionen. Voronin bewies eine
erstaunliche Approximationseigenschaft für die Riemannsche Zetafunktion
∞
Y
X
1 −1
1
=
1
−
ζ(s) :=
ns
ps
p
n=1
für Re s > 1, wobei das Produkt über alle Primzahlen erhoben wird (und die
Identität zwischen Produkt und Reihe eine analytsiche Version der eindeutigen Primfaktorzerlegung in Z ist); ζ(s) besitzt eine analytische Fortsetzung
nach C \{1} (in s = 1 besteht mit der harmonischen Reihe eine Singularität).
Voronin bewies: Sei 0 < r < 41 und g(s) eine nicht verschwindende stetige
Funktion definiert auf der Kreisscheibe |s| ≤ r, die im Inneren analytisch
ist, dann gibt es ein reelles τ > 0 mit
max ζ s + 43 + iτ − g(s) < ǫ;
|s|≤r
18siehe dazu auch das exzellente Internetskript von Dajani, zu finden unter
http://www.math.uu.nl/people/dajani/lecturenotes2006.pdf
44
ERGODENTHEORIE
die Menge aller τ ∈ [0, T ] mit dieser Eigenschaft hat eine positive untere
Dichte bzgl. des Lebesgue-Maßes (siehe S.M. Voronin, Theorem on the
’universality’ of the Riemann zeta-function, Izv. Akad. Nauk SSSR, Ser. Matem., 39 (1975), 475-486 (Russisch); Math. USSR Izv. 9 (1975), 443-445).
Mittlerweile kennt man viele ähnliche Beispiele universeller Zetafunktionen,
die also die Approximation einer großen Klasse von Funktion durch Translate ihrer selbst erlauben. Man vermutet, dass jede Dirichlet-Reihe mit hinreichend reichhaltiger Wertverteilung diese Eigenschaft mit der Zetafunktion teilt; in diesem Zusammenhang besteht auch die Frage: Ist Universalität
ein ergodisches Phänomen? Die modernen Beweise von solchen Universalitätstheoremen benutzen tatsächlich den Birkhoffschen Ergodensatz, erlauben aber leider nicht, Universalität als eine ergodische Eigenschaft von
Zetafunktionen zu verstehen. Interessanterweise publizierte Birkhoff auch
einen Universalitätssatz (Démonstration d’un théorème élémentaire sur les
fonctions entières, C. R. Acad. Sci. Paris 189 (1929), 473-475): Es gibt eine
ganze Funktion f (z) mit der Eigenschaft, dass es zu jeder gegebenen ganzen
Funktion g(z) eine Folge komplexer Zahlen an gibt mit
f (z + an )
−→ g(z)
n→∞
gleichmäßig auf Kompakta in C.
Obwohl das Resultat dem Voroninschen sehr ähnelt, so ist die Birkhoffsche universelle Funktion f nicht explizit bekannt; tatsächlich kennt
man nur explizite universelle Funktionen, die der Riemannschen Zetafunktion in einem gewissen Sinne ähnlich sind. Mehr zu diesem Themenkreis
findet man in J. Steuding, Value distribution of L-functions, Lecture Notes in Mathematics 1877, Springer 2007.
Abschliessend etwas Biographisches zu unseren Protagonisten (cf. ‘The MacTutor History of Mathematics archive’ http://turnbull.mcs.st-and.ac.uk/ history/): George D. Birkhoff, ∗1884 -†1944, vielleicht der bekannteste amerikanische Mathematiker seiner Zeit, lehrte und arbeitete in Harvard und Princeton über mathematische Physik, insbesondere Differentialgleichungen (bewies u.a. Poincarés ‘Last
Geometric Theorem’, ein Spezialfall des Dreikörperproblems), dem Vierfarbenproblem, und natürlich dynamischen Systemen und Ergodentheorie. Sein Ergodensatz
gab der kinematischen Gastheorie von Maxwell und Boltzmann ein rigoroses
Fundament.
“Birkhoff ’s discovery of what has come to be known as the ’ergodic theorem’ in 1931 - 32 is his most well-known contribution
to dynamics. This theory, which resolved in principle one of the
fundamental problems arising in the theory of gases and statistical mechanics, has been influential not only in dynamics itself but
also in probability theory, group theory, and functional analysis.”
(Butler)
6. Die Ergodensätze von Birkhoff und von Neumann
45
Er gewann den ersten Bocher Memorial Prize der American Mathematical Society
und engagierte sich als deren Vizepräsident. Es gibt jedoch auch eine negative
Seite: So beschrieb ihn Einstein als einer der Welt größten Antisemiten; Birkhoff
hat aus seiner einflussreichen Position heraus bei der Besetzung von Professuren
kategorisch die Einstellung von Juden verhindert. In der Ergodentheorie spielt auch
sein Sohn Garrett Birkhoff, ∗1911-†1996, eine wichtige Rolle. Im Gegensatz
zu seinem Vater, war Garrett nicht antisemitisch eingestellt. Zuerst arbeitete
er in der Gruppentheorie, während des zweiten Weltkrieges und auch später dann
mehr zu angewandten Problemen der Mathematik (insbesondere numerische lineare
Algebra). In dieser Zeit befreundete er sich mit John von Neumann.
John von Neumann (eigentlich János mit Vornamen), ∗1903 -†1957, wuchs in
einer jüdischen Familie in Budapest auf und beeindruckte seine Umwelt schon sehr
früh mit seinem phänomenalen Gedächtnis:
“At the age of six, he was able to exchange jokes with his father in
classical Greek. The Neumann family sometimes entertained guests
with demonstrations of Johnny’s ability to memorise phone books.
A guest would select a page and column of the phone book at random. Young Johnny read the column over a few times, then handed
the book back to the guest. He could answer any question put to him
(who has number such and such?) or recite names, addresses, and
numbers in order.” (Poundstone)
von Neumann studierte Mathematik (aber auch Chemie!) ab 1921 in Budapest,
Berlin und Zürich u.a. bei Weyl und Pólya; er promovierte 1926 mit einer Arbeit
über Ordinalzahlen in der Mengenlehre. Er lehrte daraufhin in Berlin, Hamburg
und Göttingen (noch zu Zeiten Hilberts). Auf Einladung von Veblen kam von
Neumann 1929 nach Princeton um über Quantenmechanik vorzutragen; kurz danach wurde er dort Professor am neugegründeten Institute for Advanced Studies
(zusammen mit Alexander, Einstein, Morse, Veblen und Weyl). Nebenbei
hatte er auch noch akademische Positionen in Deutschland inne, von denen er jedoch sofort bei der Machtergreifung durch die Nazis zurücktrat. von Neumann
ist auch bekannt durch seine Vorliebe für ausschweifende Parties. In der Mathematik beschäftigte er sich u.a. mit Logik und axiomatischer Mengenlehre, Maßtheorie,
der mathematischen Begründung der Quantenmechanik, statistischer Mechanik und
Operatortheorie. In diesem Kontext gelang ihm auch der erste Beweis eines Ergodensatzes überhaupt; auch gelang ihm mit diesen Ideen und Haars Entwicklung
der Maßtheorie für Gruppen eine Teillösung des fünften Hilbertschen Problems
(über die Charakterisierung von Lie-Gruppen). Ferner arbeitete er zur Spieltheorie (die er im Wesentlichen begründete), fastperiodischen Funktionen, nicht linearen
partiellen Differentialgleichungen, aber auch in der Begründung der Informatik (zelluläre Automaten). Während des zweiten Weltkrieges trug er in Los Alamos mit
wesentlichen Ideen am Bau der Atom- und Wasserstoffbombe bei. Er gewann viele
Preise und Ehrungen und starb recht jung an Krebs.
46
ERGODENTHEORIE
7. Die Wiederkehrsätze von Poincaré und Kac
27. Nov. 2007
Ist unser Sonnensystem stabil? Die Dynamik von zwei Körpern im
Raum unter Berücksichtigung ihrer Anziehungskräfte werden von den Keplerschen Gesetzen beschrieben. H. Poincaré gelang in seiner Arbeit: Sur
le problème des trois corps et les équations de la dynamique, Acta Math. 13
(1890), 1-270(!!!), eine Teillösung des so genannten Dreikörperproblems, d.h.
die mathematische Beschreibung des Bahnverlaufes von drei Körpern unter
dem gegenseitigen Einfluss ihrer gegenseitigen Gravitationskräfte.19 In dieser
Arbeit sowie dem monumentalen, dreibändigen Werk Les méthodes nouvelles de la mécanique céleste, Paris. Gauthier-Villars et Fils, 1892-1899, legt
H. Poincaré die Fundamente für die mathematische Ergodentheorie. Hier
findet sich u.a. auch der berühmte Wiederkehrsatz von Poincaré.20 Zuallererst benötigen wir aber noch ein wenig Vokabular. Sei T eine maßtreue
Abbildung auf einem Wahrscheinlichkeitsraum (X, F, µ) und A eine meßbare Menge. Ein Punkt x ∈ A heißt dann A-rekurrent, wenn es eine natürliche
Zahl n gibt, so dass T n x ∈ A gilt. Der Rekurrenzbegriff ist von zentraler
Bedeutung in der topologischen Dynamik. Tritt derselbe Zustand in einem
dynamischen System exakt in derselben Weise wieder ein, so sprechen wir
auch von Periodizität. Abschwächend dazu gibt es auch den von H. Bohr
entwickelten Begriff der Fastperidoizität, falls man nur auf die ein oder andere Weise in die Nähe des Zustandes gelangt. Poincarés Wiederkehrsatz
gibt sogar noch mehr als bloße Rekurrenz:
Satz 14. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0.
Dann kehrt für fast alle x ∈ A der Orbit {T n x}n unendlich oft nach A
zurück, insbesondere ist x fast sicher A-rekurrent.
19Diese
ausserordentliche Arbeit wurde vom schwedischen König Oscar II. aus Anlass
seines sechzigsten Geburtstages prämiert; allerdings verzögerte sich die Publikation um
drei Jahre (bzw. fünfzig Briefen Korrespondenz mit Phragmén und Mittag-Leffler,
die einen Fehler in der ursprünglichen Fassung gefunden hatten). Sie enthält die wesentlichen Ideen und Konzepte zur Behandlung chaotischer Bewegungen und invarianter Integrale. Die allgemeine analytische Lösung des Dreikörperproblems fand Sundman 1907.
Die Stabilität eines Dreikörpersystems beschreibt die KAM-Theorie von Kolmogorov,
Arnold & Moser aus der Periode 1954-1964.
20Über Poincaré gäbe es noch sehr viel zu berichten, z.B., dass er mit Lorentz und natürlich Einstein zu den Entdeckern der speziellen Relativitätstheorie
gehört, und natürlich seine Arbeiten zur Topologie, incl. dem ersten geknackten der sieben Millenniumsprobleme, nämlich der kürzlich von Perelman bewiesenen PoincaréVermutung. Für eine ausführliche Würdigung seines Wirkens siehe http://turnbull.mcs.stand.ac.uk/ history/.
7. Die Wiederkehrsätze von Poincaré und Kac
47
P
n
Äquivalent hierzu ist die Divergenz der unendlichen Reihe ∞
n=0 χA (T x)
für fast alle x. Diese Formulierung erinnert an die fast überall bestehende
Gleichung (17) aus dem Beweis von Satz 12. Tatsächlich folgt direkt aus
dem Birkhoffschen Ergodensatz
Z
1 X
n
χA dµ = µ(A).
χA (T x) =
lim
N →∞ N
X
0≤n<N
Die Einschränkung, dass Rekurrenz i.A. nur fast überall besteht, es also eine
Nullmenge von nicht-rekurrenten Punkten geben kann, sieht man leicht mit
Hilfe der Abbildung T x = 2x mod 1 aus dem Gelfandschen Problem ein:
Der Orbit von x = 12 ist schließlich stationär in 0. Der Poincarésche Wiederkehrsatz liefert allerdings einen Beweis der schwachen Ergodenhypothese.
Natürlich hat Poincaré seinen Satz nicht in der Sprache der Maßtheorie
verfasst und bewiesen.
Wir geben jetzt einen alternativen Beweis, der weniger schweres Geschütz
benutzt:
Beweis. Sei B die Teilmenge von A, die genau aus den nicht A-rekurrenten
x besteht, d.h.
B = {x ∈ A : T n x 6∈ A
für alle n ∈ N}.
Wir zeigen zunächst µ(B) = 0. Es gilt B ∩ T −n B = ∅ für beliebiges
n und damit T −m B ∩ T −n B = ∅ für alle m 6= n. Also sind die Mengen B, T −1 B, T −2 B, . . . paarweise disjunkt und weil T maßtreu ist, folgt
µ(B) = µ(T −n B) für alle n ∈ N. Angenommen, µ(B) > 0, dann folgte
1 = µ(X) ≥ µ
[
n∈N0
T
−n
B =
∞
X
µ(B) = +∞,
n=0
ein Widerspruch. Dies beweist bereits die A-Rekurrenz µ-fast aller x ∈ A.
Tatsächlich kehren aber sogar fast alle x unendlich oft nach A zurück, denn
bezeichnet
C = {x ∈ A : T n x ∈ A nur für endlich viele n ∈ N},
so gilt
C = {x ∈ A : T n x ∈ B für irgendein n ∈ N0 } ⊂
∞
[
T −n B.
n=0
Wegen µ(B) = 0 folgt mit der Maßtreue von T nun µ(C) = 0. Der Satz ist
bewiesen. •
Dieser Satz (und natürlich auch sein Beweis) basiert darauf, dass wir
es mit einem endlichen Maß zu tun haben. Beispielsweise ist die Abbildung
T : R → R, T (x) = x+1 maßtreu auf R bzgl. des Lebesgue-Maßes, aber für
48
ERGODENTHEORIE
jede beschränkte Menge A ⊂ R mit x ∈ A ist die Menge {n ∈ N : T n x ∈ A}
endlich, womit T keine Rekurrenz zulässt. Dies zeigt auf, dass die Behandlung maßtreuer Abbildungen in Wahrscheinlichkeitsräumen wesentlich einfacher als in allgemeinen Maßräumen ist. Ist übrigens (X, F, µ, T ) ein ergodisches System mit diskretem Zustandsraum X und Gleichverteilung µ, so
ist die Wiederkehr ganz sicher (warum?).
Aufgabe 13. Man beweise folgende metrische Version: Es gelten dieselben
Voraussetzungen wie in Satz 14 und X besitze zusätzlich die Struktur einer
mit µ verträglichen Metrik d. Dann gilt für fast alle x
lim inf d(x, T n x) = 0.
n→∞
Nun eine physikalische Interpretation des Wiederkehrsatzes: Gegeben ein
Container im R3 mit evakuierter rechter Kammer, getrennt von seiner mit
einem Gas gefüllten linken Kammer durch eine Trennwand. Nun wird die
Trennwand entfernt. Ohne die Orte und Geschwindigkeiten der Gasmoleküle
zu diesem Zeitpunkt zu kennen, ist zu erwarten, dass diese nicht in der linken
Kammer verbleiben, sondern sich so mit dem Vakuum rechts mischen, dass
– mehr oder weniger – eine Gleichverteilung entsteht.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
|
|
|
|
|
|
|
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
◦
−→
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
◦
•
◦
•
•
•
◦
•
•
•
◦
•
•
◦
•
◦
◦
◦
◦
◦
•
•
◦
•
◦
•
◦
◦
•
•
◦
•
◦
◦
•
◦
◦
•
◦
•
◦
•
◦
•
◦
•
•
◦
◦
•
•
◦
◦
◦
•
•
•
Entgegen unserer Intuition folgt nach dem Poincaréschens Wiederkehrsatz, dass sich nach endlicher Zeit die Ausgangskonstellation, also rechts das
Vakuum (◦), links sämtliche Gasmoleküle (•) wieder einstellt. Dies ist ein
scheinbarer Widerspruch zum zweiten Hauptsatz der Thermodynamik und
Boltzmanns Satz, demzufolge nämlich die Entropie eines abgeschlossenen
Systems nicht abnehmen kann.21 Allerdings sind diese Aussagen primär statistischer Natur und die scheinbare Inkompatibilität hebt sich auf, wenn man
die erwartete Rückkehrzeit berücksichtigt, die in allen denkbaren praktischen Fällen weit jenseits des Alters unseres Universums ist. Für eine Wahrscheinlichkeitsanalyse, solche Verletzungen des zweiten Hauptsatzes beobachten zu können, siehe D. Evans & D. Searls, The fluctuation theorem,
Advances in Physics 51 (2002), 1529-1585.
21Nach dem zweiten Hauptsatz ist übrigens eine Perpetuum mobile unmöglich.
7. Die Wiederkehrsätze von Poincaré und Kac
49
Im Kontext des Poincaréschen Wiederkehrsatzes 14 ist also die Frage
interessant, wie bald denn der Orbit {T n x} die meßbare Menge A besucht.
Für unsere weiteren Untersuchungen in diese Richtung greifen wir eine Idee
von S. Kakutani, Induced measure preserving transformations, Proc. Imp.
Acad. Tokyo 19 (1943), 635-641, auf, nämlich die Abbildung T nur dann
zu betrachten, wenn T n x sich in A befindet. Zu x ∈ A definieren wir die
Rückkehrzeit von x nach A durch
nA (x) = min{n ∈ N : T n x ∈ A}.
Als Minimum ist nA meßbar (hierbei setzen wir natürlich A als meßbar
voraus). Nach Poincarés Wiederkehrsatz 14 ist nA (x) für fast alle x endlich.
Nun entfernen wir aus A ∈ F die Nullmenge all der x, für die nA (x) =
+∞ gilt und schreiben hierfür wiederum A. Dazu erklären wir ein von µ
induziertes Maß auf der von F ∩ A erzeugten σ-Algebra vermöge
µA (B) =
µ(B)
µ(A)
für B ⊂ A
(was uns an den Begriff der bedingten Wahrscheinlichkeit aus der Stochastik erinnert) und erhalten damit einen weiteren Wahrscheinlichkeitsraum
(A, F ∩ A, µA ). Ferner bilden wir zu T die induzierte Abbildung
TA : A → A,
x 7→ T nA (x) x.
Als Nächstes beweisen wir folgenden technischen
Satz 15. Es sei A meßbar und es gelten die obigen Definitionen und Voraussetzungen. Dann ist die Abbildung TA maßtreu bzgl. µA . Ferner ist mit
T auch TA ergodisch.
Beweis. Für jedes n ∈ N sei
An = {x ∈ A : n(x) = n},
Bn = {x ∈ X \ A : T x, . . . , T n−1 x 6∈ A, T n x ∈ A}.
Dann gilt An ∩ Bm = ∅ und es folgt
T −1 A = A1 ∪ B1
und
T −1 Bn = An+1 ∪ Bn+1
für n ∈ N.
(20)
Sei jetzt C ∈ F ∩ A. Da T maßtreu bzgl. µ ist, gilt µ(C) = µ(T −1 C) und
wir haben selbiges für µA zu zeigen. Es gilt
∞
∞
[
[
−1
−1
An ∩ T −n C,
An ∩ TA C =
TA C =
n=1
n=1
wobei die Mengen An ∩
T −n C
paarweise disjunkt sind. Also folgt
∞
X
µ(An ∩ T −n C).
µ(TA−1 C) =
n=1
(21)
50
ERGODENTHEORIE
Andererseits liefert wiederholtes Anwenden von (20) unter Berücksichtigung
der Maßtreue
µ(T −1 C)
=
=
=
...
=
µ(A1 ∩ T −1 C) + µ(B1 ∩ T −1 C)
µ(A1 ∩ T −1 C) + µ(T −1 (B1 ∩ T −1 C))
µ(A1 ∩ T −1 C) + µ(A2 ∩ T −2 C) + µ(B2 ∩ T −2 C)
N
X
n=1
Nun gilt ähnlich
1≥µ
also strebt µ(Bn
∞
[
µ(An ∩ T −n C) + µ(BN ∩ T −N C).
n=1
Bn ∩ T −n C
∩ T −n C)
!
=
∞
X
n=1
µ(Bn ∩ T −n C),
mit n → ∞ gegen Null. Das impliziert via (21)
µ(C) = µ(T −1 C) =
∞
X
n=1
was auf
µ(An ∩ T −n C) = µ(TA−1 C),
µ(TA−1 C)
µ(C)
=
= µA (TA−1 C)
µ(A)
µ(A)
führt. Also ist TA maßtreu bzgl. µA .
Es verbleibt zu zeigen, dass TA die Ergodizitätseigenschaft erbt. Nehmen
wir also an, dass T ergodisch ist, dann ist für eine T -invariante Menge B ⊂ A
positiven Maßes µA (B) > 0 zu zeigen, dass µA (B) = 1 gilt. Mit der T Invarianz gilt B = TA−1 B = TA−2 B = . . . usw. Also
!
∞
[
B =
T −n B ∩ A.
µA (C) =
n=0
Ist T ergodisch, so folgt wegen 0 < µA (B) = µ(B)/µ(A) also 0 < µ(B) = 1.
Damit gilt
!
∞
[
−n
T B =1
µ
n=0
S∞
T −n B
und es folgt X = n=0
ist vollständig bewiesen. •
bzw. B = A und somit µA (B) = 1. Der Satz
Aufgabe 14. Man zeige, dass mit den obigen Notationen mit T auch TA
invertierbar ist.
Zur Beantwortung der Frage, wie schnell ein Orbit eine gegebene meßbare
Menge wieder besucht, ist es sinnvoll mit dem Ergodensatz von Birkhoff
unser bislang stärkstes Werkzeug zu Hilfe zu ziehen. Wir beweisen nun einen
7. Die Wiederkehrsätze von Poincaré und Kac
51
Erwartungswert von M. Kac, On the notion of recurrence in discrete stochastic processes, Bull. Amer. Math. Soc. 53 (1947), 1002-1010, für die erste
Wiederkehr.
Satz 16. Sei T : X → X eine maßtreue ergodische Transformation auf
einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge
mit µ(A) > 0. Dann ist n ∈ L1 und für die früheste Rückkehr nA (x) eines
Punktes x ∈ A gilt
Z
Z
1
nA (x) dµA (x) =
nA (x) dµ(x) = 1
bzw.
µ(A)
A
A
sowie
1
N →∞ N
lim
X
0≤n<N
nA (T n x) =
1
.
µ(A)
Dieser Satz heißt auch das Lemma von Kac und ist eine quantitative Version des Wiederkehrsatzes von Poincaré. Der Satz besagt, dass die erste
Wiederkehr nach ca. 1/µ(A) zu erwarten ist.
Beweis. Zu x ∈ A betrachten wir den Orbit von x unter TA , also
x, TA x, . . . , TAn x, . . . , TAN x, . . . .
P
Wir setzen t := 0≤n<N nA (TAn x), dann ist t die Zeitdauer, die der Orbit
von x unter T benötigt, die Menge A genau N mal zu besuchen, d.h.
X
χA (T n x) = N.
0≤n<t
Jetzt wenden wir den Birkhoffschen Ergodensatz 11 auf TA und T an (mit
N → ∞ bzw. t → ∞) und erhalten
Z
t
1 X
nA (TAn x) = lim P
nA (x) dµA (x) = lim
n
t→∞
N →∞ N
A
0≤n<t χA (T x)
0≤n<N
−1
Z
1
.
=
χA dµ
=
µ(A)
X
Die Berechnung des Grenzwertes erfolgt ebenso mit dem Birkhoffschen
Ergodensatz. Der Satz ist bewiesen. •
Eine schöne Beweisvariante findet man bei L. Baéz-Duarte, Sobre el promedio espacial del ciclo de Poincaré, Bull. Venezuela Acad. Sciences 24
(1964), 64-66.22
Jetzt wollen wir noch eine mengentheoretische Variante von Satz 14 beweisen:
22engl. Übersetzung unter http://front.math.ucdavis.edu/0505.5625.
4. Dez. 2007
52
ERGODENTHEORIE
Satz 17. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0.
Dann gilt µ(A ∩ T −n A) > 0 für unendlich viele n.
Beweis. Da T nach Voraussetzung maßtreu ist, haben die Mengen
A, T −1 A, T −2 A, . . . dasselbe Maß. Wären all diese Mengen paarweise disjunkt, so würde eine endliche Vereinigung derselben ein Maß größer als
µ(X) = 1 haben, ein Widerspruch. Also gibt es natürliche Zahlen m < n,
so dass µ(T −n A ∩ T −m A) > 0. Mit k = n − m und der Maßtreue von
T folgt daraus µ(A ∩ T −k A) > 0. Wiederholen wir dieses Argument für
A, T −k A, T −2k A, . . ., so ergibt sich µ(A ∩ T −n A) > 0 für unendlich viele n.
Der Satz ist bewiesen. •
Aufgabe 15. Man folgere aus dem obigen Beweis, dass bereits für ein n ≤
1 + [1/µ(A)] die Ungleichung µ(A ∩ T −n A) > 0 bestehen muss.
Dieser Satz kehrt im nächsten Kapitel wieder...
8. Arithmetische Progressionen und der Satz von van der
Waerden
Unter einer arithmetischen Progression der Länge ℓ verstehen wir eine
Folge
a, a + d, a + 2d, . . . , a + (ℓ − 1)d
mit ganzen Zahlen a, d, ℓ, wobei d, ℓ ≥ 1. Beispielsweise ist
3, 13, 23, 33, 43, 53, 63, 73
eine arithmetische Progression der Länge 8. Wir interessieren uns hier für
Mengen ganzer Zahlen, die arithmetische Progressionen beliebiger Länge
enthalten. Beispielsweise enthalten die geraden (bzw. ungeraden) Zahlen
arithmetische Progressionen beliebiger Länge. Wir fragen: Was macht eine solche Menge aus? Wie erkennt man eine Menge mit solch einer Eigenschaft? Was ist ein natürliches Kriterium für die Existenz von arithmetischen Progressionen beliebiger Länge? Sicherlich benötigen wir für deren
Existenz, dass unsere zugrundeliegende Teilmenge unendlich groß ist. Das
allein ist aber sicherlich kein Kriterium, denn etwa die Folge der Zehnerpotenzen,
1, 10, 100, 1000, . . . , 10k , . . . ,
ist ohne jede arithmetische Progression.
P. Erdös & P. Turán, On some integer sequences, J. London Math.
Society 11 (1936), 261-264, vermuteten dass jede Teilmenge {a1 , a2 , . . .} ⊂ N
8. Arithmetische Progressionen und der Satz von van der Waerden
53
mit positiver unterer Dichte, d.h.
lim sup
N →∞
1 X
1 > 0,
N
an ≤N
beliebig lange arithmetische Progressionen enthält. Das ist eine ’unwahrscheinliche’ Behauptung, da keinerlei Strukturvoraussetzungen über die
Menge der an gemacht wird, lediglich dass sie in einem gewissen Sinne groß
ist. Zur Illustration: die Menge der ungeraden ganzen Zahlen (ist hinreichend groß und) besitzt keine Tripel der Form x, y, x + y, allerdings jedoch
Tripel der Gestalt x, 12 (x + y), y, welches eine arithmetische Progression der
Länge drei ist. Tatsächlich geht es hier um eine ganz besondere Eigenschaft
von arithmetischen Progressionen! Die Vermutung von Erdös & Turán
wurde zuerst von E. Szemerédi, On sets of integers containing no k elements in arithmetic progression, Acta Arith. 27 (1975), 199-224, mit einem
komplizierten kombinatorischen Argument bewiesen. Er zeigte tatsächlich
etwas mehr: Bezeichnet rℓ (n) die maximale Anzahl einer Menge in [1, n],
die keine arithmetische Progression der Länge ℓ enthält, dann gilt
rℓ (n)
= 0.
n→∞ n
lim
(22)
Wie folgt hieraus die Vermutung von Erdös & Turán? Die Funktion rℓ (n)
ist offensichtlich subadditiv, d.h.
rℓ (m + n) ≤ rℓ (m) + rℓ (n)
für alle m, n ∈ N. Damit folgt aber
rℓ (n)
rℓ (kn)
≤
,
kn
n
womit also der Grenzwert limn→∞ rℓn(n) für jedes ℓ ∈ N existiert und endlich
ist. Die quantitative Version der Vermutung von Erdös & Turán besagt
nun, dass all diese Grenzwerte gleich Null sind, kurz die Gültigkeit von
(22). Den allerersten Schritt in diese Richtung – den Fall von arithmetischen
Progressionen der Länge drei – hatte allerdings bereits K.F. Roth (On
certain sets of integers, J. London Math. Soc. 28 (1953), 104-109) geleistet,
der r3n(n) → 0 zeigte. An dem Beispiel von Progressionen der Länge drei
kann man aber auch schön etwas über das Wachstum von r3 (n) lernen. Hier
eine Aufgabe von Szekeres zu diesem Thema:
Aufgabe 16. Jede natürliche Zahl besitzt eine eindeutige ternäre Entwicklung, d.h.
m
X
n=
ak 3k
mit ak ∈ {0, 1, 2}
k=0
54
ERGODENTHEORIE
mit einem passenden m (abhängig von n). Man zeige, dass es in der Teilmenge der natürlichen Zahlen, deren ternäre Entwicklung keine Ziffer 2 enthält,
keine arithmetische Progression der Länge drei gibt. Man folgere
r3 ( 21 (3k + 1)) ≥ 2k .
H. Furstenberg (Ergodic behavior of diagonal measures and a theorem of Szemerédi on arithmetic progressions, J. d’Analyse Math. 71 (1977),
204-256) untersuchte sehr erfolgreich das Problem der simultanen Wiederkehr von Mengen positiven Maßes. In diesem Zusammenhang bewies er eine
weitreichende Verallgemeinerung von Satz 17: Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei
A eine meßbare Menge mit µ(A) > 0. Dann gibt es für jede natürliche Zahl
k eine natürliche Zahl n, so dass
µ(A ∩ T −n A ∩ . . . ∩ T −kn A) > 0.
(23)
Dieser Satz bildet das Herz des ergodischen Beweises den Furstenberg
für Szemerédis Satz (22) gefunden hat. Wir wollen diesen Zusammenhang
kurz illustrieren, ohne aber den schwierigen Beweis tatsächlich zu geben
(wofür wir an dieser Stelle auf [10] verweisen). Wir schreiben Ω = {0, 1}Z
für den Raum aller beidseitig unendlichen {0, 1}-Folgen und interpretieren
seine Elemente als charakteristische Funktionen χA zu Mengen A ⊂ Z. Da
{0, 1} kompakt ist, ist auch Ω nach dem Satz von Tychonoff (siehe etwa
Jänich, Topologie, Springer) kompakt und wir erklären eine Metrik auf Ω
wie folgt: Gegeben zwei Folgen x = (xn ), y = (yn ), so sei
N (x, y) = min{N ∈ N : xN 6= yN oder x−N 6= y−N }
für x 6= y, und
d(x, y) =
2−N (x,y)
0
falls x 6= y,
sonst.
(24)
Man verifiziert leicht, dass d eine Metrik auf Ω ist und somit (Ω, d) ein
kompakter metrischer Raum (wir greifen dies in Satz 19 noch einmal auf).
Wir untersuchen nun die shift-Abbildung
σ : Ω → Ω, ,
ω(n) 7→ σω(n) = ω(n + 1).
(25)
Gegeben ein Element ω ∈ Ω, so sagen wir, dass 1 mit positiver BanachDichte auftritt, wenn die Menge Z := {n ∈ Z : ω(n) = 1} eine positive
Banach-Dichte besitzt, d.h.
lim sup
♯I→∞
♯Z ∩ I
> 0,
♯I
wobei I durch die Menge der Intervalle von Z läuft, was also gut in unseren
Kontext passt und ♯I für die Anzahl der ganzen Zahlen in I steht. Wir setzen
8. Arithmetische Progressionen und der Satz von van der Waerden
55
ferner zu ω ∈ Ω nun X = {σ n ω : n ∈ Z} ⊂ Ω. Dann kann man zeigen, dass
genau dann, wenn 1 mit positiver oberer Banach-Dichte auftritt, ein σinvariantes Maß µ auf X existiert mit
µ(A) > 0
für A := {ω ∈ Ω : ω(0) = 1}.
Jetzt skizzieren wir, wie man Furstenbergs simultanen Wiederkehrsatz
(23) auf die Erdös-Turan-Vermutung anwenden kann (gewisse Details
werden weiter unten in einem ähnlichen Zusammenhang detailliert wiederholt). Angenommen, M ⊂ Z besitzt eine positive obere Banach-Dichte.
Dann gibt es nach (23) also zu gegebenem k eine natürliche Zahl n und
einen Punkt ω ∈ Ω, so dass σ jn ω ∈ B ∩ X für 0 ≤ j < k. Dies impliziert
aber
ω(0) = ω(n) = . . . = ω((k − 1)n) = 1.
Weil ω ∈ X der Grenzwert von Translaten der charakteristischen Funktion
χA ist, folgt
χA (b) = χA (b + n) = . . . = χA (b + (k − 1)n) = 1
für ein b ∈ Z, so dass also A die arithmetische Progression b, b + n, . . . , b +
(k − 1)n enthält. Das ist die Essenz des Furstenbergschen Beweises des
Satzes von Szemerédi. ◦
Furstenbergs ergodischer Zugang steht für den Beginn einer beeindruckenden Erfolgsgeschichte. Den Anfang gibt wieder ein offenes Problem,
das nicht unter die Sätze von Szemerédi und Furstenberg fällt: Enthalten die Primzahlen beliebig lange arithmetische Progressionen? Zählt π(x)
die Anzahl der Primzahlen p ≤ x, so besagt der Primzahlsatz
x
für x → ∞
π(x) := ♯{p ≤ x : p prim} ∼
log x
(siehe etwa G.H. Hardy, E.M. Wright, An introduction to the theory of
numbers, Oxford Science Publications, für einen elementaren Beweis nach
Erdös und Selberg). Also haben die Primzahlen asymptotische Dichte
Null in N und somit greift Szemerédis Satz nicht. Aufbauend auf den Vorarbeiten von T. Gowers (mittels harmonischer Analysis) bewiesen im Jahr
2004 B.J. Green & T. Tao, The Primes contain arbitrarily long arithmetic
progressions, Annals of Math. (im Druck):23
Die Menge der Primzahlen enthält beliebig lange arithmetische
Progressionen.
Die zur Zeit längste bekannte Sequenz von Primzahlen in arithmetischer
Progression hat Länge 23:
56 211 383 760 397 + 44 546 738 095 860 k
für k = 0, 1, . . . , 22
23auch erhältlich unter http://arxiv.org/abs/math.NT/0404188
56
ERGODENTHEORIE
und wurde berechnet von M. Frind, P. Underwood & P. Jobling (cf.
dem oben genannten Artikel von Green & Tao). Zur Illustration der Tiefe
des Satzes von Green & Tao, versuche der geneigte Leser diesen Rekord zu
brechen! Die neuen Methoden von Green & Tao sind anwendbar auf sehr
dünne Mengen (tatsächlich benutzen sie neben Maßtheorie fast nur klassische Zahlentheorie) und man darf spekulieren, dass sich mit ihren Werkzeugen noch viele weitere Ergebnisse erzielen lassen. Besonders interessant ist in
diesem Zusammenhang die offene Primzahlzwillingsvermutung, die besagt,
dass es unendlich viele Paare von Primzahlen der Form p, p + 2 gibt, was
allerdings ohne weitere Ideen bislang noch nicht anreifbar ist. T. Gowers
und später T. Tao, A quantitative ergodic theory proof of Szemerédi’s
theorem, Electronic J. Combinatorics 13 (2006), R99, haben quantitative
Ergebnisse erzielt.24
Hier wollen wir nun einen dynamischen Beweis des verwandten Satzes von
B.L. van der Waerden (Beweis einer Baudetschen Vermutung, Nieuw
Arch. Wisk. 15 (1928), 212-216) geben:
Satz 18. Teilt man Z in endlich viele Klassen ein, so enthält mindestens
eine dieser Klassen beliebig lange arithmetische Progressionen.
Dieser Satz ist zwar nicht ganz so spektakulär wie der Satz von Green
& Tao, aber trotzdem sehr interessant. Teilt man die ganzen Zahlen in r
Klassen (disjunkte Teilmengen) auf,
Z = A1 ∪ . . . ∪ Ar ,
11. Dez. 2007
(26)
so kann man also nicht in allen Mengen Aj arithmetische Progressionen
beliebiger Länge vermeiden. Allerdings muss es nicht notwendig unendliche
arithmetische Progressionen geben (und tatsächlich ist dies i.A. auch falsch).
Die Aussage des Satzes bleibt richtig, wenn wir Z durch N ersetzen und alle
bekannten Beweise gehen auch mit dieser Einschränkung durch. Jeder Beweis dieses Satzes ist nicht zu leicht (ungeachtet dessen, welchen Zugang
man wählt). Es gibt natürlich so etwas wie eine Invarianz des Schwierigkeitsgrades mathematischer Behauptungen — ein tiefliegender Satz kann
keinen einfachen Beweis haben und verschiedene Beweise haben irgendwo
ihre schwierigen Stellen!25
Jetzt gehen wir einen dynamischen Beweis des Satzes 18 von van der
Waerden an. Wir verlassen hierzu nun kurz die Maßtheorie und widmen
uns metrischen Räumen. Im Folgenden spielt insofern auch die Topologie
24Zu den Arbeiten über lange arithmetische Progressionen wurden bislang zwei Fields-
Medaillen vergeben: T. Gowers 1998 auf dem ICM in Berlin, T. Tao 2006 auf dem
ICM in Madrid. K.F. Roth bekam 1958 in Edinburgh die Fields-Medaille, allerdings
hauptsächlich für seine Verschärfung der Approximationssätze von Thue und Siegel; J.
8. Arithmetische Progressionen und der Satz von van der Waerden
57
eine wichtige Rolle! Wir erinnern: Ein Homöomorphismus ist eine bijektive,
stetige Abbildung, deren Umkehrabbildung ebenfalls stetig ist. Das Studium
der Dynamik solcher Abbildungen nennt man topologische Dynamik.
Zunächst beweisen wir einen technischen Satz über einen Folgenraum:
Für k ≥ 2 sei Ωk = {1, 2, . . . , k}Z der Raum aller beidseitig unendlichen
Folgen ω = (ω(n))n∈Z mit Werten in {1, 2, . . . , k}. Auf Ωk definieren wir
vermöge (24) dieselbe Metrik d mit Ωk statt Ω bzw. vermöge (25) ebenso
die shift-Abbildung.
Satz 19. Mit den obigen Bezeichnungen gilt:
(i) Ωk ist ein kompakter metrischer Raum mit Metrik d.
(ii) Die shift-Abbildung σ : Ωk → Ωk ist ein Homöomorphismus.
Beweis. Zunächst verifizieren wir, dass d eine Metrik auf Ωk ist. Man sieht
sofort, dass d(x, y) stets nicht negativ ist, wobei d(x, y) = 0 genau für x = y
gilt; die Symmetrie ist ebenfalls klar. Zum Nachweis der Dreiecksungleichung
seien o.B.d.A. x, y, z ∈ Ωk paarweise verschieden, also ist
2−N (x,y) = d(x, y) ≤ d(x, z) + d(z, y) = 2−N (x,z) + 2−N (z,y)
zu verifizieren. Dies ist äquivalent zu
2N (z,y)+N (x,z) ≤ 2N (x,y)+N (z,y) + 2N (x,y)+N (x,z) = 2N (x,y) (2N (z,y) + 2N (x,z) ).
Dies ist aber offensichtlich (tatsächlich ist N (x, y) ≥ N (x, z) ≥ N (z, y) der
einzige nicht völlig triviale Fall). Die Menge {1, 2, . . . , k} ist kompakt und
nach dem Satz von Tychonoff (siehe etwa Jänich, Topologie, Springer
2000, 7. Aufl.) ist dann auch Ωk kompakt. Damit ist (i) bewiesen.
Zum Beweis von (ii) seien x, y ∈ Ωk mit x 6= y und d(x, y) = 2−N gegeben.
Dann gilt xi = yi für −N < i < N und also (σx)(i) = xi+1 = yi+1 = (σy)(i)
für −(N + 1) < i < N − 1. Also folgt
d(σx, σy) ≤ 21−N = 2 d(x, y).
Also ist σ stetig. Offensichtlich ist σ auch invertierbar und die Umkehrabbildung σ −1 ist ebenfalls stetig (mit demselben Argument wie oben für σ).
Der Satz ist bewiesen. •
Bourgain, der auch wichtige Arbeiten zu dieser Thematik verfasste, wurde 1994 auf dem
ICM in Zürich ausgezeichnet.
25Interessant ist die Geschichte dieses Beweises, aufgeschrieben von B.L. van der
Waerden, Wie der Beweis der Vermutung von Baudet gefunden wurde, Elem. Math.
9 (1954), 49-56; Nachdruck in Elem. Math. 53 (1998), 139-148, und auch ein einfacher
kombinatorischer Beweis von Lukomskaya, zu finden in dem Buch: A.Y. Khinchin,
Three pearls of number theory, Graylock Press, Baltimore 1952. Das ursprüngliche Problem
wurde vermutlich von Schur für den Fall r = 2 aufgeworfen, und nicht von Baudet,
allerdings zeigte sich — und das ist außerordentlich interessant —, dass eine allgemeinere
Sichtweise, d.h. beliebiges r, einen einfacheren Beweis zulässt.
58
ERGODENTHEORIE
Die wesentliche Beweislast unseres Beweises des Satzes von van der
Waerden ist enthalten in dem mehrdimensionalen Wiederkehrsatz von H.
Furstenberg & B. Weiss, Topological dynamics and combinatorial number theory, J. d’Analyse Math. 34 (1978), 61-85:
Satz 20. Seien T1 , . . . , TN : X → X Homöomorphismen eines kompakten
metrischen Raumes mit der Eigenschaft Ti Tj = Tj Ti für 1 ≤ i, j ≤ N .
Dann gibt es ein x ∈ X und eine bestimmt gegen +∞ divergierende Folge
natürlicher Zahlen nk , so dass
lim d(Tink x, x) = 0
k→∞
für jedes
i = 1, 2, . . . , N.
Die Vertauschbarkeit der Hintereinanderschaltung der Abbildungen Ti ist
von entscheidender Bedeutung (hierbei steht Ti Tj für Ti ◦ Tj ) und unerlässlich. Damit wird die Menge der Abbildungen eine Halbgruppe.
Wir zeigen jetzt, wie man mit Hilfe von Satz 20 den Satz 18 von van der
Waerden gewinnt:
Beweis von Satz 18. Zu einer gegebenen Partition von Z in disjunkte
Teilmengen
Z = A1 ∪ . . . ∪ Ak
assoziieren wir eine Folge ω = (ω(n))n∈Z ∈ Ωk durch die Vorschrift, dass
ω(n) = i genau für n ∈ Ai gelte. Jetzt sei σ die shift-Abbildung aus (25). Wir
betrachten den Orbit {σ n ω : n ∈ Z} und schreiben X für seinen Abschluss
bzgl. d. Wir wenden Satz 20 mit Ti = σi := σ i (= σ ◦ . . . ◦ σ) an und erhalten
für ein hinreichend kleines ǫ < 1 die Existenz eines x ∈ X und eines d ∈ N
mit
d(σid x, x) < 1
für i = 1, . . . , N.
Wegen d(x, y) = 2−N (x,y) ergibt sich eine Übereinstimmung der jeweiligen
0-ten Folgeglieder:
x0 = xid = σid x(0)
für i = 0, 1, . . . , N.
Die Sequenz {xn }0≤n≤N d muss nach Konstruktion irgendwo in der Folge ω
auftreten, etwa startend an der Stelle a, so dass also
ω(a) = x0 = xid = σid x(0) = ω(a + id)
für i = 0, 1, . . . N.
gilt. Damit ist a + id ∈ Aω(a) für i = 0, 1, . . . N und Satz 18 ist bewiesen. •
Zu jedem ℓ = N + 1 haben wir also ein j gefunden, so dass die Menge Aj
eine arithmetische Progression der Länge ℓ enthält. Es ist damit klar, dass
es mindestens ein j in einer jeden Klassenzerlegung (26) gibt, die beliebig
lange arithmetische Progressionen enthält! Der Beweis hat etliche Ideen aus
dem Ansatz von Furstenberg für Szemerédis Satz wieder aufgegriffen.
8. Arithmetische Progressionen und der Satz von van der Waerden
59
Wir beweisen Satz 20 nur für den Spezialfall, dass die Homöomorphismen
Ti von der Form Ti = T i für i = 1, . . . , N zu einem einzigen Homömorphismus T sind. Wir starten mit dem Fall N = 1, der sich auf den Birkhoffschen Wiederkehrsatz (nicht zu verwechseln mit seinem Ergodensatz)
reduziert:
Satz 21. Sei T : X → X ein Homöomorphismus kompakter metrischer
Räume X, so gibt es ein x ∈ X mit T nk x → x für eine divergente Folge
natürlicher Zahlen nk → ∞.
Beweis. Wir benutzen jetzt implizit das Zornsche Lemma26 an. Ist E die
Familie aller nicht leeren, abgeschlossenen, T -invarianten Teilmengen Z von
X, ausgerüstet mit der Halbordnung
Z1 ≤ Z2
: ⇐⇒
Z1 ⊂ Z2 ,
so existiert also zu einer jeden Kette {Zκ }κ ein maximales vollständig geordnetes Teilsystem F ⊂ E — dies ist der so genannte Hausdorffsche
Maximalkettensatz (siehe W. Rudin, Reelle und komplexe Analysis, Oldenbourg). Jetzt ist die Menge Z = ∩κ Zκ aller Zκ ∈ F selbst abgeschlossen,
T -invariant und nach Konstruktion zudem minimal, d.h. keine nicht leere,
echte abgeschlossene Teilmenge von Z ist T -invariant. Ferner ist Z nicht leer,
weil X kompakt ist. Ist nun A eine abgeschlossene T -invariante Teilmenge
von Z, dann gilt also entweder A = ∅ oder A = Z (ähnlich zum Ergodizitätsbegriff). Insbesondere folgt für den Abschluss A des Orbits {T n x : n ∈ Z}
mit irgendeinem x ∈ Z nun A = Z ⊂ X. Damit gibt es zu jedem ǫ > 0 ein
n ∈ N mit d(T n x, x) < ǫ. 27 Hieraus ergibt sich unmittelbar die Aussage
von Satz 21. •
Der Rest des Beweises von Satz 20 erfolgt per Induktion nach N , so dass
also zu zeigen verbleibt, dass, wenn die Aussage für N −1 Homöomorphismen
T1 = T, . . . TN −1 = T N −1 gilt, dann auch für N solche, also zusätzlich mit
TN = T N . Dabei dürfen wir annehmen, dass X die kleinste abgeschlossene
Menge ist, die invariant unter jedem T j mit j = 1, . . . , N ist (wieder mit dem
Maximalkettensatz von Hausdorff wie im vorigen Beweis, also X = Z).
Als Erstes zeigen wir, dass zu gegebenem ǫ > 0 und beliebigen x, x′ ∈ X
eine endliche Menge K ⊂ N existiert, so dass
d(T k x, x′ ) < ǫ
für ein
k ∈ K.
(27)
26bekannt und berüchtigt, weil es äquivalent zum ungeliebten Auswahlaxiom ist, besagt
es, dass jede nicht leere halbgeordnete Menge, in der jede Kette (d.h. jede total geordnete
Teilmenge) eine obere Schranke hat, mindestens ein maximales Element enthält. Entdeckt
wurde dies durch Zorn im Jahre 1935.
27Die T -Invarianz erlaubt hier also mehr als nur den üblichen Schluß nämlich die
Existenz eines Häufungspunktes.
60
ERGODENTHEORIE
Ist ∅ =
6 B ⊂ X offen, so gibt es wiederum mit der Minimalität von X zu
S
jedem z ∈ X ein n ∈ N mit T n z ∈ B. Also X = n∈N T −n B. Da X nach
Voraussetzung kompakt ist und die Mengen T −n B offen, folgt mit HeineBorel, dass X eine endliche Teilüberdeckung der Form
[
X=
T −k B
k∈K(B)
mit einer endlichen Teilmenge K(B) ⊂ N besitzt. Und noch einmal: Wiederum auf Grund der Kompaktheit von X gibt es endlich viele offene Kugeln
B1 , . . . , Br mit Radius 2ǫ , so dass
X=
r
[
Bj .
j=1
x, x′
Zu
∈ X gilt dann x ∈ Bi für ein i ∈ {1, . . . , r} und x′ ∈ T −k Bi für ein
S
k ∈ K(Bi ). Also gilt (27) mit K = rj=1 K(Bj ).
Als Nächstes zeigen wir, dass zu jedem ǫ > 0 und beliebigem x ∈ X, ein
y ∈ X und ein n ∈ N existieren, so dass
d(T jn y, x) < ǫ
für j = 1, . . . , N.
(28)
Da jeder Homöomorphismus T k gleichmäßig stetig auf der kompakten
Menge X ist, gibt es ein ρ > 0, so dass
d(T k x1 , T k x2 ) < ǫ
für x1 , x2 ∈ X
mit
d(x1 , x2 ) < ρ.
(29)
Tatsächlich dürfen wir dies auch gleich für alle k der endlichen(!) Teilmenge
K, definiert gemäß (27) fordern (die Gleichmäßigkeit der T k und somit die
Kompaktheit von X sind hier entscheidend). Nach Induktionsvoraussetzung
gibt es ein x′ ∈ X und ein n ∈ N, so dass
d(T jnx′ , x′ ) < ρ
für j = 1, . . . , N − 1.
Da X kompakt ist, ist die T -invariante Menge T X abgeschlossen, also gilt
T X = X (nach Konstruktion) bzw. T n X = X. Damit finden wir ein y ′ ∈ X,
so dass T n y ′ = x′ gilt und somit
d(T n y ′ , x′ ) = 0,
d(T jn y ′ , x′ ) < ρ
für j = 2, . . . , N.
Mit unserer vorangegangenen gleichmäßigen Abschätzung (29) folgt also
d(T jn+k y ′ , T k x′ ) < ǫ
für k ∈ K, j = 1, . . . , N.
Für jedes x ∈ X gibt es ein k ∈ K mit d(T k x′ , x) < ǫ, d.h. mit y := T k y ′
und der Dreiecksungleichung folgt nun
d(T jn y, x) ≤ d(T jn+k y ′ , T k x′ ) + d(T k x′ , x) < 2ǫ
für j = 1, . . . , N . Da ǫ > 0 hierbei beliebig ist, ergibt sich (28).
8. Arithmetische Progressionen und der Satz von van der Waerden
61
Wir nähern uns dem Ende des Beweises! Seien ǫ0 > 0 und x0 ∈ X beliebig
gegeben. Nach (28) existieren x1 ∈ X und n1 ∈ N, so dass
d(T
jn1
x1 , x0 ) < ǫ0
für j = 1, . . . , N.
Jetzt wählen wir ǫ1 ∈ (0, ǫ0 ) so, dass mit d(x, x1 ) < ǫ1
d(T jn1 x, x0 ) < ǫ0
für j = 1, . . . , N
gilt. Wir setzen dies induktiv fort wie folgt: Angenommen, wir haben definiert
• Punkte x1 , . . . , xk ∈ X,
• natürliche Zahlen n1 , . . . , nk , und
• eine streng monoton fallende Folge positiver reeller Zahlen
ǫ 1 , . . . , ǫk ,
mit der Eigenschaft, dass für i = 1, . . . , k − 1
d(T jni xi , xi−1 ) < ǫi−1
für j = 1, . . . , N
(30)
für j = 1, . . . , N
(31)
und, falls d(x, xi ) < ǫi , auch
d(T jni x, xi−1 ) < ǫi−1
gilt. Nach (28) gibt es dann (wie im Falle i = 0 oben) xk+1 ∈ X und
nk+1 ∈ N, so dass
d(T jnk+1 xk+1 , xk ) < ǫk
für j = 1, . . . , N ;
wir wählen nun ein ǫk+1 ∈ (0, ǫk ) so, dass d(x, xk+1 ) < ǫk+1 impliziert, dass
d(T jnk+1 x, xk ) < ǫk
für j = 1, . . . , N.
Dies sind (30) bzw. (31) mit i = k + 1. Dieser Prozess lässt sich also ad
infinitum fortführen; die Induktion ist abgeschlossen.
Jetzt nehmen wir sukzessive i = ℓ − 1, ℓ − 2, . . . und erhalten für i < ℓ
vermöge (30) bzw. (31) nun
d(T j(ni+1 +...+nℓ ) xℓ , xi ) < ǫi
für j = 1, . . . , N.
Da X kompakt ist, gibt es eine endliche Überdeckung von X durch r offene
Kugeln vom Radius ǫ0 . Damit gibt es Indizes i, ℓ mit 0 ≤ i < ℓ ≤ r, so dass
d(xi , xℓ ) < ǫ0 gilt. Mit m = ni+1 + . . . + nℓ folgt dann wegen ǫi < ǫ0 mit der
Dreiecksungleichung
d(T jm xℓ , xℓ ) ≤ d(T jmxℓ , xi ) + d(xi , xℓ ) < 2ǫ0
für j = 1, . . . , N.
Da ǫ0 > 0 beliebig war, ergibt sich die Behauptung von Satz 20 im Spezialfall
Tj = T j für j = 1, . . . , N . •
Der obige Beweis des Satzes von van der Waerden benutzt einige “unendliche” Elemente (der Satz von Tychonoff, das Lemma von Zorn und den
18. Dez. 2007
62
ERGODENTHEORIE
Satz von Heine-Borel). Tatsächlich kann man diese umgehen, in dem man
quantitativ argumentiert, allerdings führt dies letztlich auf einen kombinatorischen Beweis. Sehr lesenswert für weitere Gedanken in diese Richtung
ist der Artikel T. Tao, The ergodic and combinatorial approaches to Szemerédi’s theorem, preprint.28
Aufgabe 17. Man gebe einen Beweis von Satz 20 für den allgemeinen Fall
beliebiger kommutierender Homöomorphismen T1 , . . . , TN . (Hilfe findet man
in [10].)
Chaotische oder zufällige Strukturen können, wenn sie hinreichend groß
sind, nicht so unregelmäßig sein, dass sie nicht doch sehr reguläre Teilstrukturen enthalten. Wir haben mit den obigen Sätzen eindrucksvolle Beispiele
für diese Beobachtung am Beispiel arithmetischer Strukturen gesehen. Van
der Waerdens Satz besitzt eine Vielzahl von Anwendungen. Wir geben
ein Beispiel im Zusammenhang mit der Frage der Verteilung der Werte quadratischer Polynome modulo Eins (was uns auch in die Nähe eines späteren
Themas dieser Vorlesung bringt):
Korollar 22. Es sei α eine reelle Zahl und ǫ > 0 beliebig. Dann gibt es
unendlich viele m ∈ N gibt, so dass
kαm2 k < ǫ.
Hier steht kxk für den minimalen Abstand von x zu einer ganzen Zahl steht.
Es gibt einige wesentlich verschiedene Beweise dieser Behauptung (etwa mittels Gleichverteilungssätzen von Weyl).
Beweis. Wir zerlegen das Einheitsintervall in endlich viele kleine Intervalle
I einer Länge ≤ 2ǫ und betrachten die Mengen
{n ∈ N :
2
1
2 αn
mod 1 ∈ I}.
Eine jede solche definiert uns eine Klasse in N. Nach dem Satz von van der
Waerden enthält eine dieser Klassen eine artithmetische Progression der
Länge 3 mit beliebig großer Differenz d (durch Streichen aus arithmetischen
Progressionen größerer Länge); es gibt also ein n ∈ N mit
2 1
1
2 αn , 2 α(n
+ d)2 ,
1
2 α(n
+ 2d)2 ∈ I
für ein I. Nun besteht die Identität
2
1
2 αn
− 2 · 21 α(n + d)2 + 21 α(n + 2d)2 = αd2 .
Die linke Seite ist modulo 1 die Summe zweier Differenzen von Zahlen in I,
also summandenweise ≤ 2ǫ . Damit ergibt sich die Ungleichung für m = d;
mit ǫ → 0 ergeben sich so unendlich viele m ∈ N. •
28erhältlich unter http://uk.arxiv.org/pdf/math.CO/0604456.pdf
11. Normale Zahlen
63
Erdös setzte einen Preis von 3000 US-Dollar für den Beweis folgender
Vermutung aus:29 Ist (an ) eine streng monoton wachsende Folge natürlicher
Zahlen und
∞
X
1
n=1
an
divergent, so enthält die Folge der an arithmetische Progressionen beliebiger
Länge. Tatsächlich würde auch der Satz von Green & Tao aus der Vermutung von Erdös folgen (was vielleicht seine Tiefe andeutet), da die Reihe
über die Reziproken der Primzahlen divergiert, was Euler bereits wusste
und auf sehr eindrucksvolle Art und Weise wie folgt notierte:
1 1 1 1
+ + + + . . . = log log ∞.
2 3 5 7
Das ist tatsächlich eine einfache Folgerung aus dem Primzahlsatz (der aber
zu Eulers Zeit noch unbekannt war).
*
*
*
Nach unserem Ausflug in die topologische Dynamik geht es im nächsten
Kapitel um normale Zahlen — was soll das sein? Mit diesem Attribut sollte
man natürlich nur Zahlen belegen, die keine besonderen Merkmale besitzen,
wobei vielleicht auch noch zu fordern wäre, dass die meisten Zahlen normal
sein sollten. Kann dabei normal überhaupt ein interessanter Begriff sein?
9. Normale Zahlen
15. Jan. 2008
Sei b eine natürliche Zahl größer Eins. Jede relle Zahl x besitzt eine Darstellung bzgl. der Basis b (bzw. b-adische Entwicklung), d.h.
x=
∞
X
n=0
an b−n
mit a0 ∈ Z, an ∈ {0, 1, . . . , b − 1}
(32)
für n ∈ N; hierbei ist a0 = [x] der Ganzteil von x und die an sind die
b-adischen Ziffern von {x} ∈ [0, 1). Diese Darstellung ist nicht eindeutig,
was uns aber nicht weiter stört, da diese Nichteindeutigkeit sich nur auf
eine Nullmenge bezieht, wie wir kurz am Beispiel der Dezimaldarstellung
illustrieren:
0, 9 = 0, 99999 99999 . . . = 1, 0 = 1,
29Erdös hat tatsächlich viele solcher Preise für seine zahllosen Vermutungen ausge-
setzt, den Geldbetrag als Index für den vermeintlichen Schwierigkeitsgrad. Angeblich soll
Erdös sogar gesagt haben, dass er einen Preis von 106 Dollar aussetzen können, da er
den Beweis sowieso nicht erleben werde. Erdös verstarb 1996.
64
ERGODENTHEORIE
wobei wie üblich der Ausdruck 9 für die unendliche Folge der Ziffer 9 steht.
Besitzt nämlich x eine schließlich periodische b-adische Darstellung, so ist x
rational und damit eine Lebesgue-Nullmenge; ist die Entwicklung hingegen
nicht schließlich periodisch, so ist die Darstellung eindeutig und x irrational.
Eine reelle Zahl x heißt normal zur Basis b, falls für jedes k ∈ N jeder
Ziffernblock α1 . . . αk mit αj ∈ {0, 1, . . . , b − 1} mit derselben Häufigkeit in
der b-adischen Entwicklung von x = a0 , a1 a2 . . . auftritt. Im Falle k = 1
bedeutet dies, dass jede Ziffer gleich häufig auftritt:
1
1
♯{n ≤ N : an = α} =
für jedes α ∈ {0, 1, . . . , b − 1};
lim
N →∞ N
b
im Falle k = 2 gilt hingegen
1
1
lim
♯{n ≤ N : an = α, an+1 = α′ } = 2 für alle α, α′ ∈ {0, 1, . . . , b−1};
N →∞ N
b
im allgemeinen Falle tritt der Block α1 . . . αk mit jeweils αj ∈ {0, 1, . . . , b−1}
mit der asymptotischen Häufigkeit b−k auf. Offensichtlich genügt es hierbei, nur die b-adische Entwicklung des gebrochenen Anteils {x} ∈ [0, 1) zu
betrachten. É. Borel (Les probabilités dénombrables et leurs applications arithmétiques, Rend. Circ. Matematico di Palermo 27 (1909), 247-271)
zeigte:
Satz 23. Fast alle reellen x sind normal zu jeder Basis b.
Dieser Satz rechtfertigt also, Zahlen mit der obigen Eigenschaft tatsächlich
mit dem Attribut normal zu belegen.
Beweis. Nach obiger Bemerkung genügt es, Zahlen x ∈ [0, 1) zu untersuchen. Die Abbildung Tb : [0, 1) → [0, 1), definiert durch Tb x = bx mod 1,
ist maßtreu bzgl. des Lebesgue-Maßes λ und ergodisch (dies weist man im
allgemeinen Fall genauso nach, wie für den Spezialfall b = 2, den wir in Bsp.
2 in Kapitel 4 betrachtet haben). Sei nun x zur Basis b gegeben durch (32).
Offensichtlich gilt genau dann
α α+1
n
,
=: I(α)
Tb x ∈
b
b
für ein fest vorgegebenes α ∈ {0, 1, . . . , b − 1}, wenn an+1 = α gilt. Mit dem
Birkhoffschen Ergodensatz 11 folgt jetzt
Z
1
1 X
n
χI(α) dλ = λ(I(α)) =
χI(α) (Tb x) =
lim
N →∞ N
b
[0,1)
0≤n<N
für fast alle x. Dies liefert die Behauptung im Falle eines Blockes bestehend
aus einer Ziffer α (also k = 1). Der allgemeine Fall (k ∈ N) ergibt sich mittels
α α+1
α := α1 bk−1 + α2 bk−2 + . . . + αk
und
I(α, k) := k , k
b
b
11. Normale Zahlen
völlig analog:
1
lim
N →∞ N
X
χI(α,k) (Tbn x)
0≤n<N
=
Z
[0,1)
χI(α,k) dλ = λ(I(α, k)) =
65
1
bk
Der Satz ist bewiesen. •
Natürlich hat Borel nicht die Ergodentheorie benutzt, um seinen Satz zu
beweisen; tatsächlich arbeitete er mit dem so genannten Borel-Cantelli–
Lemma aus der Stochastik. Einen elementaren, dabei aber Borels Ideen
folgenden Beweis findet man sehr schön aufgeschrieben in I. Niven, Irrational numbers, Carus Mathematical Monographs, John Wiley & Sons 1963.
Einen von Borel verschiedenen Ansatz erdachte Alan Turing (A note
on normal numbers, Collected Works of A.M. Turing, J.L. Britton (Ed.),
North Holland, Amsterdam 1992, 117-119); seine Arbeit wurde allerdings
nie veröffentlicht, jedoch vor kurzem durch V. Becher, S. Figueira & R.
Picchi (Turing’s unpublished algorithm for normal numbers, Theor. Computer Science 377 (2007), 126-138) mathematisch vervollständigt.
Obwohl nach dem Borelschen Satz 23 fast alle reellen Zahlen normal
sind, und zwar zu jeder Basis, ist es ein ganz anderes Problem, eine gegebene reelle Zahl als normal zu auch nur einer einzigen Basis b zu outen.
Beispielsweise ist es unbekannt, ob die Kreiszahl
π = 3, 14159 26535 89793 23846 26433 83279 50288 41971 69399 37510
58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 . . .
normal bzgl. irgendeiner Basis ist.30 Insofern ist das Problem der Normalität
womöglich noch schwieriger, als das verwandte Problem, eine gegebene Zahl
als entweder algebraisch oder als transzendent nachzuweisen, wofür man
mehr Techniken kennt.31 Kanada berechnete mehr als die ersten 50 Milliarden(!) Nachkommastellen der Dezimalbruchentwicklung von π und die
zugehörige Ziffernstatistik zeigt bei allen Ziffern eine Abweichung von weniger als 0, 002% vom Erwartungswert. Für andere Zahlen
sieht es nicht besser
√
aus: So weiss man auch nicht, ob e = exp(1) oder 2 normal zu irgendeiner
Basis sind. D.H. Bailey & R.E. Crandall (On the random character of
fundamental constant expansions, Exper. Math. 10 (2001), 175-190)
haben
√
jüngst vermutet, dass jede algebraische Irrationalzahl (wie z.B. 2) normal
ist. Das selbe Schicksal der Ungewissheit teilt die fast ganze Zahl
√
exp(π 163) = 262 53741 26407 68743, 99999 99999 992 . . . ;
30Dieses Problem wird auch in dem extravaganten Spielfilm Pi von D. Aronofsky
aufgegriffen.
31So weiss man, dass π transzendent ist, was als Erster Lindemann 1882 bewies, womit
das antike Problem der Kreisquadratur unmöglich ist. Lindemann war zuvor für eine kurze
Zeit in Würzburg tätig und hat sich dort/hier 1877 habilitiert.
66
ERGODENTHEORIE
das Auftreten der erstaunlich vielen 9en kann man mit der Theorie der
imaginär-quadratischen Zahlkörper und der elliptischen j-Funktion erklären,
hilft aber hinsichtlich der Frage der Normalität überhaupt nicht weiter.
Klar ist, dass rationale Zahlen nicht normal sind, haben diese doch eine schließlich periodische b-adische Ziffernentwicklung (hier wird jetzt auch
klar, warum man bei der Definition von Normalität nicht einfach nur die Ziffernverteilung, sondern Blöcke beliebiger Länge zu Grunde legt). Ein etwas
anspruchsvolleres Beispiel für nicht normale Zahlen: Die Cantor-Menge
C entsteht aus dem Einheitsintervall [0, 1] durch sukzessives Entfernen der
mittleren Drittel. Genauer gilt
n
C = [0, 1] \
∞ [
2
[
n=0 j=1
(xnj + 3−n−1 , xnj + 2 · 3−n−1 )
mit gewissen rationalen Zahlen xnj . Bekanntlich (siehe etwa Elstrodt,
Maß- und Integrationstheorie, Springer 2007) ist die Cantor-Menge C ein
Beispiel einer überabzählbaren, perfekten Menge ohne innere Punkte; hierbei heißt eine unendliche Menge perfekt, wenn jedes Element Häufungspunkt
ist. Die Elemente von C sind genau die x ∈ [0, 1], deren ternäre Ziffernentwicklung keine 1 enthält (die mittleren Drittel wurden ja entfernt), also
x∈C
⇐⇒
x=
∞
X
n=1
an 3−n
mit an ∈ {0, 2};
die xnj aus der obigen Darstellung für C sind dabei gerade alle möglichen
Partialsummen solcher x. Es folgt unmittelbar, dass die Cantor-Menge
keine einzige zur Basis 3 normale Zahl enthält; insbesondere folgt aus Satz
23, dass C eine Lebesgue-Nullmenge ist.
Aufgabe 18. Man beweise all diese Aussagen über C, insbesondere gebe
man einen direkten Beweis, dass λ(C) = 0 gilt.
Eine Zahl kann normal zur Basis b, aber nicht normal zur Basis b′ sein.
Dies entdeckten J.W.S. Cassels (On a problem of Steinhaus about normal numbers, Colloq. Math. 7 (1959), 95-101) und W. Schmidt (On normal
numbers, Pacific J. Math. 10 (1960), 661-672), die bewiesen, dass jede normale Zahl zur Basis b genau dann normal bzgl. einer Basis b′ ist, wenn
log b/ log b′ rational ist.
Man kennt einige wenige Konstruktionsmethoden normaler Zahlen. Die
erste explizite normale Zahl konstruierte W. Sierpinski, Démonstration
élémentaire d’un théoreme de M. Borel sur les nombres absolument normaux et détermination effective d’un tel nombre, Bull. Soc. Math. France 45 (1917), 125-144. Beispielsweise gelang D.G. Champernowne (The
construction of decimals normal in the scale of ten, J. London Math. Soc.
11. Normale Zahlen
67
8 (1933), 254-260) der Nachweis der Normalität der nach ihm benannten
Champernowneschen Zahl
0, 123456789 10111213141516171819 2021 . . . .
A.H. Copeland & P. Erdös (Note on normal numbers, Bull. Amer. Math.
Soc. 52 (1946), 857-860) haben ferner gezeigt, dass die Zahl
0, 23571113171923293137414347 . . . ,
gebildet aus der Primzahlenfolge, normal bzgl. der Basis 10 ist. Das Bildungsgesetz in diesen Beispielen ist offensichtlich! Man kann unschwer jede
beliebige Nachkommastelle berechnen ohne Kenntnis über die vorangegangenen Ziffern zu besitzen. Insofern ist Normalität übrigens nicht der richtige
Begriff, um Zufallszahlen zu konstruieren.
Abbildung 9. Die ersten 1600 binären Ziffern von π und
seiner rationalen Approximation 22
7 .
Wir kehren zurück zur Zahl π. Man vermutet, dass es keine Muster in
der Dezimalentwicklung von π gibt, und deshalb ist es auch naheliegend zu
vermuten, dass π normal ist bzgl. der Dezimalentwicklung (also b = 10).
Gleiches gilt auch für jede andere b-adische Entwicklung. In dieser Richtung gelang D.H. Bailey, P.B. Borwein & S. Plouffe (On the rapid
computation of various polylogarithmic constants, Math. Comp. 66 (1997),
903-913) vor ca. zehn Jahren eine kleine Sensation. Ihre so genannte BBPFormel (nach ihren Initialien) ermöglicht die Berechnung einer beliebigen
Nachkommastelle von π im Hexadezimalsystem (also zur Basis 16) ohne
irgendeine der vorherigen Nachkommastellen wissen zu müssen:
π=
∞
X
4
2
1
1
1
−
−
−
.
16n 8n + 1 8n + 4 8n + 5 8n + 6
n=0
(33)
68
ERGODENTHEORIE
Wir geben eine kurze Beweisskizze für die BBP-Formel. Zunächst verifiziert
man
Z 1/√2 X
Z 1/√2 k−1
∞
∞
X
1
1
x
k−1+8m
− k2
x
dx = 2
dx =
·
.
8
m
1−x
16
8m + k
0
0
m=0
m=0
Damit ist (33) äquivalent zu
√
Z 1/√2 √
Z 1
y−1
4 2 − 8x3 − 4 2x4 − 8x5
π=
dx = 16
dy
8
4
3
1−x
0 y − 2y + 4y − 4
0
√
vermöge der Substitution y = 2x. Mit Hilfe von
Z x
du
arctan x =
2
0 1+u
und Partialbruchzerlegung (oder Computeralgebra) ergibt sich nun leicht
die BBP-Formel (33).
Aufgabe 19. Man vervollständige die obige Beweisskizze für (33).
Wie gewinnt man aber nun aus (33) effektiv eine beliebige Nachkommastelle von π bzgl. der Basis 16? Wir erläutern dies an einem etwas einfacheren
Beispiel (die Vereinfachung bezieht sich hier aber lediglich auf eine übersichtlichere Darstellung): Bekanntlich gilt
log 2 =
∞
X
1
,
k2k
k=1
was fast unmittelbar aus der Potenzreihenentwicklung des Logarithmus und
dem Abelschen Grenzwertsatz folgt. Die (d + 1)-te Ziffer der Binärentwicklung von log 2 ist damit gleich
)
(∞
X 2d−k
{2d log 2} =
k
k=0
(( d
) ( ∞
))
X 2d−k mod k
X 2d−k
=
+
.
k
k
k=0
k=d+1
Die Zähler 2d−k mod k in der ersten Summe lassen sich schnell mit schneller Exponentiation32 modulo k berechnen; die zweite Summe konvergiert
dabei sehr schnell, so dass hier nur einige wenige Terme tatsächlich berechnet werden müssen. Ganz ähnlich kann man unschwer beliebige Ziffern
der Hexadezimalentwicklung von π mit Hilfe der BBP-Formel (33) berechnen. Trotzdem kann man aus solchen Bildungsgesetzen — im Gegensatz zur
Champernowneschen Zahl — leider bislang keine Aussage über die Normalität bzgl. der entsprechenden Basis entlocken. Allerdings haben jüngst
32Z.B. gilt 217 = ((((22 )2 )2 )2 ) · 2 entsprechend 17 = 24 + 20 .
11. Normale Zahlen
69
D.H. Bailey & R.E. Crandall (in derselben Quelle wie oben) eine Vermutung aufgestellt, wie einer BBP-Formel, wie oben etwa für π bzw. log 2,
eine reelle Zahlenfolge zugeordnet werden kann, die genau dann modulo 1
gleichverteilt ist, wenn die zu Grunde liegende Zahl normal ist. Wir gehen
hier nicht in die recht technischen Details, sondern erwähnen nur, dass unter
Annahme dieser Vermutung dann beispielsweise π normal zur Basis 16 wäre,
wenn die Folge (xn ) definiert durch
x0 = 0,
xn = 16xn−1 +
120n2 − 89n + 16
512n4 − 1024n3 + 712n2 − 206n + 21
(34)
gleichverteilt modulo 1 ist. Dies gibt immerhin Hoffnung, dass in naher Zukunft wenigstens die Normalität von π zur Basis b = 16 (und damit auch
bzgl. b = 2, 4, 8) bewiesen werden kann. Im Falle der Binärentwicklung von
log 2 erfolgte die Normalität aus der Gleichverteilung der Folge
x0 = 0,
xn+1
1
= 2 xn +
n
mod 1.
Allerdings weiss man für keine der beiden angeführten Folgen, ob sie
tatsächlich gleichverteilt sind. Mittlerweile kennt man noch eine Vielzahl
weiterer BBP-Formeln für andere Basen bzw. andere wichtige Konstanten,
allerdings keine für π in der Dezimalentwicklung; der interessierte Leser findet hierzu unschwer eine Vielzahl von Artikeln im Internet.
Aufgabe 20. Man implementiere einen Algorithmus zur Berechnung der
Hexadezimalziffern von π mit Hilfe der BBP-Formel. Man vergleiche die
Resultate mit den Werten xn gemäß der Entwicklung (34) und erstelle eine
Ziffernstatistik.
Eine Kuriosität zum Abschluss: Ist π tatsächlich normal, sagen wir zur
Basis b = 26, und weisen wir jeder der 26 Ziffern bijektiv einen Buchstaben
unseres Alphabetes zu, etwa A 7→ 1, B 7→ 2, . . ., dann ist in der 26-adischen
Entwicklung von π auch ein Beweis der Normalität von π kodiert enthalten,
vorausgesetzt, dass diese Behauptung beweisbar ist.33
*
*
*
33Unter http://www.angio.net/pi/bigpi.cgi findet man ein kleines Programm, das einem
das erste Auftreten eines beliebigen Datums (etwa das Geburtsdatum) in der Dezimalentwicklung von π heraussucht. Mein Geburtsdatum startet an der Stelle 151897.
70
ERGODENTHEORIE
Im Folgenden wollen wir eine auf Gauss zurückgehende Fragestellung
mit Ergodentheorie behandeln. Hierbei geht es um statistische Eigenschaften von Kettenbrüchen, die sich ganz hervorragend zur rationalen Approximation von Irrationalzahlen eignen. Zunächst entwickeln wir die wichtigste
Eigenschaften dieser klassischen Objekte.
22. Jan. 2008
10. Elementare Theorie der Kettenbrüche
Kettenbrüche als Werkzeug zur Findung geeigneter rationaler (diophantischer) Approximationen an Irrationalzahlen wurden in vielen Kulturen
benutzt; eine systematische Theorie hingegen wurde aber erst durch den
Astronomen Huygens im 17. Jahrhundert gegeben (als dieser ein mechanisches Modell unseres Sonnensystems bauen wollte).
Zunächst betrachten wir den euklidischen Algorithmus: Gegeben zwei
natürliche Zahlen a und b, definiere man r−1 := a, r0 := b und wende sukzessive Division mit Rest gemäß
rn−1 = an rn + rn+1
mit
0 ≤ rn+1 < rn .
für n = 0, 1, 2 . . . an. Da die Folge der Reste rn stets kleiner wird, terminiert
der Algorithmus und auf Grund elementarer Teilbarkeitseigenschaften ist der
kleinste nichtverschwindende Rest rm der größte gemeinsame Teiler von a
und b, in Zeichen rm = ggT(a, b). Wir können den euklidischen Algorithmus
umschreiben als
rn−1
rn+1
rn−1
=
mit 0 ≤ rn+1 < rn
(35)
+
rn
rn
rn
i
h
und somit ergibt sich
für n ≤ m. Hierin ist an = rn−1
rn
a
r−1
=
= a0 +
b
r0
r0
r1
−1
= a0 +
1
−1 = . . . .
r1
a1 +
r2
Die erste Gleichung liefert den Ganzteil von ab ; jede weitere gibt bessere und
bessere Näherungen (mit den kleinst möglichen Nennern entsprechend der
Approximationsqualität).
Ein Beispiel: Das Sonnenjahr hat ungefähr
365 Tage 5 Stunde 48 Minuten und 45.8 Sekunden
≈
365 +
419
Tage.
1730
10. Elementare Theorie der Kettenbrüche
71
Unglücklicherweise ist dies keine ganze Zahl, wie also bildet man einen guten
Kalender? Mit dem euklidischen Algorithmus findet man
1730
=
419
=
54
=
...
4 · 419 + 54,
7 · 54 + 41,
1 · 41 + 13,
In Hinblick auf (35) kommt
1730
54
=4+
,
419
419
bzw.
419
1730 −1
1
= 365 +
≈ 365 + .
1730
419
4
Dies ist nichts anderes als der Julianische Kalender (nach Julius Caesar): Alle vier Jahre ein Schaltjahr. Mit dem vollständigen euklidischen
Algorithmus ergibt sich
1
419
.
= 365 +
365 +
1
1730
4+
1
7+
1
1+
1
3+
1
6+
2
1
Diese rationale Näherung ohne den letzten Bruch 2 liefert die Approximation
365 +
194
419
≈ 365 +
,
801
1730
welche unseren derzeitigen Gregorianischen Kalender (nach Papst Gregor XIII, 1582) repräsentiert: In 800 Jahren werden 6 (= 200 − 194) der
Schaltjahre ausgelassen.
Der Ausdruck
1
a0 +
1
a1 +
a2 + ...
1
+
1
am−1 +
am
heißt ein regulärer Kettenbruch (engl. regular continued fraction); man
spricht von irregulären Kettenbrüchen, wenn auch andere Zähler als Eins
zugelassen sind, was wir im Folgenden aber ausklammern. Die an nennt
man Teilnenner. Wir notieren einen solchen Kettebruch kurz mit
365 +
[a0 , a1 , a2 , . . . , am ].
72
ERGODENTHEORIE
Zunächst betrachten wir [a0 , . . . , am ] als eine Funktion in unabhängigen Variablen a0 , . . . , am . Offensichtlich gilt
[a0 ] = a0 ,
[a0 , a1 ] =
und
[a0 , a1 , a2 ] =
a1 a0 + 1
a1
a2 a1 a0 + a2 + a0
.
a2 a1 + 1
Per Induktion zeigt man
1
[a0 , a1 , . . . , an ] = a0 , a1 , . . . , an−1 +
an
(36)
und
1
= [a0 , [a1 , . . . , an ]].
[a1 , . . . , an ]
Für n ≤ m nennen wir [a0 , a1 , . . . , an ] den n-ten Näherungsbruch an
[a0 , a1 , . . . , am ]. Wir definieren desweiteren

p−1 = 1, p0 = a0 , and
pn = an pn−1 + pn−2 , 
(37)

q−1 = 0, q0 = 1, and
qn = an qn−1 + qn−2 .
[a0 , a1 , . . . , an ] = a0 +
Die Berechnung der Näherungsbrüche erfolgt leicht vermöge
Satz 24. Für 0 ≤ n ≤ m gilt
pn
= [a0 , a1 , . . . , an ].
qn
Beweis per Induktion nach n. Der Fall n = 0 ist trivial. Der Fall n = 1
folgt unmittelbar aus
[a0 , a1 ] =
p1
a1 a0 + 1
= .
a1
q1
Angenommen die Formel ist richtig für n. In Anbetracht von (36) gilt
1
[a0 , a1 , . . . , an , an+1 ] = a0 , a1 , . . . , an +
.
an+1
Mit der Rekursionsformel für die pn , qn ergibt sich dies als
1
pn−1 + pn−2
an + an+1
(an+1 an + 1)pn−1 + an+1 pn−2
=
1
(an+1 an + 1)qn−1 + an+1 qn−2
an + an+1 qn−1 + qn−2
=
an+1 pn + pn−1
pn+1
=
,
an+1 qn + qn−1
qn+1
was die Induktion abschließt. •
Als einfache Anwendung dieses Satzes folgt
10. Elementare Theorie der Kettenbrüche
73
Korollar 25. Für 1 ≤ n ≤ m gilt
pn qn−1 − pn−1 qn = (−1)n−1 ,
und
pn qn−2 − pn−2 qn = (−1)n an .
Beweis. Nach obigem gilt
pn qn−1 − pn−1 qn = (an pn−1 + pn−2 )qn−1 − pn−1 (an qn−1 + qn−2 )
= −(pn−1 qn−2 − pn−2 qn−1 ).
Wiederholen wir dieses Argument für n − 1, n − 2, . . . , 2, 1, so ergibt sich die
erste Behauptung. Ähnlich
pn qn−2 − pn−2 qn = (an pn−1 + pn−2 )qn−2 − pn−2 (an qn−1 + qn−2 )
= an (pn−1 qn−2 − pn−2 qn−1 ),
und somit folgt die zweite Behauptung aus der ersten. •
Jetzt weisen wir den Teilnennern an und somit auch dem Kettenbruch
[a0 , a1 , . . .] numerische Werte zu. Wir fordern a0 ∈ Z und an ∈ N für 1 ≤
n < m, sowie am ≥ 1. Dann zeigt Satz 24, dass pn und qn ganze Zahlen
für n < m sind, und die erste Behauptung von Korollar 25 impliziert ihre
Teilerfremdheit.
Sei jetzt α irgendeine rationale Zahl. Dann gibt es teilerfremde ganze
Zahlen a und b > 0, so dass α = ab . Es folgt aus der Variation des euklidischen
Algorithmus (35) angewandt auf r−1 = a und r0 = b, dass α als endlicher
Kettenbruch dargestellt werden kann:
rn−1
a
= [a0 , a1 , a2 , . . . , am ]
mit an =
.
b
rn
Diese Darstellung ist nicht eindeutig, da
[a0 , a1 , a2 , . . . , am ] = [a0 , a1 , a2 , . . . , am − 1, 1];
wenn wir allerdings am ≥ 2 fordern, so ist die Darstellung eindeutig.
Satz 26. Jede rationale Zahl besitzt eine Darstellung als endlicher Kettenbruch; diese Darstellung ist eindeutig, wenn der letzte Teilnenner als echt
größer Eins genommen wird.
Aufgabe 21. Man beweise die Formel
m
X
(−1)n−1
pm
= a0 +
.
qm
q
q
n
n−1
n=1
74
ERGODENTHEORIE
Wir können den Algorithmus (35) zur Berechnung der Kettenbruchentwicklung von rationalen Zahlen umschreiben als
α0 := α,
αn = [αn ] +
1
αn+1
für n = 0, 1, . . . .
(38)
Setzen wir an = [αn ], so erhalten wir α = [a0 , a1 , . . . , an , αn+1 ]. Dieser Algorithmus ist der Kettenbruchalgorithmus. Ist α rational, dann bricht die
Iteration nach endlich vielen Schritten ab und der Kettenbruchalgorithmus
ist nichts anderes als der euklidische Algorithmus in Verkleidung. Was passiert für eine Irrationalzahl? Z.B. kommt für α = π = 3.14159 . . .
a0 = [π] = 3
und
a1 = [7.06251 . . .] = 7
und
a2 = [15.99744 . . .] = 15
und
1
= 7.06251 . . . ,
π−3
1
= 15.99744 . . . ,
α2 =
7.06251 . . . − 7
1
.
α3 =
15.99744 . . . − 15
α1 =
Dies gibt π = [3, 7, 15, α3 ].
Sei jetzt α irgendeine Irrationalzahl. Dann bricht die Iteration nicht ab, da
ansonsten α ja eine Darstellung als endlicher Kettenbruch hätte und somit
rational wäre. Also liefert die Iteration für Irrationalzahlen eine unendliche
Folge endlicher Kettenbrüche:
[a0 , a1 , . . .] := lim [a0 , a1 , . . . , αm ].
m→∞
Der Grenzwert [a0 , a1 , a2 , . . .] heißt unendlicher Kettenbruch und das Erste,
was wir uns zu fragen haben, ist, ob dieser unendliche Prozess konvergent
ist, und wenn ja, ob der Grenzwert etwas mit α zu tun hat.
Satz 27. Sei α = [a0 , a1 , . . . , an , αn+1 ] irrational mit Näherungsbrüchen
Dann gilt
pn
(−1)n
α−
.
=
qn
qn (αn+1 qn + qn−1 )
Insbesondere
pn
qn .
pn
= [a0 , a1 , a2 , . . .].
n→∞ qn
α = lim
Beweis. Zunächst bemerken wir, dass alle unsere Beobachtungen über endliche Kettenbrüche sich auf unendliche Kettenbrüche übertragen - insbesondere (37) und Satz 24. Eine kurze Berechnung zeigt
α−
αn+1 pn + pn−1 pn
pn−1 qn − pn qn−1
pn
.
=
−
=
qn
αn+1 qn + qn−1
qn
qn (αn+1 qn + qn−1 )
Korollar 25 impliziert damit die erste Behauptung.
10. Elementare Theorie der Kettenbrüche
75
Wegen an+1 ≤ αn+1 folgt ferner
p
1
n
α − ≤
.
qn
qn (an+1 qn + qn−1 )
Im Falle eines irrationalen α sind die Folgen der pn und qn jeweils streng
monoton wachsend für n ≥ 2. Damit ist die Folge der Näherungsbrüche pqnn
abwechselnd größer bzw. kleiner als α; die mit geradem Index n liegen links,
die mit ungeradem Index rechts:
p0
p2
p3
p1
<
< ... < α < ... <
< .
q0
q2
q3
q1
Ist α irrational, dann terminiert der Kettenbruchalgorithmus nicht und die
Folge der Nenner qn der Näherungsbrüche ist unbeschränkt. Also folgt aus
der ersten Behauptung, dass der Abstand aufeinanderfolgender Näherungsbrüche kleiner und kleiner wird und gegen Null konvergiert. Also konvergieren die pqnn gegen den Grenzwert [a0 , a1 , . . .] und dieser Grenzwert ist gleich
α. Der Satz ist damit vollständig bewiesen. •
Man sieht leicht, dass die Kettenbruchentwicklung einer Irrationalzahl
eindeutig ist. Dies liefert eine Möglichkeit, die Menge R der reellen Zahlen
aus der Menge Q der rationalen Zahlen zu konstruieren. Ferner liefert die
Kettenbruchentwicklung liefert eine Ordnung auf der reellen Achse. Gegeben
zwei reelle Zahlen α = [a0 , . . . , an , αn+1 ] und α′ = [a0 , . . . , an , α′n+1 ] mit
denselben ersten Teilnennern, dann folgt, dass jedes α′′ , das zwischen α und
α′ liegt, eine Kettenbruchentwicklung besitzt, die mit denselben Teilnennern
startet, wie die von α und α′ , nämlich:
α′′ = [a0 , . . . , an , α′′n+1 ]
für irgendein α′′n+1 zwischen αn+1 und α′′n+1 . Dies zeigt man mit Induktion.
Satz 27 zeigt, wie wichtig Kettenbrüche in der Theorie der diophantischen
Approximation sind. Es folgt unmittelbar
Korollar 28. Sei α = [a0 , a1 , . . .] irrational mit Näherungsbrüuchen pqnn .
Dann gilt
1
p
n
α − <
.
(39)
qn an+1 qn2
Diese Aussage verschärft den klassischen Dirichletschen Approximationssatz 1: Die Folge der Näherungsbrüche approximiert α besser und besser
(denn die Teilnenner wachsen streng monoton und jeder Teilnenner ist größer
gleich Eins). Tatsächlich besagt der Approximationssatz von Hurwitz: Zu
α ∈ R \ Q gibt es unendlich viele rationale Zahlen pq mit
p
ξ − < √ 1 ;
(40)
q
5q 2
76
ERGODENTHEORIE
√
hierbei kann man 5 durch keine größere Konstante ersetzen. Für den Beweis betrachte man den am langsamsten konvergierenden Kettenbruch
√
5+1
Fn+1
= [1, 1, 1, 1, 1, . . .] = lim
,
n→∞
2
Fn
wobei Fn die n-te Fibonacci-Zahl bezeichne, rekursiv definiert durch
F0 := 0, F1 := 1
und Fn+1 = Fn + Fn−1
für n ∈ N.
Aufgabe√22. Man beweise den Hurwitzschen Approximationssatz 40; die
Schranke 5 steht dabei in direktem Zusammenhang mit [1, 1, , . . .] (Hinweis:
Man benutze zudem das Gesetz der besten Approximation, Satz 29 weiter
unten und nicht Korollar 28).
29. Jan. 2008
Als weiteres Beispiel eines unendlichen Kettenbruches betrachten wir den
Kettenbruch für π: Zunächst berechnen wir34
π = [3, 7, 15, 1, 292, 1, 1, 1, 21, 31, 14, 2, 1, 2, 2, 2, . . .].
Schneiden wir den Kettenbruch etwa vor 292 ab, so erhalten wir
355
p3
= [3, 7, 15, 1] = .
113
q3
Da a4 = 292 im Vergleich zu q3 = 113, ist dies eine exzellente Approximation:
1
355
−π <
= 0.00000 02682 . . . ,
0<
113
292 · 1132
wie bereits der chinesische Mathematiker Tsu Chung Chi ca. 500 n. Chr.
wußte. Ausserdem folgt, dass der nächste Näherungsbruch einen extrem
großen Nenner besitzt, denn q4 = a4 q3 + q2 = 292 · 113 + 106 = 33 102.
Die Folge der ersten Näherungsbrüche ist identisch mit den best möglichen
rationalen Approximationen an π:
333
1 03993
355
22
3
<
<
< ... < π < ... <
< .
1
106
33102
113
7
Diese Beobachtung ist kein Wunder wie Lagrange 1770 bewiesen hat.
Satz 29. Sei α irgendeine reelle Zahl mit Näherungsbrüchen pqnn . Ist n ≥ 2
und sind p, q natürliche Zahlen mit 0 < q ≤ qn und pq 6= pqnn , so gilt
|qn α − pn | < |qα − p|.
34Bislang kennt man kein Muster in der regulären Kettenbruchentwicklung von π,
übrigens im Gegensatz zu e = exp(1) = [2, 1, 2, 1, 1, 4, 1, . . . , 1, 2n, 1, . . .] – die Schreibweise
erklärt sich hier von selbst.
10. Elementare Theorie der Kettenbrüche
77
Dies ist das sogenannte Gesetz der besten Approximation und zeigt, dass
man grundsätzlich nicht besser mit rationalen Zahlen approximieren kann,
als durch die Näherungsbrüche der Kettenbruchentwicklung.
Beweis. Wir nehmen an, dass p und q teilerfremd sind. Wegen
|qn α − pn | < |qn−1 α − pn−1 |
genügt es die Behauptung unter der Annahme qn−1 < q ≤ qn zu zeigen; die
volle Aussage ergibt sich dann per Induktion.
Gilt q = qn , so ist p 6= pn und
p pn − ≥ 1.
q
qn qn
Allerdings gilt
1
1
p
n
α − ≤
<
qn
qn qn+1
2qn
nach Satz 27 und qn+1 ≥ 3 (denn n ≥ 2). Mit der Dreiecksungleichung folgt
α − p ≥ p − pn − α − pn > 1 > α − pn ,
q
q
qn
qn
2qn
qn was die zu beweisende Ungleichung nach Multiplikation mit q = qn liefert.
Angenommen qn−1 < q < qn . Nach Satz 25 besitzt das lineare Gleichungssystem
pn X + pn−1 Y = p
und
qn X + qn−1 Y = q
die eindeutige Lösung
x=
pqn−1 − qpn−1
= ±(pqn−1 − qpn−1 )
pn qn−1 − pn−1 qn
und
y=
pqn − qpn
= ±(pqn − qpn ).
pn qn−1 − pn−1 qn
Damit sind x und y von Null verschiedene ganze Zahlen. Offensichtlich haben
x und y unterschiedliches Vorzeichen und damit qn α − pn und qn−1 α − pn−1
ebenso. Also besitzen x(qn α − pn ) und y(qn−1 α − pn−1 ) dasselbe Vorzeichen.
Wegen
qα − p = x(qn α − pn ) + y(qn−1 α − pn−1 )
folgt
|qα − p| > |qn−1 α − pn−1 | > |qn α − pn |,
was zu zeigen war. •
78
ERGODENTHEORIE
11. Metrische Theorie der Kettenbrüche
In einem Brief an Laplace vom 30. Januar 1812 beschreibt Gauss ein
’seltsames Problem’, das ihn zu dieser Zeit bereits zwölf Jahre beschäftigte
und er bis dato nicht zu seiner Zufriedenheit lösen konnte. Hier ist sein
Problem: Sei 0 ≤ ξ ≤ 1 und mn (ξ) die Wahrscheinlichkeit, dass eine reelle
Zahl α = [0, a1 , a2 , . . . , an , αn+1 ] ∈ [0, 1) der Ungleichung
1
αn+1
<ξ
genügt. Es ist klar, dass m0 (ξ) = ξ gilt und, dass mn+1 von mn abhängt.
Man kann davon ausgehen, dass Gauss ferner die Identität
∞ X
1
)
mn+1 (ξ) =
mn ( k1 ) − mn ( k+ξ
k=1
kannte. Gauss schrieb nämlich, dass er einen einfachen Beweis für
lim mn (ξ) =
n→∞
log(1 + ξ)
log 2
(41)
hatte und, dass dieser Grenzwert die Funktionalgleichung
m(ξ) =
∞ X
1
)
m( k1 ) − m( k+ξ
k=1
mit zusätzlich m(0) = 0 und m(1) = 1 erfülle. Er konnte allerdings nicht
die Differenz mn (ξ) − log(1+ξ)
log 2 , also die Abweichung vom Grenzwert oder der
Fehlerterm der Asymptotik für große n beschreiben. Mehr als ein Jahrhundert später gelang R.O. Kusmin (Sur un problem de Gauss, Atti Congr.
Itern. Bologne 6 (1928), 83-89) die Lösung des Gaussschen Problems (incl.
eines ersten publizierten Beweises von (41)) durch die Angabe eines expliziten Fehlerterms; diesen verbesserte P. Lévy (Sur les lois de probabilité
dont dépendent les quotients complets et incomplets d’une fraction continue,
Bull. Soc. Math. France 57 (1929), 178-194) zu
mn (ξ) =
log(1 + ξ)
+ O(q n )
log 2
für ein q ∈ (0, 0.76); die schärfste Abschätzung gelang E. Wirsing (On the
theorem of Gauss-Kusmin-Lévy and a Frobenius-type theorem for function
spaces, Acta Arith. 24 (1973/74), 507-528). Dieses Ergebnis ist dann auch
in der Literatur bekannt als Satz von Gauss–Kusmin–Lévy. Mit diesem
wichtigen Ergebnis als Werkzeug gewannen Lévy und Kchintchine kurz
darauf interessante Ergebnisse über die Statistik von Kettenbrüchen, wie
11. Metrische Theorie der Kettenbrüche
79
etwa, dass für fast alle Kettenbrüche [0, a1 , a2 , . . .] die Konvergenz
! N1
log k
N
∞ Y
Y
log 2
1
an
lim
=
1+ 2
N →∞
k +k
n=1
(42)
k=1
besteht. Diese fast sichere Asymptotik für das arithmetische Mittel (und
noch einiges mehr) werden wir weiter unten mit Hilfe von Ergodentheorie
(und ohne den tiefen Satz von Gauss–Kusmin–Lévy) beweisen. Während
die Ansätze von Khintchine und Lévy ursprünglich probabilistischer Natur waren, entdeckten 1940 W. Doeblin35 und 1951 (unabhängig?) RyllNardzewski, dass ein ergodisches System hinter der schwierigen Arithmetik von Kettenbrüchen steht.
Die Kettenbruchabbildung (oder auch Gauss-Abbildung) T : [0, 1) →
[0, 1) ist definiert durch
1
mod 1
für 0 < x < 1
x
undT 0 = 0; wir hätten natürlich für 0 < x < 1 stattdessen auch T x =
1
1
1
n
x − x = { x } schreiben können. Offensichtlich gilt T x = 0 für ein n, wenn
Tx =
1
1
y
y
0
0
0
1
x
0
1
x
Abbildung 10. Die Kettenbruchabbildung: links der Graph
der Transformation, rechts der Graph der Dichte.
und nur wenn x rational ist, was sofort aus dem vorigen Kapitel folgt, denn
es gilt
T [0, a1 , a2 , . . .] = [a1 , a2 , a3 , . . .] mod 1 = [0, a2 , a3 , . . .].
(43)
35Walter Doeblin, Schüler von Lévy und Sohn des bekannten Schriftstellers Alfred
Doeblin (Berlin Alexanderplatz). Von Doeblins mathematischen Werk war bis vor kurzem nichts bekannt — sein mathematisches Testament lag fast sechzig Jahre ungeöffnet
in einer Pariser Universität; hierunter sind wichtige Entdeckungen über die Brownsche
Bewegung und stochastische Analysis, die erst Jahre später von Ito und Doob gefunden
wurden. M. Petits Roman ’Die verlorene Gleichung’ gibt einen Abriss seines kurzen Lebens, dass mit seinem Selbstmord in den Wirren des zweiten Weltkrieges tragisch endete.
80
ERGODENTHEORIE
Für unsere ergodentheoretische Maschinerie ist es von entscheidender Bedeutung ein Maß zu finden, bzgl. dessen T maßtreu ist. Dies ist im Allgemeinen –
und auch hier im Speziellen – keine einfache Aufgabe (siehe Übungsaufgabe
7).
Aufgabe 23. Man zeige, dass die Abbildung T nicht maßtreu bzgl. des
Lebesgue-Maßes ist.
Hier kommt die Lösung: Das Gauss-Maß µ ist für Lebesgue-meßbare
Mengen A definiert durch
Z
dx
1
.
µ(A) =
log 2 A 1 + x
Offensichtlich ist µ ein Wahrscheinlichkeitsmaß auf [0, 1). Als Grundlage
unseres ergodentheoretischen Ansatzes beweisen wir zunächst, dass die Kettenbruchabbildung T maßtreu bzgl. des Gauss-Maßes µ ist.
Es genügt zu zeigen, dass µ(T −1 (0, ξ)) = µ((0, ξ)) bzw.
Z
Z
dx
dx
=
T −1 (0,ξ) 1 + x
(0,ξ) 1 + x
für jedes ξ ∈ [0, 1) gilt. Dazu bemerken wir
∞ [
1
1
−1
T (0, ξ) =
,
,
n+ξ n
n=1
wobei die rechte Seite wegen 0 ≤ ξ < 1 eine disjunkte Vereinigung ist. Wegen
Z 1/n
1
1
dx
= log 1 +
− log 1 +
n
n+ξ
1/(n+ξ) 1 + x
folgt damit
Z
T −1 (0,ξ)
dx
1+x
∞ Z
X
1/n
dx
1+x
n=1 1/(n+ξ)
∞
X
1
1
− log 1 +
=
log 1 +
n
n+ξ
=
n=1
(die auftretenden Reihen sind offensichtlich konvergent). Wegen
1 + n1
1 + nξ
n+1 n+ξ
=
1 =
ξ
n n+1+ξ
1 + n+ξ
1 + n+1
können wir die Reihe in (44) ersetzen durch
∞ X
ξ
ξ
log 1 +
− log 1 +
.
n
n+1
n=1
(44)
11. Metrische Theorie der Kettenbrüche
81
Lesen wir nun alles rückwärts, so ergibt sich
Z
Z ξ
∞ Z ξ/n
X
dx
dx
dx
=
=
,
1
+
x
1
+
x
1
+x
T −1 (0,ξ)
0
n=1 ξ/(n+1)
was zu zeigen war. Die Abbildung T ist also maßtreu bzgl. µ.
Als Nächstes wollen wir zeigen, dass µ ergodisch ist, was leider etwas
aufwendiger ist. Dazu definieren wir für irgendwelche natürlichen Zahlen aj
zunächst die Mengen
∆n := ∆n (a1 , . . . , an )
:= {x = [0, a1 (x), a2 (x), . . .] ∈ [0, 1) : a1 (x) = a1 , . . . , an (x) = an }.
Diese Mengen bestehen also aus den x des Einheitsintervalls, deren Teilnenner aj (x) mit den vorgegebenen Werten aj für j = 1, . . . , n übereinstimmen,
z.B.
1
1
1
, 1 , ∆1 (n) =
,
für n ≥ 2.
∆1 (1) =
2
n+1 n
Tatsächlich sind die Mengen ∆n halboffene Intervalle mit Endpunkten
pn
pn + pn−1
und
qn
qn + qn−1
ist; dies folgt unmittelbar mit der bijektiven Abbildung
pn + tpn−1
= [0, a1 , . . . , an + t]
[0, 1] ∋ t 7→
qn + tqn−1
(und unseren Beobachtungen zu Kettenbrüchen aus dem vorigen Kapitel).
Sei D die Menge aller Intervalle ∆n (mit allen möglichen Ingredienzen
a1 , . . . , an ∈ N und allen n ∈ N). Dann geben die Endpunkte all dieser ∆n
genau die Menge der rationalen Zahlen im Einheitsintervall [0, 1). Insofern
haben wir mit D eine abzählbare Familie von halb-offenen Intervallen gefunden, die einerseits viel mit Kettenbrüchen zu tun haben, und ausserdem
die so wichtige Borelsche σ-Algebra erzeugen.
Ferner berechnet sich mit Hilfe von Korollar 25 das Lebesgue-Maß der
∆n als
1
(45)
λ(∆n (a1 , . . . , an )) =
qn (qn + qn−1 )
besitzt. Ferner folgt für 0 ≤ a < b ≤ 1, dass entweder
pn + apn−1 pn + bpn−1
,
{x : a ≤ T n x ≤ b} ∩ ∆n =
(46)
qn + aqn−1 qn + bqn−1
oder
pn + bpn−1 pn + apn−1
,
{x : a ≤ T x ≤ b} ∩ ∆n =
qn + bqn−1 qn + aqn−1
je nachdem, ob n gerade oder ungerade ist. Hierbei gilt
n
{x : a ≤ T n x ≤ b} = T −n [a, b)
,
(47)
82
ERGODENTHEORIE
und auch
λ(T −n [a, b) ∩ ∆n ) = λ([a, b))λ(∆n )
qn (qn + qn−1 )
.
(qn + aqn−1 )(qn + bqn−1 )
(48)
Diese Rechnungen sind allesamt technischer Natur und wir überlassen ihren
Nachweis dem geneigten Leser als
Aufgabe 24. Man beweise die Aussagen (45)-(48).
Mit der Monotonie einer jeden Folge der qn gilt
1
qn
qn (qn + qn−1 )
qn (qn + qn−1 )
<
<
<
< 2.
2
qn + qn−1
(qn + aqn−1 )(qn + bqn−1 )
qn2
Nun folgt aus (48) sofort für irgendein Intervall I ⊂ [0, 1) die Ungleichung
1
λ(I)λ(∆n ) < λ(T −n I ∩ ∆n ) < 2λ(I)λ(∆n ).
2
Dieselbe Ungleichungskette gilt natürlich auch, wenn wir I durch eine beliebige endliche disjunkte Vereinigung A von solchen Intervallen ersetzen:
1
λ(A)λ(∆n ) < λ(T −n A ∩ ∆n ) < 2λ(A)λ(∆n ).
(49)
2
Die Menge solcher endlicher disjunkter Vereinigungen A von Intervallen erzeugt die Borelsche σ-Algebra. Somit gilt (49) auch für jede Borel-Menge
und insbesondere für jede Lebesgue-meßbare Menge A.
Natürlich geht es uns um das Gauss-Maß µ, welches wir nun ins Spiel
bringen. Es ist
1
1
1
1
≤
<
für 0 ≤ x < 1.
2 log 2
log 2 1 + x
log 2
Durch diesen Vergleich der Dichten von λ und µ gelten für jedes Lebesguemeßbare A die Ungleichungen
1
1
λ(A) ≤ µ(A) <
λ(A).
2 log 2
log 2
(50)
Jetzt benutzen wir die obigen Ungleichungen, um uns von den auftretenden
Lebesgue-Maßen zu lösen. Es folgt aus (49) und (50)
log 2
µ(A)µ(∆n ).
(51)
4
Nun haben wir alle Vorbereitungen getroffen, den folgenden wichtigen
Satz zu beweisen:
µ(T −n A ∩ ∆n ) >
5. Feb. 2008
Satz 30. Die Kettenbruchabbildung T ist eine maß-erhaltende, ergodische
Transformation auf dem Wahrscheinlichkeitsraum ([0, 1), L, µ), wobei L die
Familie der Lebesgue-meßbaren Mengen von [0, 1) ist und µ das GaussMaß µ. Damit ist ([0, 1), L, µ, T ) ein ergodisches dynamisches System.
11. Metrische Theorie der Kettenbrüche
83
Beweis. Die Maßtreue von T bzgl. µ haben wir bereits gezeigt, so dass
also lediglich noch der Nachweis der Ergodizität zu erbringen ist. Gegeben
eine Lebesgue-Menge B positiven Maßes. Angenommen, das Komplement
von B hätte positives Maß, dann besitzt B eine Darstellung als disjunkte
Vereinigung B = E ∪ F , wobei E eine Borel-Menge vom Maß µ(E) =
µ(B) und F eine Nullmenge ist (siehe hierzu etwa Elstrodt, Maß- und
Integrationstheorie, Springer). Mit dem Komplement von B besitzt dann
auch das Komplement E c von E positives Maß. Zu jedem ǫ > 0 existiert
dann eine Menge Gǫ , die eine Darstellung als endliche disjunkte Vereinigung
unserer offenen Intervalle ∆n aus D besitzt, und eine kleine symmetrische
Differenz mit E c hat:
µ(E c ∆Gǫ ) < ǫ
(sie also gewissermaßen approximiert). Nun gilt nach (51) die Abschätzung
µ(E ∩ Gǫ ) ≥ γµ(Gǫ )
mit
γ=
log 2
µ(B).
4
Und nach Konstruktion ergibt sich damit
µ(E c ∆Gǫ ) ≥ µ(E ∩ Gǫ ) ≥ γµ(Gǫ ) ≥ γµ(E c ∩ Gǫ ) > γ(µ(E c ) − ǫ),
was auf
γ(µ(E c ) − ǫ) < µ(E c ∆Gǫ ) < ǫ
führt. Dies gibt die Ungleichung γµ(E c ) < ǫ + ǫγ, welche für hinreichend
kleines ǫ > 0 unmöglich ist. Also haben wir einen Widerspruch und somit
µ(B) = 1. Der Satz ist bewiesen. •
In unserem Beweis haben wir das Lemma von Knopp benutzt (incl. seines
Beweises): Gegeben ein Wahrscheinlichkeitsraum ([0, 1), F, λ). Ist B eine
Lebesgue-meßbare Menge und C eine Klasse von Teilintervallen von [0, 1)
mit den Eigenschaften:
• Jedes offene Teilintervall von [0, 1) ist darstellbar als eine abzählbare
Vereinigung disjunkter Elemente von C;
• für alle A ∈ C gilt λ(A ∩ B) ≥ γλ(A) mit einer positiven, von A
unabhängigen Konstanten γ.
Dann gilt λ(B) = 1. Dieses Ergodizitätskriterium ist sehr wichtig und hilfreich in der Praxis.
Aufgabe 25. Man gebe einen Beweis des Knoppschen Lemmas in seiner
vollen Allgemeinheit. (Hilfestellung gibt [3].)
Jetzt lassen wir unsere Maschinerie auf das ergodische dynamische System
([0, 1), L, µ, T ) los, um einige erstaunliche Resultate über die Statistik von
Kettenbruchentwicklungen zu gewinnen. Wir starten mit einer fast sicheren
Asymptotiken für einige Mittelwerten für die Teilnenner (wie etwa (42)). A.
84
ERGODENTHEORIE
Khintchine, Metrische Kettenbruchtheorie, Compositio Math. 1 (1935),
361-382, bewies:
Satz 31. Für fast alle x = [0, a1 , a2 , . . .] ∈ [0, 1) gilt:
(i) Die natürliche Zahl k ∈ N tritt in der Folge der Teilnenner an mit
der asymptotischen Dichte
1
1
1
lim
♯{1 ≤ n ≤ N : an = k} =
log 1 +
.
N →∞ N
log 2
k(k + 2)
(ii) Für das geometrische Mittel der Teilnenner gilt
N
1 X
an = +∞.
lim
N →∞ N
n=1
(iii) Für das arithmetische Mittel gilt
lim
N →∞
N
Y
n=1
an
! N1
=
∞ Y
k=1
1
1+
k(k + 2)
log k
log 2
.
Nach (i) tritt also der Teilnenner 1 bei fast allen x aus dem Einheitsintervall
4/3
mit einer Häufigkeit von ungefähr log
log 2 ≈ 41.50 . . . Prozent auf, hingegen
der Teilnenner 2 nur mit ungefähr
log 9/8
log 2
≈ 16.99 . . . Prozent.
1.5
3
40
1
2
20
0.5
1
0
0
1000
n
0
0
0
1000
0
n
1000
n
Abbildung 11. Die langsame Konvergenz des geometrischen Mittels (links) und des arithmetischen Mittels (Mitte)
der Teilnenner, sowie schließlich log qn /n (rechts) bei n → ∞
im Falle x = π − 3.
Beweis. Wir schreiben auch x = [0, a1 (x), a2 (x), . . .]. Dann gilt a1 (x) =
[ x1 ] = [T x] bzw. a2 (x) = a1 (T x) nach (43), woraus sich an (x) = a1 (T n−1 x)
1
, k1 ] gilt a1 (ξ) = k
für n ≥ 2 ableitet. Mit unseren Intervallen ∆k := ( k+1
genau für {ξ} ∈ ∆k und damit also
an (x) = k
⇐⇒
a1 (T n−1 x) = k
⇐⇒
T n x ∈ ∆k . (52)
11. Metrische Theorie der Kettenbrüche
85
Die Folge der Teilnenner der Kettenbruchentwicklung x
=
[0, a1 (x), a2 (x), . . .] steht also in eindeutigem Zusammenhang mit den
Bildern der Iterierten Kettenbruchabbildung T n in den Intervallen ∆k .
Jetzt geht’s los:
Für die erste Behauptung bemühen wir den Birkhoffschen Ergodensatz 11 für die nach Satz 30 ergodische Kettenbruchabbildung T mit der
charakteristischen Funktion f = χ∆k . Wir erhalten
Z 1
1 X
n
lim
χ∆k (T x) =
χ∆k dµ = µ(∆k );
N →∞ N
0
0≤n<N
dieses letzte Integral berechnet sich als
Z 1/k
dx
1
1
1
=
log 1 +
− log 1 +
log 2
k
k+1
1/(k+1) 1 + x
=
k+1k+1
1
log
,
log 2
k k+2
also schließlich der in (i) auftretende Wert. Da hier χ∆k (T n x) = 1 nach (52)
genau für an = k gilt, ist (i) bewiesen.
Die zweite Behauptung ergibt sich ähnlich mit der Treppenfunktion
R1
f (x) = [ x1 ] = a1 (x). In diesem Fall ist das Integral 0 f dµ offensichtlich
bestimmt divergent gegen Unendlich. Für (iii) betrachten wir die Treppenfunktion f (x) = log a1 (x), die wir wegen (52) auch als f (x) = log k für
x ∈ ∆k darstellen können. Es gilt
Z 1
∞
∞
X
X
log k
,
f (x) dx =
µ(∆k ) log k ≤
k2
0
k=1
was auch die Konvergenz von
R1
0
k=1
f dµ impliziert, da
1
1
dµ
=
≪1
dx
log 2 1 + x
für x ∈ [0, 1).
Der Ergodensatz 11 liefert also
1
lim
N →∞ N
X
log an =
0≤n<N
Z
1
f (x) dµ(x)
0
Das Integral rechts berechnet sich leicht als
Z 1
Z
∞
X
log k 1/k
dx
f (x) dµ(x) =
log 2 1/(k+1) 1 + x
0
k=1
∞
X
log k
1
=
log 1 +
;
log 2
k(k + 2)
k=1
86
ERGODENTHEORIE
log k
hierin wachsen die Summanden asymptotisch wie k(k+2)
bei k → ∞, womit
also die auftretende unendliche Reihe und damit auch das uneigentliche
Integral konvergieren. Für das arithmetische Mittel folgt entsprechend
! N1
Z 1
N
Y
f (x) dµ(x)
= exp
lim
an
N →∞
0
n=1
= exp
∞
X
log k
k=1
1
log 1 +
log 2
k(k + 2)
!
,
was genau den Grenzwert in (iii) gibt. Der Satz ist bewiesen. •
Für N → ∞ konvergiert der fast sichere Grenzwert für das arithmetische
Mittel gegen die so genannte Khintchine-Konstante
log k
∞ Y
log 2
√
1
N
a1 a2 · . . . · aN −→
1+
= 2.68545 20010 . . . .
k(k + 2)
k=1
Wir diskutieren kurz einige spezielle Kettenbrüche und die Mittelwerte ihrer
Teilnenner. Die Eulersche Zahl besitzt eine regelmäßige Kettenbruchentwicklung:
e = exp(1) = [2, 1, 2, 1, 1, 4, 1, 1, 6, 1, . . . , 1, 2n, 1, . . .]
(einen Beweis findet man etwa in [11]). Hier wächst das geometrische Mittel
der Teilnenner gemäß a1 +a2 +. . .+aN ∼ 91 N , während für das arithmetische
Mittel
r
2
√
2N 3
N 2
N
a1 a2 · . . . · aN ∼
N! ∼
3
3e
gilt, also im letzten Falle ein abweichendes Verhalten. Für π hingegen legen Computerexperimente ein reguläres Verhalten im Sinne des Khintchineschen Satzes nahe. Nach einem klassischen Satz von Lagrange besitzen
genau die quadratischen Irrationalzahlen (also die Nullstellen irreduzibler
quadratischer Polynome mit ganzzahligen Koeffizienten) eine schließlich periodische Kettenbruchentwicklung (siehe [11]). Als Beispiel mögen hier etwa
√
√
√
5+1
3+1
= [1, 1, 1, 1, . . .],
= [1, 2, 1, 2, . . .]
2 = [1, 2, 2, 2, . . .],
2
2
dienen. Insbesondere sind die Teilnennerfolgen quadratischer Irrationalitäten beschränkt. √
Tatsächlich weiß man nicht, ob z.B. kubische Irrationalzahlen – wie etwa 3 2 – oder algebraische Irrationalitäten höheren Grades
eine unbeschränkte Teilnennerfolge besitzen oder nicht.
Aufgabe 26. Man berechne für einige quadratische und kubische Irrationalitäten die ersten Teilnenner und versuche das Grenzwertverhalten der
11. Metrische Theorie der Kettenbrüche
87
geometrischen und arithmetischen Mittelwerte ihrer Teilnennerfolge zu prognostizieren. Ist die Konvergenz im Falle quadratischer Irrationalitäten sicher? Wenn ja, versuche man dies zu beweisen und den Grenzwert exakt zu
bestimmen.
Der Birkhoffsche Ergodensatz erlaubt viele weitere fast sichere Asymptotiken für die Teilnennerfolgen.
Aufgabe 27. Man beweise: Für fast alle x = [0, a1 , a2 , . . .] gilt
lim
N →∞ 1
a1
N
+ ... +
1
aN
= 1.74540 . . . .
Als Nächstes untersuchen wir die Folge der Nenner qn der Näherungsbrüche. Insbesondere ihr Wachstumsverhalten qn → ∞ erlaubt einige interessante Aussagen über das Approximationsverhalten. Hier gilt nach P.
Lévy (Sur les lois de probabilité dont dépendent les quotients complets
et incomplets d’une fraction continue, Bull. Soc. Math. France 57 (1929),
178-194):
Satz 32. Es bezeichne
x ∈ [0, 1) gilt
pn (x)
qn (x)
den n-ten Näherungsbruch an x. Für fast alle
1
π2
log qn (x) =
n→∞ n
12 log 2
lim
und
−π 2
p
1
n
.
lim log x − =
n→∞ n
qn
6 log 2
Beweis. Wegen
pm (x)
qm (x)
=
1
1
=
p
m−1 (T x)
a1 + [0, a2 , a3 , . . . , am ]
a1 + qm−1
(T x)
=
qm−1 (T x)
,
pm−1 (T x) + a1 qm−1 (T x)
(53)
(54)
folgt pm (x) = qm−1 (T x) für m ∈ N (denn die Näherungsbrüche sind als
beste Approximationen gekürzt). Damit gilt
1
qn (x)
=
=
pn (x)
1
p2 (T n−2 x)
· ... ·
qn (x) qn−1 (T x)
q1 (T n−1 x)
p1 (T n−1 x)
pn (x) pn−1 (T x)
· ... ·
.
qn (x) qn−1 (T x)
q1 (T n−1 x)
Logarithmieren liefert also
− log qn (x) =
X
0≤j<n
log
pn−j (T j x)
.
qn−j (T j x)
88
ERGODENTHEORIE
Nun approximieren die
pn (x)
qn (x)
die Zahl x und deshalb schreiben wir
1
1 X
1
log(T j x) + Rn (x)
− log qn (x) =
n
n
n
(55)
0≤j<n
mit einem Fehlerterm
Rn (x) =
X 0≤j<n
pn−j (T j x)
j
− log(T x) .
log
qn−j (T j x)
Zunächst schätzen wir den Fehler Rn (x) ab. Wir erinnern uns, dass x in
p +pk−1
einem Intervall ∆k mit Endpunkten pqkk und qkk +qk−1
liegt. Insbesondere folgt
mit Satz 27 und dem Mittelwertsatz der Integralrechnung bei geradem k,
dass
Z x
pk
du
0 < log x − log
=
qk
pk /qk u
qk
1
1
pk 1
≤
<
=
x−
qk ξ
qk (qk + qk−1 ) pk
qk
mit einem ξ ∈ ( pqkk , x). Ähnlich zeigt sich
pk
1
< log x − log
qk
qk
für ungerades k. Bezeichnet wie üblich Fk die k-te Fibonacci-Zahl (siehe
letztes Kapitel), so folgt mit deren rekursiven Definition die Abschätzung
qk (x)
√ ≥ Fk (wobei Gleichheit genau im Falle des goldenen Schnittes x =
1
5 + 1) auftritt), so folgt
(
2
n
X
1
,
|Rn (x)| ≤
Fk
k=1
was sich mit Hilfe der Binetschen Formel36
1
Fk = √ (Gk − (−1)k G−k )
5
mit
√
5+1
G :=
2
(56)
leicht gegen eine konvergente geometrische Reihe abschätzen lässt:
|Rn (x)| <
Insbesondere folgt
∞
∞
X
X
1
G−k < +∞.
<
Fk
k=1
k=1
1
Rn (x) = 0
n
für alle x. Damit kann der Fehlerterm Rn (x) in (55) vernachlässigt werden.
lim
n→∞
36Der Beweis derselben ist eine einfache Induktion.
11. Metrische Theorie der Kettenbrüche
89
Existiert also der Grenzwert
n
1X
log(T n−j x),
n→∞ n
lim
(57)
j=1
so auch − limn→∞ n1 log qn (x) und beide Werte stimmen überein. Der Ausdruck (57) lässt sich mit dem Birkhoffschen Ergodensatz auswerten und
wir erhalten für fast alle x
Z 1
n
log x
π2
1X
log(T j x) =
dx = −
(58)
lim
n→∞ n
6
0 1+x
j=1
Es verbleibt also lediglich noch das auftretende Integral zu berechnen.
Hierzu benötigen wir zwei wichtige Funktionen. Einerseits die Riemannsche Zetafunktion, gegeben durch die für s > 1 konvergente ReihenP
1
darstellung ζ(s) = ∞
n=1 ns . Tatsächlich gilt (wie man leicht sieht) ferner
die Darstellung
∞
X
(−1)n
ζ(s) = (1 − 21−s )
ns
n=1
für alle komplexen s mit positivem Realteil, abgesehen von s = 1, denn für
diesen Wert besitzt ζ(s) einen einfachen Pol (harmonische Reihe).37 Zweitens
benötigen wir die Gamma-Funktion, für komplexe s mit positivem Realteil
definiert durch das Integral
Z ∞
y s−1 exp(−y) dy.
Γ(s) =
0
Dann gilt
n
bzw.
∞
X
(−1)n
n=1
ns
−s
Γ(s) =
Γ(s) =
Z
Z
∞
∞
us−1 exp(−nu) du
0
∞
X
us−1
0
!
(−1)n exp(−nu)
n=1
du;
hier ist das Vertauschen von Summation und Integration auf Grund der
gleichmässigen Konvergenz erlaubt. Mit u = − log x und
∞
X
(−1)n exp(−nu) =
(−1)n xn = x
n=1
n=1
folgt
∞
X
1−s
(1 − 2
)ζ(s)Γ(s) =
Z
1
0
(− log x)s
1
1+x
dx
1+x
37Tatsächlich ist dieser einzige Pol für die Zahlentheorie sehr wichtig und letztlich
verantwortlich für die Asymptotik im Primzahlsatz verantwortlich.
90
ERGODENTHEORIE
und insbesondere
Z
1
dx
1
= ζ(2).
1+x
2
0
Weiter mit Eulers berühmter Formel
(− log x)
ζ(2) = 1 +
1
1
π2
1
+
+
+
.
.
.
=
22 32 42
6
(59)
(dies zeigt man z.B. mit der Produktentwicklung des Sinus oder FourierAnalysis) ergibt sich jetzt (58). Damit folgt (53) nun aus (55).
Nach Satz 27 ist
1
1
pn < x − <
.
2qn qn+1
qn
qn qn+1
Mit dem bereits Bewiesenen in Gestalt von (53) ergibt sich nun auch leicht
(54). Der Satz ist bewiesen. •
Aufgabe 28. Man schließe alle Lücken, wie etwa die Binetsche Formel
(56) oder Eulers Formel (59) über die Summe der Reziproken Quadrate
(oder auch der Schluss von (53) auf (54)).
Tatsächlich weiss man einiges Interessantes über den Lëvysche Satz hinaus. W. Philipp & O.P. Stackelberg, Zwei Gesetze für Kettenbrüche,
Math. Ann. 181 (1969), 152-156, zeigten genauer
2
| log qn (x) − 12nπ
log 2 |
=1
lim sup p
n→∞
2σ 2 n log log n
für fast alle x ∈ [0, 1), wobei
2
Z 1 1
dx
nπ 2
2
σ = lim
log qn (x) −
n→∞ n 0
12 log 2
(log 2)(1 + x)
eine positive Konstante ist. Ein weiteres Resultat von W. Philipp (Mixing sequences of random variables and probabilistic number theory, Memoirs
Amer. Math. Soc. 114, 1971) zeigt eine Gausssche Normalverteilung auf:
Mit
Z 1
dx
π2
1
2
σ := lim
log qN (x) − N
N →∞ N log 2 0
12 log 2 1 + x
besteht der Grenzwert
2
log qN (x) − N 12πlog 2
√
<z
lim µ x ∈ [0, 1] :
N →∞
σ N
!
1
=√
2π
Z
z
−∞
exp(− 12 u2 ) du,
wobei µ irgendein bzgl. des Lebesgue-Maßes absolut stetiges Wahrscheinlichkeitsmaß ist. In diesem Zusammenhang ist dann auch das folgende Gesetz
13. Worüber wir nicht gesprochen haben...
91
vom iterierten Logarithmus nicht weiter verwunderlich: Für fast alle x
π2
12 log 2 log qN (x) − N σ√N lim sup p
= 1.
N →∞
2σ 2 N log log N
Erwähnenswert sind auch die Untersuchungen von C. Faivre (Distribution of Lévy constants for quadratic numbers, Acta Arith. 61 (1992), 13-34)
für quadratische Irrationalzahlen x. In diesem Fall konvergiert die Folge
1
n log qn (x) stets (was mit der speziellen, nämlich schließlich periodischen
Kettenbruchentwicklung zusammenhängt) und ihr Grenzwert β(x) ist die
so genannte Lévy-Konstante. Hier stellen sich Fragen wie: Was für Grenzwerte kommen für β(x) in Frage?
In unseren metrischen Untersuchungen haben wir die Gausssche Grenzwertformel (41) gar nicht benötigt; sie übersetzt sich zu
lim λ(T −n [0, ξ]) = µ([0, ξ]).
n→∞
Wer sich trotzdem für den Beweis interessiert, sei auf die Monographie A.M.
Rockett, P. Szüsz, Continued fractions, World Scientific 1992, verwiesen,
wo sogar der Satz von Gauss–Kusmin–Lévy mit explizitem Fehlerterm
bewiesen wird. Weitere tiefe Ergebnisse zur metrischen Kettenbruchtheorie
(wie etwa der Beweis der Doeblin–Lenstra–Vermutung durch Bosma,
Jager und Wiedijk) findet man in [3]. Hier finden sich auch andere Erscheiningsformen von Kettenbrüchen mit ihrer eigenen Ergodentheorie. Das
Buch F. Schweiger, Multidimensional continued fractions, Oxford 2000,
behandelt höherdimensionale Kettenbrüche.
12. Worüber wir nicht gesprochen haben...
Was kam zu kurz? Vieles! Fangen wir mit der Liste unserer Auslassungen
gleich mit unserem letzten Thema, der metrischen diophantischen Approximationstheorie. Es sei hti das Minimum einer reellen Zahl zur nächsten
ganzen Zahl, also hti = min{|t − z| : z ∈ Z}. Die Theorie der Kettenbrüche
lehrt, dass zu jedem x ∈ R eine Folge (qm ) natürlicher Zahlen mit qm → ∞
und qm hqm xi < 1 existiert. Littlewood vermutete, dass
lim inf nhnxihnyi = 0
n→∞
für alle
x, y ∈ R.
M. Einsiedler, A. Katok & E. Lindenstrauss (Invariant measures
and the set of exceptions to Littlewood’s conjecture, Ann. of Math. 164
(2005), 513-560) bewiesen, dass dies tatsächlich fast immer der Fall ist:
Die Hausdorff-Dimension der Menge der Paare (x, y) ∈ R2 mit dieser Eigenschaft ist gleich Null. Auch zu kurz gekommen sind die Anwendungen
92
ERGODENTHEORIE
der Ergodentheorie auf diophantische Gleichungen, also (in ihrer einfachsten Form) polynomielle Gleichungen über Q, di in ganzen oder rationalen
Zahlen zu lösen sind. Margulis bewies 1986 die Oppenheim-Vermutung
(1929): Sei Q eine indefinite quadratische Form in n ≥ 3 Variablen, die kein
Vielfaches einer rationalen Form ist, dann ist Q(Zn ) dicht in R.
Unsere Akzente haben wir in arithmetischen Anwendungen gesetzt. Viele
schöne und aktuelle Themen der Zahlentheorie, die hier trotzdem zu kurz
oder gar nicht behandelt wurden, werden in der Sammlung Equidistribution
in Number Theory, an introduction, herausgegeben von A. Granville und
Z. Rudnick (Nato Science Series, vol. 237, Springer 2005), behandelt, etwa
Quantum-Gleichverteilung, Verteilung von Punkten auf Varietäten, . . ..
Vieles, wenn nicht gar alles, was wir gemacht haben, lässt sich auch in der
Sprache der Stochastik formulieren. Zum Beispiel wird hier Ergodizität auch
in der Zeitreihenanalyse benutzt. Für die statistische Inferenz mit Zeitreihen müssen Annahmen getroffen werden (weil in der Praxis oft nur eine
Realisierung des die Zeitreihe generierenden Prozesses vorliegt). Die Annahme der Ergodizität bedeutet dann, dass Stichprobenmomente, die aus einer
endlichen Zeitreihe gewonnen werden, für T → ∞ gegen die Momente der
Grundgesamtheit konvergieren. Diese Eigenschaft lässt sich bei abhängigen
Zufallsvariablen nicht empirisch nachweisen und muss daher unterstellt werden.
Ein weiteres, nicht weniger spannendes Thema der Stochastik sind Irrfahrten und zufällige Prozesse. Tatsächlich kann man die Rekurrenz von
Irrfahrten ergodentheoretisch behandeln (siehe etwa [9]), was in Hinblick
auf den Poincaréschen Rückkehrsatz vielleicht gar nicht so verwunderlich
ist. Irrfahrten auf dem Kreis werden in [7] behandelt. Ein enger Zusammenhang besteht natürlicha uch zwischen Markov-Ketten und diskreten
dynamischen Systemen (insbesondere symbolischer Dynamik).
Untersuchungen über ergodische Flüsse auf Mannigfaltigkeiten sind seit
den fundamentalen Arbeiten von E. Hopf (Statistik der geodätischen Linien in Mannigfaltigkeiten negativer Krümmung, Ber. Verh. Sächs. Akad.
Wiss. Leipzig 91 (1939), 261-304) und Asonov Gegenstand zahlreicher Arbeiten. Insbesondere strukturelle Eigenschaften der SL2 (R) bzw. allgemeiner
Riemannsche Flächen negativer Krümmung spielen hier eine wichtige Rolle.
Und schließlich haben wir überhaupt nicht über die wichtigen Anwendungen der Ergodentheorie für die Informationstheorie gesprochen. Dieses
Gebiet hat sich seit seiner Einführung durch Shannon im Jahre 1949 als
wegweisend für Anwendungen der Mathematik wie Codierungstheorie u.ä.
erwiesen. Wir wollen hier nur den zentralen Begriff der Entropie erwähnt
– ohne aber überhaupt seine Definition wiederzugeben. Die Entropie der
13. Worüber wir nicht gesprochen haben...
Kettenbruchabbildung T aus dem letzten Kapitel ist
2
qn+1
π2
lim
= exp
= 10.731 . . . ,
2
n→∞ qn
6 log 2
93
2
wobei wir im letzten Schritt Satz 32 in der Form qn ∼ exp( 12πlogn 2 ) verwendet haben. Dieser Entropiewert ist knapp größer als Zehn, die Entropie
der Dezimalentwicklung, womit sich Kettenbrüche als Informationsträger
als ein wenig effizienter als Dezimalbrüche erweisen. Dieses Schlusswort ist
natürlich unbefriedigend, da wir hier nicht wirklich begründen, was Entropie tatsächlich ist, macht aber vielleicht neugierig. Das Semester ist zu Ende
und es verbleibt uns an dieser Stelle nichts weiter, als auf [3, 4] zu verweisen.
Inhaltsverzeichnis
Literatur
1
1. Motivation: Benford und Billiard
2
2. Klassische diophantische Approximationssätze
4
3. Gleichverteilung modulo Eins und die Sätze von Weyl
7
4. Maßtreue Abbildungen
15
5. Ergodizität und Mischen
29
6. Die Ergodensätze von Birkhoff und von Neumann
34
7. Die Wiederkehrsätze von Poincaré und Kac
46
8. Arithmetische Progressionen und der Satz von van der Waerden 52
9. Normale Zahlen
63
10. Elementare Theorie der Kettenbrüche
70
11. Metrische Theorie der Kettenbrüche
78
12. Worüber wir nicht gesprochen haben...
91
Herunterladen