ERGODENTHEORIE JÖRN STEUDING Die Ergodentheorie studiert das Langzeitverhalten dynamischer Systeme mit maß- bzw. wahrscheinlichkeitstheoretischen Methoden. Aus dem Griechischen übersetzt bedeuten ergon und odon nichts anderes als Arbeit und Weg. Die Ursprünge der Ergodentheorie liegen in der Himmelsmechanik, insbesondere in den Arbeiten von Boltzmann und später Poincaré. In dieser Vorlesung beweisen wir die fundamentalen Sätze der Ergodentheorie (Poincarés Wiederkehrsatz, Birkhoffs Ergodensatz) und behandeln eine Vielzahl von meist zahlentheoretischen Anwendungen (Billiard, Benfords Gesetz, Gleichverteilung, metrische Theorie der Kettenbrüche, rekurrente Irrfahrten). Im Wesentlichen folgen wir den Büchern von Dajani & Kraaikamp bzw. Coppel [3, 2] sowie der Vorlesung von Einsiedler & Ward [5]. Die Monographien [8, 10] enthalten weiteres Material und ihre Lektüre ist empfehlenswert. Das schöne Buch von Choe [7] enthält zusätzlich MapleProgramme für ein Experimentieren mit dem Stoff — hier gilt mein Dank meiner Frau Rasa für das Erstellen der schönen Graphiken. Vorkenntnisse aus der Maßtheorie (bzw. Stochastik) sind äußerst hilfreich (siehe etwa [6, 9]). Für eine allgemeinere Theorie der dynamischen Systeme verweisen wir auf [4, 10]; zahlentheoretische Grundlagen kann man in [11] nachschlagen. Für Kommentare jeder Art bin ich dankbar. Viel Spaß! Literatur [1] P. Billingsley, Ergodic theory and Information, John Wiley & Sons, New York 1965 [2] W.A. Coppel, Number Theory. An Introduction to Mathematics, Springer 2006 (zwei Bände) [3] K. Dajani, C. Kraaikamp, Ergodic theory of numbers, Mathematical Association of America, Washington DC 2002 [4] M. Denker, Einführung in die Analysis dynamischer Systeme, Springer 2005 [5] M. Einsiedler, T. Ward, Ergodic Theory: with a view towards Number Theory, www.mth.uea.ac.uk/ergodic/ [6] J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 5.Auflage [7] Geon Ho Choe, Computational Ergodic Theory, Springer 2005 [8] K. Jacobs, Selecta Mathematica IV, Springer 1972 [9] A. Klenke, Wahrscheinlichkeitstheorie, Springer 2006 [10] M. Pollicott, M. Yuri, Dynamical Systems and Ergodic Theory, London Mathematical Society 40, Cambridge University Press, 1998 [11] J. Steuding, Diophantine Analysis, Chapman & Hall/CRC Press, Boca Raton 2005 Date: Wintersemester 2007/08, Universität Würzburg. 1 2 16. Okt. 2007 ERGODENTHEORIE 1. Motivation: Benford und Billiard Das Benfordsche Gesetz beschreibt Unregelmäßigkeiten in der Verteilung der Ziffern in gewissen empirischen Datensätzen. 1881 bemerkte Newcomb, dass in Büchern mit Logarithmenafeln die Seiten mit Tabellen mit Eins als erster Ziffer deutlich abgenutzter waren als die anderen. Dies wurde 1938 durch den Physiker Benford wiederentdeckt und durch eine statistische Analyse diverser Datensätze belegt, z.B. Einwohnerzahlen in amerikansichen Ortschaften (siehe F. Benford, The law of anomalous numbers, Proc. Amer. Philos. Soc. 78 (1938), 551-572). Natürlich gilt dies nicht für jeden Datensatz positiver reeller Zahlen. Hier ein illustrierendes Beispiel (auch als Gelfands Problem bekannt): Wir bilden die Zweierpotenzen 2n und beobachten, dass unter den ersten 1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048, 4096, 8092, . . . mehr Zahlen mit der Ziffer 1 beginnen, als etwa mit der Ziffer 3. Für eine (m + 1)-ziffrige Zweierpotenz, deren Dezimaldarstellung mit einer Ziffer k ∈ {1, 2, . . . , 9} startet gilt offensichtlich die Ungleichung 10m k ≤ 2n < 10m (k + 1) bzw. durch Logarithmieren m + log10 k ≤ n log10 2 < m + log10 (k + 1), und umgekehrt. Schreiben wir eine reelle Zahl x als x = [x] + {x}, d.h. als Ganzteil [x] ∈ Z plus ihrem gebrochenen Anteil {x} ∈ [0, 1), so folgt log10 k ≤ {n log10 2} < log10 (k + 1). Auf Grund der Konvexität des Logarithmus ist das Intervall [log10 k, log10 (k + 1)) für kleine k größer. Tatsächlich führt dies dazu, dass ≈ log10 k+1 k Prozent der Zweierpotenzen eine Dezimaldarstellung mit Startziffer k besitzen; speziell für die Startziffer 1 ist der Anteil ca. 30, 1 Prozent, während Startziffer 7 nur für etwa 5, 8 Prozent gilt. In diesem Sinne ist das Benfordsche Gesetz nichts anderes als die Wahrscheinlichkeitsverteilung der Mantisse bzgl. zur Basis. Wir werden dies später mit Ergodentheorie (bzw. etwas weniger als das) begründen. Darüber hinaus soll das Benfordsche Gesetz – also die obige Verteilung für die Startziffer – für viele andere Zahlenfolgen gelten, etwa für physikalische Konstanten, Aktienindizes und vieles mehr,1 allerdings sicherlich nicht für die Folge der 1Angeblich wurde mit Hilfe des Benfordschen Gesetzes das kreative Rechnungswesen von Enron aufgedeckt und seitdem wird es auch von den Steuerbehörden der USA und einiger anderer Länder zum Nachweis gefälschter Steuererklärungen benutzt. 1. Motivation: Benford und Billiard 3 natürlichen Zahlen selbst oder die Zehnerpotenzen — was macht hier den Unterschied aus? Als zweiten Aufhänger betrachten wir nun eine mathematisches Problemstellung beim Billiard, zuerst aufgeworfen durch D. König & A. Szücs, Mouvement d’un point abandonné à l’intérieur d’un cube, Palermo Rend. 36 (1913), 79-90 (in Ungarisch). Dabei spielen wir Billiard auf einem quadratischen Tisch ohne Widerstand. Alternativ denke man an ein Quadrat mit Spiegeln als Seiten; ein Lichtstrahl verläßt einen Punkt im Innern des Quadrates und wird reflektiert von den Spiegeln — welchen Weg wird der Lichtstrahl zurücklegen? Wir können uns leicht einen Lichtstrahl vorstellen, der einen periodischen Weg zurücklegt, aber unter welchen Umständen tritt eben diese Situation ein? Wie könnten andere Szenarien aussehen? Tatsächlich wird dieses Problem etwas einfacher, wenn wir das Quadrat durch einen Kreis ersetzen, denn dann wird ein Lichtstrahl aus dem Inneren des Kreises stets in demselben Winkel reflektiert (der Leser mache sich klar, dass dies tatsächlich so ist — das Stichwort hierzu heißt Rotationssymmetrie). Wir dürfen uns den Kreis als den Einheitskreis in C vorstellen, das ist die so genannte Kreisgruppe (die multiplikative Gruppe aller kompexen Zahlen mit Betrag 1) √ T := {exp(2πix) : x ∈ [0, 1)} mit i = −1. Die Exponentialabbildung exp : R → T, x 7→ exp(2πix) ist bekanntlich ein surjektiver, aber nicht injektiver Gruppenhomomorphismus. Mit dem Isomorphiesatz ergibt sich T∼ = R / Z, d.h. wir können T als isomorphes Bild der reellen Zahlengeraden R modulo Z bzw. als isomorphes Bild des Einheitsintervalls [0, 1) auffassen. Diese Idee werden wir im Folgenden des öfteren benutzen. Sei nun πα der Winkel zwischen dem Lichtstrahl und dem Kreis T. Bezeichnen wir mit ζn = exp(2πixn ) den n-ten Punkt auf dem Kreis, den der Lichtstrahl getroffen hat, so gilt xn − xn−1 ≡ 2πα mod 1 bzw. xn = x0 + 2πnα für n ∈ N, wobei x0 der erste Schnittpunkt des Lichtstrahls mit dem Kreis sei. Ist also der Winkel α rational, so ist der Lichtstrahl offensichtlich periodisch. Genauer: gilt 2α = pq mit p, q ∈ N, so ist der Lichtstrahl q-periodisch (d.h. xn+q ≡ xn mod 1). Was aber, wenn α irrational ist? In diesem Fall kann 4 ERGODENTHEORIE man beweisen (und der geneigte Leser versuche sich daran), dass der Lichtstrahl jedes noch so kleine, nicht leere Segment auf dem Kreisrand früher oder später trifft. Abbildung 1. Ein periodischer Lichtstrahl beim Kreisbilli1 π bzw. 18◦ . ard; hier ist 2πα = 10 Die Behandlung dieser beiden Problemstellungen erfolgt nun mit klassischen Methoden der Theorie der diophantischen Approximation und Gleichverteilung. 2. Klassische diophantische Approximationssätze Die rationalen Zahlen liegen bekanntlich dicht in R und erlauben dank des folgenden klassischen Approximationssatzes von Dirichlet (aus dem Jahr 1842) beliebig gute rationale Näherungen an reelle Irrationalzahlen: Satz 1. Zu ξ ∈ R \ Q gibt es unendlich viele rationale Zahlen ξ − p 1 < 2. q q p q mit (1) Diese Eigenschaft charakterisiert Irrationalzahlen, d.h. ist ξ rational, so besitzt die Ungleichung (1) nur endlich viele Lösungen pq . Beweis. Wir benutzen ein Schubfachprinzip: Verteilt man n+1 Gegenstände auf n Schubfächer, so gibt es mindestens ein Schubfach mit mindestens zwei Gegenständen. Zu Q ∈ N liegen die Q + 1 Punkte 0, {ξ}, {2ξ}, . . . , {Qξ} in den Q disjunkten Intervallen j−1 j , für j = 1, . . . Q. Q Q Also gibt es (nach dem Schubfachprinzip) mindestens ein Intervall, das mindestens zwei Punkte enthält, etwa {kξ} ≥ {ℓξ} mit 0 ≤ k, ℓ ≤ Q und k 6= ℓ. 2. Klassische diophantische Approximationssätze 5 Es folgt {kξ} − {ℓξ} = kξ − [kξ] − ℓξ + [ℓξ] = {(k − ℓ)ξ} + [(k − ℓ)ξ] + [ℓξ] − [kξ] . | {z } (2) ∈Z 1 ) liegt, summieren sich die Ganzteile Da {kξ} − {ℓξ} in dem Intervall [0, Q in (2) zu Null auf. Sei q = k − ℓ, dann gilt {qξ} = {kξ} − {ℓξ} < Mit p := [qξ] folgt daher ξ − 1 . Q p |qξ − p| {qξ} 1 = = < , q q q qQ (3) was die Ungleichung (1) impliziert (da ja q < Q). Sei nun ξ irrational. Angenommen, es gibt nur endlich viele Lösungen pn p1 q1 , . . . , qn von (1). Da ξ 6∈ Q, gibt es ein Q mit ξ − pj > 1 für j = 1, . . . , n, qj Q im Widerspruch zu (3). Nun nehmen wir an, dass ξ rational ist, etwa ξ = Für ξ = ab 6= pq , folgt p ξ − = |aq − bp| ≥ 1 , q bq bq a b mit a ∈ Z und b ∈ N. und (1) impliziert q < b. Also gibt es nur endlich viele ist bewiesen. • (4) p q mit (1). Der Satz Tatsächlich kannte bereits Lagrange diesen Satz (mit einem Beweis, den wir in §7 kennen lernen werden); allerdings bewies Dirichlet (mit Hilfe der obigen Beweisidee) allgemeiner: Angenommen ξij mit 1 ≤ i ≤ m, 1 ≤ j ≤ n sind reelle Zahlen und Q > 1 ist eine ganze Zahl, dann existieren ganze Zahlen p1 , . . . , Pm , q1 , . . . , qn mit 1 ≤ max{|qj | : 1 ≤ j ≤ n} < Qm/n und |ξi1 q1 + . . . + ξin qn − pi | ≤ 1 Q für 1 ≤ i ≤ m. Aufgabe 1. Man i) beweise diese Aussage (Hinweis: mit einem Schubfachprinzip wie oben) und ii) zeige, dass dies in der Tat den wesentlichen Teil von Satz 1 verallgemeinert. 6 ERGODENTHEORIE Der Kroneckersche Approximationssatz von 1884 verallgemeinert Satz 1 auf den inhomogenen Fall:2 Satz 2. Sei ξ ∈ R \ Q und η ∈ R. Dann gibt es zu jedem N ∈ N ein Q ∈ N mit Q > N und P ∈ Z, so dass 3 |Qξ − P − η| < . Q Beweis. Nach Satz 1 gibt es teilerfremde ganze Zahlen q > 2N und p, so dass 1 |qξ − p| < . q Angenommen, m ist die ganze Zahl bzw. eine der zwei ganzen Zahlen, für die 1 |qη − m| ≤ 2 gilt. Nach dem Satz von Bezout (aus der elementaren Zahlentheorie) gibt es dann eine Darstellung m = px − qy mit ganzen Zahlen x, y, wobei |x| ≤ 1 2 q (tatsächlich folgt dies aus dem euklidischen Algorithmus für p und q rückwärts; siehe etwa [11]). Damit q(xξ − y − η) = x(qξ − p) − (qη − m), bzw. 23. Okt. 2007 1 1 1 |q(xξ − y − η)| < q · + = 1. 2 q 2 Wir setzen Q = q + x sowie P = p + y und erhalten 3 1 N < q ≤ Q ≤ q. 2 2 Also folgt 1 1 2 3 |Qξ − P − η| ≤ |xξ − y − η| + |qξ − p| < + = ≤ , q q q Q was zu beweisen war. • Der Kroneckersche Approximationssatz erlaubt die Lösung unseres Billiardproblems aus §1. Wir dürfen uns das Quadrat mit Seiten normiert auf die Länge 1 denken, also gewissermaßen gegeben durch [0, 1)2 ⊂ R2 . Ist γ der Winkel zwischen einer Seite des Quadrates und der Anfangsrichtung des Strahls, so wird der Lichtstrahl durch die Gleichung y = ξx + β 2In dem Buch von G.H. Hardy, E.M. Wright, An introduction to the theory of numbers, Oxford Science Publications, §23.6, wird ein mehrdimensionales Analogon dieses Satzes als einer jener Sätze beschrieben, die besagen, dass alles was nicht unmöglich ist, auch irgendwann eintreten wird, ungeachtet dessen wie unwahrscheinlich es auch sein mag (frei übersetzt) — eine Idee, die auch als ‘Murphy’s law’ bekannt ist. 3. Gleichverteilung modulo Eins und die Sätze von Weyl 7 beschrieben, wobei ξ = tan γ und β irgendeine reelle Zahl ist (entsprechend des Ausgangspunktes des Lichtstrahls). Der Lichtstrahl ist genau dann periodisch, wenn die obige Gerade modulo Z2 in eine endliche Vereinigung geradliniger Segmente zerfällt. Andernfalls liegt der Strahl dicht im Quadrat T×T ∼ = (R/Z)2 . Angenommen, ξ ist rational, etwa ξ = pq mit teilerfremden ganzen Zahlen p, q, dann ist die Gerade invariant unter den Transformationen x x q 7→ +k für k ∈ Z. y y p Angenommen, ξ ist irrational. Zu jedem Punkt (x1 , y1 ) ∈ R2 und jedem ǫ > 0 gibt es nach dem Kroneckerschen Approximationssatz 2, angewandt mit η = −y1 + β + ξx1 , ein Paar ganzer Zahlen P, Q, so dass |y1 + P − (ξ(x1 + Q) + β)| = | y1 − β − ξx1 +P − Qξ| < ǫ. | {z } =−η Damit liegen der allgemeine Punkt (x1 , y1 ) und der Geradenpunkt (x1 , ξ(x1 + Q) + β) modulo Z2 um weniger als ǫ von einander entfernt. Abbildung 2. Die Wege zweier Lichtstrahlen, einer mit rationaler, der andere mit irrationaler Tangente. Also ist der Lichtstrahl genau dann geschlossen bzw. periodisch, wenn der Winkel γ eine rationale Tangente besitzt, also ξ = tan γ ∈ Q; ansonsten kommt der Lichtstrahl jedem Punkt im Quadrat beliebig nahe. Aber wie spielt man Billiard auf nicht quadratischen Tischen? Zu diesem und weiteren verwandten Themen verweisen wir auf das unterhaltsame Buch von S. Tabachnikov, Geometry and billiards, Amer. Math. Soc., Providence 2005; das Thema des kreisrunden Billiardtisches sei dem Leser nach der Lektüre des nächsten Kapitels als Übungsaufgabe überlassen. Eine wichtige Rolle spielen effektive Versionen des inhomogenen Approximationssatzes wie etwa der von G.J. Rieger, Effective simultaneous approximation of complex numbers by conjugate algebraic integers, Acta Arith. 63 (1993), 325-334. 3. Gleichverteilung modulo Eins und die Sätze von Weyl Insbesondere zeigt der Kroneckersche Approximationssatz 2, dass die gebrochenen Anteile der Folge nξ bei laufendem n ∈ N genau dann dicht im 8 ERGODENTHEORIE Einheitsintervall liegen, wenn ξ irrational ist. Wir wollen diesen Zusammenhang und insbesondere den Begriff der Dichtheit im Folgenden etwas genauer unter die Lupe nehmen. Eine Folge (xn ) reeller Zahlen heißt gleichverteilt modulo 1, wenn für alle α, β mit 0 ≤ α < β ≤ 1 gilt, dass 1 ♯{1 ≤ n ≤ N : {xn } ∈ [α, β)} = β − α, N →∞ N wenn also die Proportion der gebrochenen Anteile der Folgeglieder xn in einem beliebig vorgegebenen Intervall der Länge dieses Intervalls entspricht. Offensichtlich genügt es hierbei Teilintervalle der Form [0, β) mit beliebigem β ∈ (0, 1) zu betrachten. Die ersten wichtigen Resultate in dieser Theorie gelangen Hermann Weyl 1913-16 (gesammelt in: Über die Gleichverteilung von Zahlen mod. Eins, Math. Ann. 77 (1916), 313-352) in Gestalt der folgenden zwei Sätze: lim Satz 3. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1, wenn für jede Riemann-integrierbare Funktion f : [0, 1] → C gilt, dass Z 1 N 1 X f (x) dx. f ({xn }) = lim N →∞ N 0 n=1 Beweis. Zu α, β ∈ [0, 1) sei χ[α,β) die Indikatorfunktion des Intervalls [α, β), also 1 falls α ≤ x < β, χ[α,β) (x) = 0 sonst. Dann ist Z 0 1 χ[α,β) (x) dx = β − α. Damit ist die Folge (xn ) genau dann gleichverteilt modulo 1, wenn für beliebige α, β ∈ [0, 1) stets Z 1 N 1 X χ[α,β) (x) dx χ[α,β) ({xn }) = lim N →∞ N 0 n=1 gilt. Besteht also die Asymptotik des Satzes für alle Riemann-integrierbaren f , so ist die Folge (xn ) sicherlich gleichverteilt. Es verbleibt also, die Notwendigkeit der Bedingung des Satzes zu zeigen. Sei also die Folge (xn ) gleichverteilt modulo 1. Dann gilt die Asymptotik des Satzes mit f = χα,β (s.o.); darüber hinaus aber auch für jede Linearkombination von solchen Indikatorfunktionen und somit insbesondere für jede Treppenfunktion. Zu jeder reellwertigen, Riemann-integrierbaren Funktion f und jedem ǫ > 0 gibt es Treppenfunktionen t− , t+ mit t− (x) ≤ f (x) ≤ t+ (x) für alle x ∈ [0, 1] 3. Gleichverteilung modulo Eins und die Sätze von Weyl und Z 1 0 Also folgt und damit Z (t+ (x) − t− (x)) dx < ǫ. 1 0 9 f (x) dx ≥ Z 1 0 t− (x) dx > Z 1 0 t+ (x) dx − ǫ Z 1 N 1 X f (x) dx f ({xn }) − N 0 n=1 ≤ Z 1 N 1 X t+ (x) dx + ǫ, t+ ({xn }) − N 0 n=1 welches kleiner 2ǫ ist für alle hinreichend großen N ; analog gewinnt man Z 1 N 1 X f (x) dx > −2ǫ f ({xn }) − N 0 n=1 für alle hinreichend großen N . Also gilt die zu beweisende Asymptotik für alle reellwertigen, Riemann-integrierbaren f . Mit der Linearität folgt die Aussage auch für komplexwertige, Riemann-integrierbare Funktionen. • In diesem Zusammenhang ist einmal das Riemann-Integral besser als das Lebesgue-Integral! Wie bereits Weyl bemerkte, sind die auftretenden Limiten gleichmäßig, was interessante Fragen aufwirft und in der Theorie der Gleichverteilung unter dem Begriff Diskrepanz weiter untersucht wurde. Dies hat wichtige und amüsante Anwendungen, etwa beim Billiard. Hier mag man sich fragen, wie bald bzw. wie oft ein nicht periodischer Lichtstrahl ein vorgegebenes Gebiet treffen mag? Die ersten Antworten hierzu gab bereits H. Weyl (Sur une application de la théorie des nombres à la mécaniques statistique et la théorie des pertubations, L’Enseign. math 16 (1914), 455-467) — wie mag seine Antwort gewesen sein? Die Umkehrung des Weylschen Satzes wurde von N.G. de Bruijn & K.A. Post, A remark on uniformly distributed sequences and Riemann integrability, Indagationes math. 30 (1968), 149-150, bewiesen: Besitzt eine Funktion f : [0, 1) → C die Eigenschaft, dass der Grenzwert N 1 X f ({xn }) lim N →∞ N n=1 für jede modulo 1 gleichverteilte Folge (xn ) existiert, dann ist f Riemannintegrierbar. Im Folgenden spielt die Parametrisierung des Einheitsintervalls durch die Kreisgruppe (siehe §1) eine wichtige Rolle. Für reelle ξ schreiben wir 10 ERGODENTHEORIE abkürzend e(ξ) = exp(2πiξ) (was mit der 2πi-Periodizität der Exponentialfunktion also = e(ξ + Z) ist). Satz 4. Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1, wenn für jede ganze Zahl m 6= 0 gilt, dass N 1 X e(mxn ) = 0. N →∞ N n=1 lim Beweis. Angenommen, die Folge (xn ) ist gleichverteilt modulo 1, dann folgt aus dem vorangegangenen Satz mit f (x) = e(mx) Z 1 N 1 X lim e(mx) dx. e(mxn ) = N →∞ N 0 n=1 Für eine ganze Zahl m 6= 0 ist die rechte Seite gleich Null, also gilt die gewünschte Asymptotik. Gilt hingegen die Asymptotik des Satzes für alle ganzen Zahlen m 6= 0, so folgt für das trigonometrische Polynom P (x) = +M X am e(mx) mit m=−M am ∈ C über die Linearität sofort N 1 X P ({xn }) = lim N →∞ N n=1 +M X m=−M = a0 = Z N 1 X am · lim e(mxn ) N →∞ N n=1 1 P (x) dx. (5) 0 Der Weierstraßsche Approximationssatz besagt, dass zu einer jeden stetigen, 1-periodischen Funktion f und jedem ǫ > 0 ein trigonometrisches Polynom P existiert, so dass |f (x) − P (x)| < ǫ für 0 ≤ x < 1 (6) (das beweist man leicht mit Fourier-Analysis; siehe etwa A. Hurwitz R. Courant, Funktionentheorie, Springer, 4. Auflage 1964).3 Mit solch einem 3Tatsächlich schreiben die Autoren diesen Satz Fejer zu und geben dessen Beweis, der im Prinzip nur auf der Cauchyschen Integralformel beruht. 3. Gleichverteilung modulo Eins und die Sätze von Weyl 11 Polynom folgt Z 1 N 1 X f (x) dx f ({xn }) − N 0 n=1 Z 1 N N 1 X 1 X P (x) dx (f ({xn }) − P ({xn })) + P ({xn }) − ≤ N N 0 n=1 n=1 Z 1 + (P (x) − f (x)) dx ; 0 hierin sind der erste und dritte Term der rechten Seite jeweils kleiner ǫ vermöge (6), während der zweite Term klein ist nach (5). Also gilt die zu beweisende Formel für alle stetigen 1-periodischen Funktionen f . Bezeichnet χ[α,β) wie im Beweis des vorigen Satzes die Indikatorfunktion des Intervalls [α, β), dann gibt es zu jedem ǫ > 0 stetige, 1-periodische Funktionen f− , f+ mit f− (x) ≤ χ[α,β) (x) ≤ f+ (x) für alle 0 ≤ x < 1 und Z 1 0 (f+ (x) − f− (x)) dx < ǫ. Daraus folgt nun ganz ähnlich wie oben, dass Z 1 N 1 X χ[α,β) (x) dx. χ[α,β) ({xn }) = lim N →∞ N 0 n=1 Also ist die Folge (xn ) gleich verteilt modulo 1. •4 Aufgabe 2. Man beweise: Eine reelle Zahlenfolge (xn ) ist genau dann gleichverteilt modulo 1, wenn für jede natürliche Zahl m die Folge (xm+n − P xn ) gleichverteilt ist modulo 1. (Hinweis: Schätze zunächst | n e(xn )|2 nach oben ab; mehr Hinweise gibt es in [2].) Eine wichtige Anwendung von Satz 4 ist das folgende Resultat des lettischen Mathematikers Piers Bohl (Über ein in der Theorie der säkularen Störungen vorkommendes Problem, J. f. Math. 135 (1909), 189-283), der unsere Bemerkung über die Dichtheit zu Beginn dieses Kapitels präzisiert:5 Korollar 5. Sei ξ ∈ R. Dann ist die Folge (nξ) genau dann gleichverteilt modulo 1, wenn ξ irrational ist. 4Einen nahezu längenfreien, auf dem Heiratssatz basierenden Beweis der Weylschen Sätze findet man ion [8]. 5Tatsächlich hatten fast zeitgleich auch Sierpinski und Weyl vergleichbare Resultate; für die interessante Geschichte empfehlen wir die Lektüre von E. Hlawka, C. Binder, Über die Entwicklung der Theorie der Gleichverteilung in den Jahren 1909 bis 1916, Arch. Histor. Exact Sciences 36 (1986), 197-249. 12 ERGODENTHEORIE Beweis. Ist ξ irrational, so folgt mit der Formel für die endliche geometrische Reihe N X e(mN ξ) − 1 e(mnξ) = e(mξ) e(mξ) − 1 n=1 für alle ganzen Zahlen m 6= 0. Da dies beschränkt ist (unabhängig von N ), ergibt sich N 1 X exp(2πimnξ) = 0. lim N →∞ N n=1 a b Gilt hingegen ξ = für gewisse a, b ∈ Z, b 6= 0, so ist der Grenzwert ungleich Null für alle Vielfachen m von b. Mit Satz 4 folgt die Behauptung. • 1 20 y 0 0 0 1 0 200 x Abbildung 3. Die Gleichverteilung modulo 1 der Folge √ √ (n 2); links ein Histogramm für die Verteilung von {n 2} j für n = 1, . . . , 500 in den Intervallen [ j−1 10 , 10 ) für 1 ≤ j ≤ 10, √ rechts die Punkte (n, {n 2}) im Einheitsquadrat. Korollar 5 lässt sich auf verschiedene Arten verallgemeinern. I.M. Vinogradov, Darstellung einer ungeraden Zahl als Summe von drei Primzahlen, Doklady Akad. Nauk SSSR 15 (1937), 291-294 (Russisch), bewies die ternäre Goldbach-Vermutung, dass nämlich jede hinreichend große ungerade natürliche Zahl als Summe von drei Primzahlen darstellbar ist — die binäre Goldbach-Vermutung behauptet, dass jede hinreichend große gerade natürliche Zahl Summe von zwei Primzahlen ist, was aber noch immer unbewiesen ist. Ein wichtiges Zwischenergebnis in seinem Beweis war eine Abschätzung der Exponentialsumme X e(ξpn ), pn ≤N wobei pn für die n-te Primzahl (der Größe nach geordnet) steht. Dies impliziert fast unmittelbar, dass für irrationales ξ, die Folge (ξpn ) gleichverteilt ist modulo 1. Um einen ersten Eindruck von der Tiefe dieses Resultates zu 3. Gleichverteilung modulo Eins und die Sätze von Weyl 13 gewinnen, sei der geneigte Leser ermuntert, sich Gedanken über den keineswegs trivialen Fall der Verteilung von (ξpn ) modulo 1 mit rationalem ξ zu machen. Eine andere Verallgemeinerung von Korollar 5 durch Weyl zeigt, dass, gegeben ein Polynom P = ad X d + . . . + a1 X + a0 mit reellen Koeffizienten, wobei mindestens einer der Koeffizienten aj mit j 6= 0 irrational ist, die Werte dieses Polynoms auf N gleichverteilt modulo 1 sind. Aufgabe 3. Man gebe einen Beweis dieser Behauptung. (Hinweis: Für jedes m ∈ N ist P (X + m) − P (X) ein Polynom vom Grad d − 1; man setze dies in Verbindung mit der vorangegangenen Aufgabe.) Man kennt mittlerweile recht viele gleichverteilte Folgen, die wesentlich schwieriger zu behandeln sind. So weiss man, dass die Imaginärteile der nichttrivialen Nullstellen der berühmten Riemannschen Zetafunktion gleichverteilt sind modulo 1 dank E. Hlawka, (Über die Gleichverteilung gewisser Folgen, welche mit den Nullstellen der Zetafunktion zusammenhängen, Österr. Akad. Wiss., Math.-Naturw. Kl. Abt. II 184 (1975), 459-471) und den Vorarbeiten von Rademacher (der dasselbe Ergebnis unter Annahme der Riemannschen Vermutung beiwesen hatte).6 Auf der anderen Seite ist aber vieles noch unbekannt: Einerseits gelang J.F. Koksma, Ein mengentheoretischer Satz über die Gleichverteilung modulo 1, Compositio Math. 2 (1935), 250-258, der beweis, dass die Folge (αn ) für fast alle α > 0 (d.h. bis auf α aus einer Nullmenge) gleichverteilt sind, jedoch ist kein einziges solches α explizit bekannt; es ist also ungelöst ob die (schnell wachsende) Folge {exp(n)} gleichverteilt ist oder nicht. Wir wollen noch einmal kurz das Gelfondsche Problem aus §1 aufgreifen: Die Folge xn = 2n gehorcht dem Benfordschen Gesetz. Um dies nachzuweisen, bemerken wir zunächst, dass die Folge der Logarithmen log10 xn = n log10 2 nach Satz 5 gleichverteilt ist modulo 1, denn log10 2 6∈ Q (was man leicht aus der eindeutigen Primfaktorzerlegung gewinnt). Entsprechend ist der Anteil der xn mit Startziffer k ∈ {1, 2, 3, . . . , 9} unseren Überlegungen aus §1 folgend im Grenzwert n → ∞ gleich der Länge des 6Es studierten u.a. Harald Bohr und Hardy und Littlewood die Gleichverteilungs- theorie, insbesondere um Anwendungen auf die Zetafunktion bemüht. Hier ist insbesondere die Arbeit von H. Bohr, Zur Theorie der Riemann’schen Zetafunktion im kritischen Streifen, Acta Math. 40 (1915), 67-100, und ihre Fortführungen (teilweise mit Courant bzw. Jessen) zu nennen, diophantische und probabilistische Methoden in die Wertverteilungstheorie der Zetafunktion begründet haben. 14 ERGODENTHEORIE Intervalls [log10 k, log10 (k + 1)), also log10 (k + 1) − log10 k = log10 (1 + k1 ). Tatsächlich genügt eine Folge (xn ) genau dann dem Benfordschen Gesetz, wenn die Folge ihrer Logarithmen (log10 xn ) modulo 1 gleichverteilt ist (wenn gleich wir den einfachen Beweis auch dem Leser überlassen). Nennen wir eine solche Folge nun benfordsch, so ist z.B. die Folge der FibonacciZahlen benfordsch, nicht aber die Folge der Primzahlen. Dies ergibt sich aus den Arbeiten von P. Jolissaint, Loi de Benford, relations de récurrence et suites équidistribuées, Elem. Math. 60 (2005), 10-18, sowie P. Diaconis, The distributions of leading digits and uniform distribution mod 1, Ann. Probab. 5 (1977), 72-81. Neuere Untersuchungen zeigen, dass gewisse stochastische Prozesse (etwa geometrische Brownsche Bewegungen) oder auch die 3X + 1-Iterierten benfordsch sind (siehe A.V. Kontorovich, S.J. Miller, Benford’s law, values of L-functions and the 3x + 1 Problem, Acta Arith. 120 (2005), 269-297). Tatsächlich erfreut sich das Benfordsche Gesetz einer enormen Popularität.7 Aufgabe 4. Man entwickle eine Theorie zur Verteilung der ersten m Ziffern in der b-adischen Entwicklung von Potenzen an bei n ∈ N. Eine wichtige Anwendung gleichverteilter Folgen sind die Monte-CarloMethoden der numerischen Integration. Schießt man N mal zufällig auf ein Quadrat der Kantenlänge 1 und zählt die Anzahl M der Treffer, die in einem Viertelkreis vom Radius 1 um einen der Eckpunkte liegen, so ist der Quotient M/N eine Näherung an den Flächeninhalt des Viertelkreises π/4; mit wachsendem N sollten diese Approximationen π besser und besser annähern. Es ist klar, wie sich diese einfache Idee mit Hilfe gleichverteilter Folgen zur numerischen Integration von nicht elementaren Integralen wie etR wa exp(−x2 ) dx verallgemeinern lässt. Mehr Information zu diesem Thema findet man etwa bei E. Hlawka, Theorie der Gleichverteilung, BIB, Mannheim, 1979 (hier findet man auch eine Erweiterung der Theorie auf mehrdimensionale Folgen). Ferner gibt es Anwendungen in der Theorie der Pseudo-Zufallszahlen (pseudorandom number generators); für einen ersten Einblick verweisen wir auf R. Crandall & C. Pomerance, Prime numbers. A computational perspective, Springer, 2001. * * * 7Z.B. wurde es namentlich erwähnt in der amerikanischen Serie NUMB3RS (in der Episode “The Running Man”). Auch beschäftigte man sich mit der Frage, ob die Datensätze in der Bibel benfordsch sind oder nicht. Interessanter: Die kleinste natürliche Zahl, die nicht in der Bibel explizit auftaucht, ist 43. 4. Maßtreue Abbildungen 15 Unser Ziel sind die wichtigen Ergodensätze von Birkhoff u.a., welche gewissermaßen Gleichverteilungssätze sind (was dann auch erklärt, warum wir mit eben diesen angefangen haben). Tatsächlich entstanden die mathematischen Grundlagen der Ergodentheorie erst in den 1920er und 1930er Jahren, also nach den Weylschen Gleichverteilungssätzen. Wichtige Einflüsse hierbei war die Maßtheorie mit dem so wichtigen Lebesgue-Integral (was man ungefähr auf 1903 datieren kann) und natürlich die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorov (um ca. 1930). Zuerst müssen wir jedoch eben diese Fundamente legen. 4. Maßtreue Abbildungen Im vorigen Kapitel haben wir modulo 1 gleichverteilte Folgen charakterisiert, wie etwa N ∋ n 7→ xn := nξ für irrationales ξ. Entsprechend könnten wir uns auch fragen, ob die Folge (xn + β) mit beliebigem β ∈ R diese Eigenschaft erbt — natürlich benötigen wir hier nicht für jedes β eine eigene Verteilungsstatistik. Auch können wir uns ähnliche Abbildungen vorstellen, gebildet aus wiederholtem Anwenden einer gewissen Operation, zu denen sich analoge Fragen stellen. Wir wollen deshalb nun allgemeiner als bislang Abbildungen T : X → X auf gewissen Räumen X studieren und dabei auch Augenmerk auf die Dynamik der Iteration von T verwenden. Hierbei ist es sinnvoll, von T zu fordern, die Struktur von X zu erhalten. Ist also X ein topologischer Raum, so sollte T stetig sein; besitzt X eine differenzierbare Struktur, so sollte T ein Diffeomorphismus sein. Wir werden im Folgenden oft in Wahrscheinlichkeitsräumen arbeiten, weshalb wir fordern werden, dass T meßbar ist. Zuerst wiederholen wir einige grundlegende Begriffe der Maßtheorie und Stochastik.8 Für die maßtheoretischen Grundlagen verweisen wir auf J. Elstrodt, Maß- und Integrationstheorie, Springer 2007, 8. Auflage, für die wahrscheinlichkeitstheoretischen Sachverhalte z.B. [9]. Bekanntlich lässt sich nicht jeder Teilmenge von Rd ein verallgemeinertes geometrisches Volumen zuordnen; tatsächlich zeigte G. Vitali 1905 sogar die Unlösbarkeit dieses so genannten Maßproblems für jede beliebige Dimension d. Ein Beispiel für den eindimensionalen Fall findet man vermöge der auf [0, 1) erklärten Äquivalenzrelation x∼y ⇐⇒ x − y ∈ Q; 8Tatsächlich könnten wir die gesamte Theorie ausschließlich maßtheoretisch formulie- ren, aber die Sprache und Denkweise der Wahrscheinlichkeitstheorie erweist sich oft als gewinnbringend. 30. Okt. 2007 16 ERGODENTHEORIE bildet man nämlich mit Hilfe des (hier nicht zu umgehenden) Auswahlaxioms die Menge A ⊂ [0, 1], bestehend aus jeweils genau einem Vertreter einer jeden Äquivalenzklasse, so kann man dieser Menge A wegen X 1 = µ([0, 1]) ≤ µ(A + {x}) ≤ µ([−1, 2]) = 3 | {z } x∈[−1,1]∩Q =µ(A) kein sinnvolles Volumen µ zuordnen (d.h. monoton, translationsinvariant und abzählbar additiv); der Fall in beliebiger Dimension d erfolgt mit denselben Ideen.9 Es war Lebesgues geniale Idee sich stattdessen auf meßbare Mengen zurückzuziehen und darauf eine schlagkräftige Integrationstheorie zu begründen (und nicht eine auf den Funktionen basierende Integration wie sein Vorgänger Riemann).10 Sei X eine nicht leere Menge und P(X) ihre Potenzmenge. Ein nicht leeres Mengensystem F ⊂ P heißt eine Algebra, wenn X ∈ F und wenn mit A, B in F auch A ∪ B sowie X \ B in F enthalten sind. Eine solche Algebra F heißt eine σ-Algebra, wenn F bzgl. abzählbarer Vereinigungen abgeschlossen ist, wenn also insgesamt folgende Axiome gelten: • ∅, X ∈ F; • mit A ∈ F ist auch das Komplement X \ A ∈ F; S • mit einer abzählbaren Folge Aj ∈ F, gilt auch j Aj ∈ F. Wegen \ j Aj = A \ [ j (A \ Aj ) für A := [ Aj j T gilt mit dem letzten Axiom auch j Aj ∈ F. Damit ist eine σ-Algebra also abgeschlossen bzgl. der Bildung von abzählbaren Vereinigungen und Schnitten. Zu X 6= ∅ sind {X, ∅} und die Potenzmenge P(X) von X stets σ-Algebren, allerdings sind diese zu grob bzw. zu fein, um im Weiteren von Interesse zu sein. Man macht sich leicht klar, dass der abzählbare Schnitt von σ-Algebren stets wieder eine σ-Algebra ist. Insofern ist zu einem Mengensystem ∅ = 6 E ⊂ P(X) der Schnitt \ Aσ (E) = F E⊂F F ist σ−Algebra die kleinste σ-Algebra, die E enthält; man nennt Aσ (E) auch die von E erzeugte σ-Algebra. Eine ganz wichtige σ-Algebra (nicht nur für unsere folgenden Untersuchungen) ist die Borelsche σ-Algebra B eines (nicht leeren) 9Noch spektakulärer ist das Banach-Tarski-Paradoxon: eine Vollkugel im R3 kann so in (fünf nicht meßbare) Teile zerlegt werden, dass diese zu zwei Vollkugeln desselben Radius zusammengefügt werden können: • = • + •. 10 Tragisch für W.H. Young, der unabhängig zwei Jahre nach Lebesgue eine analoge Theorie entwickelte. 4. Maßtreue Abbildungen 17 metrischen Raum X, definiert als die von allen offenen Mengen in X erzeugte kleinste σ-Algebra. Eine nicht negative Funktion µ, definiert auf einer σ-Algebra F zu einem gegebenen Raum X 6= ∅, heißt ein Maß, wenn gilt: • µ(∅) = 0; • für jede abzählbare Folge paarweise disjunkter Mengen Aj ∈ F gilt [ X µ(Aj ); µ Aj = j j wegen dieser letzten Eigenschaft heißt µ auch σ-additiv (bzw. abzählbar additiv). Hierbei ist ausdrücklich zugelassen, dass µ den Wert +∞ annehmen kann (wobei natürliche Rechengesetze mit diesem Symbol vorausgesetzt werden). Das Tripel (X, F, µ) heißt dann ein Maßraum und die Mengen in F meßbar. Ein wichtiges Konzept in dieser Theorie ist der Begriff der Nullmenge, wie jede Menge A mit der Eigenschaft µ(A) = 0 genannt wird. Erste Eigenschaften in diesem Zusammenhang sind u.a. • Monotonie: Mit meßbaren Mengen A ⊂ B gilt µ(A) ≤ µ(B); • Schachtelungsprinzip: Für eine Folge von ineinander geschachtelten meßbaren Mengen A1 ⊃ A2 ⊃ . . . gilt ! \ An . lim µ(An ) = µ n→∞ n Beispiele für Maße sind etwa das Zählmaß ♯A falls ♯A < +∞, A 7→ |A| = +∞ sonst, wobei ♯A für die Anzahl der Elemente der endlichen Menge A steht, das Dirac-Maß 1 falls x ∈ A, A 7→ δx (A) = 0 sonst, und natürlich das Lebesgue-Maß, welches wir mit λ notieren werden. Das Lebesgue-Maß erklärt man zunächst für Quader vermöge λ(Q) = d Y (βj − αj ) j=1 für Q = [α1 , β1 ] × . . . × [αd , βd ], (7) wobei man auch Intervalle anderer Form zulässt, dann für Figuren (das sind endliche Vereinigungen von Quadern) mittels Additivität über disjunkte Zerlegungen in Quader, und schließlich durch Identifikation mit dem äußeren Maß λ∗ für allgemeine meßbare Mengen A (also A ∈ F) über abzählbare Vereinigungen von Grenzwerten A von Folgen von Figuren An (modulo 18 ERGODENTHEORIE Nullmengen), wobei An → A für n → ∞ ⇐⇒ lim λ∗ (An ∆A) = 0; n→∞ hierbei ist A∆B := (A \ B) ∪ (B \ A) die symmetrische Differenz A∆B von A und B und das äußere Maß definiert durch ∞ X ∗ λ(An ), λ (A) = inf n=1 wobei das Infimum über alle abzählbaren Überdeckungen von A durch offene Figuren An genommen wird. Man beachte, dass λ∗ (A∆B) klein ist, wenn sich A und B nur um eine Menge mit kleinem Maß unterscheiden. Diese (äußerst skizzenhafte) Konstruktion des Lebesgue-Maßes geht auf Carathéodory zurück und kann ohne großen Aufwand verallgemeinert werden.11 Wichtig ist die Translationsinvarianz des Lebesgue-Maßes, d.h. λ(A) = λ(A + {x}) für alle meßbaren A und alle Punkte x, aber auch die Eindeutigkeit unter allen normierten Maßen mit diesen Eigenschaften. Beispiele für LebesgueNullmengen sind Q bzw. Qd , je nachdem in welchem Raum wir uns bewegen, bzw. allgemeiner alle abzählbaren Mengen. Abzählbare Vereinigungen von Nullmengen sind wiederum Nullmengen. Wir sprechen von einem Wahrscheinlichkeitsmaß P, wenn die Werte von P allesamt in [0, 1] liegen, wobei P(X) = 1 ist. Dies ist stets zu erzwingen, sofern wir ein endliches Maß µ zur Verfügung haben; in diesem Fall normiert man µ gemäß P(A) = µ(A)/µ(X). Eine wichtige allgemeine Eigenschaft eines Wahrscheinlichkeitsmaßes ist P(X \ A) = 1 − P(A) für jedes A ∈ F. Ein Tripel (X, F, P) bestehend aus einer Menge X 6= ∅, einer σ-Algebra F und einem Wahrscheinlichkeitsmaß heißt Wahrscheinlichkeitsraum. Die σAlgebra bezeichnet man hierbei auch als Ereignisraum und seine Elemente E als die Ereignisse, die mit der Wahrscheinlichkeit P(E) auftreten. Die Wahrscheinlichkeitstheorie ermöglicht oft einen interessanten Blick auf zahlentheoretische Fragestellungen, insbesondere im Zusammenhang mit 11Tatsächlich erinnert die Idee, die Menge der Figuren, die keine σ-Algebra bilden, um die Grenzwerte von Figuren modulo Nullmengen zu erweitern, an Cantors Konstruktion der reellen Zahlen. 4. Maßtreue Abbildungen 19 Verteilungseigenschaften von zahlentheoretischen Funktionen (komplexwertigen Zahlenfolgen). Ist (Xn ) eine Folge von unabhängigen, auf [0, 1) gleichverteilten Zufallsvariablen, so gilt nach dem Gesetz vom iterierten Logarithmus für beliebiges m 6= 0 P | n≤N e(mXn )| =1 fast sicher, lim sup √ 2N log log N N →∞ d.h. mit Wahrscheinlichkeit P(E) = 1, wobei E für dieses Ereignis steht; das bedeutet, dass die Menge aller Folgen {xn } in [0, 1), für die die obige lim supBedingung nicht gilt, eine Nullmenge ist. (Für das Gesetz des iterierten Logarithmus siehe etwa [1, 9].) Man vergleiche dies mit dem Weylschen Satz 4. Wir geben nun weitere Definitionen, die die Basis für unsere späteren ergodentheoretischen Untersuchungen bilden. Gegeben ein Maßraum (X, F, µ), so heißt eine Abbildung T : X → X meßbar (bzw. µ-meßbar), wenn T −1 A := {x : T (x) ∈ A} ∈ F für alle A ∈ F gilt.12 Ein solches T heißt invertierbar, falls T A := {T (x) : x ∈ A} ∈ F für alle A ∈ F und T X = X gelten. Eine meßbare Abbildung T heißt maßtreu bzgl. µ, wenn µ(T −1 A) = µ(A) für alle A ∈ F; im Falle invertierbarer T ist diese Bedingung äquivalent zu µ(T A) = µ(A). Ist T maßtreu, so nennt man (X, F, µ, T ) ein dynamisches System. Aus Sicht des Maßes sagt man statt ’T ist µ-maßtreu’ auch ’µ ist T -invariant’. Zu einer Abbildung T wie oben und x ∈ X sei T 0 (x) = x, T 1 (x) = T (x) und T n+1 (x) = T (T n (x)) für n ∈ N; wir schreiben auch T n x statt T n (x). Der Orbit von x unter T ist definiert als die Menge {T n x : n ∈ N0 }; der Orbit enthält wichtige Informationen über den Punkt x bzw. die Abbildung T . Bei invertierbaren Abbildungen macht es auch Sinn, die Vergangenheit zu betrachten, d.h den erweiterten Orbit . . . , T −2 x, T −1 x, T 0 x = x, T x, T 2 x, . . . . Wir haben bereits zwei sehr interessante Abbildungen kennen gelernt, mit denen wir uns jetzt mit Hilfe unserer neuen Sprache etwas genauer beschäftigen wollen. Unser zu Grunde liegender Maßraum ist dabei gegeben durch X = [0, 1), der Borelschen σ-Algebra B, ausgestattet mit dem LebesgueMaß λ. 12Diese Definition variiert von der für die Meßbarkeit einer Funktion in der Lebesgue- Theorie! 20 ERGODENTHEORIE ♣ Bsp. 1): Die Abbildung beim Kreisbilliard heißt Kreisrotation (auch Translation) und wird für festes θ ∈ (0, 1) definiert durch Rθ : T → T , x 7→ x + θ Natürlich können wir stattdessen auch Rθ auf [0, 1) durch Rθ (x) = {x + θ} = x + θ mod 1 definieren. Z.B. die Projektion der Folge n 7→ nξ auf die Kreisgruppe T ist eine Kreisrotation: Für das n-te Folgeglied xn gilt dabei Rξn = xn . Was können wir in Hinblick auf unsere neuen Begriffe sagen? Offensichtlich ist Rθ stets meßbar bzgl. des Lebesgue-Maßes: Ist nämlich (α, β) irgendein Intervall in [0, 1), so gilt Rθ−1 (α, β) = (α − θ, β − θ) bzw. (1 + α − θ, 1 + β − θ) falls θ ≤ α bzw. β ≤ θ, sowie Rθ−1 (α, β) = (0, β − θ) ∪ (1 + α − θ, 1) falls α < θ ≤ β. Ferner folgt hieraus sofort, dass Rθ maßtreu ist bzgl. λ, denn in jedem der Fälle gilt λ(Rθ−1 (α, β)) = β − α = λ((α, β)). Wir durften uns hier auf den Fall der Untersuchung von Intervallen beschränken, da die Borelsche σ-Algebra von den offenen Mengen in X = [0, 1) erzeugt wird (ebenso von den abgeschlossenen Mengen, wie man durch Komplementbildung findet). Diese erhebliche Erleichterung basiert auf dem Begriff der monotonen Klasse C bestehend aus allen endlichen disjunkten Vereinigungen von Elementen einer Algebra A. Ist hierzu F die von C erzeugte σ-Algebra und das Tripel (X, F, µ) ein Maßraum, so gibt es zu jedem A ∈ F und jedem ǫ > 0 ein B ∈ C, so dass µ(A∆B) < ǫ ist (also B das gegebene A beliebig gut approximiert). Mit diesem Approximationssatz transportieren sich die Eigenschaften der Meßbarkeit und der Maßtreue von C auf die Vervollständigung F bzgl. µ. Dies ist der Satz von Hahn-Kolmogorov; mehr dazu findet man in [3] oder P. Walters, Ergodic Theory - Introductory lectures, Lecture Notes in Mathematics 458, Springer 1975. ♣ Bsp. 2): Die Abbildung des Gelfandschen Problemes ist 2x falls 0 ≤ x < 21 , T : [0, 1) → [0, 1), x 7→ 2x mod 1 = 2x − 1 falls 21 ≤ x < 1 (in der Literatur auch “multiplication by 2 modulo 1 - map”). Ist (α, β) irgendein Intervall in [0, 1), so ist β+1 T −1 (α, β) = ( α2 , β2 ) ∪ ( α+1 2 , 2 ), 4. Maßtreue Abbildungen 21 was wiederum in B liegt; also ist T Lebesgue-meßbar. Die Vereinigung rechts ist disjunkt (da a + 1 ≥ b) und damit gilt ausserdem λ(T −1 (α, β)) = β − α = λ((α, β)). Also ist T auch maßtreu bzgl. des Lebesgue-Maßes. So einfach dieses Beispiel auch sein mag, die Iterationen dieser Abbildung liefern die Binärentwicklung der Punkte aus [0, 1). Zu x ∈ [0, 1) definiere 0 falls 0 ≤ x < 12 , a1 = a1 (x) = 1 falls 12 ≤ x < 1. Dann gilt T x = 2x − a1 (x) und wir definieren ferner an = an (x) = a1 (T n−1 x) für n ∈ N. Wir haben damit x = 21 (a1 + T x) und T x = 12 (a2 + T 2 x) ... bzw. a1 a2 an T n x + 2 + ... + n + n für n ∈ N. 2 2 2 2 Wegen 0 ≤ T n x < 1 konvergiert der Reihenrest bei n → ∞ gegen Null und wir erhalten die Binärdarstellung x= x= ∞ X an k=0 2n . Hierbei bilden die Ziffern a1 , a2 , . . . eine unabhängige Folge von identisch verteilten Bernoulli-Zufallsvariablen. Dieses einfache Beispiel besitzt eine Reihe von Verallgemeinerungen, die wir jetzt unter die Lupe nehmen. √ ♣ Bsp. 3): Mit denselben Bezeichnungen wie oben sei β = 12 ( 5 + 1) der goldene Schnitt (es gilt also β 2 = β + 1) sowie Tβ : X → X definiert durch ( βx falls 0 ≤ x < β1 , Tβ x = βx mod 1 = βx − 1 falls β1 ≤ x < 1. Dann ist Tβ zwar nicht maßtreu bzgl. des Lebesgue-Maßes, wohl aber bzgl. des Maßes µ definiert durch ( β3 Z 1 1+β 2 falls 0 ≤ x < β , g(x) dx mit g(x) = µ(A) = 2 β falls β1 ≤ x < 1. A 1+β 2 Die Iterierten Tβn x liefern die so genannte β-Entwicklung von x ∈ [0, 1) ∞ X bn x= βn n=1 mit bn ∈ {0, 1} und bn bn+1 = 0 für alle n ∈ N. 22 ERGODENTHEORIE Aufgabe 5. Man verifiziere all diese Aussagen über Tβ und die βEntwicklung. 6. Nov. 2007 ♣ Bsp. 4): Nun eine zweidimensionale Verallgemeinerung der GelfandAbbildung, die so genannte ’baker’s transformation’; hier Blätterteigabbildung. Hierzu sei X = [0, 1)2 ausgestattet mit Produkt-σ-Algebra B × B und dem Produkt-Lebesgue-Maß λ × λ (das sich in natürlicher Weise durch Produktbildung des eindimensionalen Maßes λ ergibt). Unsere Abbildung ist gegeben durch (2x, y2 ) falls 0 ≤ x < 12 , 2 2 b : [0, 1) → [0, 1) , (x, y) 7→ b(x, y) = 1 (2x − 1, y+1 2 ) falls 2 ≤ x < 1 1 1 Tz z 0 1/2 1 0 1 2 0 1 Abbildung 4. Die Blätterteigabbildung b in Zeitlupe. Diese Bilder entstammen den Maple-notebooks von Geon Ho Choe [7]. Die Bilder entstehen durch mathematischen Pointillismus13: hier werden die Punkte (xj , b(xj ) für eine große Menge von (möglichst gleichverteilten) xj als Approximation an den Graphen von b gezeichnet. Die Blätterabbildung b ist invertierbar, meßbar und maßtreu bzgl. des Produktmaßes λ × λ; sie verdankt ihren Namen dem Mischprozess, den ein Bäcker Wasser und Mehl beim Zubereiten von Teig unterwirft. 1 1 y 1 y 0 y 0 0 1 0 0 x 1 x 0 1 x Abbildung 5. Die Iterationen b, b2 , b3 der Blätterteigabbildung. 13Wörtlich: etwas mit Punkten darstellen; Stilrichtung im Impressionismus mit Geor- ges Seurat als prominentestem Vertreter. 4. Maßtreue Abbildungen 23 Aufgabe 6. Man verifiziere alle Aussagen über die Baker-Abbildung. 1 5 y y 0 0 0 0 1 1 x x Abbildung 6. Die logistische Transformation: links der Graph y = 4x(1 − x), rechts der Graph der Dichte. ♣ Bsp. 5): Die so genannte logistische Transformation T : [0, 1] → [0, 1] x 7→ 4x(1 − x) ist meßbar und maßtreu bzgl. 1 µ(A) = π Z A p dx . x(1 − x) Tatsächlich tritt diese Dichte auch in der kürzlich durch R. Taylor bewiesenen Vermutung von Sato & Tate über die Verteilung der Gruppenordnungen modulo p reduzierter elliptischer Kurven im Hasse-Intervall auf (siehe R. Taylor, Automorphy for some l-adic lifts of automorphic mod l representations. II. erhältlich unter http://www.math.harvard.edu/∼rtaylor/).14 ♣ Bsp. 6): Identifizieren wir die Kreisgruppe T (wie schon zuvor) mit dem Einheitsintervall [0, 1) modulo 1, so ist T2 = T × T das Einheitsquadrat [0, 1)2 , bei dem gegenüberliegende Seiten miteinander identifiziert werden. Damit ist T2 der zweidimensionale Torus. Die Abbildung x 2 1 x 2 2 A : T →T , 7→ mod 1 y 1 1 y (komponentenweise) ist invertierbar (da die auftretende Matrix nicht verschwindende Determinante hat) und maßtreu bzgl. des zweidimensionalen Lebesgue-Maßes. Man nennt A auch “Arnold cat map” zu Ehren von V.I. Arnold — wer sich fragt warum, der möge in V.I. Arnold, A. Avez, Ergodic Problems of classical mechanics, Benjamin, NY 1968, nachschlagen. 14Es ist die Gleichverteilung auf den Konjugationsklassen der ‘special unitary group’ SU2 (C) bzgl. des Haarschen Maßes. Ähnlich kann man den berühmten Nachweis der Weilschen Vermutungen durch P. Deligne, La conjecture de Weil. II. Publ. Math., Inst. Hautes Étud. Sci. 52 (1980), 137-252, als Gleichverteilungsresultat der Frobenius Konjugationsklassen auffassen. 24 ERGODENTHEORIE Die Abbildung A ist ein Beispiel eines so genannten toralen Automorphismus. 1 1 y 1 y 0 y 0 0 1 0 0 x 1 0 x Abbildung 7. Iterationen der “Arnold cat A, A2 , A3 von links nach rechts. Wo ist die Katze? 1 x map”, Ein vorerst letztes Beispiel, das wir aber nicht vertiefen werden, ist das so genannte 3X +1-Problem (auch Collatz- oder Syracuse-Problem), welches auf der folgenden Iterationsvorschrift basiert: x/2 falls x gerade, x 7→ T x = 3x + 1 falls x ungerade, angewandt auf N. Es gilt also z.B. ... 7→ 12 7→ 6 7→ 3 7→ 10 7→ 5 7→ 16 7→ 8 7→ 4 7→ 2 7→ 1 7→ ..., was also zyklisch wird. Es wird vermutet, dass diese Iteration jede beliebige natürliche Zahl schließlich in den Zykel . . . 7→ 4 7→ 2 7→ 1 7→ 4 7→ ... abbildet, bzw. etwas schwächer, dass diese Iteration keine divergenten Trajektorien besitzt. Die Abbildung T ist sicherlich nicht injektiv. Dieses Beispiel illustriert sehr schön, dass es Sinn macht, wenn möglich, auch die Vergangenheit einer Iteration zu studieren: Was wird unter der Iteration von T alles auf 1 abgebildet? Tatsächlich besteht ein interessanter ergodischer Ansatz zur Lösung des 3X + 1-Problemes, da die Abbildung T maßtreu auf den ganzen 2-adischen Zahlen Z2 ausgestattet mit dem Haarschen Maß ist. Diese Beobachtung geht zurück auf K.R. Matthews & A.M. Watts, A generalization of Hasse’s generalization of the Syracuse algorithm, Acta Arith. 43 (1984), 167-175; sie zeigten u.a., dass die Iterierten T n x für fast alle x ∈ Z2 gleichverteilt sind modulo 2k für jedes k ∈ N (mit Hilfe des Birkhoffschen Ergodensatzes). Leider würde eine Herleitung derselben uns hier zu weit führen; weitere Information über dieses Problem findet man in dem Übersichtsartikel von J.C. Lagarias, The ’3X + 1’ Problem and its generalizations, Amer. Math. Mon. 92 (1985), 3-23, bzw. bei G. Wirsching, The Dynamical system generated by the 3X + 1 function, Lecture Notes in Mathematics 1681, Springer 1998. 4. Maßtreue Abbildungen 25 Weitere interessante Beispiele maßtreuer Abbildungen findet man in [7]. Für den wichtigen Fall der Bernoulli-shifts schaue man in [3]. Aufgabe 7. Sei X = [0, 1) und B die Borelsche σ-Algebra mit dem Lebesgue-Maß λ sowie die Abbildung T definiert durch T 0 = 0 und T x = { x1 } für x ∈ (0, 1). Gesucht ist ein Maß µ auf X, so dass T maßtreu bzgl. µ ist. Jetzt wiederholen wir skizzenhaft die Einführung des Lebesgue-Integrals bzw. die Integration bzgl. eines allgemeinen Maßes µ. Gegeben also ein Maßraum (X, F, µ), so heißt eine Funktion f : X → R meßbar (bzw. µmeßbar), wenn die Menge {x ∈ X : f (x) < α} für jedes α ∈ R meßbar ist (also in F liegt). Insbesondere sind also stetige Funktionen meßbar bzgl. des Lebesgue-Maßes bzw. allgemeinen Maßen zu Borelschen σ-Algebren. Zunächst erklärt man das Integral für nicht negative, einfache Funktionen η (d.h., das Bild von η ist endlich). Dazu schreibt man η als endliche Linearkombination von Indikatorfunktionen η= m X mit Bj := {x : η(x) = cj } cj χBj j=1 und paarweise verschiedenen cj ≥ 0, deren Gesamtheit η(X) ausmacht (insbesondere sind dann die Mengen Bj disjunkt). Hierbei ist die zu B ⊂ X erklärte Indikatorfunktion χB definiert durch 1 falls x ∈ B, χB (x) = 0 falls x 6∈ B; offensichtlich ist diese Funktion genau dann meßbar, wenn B meßbar ist und Entsprechendes gilt für einfache η. Das Integral von χB mit B ∈ F über eine meßbare Menge A ist sinnvoll erklärt durch Z χB dµ = µ(A ∩ B). A bzw. für meßbare einfache Funktionen η (wie oben) durch Z Z m m X X cj µ(A ∩ Bj ). χBj dµ = cj η dµ = A A j=1 j=1 Mit einfachen Funktionen lässt sich jede nicht negative, reellwertige meßbare Funktion f beliebig genau approximieren und das Lebesgue-Integral hierzu wird erklärt durch Z Z ηµ, f dµ = sup A A 26 ERGODENTHEORIE wobei das Supremum über alle meßbaren einfachen Funktionen η mit 0 ≤ η ≤ f genommen wird. Mit der Youngschen Zerlegung f = f+ − f− mit f + := max{f, 0}, f − := − min{f, 0} (8) gewinnt man das Integral für eine allgemeine meßbare reellwertige Funktion f , nämlich Z Z Z f dµ = A A f + dµ − f − dµ A für jede meßbare Menge A, durch Anwendung auf die Summanden f + und f − . Die Funktion f heißt dabei integrierbar (bzw. µ-integrierbar), wenn beide Integrale auf der rechten Seite endlich sind. Das so erklärte LebesgueIntegral hat alle wichtigen Eigenschaften eines Integrals wie etwa Monotonie und Linearität (womit wir auch das Integral für komplexwertige meßbare Funktionen definieren können), auch hängt es nicht von der Wahl der Darstellungen der einfachen Funktionen als Linearkombination von Indikatorfunktionen ab. Wichtig bei dieser Konstruktion ist die σ-Additivität des zu Grunde liegenden Maßes, mit dessen Hilfe sich bei Funktionenfolgen Eigenschaften wie Meßbarkeit und Integrierbarkeit auf deren Limiten vererben! Dies äußert sich insbesondere in den Lebesgueschen Konvergenzsätzen (wie z.B. der Satz von der majorisierten Konvergenz), die nicht für das Riemann-Integral bestehen. Diese sind wichtige Werkzeuge im weiteren Verlauf der Vorlesung. Zu 1 ≤ p < +∞ notieren wir den Vektorraum aller µ-integrierbaren Funktionen f : X → C mit 1 Z p p < +∞ |f | dµ kf kp := X mit Lp (X, F, µ). f ∼g Teilen wir diesen Raum nach der Äquivalenzrelation : ⇐⇒ {x ∈ X : f (x) 6= g(x)} ist Nullmenge aus, so erhalten wir einen normierten Quotientenvektorraum Lp (X, F, µ) = Lp (X, F, µ)/ ∼ oder kurz Lp , in dem zwei Funktionen, deren Werte sich höchstens auf einer Nullmenge unterscheiden, in ein und derselben Äquivalenzklasse liegen; dabei wird die Norm als Fortsetzung von k · k definiert. Der berühmte Satz von Riesz & Fischer besagt, dass die Räume Lp vollständig sind. Der Fall p = +∞ spielt im Weiteren keine wichtige Rolle. Ein sehr schönes und prägnantes Zitat zum Vergleich zwischen Lebesgueund Riemann-Integral von Lebesgue selbst: “The geometers of the seventeenth century considered the integral of f (x) — the word ‘integral’ had not been invented, but that does not matter — as the sum of an infinity of indivisibles, each of which 4. Maßtreue Abbildungen 27 was the ordinate, positive or negative, of f (x). Very well! We have simply grouped together the indivisibles of comparable size. (...) One could say that, according to Riemann’s procedure, one tried to add the indivisibles by taking them in the order in which they were furnished by variation in x, like an unsystematic merchant who counts coins and bills at random in the order in which they came to hand, while we operate like a methodical merchant who says: I have m(E1 ) pennies which are worth 1 · m(E1 ), I have m(E2 ) nickels which are worth 5 · m(E2 ), I have m(E3 ) dimes which are worth 10 · m(E3 ), etc. Altogether then I have S = 1 · m(E1 ) + 5 · m(E2 ) + 10 · m(E3 ) + . . . The two procedures will certainly lead the merchant to the same result becaue no matter how much money he has there is only a finite number of coins or bills to count. But for us who must add an infinite number of indivisibles the difference between the two methods is of capital importance.” (Lebesgue, 1966). Nun weiter mit einem Kriterium zur Maßtreue (analog zum Weylschen Satz 3 zur Gleichverteilung modulo Eins): Satz 6. Eine Abbildung T : X → X ist genau dann µ-treu, wenn für alle µ-integrierbaren Funktionen f : X → C gilt, dass Z Z f dµ = f ◦ T dµ. (9) Im Falle metrischer Räume genügt es, die Bedingung nur für auf X stetige Funktionen f zu fordern. Eine Implikation ergibt sich dabei durch den folgenden Beweis von Satz 6; die andere folgt mit den Darstellungssätzen von Hahn-Banach und Riesz (siehe etwa W. Rudin, Real and complex analysis, Oldenbourg 1987.) Beweis. Gilt (9), so folgt mit der Indikatorfunktion χA einer meßbaren Menge A insbesondere Z Z Z µ(A) = χA dµ = χA ◦ T dµ = χT −1 A dµ = µ(T −1 A), also ist T maßtreu. Angenommen, T ist maßtreu, so gilt (9) (nach dem bereits Bewiesenen) insbesondere für alle Indikatorfunktionen und damit auch für jede einfache Funktion (d.h, für jede Funktion mit endlichem Bild). Sei zunächst f ≥ 0 und (fn ) eine konvergente Folge meßbarer einfacher Funktionen mit Grenzwert f , dann gilt auch limn→∞ fn ◦ T = f ◦ T . Lebesgues Satz von 28 ERGODENTHEORIE der majorisierten Konvergenz besagt für eine Folge von meßbaren Funktionen gn : X → R mit fast überall existierenden und meßbaren Grenzwert g = limn→∞ gn sowie |gn (x)| ≤ G(x) für fast alle x ∈ X mit einer integrierbaren Funktion G, dass Z Z ( lim gn ) dµ. gn dµ = lim X n→∞ n→∞ X Speziell mit gn = fn ◦ T bzw. mit gn = fn folgt hier Z Z Z Z fn dµ = f dµ, fn ◦ T dµ = lim f ◦ T dµ = lim n→∞ n→∞ wobei wir im vorletzten Schritt (9) für einfache Funktionen anwenden durften. Mittels der Zerlegung (8) folgt (wie üblich in der Maßtheorie) die Behauptung für allgemeine reellwertige f ; den Fall komplexwertiger f bekommt man (wie auch schon im Beweis von Satz 4) über die Zerlegung in Real- und Imaginärteil. Der Satz ist bewiesen. • ♣ Bsp. 7): Es sei T : R → R definiert durch T 0 = 0 und 1 1 Tx = 2 x − für x 6= 0. x Es gilt T −1 (α, β) = (α − p α2 + 1, β − p β 2 + 1) ∪ (α + p α2 + 1, β + p β 2 + 1), also ist T meßbar. Für jede Lebesgue-integrierbare Funktion f besteht mit der Substitution y = T x, dy = 21 (1 + x12 ) dx die Identität Z +∞ Z +∞ dy dx f (y) = . f (T x) 2) π(1 + x π(1 + y2 ) −∞ −∞ Also ist T nach Satz 6 maßtreu bzgl. des Wahrscheinlichkeitsmaßes P, definiert durch Z β dx . P((α, β)) = 2 α π(1 + x ) Hier kann man auch alternativ das Additionstheorem p p arctan(x + x2 + 1) + arctan(x − x2 + 1) = arctan(x) benutzen. Übrigens rührt die Abbildung T von Newtons Näherungsverfahren angewandt zur Auffindung der reellen Nullstellen von f (x) = x2 + 1 her. Die Newton-Iteration übersetzt sich wie folgt: f (xn ) x2 + 1 1 1 xn+1 = xn − ′ ↔ Tx = x − = 2 x− . f (xn ) 2x x Gäbe es eine reelle Nullstelle, so würde die Folge der xn konvergieren, da aber stets f (x) 6= 0, ist die Iteration nicht konvergent. Dieses Beispiel stammt von D. Lind (cf. [7]). 5. Ergodizität und Mischen 29 Aufgabe 8. Sei (X, F, µ) ein Maßraum und T : X → X meßbar. Man zeige, dass die Menge aller T -invarianten Mengen A eine σ-Algebra bilden. 5. Ergodizität und Mischen Bekanntlich können bei der Lebesgue-Integration Nullmengen außer Acht gelassen werden. Z.B. ist die Dirichlet-Funktion δ = χQ , erklärt durch δ(x) = 1 für x ∈ Q und δ(x) = 0 für x ∈ R \ Q nicht Riemannintegrierbar, wohl aber existiert das Lebesgue-Integral Z δ dλ = λ([0, 1] ∩ Q) = 0 [0,1] (da Q abzählbar ist und damit eine Nullmenge). Dies spiegelt genau das wieder, was wir von einem Integral über eine Funktion, die meist gleich Null ist, erwarten. Gilt eine Eigenschaft E für alle x ∈ A \ B, wobei A, B µ-meßbare Mengen sind und ist B eine Nullmenge, also µ(B) = 0, so sagen wir E gilt für fast alle x ∈ A bzw. E gilt fast überall auf A. Ist µ ein Wahrscheinlichkeitsmaß, so können wir das auch kurz mit µ(A) = 1 notieren und das Ereignis E mit A identifizieren. Im Folgenden wollen wir uns bis auf weiteres in einem Wahrscheinlichkeitsraum (X, F, µ) bewegen. Eine maßtreue Abbildung T : X → X heißt ergodisch bzgl. µ, wenn für jede meßbare Menge A mit T −1 A = A entweder µ(A) = 0 oder µ(A) = 1 gilt. In diesem Fall sprechen wir auch von einem ergodischen dynamischen System (X, F, µ, T ). Ergodisch bedeutet also, dass jede meßbare T -invariante Menge entweder eine Nullmenge ist oder volles Maß hat.15 Satz 7. Die folgenden Aussagen sind äquivalent: (i) (ii) (iii) (iv) T ist ergodisch; Für B ∈ F mit µ(T −1 B∆B) = 0 gilt µ(B) = 0 oder = 1; S Für A ∈ F mit µ(A) > 0 gilt µ( n T −n A) = 1; Für A, B ∈ F mit µ(A) > 0 und µ(B) > 0 existiert ein n ∈ N mit µ(T −n A ∩ B) > 0. Ist T invertierbar, so kann man in diesen Bedingungen natürlich T −n durch T n ersetzen. Jetzt ein wenig Interpretation dieser Formeln: Die Bedingung (iii) besagt, dass, wenn A positives Maß besitzt, fast jedes x ∈ X schließlich (und sogar unendlich oft — warum?) A besuchen wird, bzw. (iv) zeigt, dass jedes Element von B fast sicher irgendwann unter T nach A gelangt. 15In der Wahrscheinlichkeitstheorie kennt man viele so genannte 0 − 1-Gesetze (etwa die von Kolmogorv, Borel). 30 ERGODENTHEORIE Beweis. (i) ⇒ (ii): Angenommen B ist meßbar mit µ(T −1 B∆B) = 0 und T ist ergodisch. Wir bilden den Limes superior C := ∞ [ ∞ \ T −n B. m=0 n=m Für m ∈ N0 gilt B∆ ∞ [ T −n n=m Da B∆T −n B ⊂ B ⊂ n−1 [ ∞ [ B∆T −n B. n=m T −k B∆T −(k+1) B k=0 und die Menge auf der rechten Seite Maß Null hat, folgt µ(B∆T −n B) = 0 S −n B, so sind die C ineinander für beliebiges n ∈ N. Sei jetzt Cm = ∞ m n=m T geschachtelt: C0 ⊃ C1 ⊃ C2 ⊃ . . . und es gilt µ(Cm ) = µ(B) für jedes m ∈ N0 . Also folgt µ(C∆B) = 0 bzw. µ(C) = µ(B). Ferner ist T −1 C = ∞ [ ∞ \ T −(n+1) B = m=0 n=m ∞ \ ∞ [ T −n B = C m=0 n=m+1 und nach Voraussetzung folgt µ(C) = 0 oder µ(C) = 1. Mit dem zuvor Gezeigten folgt nun µ(B) = 0 oder µ(B) = 1. S −n A. (ii) ⇒ (iii): Sei nun A gegeben mit µ(A) > 0 und sei B = ∞ n=1 T Dann gilt ∞ [ −1 T −n A ⊂ B. T B= n=2 Da T maßtreu ist, folgt weiter µ(T −1 B) = µ(B) und damit µ(B∆T −1 B) = µ(B) − µ(T −1 B) = 0. Also folgt µ(B) = 0 oder µ(B) = 1; da T −1 A ⊂ B und µ(A) > 0 ist µ(B) = 1. (iii) ⇒ (iv): Seien A und B Mengen positiven Maßes. Nach (iii) gilt ! ∞ [ T −n A = 1 µ n=1 und damit 0 < µ(B) = µ ∞ [ n=1 B∩T −n ! A insbesondere existiert also ein n mit µ(B ≤ ∞ X n=1 µ(B ∩ T −n A); ∩ T −n A) > 0. 5. Ergodizität und Mischen 31 (iv) ⇒ (i): Sei A eine Menge mit T −1 A = A, dann gilt 0 = µ(A ∩ X \ A) = µ(T −n A ∩ X \ A) für beliebiges n ≥ 1. Also folgt aus (iv), dass µ(A) = 0 oder µ(X \ A) = 0 bzw. µ(A) = 1 − µ(X \ A) = 1. Der Satz ist bewiesen. • Jetzt kommen wir zu einem weiteren Kriterium für Ergodizität, das für viele praktische Anwendungen einfacher zu verifizieren ist. Satz 8. Die folgenden Aussagen sind äquivalent: (i) T ist ergodisch; (v) Ist f eine meßbare Funktion mit f (T x) = f (x) für (fast) alle x, dann ist f fast überall konstant. (vi) Ist f ∈ L2 (X, F, µ) mit f (T x) = f (x) für (fast) alle x, dann ist f fast überall konstant. In den Bedingungen (v) und (vi) mag man die Gleichung f (T x) = f (x) für alle oder auch nur für fast alle x ∈ X fordern; wegen der Vernachlässigbarkeit von Nullmengen bei der Lebesgue-Integration besteht hier Äquivalenz. Beweis. (i) ⇒ (v): Angenommen, T ist ergodisch und f : X → C meßbar und T -invariant. Da dann insbesondere der Realteil und der Imaginärteil von f T -invariant sind, dürfen wir uns auf den Fall eines reellwertigen f beschränken. Für k ∈ Z und n ∈ N sei Akn = {x ∈ X : f (x) ∈ [ nk , k+1 n )}. Dann gilt T −1 Akn ∆Akn ⊂ {x ∈ X : f ◦ T (x) 6= f (x)}; da die Menge auf der rechten Seite eine Nullmenge ist, folgt nach Satz 7, (ii), dass µ(Akn ) ∈ {0, 1}. Für jedes n ist X die disjunkte Vereinigung der S Mengen Akn , also X = k∈Z Akn . Also gibt es ein eindeutiges k(n) (abhängig k(n) von n), so dass µ(An ) = 1. Bilden wir also die Menge Y = ∞ \ Ak(n) n , n=1 so gilt µ(Y ) = 1 und f ist konstant auf Y (klar?). Da sich Y und X höchstens bis auf eine Nullmenge unterscheiden, folgt somit, dass f fast überall konstant ist. Die Implikation (v) ⇒ (vi) ist trivial; es verbleibt also der Beweis von (vi) ⇒ (i): Angenommen, T −1 A = A für eine meßbare Menge A positiven Maßes, so haben wir µ(A) = 1 zu zeigen. Für die Indikatorfunktion zu A gilt χA ∈ L2 (X, F, µ) und χA ◦ T = χT −1 A = χA . Nach Vorraussetzung ist 13. Nov. 2007 32 ERGODENTHEORIE χA fast überall konstant, d.h. χA (x) = 1 für fast alle x. Damit folgt aber µ(A) = 1. Der Satz ist bewiesen. • Nun wollen wir einige Beispiele von maßtreuen Abbildungen aus dem vorigen Kapitel auf Ergodizität untersuchen. Beide sind über eine Periodizitätsvorschrift erklärt, was in diesen beiden Fällen nahe legt, Kriterium (vi) des gerade bewiesenen Satzes mit Methoden der Fourier-Analysis benutzen zu wollen. Wir erinnern hierzu, dass jede L2 -Funktion durch ihre Fourier-Reihe dargestellt wird (siehe etwa W. Rudin, Reelle und Komplexe Analysis, Oldenbourg 1989). ♣ Bsp. 1): Die Kreisrotation Rθ : [0, 1) → [0, 1), x 7→ x + θ mod 1 beschreibt die Verteilung der gebrochenen Anteile der reellen Zahlenfolge xn = nθ + β mit β = Rθ 0. Korollar 5 zeigte, dass die Folge (nθ) genau dann modulo 1 gleichverteilt ist, wenn θ irrational ist. Ganz analog gilt dies natürlich auch für ‘geshiftete’ Folgen (nθ + β). Der nachfolgende Satz erläutert, dass dies ein ergodisches Phänomen ist: Satz 9. Die Kreisrotation Rθ ist genau dann ergodisch bzgl. des LebesgueMaßes, wenn θ irrational ist. Beweis. Ist θ = pq rational, so ist x 7→ e(qx) eine nicht konstante Rθ invariante Funktion: e(qRθ x) = exp(2πiq(x + pq )) = exp(2πiqx) exp(2πip) = e(qx). Insbesondere ist Rθ nach Satz 8, (vi), also nicht ergodisch. Ist θ irrational, und X f (x) = cn e(nx) (10) n die Fourier-Reihe einer Rθ -invarianten Funktion f ∈ L2 , dann gilt X f (x) = f (Rθ x) = f (x + θ) = cn e(nθ) e(nx) n und also mit der Eindeutigkeit der Fourier-Entwicklung cn = cn e(nθ) bzw. cn (1 − e(nθ) = 0 für n ∈ Z. Für n 6= 0 folgt e(nθ) 6= 1 mit der Irrationalität von θ und also cn = 0. Damit ist f (x) = c0 , also konstant und mit Satz 8, (vi), folgt die Ergodizität von Rθ . Der Satz ist bewiesen. (Für einen Beweis frei von Fourier-Analysis verweisen wir auf [5].) • ♣ Bsp. 2): Wir betrachten also die Abbildung T : [0, 1) → [0, 1), x 7→ 2x mod 1. Wie oben gehen wir wieder von einer T -invarianten Funktion 5. Ergodizität und Mischen 33 f ∈ L2 mit Fourier-Entwicklung (10) aus. Dann gilt X f (x) = f (T x) = cn e(2nx) n und ein Koeffizientenvergleich liefert nun cn = c2n . Nach der Parsevalschen Gleichung gilt für die Koeffizienten Z 1 X 2 |f (x)|2 dx = |cn |2 < +∞. kf k2 = 0 n Also kann es kein cn 6= 0 mit n 6= 0 geben. Damit ist höchstens c0 verschieden von Null und mit Satz 8, (v), folgt die Ergodizität von T . Dies lässt sich auf torale Endomorphismen erweitern: Satz 10. Es sei A ∈ Zd×d eine Matrix und Tφ : Td → Td , φ(x) = Ax mod 1 für x ∈ Td . Dann ist Tφ genau dann ergodisch, wenn A keine Einheitswurzel als Eigenwert besitzt. Insbesondere ist die Abbildung x 7→ x mod 1 nicht ergodisch. Der Beweis dieses allgemeinen Kriteriums ist nicht viel schwieriger als der skizzierte Spezialfall (nur länger) und kann in [2, 7] nachgelesen werden. Aufgabe 9. Es sei m > 1 eine natürliche Zahl und X = Z/mZ der zugehörige Restklassenring modulo m (siehe etwa [11]). Sei ferner F = P(X) und µ die Gleichverteilung auf X. Zu b ∈ {1, 2, . . . , m} sei Tb : X → X, x 7→ x + b mod m. Zeige: i) Tb ist maßtreu, und ii) (X, F, µ, Tb ) ist genau dann ergodisch, wenn b und m teilerfremd sind. Der Ergodizität verwandt ist der Begriff des Mischens. Wir sagen eine Abbildung T ist stark mischend, wenn für alle A, B ∈ F lim µ(A ∩ T −n B) = µ(A)µ(B) n→∞ gilt. Demgegenüber heißt T schwach mischend, falls stattdessen 1 X lim |µ(A ∩ T −n B) − µ(A)µ(B)| = 0 N →∞ N 0≤n<N gilt. Es besteht die folgende Kette von Implikationen: stark mischend ⇒ schwach mischend ⇒ ergodisch. Ein Beispiel für einen stark mischenden Prozess ist etwa die Blätterteigabbildung β; hingegen sind Kreisrotationen Rθ mit irrationalem θ nur ergodisch, 34 ERGODENTHEORIE nicht aber stark mischend; ein Beispiel zur Abgrenzung zwischen schwachem und starkem Mischen findet man bei S. Kakutani, Examples of ergodic measure preserving transformations which are weakly mixing but not strongly mixing, in “Recent advances in topological dynamics”, Proceedings Conference Yale University in honour of G.A. Hedlund, Lecture Notes Math. 318, Springer 1973, 143-149. Aufgabe 10. Man beweise all diese Behauptungen über Mischen und Ergodizität, insbesondere deren Hierarchie. 6. Die Ergodensätze von Birkhoff und von Neumann In der statistischen Mechanik berechnet man die physikalischen Eigenschaften eines Systems durch Mittelung über alle möglichen Zustände des Systems. Diese Idee geht auf Boltzmann (1871) zurück, der hierzu die Ergodenhypothese aufgestellt hat. Diese Hypothese behauptet eine Äquivalenz bzgl. der Mittelung entlang einer Trajektorie (griechisch odos) des Systems und der Mittelung aller möglichen Zustände gleicher Energie (griechisch ergon) (bzw. Gleichheit zwischen dem zeitlichen Mittelwert und dem Ensemble- oder Scharmittelwert). Maxwell (1879) formulierte hierzu, dass jedes System in irgendeinem Zustand, früher oder später, jeden mit den physikalischen Gegebenheiten konsistenten Zustand durchlaufen wird. Poincaré entdeckte (1890), dass es zu restriktiv ist zu fordern, dass die Trajektorie jeden Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar ist) tatsächlich besucht, dass also diese strenge Ergodenhypothese falsch ist. Poincaré formulierte stattdessen eine abgeschwächte Ergodenhypothese, derzufolge die Trajektorie jedem Punkt im Phasenraum (der mit den äußeren Zwängen vereinbar ist) in endlicher Zeit beliebig nahe kommt (ihn aber nicht unbedingt durchlaufen muss). Die Ergodensätze geben eine mathematische Begründung dieser abgeschwächten Ergodenhypothese und bilden damit die Grundlage der statistischen Mechanik.16 Einer der ersten Ergodensätze (und vielleicht auch der wichtigste) ist der von G.D. Birkhoff, Proof of the ergodic theorem, Proc. Nat. Acad. Sci. USA 17 (1931), 656-660: Satz 11. Sei T eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ). Gilt dann f ∈ L(X, F, µ), so existiert für fast alle 16Im Falle spontaner Symmetriebrechung kann die Ergodenhypothese verletzt werden (Ergodizitätsbrechung) — es können dann disjunkte ergodische Bereiche im Phasenraum auftreten; dieses Szenario kann bei Phasenübergängen auftreten, wie etwa beim Erstarren einer Flüssigkeit oder bei Spingläsern. 6. Die Ergodensätze von Birkhoff und von Neumann x ∈ X der Grenzwert 1 N →∞ N f ∗ (x) := lim X 35 f (T n x) 0≤n<N und es gelten f ∗ (T x) = f ∗ (x) sowie f ∗ ∈ L(X, B, µ) und Z Z f dµ. f ∗ dµ = (11) X X Ist ferner T ergodisch, so ist f ∗ fast überall konstant und es gilt Z 1 X f dµ. f (T n x) = lim N →∞ N X (12) 0≤n<N Dieser Satz heißt auch punktweiser Ergodensatz. Er besagt, dass das Zeitmittel von f längs eines Orbits {T n x} für fast alle x gleich dem Scharmittel von f (über den gesamten Raum X) ist. Dies liefert i.A. eine sehr präzise Vorhersage, obwohl kaum etwas über f oder T bekannt sein mag. Sei etwa M ⊂ X meßbar, so folgt mit f = χM bei ergodischem T , dass das Mittel der Besuche von T n x in M für fast alle x gleich dem Maß von M ist — Ergodizität erzwingt gewissermaßen eine Gleichverteilung! G.D. Birkhoff, What is the ergodic theorem?, Amer. Math. Monthly 49 (1942), 222-226, gibt denn auch Anwendungen im idealisierten Erde–Sonne–Mond–Problem (ein eingeschränktes Dreikörperproblem).17 Unser Beweis folgt T. Kamae & M. Keane, A simple proof of the ratio ergodic theorem, Osaka J. Math. 34 (1997), 653-657. Beweis. Offensichtlich genügt es den Satz für nicht negative Funktionen zu beweisen, da ansonsten (wie stets in der Integrationstheorie) mit Hilfe der Linearität des Integrals zunächst für reellwertige f jeder der Summanden in der Zerlegung f = f + − f − mit nicht negativen f + , f − für sich behandelt werden kann (siehe (8)), und dann der Übergang zu komplexwertigen Funktionen durch separate Betrachtung ihrer Real- bzw. Imaginärteils gelingt. Sei also f ≥ 0. Dann definieren wir punktweise X fN (x) = f (T n x) 0≤n<N sowie f (x) = lim sup N →∞ fN (x) N 17Und auch zum konvexen Billiard. und f (x) = lim inf N →∞ fN (x) . N 36 ERGODENTHEORIE Damit sind f und f meßbar (denn ganz allgemein gilt lim supN →∞ gN (x) = inf m supN ≥m gN (x) bzw. etwas analoges für lim inf). Wegen fN (T x) fN +1 (x) N + 1 f (x) f (T x) = lim sup = lim sup · − N N +1 N N N →∞ N →∞ fN +1 (x) = f (x) = lim sup N +1 N →∞ ist f also T -invariant; ganz analog zeigt man f (T x) = f (x). Um die Existenz des Grenzwertes f ∗ , seine Integrierbarkeit und T -Invarianz zu zeigen, genügt es Z Z Z X 20. Nov. 2007 f dµ ≤ X f dµ ≤ f dµ (13) X zu zeigen, denn dann folgt über f ≤ f zunächst f (x) = f (x) = f ∗ (x) für fast alle x und nach Integration somit (11). (Ist nämlich das Lebesgue-Integral über eine nicht negative Funktion gleich Null, so ist die Funktion fast überall gleich Null.) Nun sei ǫ ∈ (0, 1) und L > 0 beliebig gegeben. Nach Definition von f gibt es dann zu jedem x ∈ X eine natürliche Zahl m mit fm ≥ (1 − ǫ) min{f (x), L}. m Zu jedem δ > 0 gibt es ferner eine natürliche Zahl M , so dass X+ := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≥ m(1 − ǫ) min{f (x), L} ein Maß größer gleich 1 − δ besitzt. Definiere nun f (x) falls x ∈ X+ , ˜ f (x) = L sonst. Dann gilt f ≤ f˜; ist nämlich x ∈ X \ X+ , so gilt fm (x) < m(1 − ǫ) min{f (x), L} und damit f ≤ L. Für x ∈ X und n ∈ N0 sei an := an (x) := f˜(T n x) und bn := bn (x) := (1 − ǫ) min{f (x), L}. Dann gibt es für jedes n ∈ N0 eine natürliche Zahl 1 ≤ m ≤ M , so dass an + . . . + an+m−1 ≥ bn + . . . + bn+m−1 . (14) Um dies zu verifizieren, nehmen wir zunächst T n x ∈ X+ an. In diesem Fall gibt es ein 1 ≤ m ≤ M , so dass fm (T n x) ≥ m(1 − ǫ) min{f (T n x), L} = m(1 − ǫ) min{f (x), L} = bn + . . . + bn+m−1 ; 6. Die Ergodensätze von Birkhoff und von Neumann 37 hier haben wir die oben bewiesene T -Invarianz von f benutzt. Also gilt an + . . . + an+m−1 = f˜(T n x) + . . . + f˜(T n+m−1 x) ≥ f (T n x) + . . . + f (T n+m−1 x) = fm (T n x) = bn + . . . + bn+m−1 . Ist hingegen T n x 6∈ X+ , so mag man m = 1 nehmen, denn dann gilt an = f˜(T n x) = L ≥ (1 − ǫ) min{f (x), L} = bn . Also ist unsere Behauptung über (14) bewiesen. Mit (14) gibt es nun zu jeder natürlichen Zahl N > M rekursiv definierte ganze Zahlen m0 < m1 < . . . < mk < N mit m0 ≤ M, mj+1 − mj ≤ M für j = 0, 1, . . . , k − 1 und N − mk ≤ M sowie a0 + . . . + am0 −1 ≥ b0 + . . . + bm0 −1 , am0 + . . . + am1 −1 ≥ bm0 + . . . + bm1 −1 , ... ... amk−1 + . . . + amk −1 ≥ bmk−1 + . . . + bmk −1 . Addition dieser Ungleichungen führt auf a0 + . . . + aN −1 ≥ a0 + . . . + amk −1 (15) ≥ b0 + . . . + bmk −1 ≥ b0 + . . . + bN −M −1 . Übersetzt bedeutet dies X f˜(T n x) ≥ (N − M )(1 − ǫ) min{f (x), L} 0≤n<N (man beachte dabei, dass die bn allesamt unabhängig von n sind). Wir integrieren diese Ungleichung über X und erhalten Z X Z n ˜ min{f (x), L} dµ(x). f (T x) dµ(x) ≥ (N − M )(1 − ǫ) 0≤n<N X X Wegen der Maßtreue von T gilt nach Satz 6 Z Z g(x) dµ(x) g(T x) dµ(x) = X X für alle integrierbaren Funktionen g, insbesondere für g = f˜. Damit entledigen wir uns der Mittelung über 0 ≤ n < N und erhalten Z Z ˜ min{f (x), L} dµ(x). f dµ ≥ (N − M )(1 − ǫ) N X X Da Z X f˜(x) dµ(x) = Z X+ f (x) dµ(x) + Lµ(X \ X+), 38 ERGODENTHEORIE ergibt sich nach Konstruktion Z Z Z f˜(x) dµ(x) − Lµ(X \ X+ ) f (x) dµ(x) = f (x) dµ(x) ≥ X X+ X Z N −M ≥ min{f (x), L} dµ(x) − Lδ. (1 − ǫ) N X Nun lassen wir zunächst N gegen Unendlich streben, dann δ und ǫ gegen Null und erhalten Z Z min{f , L} dµ. f dµ ≥ X X Der Satz von der monotonen Konvergenz besagt für eine (bis auf eine vernachlässigbare Nullmenge) monoton wachsende Folge nicht negativer meßbarer Funktionen gn : X → R, dass Z Z ( lim gn ) dµ. gn dµ = lim X n→∞ n→∞ X Speziell mit gL = min{f , L} und L → ∞ können wir also Limesbildung und Integration vertauschen: Z Z Z lim min{f , L} dµ = f dµ. min{f , L} dµ = lim L→∞ X Also ergibt sich X Z X L→∞ f dµ ≥ Z X f dµ. X Dies ist die zweite Ungleichung in (13). Für den Nachweis der ersten Ungleichung in (13) starten wir ähnlich wie oben: Für ǫ > 0 existiert zu jedem x ∈ X eine natürliche Zahl m mit fm (x) ≤ f (x) + ǫ. m Zu beliebigem δ > 0 gibt es eine natürliche Zahl M , so dass X− := x ∈ X : ∃ 1 ≤ m ≤ M mit fm (x) ≤ m(f (x) + ǫ) ein Maß mindestens 1 − δ besitzt. Jetzt definiere man f (x) falls x ∈ X− , fˆ(x) = 0 sonst. Dann gilt fˆ ≤ f und mit bn = fˆ(T n x) und an = f (x) + ǫ (unabhängig von n diesmal) folgt via (14) und (15) nun X fˆ(T n x) ≤ N (f (x) + ǫ). 0≤n<N −M Integration beider Seiten ergibt unter Berücksichtigung der Maßtreue von T Z Z f dµ + ǫN. fˆ dµ ≤ N (N − M ) X X 6. Die Ergodensätze von Birkhoff und von Neumann 39 Da f ≥ 0, ist das Maß µ̃ definiert durch Z f dµ µ̃(A) = A absolut stetig, d.h. es gibt ein δ̃ > 0, so dass µ̃(A) < δ, wenn immer µ(A) < δ̃. Wegen µ(X \ X− ) < δ, folgt deshalb Z Z Z Z N ˆ f dµ ≤ f dµ + f dµ = (f + ǫ) dµ + δ̃ N −M X X\X− X X Mit zunächst N → ∞, dann δ → 0 (und damit ebenso δ̃ → 0) und letztendlich ǫ → 0 ergibt sich Z Z f (x) dµ(x) f (x) dµ(x) ≤ X X und damit ist (13) bewiesen. Es verbleibt im Falle einer ergodischen Abbildung T , die Identität (12) zu zeigen. Nach Satz 8, (v), ist f ∗ fast überall konstant, also f ∗ (x) = c für fast alle x ∈ X. Dann gilt aber Z Z ∗ f dµ. f dµ = c= X X Der Satz ist bewiesen. • Die Konvergenz im Birkhoffschen Satz kann sehr langsam sein. Speziell in den vorangegangenen Beispielen illustriert sich dies mit Hilfe von Simulationen wie folgt: 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 0 1000 n 0 0 1000 n 0 1000 n Abbildung 8. Links T x = 2x mod 1, in der Mitte die logistische Abbildung T x = 4x(1 − x), rechts der Graph der Abbildung T x = {1/x}, die später eine wichtige Rolle spielen wird. Als erste Anwendung des Birkhoffschen Ergodensatz beweisen wir nun eine weitere maßtheoretische Charakterisierung von Ergodizität: Satz 12. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X maßtreu bzgl. µ. Dann ist T genau dann ergodisch, wenn für alle A, B ∈ F 40 ERGODENTHEORIE gilt, dass 1 N →∞ N lim X 0≤n<N µ(T −n A ∩ B) = µ(A)µ(B). (16) Der Satz besagt also, dass die Bilder einer Menge A unter einer ergodischen Abbildung T im Mittel einen Teil einer beliebig gegebenen meßbaren Menge B überdecken, der proportional zum Maß von B ist! Man vergleiche diese Charakterisierung von Ergodizität mit den Begriffen des schwachen und starken Mischens aus dem vorangegangenen Kapitel. Beweis. Angenommen, T is ergodisch, dann liefert der Birkhoffsche Ergodensatz 11 angewandt mit der Indikatorfunktion f = χA Z 1 X χA dµ = µ(A) (17) χA (T n x) = lim N →∞ N X 0≤n<N für fast alle x. Damit folgt 1 X 1 lim χT −n A∩B (x) = lim N →∞ N N →∞ N 0≤n<N X χA (T n x)χB (x) = µ(A)χB (x) 0≤n<N fast überall. Für jedes N ist der links auftretende Limes beschränkt gegen die Funktion konstant 1. Also ergibt sich mit dem Lebesgueschen Satz von der majorisierten Konvergenz (zitiert im Beweis von Satz 6) sofort Z 1 X 1 X lim lim µ(T −n A ∩ B) = χT −n A∩B (x) dµ(x) N →∞ N N →∞ N X 0≤n<N 0≤n<N Z χB (x) dµ(x) = µ(A)µ(B), = µ(A) X also Formel (16). Für die Umkehrung nehmen wir an, dass T −1 A = A gelte. Mittels A = B folgt dann aus (16), dass 1 X µ(A) = µ(A)2 , lim N →∞ N 0≤n<N was auf µ(A) = 0 oder µ(A) = 1 führt. Der Satz ist bewiesen. • Es gibt viele verschiedene Beweise dieses Satzes. Einen alternativen Beweis, der auf der Wienerschen Maximalungleichung beruht, findet man etwa in [5]. Wir werden in den folgenden Kapiteln viele Anwendungen des Birkhoffschen Ergodensatzes geben. Zum Aufwärmen mag man die Beispiele aus den vorangegangenen Kapiteln untersuchen. Aufgabe 11. Man wende den Birkhoffschen Ergodensatz 11 auf die Kreisrotation an und gebe damit einen alternativen Beweis für Korollar 5. 6. Die Ergodensätze von Birkhoff und von Neumann 41 Als Nächstes beweisen wir den Ergodensatz von John von Neumann, Proof of the quasi-ergodic hypothesis, Nat. Proc. Acad. Sci USA 18 (1932), 70-82. Dies ist tatsächlich der erste Ergodensatz überhaupt (auch wenn sein Ergebnis erst ein Jahr nach Birkhoff veröffentlicht wurde). Satz 13. Es sei (X, F, µ) ein Wahrscheinlichkeitsraum und T : X → X maßtreu. Dann gilt für f, g ∈ L2 (X, F, µ), dass der Grenzwert Z 1 X f (T n x)g(x) dµ(x) N X 0≤n<N für N → ∞ existiert; ist T ergodisch so gilt Z Z Z 1 X g dµ. f dµ f (T n x)g(x) dµ(x) = lim N →∞ N X X X (18) 0≤n<N Dieser Satz heißt auch Ergodensatz im Mittel, da hier noch über X integriert wird; die Funktion g beschreibt dabei irgendeine zulässige Gewichtsfunktion. Speziell mit g = f ergibt sich die L2 -Konvergenz 1 lim N →∞ N X 0≤n<N f (T n x) − f ∗ 2 = 0 (19) gegen eine T -invariante Grenzfunktion f ∗ ∈ L2 . Der von Neumannsche Ergodensatz ist eine funktionalanalytische Variante. Die rechte Seite ist dabei gerade die orthogonale Projektion von f auf den Raum der T -inavrianten fR im Hilbert-Raum L2 versehen mit dem Skalarprodukt hf, gi = kf gk22 = f g dµ. Wir geben nur eine Skizze vom Beweis. Betrachte den Unterraum aller T -invarianten Funktionen I := {f ∈ L2 : f ◦ T = f } sowie J := {f ∈ L2 : ∃ h ∈ L2 mit f = h ◦ T − h}. Für f1 ∈ I und f2 = h ◦ T − h ∈ J gilt offenbar 1 N X 0≤n<N f1 (T n x) = f1 (x) und 1 N X 0≤n<N f2 (T n x) = 1 (h(T N x) − h(x)) N für jedes N ∈ N. Mit der Cauchy-Schwarzschen Ungleichung folgt Z 1 2 n (h(T x) − h(x))g dµ(x) ≤ khk2 kgk2 , N X N 42 ERGODENTHEORIE was gegen Null geht für N → ∞. Können wir f gemäß f = f1 + f2 mit solchen f1 , f2 zerlegen, so folgt also Z 1 X f (T n x)g(x) dµ(x) N 0≤<N X Z Z 1 X f2 (T n x)g(x) dµ(x) f1 (x)g(x) dµ(x) + = N X X 0≤<N und damit Z Z Z 1 X n lim f g dµ. f1 g dµ = f (T x)g(x) dµ(x) = N →∞ N X X X 0≤<N I.A. gibt es allerdings keine solche Zerlegung von f . Tatsächlich genügt es, für beliebig kleines ǫ > 0 Funktionen f1 ∈ I und f2 ∈ J zu finden, so dass Z |f − (f1 + f2 )|2 dµ < ǫ X gilt, also f1 + f2 die Zielfunktion f im quadratischen Mittel beliebig genau approximieren. Ganz ähnlich wie oben im Falle f = f1 + f2 skizziert, ergibt sich dann Z Z Z 1 X n lim g dµ. f dµ f (T x)g(x) dµ(x) = N →∞ N X X X 0≤n<N Zum Abschluss des Beweises verbleibt also lediglich zu zeigen, dass eine Zerlegung von L2 in eine direkte Summe L2 = I + J existiert, wobei J für den Abschluss von J steht. Dazu nehmen wir an, dass f orthogonal auf J steht, also hf, f2 i = 0 für alle f2 ∈ J gilt, bzw. insbesondere Z Z 2 |f | dµ = f ◦ T · f dµ. X Dann ist zu zeigen, dass f ∈ I. Hierzu berechnet man leicht Z |f ◦ T − f |2 dµ = 0. X Also gilt f ◦ T = f fast überall, d.h. f ∈ I, was den Beweis abschließt. • Aufgabe 12. Man vervollständige die obige Berweisskizze (etwa mit Hilfe von [10]) und schlussfolgere ausserdem (19). Man zeige ferner, dass für f ∈ Lp mit 1 ≤ p < +∞ die Konvergenz (19) gegen dieselbe Aussage bzgl. der p-Norm mit einem Grenzwert f ∗ ∈ Lp ersetzt werden kann Birkhoff wählte gegenüber den Vorarbeiten von von Neumann das Konzept des Maßraumes, was i.A. zu einem allgemeineren und stärkeren Ergodensatz führt. Wichtige Verallgemeinerungen beider Ergodensätze gelangen u.a. N. Wiener & A. Wintner, Harmonic analysis and ergodic theory, Amer. J. Math. 63 (1941, 415-426, durch Betrachtung allgemeiner 6. Die Ergodensätze von Birkhoff und von Neumann 43 Maßräume, W. Hurewicz, Ergodic theorem without invariant measure, Ann. Math. 45 (1944), 192-206,18 unter Einbeziehung von Gewichten, und schließlich – noch allgemeiner – R.V. Chacon & D.S. Ornstein, A general ergodic theorem, III. Journal Math. 4 (1960), 153-160 (siehe hierzu auch [4]). Diese Ergodensätze wurden von Kolmogorov und Kchintchine in die Sprache der Wahrscheinlichkeitstheorie übertragen (siehe hierzu [9, 7]). Im R Satz von Birkhoff ist dabei f ∗ = f dµ im Falle einer ergodischen Abbildung T als Erwartungswert von f zu verstehen. Diese Sichtweise erlaubt weitreichende Verallgemeinerungen eines fundamentalen Gleichverteilungssatz: Das Gesetz der großen Zahlen besagt, dass zu einer gegebenen Folge von identisch verteilten, unabhängigen Zufallsvariablen X1 , X2 , . . . auf einem Wahrscheinlichkeitsraum mit endlichem Erwartungswert E|Xn | < +∞, im Grenzwert N 1 X Xn = EX1 fast überall lim N →∞ N n=1 gilt. Die Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen kann also mit der Mittelung über die möglichen Realisierungen einer einzigen vertauscht werden — ohne ein solches Grenzverhalten wäre eine Theorie des Zufalls unmöglich. Diese Beobachtung geht bereits zuruück auf Daniel Bernoulli; die erste Formulierung für Zufallsvariable verdanken wir Tschebyscheff. Eine wichtige Anwendung besitzt der Birkhoffsche Ergodensatz in der Wertverteilungstheorie von Zeta- und L-Funktionen. Voronin bewies eine erstaunliche Approximationseigenschaft für die Riemannsche Zetafunktion ∞ Y X 1 −1 1 = 1 − ζ(s) := ns ps p n=1 für Re s > 1, wobei das Produkt über alle Primzahlen erhoben wird (und die Identität zwischen Produkt und Reihe eine analytsiche Version der eindeutigen Primfaktorzerlegung in Z ist); ζ(s) besitzt eine analytische Fortsetzung nach C \{1} (in s = 1 besteht mit der harmonischen Reihe eine Singularität). Voronin bewies: Sei 0 < r < 41 und g(s) eine nicht verschwindende stetige Funktion definiert auf der Kreisscheibe |s| ≤ r, die im Inneren analytisch ist, dann gibt es ein reelles τ > 0 mit max ζ s + 43 + iτ − g(s) < ǫ; |s|≤r 18siehe dazu auch das exzellente Internetskript von Dajani, zu finden unter http://www.math.uu.nl/people/dajani/lecturenotes2006.pdf 44 ERGODENTHEORIE die Menge aller τ ∈ [0, T ] mit dieser Eigenschaft hat eine positive untere Dichte bzgl. des Lebesgue-Maßes (siehe S.M. Voronin, Theorem on the ’universality’ of the Riemann zeta-function, Izv. Akad. Nauk SSSR, Ser. Matem., 39 (1975), 475-486 (Russisch); Math. USSR Izv. 9 (1975), 443-445). Mittlerweile kennt man viele ähnliche Beispiele universeller Zetafunktionen, die also die Approximation einer großen Klasse von Funktion durch Translate ihrer selbst erlauben. Man vermutet, dass jede Dirichlet-Reihe mit hinreichend reichhaltiger Wertverteilung diese Eigenschaft mit der Zetafunktion teilt; in diesem Zusammenhang besteht auch die Frage: Ist Universalität ein ergodisches Phänomen? Die modernen Beweise von solchen Universalitätstheoremen benutzen tatsächlich den Birkhoffschen Ergodensatz, erlauben aber leider nicht, Universalität als eine ergodische Eigenschaft von Zetafunktionen zu verstehen. Interessanterweise publizierte Birkhoff auch einen Universalitätssatz (Démonstration d’un théorème élémentaire sur les fonctions entières, C. R. Acad. Sci. Paris 189 (1929), 473-475): Es gibt eine ganze Funktion f (z) mit der Eigenschaft, dass es zu jeder gegebenen ganzen Funktion g(z) eine Folge komplexer Zahlen an gibt mit f (z + an ) −→ g(z) n→∞ gleichmäßig auf Kompakta in C. Obwohl das Resultat dem Voroninschen sehr ähnelt, so ist die Birkhoffsche universelle Funktion f nicht explizit bekannt; tatsächlich kennt man nur explizite universelle Funktionen, die der Riemannschen Zetafunktion in einem gewissen Sinne ähnlich sind. Mehr zu diesem Themenkreis findet man in J. Steuding, Value distribution of L-functions, Lecture Notes in Mathematics 1877, Springer 2007. Abschliessend etwas Biographisches zu unseren Protagonisten (cf. ‘The MacTutor History of Mathematics archive’ http://turnbull.mcs.st-and.ac.uk/ history/): George D. Birkhoff, ∗1884 -†1944, vielleicht der bekannteste amerikanische Mathematiker seiner Zeit, lehrte und arbeitete in Harvard und Princeton über mathematische Physik, insbesondere Differentialgleichungen (bewies u.a. Poincarés ‘Last Geometric Theorem’, ein Spezialfall des Dreikörperproblems), dem Vierfarbenproblem, und natürlich dynamischen Systemen und Ergodentheorie. Sein Ergodensatz gab der kinematischen Gastheorie von Maxwell und Boltzmann ein rigoroses Fundament. “Birkhoff ’s discovery of what has come to be known as the ’ergodic theorem’ in 1931 - 32 is his most well-known contribution to dynamics. This theory, which resolved in principle one of the fundamental problems arising in the theory of gases and statistical mechanics, has been influential not only in dynamics itself but also in probability theory, group theory, and functional analysis.” (Butler) 6. Die Ergodensätze von Birkhoff und von Neumann 45 Er gewann den ersten Bocher Memorial Prize der American Mathematical Society und engagierte sich als deren Vizepräsident. Es gibt jedoch auch eine negative Seite: So beschrieb ihn Einstein als einer der Welt größten Antisemiten; Birkhoff hat aus seiner einflussreichen Position heraus bei der Besetzung von Professuren kategorisch die Einstellung von Juden verhindert. In der Ergodentheorie spielt auch sein Sohn Garrett Birkhoff, ∗1911-†1996, eine wichtige Rolle. Im Gegensatz zu seinem Vater, war Garrett nicht antisemitisch eingestellt. Zuerst arbeitete er in der Gruppentheorie, während des zweiten Weltkrieges und auch später dann mehr zu angewandten Problemen der Mathematik (insbesondere numerische lineare Algebra). In dieser Zeit befreundete er sich mit John von Neumann. John von Neumann (eigentlich János mit Vornamen), ∗1903 -†1957, wuchs in einer jüdischen Familie in Budapest auf und beeindruckte seine Umwelt schon sehr früh mit seinem phänomenalen Gedächtnis: “At the age of six, he was able to exchange jokes with his father in classical Greek. The Neumann family sometimes entertained guests with demonstrations of Johnny’s ability to memorise phone books. A guest would select a page and column of the phone book at random. Young Johnny read the column over a few times, then handed the book back to the guest. He could answer any question put to him (who has number such and such?) or recite names, addresses, and numbers in order.” (Poundstone) von Neumann studierte Mathematik (aber auch Chemie!) ab 1921 in Budapest, Berlin und Zürich u.a. bei Weyl und Pólya; er promovierte 1926 mit einer Arbeit über Ordinalzahlen in der Mengenlehre. Er lehrte daraufhin in Berlin, Hamburg und Göttingen (noch zu Zeiten Hilberts). Auf Einladung von Veblen kam von Neumann 1929 nach Princeton um über Quantenmechanik vorzutragen; kurz danach wurde er dort Professor am neugegründeten Institute for Advanced Studies (zusammen mit Alexander, Einstein, Morse, Veblen und Weyl). Nebenbei hatte er auch noch akademische Positionen in Deutschland inne, von denen er jedoch sofort bei der Machtergreifung durch die Nazis zurücktrat. von Neumann ist auch bekannt durch seine Vorliebe für ausschweifende Parties. In der Mathematik beschäftigte er sich u.a. mit Logik und axiomatischer Mengenlehre, Maßtheorie, der mathematischen Begründung der Quantenmechanik, statistischer Mechanik und Operatortheorie. In diesem Kontext gelang ihm auch der erste Beweis eines Ergodensatzes überhaupt; auch gelang ihm mit diesen Ideen und Haars Entwicklung der Maßtheorie für Gruppen eine Teillösung des fünften Hilbertschen Problems (über die Charakterisierung von Lie-Gruppen). Ferner arbeitete er zur Spieltheorie (die er im Wesentlichen begründete), fastperiodischen Funktionen, nicht linearen partiellen Differentialgleichungen, aber auch in der Begründung der Informatik (zelluläre Automaten). Während des zweiten Weltkrieges trug er in Los Alamos mit wesentlichen Ideen am Bau der Atom- und Wasserstoffbombe bei. Er gewann viele Preise und Ehrungen und starb recht jung an Krebs. 46 ERGODENTHEORIE 7. Die Wiederkehrsätze von Poincaré und Kac 27. Nov. 2007 Ist unser Sonnensystem stabil? Die Dynamik von zwei Körpern im Raum unter Berücksichtigung ihrer Anziehungskräfte werden von den Keplerschen Gesetzen beschrieben. H. Poincaré gelang in seiner Arbeit: Sur le problème des trois corps et les équations de la dynamique, Acta Math. 13 (1890), 1-270(!!!), eine Teillösung des so genannten Dreikörperproblems, d.h. die mathematische Beschreibung des Bahnverlaufes von drei Körpern unter dem gegenseitigen Einfluss ihrer gegenseitigen Gravitationskräfte.19 In dieser Arbeit sowie dem monumentalen, dreibändigen Werk Les méthodes nouvelles de la mécanique céleste, Paris. Gauthier-Villars et Fils, 1892-1899, legt H. Poincaré die Fundamente für die mathematische Ergodentheorie. Hier findet sich u.a. auch der berühmte Wiederkehrsatz von Poincaré.20 Zuallererst benötigen wir aber noch ein wenig Vokabular. Sei T eine maßtreue Abbildung auf einem Wahrscheinlichkeitsraum (X, F, µ) und A eine meßbare Menge. Ein Punkt x ∈ A heißt dann A-rekurrent, wenn es eine natürliche Zahl n gibt, so dass T n x ∈ A gilt. Der Rekurrenzbegriff ist von zentraler Bedeutung in der topologischen Dynamik. Tritt derselbe Zustand in einem dynamischen System exakt in derselben Weise wieder ein, so sprechen wir auch von Periodizität. Abschwächend dazu gibt es auch den von H. Bohr entwickelten Begriff der Fastperidoizität, falls man nur auf die ein oder andere Weise in die Nähe des Zustandes gelangt. Poincarés Wiederkehrsatz gibt sogar noch mehr als bloße Rekurrenz: Satz 14. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0. Dann kehrt für fast alle x ∈ A der Orbit {T n x}n unendlich oft nach A zurück, insbesondere ist x fast sicher A-rekurrent. 19Diese ausserordentliche Arbeit wurde vom schwedischen König Oscar II. aus Anlass seines sechzigsten Geburtstages prämiert; allerdings verzögerte sich die Publikation um drei Jahre (bzw. fünfzig Briefen Korrespondenz mit Phragmén und Mittag-Leffler, die einen Fehler in der ursprünglichen Fassung gefunden hatten). Sie enthält die wesentlichen Ideen und Konzepte zur Behandlung chaotischer Bewegungen und invarianter Integrale. Die allgemeine analytische Lösung des Dreikörperproblems fand Sundman 1907. Die Stabilität eines Dreikörpersystems beschreibt die KAM-Theorie von Kolmogorov, Arnold & Moser aus der Periode 1954-1964. 20Über Poincaré gäbe es noch sehr viel zu berichten, z.B., dass er mit Lorentz und natürlich Einstein zu den Entdeckern der speziellen Relativitätstheorie gehört, und natürlich seine Arbeiten zur Topologie, incl. dem ersten geknackten der sieben Millenniumsprobleme, nämlich der kürzlich von Perelman bewiesenen PoincaréVermutung. Für eine ausführliche Würdigung seines Wirkens siehe http://turnbull.mcs.stand.ac.uk/ history/. 7. Die Wiederkehrsätze von Poincaré und Kac 47 P n Äquivalent hierzu ist die Divergenz der unendlichen Reihe ∞ n=0 χA (T x) für fast alle x. Diese Formulierung erinnert an die fast überall bestehende Gleichung (17) aus dem Beweis von Satz 12. Tatsächlich folgt direkt aus dem Birkhoffschen Ergodensatz Z 1 X n χA dµ = µ(A). χA (T x) = lim N →∞ N X 0≤n<N Die Einschränkung, dass Rekurrenz i.A. nur fast überall besteht, es also eine Nullmenge von nicht-rekurrenten Punkten geben kann, sieht man leicht mit Hilfe der Abbildung T x = 2x mod 1 aus dem Gelfandschen Problem ein: Der Orbit von x = 12 ist schließlich stationär in 0. Der Poincarésche Wiederkehrsatz liefert allerdings einen Beweis der schwachen Ergodenhypothese. Natürlich hat Poincaré seinen Satz nicht in der Sprache der Maßtheorie verfasst und bewiesen. Wir geben jetzt einen alternativen Beweis, der weniger schweres Geschütz benutzt: Beweis. Sei B die Teilmenge von A, die genau aus den nicht A-rekurrenten x besteht, d.h. B = {x ∈ A : T n x 6∈ A für alle n ∈ N}. Wir zeigen zunächst µ(B) = 0. Es gilt B ∩ T −n B = ∅ für beliebiges n und damit T −m B ∩ T −n B = ∅ für alle m 6= n. Also sind die Mengen B, T −1 B, T −2 B, . . . paarweise disjunkt und weil T maßtreu ist, folgt µ(B) = µ(T −n B) für alle n ∈ N. Angenommen, µ(B) > 0, dann folgte 1 = µ(X) ≥ µ [ n∈N0 T −n B = ∞ X µ(B) = +∞, n=0 ein Widerspruch. Dies beweist bereits die A-Rekurrenz µ-fast aller x ∈ A. Tatsächlich kehren aber sogar fast alle x unendlich oft nach A zurück, denn bezeichnet C = {x ∈ A : T n x ∈ A nur für endlich viele n ∈ N}, so gilt C = {x ∈ A : T n x ∈ B für irgendein n ∈ N0 } ⊂ ∞ [ T −n B. n=0 Wegen µ(B) = 0 folgt mit der Maßtreue von T nun µ(C) = 0. Der Satz ist bewiesen. • Dieser Satz (und natürlich auch sein Beweis) basiert darauf, dass wir es mit einem endlichen Maß zu tun haben. Beispielsweise ist die Abbildung T : R → R, T (x) = x+1 maßtreu auf R bzgl. des Lebesgue-Maßes, aber für 48 ERGODENTHEORIE jede beschränkte Menge A ⊂ R mit x ∈ A ist die Menge {n ∈ N : T n x ∈ A} endlich, womit T keine Rekurrenz zulässt. Dies zeigt auf, dass die Behandlung maßtreuer Abbildungen in Wahrscheinlichkeitsräumen wesentlich einfacher als in allgemeinen Maßräumen ist. Ist übrigens (X, F, µ, T ) ein ergodisches System mit diskretem Zustandsraum X und Gleichverteilung µ, so ist die Wiederkehr ganz sicher (warum?). Aufgabe 13. Man beweise folgende metrische Version: Es gelten dieselben Voraussetzungen wie in Satz 14 und X besitze zusätzlich die Struktur einer mit µ verträglichen Metrik d. Dann gilt für fast alle x lim inf d(x, T n x) = 0. n→∞ Nun eine physikalische Interpretation des Wiederkehrsatzes: Gegeben ein Container im R3 mit evakuierter rechter Kammer, getrennt von seiner mit einem Gas gefüllten linken Kammer durch eine Trennwand. Nun wird die Trennwand entfernt. Ohne die Orte und Geschwindigkeiten der Gasmoleküle zu diesem Zeitpunkt zu kennen, ist zu erwarten, dass diese nicht in der linken Kammer verbleiben, sondern sich so mit dem Vakuum rechts mischen, dass – mehr oder weniger – eine Gleichverteilung entsteht. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • | | | | | | | ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ ◦ −→ • • ◦ • ◦ ◦ • ◦ ◦ • ◦ • ◦ ◦ • ◦ • • • ◦ • • • ◦ • • ◦ • ◦ ◦ ◦ ◦ ◦ • • ◦ • ◦ • ◦ ◦ • • ◦ • ◦ ◦ • ◦ ◦ • ◦ • ◦ • ◦ • ◦ • • ◦ ◦ • • ◦ ◦ ◦ • • • Entgegen unserer Intuition folgt nach dem Poincaréschens Wiederkehrsatz, dass sich nach endlicher Zeit die Ausgangskonstellation, also rechts das Vakuum (◦), links sämtliche Gasmoleküle (•) wieder einstellt. Dies ist ein scheinbarer Widerspruch zum zweiten Hauptsatz der Thermodynamik und Boltzmanns Satz, demzufolge nämlich die Entropie eines abgeschlossenen Systems nicht abnehmen kann.21 Allerdings sind diese Aussagen primär statistischer Natur und die scheinbare Inkompatibilität hebt sich auf, wenn man die erwartete Rückkehrzeit berücksichtigt, die in allen denkbaren praktischen Fällen weit jenseits des Alters unseres Universums ist. Für eine Wahrscheinlichkeitsanalyse, solche Verletzungen des zweiten Hauptsatzes beobachten zu können, siehe D. Evans & D. Searls, The fluctuation theorem, Advances in Physics 51 (2002), 1529-1585. 21Nach dem zweiten Hauptsatz ist übrigens eine Perpetuum mobile unmöglich. 7. Die Wiederkehrsätze von Poincaré und Kac 49 Im Kontext des Poincaréschen Wiederkehrsatzes 14 ist also die Frage interessant, wie bald denn der Orbit {T n x} die meßbare Menge A besucht. Für unsere weiteren Untersuchungen in diese Richtung greifen wir eine Idee von S. Kakutani, Induced measure preserving transformations, Proc. Imp. Acad. Tokyo 19 (1943), 635-641, auf, nämlich die Abbildung T nur dann zu betrachten, wenn T n x sich in A befindet. Zu x ∈ A definieren wir die Rückkehrzeit von x nach A durch nA (x) = min{n ∈ N : T n x ∈ A}. Als Minimum ist nA meßbar (hierbei setzen wir natürlich A als meßbar voraus). Nach Poincarés Wiederkehrsatz 14 ist nA (x) für fast alle x endlich. Nun entfernen wir aus A ∈ F die Nullmenge all der x, für die nA (x) = +∞ gilt und schreiben hierfür wiederum A. Dazu erklären wir ein von µ induziertes Maß auf der von F ∩ A erzeugten σ-Algebra vermöge µA (B) = µ(B) µ(A) für B ⊂ A (was uns an den Begriff der bedingten Wahrscheinlichkeit aus der Stochastik erinnert) und erhalten damit einen weiteren Wahrscheinlichkeitsraum (A, F ∩ A, µA ). Ferner bilden wir zu T die induzierte Abbildung TA : A → A, x 7→ T nA (x) x. Als Nächstes beweisen wir folgenden technischen Satz 15. Es sei A meßbar und es gelten die obigen Definitionen und Voraussetzungen. Dann ist die Abbildung TA maßtreu bzgl. µA . Ferner ist mit T auch TA ergodisch. Beweis. Für jedes n ∈ N sei An = {x ∈ A : n(x) = n}, Bn = {x ∈ X \ A : T x, . . . , T n−1 x 6∈ A, T n x ∈ A}. Dann gilt An ∩ Bm = ∅ und es folgt T −1 A = A1 ∪ B1 und T −1 Bn = An+1 ∪ Bn+1 für n ∈ N. (20) Sei jetzt C ∈ F ∩ A. Da T maßtreu bzgl. µ ist, gilt µ(C) = µ(T −1 C) und wir haben selbiges für µA zu zeigen. Es gilt ∞ ∞ [ [ −1 −1 An ∩ T −n C, An ∩ TA C = TA C = n=1 n=1 wobei die Mengen An ∩ T −n C paarweise disjunkt sind. Also folgt ∞ X µ(An ∩ T −n C). µ(TA−1 C) = n=1 (21) 50 ERGODENTHEORIE Andererseits liefert wiederholtes Anwenden von (20) unter Berücksichtigung der Maßtreue µ(T −1 C) = = = ... = µ(A1 ∩ T −1 C) + µ(B1 ∩ T −1 C) µ(A1 ∩ T −1 C) + µ(T −1 (B1 ∩ T −1 C)) µ(A1 ∩ T −1 C) + µ(A2 ∩ T −2 C) + µ(B2 ∩ T −2 C) N X n=1 Nun gilt ähnlich 1≥µ also strebt µ(Bn ∞ [ µ(An ∩ T −n C) + µ(BN ∩ T −N C). n=1 Bn ∩ T −n C ∩ T −n C) ! = ∞ X n=1 µ(Bn ∩ T −n C), mit n → ∞ gegen Null. Das impliziert via (21) µ(C) = µ(T −1 C) = ∞ X n=1 was auf µ(An ∩ T −n C) = µ(TA−1 C), µ(TA−1 C) µ(C) = = µA (TA−1 C) µ(A) µ(A) führt. Also ist TA maßtreu bzgl. µA . Es verbleibt zu zeigen, dass TA die Ergodizitätseigenschaft erbt. Nehmen wir also an, dass T ergodisch ist, dann ist für eine T -invariante Menge B ⊂ A positiven Maßes µA (B) > 0 zu zeigen, dass µA (B) = 1 gilt. Mit der T Invarianz gilt B = TA−1 B = TA−2 B = . . . usw. Also ! ∞ [ B = T −n B ∩ A. µA (C) = n=0 Ist T ergodisch, so folgt wegen 0 < µA (B) = µ(B)/µ(A) also 0 < µ(B) = 1. Damit gilt ! ∞ [ −n T B =1 µ n=0 S∞ T −n B und es folgt X = n=0 ist vollständig bewiesen. • bzw. B = A und somit µA (B) = 1. Der Satz Aufgabe 14. Man zeige, dass mit den obigen Notationen mit T auch TA invertierbar ist. Zur Beantwortung der Frage, wie schnell ein Orbit eine gegebene meßbare Menge wieder besucht, ist es sinnvoll mit dem Ergodensatz von Birkhoff unser bislang stärkstes Werkzeug zu Hilfe zu ziehen. Wir beweisen nun einen 7. Die Wiederkehrsätze von Poincaré und Kac 51 Erwartungswert von M. Kac, On the notion of recurrence in discrete stochastic processes, Bull. Amer. Math. Soc. 53 (1947), 1002-1010, für die erste Wiederkehr. Satz 16. Sei T : X → X eine maßtreue ergodische Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0. Dann ist n ∈ L1 und für die früheste Rückkehr nA (x) eines Punktes x ∈ A gilt Z Z 1 nA (x) dµA (x) = nA (x) dµ(x) = 1 bzw. µ(A) A A sowie 1 N →∞ N lim X 0≤n<N nA (T n x) = 1 . µ(A) Dieser Satz heißt auch das Lemma von Kac und ist eine quantitative Version des Wiederkehrsatzes von Poincaré. Der Satz besagt, dass die erste Wiederkehr nach ca. 1/µ(A) zu erwarten ist. Beweis. Zu x ∈ A betrachten wir den Orbit von x unter TA , also x, TA x, . . . , TAn x, . . . , TAN x, . . . . P Wir setzen t := 0≤n<N nA (TAn x), dann ist t die Zeitdauer, die der Orbit von x unter T benötigt, die Menge A genau N mal zu besuchen, d.h. X χA (T n x) = N. 0≤n<t Jetzt wenden wir den Birkhoffschen Ergodensatz 11 auf TA und T an (mit N → ∞ bzw. t → ∞) und erhalten Z t 1 X nA (TAn x) = lim P nA (x) dµA (x) = lim n t→∞ N →∞ N A 0≤n<t χA (T x) 0≤n<N −1 Z 1 . = χA dµ = µ(A) X Die Berechnung des Grenzwertes erfolgt ebenso mit dem Birkhoffschen Ergodensatz. Der Satz ist bewiesen. • Eine schöne Beweisvariante findet man bei L. Baéz-Duarte, Sobre el promedio espacial del ciclo de Poincaré, Bull. Venezuela Acad. Sciences 24 (1964), 64-66.22 Jetzt wollen wir noch eine mengentheoretische Variante von Satz 14 beweisen: 22engl. Übersetzung unter http://front.math.ucdavis.edu/0505.5625. 4. Dez. 2007 52 ERGODENTHEORIE Satz 17. Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0. Dann gilt µ(A ∩ T −n A) > 0 für unendlich viele n. Beweis. Da T nach Voraussetzung maßtreu ist, haben die Mengen A, T −1 A, T −2 A, . . . dasselbe Maß. Wären all diese Mengen paarweise disjunkt, so würde eine endliche Vereinigung derselben ein Maß größer als µ(X) = 1 haben, ein Widerspruch. Also gibt es natürliche Zahlen m < n, so dass µ(T −n A ∩ T −m A) > 0. Mit k = n − m und der Maßtreue von T folgt daraus µ(A ∩ T −k A) > 0. Wiederholen wir dieses Argument für A, T −k A, T −2k A, . . ., so ergibt sich µ(A ∩ T −n A) > 0 für unendlich viele n. Der Satz ist bewiesen. • Aufgabe 15. Man folgere aus dem obigen Beweis, dass bereits für ein n ≤ 1 + [1/µ(A)] die Ungleichung µ(A ∩ T −n A) > 0 bestehen muss. Dieser Satz kehrt im nächsten Kapitel wieder... 8. Arithmetische Progressionen und der Satz von van der Waerden Unter einer arithmetischen Progression der Länge ℓ verstehen wir eine Folge a, a + d, a + 2d, . . . , a + (ℓ − 1)d mit ganzen Zahlen a, d, ℓ, wobei d, ℓ ≥ 1. Beispielsweise ist 3, 13, 23, 33, 43, 53, 63, 73 eine arithmetische Progression der Länge 8. Wir interessieren uns hier für Mengen ganzer Zahlen, die arithmetische Progressionen beliebiger Länge enthalten. Beispielsweise enthalten die geraden (bzw. ungeraden) Zahlen arithmetische Progressionen beliebiger Länge. Wir fragen: Was macht eine solche Menge aus? Wie erkennt man eine Menge mit solch einer Eigenschaft? Was ist ein natürliches Kriterium für die Existenz von arithmetischen Progressionen beliebiger Länge? Sicherlich benötigen wir für deren Existenz, dass unsere zugrundeliegende Teilmenge unendlich groß ist. Das allein ist aber sicherlich kein Kriterium, denn etwa die Folge der Zehnerpotenzen, 1, 10, 100, 1000, . . . , 10k , . . . , ist ohne jede arithmetische Progression. P. Erdös & P. Turán, On some integer sequences, J. London Math. Society 11 (1936), 261-264, vermuteten dass jede Teilmenge {a1 , a2 , . . .} ⊂ N 8. Arithmetische Progressionen und der Satz von van der Waerden 53 mit positiver unterer Dichte, d.h. lim sup N →∞ 1 X 1 > 0, N an ≤N beliebig lange arithmetische Progressionen enthält. Das ist eine ’unwahrscheinliche’ Behauptung, da keinerlei Strukturvoraussetzungen über die Menge der an gemacht wird, lediglich dass sie in einem gewissen Sinne groß ist. Zur Illustration: die Menge der ungeraden ganzen Zahlen (ist hinreichend groß und) besitzt keine Tripel der Form x, y, x + y, allerdings jedoch Tripel der Gestalt x, 12 (x + y), y, welches eine arithmetische Progression der Länge drei ist. Tatsächlich geht es hier um eine ganz besondere Eigenschaft von arithmetischen Progressionen! Die Vermutung von Erdös & Turán wurde zuerst von E. Szemerédi, On sets of integers containing no k elements in arithmetic progression, Acta Arith. 27 (1975), 199-224, mit einem komplizierten kombinatorischen Argument bewiesen. Er zeigte tatsächlich etwas mehr: Bezeichnet rℓ (n) die maximale Anzahl einer Menge in [1, n], die keine arithmetische Progression der Länge ℓ enthält, dann gilt rℓ (n) = 0. n→∞ n lim (22) Wie folgt hieraus die Vermutung von Erdös & Turán? Die Funktion rℓ (n) ist offensichtlich subadditiv, d.h. rℓ (m + n) ≤ rℓ (m) + rℓ (n) für alle m, n ∈ N. Damit folgt aber rℓ (n) rℓ (kn) ≤ , kn n womit also der Grenzwert limn→∞ rℓn(n) für jedes ℓ ∈ N existiert und endlich ist. Die quantitative Version der Vermutung von Erdös & Turán besagt nun, dass all diese Grenzwerte gleich Null sind, kurz die Gültigkeit von (22). Den allerersten Schritt in diese Richtung – den Fall von arithmetischen Progressionen der Länge drei – hatte allerdings bereits K.F. Roth (On certain sets of integers, J. London Math. Soc. 28 (1953), 104-109) geleistet, der r3n(n) → 0 zeigte. An dem Beispiel von Progressionen der Länge drei kann man aber auch schön etwas über das Wachstum von r3 (n) lernen. Hier eine Aufgabe von Szekeres zu diesem Thema: Aufgabe 16. Jede natürliche Zahl besitzt eine eindeutige ternäre Entwicklung, d.h. m X n= ak 3k mit ak ∈ {0, 1, 2} k=0 54 ERGODENTHEORIE mit einem passenden m (abhängig von n). Man zeige, dass es in der Teilmenge der natürlichen Zahlen, deren ternäre Entwicklung keine Ziffer 2 enthält, keine arithmetische Progression der Länge drei gibt. Man folgere r3 ( 21 (3k + 1)) ≥ 2k . H. Furstenberg (Ergodic behavior of diagonal measures and a theorem of Szemerédi on arithmetic progressions, J. d’Analyse Math. 71 (1977), 204-256) untersuchte sehr erfolgreich das Problem der simultanen Wiederkehr von Mengen positiven Maßes. In diesem Zusammenhang bewies er eine weitreichende Verallgemeinerung von Satz 17: Sei T : X → X eine maßtreue Transformation auf einem Wahrscheinlichkeitsraum (X, F, µ) und sei A eine meßbare Menge mit µ(A) > 0. Dann gibt es für jede natürliche Zahl k eine natürliche Zahl n, so dass µ(A ∩ T −n A ∩ . . . ∩ T −kn A) > 0. (23) Dieser Satz bildet das Herz des ergodischen Beweises den Furstenberg für Szemerédis Satz (22) gefunden hat. Wir wollen diesen Zusammenhang kurz illustrieren, ohne aber den schwierigen Beweis tatsächlich zu geben (wofür wir an dieser Stelle auf [10] verweisen). Wir schreiben Ω = {0, 1}Z für den Raum aller beidseitig unendlichen {0, 1}-Folgen und interpretieren seine Elemente als charakteristische Funktionen χA zu Mengen A ⊂ Z. Da {0, 1} kompakt ist, ist auch Ω nach dem Satz von Tychonoff (siehe etwa Jänich, Topologie, Springer) kompakt und wir erklären eine Metrik auf Ω wie folgt: Gegeben zwei Folgen x = (xn ), y = (yn ), so sei N (x, y) = min{N ∈ N : xN 6= yN oder x−N 6= y−N } für x 6= y, und d(x, y) = 2−N (x,y) 0 falls x 6= y, sonst. (24) Man verifiziert leicht, dass d eine Metrik auf Ω ist und somit (Ω, d) ein kompakter metrischer Raum (wir greifen dies in Satz 19 noch einmal auf). Wir untersuchen nun die shift-Abbildung σ : Ω → Ω, , ω(n) 7→ σω(n) = ω(n + 1). (25) Gegeben ein Element ω ∈ Ω, so sagen wir, dass 1 mit positiver BanachDichte auftritt, wenn die Menge Z := {n ∈ Z : ω(n) = 1} eine positive Banach-Dichte besitzt, d.h. lim sup ♯I→∞ ♯Z ∩ I > 0, ♯I wobei I durch die Menge der Intervalle von Z läuft, was also gut in unseren Kontext passt und ♯I für die Anzahl der ganzen Zahlen in I steht. Wir setzen 8. Arithmetische Progressionen und der Satz von van der Waerden 55 ferner zu ω ∈ Ω nun X = {σ n ω : n ∈ Z} ⊂ Ω. Dann kann man zeigen, dass genau dann, wenn 1 mit positiver oberer Banach-Dichte auftritt, ein σinvariantes Maß µ auf X existiert mit µ(A) > 0 für A := {ω ∈ Ω : ω(0) = 1}. Jetzt skizzieren wir, wie man Furstenbergs simultanen Wiederkehrsatz (23) auf die Erdös-Turan-Vermutung anwenden kann (gewisse Details werden weiter unten in einem ähnlichen Zusammenhang detailliert wiederholt). Angenommen, M ⊂ Z besitzt eine positive obere Banach-Dichte. Dann gibt es nach (23) also zu gegebenem k eine natürliche Zahl n und einen Punkt ω ∈ Ω, so dass σ jn ω ∈ B ∩ X für 0 ≤ j < k. Dies impliziert aber ω(0) = ω(n) = . . . = ω((k − 1)n) = 1. Weil ω ∈ X der Grenzwert von Translaten der charakteristischen Funktion χA ist, folgt χA (b) = χA (b + n) = . . . = χA (b + (k − 1)n) = 1 für ein b ∈ Z, so dass also A die arithmetische Progression b, b + n, . . . , b + (k − 1)n enthält. Das ist die Essenz des Furstenbergschen Beweises des Satzes von Szemerédi. ◦ Furstenbergs ergodischer Zugang steht für den Beginn einer beeindruckenden Erfolgsgeschichte. Den Anfang gibt wieder ein offenes Problem, das nicht unter die Sätze von Szemerédi und Furstenberg fällt: Enthalten die Primzahlen beliebig lange arithmetische Progressionen? Zählt π(x) die Anzahl der Primzahlen p ≤ x, so besagt der Primzahlsatz x für x → ∞ π(x) := ♯{p ≤ x : p prim} ∼ log x (siehe etwa G.H. Hardy, E.M. Wright, An introduction to the theory of numbers, Oxford Science Publications, für einen elementaren Beweis nach Erdös und Selberg). Also haben die Primzahlen asymptotische Dichte Null in N und somit greift Szemerédis Satz nicht. Aufbauend auf den Vorarbeiten von T. Gowers (mittels harmonischer Analysis) bewiesen im Jahr 2004 B.J. Green & T. Tao, The Primes contain arbitrarily long arithmetic progressions, Annals of Math. (im Druck):23 Die Menge der Primzahlen enthält beliebig lange arithmetische Progressionen. Die zur Zeit längste bekannte Sequenz von Primzahlen in arithmetischer Progression hat Länge 23: 56 211 383 760 397 + 44 546 738 095 860 k für k = 0, 1, . . . , 22 23auch erhältlich unter http://arxiv.org/abs/math.NT/0404188 56 ERGODENTHEORIE und wurde berechnet von M. Frind, P. Underwood & P. Jobling (cf. dem oben genannten Artikel von Green & Tao). Zur Illustration der Tiefe des Satzes von Green & Tao, versuche der geneigte Leser diesen Rekord zu brechen! Die neuen Methoden von Green & Tao sind anwendbar auf sehr dünne Mengen (tatsächlich benutzen sie neben Maßtheorie fast nur klassische Zahlentheorie) und man darf spekulieren, dass sich mit ihren Werkzeugen noch viele weitere Ergebnisse erzielen lassen. Besonders interessant ist in diesem Zusammenhang die offene Primzahlzwillingsvermutung, die besagt, dass es unendlich viele Paare von Primzahlen der Form p, p + 2 gibt, was allerdings ohne weitere Ideen bislang noch nicht anreifbar ist. T. Gowers und später T. Tao, A quantitative ergodic theory proof of Szemerédi’s theorem, Electronic J. Combinatorics 13 (2006), R99, haben quantitative Ergebnisse erzielt.24 Hier wollen wir nun einen dynamischen Beweis des verwandten Satzes von B.L. van der Waerden (Beweis einer Baudetschen Vermutung, Nieuw Arch. Wisk. 15 (1928), 212-216) geben: Satz 18. Teilt man Z in endlich viele Klassen ein, so enthält mindestens eine dieser Klassen beliebig lange arithmetische Progressionen. Dieser Satz ist zwar nicht ganz so spektakulär wie der Satz von Green & Tao, aber trotzdem sehr interessant. Teilt man die ganzen Zahlen in r Klassen (disjunkte Teilmengen) auf, Z = A1 ∪ . . . ∪ Ar , 11. Dez. 2007 (26) so kann man also nicht in allen Mengen Aj arithmetische Progressionen beliebiger Länge vermeiden. Allerdings muss es nicht notwendig unendliche arithmetische Progressionen geben (und tatsächlich ist dies i.A. auch falsch). Die Aussage des Satzes bleibt richtig, wenn wir Z durch N ersetzen und alle bekannten Beweise gehen auch mit dieser Einschränkung durch. Jeder Beweis dieses Satzes ist nicht zu leicht (ungeachtet dessen, welchen Zugang man wählt). Es gibt natürlich so etwas wie eine Invarianz des Schwierigkeitsgrades mathematischer Behauptungen — ein tiefliegender Satz kann keinen einfachen Beweis haben und verschiedene Beweise haben irgendwo ihre schwierigen Stellen!25 Jetzt gehen wir einen dynamischen Beweis des Satzes 18 von van der Waerden an. Wir verlassen hierzu nun kurz die Maßtheorie und widmen uns metrischen Räumen. Im Folgenden spielt insofern auch die Topologie 24Zu den Arbeiten über lange arithmetische Progressionen wurden bislang zwei Fields- Medaillen vergeben: T. Gowers 1998 auf dem ICM in Berlin, T. Tao 2006 auf dem ICM in Madrid. K.F. Roth bekam 1958 in Edinburgh die Fields-Medaille, allerdings hauptsächlich für seine Verschärfung der Approximationssätze von Thue und Siegel; J. 8. Arithmetische Progressionen und der Satz von van der Waerden 57 eine wichtige Rolle! Wir erinnern: Ein Homöomorphismus ist eine bijektive, stetige Abbildung, deren Umkehrabbildung ebenfalls stetig ist. Das Studium der Dynamik solcher Abbildungen nennt man topologische Dynamik. Zunächst beweisen wir einen technischen Satz über einen Folgenraum: Für k ≥ 2 sei Ωk = {1, 2, . . . , k}Z der Raum aller beidseitig unendlichen Folgen ω = (ω(n))n∈Z mit Werten in {1, 2, . . . , k}. Auf Ωk definieren wir vermöge (24) dieselbe Metrik d mit Ωk statt Ω bzw. vermöge (25) ebenso die shift-Abbildung. Satz 19. Mit den obigen Bezeichnungen gilt: (i) Ωk ist ein kompakter metrischer Raum mit Metrik d. (ii) Die shift-Abbildung σ : Ωk → Ωk ist ein Homöomorphismus. Beweis. Zunächst verifizieren wir, dass d eine Metrik auf Ωk ist. Man sieht sofort, dass d(x, y) stets nicht negativ ist, wobei d(x, y) = 0 genau für x = y gilt; die Symmetrie ist ebenfalls klar. Zum Nachweis der Dreiecksungleichung seien o.B.d.A. x, y, z ∈ Ωk paarweise verschieden, also ist 2−N (x,y) = d(x, y) ≤ d(x, z) + d(z, y) = 2−N (x,z) + 2−N (z,y) zu verifizieren. Dies ist äquivalent zu 2N (z,y)+N (x,z) ≤ 2N (x,y)+N (z,y) + 2N (x,y)+N (x,z) = 2N (x,y) (2N (z,y) + 2N (x,z) ). Dies ist aber offensichtlich (tatsächlich ist N (x, y) ≥ N (x, z) ≥ N (z, y) der einzige nicht völlig triviale Fall). Die Menge {1, 2, . . . , k} ist kompakt und nach dem Satz von Tychonoff (siehe etwa Jänich, Topologie, Springer 2000, 7. Aufl.) ist dann auch Ωk kompakt. Damit ist (i) bewiesen. Zum Beweis von (ii) seien x, y ∈ Ωk mit x 6= y und d(x, y) = 2−N gegeben. Dann gilt xi = yi für −N < i < N und also (σx)(i) = xi+1 = yi+1 = (σy)(i) für −(N + 1) < i < N − 1. Also folgt d(σx, σy) ≤ 21−N = 2 d(x, y). Also ist σ stetig. Offensichtlich ist σ auch invertierbar und die Umkehrabbildung σ −1 ist ebenfalls stetig (mit demselben Argument wie oben für σ). Der Satz ist bewiesen. • Bourgain, der auch wichtige Arbeiten zu dieser Thematik verfasste, wurde 1994 auf dem ICM in Zürich ausgezeichnet. 25Interessant ist die Geschichte dieses Beweises, aufgeschrieben von B.L. van der Waerden, Wie der Beweis der Vermutung von Baudet gefunden wurde, Elem. Math. 9 (1954), 49-56; Nachdruck in Elem. Math. 53 (1998), 139-148, und auch ein einfacher kombinatorischer Beweis von Lukomskaya, zu finden in dem Buch: A.Y. Khinchin, Three pearls of number theory, Graylock Press, Baltimore 1952. Das ursprüngliche Problem wurde vermutlich von Schur für den Fall r = 2 aufgeworfen, und nicht von Baudet, allerdings zeigte sich — und das ist außerordentlich interessant —, dass eine allgemeinere Sichtweise, d.h. beliebiges r, einen einfacheren Beweis zulässt. 58 ERGODENTHEORIE Die wesentliche Beweislast unseres Beweises des Satzes von van der Waerden ist enthalten in dem mehrdimensionalen Wiederkehrsatz von H. Furstenberg & B. Weiss, Topological dynamics and combinatorial number theory, J. d’Analyse Math. 34 (1978), 61-85: Satz 20. Seien T1 , . . . , TN : X → X Homöomorphismen eines kompakten metrischen Raumes mit der Eigenschaft Ti Tj = Tj Ti für 1 ≤ i, j ≤ N . Dann gibt es ein x ∈ X und eine bestimmt gegen +∞ divergierende Folge natürlicher Zahlen nk , so dass lim d(Tink x, x) = 0 k→∞ für jedes i = 1, 2, . . . , N. Die Vertauschbarkeit der Hintereinanderschaltung der Abbildungen Ti ist von entscheidender Bedeutung (hierbei steht Ti Tj für Ti ◦ Tj ) und unerlässlich. Damit wird die Menge der Abbildungen eine Halbgruppe. Wir zeigen jetzt, wie man mit Hilfe von Satz 20 den Satz 18 von van der Waerden gewinnt: Beweis von Satz 18. Zu einer gegebenen Partition von Z in disjunkte Teilmengen Z = A1 ∪ . . . ∪ Ak assoziieren wir eine Folge ω = (ω(n))n∈Z ∈ Ωk durch die Vorschrift, dass ω(n) = i genau für n ∈ Ai gelte. Jetzt sei σ die shift-Abbildung aus (25). Wir betrachten den Orbit {σ n ω : n ∈ Z} und schreiben X für seinen Abschluss bzgl. d. Wir wenden Satz 20 mit Ti = σi := σ i (= σ ◦ . . . ◦ σ) an und erhalten für ein hinreichend kleines ǫ < 1 die Existenz eines x ∈ X und eines d ∈ N mit d(σid x, x) < 1 für i = 1, . . . , N. Wegen d(x, y) = 2−N (x,y) ergibt sich eine Übereinstimmung der jeweiligen 0-ten Folgeglieder: x0 = xid = σid x(0) für i = 0, 1, . . . , N. Die Sequenz {xn }0≤n≤N d muss nach Konstruktion irgendwo in der Folge ω auftreten, etwa startend an der Stelle a, so dass also ω(a) = x0 = xid = σid x(0) = ω(a + id) für i = 0, 1, . . . N. gilt. Damit ist a + id ∈ Aω(a) für i = 0, 1, . . . N und Satz 18 ist bewiesen. • Zu jedem ℓ = N + 1 haben wir also ein j gefunden, so dass die Menge Aj eine arithmetische Progression der Länge ℓ enthält. Es ist damit klar, dass es mindestens ein j in einer jeden Klassenzerlegung (26) gibt, die beliebig lange arithmetische Progressionen enthält! Der Beweis hat etliche Ideen aus dem Ansatz von Furstenberg für Szemerédis Satz wieder aufgegriffen. 8. Arithmetische Progressionen und der Satz von van der Waerden 59 Wir beweisen Satz 20 nur für den Spezialfall, dass die Homöomorphismen Ti von der Form Ti = T i für i = 1, . . . , N zu einem einzigen Homömorphismus T sind. Wir starten mit dem Fall N = 1, der sich auf den Birkhoffschen Wiederkehrsatz (nicht zu verwechseln mit seinem Ergodensatz) reduziert: Satz 21. Sei T : X → X ein Homöomorphismus kompakter metrischer Räume X, so gibt es ein x ∈ X mit T nk x → x für eine divergente Folge natürlicher Zahlen nk → ∞. Beweis. Wir benutzen jetzt implizit das Zornsche Lemma26 an. Ist E die Familie aller nicht leeren, abgeschlossenen, T -invarianten Teilmengen Z von X, ausgerüstet mit der Halbordnung Z1 ≤ Z2 : ⇐⇒ Z1 ⊂ Z2 , so existiert also zu einer jeden Kette {Zκ }κ ein maximales vollständig geordnetes Teilsystem F ⊂ E — dies ist der so genannte Hausdorffsche Maximalkettensatz (siehe W. Rudin, Reelle und komplexe Analysis, Oldenbourg). Jetzt ist die Menge Z = ∩κ Zκ aller Zκ ∈ F selbst abgeschlossen, T -invariant und nach Konstruktion zudem minimal, d.h. keine nicht leere, echte abgeschlossene Teilmenge von Z ist T -invariant. Ferner ist Z nicht leer, weil X kompakt ist. Ist nun A eine abgeschlossene T -invariante Teilmenge von Z, dann gilt also entweder A = ∅ oder A = Z (ähnlich zum Ergodizitätsbegriff). Insbesondere folgt für den Abschluss A des Orbits {T n x : n ∈ Z} mit irgendeinem x ∈ Z nun A = Z ⊂ X. Damit gibt es zu jedem ǫ > 0 ein n ∈ N mit d(T n x, x) < ǫ. 27 Hieraus ergibt sich unmittelbar die Aussage von Satz 21. • Der Rest des Beweises von Satz 20 erfolgt per Induktion nach N , so dass also zu zeigen verbleibt, dass, wenn die Aussage für N −1 Homöomorphismen T1 = T, . . . TN −1 = T N −1 gilt, dann auch für N solche, also zusätzlich mit TN = T N . Dabei dürfen wir annehmen, dass X die kleinste abgeschlossene Menge ist, die invariant unter jedem T j mit j = 1, . . . , N ist (wieder mit dem Maximalkettensatz von Hausdorff wie im vorigen Beweis, also X = Z). Als Erstes zeigen wir, dass zu gegebenem ǫ > 0 und beliebigen x, x′ ∈ X eine endliche Menge K ⊂ N existiert, so dass d(T k x, x′ ) < ǫ für ein k ∈ K. (27) 26bekannt und berüchtigt, weil es äquivalent zum ungeliebten Auswahlaxiom ist, besagt es, dass jede nicht leere halbgeordnete Menge, in der jede Kette (d.h. jede total geordnete Teilmenge) eine obere Schranke hat, mindestens ein maximales Element enthält. Entdeckt wurde dies durch Zorn im Jahre 1935. 27Die T -Invarianz erlaubt hier also mehr als nur den üblichen Schluß nämlich die Existenz eines Häufungspunktes. 60 ERGODENTHEORIE Ist ∅ = 6 B ⊂ X offen, so gibt es wiederum mit der Minimalität von X zu S jedem z ∈ X ein n ∈ N mit T n z ∈ B. Also X = n∈N T −n B. Da X nach Voraussetzung kompakt ist und die Mengen T −n B offen, folgt mit HeineBorel, dass X eine endliche Teilüberdeckung der Form [ X= T −k B k∈K(B) mit einer endlichen Teilmenge K(B) ⊂ N besitzt. Und noch einmal: Wiederum auf Grund der Kompaktheit von X gibt es endlich viele offene Kugeln B1 , . . . , Br mit Radius 2ǫ , so dass X= r [ Bj . j=1 x, x′ Zu ∈ X gilt dann x ∈ Bi für ein i ∈ {1, . . . , r} und x′ ∈ T −k Bi für ein S k ∈ K(Bi ). Also gilt (27) mit K = rj=1 K(Bj ). Als Nächstes zeigen wir, dass zu jedem ǫ > 0 und beliebigem x ∈ X, ein y ∈ X und ein n ∈ N existieren, so dass d(T jn y, x) < ǫ für j = 1, . . . , N. (28) Da jeder Homöomorphismus T k gleichmäßig stetig auf der kompakten Menge X ist, gibt es ein ρ > 0, so dass d(T k x1 , T k x2 ) < ǫ für x1 , x2 ∈ X mit d(x1 , x2 ) < ρ. (29) Tatsächlich dürfen wir dies auch gleich für alle k der endlichen(!) Teilmenge K, definiert gemäß (27) fordern (die Gleichmäßigkeit der T k und somit die Kompaktheit von X sind hier entscheidend). Nach Induktionsvoraussetzung gibt es ein x′ ∈ X und ein n ∈ N, so dass d(T jnx′ , x′ ) < ρ für j = 1, . . . , N − 1. Da X kompakt ist, ist die T -invariante Menge T X abgeschlossen, also gilt T X = X (nach Konstruktion) bzw. T n X = X. Damit finden wir ein y ′ ∈ X, so dass T n y ′ = x′ gilt und somit d(T n y ′ , x′ ) = 0, d(T jn y ′ , x′ ) < ρ für j = 2, . . . , N. Mit unserer vorangegangenen gleichmäßigen Abschätzung (29) folgt also d(T jn+k y ′ , T k x′ ) < ǫ für k ∈ K, j = 1, . . . , N. Für jedes x ∈ X gibt es ein k ∈ K mit d(T k x′ , x) < ǫ, d.h. mit y := T k y ′ und der Dreiecksungleichung folgt nun d(T jn y, x) ≤ d(T jn+k y ′ , T k x′ ) + d(T k x′ , x) < 2ǫ für j = 1, . . . , N . Da ǫ > 0 hierbei beliebig ist, ergibt sich (28). 8. Arithmetische Progressionen und der Satz von van der Waerden 61 Wir nähern uns dem Ende des Beweises! Seien ǫ0 > 0 und x0 ∈ X beliebig gegeben. Nach (28) existieren x1 ∈ X und n1 ∈ N, so dass d(T jn1 x1 , x0 ) < ǫ0 für j = 1, . . . , N. Jetzt wählen wir ǫ1 ∈ (0, ǫ0 ) so, dass mit d(x, x1 ) < ǫ1 d(T jn1 x, x0 ) < ǫ0 für j = 1, . . . , N gilt. Wir setzen dies induktiv fort wie folgt: Angenommen, wir haben definiert • Punkte x1 , . . . , xk ∈ X, • natürliche Zahlen n1 , . . . , nk , und • eine streng monoton fallende Folge positiver reeller Zahlen ǫ 1 , . . . , ǫk , mit der Eigenschaft, dass für i = 1, . . . , k − 1 d(T jni xi , xi−1 ) < ǫi−1 für j = 1, . . . , N (30) für j = 1, . . . , N (31) und, falls d(x, xi ) < ǫi , auch d(T jni x, xi−1 ) < ǫi−1 gilt. Nach (28) gibt es dann (wie im Falle i = 0 oben) xk+1 ∈ X und nk+1 ∈ N, so dass d(T jnk+1 xk+1 , xk ) < ǫk für j = 1, . . . , N ; wir wählen nun ein ǫk+1 ∈ (0, ǫk ) so, dass d(x, xk+1 ) < ǫk+1 impliziert, dass d(T jnk+1 x, xk ) < ǫk für j = 1, . . . , N. Dies sind (30) bzw. (31) mit i = k + 1. Dieser Prozess lässt sich also ad infinitum fortführen; die Induktion ist abgeschlossen. Jetzt nehmen wir sukzessive i = ℓ − 1, ℓ − 2, . . . und erhalten für i < ℓ vermöge (30) bzw. (31) nun d(T j(ni+1 +...+nℓ ) xℓ , xi ) < ǫi für j = 1, . . . , N. Da X kompakt ist, gibt es eine endliche Überdeckung von X durch r offene Kugeln vom Radius ǫ0 . Damit gibt es Indizes i, ℓ mit 0 ≤ i < ℓ ≤ r, so dass d(xi , xℓ ) < ǫ0 gilt. Mit m = ni+1 + . . . + nℓ folgt dann wegen ǫi < ǫ0 mit der Dreiecksungleichung d(T jm xℓ , xℓ ) ≤ d(T jmxℓ , xi ) + d(xi , xℓ ) < 2ǫ0 für j = 1, . . . , N. Da ǫ0 > 0 beliebig war, ergibt sich die Behauptung von Satz 20 im Spezialfall Tj = T j für j = 1, . . . , N . • Der obige Beweis des Satzes von van der Waerden benutzt einige “unendliche” Elemente (der Satz von Tychonoff, das Lemma von Zorn und den 18. Dez. 2007 62 ERGODENTHEORIE Satz von Heine-Borel). Tatsächlich kann man diese umgehen, in dem man quantitativ argumentiert, allerdings führt dies letztlich auf einen kombinatorischen Beweis. Sehr lesenswert für weitere Gedanken in diese Richtung ist der Artikel T. Tao, The ergodic and combinatorial approaches to Szemerédi’s theorem, preprint.28 Aufgabe 17. Man gebe einen Beweis von Satz 20 für den allgemeinen Fall beliebiger kommutierender Homöomorphismen T1 , . . . , TN . (Hilfe findet man in [10].) Chaotische oder zufällige Strukturen können, wenn sie hinreichend groß sind, nicht so unregelmäßig sein, dass sie nicht doch sehr reguläre Teilstrukturen enthalten. Wir haben mit den obigen Sätzen eindrucksvolle Beispiele für diese Beobachtung am Beispiel arithmetischer Strukturen gesehen. Van der Waerdens Satz besitzt eine Vielzahl von Anwendungen. Wir geben ein Beispiel im Zusammenhang mit der Frage der Verteilung der Werte quadratischer Polynome modulo Eins (was uns auch in die Nähe eines späteren Themas dieser Vorlesung bringt): Korollar 22. Es sei α eine reelle Zahl und ǫ > 0 beliebig. Dann gibt es unendlich viele m ∈ N gibt, so dass kαm2 k < ǫ. Hier steht kxk für den minimalen Abstand von x zu einer ganzen Zahl steht. Es gibt einige wesentlich verschiedene Beweise dieser Behauptung (etwa mittels Gleichverteilungssätzen von Weyl). Beweis. Wir zerlegen das Einheitsintervall in endlich viele kleine Intervalle I einer Länge ≤ 2ǫ und betrachten die Mengen {n ∈ N : 2 1 2 αn mod 1 ∈ I}. Eine jede solche definiert uns eine Klasse in N. Nach dem Satz von van der Waerden enthält eine dieser Klassen eine artithmetische Progression der Länge 3 mit beliebig großer Differenz d (durch Streichen aus arithmetischen Progressionen größerer Länge); es gibt also ein n ∈ N mit 2 1 1 2 αn , 2 α(n + d)2 , 1 2 α(n + 2d)2 ∈ I für ein I. Nun besteht die Identität 2 1 2 αn − 2 · 21 α(n + d)2 + 21 α(n + 2d)2 = αd2 . Die linke Seite ist modulo 1 die Summe zweier Differenzen von Zahlen in I, also summandenweise ≤ 2ǫ . Damit ergibt sich die Ungleichung für m = d; mit ǫ → 0 ergeben sich so unendlich viele m ∈ N. • 28erhältlich unter http://uk.arxiv.org/pdf/math.CO/0604456.pdf 11. Normale Zahlen 63 Erdös setzte einen Preis von 3000 US-Dollar für den Beweis folgender Vermutung aus:29 Ist (an ) eine streng monoton wachsende Folge natürlicher Zahlen und ∞ X 1 n=1 an divergent, so enthält die Folge der an arithmetische Progressionen beliebiger Länge. Tatsächlich würde auch der Satz von Green & Tao aus der Vermutung von Erdös folgen (was vielleicht seine Tiefe andeutet), da die Reihe über die Reziproken der Primzahlen divergiert, was Euler bereits wusste und auf sehr eindrucksvolle Art und Weise wie folgt notierte: 1 1 1 1 + + + + . . . = log log ∞. 2 3 5 7 Das ist tatsächlich eine einfache Folgerung aus dem Primzahlsatz (der aber zu Eulers Zeit noch unbekannt war). * * * Nach unserem Ausflug in die topologische Dynamik geht es im nächsten Kapitel um normale Zahlen — was soll das sein? Mit diesem Attribut sollte man natürlich nur Zahlen belegen, die keine besonderen Merkmale besitzen, wobei vielleicht auch noch zu fordern wäre, dass die meisten Zahlen normal sein sollten. Kann dabei normal überhaupt ein interessanter Begriff sein? 9. Normale Zahlen 15. Jan. 2008 Sei b eine natürliche Zahl größer Eins. Jede relle Zahl x besitzt eine Darstellung bzgl. der Basis b (bzw. b-adische Entwicklung), d.h. x= ∞ X n=0 an b−n mit a0 ∈ Z, an ∈ {0, 1, . . . , b − 1} (32) für n ∈ N; hierbei ist a0 = [x] der Ganzteil von x und die an sind die b-adischen Ziffern von {x} ∈ [0, 1). Diese Darstellung ist nicht eindeutig, was uns aber nicht weiter stört, da diese Nichteindeutigkeit sich nur auf eine Nullmenge bezieht, wie wir kurz am Beispiel der Dezimaldarstellung illustrieren: 0, 9 = 0, 99999 99999 . . . = 1, 0 = 1, 29Erdös hat tatsächlich viele solcher Preise für seine zahllosen Vermutungen ausge- setzt, den Geldbetrag als Index für den vermeintlichen Schwierigkeitsgrad. Angeblich soll Erdös sogar gesagt haben, dass er einen Preis von 106 Dollar aussetzen können, da er den Beweis sowieso nicht erleben werde. Erdös verstarb 1996. 64 ERGODENTHEORIE wobei wie üblich der Ausdruck 9 für die unendliche Folge der Ziffer 9 steht. Besitzt nämlich x eine schließlich periodische b-adische Darstellung, so ist x rational und damit eine Lebesgue-Nullmenge; ist die Entwicklung hingegen nicht schließlich periodisch, so ist die Darstellung eindeutig und x irrational. Eine reelle Zahl x heißt normal zur Basis b, falls für jedes k ∈ N jeder Ziffernblock α1 . . . αk mit αj ∈ {0, 1, . . . , b − 1} mit derselben Häufigkeit in der b-adischen Entwicklung von x = a0 , a1 a2 . . . auftritt. Im Falle k = 1 bedeutet dies, dass jede Ziffer gleich häufig auftritt: 1 1 ♯{n ≤ N : an = α} = für jedes α ∈ {0, 1, . . . , b − 1}; lim N →∞ N b im Falle k = 2 gilt hingegen 1 1 lim ♯{n ≤ N : an = α, an+1 = α′ } = 2 für alle α, α′ ∈ {0, 1, . . . , b−1}; N →∞ N b im allgemeinen Falle tritt der Block α1 . . . αk mit jeweils αj ∈ {0, 1, . . . , b−1} mit der asymptotischen Häufigkeit b−k auf. Offensichtlich genügt es hierbei, nur die b-adische Entwicklung des gebrochenen Anteils {x} ∈ [0, 1) zu betrachten. É. Borel (Les probabilités dénombrables et leurs applications arithmétiques, Rend. Circ. Matematico di Palermo 27 (1909), 247-271) zeigte: Satz 23. Fast alle reellen x sind normal zu jeder Basis b. Dieser Satz rechtfertigt also, Zahlen mit der obigen Eigenschaft tatsächlich mit dem Attribut normal zu belegen. Beweis. Nach obiger Bemerkung genügt es, Zahlen x ∈ [0, 1) zu untersuchen. Die Abbildung Tb : [0, 1) → [0, 1), definiert durch Tb x = bx mod 1, ist maßtreu bzgl. des Lebesgue-Maßes λ und ergodisch (dies weist man im allgemeinen Fall genauso nach, wie für den Spezialfall b = 2, den wir in Bsp. 2 in Kapitel 4 betrachtet haben). Sei nun x zur Basis b gegeben durch (32). Offensichtlich gilt genau dann α α+1 n , =: I(α) Tb x ∈ b b für ein fest vorgegebenes α ∈ {0, 1, . . . , b − 1}, wenn an+1 = α gilt. Mit dem Birkhoffschen Ergodensatz 11 folgt jetzt Z 1 1 X n χI(α) dλ = λ(I(α)) = χI(α) (Tb x) = lim N →∞ N b [0,1) 0≤n<N für fast alle x. Dies liefert die Behauptung im Falle eines Blockes bestehend aus einer Ziffer α (also k = 1). Der allgemeine Fall (k ∈ N) ergibt sich mittels α α+1 α := α1 bk−1 + α2 bk−2 + . . . + αk und I(α, k) := k , k b b 11. Normale Zahlen völlig analog: 1 lim N →∞ N X χI(α,k) (Tbn x) 0≤n<N = Z [0,1) χI(α,k) dλ = λ(I(α, k)) = 65 1 bk Der Satz ist bewiesen. • Natürlich hat Borel nicht die Ergodentheorie benutzt, um seinen Satz zu beweisen; tatsächlich arbeitete er mit dem so genannten Borel-Cantelli– Lemma aus der Stochastik. Einen elementaren, dabei aber Borels Ideen folgenden Beweis findet man sehr schön aufgeschrieben in I. Niven, Irrational numbers, Carus Mathematical Monographs, John Wiley & Sons 1963. Einen von Borel verschiedenen Ansatz erdachte Alan Turing (A note on normal numbers, Collected Works of A.M. Turing, J.L. Britton (Ed.), North Holland, Amsterdam 1992, 117-119); seine Arbeit wurde allerdings nie veröffentlicht, jedoch vor kurzem durch V. Becher, S. Figueira & R. Picchi (Turing’s unpublished algorithm for normal numbers, Theor. Computer Science 377 (2007), 126-138) mathematisch vervollständigt. Obwohl nach dem Borelschen Satz 23 fast alle reellen Zahlen normal sind, und zwar zu jeder Basis, ist es ein ganz anderes Problem, eine gegebene reelle Zahl als normal zu auch nur einer einzigen Basis b zu outen. Beispielsweise ist es unbekannt, ob die Kreiszahl π = 3, 14159 26535 89793 23846 26433 83279 50288 41971 69399 37510 58209 74944 59230 78164 06286 20899 86280 34825 34211 70679 . . . normal bzgl. irgendeiner Basis ist.30 Insofern ist das Problem der Normalität womöglich noch schwieriger, als das verwandte Problem, eine gegebene Zahl als entweder algebraisch oder als transzendent nachzuweisen, wofür man mehr Techniken kennt.31 Kanada berechnete mehr als die ersten 50 Milliarden(!) Nachkommastellen der Dezimalbruchentwicklung von π und die zugehörige Ziffernstatistik zeigt bei allen Ziffern eine Abweichung von weniger als 0, 002% vom Erwartungswert. Für andere Zahlen sieht es nicht besser √ aus: So weiss man auch nicht, ob e = exp(1) oder 2 normal zu irgendeiner Basis sind. D.H. Bailey & R.E. Crandall (On the random character of fundamental constant expansions, Exper. Math. 10 (2001), 175-190) haben √ jüngst vermutet, dass jede algebraische Irrationalzahl (wie z.B. 2) normal ist. Das selbe Schicksal der Ungewissheit teilt die fast ganze Zahl √ exp(π 163) = 262 53741 26407 68743, 99999 99999 992 . . . ; 30Dieses Problem wird auch in dem extravaganten Spielfilm Pi von D. Aronofsky aufgegriffen. 31So weiss man, dass π transzendent ist, was als Erster Lindemann 1882 bewies, womit das antike Problem der Kreisquadratur unmöglich ist. Lindemann war zuvor für eine kurze Zeit in Würzburg tätig und hat sich dort/hier 1877 habilitiert. 66 ERGODENTHEORIE das Auftreten der erstaunlich vielen 9en kann man mit der Theorie der imaginär-quadratischen Zahlkörper und der elliptischen j-Funktion erklären, hilft aber hinsichtlich der Frage der Normalität überhaupt nicht weiter. Klar ist, dass rationale Zahlen nicht normal sind, haben diese doch eine schließlich periodische b-adische Ziffernentwicklung (hier wird jetzt auch klar, warum man bei der Definition von Normalität nicht einfach nur die Ziffernverteilung, sondern Blöcke beliebiger Länge zu Grunde legt). Ein etwas anspruchsvolleres Beispiel für nicht normale Zahlen: Die Cantor-Menge C entsteht aus dem Einheitsintervall [0, 1] durch sukzessives Entfernen der mittleren Drittel. Genauer gilt n C = [0, 1] \ ∞ [ 2 [ n=0 j=1 (xnj + 3−n−1 , xnj + 2 · 3−n−1 ) mit gewissen rationalen Zahlen xnj . Bekanntlich (siehe etwa Elstrodt, Maß- und Integrationstheorie, Springer 2007) ist die Cantor-Menge C ein Beispiel einer überabzählbaren, perfekten Menge ohne innere Punkte; hierbei heißt eine unendliche Menge perfekt, wenn jedes Element Häufungspunkt ist. Die Elemente von C sind genau die x ∈ [0, 1], deren ternäre Ziffernentwicklung keine 1 enthält (die mittleren Drittel wurden ja entfernt), also x∈C ⇐⇒ x= ∞ X n=1 an 3−n mit an ∈ {0, 2}; die xnj aus der obigen Darstellung für C sind dabei gerade alle möglichen Partialsummen solcher x. Es folgt unmittelbar, dass die Cantor-Menge keine einzige zur Basis 3 normale Zahl enthält; insbesondere folgt aus Satz 23, dass C eine Lebesgue-Nullmenge ist. Aufgabe 18. Man beweise all diese Aussagen über C, insbesondere gebe man einen direkten Beweis, dass λ(C) = 0 gilt. Eine Zahl kann normal zur Basis b, aber nicht normal zur Basis b′ sein. Dies entdeckten J.W.S. Cassels (On a problem of Steinhaus about normal numbers, Colloq. Math. 7 (1959), 95-101) und W. Schmidt (On normal numbers, Pacific J. Math. 10 (1960), 661-672), die bewiesen, dass jede normale Zahl zur Basis b genau dann normal bzgl. einer Basis b′ ist, wenn log b/ log b′ rational ist. Man kennt einige wenige Konstruktionsmethoden normaler Zahlen. Die erste explizite normale Zahl konstruierte W. Sierpinski, Démonstration élémentaire d’un théoreme de M. Borel sur les nombres absolument normaux et détermination effective d’un tel nombre, Bull. Soc. Math. France 45 (1917), 125-144. Beispielsweise gelang D.G. Champernowne (The construction of decimals normal in the scale of ten, J. London Math. Soc. 11. Normale Zahlen 67 8 (1933), 254-260) der Nachweis der Normalität der nach ihm benannten Champernowneschen Zahl 0, 123456789 10111213141516171819 2021 . . . . A.H. Copeland & P. Erdös (Note on normal numbers, Bull. Amer. Math. Soc. 52 (1946), 857-860) haben ferner gezeigt, dass die Zahl 0, 23571113171923293137414347 . . . , gebildet aus der Primzahlenfolge, normal bzgl. der Basis 10 ist. Das Bildungsgesetz in diesen Beispielen ist offensichtlich! Man kann unschwer jede beliebige Nachkommastelle berechnen ohne Kenntnis über die vorangegangenen Ziffern zu besitzen. Insofern ist Normalität übrigens nicht der richtige Begriff, um Zufallszahlen zu konstruieren. Abbildung 9. Die ersten 1600 binären Ziffern von π und seiner rationalen Approximation 22 7 . Wir kehren zurück zur Zahl π. Man vermutet, dass es keine Muster in der Dezimalentwicklung von π gibt, und deshalb ist es auch naheliegend zu vermuten, dass π normal ist bzgl. der Dezimalentwicklung (also b = 10). Gleiches gilt auch für jede andere b-adische Entwicklung. In dieser Richtung gelang D.H. Bailey, P.B. Borwein & S. Plouffe (On the rapid computation of various polylogarithmic constants, Math. Comp. 66 (1997), 903-913) vor ca. zehn Jahren eine kleine Sensation. Ihre so genannte BBPFormel (nach ihren Initialien) ermöglicht die Berechnung einer beliebigen Nachkommastelle von π im Hexadezimalsystem (also zur Basis 16) ohne irgendeine der vorherigen Nachkommastellen wissen zu müssen: π= ∞ X 4 2 1 1 1 − − − . 16n 8n + 1 8n + 4 8n + 5 8n + 6 n=0 (33) 68 ERGODENTHEORIE Wir geben eine kurze Beweisskizze für die BBP-Formel. Zunächst verifiziert man Z 1/√2 X Z 1/√2 k−1 ∞ ∞ X 1 1 x k−1+8m − k2 x dx = 2 dx = · . 8 m 1−x 16 8m + k 0 0 m=0 m=0 Damit ist (33) äquivalent zu √ Z 1/√2 √ Z 1 y−1 4 2 − 8x3 − 4 2x4 − 8x5 π= dx = 16 dy 8 4 3 1−x 0 y − 2y + 4y − 4 0 √ vermöge der Substitution y = 2x. Mit Hilfe von Z x du arctan x = 2 0 1+u und Partialbruchzerlegung (oder Computeralgebra) ergibt sich nun leicht die BBP-Formel (33). Aufgabe 19. Man vervollständige die obige Beweisskizze für (33). Wie gewinnt man aber nun aus (33) effektiv eine beliebige Nachkommastelle von π bzgl. der Basis 16? Wir erläutern dies an einem etwas einfacheren Beispiel (die Vereinfachung bezieht sich hier aber lediglich auf eine übersichtlichere Darstellung): Bekanntlich gilt log 2 = ∞ X 1 , k2k k=1 was fast unmittelbar aus der Potenzreihenentwicklung des Logarithmus und dem Abelschen Grenzwertsatz folgt. Die (d + 1)-te Ziffer der Binärentwicklung von log 2 ist damit gleich ) (∞ X 2d−k {2d log 2} = k k=0 (( d ) ( ∞ )) X 2d−k mod k X 2d−k = + . k k k=0 k=d+1 Die Zähler 2d−k mod k in der ersten Summe lassen sich schnell mit schneller Exponentiation32 modulo k berechnen; die zweite Summe konvergiert dabei sehr schnell, so dass hier nur einige wenige Terme tatsächlich berechnet werden müssen. Ganz ähnlich kann man unschwer beliebige Ziffern der Hexadezimalentwicklung von π mit Hilfe der BBP-Formel (33) berechnen. Trotzdem kann man aus solchen Bildungsgesetzen — im Gegensatz zur Champernowneschen Zahl — leider bislang keine Aussage über die Normalität bzgl. der entsprechenden Basis entlocken. Allerdings haben jüngst 32Z.B. gilt 217 = ((((22 )2 )2 )2 ) · 2 entsprechend 17 = 24 + 20 . 11. Normale Zahlen 69 D.H. Bailey & R.E. Crandall (in derselben Quelle wie oben) eine Vermutung aufgestellt, wie einer BBP-Formel, wie oben etwa für π bzw. log 2, eine reelle Zahlenfolge zugeordnet werden kann, die genau dann modulo 1 gleichverteilt ist, wenn die zu Grunde liegende Zahl normal ist. Wir gehen hier nicht in die recht technischen Details, sondern erwähnen nur, dass unter Annahme dieser Vermutung dann beispielsweise π normal zur Basis 16 wäre, wenn die Folge (xn ) definiert durch x0 = 0, xn = 16xn−1 + 120n2 − 89n + 16 512n4 − 1024n3 + 712n2 − 206n + 21 (34) gleichverteilt modulo 1 ist. Dies gibt immerhin Hoffnung, dass in naher Zukunft wenigstens die Normalität von π zur Basis b = 16 (und damit auch bzgl. b = 2, 4, 8) bewiesen werden kann. Im Falle der Binärentwicklung von log 2 erfolgte die Normalität aus der Gleichverteilung der Folge x0 = 0, xn+1 1 = 2 xn + n mod 1. Allerdings weiss man für keine der beiden angeführten Folgen, ob sie tatsächlich gleichverteilt sind. Mittlerweile kennt man noch eine Vielzahl weiterer BBP-Formeln für andere Basen bzw. andere wichtige Konstanten, allerdings keine für π in der Dezimalentwicklung; der interessierte Leser findet hierzu unschwer eine Vielzahl von Artikeln im Internet. Aufgabe 20. Man implementiere einen Algorithmus zur Berechnung der Hexadezimalziffern von π mit Hilfe der BBP-Formel. Man vergleiche die Resultate mit den Werten xn gemäß der Entwicklung (34) und erstelle eine Ziffernstatistik. Eine Kuriosität zum Abschluss: Ist π tatsächlich normal, sagen wir zur Basis b = 26, und weisen wir jeder der 26 Ziffern bijektiv einen Buchstaben unseres Alphabetes zu, etwa A 7→ 1, B 7→ 2, . . ., dann ist in der 26-adischen Entwicklung von π auch ein Beweis der Normalität von π kodiert enthalten, vorausgesetzt, dass diese Behauptung beweisbar ist.33 * * * 33Unter http://www.angio.net/pi/bigpi.cgi findet man ein kleines Programm, das einem das erste Auftreten eines beliebigen Datums (etwa das Geburtsdatum) in der Dezimalentwicklung von π heraussucht. Mein Geburtsdatum startet an der Stelle 151897. 70 ERGODENTHEORIE Im Folgenden wollen wir eine auf Gauss zurückgehende Fragestellung mit Ergodentheorie behandeln. Hierbei geht es um statistische Eigenschaften von Kettenbrüchen, die sich ganz hervorragend zur rationalen Approximation von Irrationalzahlen eignen. Zunächst entwickeln wir die wichtigste Eigenschaften dieser klassischen Objekte. 22. Jan. 2008 10. Elementare Theorie der Kettenbrüche Kettenbrüche als Werkzeug zur Findung geeigneter rationaler (diophantischer) Approximationen an Irrationalzahlen wurden in vielen Kulturen benutzt; eine systematische Theorie hingegen wurde aber erst durch den Astronomen Huygens im 17. Jahrhundert gegeben (als dieser ein mechanisches Modell unseres Sonnensystems bauen wollte). Zunächst betrachten wir den euklidischen Algorithmus: Gegeben zwei natürliche Zahlen a und b, definiere man r−1 := a, r0 := b und wende sukzessive Division mit Rest gemäß rn−1 = an rn + rn+1 mit 0 ≤ rn+1 < rn . für n = 0, 1, 2 . . . an. Da die Folge der Reste rn stets kleiner wird, terminiert der Algorithmus und auf Grund elementarer Teilbarkeitseigenschaften ist der kleinste nichtverschwindende Rest rm der größte gemeinsame Teiler von a und b, in Zeichen rm = ggT(a, b). Wir können den euklidischen Algorithmus umschreiben als rn−1 rn+1 rn−1 = mit 0 ≤ rn+1 < rn (35) + rn rn rn i h und somit ergibt sich für n ≤ m. Hierin ist an = rn−1 rn a r−1 = = a0 + b r0 r0 r1 −1 = a0 + 1 −1 = . . . . r1 a1 + r2 Die erste Gleichung liefert den Ganzteil von ab ; jede weitere gibt bessere und bessere Näherungen (mit den kleinst möglichen Nennern entsprechend der Approximationsqualität). Ein Beispiel: Das Sonnenjahr hat ungefähr 365 Tage 5 Stunde 48 Minuten und 45.8 Sekunden ≈ 365 + 419 Tage. 1730 10. Elementare Theorie der Kettenbrüche 71 Unglücklicherweise ist dies keine ganze Zahl, wie also bildet man einen guten Kalender? Mit dem euklidischen Algorithmus findet man 1730 = 419 = 54 = ... 4 · 419 + 54, 7 · 54 + 41, 1 · 41 + 13, In Hinblick auf (35) kommt 1730 54 =4+ , 419 419 bzw. 419 1730 −1 1 = 365 + ≈ 365 + . 1730 419 4 Dies ist nichts anderes als der Julianische Kalender (nach Julius Caesar): Alle vier Jahre ein Schaltjahr. Mit dem vollständigen euklidischen Algorithmus ergibt sich 1 419 . = 365 + 365 + 1 1730 4+ 1 7+ 1 1+ 1 3+ 1 6+ 2 1 Diese rationale Näherung ohne den letzten Bruch 2 liefert die Approximation 365 + 194 419 ≈ 365 + , 801 1730 welche unseren derzeitigen Gregorianischen Kalender (nach Papst Gregor XIII, 1582) repräsentiert: In 800 Jahren werden 6 (= 200 − 194) der Schaltjahre ausgelassen. Der Ausdruck 1 a0 + 1 a1 + a2 + ... 1 + 1 am−1 + am heißt ein regulärer Kettenbruch (engl. regular continued fraction); man spricht von irregulären Kettenbrüchen, wenn auch andere Zähler als Eins zugelassen sind, was wir im Folgenden aber ausklammern. Die an nennt man Teilnenner. Wir notieren einen solchen Kettebruch kurz mit 365 + [a0 , a1 , a2 , . . . , am ]. 72 ERGODENTHEORIE Zunächst betrachten wir [a0 , . . . , am ] als eine Funktion in unabhängigen Variablen a0 , . . . , am . Offensichtlich gilt [a0 ] = a0 , [a0 , a1 ] = und [a0 , a1 , a2 ] = a1 a0 + 1 a1 a2 a1 a0 + a2 + a0 . a2 a1 + 1 Per Induktion zeigt man 1 [a0 , a1 , . . . , an ] = a0 , a1 , . . . , an−1 + an (36) und 1 = [a0 , [a1 , . . . , an ]]. [a1 , . . . , an ] Für n ≤ m nennen wir [a0 , a1 , . . . , an ] den n-ten Näherungsbruch an [a0 , a1 , . . . , am ]. Wir definieren desweiteren p−1 = 1, p0 = a0 , and pn = an pn−1 + pn−2 , (37) q−1 = 0, q0 = 1, and qn = an qn−1 + qn−2 . [a0 , a1 , . . . , an ] = a0 + Die Berechnung der Näherungsbrüche erfolgt leicht vermöge Satz 24. Für 0 ≤ n ≤ m gilt pn = [a0 , a1 , . . . , an ]. qn Beweis per Induktion nach n. Der Fall n = 0 ist trivial. Der Fall n = 1 folgt unmittelbar aus [a0 , a1 ] = p1 a1 a0 + 1 = . a1 q1 Angenommen die Formel ist richtig für n. In Anbetracht von (36) gilt 1 [a0 , a1 , . . . , an , an+1 ] = a0 , a1 , . . . , an + . an+1 Mit der Rekursionsformel für die pn , qn ergibt sich dies als 1 pn−1 + pn−2 an + an+1 (an+1 an + 1)pn−1 + an+1 pn−2 = 1 (an+1 an + 1)qn−1 + an+1 qn−2 an + an+1 qn−1 + qn−2 = an+1 pn + pn−1 pn+1 = , an+1 qn + qn−1 qn+1 was die Induktion abschließt. • Als einfache Anwendung dieses Satzes folgt 10. Elementare Theorie der Kettenbrüche 73 Korollar 25. Für 1 ≤ n ≤ m gilt pn qn−1 − pn−1 qn = (−1)n−1 , und pn qn−2 − pn−2 qn = (−1)n an . Beweis. Nach obigem gilt pn qn−1 − pn−1 qn = (an pn−1 + pn−2 )qn−1 − pn−1 (an qn−1 + qn−2 ) = −(pn−1 qn−2 − pn−2 qn−1 ). Wiederholen wir dieses Argument für n − 1, n − 2, . . . , 2, 1, so ergibt sich die erste Behauptung. Ähnlich pn qn−2 − pn−2 qn = (an pn−1 + pn−2 )qn−2 − pn−2 (an qn−1 + qn−2 ) = an (pn−1 qn−2 − pn−2 qn−1 ), und somit folgt die zweite Behauptung aus der ersten. • Jetzt weisen wir den Teilnennern an und somit auch dem Kettenbruch [a0 , a1 , . . .] numerische Werte zu. Wir fordern a0 ∈ Z und an ∈ N für 1 ≤ n < m, sowie am ≥ 1. Dann zeigt Satz 24, dass pn und qn ganze Zahlen für n < m sind, und die erste Behauptung von Korollar 25 impliziert ihre Teilerfremdheit. Sei jetzt α irgendeine rationale Zahl. Dann gibt es teilerfremde ganze Zahlen a und b > 0, so dass α = ab . Es folgt aus der Variation des euklidischen Algorithmus (35) angewandt auf r−1 = a und r0 = b, dass α als endlicher Kettenbruch dargestellt werden kann: rn−1 a = [a0 , a1 , a2 , . . . , am ] mit an = . b rn Diese Darstellung ist nicht eindeutig, da [a0 , a1 , a2 , . . . , am ] = [a0 , a1 , a2 , . . . , am − 1, 1]; wenn wir allerdings am ≥ 2 fordern, so ist die Darstellung eindeutig. Satz 26. Jede rationale Zahl besitzt eine Darstellung als endlicher Kettenbruch; diese Darstellung ist eindeutig, wenn der letzte Teilnenner als echt größer Eins genommen wird. Aufgabe 21. Man beweise die Formel m X (−1)n−1 pm = a0 + . qm q q n n−1 n=1 74 ERGODENTHEORIE Wir können den Algorithmus (35) zur Berechnung der Kettenbruchentwicklung von rationalen Zahlen umschreiben als α0 := α, αn = [αn ] + 1 αn+1 für n = 0, 1, . . . . (38) Setzen wir an = [αn ], so erhalten wir α = [a0 , a1 , . . . , an , αn+1 ]. Dieser Algorithmus ist der Kettenbruchalgorithmus. Ist α rational, dann bricht die Iteration nach endlich vielen Schritten ab und der Kettenbruchalgorithmus ist nichts anderes als der euklidische Algorithmus in Verkleidung. Was passiert für eine Irrationalzahl? Z.B. kommt für α = π = 3.14159 . . . a0 = [π] = 3 und a1 = [7.06251 . . .] = 7 und a2 = [15.99744 . . .] = 15 und 1 = 7.06251 . . . , π−3 1 = 15.99744 . . . , α2 = 7.06251 . . . − 7 1 . α3 = 15.99744 . . . − 15 α1 = Dies gibt π = [3, 7, 15, α3 ]. Sei jetzt α irgendeine Irrationalzahl. Dann bricht die Iteration nicht ab, da ansonsten α ja eine Darstellung als endlicher Kettenbruch hätte und somit rational wäre. Also liefert die Iteration für Irrationalzahlen eine unendliche Folge endlicher Kettenbrüche: [a0 , a1 , . . .] := lim [a0 , a1 , . . . , αm ]. m→∞ Der Grenzwert [a0 , a1 , a2 , . . .] heißt unendlicher Kettenbruch und das Erste, was wir uns zu fragen haben, ist, ob dieser unendliche Prozess konvergent ist, und wenn ja, ob der Grenzwert etwas mit α zu tun hat. Satz 27. Sei α = [a0 , a1 , . . . , an , αn+1 ] irrational mit Näherungsbrüchen Dann gilt pn (−1)n α− . = qn qn (αn+1 qn + qn−1 ) Insbesondere pn qn . pn = [a0 , a1 , a2 , . . .]. n→∞ qn α = lim Beweis. Zunächst bemerken wir, dass alle unsere Beobachtungen über endliche Kettenbrüche sich auf unendliche Kettenbrüche übertragen - insbesondere (37) und Satz 24. Eine kurze Berechnung zeigt α− αn+1 pn + pn−1 pn pn−1 qn − pn qn−1 pn . = − = qn αn+1 qn + qn−1 qn qn (αn+1 qn + qn−1 ) Korollar 25 impliziert damit die erste Behauptung. 10. Elementare Theorie der Kettenbrüche 75 Wegen an+1 ≤ αn+1 folgt ferner p 1 n α − ≤ . qn qn (an+1 qn + qn−1 ) Im Falle eines irrationalen α sind die Folgen der pn und qn jeweils streng monoton wachsend für n ≥ 2. Damit ist die Folge der Näherungsbrüche pqnn abwechselnd größer bzw. kleiner als α; die mit geradem Index n liegen links, die mit ungeradem Index rechts: p0 p2 p3 p1 < < ... < α < ... < < . q0 q2 q3 q1 Ist α irrational, dann terminiert der Kettenbruchalgorithmus nicht und die Folge der Nenner qn der Näherungsbrüche ist unbeschränkt. Also folgt aus der ersten Behauptung, dass der Abstand aufeinanderfolgender Näherungsbrüche kleiner und kleiner wird und gegen Null konvergiert. Also konvergieren die pqnn gegen den Grenzwert [a0 , a1 , . . .] und dieser Grenzwert ist gleich α. Der Satz ist damit vollständig bewiesen. • Man sieht leicht, dass die Kettenbruchentwicklung einer Irrationalzahl eindeutig ist. Dies liefert eine Möglichkeit, die Menge R der reellen Zahlen aus der Menge Q der rationalen Zahlen zu konstruieren. Ferner liefert die Kettenbruchentwicklung liefert eine Ordnung auf der reellen Achse. Gegeben zwei reelle Zahlen α = [a0 , . . . , an , αn+1 ] und α′ = [a0 , . . . , an , α′n+1 ] mit denselben ersten Teilnennern, dann folgt, dass jedes α′′ , das zwischen α und α′ liegt, eine Kettenbruchentwicklung besitzt, die mit denselben Teilnennern startet, wie die von α und α′ , nämlich: α′′ = [a0 , . . . , an , α′′n+1 ] für irgendein α′′n+1 zwischen αn+1 und α′′n+1 . Dies zeigt man mit Induktion. Satz 27 zeigt, wie wichtig Kettenbrüche in der Theorie der diophantischen Approximation sind. Es folgt unmittelbar Korollar 28. Sei α = [a0 , a1 , . . .] irrational mit Näherungsbrüuchen pqnn . Dann gilt 1 p n α − < . (39) qn an+1 qn2 Diese Aussage verschärft den klassischen Dirichletschen Approximationssatz 1: Die Folge der Näherungsbrüche approximiert α besser und besser (denn die Teilnenner wachsen streng monoton und jeder Teilnenner ist größer gleich Eins). Tatsächlich besagt der Approximationssatz von Hurwitz: Zu α ∈ R \ Q gibt es unendlich viele rationale Zahlen pq mit p ξ − < √ 1 ; (40) q 5q 2 76 ERGODENTHEORIE √ hierbei kann man 5 durch keine größere Konstante ersetzen. Für den Beweis betrachte man den am langsamsten konvergierenden Kettenbruch √ 5+1 Fn+1 = [1, 1, 1, 1, 1, . . .] = lim , n→∞ 2 Fn wobei Fn die n-te Fibonacci-Zahl bezeichne, rekursiv definiert durch F0 := 0, F1 := 1 und Fn+1 = Fn + Fn−1 für n ∈ N. Aufgabe√22. Man beweise den Hurwitzschen Approximationssatz 40; die Schranke 5 steht dabei in direktem Zusammenhang mit [1, 1, , . . .] (Hinweis: Man benutze zudem das Gesetz der besten Approximation, Satz 29 weiter unten und nicht Korollar 28). 29. Jan. 2008 Als weiteres Beispiel eines unendlichen Kettenbruches betrachten wir den Kettenbruch für π: Zunächst berechnen wir34 π = [3, 7, 15, 1, 292, 1, 1, 1, 21, 31, 14, 2, 1, 2, 2, 2, . . .]. Schneiden wir den Kettenbruch etwa vor 292 ab, so erhalten wir 355 p3 = [3, 7, 15, 1] = . 113 q3 Da a4 = 292 im Vergleich zu q3 = 113, ist dies eine exzellente Approximation: 1 355 −π < = 0.00000 02682 . . . , 0< 113 292 · 1132 wie bereits der chinesische Mathematiker Tsu Chung Chi ca. 500 n. Chr. wußte. Ausserdem folgt, dass der nächste Näherungsbruch einen extrem großen Nenner besitzt, denn q4 = a4 q3 + q2 = 292 · 113 + 106 = 33 102. Die Folge der ersten Näherungsbrüche ist identisch mit den best möglichen rationalen Approximationen an π: 333 1 03993 355 22 3 < < < ... < π < ... < < . 1 106 33102 113 7 Diese Beobachtung ist kein Wunder wie Lagrange 1770 bewiesen hat. Satz 29. Sei α irgendeine reelle Zahl mit Näherungsbrüchen pqnn . Ist n ≥ 2 und sind p, q natürliche Zahlen mit 0 < q ≤ qn und pq 6= pqnn , so gilt |qn α − pn | < |qα − p|. 34Bislang kennt man kein Muster in der regulären Kettenbruchentwicklung von π, übrigens im Gegensatz zu e = exp(1) = [2, 1, 2, 1, 1, 4, 1, . . . , 1, 2n, 1, . . .] – die Schreibweise erklärt sich hier von selbst. 10. Elementare Theorie der Kettenbrüche 77 Dies ist das sogenannte Gesetz der besten Approximation und zeigt, dass man grundsätzlich nicht besser mit rationalen Zahlen approximieren kann, als durch die Näherungsbrüche der Kettenbruchentwicklung. Beweis. Wir nehmen an, dass p und q teilerfremd sind. Wegen |qn α − pn | < |qn−1 α − pn−1 | genügt es die Behauptung unter der Annahme qn−1 < q ≤ qn zu zeigen; die volle Aussage ergibt sich dann per Induktion. Gilt q = qn , so ist p 6= pn und p pn − ≥ 1. q qn qn Allerdings gilt 1 1 p n α − ≤ < qn qn qn+1 2qn nach Satz 27 und qn+1 ≥ 3 (denn n ≥ 2). Mit der Dreiecksungleichung folgt α − p ≥ p − pn − α − pn > 1 > α − pn , q q qn qn 2qn qn was die zu beweisende Ungleichung nach Multiplikation mit q = qn liefert. Angenommen qn−1 < q < qn . Nach Satz 25 besitzt das lineare Gleichungssystem pn X + pn−1 Y = p und qn X + qn−1 Y = q die eindeutige Lösung x= pqn−1 − qpn−1 = ±(pqn−1 − qpn−1 ) pn qn−1 − pn−1 qn und y= pqn − qpn = ±(pqn − qpn ). pn qn−1 − pn−1 qn Damit sind x und y von Null verschiedene ganze Zahlen. Offensichtlich haben x und y unterschiedliches Vorzeichen und damit qn α − pn und qn−1 α − pn−1 ebenso. Also besitzen x(qn α − pn ) und y(qn−1 α − pn−1 ) dasselbe Vorzeichen. Wegen qα − p = x(qn α − pn ) + y(qn−1 α − pn−1 ) folgt |qα − p| > |qn−1 α − pn−1 | > |qn α − pn |, was zu zeigen war. • 78 ERGODENTHEORIE 11. Metrische Theorie der Kettenbrüche In einem Brief an Laplace vom 30. Januar 1812 beschreibt Gauss ein ’seltsames Problem’, das ihn zu dieser Zeit bereits zwölf Jahre beschäftigte und er bis dato nicht zu seiner Zufriedenheit lösen konnte. Hier ist sein Problem: Sei 0 ≤ ξ ≤ 1 und mn (ξ) die Wahrscheinlichkeit, dass eine reelle Zahl α = [0, a1 , a2 , . . . , an , αn+1 ] ∈ [0, 1) der Ungleichung 1 αn+1 <ξ genügt. Es ist klar, dass m0 (ξ) = ξ gilt und, dass mn+1 von mn abhängt. Man kann davon ausgehen, dass Gauss ferner die Identität ∞ X 1 ) mn+1 (ξ) = mn ( k1 ) − mn ( k+ξ k=1 kannte. Gauss schrieb nämlich, dass er einen einfachen Beweis für lim mn (ξ) = n→∞ log(1 + ξ) log 2 (41) hatte und, dass dieser Grenzwert die Funktionalgleichung m(ξ) = ∞ X 1 ) m( k1 ) − m( k+ξ k=1 mit zusätzlich m(0) = 0 und m(1) = 1 erfülle. Er konnte allerdings nicht die Differenz mn (ξ) − log(1+ξ) log 2 , also die Abweichung vom Grenzwert oder der Fehlerterm der Asymptotik für große n beschreiben. Mehr als ein Jahrhundert später gelang R.O. Kusmin (Sur un problem de Gauss, Atti Congr. Itern. Bologne 6 (1928), 83-89) die Lösung des Gaussschen Problems (incl. eines ersten publizierten Beweises von (41)) durch die Angabe eines expliziten Fehlerterms; diesen verbesserte P. Lévy (Sur les lois de probabilité dont dépendent les quotients complets et incomplets d’une fraction continue, Bull. Soc. Math. France 57 (1929), 178-194) zu mn (ξ) = log(1 + ξ) + O(q n ) log 2 für ein q ∈ (0, 0.76); die schärfste Abschätzung gelang E. Wirsing (On the theorem of Gauss-Kusmin-Lévy and a Frobenius-type theorem for function spaces, Acta Arith. 24 (1973/74), 507-528). Dieses Ergebnis ist dann auch in der Literatur bekannt als Satz von Gauss–Kusmin–Lévy. Mit diesem wichtigen Ergebnis als Werkzeug gewannen Lévy und Kchintchine kurz darauf interessante Ergebnisse über die Statistik von Kettenbrüchen, wie 11. Metrische Theorie der Kettenbrüche 79 etwa, dass für fast alle Kettenbrüche [0, a1 , a2 , . . .] die Konvergenz ! N1 log k N ∞ Y Y log 2 1 an lim = 1+ 2 N →∞ k +k n=1 (42) k=1 besteht. Diese fast sichere Asymptotik für das arithmetische Mittel (und noch einiges mehr) werden wir weiter unten mit Hilfe von Ergodentheorie (und ohne den tiefen Satz von Gauss–Kusmin–Lévy) beweisen. Während die Ansätze von Khintchine und Lévy ursprünglich probabilistischer Natur waren, entdeckten 1940 W. Doeblin35 und 1951 (unabhängig?) RyllNardzewski, dass ein ergodisches System hinter der schwierigen Arithmetik von Kettenbrüchen steht. Die Kettenbruchabbildung (oder auch Gauss-Abbildung) T : [0, 1) → [0, 1) ist definiert durch 1 mod 1 für 0 < x < 1 x undT 0 = 0; wir hätten natürlich für 0 < x < 1 stattdessen auch T x = 1 1 1 n x − x = { x } schreiben können. Offensichtlich gilt T x = 0 für ein n, wenn Tx = 1 1 y y 0 0 0 1 x 0 1 x Abbildung 10. Die Kettenbruchabbildung: links der Graph der Transformation, rechts der Graph der Dichte. und nur wenn x rational ist, was sofort aus dem vorigen Kapitel folgt, denn es gilt T [0, a1 , a2 , . . .] = [a1 , a2 , a3 , . . .] mod 1 = [0, a2 , a3 , . . .]. (43) 35Walter Doeblin, Schüler von Lévy und Sohn des bekannten Schriftstellers Alfred Doeblin (Berlin Alexanderplatz). Von Doeblins mathematischen Werk war bis vor kurzem nichts bekannt — sein mathematisches Testament lag fast sechzig Jahre ungeöffnet in einer Pariser Universität; hierunter sind wichtige Entdeckungen über die Brownsche Bewegung und stochastische Analysis, die erst Jahre später von Ito und Doob gefunden wurden. M. Petits Roman ’Die verlorene Gleichung’ gibt einen Abriss seines kurzen Lebens, dass mit seinem Selbstmord in den Wirren des zweiten Weltkrieges tragisch endete. 80 ERGODENTHEORIE Für unsere ergodentheoretische Maschinerie ist es von entscheidender Bedeutung ein Maß zu finden, bzgl. dessen T maßtreu ist. Dies ist im Allgemeinen – und auch hier im Speziellen – keine einfache Aufgabe (siehe Übungsaufgabe 7). Aufgabe 23. Man zeige, dass die Abbildung T nicht maßtreu bzgl. des Lebesgue-Maßes ist. Hier kommt die Lösung: Das Gauss-Maß µ ist für Lebesgue-meßbare Mengen A definiert durch Z dx 1 . µ(A) = log 2 A 1 + x Offensichtlich ist µ ein Wahrscheinlichkeitsmaß auf [0, 1). Als Grundlage unseres ergodentheoretischen Ansatzes beweisen wir zunächst, dass die Kettenbruchabbildung T maßtreu bzgl. des Gauss-Maßes µ ist. Es genügt zu zeigen, dass µ(T −1 (0, ξ)) = µ((0, ξ)) bzw. Z Z dx dx = T −1 (0,ξ) 1 + x (0,ξ) 1 + x für jedes ξ ∈ [0, 1) gilt. Dazu bemerken wir ∞ [ 1 1 −1 T (0, ξ) = , , n+ξ n n=1 wobei die rechte Seite wegen 0 ≤ ξ < 1 eine disjunkte Vereinigung ist. Wegen Z 1/n 1 1 dx = log 1 + − log 1 + n n+ξ 1/(n+ξ) 1 + x folgt damit Z T −1 (0,ξ) dx 1+x ∞ Z X 1/n dx 1+x n=1 1/(n+ξ) ∞ X 1 1 − log 1 + = log 1 + n n+ξ = n=1 (die auftretenden Reihen sind offensichtlich konvergent). Wegen 1 + n1 1 + nξ n+1 n+ξ = 1 = ξ n n+1+ξ 1 + n+ξ 1 + n+1 können wir die Reihe in (44) ersetzen durch ∞ X ξ ξ log 1 + − log 1 + . n n+1 n=1 (44) 11. Metrische Theorie der Kettenbrüche 81 Lesen wir nun alles rückwärts, so ergibt sich Z Z ξ ∞ Z ξ/n X dx dx dx = = , 1 + x 1 + x 1 +x T −1 (0,ξ) 0 n=1 ξ/(n+1) was zu zeigen war. Die Abbildung T ist also maßtreu bzgl. µ. Als Nächstes wollen wir zeigen, dass µ ergodisch ist, was leider etwas aufwendiger ist. Dazu definieren wir für irgendwelche natürlichen Zahlen aj zunächst die Mengen ∆n := ∆n (a1 , . . . , an ) := {x = [0, a1 (x), a2 (x), . . .] ∈ [0, 1) : a1 (x) = a1 , . . . , an (x) = an }. Diese Mengen bestehen also aus den x des Einheitsintervalls, deren Teilnenner aj (x) mit den vorgegebenen Werten aj für j = 1, . . . , n übereinstimmen, z.B. 1 1 1 , 1 , ∆1 (n) = , für n ≥ 2. ∆1 (1) = 2 n+1 n Tatsächlich sind die Mengen ∆n halboffene Intervalle mit Endpunkten pn pn + pn−1 und qn qn + qn−1 ist; dies folgt unmittelbar mit der bijektiven Abbildung pn + tpn−1 = [0, a1 , . . . , an + t] [0, 1] ∋ t 7→ qn + tqn−1 (und unseren Beobachtungen zu Kettenbrüchen aus dem vorigen Kapitel). Sei D die Menge aller Intervalle ∆n (mit allen möglichen Ingredienzen a1 , . . . , an ∈ N und allen n ∈ N). Dann geben die Endpunkte all dieser ∆n genau die Menge der rationalen Zahlen im Einheitsintervall [0, 1). Insofern haben wir mit D eine abzählbare Familie von halb-offenen Intervallen gefunden, die einerseits viel mit Kettenbrüchen zu tun haben, und ausserdem die so wichtige Borelsche σ-Algebra erzeugen. Ferner berechnet sich mit Hilfe von Korollar 25 das Lebesgue-Maß der ∆n als 1 (45) λ(∆n (a1 , . . . , an )) = qn (qn + qn−1 ) besitzt. Ferner folgt für 0 ≤ a < b ≤ 1, dass entweder pn + apn−1 pn + bpn−1 , {x : a ≤ T n x ≤ b} ∩ ∆n = (46) qn + aqn−1 qn + bqn−1 oder pn + bpn−1 pn + apn−1 , {x : a ≤ T x ≤ b} ∩ ∆n = qn + bqn−1 qn + aqn−1 je nachdem, ob n gerade oder ungerade ist. Hierbei gilt n {x : a ≤ T n x ≤ b} = T −n [a, b) , (47) 82 ERGODENTHEORIE und auch λ(T −n [a, b) ∩ ∆n ) = λ([a, b))λ(∆n ) qn (qn + qn−1 ) . (qn + aqn−1 )(qn + bqn−1 ) (48) Diese Rechnungen sind allesamt technischer Natur und wir überlassen ihren Nachweis dem geneigten Leser als Aufgabe 24. Man beweise die Aussagen (45)-(48). Mit der Monotonie einer jeden Folge der qn gilt 1 qn qn (qn + qn−1 ) qn (qn + qn−1 ) < < < < 2. 2 qn + qn−1 (qn + aqn−1 )(qn + bqn−1 ) qn2 Nun folgt aus (48) sofort für irgendein Intervall I ⊂ [0, 1) die Ungleichung 1 λ(I)λ(∆n ) < λ(T −n I ∩ ∆n ) < 2λ(I)λ(∆n ). 2 Dieselbe Ungleichungskette gilt natürlich auch, wenn wir I durch eine beliebige endliche disjunkte Vereinigung A von solchen Intervallen ersetzen: 1 λ(A)λ(∆n ) < λ(T −n A ∩ ∆n ) < 2λ(A)λ(∆n ). (49) 2 Die Menge solcher endlicher disjunkter Vereinigungen A von Intervallen erzeugt die Borelsche σ-Algebra. Somit gilt (49) auch für jede Borel-Menge und insbesondere für jede Lebesgue-meßbare Menge A. Natürlich geht es uns um das Gauss-Maß µ, welches wir nun ins Spiel bringen. Es ist 1 1 1 1 ≤ < für 0 ≤ x < 1. 2 log 2 log 2 1 + x log 2 Durch diesen Vergleich der Dichten von λ und µ gelten für jedes Lebesguemeßbare A die Ungleichungen 1 1 λ(A) ≤ µ(A) < λ(A). 2 log 2 log 2 (50) Jetzt benutzen wir die obigen Ungleichungen, um uns von den auftretenden Lebesgue-Maßen zu lösen. Es folgt aus (49) und (50) log 2 µ(A)µ(∆n ). (51) 4 Nun haben wir alle Vorbereitungen getroffen, den folgenden wichtigen Satz zu beweisen: µ(T −n A ∩ ∆n ) > 5. Feb. 2008 Satz 30. Die Kettenbruchabbildung T ist eine maß-erhaltende, ergodische Transformation auf dem Wahrscheinlichkeitsraum ([0, 1), L, µ), wobei L die Familie der Lebesgue-meßbaren Mengen von [0, 1) ist und µ das GaussMaß µ. Damit ist ([0, 1), L, µ, T ) ein ergodisches dynamisches System. 11. Metrische Theorie der Kettenbrüche 83 Beweis. Die Maßtreue von T bzgl. µ haben wir bereits gezeigt, so dass also lediglich noch der Nachweis der Ergodizität zu erbringen ist. Gegeben eine Lebesgue-Menge B positiven Maßes. Angenommen, das Komplement von B hätte positives Maß, dann besitzt B eine Darstellung als disjunkte Vereinigung B = E ∪ F , wobei E eine Borel-Menge vom Maß µ(E) = µ(B) und F eine Nullmenge ist (siehe hierzu etwa Elstrodt, Maß- und Integrationstheorie, Springer). Mit dem Komplement von B besitzt dann auch das Komplement E c von E positives Maß. Zu jedem ǫ > 0 existiert dann eine Menge Gǫ , die eine Darstellung als endliche disjunkte Vereinigung unserer offenen Intervalle ∆n aus D besitzt, und eine kleine symmetrische Differenz mit E c hat: µ(E c ∆Gǫ ) < ǫ (sie also gewissermaßen approximiert). Nun gilt nach (51) die Abschätzung µ(E ∩ Gǫ ) ≥ γµ(Gǫ ) mit γ= log 2 µ(B). 4 Und nach Konstruktion ergibt sich damit µ(E c ∆Gǫ ) ≥ µ(E ∩ Gǫ ) ≥ γµ(Gǫ ) ≥ γµ(E c ∩ Gǫ ) > γ(µ(E c ) − ǫ), was auf γ(µ(E c ) − ǫ) < µ(E c ∆Gǫ ) < ǫ führt. Dies gibt die Ungleichung γµ(E c ) < ǫ + ǫγ, welche für hinreichend kleines ǫ > 0 unmöglich ist. Also haben wir einen Widerspruch und somit µ(B) = 1. Der Satz ist bewiesen. • In unserem Beweis haben wir das Lemma von Knopp benutzt (incl. seines Beweises): Gegeben ein Wahrscheinlichkeitsraum ([0, 1), F, λ). Ist B eine Lebesgue-meßbare Menge und C eine Klasse von Teilintervallen von [0, 1) mit den Eigenschaften: • Jedes offene Teilintervall von [0, 1) ist darstellbar als eine abzählbare Vereinigung disjunkter Elemente von C; • für alle A ∈ C gilt λ(A ∩ B) ≥ γλ(A) mit einer positiven, von A unabhängigen Konstanten γ. Dann gilt λ(B) = 1. Dieses Ergodizitätskriterium ist sehr wichtig und hilfreich in der Praxis. Aufgabe 25. Man gebe einen Beweis des Knoppschen Lemmas in seiner vollen Allgemeinheit. (Hilfestellung gibt [3].) Jetzt lassen wir unsere Maschinerie auf das ergodische dynamische System ([0, 1), L, µ, T ) los, um einige erstaunliche Resultate über die Statistik von Kettenbruchentwicklungen zu gewinnen. Wir starten mit einer fast sicheren Asymptotiken für einige Mittelwerten für die Teilnenner (wie etwa (42)). A. 84 ERGODENTHEORIE Khintchine, Metrische Kettenbruchtheorie, Compositio Math. 1 (1935), 361-382, bewies: Satz 31. Für fast alle x = [0, a1 , a2 , . . .] ∈ [0, 1) gilt: (i) Die natürliche Zahl k ∈ N tritt in der Folge der Teilnenner an mit der asymptotischen Dichte 1 1 1 lim ♯{1 ≤ n ≤ N : an = k} = log 1 + . N →∞ N log 2 k(k + 2) (ii) Für das geometrische Mittel der Teilnenner gilt N 1 X an = +∞. lim N →∞ N n=1 (iii) Für das arithmetische Mittel gilt lim N →∞ N Y n=1 an ! N1 = ∞ Y k=1 1 1+ k(k + 2) log k log 2 . Nach (i) tritt also der Teilnenner 1 bei fast allen x aus dem Einheitsintervall 4/3 mit einer Häufigkeit von ungefähr log log 2 ≈ 41.50 . . . Prozent auf, hingegen der Teilnenner 2 nur mit ungefähr log 9/8 log 2 ≈ 16.99 . . . Prozent. 1.5 3 40 1 2 20 0.5 1 0 0 1000 n 0 0 0 1000 0 n 1000 n Abbildung 11. Die langsame Konvergenz des geometrischen Mittels (links) und des arithmetischen Mittels (Mitte) der Teilnenner, sowie schließlich log qn /n (rechts) bei n → ∞ im Falle x = π − 3. Beweis. Wir schreiben auch x = [0, a1 (x), a2 (x), . . .]. Dann gilt a1 (x) = [ x1 ] = [T x] bzw. a2 (x) = a1 (T x) nach (43), woraus sich an (x) = a1 (T n−1 x) 1 , k1 ] gilt a1 (ξ) = k für n ≥ 2 ableitet. Mit unseren Intervallen ∆k := ( k+1 genau für {ξ} ∈ ∆k und damit also an (x) = k ⇐⇒ a1 (T n−1 x) = k ⇐⇒ T n x ∈ ∆k . (52) 11. Metrische Theorie der Kettenbrüche 85 Die Folge der Teilnenner der Kettenbruchentwicklung x = [0, a1 (x), a2 (x), . . .] steht also in eindeutigem Zusammenhang mit den Bildern der Iterierten Kettenbruchabbildung T n in den Intervallen ∆k . Jetzt geht’s los: Für die erste Behauptung bemühen wir den Birkhoffschen Ergodensatz 11 für die nach Satz 30 ergodische Kettenbruchabbildung T mit der charakteristischen Funktion f = χ∆k . Wir erhalten Z 1 1 X n lim χ∆k (T x) = χ∆k dµ = µ(∆k ); N →∞ N 0 0≤n<N dieses letzte Integral berechnet sich als Z 1/k dx 1 1 1 = log 1 + − log 1 + log 2 k k+1 1/(k+1) 1 + x = k+1k+1 1 log , log 2 k k+2 also schließlich der in (i) auftretende Wert. Da hier χ∆k (T n x) = 1 nach (52) genau für an = k gilt, ist (i) bewiesen. Die zweite Behauptung ergibt sich ähnlich mit der Treppenfunktion R1 f (x) = [ x1 ] = a1 (x). In diesem Fall ist das Integral 0 f dµ offensichtlich bestimmt divergent gegen Unendlich. Für (iii) betrachten wir die Treppenfunktion f (x) = log a1 (x), die wir wegen (52) auch als f (x) = log k für x ∈ ∆k darstellen können. Es gilt Z 1 ∞ ∞ X X log k , f (x) dx = µ(∆k ) log k ≤ k2 0 k=1 was auch die Konvergenz von R1 0 k=1 f dµ impliziert, da 1 1 dµ = ≪1 dx log 2 1 + x für x ∈ [0, 1). Der Ergodensatz 11 liefert also 1 lim N →∞ N X log an = 0≤n<N Z 1 f (x) dµ(x) 0 Das Integral rechts berechnet sich leicht als Z 1 Z ∞ X log k 1/k dx f (x) dµ(x) = log 2 1/(k+1) 1 + x 0 k=1 ∞ X log k 1 = log 1 + ; log 2 k(k + 2) k=1 86 ERGODENTHEORIE log k hierin wachsen die Summanden asymptotisch wie k(k+2) bei k → ∞, womit also die auftretende unendliche Reihe und damit auch das uneigentliche Integral konvergieren. Für das arithmetische Mittel folgt entsprechend ! N1 Z 1 N Y f (x) dµ(x) = exp lim an N →∞ 0 n=1 = exp ∞ X log k k=1 1 log 1 + log 2 k(k + 2) ! , was genau den Grenzwert in (iii) gibt. Der Satz ist bewiesen. • Für N → ∞ konvergiert der fast sichere Grenzwert für das arithmetische Mittel gegen die so genannte Khintchine-Konstante log k ∞ Y log 2 √ 1 N a1 a2 · . . . · aN −→ 1+ = 2.68545 20010 . . . . k(k + 2) k=1 Wir diskutieren kurz einige spezielle Kettenbrüche und die Mittelwerte ihrer Teilnenner. Die Eulersche Zahl besitzt eine regelmäßige Kettenbruchentwicklung: e = exp(1) = [2, 1, 2, 1, 1, 4, 1, 1, 6, 1, . . . , 1, 2n, 1, . . .] (einen Beweis findet man etwa in [11]). Hier wächst das geometrische Mittel der Teilnenner gemäß a1 +a2 +. . .+aN ∼ 91 N , während für das arithmetische Mittel r 2 √ 2N 3 N 2 N a1 a2 · . . . · aN ∼ N! ∼ 3 3e gilt, also im letzten Falle ein abweichendes Verhalten. Für π hingegen legen Computerexperimente ein reguläres Verhalten im Sinne des Khintchineschen Satzes nahe. Nach einem klassischen Satz von Lagrange besitzen genau die quadratischen Irrationalzahlen (also die Nullstellen irreduzibler quadratischer Polynome mit ganzzahligen Koeffizienten) eine schließlich periodische Kettenbruchentwicklung (siehe [11]). Als Beispiel mögen hier etwa √ √ √ 5+1 3+1 = [1, 1, 1, 1, . . .], = [1, 2, 1, 2, . . .] 2 = [1, 2, 2, 2, . . .], 2 2 dienen. Insbesondere sind die Teilnennerfolgen quadratischer Irrationalitäten beschränkt. √ Tatsächlich weiß man nicht, ob z.B. kubische Irrationalzahlen – wie etwa 3 2 – oder algebraische Irrationalitäten höheren Grades eine unbeschränkte Teilnennerfolge besitzen oder nicht. Aufgabe 26. Man berechne für einige quadratische und kubische Irrationalitäten die ersten Teilnenner und versuche das Grenzwertverhalten der 11. Metrische Theorie der Kettenbrüche 87 geometrischen und arithmetischen Mittelwerte ihrer Teilnennerfolge zu prognostizieren. Ist die Konvergenz im Falle quadratischer Irrationalitäten sicher? Wenn ja, versuche man dies zu beweisen und den Grenzwert exakt zu bestimmen. Der Birkhoffsche Ergodensatz erlaubt viele weitere fast sichere Asymptotiken für die Teilnennerfolgen. Aufgabe 27. Man beweise: Für fast alle x = [0, a1 , a2 , . . .] gilt lim N →∞ 1 a1 N + ... + 1 aN = 1.74540 . . . . Als Nächstes untersuchen wir die Folge der Nenner qn der Näherungsbrüche. Insbesondere ihr Wachstumsverhalten qn → ∞ erlaubt einige interessante Aussagen über das Approximationsverhalten. Hier gilt nach P. Lévy (Sur les lois de probabilité dont dépendent les quotients complets et incomplets d’une fraction continue, Bull. Soc. Math. France 57 (1929), 178-194): Satz 32. Es bezeichne x ∈ [0, 1) gilt pn (x) qn (x) den n-ten Näherungsbruch an x. Für fast alle 1 π2 log qn (x) = n→∞ n 12 log 2 lim und −π 2 p 1 n . lim log x − = n→∞ n qn 6 log 2 Beweis. Wegen pm (x) qm (x) = 1 1 = p m−1 (T x) a1 + [0, a2 , a3 , . . . , am ] a1 + qm−1 (T x) = qm−1 (T x) , pm−1 (T x) + a1 qm−1 (T x) (53) (54) folgt pm (x) = qm−1 (T x) für m ∈ N (denn die Näherungsbrüche sind als beste Approximationen gekürzt). Damit gilt 1 qn (x) = = pn (x) 1 p2 (T n−2 x) · ... · qn (x) qn−1 (T x) q1 (T n−1 x) p1 (T n−1 x) pn (x) pn−1 (T x) · ... · . qn (x) qn−1 (T x) q1 (T n−1 x) Logarithmieren liefert also − log qn (x) = X 0≤j<n log pn−j (T j x) . qn−j (T j x) 88 ERGODENTHEORIE Nun approximieren die pn (x) qn (x) die Zahl x und deshalb schreiben wir 1 1 X 1 log(T j x) + Rn (x) − log qn (x) = n n n (55) 0≤j<n mit einem Fehlerterm Rn (x) = X 0≤j<n pn−j (T j x) j − log(T x) . log qn−j (T j x) Zunächst schätzen wir den Fehler Rn (x) ab. Wir erinnern uns, dass x in p +pk−1 einem Intervall ∆k mit Endpunkten pqkk und qkk +qk−1 liegt. Insbesondere folgt mit Satz 27 und dem Mittelwertsatz der Integralrechnung bei geradem k, dass Z x pk du 0 < log x − log = qk pk /qk u qk 1 1 pk 1 ≤ < = x− qk ξ qk (qk + qk−1 ) pk qk mit einem ξ ∈ ( pqkk , x). Ähnlich zeigt sich pk 1 < log x − log qk qk für ungerades k. Bezeichnet wie üblich Fk die k-te Fibonacci-Zahl (siehe letztes Kapitel), so folgt mit deren rekursiven Definition die Abschätzung qk (x) √ ≥ Fk (wobei Gleichheit genau im Falle des goldenen Schnittes x = 1 5 + 1) auftritt), so folgt ( 2 n X 1 , |Rn (x)| ≤ Fk k=1 was sich mit Hilfe der Binetschen Formel36 1 Fk = √ (Gk − (−1)k G−k ) 5 mit √ 5+1 G := 2 (56) leicht gegen eine konvergente geometrische Reihe abschätzen lässt: |Rn (x)| < Insbesondere folgt ∞ ∞ X X 1 G−k < +∞. < Fk k=1 k=1 1 Rn (x) = 0 n für alle x. Damit kann der Fehlerterm Rn (x) in (55) vernachlässigt werden. lim n→∞ 36Der Beweis derselben ist eine einfache Induktion. 11. Metrische Theorie der Kettenbrüche 89 Existiert also der Grenzwert n 1X log(T n−j x), n→∞ n lim (57) j=1 so auch − limn→∞ n1 log qn (x) und beide Werte stimmen überein. Der Ausdruck (57) lässt sich mit dem Birkhoffschen Ergodensatz auswerten und wir erhalten für fast alle x Z 1 n log x π2 1X log(T j x) = dx = − (58) lim n→∞ n 6 0 1+x j=1 Es verbleibt also lediglich noch das auftretende Integral zu berechnen. Hierzu benötigen wir zwei wichtige Funktionen. Einerseits die Riemannsche Zetafunktion, gegeben durch die für s > 1 konvergente ReihenP 1 darstellung ζ(s) = ∞ n=1 ns . Tatsächlich gilt (wie man leicht sieht) ferner die Darstellung ∞ X (−1)n ζ(s) = (1 − 21−s ) ns n=1 für alle komplexen s mit positivem Realteil, abgesehen von s = 1, denn für diesen Wert besitzt ζ(s) einen einfachen Pol (harmonische Reihe).37 Zweitens benötigen wir die Gamma-Funktion, für komplexe s mit positivem Realteil definiert durch das Integral Z ∞ y s−1 exp(−y) dy. Γ(s) = 0 Dann gilt n bzw. ∞ X (−1)n n=1 ns −s Γ(s) = Γ(s) = Z Z ∞ ∞ us−1 exp(−nu) du 0 ∞ X us−1 0 ! (−1)n exp(−nu) n=1 du; hier ist das Vertauschen von Summation und Integration auf Grund der gleichmässigen Konvergenz erlaubt. Mit u = − log x und ∞ X (−1)n exp(−nu) = (−1)n xn = x n=1 n=1 folgt ∞ X 1−s (1 − 2 )ζ(s)Γ(s) = Z 1 0 (− log x)s 1 1+x dx 1+x 37Tatsächlich ist dieser einzige Pol für die Zahlentheorie sehr wichtig und letztlich verantwortlich für die Asymptotik im Primzahlsatz verantwortlich. 90 ERGODENTHEORIE und insbesondere Z 1 dx 1 = ζ(2). 1+x 2 0 Weiter mit Eulers berühmter Formel (− log x) ζ(2) = 1 + 1 1 π2 1 + + + . . . = 22 32 42 6 (59) (dies zeigt man z.B. mit der Produktentwicklung des Sinus oder FourierAnalysis) ergibt sich jetzt (58). Damit folgt (53) nun aus (55). Nach Satz 27 ist 1 1 pn < x − < . 2qn qn+1 qn qn qn+1 Mit dem bereits Bewiesenen in Gestalt von (53) ergibt sich nun auch leicht (54). Der Satz ist bewiesen. • Aufgabe 28. Man schließe alle Lücken, wie etwa die Binetsche Formel (56) oder Eulers Formel (59) über die Summe der Reziproken Quadrate (oder auch der Schluss von (53) auf (54)). Tatsächlich weiss man einiges Interessantes über den Lëvysche Satz hinaus. W. Philipp & O.P. Stackelberg, Zwei Gesetze für Kettenbrüche, Math. Ann. 181 (1969), 152-156, zeigten genauer 2 | log qn (x) − 12nπ log 2 | =1 lim sup p n→∞ 2σ 2 n log log n für fast alle x ∈ [0, 1), wobei 2 Z 1 1 dx nπ 2 2 σ = lim log qn (x) − n→∞ n 0 12 log 2 (log 2)(1 + x) eine positive Konstante ist. Ein weiteres Resultat von W. Philipp (Mixing sequences of random variables and probabilistic number theory, Memoirs Amer. Math. Soc. 114, 1971) zeigt eine Gausssche Normalverteilung auf: Mit Z 1 dx π2 1 2 σ := lim log qN (x) − N N →∞ N log 2 0 12 log 2 1 + x besteht der Grenzwert 2 log qN (x) − N 12πlog 2 √ <z lim µ x ∈ [0, 1] : N →∞ σ N ! 1 =√ 2π Z z −∞ exp(− 12 u2 ) du, wobei µ irgendein bzgl. des Lebesgue-Maßes absolut stetiges Wahrscheinlichkeitsmaß ist. In diesem Zusammenhang ist dann auch das folgende Gesetz 13. Worüber wir nicht gesprochen haben... 91 vom iterierten Logarithmus nicht weiter verwunderlich: Für fast alle x π2 12 log 2 log qN (x) − N σ√N lim sup p = 1. N →∞ 2σ 2 N log log N Erwähnenswert sind auch die Untersuchungen von C. Faivre (Distribution of Lévy constants for quadratic numbers, Acta Arith. 61 (1992), 13-34) für quadratische Irrationalzahlen x. In diesem Fall konvergiert die Folge 1 n log qn (x) stets (was mit der speziellen, nämlich schließlich periodischen Kettenbruchentwicklung zusammenhängt) und ihr Grenzwert β(x) ist die so genannte Lévy-Konstante. Hier stellen sich Fragen wie: Was für Grenzwerte kommen für β(x) in Frage? In unseren metrischen Untersuchungen haben wir die Gausssche Grenzwertformel (41) gar nicht benötigt; sie übersetzt sich zu lim λ(T −n [0, ξ]) = µ([0, ξ]). n→∞ Wer sich trotzdem für den Beweis interessiert, sei auf die Monographie A.M. Rockett, P. Szüsz, Continued fractions, World Scientific 1992, verwiesen, wo sogar der Satz von Gauss–Kusmin–Lévy mit explizitem Fehlerterm bewiesen wird. Weitere tiefe Ergebnisse zur metrischen Kettenbruchtheorie (wie etwa der Beweis der Doeblin–Lenstra–Vermutung durch Bosma, Jager und Wiedijk) findet man in [3]. Hier finden sich auch andere Erscheiningsformen von Kettenbrüchen mit ihrer eigenen Ergodentheorie. Das Buch F. Schweiger, Multidimensional continued fractions, Oxford 2000, behandelt höherdimensionale Kettenbrüche. 12. Worüber wir nicht gesprochen haben... Was kam zu kurz? Vieles! Fangen wir mit der Liste unserer Auslassungen gleich mit unserem letzten Thema, der metrischen diophantischen Approximationstheorie. Es sei hti das Minimum einer reellen Zahl zur nächsten ganzen Zahl, also hti = min{|t − z| : z ∈ Z}. Die Theorie der Kettenbrüche lehrt, dass zu jedem x ∈ R eine Folge (qm ) natürlicher Zahlen mit qm → ∞ und qm hqm xi < 1 existiert. Littlewood vermutete, dass lim inf nhnxihnyi = 0 n→∞ für alle x, y ∈ R. M. Einsiedler, A. Katok & E. Lindenstrauss (Invariant measures and the set of exceptions to Littlewood’s conjecture, Ann. of Math. 164 (2005), 513-560) bewiesen, dass dies tatsächlich fast immer der Fall ist: Die Hausdorff-Dimension der Menge der Paare (x, y) ∈ R2 mit dieser Eigenschaft ist gleich Null. Auch zu kurz gekommen sind die Anwendungen 92 ERGODENTHEORIE der Ergodentheorie auf diophantische Gleichungen, also (in ihrer einfachsten Form) polynomielle Gleichungen über Q, di in ganzen oder rationalen Zahlen zu lösen sind. Margulis bewies 1986 die Oppenheim-Vermutung (1929): Sei Q eine indefinite quadratische Form in n ≥ 3 Variablen, die kein Vielfaches einer rationalen Form ist, dann ist Q(Zn ) dicht in R. Unsere Akzente haben wir in arithmetischen Anwendungen gesetzt. Viele schöne und aktuelle Themen der Zahlentheorie, die hier trotzdem zu kurz oder gar nicht behandelt wurden, werden in der Sammlung Equidistribution in Number Theory, an introduction, herausgegeben von A. Granville und Z. Rudnick (Nato Science Series, vol. 237, Springer 2005), behandelt, etwa Quantum-Gleichverteilung, Verteilung von Punkten auf Varietäten, . . .. Vieles, wenn nicht gar alles, was wir gemacht haben, lässt sich auch in der Sprache der Stochastik formulieren. Zum Beispiel wird hier Ergodizität auch in der Zeitreihenanalyse benutzt. Für die statistische Inferenz mit Zeitreihen müssen Annahmen getroffen werden (weil in der Praxis oft nur eine Realisierung des die Zeitreihe generierenden Prozesses vorliegt). Die Annahme der Ergodizität bedeutet dann, dass Stichprobenmomente, die aus einer endlichen Zeitreihe gewonnen werden, für T → ∞ gegen die Momente der Grundgesamtheit konvergieren. Diese Eigenschaft lässt sich bei abhängigen Zufallsvariablen nicht empirisch nachweisen und muss daher unterstellt werden. Ein weiteres, nicht weniger spannendes Thema der Stochastik sind Irrfahrten und zufällige Prozesse. Tatsächlich kann man die Rekurrenz von Irrfahrten ergodentheoretisch behandeln (siehe etwa [9]), was in Hinblick auf den Poincaréschen Rückkehrsatz vielleicht gar nicht so verwunderlich ist. Irrfahrten auf dem Kreis werden in [7] behandelt. Ein enger Zusammenhang besteht natürlicha uch zwischen Markov-Ketten und diskreten dynamischen Systemen (insbesondere symbolischer Dynamik). Untersuchungen über ergodische Flüsse auf Mannigfaltigkeiten sind seit den fundamentalen Arbeiten von E. Hopf (Statistik der geodätischen Linien in Mannigfaltigkeiten negativer Krümmung, Ber. Verh. Sächs. Akad. Wiss. Leipzig 91 (1939), 261-304) und Asonov Gegenstand zahlreicher Arbeiten. Insbesondere strukturelle Eigenschaften der SL2 (R) bzw. allgemeiner Riemannsche Flächen negativer Krümmung spielen hier eine wichtige Rolle. Und schließlich haben wir überhaupt nicht über die wichtigen Anwendungen der Ergodentheorie für die Informationstheorie gesprochen. Dieses Gebiet hat sich seit seiner Einführung durch Shannon im Jahre 1949 als wegweisend für Anwendungen der Mathematik wie Codierungstheorie u.ä. erwiesen. Wir wollen hier nur den zentralen Begriff der Entropie erwähnt – ohne aber überhaupt seine Definition wiederzugeben. Die Entropie der 13. Worüber wir nicht gesprochen haben... Kettenbruchabbildung T aus dem letzten Kapitel ist 2 qn+1 π2 lim = exp = 10.731 . . . , 2 n→∞ qn 6 log 2 93 2 wobei wir im letzten Schritt Satz 32 in der Form qn ∼ exp( 12πlogn 2 ) verwendet haben. Dieser Entropiewert ist knapp größer als Zehn, die Entropie der Dezimalentwicklung, womit sich Kettenbrüche als Informationsträger als ein wenig effizienter als Dezimalbrüche erweisen. Dieses Schlusswort ist natürlich unbefriedigend, da wir hier nicht wirklich begründen, was Entropie tatsächlich ist, macht aber vielleicht neugierig. Das Semester ist zu Ende und es verbleibt uns an dieser Stelle nichts weiter, als auf [3, 4] zu verweisen. Inhaltsverzeichnis Literatur 1 1. Motivation: Benford und Billiard 2 2. Klassische diophantische Approximationssätze 4 3. Gleichverteilung modulo Eins und die Sätze von Weyl 7 4. Maßtreue Abbildungen 15 5. Ergodizität und Mischen 29 6. Die Ergodensätze von Birkhoff und von Neumann 34 7. Die Wiederkehrsätze von Poincaré und Kac 46 8. Arithmetische Progressionen und der Satz von van der Waerden 52 9. Normale Zahlen 63 10. Elementare Theorie der Kettenbrüche 70 11. Metrische Theorie der Kettenbrüche 78 12. Worüber wir nicht gesprochen haben... 91