Stochastik I Andrej Depperschmidt Vorlesungsskript Universität Mainz Sommersemester 2014 Version: 12. Mai 2016 Vorwort Bei diesem Skript handelt es sich um Vorlesungsnotizen, die parallel zur Vorlesung “Stochastik I” im Sommersemester 2014 an der Universität Mainz geschrieben werden. Die Liste an empfehlenswerten Büchern in denen Wahrscheinlichkeits- und Maßtheorie (sowohl auf deutsch als auch auf englisch) behandelt wird ist sehr umfangreich. Die Literaturliste enthält eine Auswahl an Büchern, die direkt für die Herstellung dieses Skriptes verwendet wurden. Bei speziellen Fragen zur Literatur bitte nachfragen! Kommentare und Hinweise auf (Tipp-)Fehler oder Unklarheiten sind sehr willkommen. Schicken Sie diese bitte an [email protected]. 2 Inhaltsverzeichnis 1 Maße und Maßräume 1.1 Mengenoperationen und Notation . . . . . . . . . . 1.2 Algebren und σ -Algebren . . . . . . . . . . . . . . . 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren . . . . 1.4 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Dynkin-Systeme . . . . . . . . . . . . . . . . . . . . 1.6 Äußere Maße . . . . . . . . . . . . . . . . . . . . . . 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen 1.8 Messbare Funktionen und Abbildungen . . . . . . . 1.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . 2 Integration 2.1 Definition des Lebesgue- oder Maßintegrals 2.2 Satz von Radon-Nikodým . . . . . . . . . . . 2.3 Produktmaße und Satz von Fubini . . . . . . 2.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Zufallsvariablen, Verteilungen und Erwartungswerte 3.1 Zufallsvariablen und ihre Verteilungen . . . . . . . . 3.2 Grundlegende Ungleichungen . . . . . . . . . . . . . 3.3 Unabhängige Ereignisse und Mengensysteme . . . . 3.4 Unabhängige Zufallsvariablen . . . . . . . . . . . . . 3.5 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Konvergenz von Zufallsvariablen . . . . . . . . . . . 3.7 Null-Eins Gesetz von Kolmogorov . . . . . . . . . . . 3.8 Starkes Gesetz der großen Zahlen . . . . . . . . . . . 3.9 Maximalungleichungen . . . . . . . . . . . . . . . . . 3.10 Reihen unabhängiger Zufallsvariablen . . . . . . . . . 3.11 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 9 11 15 20 25 32 36 41 . . . . 47 47 58 69 74 . . . . . . . . . . . 78 78 87 91 95 100 104 108 110 114 116 118 4 Schwache Konvergenz und zentraler Grenzwertsatz 4.1 Schwache Konvergenz . . . . . . . . . . . . . . . . . 4.2 Straffheit und relative Kompaktheit . . . . . . . . . . 4.3 Vertauschung von Integration und Grenzwertbildung 4.4 Charakteristische Funktionen . . . . . . . . . . . . . 4.5 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . 4.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . 5 Bedingte Wahrscheinlichkeiten und Erwartungen 5.1 Motivation und erste Beispiele . . . . . . . . . . . 5.2 Bedingte Erwartungen . . . . . . . . . . . . . . . 5.3 Eigenschaften bedingter Erwartungen . . . . . . . 5.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 122 128 130 133 141 143 . . . . 145 145 147 150 154 155 4 1 Maße und Maßräume Bereits mit Mitteln der diskreten Wahrscheinlichkeitstheorie – typischerweise ist sie Gegenstand der einführenden Stochastikvorlesungen – können viele interessante Themen behandelt werden. Dennoch reicht die diskrete Theorie für viele Fragestellungen nicht aus. Insbesondere stößt sie an ihre Grenzen, wenn es um unendliche Wiederholungen eines Zufallsexperimentes, z.B. eine unendliche Folge von Münzwürfen, oder um infinitesimal genaue Operationen, z.B. ziehen eines zufälligen Punktes eines Intervalls geht. Wir demonstrieren es an einem Beispiel. Wir betrachten n Würfe einer Münze mit Wahrscheinlichkeit p ∈ [0, 1] für Kopf und q = 1 − p für Zahl. Der zugehörige Wahrscheinlichkeitsraum ist (Ω, A, P), wobei ( ) Ω = ω = (ω1 , . . . , ωn ) : ωi ∈ {0, 1} , A = {A : A ⊂ Ω}, P({ω}) = p Pn i=1 ωi qn− Pn i=1 ωi . Wir interpretieren ωi = 1 als Kopf und ωi = 0 als Zahl beim i-ten Wurf der Münze. Das Mengensystem A ist die Potenzmenge von Ω. Die Wahrscheinlichkeit eines Ereignisses A ∈ A ist die Summe der Einzelwahrscheinlichkeiten der Elemente von A, also X P(A) = P({ω}). (1.1) ω∈A Die Mächtigkeit, d.h. die Anzahl der Elemente, der Menge Ω ist 2n . Im Fall einer fairen Münze ist p = q = 1/2 und jedes Elementarereignis ω ∈ Ω hat dieselbe Wahrscheinlichkeit P({ω}) = 1/2n . Ferner ist P(A) = |A|/2n für A ∈ A, wobei |A| die Anzahl der Elemente von A bezeichnet. Wie sieht nun das entsprechende Modell im Fall einer unendlichen Münzwurffolge aus? Als naheliegende Ereignismenge nehmen wir ( ) Ω = ω = (ω1 , ω 2 , . . .) : ωi ∈ {0, 1} . 5 1.1 Mengenoperationen und Notation Es ist bekannt, dass jede Zahl a ∈ (0, 1] eine eindeutige (nicht-abbrechende, d.h. mit unendlich vielen Einsen) dyadische Darstellung a1 a2 a= + + . . . , ai ∈ {0, 1} 2 22 hat. Insbesondere können wir (und tun es auch) Ω = (0, 1] als Ereignismenge nehmen, was überabzählbar ist. Intuitiv sollte jedem Elementarereignis ω ∈ Ω dieselbe Wahrscheinlichkeit zugeordnet werden. Da Ω aber überabzählbar ist, muss P({ω}) = 0 für alle ω ∈ Ω gelten. Aus Symmetriegründen sollte mit Wahrscheinlichkeit 1/2 ein zufällig gezogener Punkt aus (0, 1] zu (0, 1/2] gehören. Wie passt das aber zu P({ω}) = 0 für alle ω ∈ Ω? Offenbar kann man in diesem Fall nicht die Wahrscheinlichkeiten der Elementarereignisse angeben und dann wie in (4.6) vorgehen. Bei überabzählbaren Ereignismengen sollten die Wahrscheinlichkeiten also für bestimmte Familien von Teilmengen von Ω angegeben werden. Ferner kann man sich überlegen, dass diese Familien abgeschlossen bezüglich verschiedenen Mengenoperationen sein sollten damit die Wahrscheinlichkeitsmaße darauf konsistent definiert werden. Mathematisch rigorose Behandlung der Wahrscheinlichkeitstheorie baut auf Maßtheorie auf wird ermöglicht durch die Axiome von Kolmogorov; siehe Kolmogoroff (1933). In diesem Kapitel behandeln wir die für diese Vorlesung benötigten Begriffe und Resultate aus der Maß- und Integrationstheorie. 1.1 Mengenoperationen und Notation In diesem Abschnitt wiederholen wir einige Begriffe und Notation aus der Mengenlehre. Im Folgenden ist Ω stets eine nichtleere Menge. Die Potenzmenge von Ω ist als die Menge aller Teilmengen von Ω definiert und wird mit P (Ω) bezeichnet. Also ist P (Ω) B {A : A ⊂ Ω}. (1.2) Mit A ∩ B, A ∪ B bezeichnen wir wie üblich den Durchschnitt bzw. die Vereinigung der Mengen A und B. Für A ⊂ Ω bezeichnen wir mit Ac B Ω \ A = {x ∈ Ω : x < A} das Komplement von A in Ω. Die symmetrische Differenz der Mengen A und B ist definiert durch A4B B (A \ B) ∪ (B \ A). 6 (1.3) 1.1 Mengenoperationen und Notation Oft wird es nützlich sein Vereinigungen von Mengen als Vereinigungen von disjunkten Mengen darzustellen. Wie das geht, zeigt das folgende Resultat. Proposition 1.1 (Disjunkte Vereinigungen). Es sei A1 , A2 , . . . eine Folge von S Teilmengen von Ω und A = n An . Dann sind die Mengen B 1 = A1 , B 2 = A2 \ B 1 , . . . , Bn = An \ n−1 [ Bk , . . . k=1 paarweise disjunkt und es gilt A = S n Bn . Beweis. Übung! Auch sehr nützlich (insbesondere beim Rechnen mit Wahrscheinlichkeiten) sind die De Morganschen Regeln: Für (Ai )i∈I , Ai ⊂ Ω mit einer beliebigen Indexmenge I (abzählbar1 oder überabzählbar) gilt [ c \ \ c [ c Ai = Ai und Ai = Aci . (1.4) i∈I i∈I i∈I i∈I Ist (xn )n∈N eine reellwertige Folge, dann sind die Operatoren lim sup und lim inf bekanntermaßen definiert durch lim sup xn = inf sup xk n∈ n→∞ N k ≥n bzw. lim inf xn = sup inf xk . n→∞ n∈ N k ≥n (1.5) Die entsprechenden Operatoren gibt es auch für Folgen von Mengen. Für einen Zusammenhang zwischen diesen Begriffen verweisen wir auf Übung 1.3. Definition 1.2 (lim inf und lim sup von Mengenfolgen). Für A1 , A2 , . . . ∈ P (Ω) sind Limes superior und Limes inferior definiert durch lim sup An B n→∞ ∞ [ ∞ \ Ak bzw. n=1 k=n lim inf An B n→∞ ∞ \ ∞ [ Ak . (1.6) n=1 k=n Falls lim supn→∞ An = lim inf n→∞ An gilt, so nennen wir die Mengenfolge (An ) konvergent und schreiben lim An = lim sup An = lim inf An . n→∞ n→∞ n→∞ 1 Ohne (1.7) eine besondere Hervorhebung meinen wir mit “abzählbar” immer “endlich” oder “abzählbar unendlich” 7 1.1 Mengenoperationen und Notation Bemerkung 1.3. Für ω ∈ Ω gilt ω ∈ lim sup An ⇔ ∀n ∈ N, ∃k ≥ n : ω ∈ Ak n→∞ ⇔ ω ∈ An für unendlich viele n. und ω ∈ lim inf An ⇔ ∃n ∈ N, ∀k ≥ n : ω ∈ Ak n→∞ ⇔ ω ∈ An für alle bis auf endlich viele n. Ferner gilt lim inf An ⊂ lim sup An , n→∞ (1.8) n→∞ denn aus ω ∈ An für alle bis auf endlich viele n folgt natürlich ω ∈ An für unendlich viele n. Schließlich kann man mit Hilfe der De Morganschen Regeln leicht folgende Aussagen zeigen: c c (1.9) lim sup An = lim inf Acn und lim inf An = lim sup Acn . n→∞ n→∞ n→∞ n→∞ 2 R ) mit Beispiel 1.4. Es sei An das innere der Kreisscheibe (in Radius 1 und Mittelpunkt (−1)n /n, 0 . Dann ist lim inf An die offene Kreisscheibe um (0, 0). Die Menge lim sup An enthält noch den Rand bis auf die Pole (0, 1) und (0, −1). Beispiele von konvergenten Mengenfolgen sind monotone Mengenfolgen. Proposition 1.5 (Monotone Mengenfolgen). Es sei A1 , A2 , . . . eine Folge von Teilmengen von Ω. Dann gelten folgende Aussagen. (i) Ist A1 ⊂ A2 ⊂ A3 ⊂ · · · , dann gilt A B lim An = n→∞ ∞ [ An , (1.10) An , (1.11) n=1 und wir schreiben An ↑ A. (ii) Ist A1 ⊃ A2 ⊃ A3 ⊃ · · · , dann gilt A B lim An = n→∞ ∞ \ n=1 und wir schreiben An ↓ A. Beweis. Übung! 8 1.2 Algebren und σ -Algebren 1.2 Algebren und σ -Algebren Definition 1.6 (Algebra). Eine Menge A von Teilmengen von Ω heißt Algebra (über Ω), wenn folgende Bedingungen erfüllt sind (i) Ω ∈ A, (ii) A ∈ A ⇒ Ac ∈ A, (iii) A1 , . . . , An ∈ A ⇒ Sn ∈ A, (iv) A1 , . . . , An ∈ A ⇒ Tn ∈ A. k=1 Ak k=1 Ak Bemerkung 1.7. Eine Algebra A enthält also die Grundmenge, ist abgeschlossen bezüglich Komplementbildung, bezüglich Bildung endlicher Vereinigungen und bezüglich Bildung endlicher Durchschnitte. In der Definition der Algebra kann eine der Bedingungen (iii) oder (iv) weggelassen werden, weil (ii) & (iii) äquivalent zu (ii) & (iv) ist. Um (iii) aus (ii) & (iv) herzuleiten verwenden wir die De Morganschen Regeln. Für T A1 , . . . , An ∈ A gilt Ac1 , . . . , Acn ∈ A nach (ii) und mit (iv) folgt nk=1 Ack ∈ A. Weitere Anwendung von (ii) liefert nun n [ k=1 Ak = n \ k=1 Ack c ∈ A. Analog kann man (iv) aus (ii)& (iii) herleiten. Natürlich hätte es auch in (iii) und (iv) ausgereicht, die Implikation jeweils für n = 2 zu fordern. Ferner kann man sich überlegen, dass eine Algebra bezüglich allen endlichen Mengenoperationen abgeschlossen ist. Zum Beispiel gilt A, B ∈ A ⇒ A4B = (A ∩ Bc ) ∪ (B ∩ Ac ) ∈ A, denn (ii) (iv) (iii) A, B ∈ A ⇒ A, B, Ac , Bc ∈ A ⇒ A ∩ Bc , B ∩ Ac ∈ A ⇒ A4B ∈ A. Definition 1.8 (σ -Algebra). Eine Menge A von Teilmengen von Ω heißt σ -Algebra (über Ω), wenn folgende Bedingungen erfüllt sind (i) Ω ∈ A, 9 1.2 Algebren und σ -Algebren (ii) A ∈ A ⇒ Ac ∈ A, k=1 Ak (iii) A1 , A2 , . . . ∈ A ⇒ S∞ (iv) A1 , A2 , . . . , ∈ A ⇒ T∞ k=1 Ak ∈ A, ∈ A. Bemerkung 1.9. Eine σ -Algebra A enthält also die Grundmenge, ist abgeschlossen bezüglich Komplementbildung, bezüglich Bildung abzählbarer Vereinigungen und bezüglich Bildung abzählbarer Durchschnitte. Genauso wie bei der Definition einer Algebra kann wahlweise eine der Bedingungen (iii) oder (iv) weggelassen werden. Weitere Varianten der Definitionen von Algebren und σ -Algebren sind möglich. So könnte man in beiden Definitionen statt (i) auch ∅ ∈ A fordern. Außerdem würde es beispielsweise auch ausreichen, zu fordern, dass A nichtleer ist und (ii)&(iii) gilt. Gilt nämlich A ∈ A für eine beliebige Menge A ⊂ Ω, dann folgt Ac ∈ A mit (ii). Nach (iii) ist dann Ω = A ∪ Ac ∈ A. Definition 1.10 (Messbarer Raum). Ist Ω eine nichtleere Menge und A eine σ -Algebra über Ω, dann heißt das Paar (Ω, A) ein messbarer Raum. Mengen A ∈ A werden als (A-)messbare Teilmengen von Ω bezeichnet. Eine σ -Algebra ist immer auch eine Algebra, weil die Vereinigung endlich vieler Mengen A1 , . . . , An mit der Vereinigung abzählbar vieler Mengen A1 , . . . , An , An , An , . . . übereinstimmt. Die Umkehrung ist im Allgemeinen falsch (vgl. Beispiel 1.12(d)). Die folgende Proposition liefert hinreichende Bedingungen. Proposition 1.11. Ein Algebra A ist eine σ -Algebra, wenn eine der folgenden Bedingungen erfüllt ist: (a) A ist abgeschlossen unter aufsteigenden Limiten, d.h. für A1 ⊂ A2 ⊂ . . . mit An ∈ A, n ∈ N gilt A = ∪n An ∈ A. (b) A ist abgeschlossen unter absteigenden Limiten, d.h. für A1 ⊃ A2 ⊃ . . . mit An ∈ A, n ∈ N gilt A = ∩n An ∈ A. S S∞ Beweis. (a) Für B 1 , B 2 , . . . ∈ A gilt nk=1 Bk ↑ k=1 Bk für n → ∞, und die rechte Seite ist ein Element von A nach Voraussetzung. 10 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren T T∞ (b) Für B 1 , B 2 , . . . ∈ A gilt nk=1 Bk ↓ k=1 Bk für n → ∞, und die rechte Seite ist ein Element von A nach Voraussetzung. Beispiel 1.12. Wenn nichts anderes gesagt wird, ist Ω in den folgenden Beispielen eine beliebige nichtleere Menge. (a) Die Potenzmenge P (Ω) ist die größte σ -Algebra über Ω. In diesem Fall ist jede Teilmenge von Ω messbar. (b) Die kleinste (auch triviale genannt) σ -Algebra über Ω ist {∅, Ω}. In diesem Fall ist keine nichtleere echte Teilmenge von Ω messbar (c) Sei Ω unendlich und sei A B {A ⊂ Ω : A endlich}. Dann ist A keine Algebra, denn es ist Ω < A und mit A ∈ A ist notwendigerweise Ac unendlich und somit ist Ac < A. (d) Sei Ω abzählbar unendlich und sei A B {A ⊂ Ω : A oder Ac endlich}. Dann ist A eine Algebra, aber keine σ -Algebra. (Übung!) (e) Sei Ω überabzählbar und sei A B {A ⊂ Ω : A abzählbar}. Dann ist A keine Algebra, weil Ω < A und mit A ∈ A ist Ac < A. (f) Sei A B {A ⊂ Ω : A oder Ac abzählbar}. Dann ist A eine σ -Algebra (Übung!). 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren Satz 1.13 (Durchschnitte von σ -Algebren sind σ -Algebren). Ist (Ai )i∈I eine T beliebige nichtleere Familie von σ -Algebren über Ω, dann ist A = i∈I Ai eine σ -Algebra über Ω. Beweis. Da Ω ∈ Ai für alle i ∈ I ist, ist Ω ∈ A. Ist A1 , A2 , . . . eine Folge von Mengen aus A, dann gehören diese Mengen auch zu Ai für alle i ∈ I . Da jedes Ai eine σ -Algebra ist, folgt ∩n An ∈ Ai für alle i ∈ I und damit ∩n An ∈ A. Analog sieht man, dass A abgeschlossen bezüglich Komplementbildung ist. Bemerkung 1.14. Die Vereinigung von zwei σ -Algebren ist im Allgemeinen keine σ -Algebra (Übung!). 11 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren Korollar 1.15. Es sei E eine beliebige Menge von Teilmengen von Ω. Dann gibt es eine eindeutige kleinste σ -Algebra, die E enthält. Definition 1.16 (Erzeuger und erzeugte σ -Algebra). Die kleinste σ -Algebra, die E enthält wird mit σ (E) bezeichnet und heißt von E erzeugte σ -Algebra. Die Familie E wird Erzeuger von σ (E) genannt. Beweis von Korollar 1.15. Wir setzen ( ) E ∗ = A : A σ -Algebra über Ω, E ⊂ A , E ∗ ist also die Familie aller σ -Algebren über Ω die E enthalten. Diese Familie ist nichtleer, weil die Potenzmenge P (Ω) jede Menge von Teilmengen von Ω enthält. Dann ist \ σ (E) B A A∈E ∗ die kleinste σ -Algebra über Ω, die E enthält. Dass es eine σ -Algebra ist, ist nach Satz 1.13 klar. Die kleinste ist es, weil der Durchschnitt über alle E enthaltenden σ -Algebren gebildet wird. Zwei kleinste σ -Algebren, die E enthalten, müssen sich gegenseitig enthalten und somit gleich sein. Nun geben wir einige Beispiele von σ -Algebren und ihren Erzeugern an. Ein weiteres Beispiel finden Sie in Übung 1.9. Beispiel 1.17. (a) Ist Ω eine nichtleere Menge und ist A eine echte nichtleere Teilmenge von Ω, dann ist die kleinste σ -Algebra, die A enthält gegeben durch σ ({A}) = {∅, A, Ac , Ω}. (b) Die σ -Algebra auf N, die von den Einpunktmengen erzeugt wird, ist die Potezmenge, d.h. ( ) σ {k } : k ∈ N = P (N). (c) Die σ -Algebra auf R, die von den Einpunktmengen erzeugt wird, ist die σ -Algebra aus Beispiel 1.12(f), mit Ω = R dort. Überlegen Sie sich warum das stimmt! 12 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren Nun können wir eine wichtige Klasse von σ -Algebren auf topologischen (und metrischen) Räumen einführen. Wir erinnern zunächst an die Definition eines topologischen Raumes. Definition 1.18 (Topologischer Raum). Es sei Ω eine nichtleere Menge. Eine Menge τ von Teilmengen von Ω ist eine Topologie auf Ω wenn die folgenden Bedingungen erfüllt sind. (i) ∅, Ω ∈ τ , (ii) sind A, B ∈ τ , dann gilt A ∩ B ∈ τ , (iii) ist (Ai )i∈I ⊂ τ eine beliebige Familie, dann ist S i∈I Ai ∈ τ . Die Elemente von τ heißen offene Mengen und das Paar (Ω, τ ) heißt topologischer Raum. Definition 1.19 (Borel-σ -Algebra). Es sei (Ω, τ ) ein nichtleerer topologischer Raum. Die Borel-σ -Algebra B(Ω) über Ω ist die von der Topologie τ erzeugte σ -Algebra, d.h. B(Ω) B σ (τ ). Ist (Ω, r ) ein metrischer Raum, dann ist B(Ω) B σ (τr ). Hier ist τr die von der Metrik r erzeugte Topologie auf Ω, d.h. [ τr = Bs (ω) : F ⊂ Ω × (0, ∞) , (ω,s)∈F wobei Bs (ω) = {ω̃ ∈ Ω : r (ω, ω̃) < s} der offene s-Ball um ω ist. Das für uns wichtigste Beispiel ist die Borel-σ -Algebra über Rd (und über Teilmengen von Rd ). Definition 1.20 (Borel-σ -Algebra über Rd ). Die Borel-σ -Algebra über Rd , ist die σ -Algebra, die von der Menge aller offenen Teilmengen von Rd (also von der euklidischen Topologie) erzeugt wird. Sie wird mit B(Rd ) bezeichnet. Im Fall d = 1 schreiben wir B(R). 13 1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren Die Borel-σ -Algebra B(Rd ) wird auch von vielen anderen Mengensystemen erzeugt, die etwas besser handhabbar (was das bedeutet werden wir später sehen) sind als die Menge aller offenen Teilmengen. Einige davon listen wir in den folgenden Propositionen auf. Für mehr Beispiele von Erzeugern von B(Rd ) verweisen wir auf Literatur; siehe z.B. Satz 1.23 in Klenke (2013). Es gibt Mengen die nicht Borel messbar sind, d.h. sie sind in der Potenzmenge von R aber nicht in der Borel-σ -Algebra enthalten (siehe z.B. Theorem 1.4.9 in Cohn (2013) in welchem das Auswahlaxiom benutzt wird). Alle Mengen, mit denen wir in der Vorlesung jemals zu tun haben werden, sind Borel messbar. Proposition 1.21 (Alternative Erzeuger von B(Rd )). Die folgenden Mengensysteme erzeugen alle die Borel-σ -Algebra auf Rd : (a) die Menge aller abgeschlossenen Teilmengen von Rd ; (b) die Menge aller abgeschlossenen Halbräume von Rd der Form für ein Index i und b ∈ R; {(x 1 , . . . , xd ) : xi ≤ b}, (1.12) (c) die Menge aller halboffenen Rechtecke der Form {(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d} (1.13) wobei ai < bi , i = 1, . . . , d aus R sind. Beweis. Seien E1 , E2 , E3 die Mengensysteme in (a), (b) und (c) und seien B1 , B2 , B3 die zugehörigen erzeugten σ -Algebren, d.h. Bi = σ (Ei ). Wir zeigen B(Rd ) ⊃ B1 ⊃ B2 ⊃ B3 ⊃ B(Rd ). Da die σ -Algebra B(Rd ) die Menge aller offenen Teilmengen von Rd enthält und abgeschlossen unter Komplementbildung ist, enthält sie auch die Menge aller abgeschlossenen Teilmengen von Rd , also E1 . Weil B1 = σ (E1 ) die kleinste σ -Algebra ist, die E1 enthält, folgt B1 ⊂ B(Rd ). Offenbar gilt E1 ⊃ E2 , woraus sofort B1 ⊃ B2 folgt. Seien nun ai , bi ∈ R mit ai < bi . Wir müssen zeigen, dass die Rechtecke aus (1.15) in B2 enthalten sind. Für jedes i = 1, . . . , d gilt {(x 1 , . . . , xd ) : ai < xi ≤ bi } = {(x 1 , . . . , xd ) : xi ≤ bi } \ {(x 1 , . . . , xd ) : xi ≤ ai }. 14 1.4 Maße Die rechte Seite (und damit auch die linke) ist in B2 enthalten. Mit {(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d} = d \ {(x 1 , . . . , xd ) : ai < xi ≤ bi } i=1 folgt nun B2 ⊃ B3 . Bleibt noch B3 ⊃ B(Rd ) zu zeigen. Dazu bemerken wir, dass jede offene Menge in Rd als abzählbare Vereinigung geeigneter ε-Bälle dargestellt werden kann. Jeder offene ε-Ball kann wiederum als abzählbare Vereinigung geeigneter halboffener Rechtecke dargestellt werden. Proposition 1.22 (Weitere Erzeuger von B(Rd )). Die folgenden Mengensysteme erzeugen alle die Borel-σ -Algebra auf Rd : (a) die Menge aller kompakten Teilmengen von Rd ; (b) die Menge aller abgeschlossenen Halbräume von Rd der Form {(x 1 , . . . , xd ) : xi ≤ b}, für ein Index i und b ∈ Q; (1.14) (c) die Menge aller halboffenen Rechtecke der Form {(x 1 , . . . , xd ) : ai < xi ≤ bi für i = 1, . . . , d} (1.15) wobei ai < bi , i = 1, . . . , d aus Q sind. Beweis. Übung! 1.4 Maße Definition 1.23 (Maße und Maßräume). Es sei (Ω, A) ein messbarer Raum. Eine Mengenfunktion µ : A → [0, +∞] heißt Maß auf (Ω, A) wenn die folgenden zwei Bedingungen gelten (i) µ (∅) = 0; 15 (1.16) 1.4 Maße (ii) µ ist σ -additiv, d.h. für jede Folge A1 , A2 , . . . paarweise disjunkter Mengen aus A gilt µ ∞ [ ∞ X An = µ (An ). n=1 n=1 (1.17) Das Maß µ heißt Wahrscheinlichkeitsmaß, wenn µ (Ω) = 1 ist. Es heißt endlich, wenn µ (Ω) < ∞ ist und σ -endlich, wenn es eine Folge Ω1 , Ω2 , . . . in A gibt mit ∪n Ωn = Ω und µ (Ωn ) < ∞ für alle n. Das Tripple (Ω, A, µ) heißt dann Maßraum und falls µ ein Wahrscheinlichkeitsmaß ist, wird es Wahrscheinlichkeitsraum genannt. Man sagt, dass eine Mengenfunktion µ endlich additiv ist, wenn für je endlich viele paarweise disjunkte Mengen A1 , . . . , An aus A gilt µ n [ Ai = i=1 n X µ (Ai ). (1.18) i=1 Gilt zusätzlich noch µ (∅) = 0, dann spricht man von einem endlich-additiven Maß. Ein endlich-additives Maß werden wir auch stets so benennen. Ein Maß ist für uns immer σ -additiv. Natürlich folgt aus der σ -Additivität die endliche Additivität. Die Umkehrung ist im Allgemeinen falsch (vgl. (f) im folgenden Beispiel). Beispiel 1.24. (a) Es sei Ω eine beliebige nichtleere Menge und A eine σ Algebra auf Ω. Wir definieren die Mengenfunktion µ : A → [0, +∞] durch n µ (A) = +∞ : falls A endlich und |A| = n ist, : falls A unendlich ist. Dann ist µ ein Maß und wird Zählmaß genannt. Ist Ω endlich und µ̃ durch µ̃ (A) = µ (A) |A| = µ (Ω) |Ω| definiert. Dann ist µ̃ ein Wahrscheinlichkeitsmaß, nämlich die uniforme Verteilung (auch Gleichverteilung) auf Ω. 16 1.4 Maße (b) Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebra auf Ω. Für ein ω ∈ Ω definieren wir die Mengenfunktion δω : A → [0, +∞] durch 1 δω (A) = 0 : falls ω ∈ A, : falls ω < A. Dann ist µ ein (Wahrscheinlichkeits)Maß und wird Dirac-Maß oder Einheitsmasse im Punkt ω genannt. (c) Für Ω = N sei A = {A ⊂ Ω : A endlich oder Ac endlich }. Nach Beispiel 1.12(d) ist A eine Algebra, aber keine σ -Algebra. Wir definieren µ : A → [0, +∞] durch 1 µ (A) = 0 : wenn A unendlich, : wenn A endlich. Die Mengenfunktion µ ist endlich additiv (auf A), aber nicht σ -additiv. Außerdem kann µ auch nicht auf die von A erzeugte σ -Algebra σ (A) fortgesetzt werden. (Damit meinen wir, dass man kein Maß µ̃ auf σ (A) definieren kann, für das µ̃ |A = µ gilt.) Später werden wir uns mit Bedingungen beschäftigen, unter welchen das geht. (d) Es sei Ω eine beliebige nichtleere Menge und A eine beliebige σ -Algebra auf Ω. Sei µ : A → [0, +∞] definiert durch +∞ µ (A) = 0 : wenn A , ∅, : wenn A = ∅. Dann ist µ ein Maß. In den folgenden Propositionen diskutieren wir einige einfache aber wichtige Eigenschaften von Maßen. Proposition 1.25 (Monotonie von Maßen). Es sei (Ω, A, µ) ein Maßraum und seien A, B ∈ A mit B ⊂ A. Dann gilt µ (B) ≤ µ (A). Wenn außerdem noch µ (B) < ∞ gilt, dann gilt µ (A \ B) = µ (A) − µ (B). 17 1.4 Maße Beweis. Die Mengen B und A \ B sind disjunkt und es ist A = B ∪ (A \ B). Mit Additivität von µ erhalten wir µ (A) = µ (B) + µ (A \ B). Da beide Summanden auf der rechten Seite nicht-negativ sind folgt hieraus die behauptete Monotonie µ (B) ≤ µ (A). Im Fall µ (B) < ∞ folgt auch die zweite Behauptung sofort. Proposition 1.26 (Abzählbare Subadditivität von Maßen). Es sei (Ω, A, µ) ein Maßraum und sei A1 , A2 , . . . eine beliebige Folge (endlich oder unendlich) von Mengen aus A. Dann gilt X µ ∪n An ≤ µ (An ). n Beweis. Nach Proposition 1.1 können wir ∪n A als disjunkte Vereinigung von Mengen B 1 , B 2 , . . . mit Bi ⊂ Ai schreiben. Damit gilt X X µ ∪n An = µ ∪n Bn = µ (Bn ) ≤ µ (An ). n n Dabei haben wir bei dem zweiten Gleichheitszeichen die σ -Additivität von µ verwendet und für die Ungleichung die Monotonie von µ (siehe Proposition 1.25). Proposition 1.27 (Auf- und absteigende Stetigkeit von Maßen). Es sei (Ω, A, µ) ein Maßraum. Das Maß µ ist aufsteigend und absteigend stetig, d.h. es gelten die folgenden zwei Aussagen. k→∞ (a) Für jede wachsende Folge A1 , A2 , . . . in A gilt µ (Ak ) −−−−→ µ (∪n An ). (b) Für jede fallende Folge A1 , A2 , . . . in A mit µ (An0 ) < +∞ für ein n 0 ∈ N k→∞ gilt µ (Ak ) −−−−→ µ (∩n An ). Beweis. Sei A1 , A2 , . . . eine wachsende Folge von Mengen aus A. Wir setzen B 1 = A1 und Bi = Ai \ Ai−1 . Die Mengen B 1 , B 2 , . . . sind disjunkt und in A ∞ A = ∪∞ B . Es enthalten. Außerdem gilt Ak = ∪ki=1 Bi und insbesondere ∪i=1 i i=1 i folgt µ ∞ ∪i=1 Ai = ∞ X i=1 µ (Bi ) = lim k→∞ k X i=1 µ (Bi ) = lim µ ∪ki=1 Bi = lim µ Ak . k→∞ 18 k→∞ 1.4 Maße Damit ist die Aussage (a) gezeigt. Sei nun A1 , A2 , . . . eine fallende Folge von Mengen aus A mit µ (An0 ) < ∞ für ein n 0 ∈ N. Wir können ohne Einschränkung n 0 = 1 annehmen. Wir setzen Ck = A1 \ Ak . Dann ist C 1 , C 2 , . . . eine wachsende Folge von Mengen aus A und es gilt ∞ ∞ ∪k=1 Ck = A1 \ (∩k=1 Ak ). Mit Teil (a) folgt ∞ ∞ µ A1 \ (∩k=1 Ak ) = µ (∪k=1 Ck ) = lim µ (Ck ) = lim µ (A1 \ Ak ). k→∞ k→∞ Mit der Voraussetzung µ (A1 ) < +∞ folgt nun nach Proposition 1.25 die Aussage (b). Die linke Seite im letzten Display ist nämlich gleich ∞ µ (A1 ) − µ (∩k=1 Ak ) und die rechte ist gleich µ (A1 ) − lim µ (Ak ). k→∞ ∞ A ). Es folgt limk→∞ µ (Ak ) = µ (∩k=1 k Die folgende Proposition ist teilweise eine Umkehrung der vorherigen. Es liefert hinreichende Bedingungen unter welchen ein endlich additives Maß ein Maß ist (beachten Sie eine gewisse Ähnlichkeit zu Proposition 1.11). Proposition 1.28 (Hinreichende Bedingungen für σ -Additivität). Es sei (Ω, A) ein messbarer Raum und sei µ ein endlich additives Maß darauf. Dann ist µ ein Maß, wenn eine der folgenden Bedingungen gilt. k→∞ (a) Für jede wachsende Folge A1 , A2 , . . . in A gilt µ (Ak ) −−−−→ µ (∪n An ). k→∞ (b) Für jede fallende Folge A1 , A2 , . . . in A mit ∩n An = ∅ gilt µ (Ak ) −−−−→ 0. Beweis. Sei B 1 , B 2 , . . . eine Folge von paarweise disjunkten Mengen aus A. Zu zeigen ist, dass beide Bedingungen die σ -Additivität implizieren, also ∞ B ) = P∞ µ (B ). µ (∪k=1 k k k=1 19 1.5 Dynkin-Systeme Nehmen wir zunächst an, dass (a) gilt. Für jedes n setzen wir An = ∪nk=1 Bk . P ∞ A = Wegen endlicher Additivität haben wir µ (An ) = nk=1 µ (Bk ). Da ∪n=1 n ∞ B ist, folgt mit (a) bei dem zweiten Gleichheitszeichen ∪k=1 k ∞ µ (∪k=1 Bk ) = ∞ µ (∪n=1 An ) = lim µ (An ) = lim n→∞ n→∞ n X µ (Bk ) = k=1 ∞ X µ (Bk ). k=1 ∞ B . Dann Nehmen wir nun an, dass (b) gilt. Für jedes n setzen wir An = ∪k=n k gilt An ↓ ∅, denn jedes ω ∈ Ω ist entweder in keinem der Bk enthalten oder in ∞ B für n ≥ N . einem einzigen. Im letzteren Fall gibt es ein N mit ω < ∪k=n k Endliche Additivität impliziert ∞ µ (∪k=1 Bk ) = µ (∪nk=1 Bk ) ∪ An+1 n X = µ (∪nk=1 Bk ) + µ (An+1 ) = µ (Bk ) + µ (An+1 ). k=1 ∞ B ) = Nach Voraussetzung gilt µ (An ) → 0 für n → ∞ und damit folgt µ (∪k=1 k P∞ µ (B ). k k=1 1.5 Dynkin-Systeme In den vorherigen Abschnitten haben wir uns mit σ -Algebren und Maßen auf σ -Algebren beschäftigt. Unser Ziel in den nächsten Abschnitten ist die Konstruktion und (eindeutige) Fortsetzung von Maßen. Unter Anderem werden wir den Satz von Carathéodory beweisen. Dieser besagt, dass σ -endliche Maße auf Algebren eindeutig auf die zugehörige σ -Algebra fortgesetzt werden können. Zuerst beschäftigen wir uns in diesem und im nächsten Abschnitt mit einigen technischen Hilfsmitteln (weitere Mengensysteme und äußere Maße). Definition 1.29 (Dynkin-System, λ-System). Es sei Ω eine nichtleere Menge. Eine Menge D von Teilmengen von Ω heißt Dynkin-System (oder λ-System), wenn folgende Bedingungen erfüllt sind (i) Ω ∈ D, (ii) A ∈ D ⇒ Ac ∈ D, (iii) sind A1 , A2 , . . . ∈ D paarweise disjunkt, dann ist 20 k=1 Ak S∞ ∈ D. 1.5 Dynkin-Systeme Definition 1.30 (∩-stabile Mengensysteme, π -Systeme). Ein Mengensystem E auf einer nichtleeren Menge Ω heißt schnittstabil (oder π -System, wir schreiben oft ∩-stabil) , wenn es abgeschlossen bezüglich endlichen Durchschnitten ist, d.h. A, B ∈ E ⇒ A ∩ B ∈ E. (1.19) Bemerkung 1.31 (Beziehung zwischen Dynkin-Systemen und σ -Algebren). Eine σ -Algebra ist natürlich stets ein Dynkin-System. Die Umkehrung ist falsch. Auf Ω = {1, 2, 3, 4} ist z.B. ( ) D = ∅, Ω, {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {3, 4} ein Dynkin-System, aber keine σ -Algebra. Wie die nächste Proposition zeigt, “fehlt” einem Dynkin-System nicht viel zu einer σ -Algebra. Proposition 1.32. Ein Dynkin-System ist genau dann eine σ -Algebra, wenn es schnittstabil ist. Beweis. Eine Richtung ist natürlich klar. Für die andere ist nur Abgeschlossenheit bezüglich abzählbaren Vereinigungen zu zeigen. Sei also D ein schnittstabiles Dynkin-System. Enthält D die Mengen A1 , A2 , . . . ∈ D, dann enthält es auch die disjunkten Mengen B 1 , B 2 , . . ., definiert durch (vgl. Proposition 1.1) Bn = An ∩ Ac1 ∩ . . . ∩ Acn−1 . Nach Definition 1.29(iii) folgt ∞ ∞ ∪n=1 An = ∪n=1 Bn ∈ D. Lemma 1.33 (Äquivalente Definition eines Dynkin-Systems). Es sei D ein System von Teilmengen einer nichtleeren Menge Ω. Zeigen Sie: D ist genau dann ein Dynkin-System, wenn gilt (i) Ω ∈ D; (ii) A, B ∈ D, B ⊂ A ⇒ A \ B ∈ D; (iii) Für jede aufsteigende Folge (An ) von Elementen aus D gilt 21 n An S ∈ D. 1.5 Dynkin-Systeme Beweis. Übung! Beispiel 1.34. 1. Es seien (Ω, A) ein messbarer Raum und µ und ν endliche Maße auf A mit µ (Ω) = ν (Ω). Dann ist D = {A ∈ A : µ (A) = ν (A)} ein Dynkin-System. Dabei gilt Ω ∈ D nach Voraussetzung. Ist A ∈ D so gilt µ (A) = ν (A) und somit (vgl. Proposition 1.25) µ (Ac ) = µ (Ω \ A) = µ (Ω) − µ (A) = ν (Ω) − ν (A) = ν (Ω \ A) = ν (Ac ). Also ist Ac ∈ D. Sei nun A1 , A2 , . . . eine Folge von paarweise disjunkten Mengen aus D. Dann folgt mit σ -Additivität von µ und ν X X µ (∪n An ) = µ (An ) = ν (An ) = ν (∪n An ). n n Dies zeigt ∪n An ∈ D. 2. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und sei A ∈ A beliebig. Dann ist (Übung!) D = {B ∈ A : P(A ∩ B) = P(A)P(B)} ein Dynkin-System. (D ist die Menge aller “von A unabhängigen Ereignisse”.) Bemerkung 1.35 (Schnitte und Erzeuger von Dynkin-Systemen). Ähnlich zu Beweis von Satz 1.13 lässt sich zeigen, dass Durchschnitte von beliebigen Familien von Dynkin-Systemen (über derselben Menge Ω) wieder DynkinSysteme sind. Für ein beliebiges Mengensystem E von Teilmengen von Ω kann man wie in Korollar 1.15 zeigen, dass \ δ (E) B D (1.20) D ⊃E D Dynkin-System das kleinste E enthaltende Dynkin-System ist. In Analogie mit Definition 1.16 sagen wir, dass δ (E) das von E erzeugte Dynkin-System ist und nennen E Erzeuger von δ (E). 22 1.5 Dynkin-Systeme Die große Bedeutung von Dynkin-Systemen ist vor allem durch das folgende Resultat begründet. Ein Anwendungsbeispiel dieses Resultats sehen wir gleich im Anschluss an den Beweis. Satz 1.36. Ist E ein ∩-stabiles System auf einer nichtleeren Menge Ω, so gilt σ (E) = δ (E). (1.21) Beweis. Da σ (E) ein E enthaltendes Dynkin-System ist und δ (E) das kleinste solche System ist, folgt δ (E) ⊂ σ (E). Zu zeigen ist also δ (E) ⊃ σ (E). Dafür genügt es zu zeigen, dass δ (E) eine σ -Algebra ist. Dafür wiederum reicht es nach Proposition 1.32 zu zeigen, dass δ (E) ein ∩-stabiles System ist. Wir definieren D1 = {A ∈ δ (E) : A ∩ E ∈ δ (E) für alle E ∈ E} und zeigen, dass D1 ein Dynkin-System ist. Dafür verwenden wir die äquivalente Charakterisierung aus Lemma 1.33. Aus E ⊂ δ (E) folgt Ω ∈ D1 . Sind A, B ∈ D1 mit B ⊂ A und E ∈ E, so gilt (A \ B) ∩ E = (A ∩ E) \ (B ∩ E) ∈ δ (E). Damit ist A \ B ∈ D1 . Sei A1 , A2 , . . . eine aufsteigende Folge von Elementen aus D1 . Für E ∈ E ist dann A1 ∩ E, A2 ∩ E, . . . eine aufsteigende Folge von Elementen aus δ (E). Es folgt (∪n An ) ∩ E = ∪n (An ∩ E) ∈ δ (E), was ∪n An ∈ D1 zeigt. Also ist D1 ein Dynkin-System. Da E ein ∩-stabiles System ist, gilt E ⊂ D1 und weil δ (E) das kleinste Dynkin-System mit dieser Eigenschaft ist gilt auch δ (E) ⊂ D1 . Insbesondere sind Schnitte von Mengen aus E und δ (E) in δ (E) enthalten. Wir definieren D2 = {B ∈ δ (E) : B ∩ A ∈ δ (E) für alle A ∈ δ (E)}. Nach dem ersten Teil des Beweises gilt E ⊂ D2 . Nun kann man ähnlich wie im Fall von D1 zeigen, dass D2 ein Dynkin-System ist. Damit folgt δ (E) ⊂ D2 . Insbesondere sind Schnitte von je zwei (und damit endlich vielen) Mengen aus δ (E) in δ (E) enthalten. Das zeigt, dass δ (E) ein ∩-stabiles Dynkin-System ist. Nach Proposition 1.32 ist δ (E) eine σ -Algebra. Also gilt (1.21). 23 1.5 Dynkin-Systeme Im folgenden Satz wenden wir Satz 1.36 an, um zu zeigen, dass σ -endliche Maße auf σ -Algebren eindeutig durch ihre Werte auf ∩-stabilen Erzeugern der betreffenden σ -Algebren bestimmt sind. Beachten Sie, dass die Voraussetzung der σ -Endlichkeit der Maße auf den Erzeugern auch eine Voraussetzung an die Erzeuger ist. Satz 1.37 (Eindeutigkeit von Maßen). Es sei Ω nichtleer und sei E eine ∩-stabile Familie von Teilmengen von Ω. Ferner seien µ 1 und µ 2 zwei Maße auf σ (E) die σ -endlich auf E sind. Stimmen µ 1 und µ 2 auf E überein, so stimmen sie auch auf σ (E) überein. Beweis. Für B ∈ E mit µ 1 (B) = µ 2 (B) < ∞ sei DB = {A ∈ σ (E) : µ 1 (A ∩ B) = µ 2 (A ∩ B)}. Dann ist DB ein Dynkin-System (Beweis ähnlich zum Beweis in Beispiel 1.34.1.), das E enthält. Nach Satz 1.36 folgt auch σ (E) = δ (E) ⊂ DB , d.h. es gilt µ 1 (A ∩ B) = µ 2 (A ∩ B) für alle A ∈ σ (E). Wegen σ -Endlichkeit auf E gibt es Mengen Ω1 , Ω2 , . . . in E mit Ω = ∪n Ωn und µ 1 (Ωn ) = µ 2 (Ωn ) < ∞ für alle n. Mit Einschluss-Ausschluss-Formel (siehe Übung 1.15) gilt X X µa ∪ni=1 (Ωi ∩ A) = µa (Ωi ∩ A) − µa (Ωi ∩ Ωj ∩ A) + · · · (1.22) 1≤i≤n 1≤i<j≤n für a = 1, 2, A ∈ σ (E) und alle n. Da E ein ∩-stabiles System ist, das Ωi enthält, enthält es die Schnitte Ωi ∩ Ωj und alle möglichen endlichen Schnitte der Ωi und die µa Maße dieser Schnitte sind endlich. Also stimmen die Terme auf der rechten Seite von (1.22) für a = 1 und a = 2 überein. Damit stimmen für jedes n auch die linken Seiten für a = 1 und a = 2 überein. Mit n → ∞ und aufsteigender Stetigkeit von Maßen folgt µ 1 (A) = µ 2 (A), denn es ist ∪ni=1 (Ωi ∩ A) ↑ A für n → ∞. Korollar 1.38. Es sei Ω nichtleer und sei E eine ∩-stabile Familie von Teilmengen von Ω, sodass Ω eine höchstens abzählbare Vereinigung von Mengen aus E ist. Ferner seien µ 1 und µ 2 zwei endliche Maße auf σ (E). Stimmen µ 1 und µ 2 auf E überein, so stimmen sie auch auf σ (E) überein. Beweis. Nach Voraussetzung ist Ω = ∪n Ωn für Mengen Ωn ∈ E. Aus µa (Ωn ) ≤ µa (Ω) für a = 1, 2 und alle n folgt die σ -Endlichkeit der beiden Maße auf E. Also kann Satz 1.37 angewendet werden. 24 1.6 Äußere Maße Beispiel 1.39. Es sei Ω , ∅ beliebig. Das System E = {∅} ist ∩-stabil und es gilt σ (E) = {∅, Ω}. Alle endlichen Maße stimmen auf E überein, müssen aber nicht auf σ (E) übereinstimmen. Weil Ω keine (abzählbare) Vereinigung von Mengen aus E ist, ist Korollar 1.38 nicht anwendbar. Aus demselben Grund kann kein Maß auf σ (E) auf E σ -endlich sein. Beachten Sie, dass σ -Endlichkeit eine gemeinsame Eigenschaft des Maßes und des Mengensystems ist. 1.6 Äußere Maße In diesem Abschnitt konstruieren wir Fortsetzungen von Maßen auf Algebren bzw. Semiringen zu Maßen auf den von ihnen erzeugten σ -Algebren. Definition 1.40. Es sei Ω , ∅. Ein äußeres Maß µ ∗ ist eine nichtnegative Mengenfunktion auf P (Ω) mit den folgenden Eigenschaften: (i) µ ∗ (∅) = 0; (ii) µ ∗ ist monoton: A ⊂ B ⇒ µ ∗ (A) ≤ µ ∗ (B); P (iii) µ ∗ ist σ -subadditiv: µ ∗ (∪n An ) ≤ n µ ∗ (An ). Beispiel 1.41. Es sei E eine Familie von Teilmengen von Ω mit ∅ ∈ E. Ferner sei ρ : E → [0, +∞] eine Mengenfunktion mit ρ (∅) = 0. Für A ⊂ Ω definieren wir (X ) ρ ∗ (A) B inf ρ (An ) : A ⊂ ∪n An , An ∈ E . (1.23) n Das Infimum wird also über alle abzählbaren Überdeckungen von A mit Mengen aus E genommen. Entsprechend der üblichen Konvention, dass Infimum von leeren Mengen unendlich ist, ist ρ ∗ (A) = +∞ wenn es keine solche Überdeckung gibt. Es ist klar, dass ρ ∗ nichtnegativ und monoton ist, und dass ρ ∗ (∅) = 0 gilt. Sei A1 , A2 , . . . eine beliebige Folge von Teilmengen von Ω. Wenn ρ ∗ (An ) = +∞ P für ein n gilt, dann ist ρ ∗ (∪n An ) ≤ n ρ ∗ (An ). Ist ρ ∗ (An ) endlich für alle n, dann kann jedes An mit Mengen Bnk aus E überdeckt werden, so dass P ∗ n k ρ (Bnk ) < ρ (An ) + ε/2 . Dann ist ∪n An ⊂ ∪n ∪k Bnk und es gilt XX X ρ ∗ (∪n An ) ≤ ρ (Bnk ) < ρ ∗ (An ) + ε. n n k Also ist ρ ∗ ein äußeres Maß. 25 1.6 Äußere Maße Definition 1.42. Es sei µ ∗ ein äußeres Maß auf Ω. Eine Menge E ⊂ Ω heißt µ ∗ -meßbar, wenn für alle F ⊂ Ω µ ∗ (F ) = µ ∗ (F ∩ E) + µ ∗ (F ∩ Ec ). (1.24) Mit M (µ ∗ ) bezeichnen wir die Menge aller µ ∗ messbaren Teilmengen von Ω. Bemerkung 1.43. Wegen der Subadditivität von µ ∗ ist (1.24) äquivalent zu µ ∗ (F ) ≥ µ ∗ (F ∩ E) + µ ∗ (F ∩ Ec ). (1.25) Proposition 1.44 (µ ∗ -Nullmengen sind µ ∗ -messbar). Es sei µ ∗ ein äußeres Maß auf einer Menge Ω. Jede Menge B ⊂ Ω mit µ ∗ (B) = 0 oder µ ∗ (Bc ) = 0 ist µ ∗ -messbar. Beweis. Übung! Lemma 1.45. Das Mengensystem M (µ ∗ ) ist eine Algebra auf Ω. Beweis. Dass Ω ∈ M (µ ∗ ) ist, ist klar, denn für F ⊂ Ω ist µ ∗ (F ) = µ ∗ (F ) + µ ∗ (∅) = µ ∗ (F ∩ Ω) + µ ∗ (F ∩ Ωc ). Abgeschlossenheit bezüglich Komplementbildung ist auch klar, weil die Messbarkeitsbedingung (1.24) symmetrisch in E und Ec ist. Seien A, B ∈ M (µ ∗ ) und F ⊂ Ω. Dann gilt (mit Subadditivität von µ ∗ bei dem Übergang von zweiter zu dritter Zeile) µ ∗ (F ) = µ ∗ (F ∩ A) + µ ∗ (F ∩ Ac ) = µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ A ∩ Bc ) + µ ∗ (F ∩ Ac ∩ B) + µ ∗ (F ∩ Ac ∩ Bc ) ≥ µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ A ∩ Bc ) ∪ (F ∩ Ac ∩ B) ∪ (F ∩ Ac ∩ Bc ) = µ ∗ (F ∩ A ∩ B) + µ ∗ (F ∩ (A ∩ B)c ). Das zeigt A ∩ B ∈ M (µ ∗ ). Damit ist M (µ ∗ ) eine Algebra. Lemma 1.46. Ist A1 , A2 , . . . eine endliche oder abzählbar unendliche Folge von paarweise disjunkten Mengen aus M (µ ∗ ), dann gilt für jedes F ⊂ Ω X µ ∗ F ∩ (∪k Ak ) = µ ∗ (F ∩ Ak ). (1.26) k Insbesondere ist µ ∗ σ -additiv auf M (µ ∗ ). 26 1.6 Äußere Maße Beweis. Wir betrachten zunächst den endlichen Fall von n paarweise disjunkten Mengen. Für n = 1 ist nichts zu zeigen. Für n = 2 müssen wir zwei Fälle unterscheiden. Ist A1 ∪ A2 = Ω, dann ist (1.26) gleichbedeutend mit der Aussage (1.24), wobei A1 = E und A2 = Ec (oder umgekehrt). Ist A1 ∪ A2 eine echte Teilmenge von Ω, dann ist µ ∗ (F ∩ (A1 ∪ A2 )) = µ ∗ (F ∩ (A1 ∪ A2 ) ∩ A1 ) + µ ∗ (F ∩ (A1 ∪ A2 ) ∩ Ac1 ) = µ ∗ (F ∩ A1 ) + µ ∗ (F ∩ A2 ), wobei wir für die zweite Gleichung die Disjunktheit von A1 und A2 ausgenutzt haben. Nehmen wir nun an, dass (1.26) für n − 1 gilt. Wie im Fall n = 2 erhalten wir mit der Induktionsvoraussetzung µ F∩ ∗ (∪nk=1Ak ) =µ F∩ ∗ (∪n−1 k=1Ak ) + µ (F ∩ An ) = ∗ n X µ ∗ (F ∩ Ak ). k=1 Damit ist (1.26) für endliche Folgen gezeigt. Der unendliche Fall folgt mit Monotonie. Es gilt nämlich µ F∩ ∗ ∞ (∪k=1 Ak ) ≥µ F∩ ∗ (∪nk=1Ak ) = n X µ ∗ (F ∩ Ak ). k=1 Mit n → ∞ folgt, dass die linke Seite von (1.26) größer oder gleich der rechten ist. Die umgekehrte Ungleichung folgt mit σ -Subadditivität von µ ∗ . Die σ -Additivität von µ ∗ folgt direkt aus (1.26) mit F = Ω. Satz 1.47. Ist µ ∗ ein äußeres Maß, dann ist M (µ ∗ ) eine σ -Algebra und die Einschränkung von µ ∗ auf M (µ ∗ ) ist ein Maß. Beweis. Zu zeigen ist nur, dass M (µ ∗ ) eine σ -Algebra ist. Dass, µ ∗ ein Maß darauf ist, haben wir bereits in Lemma 1.46 gesehen. Seien A1 , A2 , . . . disjunkte Mengen aus M (µ ∗ ) mit A = ∪k Ak . Nach Lemma 1.45 gilt Bn = ∪nk=1Ak ∈ M (µ ∗ ) und somit gilt für F ⊂ Ω µ ∗ (F ) = µ ∗ (F ∩ Bn ) + µ ∗ (F ∩ Bnc ) n X ≥ µ ∗ (F ∩ Ak ) + µ ∗ (F ∩ Ac ). k=1 27 1.6 Äußere Maße Hier haben wir (1.26) bei dem ersten Term und Monotonie von µ ∗ bei dem zweiten ausgenutzt, denn es ist Bnc ⊃ Ac . Mit n → ∞ und (1.26) folgt µ (F ) ≥ ∗ ∞ X µ ∗ (F ∩ Ak ) + µ ∗ (F ∩ Ac ) = µ ∗ (F ∩ A) + µ ∗ (F ∩ Ac ). k=1 Damit ist A ∈ M (µ ∗ ). Also ist M (µ ∗ ) abgeschlossen bezüglich Bildung abzählbarer disjunkter Vereinigungen, d.h. es ist ein Dynkin-System und eine Algebra. Nach Proposition 1.32 ist M (µ ∗ ) eine σ -Algebra. Definition 1.48 (Semiring). Ein Mengensystem A von Teilmengen von Ω heißt Semiring (oder Halbring), falls die folgenden Eigenschaften erfüllt sind. (i) ∅ ∈ A; (ii) A, B ∈ A ⇒ A ∩ B ∈ A; (iii) sind A, B ∈ A und A ⊂ B, dann gibt es paarweise disjunkte Mengen C 1 , . . . , Cn aus A, sodass B \ A = ∪nk=1Ck . Satz 1.49. Es sei A ein Semiring auf einer nichtleeren Menge Ω und sei µ eine nichtnegative Mengenfunktion auf A mit µ (∅) = 0. Ferner sei µ endlich additiv und σ -subadditiv. Dann gibt es eine Fortsetzung von µ zu einem Maß auf die σ -Algebra σ (A). Die Beweisidee dieses Satzes ist zu zeigen, dass für das zu µ gehörige (vgl. Beispiel 1.41) äußere Maß µ ∗ die folgende Aussage gilt A ⊂ M (µ ∗ ). Dann ist notwendigerweise auch σ (A) ⊂ M (µ ∗ ), weil M (µ ∗ ) eine σ -Algebra ist. Im nächsten Schritt zeigen wir noch µ (A) = µ ∗ (A) für A ∈ A. Dann ist µ ∗ eine Fortsetzung von µ auf M (µ ∗ ) und die Einschränkung von µ ∗ auf σ (A) liefert eine Fortsetzung von µ auf σ (A). Beweis. Es seien A, B ∈ A mit A ⊂ B und seien C 1 , . . . , Cn disjunkte Mengen aus A mit B \ A = ∪nk=1Ck . Mit endlicher Additivität folgt µ (B) = µ (A) + n X k=1 28 µ (Ck ). 1.6 Äußere Maße Also ist µ monoton. Wie in (1.23) definieren wir das zu µ gehörige äußere Maß µ ∗ durch (X ) µ ∗ (A) B inf µ (An ) : A ⊂ ∪n An , An ∈ A . (1.27) n Nun zeigen wir A ⊂ M (µ ∗ ). Sei also A ∈ A. Ist F ⊂ Ω mit µ ∗ (F ) = ∞, dann gilt (1.25) und damit (1.24) trivialerweise (mit E = A dort). Wenn µ ∗ (F ) < ∞ ist, dann kann man zu jedem ε > 0 Mengen An aus A finden mit F ⊂ ∪n An P und n µ (An ) < µ ∗ (F ) +ε. Da A ein Semiring ist, sind die Mengen Bn = A∩An in A enthalten und es gilt n Ac ∩ An = An \ Bn = ∪m C k=1 nk für geeignete disjunkte Mengen Cnk ∈ A. Es folgt n An = Bn ∪ (∪m C ), k=1 nk wobei die Vereinigung disjunkt ist. Ferner gilt A ∩ F ⊂ A ∩ (∪n An ) = ∪n Bn und n Ac ∩ F ⊂ Ac ∩ (∪n An ) = ∪n ∪m C . k=1 nk Mit Definition von µ ∗ und endlicher Additivität von µ erhalten wir X X n µ ∗ (A ∩ F ) + µ ∗ (Ac ∩ F ) ≤ µ (Bn ) + µ (∪m C ) k=1 nk n = X n µ (Bn ) + n = X mn XX µ (Cnk ) n k=1 ∗ µ (An ) < µ (F ) + ε. n Mit ε → 0 folgt (1.25), was A ∈ M (µ ∗ ) und A ⊂ M (µ ∗ ) zeigt. Im nächsten Schritt zeigen wir, dass µ ∗ eine Fortsetzung von µ ist, d.h. für alle A ∈ A gilt µ ∗ (A) = µ (A). Wenn A ⊂ ∪n An für Mengen A und An aus A, dann gilt erhalten wir mit σ -Subadditivität und Monotonie von µ X X µ (A) ≤ µ (A ∪ An ) ≤ µ (An ). n n 29 1.6 Äußere Maße Damit ist µ (A) ≤ µ ∗ (A) für alle A ∈ A. Die Umgekehrte Ungleichung µ (A) ≥ µ ∗ (A) folgt sofort aus (1.27), weil A ∈ A seine eigene Überdeckung ist. Also gilt µ = µ ∗ auf A. Da A ⊂ M (µ ∗ ) und M (µ ∗ ) eine σ -Algebra ist (siehe Satz 1.47), folgt A ⊂ σ (A) ⊂ M (µ ∗ ) ⊂ P (Ω). Die Einschränkung von µ ∗ auf M (µ ∗ ) ist ein Maß (wieder Satz 1.47). Also ist auch die Einschränkung von µ ∗ auf σ (A) ein Maß, welcher insbesondere eine Fortsetzung von µ ist. Als Korollar aus den Sätzen 1.49 und 1.37 erhalten wir das folgende wichtige Resultat. Satz 1.50 (Satz von Carathéodory). Ein σ -endliches Maß auf einer Algebra A0 besitzt eine eindeutige Fortsetzung zu einem Maß auf A = σ (A0 ). Beispiel 1.51 (Lebesgue-Maß auf R). Zusammen mit der leeren Menge bildet die Menge der Intervalle der Form (a, b], a, b ∈ R, a < b ein Semiring A auf R. Wir definieren eine Mengenfunktion λ : A → [0, ∞] durch λ(∅) = 0 und λ((a, b]) = b − a, a < b. (1.28) λ((a, b]) gibt also die Länge des Intervalls (a, b] ∈ A an. Man kann sich nun überlegen, dass λ endlich additiv, σ -subadditiv und σ -endlich ist (Übung!). Nach Satz 1.49 existiert eine Fortsetzung des Maßes λ auf die von A erzeugte σ -Algebra. Nach Proposition 1.21 ist σ (A) = B(R). Nach Satz 1.37 ist dieser Fortsetzungsmaß auf die Borel-σ -Algebra eindeutig. Es heißt Lebsesgue Maß auf R und wird üblicherweise auch mit λ bezeichnet. Beispiel 1.52 (Lebesgue-Maß auf Rd ). Wir haben gesehen, dass die Borel-σ Algebra B(Rd ) von beschränkten Rechtecken A = {x : ai < xi ≤ bi , i = 1, . . . , d } (1.29) erzeugt wird. Man kann zeigen, dass zusammen mit der leeren Menge die Menge dieser Rechtecke einen Semiring A bildet. Auf A definieren wir eine Mengenfunktion λd durch λd (∅) = 0 und d λ ({x : ai < xi ≤ bi , i = 1, . . . , d }) = d Y i=1 30 (bi − ai ). 1.6 Äußere Maße Mit Hilfe der Sätze 1.37 und 1.49 kann man zeigen, dass eine eindeutige Fortsetzung von λd auf σ (A) = B(Rd ) existiert. Die Fortsetzung wird auch mit λd bezeichnet und heißt das Lebessgue-Maß auf Rd . Mit dem Produktmaßsatz werden wir später eine weitere Methode kennenlernen, mit der man das Lebessgue-Maß auf (Rd , B(Rd )) konstruieren kann. Wenn A ein Semiring ist, dann ist nach Satz 1.37 ein σ -endliches Maß auf σ (A) eindeutig durch seine Werte auf A bestimmt. Aus dem Beweis von Satz 1.49 können wir ablesen wie die Maße von Mengen aus σ (A) durch die Maße von Mengen aus A approximiert werden. Lemma 1.53. Sind Mengen A, A1 , . . . , An in einem Semiring A enthalten, dann gibt es in A disjunkte Mengen C 1 , . . . , Cm mit A ∩ Ac1 ∩ · · · ∩ Acn = C 1 ∪ · · · ∪ Cm . Beweis. Für n = 1 schreiben wir A ∩ Ac1 = A \ (A ∩ A1 ). Da (A ∩ A1 ) ⊂ A ist folgt die Aussage aus der Definition 1.48 des Semirings. Angenommen, die Aussage gilt für ein n. Für n + 1 schreiben wir c A ∩ Ac1 ∩ . . . ∩ Acn+1 = ∪m j=1 (C j ∩ An+1 ). Auf jedes Element in dieser disjunkten Vereinigung können wir nun das Argument aus dem Fall n = 1 anwenden und erhalten die Aussage für n+1. Satz 1.54 (Approximationssatz). Es sei A ein Semiring, µ ein Maß auf σ (A), das σ -endlich auf A ist. Dann gelten die folgenden Aussagen: (i) Ist A ∈ σ (A) und ε > 0, dann gibt eine höchstens abzählbar unendliche Folge A1 , A2 , . . . paarweise disjunkter Mengen aus A mit A ⊂ ∪k Ak und µ ((∪k Ak ) \ A) < ε. (ii) Für A ∈ σ (A) mit µ (A) < ∞ und ε > 0 gibt eine endliche Folge A1 , . . . , An paarweise disjunkter Mengen aus A mit µ ((∪nk=1Ak ) 4 A) < ε. Beweis. Sei µ ∗ das zu µ gehörige äußere Maß definiert in (1.27). Im Beweis von Satz 1.49 haben wir gesehen, dass σ (A) ⊂ M (µ ∗ ) ist und dass µ und µ ∗ auf A übereinstimmen. Nach Satz 1.37 stimmen µ und µ ∗ auch auf σ (A) überein. Wenn A ∈ σ (A) mit µ (A) = µ ∗ (A) < ∞ gegeben ist, dann gibt es Mengen P A1 , A2 , . . . in A mit A ⊂ ∪k Ak und µ (∪k Ak ) ≤ k µ (Ak ) < µ (A) + ε, woraus 31 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen µ ((∪k Ak ) \ A) < ε folgt. Um zu erreichen, dass die Folge A1 , A2 , . . . disjunkt ist ersetzen wir Ak durch Ak ∩ Ac1 ∩ · · · ∩ Ack−1 . Nach Lemma 1.53 kann jede solche Menge als endliche Vereinigung von disjunkten Mengen aus A dargestellt werden. Weiteres Umbenennen (und Umnummerieren) der Ak ’s liefert die Behauptung (i) im Fall µ (A) = µ ∗ (A) < ∞. Sei nun A ∈ σ (A) mit µ (A) = µ ∗ (A) = ∞ gegeben. Wegen σ -Endlichkeit auf A gibt es Mengen Ω1 , Ω2 , . . . in A mit Ω = ∪n Ωn und µ (Ωn ) < ∞. In dem endlichen Fall haben wir gesehen, dass für jedes n es Mengen An1 , An2 , . . . in A gibt mit A ∩ Ωn ⊂ ∪k Ank und µ ((∪k Ank ) \ (A ∪ Ωn )) < ε/2n . Wir können A1 , A2 , . . . (wieder durch Umnummerieren) aus A so wählen, dass ∪k Ak = ∪n ∪k Ank ist. Dann ist A ⊂ ∪k Ak und es gilt X µ ((∪k Ak ) \ A) ≤ µ ((∪k Ak ) \ (A ∩ Ωn )) < ε. n Wie zuvor kann man erreichen, dass die Ak disjunkt sind. Nun kommen wir zu (ii). Sei A ∈ σ (A) mit µ (A) < ∞ gegeben und seien ∞ A ) < ∞. die zugehörigen Ak aus A wie in (i) gewählt. Dann gilt auch µ (∪k=1 k ∞ A ) \ (∪n A )) < ε für ein Mit absteigender Stetigkeit von µ folgt µ ((∪k=1 k k k=1 (genügend großes) n. Dann folgt µ (∪nk=1Ak ) 4 A = µ (∪nk=1Ak ) \ A + µ A \ (∪nk=1Ak ) ≤ µ (∪k Ak ) \ A + µ (∪k Ak ) \ (∪nk=1Ak ) < 2ε. 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen Definition 1.55. Ein Lebesgue-Stieltjes Maß auf R ist ein Maß µ auf B(R) mit µ (I ) < ∞ für jedes beschränkte Intervall I . In diesem Abschnitt werden wir zeigen, dass durch die Gleichung µ ((a, b]) = F (b) − F (a) eine eineindeutige Beziehung zwischen Lebesgue-Stieltjes Maßen µ und nichtfallenden rechtsstetigen Funktionen F : R → R besteht, wenn man die Funktionen miteinander identifiziert, die sich nur durch eine additive Konstante unterscheiden. 32 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen Satz 1.56. Es sei µ ein Lebesgue-Stieltjes Maß auf R und sei F : R → R eine bis auf eine additive Konstante eindeutig definierte Funktion F (b) − F (a) = µ ((a, b]). (1.30) Dann gilt (i) F ist nichtfallend: a ≤ b ⇒ F (a) ≤ F (b); (ii) F ist rechtsstetig: limx→a+ F (x ) = F (a) für alle a ∈ R. Beweis. Die Funktion F ist nichtfallend, denn für a ≤ b ist F (b) − F (a) = µ ((a, b]) ≥ 0. Ist a ∈ R und x 1 > x 2 > . . . eine Folge mit xn ↓ a dann gilt (a, xn ] ↓ ∅ und F (xn ) − F (a) = µ ((a, xn ]) → 0 nach Proposition 1.27. Also ist F rechtsstetig. Wie wir schon oben bemerkt haben ist die Funktion F im obigen Satz bis auf eine additive Konstante eindeutig bestimmt. Eindeutigkeit erreicht man durch eine Extrabedingung indem man den Funktionswert an einer bestimmten Stelle festlegt. Man kann beispielsweise F (0) fixieren und dann F (x ) − F (0) = µ ((0, x]) für x > 0 und F (0) − F (x ) = µ ((x, 0]) für x < 0 setzen. Mit F (0) = 0 ergibt sich µ ((0, x]) : x > 0, F (x ) = (1.31) −µ ((x, 0]) : x < 0. Das Lebesgue-Maß aus Beispiel 1.51 ist natürlich ein Lebesgue-Stieltjes Maß auf R. Die zugehörige Funktion, wie in (1.31) definiert, ist F (x ) = x. Im Fall von endlichen Maßen µ definiert man F üblicherweise nicht durch (1.31), sondern durch F (x ) = µ ((−∞, x]). (1.32) Dann ist limx→−∞ F (x ) = 0 und limx→∞ F (x ) = µ (R). Definition 1.57 (Verteilungsfunktion). Wenn µ ein Wahrscheinlichkeitsmaß auf R ist, dann heißt die in (1.32) definierte Funktion Verteilungsfunktion. Maße auf R werden sehr oft durch die zu ihnen mittels (1.30) gehörende Funktion angegeben, was durch die folgende Umkehrung von Satz 1.56 gerechtfertigt wird. Aus diesem Grund werden nichtfallende rechtsstetige Funktionen manchmal als maßdefinierende Funktionen bezeichnet. 33 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen Satz 1.58. Es sei F : R → R eine nichtfallende rechtsstetige Funktion. Dann gibt es ein eindeutiges Maß µ auf B(R), das (1.30) erfüllt. Beweis. Die Menge A der halboffenen Intervalle (a, b] mit der leeren Menge ist ein Semiring. Durch µ ((a, b]) = F (b) − F (a) wird ein σ -endliches Maß auf A definiert. Nach Satz 1.37 ist eine Fortsetzung von µ auf σ (A) = B(R) (sofern sie existiert) eindeutig. Für die Existenz müssen wir die Voraussetzungen von Satz 1.49 prüfen. Die Eigenschaften µ ≥ 0 und µ (∅) = 0 sind klar. Es bleibt also noch die endliche Additivität und σ -Subadditivität von µ auf A zu zeigen. Sind die Intervalle (a 1 , b1 ], . . . , (an , bn ] disjunkt und gilt ∪nk=1 (ak , bk ] ⊂ (a, b], dann ist n X (F (bk ) − F (ak )) ≤ (F (a 1 ) − F (a)) + (F (b1 ) − F (a 1 )) + (F (a 2 ) − F (b1 )) + · · · k=1 · · · + (F (an ) − F (bn−1 )) + F (bn ) − F (an ) + (F (b) − F (bn )) = F (b) − F (a). Sind die Intervalle (a 1 , b1 ], . . . , (an , bn ] beliebig und gilt ∪nk=1 (ak , bk ] ⊃ (a, b], dann ist n X (F (bk ) − F (ak )) ≥ F (b) − F (a). k=1 Diese beiden Ungleichungen implizieren die endliche Additivität. ∞ (a , b ]. Sei ε ∈ (0, b −a). Seien (a 1 , b1 ], (a 2 , b2 ], . . . beliebig und (a, b] ⊂ ∪k=1 k k Für k ∈ N wähle bk0 > bk mit F (bk0 ) − F (bk ) < ε/2n (dies ist möglich wegen ∞ (a , b 0 ). Nach dem Satz der Rechtsstetigkeit von F ). Dann gilt [a + ε, b] ⊂ ∪k=1 k k von Heine-Borel gibt es eine endliche Überdeckung des kompakten Intervalls [a + ε, b] durch offene Intervalle (ak1 , bk0 1 ), . . . , (akn , bk0 n ). Es folgt F (b) − F (a + ε ) = µ ((a + ε, b]) ≤ n X `=1 ≤ n X µ ((ak ` , bk0 ` ]) µ ((ak ` , bk ` ]) + ε/2 −k ` `=1 ≤ ∞ X k=1 34 µ ((ak , bk ]) + ε. 1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen Mit ε → 0 und Rechtsstetigkeit von F erhalten wir F (b) − F (a) = µ ((a, b]) ≤ ∞ X µ ((ak , bk ]). k=1 Nun folgt mit Satz 1.49 die Existenz der Fortsetzung, was den Beweis abschließt. Lebesgue-Stieltjes Maße auf Rd sind Maße, die beschränkten Borel-Mengen endliches Maß zuweisen. Man kann auch Verteilungsfunktionen (oder allgemeiner maßdefinierende Funktionen) auf Rd für d ≥ 2 definieren. Insbesondere benötigt man eine geeignete Definition von Stetigkeit von oben (die für d = 1 mit Rechtsstetigkeit übereinstimmt) und Monotonie. Verteilungsfunktionen auf Rd für d ≥ 2 sind jedoch relativ unhandliche Objekte und werden deswegen nicht sehr oft gebraucht. Wir bemerken an dieser Stelle nur, dass es eine Version von Satz 1.58 in Rd gibt (siehe z.B. Theorem 12.5 in Billingsley (1995)). Wir schließen diesen Abschnitt mit einem Resultat über Regularität von Lebesgue-Stieltjes Maßen. Satz 1.59. Es sei µ ein Lebesgue-Stieltjes Maß auf Rd . Dann gelten die folgenden Aussagen: (i) Für jedes A ∈ B(Rd ) und ε > 0 gibt es eine abgeschlossene Menge C und offene Menge G mit C ⊂ A ⊂ G und µ (G \ C) < ε. (ii) Ist µ (A) < ∞, dann ist µ (A) = sup{µ (K ) : K ⊂ A, K kompakt}. Beweis. Sei A = {x : ai < xi ≤ bi , 1 ≤ i ≤ d } ein beschränktes Rechteck. Die Mengen Gn = {x : ai < xi < bi + n −1 , 1 ≤ i ≤ d} sind offen und es gilt Gn ↓ A. Da µ (G 1 ) < ∞ ist, folgt mit absteigender Stetigkeit von µ, dass µ (Gn \ A) < ε für genügend große n ist, d.h. beschränkte Rechtecke können von außen durch offene Mengen approximiert werden. Sei nun A ∈ B(Rd ) beliebig. Die Menge der beschränkte Rechtecke ist ein Semiring. Nach Satz 1.54(i) gibt es beschränkte Rechtecke Ak mit A ⊂ ∪k Ak und µ ((∪k Ak ) \ A) < ε. Für jedes k wähle nun offene Menge Gk mit Ak ⊂ Gk und µ (Gk \ Ak ) < ε/2k . Dann ist G = ∪k Gk offen und es gilt µ (G \ A) < 2ε. Also können alle Borel-messbaren Mengen von außen durch offene Mengen approximiert werden. 35 1.8 Messbare Funktionen und Abbildungen Um zu sehen, dass Borel-messbare Mengen von innen durch abgeschlossene Mengen approximiert werden können, geht man zu Komplementen über. Ist A Borel-messbar, dann gibt es eine offene Menge G mit Ac ⊂ G und µ (G\Ac ) = µ (G∩A) = µ (A\G c ) < ϵ. Die Menge C = G c ist eine abgeschlossene Teilmenge von A. Das schließt den Beweis von (i) ab. Die Aussage (ii) folgt aus (i). Aus µ (A) < ∞ folgt zunächst, dass es eine beschränkte Teilmenge A0 von A gibt mit µ (A \ A0 ) < ε. Mit (i) folgt dann µ (A0 \ K ) < ε für eine abgeschlossene und somit kompakte Teilmenge von A0 . 1.8 Messbare Funktionen und Abbildungen In diesem Abschnitt beschäftigen wir uns mit Abbildungen zwischen Maßräumen. Für f : Ω1 → Ω2 und A ⊂ Ω2 ist das Urbild von A unter der Abbildung f definiert durch ( ) f −1 (A) B ω ∈ Ω : f (ω) ∈ A . (1.33) Folgende Eigenschaften von Urbildern sind leicht nachzurechnen: f −1 (Ac ) = ( f −1 (A))c , f −1 (∪n An ) = ∪n f −1 (A), f −1 (∩n An ) = ∩n f −1 (An ). (1.34) Definition 1.60 (Messbare Abbildungen). Es seien (Ω1 , A1 ) und (Ω2 , A2 ) messbare Räume. (i) Eine Abbildung f : Ω1 → Ω2 heißt A1 -A2 messbar (oder kurz messbar), wenn f −1 (A2 ) ⊂ A1 ist, d.h. wenn f −1 (A) ∈ A1 für alle A ∈ A2 . Wir schreiben dann auch f : (Ω1 , A1 ) → (Ω2 , A2 ). (ii) Im Fall (Ω2 , A2 ) = (Rd , B(Rd )), d ≥ 1 nennen wir eine A1 -B(Rd ) messbare Abbildung f Borel-messbar. (iii) In wahrscheinlichkeitstheoretischem Kontext nennen wir eine Borelmessbare Abbildung Zufallsvariable, wenn d = 1 ist, und Zufallsvektor, wenn d ≥ 2 ist. Bemerkung 1.61. Nach Übung 1.7 ist f −1 (A2 ) eine σ -Algebra über Ω1 . Dies ist die kleinste σ -Algebra, bezüglich der die Abbildung f f −1 (A2 )-A2 messbar ist. Ist also f eine A1 -A2 messbare Abbildung, dann folgt f −1 (A2 ) ⊂ A1 . 36 1.8 Messbare Funktionen und Abbildungen Beispiel 1.62. (i) Ist A1 = P (Ω1 ) oder A2 = {∅, Ω2 } dann ist jede Abbildung von Ω1 nach Ω2 messbar. (ii) Eine Indikatorfunktion 1A für ein A ⊂ Ω1 ist genau dann eine messbare Abbildung von (Ω1 , A1 ) nach ({0, 1}, P ({0, 1})), wenn A ∈ A1 ist. (iii) Eine Abbildung f mit einer endlichen Bildmenge {ω 1 , . . . , ωm } ist genau dann messbar, wenn f −1 ({ωi }) ∈ A1 für alle i = 1, . . . , m ist. Satz 1.63. Es seien (Ω1 , A1 ), (Ω2 , A2 ) und (Ω3 , A3 ) messbare Räume, f : Ω1 → Ω2 und д : Ω2 → Ω3 . Dann gilt (i) Ist f −1 (A) ∈ A1 für alle A ∈ E und gilt σ (E) = A2 , dann ist f A1 -A2 messbar. (ii) Ist f A1 -A2 messbar und ist д A2 -A3 messbar, dann ist д ◦ f A1 -A3 messbar. Beweis. Übung! Beispiel 1.64. Sind (Ω1 , τ1 ) und (Ω2 , τ2 ) topologische Räume und B(τi ) die zugehörigen Borel-σ -Algebren, dann gilt: Ist f : Ω1 → Ω2 stetig, so auch B(τ1 )-B(τ2 ) messbar. (Beweis mit (i) und E = τ2 .) Für Abbildungen f : Ω → Rd gehen wir, wenn nichts anderes gesagt wird, stets davon aus, dass B(Rd ) die σ -Algebra ist, mit der Rd ausgestattet ist. Im Folgenden nennen wir reellwertige A-B(R) messbare Funktionen A-messbar, oder einfach messbar, wenn klar ist was A ist. Bemerkung 1.65. Sei (Ω, A) ein messbarer Raum und f : Ω → R. Dann ist f genau dann A messbar, wenn f −1 ((−∞, x]) ∈ A für alle x ∈ R (oder alle x ∈ Q). (Beweis mit (i) und E = die Menge der halboffenen Intervalle.) Ist f = ( f 1 , . . . , fd ) : Ω → Rd , dann gilt mit derselben Begründung: f ist genau dann A messbar, wenn für jedes x = (x 1 , . . . , xd ) die Menge d ( ( ) \ ) ω : f 1 (ω) ≤ x 1 , . . . , fd (ω) ≤ xd = ω : fk (ω) ≤ xk (1.35) k=1 in A liegt. Diese Bedingung gilt wiederum, wenn jede Funktion fk messbar bezüglich A ist. Andererseits, wenn wir xk = x festhalten und alle anderen 37 1.8 Messbare Funktionen und Abbildungen Koordinaten gegen unendlich schicken, dann steigt die rechte Seite von (1.35) gegen {ω : fk (ω) ≤ x } auf. Also ist f genau dann messbar, wenn alle fk messbar sind. Mit der obigen Bemerkung und Satz 1.63 folgt leicht das folgende Resultat. Satz 1.66. Sind die Funktionen fk : Ω → R, k = 1, . . . , d messbar bezüglich A und д : Rd → R messbar, dann ist ω 7→ д( f 1 (ω), . . . , fd (ω)) messbar. Mit diesem Satz erhalten wir eine Reihe von Beispielen messbarer FunkP Q tionen. Nimmt man z.B. д(x 1 , . . . , xd ) als dk=1 xk , dk=1 xk , max{x 1 , . . . , xd } oder max{x 1 , . . . , xd } so folgt, dass Summen, Produkte, Maxima und Minima messbarer Funktionen messbar sind. Ist f messbar, dann auch sin f und e f . Ist außerdem f (ω) , 0 für alle ω ∈ Ω, so ist 1/f messbar. Satz 1.67. Es sei (Ω, A) ein messbarer Raum und seien f und д Borel-messbare Funktionen. Dann gilt {ω : f (ω) < д(ω)}, {ω : f (ω) ≤ д(ω)}, {ω : f (ω) = д(ω)} ∈ A. Beweis. Die Ungleichung f (ω) < д(ω) gilt genau dann, wenn es ein r ∈ Q gibt mit f (ω) < r < д(ω). Es folgt [ {ω : f (ω) < д(ω)} = {ω : f (ω) < r } ∩ {ω : r < д(ω)} . r∈ Q Damit ist {ω : f (ω) < д(ω)} ∈ A als eine abzählbare Vereinigung von Mengen aus A. Genauso gilt {ω : f (ω) > д(ω)} ∈ A und daher auch {ω : f (ω) ≤ д(ω)} = {ω : f (ω) > д(ω)}c ∈ A. Schließlich ist auch {ω : f (ω) = д(ω)}{ω : f (ω) ≤ д(ω)} \ {ω : f (ω) < д(ω)} ∈ A. Im Zusammenhang mit Grenzwerten von Folgen reellwertiger Funktionen ist es oft vorteilhaft mit R = R ∪ {−∞, +∞} zu arbeiten. Mit B(R) bezeichnen wir die σ -Algebra der Borelmengen von R: B(R) B {B ⊂ R : B ∩ R ∈ B(R)}. 38 (1.36) 1.8 Messbare Funktionen und Abbildungen Man kann auf R direkt auch eine Metrik definieren und dann zeigen, dass B(R) von der induzierten Topologie erzeugt wird. Wir verweisen an dieser Stelle auf Korollar 1.87 und die Diskussion davor in Klenke (2013). Ist (Ω, A) ein messbarer Raum, dann nennen wir eine Funktion f : Ω → R A-messbar (oder Borel-messbar), wenn sie A-B(R) messbar ist. Das ist dann der Fall, wenn f −1 ({−∞}), f −1 ({+∞}) ∈ A und f −1 (B) ∈ A für alle B ∈ B(R) gilt. Satz 1.68. Es sei (Ω, A) ein messbarer Raum und sei f 1 , f 2 , . . . eine Folge AB(R) messbarer Funktionen. (i) Die Funktionen supn fn , inf n fn , lim supn fn und lim inf n fn sind A messbar. (ii) Wenn limn fn (ω) für alle ω ∈ Ω existiert, dann ist es messbar. (iii) Es gilt {ω ∈ Ω : fn (ω) ist konvergent} ∈ A. (iv) Ist f eine A messbare Funktion, so gilt {ω ∈ Ω : limn fn (ω) = f (ω)} ∈ A. Beweis. Für alle x ∈ R gilt {supn fn ≤ x } = ∩n { fn ≤ x } ∈ A und {inf n fn ≤ x } = ∪n { fn ≤ x } ∈ A. Das zeigt die Messbarkeit von supn fn und inf n fn . Daraus erhalten wir auch die Messbarkeit von lim supn fn = inf n supk ≥n fk und lim inf n fn = supn inf k ≥n fk . Wenn limn fn existiert stimmt es mit lim supn fn und lim inf n fn überein und ist deswegen messbar. Die Aussagen (iii) und (iv) sind beides Anwendungen von Satz 1.67. Die Menge in (iii) ist die Menge der ω mit lim supn fn (ω) = lim inf n fn (ω). Die Menge in (iv) ist die Menge der ω mit lim supn fn (ω) = lim inf n fn (ω) = f (ω). Definition 1.69 (Einfache Funktionen, Elementarfunktionen). Eine Funktion f : Ω → R heißt einfache Funktion (oder auch Elementarfunktion)), wenn es endlich viele disjunkte Teilmengen A1 , . . . , An von Ω und zahlen α 1 , . . . , αn ∈ R gibt, mit f (ω) = n X αi 1Ai (ω), ω ∈ Ω. (1.37) i=1 Natürlich ist eine Elementarfunktion genau dann messbar, wenn jedes Ai in der obigen Definition in A (der σ -Algebra über Ω) liegt. Es ist klar, dass eine Elementarfunktion nur endlich viele Werte annimmt. Umgekehrt ist jede Funktion, die nur endlich viele Werte annimmt eine Elementarfunktion. 39 1.8 Messbare Funktionen und Abbildungen Beweise vieler Resultate über messbare Funktionen fangen erst mit dem Beweis des Resultates für Elementarfunktionen an, der dann mit einem Approximationsargument auf alle nichtnegative messbare Funktionen übertragen wird. Mit der Zerlegung f = f + − f − (siehe den Beweis unten) kann das Resultat dann oft auch auf beliebige messbare Funktionen übertragen werden. Hinter diesen Argumenten steckt der folgende Satz. Satz 1.70 (Approximation messbarer Funktionen durch einfache Funktionen). Es sei f eine Borel-messbare Funktion auf (Ω, A). Dann gelten folgende Aussagen: (i) Ist f ≥ 0, dann gibt eine Folge f 1 , f 2 , . . . von nichtnegativen messbaren Elementarfunktionen mit fn ↑ f . (ii) Ist f beliebig, dann gibt eine Folge f 1 , f 2 , . . . von messbaren Elementarfunktionen mit fn (ω) ↑ f (ω), wenn f (ω) ≥ 0 und fn (ω) ↓ f (ω), wenn f (ω) ≤ 0. Beweis. Um (i) zu beweisen definieren wir die Folge fn durch (k − 1)2−n : wenn (k − 1)2−n ≤ f (ω) < k2−n , 1 ≤ k < n2n , fn (ω) = n : wenn n ≤ f (ω) ≤ ∞. Der Beweis, dass für jedes ω die Folge fn (ω) punktweise nichtfallend ist und gegen f (ω) aufsteigt bleibt als Übung. Für (ii), zerlegen wir die Funktion f in ihren Positiv- und Negativteil: f = f + − f − mit f + (x ) = f (x ) ∨ 0 = max{ f (x ), 0} und f − (x ) = (−f (x )) ∨ 0 = max{−f (x ), 0}. Sowohl f + als auch f − sind nichtnegativ und messbar. Sind die zugehörigen Approximationen fn+ und fn− wie (i) gewählt, so ist fn+ − fn− die gesuchte Approximation von f durch Elementarfunktionen. In der Wahrscheinlichkeitstheorie spricht man oft von Verteilungen (angegeben z.B. durch Verteilungsfunktionen oder Dichten) von Zufallsvariablen X auf R ohne unbedingt den zugehörigen Wahrscheinlichkeitsraum anzugeben. Diese Verteilungen sind Bildmaße unter der Abbildung X . Satz 1.71 (Bildmaß). Es seien (Ω1 , A1 ) und (Ω2 , A2 ) messbare Räume, sei µ ein Maß auf A1 und f : (Ω1 , A1 ) → (Ω2 , A2 ). Dann ist die Mengenfunktion µ f −1 definiert auf A2 durch µ f −1 (A) = µ f −1 (A) , A ∈ A2 , (1.38) ein Maß auf A2 . 40 1.9 Übungen Beweis. Wegen der Messbarkeit von f ist µ f −1 wohldefiniert. Die Aussagen µ f −1 (∅) = 0 und µ f −1 (A) ≥ 0 für alle A ∈ A2 sind klar. Sind A1 , A2 , . . . paarweise disjunkte Mengen aus A2 , dann sind f −1 (A1 ), f −1 (A2 ), . . . paarweise disjunkte Mengen aus A1 . Außerdem gilt f −1 (∪n An ) = ∪n f −1 (An ). Damit folgt µ f −1 (∪n An ) = µ f −1 (∪n An ) = µ ∪n f −1 (An ) X X = µ f −1 (An ) = µ f −1 (An ). n n Definition 1.72 (Bildmaß). Das in (1.38) definierte Maß µ f −1 auf A2 heißt Bildmaß von µ unter der Abbildung f . Es ist klar, dass Bildmaße endlicher Maße endlich sind und, dass Bildmaße von Wahrscheinlichkeitsmaßen wieder Wahrscheinlichkeitsmaße sind. Im Allgemeinen sind Bildmaße σ -endlicher Maße nicht σ -endlich. Man betrachte z.B. das Bildmaß des Lebesgue-Maßes unter der Funktion f : R → R, f (x ) = 0 für alle x ∈ R. 1.9 Übungen Übung 1.1. Beweisen Sie Proposition 1.1. Übung 1.2. Beweisen Sie Proposition 1.5. Übung 1.3. Es sei Ω eine nichtleere Menge und seien A1 , A2 , . . . Teilmengen von Ω. Bestimmen Sie lim inf n→∞ 1An und lim supn→∞ 1An (beides sind natürlich Funktionen, die Ω auf {0, 1} abbilden). Übung 1.4. Für n ∈ N sei An = (−1/n, 1] für ungerade n und An = (−1, 1/n] für gerade n. Berechnen Sie lim inf n→∞ An und lim supn→∞ An . Übung 1.5. Zeigen Sie die Behauptungen in (d) und (f) aus Beispiel 1.12. Übung 1.6 (Spur-σ -Algebra). Es sei Ω eine beliebige nichtleere Menge, A eine σ -Algebra über Ω und Ω0 ⊂ Ω (nicht notwendigerweise Ω0 ∈ A). Ferner sei A0 B {A ∩ Ω0 : A ∈ A}. Zeigen Sie: 41 1.9 Übungen a) A0 ist eine σ -Algebra über Ω0 . b) Ist Ω0 ∈ A, dann gilt A0 = {A : A ⊂ Ω0 , A ∈ A}. Übung 1.7. Seien Ω1 und Ω2 zwei nichtleere Mengen, A2 eine σ -Algebra über Ω2 und sei f : Ω1 → Ω2 eine (beliebige) Abbildung. Dann ist A1 B { f −1 (A) : A ∈ A2 } eine σ -Algebra über Ω1 . (Diese wird oft mit σ ( f ) bezeichnet und heißt, dann die von f erzeugte σ -Algebra.) Dabei ist f −1 (A) = {ω ∈ Ω1 : f (ω) ∈ A}. Übung 1.8. Geben Sie ein (einfaches) Beispiel dafür an, dass Vereinigungen von σ -Algebren über derselben Menge Ω im Allgemeinen keine σ -Algebren sind. Übung 1.9. Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebra auf Ω. Ferner sei H eine Teilmenge von Omeдa mit H < A (H ist also nicht A-messbar). Zeigen Sie σ A ∪ {H } = {(H ∩ A) ∪ (H c ∩ B) : A, B ∈ A}. Bemerkung: Beachten Sie, dass A ∪ {H } etwas anderes bedeutet als A ∪ H = {A ∪ H : A ∈ A}. Man kann zeigen, dass σ A ∪ H ⊂ {(H ∩ A) ∪ (H c ∩ B) : A, B ∈ A} gilt, und sich an einem einfachen Beispiel überlegen, dass die umgekehrte Inklusion im Allgemeinen falsch ist. Übung 1.10. Beweisen Sie Proposition 1.22. Übung 1.11. Es sei µ das Zählmaß auf einer unendlichen Menge Ω. Zeigen Sie, dass es eine Folge (An )n=1,2,... gibt mit An ↓ ∅ und limn→∞ µ (An ) , 0. Überlegen Sie sich, wie das mit Proposition 1.27 zusammen passt. Übung 1.12. Es sei (Ω, A) ein messbarer Raum und sei µ : A → [0, +∞] eine σ -additive Mengenfunktion. Zeigen Sie, dass µ (∅) = 0 ist (also ist µ ein Maß), wenn es ein A ∈ A mit der Eigenschaft µ (A) < ∞ gibt. Übung 1.13 (Stetigkeit endlicher Maße). Es sei (Ω, A, µ) ein Maßraum mit endlichem Maß µ. Ist A1 , A2 , . . . eine Folge aus A mit limn→∞ An = A, so ist limn→∞ µ (An ) = µ (A). 42 1.9 Übungen Übung 1.14. Es sei (Ω, A, µ) ein Maßraum. Sind A, B ∈ A beliebig und gilt µ (A) < ∞ oder µ (B) < ∞, dann gilt |µ (A) − µ (B)| ≤ µ (A 4 B). Übung 1.15 (Einschluss-Ausschluss-Formel). Sei µ ein endliches Maß auf dem messbaren Raum (Ω, A). Zeigen Sie die folgenden Aussagen (a) Für A, B ∈ A gilt µ (A ∪ B) = µ (A) + µ (B) − µ (A ∩ B). (b) Für A, B, C ∈ A gilt µ (A ∪ B ∪ C) = µ (A) + µ (B) + µ (C) − µ (A ∩ B) − µ (A ∩ C) − µ (B ∩ C) + µ (A ∩ B ∩ C). (c) Für A1 , . . . , An ∈ A gilt (mit [n] = {1, . . . , n}) µ (∪ni=1Ai ) = n X k=1 (−1)k+1 X µ (Ai 1 ∩ . . . ∩ Aik ). {i 1 ,...,i k }⊂[n] Übung 1.16. Beweisen Sie Lemma 1.33. Übung 1.17. Beweisen Sie die Behauptung aus Beispiel 1.34.2. Übung 1.18. Unten sind für verschiedene nichtleere Grundmengen Ω Mengenfunktionen µ ∗ : P (Ω) → [0, ∞] definiert. Entscheiden Sie (mit Beweis oder Gegenbeispiel), welche davon äußere Maße sind. 1. Ω beliebig, für ein festes x 0 ∈ Ω sei µ ∗ (E) = 1E (x 0 ) für alle E ∈ P (Ω); 2. Ω beliebig, µ ∗ (E) = 1 für alle E ∈ P (Ω); 3. Ω = {x, y}, µ ∗ sei definiert durch µ ∗ (∅) = 0, µ ∗ ({x }) = µ ∗ ({y}) = 10, µ ∗ (Ω) = 1; 4. Ω sei eine Menge bestehend aus 100 Punkten, die in eine 10 × 10 Matrix angeordnet sind, µ ∗ (E) sei definiert als die Anzahl der Spalten, die mindestens einen Punkt aus E enthalten. 43 1.9 Übungen 5. Ω = N, µ ∗ (E) = lim supn n1 |E ∩ {1, . . . , n}|, wobei |A| die Anzahl der Elemente der Menge A bezeichnet. Übung 1.19. 1. Es seien ν ∗ und λ∗ äußere Maße. Zeigen Sie, dass durch µ ∗ (E) = ν ∗ (E) ∨ λ∗ (E) = max{ν ∗ (E), λ∗ (E)} ein äußeres Maß µ ∗ definiert ist. 2. Es sei {µn∗ } eine Folge von äußeren Maßen und sei {an } eine Folge positiver reeller Zahlen. Zeigen Sie, dass durch X µ ∗ (E) = an µn∗ (E) n ein äußeres Maß µ∗ definiert ist. Übung 1.20. Es sei F0 die Algebra in Q, die alle Mengen der Form (a, b] ∩ Q, (a, ∞) ∩ Q (a, b ∈ Q) und Q selbst enthält. Ferner sei F = σ (F0 ) die von F0 erzeugte σ -Algebra. Zeigen Sie 1. F ist die Potenzmenge von Q. 2. Das Zählmaß µ (d.h. µ (A) ist die Anzahl der Punkte in der Menge A) ist σ -endlich auf F , aber nicht auf F0 . 3. Es gibt Mengen A ∈ F , deren Maß endlich ist, die aber nicht durch Mengen aus F0 approximiert werden können, d.h. es gibt keine Folge An ∈ F0 mit µ (A 4 An ) → 0. 4. Ist λ ein Maß mit λ = 2µ, dann gilt zwar λ = µ auf F0 , aber nicht auf F . Übung 1.21. Beweisen Sie Proposition 1.44. Übung 1.22. Es sei ein Maßraum (Ω, F , µ) gegeben. Seien µ ∗ und µ ∗ das äußere bzw. das innere Maß, d.h. für D ∈ P (Ω) µ ∗ (D) = inf {µ (F ) : F ∈ F , F ⊃ D}, µ ∗ (D) = sup{µ (F ) : F ∈ F , F ⊂ D}. Zeigen Sie, dass die σ -Algebren M (µ ∗ ) = {A ⊂ Ω : µ ∗ (A) = µ ∗ (A ∩ B) + µ ∗ (A ∩ Bc ), für alle B ⊂ Ω} M (µ) = {A ⊂ Ω : µ ∗ (A) = µ ∗ (A)} übereinstimmen. 44 1.9 Übungen Übung 1.23. Beweisen Sie folgende Aussagen: (i) Ist B eine Borel-messbare Teilmenge von Rd und x ∈ Rd , dann sind die Mengen x + B = {x + b : b ∈ B} und B = {−b : b ∈ B} Borel-messbar. (ii) Es sei λd das Lebesgue-Maß auf (Rd , B(Rd )). Dann gilt λd (B) = λd (x + B) für alle B ∈ B(Rd ) und x ∈ Rd . (iii) Es sei µ ein Lebesgue-Stieltjes Maß mit µ (B) = µ (x + B) für alle B ∈ B(Rd ) und x ∈ Rd . Dann gibt es α ≥ 0 mit µ (A) = αλd (A), A ∈ B(Rd ). Bemerkung: Die Eigenschaft (ii) bedeutet, dass das Lebesgue-Maß translationsinvariant ist. Nach (iii) ist das Lebesgue-Maß bis auf eine multiplikative Konstante das einzige translationsinvariante Maß auf (Rd , B(Rd )). Übung 1.24. Es sei λd das Lebesgue-Maß auf (Rd , B(Rd )) und seien B ein d − 1 dimensionaler Unterraum und x < B. Dann gilt λd (xt + B) = 0 für alle t ∈ R. Hinweis: Zeigen Sie zunächst: Ist µ ein σ -endliches Maß auf einer σ -Algebra (oder Algebra) A, dann enthält A keine überabzählbare Familie von disjunkten Mengen deren µ-Maß positiv ist. Wenden Sie dann Übung 1.23 (ii) an. Übung 1.25. Es sei F eine Funktion auf R definiert durch 0 1 + x F (x ) = 2 + x2 9 : x < −1, : −1 ≤ x < 0, : 0 ≤ x < 2, : x ≥ 2. Berechnen Sie für das zu F gehörige Lebesgue-Stieltjes Maß die Maße der folgenden Mengen: (a) {2}, (b) [−1/2, 3), (c) (−1, 0] ∪ (1, 2), (d) [0, 1/2) ∪ (1, 2], (e) {x : |x | + 2x 2 > 1}. 45 1.9 Übungen Übung 1.26. Beweisen Sie folgende Aussagen. (i) Jede nichtfallende Funktion F : R → R besitzt höchstens abzählbar viele Unstetigkeitstellen. (ii) Jede nichtfallende Funktion F : R → R besitzt eine rechtsstetige Modifikation, d.h. es existiert eine nichtfallende rechtsstetige Funktion FH, die sich an höchstens abzählbar vielen Stellen von F unterscheidet. (iii) Es sei D eine dichte Teilmenge von R und sei F : D → R eine nichtfallende Funktion mit F (x ) = F (x+) = lim F (y). y∈D,y↓x Dann gibt es genau eine nichtfallende rechtsstetige Fortsetzung von F auf R gibt. Dabei wird eine Funktion FD : R → R Fortsetzung von F genannt, falls FD(x ) = F (x ) für alle x ∈ D gilt. Hinweis zu (a): Beweisen Sie zuerst, dass F (x−) = limy↑x F (y) und F (x+) = lim y↓x F (y) fürjedes x ∈ R existieren und betrachten Sie dann Intervalle I (x ) = F (x−), F (x+) . Übung 1.27. 1. Es seien µ ein Wahrscheinlichkeitsmaß auf (R, B(R)) und F die zugehörige Verteilungsfunktion. Zeigen Sie: F ist genau dann in einem Punkt x ∈ R stetig, wenn µ ({x }) = 0 gilt. 2. Welchem Wahrscheinlichkeitsmaß µ auf (R, B(R)) entspricht die Verteilungsfunktion F : R → [0, 1], F (x ) := 0 ∨ (x ∧ 1)? Berechnen Sie dazu µ ((a, b]) für beliebige a ≤ b aus R. Übung 1.28. Beweisen Sie Satz 1.63. 46 2 Integration In diesem Kapitel definieren wir Integrale messbarer Funktionen und studieren ihre Eigenschaften. 2.1 Definition des Lebesgue- oder Maßintegrals Im folgenden sei (Ω, A, µ) ein Maßraum und f , д, fn etc. Borel-messbare Funktionen mit Werten in R oder R. Das Ziel ist es Integrale messbarer Funktionen zu definieren. Je nach Situation werden wir dafür folgende Schreibweisen benutzen. Z Z Z µ[f ] = f dµ = f (ω) dµ (ω) = f (ω) µ (dω). Ω Ω Bemerkung 2.1 (Rechnen mit ∞ auf R). Fürs Rechnen mit ∞ gelten folgende Regeln (wobei Produkt und Summe kommutativ sind): (i) für a ∈ R ist a + ∞ = ∞, a − ∞ = −∞, a −∞ = a ∞ = 0; (ii) für a > 0 ist a · ∞ = ∞, für a < 0 ist a · ∞ = −∞; (iii) 0 · ∞ = 0 · (−∞) = 0, ∞ + ∞ = ∞, −∞ − ∞ = −∞. Definition 2.2 (Integral). Wir definieren nacheinander das Integral für Indikatorfunktionen, einfache Funktionen, nichtnegative Funktionen und schließlich für beliebige messbare Funktionen: (i) Für f = 1A , A ∈ A ist µ[f ] B Z f dµ B µ (A). P (ii) Ist f eine einfache Funktion mit f = ni=1 αi 1Ai für disjunkte A1 , . . . , An ∈ A, so definieren wir Z n X µ[f ] B f dµ B αi µ (Ai ). i=1 47 2.1 Definition des Lebesgue- oder Maßintegrals (iii) Für f ≥ 0 definieren wir Z Z s dµ : s einfach , 0 ≤ s ≤ f . µ[f ] B f dµ B sup (iv) Ist f eine beliebige Borel-messbare Funktion, so ist f = f + − f − für f + = f ∨ 0 und f − = (−f ) ∨ 0 und wir definieren Z Z Z + µ[f ] B f dµ B f dµ − f − dµ, vorausgesetzt es gilt nicht µ[f + ] = µ[f − ] = ∞, in diesem Fall sagen wir das Integral existiert nicht. Nach Definition existiert das Integral einer nichtnegativen Funktion immer, es kann aber den Wert +∞ annehmen. Ist µ[f ] endlich, was äquivalent zur Endlichkeit von µ[| f |] = µ[f + ] + µ[f − ] ist (Übung!), so heißt f integrierbar (oder µ-integrierbar). Falls µ[f + ] = ∞ und µ[f − ] < ∞ ist, so ist µ[f ] = ∞. Falls µ[f + ] < ∞ und µ[f − ] = ∞ ist, so ist µ[f ] = −∞. In beiden Fällen sagen wir, dass das Integral µ[f ] existiert, f ist aber nicht integrierbar. Bemerkung 2.3 (Wohldefiniertheit des Integrals von Elementarfunktionen). Das Integral einer Elementarfunktion hängt nicht von der Darstellung ab. P P Ist f = ni=1 αi 1Ai = m j=1 β j 1B j für disjunkte Mengen A1 , . . . , An ∈ A und α 1 , . . . , αn ∈ R, und disjunkte Mengen B 1 , . . . , Bm ∈ A und β 1 , . . . , βm , dann muss gelten ∪i Ai = ∪j B j und αi = β j wenn Ai ∩ B j , ∅. Es folgt f = n X m X αi 1Ai ∩B j , i=1 j=1 und µ[f ] = n X i=1 αi m X j=1 µ (Ai ∩ B j ) = n X i=1 n X αi µ ∪m (B ∩ A ) = αi µ (Ai ). j i j=1 Mit einem symmetrischen Argument zeigt man µ[f ] = i=1 Pm j=1 β j µ (B j ). Satz 2.4 (Einfache Eigenschaften des Integrals). Es seien f und д messbare Funktionen. Dann gelten folgende Aussagen. 48 2.1 Definition des Lebesgue- oder Maßintegrals 1. Ist f ≤ д, d.h. f (ω) ≤ д(ω) für alle ω ∈ Ω, dann gilt µ[f ] ≤ µ[д] (2.1) im folgenden Sinne: (i) existiert µ[f ] > −∞, dann existiert µ[д] und (2.1) gilt; (ii) existiert µ[д] < ∞, dann existiert µ[f ] und (2.1) gilt. Insbesondere gilt (2.1) wenn beide beide Integrale existieren. 2. Falls µ[f ] existiert und c ∈ R ist, so existiert auch µ[c f ] und es gilt µ[c f ] = cµ[f ]. (2.2) µ[f ] ≤ µ[| f |]. (2.3) 3. Existiert µ[f ], so gilt Beweis. 1.: Seien f , д ≥ 0. Für einfache Funktion s mit 0 ≤ s ≤ f folgt 0 ≤ s ≤ д und damit ist µ[f ] ≤ µ[д]. Sind f , д beliebige messbare Funktionen mit f ≤ д, so folgt f + ≤ д+ und − f ≥ д− . Betrachten wir zunächst den Fall 1.(i), d.h. µ[f ] = µ[f + ] − µ[f − ] > −∞. Dann ist µ[д− ] ≤ µ[f − ] < ∞, d.h. µ[д] existiert und es gilt µ[д] = µ[д+ ] − µ[д− ] ≤ µ[f + ] − µ[f − ] = µ[f ]. Den Fall 1.(ii) zeigt man analog. 2.: Für einfache Funktionen sowie für c = 0 ist die Aussage klar nach Definition des Integrals. Sei f ≥ 0, c > 0. Dann ist ( ) µ[c f ] = sup µ[s] : s einfach , 0 ≤ s ≤ c f ( ) s = sup cµ[s/c] : s einfach , 0 ≤ ≤ f c ) ( = c sup µ[s] : s einfach , 0 ≤ s ≤ f = cµ[f ]. 49 2.1 Definition des Lebesgue- oder Maßintegrals Sei f = f + − f − beliebig und c > 0. Dann gilt µ[c f ] = µ[c f + ] − µ[c f − ] = cµ[f + ] − cµ[f − ] = cµ[f ]. Sei f = f + − f − beliebig und c < 0. Dann gilt (c f ) + = −c f − und (c f ) − = −c f + . Es folgt µ[c f ] = µ[(c f ) + ] − µ[(c f ) − ] = µ[−c f − ] − µ[−c f + ] = −cµ[f − ] + cµ[f + ] = cµ[f ]. 3.: Es gilt −| f | ≤ f ≤ | f |. Mit 1. und 2. erhalten wir µ[−| f |] ≤ µ[f ] ≤ µ[| f |] und −µ[| f |] ≤ µ[f ] ≤ µ[| f |] und es folgt µ[f ] ≤ µ[| f |]. Ist f eine messbare Funktion und A ∈ A, so ist f 1A messbar und wir definieren wie folgt Integrale über (messbare) Teilmengen von Ω: Z Z f dµ B f 1A dµ = µ[f 1A ]. A Ω Satz 2.5. Ist f eine messbare Funktion, deren Integral µ[f ] existiert, dann wird durch Z ν (B) B ν f (B) B f dµ, B ∈ A B eine σ -additive Funktion auf A definiert. Insbesondere ist ν ein Maß auf A, wenn f nichtnegativ ist. P Beweis. Sei f = ni=1 αi 1Ai eine nichtnegative einfache Funktion. Dann ist ν (B) = µ n X i=1 αi 1Ai 1B = µ n X i=1 αi 1Ai ∩B = n X αi µ (Ai ∩ B) i=1 und die σ -Additivität von ν folgt aus der σ -Additivität von µ. 50 2.1 Definition des Lebesgue- oder Maßintegrals Ist f ≥ 0 und B 1 , B 2 , . . . paarweise disjunkte Mengen aus A mit B = ∪n Bn . Für einfache Funktion s mit 0 ≤ s ≤ f gilt X X X µ[s 1B ] = µ[s 1Bn ] ≤ µ[f 1Bn ] = ν (Bn ) n n n und es folgt ( ) X ν (B) = µ[f 1B = sup µ[s 1B : 0 ≤ s ≤ f , s einfach ≤ ν (Bn ). n Es bleibt ν (B) ≥ n ν (Bn ) zu zeigen. Wegen ν (Bn ) = µ[f 1Bn ] ≤ µ[f 1B ] = ν (B) können wir ohne Einschränkung ν (Bn ) < ∞ für alle n annehmen. Ansonsten ist die zu beweisende Ungleichung trivialerweise erfüllt. Zu ε > 0 und n ∈ N wähle eine einfache Funktion s mit 0 ≤ s ≤ f und P ε µ[f 1Bi ] ≤ µ[s 1Bi ] + , i = 1, . . . , n. n Dann gilt f g ∞ ν (B) = ν ∪i=1 Bi ≥ ν ∪ni=1 Bi = µ f 1∪ni=1 Bi n f g X ≥ µ s 1∪ni=1 Bi = µ[s 1Bi ] ≥ n X µ[f 1Bi ] − i=1 = n X i=1 n X i=1 ε n ν (Bi ) − ε. i=1 Die Ungleichung ν (B) ≥ i=1 ν (Bi ) folgt nun mit n → ∞ und ε → 0. Ist f = f + − f − beliebig, dann gilt P∞ ν (B) = µ[f 1B ] = µ[f + 1B ] − µ[f − 1B ] C ν f + (B) − ν f − (B) und die σ -Additivität von ν folgt aus der σ -Additivität von ν f + und ν f − . 51 2.1 Definition des Lebesgue- oder Maßintegrals Bemerkung 2.6 (Fast überall bestehende Eigenschaften, Nullmengen). Mengen N mit µ (N ) = 0 heißen µ-Nullmengen. Man sagt, dass eine Eigenschaft für Punkte aus Ω µ-fast überall oder für µ fast alle ω (kurz µ-f.ü.) gilt, wenn sie außerhalb einer µ-Nullmenge gilt. Ist µ ein Wahrscheinlichkeitsmaß so sagen wir µ-fast sicher (kurz µ-f.s.) statt µ-fast überall. Für messbare R-wertige Funktionen f und д gilt f = д µ-f.ü. ⇐⇒ µ ( f , д) = µ ({ω ∈ Ω : f (ω) , д(ω)}) = 0. Für messbare R-wertige Funktionen f , f 1 , f 2 , . . . gilt fn ↑ f µ-f.ü. ⇐⇒ µ (Ωc0 ) = 0 für Ω0 B {ω : f 1 (ω) ≤ f 2 (ω) ≤ . . . und limn fn (ω) = f (ω)}. Ferner gilt lim fn = f µ-f.ü. ⇐⇒ µ (Ωc0 ) = 0 n für Ω0 B {ω : limn fn (ω) = f (ω)}. In diesem Fall sagt man, dass die Funktionenfolge ( fn ) µ-f.ü. gegen f konvergiert. Die meisten Integrationssätze und Konvergenzsaätze für Integrale gelten auch dann wenn man die Integranden auf einer Nullmenge ändert oder statt punktweiser Konvergenz nur Konvergenz fast überall voraussetzt. Lemma 2.7. Es sei (Ω, A, µ) ein Maßraum. Dann gelten folgende Aussagen: (a) Ist f eine µ-integrierbare R-wertige Funktion auf (Ω, A), dann gilt | f | < ∞ µ-f.ü., und es existiert eine R R-wertige R µ-integrierbare Funktion д mit f = д µ-f.ü. Insbesondere gilt f dµ = д dµ. (b) Ist f nichtnegativ, so gilt Z f dµ = 0 ⇐⇒ Beweis. Übung! f = 0 µ-f.ü. 52 2.1 Definition des Lebesgue- oder Maßintegrals Satz 2.8 (Monotone Konvergenz, Satz von Beppo Levi). Es seien f , f 1 , f 2 , . . . nichtnegative messbare R-wertige Funktionen und es gelte fn ↑ f µ-f.ü., d.h. 0 ≤ f 1 ≤ f 2 ≤ . . . µ-f.ü. und f = lim fn µ-f.ü. n (2.4) Dann gilt lim µ[fn ] = µ[f ]. (2.5) n Beweis. Nehmen wir zunächst an, dass (2.4) nicht µ-f.ü., sondern punktweise gilt. Mit Monotonie des Integrals, siehe (2.1), folgt 0 ≤ µ[fn ] ≤ µ[fn+1 ] ≤ µ[f ] für alle n und somit existiert limn µ[fn ] und es gilt limn µ[fn ] ≤ µ[f ]. Also ist die umgekehrte Ungleichung limn µ[fn ] ≥ µ[f ] zu zeigen. Sei 0 ≤ s ≤ f einfach mit s < ∞ und sei b ∈ (0, 1). Wegen s (ω) < ∞ und fn (ω) ↑ f (ω) für alle ω gilt Bn B {ω : fn (ω) ≥ bs (ω)} ↑ Ω für n → ∞. Es folgt m→∞ lim µ[fn ] ≥ µ[fm ] ≥ µ[fm 1Bm ] ≥ µ[bs 1Bm ] = bµ[s 1Bm ] −−−−→ bµ[s]. n Dabei erhalten wir im letzten Schritt die Konvergenz für m → ∞ mit der Definition des Integrals einfacher Funktionen (s 1Bm ist eine einfache Funktion) und aufsteigender Stetigkeit von µ. Supremumsbildung über s liefert lim µ[fn ] ≥ bµ[f ], b ∈ (0, 1) n und mit b → 1 folgt die Behauptung für den Fall, dass (2.4) punktweise gilt. In dem allgemeinen Fall sei N die Menge aller Punkte aus Ω, für die mindestens eine der Beziehungen in (2.4) nicht erfüllt ist. Dann ist N als eine abzählbare Vereinigung von Nullmengen eine Nullmenge und es gilt (punktweise) 0 ≤ f 1 1N c ≤ f 2 1N c ≤ . . . und 53 f 1N c = lim fn 1N c . n (2.6) 2.1 Definition des Lebesgue- oder Maßintegrals Mit dem obigen Argument und Lemma 2.7 erhalten wir lim µ[fn ] = lim µ[fn 1N c ] = µ[f 1N c ] = µ[f ]. n n Zusammen mit Satz 2.4(ii) zeigt das folgende Resultat die Linearität der Integrals. Satz 2.9 (Additivitätssatz). Es seien f und д Borel-messbare (R-wertige) Funktionen, so dass f + д wohldefiniert ist (für kein ω ist f (ω) + д(ω) von der Form ∞ − ∞ oder −∞ + ∞). Existieren die Integrale µ[f ] und µ[д] und ist µ[f ] + µ[д] wohldefiniert, dann gilt µ[f + д] = µ[f ] + µ[д]. (2.7) Sind insbesondere f und д integrierbar, so ist f + д integrierbar und es gilt (2.7). Beweis. Sind f und д einfach, so ist die Aussage klar nach Definition. Seien f , д nichtnegativ und seien sn und tn einfache Funktionen mit sn ↑ f , tn ↑ д und somit (sn + tn ) ↑ ( f + д). Da sn und tn einfach sind, gilt µ[sn + tn ] = µ[sn ] + µ[tn ]. Mit dem Satz von der monotonen Konvergenz folgt µ[f + д] = lim µ[sn + tn ] = lim (µ[sn ] + µ[tn ]) = µ[f ] + µ[д]. n n Als nächstes betrachten wir Funktionen mit unterschiedlichen Vorzeichen. Sei f ≥ 0, д ≤ 0 und h = f + д ≥ 0 (д muss also endlich sein). Dann ist f = h + (−д) eine Summe nichtnegativer messbarer Funktionen und daher gilt µ[f ] = µ[h] − µ[д]. Wenn µ[д] endlich ist, dann ist µ[h] = µ[f ] + µ[д]. Wenn µ[д] = −∞, dann folgt (wegen h ≥ 0) µ[f ] ≥ −µ[д] = ∞, was aber der Voraussetzung widerspricht. Analog zeigt man die Additivität, wenn f ≥ 0, д ≤ 0 und h ≤ 0 gilt. Für beliebige f und д setzen wir h = f + д, h ist nach Voraussetzung wohldefiniert, und zerlegen Ω in folgende disjunkte Mengen E1 E2 E3 E4 E5 E6 = = = = = = {ω {ω {ω {ω {ω {ω : : : : : : f (ω) f (ω) f (ω) f (ω) f (ω) f (ω) ≥ 0, ≥ 0, ≥ 0, < 0, < 0, < 0, д(ω) д(ω) д(ω) д(ω) д(ω) д(ω) 54 ≥ 0}, < 0, h(ω) < 0, h(ω) ≥ 0, h(ω) ≥ 0, h(ω) < 0}. ≥ 0}, < 0}, ≥ 0}, < 0}, 2.1 Definition des Lebesgue- oder Maßintegrals Mit den obigen Argumenten folgt Nach Satz 2.5 gilt µ[f ] = 6 Z X i=1 Ei f dµ R Ei h dµ = und R Ei µ[д] = f dµ + 6 Z X i=1 Ei R Ei д dµ, i = 1, . . . , 6. д dµ. P6 R Es folgt µ[f ] + µ[д] = i=1 h dµ. Die rechte Seite ist nach Satz 2.5 gleich Ei µ[h], wenn µ[h] existiert. R Angenommen es gilt µ[h + ] = µ[h − ] = ∞. Dann gibt es i, j mit E h dµ = ∞ R R R i und E h dµ = −∞. Dann muss aber einerseits E f dµ = ∞ oder E д dµ = ∞ j i i und damit µ[f ] = ∞ oder µ[д] = ∞ gelten. Analog muss µ[f ] = −∞ oder µ[д] = −∞ gelten. Damit haben wir ein Widerspruch zur Voraussetzung, dass µ[f ] + µ[h] wohldefiniert ist. Satz 2.10 (Erweiterter Satz von monotoner Konvergenz). Seien д1 , д2 , . . . , д und h Borel-messbare Funktionen. Dann gelten folgende Aussagen: (a) Wenn µ[h] > −∞, дn ≥ h für alle n µ-f.ü. und дn ↑ д µ-f.ü. gilt, dann folgt µ[дn ] ↑ µ[д]. (b) Wenn µ[h] < ∞, дn ≤ h für alle n µ-f.ü. und дn ↓ д µ-f.ü. gilt, dann folgt µ[дn ] ↓ µ[д]. Beweis. Übung! Satz 2.11 (Lemma von Fatou). Es seien f 1 , f 2 , . . . Borel-messbare Funktionen. Dann gelten folgende Aussagen (a) Ist fn ≥ f µ-f.ü. für alle n, wobei µ[f ] > −∞ ist, so ist g f lim inf µ[fn ] ≥ µ lim inf fn . (2.8) (b) Ist fn ≤ f µ-f.ü. für alle n, wobei µ[f ] < ∞ ist, so ist f g lim sup µ[fn ] ≤ µ lim sup fn . (2.9) n→∞ n→∞ n→∞ n→∞ 55 2.1 Definition des Lebesgue- oder Maßintegrals Beweis. (a) Wir setzen дn = inf k ≥n fk , д = lim inf fn . Dann gilt дn ≥ f für alle n und дn ↑ д µ-f.ü. Wegen µ[f ] > −∞ ist nach dem Satz von monotoner Konvergenz (Satz 2.10) f g µ[дn ] ↑ µ lim inf fn n→∞ und mit дn ≤ fn µ-f.ü. folgt f g µ lim inf fn = lim µ[дn ] = lim inf µ[дn ] ≤ lim inf µ[fn ]. n→∞ n→∞ n→∞ n→∞ (b) Mit (a) gilt f g f g µ lim sup fn = −µ lim inf (−fn ) ≥ − lim inf µ[(−fn )] = lim sup µ[fn ]. n→∞ n→∞ n→∞ n→∞ Mit dem Lemma von Fatou können wir nun einen sehr wichtigen Satz zeigen mit dem man das Vertauschen von Grenzwerten und Integration begründen kann. Satz 2.12 (Satz von der majorisierten Konvergenz von Lebesgue). Es sei f 1 , f 2 , . . . eine Folge messbarer Funktionen mit | fn | ≤ д µ-f.ü., wobei д integrierbar ist. Gilt fn → f µ-f.ü., dann sind f , f 1 , f 2 , . . . integrierbar und es gilt limn→∞ µ[fn ] → µ[f ]. Beweis. Nach Voraussetzung sind die Funktionen | fn | integrierbar. Weil jedes fn messbar ist, ist es damit auch integrierbar. Daher ist auch f = lim supn fn = lim inf n fn integrierbar. Mit dem Lemma von Fatou folgt g f g f g f g f µ lim inf fn ≤ lim inf µ fn ≤ lim sup µ fn ≤ µ lim sup fn . n→∞ n→∞ n→∞ n→∞ Nach Voraussetzung ist lim inf n→∞ fn = lim supn→∞ fn = f µ-f.ü. Also sind alle Terme in dem obigen Display gleich µ[f ]. Beispiel 2.13. Auf (R, B(R), λ) gilt für die Funktionen fn = n2 1 (0,n−1 ) und f ≡0 fn (x ) → f (x ) für alle x ∈ R. 56 2.1 Definition des Lebesgue- oder Maßintegrals R R Es gilt aber f dλ = 0 und fn dλ = n. Zum einen zeigt dieses Beispiel, dass die Ungleichung (2.8) strikt sein kann und die Ungleichung (2.9) ohne die Voraussetzung, dass die fn durch eine integrierbare Majorante beschränkt sind, nicht zu gelten braucht. Zum anderen (all das hängt miteinander zusammen) zeigt dieses Beispiel auch, dass man im Satz von Lebesgue nicht auf die Voraussetzung | fn | ≤ д für eine integrierbare Funktion д verzichten kann. Bemerkung 2.14 (Lebesgue-Integral versus Riemann-Integral). Wenn eine Funktion f auf einem Intervall I = [a, b] Riemann-integrierbar ist, dann kann man zeigen (vgl. Abschnitt 4.3 in Klenke (2013)), dass sie auch Lebesgueintegrierbar ist und dass dann beide Integrale übereinstimmen: Z Z b f dλ = f (x ) dx . I a Berechnungen von Lebesgue-Integralen von Funktionen versucht man daher typischerweise auf die entsprechenden Riemann-Integrale zurückzuführen. Das funktioniert oft auch für nicht Riemann-integrierbare Funktionen indem man die zu integrierende Funktion auf einer Lebesgue Nullmenge verändert und dann Lemma 2.7 benutzt. Diese Überlegung zeigt aber auch, dass es Lebesgue-integrierbare Funktionen gibt, die nicht Riemann-integrierbar sind. So kann man z.B. leicht zeigen, dass die Ober- und Untersummen der Dirichletschen Sprungfunktion (siehe Übung 2.2) nicht gegen denselben Wert konvergieren. Sie ist also nicht Riemann-integrierbar. Man kann jedoch zeigen, dass sie Lebesgue-integrierbar ist. Aus der Analysis ist bekannt, dass Z t π sin x dx = lim t→∞ 0 x 2 gilt. R nπ Die Existenz des Grenzwertes folgt mit dem Leibniz-Kriterium, denn x −1 sin x dx haben alternierende Vorzeichen und konvergieren gegen (n−1)π Null. Also ist die Funktion x 7→ x −1 sin x uneigentlich Riemann-integrierbar. Sie ist jedoch nicht Lebesgue-integrierbar, weil sowohl Integrale über Positiv und Negativteil unendlich sind. R Beispiel 2.15. Es ist bekannt, dass Γ(t ) B (0,∞) x t−1e −x λ(dx ) existiert und außerdem endlich und differenzierbar auf (0, ∞) ist. Mit Hilfe des Satzes von 57 2.2 Satz von Radon-Nikodým majorisierter Konvergenz können wir Z Z d d t−1 −x t−1 −x x e λ(dx ) x e λ(dx ) = dt (1,∞) (1,∞) dt (2.10) zeigen. Für t > 0 gilt d t−1 −x x t−1+1/ne −x − x t−1e −x (x e ) = lim = lim nx t−1e −x (x 1/n − 1). (2.11) n→∞ n→∞ dt 1/n Wir setzen f (x, t ) = dtd (x t−1e −x ) und fn (x, t ) = nx t−1e −x (x 1/n − 1), x > 1. Es gilt fn ≥ 0 (da x > 1 ist). Um den Satz von Lebesgue verwenden zu können, brauchen wir eine integrierbare Majorante д mit fn ≤ д für alle n. Sei yn (x ) = n(x 1/n − 1), sodass fn (x, t ) = x t−1e −x yn (x ) gilt. Die Funktionen yn sind konkav, denn es gilt yn00 (x ) = (1/n −1)x 1/n−2 ≤ 0. Damit folgt yn (x ) ≤ x −1 < x für x ∈ (0, ∞), denn x 7→ x − 1 ist die Steigungstangente durch den Punkt (1, yn (1)) für jedes yn . Es gilt fn (t, x ) ≤ д(t, x ) für д(t, x ) = x t e −x . Außerdem ist д bezüglich x integrierbar, denn es gilt Z Z Z t −x д(t, x ) λ(dx ) = x e λ(dx ) ≤ x t e −x λ(dx ) = Γ(t + 1) < ∞. (1,∞) (1,∞) (0,∞) Mit dem Satz von Lebesgue folgt nun (2.10). 2.2 Satz von Radon-Nikodým Es sei (Ω, A, µ) ein Maßraum und f eine Borel-messbare Funktion auf Ω Rderen Integral µ[f ] existiert. In Satz 2.5 haben wir gesehen, dass durch ν (B) = f dµ eine σ -additive Mengenfunktion auf A definiert wird (siehe Übung 2.6 B zu Integration bezüglich ν ). Die Funktion f heißt dann Dichte von ν bezüglich µ oder µ-Dichte von ν . Für jedes A ∈ A mit µ (A) = 0 gilt ν (A) = 0. Ziel dieses Abschnittes ist der Beweis einer Umkehrung dieser Aussage. Definiert man ν wie oben, so gibt es nach Voraussetzung keine Mengen A, B ∈ A mit ν (A) = −∞ und ν (B) = +∞. Ansonsten würde das Integral µ[f ] nicht existieren. Im Allgemeinen kann ν auch negative Werte annehmen. Definition 2.16 (Signierte Maße). Eine σ -additive Mengenfunktion ν : A → R heißt signiertes Maß auf A, wenn ν (A) < ∞ für alle A ∈ A, oder ν (A) > −∞ für alle A ∈ A gilt. 58 2.2 Satz von Radon-Nikodým Wenn es ein A mit ν (A) < ∞ gibt, so folgt mit σ -Additivität ν (∅) = 0 (vgl. Übung 1.12). Analoges folgt, wenn es ein A mit ν (A) > −∞ gibt. Insbesondere gilt stets ν (∅) = 0, wenn ν ein signiertes Maß ist. Der folgende Satz zeigt, dass signierte Maße ihr Minimum und Maximum auf A annehmen. Satz 2.17. Es sei ν ein signiertes Maß. Dann existieren C, D ∈ A mit ν (C) = sup ν (A) A∈A und ν (D) = inf ν (A). A∈A (2.12) Bemerkung 2.18. Wenn ν ein Maß ist dann, ist die Aussage des Satzes 2.17 mit C = Ω und D = ∅R trivial. Wenn ν (B) = B f dµ, B ∈ A wie in Satz 2.5 ist, so gilt ν (B) = ν (B ∩ { f ≥ 0}) + ν (B ∩ { f < 0}). Mit D = { f < 0} und C = { f ≥ 0} gilt die Aussage des Satzes 2.17, denn es ist D, C ∈ A und ν (D) ≤ ν (B) ≤ ν (C), B ∈ A. Beweis von Satz 2.17. Wir zeigen erst die Existenz von C ∈ A mit ν (C) = sup ν (A) C sup ν . A∈A Ohne Einschränkung können wir annehmen, dass ν (A) < ∞ für alle A ∈ A ist. Ansonsten ist nichts zu zeigen. Erst wählen wir A1 , A2 , . . . mit ν (An ) → sup ν für n → ∞ und setzen A = ∪n An . Für jedes n kann man A als Vereinigung von 2n disjunkten Mengen der Form Aδn (n) δ (n) δ (n) = A11 ∩ . . . ∩ Ann , δ (n) = (δ 1(n) , . . . , δn(n) ) ∈ {0, 1}n schreiben, wobei (n) Ai δ Ai i = A \ Ai : wenn δi(n) = 1, : wenn δi(n) = 0. 59 2.2 Satz von Radon-Nikodým Für n = 1 ist A = A01 ∪ A11 = A1 ∪ (A \ A1 ). Für n = 2 ist A = A2(0,0) ∪ A2(1,0) ∪ A2(0,1) ∪ A2(1,1) = ((A \ A1 ) ∩ (A \ A2 )) ∪ (A1 ∩ (A \ A2 )) ∪ ((A \ A1 ) ∩ A2 ) ∪ (A1 ∩ A2 ). S (n) (n) (n) Sei Bn = δ (n) {Aδn : ν (Aδn ) ≥ 0} und Bn = ∅ falls ν (Aδn ) < 0 für alle δ (n) . (n) Nach Konstruktion ist An eine disjunkte Vereinigung von Aδn ’s. Also gilt ν (An ) ≤ ν (Bn ) und es folgt mit aufsteigender Stetigkeit von ν , Proposition 1.27, r →∞ ∞ ν (An ) ≤ ν (Bn ) ≤ ν (∪rk=n Bk ) −−−−→ ν (∪k=n Bk ). ∞ ∪∞ B gilt ∪∞ B ↓ C und 0 ≤ ν (∪∞ B ) < ∞ für Für C = lim sup Bn = ∩n=1 k=n k k=n k k=n k ∞ alle n. Mit absteigender Stetigkeit von ν folgt ν (∪k=n Bk ) → ν (C). Insgesamt gilt ∞ sup ν = lim ν (An ) ≤ lim ν (∪k=n Bk ) = ν (C) ≤ sup ν . n→∞ n→∞ Also ist ν (C) = sup ν . Um zu zeigen, dass ein D ∈ A mit ν (D) = inf A∈A ν (A) C inf ν gibt wenden wir das obige Argument auf −ν an. Danach existiert ein D ∈ A mit −ν (D) = sup(−ν ), d.h. ν (D) = inf ν. Satz 2.19 (Hahn-Jordan-Zerlegung). Es sei ν ein signiertes Maß auf A, und seien Mengenfunktionen ν + und ν − auf A definiert durch ν + (A) B sup{ν (B) : B ∈ A, B ⊂ A}, ν − (A) B − inf {ν (B) : B ∈ A, B ⊂ A}. Dann sind ν + und ν − Maße auf A und es gilt ν = ν + − ν − . Definition 2.20. Die Maße ν + und ν − in der Hahn-Jordan-Zerlegung heißen Positivteil bzw. Negativteil von ν und |ν | B ν + + ν − heißt Totalvariation von ν . Ein signiertes Maß heißt σ -endlich, wenn das Maß |ν | σ -endlich ist. 60 2.2 Satz von Radon-Nikodým Beweis von Satz 2.19. Wir können annehmen, dass ν (A) > −∞ für alle A ∈ A. Falls ν (A) = −∞ für ein A ist, dann ist ν (A) < ∞ für alle A und wir können den Beweis für −ν statt ν führen. Wähle D ∈ A wie in Satz 2.17, d.h. ν (D) = inf A∈A ν (A). Wegen ν (∅) = 0 gilt −∞ < ν (D) ≤ 0. Als erstes zeigen wir ν (A ∩ D) ≤ 0 und ν (A ∩ Dc ) ≥ 0 für alle A ∈ A. (2.13) Wenn ν (A ∩ D) > 0 wäre, dann würde ν (D) = ν (A ∩ D) + ν (Ac ∩ D) gelten woraus man ν (Ac ∩ D) = ν (D) − ν (A ∩ D) < ν (D) erhält. Dies ist ein Widerspruch zu ν (D) = inf ν. Wenn ν (A ∩ D) < 0 wäre, dann würde ν (D∪(A∩Dc )) = ν (D)+ν (A∩Dc ) < ν (D) gelten, was wieder zum Widerspruch führt. Nun zeigen wir ν + (A) = ν (A ∩ Dc ), ν − (A) = −ν (A ∩ D). (2.14) Das wird den Satz beweisen, denn dann ist ν (A) = ν (A ∩ Dc ) − (−ν (A ∩ D)) = ν + (A) − ν − (A). Für B ∈ A, B ⊂ A gilt mit (2.13) ν (B) = ν (B ∩ D) + ν (B ∩ Dc ) ≤ ν (B ∩ Dc ) ≤ ν (B ∩ Dc ) + ν ((A \ B) ∩ Dc ) = ν (A ∩ Dc ). Damit ist ν + (A) ≤ ν (A ∩ Dc ). Die umgekehrte Ungleichung ν + (A) ≥ ν (A ∩ Dc ) gilt nach Definition von ν + . Insgesamt haben wir also die erste Gleichung in (2.14) gezeigt. Der Beweis der zweiten Gleichung ist ähnlich. Es gilt ν (B) = ν (B ∩ D) + ν (B ∩ Dc ) ≥ ν (B ∩ D) ≥ ν (B ∩ D) + ν ((A \ B) ∩ D) = ν (A ∩ D). Also folgt −ν − (A) ≥ ν (A ∩ D). Da die umgekehrte Ungleichung −ν − (A) ≤ ν (A ∩ D) nach Definition von ν − gilt folgt auch die zweite Gleichung in (2.14), was den Beweis des Satzes abschließt. 61 2.2 Satz von Radon-Nikodým Definition 2.21 (Absolutstetigkeit von Maßen). Ist µ ein Maß und ν ein signiertes Maß auf A und gilt ν (A) = 0 für alle A ∈ A mit µ (A) = 0, dann heißt ν absolut-stetig bezüglich µ (man sagt auch ν wird von µ dominiert). In diesem Fall schreiben wir ν µ. Satz 2.22 (Radon-Nikodým). Es sei µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß auf A mit ν µ. Dann existiert eine Borel-messbare Funktion f : Ω → R mit Z ν (A) = f dµ für alle A ∈ A. (2.15) A Ist д eine andere Funktion mit dieser Eigenschaft, dann gilt f = д µ-f.ü. Bemerkung 2.23. Eine Funktion f , die (2.15) erfüllt, heißt µ-Dichte von ν . Andere gebräuchliche Namen sind Radon-Nikodým Dichte oder Radon-Nikodým Ableitung. Man schreibt dann oft f = dν/dµ. Die Aussage des Satzes von Radon-Nikodým gilt (allgemeiner als wir es formuliert haben) für beliebige (nicht notwendigerweise σ -endliche) signierte Maße ν , die absolut-stetig bezüglich einem σ -endlichen Maß µ sind. Für einen Beweis dieser allgemeinen Version verweisen wir auf Theorem 2.2.1 in Ash (2000). Der Beweis des Satzes von Radon-Nikodým besteht aus einem Existenz und einem Eindeutigkeitsbeweis. Wir starten mit dem Letzteren. Die µ-f.ü. Eindeutigkeit der Dichte im Satz von Radon-Nikodým folgt aus dem folgenden Resultat, das eine Umkehrung der Aussage Z Z f = д µ-f.ü. ⇒ ∀A ∈ A : f dµ = д dµ A A ist. Lemma 2.24. Es sei (Ω, A, µ) ein Maßraum und seien f und д Borel-messbare Funktionen. Dann gelten folgende Aussagen R R (i) Sind f und д nichtnegativ, µ σ -endlich, und gilt A f dµ = A д dµ für alle A ∈ A, so gilt f = д µ-f.ü. R R (ii) Sind f und д integrierbar und gilt A f dµ = A д dµ für alle A ∈ A, so gilt f = д µ-f.ü. 62 2.2 Satz von Radon-Nikodým R R (iii) Sind f und д integrierbar mit A f dµ = A д dµ für alle A ∈ E, wobei E ein schnittstabiler Erzeuger von A ist und Ω eine höchstens abzählbare Vereinigung von Mengen aus E ist, so gilt f = д µ-f.ü. R R Beweis. (i) Seien f und д nichtnegativ mit A f dµ ≤ A д dµ für alle A ∈ A. Wenn µ σ -endlich ist, dann gibt es Mengen Ωn ∈ A mit Ωn ↑ Ω und µ (Ωn ) < ∞. Für Bn = {0 ≤ д < f , д ≤ n} folgt dann Z Z f dµ ≤ д dµ < ∞, Ωn ∩Bn Ωn ∩Bn R und damit 1Ωn ∩Bn ( f −д) dµ = 0. Nach Lemma 2.7(b) folgt 1Ωn ∩Bn ( f −д) = 0 µ-f.ü. Es folgt µ (Ωn ∩ Bn ) = 0 und somit µ (0 ≤ д < f , д < ∞) = 0. Das zeigt f ≤ д µ-f.ü. und nach Vertauschen der Rollen von f und д erhalten wir f = д µ-f.ü., was (i) beweist. R R (ii) Sind f und д integrierbar und gilt f dµ ≤ д dµ für alle A ∈ A, A A R so folgt 1{д< f } ( f − д) = 0 und damit µ (д < f ) = 0 nach Lemma 2.7(b). Vertauschen der Rollen von f und д zeigt wieder was (ii) beweist. R f = д µ-f.ü., R (iii) Sind f und д nichtnegativ R Rund gilt gilt A f dµ = A д dµ für alle A ∈ E so folgt mit Satz 1.38 A f dµ = A д dµ für alle A ∈ A und wir erhalten (iii) in diesem Fall aus (ii). Für beliebige integrierbare f und д folgt nach den Voraussetzungen von (iii) Z Z Z Z + − + f dµ − f dµ = д dµ − д− dµ, A ∈ E A A A A und damit Z + A ( f + д ) dµ = Z − A (д+ + f − ) dµ, A ∈ E. Mit dem obigen Argument folgt f + + д− = д+ + f − µ-f.ü. Integrierbarkeit von f und д impliziert, dass f und д und insbesondere deren Positiv- und Negativteile µ-f.ü. endlich sind. Damit folgt f = д µ-f.ü. Beweis von Satz 2.22. Wie wir schon oben gesagt haben, folgt die µ-f.ü. Eindeutigkeit der µ Dichte von ν mit Lemma 2.24. Es bleibt die Existenz zu zeigen. Diese zeigen wir nacheinander in vier Schritten. 63 2.2 Satz von Radon-Nikodým Schritt 1: µ und ν endliche Maße. Wir setzen S = { f ≥ 0 : f integrierbar, µ[1A f ] ≤ ν (A), ∀A ∈ A} und versehen S mit partieller Ordnung: f ≤ д, wenn f ≤ д µ-f.ü. Ferner setzen wir s B sup{µ[f ] : f ∈ S} ≤ ν (Ω) < ∞. Zunächst suchen wir ein maximales Element von S; S ist nichtleer, weil es die Nullfunktion enthält. Gilt f , д ∈ S, so folgt h = max{ f , д} ∈ S. Um das zu zeigen, setzen wir B = { f ≥ д} und C = { f < д}. Dann gilt für A ∈ A µ[1Ah] = µ[1 (A∩B)∪(A∩C)h] = µ[1A∩Bh] + µ[1A∩C h] ≤ ν (A ∩ B) + ν (A ∩ C) = ν (A). Also ist h ∈ S. Sei f 1 , f 2 , . . . eine Folge in S mit µ[fn ] → s und sei дn = max{ f 1 , . . . , fn } ∈ S. Nach Konstruktion gilt дn ↑ supn fn C д und mit dem Satz von monotoner Konvergenz, Satz 2.8, erhalten wir µ[дn ] → µ[д]. Wegen µ[дn ] ≤ s und µ[дn ] ≥ µ[fn ] → s für n → ∞ folgt µ[д] = s. Bleibt noch д ∈ S zu zeigen. Sei A ∈ A beliebig. Dann gilt 0 ≤ дn 1A ↑ д1A und somit µ[дn 1A ] ↑ µ[д1A ]. Es folgt µ[д1A ] ≤ ν (A), weil µ[дn 1A ] ≤ ν (A) für alle n ist. Also ist д ein maximales Element von S. Als nächstes zeigen wir, dass д die gesuchte µ-Dichte von ν ist, dass also µ[д1A ] = ν (A) für alle A ∈ A gilt. Sei ρ eine Mengenfunktion auf A definiert durch ρ (A) = ν (A) − µ[д1A ], A ∈ A. Dann ist ρ ein Maß mit ρ ν und ρ (Ω) < ∞. Zu zeigen ist ρ (A) = 0 für alle A ∈ A. Angenommen ρ (Ω) > 0. Dann existiert ein k > 0 mit µ (Ω) − kρ (Ω) < 0, (2.16) insbesondere ist µ − kρ ein signiertes Maß. Sei D ∈ A für dieses signierte Maß wie in (2.13) gewählt. Dann ist µ (A ∩ D) − kρ (A ∩ D) ≤ 0, A ∈ A, µ (A ∩ Dc ) − kρ (A ∩ Dc ) ≥ 0, A ∈ A. 64 (2.17) (2.18) 2.2 Satz von Radon-Nikodým Wir zeigen µ (D) > 0. Wäre µ (D) = 0, so würde ρ (D) = 0 folgen und mit A = Ω in (2.18) folgt mit (2.16) 0 ≤ µ (Dc ) − kρ (Dc ) = µ (Dc ) + µ (D) − k (ρ (Dc ) + ρ (D)) = µ (Ω) − kρ (Ω) < 0, was zu einem Widerspruch führt. Sei h = k1 1D . Für A ∈ A gilt mit (2.17) µ[1Ah] = 1 µ (A ∩ D) ≤ ρ (A ∩ D) ≤ ρ (A) = ν (A) − µ[д1A ]. k Somit ist µ[1A (h + д)] ≤ ν (A), d.h. д + h ∈ S. Da h + д > д auf D ist und µ (D) > 0 ist es ein Widerspruch dazu, dass д ein maximales Element von S. Also ist ρ (Ω) = 0. Schritt 2: µ ein endliches Maß und ν ein σ -endliches Maß. Seien Ω1 , Ω2 , . . . disjunkte Mengen A so, dass Ω = ∪n Ωn und ν (Ωn ) < ∞ für alle n. Wir setzen νn (A) = ν (A ∩ Ωn ). Die Maße µ und νn sind endlich. Nach Schritt 1 existieren nichtnegative Funktionen fn mit νn (A) = µ[1A fn ], A ∈ A. Wir P setzen fn (ω) = 0 für ω < Ωn . Für f B n fn gilt (vgl. Übung 2.6(a)) X X f f g g X µ 1A f = µ fn 1A = µ fn 1A = νn (A) = ν (A). n n n Also ist f eine µ-Dichte von ν . Schritt 3: µ und ν beides σ -endliche Maße. Seien Ω1 , Ω2 , . . . disjunkte Mengen A so, dass Ω = ∪n Ωn und µ (Ωn ) < ∞ für alle n. Nach Schritt 2 gibt es nichtnegative Funktionen fn mit f g ν (A ∩ Ωn ) = µ 1A∩Ωn fn , A ∈ A. P Wir setzen fn (ω) = 0 für ω < Ωn und f B n fn . Dann gilt für alle A ∈ A X X f g X f g ν (A) = ν (A ∩ Ωn ) = µ 1A∩Ωn fn = µ 1A 1Ωn fn n = µ 1A f n X n 1Ωn fn = µ 1A f . g f n Also ist f eine µ-Dichte von ν . 65 g 2.2 Satz von Radon-Nikodým Schritt 4: µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß. Sei ν = ν + − ν − die Hahn-Jordan-Zerlegung von ν mit ν − < ∞ (was wir ohne Einschränkung annehmen können, ansonsten betrachten wir −ν ). Nach Schritt 3 existieren nichtnegative Funktionen f + und f − mit ν + (A) = µ[1A f + ] und ν − (A) = µ[1A f − ] A ∈ A. Da ν − endlich ist, ist f − eine µ-integrierbare und µ-f.ü. endliche Funktion. Insbesondere sind f = f + − f − und µ[f ] = µ[f + ] − µ[f − ] wohldefiniert und es gilt ν (A) = ν + (A) − ν − (A) = µ[1A f + ] − µ[1A f − ] = µ[1A f ]. Also ist f eine µ-Dichte von ν . Korollar 2.25. Unter den Voraussetzungen von Satz 2.22 gelten folgende Aussagen: (a) Wenn ν endlich ist, dann ist f µ-integrierbar und damit µ-f.ü. endlich. (b) Wenn |ν | σ -endlich ist, dann ist f µ-f.ü. endlich. (c) Wenn ν ein Maß ist, dann gilt f ≥ 0 µ-f.ü. (d) Wenn ν ein Wahrscheinlichkeitsmaß ist, dann gilt f ≥ 0 µ-f.ü. und µ[f ] = 1. Beweis. Übung! Beispiel 2.26. Viele Beispiele von Maßen mit Dichten sollten schon aus der einführenden Stochastikvorlesung bekannt sein. (a) Ist λ das Lebesgue Maß und f eine nichtnegative Lebesgue-integrierbare Funktion. Dann ist natürlich Z ν (A) B f dλ A ein Maß auf B(R) mit ν λ und Dichte f . 2 2 (i) Für σ 2 > 0 und µ ∈ R sei f (x ) = √ 1 2 e −(x−µ) /(2σ ) . Dann ist ν die 2πσ (Gauß’sche) Normalverteilung mit Parametern µ und σ 2 . 66 2.2 Satz von Radon-Nikodým (ii) Für γ > 0 sei f (x ) = γe −γ x 1[0,∞) (x ). Dann ist ν die Exponentialverteilung mit Parameter γ . (b) Sei Ω = R und sei µ das Zählmaß auf N0 . Für f : Ω → R+ setzen wir ν (A) B ∞ X 1A (n) f (n)µ ({n}). n=0 Für A ∈ B(R) mit µ (A) = 0 ist ν (A) = 0, also ist ν µ und f ist die Dichte von ν bezüglich µ. (i) Ist p ∈ [0, 1], f (0) = 1 − p, f (1) = p und f (x ) = 0 für x < {0, 1}, dann ist ν die Bernoulli-Verteilung mit Parameter p. (ii) Ist für ein n n ∈ N und p ∈ [0, 1] die Funktion f gegeben durch f (x ) = x px (1 − p)n−x für x ∈ {0, 1, . . . , n} und f (x ) = 0 sonst, so ist ν die Binomialverteilung mit Parametern n und p. (iii) Ist γ > 0 und f (x ) = e −γ γ x /x! für x ∈ N0 und f (x ) = 0 sonst, so ist ν die Poissonverteilung mit Parameter γ . Oben haben wir Beispiele von diskreten und stetigen Dichten gesehen. Abzählbare (oder endliche) Teilmengen von R sind Lebesgue-Nullmengen damit hat jede der drei Wahrscheinlichkeitsverteilungen in Beispiel 2.26(b) volle Masse, nämlich 1, auf einer Lebesgue Nullmenge. Umgekehrt ist beispielsweise das offene Intervall (0, 1) eine Nullmenge bezüglich dem Zählmaß auf N0 , aber keine Nullmenge bezüglich dem Lebesgue-Maß und den Wahrscheinlichkeitsverteilungen in Beispiel 2.26(a). Insbesondere sind das Zählmaß und das Lebesgue-Maß auf unterschiedlichen Mengen konzentriert. Was damit gemeint ist schauen wir uns zum Abschluss dieses Abschnittes genauer an. Definition 2.27 (Singuläre Maße). Zwei Maße µ 1 und µ 2 auf einer σ -Algebra A heißen singulär (zueinander), wenn es eine Menge A ∈ A gibt mit µ 1 (A) = 0 und µ 2 (Ac ) = 0. Wir schreiben dann µ 1 ⊥ µ 2 . Sind ν 1 und ν 2 signierte Maße, dann heißen sie singulär (zueinander), wenn |ν 1 | ⊥ |ν 2 | gilt. Auch in diesem Fall schreiben wir dann ν 1 ⊥ ν 2 . 67 2.2 Satz von Radon-Nikodým Lemma 2.28. Es sei µ ein Maß und ν , ν 1 , ν 2 signierte Maße auf einer σ -Algebra A. Dann gelten folgende Aussagen: (i) ν 1 ⊥ µ, ν 2 ⊥ µ ⇒ ν 1 ± ν 2 ⊥ µ, (sofern ν 1 ± ν 2 wohldefiniert ist), (ii) ν µ ⇐⇒ |ν | µ, (iii) ν 1 µ, ν 2 ⊥ µ ⇒ ν 1 ⊥ ν 2 , (iv) ν µ, ν ⊥ µ ⇒ ν ≡ 0. Beweis. (i) Nach Voraussetzung gibt es Mengen A, B ∈ A so, dass |ν 1 |(Ac ) = |ν 2 |(Bc ) = 0 und µ (A) = µ (B) = 0. Dann gilt µ (A ∪ B) = 0 und |ν 1|(C) = |ν 2 |(C) = 0 für alle C ⊂ Ac ∩ Bc = (A ∪ B)c . Es folgt |ν 1 ± ν 2 | (A ∪ B)c = 0. (ii) „⇐“: Aus µ (A) = 0 folgt wegen der Absolutstetigkeit |ν |(A) = ν + (A) + ν − (A) = 0. Damit gilt ν + (A) = ν − (A) = 0 und ν (A) = ν + (A) − ν − (A) = 0, was ν µ zeigt. (ii) „⇒“: Für A ∈ A mit µ (A) = 0 folgt wegen der Absolutstetigkeit ν (A) = 0. Zu zeigen ist ν + (A) = ν − (A) = 0. Angenommen es gilt ν + (A) > 0. Dann ist nach Hahn-Jordan-Zerlegung (Satz 2.19) ν + (A) = sup{ν (B) : B ∈ A, B ⊂ A}, also existiert ein B ⊂ A mit ν (B) > 0. Da µ (B) = 0 ist, ist es ein Widerspruch zu ν µ. Damit gilt ν + (A) = 0. Analog zeigt man ν − (A) = 0. (iii) Nach Voraussetzung ν 2 ⊥ µ gibt es ein A mit µ (A) = 0 und |ν 2 |(Ac ) = 0. Wegen ν 1 µ und (ii) folgt |ν 1 |(A) = 0, also |ν 1 | ⊥ |ν 2 |. (iv) Nach (iii) ist ν ⊥ ν , also existiert ein A mit |ν |(A) = |ν |(Ac ) = 0. Es folgt |ν |(Ω) = 0. Satz 2.29 (Zerlegungssatz von Lebesgue). Es sei (Ω, A) ein messbarer Raum, µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß auf A. Dann hat ν eine eindeutige Zerlegung ν = ν 1 + ν 2 , wobei ν 1 , ν 2 signierte Maße sind mit ν 1 µ und ν 2 ⊥ µ. Beweis. Wir beweisen hier nur die Existenz der Zerlegung. Der Beweis der Eindeutigkeit ist eine Übungsaufgabe. 68 2.3 Produktmaße und Satz von Fubini Zunächst beweisen wir die Existenz einer Zerlegung für den Fall, dass ν ein σ -endliches Maß ist. Wir setzen λ = µ + ν . Dann ist λ ein σ -endliches Maß und es gilt µ λ und ν λ. Nach Satz von Radon-Nikodým (Satz 2.22) und Korollar 2.25(c) gibt es nichtnegative Borel messbare Funktionen f und д mit Z Z µ (A) = f dλ und ν (A) = д dλ, A ∈ A. A Sei B = { f > 0} (dann ist A Bc = { f = 0}) und definiere für A ∈ A ν 1 (A) = ν (A ∩ B) und ν 2 (A) = ν (A ∩ Bc ). Dann ist ν = ν 1 + ν 2 und es gilt ν 1 µ undRν 2 ⊥ µ. Um ν 1 µ zu beweisen, sei A ∈ A mit µ (A) = 0 gegeben. Dann ist A f dλ = 0 und insbesondere ist f 1A = 0 λ-f.ü. Auf A ∩ B ist aber f > 0 also muss λ(A ∩ B) = 0 gelten und damit auch λ 1 (A) = 0, d.h. wir haben ν 1 µ gezeigt. R Die Aussage ν 2 ⊥ µ folgt aus ν 2 (B) = ν 2 (∅) = 0 und µ (Bc ) = Bc 0 dλ = 0. Ist ν ein σ -endliches signiertes Maß, dann wenden wir das obige Argument auf ν + und ν − an und erhalten so eine Zerlegung ν = ν 1 + ν 2 B (ν 1+ − ν 1− ) + (ν 2+ − ν 2− ) mit (ν 1+ − ν 1− ) µ und (ν 2+ − ν 2− ) ⊥ µ. Bemerkung 2.30. Nach unserer Diskussion vor dem Satz 2.29 ist klar, dass diskrete Wahrscheinlichkeitsmaße, also Maße deren Verteilungsfunktionen nur durch Sprünge wachsen stets singulär zum Lebesgue-Maß auf R sind. Es gibt aber Beispiele von Wahrscheinlichkeitsmaßen die singulär zum Lebesgue-Maß sind, obwohl sie eine stetige Verteilungsfunktion haben. Ein solches Beispiel ist die Cantor-Funktion und das dazugehörige Wahrscheinlichkeitsmaß (vgl. Beispiel 8.7 auf S. 73 in Elstrodt (2011)). Im Allgemeinen wird ein Wahrscheinlichkeitsmaß auf R einen „diskreten“, einen „singulär-stetigen“ und einen „absolutstetig-stetigen“ Anteil bezüglich dem Lebesgue-Maß haben. 2.3 Produktmaße und Satz von Fubini Es sein (X , X) und (Y , Y) messbare Räume und seien µ und ν Maße auf diesen Räumen. In diesem Abschnitt werden wir ein Produktmaß auf X × Y (und geeigneter σ -Algebra) konstruieren. Gesucht ist also ein Maß π mit π (A × B) = µ (A)ν (B), 69 A ⊂ X, B ⊂ Y. 2.3 Produktmaße und Satz von Fubini Im Falle von Lebesgue-Maßen auf R werden wir sehen, dass das zugehörige Produktmaß das Lebesgue-Maß auf R2 ist. Außerdem werden wir den Satz von Fubini beweisen mit dessen Hilfe man Mehrfachintegrale als iterierte Integrale berechnen kann. Zunächst erläutern wir, was die „geeignete“ σ -Algebra auf dem Produktraum ist. Definition 2.31. Teilmengen von X × Y von der Form, A × B, A ∈ X, B ∈ Y heißen messbare Rechtecke in X × Y . Die von den messbaren Rechtecken erzeugte σ -Algebra heißt Produkt-σ -Algebra und wird mit X ⊗ Y bezeichnet. Beispiel 2.32. Seien X = Y = R und X = Y = B(R), dann ist ein messbares Rechteck ein Kartesisches Produkt A × B zweier Borel-Mengen A und B auf R. Die Menge der messbaren Rechtecke enthält die Menge der halboffenen Rechtecke von R2 (definiert in (1.15)). Da die halboffenen Rechtecke die Borelσ -Algebra B(R2 ) erzeugen, folgt B(R2 ) ⊂ B(R) ⊗ B(R). Andererseits, wenn A ein Intervall ist, dann enthält {B ⊂ R : A × B ∈ B(R2 )} die Menge R, denn es ist A × R = ∪n (A × (−n, n]). Außerdem ist es abgeschlossen bezüglich Bildung von Komplementen und abzählbaren Vereinigungen. Also ist es eine σ -Algebra, die alle Intervalle und damit auch Borel-Mengen enthält. Ist nun B eine Borel-Menge, dann enthält {A ⊂ R : A × B ∈ B(R2 )} alle Intervalle und ist auch eine σ -Algebra, enthält damit alle Borel-Mengen. Das zeigt, dass messbare Rechtecke in B(R2 ) sind, also B(R) ⊗ B(R) = B(R2 ). Beachten Sie, dass X × Y die Menge der messbaren Rechtecke ist und nach Definition X ⊗ Y = σ (X × Y) gilt. Beachten Sie auch, dass manchmal in der Literatur mit X × Y die davon erzeugte σ -Algebra bezeichnet wird. Satz 2.33 (Messbarkeit von Schnitten). (i) Ist E ∈ X ⊗ Y, dann gilt {y : (x, y) ∈ E} ∈ Y für jedes x ∈ X und {x : (x, y) ∈ E} ∈ X für jedes y ∈ Y . (ii) Ist f eine bezüglich X ⊗ Y messbare Funktion, dann ist für jedes feste x ∈ X die Funktion f (x, ·) messbar bezüglich Y und für jedes y ∈ Y ist die Funktion f (·, y) messbar bezüglich X. Wir nennen die Menge {y : (x, y) ∈ E} Schnitt von E bei x und die Funktion f (x, ·) Schnitt von f bei x. Beweis. Für ein festes x ∈ X betrachten wir die Abbildung Tx : Y → X × Y definiert durch Tx (y) = (x, y). Ist E = A × B ein messbares Rechteck, dann ist 70 2.3 Produktmaße und Satz von Fubini Tx−1 (E) = ∅, wenn x < A und Tx−1 (E) = B, wenn x ∈ A. In beiden Fällen gilt Tx−1 (E) ∈ Y. Nach Satz 1.63(i) ist Tx eine Y-X ⊗ Y messbare Abbildung. Also ist {y : (x, y) ∈ E} = Tx−1 (E) ∈ Y für E ∈ X ⊗ Y. Ist nun f eine X ⊗ Y-B(R) messbare Abbildung, dann ist nach Satz 1.63(ii) die Abbildung f ◦ Tx Y-B(R) messbar, d.h. f (x, ·) = f ◦ Tx (·) ist Y messbar. Die symmetrischen Aussagen für ein festes y ∈ Y zeigt man analog. Satz 2.34 (Produktmaßsatz). Es seien (X , X, µ) und (Y , Y, ν ) σ -endliche Maßräume. Dann gibt es ein eindeutiges σ -endliches Maß π auf X ⊗Y mit π (A×B) = µ (A)ν (B) für messbare Rechtecke A × B. Definition 2.35 (Produktmaß). Das Maß π aus dem Produktmaßsatz heißt Produktmaß von µ und ν . Es wird üblicherweise mit µ ⊗ ν bezeichnet. Beweis von Satz 2.34. Schritt 1: Existenz für µ und ν endlich. Für E ∈ X ⊗ Y ist nach Satz 2.33 ν ({y : (x, y) ∈ E}) eine wohldefinierte Funktion in x. Sei L die Menge aller E ∈ X ⊗ Y, für die diese Funktion messbar ist. Dann ist L ein Dynkin-System. (Beweis ist eine Übung!) Ist E = A×B ein messbares Rechteck, so gilt ν ({y : (x, y) ∈ E}) = 1A (x )ν (B). (Dies ist natürlich messbar in x.) Also ist L ein Dynkin-System und enthält das schnittstabile System messbarer Rechtecke. Nach Satz 1.36 ist L = X ⊗ Y. Es folgt, dass durch Z 0 π (E) = ν ({y : (x, y) ∈ E}) µ (dx ), E ∈ X ⊗ Y, (2.19) X ein endliches Maß auf X ⊗ Y definiert wird. Analog zeigt man, dass durch Z 00 π (E) = µ ({x : (x, y) ∈ E}) ν (dy), E ∈ X ⊗ Y, (2.20) Y ein endliches Maß auf X ⊗ Y definiert wird. Für messbare Rechtecke gilt π 0 (A × B) = π 00 (A × B) = µ (A)ν (B). (2.21) Die Familie der Mengen E ∈ X ⊗ Y mit π 0 (E) = π 00 (E) ist nach Beispiel 1.34.1. ein Dynkin-System. Da diese Familie die schnittstabile Menge der messbaren Rechtecke enthält, stimmt sie nach Satz 1.36 mit X ⊗ Y überein. Damit ist π = π 0 = π 00 ein Maß, das die geforderten Eigenschaften hat. 71 2.3 Produktmaße und Satz von Fubini Schritt 2: Existenz für µ und ν σ -endlich. Seien A1 , A2 , . . . und B 1 , B 2 , . . . disjunkte Zerlegungen von X bzw. Y in Mengen vom endlichen µ bzw. ν Maß. P Wir setzen µm (A ∩ Am ) und νn (B) = ν (B ∩ Bn ). Wegen ν (B) = n νn (B) ist der Integrand in (2.19) auch im σ -endlichen Fall messbar bezüglich X. Also ist π 0 und mit dem analogen Argument auch π 00 wohldefiniert im σ -endlichen 0 und π 00 die Maße, die mittels (2.19) und (2.20) zu µ und ν Fall. Seien πmn m n nm gehören. Nach Schritt 1 folgt X X 0 00 π 0 (E) = πmn (E) = πmn (E) = π 00 (E). (2.22) m,n m,n Also stimmen pi 0 und π 00 auch im σ -endlichen Fall überein. Außerdem gilt X π 0 (A × B) = µm (A)νn (B) = µ (A)ν (B). m,n Damit hat π = π 0 = π 00 auch im σ -endlichen Fall die geforderten Eigenschaften. Schritt 3: Eindeutigkeit und σ -Endlichkeit des Produktmaßes. Familie (Am × Bn ) ist eine Zerlegung von X × Y in messbare Rechtecke vom endlichen π -Maß. Daraus folgt die σ -Endlichkeit von π . Die Eindeutigkeit folgt mit Satz 1.37. Das folgende Resultat, der Satz von Fubini, ist eine direkte Konsequenz des Produktmaßsatzes. Mit diesem Satz können Mehfachintegrale als iterierte Integrale berechnet werden. Satz 2.36 (Satz von Fubini). Es seien (X , X, µ) und (Y , Y, ν ) σ -endliche Maßräume und sei π = µ ⊗ ν das zugehörige Produktmaß. Ist f : X × Y → R eine nichtnegative oder π -integrierbare X ⊗ Y messbare Funktion, dann sind die Funktionen Z Z x 7→ f (x, y) ν (dy) und y 7→ f (x, y) µ (dx ) (2.23) Y X messbar bezüglich X bzw. Y. Außerdem gilt Z Z Z f (x, y) π (d (x, y)) = f (x, y) ν (dy)µ (dx ) X ×Y X Y (2.24) und Z X ×Y f (x, y) π (d (x, y)) = Z Z 72 Y X f (x, y) µ (dx )ν (dy). (2.25) 2.3 Produktmaße und Satz von Fubini Beweis. R Es sei f = 1E für ein E ∈ X ⊗ Y. Die Messbarkeit der Funktion x 7→ Y f (x, y) ν (dy) = ν ({y : (x, y) ∈ E}) haben wir im Beweis von Satz 2.34 gezeigt. Außerdem folgt (2.24) mit der Darstellung (2.19) von π . Analog folgt R die Messbarkeit von y 7→ X f (x, y) µ (dx ) = µ ({x : (x, y) ∈ E}) und (2.25). Sei f eine einfache nichtnegative Funktion. Weil Summen messbarer Funktionen messbar sind, folgt (2.23) mit der Linearität des Integrals. Die Aussagen (2.24) und (2.25) folgen auch mit der Linearität des Integrals. Eine beliebige nichtnegative Funktionen f approximieren wir durch einfache Funktionen f 1 , f 2 , . . . mit fn ↑ f (Satz 1.70) und erhalten die Aussagen (2.23), (2.24) und (2.25) mit dem Satz von monotoner Konvergenz (Satz 2.8). Ein beliebige π -inegrierbare Funktion f zerlegen wir wie üblich in ihren Positiv- und Negativteil, f = f + − f − . Die Funktionen f + und f − sind nichtnegativ und nach dem obigen Argument gelten für sie (2.23), (2.24) und (2.25). Damit gelten die Aussagen auch für f . R∞ 2 Beispiel 2.37. Sei I = −∞ e −x dx. Mit dem Satz von Fubini und Übergang von Kartesischen zu Polarkoordinaten in R2 kann man I 2 wie folgt berechnen " " 2 2 −(x 2 +y 2 ) I = e dx dy = e −r r dr dθ . R2 r >0 0<θ <2π Das Doppelintegral auf der rechten Seite kann nach Satz von Fubini durch iterierte Integrale berechnet werden. Und wir erhalten Z ∞ √ 2 e −x dx = π . −∞ Bemerkung 2.38 (Endliche Produkte höherer Ordnung). Seien (X , X, µ), (Y , Y, ν ) und (Z , Z, η) drei σ -endliche Maßräume. Die Produkt-σ -Algebra X ⊗ Y ⊗ Z ist die σ -Algebra, die von den messbaren Rechtecken A × B × C mit A, B, C aus X, Y bzw. Z, erzeugt wird. Für C ∈ Z sei GC die Familie der Mengen E ∈ X ⊗ Y mit E × C ∈ X ⊗ Y ⊗ Z. Dann ist GC eine σ -Algebra, die die messbaren Rechtecke von X × Y enthält und daher gilt GC = X ⊗ Y. Es folgt (X ⊗ Y) ⊗ Z ⊂ X ⊗ Y ⊗ Z. Da die umgekehrte Inklusion offensichtlich auch erfüllt ist, gilt (X ⊗ Y) ⊗ Z = X ⊗ Y ⊗ Z. Wir definieren das Produktmaß µ ⊗ ν ⊗ η auf X ⊗ Y ⊗ Z als (µ ⊗ ν ) ⊗ η. Für messbare Rechtecke A × B × C gilt dann µ ⊗ ν ⊗ η(A × B × C) = µ ⊗ ν (A × B)η(C) = µ (A)ν (B)η(C). 73 2.4 Übungen Dieses Maß ist eindeutig. Die Aussagen des Produktmaßsatzes und des Satzes von Fubini lassen sich in offensichtlicher Weise auf Produkte von drei und mehr Komponenten erweitern. Insbesondere können wir das Lebesgue Maßes λd auf Rd als Produktmaß λ ⊗ . . . ⊗ λ (d-mal) auf B(Rd ) = B(R) ⊗ . . . ⊗ B(R) definieren. 2.4 Übungen Übung 2.1. Beweisen Sie Lemma 2.7. Übung 2.2. Entscheiden Sie (mit Begründung), ob die Dirichletsche Sprungfunktion 1 f (x ) = 0 falls x rational falls x irrational Lebesgue-integrierbar ist und berechnen Sie gegebenenfalls R f dλ. Übung 2.3. Es sei f eine R-wertige Funktion auf einem meßbaren Raum. Zeigen Sie: (a) Ist f meßbar, dann ist f genau dann integrierbar, wenn | f | integrierbar ist. (b) Im Allgemeinen ist Meßbarkeit von f nicht äquivalent zur Meßbarkeit von | f |. Übung 2.4. Es sei f eine nichtnegative meßbare R-wertige Funktion auf einem Maßraum (Ω, A, µ) mit µ (Ω) < ∞. Zeigen Sie: (a) Nimmt die Funktion f nur ganzzahlige Werte an, so gilt Z ∞ X f dµ = µ ( f ≥ n). n=1 (b) Die Funktion f (nicht notwendigerweise ganzzahlig) ist genau dann µintegrierbar, wenn ∞ X µ ( f ≥ n) < ∞ n=1 gilt. 74 (2.26) 2.4 Übungen (c) Aus (2.26) folgt lim nµ ( f ≥ n) = 0. n→∞ Übung 2.5. Beweisen Sie Satz 2.10. Übung 2.6. Es sei (Ω, A, µ) ein messbarer Raum. (a) Sind f 1 , f 2 , . . . nichtnegative Borel-messbare Funktionen, so gilt Z X ∞ ∞ Z X fn dµ. fn dµ = n=1 n=1 (b) Für eine Borel-messbare Funktion f wird nach Satz 2.5 durch Z ν (A) = f dµ, A ∈ A, A eine σ -additive Mengenfunktion ν auf A definiert. Man nennt ν auch signiertes Maß. Zeigen Sie: Für Borel-messbare Funktionen д auf Ω gilt Z Z д dν = д f dµ, in dem Sinne, dass wenn eine Seite existiert, so existiert auch die andere und beide sind gleich. (Intuitiv heißt es dν/dµ = f , so dass dν = f dµ). Übung 2.7. Durch fn (x ) = ne −nx , n = 1, 2, . . . wird auf [0, ∞) eine Folge nichtnegativer Funktionen definiert. Zeigen Sie, dass ( fn ) λ-f.ü. gegen eine Funktion f konvergiert, wobei Z Z f dλ , lim fn dλ [0,∞) n→∞ [0,∞) gilt. Weshalb ist hier der Satz von Lebesgue nicht anwendbar? Übung 2.8. Es sei µ ein beliebiges Wahrscheinlichkeitsmaß auf (R, B(R)) und δ 0 das Einheitsmaß in 0 (also δ 0 (B) = 1, falls 0 ∈ B, und δ 0 (B) = 0, falls 0 < B). Finden Sie die Hahn-Jordan-Zerlegung des signierten Maßes ν = µ − δ 0 . RÜbung 2.9. Es sei (Ω, A, µ) ein Maßraum und f eine messbare Funktion,R sodass f dµ existiert. Auf A definieren wir das signierte Maß ν durch ν (A) = A f dµ, A ∈ A. Zeigen Sie Z Z Z + + − − ν (A) = f dµ, ν (A) = f dµ, |ν |(A) = | f | dµ. A A 75 A 2.4 Übungen Übung 2.10 (Diskrete Dichten). Es sei (Ω, A) ein messbarer Raum; A enthalte die Einpunktmengen. Seien µ und ν diskrete Maße auf A. (a) Sind µ und ν immer σ -endlich? (b) Geben Sie eine notwendige und hinreichende Bedingung für ν µ an. (c) Berechnen Sie alle µ-Dichten von ν . Hinweis: Das Maß µ heißt diskret, wenn es abzählbar viele ωi ∈ Ω und pi ∈ R+ gibt, so dass X µ (A) = pi , A ∈ A. ωi ∈A Übung 2.11 (Äquivalente Maße). Zeigen Sie, dass die Relation auf der Menge der Maße einer σ -Algebra reflexiv und transitiv ist. Die durch µ ν und ν µ definierte Relation µ ∼ ν ist dann eine Äquivalenzrelation. (Insbesondere besitzen µ und ν dann dieselbe Nullmengen.) Zeigen Sie außerdem, dass für endliche Maße µ und ν gilt: µ ∼ ν ist äquivalent zu dν = f dµ, wobei die Dichte f die Bedingung 0 < f (ω) < ∞ µ-f.ü. erfüllt. Übung 2.12. Es sei Ω nichtabzählbar und A die σ -Algebra alle Mengen A ⊂ Ω, für welche A oder Ac abzählbar ist. Mit µ sei das Zählmaß auf A bezeichnet und ν sei ein Maß auf A mit ν (A) = 0 falls A abzählbar und ν (A) = ∞ sonst. Zeigen Sie, das ν zwar absolutstetig bezüglich µ ist, jedoch keine µ-Dichte besitzt. Übung 2.13. Beweisen Sie die Eindeutiglkeit der Zerlegung im Zerlegungssatz von Lebesgue (Satz 2.29). Übung 2.14. Gegeben seien ein σ -endlicher Maßraum (Ω, A, µ) und nichtnegative A-messbare Funktionen f und д. Z Z ∞ p (a) Für p ∈ [1, ∞) gilt f dµ = pt p−1 µ ( f > t ) dt. 0 (b) Gilt µ ( f > t ) ≤ µ (д > t ) für alle t ≥ 0, so folgt Z f dµ ≤ Z д dµ. Hinweis: f (ω) ist gleich dem Lebesgue-Integral der Indikatorfunktion 1{[0,f (ω))} . Für p = 1 ist die Formel in (a) oft sehr hilfreich für Berechnungen von Erwartungswerten nichtnegativer Zufallsvariablen. Vergleichen Sie (a) mit Übung 2.4. 76 2.4 Übungen Übung 2.15. Es seien F und G die Verteilungsfunktionen der Wahrscheinlichkeitsmaße µ bzw. ν auf (R, B(R)). Zeigen Sie: Z 1. Für c ∈ R gilt F (x + c) − F (x ) λ(dx ) = c. 2. Wenn F und G keine gemeinsame Unstetigkeitsstellen in (a, b] haben, dann gilt die Formel der partiellen Integration Z Z G (x ) dF (x ) = F (b)G (b) − F (a)G (a) − F (x ) dG (x ). (a,b] (a,b] Dabei steht dF (x ) für µ (dx ) und dG (x ) für ν (dx ). R 3. Ist F stetig, so gilt F (x ) dF (x ) = 12 . Hinweis zu (b): Berechnen Sie das Produktmaß von {(x, y) ∈ (a, b]2 |x ≤ y} ∪ {(x, y) ∈ (a, b]2 |x ≥ y} auf geeignete Weise. Übung 2.16. (a) Es sei X = Y = N und µ = ν das Zählmaß. Zeigen Sie, dass für 2 − 2−x f (x, y) = −2 + 2−x 0 : falls x = y, : falls x = y + 1, : sonst, die iterierten Integrale existieren aber nicht gleich sind. Warum widerspricht es nicht dem Satz von Fubini? (b) Zeigen Sie, dass xy/(x 2 + y 2 ) 2 nicht integrierbar über {(x, y) : |x |, |y| ≤ 1} ist, obwohl die iterierten Integrale existieren und gleich sind. 77 3 Zufallsvariablen, Verteilungen und Erwartungswerte 3.1 Zufallsvariablen und ihre Verteilungen Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P) ist eine A-messbare reellwertige (oder R-wertige) Funktion auf Ω. Alle Resultate und Konzepte für allgemeine Maßräume und messbare Funktionen, mit denen wir uns in den vorherigen Kapiteln beschäftigt haben, lassen sich auf Zufallsvariablen und Wahrscheinlichkeitsräume übertragen. Ein Zufallsvektor ist eine A-messbare Abbildung von Ω nach Rd . Jede Abbildung von Ω nach Rd ist von der Form ω 7→ X (ω) = (X 1 (ω), . . . , Xd (ω)), wobei jedes Xi eine reellwertige Funktion ist. Wir haben bereits gesehen, dass X genau dann messbar ist, wenn alle Xi messbar sind (vgl. Bemerkung 1.65). Also ist ein Zufallsvektor einfach ein d-Tupel von Zufallsvariablen. Wenn G eine σ -Algebra mit G ⊂ A, dann ist ein d-dimensionaler Zufallsvektor X genau dann G-messbar, wenn X −1 (A) = {X ∈ A} = {ω ∈ Ω : X (ω) ∈ A} ∈ G für alle A ∈ B(Rd ) gilt. Mit σ (X ) bezeichnen wir die kleinste σ -Algebra, bezüglich welcher der Zufallsvektor X messbar ist. Satz 3.1. Für ein Zufallsvektor X = (X 1 , . . . , Xd ) gelten folgende Aussagen. (i) Die σ -Algebra σ (X ) besteht genau aus den Mengen {X ∈ A}, A ∈ B(Rd ). (ii) Eine Zufallsvariable Y ist genau dann σ (X )-messbar, wenn es eine messbare Funktion f : Rd → R, sodass Y (ω) = f (X 1 (ω), . . . , Xd (ω)) für alle ω ∈ Ω. Beweis. Die Aussage (i) ist klar nach Übung 1.7. Ist f messbar (damit ist natürlich die B(Rd )-B(R) Messbarkeit gemeint), dann ist Y (ω) = f (X (ω)) nach Satz 1.63(ii) σ (X )-B(R) messbar. Es bleibt also die umgekehrte Richtung zu zeigen. 78 3.1 Zufallsvariablen und ihre Verteilungen Sei Y eine σ (X ) messbare Zufallsvariable. Nehmen wir zunächst an, dass Y einfach ist. Seien y1 , . . . , ym die unterschiedlichen möglichen Werte von Y . Dann liegen die Mengen Ai = {Y = yi } in σ (X ). Nach Teil (i) gibt es P Hi ∈ B(Rd ) mit Ai = {X ∈ Hi }. Wir setzen f = i yi 1Hi . Diese Funktion ist natürlich messbar. Da Ai disjunkt sind, kann kein X (ω) in mehr als einem Hi liegen. Es folgt f (X (ω)) = Y (ω). Für beliebige Zufallsvariablen Y sei Yn eine Folge einfacher Zufallsvariablen mit Yn (ω) → Y (ω) für alle ω. Für jedes n gibt eine messbare Funktion fn : Rd → R mit Yn (ω) = fn (X (ω)). Sei M die Teilmenge von Rd auf der fn konvergiert, d.h. M = {x ∈ Rd : ( fn (x )) ist konvergent}. Nach Satz 1.68(iii) ist M ∈ B(Rd ). Wir setzen f (x ) = limn fn (x ) für x ∈ M und f (x ) = 0 für x ∈ Rd \M. Da f = limn fn 1M ist, und fn 1M messbare Funktionen sind, ist f nach Satz 1.68(ii) messbar. Für alle ω gilt nach Konstruktion Y (ω) = limn fn (X (ω)). Hieraus folgt X (ω) ∈ M und Y (ω) = limn fn (X (ω)) = f (X (ω)). Die Verteilung µ einer Zufallsvariablen X auf R ist definiert als das Bildmaß µ = PX −1 von P unter X , d.h. µ (A) = P(X ∈ A), A ∈ B(R). (3.1) Wir verwenden die Notation X ∼ µ, „∼“ ist an der Stelle als „verteilt gemäß“ zu lesen, oder L(X ) = µ, hier steht L für das englische Wort law, was in dem Zusammenhang als Verteilungsgesetz übersetzt werden kann. Die Verteilungsfunktion von X ist definiert durch F (x ) = µ ((−∞, x]) = P(X ≤ x ), x ∈ R. (3.2) Die Funktion F ist nichtfallend, rechtsseitig stetig und hat höchstens abzählbar viele Unstetigkeitstellen. Außerdem hat F überall linksseitige Grenzwerte und es gilt F (x−) = µ ((−∞, x )) = P(X < x ), F (x ) − F (x−) = µ ({x }) = P(X = x ), 79 (3.3) 3.1 Zufallsvariablen und ihre Verteilungen und lim F (x ) = 0 und x→−∞ lim F (x ) = 1. x→∞ (3.4) Ist F eine Funktion mit den oben aufgezählten Eigenschaften, dann gibt es nach Satz 1.58 ein eindeutiges Wahrscheinlichkeitsmaß µ dessen Verteilungsfunktion F ist. Beispiel 3.2 (Diskrete Verteilungen auf R). Eine Zufallsvariable X heißt diskret, wenn ihre Verteilung µ diskret ist, d.h. es gibt eine abzählbare Teilmenge P I von R und (pi )i∈I mit pi ≥ 0 für alle i und µ (R) = µ (I ) = i∈I µ ({i}) = P i∈I pi = 1. Die zugehörige Verteilungsfunktion ist dann gegeben durch X F (x ) = P(X ≤ x ) = pi . i∈I,i≤x Die Elemente x ∈ R mit µ ({x }) > 0 werden oft als Atome bezeichnet. Diskrete Verteilungen nennt man deswegen manchmal atomar. (a) Eine bekannte diskrete Verteilung ist die Binomialverteilung. Eine Zufallsvariable X ist binomial verteilt mit Parametern n ∈ N und p ∈ [0, 1], wenn gilt ! n k P(X = k ) = µ ({k } = p (1 − p)n−k , k = 0, 1, . . . , n. (3.5) k Wir schreiben dann X ∼ Bin(n, p). Viele Zufallsvariablen auf vielen Wahrscheinlichkeitsräumen sind binomial verteilt. Sei z.B. X 1 , X 2 , . . . eine Folge unabhängiger Zufallsvariablen P P9+n mit P(X ` = 1) = p und P(X ` = 0) = 1 − p. Dann sind ni=1 Xi , i=10 Xi oder eine beliebige Summe von n der Xi binomial verteilt. Man könnte auch Ω = {0, 1, . . . , n} nehmen mit A = P (Ω), P({k}) = kn pk (1 − p)n−k , k = 0, 1, . . . , n und X (k ) = k. Schließlich könnte man auch direkt mit der Verteilungsfunktion der Binomialverteilung starten und dann P wie in Satz 1.58 (dort haben wir µ konstruiert) konstruieren. Dieses Beispiel zeigt, dass die Verteilung einer Zufallsvariablen X das probabilistische Verhalten von X selbst zwar vollständig beschreibt, aber keine Information über den zugrunde liegenden Wahrscheinlichkeitsraum (Ω, A, P) enthält. 80 3.1 Zufallsvariablen und ihre Verteilungen (b) Eine weitere bekannte diskrete Verteilung ist die Poissonverteilung mit Parameter γ > 0. Für diese gilt P(X = k ) = µ ({k }) = e −γ γk , k! k = 0, 1, . . . . (3.6) Wir schreiben dann X ∼ Poi(γ ). (c) Eine Konstante c kann als eine diskrete Zufallsvariable mit X (ω) ≡ c angesehen werden. Dann ist P(X = c) = µ ({c}) = 1. Wir sagen, dann dass X gemäß der Dirac-Verteilung in c verteilt ist. (d) Wir wissen bereits, dass eine Verteilungsfunktion höchstens abzählbar viele Unstetigkeitsstellen haben kann. Das folgende (etwas künstliche) Beispiel zeigt, dass die Menge der Unstetigkeitsstellen dicht in R liegen kann. Sei {x 1 , x 2 , . . .} eine Abzählung von Q und sei µ ({xk }) = 2−k . Dann ist µ ein Wahrscheinlichkeitsmaß und jede rationale Zahl eine Unstetigkeitsstelle der zu µ gehörigen Verteilungsfunktion. Beispiel 3.3 (Stetige Verteilungen auf R). Eine Zufallsvariable X und ihre Verteilung µ haben eine Dichte bezüglich des Lebesgue Maßes λ, wenn es eine nichtnegative Funktion f auf R gibt mit (wir schreiben dx statt λ(dx )) Z P(X ∈ A) = µ (A) = f (x ) dx, A ∈ B(R). (3.7) A Die Funktion f ist nur bis auf Lebesgue-Nullmengen eindeutig bestimmt und es gilt notwendigerweise λ[f ] = 1. Wir wissen, dass (3.7) für alle A ∈ B(R) gilt, wenn es für alle Intervalle (a, b] gilt, d.h. wenn F (b) − F (a) = b Z a f (x ) dx (3.8) für alle a < b gilt. Die Dichte f muss nicht unbedingt überall die Ableitung von F sein damit (3.8) gilt. Andererseits, wenn F differenzierbar ist und f = F 0 ist, dann gilt (3.8) nach Hauptsatz der Differential- und Integralrechnung, dass f eine Dichte zu F bzw. der zugehörigen Verteilung ist. Verteilungen mit Dichten nennen wir üblicherweise stetig. Natürlich gilt µ ({x }) = 0 für alle x ∈ R, wenn µ eine stetige Verteilung ist. 81 3.1 Zufallsvariablen und ihre Verteilungen (a) Die Dichte der Exponentialverteilung mit Parameter α > 0 ist gegeben durch 0 f (x ) = αe −αx : wenn x < 0, : wenn x ≥ 0. (3.9) Die Verteilungsfunktion ist dann 0 F (x ) = 1 − e −αx : wenn x < 0, : wenn x ≥ 0. (3.10) Für eine exponentiell verteilte Zufallsvariable X mit Parameter α schreiben wir X ∼ Exp(α ). (b) Die Dichte der Normalverteilung mit Parametern µ ∈ R und σ 2 > 0 ist f (x ) = √ 1 2πσ 2 e− (x −µ ) 2 2σ 2 , x ∈ R. (3.11) Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼ N(µ, σ 2 ). (c) Die Dichte der auf dem Intervall (a, b] gleichverteilten Zufallsvariable ist definiert durch 1 b−a f (x ) = 0 : wenn a < x ≤ b, : sonst. (3.12) Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼ U((a, b]). Fürs Rechnen mit Wahrscheinlichkeiten ist eine Verteilungsfunktion dann nützlich, wenn sie eine vergleichsweise einfache Darstellung hat, wie z.B. (3.10). Ansonsten ist es typischerweise leichter die Verteilung durch die Dichte f (x ) oder durch die diskreten Wahrscheinlichkeiten µ ({i}) zu beschreiben. Oft können Wahrscheinlichkeiten bestimmter Ereignisse approximativ (mit passenden Grenzwertsätzen wie z.B. mit Gesetzen der großen Zahlen, zentralem Grenzwertsatz, etc.) berechnet werden. 82 3.1 Zufallsvariablen und ihre Verteilungen Ist F eine Verteilungsfunktion einer stetigen Zufallsvariablen, dann ist F stetig. Im diskreten Fall ist F eine Sprungfunktion. Es gibt natürlich Verteilungen, die weder diskret noch stetig sind wie zum Beispiel µ (A) = 12 µ s (A) + 21 µ d (A), wobei µ s stetig ist, und µ d diskret ist. Wie wir schon im Zusammenhang mit der Lebesgue-Zerlegung bemerkt haben gibt es auch Verteilungen mit stetigen Verteilungsfunktionen, die singulär zum Lebesgue-Maß sind. Wenn nichts anderes gesagt wird, sind für uns stetige Verteilungen solche, die absolut stetig zum Lebesgue-Maß sind. Wenn X eine Zufallsvariable mit Verteilung µ und д : R → R eine messbare Funktion, dann ist gilt P(д(X ) ∈ A) = P(X ∈ д−1 (A)) = µ (д−1 (A)), A ∈ B(R). (3.13) Also hat die Zufallsvariable д(X ) die Verteilung µд−1 ; vgl. Satz 1.71. Falls eine Verteilung eine Dichte besitzt, so folgt mit (3.8) und (3.4) die (bereits bekannte) Darstellung Z x F (x ) = f (y) dy. (3.14) −∞ Zumindest an den Stetigkeitsstellen von f gilt F 0 (x ) = f (x ). Nehmen wir an, dass f stetig ist und д streng monoton wachsend mit T = д−1 . Dann ist die Verteilungsfunktion von д(X ) gegeben durch P(д(X ) ≤ x ) = P(X ≤ T (x )) = F (T (x )). (3.15) d Ist T differenzierbar, dann gilt dx F (T (x )) = f (T (x ))T 0 (x ), was die Dichte von д(X ) sein muss. Ist д streng monoton fallend, dann ist P(д(X ) ≤ x ) = P(X ≥ T (x )) = 1 − P(X ≥ T (x )) = 1 − F (T (x )). (3.16) d F (T (x )) = −f (T (x ))T 0 (x ) = f (T (x ))|T 0 (x )|. Die Dichte von д(X ) ist dann − dx Für bijektive Funktion д ist also die Dichte von д(X ) gegeben durch d P(д(X ) ≤ x ) = f (T (x ))|T 0 (x )|. dx (3.17) Ist zum Beispiel X ∼ N(µ, σ 2 ), a > 0 und b ∈ R, dann gilt aX + b ∼ N(aµ + b, (aσ ) 2 ). Mit dem Ansatz wie oben kann man Verteilungsfunktionen und Dichten oft auch in dem Fall bestimmen, wenn д nicht bijektiv ist. 83 3.1 Zufallsvariablen und ihre Verteilungen Beispiel 3.4. Wenn X standard-normalverteilt ist, d.h. X ∼ N(0, 1), dann gilt für x > 0 √ √ P(X 2 ≤ x ) = P(− x ≤ X ≤ x ) Z √x Z √x 2 2 2 1 −y /2 dy = √ =√ e −y /2 dy. √ e 2π − x 2π 0 Also ist X 2 eine Zufallsvariable mit Dichte √12π x −1/2e −x/2 f (x ) = 0 : wenn x > 0, : wenn x ≤ 0. Für solche Dichtetransformationen (auch für Dichten von Zufallsvektoren) gibt es allgemeine Formeln; vgl. Satz 1.101 in Klenke (2013). Definition 3.5 (Erwartungswert). Es sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P). Der Erwartungswert von X ist das Integral von X bezüglich P: Z Z E[X ] B X dP = X (ω) P(dω). (3.18) Ω Alle Definitionen, Konventionen und Resultate für Integrale messbarer Funktionen gelten natürlich auch für Erwartungswerte. Für nichtnegative X ist der Erwartungswert immer definiert. Für beliebige X , sagen wir E[X ] ist definiert oder X hat einen Erwartungswert, wenn zumindest einer der Erwartungwerte E[X + ] oder E[X − ] endlich ist. In diesem Fall ist E[X ] = E[X + ] − E[X − ]. Die Zufallsvariable X ist integrierbar, d.h. E[X ] endlich, genau dann, wenn R E[|X |] < ∞ ist. Das Integral A X dP über eine Menge A ist E[1AX ]. Bevor wir eine alternative (und möglicherweise geläufigere) Version des Erwartungswertes angeben, beweisen wir eine Substitutionsforlmel. Satz 3.6 (Substitutionsformel). Seien (Ω, A) und (Ω0, A 0 ) messbare Räume und T : Ω → Ω0 eine A-A 0 messbare Abbildung. Sei µ ein Maß auf A und sei µT −1 das zugehörige Bildmaß auf A 0. Ist f : Ω0 → R eine nichtnegative messbare Funktion, so gilt Z Z f (T (ω)) µ (dω) = f (ω 0 ) µT −1 (dω 0 ). (3.19) Ω Ω0 84 3.1 Zufallsvariablen und ihre Verteilungen Eine (nicht notwendigerweise nichtnegative) Funktion f ist integrierbar bezüglich µT −1 genau dann, wenn f ◦ T intergrierbar bezüglich µ ist. Auch in diesem Fall gilt (3.19) und Z Z f (T (ω)) µ (dω) = f (ω 0 ) µT −1 (dω 0 ), A0 ∈ A 0 . (3.20) T −1 (A0 ) A0 Für nichtnegative f gilt (3.20) immer. Beweis. Für f = 1A0 ist f ◦ T = 1T −1 (A0 ) . In diesem Fall ist die linke Seite von (3.19) gleich µ (T −1 (A0 )) und die rechte ist µT −1 (A0 ). Gleichheit dieser Ausdrucke gilt nach Definition des Bildmaßes; vgl. (1.38). Linearität des Integrals impliziert, dass (3.19) für nichtnegative einfache Funktionen gilt. Ist f nichtnegativ und ( fn ) eine Folge einfacher Funktionen mit 0 ≤ fn ↑ f , dann folgt 0 ≤ fn ◦ T ↑ f ◦ T und (3.19). Wenden wir (3.19) auf | f | an, so erhalten wir die „genau dann wenn“ Aussage über die Integrierbarkeit von f . Für integrierbare Funktionen folgt (3.19) mit der üblichen Zerlegung in Positiv- und Negativteil. Schließlich folgt (3.20) aus (3.19), wenn wir f durch f 1A0 ersetzen. Bemerkung 3.7 (Alternative Definition des Erwartungswertes). Sei д : R → R eine messbare Funktion und sei µ = PX −1 die Verteilung der Zufallsvariablen X . Dann gilt nach Satz 3.6 Z Z Z ∞ −1 E[д(X )] = д(X (ω)) P(dω) = д(x ) PX (dx ) = д(x ) µ (dx ). R Ω −∞ (3.21) Mit д(x ) = x folgt die (vermutlich aus Stochastik 0) geläufige und meistens nützlichere Darstellung des Erwartungswertes Z ∞ E[X ] = x µ (dx ). (3.22) −∞ Wenn µ ein diskretes Maß ist mit µ ({x 1 , x 2 , . . .}) = 1, dann gilt X X д(xi )µ ({xi }) = д(xi )P(X = xi ) E[д(X )] = i i 85 (3.23) 3.1 Zufallsvariablen und ihre Verteilungen und E[X ] = X xi µ ({xi }) = X xi P(X = xi ) (3.24) i i Ist µ ein Maß mit Dichte f , dann gilt Z E[д(X )] = ∞ д(x ) f (x ) dx (3.25) x f (x ) dx . (3.26) −∞ und E[X ] = Z ∞ −∞ Definition 3.8 (Momente von Zufallsvariablen). Für k ∈ N und eine Zufallsvariable X nennen wir (sofern die jeweilige Größe definiert ist) • E[X k ] das k-te Moment von X ; • E[|X |k ] das k-te absolute Moment von X ; • E[(X − E[X ])k ] das k-te zentrale Moment von X ; • E[|X − E[X ]|k ] das k-te absolute zentrale Moment von X . Speziell heißt das zweite absolute Moment Varianz von X und wird mit Var[X ] bezeichnet, d.h. Var[X ] B E[(X − E[X ]) 2 ]. (3.27) Ist Y eine andere Zufallsvariable, so heißt Cov[X , Y ] B E[(X − E[X ])(Y − E[Y ])] (3.28) Kovarianz von X und Y und Cov[X , Y ] . ρ (X , Y ) B p p Var[X ] Var[Y ] (3.29) heißt Korrelationskoeffizient von X und Y . Ist ρ (X , Y ) = 0, so nennen wir die Zufallsvariablen X und Y unkorreliert. 86 3.2 Grundlegende Ungleichungen 3.2 Grundlegende Ungleichungen In diesem Abschnitt erinnern wir an einige wichtige Ungleichungen, die möglicherweise schon aus anderen Veranstaltungen bekannt sind. Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Auch wenn der Beweis der folgenden Ungleichung sehr einfach ist, ist sie und deren Varianten in vielen Situationen sehr nützlich. Satz 3.9 (Allgemeine Markov-Ungleichung). Ist X eine Zufallsvariable und h : R → (0, ∞) eine monoton wachsende Funktion, dann gilt für jedes x ∈ R P(X ≥ x ) ≤ E[h(X )] . h(x ) (3.30) Beweis. Für alle x ∈ R gilt E[h(X )] ≥ E[h(X ) 1{X ≥x } ] ≥ h(x )E[1{X ≥x } ] = h(x )P(X ≥ x ). Natürlich ist die Ungleichung (3.30) nur dann nützlich, wenn E[h(X )] endlich ist und berechnet werden kann. Im nächsten Resultat stellen wir zwei Versionen von (3.30) vor. Korollar 3.10. Für alle x > 0 gilt P(|X | ≥ x ) ≤ E[|X |r ] ,r ≥0 xr (Markov-Ungleichung) (3.31) und P(|X − E[X ]| ≥ x ) ≤ Var[X ] x2 (Chebyshev-Ungleichung). (3.32) Beweis. Für (3.31) wenden wir (3.30) auf |X | und h(x ) = x r an. Für (3.32) wenden wir (3.30) auf |X − E[X ]| und h(x ) = x 2 an. Nach Definition ist die Varianz einer Zufallsvariable nichtnegativ und mit der Darstellung Var[X ] = E[X 2 ] − (E[X ]) 2 folgt E[X 2 ] ≥ (E[X ]) 2 . Die Ungleichung könnten wir auch mit der folgenden Jensen-Ungleichung bekommen. 87 3.2 Grundlegende Ungleichungen Satz 3.11 (Jensen-Ungleichung). Ist h : I → R eine konvexe Funktion und ist P(X ∈ I ) = 1 und existieren die Erwartungswerte von X und h(X ), dann gilt h E[X ] ≤ E[h(X )]. (3.33) Beweis. Tangenten konvexer Funktionen liegen unterhalb des Funktionsgraphen. Für jedes x 0 ∈ I gibt es also ein a(x 0 ) mit h(x ) ≥ h(x 0 ) + (x − x 0 )a(x 0 ), x ∈ I . (3.34) Wenden wir diese Ungleichung auf x = X und x 0 = E[X ] an, so folgt h(X ) ≥ h(E[X ]) + (X − E[X ])a(E[X ]). Die Behauptung folgt wenn wir auf beiden Seite dieser Ungleichung den Erwartungswert nehmen. Natürlich liefert die Jensen-Ungleichung auch eine Abschätzung für konkave Funktionen. Ist nämlich h konkav, so ist −h konvex und nach Anwendung der Jensen-Ungleichung auf −h folgt h E[X ] ≥ E[h(X )]. (3.35) Damit ist für positive Zufallsvariablen (sofern die fraglichen Erwartungswerte existieren) (E[X ]) −1 ≤ E[X −1 ] und log E[X ] ≥ E[log X ]. Nun wiederholen wir Ungleichungen für p-fach integrierbare Funktionen. Für 0 < p < ∞ definieren wir 1/p kX kp B E[|X |p ] und kX k∞ B inf {α : P(|X | > α ) = 0}, p p kX k∞ wird auch wesentliches Supremum von X genannt. Sei L = L (P) = p L (Ω, A, P) die Menge aller Zufallsvariablen mit kX kp < ∞. Wir erinnern zunächst an einige wichtige Eigenschaften und Ungleichungen. Lemma 3.12. Für a, b, α, β > 0 mit α + β = 1 gilt aα b β ≤ αa + βb. 88 3.2 Grundlegende Ungleichungen Beweis. Die Aussage ist äquivalent zu − log(αa + βb) ≤ α (− log a) + β (− log b) und diese folgt mit Konvexität von − log. Korollar 3.13 (Young’sche Ungleichung). Für c, d > 0, p, q > 1 mit 1/p +1/q = 1 gilt cd ≤ c p /p + d q /q. Beweis. Wähle in Lemma 3.12 α = 1/p, β = 1/q, a = c p , b = d q . Satz 3.14 (Hölder-Ungleichung). Seien p, q ∈ [1, ∞] mit 1/p + 1/q = 1. Ist X ∈ Lp und ist Y ∈ Lq , dann gilt XY ∈ L1 und kXY k1 ≤ kX kp kY kq . (3.36) Beweis. Im Fall p = 1 oder p = ∞ ist die Aussage klar. Betrachten wir also den Fall 1 < p < ∞. Wenn kX kp = 0 oder kY kq = 0 ist, dann ist X = 0 P-f.s. oder Y = 0 P-f.s. und es folgt XY = 0 P-f.s. und die Ungleichung ist klar. Im Fall kX kp > 0 und kY kq > 0 setzen wir c = |X (ω)|/kX kp , d = |Y (ω)|/kY kq . Mit Korollar 3.13 folgt |X (ω)Y (ω)| |X (ω)|p |Y (ω)|q ≤ q . p + kX kp kY kq qkY kq p kX kp Erwartungswert auf beiden Seiten liefert E[|XY |] 1 1 ≤ + = 1, kX kp kY kq p q was die Behauptung zeigt. Für p = q = 2 folgt mit der Hölder-Ungleichung 1/2 E[|XY |] ≤ E[X 2 ]E[Y 2 ] und wir erhalten die Cauchy-Schwarz-Ungleichung: für X , Y ∈ L2 gilt 2 E[XY ] ≤ E[X 2 ]E[Y 2 ]. (3.37) Ersetzen wir in dieser Ungleichung X durch X − E[X ] und Y durch Y − E[Y ], dann erhalten wir −1 ≤ ρ (X , Y ) ≤ 1. Die nächste Ungleichung, die wir beweisen werden ist die MinkowskiUngleichung. Wir starten mit einem Lemma. 89 3.2 Grundlegende Ungleichungen Lemma 3.15. Für a, b ≥ 0, p ∈ [1, ∞) gilt (a + b)p ≤ 2p−1 (ap + bp ). Beweis. Für p = 1 ist die Ungleichung klar. Für p ∈ (1, ∞) sei d h(x ) = (a + x )p − 2p−1 (ap + x p ) = p(a + x )p−1 − 2p−1px p−1 . dx Für p > 1 ist h(x ) > 0 für a + x > 2x, d.h. für x < a; h(x ) = 0 für x = a; h(x ) < 0 für x > a. Das Maximum der abgeleiteten Funktion wird also in x = a angenommen. Es folgt (a + b)p − 2p−1 (ap + bp ) ≤ (a + a)p − 2p−1 (ap + ap ) = 0. p p Satz 3.16 (Minkowski-Ungleichung). Für X , Y ∈ L , 1 ≤ p ≤ ∞ gilt X +Y ∈ L und kX + Y kp ≤ kX kp + kY kp . (3.38) Beweis. Für p = 1 oder p = ∞ ist die Ungleichung (3.38) klar. Sei also p ∈ (1, ∞) und sei q so gewählt, dass 1/p + 1/q = 1 gilt. Nach Lemma 3.15 gilt p p |X +Y |p ≤ (|X | + |Y |)p ≤ 2p−1 (|X |p + |Y |p ). Aus X , Y ∈ L folgt also X +Y ∈ L . Es gilt |X + Y |p = |X + Y | |X + Y |p−1 ≤ |X | |X + Y |p−1 + |Y | |X + Y |p−1 . Mit (p − 1)q = (3.39) p−1 p−1 = =p 1/q 1 − 1/p folgt q f g E |X + Y |p−1 = E |X + Y |p < ∞. q p Insbesondere gilt |X + Y |p−1 ∈ L , wenn X , Y ∈ L . Nach Hölder-Ungleichung gilt dann |X | |X + Y |p−1 ∈ L1 und |Y | |X + Y |p−1 ∈ L1 und 1/q p/q p−1 p−1 q E[|X | |X + Y | ] ≤ kX kp E |X + Y | = kX kp kX + Y kp , q 1/q p/q E[|Y | |X + Y |p−1 ] ≤ kY kp E |X + Y |p−1 = kX kp kX + Y kp . p p/q Mit Ungleichung (3.39) folgt kX + Y kp ≤ (kX kp + kY kp )kX + Y kp . Mit p − p/q = 1 folgt die Behauptung. 90 3.3 Unabhängige Ereignisse und Mengensysteme p p Ist α ∈ R und X ∈ L so ist natürlich αX ∈ L und es gilt kαX kp = |α |kX kp . (3.40) p Auf L definieren wir eine Metrik durch dp (X , Y ) = kX − Y kp . Diese Metrik ist offensichtlich symmetrisch und die Minkowski-Ungleichung liefert dafür die Dreiecksungleichung. Ferner ist dp (X , Y ) = 0 genau dann, wenn E[|X − Y |p ] = 0 ist, d.h. wenn X = Y P-f.s. ist. Also ist dp eine Pseudometrik. Um sie zu einer Metrik zu machen identifizieren wir Zufallsvariablen, die P-f.s. p gleich sind. Die Menge L ist dann genau genommen eine Menge von Äquivalenzklassen, wir unterscheiden aber nicht zwischen der Äquivalenzklasse p und deren Repräsentanten. Nach dem Satz von Fischer-Riesz ist (L , k·kp ) für p ∈ [1, ∞] ein Banachraum, d.h. ein vollständiger normierter Raum (vgl. Satz 7.18 in Klenke (2013)). 3.3 Unabhängige Ereignisse und Mengensysteme Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ A heißen bekanntlich unabhängig, wenn P(A ∩ B) = P(A)P(B) gilt. Wir erweitern nun diese Definition auf Familien von Ereignissen. Definition 3.17 (Unabhängige Familien von Ereignissen). Es sei I eine beliebige Indexmenge. Eine Familie (Ai )i∈I von Ereignissen Ai ∈ A heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I Y P ∩j∈J Aj = P(Aj ). (3.41) j∈J Bemerkung 3.18 (Unabhängigkeit vs. paarweise Unabhängigkeit). Fordert man in der obigen Definition nur die Unabhängigkeit von je zwei Ereignissen (d.h. für alle zweielementigen Teilmengen J ⊂ I ), so spricht man von paarweiser Unabhängigkeit. Natürlich impliziert Unabhängigkeit paarweise Unabhängigkeit. Die Umkehrung ist aber falsch. Beispiel 3.19. Sei P die Gleichverteilung auf Ω = {(1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 1)}, 91 3.3 Unabhängige Ereignisse und Mengensysteme d.h. P(ω) = 1/4 für jeden der vier Elemente ω ∈ Ω. Ferner sei Ak = {die kte Koordinate ist 1}, k = 1, 2, 3. Dann gilt 1 P(Ak ) = , 2 1 P(Ai ∩ Aj ) = , 4 1 P(Ai )P(Aj ) = , 4 1 P(A1 ∩ A2 ∩ A3 ) = , 4 1 P(A1 )P(A2 )P(A3 ) = . 8 k = 1, 2, 3 i, j = 1, 2, 3, i , j, i, j = 1, 2, 3, i , j, Die Mengen A1 , A2 , A3 sind also paarweise unabhängig, aber nicht unabhängig. Außerdem gilt mit A4 = ∅ P(A1 ∩ A2 ∩ A3 ∩ A4 ) = 0 = P(A1 )P(A2 )P(A3 )P(A4 ). Also genügt es im Fall von endlichem I nicht, die Bedingung (3.41) für J = I allein zu prüfen, um Unabhängigkeit von (Ai )i∈I zu zeigen. Sind die Ereignisse A und B unabhängig, so sind auch A und Bc unabhängig, denn es ist P(A ∩ Bc ) = P(A \ (A ∩ B)) = P(A) − P(A ∩ B) = P(A) − P(A)P(B) = P(A)(1 − P(B)) = P(A)P(Bc ). Das folgende Resultat ist eine Verallgemeinerung. Satz 3.20. Sei (Ai )i∈I eine Familie von Ereignissen mit einer beliebigen Indexmenge I . Für i ∈ I setzen wir Bi0 = Ai und Bi1 = Aci . Folgende Aussagen sind äquivalent. (i) Die Familie (Ai )i∈I ist unabhängig. (ii) Es gibt ein α ∈ {0, 1}I , sodass (Biαi )i∈I unabhängig ist. 92 3.3 Unabhängige Ereignisse und Mengensysteme (iii) Für jedes α ∈ {0, 1}I ist (Biαi )i∈I unabhängig. Beweis. Übung! Satz 3.21 (Lemma von Borel-Cantelli). Sei (An )n∈N eine Folge von Ereignissen und sei A = lim supn→∞ An . Dann gelten folgende Aussagen. P∞ (i) Ist n=1 P(An ) < ∞, so ist P(A) = 0. P∞ (ii) Ist (An )n∈N unabhängig und gilt n=1 P(An ) = ∞, so ist P(A) = 1. Beweis. Mit Stetigkeit von oben und Subadditivität von P gilt nach Voraussetzung P(A) = ∞ P(∩n=1 ∞ ∪m=n Am ) = ∞ lim P(∪m=n Am ) n→∞ ≤ lim n→∞ ∞ X P(Am ) = 0, m=n was (i) zeigt. Für (ii) zeigen wir P(Ac ) = 0. Nach den de Morgannschen Regeln gilt ∞ ∞ ∞ P(Ac ) = P(∪n=1 ∩m=n Acm ) = lim P(∩n=m Acm ), n→∞ wobei wir im letzten Schritt die Stetigkeit von P von unten benutzt haben. Mit Stetigkeit von P von oben, der Unabhängigkeit, und der Ungleichung log(1 − x ) ≤ −x für x ∈ [0, 1] folgt für jedes n N ∞ P(∩n=m Acm ) = lim P(∩n=m Acm ) = lim N →∞ = lim exp N →∞ N →∞ N X N Y m=n P(Acm ) = lim N →∞ N Y (1 − P(Am )) m=n N X log(1 − P(Am )) ≤ lim exp − P(Am ) = 0. N →∞ m=n m=n Definition 3.22 (Unabhängige Mengensysteme). Es sei (Ei )i∈I eine Familie von Teilmengen Ei ⊂ A, wobei I eine beliebige Indexmenge ist. Die Familie (Ei )i∈I heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jede Wahl E j ∈ Ej , j ∈ J Y P ∩j∈J E j = P(E j ) (3.42) j∈J gilt. 93 3.3 Unabhängige Ereignisse und Mengensysteme Folgender Satz sollte mit dem letzten Absatz von Beispiel 3.19 verglichen werden. Die Aussagen könnten auf den ersten Blick widersprüchlich erscheinen. Satz 3.23. Es sei I endlich und für jedes i ∈ I sei Ei eine Teilmenge von A mit Ω ∈ Ei . Dann ist (Ei )i∈I genau dann unabhängig, wenn (3.42) für J = I gilt. Beweis. Es ist nur zu zeigen, dass aus (3.42) für J = I die Unabhängigkeit folgt (die andere Richtung gilt trivialerweise). Sei J 0 eine echte Teilmenge von I . Für j ∈ J 0 seien E j ∈ Ej beliebig und für j ∈ I \ J 0 setzen wir E j = Ω. Dann gilt Y Y P ∩j∈J 0 E j = P ∩j∈I E j = P(E j ) = P(E j ). j∈I j∈J 0 Satz 3.24. Es sei I eine beliebige Indexmenge und für jedes i ∈ I sei Ei ⊂ A so, dass (Ei ∪ {∅}) schnittstabil ist. Dann ist (Ei )i∈I genau dann unabhängig, wenn (σ (Ei ))i∈I unabhängig ist. Beweis. Eine Richtung ist trivial. Für die andere zeigen wir, dass für alle endlichen J , J 0 mit J ⊂ J 0 ⊂ I Y P(∩j∈J 0 Aj ) = P(Aj ) (3.43) j∈J 0 für jede Wahl von (Aj )j∈J 0 mit Aj ∈ σ (Ej ), j ∈ J und Aj ∈ Ej , j ∈ J 0 \ J . In dem Fall J = J 0 ist es genau die Aussage, die wir zeigen müssen. Wir beweisen (3.43) durch Induktion nach n = |J |. Für n = 0 ist die Aussage nach Voraussetzung erfüllt. Sei also (3.43) für alle J mit |J | = n erfüllt. Für ein solches J sei H J = J ∪ {j 0 } für ein j 0 ∈ I \ J . Ferner sei J 0 ⊃ H J. 0 H Sei Aj ∈ σ (Ej ) für j ∈ J und Aj ∈ Ej für j ∈ J \ J . Wir definieren auf (Ω, A) die Maße µ und ν durch \ Y µ (A) B P A ∩ Aj und ν (A) B P(A) P(Aj ) (3.44) j∈J 0 \{j 0 } j∈J 0 \{j 0 } Ist A ∈ Ej0 ∪ {∅, Ω} so gilt nach Induktionsvoraussetzung µ (A) = ν (A). Damit stimmen µ und ν auf einem schnittstabilen Erzeuger von σ (Ej0 ) überein. Nach Satz 1.37 stimmen sie auch auf σ (Ej0 ) überein. Das zeigt (3.43) für J 0 mit |J 0 | = n + 1. 94 3.4 Unabhängige Zufallsvariablen 3.4 Unabhängige Zufallsvariablen Nun kommen wir zur Definition von unabhängigen Zufallsvariablen. Sei (Ω, A, P) wie zuvor ein Wahrscheinlichkeitsraum und I eine beliebige Indexmenge. Für jedes i ∈ I sei (Ωi , Ai ) ein messbarer Raum und Xi : (Ω, A) → (Ωi , Ai ) eine A-Ai messbare Abbildung; jedes Xi ist also eine Ωi -wertige Zufallsvariable oder auch Ωi -wertiges Zufallselement. Wir lassen hier den Zusatz Ωi -wertig weg und sprechen von Zufallsvariablen. Der Wertebereich sollte immer aus dem Kontext klar sein. Wie in Übung 1.7 (vgl. auch Satz 3.1) bezeichnen wir mit σ (Xi ) = Xi−1 (Ai ) = {Xi−1 (Ai ) : Ai ∈ Ai } die von Xi auf Ω erzeugte σ -Algebra. Definition 3.25 (Unabhängige Zufallsvariablen). Die Familie (Xi )i∈I von Zufallsvariablen heißt unabhängig, falls die Familie der erzeugten σ -Algebren (σ (Xi ))i∈I gemäß Definition 3.22 unabhängig ist. Unabhängigkeit von σ -Algebren ist eine gemeinsame Eigenschaft der σ Algebren und des Wahrscheinlichkeitsmaßes P (auf der größeren σ -Algebra A). Wie so oft werden Eigenschaften von Maßen auf schnittstabilen Erzeugern festgelegt. Deswegen sollte das folgende Resultat nicht überraschend sein. Satz 3.26. Für jedes i ∈ I sei Ei ein schnittstabiler Erzeuger von Ai . Ist die Familie (Xi−1 (Ei ))i∈I unabhängig, so ist auch (Xi )i∈I unabhängig. Beweis. Da Urbilder von Durchschnitten, Durchschnitte von Urbildern sind (vgl. (1.34)), folgt mit Satz 1.63(i), dass Xi−1 (Ei ) ein schnittstabiler Erzeuger von σ (Xi ) ist. Mit Satz 3.24 folgt die Behauptung. Definition 3.27 (Gemeinsame Verteilungsfunktion). Es sei (Xi )i∈I eine Familie reellwertiger Zufallsvariablen. Für endliche Teilmenge J ⊂ I wird die Funktion F J B F (X j )j ∈J : R J → R, definiert durch F J (x ) B P ∩j∈J {X j ≤ x j } , x = (x j )j∈J ∈ R J , (3.45) die gemeinsame Verteilungsfunktion von (X j )j∈J genannt. Das zugehörige Wahrscheinlichkeitsmaß P (X j )j ∈J heißt gemeinsame Verteilung von (X j )j∈J . Satz 3.28. Es sei (Xi )i∈I eine Familie reellwertiger Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P). Dann sind folgende Aussagen äquivalent. 95 3.4 Unabhängige Zufallsvariablen (i) Die Familie (Xi )i∈I ist unabhängig. (ii) Für jede endliche Teilmenge J ⊂ I und jedes x = (x j )j∈J ) gilt Y F J (x ) = F j (x j ). (3.46) j∈J (iii) Für jede endliche Teilmenge J ⊂ I und alle Borel-messbaren Funktionen дj : R → R, j ∈ J gilt (sofern beide Seiten endlich sind) Y Y E дj (X j ) = E[дj (X j )]. (3.47) j∈J j∈J Beweis. Übung! Nimmt man in (3.47) die Funktion дj als Identität für alle j, so folgt insbesondere Y Y E Xj = E[X j ]. (3.48) j∈J j∈J Also sind unabhängige Zufallsvariablen unkorreliert, vgl. Definition 3.8. Die Umkehrung ist im Allgemeinen falsch. Satz 3.29. Seien X 1 , . . . , Xn beliebige Zufallsvariablen mit endlichen zweiten Momenten. Dann gilt Var n X n n X X X Xi = Cov[Xi , X j ] = Var[Xi ] + 2 Cov[Xi , X j ]. (3.49) i=1 i,j=1 i=1 1≤i<j≤n Insbesondere gilt Var n X Xi = i=1 n X i=1 für unkorrelierte Zufallsvariablen. 96 Var[Xi ] (3.50) 3.4 Unabhängige Zufallsvariablen Beweis. Wir können ohne Einschränkung E[Xi ] = 0 für alle i = 1, . . . , n Hi = Xi − E[Xi ]. Dann ist Var[Xi ] = annehmen. Ansonsten wir fP g betrachten fP g X n n H H Hi , X Hj ]. Var[Xi ], Var i=1 Xi = Var i=1 Xi und Cov[Xi , X j ] = Cov[X Es gilt Var n X n n n X 2 X X Xi = E Xi =E Xi X j = E[Xi X j ] i=1 i=1 = = n X i,j=1 n X i=1 Cov[Xi , X j ] = i,j=1 n X i,j=1 Cov[Xi , Xi ] + 2 i=1 Var[Xi ] + 2 X X Cov[Xi , X j ] 1≤i<j≤n Cov[Xi , X j ]. 1≤i<j≤n Wir schließen diesen Abschnitt ab mit dem Beweis der Existenz unabhängiger Folgen von Zufallsvariablen mit vorgegebenen Verteilungen auf B(R). Satz 3.30 (Existenz unabhängiger Folgen von Zufallsvariablen). Ist µ 1 , µ 2 , . . . eine endliche oder abzählbar unendliche Folge von Wahrscheinlichkeitsmaßen auf B(R), dann gibt es Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger Zufallsvariablen auf diesem Wahrscheinlichkeitsraum mit Xi ∼ µi . Wir bereiten den Beweis des Satzes mit einigen Hilfsresultaten vor. Satz 3.31. Sei X 11 X 12 · · · X 21 X 22 · · · .. .. . . eine Familie unabhängiger Zufallsvektoren und sei Ai = σ (Xik : k ∈ N) die von den Zufallvektoren der i-ten Zeile erzeugte σ -Algebra. Dann ist die Familie (Ai )i∈N unabhängig. Beweis. Für i ∈ N sei Ei die Menge aller endlicher Schnitte der Form {Xij ∈ H } wobei H Borelmengen passender Dimension sind. Dann ist Ei ein schnittstabiler Erzeuger von Ai . Mit Satz 3.26 folgt die Behauptung. 97 3.4 Unabhängige Zufallsvariablen 0 1 0 1 0 1 Abbildung 3.1: Graphen von d 1 (ω), d 2 (ω) und d 3 (ω). Lemma 3.32 (Existenz unabhängiger Bernoulli verteilter Zufallsvariablen). Es gibt einen Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger Zufallsvariablen (Zn )n∈N darauf mit 1 P(Zn = 0) = P(Zn = 1) = , 2 n ∈ N. (3.51) Beweis. Sei Ω = (0, 1), A = B((0, 1)) und sei P das Lebesgue-Maß auf B((0, 1)). Zu jedem ω ∈ (0, 1) gibt eine nicht abbrechende dyadische Entwicklung .d 1 (ω)d 2 (ω) . . ., mit ω= ∞ X dn (ω) n=1 2n . Nicht abbrechend heißt z.B. dass wir von den beiden Darstellungen .10000 . . . = .01111 . . . uns für die zweite entscheiden. Wir setzen Zn (ω) = dn (ω). Dann gilt (siehe Abbildung 3.1) 1 P(Z 1 = 0) = P (0, 21 ) = = P ( 12 , 1) = P(Z 1 = 1). 2 Also hat Z 1 die geforderte Verteilung. Ferner gilt 1 P(Z 1 = 0, Z 2 = 0) = P (0, 41 ) = . 4 Analog kann man sich überlegen, dass für alle i, j ∈ {0, 1} P(Z 1 = i, Z 2 = j) = 1 4 gilt. Zusammen mit 1 P(Z 2 = 0) = P (0, 14 ) ∪ ( 12 , 43 ) = 2 98 1 2 = 3.4 Unabhängige Zufallsvariablen und 1 P(Z 2 = 2) = P ( 14 , 21 ) ∪ ( 34 , 1) = 2 folgt Unabhängigkeit von Z 1 und Z 2 . Mit analogen Argumenten zeigt man die Unabhängigkeit von Z 1 , Z 2 und Z 3 und induktiv die Unabhängigkeit von Z 1 , . . . , Zn für alle n ∈ N. Lemma 3.33 (Existenz unabhängiger uniform verteilter Zufallsvariablen). Es gibt einen Wahrscheinlichkeitsraum (Ω, A, P) und eine Folge unabhängiger Zufallsvariablen (Un )n∈N darauf mit Un ∼ U ((0, 1)). Beweis. Seien (Zn )n∈N wie in (3.51) unabhängige Bernoulli verteilte Zufallsvariablen. Wir ordnen sie in Matrixform an Z 11 Z 12 · · · Z 21 Z 22 · · · .. .. . . und setzen Un = ∞ X Z k=1 nk . 2k Die Reihe ist konvergent und somit Un für jedes n nach Satz 1.68 messbar. Nach Satz 3.31 ist die Familie (Un )n∈N unabhängig. Wir zeigen nun, dass Un ∼ U ((0, 1)) gilt. P Die Zufallsvariable Snk = ki=1 Zni 2−i nimmt Werte j2−k 0 ≤ j < 2k an P (Maximum von Snk ist ki=1 2−i = (2k − 1)2−k ). Wegen P(Zni = zi , 1 ≤ i ≤ k ) = 2−k für alle z 1 , . . . , zk mit zi ∈ {0, 1} haben alle hat jede Realisierung von Snk dieselbe Wahrscheinlichkeit 2−k . Ist 0 ≤ x < 1 und j2−k ≤ x so folgt j ≤ b2k xc. Also ist die Anzahl von j2−k in dem Intervall [0, x] gleich b2k xc + 1 und damit ist P(Snk ≤ x ) = (b2k xc + 1)/2k . Wegen Snk (ω) ↑ Un (ω) für k → ∞ folgt {Snk ≤ x } ↓ {Un ≤ x } für k → ∞. Mit Stetigkeit von P erhalten wir P(Un ≤ x ) = lim P(Snk ≤ x ) = lim k→∞ k→∞ b2k xc + 1 = x, 0 ≤ x < 1. 2k Damit ist Un uniform verteilt auf dem Einheitsintervall. 99 3.5 Faltung Nun können wir Satz 3.30 beweisen indem wir die gesuchten Zufallsvariablen Xn aus den uniform verteilten erzeugen. Beweis von Satz 3.30. Seien µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße auf B(R) und F 1 , F 2 , . . . die zugehörigen Verteilungsfunktionen. Wir definieren ϕn durch inf {x : u ≤ Fn (x ) ϕn (u) = 0 : für 0 < u < 1 : sonst. (3.52) Da Fn nichtfallend und rechtsstetig ist, gilt ϕn (u) ≤ x genau dann, wenn u ≤ Fn (x ) gilt. Sei (Ω, A, P) der Wahrscheinlichkeitsraum aus Lemma 3.32 und seien U1 , U2 , . . . die uniform Verteilten Zufallsvariablen aus Lemma 3.33. Wir definieren Xn (ω) = ϕn (Un (ω). Dann sind X 1 , X 2 , . . . unabhängige Zufallsvariablen auf (Ω, A, P). Außerdem gilt P(Xn ≤ x ) = P(ϕn (Un ) ≤ x ) = P(Un ≤ Fn (x )) = Fn (x ). Also ist Fn die Verteilungsfunktion von Fn . In dieser Vorlesung genügt uns Satz 3.30. Eine Folge unabhängiger Zufallsvariablen ist ein spezieller stochastischer Prozess in diskreter Zeit. Für Existenz allgemeinerer (abhängiger) stochastischer Prozesse in diskreter oder stetiger Zeit gibt es Verallgemeinerungen von Satz 3.30, nämlich der Satz von Ionescu-Tulcea und der Erweiterungssatz von Kolmogorov; vgl. Abschnitt 14.3 in Klenke (2013). 3.5 Faltung Es seien X und Y unabhängige Zufallsvariablen mit Verteilungen µ und ν. Für H ∈ B(R) und x ∈ R setzen wir H − x = {y ∈ R : y + x ∈ H }. 100 3.5 Faltung Mit dem Satz von Fubini 2.36 angewandt auf die Funktion f (x, y) = 1H (x + y) erhalten wir Z ∞Z ∞ P(X + Y ∈ H ) = f (x, y) ν (dy) µ (dx ) −∞ −∞ Z ∞ (3.53) = ν (H − x ) µ (dx ) −∞ Z ∞ = P(Y ∈ H − x ) µ (dx ) −∞ Definition 3.34 (Faltung). Die Faltung zweier Wahrscheinlichkeitsmaße µ und ν ist das Wahrscheinlichkeitsmaß µ ∗ ν definiert durch Z ∞ (µ ∗ ν )(H ) = ν (H − x ) µ (dx ), H ∈ B(R). (3.54) −∞ Sind X und Y unabhängig mit Verteilungen µ und ν , dann ist µ ∗ν nach (3.53) die Verteilung von X + Y . Da Addition von Zufallsvariablen kommutativ und assoziativ ist, gilt dasselbe auch für die Faltung: µ ∗ ν = ν ∗ µ und µ ∗ (ν ∗ η) = (µ ∗ ν ) ∗ η. Seien F und G die zu µ und ν gehörige Verteilungsfunktionen. Die Verteilungsfunktion, die zu der Faltung µ ∗ ν gehört wird mit F ∗ G bezeichnet und mit H = (−∞, y] in (3.54) folgt Z ∞ (F ∗ G)(y) = G (y − x ) dF (x ), (3.55) −∞ wobei dF (x ) = µ (dx ). Besitzt G eine Dichte д, dann ist Z y−x Z y G (y − x ) = д(s) ds = д(t − x ) dt . −∞ (3.56) −∞ Nach Fubini’s Theorem ist die rechte Seite in (3.55) gleich Z y Z ∞ д(t − x ) dF (x ) dt . −∞ −∞ Also hat F ∗ G die Dichte (F ∗ д)(y) = Z ∞ д(y − x ) dF (x ). −∞ 101 (3.57) 3.5 Faltung Hat auch F eine Dichte f , dann ist dF (x ) = f (x ) dx. Wir bezeichnen die Dichte von F ∗ G mit f ∗ д und es gilt Z ∞ ( f ∗ д)(y) = д(y − x ) f (x ) dx . (3.58) −∞ Die Gleichung (3.58) definiert die Faltung von Dichten, und µ ∗ν hat die Dichte f ∗ д, wenn µ die Dichte f und ν die Dichte д hat. Beispiel 3.35. Seien X 1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ Exp(α ) für alle i = 1, . . . , n, d.h. die Dichte von Xi ist gegeben durch (3.9). Wir definieren дk durch дk (x ) = α (αx )k−1 −αx e , (k − 1)! x ≥ 0, k = 1, 2, . . . (3.59) und setze дk (x ) = 0 für x < 0. Es gilt (дk−1 ∗ д1 )(y) = y Z 0 дk−1 (y − x )д1 (x ) dx = дk (y). Die letzte Gleichung rechnet man leicht mit partieller Integration nach. Da д1 die Dichte der Exponentialverteilung ist, folgt induktiv, dass дk die Dichte von X 1 + . . . + Xk ist. Die zugehörige Verteilungsfunktion ist Gk (x ) = 1 − e −αx ∞ k−1 X X (αx )i (αx )i = e −αx . i! i! i=0 i=k Das kann man z.B. durch Ableiten von G nachrechnen. Die Funktion дk ist die Dichte der Gamma(k, α )-Verteilung. Wir haben also soeben nachgerechnet, dass die Summe von n unabhängigen Exp(α ) verteilten Zufallsvariablen Gamma(n, α ) verteilt ist: Exp(α ) ∗n = Exp(α ) ∗ · · · ∗ Exp(α ) = Gamma(n, α ). (3.60) Beispiel 3.36. Es seien die Zufallsvariablen X 1 , . . . , Xn unabhängig mit Xi ∼ N(µi , σi2 ) für µi ∈ R und σi > 0, d.h. die Dichte von Xi ist (x − µ ) 2 1 i , x ∈ R. fi (x ) = q exp − 2 2σ 2 i 2πσi 102 3.5 Faltung Wenn µ 1 = µ 2 = 0 ist, so gilt mit σ1 = σ und σ2 = τ Z ∞ (y − x ) 2 1 x2 ( f 1 ∗ f 2 )(y) = − dx . exp − 2πστ −∞ 2σ 2 2τ 2 Wir substituieren √ x σ2 + τ2 u= , στ στ u, x=√ σ2 + τ2 (3.61) στ dx = √ du. σ2 + τ2 Es gilt − (y − x ) 2 2uyτ σ x2 1 y2 u 2τ 2σ 2 u 2τ 2σ 2 − = − − + + √ √ √ 2σ 2 2τ 2 2 σ2 σ2 σ2 + τ2 σ2 σ2 + τ2 τ2 σ2 + τ2 y2 2uyτ σ 1 2 2 2 = − (σ + τ ) 2 2 − √ +u 2 σ (σ + τ 2 ) σ 2 σ 2 + τ 2 (y · στ ) 2 2uy στ 1 y2 2 =− + u + − √ 2 σ2 + τ2 σ2 + τ2 σ2 + τ2 τ y · σ 2 y2 1 . =− + u−√ 2 σ2 + τ2 σ2 + τ2 Setzen wir y· τ σ ỹ B √ σ2 + τ2 dann folgt mit der obiger Rechnung eingesetzt in (3.61) Z ∞ y2 1 στ 1 2 − (u − ỹ) du exp − ( f 1 ∗ f 2 )(y) = √ 2πστ σ 2 + τ 2 −∞ 2(σ 2 + τ 2 ) 2 1 Z ∞ 1 y2 1 2 =p exp − √ exp − (u − ỹ) du 2(σ 2 + τ 2 ) −∞ 2π 2 2π (σ 2 + τ 2 ) y2 1 =p exp − . 2(σ 2 + τ 2 ) 2π (σ 2 + τ 2 ) Für die letzte Gleichheit haben wir ausgenutzt, dass der Integrand in der vorletzten Zeile die Dichte der N(ỹ, 1) ist. In der letzten Zeile erkennen wir die Dichte der N(0, σ 2 + τ 2 ) Verteilung . 103 3.6 Konvergenz von Zufallsvariablen Wir haben also nachgerechnet N(0, σ12 ) ∗ N(0, σ22 ) = N(0, σ12 + σ22 ). Generell kann man zeigen N(µ 1 , σ12 ) ∗···∗ N(µn , σn2 ) =N n X µi , i=1 n X i=1 σi2 . 3.6 Konvergenz von Zufallsvariablen Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X , X 1 , X 2 , . . . seien Zufallsvariablen darauf. p Definition 3.37 (Konvergenz in Wahrscheinlichkeit, fast sicher und in L ). (i) Die Folge (Xn ) konvergiert in Wahrscheinlichkeit oder stochastisch gegen P X , wir schreiben Xn → X , wenn für alle ε > 0 gilt n→∞ P(|Xn − X | ≥ ε ) −−−−→ 0. (3.62) f.s. (ii) Die Folge (Xn ) konvergiert fast sicher gegen X , wir schreiben Xn −−→ X , wenn es eine Menge N ⊂ Ω mit P(N ) = 0 gibt, sodass n→∞ Xn (ω) −−−−→ X (ω), für alle ω < N . p (3.63) p (iii) Seien X , X 1 , X 2 , . . . ∈ L für p > 0. Die Folge (Xn ) konvergiert in L oder p L im p-ten Mittel gegen X , wir schreiben Xn −−→ X , wenn n→∞ kXn − X kp −−−−→ 0. (3.64) Bemerkung 3.38. Die fast sichere Konvergenz haben wir im Kontext allgemeiner Maße bereits früher kennen gelernt und als fast überall Konvergenz bezeichnet; vgl. Bemerkung 2.6. Integrationssätze, wie etwa Satz von monotoner Konvergenz (Satz 2.8) oder Satz von der majorisierten Konvergenz (Satz 2.12), die wir für fast überall konvergente messbare Funktionen bewiesen haben, gelten also auch für fast sicher konvergente Folgen von Zufallsvariablen. Analog zu (3.62) kann man auch einen Konvergenzbegriff für beliebige Maße einführen. In dem allgemeinen Fall spricht man dann von Konvergenz dem Maße nach. 104 3.6 Konvergenz von Zufallsvariablen p Satz 3.39. Konvergenz in L impliziert Konvergenz in Wahrscheinlichkeit. Beweis. Mit Markov-Ungleichung (3.31) gilt für jedes ε > 0 p n→∞ P(|Xn − X | ≥ ε ) ≤ ε −p E[|Xn − X |p ] = ε −p kXn − X kp −−−−→ 0. Die umgekehrte Implikation in Satz 3.39 ist ohne weitere Voraussetzungen, nämlich gleichgradige Integrierbarkeit von |Xn |p , falsch. An dieser Stelle verweisen auf Satz 6.25 und Satz 7.3 in Klenke (2013). Wir kommen später (teilweise) darauf zurück im Zusammenhang mit Konvergenz in Verteilung. P p L Beispiel 3.40 (Xn − → X ; Xn −−→ X ). Sei P = λ|B((0,1)) das Lebesgue-Maß (also Gleichverteilung) auf (0, 1) und sei Xn = 2n 1 (0,n−1 ) . Für ε > 0 gilt Z P(|Xn − 0| ≥ ε ) = 2n 1 (0,n−1 )∩[ε,1) dλ. Für n > ε −1 ist die Indikatorfunktion im Integral gleich Null. Also konvergiert Xn in Wahrscheinlichkeit gegen 0. Andererseits gilt Z 2np n→∞ p E[|Xn | ] = 2np 1 (0,n−1 ) dλ = 2np λ((0, n−1 )) = −−−−→ ∞, n also konvergiert Xn nicht in im p-ten Mittel gegen 0. In dem folgenden Satz geben wir eine oft nützliche äquivalente Charakterisierung der fast sicheren Konvergenz an. Satz 3.41. Es gilt Xn → X f.s. genau dann, wenn für alle ε > 0 gilt n→∞ P(|Xk − X | ≥ ε für ein k ≥ n) −−−−→ 0. Beweis. Für ε > 0 setzen wir Bkε = {|Xk − X | ≥ ε} und \[ Bε = lim sup Bnε = Bkε . n n k ≥n 105 (3.65) 3.6 Konvergenz von Zufallsvariablen Mit Stetigkeit von P folgt P(Bε ) = lim P(∪k ≥n Bkε ) n→∞ und es gilt {ω : Xn (ω) 6→ X (ω)} = {ω : ∃ε > 0 ∀n ∃k ≥ n : |Xk (ω) − X (ω)| ≥ ε} [ \ [( ) = ω : |Xk (ω) − X (ω)| ≥ ε ε>0 n k ≥n = [ Bε . ε>0 Also gilt Xn → X f.s. genau dann, wenn P(Bϵ ) = 0 für alle ε > 0. Satz 3.42. Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit. Beweis. Mit Charakterisierung der fast sicheren Konvergenz aus Satz 3.41 und Notation aus dem zugehörigen Beweis gilt Bnε ⊂ ∪k ≥n Bkε und damit n→∞ P(|Xn − X | ≥ ε ) = P(Bnε ) ≤ P(∪k ≥n Bkε ) −−−−→ P(Bε ) = 0 für alle ε > 0. Auch in Satz 3.42 gilt die umgekehrte Implikation im Allgemeinen nicht; vgl. Übung 3.11 und Übung 3.14. Zumindest gilt aber eine teilweise Umkehrung; siehe Satz 3.44. Das folgende Kriterium für fast sichere Konvergenz ist eine Folgerung aus dem ersten Borel-Cantelli Lemma; Satz 3.21. Für eine Folge An von Ereignisse schreiben wir (vgl. Bemerkung 1.3) {An u. o.} = lim sup An . n Dabei steht „u.o.“ für unendlich oft. Lemma 3.43. Gilt für Zufallsvariablen X , X 1 , X 2 , . . . ∞ X P(|Xn − X | ≥ ε ) < ∞ n=1 f.s. dann folgt Xn −−→ X . 106 für alle ε > 0, (3.66) 3.6 Konvergenz von Zufallsvariablen Beweis. Sei εk , k = 1, 2, . . . eine Folge positiver reeller Zahlen mit εk → 0. Dann ist {Xn 6→ X } = ∞ [ {|Xn − X | ≥ εk u.o.}. k=1 Damit folgt P(Xn 6→ X ) ≤ ∞ X P(|Xn − X | ≥ εk u.o.). k=1 Mit Borel-Cantelli Lemma und Voraussetzung (3.66) sehen wir, dass die Wahrscheinlichkeiten in der Summe auf der rechten Seite gleich 0 sind. P → X genau dann, wenn jede Teilfolge (Xnk ) eine weitere Satz 3.44. Es gilt Xn − f.s. Teilfolge (Xnk (i ) ) enthält mit Xnk (i ) −−→ X . P Beweis. Wenn Xn − → X gilt und (nk ) eine Teilfolge von (n) ist, dann wählen wir eine weitere Teilfoge (nk (i) ) so, dass P(|Xnk (i) − X | ≥ i −1 ) < 2−i für alle i. Für jedes ε gilt i −1 < ε wenn i > ε −1 . Damit gilt ∞ X P(|Xnk (i) − X | ≥ ε ) < ∞ für alle ε > 0. i=1 f.s. Mit Lemma 3.43 folgt Xnk (i ) −−→ X . Wenn Xn nicht gegen X in Wahrscheinlichkeit konvergiert, dann gibt es ein ε > 0 mit P(|Xnk − X | ≥ ε ) > ε entlang einer Teilfolge (nk ). Keine Teilfolge davon kann in Wahrscheinlichkeit gegen X konvergieren. Also kann auch keine fast sicher gegen X konvergieren. Beispiel 3.45. Seien X , X 1 , X 2 , . . . und Y , Y1 , Y2 , . . . Zufallsvariablen. p L p L (i) Gilt für p ≥ 1 Xn −−→ X und Yn −−→ Y , so folgt mit Minkowski-Ungleichung p L leicht Xn + Yn −−→ X + Y . 107 3.7 Null-Eins Gesetz von Kolmogorov f.s. f.s. f.s. (ii) Gilt Xn −−→ X und Yn −−→ Y , so gilt auch Xn + Yn −−→ X + Y . Denn P(Xn + Yn 6→ X + Y ) ≤ P(Xn 6→ X ) + P(Yn 6→ Y ) = 0. P P P (iii) Gilt Xn − → X und Yn − → Y , so gilt auch Xn + Yn − → X + Y . Denn für alle ε > 0 gilt P(|Xn + Yn − (X + Y )| ≥ ε ) ≤ P(|Xn − X | + |Yn − Y | ≥ ε ) ≤ P(|Xn − X | ≥ ε/2 oder |Yn − Y | ≥ ε/2) ≤ P(|Xn − X | ≥ ε/2) + P(|Yn − Y | ≥ ε/2) n→∞ −−−−→ 0. 3.7 Null-Eins Gesetz von Kolmogorov Mit dem Borel-Cantelli Lemma haben wir bereits ein Null-Eins Gesetz kennen gelernt. Ist nämlich A1 , A2 , . . . eine Folge unabhängiger Ereignisse, dann ist nach Borel-Cantelli Lemma P(lim supn An ) ∈ {0, 1}. In diesem Abschnitt beweisen wir ein weiteres Null-Eins Gesetz. Es sei (Xn )n∈N eine Folge von Zufallsvariablen und sei A die Menge aller P∞ ω, für die n=1 Xn (ω) konvergiert. Für die Frage ob ω ein Element von A ist oder nicht sind natürlich die Werte X 1 (ω), . . . , Xm (ω) für jedes m ∈ N irrelevant. Vielmehr ist entscheidend was im Unendlichen passiert. Also sollte A ein Element der σ -Algebra σ (Xm , Xm+1 , . . .), und zwar für jedes m, sein. Definition 3.46 (Terminale σ -Algebra). Die σ -Algebra ∞ T B ∩n=1 σ (Xn , Xn+1 , . . .) (3.67) heißt terminale σ -Algebra der Folge (Xn )n∈N . Elemente von T heißen terminale Ereignisse. Beispiel 3.47. Wie schon oben bemerkt sind die folgenden Ereignisse terminal ∞ X X n=1 n n konvergiert , ∞ X n=1 108 Xn konvergiert . 3.7 Null-Eins Gesetz von Kolmogorov Weitere Beispiele terminaler Ereignisse sind {Xn ∈ In u.o.} = lim sup{Xn ∈ In }, für In ∈ B(R), n {lim sup Xn < ∞}, n ( lim sup n→∞ n ) 1X Xi < ∞ , n i=1 n ( lim sup n→∞ ) 1X Xi < c . n i=1 Die folgenden Ereignisse sind nicht terminal {Xn = 0 für alle n ≥ 1}, ∞ X Xn konvergiert und ist kleiner als c . n=1 Satz 3.48 (Null-Eins Gesetz von Kolmogorov). Es sei (Xn )n∈N unabhängig und sei T die zugehörige terminale σ -Algebra. Ist A ∈ T , so gilt P(A) ∈ {0, 1}. Beweis. Die Beweisidee ist zu zeigen, dass ein terminales Ereignis A von sich selbst unabhängig ist. Ist das gezeigt, so folgt P(A) = P(A)P(A) und somit P(A) ∈ {0, 1}. ∞ σ (X , . . . , X ). Wir zeigen zunächst, dass A eine Algebra Sei A0 = ∪k=1 1 0 k ist, die die σ -Algebra σ (X 1 , X 2 , . . .) erzeugt. Dass Ω ∈ A0 und dass A0 abgeschlossen bezüglich Komplementenbildung ist klar. Sind B und C Mengen aus A0 , dann gibt es j und k mit B ∈ σ (X 1 , . . . , X j ) und C ∈ σ (X 1 , . . . , Xk ). Für m = max{k, j} ist dann B, C ∈ σ (X 1 , . . . , Xm ) und somit B ∪C ∈ σ (X 1 , . . . , Xm ). Also ist A0 eine Algebra. Ist H ∈ B(R), dann ist Xn−1 (H ) ∈ A0 ⊂ σ (A0 ). Also ist Xn messbar bezüglich σ (A0 ) und somit gilt σ (A0 ) = σ (X 1 , X 2 , . . .). Sei nun A ∈ T . Dann gilt A ∈ σ (Xk+1 , Xk+2 , . . .) für jedes k. Ist B ∈ σ (X 1 , . . . , Xk ), dann sind A und B unabhängig nach Satz 3.31. Damit ist A unabhängig von A0 und nach Satz 3.24 auch unabhängig von σ (X 1 , X 2 , . . .). Insbesondere ist A unabhängig von sich selbst, was den Beweis abschließt. Korollar 3.49. Sei Y eine Zufallsvariable, die messbar bezüglich der terminalen σ -Algebra T ist, d.h. Y −1 (B) ∈ T für alle B ∈ B(R). Dann ist Y trivial in dem Sinne, dass es ein c gibt mit P(Y = c) = 1. Beweis. Übung! 109 3.8 Starkes Gesetz der großen Zahlen 3.8 Starkes Gesetz der großen Zahlen Es sei (Xn )n∈N eine Folge reellwertiger Zufallsvariablen und sei Sn B n X Xi . (3.68) i=1 Wir sagen, dass die Folge (Xn )n∈N dem schwachen Gesetz der großen Zahlen genügt, wenn n 1X P (Xi − E[Xi ]) − → 0, n i=1 für n → ∞. (3.69) Wir sagen, dass die Folge (Xn )n∈N dem starken Gesetz der großen Zahlen genügt, wenn n 1X f.s. (Xi − E[Xi ]) −−→ 0, für n → ∞. (3.70) n i=1 Das Hauptziel dieses Abschnittes ist der Beweis einer allgemeinen Version des starken Gesetzes der großen Zahlen (GGZ) für Folgen identisch verteilter paarweise unabhängiger Zufallsvariablen. Für solche Zufallsvariablen sind die obigen Aussagen gleichbedeutend mit 1 P Sn − → E[X 1 ] n (3.71) bzw. 1 f.s. Sn −−→ E[X 1 ]. (3.72) n Natürlich impliziert das starke GGZ das schwache GGZ. Lässt man die Unabhängigkeitsvoraussetzung fallen, so kann man unter geeigneten Annahmen an Varianzen und Kovarianzen von Zufallsvariablen das schwache GGZ relativ einfach mit Hilfe der Chebyshev Ungleichung beweisen; vgl. Übung 3.13. Für Folgen unabhängiger identisch verteilter Zufallsvariablen mit endlichen vierten Momente kann man mit Chebyshev Ungleichung zeigen, dass für jedes ε>0 ∞ 1 X P Sn − E[X 1 ] > ε < ∞. (3.73) n n=1 110 3.8 Starkes Gesetz der großen Zahlen f.s. Mit Borel-Cantelli Lemma folgt dann n1 Sn −−→ E[X 1 ]. Der Beweis ist dann zwar vergleichsweise einfach, aber wie das folgende Resultat zeigt, sind die Voraussetzungen viel zu stark. Das folgende Resultat geht auf Kolmogorov zurück und wurde ursprünglich für unabhängige anstatt für paarweise unabhängige Folgen von Zufallsvariablen bewiesen. Der Beweis der allgemeineren Version stammt von Etemadi. Satz 3.50 (Starkes GGZ von Etemadi und Kolmogorov). Es sei (Xn )n∈N eine Folge integrierbarer, paarweise unabhängiger und identisch verteilter reellwertiger f.s. Zufallsvariablen. Dann gilt n −1Sn −−→ E[X 1 ] für n → ∞. Beweis. Wenn der Satz für nichtnegative Zufallsvariablen gilt, dann folgt n n 1 1 X + 1 X − f.s. Sn = X − X −−→ E[X 1+ ] − E[X 1− ]. n n i=1 k n i=1 k Also können wir ohne Einschränkung annehmen, dass die Zufallsvariablen Xn nichtnegativ sind. Wir definieren eine Folge gestutzter (trunkierter) Zufallsvariablen (Yn )n∈N durch Yn B Xn 1{X n ≤n} und setzen Sn∗ = n X Yk . k=1 Für festes α > 1 definieren wir un = bα n c und zeigen zunächst ! ∞ X Su∗ − E[Su∗ ] n n > ε < ∞. P un n=1 (3.74) Da Xn paarweise unabhängig sind, sind auch Yn paarweise unabhängig und es folgt Var[Sn∗ ] = n X Var[Yk ] ≤ k=1 = n X k=1 n X k=1 E[Yk2 ] E[Xk2 1{X k ≤k} ] ≤ nE[X 12 1{X 1 ≤n} ]. 111 3.8 Starkes Gesetz der großen Zahlen Mit Chebyshev-Ungleichung folgt, dass die Summe in (3.74) nach oben beschränkt ist durch " X # ∞ ∞ ∞ X X 1 1 1 1 ∗ 2 2 Var[Sun ] ≤ u E[X 1 1{X 1 ≤un } ] = 2 E X 1 1{X 1 ≤un } . 2u 2 2u 2 n ε u ε ε n n n n=1 n=1 n=1 Sei K = 2α/(α − 1) und sei x > 0. Wenn N die kleinste natürliche Zahl n mit un ≥ x, dann ist α N ≥ x und wegen y ≤ 2byc (und byc −1 ≤ 2y −1 ) für y ≥ 1 folgt ∞ X X 1 X 1 1 1 2 K K 1{x ≤un } = ≤2 = N = N ≤ . n u u α x α 1 − 1/α α un ≥x n n=1 n n≥N P∞ 1 −1 Damit ist n=1 un 1{X 1 ≤un } ≤ KX 1 für X 1 > 0 und die Summe in (3.74) ist beschränkt durch Kε −2 E[X 1 ] < ∞. Aus (3.74) folgt mit Borel-Cantelli Lemma (speziell mit Lemma 3.43) Su∗n − E[Su∗n ] un f.s. −−→ 0. (3.75) n→∞ Mit dem Satz von monotoner Konvergenz gilt E[Yn ] −−−−→ E[X 1 ]. Ist (xn ) eine konvergente reelle Folge, so konvergiert auch der Cesàro Durchschnitt P n−1 nk=1 xk und die beiden Grenzwerte stimmen überein (wenn das nicht ohnehin bekannt ist, kann es leicht gezeigt werden). Es folgt n 1X 1 n→∞ E[Sn∗ ] = E[Yk ] −−−−→ E[X 1 ], n n k=1 f.s. und damit gilt un−1Su∗n −−→ E[X 1 ]. Nun wollen wir aus der Konvergenz von un−1Su∗n auf die von un−1Sun schließen. Es gilt (vgl. Übung 2.14(a) für die letzte Gleichung) Z ∞ ∞ ∞ X X P(Xn , Yn ) = P(X 1 > n) ≤ P(X 1 > t ) dt = E[X 1 ] < ∞. n=1 0 n=1 f.s. Eine weitere Anwendung von Borel-Cantelli Lemma zeigt (Sn∗ − Sn )/n −−→ 0 und es folgt Sun f.s. −−→ E[X 1 ]. un 112 (3.76) 3.8 Starkes Gesetz der großen Zahlen Es bleibt noch zu zeigen, dass wir in dem obigen Display un durch n ersetzen können. Ist un ≤ k ≤ un+1 , dann folgt mit Xi ≥ 0 un Sun Sk un+1 Sun+1 ≤ ≤ . un+1 un k un un+1 Mit un+1 /un → α für n → ∞ und (3.76) folgt Sk Sk 1 E[X 1 ] ≤ lim inf ≤ lim sup ≤ αE[X 1 ] fast sicher. k α k k k Diese Ungleichung ist für alle α > 1 erfüllt. Damit hat auch das Ereignis \ 1 ( ) Sk Sk lim Sk = E[X 1 ] = E[X 1 ] ≤ lim inf ≤ lim sup ≤ αE[X 1 ] k k α k k k Q α ∈ ∩(1,∞) f.s. Wahrscheinlichkeit 1, also gilt n −1Sn −−→ E[X 1 ]. Korollar 3.51. Es sei (Xn )n∈N eine Folge paarweise unabhängiger und identisch verteilter Zufallsvariablen mit E[X 1− ] < ∞, E[X 1+ ] = ∞ (dann ist E[X 1 ] = ∞). f.s. Dann gilt n−1Sn −−→ ∞. P f.s. Beweis. Nach dem starken GGZ gilt n−1 nk=1 Xk− −−→ E[X 1− ], also genügt es das Resultat für den Fall Xk = Xk+ ≥ 0 zu beweisen. Für Xn(u) B Xn 1{0≤X n ≤u} gilt n n 1 X (u) f.s. 1X Xk ≥ X −−→ E[X 1(u) ]. n k=1 n k=1 k Mit dem Satz von monotoner Konvergenz gilt E[X 1(u) ] → E[X 1 ], was den Beweis abschließt. Beispiel 3.52. Ist X eine Cauchy verteilte Zufallsvariable mit Parameter u > 0 hat die Dichte cu (x ) = u , + x 2) π (u 2 113 x ∈ R. 3.9 Maximalungleichungen Es gilt + E[X ] = ∞ Z 0 u u x dx ≥ 2 2 π (u + x ) π ∞ Z 1 1 dx = ∞. x Da die Dichte symmetrisch ist, folgt auch E[X − ] = ∞. Der Erwartungswert von X existiert also nicht. Ist X 1 , X 2 , . . . eine Folge unabhängiger identisch Cauchy verteilter Zufallsvariablen, so können wir weder Satz 3.50 noch Korrolar 3.51 anwenden um etwas über n−1Sn aussagen zu können. Nach Übung 3.9 wissen wir aber, dass n−1Sn genauso Cauchy verteilt ist wie die Xi . Insbesondere kann es nicht fast sicher oder in Wahrscheinlichkeit gegen eine Konstante konvergieren. Wir werden bald eine weitere Konvergenzart für Folgen von Zufallsvariablen behandeln, nämlich Konvergenz in Verteilung. Dabei konvergiert eine Folge Zn in Verteilung gegen eine Zufallsvariable Z wenn die Folge der Verteilungsfunktionen von Zn gegen die von Z an den Stetigkeitsstellen letzterer konvergiert. Für Zn = n−1Sn und Z = X 1 ist dies offenbar erfüllt (sogar exakt). 3.9 Maximalungleichungen In diesem Abschnitt betrachten wir Maximalungleichungen, die sehr hilfreich sind um Summen von Zufallsvariablen zu studieren. Die bekannteste Maximalungleichung ist die Ungleichung von Kolmogorov. Gegeben eine Folge P X 1 , X 2 , . . . von Zufallsvariablen, schreiben wir wie zuvor Sn = ni=1 Xi . Satz 3.53 (Kolmogorov-Ungleichung). Seien X 1 , . . . , Xn unabhängige Zufallsvariablen mit E[Xi ] = 0 und Var[Xi ] = E[X 2 ] < ∞. Für jedes α > 0 gilt 1 P max |Sk | ≥ α ≤ 2 Var[Sn ]. α 1≤k ≤n Beweis. Sei Ak B {|Sk | ≥ α, |S j | < α, j = 1, . . . , k − 1}. 114 (3.77) 3.9 Maximalungleichungen Da die Ereignisse Ak disjunkt sind, aber möglicherweise Ω , ∪nk=1Ak , gilt n Z X 2 Var[Sn ] = E[Sn ] ≥ Sn2 dP = ≥ k=1 Ak n Z X k=1 Ak n Z X k=1 Ak Sk2 + 2Sk (Sn − Sk ) + (Sn − Sk ) 2 dP Sk2 + 2Sk (Sn − Sk ) dP. Das Ereignis Ak und die Zufallsvariable Sk sind messbar bezüglich σ (X 1 , . . . , Xk ) P und der Zuwachs Sn − Sk = ni=k+1 Xi ist messbar bezüglich σ (Xk+1 , . . . , Xn ). Die beiden σ -Algebren sind unabhängig. Also gilt Z Sk (Sn − Sk ) dP = E[1Ak Sk (Sn − Sk )] = E[1Ak Sk ]E[(Sn − Sk )] = 0. Ak Es folgt Var[Sn ] = E[Sn2 ] ≥ n Z X k=1 = α2 Ak n X Sk2 dP ≥ n Z X k=1 Ak α 2 dP P(Ak ) = α 2 P max |Sk | ≥ α . 1≤k ≤n k=1 Mit Chebychev-Ungleichung für Sn erhalten wir unter Voraussetzungen von Satz 3.53 1 P(|Sn | ≥ α ) ≤ 2 Var[Sn ]. α Dass, es zu Kolmogorov-Ungleichung verstärkt werden kann, kann man heuristisch wie folgt begründen: Wenn für Summen unabhängiger Zufallsvariablen max1≤k ≤n |Sk | groß ist, dann sollte auch |Sn | groß sein. Folgender Satz von Etemadi ist auch ein Resultat in diese Richtung. Satz 3.54 (Etemadi). Für unabhängige Zufallsvariablen X 1 , . . . , Xn und α ≥ 0 gilt P max |Sk | ≥ 3α ≤ 3 max P |Sk | ≥ α . (3.78) 1≤k ≤n 1≤k ≤n 115 3.10 Reihen unabhängiger Zufallsvariablen Beweis. Sei Bk B {|Sk | ≥ 3α, |S j | < 3α, j = 1, . . . , k − 1}. Die Ereignisse Bk sind disjunkt und es gilt P max |Sk | ≥ 3α = P max |Sk | ≥ 3α, |Sn | ≥ α + P max |Sk | ≥ 3α, |Sn | < α 1≤k ≤n 1≤k ≤n ≤ P(|Sn | ≥ α ) + 1≤k ≤n n−1 X P(Bk , |Sn | < α ). k=1 Aus |Sk | ≥ 3α und |Sn | < α folgt |Sn − Sk | > 2α. Außerdem sind die Ereignisse Bk und |Sn − Sk | > 2α unabhängig. Damit gilt P max |Sk | ≥ 3α ≤ P(|Sn | ≥ α ) + 1≤k ≤n ≤ P(|Sn | ≥ α ) + n−1 X k=1 n−1 X P(Bk , |Sn − Sk | > 2α ) P(Bk )P(|Sn − Sk | > 2α ) k=1 ≤ P(|Sn | ≥ α ) + max P(|Sn − Sk | ≥ 2α ) 1≤k ≤n n−1 X P(Bk ) k=1 ≤ P(|Sn | ≥ α ) + max P(|Sn − Sk | ≥ 2α ) 1≤k ≤n ≤ P(|Sn | ≥ α ) + max P(|Sn | ≥ α ) + P(|Sk | ≥ α ) 1≤k ≤n ≤ 3 max P(|Sk | ≥ α ). 1≤k ≤n 3.10 Reihen unabhängiger Zufallsvariablen Sind die Zufallsvariablen X 1 , X 2 , . . . unabhängig, dann konvergiert nach dem P Null-Eins-Gesetz von Kolmogorov die Reihe n Xn entweder mit Wahrscheinlichkeit 0 oder mit Wahrscheinlichkeit 1. In diesem Abschnitt versuchen wir die beiden Fälle in Abhängigkeit der Verteilung der Xn zu charakterisieren. Satz 3.55. Es sei (Xn )n∈N unabhängig und sei E[Xn ] = 0 für alle n ∈ N. Ist P P n Var[X n ] < ∞, dann konvergiert die Reihe n X n mit Wahrscheinlichkeit 1. 116 3.10 Reihen unabhängiger Zufallsvariablen Beweis. Nach Kolmogorov-Ungleichung gilt P max |Sn+k 1≤k ≤r r 1 X − Sn | > ε ≤ 2 Var[Xn+k ]. ε k=1 Die rechte Seite ist nicht fallend in r und mit r → ∞ folgt P sup |Sn+k k ≥1 Da nach Voraussetzung ∞ 1 X Var[Xn+k ]. − Sn | > ε ≤ 2 ε k=1 Var[Xn ] konvergiert, folgt lim P sup |Sn+k − Sn | > ε = 0 P n n→∞ k ≥1 (3.79) für alle ε > 0. Sei E (n, ε ) B {supj,k ≥n |S j − Sk | > 2ε} und E(ε ) = ∩n E (n, ε ). Dann gilt E (n, ε ) ↓ E (ε ) und mit (3.79) folgt P(E(ε )) = 0. Die Vereinigung ∪ε E (ε ) über alle rationalen positiven ε enthält die Menge der ω ∈ Ω, für die (Sn (ω))n∈N keine Cauchy-Folge (und damit nicht konvergent) ist. Diese Menge hat also Wahrscheinlichkeit 0. P Wenn n Xn mit Wahrscheinlichkeit 1 konvergiert, dann konvergiert Sn fast sicher gegen eine endliche Zufallsvariable S. Nach Satz 3.42 konvergiert Sn gegen S auch in Wahrscheinlichkeit. Die Umkehrung gilt im Allgemeinen nicht, sie gilt aber dann, wenn die Summanden unabhängig sind. Satz 3.56. Es sei (Xn )n∈N unabhängig. Die Folge (Sn )n∈N konvergiert genau dann in Wahrscheinlichkeit, wenn sie fast sicher konvergiert. P Beweis. Wir zeigen: Sn − → S impliziert, dass die Folge (Sn )n∈N mit Wahrscheinlichkeit 1 eine Cauchy-Folge ist. Wegen ε ε + P |Sn − S | ≥ P(|Sn+j − Sn | ≥ ε ) ≤ P |Sn+j − S | ≥ 2 2 P folgt aus Sn − →S lim sup P(|Sn+j − Sn | ≥ ε ) = 0. n→∞ j≥1 117 (3.80) 3.11 Übungen Nach (3.78) gilt ε P max |Sn+j − Sn | ≥ ε ≤ 3 max P |Sn+j − Sn | ≥ 3 1≤j≤k 1≤j≤k und damit ε P sup |Sn+k − Sn | ≥ ε ≤ 3 sup P |Sn+k − Sn | ≥ . 3 k ≥1 k ≥1 Mit (3.80) folgt, dass die Gleichung (3.79) aus dem Beweis von Satz 3.55 gilt und dann folgt die Behauptung analog. 3.11 Übungen Übung 3.1. Ist X eine P-integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P) und A1 , A2 , . . . ∈ A eine Folge mit P(An ) → 0, so folgt E[1An X ] → 0. Übung 3.2. Ist X eine reellwertige Zufallsvariable, so gilt P(X ≥ x ) ≤ inf e −tx E[e tX ]. t ≥0 Übung 3.3 (Lyapunov-Ungleichung). Ist X eine reellwertige Zufallsvariable und ist 0 < s < t, so gilt (E[|X |s ]) 1/s ≤ (E[|X |t ]) 1/t . Übung 3.4. Es sei Y eine nichtnegative Zufallsvariable mit E[Y 2 ] < ∞. Für a ∈ [0, 1] gilt P(Y > aE[Y ]) ≥ (1 − a) 2 (E[Y ]) 2 . E[Y 2 ] Bemerkung: Die Chebyshev-Ungleichung liefert eine obere Schranke für Wahrscheinlichkeit von Abweichungen vom Erwartungswert. Die hier zu beweisende Ungleichung liefert eine untere Schranke. Übung 3.5. Beweisen Sie Satz 3.20. Übung 3.6. Beweisen Sie Satz 3.28. 118 3.11 Übungen Übung 3.7. Es seien X 1 , . . . , Xn unabhängige und identisch verteilte Zufallsvariablen mit Verteilungsfunktion F . (i) Drücken Sie die Verteilungsfunktionen von Y := min Xi und Z := max Xi 1≤i≤n durch F aus. 1≤i≤n (ii) Es sei f die Dichte von X 1 . Drücken Sie die Dichten von Y und Z durch F und f aus. Übung 3.8. Es seien X 1 und X 2 unabhängig Poisson verteilte Zufallsvariablen mit positiven Parametern λ 1 bzw. λ 2 . (i) Bestimmen Sie die Verteilung von X 1 + X 2 . (ii) Für festes n ∈ N bestimmen Sie die bedingte Verteilung von X 1 gegeben X 1 + X 2 = n, d.h. berechnen Sie P (X 1 = k |X 1 + X 2 = n), k = 0, 1, . . . , n. Hinweis: Sie können in (ii) die aus „Stochastik 0“ bekannte Formel benutzen: P(A|B) = P(A ∩ B)/P(B), wenn P(B) > 0. Übung 3.9 (Stabilität der Cauchy-Verteilung). Cauchy-Verteilung mit Parameter u > 0 ist eine Verteilung auf (R, B(R)) mit Dichte cu (x ) = u , π (u 2 + x 2 ) x ∈ R. Es seien X 1 , . . . , Xn unabhängig und identisch verteilte Zufallsvariablen mit Dichte cu . Zeigen Sie, dass auch die Zufallsvariable (X 1 + . . . + Xn )/n auch Cauchy verteilt ist mit Paramter u. Hinweis: Sie können ohne Beweis verwenden, dass cu ∗ cv = cu+v für alle u, v > 0 gilt. Übung 3.10. (i) Es seien X und Y unabhängige standard normal verteilte Zufallsvariablen. Zeigen Sie, dass die Zufallsvariable XY Z= 0 Cauchy verteilt mit Parameter 1 ist. 119 :Y ,0 :Y =0 3.11 Übungen (ii) Es sei U eine auf (− π2 , π2 ) gleichverteilte Zufallsvariable. Zeigen Sie, dass tan(U ) Cauchy verteilt mit Parameter 1 ist. Übung 3.11. Seien X 1 , X 2 , . . . unabhängige Zufallsvariablen mit P(Xn = 1) = pn und P(Xn = 0) = 1 − pn . (i) Zeigen Sie P Xn − →0 ⇐⇒ lim pn = 0, (3.81) lim pn = 0, (3.82) pn < ∞. (3.83) n→∞ p L Xn −−→ 0 f.s. Xn −−→ 0 ⇐⇒ ⇐⇒ n→∞ ∞ X n=1 (ii) Zeigen Sie mit Hilfe von (i), dass aus der Konvergenz in Wahrscheinlichkeit und Konvergenz im p-ten Mittel im Allgemeinen nicht die fast sichere Konvergenz folgt. (iii) Beweisen Sie in diesem speziellen Fall die Aussage von Satz 3.44 (ohne den Satz selbst zu benutzen). Übung 3.12. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X , X 1 , X 2 , . . . : (Ω, A) → (Rk , B(Rk )) Zufallsvektoren. Man sagt, dass die Folge (Xn ) in Wahrscheinlichkeit gegen X konvergiert, falls für jedes ε > 0 P(kXn − X k > ε ) → 0 für n → ∞, wobei k·k eine beliebige Norm auf Rk ist. P (i) Es sei f : Rk → Rm messbar und stetig in a ∈ Rk . Gilt Xn − → a, so gilt P auch f (Xn ) − → f (a). P P (ii) (Xn1 , . . . , Xnk ) − → (X 1 , . . . , X k ) genau dann, wenn Xni − → X i für alle i ∈ {1, . . . , k }. 120 3.11 Übungen Übung 3.13. Für jedes n ∈ N seien X 1(n) , . . . , Xn(n) paarweise unkorrelierte Zufallsvariablen mit endlicher Varianz (nicht notwendigerweise identisch verteilt!) und n 1 X Var[Xi(n) ] = 0. lim 2 n→∞ n i=1 Zeigen Sie, dass die Xi(n) dem schwachen Gesetz der großen Zahlen genügen, d.h. beweisen Sie n P 1 X (n) Xi − E[Xi(n) ] − → 0, n → ∞. (3.84) n i=1 Wenn die Zufallsvariablen X 1(n) , . . . , Xn(n) korreliert sind, so kann (3.84) trotzdem gelten. Finden Sie eine geeignete Bedingung an die Kovarianzen. Übung 3.14. Es sei (Xn )n≥2 eine Folge unabhängiger Zufallsvariablen mit P(Xn = n) = 1 n log n und P(Xn = 0) = 1 − 1 . n log n Zeigen Sie: Die Folge genügt zwar dem schwachen, aber nicht dem starken Gesetz der großen Zahlen in dem Sinne, dass n 1X (Xi − E[Xi ]) n i=2 zwar in Wahrscheinlichkeit gegen Null konvergiert, aber nicht fast sicher. Übung 3.15. Es sei (Xn )n≥1 eine Folge unabhängiger nichtnegativer Zufallsvariablen. Zeigen Sie, dass folgende Aussagen äquivalent sind: (a) (b) ∞ X Xn < ∞ f.s. , n=1 ∞ X P(Xn > 1) + E(Xn 1{X n ≤1} ) < ∞, n=1 ∞ X X n < ∞. (c) E 1 + Xn n=1 121 4 Schwache Konvergenz und zentraler Grenzwertsatz 4.1 Schwache Konvergenz Es seien X , X 1 , X 2 , . . . Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, A, P). Ferner seien µ, µ 1 , µ 2 , . . . und F , F 1 , F 2 , . . . die Verteilungen bzw. Verteilungsfunktionen der Zufallsvariablen. Definition 4.1. Die Folge (Xn ) konvergiert in Verteilung gegen X , wir schreiben Xn ⇒ X , wenn n→∞ Fn (x ) −−−−→ F (x ), (4.1) für alle Stetigkeitstellen x ∈ R von F gilt. In diesem Fall konvergiert die Folge der Verteilungen (µn ) schwach gegen µ und wir schreiben µn ⇒ µ bzw. Fn ⇒ F . Bemerkung 4.2. Nach Definition gilt µn ⇒ µ genau dann, wenn lim µn (A) = µ (A) n→∞ (4.2) für alle A der Form A = (−∞, x], für die µ ({x }) = 0 gilt. Da es bei Konvergenz in Verteilung also um Konvergenz von Bildmaßen handelt, müssen die Zufallsvariablen nicht auf demselben Wahrscheinlichkeitsraum definiert werden. Bei Konvergenz in Wahrscheinlichkeit und fast sicherer Konvergenz ist es anders: Ausdrucke P(|Xn − X | > ε ) und P(limn→∞ Xn = X ) machen nur dann Sinn, wenn X , X 1 , X 2 , . . . Zufallsvariablen auf demselben Wahrscheinlichkeitsraum sind. Beispiel 4.3. (i) Sind X 1 , X 2 , . . . unabhängig Cauchy verteilt mit Parameter P u > 0, so ist auch Zn = n1 nk=1 Xk Cauchy-Verteilt mit Parameter u. Somit P gilt Zn ⇒ X 1 . Es gilt aber nicht Zn − → X 1 , wie man sich leicht überzeugen kann. Insbesondere impliziert Konvergenz in Verteilung im Allgemeinen nicht die Konvergenz in Wahrscheinlichkeit. 122 4.1 Schwache Konvergenz (ii) Sei Fn die Verteilungsfunktion der Dirac-Verteilung in {n} (Einheitsmasse in Punkt n), also Fn = 1 (−∞,n] dann ist limn→∞ Fn (x ) = 0 für alle x, sodass (4.1) für F ≡ 0 gilt. Es gilt aber nicht Fn ⇒ F , da F keine Verteilungsfunktion ist. (iii) Sei (xn ) eine Folge reeller Zahlen und µn die Dirac-Verteilung in xn und µ die Dirac-Verteilung in x ∈ R, dann gilt µn ⇒ µ genau dann, wenn xn → x. Wenn xn > x für unendlich viele n ist, dann gilt (4.1) nicht in x (dem einzigen Unstetigkeitspunkt der zu µ gehörigen Verteilungsfunktion). Wir haben bereits gesehen, dass fast sichere Konvergenz die Konvergenz in Wahrscheinlichkeit impliziert. Nun zeigen wir, dass Konvergenz in Wahrscheinlichkeit die Konvergenz in Verteilung impliziert. Satz 4.4. Seien X , X 1 , X 2 , . . . Zufallsvariablen auf demselben WahrscheinlichP keitsraum. Gilt Xn − → X , so gilt auch Xn ⇒ X . Ist a eine Konstante und gilt P Xn ⇒ a, so gilt auch Xn − → a. Beweis. Für ε > 0 gilt P(X ≤ x − ε ) − P(|Xn − X | ≥ ε ) ≤ P(Xn ≤ x ) ≤ P(X ≤ x + ε ) − P(|Xn − X | ≥ ε ). Lassen wir nun n gegen unendlich und dann ε gegen 0 gehen, dann folgt P(X < x ) ≤ lim inf P(Xn ≤ x ) ≤ lim sup P(Xn ≤ x ) ≤ P(X ≤ x ). n n Für x ∈ R mit P(X = x ) = 0 gilt also limn→∞ P(Xn ≤ x ) → P(X ≤ x ) und damit Xn ⇒ X . Wenn Xn ⇒ a gilt, so gilt für ε > 0 P(|Xn − a| > ε ) ≤ P(Xn ≤ a − ε ) + 1 − P(Xn ≤ a + ε ) → 0, denn nach Voraussetzung gilt P(Xn ≤ a − ε ) → 0 und P(Xn ≤ a + ε ) → 1. Die asymptotischen Eigenschaften einer Folge von Zufallsvariablen sollte nicht durch Addition einer in Wahrscheinlichkeit gegen Null konvergenten Folge beeinträchtigt werden. Das (und mehr) beweist das folgende Resultat. 123 4.1 Schwache Konvergenz Satz 4.5 (Slutsky). Seien (Xn )n∈N und (Yn )n∈N Folgen von Zufallsvariablen mit P Xn ⇒ X und Yn − → c für eine Konstante c ∈ R, dann gilt Yn + Xn ⇒ c + X , Yn Xn ⇒ cX und falls c , 0 Xn /Yn ⇒ Xn /c. (4.3) Beweis. Wir beweisen die erste Aussage in (4.3). Der Beweis der zweiten ist eine Übung. Sei x ∈ R so, dass x − c ein Stetigkeitspunkt der Verteilungsfunktion F von X ist. Wir wählen ε > 0 so, dass auch x − c + ε auch ein Stetigkeitspunkt von F ist. Dann gilt P(Xn + Yn ≤ x ) ≤ P(Xn + c ≤ x + ε ) + P(|Yn − c | > ε ) → P(X ≤ x − c + ε ). Es folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x + ε ) und weil ε beliebig klein gewählt werden kann, folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x ). Ähnlich (man wähle x und ε > 0 so, dass x − c und x − c − ε Stetigkeitspunkte von F sind) kann man zeigen, dass P(X + c < x ) ≤ lim inf n P(Xn + Yn ≤ x ) gilt. Damit folgt die Behauptung. Wir haben bereits gesehen (siehe z.B. Satz 3.30), dass für jedes Wahrscheinlichkeitsmaß auf (R, B(R)) es ein Wahrscheinlichkeitsraum und eine Zufallsvariable darauf gibt, so dass die Zufallsvariable dieses Wahrscheinlichkeitsmaß als Verteilung hat. Wenn also µn ⇒ µ gilt, dann gibt es eine Folge von Zufallsvariablen Yn und eine Zufallsvariable Y (möglicherweise auf verschiedenen Wahrscheinlichkeitsräumen) mit Yn ∼ µn , Y ∼ µ und Yn ⇒ Y . Das nächste Resultat zeigt, dass die Zufallsvariablen auf demselben Wahrscheinlichkeitsraum (Ω, A, P) definiert werden könnnen und zwar, so dass Yn (ω) → Y (ω) für alle ω gilt. Diese Bedingung ist natürlich viel stärker als Konvergenz in Verteilung und erleichtert einige Beweise. Satz 4.6 (Skorohod). Seien µ, µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße auf (R, B(R)) mit µn ⇒ µ. Dann gibt es Zufallsvariablen Y , Y1 , Y2 , . . . auf einem gemeinsamen Wahrscheinlichkeitsraum (Ω, A, P), so dass Yn die Verteilung µn , n ∈ N haben, n→∞ Y die Verteilung µ hat und für alle ω ∈ Ω gilt Yn (ω) −−−−→ Y (ω). Beweis. Als den gemeinsamen Wahrscheinlichkeitsraum nehmen wir (Ω, A, P) mit Ω = (0, 1), A = B((0, 1)) und P das Lebesgue-Maß auf (0, 1). Die Konstruktion der Yn und Y ist ähnlich zur Konstruktion im Beweis von Satz 3.30. 124 4.1 Schwache Konvergenz Seien Fn und F die Verteilungsfunktionen von µn bzw. µ. Für ω ∈ (0, 1) setzen wir Yn (ω) = inf {x : ω ≤ Fn (x )} und Y (ω) = inf {x : ω ≤ F (x )}. Da ω ≤ Fn (x ) äquivalent zu Yn (ω) ≤ x ist, folgt P(ω : Yn (ω) ≤ x ) = P(ω : ω ≤ Fn (x )) = Fn (x ). Also, ist Fn die Verteilungsfunktion von Yn und analog folgt, dass F die Verteilungsfunktion von Y ist. Es bleibt zu zeigen, dass wir Yn und Y noch wenn nötig auf einer P-Nullmenge modifizieren können um Yn (ω) → Y (ω) für alle ω zu erreichen1 . Sei ω ∈ (0, 1). Für ε > 0 wähle x so, dass Y (ω)−ε < x < Y (ω) und µ ({x }) = 0. Dann ist F (x ) < ω und x ist ein Stetigkeitspunkt von F . Wegen Fn (x ) → F (x ) gilt, dass für n genügend groß Fn (x ) < ω n und damit Y (ω) − ε < x < Yn (ω) gilt. Also gilt lim inf n Yn (ω) ≥ Y (ω). Wenn ω < ω 0 und ε positiv ist, dann wählen wir ein y mit Y (ω 0 ) < y < Y (ω 0 ) + ε und µ ({y}) = 0. Dann gilt ω < ω 0 ≤ F (Y (ω 0 )) ≤ F (y). Für genügend große n gilt wie oben ω ≤ Fn (y) und somit Yn (ω) ≤ y < Y (ω 0 ) + ε. Also gilt lim supn Yn (ω) ≤ Y (ω 0 ) für ω < ω 0. Insgesamt gilt Yn (ω) → Y (ω) wenn Y stetig in ω ist. Da Y nichtfallend auf (0, 1) ist, hat es höchstens abzählbar viele Unstetigkeitsstellen. An solchen Stellen setzen wir Yn (ω) = Y (ω) = 0. Dann gilt Yn (ω) → Y (ω) für alle ω ∈ (0, 1). Da die Menge der Unstetigkeitstellen abzählbar ist, haben wir Yn und Y nur auf einer P-Nullmenge verändert. Die Verteilung bleibt also erhalten. Satz 4.7 (Continuous mapping Theorem). Sei h : R → R eine messbare Funktion und sei die Menge Dh der Unstetigkeitstellen von h messbar. Gilt µn ⇒ µ und µ (Dh ) = 0, so gilt auch µnh −1 ⇒ µh −1 . Beweis. Seien Yn ∼ µn und Y ∼ µ die Zufallsvariablen aus Satz 4.6. Wegen Yn (ω) → Y (ω) für alle ω und Stetigkeit von h auf Dhc gilt h(Yn (ω)) → h(Y (ω)) für alle ω mit Y (ω) < Dh . Wegen P({ω : Y (ω) ∈ Dh }) = µ (Dh ) = 0 folgt h(Yn (ω)) → h(Y (ω)) fast sicher. Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit und Konvergenz in Verteilung. Also gilt h(Yn ) ⇒ h(Y ). Das ist aber gleichbedeutend mit µnh −1 ⇒ µh −1 . 1 So definierte Yn und Y heißen verallgemeinerte Inversen von Fn bzw. F . Also ist zu zeigen, Fn ⇒ F die Konvergenz der verallgemeinerten Inversen impliziert. 125 4.1 Schwache Konvergenz Das „continuous mapping Theorem“ lässt sich wie folgt mit Zufallsvariablen formulieren. Korollar 4.8. Gilt Xn ⇒ X und P(X ∈ Dh ) = 0, dann gilt h(Xn ) ⇒ h(X ). Im Spezialfall X ≡ a gilt das folgende Resultat (überlegen Sie sich wie man es mit Hilfe von Übung 3.12(i) zeigen kann). Korollar 4.9. Gilt Xn ⇒ a und ist h stetig in a, dann gilt h(Xn ) ⇒ h(a). Wir haben µn ⇒ µ bzw. Xn ⇒ X durch Konvergenz der zugehörigen Verteilungsfunktionen an den Stetigkeitstellen der Verteilungsfunktion der Grenzwertes definiert. Folgender Satz liefert einige äquivalente Charakterisierungen, die ohne Verteilungsfunktionen auskommen. Unter dem Namen „Portmanteau Theorem“ (portmanteau heißt auf engl. Reisekoffer) werden typischerweise noch mehr solcher Charakterisierungen zusammen gefasst; vgl. Satz 13.16 in Klenke (2013). Für A ∈ B(R) bezeichnen wir mit δA den Rand von A, d.h. δA = A \ A◦ . Satz 4.10. Die folgenden Bedingungen sind äquivalent. (i) µn ⇒ µ; R R (ii) f dµn → f dµ für jede beschränkte stetige Funktion f : R → R; (iii) µn (A) → µ (A) für jedes A ∈ B(R) mit µ (δA) = 0. Auch diesen Satz können wir alternativ mit Zufallsvariablen formulieren. Satz 4.11. Die folgenden Bedingungen sind äquivalent. (i) Xn ⇒ X ; (ii) E[f (Xn )] → E[f (X )] für jede beschränkte stetige Funktion f : R → R; (iii) P(Xn ∈ A) → P(X ∈ A) für jedes A ∈ B(R) mit µ (X ∈ δA) = 0. Beweis von Satz 4.10. Sei µn ⇒ µ und seien Yn und Y die Zufallsvariablen aus Satz 4.6. Sei f eine beschränkte Funktion, so dass µ (D f ) = 0, wobei D f die Menge der Unstetigkeitstellen von f ist. Aus P(Y ∈ D f ) = µ (D f ) = 0 folgt f (Yn ) → f (Y ) fast sicher. Mit dem Satz von majorisierter Konvergenz folgt 126 4.1 Schwache Konvergenz (es gilt | f (Yn )| ≤ M, wenn M die obere Schranke von | f | ist, also ist д ≡ M eine P-integrierbare Majorante) Z Z f dµn = E[f (Yn )] → E[f (Y )] = f dµ. R R Also folgt aus µn ⇒ µ und µ (D f ) = 0 zusammen f dµn → f dµ für beschränkte Funktionen f . Also folgt (ii) aus (i). Für f = 1A gilt D f = δA und aus µ (δA) = 0 und µn ⇒ µ folgt Z Z µn (A) = f dµn → f dµ = µ (A). Also folgt auch (iii) aus (i). Wegen δ (−∞, x] = {x } impliziert (iii) offensichtlich (i). Es bleibt noch zu zeigen, dass (i) aus (ii) folgt. Seien Fn und F die Verteilungsfunktionen von µn bzw. µ. Für x < y definieren wir eine stetige beschränkte Funktion f durch 1 y−t f (t ) B y−x 0 : : t ≤ x, x ≤ t ≤ y, : y ≤ t. (In dem Intervall [x, y] interpolieren wir stetig zwischen den Werten 1 und 0, f ist also eine stetige Approximation der Indikatorfunktion 1 (−∞,x] .) Mit (ii) erhalten wir Z Z Z Z Fn (x ) = 1(−∞,x] dµn ≤ f dµn → f dµ ≤ 1(−∞,y] dµ = F (y). Es folgt lim supn Fn (x ) ≤ F (y) und mit y ↓ x gilt lim supn Fn (x ) ≤ F (x ). Analog zeigt man, dass F (z) ≤ lim inf n F (x ) für z < x gilt und es folgt F (x−) ≤ lim inf n Fn (x ). An Stetigkeitsstellen von F gilt F (x−) = F (x ) und damit F (x ) ≤ lim inf Fn (x ) ≤ lim sup Fn (x ) ≤ F (x ), n n also F (x ) = limn Fn (x ), was (i) zeigt. 127 4.2 Straffheit und relative Kompaktheit 4.2 Straffheit und relative Kompaktheit Aus Analysis I kennen wir folgendes Resultat. Proposition 4.12. Für Folgen reeller Zahlen (xn ) gelten folgende Aussagen. (i) (xn ) ist genau dann beschränkt ist, wenn jede Teilfolge (xnk ) eine weitere Teilfolge (xnk (j ) ) enthält, die gegen ein x konvergiert: limj xnk (j ) = x. (ii) Wenn (xn ) beschränkt ist und jede Teilfolge (xnk ) die konvergiert, gegen denselben Grenzwert x konvergiert, dann konvergiert auch die gesamte Folge (xn ) gegen x. In diesem Abschnitt diskutieren wir Bedingungen unter welchen wir ähnliche Aussagen für Folgen von Wahrscheinlichkeitsmaßen (bzw. Folgen von Zufallsvariablen) bezüglich schwacher Konvergenz machen können. Definition 4.13 (Relative Kompaktheit). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf (R, B(R)) heißt relativ kompakt, falls jede Teilfolge (µnk ) eine weitere Teilfolge (µnk (j ) ) enthält mit µnk (j ) ⇒ µ für ein Wahrscheinlichkeitsmaß µ. Der Beweis des folgenden Satzes basiert auf einem Diagonalargument und ist im Prinzip rein analytisch. Für einen Beweis verweisen wir auf Satz 13.33 in Klenke (2013) oder Theorem 25.9 in Billingsley (1995). Satz 4.14 (Auswahlsatz von Helly). Für jede Folge (Fn ) von Verteilungsfunktionen gibt es eine Teilfolge (Fnk ) und eine nichtfallende rechtsseitig stetige Funktion F mit limk Fnk (x ) = F (x ) an den Stetigkeitstellen von F . Beachten Sie, dass der Auswahlsatz von Helly nicht garantiert, dass der Grenzwert F Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist. Klar ist nur, dass 0 ≤ F (x ) ≤ 1 ist. Ein Extrembeispiel mit F ≡ 0 haben wir bereits in Beispiel 4.3(ii) gesehen. Also ist sicherlich nicht jede Folge von Wahrscheinlichkeitsmaßen relativ kompakt. Wir brauchen Bedingungen, unter denen „Massenverlust“ vermieden werden kann. Definition 4.15 (Straffheit). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf (R, B(R)) heißt straff, wenn für jedes ε > 0 ein beschränktes Intervall (a, b] ⊂ R existiert mit µn ((a, b]) > 1 − ε für alle n ∈ N. 128 4.2 Straffheit und relative Kompaktheit Bemerkung 4.16. In der Definition der Straffheit auf allgemeinen metrischen Räumen fordert man die Existenz einer kompakten Menge K mit µn (K ) > 1 −ε für alle n. Auf R kann man jede kompakte Menge von einem Intervall der Form (a, b] überdecken und [a, b] ist kompakt. Also ist auf R unsere Definition äquivalent zu der allgemeinen. Satz 4.17 (Prohorov). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf (R, B(R)) ist genau dann relativ kompakt, wenn sie straff ist. Beweis. Sei (µn ) straff und sei (Fnk ) eine Teilfolge der zu (µn ) gehörigen Folge der Verteilungsfunktionen. Nach dem Auswahlsatz von Helly gibt es eine weitere Teilfolge (Fnk (j ) ) mit limj Fnk (j ) (x ) = F (x ) für alle Stetigkeitstellen x von F , wobei F eine nichtfallende rechtsseitig stetige Funktion ist. Nach Satz 1.58 gibt es ein Maß µ auf (R, B(R)), so dass µ ((a, b]) = F (b) − F (a). Für ε > 0, wähle a und b so, dass µn ((a, b]) > 1 − ε für alle n. Wenn nötig, kann man a kleiner und b größer machen, so dass beide Stetigkeitspunkte von F sind. Dann folgt µ ((a, b]) ≥ 1 − ε und damit ist µ ein Wahrscheinlichkeitsmaß für das µnk (j ) ⇒ µ gilt. Die Umkehrung zeigen wir mit einem Widerspruchsbeweis. Wenn (µn ) nicht straff ist, dann gibt es ein ε > 0 sodass für alle (a, b] gilt µn ((a, b]) ≤ 1 −ε für ein n. Wähle nk so, dass µnk ((−k, k]) ≤ 1 − ε gilt. Nehmen wir an eine Teilfolge µnk (j ) konvergiert schwach gegen ein Wahrscheinlichkeitsmaß µ. Nun wählen wir (a, b] mit µ ({a}) = µ ({b}) = 0 und µ ((a, b]) > 1 − ε. Für genügend große j ist (a, b] ⊂ (−k (j), k (j)] und es folgt 1 − ε ≥ µnk (j ) ((−k (j), k (j)] ≥ µnk (j ) ((a, b]) → µ ((a, b]). Das ist aber ein Widerspruch zu µ ((a, b]) > 1 − ε. Korollar 4.18. Wenn (µn ) eine straffe Folge von Wahrscheinlichkeitsmaßen und wenn alle schwach konvergenten Teilfolgen gegen dasselbe Wahrscheinlichkeitsmaß µ konvergieren, dann gilt µn ⇒ µ. Beweis. Nach dem Satz von Prohorov besitzt jede Teilfolge (µnk ) eine weitere Teilfolge (µnk (j ) ), die (für j → ∞) schwach konvergiert. Nach Voraussetzung ist µ der schwache Limes für jede solche (Teil-)Teilfolge. Nehmen wir an, dass µn ⇒ µ nicht gilt. Dann gibt es ein x ∈ R mit µ ({x }) = 0, aber limn→∞ µn ((−∞, x]) , µ ((−∞, x]). Insbesondere gibt es ein ε > 0 mit |µnk ((−∞, x]) − µ ((−∞, x])| ≥ ε für eine Teilfolge (µnk ). Davon 129 4.3 Vertauschung von Integration und Grenzwertbildung kann keine weitere Teilfolge schwach konvergieren. Dieser Widerspruch zeigt µn ⇒ µ. Beispiel 4.19. Sei µn = δxn das Dirac-Maß in xn . Dann ist (µn ) straff genau dann, wenn (xn ) beschränkt ist. Die Aussagen des Satzes von Prohorov und des obigen Korollars sind in diesem Fall äquivalent zu Proposition 4.12. Beispiel 4.20. Sei µn die Normalverteilung mit Erwartungswert mn und Varainz σn2 . Sind mn und σn2 beschränkt, dann sind auch die zweiten Momente von µn beschränkt. Sind Xn die Zufallsvariablen mit Verteilungen µn , dann folgt Markov-Ungleichung E[X 2 ] → 0, x → ∞. x2 Damit ist die Folge (µn ) straff. Ist (nk (j) ) so gewählt, dass mnk (j ) → m und σn2k (j ) → σ 2 für j → ∞, dann gilt µnk (j ) ⇒ µ, wobei µ die Normalverteilung mit Erwartungswert m und Varianz σ 2 ist (µ = δm , wenn σ 2 = 0). Ist mn > b, dann gilt µn ((b, ∞)) ≥ 1/2. Ist mn < a, dann gilt µn ((−∞, a]) ≥ 12 . Also kann µn nicht straff sein wenn mn nicht beschränkt ist. Gilt |mn | ≤ K für ein K < ∞, dann gilt µn ((−∞, a]) ≥ ν ((−∞, (a − K )/σn ]), wobei ν die Standardnormalverteilung ist. Ist σn nicht beschränkt, dann folgt ν ((−∞, (a − K )/σn ]) → 1/2 entlang einer Teilfolge. Also kann (µn ) auch in diesem Fall nicht straff sein. Insgesamt ist eine Folge von Normalverteilungen genau dann straff, wenn die Folgen der Erwartungswerte und der Varianzen beschränkt sind. P(|Xn | ≥ x ) ≤ 4.3 Vertauschung von Integration und Grenzwertbildung Sind (Xn ) und X Zufallsvariablen mit Xn ⇒ X , so gilt nach Satz 4.10 E[h(Xn )] → E[h(X )] (4.4) für alle stetigen beschränkten Funktionen h : R → R. Die Funktion h(x ) = −K 1 (−∞,K ) (x ) + x 1[−K,K] (x ) + K 1 (K,∞) (x ) ist stetig und beschränkt und falls es ein K < ∞ mit |Xn |, |X | ≤ K gibt, dann folgt E[Xn ] = E[h(Xn )] → E[h(X )] = E[X ]. In diesem Abschnitt schauen wir uns an, unter welchen Bedingungen dies auch für unbeschränkte Folgen von Zufallsvariablen gilt. 130 4.3 Vertauschung von Integration und Grenzwertbildung Satz 4.21. Gilt Xn ⇒ X , dann gilt E[|X |] ≤ lim inf n E[|Xn |]. Beweis. Nach dem Satz von Skorohod gibt es einen gemeinsamen Wahrscheinlichkeitsraum und Zufallsvariablen Yn und Y mit denselben Verteilungen wie Xn und X und mit Yn → Y fast überall (in der Tat sogar punktweise). Dann haben auch |Yn | und |Y | dieselben Verteilungen wie |Xn | bzw. |X | und die Behauptung folgt mit dem Lemma von Fatou (Satz 2.11). Definition 4.22. Eine Folge von Zufallsvariablen (Xn ) heißt gleichgradig integrierbar, falls Z lim sup |Xn | dP = 0. (4.5) α→∞ n {|X n |≥α } Satz 4.23. Ist die Folge (Xn ) gleichgradig integrierbar, dann gilt sup E[|Xn |] < ∞. (4.6) n Beweis. Für alle n gilt E[|Xn |] = Z |Xn | dP + Z {|X n |≥α } Z |Xn | dP {|X n |<α } |Xn | dP + αP(|Xn | < α ) ≤ {|X n |≥α } Z |Xn | dP + α . ≤ {|X n |≥α } Wegen gleichgradiger Integrierbarkeit, kann man zu einem gegebenen ε > 0, R α so wählen, dass supn {|X |≥α } |Xn | dP < ε gilt. Dann gilt n sup E[|Xn |] < ε + α < ∞. n Satz 4.24 (Kriterien für gleichgradige Integrierbarkeit). Die Folge (Xn ) ist gleichgradig integrierbar, wenn eine der folgenden Voraussetzungen erfüllt ist. (i) Es gibt ein ε > 0 mit supn E[|Xn | 1+ε ] < ∞. 131 4.3 Vertauschung von Integration und Grenzwertbildung (ii) Es gibt eine Zufallsvariable Y mit E[|Y |] < ∞ und P(|Xn | ≥ α ) ≤ P(|Y | ≥ α ) n ≥ 1, α > 0. (4.7) Beweis. (i) Für alle n gilt Z Z 1+ε 1+ε E[|Xn | ] = |Xn | dP + |Xn | 1+ε dP {|X n |≥α } {|X n |<α } Z Z 1+ε ≥ |Xn | dP ≥ |Xn |α ε dP. {|X n |≥α } {|X n |≥α } Mit sup n Z |Xn | dP ≤ {|X n |≥α } 1 α→∞ sup E[|Xn | 1+ε ] −−−−→ 0 ε α n folgt nun die gleichgradige Integrierbarkeit von (Xn ). (ii) Mit Übung 2.14(ii) (die Aussagen dort gelten auch mit „≤“ statt „<“) erhalten wir aus (4.7) Z Z 1{|Xn |≥α } |Xn | dP ≤ 1{|Y |≥α } |Y | dP für alle n. Die rechte Seite konvergiert gegen 0 für α → ∞, was die gleichgradige Integrierbarkeit von (Xn ) zeigt. Satz 4.25. Ist (Xn ) gleichgradig integrierbar und gilt Xn ⇒ X , dann gilt E[Xn ] → E[X ]. (4.8) Beweis. Sei (Xn ) gleichgradig integrierbar, dann gilt supn E[|Xn |] < ∞ und Satz 4.21 impliziert E[|X |] ≤ lim inf n E[|Xn |], d.h. X ist integrierbar. Wir definieren x hα (x ) B 0 falls |x | < α, sonst. Die Funktion hα ist messbar und beschränkt. Falls P(|X | = α ) = 0 gilt, so gilt nach Korollar 4.8 hα (Xn ) ⇒ hα (X ), und mit dem Argument, das zu (4.4) führte, folgt E[hα (Xn )] −→ E[hα (X )]. 132 (4.9) 4.4 Charakteristische Funktionen Ferner gilt E[Xn ] − E[hα (Xn )] = Z Xn dP (4.10) {|X n |≥α } und E[X ] − E[hα (X )] = Z X dP. (4.11) {|X |≥α } Diese drei Beziehungen implizieren lim sup |E[Xn ] − E[X ]| ≤ sup n→∞ Z n |Xn | dP + {|X n |≥α } Z |X | dP. {|X |≥α } Die rechte Seite der Ungleichung konvergiert wegen gleichgradiger Integrierbarkeit von Xn und Integrierbarkeit von X für α → ∞ gegen 0. Zum Abschluss des Abschnittes geben wir noch Bedingungen an unter denen Konvergenz in Verteilung Konvergenz im p-ten Mittel impliziert. Korollar 4.26. Es sei p ≥ 1. Gilt Xn ⇒ X und supn E[|Xn |p+ε ] < ∞ für ein p p ε > 0, dann folgt E[|X |p ] < ∞ und E[Xn ] → E[X ]. p p p Beweis. Aus Xn ⇒ X folgt Xn ⇒ X mit Satz 4.7. Nach Satz 4.24(i) ist (Xn ) gleichgradig integrierbar und Satz 4.21 impliziert E[|X |p ] ≤ lim inf E[|Xn |p ] < ∞. n p p Schließlich erhalten wir E[Xn ] → E[X ] mit Satz 4.25. 4.4 Charakteristische Funktionen Manchmal ist es möglich schwache Konvergenz von Folgen von Verteilungen direkt mit der Definition 4.1 zu zeigen. (Denken Sie etwa an die PoissonApproximation der Binomialverteilung.) Meistens sind jedoch geeignete Transformierte von Wahrscheinlichkeitsmaßen hilfreicher. Das Prinzip dahinter nutzt die Tatsache, dass es genügt die Charakterisierung in Satz 4.10(ii) für eine „kleine“ Teilmenge von stetigen beschränkten Funktionen nachzuweisen. In diesem Abschnitt schauen wir uns die wichtigste Transformierte an. 133 4.4 Charakteristische Funktionen Definition 4.27. Die charakteristische Funktion eines Wahrscheinlichkeitsmaßes µ auf (R, B(R)) ist die Funktion φ : R → C definiert durch Z ∞ Z ∞ Z ∞ itx φ(t ) B e µ (dx ) = cos(tx ) µ (dx ) + i sin(tx ) µ (dx ). (4.12) −∞ −∞ −∞ Die charakteristische Funktion einer Zufallsvariablen X mit Verteilung µ ist Z ∞ itX φ(t ) B E[e ] = e −itx µ (dx ). −∞ Außerhalb der Wahrscheinlichkeitstheorie werden charakteristische Funktionen als Fourier Transformierte bezeichnet. Um die Abhängigkeit der charakteristischen Funktion von X bzw. µ zu betonen werden wir manchmal φX bzw. φ µ für φ schreiben. Bemerkung 4.28. Wir notieren hier zur späteren Referenz einige bekannte bzw. leicht zu beweisende Formeln und Eigenschaften charakteristischer Funktionen (i) Die folgenden Formeln sind aus Analysis I bekannt e itx = cos(tx ) + i sin(tx ), 1/2 |e itx | = cos2 (tx ) + sin2 (tx ) = 1. (4.13) E fe itX g ≤ E f |e itX | g = 1. (4.15) (4.14) (ii) Es gilt Für a, b ∈ R gilt φaX +b (t ) = E[e itaX +itb ] = e itb E[e itaX ] = e itb φX (at ). (4.16) (iii) Für jedes t ∈ R sind die Funktionen x 7→ cos(tx ) und x 7→ cos(tx ) stetig und beschränkt. Nach Satz 4.10(ii) (angewandt getrennt auf den Realund Imaginärteil) gilt E[e itX n ] → E[e itX ] für jedes t, wenn Xn ⇒ X . Wir sind hier an einer Umkehrung davon interessiert. 134 4.4 Charakteristische Funktionen (iv) Ist φ charakteristische Funktion eines Wahrscheinlichkeitsmaßes µ so gilt Z ∞ |φ(t + h) − φ(t )| = (e i (t+h)x − e itx ) µ (dx ) Z −∞ ∞ (4.17) ≤ |e itx ||e ihx − 1| µ (dx ) −∞ Z ∞ = |e ihx − 1| µ (dx ). −∞ Der Integrand in der letzten Zeile ist offensichtlich beschränkt und mit Satz von majorisierter Konvergenz folgt |φ(t + h) − φ(t )| → 0, h → 0. (4.18) Also ist t → φ(t ) gleichmäßig stetig. Lemma 4.29. Seien X 1 , . . . , Xn unabhängig und sei Sn = X 1 + · · · + Xn . Dann gilt φSn (t ) = n Y φX k (t ). (4.19) k=1 Beweis. Unabhängigkeit der Zufallsvariablen Xk impliziert E[e itSn ]=E n Y e itX k k=1 = n Y E[e itX k ]. k=1 Die charakteristische Funktion bestimmt das zugehörige Wahrscheinlichkeitsmaß eindeutig. Das folgt aus dem folgenden Resultat; vgl. Bemerkung 4.31. Satz 4.30 (Inversionsformel). Sei µ ein Wahrscheinlichkeitsmaß auf (R, B(R)) mit charakteristischer Funktion φ. Dann gilt für a < b 1 lim T →∞ 2π Z T −T e −ita − e −itb 1 φ(t ) dt = µ ((a, b)) + µ ({a, b}). it 2 135 (4.20) 4.4 Charakteristische Funktionen Beweis. Sei IT = RT −T e −it a −e −itb φ(t ) dt. it Zunächst bemerken wir Z b e −ita − e −itb Z b −ity = e dy ≤ |e −ity | dy = b − a. it a a Mit Satz von Fubini erhalten wir Z T Z ∞ −ita e − e −itb itx IT = e µ (dx ) dt it −T −∞ Z ∞ Z T −ita e − e −itb itx = e dt µ (dx ) it −∞ −T Z ∞ Z T it (x−a) e − e it (x−b) = dt µ (dx ) it −∞ −T Z T Z ∞ Z T sin(t (x − a)) sin(t (x − a)) dt − dt µ (dx ). = t t −T −∞ −T Die letzte Gleichung folgt mit (4.13) weil Kosinus eine gerade Funktion ist. R T sin y Sei S (T ) = 0 y dy. Dann gilt Z T −T sin(tu) dt = 2 t Z T sin y dy = 2S (Tu), y T sin(−tu) dt = −2S (−Tu), t 0 u > 0, und Z T −T sin(tu) dt = − t Z −T Mit −1 : y < 0 sgn(y) = 0 : y=0 1 : y>0 gilt Z T −T sin(tu) dt = 2 sgn(u)S (|Tu|) C R(u,T ). t 136 u < 0. 4.4 Charakteristische Funktionen Es folgt IT = Z ∞ (R(x − a,T ) − R(x − b,T )) µ (dx ). −∞ Für T → ∞ gilt S (T ) → π2 . Es folgt, dass für T → ∞ R(u,T ) → π sgn(u) und 0 π R(x − a,T ) − R(x − b,T ) → 2π π 0 : : : : : x x a x x < a, = a, < x < b, = b, > b. Mit dem Satz von majorisierter Konvergenz folgt T →∞ IT −−−−→ 2π µ ((a, b)) + π µ ({a, b}). Teilen beider Seiten durch 2π liefert (4.20). Bemerkung 4.31. Aus der Inversionsformel folgt, dass wenn µ und ν zwei Wahrscheinlichkeitsmaße mit derselben charakteristischen Funktion sind, dann gilt µ ((a, b]) = ν ((a, b]), falls µ ({a, b}) = ν ({a, b}) = 0. Die Menge solcher Intervalle ist aber ein schnittstabiler Erzeuger von B(R) und damit gilt µ = ν auf B(R). Lemma 4.32. Sei µ ein Wahrscheinlichkeitsmaß auf (R, B(R)) mit charakteristischer Funktion φ. Dann gilt für alle u > 0 Z 7 u µ ({x : |x | ≥ 1/u) ≤ (1 − Re φ(t )) dt . (4.21) u 0 Beweis. Mit dem Satz von Fubini erhalten wir Z Z ∞ Z u 1 u 1 I (u) B (1 − Re φ(t )) dt = (1 − cos(tx )) dt µ (dx ) u 0 −∞ u 0 Z ∞ sin(ux ) = 1− µ (dx ). ux −∞ 137 4.4 Charakteristische Funktionen Wegen |sin(ux )| ≤ |ux | ist der Integrand in der letzten Zeile nichtnegativ und es folgt Z sin(ux ) 1− I (u) ≥ µ (dx ) ux |ux |≥1 sin(y) ≥ inf 1 − µ ({x : |xu| ≥ 1) |y|≥1 y 1 = (1 − sin 1)µ ({x : |xu | ≥ 1) ≥ µ ({x : |xu | ≥ 1). 7 Damit folgt die Behauptung. Satz 4.33 (Stetigkeitssatz von Lévy). Es seien µ, µ 1 , µ 2 , . . . Wahrscheinlichkeitsmaße und φ, φ 1 , φ 2 , . . . die zugehörigen charakteristischen Funktionen. Dann gilt µn ⇒ µ genau dann, wenn φn (t ) → φ(t ) für alle t gilt. Beweis. Ist µn ⇒ µ so gilt (vgl. Bemerkung 4.28(iii)), φn (t ) → φ(t ) für alle t. Sei nun umgekehrt φn (t ) → φ(t ) für alle t. Da φ charakteristische Funktion des Wahrscheinlichkeitsmaßes µ ist, ist nach Bemerkung 4.28(iv) φ stetig in 0. Wir zeigen nun, dass die Familie (µn ) straff ist. Nach Lemma 4.32 und dem Satz von majorisierter Konvergenz gilt Z 7 u µn ({x : |x | ≥ 1/u}) ≤ (1 − Re φn (t )) dt u 0 Z u n→∞ 7 (1 − Re φ(t )) dt −−−−→ u 0 7 = o(u) = o(1) für u → 0. u Die vorletzte Gleichheit gilt, weil mit Stetigkeit von φ in 0 folgt Z ∞ cos(0 · x ) µ (dx ) = 1 für t → 0. Re φ(t ) → −∞ Das zeigt die Straffheit. Nach dem Satz von Prohorov ist die Familie (µn ) relativ kompakt. Jede Teilfolge von (µn ) enthält also eine weitere Teilfolge die schwach konvergent ist. Nach (i) hat der schwache Limes die charakteristische Funktion φ. Nach Inversionsformel ist also µ der schwache Limes jeder schwach konvergenten Teilfolge. Die Behauptung folgt nun mit Korollar 4.18. 138 4.4 Charakteristische Funktionen Das folgende Lemma liefert eine Restgliedabschätzung der Taylorentwicklung von x 7→ e ix . Lemma 4.34. Für x ∈ R, n ∈ N0 gilt n |x |n+1 2|x |n X (ix )m e ix − ≤ min , . (4.22) m! (n + 1)! n! m=0 Bemerkung 4.35. Der erste Term auf der rechten Seite ist eine gute Abschätzung für kleine |x | und der zweite für große |x |. Beweis. Partielle Integration liefert Z x (x − s)n+1 x Z x (x − s)n+1 n is (x − s) e ds = − e is − ie is ds − n+1 n+1 0 0 0 Z x n+1 x i = + (x − s)n+1e is ds. n+1 n+1 0 (4.23) (4.24) Mit n = 0 folgt 1 ix (e − 1) = x + i i und Auflösen nach e ix e ix liefert Z 0 (x − s)e is ds x (x − s)e is ds Z (xi) 0 i 1+1 x = + + (x − s) 1e is ds. 0! 1! 1! 0 = 1 + ix + i 2 x Z 0 1 (ix ) Induktiv erhalten wir für alle n ≥ 0 Z n X (ix )k i n+1 x ix + (x − s)ne is ds. e = k! n! 0 k=0 (4.25) Nun ersetzen wir n durch n − 1 in (4.23), lösen nach dem Integral auf der rechtenRSeite auf und setzen das Ergebnis in (4.25) ein. Es folgt (beachten Sie x x n /n = 0 (x − s)n−1 ds) Z x n X in (ix )k ix e = + (x − s)n−1 (e is − 1) ds. (4.26) k! (n − 1)! 0 k=0 Abschätzung der beiden Integrale (mit Fallunterscheidung x ≥ 0 und x < 0) in (4.25) und (4.26) liefert die Behauptung (4.22). 139 4.4 Charakteristische Funktionen Ist X eine Zufallsvariable mit endlichem n-ten Moment, dann folgt mit dem obigen Lemma n |tX |n+1 2|tX |n X (it )k k φX (t ) − E[X ] ≤ E min , . k! (n + 1)! n! k=0 (4.27) Für jedes t mit |t |n E[|X |n ] lim = 0, n→∞ n! (4.28) gilt also φX (t ) = ∞ X (it )k E[X k ]. k! k=0 (4.29) Gilt insbesondere ∞ X |t |k E[|X |k ] = E[e |tX | ] < ∞, k! k=0 dann folgt (4.29). Einerseits kann man aus der Potenzreihenentwicklung von φX die Momente von X ablesen. Andererseits kann man auch φX bestimmen, wenn man alle Momente von X kennt. Letzteres nutzten wir zur Berechnung der charakteristischen Funktion der Normalverteilung. Beispiel 4.36. Für X ∼ N(0, 1) gilt Z ∞ 2 1 |tX | e −x /2e |tx | dx < ∞. E[e ] = √ 2π −∞ Mit (4.29) und mit (4.34) in Übung 4.1 erhalten wir ∞ ∞ X X 2 (it ) 2k 1 t 2 k φX (t ) = 1 · 3 · . . . (2k − 1) = − = e −t /2 . (2k )! k! 2 k=0 k=0 Für σ > 0 und m ∈ R gilt Z = σX + m ∼ N(m, σ 2 ). Mit (4.16) können wir die charakteristische Funktion von Z bestimmen: φZ (t ) = e itmφX (σt ) = e itm−t 140 2 σ 2 /2 . 4.5 Zentraler Grenzwertsatz 4.5 Zentraler Grenzwertsatz In diesem Abschnitt beweisen wir den zentralen Grenzwertsatz für Summen unabhängiger identisch verteilter Summanden. Satz 4.37. Sei X eine Zufallsvariable mit E[X ] = 0 und E[X 2 ] = σ 2 < ∞. Dann gilt für t → 0 1 φX (t ) = 1 − t 2σ 2 + o(t 2 ). 2 (4.30) Beweis. Mit (4.27) im Fall n = 2 gilt 2 X (it ) 2 (it )k k φX (t ) − E[X ] = φX (t ) − 1 − itE[X ] − E[X 2 ] k! 2 k=0 1 = φX (t ) − 1 + t 2σ 2 2 t2 ≤ E[min{|t ||X | 3 , 6X 2 }]. 3! (4.31) Wegen min{|t ||X | 3 , 6X 2 } ≤ 6X 2 und E[6X 2 ] = 6σ 2 < ∞ folgt mit Satz von majorisierter Konvergenz lim E[min{|t ||X | 3 , 6X 2 }] = E[lim min{|t ||X | 3 , 6X 2 }] = 0. t→0 t→0 Mit (4.31) und (4.32) folgt (4.30). (4.32) Satz 4.38 (Zentraler Grenzwertsatz). Es seien X 1 , X 2 , . . . unabhängige und identisch verteilte Zufallsvariablen mit E[Xi ] = m und Var[Xi ] = σ 2 < ∞. Dann gilt n 1 X (Xi − m) ⇒ Z , √ n i=1 (4.33) wobei Z eine N(0, σ 2 )-verteilte Zufallsvariable ist. Beweis. Ohne Einschränkung können wir m = 0 annehmen. Mit Satz 4.37 gilt 1 φX 1 (t ) = 1 − t 2σ 2 + o(t 2 ). 2 141 4.5 Zentraler Grenzwertsatz Mit (4.16) folgt √ 1 t2 2 φX 1 /√n (t ) = φX 1 (t/ n) = 1 − σ + o(t 2 /n). 2n Da die Zufallsvariablen unabhängig und identisch verteilt sind, erhalten wir mit (4.19) φ (X 1 +...+X n )/√n (t ) = n Y k=1 n φX k /√n (t ) = φX 1 /√n (t ) n n→∞ 1 2 2 1 t2 2 σ + o(t 2 /n) −−−−→ e − 2 t σ . = 1− 2n Die rechte Seite ist nach Beispiel 4.36 die charakteristische Funktion der N(0, σ 2 ) Verteilung. Mit dem Stetigkeitssatz von Lévy (Satz 4.33) folgt die Behauptung. Beispiel 4.39 (Zentraler Grenzwertsatz von De Moivre-Laplace). Seien X 1 , X 2 , . . . unabhängige Bernoulli verteilte Zufallsvariablen mit Parameter p, also P(Xi = 1) = p und P(Xi = 0) = 1 − p. Dann ist m = p und σ 2 = p(1 −p) in Satz 4.38. Außerdem ist Sn = X 1 + . . . + Xn Binomial verteilt mit Parametern n und es gilt Sn − np ⇒ Z, p np(1 − p) wobei Z ∼ N(0, 1). Bemerkung 4.40. Wir haben den zentralen Grenzwertsatz für unabhängige und identisch verteilte Zufallsvariablen bewiesen. Es gibt einige Verallgemeinerungen davon, sowohl für unabhängige nicht identisch verteilte Zufallsvariablen (hinreichend sind die Lindeberg-Bedingung und die Lyaponov-Bedingung) als auch abhängige Zufallsvariablen. Für einen umfangreichen Überblick über verschiedene Versionen des zentralen Grenzwertsatzes verweisen wir auf Kapitel 9 in Chow and Teicher (1997). 142 4.6 Übungen 4.6 Übungen Übung 4.1. Die momentenerzeugende Funktion ψ einer Zufallsvariablen X ist definiert durch ψ (t ) = E[e tX ]. Sofern Sie auf einem offenen Intervall um 0 endlich ist, gilt E[X n ] = ψ (n) (0), für alle n ∈ N0 . Dabei bezeichnet ψ (n) die n-te Ableitung von ψ . Berechnen Sie für Y ∼ N(µ, σ 2 ) alle n-ten zentralen Momente E[(Y − E[Y ])n ] von Y . Berechnen Sie dazu die momentenerzeugende Funktion von Y − E[Y ] und schauen Sie sich die Koeffizienten der Taylorreihe von ψ um 0 an. Folgern Sie: Für Y ∼ N(0, 1) gilt 0 E[Y n ] = (n − 1) · (n − 3) · · · 3 · 1 falls n ungerade, falls n gerade. (4.34) Übung 4.2. Seien X 1 , . . . , Xn unabhängige, exponentialverteilte Zufallsvarialn n blen mit Parameter λ > 0 und Zn B max Xi . Zeigen Sie, dass die Folge Zn − 1≤i≤n λ in Verteilung gegen eine doppelexponentialverteilte Zufallsvariable Z konvergiert. Dabei ist die Verteilungsfunktion einer doppelexponentialverteilten Zufallsvaria−λx blen gegeben durch F (x ) = e −e , x ∈ R. Übung 4.3. Es sei X 1 , X 2 , . . . eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit E[X 12 ] < ∞. Zeigen Sie, dass max{|Xi | : i ∈ {1, . . . , n}} ⇒ 0. √ n Übung 4.4. Es sei X eine Zufallsvariable mit Dichte f . Zeigen Sie, dass f genau dann eine gerade Funktion ist, wenn die charakteristische Funktion von X reellwertig ist. Übung 4.5. Berechnen Sie die charakteristische Funktion einer binomial verteilten Zufallsvariablen. Beweisen Sie mit Hilfe dieser Funktion: Sind X 1 und X 2 unabhängige Bin(n 1 , p) bzw. Bin(n 2 , p)-verteilte Zufallsvariablen, dann ist X 1 + X 2 Bin(n 1 + n 2 , p)-verteilt. 143 4.6 Übungen Übung 4.6. Es seien X und Y unabhängige identisch verteilte Zufallsvariablen mit Erwartungswert 0 und Varianz 1. Zeigen Sie mit Hilfe der charakteristischen √ Funktionen: Stimmt die Verteilung der Zufallsvariablen (X + Y )/ 2 mit der von X und Y überein, dann sind X und Y normal verteilt. Hinweis: Aus den Voraussetzungen erhält man für die charakteristische Funktion eine Gleichung der Form φ(t ) = [φ(?)]2 . Betrachten Sie Iterationen dieser Gleichung zusammen mit der Taylorentwicklung von φ. Übung 4.7. Beweisen Sie mit Hilfe der charakteristischen Funktionen das schwache Gesetz der großen Zahlen in der folgenden Form: Ist (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit endlichem Erwartunswert P m, dann konvergiert n −1 ni=1 Xi in Wahrscheinlichkeit gegen m. Übung 4.8. Für λ > 0 sei Yλ eine Poisson verteilte Zufallsvariable mit Parameter λ. Zeigen Sie Yλ − λ ⇒ X , für λ → ∞, √ λ wobei X eine standardnormalverteilte Zufallsvariable ist. Übung 4.9. Es seien s ≥ 0 und λ > 0. Beweisen Sie: 0 : s < λ, X (λn)k −λn lim e = 1/2 : s = λ, n→∞ k! 1 0≤k ≤ns : s < λ. Anleitung: Ist (Xn )n∈N eine Folge unabhängiger Poisson verteilter Zufallsvariablen mit Parameter λ, so gilt (begründen!) P n 1 X X (λn)k Xi ≤ s = e −nλ . n i=1 k! 0≤k ≤ns Benutzen Sie für den Beweis der Behauptung den zentralen Grenzwertsatz. 144 5 Bedingte Wahrscheinlichkeiten und Erwartungen In der Einführungsvorlesung zu Stochastik wurden Wahrscheinlichkeiten von Ereignissen bedingt auf ein anderes Ereignis behandelt. In diesem Kapitel verallgemeinern wir diesen Begriff weitgehend. Insbesondere werden wir erklären, was bedingte Wahrscheinlichkeiten von Ereignissen und allgemeiner bedingte Erwartungen gegeben eine σ -Algebra sind. 5.1 Motivation und erste Beispiele Wenn (Ω, A, P) ein Wahrscheinlichkeitsraum ist und A, B ∈ A mit P(B) > 0, so ist die bedingte Wahrscheinlichkeit von A gegeben B ist definiert durch P(A|B) = P(A ∩ B) . P(B) (5.1) Bekanntermaßen ist P(·|B) ein Wahrscheinlichkeitsmaß auf A. Definition 5.1. Sei B ∈ A mit P(B) > 0. Ist X eine A messbare integrierbare Zufallsvariable, so ist der bedingte Erwartungswert von X gegeben B definiert durch Z 1 E[X |B] = E[1B X ] = X (ω)P(dω |B). (5.2) P(B) Beispiel 5.2. Es sei Ω = (0, 1), A = B((0, 1)) und P das Lebesgue-Maß auf B((0, 1)). Dann ist U (ω) = ω eine auf (0, 1) uniform verteilte Zufallsvariable. Für B = (0, 1/2] ist P(B) = 1/2 und es gilt Z 1/2 1 1 1 1 1 1 E[U ] = und E[U |B] = −0 = . U dP = 2 P(B) 0 1/2 2 4 4 Beispiel 5.3. Sei Ω = ∪n Bn eine disjunkte Vereinigung von Mengen aus A mit P(Bn ) > 0 für alle n. Die σ -Algebra G = σ ({B 1 , B 2 , . . .}) besteht aus Mengen der Form G = ∪n∈I Bn mit I ⊂ N. Die Mengen Bn nennt man Atome von G. 145 5.1 Motivation und erste Beispiele (a) Für A ∈ A ist die bedingte Wahrscheinlichkeit von A gegeben G definiert durch P(A|G)(ω) = P(A|Bn ), falls ω ∈ Bn . (5.3) Dann ist P(A|G)(ω) auf Bn konstant und damit ist es eine G messbare Zufallsvariable. Für G = ∪n∈I Bn gilt X X E[1G 1A ] = P(A ∩ G) = P(Bn ∩ A) = P(Bn )P(A|Bn ) n∈I n∈I = E[1G P(A|G)]. (b) Für eine A messbare integrierbare Zufallsvariable X ist der bedingte Erwartungswert von X gegeben G definiert durch E[X |G](ω) = E[X |Bn ] falls ω ∈ Bn . Für G = ∪n∈I Bn gilt X X f g E[1G X ] = E[1Bn X ] = P(Bn )E[X |Bn ] = E 1G E[X |G] . n∈I (5.4) (5.5) n∈I Setzen wir in Beispiel 5.2 B 1 = (0, 1/2] und B 2 = (1/2, 1) und X = U , so gilt G = {∅, B 1 , B 2 , Ω} und dann ist E[U |G] eine G messbare Zufallsvariable mit 1 1 3 P E[U |G] = = = P E[U |G] = . 4 2 4 Ferner gilt f g 1 1 1 3 1 E E[U |G] = · + · = = E[U ]. 2 4 2 4 2 (5.6) Man kann in (a) und (b) oben auch Bn mit P(Bn ) = 0 zulassen. Auf solchen Mengen definiert man die bedingten Erwartungen (und Verteilungen) beliebig aber konstant. 146 5.2 Bedingte Erwartungen 5.2 Bedingte Erwartungen Hier verallgemeinern wir die anschaulichen Definitionen aus dem vorherigen Abschnitt. Weil Wahrscheinlichkeiten von Ereignissen als Erwartungswerte entsprechender Indikatorfunktionen aufgefasst werden können, reicht es die Theorie für bedingte Erwartungen zu entwickeln. Definition 5.4. Es sei X eine integrierbare Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P) und sei G ⊂ A eine σ -Algebra. Die bedingte Erwartung von X gegeben G ist eine Zufallsvariable E[X |G] mit (i) E[X |G] ist messbar bezüglich G; (ii) Für alle G ∈ G gilt E[1G X ] = Z G X dP = Z G f g E[X |G] dP = E 1G E[X |G] . (5.7) Bemerkung 5.5 (Interpretation und bedingte Wahrscheinlichkeit). Der Wert der Zufallsvariablen E[X |G](ω) kann als der Erwartungswert (bzw. Schätzung) von X interpretiert werden wenn für jedes G ∈ G bekannt ist ob ω ∈ G ist oder nicht. Man hat über ω also nur diese partielle Information. Am anschaulichsten ist es in der Situation von Beispiel 5.3(b). Die einzige Information über ω die in (5.4) benötigt wird ist zu welchem Bn es gehört. Die bedingte Wahrscheinlichkeit gegeben eine (allgemeine) σ -Algebra bekommen wir (wie gewohnt) aus der bedingten Erwartung: Für B ∈ A ist P(B|G) B E[1B |G]. (5.8) Die Bedingungen (i) und (ii) in der Definition der bedingten Erwartung werden dann zu (i) P(B|G) ist messbar bezüglich G; (ii) Für alle G ∈ G gilt Z G P(B|G)dP = P(B ∩ G). 147 (5.9) 5.2 Bedingte Erwartungen Denken wir an ein Spiel, bei dem ein Spieler aufgrund von Information die in G enthalten ist, die Möglichkeit hat auf ein Ereignis B zu wetten (im Fall B ∈ G wäre das natürlich eine sichere Wette). Der Einsatz beträgt P(B|G) und er bekommt 1€ wenn A eintritt und 0€ sonst. Der Gewinn (und Verlust) ist also (1 − P(B|G) 1B + (−P(B|G)) 1Bc = 1B − P(B|G). (5.10) Angenommen der Spieler spielt nur wenn ein Ereignis G ∈ G eintritt und sonst nicht. Der erwartete Gewinn mit dieser Strategie ist dann der Gewinn in (5.10) integriert über G, also Z (1B − P(B|G)) dP. G Nach der Bedingung (ii) ist dieser erwartete Gewinn 0€, d.h. das Spiel ist fair. Bedingung (i) garantiert, dass man den Einsatz berechnen kann. Ein konkretes Beispiel könnte z.B. gleichzeitiges Würfeln zweier Würfel. Nach Aufdecken eines der Würfel soll der Spieler auf eine bestimmte Augensumme wetten. Im folgenden Satz beweisen wir mit Hilfe des Satzes von Radon-Nikodým die Existenz und die fast sichere Eindeutigkeit der bedingten Erwartungen. Satz 5.6. Unter den Voraussetzungen und Notation von Definition 5.4 existiert die bedingte Erwartung von X gegeben G uns ist fast sicher eindeutig bestimmt. Da bedingte Erwartungen nur fast sicher eindeutig bestimmt sind, bezeichnet man Zufallsvariablen die (i) und (ii) in Definition 5.4 erfüllen als Versionen der bedingten Erwartung. Beweis von Satz 5.6. Sei G ∈ G. Nach Satz 2.5 wird durch ν (G) B E[1G X ] ein endliches signiertes Maß ν auf G definiert. Dieses Maß ist absolutstetig bezüglich P, denn für N ∈ G mit P(N ) = 0 gilt Z ν (N ) = E[1N X ] = X dP = 0. N Nach dem Satz von Radon-Nikodým (Satz 2.22)Rexistiert eine P-fast sicher eindeutig bestimmte P-Dichte д von ν mit ν (G) = G д dP für alle G ∈ G. Diese Dichte ist eine Version der bedingten Erwartung von X gegeben G. 148 5.2 Bedingte Erwartungen Beispiel 5.7. Sei X eine Zufallsvariable auf (Ω, A, P). (a) E[X |{∅, Ω}] = E[X ] f.s., denn Konstanten sind messbar bezüglich {∅, Ω} und es gilt f g f g E[1∅X ] = 0 = E 1∅ E[X ] und E[1Ω X ] = E[X ] = E 1Ω E[X ] . (b) E[X |A] = X f.s., denn beide Bedingungen in Definition 5.4 sind trivialerweise erfüllt. (c) E[X |σ ({A})] = E[X |A]1A + E[X |Ac ]1Ac . Definition 5.8. Für Y : (Ω, A) → (Ω0, A 0 ) ist die bedingte Erwartung von X gegeben Y definiert durch E[X |Y ] B E[X |σ (Y )], (5.11) wobei σ (Y ) die von Y auf Ω erzeugte σ -Algebra ist. Satz 5.9. Seien X , Y : Ω → R Zufallsvariablen auf (Ω, A, P). Es gibt eine Funktion f : R → R mit E[X |Y ] = f (Y ) fast sicher. Diese Funktion ist charakterisiert durch Z E[1Y ∈B X ] = f (y) PY (dy), (5.12) B wobei PY = PY −1 das Bildmaß von Y ist. Beweis. Die erste Aussage ist eine direkte Konsequenz von Satz 3.1(ii). Die zweite Aussage folgt mit der Subtitutionsformel (Satz 3.6): E[1{Y ∈B}X ] = E[1Y −1 (B) X ] = E[1Y −1 (B) E[X |Y ]] = E[1B (Y ) f (Y )] Z = f (y)PY (dy). B 149 5.3 Eigenschaften bedingter Erwartungen 5.3 Eigenschaften bedingter Erwartungen Das folgende Resultat sollte nicht überraschend sein. Es ist nur eine Umformulierung von Lemma 2.24(iii). Satz 5.10. Sei E ein schnittstabiler Erzeuger von G und sei Ω eine endliche oder abzählbar unendliche Vereinigung von Mengen aus E. Eine integrierbare Funktion f ist genau dann eine Version von E[X |G], wenn es messbar bezüglich G ist und wenn Z Z f dP = X dP G G für alle G ∈ E gilt. Satz 5.11. Seien X , Y , X 1 , X 2 , . . . integrierbare Zufallsvariablen auf (Ω, A, P) und G ⊂ A eine σ -Algebra. Dann gelten folgende Aussagen. (i) Gilt X = a fast sicher, dann gilt E[X |G] = a. (ii) Für a, b ∈ R gilt E[aX + bY |G] = aE[X |G] + bE[Y |G]. (iii) Gilt X ≤ Y fast sicher, dann gilt E[X |G] ≤ E[Y |G]. (iv) |E[X |G]| ≤ E[|X | |G]. (v) Gilt limn Xn = X und |Xn | ≤ Y fast sicher und ist Y integrierbar, so gilt limn E[Xn |G] = E[X |G] fast sicher. Bemerkung 5.12. Die Aussagen aus dem obigen Satz sind vermutlich nicht überraschend, weil wir sie für Erwartungswerte ohne Bedingung bereits so kennen. Aussage (v) ist die Version des Satzes für majorisierte Konvergenz von Lebesgue. Für eine Version des Satzes von dominierter Konvergenz verweisen wir auf Übung 5.1. Die Version der Jensen Ungleichung zeigen wir in Satz 5.15. Beweis von Satz 5.11. (i) Wenn X = a fast sicher gilt, dann erfüllt die Funktion f ≡ a die Bedingungen (i) und (ii) in Definition 5.4 und ist somit eine Version der bedingten Erwartung E[X |G]. 150 5.3 Eigenschaften bedingter Erwartungen (ii) Die Zufallsvariable aE[X |G] + bE[Y |G] ist G-messbar und integrierbar und für G ∈ G gilt Z Z Z (aE[X |G] + bE[Y |G]) dP = a E[X |G] dP + b E[Y |G] dP G G G Z Z =a X dP + b Y dP G G Z = (aX + bY ) dP. G (iii) Wenn X ≤ Y fast sicher gilt, dann gilt für G ∈ G Z Z (E[Y |G] − E[X |G]) dP = (Y − X ) dP ≥ 0. G G Da E[Y |G] − E[X |G] messbar bezüglich G ist, ist es fast sicher nicht negativ (vgl. das Argument im Beweis von Lemma 2.24(ii)). Das zeigt (iv). (iv) Das ist eine Folgerung von (ii) und (iii), denn mit diesen beiden Aussagen gilt −E[|X ||G] ≤ E[X |G] ≤ E[|X ||G]. (iv) Setze Zn = supk ≥n |Xk − X |. Nach Voraussetzung gilt Zn ↓ 0 fast sicher. Mit (ii), (iii) und (iv) folgt |E[Xn |G] − E[X |G]| ≤ E[Zn |G]. Es genügt also zu beweisen, dass E[Zn |G] ↓ 0 fast sicher gilt. Nach (iii) ist E[Zn |G] nichtfallend und hat daher einen Grenzwert Z . Zu zeigen ist Z = 0 fast sicher. Da Z nichtnegativ ist, ist es gleichbedeutend mit E[Z ] = 0. Es gilt 0 ≤ Zn ≤ 2Y . Mit (5.7) und mit dem Satz von majorisierter Konvergenz folgt Z Z n→∞ E[Z ] = E[Z |G] dP ≤ E[Zn |G] dP = E[Zn ] −−−−→ 0. Folgender Satz ist eine wichtige Verallgemeinerung von Beispiel 5.7(b). Satz 5.13. Ist X messbar bezüglich G und sind Y und XY integrierbar, dann gilt E[XY |G] = X E[Y |G] 151 fast sicher. (5.13) 5.3 Eigenschaften bedingter Erwartungen Beweis. 1) Sei zunächst X = 1B für ein B ∈ G. Natürlich ist dann X E[Y |G] messbar bezüglich G und außerdem gilt für G ∈ G E[1G XY ] = E[1G∩BY ] = E[1G∩B E[Y |G]] = E[1G X E[Y |G]]. P 2) Ist X = ni=1 bi 1Bi für bi ∈ R und Bi ∈ G, so folgt die Aussage mit 1) und Satz 5.11(ii). 3) Seien X eine beliebige G messbare Zufallsvariable und seien X 1 , X 2 , . . . einfache G Funktionen (wie in 2)) mit |Xn | ≤ X und Xn → X fast sicher. Einerseits folgt mit 2) E[XnY |G] = Xn E[Y |G] → X E[Y |G] fast sicher. Andererseits folgt mit Satz 5.11(v) E[XnY |G] → E[XY |G] fast sicher. Also folgt E[XY |G] = X E[Y |G] fast sicher. Bedingte Erwartung von X gegeben eine σ -Algebra G eine Art „Mittlung“ der Zufallsvariablen auf den Mengen von G (vgl. Beispiel 5.2(b)). Wenn wir also X erst auf einer σ -Algebra G2 mitteln und dann das Ergebnis auf einer gröberen (kleineren) σ -Algebra G1 mitteln, dann sollte das Ergebnis dasselbe sein wie das Mitteln über G1 allein. Das folgende Resultat könnte man mit der Aussage zusammenfassen: „Die kleinere σ -Algebra gewinnt immer“. Ein Spezialfall dieses Resultates mit G2 = A ist (5.7) (vgl. auch Beispiel 5.7(b)). Satz 5.14 (Turmeigenschaft). Wenn X integrierbar ist und für die σ -Algebren G1 und G2 gilt G1 ⊂ G2 , dann gilt f g E E[X |G2 ]G1 = E[X |G1 ] (5.14) und f g E E[X |G1 ]G2 = E[X |G1 ]. (5.15) Beweis. Die linke Seite von (5.14) ist messbar bezüglich G1 also ist noch Z f Z g E E[X |G2 ]G1 dP = X dP (5.16) G G 152 5.3 Eigenschaften bedingter Erwartungen für alle G ∈ G1 zu zeigen. Aber wenn G ∈ G1 ist, ist G ∈ G2 und die linke Seite in (5.16) ist gleich Z Z E[X |G2 ] dP = XdP. G G Das zeigt (5.14). Wegen G1 ⊂ G2 ist E[X |G1 ] messbar bezüglich G2 , sodass bedingte Erwartung von E[X |G1 ] gegeben G2 unverändert bleibt. Satz 5.15 (Jensen-Ungleichung für bedingte Erwartungen). Ist h eine konvexe Funktion und sind X und h(X ) integrierbar, dann gilt h E[X |G] ≤ E[h(X )|G] fast sicher. (5.17) Beweis. Wie in Beweis von Satz 3.11 gibt es für jedes x 0 ein a(x 0 ) mit h(x ) ≥ h(x 0 ) + (x − x 0 )a(x 0 ). (5.18) wobei a(x 0 ) als die rechtsseitige Ableitung von h in x 0 gewählt werden kann, so dass nicht fallend in x 0 ist. Es folgt h(X ) ≥ h E[X |G] + a E[X |G] (X − E[X |G]). Nehmen wir zunächst an, dass E[X |G] beschränkt ist. Dann sind alle Terme in der obigen Ungleichung integrierbar. Nehmen wir bedingte Erwartungen bezüglich G auf beiden Seiten und wenden (5.14) auf den zweiten Summand auf der rechten Seite, so folgt (5.17). Um (5.17) allgemein zu zeigen, setzen wir Gn = {|E[X |G]| ≤ n} dann ist Gn ∈ G und E[1Gn X |G] = 1Gn E[X |G] ist beschränkt. Also gilt (5.17) für 1Gn X : h E[1Gn X |G] ≤ E[h(1Gn X )|G] fast sicher. Es gilt E[h(1Gn X )|G] = E[1Gn h(X ) + 1Gnc h(0)|G] = 1Gn E[h(X )|G] + 1Gnc h(0) → E[h(X )|G]. Da h stetig ist, konvergiert h(1Gn E[X |G]) fast sicher gegen h(E[X |G]). Damit ist (5.17) bewiesen. 153 5.4 Übungen 5.4 Übungen Übung 5.1. Es seien X 1 , X 2 , . . . nichtnegative Zufallsvariablen auf (Ω, A, P) und sei G ⊂ A eine σ -Algebra. Zeigen Sie: (a) Gilt Xn ↑ X fast sicher, so folgt E[Xn |G] ↑ E[X |G] fast sicher. fP g P ∞ ∞ (b) E n=1 Xn |G = n=1 E[Xn |G]. (c) Wir setzen P(A|G) B E[1A |G] für A ∈ A. Sind B 1 , B 2 , . . . disjunkte Mengen ∞ B |G) = P∞ P(B |G). aus A, dann gilt P(∪n=1 n n n=1 Übung 5.2. Seien X und Y unabhängige Zufallsvariablen. Berechnen Sie E[X |Y ]. Übung 5.3. Seien X und Y unabhängige und identisch verteilte integrierbare Zufallsvariablen. Zeigen Sie E[X |X + Y ] = E[Y |X + Y ] = X +Y 2 fast sicher. Übung 5.4. Die bedingte Varianz von X gegeben Y ist definiert durch g f Var[X |Y ] B E (X − E[X |Y ]) 2 Y . Zeigen Sie f g f g Var[X ] = E Var[X |Y ] + Var E[X |Y ] . Übung 5.5. Seien X und Y beschränkte Zufallsvariablen. Zeigen Sie f g f g E Y E[X |G] = E X E[Y |G] . 154 Literaturverzeichnis Ash, R. B.: 2000, Probability and measure theory, second edn, Harcourt/Academic Press, Burlington, MA. With contributions by Catherine Doléans-Dade. Billingsley, P.: 1995, Probability and measure, Wiley Series in Probability and Mathematical Statistics, third edn, John Wiley & Sons, Inc., New York. A Wiley-Interscience Publication. Chow, Y. S. and Teicher, H.: 1997, Probability theory: Independence, interchangeability, martingales, Springer Texts in Statistics, third edn, Springer-Verlag, New York. Cohn, D. L.: 2013, Measure theory, Birkhäuser Advanced Texts: Basler Lehrbücher., 2nd edn, Birkhäuser/Springer, New York. Elstrodt, J.: 2011, Maß- und Integrationstheorie., 7th revised and updated edn, Berlin: Springer. Klenke, A.: 2013, Wahrscheinlichkeitstheorie., 3rd edn, Springer. Kolmogoroff, A.: 1933, Grundbegriffe der Wahrscheinlichkeitsrechnung., Springer-Verlag, Berlin. 155