Maßtheorie für Statistiker Grundlagen der Stochastik Uwe Küchler Institut für Mathematik Humboldt-Universität zu Berlin Juli 2013 e-mail: [email protected] www.mathematik.hu-berlin.de/∼kuechler 2 Inhaltsverzeichnis 1 Grundbegriffe 1.1 Einige Begriffe der Mengenlehre 1.2 Abbildungen . . . . . . . . . . . 1.3 Reelle Zahlen . . . . . . . . . . 1.4 Produktmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 8 11 19 2 Semialgebren, Algebren, σ-Algebren 2.1 Semialgebren . . . . . . . . . . . . . 2.2 Algebren . . . . . . . . . . . . . . . . 2.3 σ-Algebren . . . . . . . . . . . . . . . 2.4 Messbare Räume und Borelmengen . 2.5 σ-Algebren und Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 24 26 29 33 36 3 Mengenfunktionen und 3.1 Definitionen . . . . . 3.2 Diskrete Maße . . . . 3.3 Maße auf (R, B) . . . . . . . . . . Maße 41 . . . . . . . . . . . . . . . . . . . . . . . . 42 . . . . . . . . . . . . . . . . . . . . . . . . 48 . . . . . . . . . . . . . . . . . . . . . . . . 49 4 Messbare Abbildungen 4.1 Definitionen . . . . . . . . . . . . . . . . . . . 4.2 Eigenschaften . . . . . . . . . . . . . . . . . . 4.3 Produkt-σ-Algebren . . . . . . . . . . . . . . . 4.4 Durch messbare Abbildungen induzierte Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 66 71 73 5 Integration messbarer Funktionen 77 5.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.2 Einige Eigenschaften des Integrals . . . . . . . . . . . . . . . . . 80 5.3 Substitutionsregel . . . . . . . . . . . . . . . . . . . . . . . . . . 83 3 4 5.4 5.5 5.6 5.7 Integrale bezüglich diskreter Maße . . . . . . . . . . . Integrale bezüglich absolutstetiger Maße auf (Rd , Bd ) Ungleichungen . . . . . . . . . . . . . . . . . . . . . . Lebesgue- und Riemannintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 86 93 99 6 Konvergenzarten für Folgen messbarer Funktionen 6.1 Konvergenz µ-fast-überall . . . . . . . . . . . . . . . 6.2 Vertauschung von Grenzwertbildung und Integration 6.3 Konvergenz dem Maß nach . . . . . . . . . . . . . . . 6.4 Konvergenz in Verteilung . . . . . . . . . . . . . . . . 6.5 Konvergenz im Lp -Sinne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 104 106 110 113 115 7 Produktmaße 123 7.1 Messbare Abbildungen auf Produkträumen . . . . . . . . . . . . 123 7.2 Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 7.3 Integrale bezüglich Produktmaßen . . . . . . . . . . . . . . . . . 127 8 Messbare Funktionen mit Werten in Rn 133 8.1 Messbarkeitskriterien und induzierte Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 8.2 Finite Maße auf (Rn , Bn ) . . . . . . . . . . . . . . . . . . . . . . 134 Kapitel 1 Grundbegriffe 1.1 Einige Begriffe der Mengenlehre Unter einer Menge versteht man laut Georg Cantor (deutscher Mathematiker, 1845-1918)”. . . eine Zusammenfassung bestimmter, wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens zu einem Ganzen”. Die Objekte der Menge heißen Elemente der Menge. Dabei spielen irgendwelche Zusammenhänge zwischen den Elementen keine Rolle. Insbesondere kommt es nicht auf die Reihenfolge an und auch nicht darauf, ob ein Element mehrfach genannt wird. Mengen werden wir wie üblich meist mit großen lateinischen Buchstaben A, B, ... bezeichnen, ihre Elemente meist mit kleinen Buchstaben x, y, . . .. Zu ihrer Beschreibung verwendet man häufig geschweifte Klammern und zählt (falls das möglich ist) ihre Elemente auf oder gibt eine sie charakterisierende Eigenschaft an: So ist die Menge W aller möglichen Ergebnisse eines Wurfes mit einem normalen Spielwürfel gleich {1, 2, . . . , 6} und die Menge aller geraden, natürlichen Zahlen gleich {2k| k = 0, 1, 2, . . .}. Hat man es mit mehreren Mengen zu tun, so kann man sie mit einem Index versehen, der aus irgendeiner Menge I, der Indexmenge , stammt: (Ai , i ∈ I). Die Indexmenge I ist beliebig, im Fall I ⊆ {0, 1, 2, . . .} spricht man von einer Folge von Mengen. Wir stellen in diesem Abschnitt grundlegende Begriffe, Relationen und Operationen der Mengenlehre zusammen, mit denen wir im Weiteren häufig arbeiten 3 4 Uwe Küchler werden und beginnen mit einigen Bezeichnungen. x∈A bedeutet: x ist Element von A, x 6∈ A bedeutet: x ist nicht Element von A, A ⊆ B bedeutet: jedes Element von A ist auch Element von B (A ist Teilmenge von B), A⊇B bedeutet: B ⊆ A, A = B bedeutet: A ⊆ B und B ⊆ A, (A und B sind gleich. Das heißt, sie enthalten die gleichen Elemente), ∅ bedeutet: leere Menge, (die leere Menge enthält kein Element), Enthält eine Menge mindestens ein Element, so heißt sie nichtleer. A ∩ B := {x|x ist Element von A und von B} (Durchschnitt von A und B), A und B heißein disjunkt, falls A ∩ B = ∅, A ∪ B := {x|x ist Element von A oder von B} (Vereinigung von A und B). Für jegliche Menge A, B und C gelten folgende Gleichungen: A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C Assoziativgesetze Grundbegriffe 5 A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A∪B =B∪A A∩B =B∩A Distributivgesetze Kommutativgesetze Wir fahren mit der Zusammenstellung von Bezeichnungen fort: A\B := {x|x ist Element von A, aber nicht Element von B}, (Differenz von A zu B), A4B := (A\B)∪(B\A) = {x| x ist entweder Element von A oder Element von B} (Symmetrische Differenz von A und B), A B A A∪B A B A∩B B A\B A B A4B Abbildung 1.1: Vereinigung von A und B, Durchschnitt von A und B, Differenz von A zu B, Symmetrische Differenz von A und B \ Ai := {x|x ∈ Ai für alle i ∈ I}, i∈I (Durchschnitt der Mengen Ai , i ∈ I) 6 Uwe Küchler [ Ai := {x|x ∈ Ai für mindestens ein i ∈ I}, i∈I (Vereinigung der Mengen Ai , i ∈ I) Ist An , n ≥ 1, eine Folge von Mengen, so definieren wir die Mengen Limes superior und Limes inferior der Folge (An ) wie folgt: lim sup An := n→∞ ∞ [ ∞ \ Ak , lim inf An := n→∞ n=1 k=n ∞ \ ∞ [ Ak . n=1 k=n Ist E eine Menge, so heißt die Menge P(E) := {A|A ⊆ E} aller Teilmengen von E die Potenzmenge von E. Wenn A ⊆ E, so heißt Ac := E\A das Komplement von A bez. E. Für alle Teilmengen A von E gelten die Gleichungen (Ac )c = A, A ∩ Ac = ∅ und A ∪ Ac = E. (1.1) Weiterhin gelten (A ∪ B)c = Ac ∩ B c , A ∩ B c = Ac ∪ B c , A\B = (A ∩ B c ) = (Ac ∪ B)c .(1.2) E A Ac Abbildung 1.2: Komplement Ac der Menge A bez. der Menge E Mengen Ai , i ∈ I, heißen paarweise disjunkt, falls Ai ∩ Aj = ∅ für alle i, j ∈ I mit i 6= j. Jede Menge S von Teilmengen von E nennen wir ein Mengensystem aus E. Die Elemente der Menge S sind also Teilmengen der Menge E, d.h. S ⊆ P(E). Ein Mengensystem Z = (Zi , i ∈ I) aus E heißt eine Zerlegung von E, falls Grundbegriffe a) [ 7 Zi = E (jedes Element von E liegt in mindestens einem der Zi ) und i∈I b) Zi ∩ Zj = ∅ für alle i, j ∈ I mit i 6= j (paarweise Disjunktheit) gelten. [ 0 )[ )[ 1 3 2 3 ) 1 Abbildung 1.3: Zerlegung des Intervalls [0, 1) in Teilintervalle [0, 31 ), [ 13 , 23 ) und [ 23 , 1) Übungsaufgaben 1. Welche Relationen bestehen zwischen den Mengen A = {Stuhl, Hocker, T isch}, B = {Stuhl, T isch, Stuhl, Hocker}, C = {Stuhl, Hocker} und D = {Hocker}? Geben Sie die Mengen B ∩ C und A ∪ D an. 2. Es seien A und B zwei Mengen. Wie kann man paarweise disjunkte Mengen A1 , A2 , A3 so wählen, dass A1 ∪ A2 ∪ A3 = A ∪ B gilt? 3. Es seien A und B Teilmengen einer Menge E. Beweisen Sie die Formeln (1.1) und (1.2). 4. Geben Sie die Elemente der Potenzmenge P{a, b, c} an. 5. Es seien An , n ≥ 1, Teilmengen einer Menge E. Man zeige, dass folgende Beziehungen gelten: a) lim inf An = n→∞ {x ∈ E| es gibt ein n0 = n0 (x), so dass x ∈ An für alle n ≥ n0 } = {x ∈ E | x ∈ An für alle außer endlich vielen n ≥ 1} lim sup An = n→∞ {x ∈ E| für alle n ≥ 1 gibt es ein n1 = n1 (x) ≥ n, so dass x ∈ An1 } = {x ∈ E | x ∈ An für unendlich viele n ≥ 1}, 8 Uwe Küchler b) lim inf An ⊆ lim sup An . n→∞ n→∞ 6. Eine Folge (An ) von Mengen heißt konvergent, falls lim inf An = lim sup An =: lim An n→∞ n→∞ n→∞ gilt. Zeigen Sie: Wenn An ⊆ An+1 für alle n ≥ 1, so ist (An ) konvergent. Berechnen Sie lim An . n→∞ Was gilt im Fall An ⊇ An+1 für alle n ≥ 1? 1.2 Abbildungen Es seien E und F zwei (nichtleere) Mengen. Eine Abbildung X von der Menge E in die Menge F ist eine Vorschrift, die jedem Element y von E ein eindeutig bestimmtes Element X(y) aus F zuordnet. Die Menge E heißt Definitionsbereich der Abbildung X und wird mit Def (X) bezeichnet. Die Abbildung X nennt man injektiv, falls für alle Elemente y, z von E aus X(y) = X(z) folgt, dass y = z gilt. Für jedes y aus E heißt X(y) das Bild von y vermittels X. Die Menge {X(y)|y ∈ E} aller Bilder ist eine Teilmenge von F , man nennt sie den Wertebereich der Abbildung X und schreibt dafür auch W b(X). Es gilt also W b(X) ⊆ F . Liegt sogar Gleichheit vor, W b(X) = F , so nennt man X eine surjektive Abbildung oder eine Abbildung von E auf F . Ist X eine injektive und surjektive Abbildung, so heißt X bijektiv oder auch einfach eine Bijektion von E auf F . (Wir haben hier stets Def (X) = E angenommen. Die Funktion X braucht aber auch nur auf einer Teilmenge Def (X) ⊂ E definiert zu sein. Die eben angegebenen Begriffe werden dann auf analoge Weise definiert.) Statt Abbildung sagt man häufig auch Funktion. Ist X eine Abbildung von E in F , so heißt für jede Teilmenge B von F die Menge Grundbegriffe 9 X −1 (B) := {u ∈ E | X(u) ∈ B} (1.3) das Urbild von B (vermittels X). Wir verwenden mitunter die Kurzschreibweise {X ∈ B} = X −1 (B). Die durch (1.3) definierte Vorschrift X −1 heißt die zu X gehörende Urbildoperation . Sie ordnet jeder Teilmenge B von F eine Teilmenge X −1 (B) von E zu, X −1 ist also eine Abbildung von der Potenzmenge P(F ) in die Potenzmenge P(E). Für diese Abbildung gelten die Gleichungen: X −1 (B ∩ C) = X −1 (B) ∩ X −1 (C) (1.4) X −1 (B ∪ C) = X −1 (B) ∪ X −1 (C) (1.5) X −1 (F \B) = E\X −1 (B) (1.6) X −1 [ Bi = i∈I X −1 \ i∈I [ X −1 (Bi ) (1.7) X −1 (Bi ) (1.8) i∈I Bi = \ i∈I (B, C, Bi ⊆ F, i ∈ I, I irgendeine Indexmenge.) Die Eigenschaften (1.4) - (1.8) fasst man unter der Bezeichnung Operationstreue von X −1 zusammen: Die Urbildoperation X −1 ist mit den Mengenoperationen ∪, ∩, \ vertauschbar. Die Operationstreue der Urbildabbildung wird an vielen Stellen der Maßtheorie eine Rolle spielen. Man beachte: Durch X(C) := {X(y)|y ∈ C}, C ⊆ E, ist auch eine Abbildung 10 Uwe Küchler X von der Potenzmenge P(E) in die Potenzmenge P(F ) definiert. Diese hat im allgemeinen nicht die Eigenschaft der Operationstreue. Ist eine Abbildung X von Def (X) ⊆ E in F injektiv, so existiert für jedes z aus W b(X) eine eindeutige Lösung y der Gleichung X(y) = z aus Def (X), sie wird mit y = X −1 (z) bezeichnet. Dadurch ist die zu X inverse Abbildung X −1 definiert. Es gilt Def (X −1 ) = W b(X) und W b(X −1 ) = Def (X) sowie X(X −1 (z)) = z, z ∈ W b(X) und X −1 (X(y)) = y, y ∈ Def (E). (1.9) Falls X eine injektive Abbildung ist, so stimmen die Urbildoperation X −1 ({z}) für einelementige Teilmengen {z} von W b(X) ⊆ F mit der inversen Abbildung X −1 (z) überein: X −1 ({z}) = {X −1 (z)}. Für jede bijektive Abbildung X von Def (X) ⊆ E auf W b(X) ⊆ F existiert die inverse Abbildung X −1 , die ebenfalls eine bijektive Abbildung ist, und zwar von W b(X) ⊆ F auf Def (X) ⊆ E. Übungsaufgaben 1. a. Die Abbildung X werde auf E = [−1, 1] definiert durch X(y) = y 2 . Mit F werde die reelle Achse R bezeichnet. Ist X eine surjektive Abbildung? Begründen Sie Ihre Antwort! Wie würden Sie E bzw. F abändern, damit X surjektiv wird (damit X bijektiv wird)? b) Man zeige, dass die Abbildungen X und Y , vermittelt durch X(y) = max(y, 0) =: y + , Y (y) = −min(y, 0) =: y − , y ∈ R, surjektive Abbildungen von R auf [0, ∞) sind. Dasselbe gilt für Z mit Z(y) = |y| = y + + y − , y ∈ R1 . Sind diese Abbildungen auch bijektiv? 2. Es seien E und F zwei nichtleere Mengen und X eine Abbildung von E in F . Weiterhin seien Bi , i ∈ I Teilmengen von F . Man zeige, dass die Gleichungen (1.4)-(1.8) richtig sind. Grundbegriffe 1.3 11 Reelle Zahlen Mit N0 := {0, 1, 2, . . . , n, . . .} werde die Menge der natürlichen Zahlen bezeichnet, wir setzen N := N0 \{0} = {1, 2, . . . , n, . . .}, Z bezeichne die Menge aller ganzen Zahlen : Z := N0 ∪ (−N) mit −N := {−n|n ∈ N}. Das Symbol Q steht für die Menge aller rationalen Zahlen, das sind Zahlen mit m, n ∈ Z, n 6= 0. Jede rationale Zahl x hat eine eindeutig der Form x = m n bestimmte periodische Dezimaldarstellung x = [x] + ∞ X bk 10−k (1.10) k=1 wobei [x] := max{y ∈ Z|y ≤ x} die größte ganze Zahl bezeichnet, die kleiner oder gleich x ist und die bk ganze Zahlen mit 0 ≤ bk ≤ 9 sind. (Wir vereinbaren dabei, dass Zahlen der Form m X k=1 −k bk 10 + ∞ X 9 · 10−k k=m+1 mit bm < 9 für ein m aus N gleichgesetzt werden mit m−1 X bk 10−k + (bm + 1)10−m . k=1 Wir setzen also zum Beispiel 2, 1507999999 . . . = 2, 1508. Die irrationalen Zahlen entsprechen den nichtperiodischen Dezimalbrüchen, zusammen mit den rationalen Zahlen bilden sie die Menge R der reellen Zahlen. Jede der Mengen (a, b) := {x ∈ R|a < x < b}, −∞ ≤ a ≤ b ≤ ∞, heißt ein offenes Intervall aus R, jede der Mengen [a, b] := {x ∈ R|a ≤ x ≤ b}, −∞ ≤ a ≤ b ≤ ∞, nennt man ein abgeschlossenes Intervall aus R, und jede der Mengen (a, b] := {x ∈ R|a < x ≤ b}, −∞ ≤ a ≤ b ≤ ∞, 12 Uwe Küchler wird als ein nach links halboffenes Intervall aus R bezeichnet. Die Definition von nach rechts halboffenen Intervallen [a, b) erfolgt analog. Auf Grund dieser Definition und weil ∞ und −∞ keine reellen zahlen sind, also nicht zu R gehören, gilt für alle a, b aus R (a, ∞] = (a, ∞), [−∞, b) = (−∞, b), [−∞, ∞] = (−∞, ∞), (a, a] = (a, a) = [a, a) = ∅ und [a, a] = {a}. Eine reelle Zahl x heiße positiv (oder nichtnegativ), falls x > 0 (bzw. x ≥ 0) gilt, Eine reelle Zahl x heiße negativ (oder nichtpositiv), falls x < 0 (bzw. x ≤ 0) gilt. Eine nichtleere Menge E heißt eine endliche Menge, falls sie nur endlich viele Elemente enthält, genauer, falls es eine natürliche Zahl n aus N gibt, so daß die Elemente von E durch die Zahlen 1, 2, . . . , n alle durchnumeriert werden können und keine Elemente die gleiche Nummer bekommen. Die Anzahl n der Elemente von E heißt Kardinalzahl der Menge E, symbolisch: n = card E. Die leere Menge wird ebenfalls als eine endliche Menge angesehen. Wir definieren card ∅ = 0. Ist card E = n, so gilt card P(E) = 2n . Mit der Anzahl der Elemente einer Menge E wächst also die Anzahl aller ihrer Teilmengen exponentiell an, d.h., Mengen mit einer großen Anzahl von Elementen besitzen also eine noch viel umfangreichere Potenzmenge. Ist eine Menge nicht endlich, so heißt sie unendlich. Die Menge N0 der natürlichen Zahlen und die Menge R der reellen Zahlen sind zum Beispiel unendlich. Der Begriff der Anzahl der Elemente einer Menge, den wir auf die Möglichkeit des Durchnumerierens begründet haben, verliert bei unendlichen Mengen seinen Sinn. Man verallgemeinert ihn auf folgende Weise. Zwei Mengen E und F nennt man gleichmächtig, wenn es eine bijektive Abbildung von E auf F gibt. (Bei endlichen Mengen wird eine bijektive Abbildung durch das Durchnummerieren hergestellt, sie sind also gleichmächtig, wenn sie die gleiche Anzahl von Elementen besitzen.) Zum Beispiel ist für alle a, b ∈ R, Grundbegriffe 13 mit a < b die Menge aller Zahlen aus dem Intervall (a, b) gleichmächtig mit der Menge R aller reellen Zahlen. (Eine bijektive Abbildung von (0, 1) auf R ist gegeben durch y = β(x) := 2x − 1 . x(1 − x) (1.11) ) Gibt es eine bijektive Abbildung von einer Menge E auf die Menge N0 der natürlichen Zahlen, so heißt E abzählbar unendlich oder einfach abzählbar. Die bijektvive Abbildung ordnet jedem Element a von E eine natürliche Zahl n zu, man sagt, sie numeriere die Elemente von E, m.a.W., man kann E als Folge (an , n ≥ 0) schreiben oder eben abzählen. Die Menge N0 der natürlichen Zahlen und die Menge Z der ganzen Zahlen sind zum Beispiel abzählbar. Eine Menge, die endlich oder abzählbar ist, heißt höchstens abzählbar. Jede Teilmenge E 0 einer abzählbaren Menge ist höchstens abzählbar. Ist nämlich f (.) eine Bijektion von N0 auf E, und schreibt man E als Folge f (n), n ∈ N0 , so ist die Teilmenge E 0 entweder endlich oder entspricht einer unendlichen Teilfolge f (nk ), ist also höchstens abzählbar. Jede abzählbare Vereinigung höchstens abzählbarer Mengen An , n ∈ N0 ist höchstens abzählbar. Sind die An paarweise disjunkt, und schreibt man sie als Matrix so kann man ihre Vereinigung wie in Abb. 1.4 gezeigt, numerieren, d.h. eine Bijektion angeben. Sind die An nicht paarweise disjunkt, so geht man über zu den Mengen A01 = A1 , A02 = A2 \A01 , A03 = A3 \(A01 ∪ A02 ), . . . , A0n = An \(A01 ∪ 0 ∞ . . . A0n−1 ), . . .. Diese sind paarweise disjunkt, und es gilt ∪∞ n=1 An = ∪n=1 An . Als Sonderfall ergibt sich, dass die Menge N × N := {(m, n)|m, n ∈ N} aller Paare positiver natürlicher Zahlen abzählbar ist. Jeder positiven rationalen entspricht genau ein Paar (m, n) von Zahlen M und N aus N ohne Zahl q = m n gemeinsamen Teiler, also gibt es eine Bijektion von Q+ := {q ∈ Q|q > 0} auf eine Teilmenge von N × N, die nach dem bereits Gesagtem abzählbar ist. Folglich ist auch die Menge Q = Q+ ∪ (−Q+ ) aller rationalen Zahlen abzählbar. Jede unendliche Menge, die nicht abzählbar unendlich ist, heißt überabzählbar unendlich. Die Menge R der reellen Zahlen ist überabzählbar unendlich. Davon überzeugt man sich wie folgt. Angenommen, R wäre abzählbar. Dann wäre auch das Intervall (0, 1) abzählbar, da es eine Bijektion (1.11) zwischen beiden Mengen gibt. Folglich existierte eine bijektive Abbildung von N0 auf (0, 1), d.h., man könnte die Menge der Zahlen aus (0, 1) als Folge (an , n ∈ N0 ) 14 Uwe Küchler A1 : a11 → a12 a13 → a14 · · · . % . % a A2 : 21 a22 a23 a24 · · · ↓ % . % a A3 : 31 a32 a33 a34 · · · . % a A4 : 41 a42 a43 a44 · · · ↓ % .. .. .. .. . . . . Abbildung 1.4: Cantorsches Diagonalverfahren schreiben. Jede der Zahlen an hätte eine eindeutig bestimmte Dezimalentwicklung der Form an = 0, in1 in2 . . . inl . . .. Wir konstruieren eine Zahl a = 0, j1 j2 . . . aus (0, 1), die nicht in der Folge (an ) vorkommt. Dazu wählen wir für jedes n aus N0 eine Ziffer jn aus {0, 1, . . . , 9} mit jn 6= inn . Offenbar gilt a 6= an für alle n aus N0 . Das ist ein Widerspruch zur Annahme, dass die Folge (an ) das ganze Intervall (0, 1) ausschöpft. Dei Mächtigkeit der Menge R nennt man die Mächtigkeit des Kontinuums, sie wird mit dem Buchstaben bezeichnet. Offenbar gibt es eine bijektive Abbildung f von Q auf eine Teilmenge von R, nämlich die identische Abbildung f (q) = q, q ∈ Q, aber keine bijektive Abbildung von Q auf R. Insofern sagt man, die Mächtigkeit des Kontinuums sei größ als die Mächtigkeit der abzählbaren Menge N0 . Insbesondere folgt, dass die Menge der irrationalen Zahlen b̈erabzählbar ist. Anderenfalls wäre die Menge aller reellen Zahlen, die aus den rationalen und den irrationalen Zahlen besteht, abzählbar. Unendliche Mengen haben auf den ersten Blick überraschende Eigenschaften. So können z.B. echte Teilmengen gleichmächtig zur Gesamtmenge sein. Fasst man also Mächtigkeit als ein Anzahlbegriff auf, so können echte Teilmengen unendlicher Mengen dieselbe Anzahl von Elementen wie die Gesamtmenge enthalten. Das widerspricht der Anschauung, und deshalb sollte man bei unendlichen Mengen den Begriff Anzahl von Elementen durch Mächtigkeit der Menge ersetzen. Grundbegriffe 15 Ein weiteres Beispiel in diesem Zusammenhang ist das folgende. Die Menge R2 = R × R aller Paare reeller Zahlen (also die Zahlenebene) hat die gleiche Mächtigkeit wie die Menge Menge R der reellen Zahlen (d.h. der Zahlengeraden). Wir überzeugen uns davon, indem wir eine Bijektion zwischen beiden Mengen angeben. 2x−1 , x ∈ (0, 1) ist eine Bijektion von (0, 1) auf R, durch Durch y = β(x) := x(1−x) (y1 , y2 ) := (β(x1 ), β(x2 )) eine Bijektion von (0, 1)2 auf R2 definiert. Es genügt also zu zeigen, dass (0, 1) und (0, 1)2 gleichmächtig sind. Wir konstruieren eine entsprechende Bijektion. Jede Zahl x ∈ (0, 1) hat eine eindeutig bestimmte Dezimaldarstellung x= ∞ X bk 10−k mit 0 ≤ bk ≤ 9, k ≥ 1. (1.12) k=1 Wir definieren durch y1 = c1 (x) := ∞ X −l b2l+1 10 und y2 = c2 (x) := ∞ X b2l 10−l l=1 l=0 für jedes x ∈ (0, 1) ein Paar y = c(x) := (y1 , y2 ) reeller Zahlen aus (0, 1)2 . (Für y1 verwenden wir also die Ziffern in der Darstellung (1.12), die an einer ungeraden Stelle stehen, und für y2 diejendigen Ziffern aus (1.12), die an einer geraden Stelle stehen.) Beispiel: x = 0, 576903788621 . . . ←→ y = c(x) = (y1 , y2 ) = (0, 560782 . . . , 0, 793861 . . .) Offenbar ist y = c(x), x ∈ (0, 1), eine injektive Abbildung von (0, 1) in (0, 1)2 . Sie ist auch surjektiv, denn jedes Paar y = (y1 , y2 ) ∈ (0, 1)2 ist Bild c(x) einer Zahl x ∈ (0, 1). Ist nämlich y = (y1 , y2 ) = ( ∞ X −k y1k 10 , k=1 so sei x= ∞ X k=0 −2k−1 y1k 10 + ∞ X y2k 10−k ), k=1 ∞ X k=1 y2k 10−2k ∈ (0, 1). 16 Uwe Küchler Es gilt c(x) = (y1 , y2 ), was leicht nachzuprüfen ist. Also ist c(.) eine Bijektion von (0, 1) auf (0, 1)2 . Durch Zusammensetzung der Bijektionen ergibt sich die Gleichmächtigkeit von R und R2 . Eine detailliertere Darlegung der Theorie der Mächtigkeit unendlicher Mengen findet man z.B. in dem Buch von Alexandroff [1], eine solide und unterhaltsame Auseinandersetzung mit vielen Eigenschaften unendlicher Mengen ist in der Spezialausgabe der Zeitschrift Spektrum der Wissenschaft [9] enthalten. Es sei B eine nichtleere Menge reeller Zahlen. Ist c eine reelle Zahl mit x ≤ c für alle x ∈ B, so heißt c eine obere Schranke für B, und B nennt man nach oben beschränkt. Ist cs eine obere Schranke für B und gilt cs ≤ c für alle oberen Schranken c von B, so nennt man cs die kleinste obere Schranke von B und bezeichnet sie als Supremum von B, in Zeichen: sup B. Gibt es keine obere Schranke für B, so setzt man sup B = ∞. Die Menge B heißt dann nach oben unbeschränkt. Ist die Zahl sup B endlich, so kann sie zu B gehören, muß es aber nicht. Im ersten Fall nennt man dieses Supremum auch das Maximum von B und schreibt dafür max B. Die Definition von unterer Schranke von B, größter unterer Schranke von B, inf B (Infimum von B) und min B (Minimum von B) erfolgt analog, an Stelle von ≤ wird ≥ verwendet, an Stelle von ∞ der Wert −∞. Mit −B := {−x|x ∈ B} gilt für jede Teilmenge B von R sup (−B) = −inf B, inf (−B) = −sup B. Eine Abbildung X, vermittelt durch ((xn ), n ∈ N), von N in eine Menge E heißt eine Folge aus E. Wir schreiben dafür auch (xn )n≥1 oder einfach (xn ). Man unterscheide zwischen einer Folge (xn )n≥1 und der Menge {xn |n ∈ N}. In einer Menge kommt es nicht auf die Reihenfolge der Elemente an, in einer Folge sehr wohl. Grundbegriffe 17 Ist (xn , n ≥ 1) eine Folge aus R, so ist (x̄n ) mit x̄n := supm≥n xm eine monoton nichtwachsende Folge reeller Zahlen, d.h., es gilt x̄n ≥ x̄n+1 , n ∈ N. Der Wert inf x̄n = inf sup xm =: lim sup xn n n m≥n n→∞ heißt Limes superior der Folge (xn , n ≥ 1). Analog ist (xn ) mit xn := inf m≥n xm eine monoton nichtfallende Folge reeller Zahlen , d.h., es gilt xn ≤ xn+1 , n ∈ N. Den Wert sup inf xm =: lim inf xn n m≥ n n→∞ nennt man den Limes inferior der Folge (xn , n ≥ 1). Es gilt stets −∞ ≤ lim inf xn ≤ lim sup xn ≤ ∞. n→∞ (1.13) n→∞ Wenn in der Mitte von (1.13) das Gleichheitszeichen gilt, wenn also lim inf n→∞ xn = lim supn→∞ xn erfüllt ist, so heißt die Folge (xn , n ≥ 1) konvergent gegen den Grenzwert x := lim inf n→∞ xn = lim supn→∞ xn . Der Grenzwert x wird auch als Limes der Folge (xn , n ≥ 1), symbolisch x = limn→∞ xn , bezeichnet. Eine Folge (xn , n ≥ 1) ist konvergent gegen ein x aus R, wenn sie der Zahl x beliebig nahe kommt und schließlich auch beliebig nahe bleibt. Genauer: Wenn für jedes noch so kleine, aber positive ε ein n0 = n0 (ε) existiert, so daß |xn − x| < ε für alle n ≥ n0 gilt. Eine Folge (xn , n ≥ 1) konvergiert gegen ∞, falls lim inf xn = ∞, das bedeutet, falls es zu jeder (noch so großen) Zahl c ein n0 ∈ N gibt, so dass xn ≥ c für alle n ≥ n0 gilt. Die Menge Q aller rationalen Zahlen liegt dicht in R in dem Sinne, daß man zu jeder reellen Zahl x und jeder positiven, noch so kleinen Zahl ε eine rationale Zahl x0 finden kann mit |x − x0 | < ε. Ist nämlich x bereits rational, so setzt man xn ≡ x, n ≥ 1. Ist x irrational, so hat x eine eindeutig bestimmte (nichtperiodische) Dezimalentwicklung ∞ X x = [x] + bk 10−k . k=1 18 Uwe Küchler Für jedes n ∈ N setzen wir xn := [x] + n X bk 10−k . k=1 Ist ε > 0, so findet man ein n0 ∈ N mit 10−n0 < ε. Die Zahl x0 := xn0 ist rational und erfüllt die Ungleichung |x − x0 | ≤ 10−n0 < ε. Die rationalen Zahlen bilden also ein unendlich dichtes Netz“ in der Menge ” R aller reellen Zahlen, das aber nur abzählbar unendlich ist, also wesentlich weniger Elemente als R enthält. Es sei bemerkt, dass wir mit der eben dargelegten Methode für jede reelle Zahl x eine Folge (xn ) rationaler Zahlen finden können, die gegen x konvergieren: x = limn→∞ xn . Noch eine andere wichtige Eigenschaft ergibt sich aus dem bisher Bewiesenen. In jedem Intervall (a, b) positiver, auch noch so kleiner Länge b − a > 0 befinden sich abzählbar unendlich viele rationale und überabzählbar unendlich viele irrationale Zahlen. Übungsaufgaben 1. Beweisen Sie: a) Die Menge Z aller ganzen Zahlen und die Menge aller nichtnegativen geraden Zahlen {2n|n ≥ 0} sind abzählbar unendlich. b) Sind A1 und A2 zwei höchstens abzählbar unendliche Mengen, so ist auch A1 × A2 eine höchstens abzählbar unendliche Menge. c) Die Menge Qd aller d-dimensionalen Vektoren mit rationalen Komponenten ist abzählbar unendlich. 2. Es sei B eine nichtleere Teilmenge von R. Beweisen Sie: a) Die Menge aller oberen Schranken von B ist entweder die leere Menge oder ein abgeschlossenes Intervall der Form [c, ∞) für eine reell Zahl c. b) Die Menge B sei nach oben beschränkt. Genau dann gilt für eine reelle Zahl x̄ die Gleichung x̄ = sup B, wenn (i) x̄ ≥ y für alle y ∈ B, und Grundbegriffe 19 (ii) Für jede relle Zahl x < x̄ gibt es mindestens ein y ∈ B mit x < y ≤ x̄. Dabei ist (ii) gleichbedeutend mit (ii’) Für jedes ε > 0 gibt es mindestens ein y ∈ B mit x̄−ε < y ≤ x̄. c) Formulieren Sie die Punkte a) und b) für nichtleere, nach unten beschränkte Mengen B und x = inf B. Beweisen Sie diese Aussagen. 3. Es sei (xn ) eine Folge reeller Zahlen. Beweisen sie die Ungleichungen (1.13). 4. Es sei (xn ) eine Folge reeller Zahlen. Zeigen Sie, dass folgende Aussagen a) und b) äquivalent sind: a) Eine reelle Zahl c ist gleich lim supn→∞ xn , b) (i) Für jedes ε > 0 und jedes n ∈ N, gibt es mindestens ein m ≥ n, so dass gilt xm > c − ε. (ii) Für jedes ε > 0 gibt es ein n0 ∈ N, (das von ε abhängt,) so dass gilt xn < c + ε für alle n ≥ n0 . c) Formulieren Sie zu b)(i) und (ii) analoge Aussagen für lim inf n→∞ xn . 5. Es sei (xn ) eine Folge reeller Zahlen. Beweisen Sie folgende Aussagen: a) Die Folge (xn ) konvergiert genau dann gegen eine Zahl x ∈ R, wenn es für alle ε > 0 ein n0 ∈ N gibt, so dass x − ε < xn < x + ε für alle n ≥ n0 gilt. b) Die Folge (xn ) konvergiert genau dann gegen eine Zahl x ∈ R, wenn limn→∞ |xn − x| = 0 gilt. c) Die Folge (xn ) konvergiert genau dann gegen ∞, wenn es für jede Zahl c ein n0 gibt, so dass xn ≥ c für alle n ≥ n0 gilt. 1.4 Produktmengen Am Anfang des Kapitels haben wir die Gesamtheit aller möglichen Ausgänge eines zufälligen Experimentes zu einer Menge von Ausgängen zusammengefasst. Führt man mehrere Experimente aus, so ist es bequem, zur Beschreibung 20 Uwe Küchler des Gesamtexperimentes sogenannte Produktmengen zu verwenden. Diese wollen wir hier einführen. Es seien n ≥ 1 und E1 , E2 , . . . , En nichtleere Mengen. Als Produktmenge E1 × E2 × . . . × En bezeichnen wir die Menge alle n-Tupel x = (x1 , . . . , xn ) mit den Koordinaten xk ∈ Ek , k = 1, . . . , n. Anstelle E1 × E2 × . . . × En schreibt n Q man auch kürzer Ek . Sind alle Ek identisch gleich einer Menge E, so verk=1 wendet man die Bezeichnung E n anstelle n Q Ek . k=1 Für n = 2 ist zum Beispiel E1 × E2 die Menge aller Paare (x1 , x2 ) mit x1 ∈ E1 und x2 ∈ E2 . Ist {k1 , k2 , . . . , kl } eine Teilmenge von {1, 2, . . . , n}, so wird durch πk1 ,k2 ,...,kl x := (xk1 , xk2 , . . . , xkl ) für x = (x1 , x2 , . . . , xn ) ∈ n Y Ek (1.14) k=1 die zur Menge {k1 , k2 , . . . , kl } gehörende Projektion πk1 ,k2 ,...,kl definiert. Dien Q se Projektion ist eine Abbildung mit dem Definitionsbereich Ek und dem k=1 Wertebereich l Q Ekj . Im Fall l = 1 nennt man sie auch die zum Index k = k1 j=1 gehörende Koordinatenabbildung πk . Die Produktmenge Rd := R . . × R} | × .{z n mal ist der Raum aller Vektoren der Dimension d; d ≥ 1. Es gilt R1 = R. Für a = (a1 , . . . , ad ) und b = (b1 , . . . , bd ) mit −∞ ≤ ak ≤ bk ≤ ∞, k = 1, . . . , d, heißt (a, b] := d Y (ak , bk ] k=1 ein nach links halboffener Quader in Rd . (1.15) Grundbegriffe 21 Im Fall n = 2 spricht man auch von Rechtecken anstelle von Quadern. Für n = 1 handelt es sich um Intervalle. Nach rechts halboffene, offene und abgeschlossene Quader [a,b),(a,b) bzw. [a,b] werden analog zum Fall der Intervalle für d = 1 definiert, siehe Seite 11. Die reellen Zahlen ak und bk , k = 1, 2, . . . , d, nennen wir Seiten des Quaders (a, b] bzw.(a, b), [a, b] oder [a, b) . Sind alle Seiten eines Quaders rationale Zahlen, so bezeichnen wir ihn als einen Quader mit rationalen Seiten. Es ist ein weiteres aus der Sicht endlicher Mengen unerwartetes Ergebnis, dass für jede unendliche Menge E und jedes d ∈ N die Mächtigkeit der Menge E d gleich der Mächtigkeit von E ist. Insbesondere besitzt Rd die gleiche Mächtigkeit wie R. Für E = Q ist das Gegenstand der Übung 3), für den allgemeinen Fall siehe z.B. Alexandroff [1], Abschnitt 3.6.. Ist (Ek , k ≥ 1) eine (unendliche) Folge von Mengen, so ist ihre Produktmenge, ∞ Q bezeichnet durch Ek := E1 × E2 × . . . × En × . . ., die Menge aller Folgen k=1 x := (xk , k ≥ 1) mit xk ∈ Ek , k ≥ 1. Sind alle Ek identisch gleich E, so ∞ Q schreiben wir einfach E N anstelle Ek . Sind die Elemente einer Menge E k=1 die möglichen Ausgänge eines zufälligen Experimentes, so stellen die Elemente von E N zum Beispiel die möglichen Ausgänge einer unbegrenzten Wiederholung des gleichen Experimentes dar. Fasst man eine Folge (xk , k ≥ 1) mit xk ∈ E als eine Abbildung von der Menge N in eine Menge E auf, so ergibt sich eine naheliegende Verallgemeinerung der Produktmenge E N . Ist I nämlich irgendeine Indexmenge, so verstehen wir unter E I die Menge aller Funktionen x = x(i), i ∈ I, von I in die Menge E. Im Fall I = [0, ∞) kann man die Menge E I als eine Menge von möglichen Ausgängen eines zeitstetigen zufälligen Prozesses mit Werten in E ansehen. Für I = {1, 2, . . . , n} bzw. für I = N ergeben sich die oben eingeführten Produktmengen E n bzw. E N . Übungsaufgaben 22 Uwe Küchler 1. Es seien E = E1 × E2 die Produktmenge der beiden nichtleeren Mengen E1 und E2 sowie π1 und π2 die zugehörigen Koordinatenabbildungen. Weiterhin seien B1 und B2 beliebige Teilmengen von E1 bzw. E2 . a) Bestimmen Sie die Urbildmengen πj−1 (Bj ), j = 1, 2. b) Zeigen Sie, dass folgende Gleichung richtig ist B1 × B2 = π1−1 (B1 ) ∩ π2−1 (B2 ) (1.16) 2. Verallgemeinern Sie die Ergebnisse der Übungsaufgaben 1a) und 1b) von n = 2 auf beliebiges n ≥ 3. 3. Es sei d ≥ 1. Zeigen Sie: a) die Menge Qd aller d-dimensionalen Vektoren x = (x1 , x2 , . . . , xd mit rationalen Koordinaten xk ist abzählbar, b) die Menge aller offenen Quader (a, b) aus Rd mit rationalen Seiten ist abzählbar. Kapitel 2 Semialgebren, Algebren, σ-Algebren In der Wahrscheinlichkeitstheorie und Mathematischen Statistik spielen zufällige Versuche eine zentrale Rolle. Sie zeichnen sich dadurch aus, dass ihr Ergebnis im Rahmen gewisser Möglichkeiten ungewiss ist, d.h., irgendeines von möglichen Ergebnissen ω aus einer Menge Ω tritt ein. Beim Werfen eines Würfels zum Beispiel ist Ω = {1, 2, . . . , 6}. Teilmengen von Ω werden als zufällige Ereignisse aufgefasst, z.B. {2, 4, 6} = ”Es tritt eine gerade Zahl als Ergebnis ein”. Durch Mengenoperationen wie ∪, ∩ und c werden neue Teilmengen von Ω, also Ereignisse, gebildet. Die Menge der Ereignisse, die bei einem zufälligen Versuch eintreten können, ist also abgeschlossen gegenüber Vereinigungs-, Durchschnitts- und Komplementbildung. Bei umfangreicheren Mengen Ω möglicher Versuchsausgänge ist es allerdings nicht mehr sinnvoll, alle Teilmengen von Ω als mögliche Ereignisse zu interpretieren. Die Abgeschlossenheit der Menge dieser Ereignisse gegenüber den erwähnten Operationen bleibt jedoch wünschenswert, man setzt sogar voraus, dass sie bezüglich abzählbar unendlichen Vereinigungen und Durchschnitten vorliegt. (Man findet Ausführungen zum mathematischen Hintergrund dieser Problematik z.B. im Buch von Elstrodt [3], Kapitel 1, 1.) In der Maßtheorie werden wir deshalb Systeme von Teilmengen einer Grundmenge studieren, die gewisse Abgeschlossenheitseigenschaften aufweisen. Das macht diese Begriffe mitunter unanschaulich, der Umgang mit ihnen ist aber nach etwas Übung nicht so schwierig, wie es für den Anfang scheint. Eine gewisse Vorstellung wird von den jeweiligen Beispielen vermittelt werden. 23 24 Uwe Küchler 2.1 Semialgebren Es seien E eine nichtleere Menge und S ein Mengensystem aus E, d.h. eine Teilmenge der Potenzmenge von E: S ⊆ P(E). Definition 2.1 Man nennt S eine Semialgebra (von Teilmengen von E, bzw. aus E), falls E ∈ S, ∅ ∈ S, (2.1) für alle A, B ∈ S gilt A ∩ B ∈ S , (2.2) für alle A, B ∈ S gibt es ein n ≥ 1 und paarweise disjunkte n [ Ai ∈ S , i = 1, . . . , n, so dass B\A = Ai gilt. (2.3) i=1 Die Eigenschaft (2.2) nennt man Durchschnittsstabilität des Mengensystems S . Wegen A1 ∩ A2 ∩ · · · ∩ An = A1 ∩ (A2 ∩ (· · · ∩ (An−1 ∩ An ))) gilt sie für alle Durchschnitte endlich vieler Ai aus S . Semialgebren von Teilmengen einer Menge sind in manchen Fällen Mengensysteme, bei denen die Struktur ihrer Elemente übersichtlich ist, wie die folgenden Beispiele zeigen. Beispiele 2.2 Die folgenden Mengensysteme bilden Semialgebren a) S1 := {(a, b] ⊆ R| − ∞ ≤ a ≤ b ≤ ∞} Menge aller nach links halboffenen Intervalle aus R, b) S2 := {(a1 , b1 ] × (a2 , b2 ]| − ∞ ≤ ak ≤ bk ≤ ∞, k = 1, 2}, Menge aller nach links halboffenen Rechtecke aus R2 , Semialgebren, Algebren, sigma-Algebren D2 D3 25 B A D1 Abbildung 2.1: Eigenschaft (2.3) für S2 c) Sd := { d Q (ak , bk ]| − ∞ ≤ ak ≤ bk ≤ ∞ k = 1, 2, . . . , d} Menge aller k=1 nach links halboffenen Quader aus Rd . Verzichtet man in der Definition 2.1 auf die Forderung E ∈ S , behält aber ansonsten (2.2) und (2.3) bei, so nennt man S einen Semiring (oder Halbring) von Teilmengen von E. Beispiele für Semiringe sind für d ≥ 1: S˜d := { d Y (ak , bk ]| − ∞ < ak ≤ bk < ∞, k = 1, · · · , d}, k=1 also die Menge aller nach links halboffenen Quader aus Rd mit endlichen Rändern ak ≤ bk , k = 1, · · · , d. Übungsaufgaben 1. Man beweise, dass die Mengensysteme aus den Beispielen 2.2a) und 2.2b) Semialgebren sind. 2. Es seien E1 und E2 zwei nichtleere Mengen und S1 , S2 Mengensysteme in E1 bzw. E2 .Beweisen Sie: Wenn Si für i = 1, 2 Semialgebren sind, so ist S : = S1 × S2 = {B1 × B2 |Bi ∈ Si , i = 1, 2} eine Semialgebra in E := E1 × E2 . 3. Mit Hilfe der Übungsaufgabe 2. zeige man, dass das Mengensystem Sd für jedes d ≥ 3 eine Semialgebra ist. 4. Es sei E eine nichtleere Menge. Man zeige, dass das Mengensystem S˜0 := {B ⊆ E|B ist eine endliche Menge} 26 Uwe Küchler ein Semiring ist. Es ist eine Semialgebra, genau dann, wenn E eine endliche Menge ist. 5. Es seien X eine auf einer Menge E definierte Abbildung in eine Menge F und S eine Semialgebra von Teilmengen von F . Zeigen Sie, dass X −1 (S ) = {X −1 (B)|B ∈ S } eine Semialgebra von Teilmengen von E ist. 2.2 Algebren Definition 2.3 Es sei E eine nichtleere Menge und A0 ein Mengensystem aus E. Man nennt A0 eine Algebra (von Teilmengen von E, bzw. aus E), wenn folgende drei Bedingungen erfüllt sind: E ∈ A0 , (2.4) für alle A ∈ A0 gilt Ac ∈ A0 , (2.5) für alle A, B ∈ A0 gilt A ∪ B ∈ A0 . (2.6) Folgerung: Sind die Mengen A1 , A2 , . . . , An Elemente einer Algebra A0 von Teilmengen einer Menge E, so gehören auch ∪nk=1 Ak und ∩nk=1 Ak zu A0 . Das folgt aus A1 ∪ A2 ∪ . . . ∪ An = A1 ∪ (A2 ∪ (. . . ∪ (An−1 ∪ An ))) und (2.6) sowie ∩nk=1 Ak = (∪nk=1 Ack )c und (2.5). Eine Algebra A0 von Teilmengen aus E ist also ein Mengensystem, das gegenüber der Bildung von Durchschnitten und Vereinigungen endlich vieler Elemente aus A0 sowie Komplementbildung bez. E abgeschlossen ist, und das die ganze Menge E als Element enthält. Bemerkungen: Jede Algebra A0 ist auch eine Semialgebra. Es gilt nämlich E ∈ A0 , ∅ ∈ A0 wegen (2.4) und (2.5), also ist (2.1) erfüllt. Sind A, B ∈ A0 , so ist A ∩ B = (Ac ∪ B c )c ∈ A0 wegen (2.5) und (2.6), somit gilt (2.2). Sind A, B ∈ A0 , so gehört A\B = (A ∩ B c ) = (Ac ∪ B)c wegen (2.5) und (2.6) ebenfalls zu A0 . Semialgebren, Algebren, sigma-Algebren 27 Das bedeutet, (2.3) ist mit n = 1 und A1 = B\A erfüllt. Man nennt ein Mengensystem R von Teilmengen einer Menge E einen Ring, falls ∅ ∈ R, und für alle A, B ∈ R gelten A ∪ B ∈ R und A\B ∈ R. Offenbar ist jede Algebra von Teilmengen einer Menge E auch ein Ring (Man beachte Formel (1.2)), und jeder Ring ist ein Semiring. Beispiele 2.4 In den folgenden zwei Beispielen sei E irgendeine nichtleere Menge: a) Es bezeichne A eine Teilmenge von E. Dann ist das Mengensystem A0 := {∅, A, Ac , E} eine Algebra in E. b) Das Mengensystem A0 := {A ⊆ E|A oder Ac besteht aus endlich vielen Elementen} ist eine Algebra in E. Es ist die kleinste Algebra von Teilmengen von E, die alle einelementigen Mengen {x} ⊆ E umfasst. Das heißt, ist A eine Algebra von Teilmengen von E mit {x} ∈ A für alle x ∈ E, so gilt A0 ⊆ A. Wenn E endlich ist, so gilt A0 = P(E). Theorem 2.5 Ist S eine Semialgebra von Teilmengen von E, so bildet die Menge A0 (S ) aller endlichen Vereinigungen von paarweise disjunkten Elementen von S , also ( A0 (S ) := n [ ) Ak |Ak ∈ S , paarweisedisjunkt, n ≥ 1 , (2.7) k=1 eine Algebra von Teilmengen von E. Dabei ist S ⊆ A0 ( S ) und A0 (S ) ist die kleinste Algebra, die S umfaßt (in dem Sinne, dass für jede Algebra A, mit S ⊆ A, gilt A0 (S ) ⊆ A). 28 Uwe Küchler B A Abbildung 2.2: Elemente der Algebra A0 (S2 ) Beweis: siehe Übungsaufgabe 2.. Eine analoge Aussage gilt für Semiringe und Ringe anstelle Semialgebren bzw. Algebren.(Siehe Elstrodt [3], Beispiel 1.5.7) Beispiele 2.6 Es sei (d ≥ 1). Das folgende Mengensystem bildet eine Algebra von Teilmengen von Rd : ( A0 (Sd ) := d [ ) (ak , bk ]| − ∞ ≤ ak ≤ bk ≤ ∞, bk ≤ al , 1 ≤ k ≤ l ≤ d, d ≥ 1 k=1 (Menge aller Vereinigungen endlich vieler, paarweise disjunkter, d-dimensionaler, nach links abgeschlossener Quader, d ≥ 1 (z.B.entsprechender Intervalle für d=1 bzw. Rechtecke für d= 2, siehe auch Abbildung 2.2.). Übungsaufgaben 1. Man beweise, dass die Mengensysteme aus Beispiele 2.4 Algebren sind. 2. Beweisen Sie das Theorem 2.5 Hinweis: Zeigen Sie zunächst die Richtigkeit folgender Aussage. Es seien A, B1 , B2 , . . . , Bn Elemente einer Semialgebra S . Dann gibt es ein m ≥ 1 und paarweise disjunkte Mengen C1 , C2 , . . . , Cm ∈ S , so dass gilt: A\( n [ i=1 Bi ) = [ ˙ m j=1 Cj . (2.8) Semialgebren, Algebren, sigma-Algebren 29 Prüfen Sie nunmehr für A0 (S ) aus (2.7) die Eigenschaften (2.4)-(2.6) einer Algebra nach. T 3. Zeigen Sie, dass der Durchschnitt i∈I Ai beliebig vieler Algebren Ai , i ∈ I, wieder eine Algebra ist. 4. Es seien An , n ≥ 1 Algebren von Teilmengen einer Menge E mit der Eigenschaft An ⊆ An+1 , n ≥ 1, und A∞ := ∞ [ An = {B ⊆ E| es gibt ein n ≥ 1 mit B ∈ An }. n=1 Man zeige, dass A∞ eine Algebra ist. 5. 2.3 σ-Algebren Es sei E eine nichtleere Menge und A ein Mengensystem aus E. Definition 2.7 Man nennt A eine σ-Algebra (von Teilmengen von E, bzw. aus E), falls A eine Algebra ist und zusätzlich gilt falls An ∈ A, n ≥ 1, so ist ∞ [ An ∈ A. (2.9) n=1 Eine σ-Algebra A aus E ist also eine Algebra aus E, die zusätzlich abgeschlossen ist bezüglich der Vereinigungsbildung (und damit wegen ∩An = (∪Acn )c auch der Durchschnittsbildung) von abzählbar unendlich vielen Elementen aus A. Beispiele 2.8 a) Es sei E eine nichtleere Menge. Dann ist die Potenzmenge P(E) eine σ-Algebra aus E. 30 Uwe Küchler b) Das Mengensystem A := {A ⊆ R|A oder Ac ist höchstens abzählbar unendlich} ist eine σ-Algebra aus R. Es ist die kleinste σ-Algebra aus E, die alle einelementigen Mengen {x} aus E umfasst. Wenn E höchstens abzählbar ist, so ist A gleich der Potenzmenge P(E). c) Ist {Zn , n ∈ N} eine Zerlegung der Menge E, so bildet ( ) [ Zi | I durchläuft alle Teilmengen von N Z := (2.10) i∈I eine σ-Algebra aus E. Es ist auch die kleinste σ-Algebra aus E, die alle Zi , i ∈ N, umfasst. In den Beispielen b) und c) konnten wir die kleinste σ-Algebra, die das gegebene Mengensystem umfasst, konstruktiv bestimmen, in dem Sinne, dass wir ihre Elemente beschreiben konnten. Das ist im allgemeinen nicht mehr so. Man muss auf einen nichtkonstruktiven Weg ausweichen. Der Schlüssel liegt in folgender Aussage. Aussage 2.9 Der Durchschnitt A := T Ai = {B ⊆ E|B ∈ Ai , i ∈ I} i∈I jeder Menge (Ai , i ∈ I) von σ-Algebren Ai von Teilmengen einer Menge E ist ebenfalls eine σ-Algebra aus E. Beweis: Es gilt nach Voraussetzung E ∈ Ai für alle i ∈ I, also ist (2.4) für A erfüllt. Sind A und B Elemente von A, so gilt wegen (2.6) auch A ∪ B ∈ Ai für alle i ∈ I, also A ∪ B ∈ A. Somit haben wir (2.6) für A. Die Eigenschaft (2.5) weist man leicht analog nach. Aussage 2.10 Ist S irgendein Mengensystem aus E, so gilt a) Das Mengensystem \ σ(S ) := {A |A ist σ-Algebra aus E mit S ⊆ A} (2.11) ist eine σ-Algebra aus E, die S umfasst, d.h., für die gilt S ⊆ σ(S ). Semialgebren, Algebren, sigma-Algebren 31 b) σ(S ) ist die kleinste σ-Algebra mit S ⊆ σ(S ) , m.a.W., ist H eine σ-Algebra aus E mit S ⊆ H, so gilt σ(S ) ⊆ H. Man nennt das Mengensystem S einen Erzeuger der σ-Algebra σ(S ). Beweis: Nach Aussage 2.9 ist σ(S ) eine σ-Algebra, und es gilt nach Definition (2.11) die Relation S ⊆ σ(S ). Angenommen H ist eine σ-Algebra aus E mit S ⊆ H, so folgt aus der Definition (2.11), dass σ(S ) ⊆ H gilt, da H eine der σ−Algebren bei der Durchschnittsbildung auf der rechten Seite von (2.11) ist. Folgende zwei Eigenschaften (2.12) und (2.13) sind für das Arbeiten mit σ−Algebren recht nützlich. Ist A eine σ-Algebra aus E, so gilt σ(A) = A. (2.12) Zum Beweis: Wegen A ⊆ σ(A) bleibt nur zu zeigen σ(A) ⊆ A. Das ergibt sich aber aus der Tatsache, dass A unter den σ−Algebren bei der Durchschnittsbildung auf der rechten Seite von (2.11) vorkommt. Sind S und S 0 Mengensysteme aus E, so gilt: aus S ⊆ S 0 folgt σ(S ) ⊆ σ(S 0 ). (2.13) Für jede σ-Algebra H, für die S 0 ⊆ H gilt, ist nämlich wegen S ⊆ S 0 auch S ⊆ H richtig. Damit sind an der Durchschnittsbildung in (2.11) im Fall S mindestens so viele σ-Algebren H beteiligt, wie bei S 0 . Daraus ergibt sich (2.13). Wir haben die Elemente der Algebra A0 (S ) auf konstruktive Weise aus den Elementen der Semialgebra S erhalten (siehe Aussage 2.7). Dafür mussten wir nur alle möglichen endlichen Vereinigungen von Elementen von S bilden. Die σ-Algebra σ(S ) dagegen entstand von oben herab“ mittels Durchschnittsbil” dung über alle σ-Algebren, die das Mengensystem S umfassen. Diese Methode ist i.a. nicht konstruktiv, selbst wenn S eine Algebra bildet. Die Antwort 32 Uwe Küchler auf die Frage, ob es nicht genügt, alle abzählbaren Vereinigungen und Durchschnitte sowie Komplemente von Elementen von S zu bilden, um zu σ(S ) zu gelangen, ist negativ. Wir präzisieren diese Aussage etwas näher und folgen dabei einer Darstellung von Billingsley [?], Seite 30ff. Es sei S irgendein Mengensystem aus einer Menge E. Mit S ∗ bezeichnen wir die Menge aller Elemente aus S , ihrer Komplemente und ihrer endlichen oder abzählbar unendlichen Vereinigungen und Durchschnitte. Ist A ein Mengensystem aus einer Menge E, so setzen wir A0 := A und definieren An := A∗n−1 , n ≥ 1. Offenbar gilt An ⊆ σ(A) für jedes n ≥ 1 und somit ∞ [ An ⊆ σ(A). (2.14) n=1 Ein Beispiel, wo in (2.14) nicht die Gleichheit gilt, werden wir im folgenden Abschnitt kennenlernen. Beispiele 2.11 Mit Sd0 := {(a, b) = d Y (ak , bk )| − ∞ ≤ ak ≤ bk ≤ ∞, k = 1, 2, . . . , d} (2.15) k=1 gilt σ(Sd0 ) = σ(Sd ). Ist nämlich (a, b) = d Q (ak , bk ) ∈ Sd0 , so gilt mit (a, b]n := k=1 d Q (ak , bkn ] und k=1 bkn := bk − n1 , falls bk < ∞, und bkn := n, falls bk = ∞ die Beziehung (a, b]n ∈ Sd und somit (a, b) = ∪dn=1 (ak , bkn ] ∈ σ(Sd ). Also haben wir Sd0 ⊆ σ(Sd ). Mittels (2.13) und (2.12) folgt nunmehr σ(Sd0 ) ⊆ σ(σ(Sd )) = σ(Sd ). (2.16) 1 Analog erhält man auf der Grundlage von (ak , bk ] = ∩∞ n=1 (ak , bk + n ), falls bk < ∞ und wegen (ak , ∞] = (ak , ∞) falls bk = ∞ die Beziehung Sd ⊆ σ(Sd0 ). Semialgebren, Algebren, sigma-Algebren 33 Daraus ergibt sich ebenso mit (2.13) und (2.12) die Beziehung σ(Sd ) ⊆ σ(σ(Sd0 )) = σ(Sd0 ). (2.17) Beide Eigenschaften (2.16) und (2.17) zusammen ergeben σ(Sd0 ) = σ(Sd ). 2.4 Messbare Räume und Borelmengen Definition 2.12 Jedes Paar (E, E), wobei E eine nichtleere Menge ist und E eine σ-Algebra von Teilmengen von E bildet, heißt ein messbarer Raum. Eine Teilmenge A ⊆ E heißt E-messbar, falls A ∈ E gilt. Sind keine Verwechslungen möglich, so spricht man einfach von messbaren Mengen. Definition 2.13 a) Es sei S := {(a, b]| − ∞ ≤ a < b ≤ ∞} (siehe Beispiel 2.2a)). Dann heißt B := σ(S1 ) die σ-Algebra der Borelmengen (oder Borelsche σ-Algebra) aus R. (Emile Borel, französischer Mathematiker,1871-1956) b) Mit Sd := { d Q (ak , bk ]| − ∞ ≤ ak ≤ bk ≤ ∞, k = 1, 2, . . . , d} (siehe k=1 Beispiel 2.2b)) heißt Bd := σ(Sd ) die σ-Algebra der Borelmengen (oder Borelsche σ-Algebra) aus Rd . Das Mengensystem Sd aller nach links halboffenen Quader im Rd ist also ein Erzeuger der Borelschen σ-algebra Bd . Jede einelementige Menge {x}, x ∈ Rd , ist eine Borelmenge (es gilt nämlich ({x} = ∩n (x − n1 , x])), damit auch jede Menge B ⊆ Rd mit endlich oder abzählbar unendlich vielen Elementen, und somit auch die Menge Qd aller x ∈ Rd , deren Koordinaten sämtlich rational sind. Definition 2.14 Eine Menge U ⊆ Rd heißt offen, wenn man für jedes x ∈ U einen d-dimensionalen Quader Q ∈ Sd0 (siehe (2.15)) finden kann mit x ∈ Q ⊆ U . Eine Menge V ⊆ Rd heißt abgeschlossen, falls ihr Komplement V c = Rd \V offen ist. 34 Uwe Küchler Abbildung 2.3: Approximation eines Halbkreises H durch endliche Vereinigungen Hn von Rechtecken: H = ∪∞ n=1 Hn Bemerkung 2.15 Die Vereinigung beliebig vieler offener Mengen in Rd ist ebenfalls offen. Geht man zu Komplementen über, so folgt sofort, dass der Durchschnitt beliebig vieler abgeschlossener Mengen abgeschlossen ist. Aussage 2.16 Es sei d ≥ 1. Im Rd sind alle Quader der Form (a, b) = d Q (ak , bk ) aus Sd0 (siehe k=1 (2.15)) offen und alle Quader der Form [a, b] = d Q [ak , bk ] mit −∞ ≤ k=1 ak ≤ bk ≤ ∞, k = 1, 2, . . . , d abgeschlossen im Sinne der Definition 2.14. a) b) Jede offene und jede abgeschlossene Menge im Rd ist eine Borelmenge. c) Bezeichnet U d das System aller offenen Mengen aus Rd und V d das System aller abgeschlossenen Mengen aus Rd , so gilt σ(U d ) = σ(V d ) = Bd . (2.18) Beweis: a) Ist x = (x1 , x2 , . . . , xd ) ∈ (a, b), so ist (a, b) selbst ein Quader aus Sd0 , wie er in Definition 2.14 gefordert wird, also ist jeder Quader Q = (a, b) aus Sd0 eine offene Menge. Im Fall d = 1 ist [a, b]c = (−∞, a) ∪ (b, ∞), also offen. Für d = 2 gilt für das Komplement [a, b]c = ((−∞, a1 ) × R) ∪ ((b1 , ∞) × R) ∪ (R × (−∞, a2 )) ∪ (R × (b2 , ∞)) eine offene Menge. Diese Menge lässt sich schreiben als [a, b]c = Semialgebren, Algebren, sigma-Algebren 35 π1−1 ((−∞, a1 )∪(b1 , ∞))∪π2−1 ((−∞, a2 )∪(b2 , ∞)). Für allgemeines d ≥ 2 haben wir [a, b]c = ∪dk=1 πk−1 ((−∞, ak ) ∪ (bk , ∞)). Wegen πk−1 ((−∞, ak )∪(bk , ∞)) = (−∞, ∞)×. . . (−∞, ∞)×(ak , bk )×(−∞, ∞)× . . . × (−∞, ∞) ∈ Sd0 ist also [a, b]c eine Vereinigung offener Mengen, also offen. b) Ist U eine offene Menge, so können wir zu jedem x ∈ U einen offenen Quader Q = (a, b) ∈ Sd0 mit x ∈ Q ⊆ U wählen. Berücksichtigen wir Bemerkung, so können wir einen Quader Q0 = (a0 , b0 ) ∈ Sd0 mit rationalen Endseiten a0k und b0k finden, für den gilt x ∈ Q0 ⊆ Q ⊆ U richtig ist. Dieser Quader Q0 kommt in der (abzählbaren) Vereinigung aller Quader Q0 = (a, b) ∈ Sd0 mit rationalen Endseiten a0k und b0k , die Teilmengen von U sind, vor. Diese Vereinigung enthält aber auch jedes Element x von U , somit ist sie gleich U . Das bedeutet, U ist als abzählbare Vereinigung von Borelmengen (a, b) eine Borelmenge. Als Konsequenz erhalten wir, dass auch jede abgeschlossene Teilmenge von Rd Borelsch ist. Der Teil c) folgt aus Sd ⊆ U d ⊆ Bd und Bd = σ(Sd ) ⊆ σ(U d ) ⊆ Bd sowie σ(U d ) = σ(V d ). Also: Die σ-Algebra Bd aller Borelmengen des Rd ist die kleinste σ-Algebra aus Rd , die alle offenen (bzw. die alle abgeschlossenen) Teilmengen von Rd umfaßt. Mit anderen Worten, das Mengensystem U der offenen Mengen aus Rd und das Mengensystem V der abgeschlossenen Mengen aus Rd sind beide Erzeuger von Bd . Wie wir noch sehen werden, sind die messbaren Räume (Rd , Bd ) mit d ≥ 1 sehr gut geeignete Objekte für die Masstheorie im Rd und somit auch für Wahrscheinlichkeitstheorie und Mathematische Statistik. Einerseits ist das Mengensystem der Borelmengen abgeschlossen bezüglich Vereinigungsund Durchschnittsbildung abzählbar unendlich vieler seiner Elemente sowie bezüglich der Komplementbildung, andererseits ist es das kleinste solche System von Teilmengen von Rd , das auch alle Quader enthält. Dagegen umfasst die Potenzmenge P(Rd ) von Rd , also die Menge aller Teilmengen von Rd , einfach zu viele Elemente, um eine fruchtbare Masstheorie für den messbaren Raum (Rd , P(Rd )) zu entwickeln. Zu dieser Problematik siehe auch Elstrodt [3], Kapitel I, 1. 36 Uwe Küchler Die allgemeine Form von Borelmengen ist nicht bekannt. Das heißt, man kann nicht sagen, wie eine Menge beschaffen sein muss, damit sie Borelsch ist. Man weiss aber, dass die Gesamtheit Bd aller Borelmengen des Raumes Rd weitaus kleiner ist, als die Menge P(Rd ) aller Teilmengen von Rd (siehe z.B. Elstrodt,[3], Korollar 8.6). Als Ergänzung zu den Bemerkungen vor der Gleichung (2.14) halten wir fest, dass es Borelmengen gibt, die nicht durch eine endliche oder sogar abzählbar unendliche Folge endlicher oder abzählbar unendlicher Vereinigungs- und Durchschnittsbildungen sowie Komplementbildungen von Intervallen dargestellt werden können. Eine genaue Untersuchung dazu findet man in Billingsley [?], Seite 30 ff. 2.5 σ-Algebren und Abbildungen Es sei X eine Abbildung von einer nichtleeren Menge E in einen messbaren Raum (F, F). Aussage 2.17 Das Mengensystem EX := X −1 (F) := {X −1 (B)|B ∈ F} ist eine σ-Algebra aus E. Die σ-Algebra EX := X −1 (F) heißt auch σ-Algebra der Urbilder von F vermittels X, oder auch die von der Abbildung X erzeugte σ-Algebra in E. Beweis: Es gilt E ∈ EX wegen X −1 (F ) = E, die anderen Eigenschaften (2.5),(2.6) und (2.9) einer σ-Algebra folgen aus der Operationstreue von X −1 . Beispiele 2.18 a) Ist E eine nichtleere Menge, und ist A eine Teilmenge von E, so bezeichnet man mit 1A die sogenannte Indikatorfunktion von A. Sie ist definiert durch 1A (y) = 1 für alle y ∈ A und 1A (y) = 0 für alle y ∈ E\A. Für (F, F) wählen wir (R, B). Die σ-Algebra EX für X = 1A besteht aus den Elementen ∅, A, Ac , E. Semialgebren, Algebren, sigma-Algebren 37 b) Ist E eine nichtleere Menge, und ist X eine Abbildung von E auf eine höchstens abzählbare Menge F = {x1 , x2 , . . .} paarweise verschiedener xk , k = 1, 2, . . ., so bildet {{y ∈ E|X(y) = xk }, k = 1, 2, . . .} eine Zerlegung von E, und EX = X −1 (P(F )) besteht aus allen möglichen Vereinigungen von Elementen dieser Zerlegung (siehe Beispiele 2.8 c)). Die folgende Aussage wird im Weiteren oft benutzt werden. Aussage 2.19 Ist S ein Mengensystem in F , so gilt σ(X −1 (S )) = X −1 (σ(S )) (2.19) Beweis: Auf Grund der Eigenschaften (2.12) und (2.13) gilt σ(X −1 (S )) ⊆ X −1 (σ(S )), da X −1 (S ) ⊆ X −1 (σ (S )) und σ(X −1 (S )) die kleinste σAlgebra ist, die X −1 (S ) umfaßt. Um die umgekehrte Inklusion zu beweisen, setzen wir B := {C ⊆ F |X −1 (C) ∈ σ(X −1 (S))}. Das Mengensystem B ist eine σ-Algebra in F (man nutze die Operationstreue von X −1 ) und nach Definition von B gilt S ⊆ B. Also ist σ(S ) ⊆ B und somit gilt auf Grund der Definition von B die Beziehung X −1 (σ(S ) ⊆ X −1 (B) ⊆ σ(X −1 (S )). Beispiele 2.20 Setzen wir E = R1 und (F, F) = (R1 , B1 ) so gilt für X(y) = exp[y], y ∈ E die Beziehung EX = B1 . Davon überzeugt man sich leicht mittels (1.13) und S = {(a, b]| − ∞ ≤ a ≤ b ≤ ∞}. Übungsaufgaben 1) Zeigen Sie, dass die Mengensysteme aus den Beispielen 2.8 σ-Algebren sind. 2) Überzeugen sie sich davon, dass die Beziehungen (2.12) und (2.13) richtig sind. o n k k+1 n 3) für jede natürliche Zahl n aus N ist 4n := 2n | 2n , k = 0, 1, . . . 2 −1 eine Zerlegung des Intervalls [0, 1). 38 Uwe Küchler a) Man gebe die von 4n erzeugte σ-Algebra An := σ(4n ) von Teilmengen von [0, 1) an. b) Zeigen Sie, dass An ⊆ An+1 , n≥1 gilt. c) Gemäß Übungsaufgabe 4. aus Abschnitt 2.2 ist S := ∞ [ Ak k=1 eine Algebra. Zeigen Sie, dass S keine σ-Algebra ist. d) Welche Teilmengen von [0, 1) gehören zu σ(S )? 4) Es sei f die durch f (x) = |x|, x ∈ R1 , gegebene Abbildung von R1 in R1 . Bestimmen Sie Bf := f −1 (B). 5) Überzeugen Sie sich davon, dass die Menge {(x, y) ∈ R2 |x2 + y 2 < 1} eine offene Menge in R2 ist. 6) Beweisen Sie die Aussage 1.5. Hinweis:Zeigen Sie zunächst die Richtigkeit folgender Aussage. Es seien A, B1 , B2 , . . . , Bn Elemente einer Semialgebra S. Dann gibt es paarweise disjunkte Mengen C1 , C2 , . . . , Cm ∈ S, so dass gilt: n S Sm A\( Bi ) = ˙ Cj . i=1 j=1 Prüfen Sie nunmehr für A die Eigenschaften (2.4)-(2.6) einer Algebra nach. 7) Es seien (E, E) ein messbarer Raum und C irgendeine nichtleere Teilmenge von E. Durch EC := {C ∩ B|B ∈ E} ist ein Mengensystem in C definiert, das man die Spur von E auf C nennt. Man zeige: Semialgebren, Algebren, sigma-Algebren 39 a) das Mengensystem EC ist eine σ−Algebra von Teilmengen von C, b) ist S ein Erzeuger von E, so ist SC := S ∩ C = {B ∩ C|B ∈ S } ein Erzeuger von EC , d.h., es gilt (σ(S ))C = σ(SC ) (Hinweis zu a) und b): Man definiere eine Abbildung H von C in E durch H(x) := x, x ∈ C und verwende die Aussagen 2.17 und 2.19. c) wenn C ∈ E, so ist eine Teilmenge B von C genau dann EC -messbar, wenn sie E-messbar ist. d) Man gebe einen Erzeuger der σ−Algebra B[0,1) an. 8. Beweisen Sie: a) Wenn (Ai , i ∈ I) eine Menge offener Mengen in Rd ist, so ist auch ∪i∈I Ai offen in Rd . Eine analoge Aussage gilt nicht für abgeschlossene Mengen. b) Mittels a) zeige man: Wenn (Bi , i ∈ I) eine Menge abgeschlossener Mengen in Rd ist, so ist auch ∩i∈I Ai abgeschlossen in Rd . Eine analoge Aussage gilt nicht für offene Mengen. 40 Uwe Küchler Kapitel 3 Mengenfunktionen und Maße In diesem Abschnitt definieren wir Maße auf σ-Algebren, das sind Abbildungen von einer σ-Algebra in die Menge der nichtnegativen reellen Zahlen einschließlich eventuell des Elementes ∞. Anschaulich könnte man sich darunter Volumina von Körpern im Raum vorstellen, oder Flächeninhalte von ebenen Figuren, oder auch Längen eindimensionaler Strecken. Diese klassischen Maße von Körpern, Flächen und Strecken haben gemeinsame Eigenschaften. Sie sind nichtnegativ, und sie sind additiv: Fügt man zwei solcher Objekte zusammen, ohne dass sie sich überlappen, so ist das Gesamtmaß des neuen Objektes gleich der Summe der Maße der Einzelobjekte. Volumen von Quadern, Flächeninhalte von Rechtecken und Längen von geraden Strecken sind leicht anzugeben. Aber selbst wenn man die Fläche eines Kreises bestimmen soll, muss man zu einem Grenzwert von Approximationen durch endliche Vereinigungen immer feinerer Rechtecke übergehen. Das wird durch Abbildung 2.4 angedeutet. Um also auch Maße komplizierterer Objekte in den Griff zu bekommen, fordert man von Maßen eine gewisse Verträglichkeit mit Grenzübergängen, als passende Eigenschaft erweist sich die sigmaAdditivität. Mathematisch abstrakt werden die genannten Eigenschaften in Definition 3.1 erfaßt, und in dieser Abstraktheit eignet sich der Begriff des Maßes auch sehr gut zur mathematischen Modellierung von zufälligen Ereignissen und ihren Wahrscheinlichkeiten. Zu Beginn des Abschnitts 1.1. wurde nämlich angedeutet, dass zufällige Ereignisse mit Teilmengen einer Grundmenge von möglichen Ausgängen eines zufälligen Versuches werden können. In der Tat modelliert man diese zufälligen Ereignisse durch Elemente einer σ-Algebra von Teilmengen einer Menge möglicher Versuchsausgänge, und die Wahrscheinlichkeiten 41 42 Uwe Küchler dieser Ereignisse durch ein Maß auf dieser σ-Algebra. 3.1 Definitionen Es seien E eine nichtleere Menge, E ein Mengensystem aus E und µ eine Funktion von E in die Menge [0, ∞) ∪ ∞, wir nennen eine solche Funktion eine Mengenfunktion. Definition 3.1 a) Eine Mengenfunktion µ auf E heißt additiv auf E, falls µ(∅) = 0, (3.1) und falls für jedes n ∈ N und für jede Folge (Ak , k = 1, 2, . . . , n) paarn S weise disjunkter Mengen Ak aus E mit Ak ∈ E, gilt: k=1 µ [ n Ak = k=1 n X µ(Ak ). (3.2) k=1 b) Eine Mengenfunktion µ auf E heißt σ-additiv auf E, falls sie additiv auf E ist, und falls für jede abzählbar unendliche Folge (An , n ≥ 1) paarweise ∞ S disjunkter Mengen An aus E mit An ∈ E die Gleichung n=1 µ [ ∞ n=1 An = ∞ X µ(An ) (3.3) n=1 richtig ist. Aussage 3.2 Für jede additive Mengenfunktion µ auf einer Algebra A von Teilmengen einer Menge E gelten folgende Aussagen. Mengenfunktionen und Maße 43 1) Für alle A, B ∈ A mit A ⊆ B und µ(A) < ∞ gilt µ(B\A) = µ(B)−µ(A), insbesondere ist µ(A) ≤ µ(B). (Monotonie der additiven Mengenfunktion µ) 2) Für alle A, B ∈ A mit µ(A ∩ B) < ∞ gilt µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B). 3) Die beiden folgende Eigenschaften sind äquivalent: a) Die additive Mengenfunktion µ ist σ-additiv auf A. b) Für jede Folge (An ) aus A mit An ⊆ An+1 , µ(An ) < ∞, n ≥ 1, und ∞ ∞ S S An ∈ A, gilt lim µ(An ) = µ An . n=1 n→∞ n=1 (Stetigkeit der Mengenfunktion µ von unten) 4) Die beiden folgenden Eigenschaften sind äquivalent: a) Für jede Folge (An ) aus A mit An ⊇ An+1 , n ≥ 1, µ(A1 ) < ∞ und ∞ T T∞ A ∈ A gilt lim µ(A ) = µ An ). n n n=1 n→∞ n=1 (Stetigkeit der Mengenfunktion µ von oben) b) T Für jede Folge (An ) aus A mit An ⊇ An+1 , n ≥ 1, µ(A1 ) < ∞ und ∞ n=1 An = ∅ gilt lim µ(An ) = 0. n→∞ ( Stetigkeit der Mengenfunktion µ in der leeren Menge) 5) Die Eigenschaften in 3) ziehen die Eigenschaften in 4) nach sich. Im Fall, dass µ(E) < ∞ gilt, sind die Eigenschaften in 3) und 4) äquivalent. 6) Ist µ σ-additiv, so gilt für jede Folge (An ) aus A mit ∞ S An ∈ A die n=1 Ungleichung µ ∞ [ n=1 An ≤ ∞ X µ(An ). (3.4) n=1 ( Subadditivität der Mengenfunktion µ) 44 Uwe Küchler Beweis: 1) B = A ∪ (B\A), beide Mengen der rechten Seite sind disjunkt, also gilt µ(B) = µ(A) + µ(B\A) ≥ µ(A). 2) A ∪ B = (A\B) ∪ (B\A) ∪ (A ∩ B), die Mengen A\B, B\A und A ∩ B sind paarweise disjunkt, daraus folgt wegen der Additivität von µ und mit 1) die Behauptung. 3) Es gelte 3a), und es sei An ⊆ An+1 , µ(An ) < ∞, n ≥ 1, ∞ S An ∈ A. n=1 Mit Bn := An \An−1 , n ≥ 1, A0 := ∅ gilt S Bn = n S An und die Bn sind n paarweise disjunkt. Also gilt wegen Definition (3.3) der σ-Additivität und Eigenschaft 1) sowie (3.1) die Gleichung µ [ ∞ An n=1 = lim m→∞ =µ [ ∞ Bn n=1 m X = ∞ X µ(Bn ) = n=1 ∞ X [µ(An ) − µ(An−1 )] n=1 [µ(An ) − µ(An−1 )] = lim (µ(Am ) − µ(A0 )) = lim µ(Am ). m→∞ n=1 m→∞ Somit gilt die Eigenschaft 3b). Ist (An ) eine Folge paarweise disjunkter Mengen mit An ∈ A, n ≥ 1 sowie ∞ S An ∈ A, und gilt für mindestens ein n ≥ 1 die Gleichung µ(An ) = ∞, n=1 so ist die Beziehung (3.3) erfüllt. Wir koennen also µ(An ) < ∞ für alle n ≥ 1 voraussetzen. Nun definieren wirSeine monoton Sm S∞wachsende Folge ∞ Bm := n=1 An , m ≥ 1 aus A. Es gilt n=1 Bn = n=1 An und wegen 3b) ∞ ∞ m ∞ [ [ X X µ( An ) = µ( Bm ) = lim µ(An ) = µ(An ). n=1 m=1 n→∞ n=1 n=1 Also gilt 3a). 4 Aus 4a) folgt als Spezialfall 4b). Es gelte 4b), und T∞ es sei (An ) eine Folge aus A mit An ⊇ An+1 , n ≥ 1, µ(A1 ) < ∞ und n=1 An ∈ A. Wir setzen Mengenfunktionen und Maße 45 T∞ C := A \( m m n=1 An ), m ≥ 1. Die Folge (Cm ) ist monoton fallend mit T∞ m=1 Cm = ∅. Wegen T∞4b) ergibt sich limm→∞ µ(Cm ) = 0. Das T∞bedeutet limn→∞ µ(An ) − µ(( n=1 An ) = 0, also limn→∞ µ(An ) = µ(( n=1 An ) = 0. Somit gilt 4a). Wir zeigen, dass 3a) auch 4b) nach sich zieht. Es sei ∞ T An ⊇ An+1 , n ≥ 1, An ∈ A und µ(A1 ) < ∞. Wir definieren die n=1 paarweise disjunkten Cn := An \An+1 , n ≥ 1, und erhalten für jedes ∞ ∞ S T n ≥ 1 die Beziehung An = Ck ∪ Ak . Aus Definition (3.3) der σk=n Additivität, Ck ∩ k=1 T∞ n=1 An = ∅ für alle k ≥ 1 und folgt µ(An ) = ∞ X µ(Ck ) + µ n→∞ ∞ T µ(Ck ) < µ(A1 ) < ∞ k=1 An . n=1 k=n Somit ist lim µ(An ) = µ \ ∞ ∞ P An . n=1 Nun setzen wir voraus, dass µ ein finites Maß ist und wollen zeigen, dass aus 4b) die Eigenschaft der σ-Additivität folgt. Dazu sei (An ) eine Folge ∞ S paarweise disjunkter Mengen mit An ∈ A, n ≥ 1 sowie An ∈ A. Wir n=1 S∞ definieren Cm := n=m An , m ≥ 1. Die Folge (Cm ) ist monoton fallend ∞ S T An ∈ A sowie Cm = C1 ∩ Ac1 ∩ Ac2 ∩ mit ∞ m=1 Cm = ∅ und C1 = n=1 . . . Acm−1 ∈ A, m ≥ 2. Folglich gilt wegen der Additivität von µ und 4b) µ( ∞ [ n=1 An ) = µ( m [ An )+µ(Cm+1 ) = n=1 m X n=1 m→∞ µ(An )+µ(Cm+1 ) −→ ∞ X µ(An ) n=1 Also ist (3.3) richtig. 5) Ist n ≥ 2, so gilt n [ Ai = A1 ∪ (A2 \A1 ) ∪ (A3 \(A1 ∪ A2 )) ∪ . . . (An \(A1 ∪ . . . ∪ An−1 ), i=1 und da die Mengen A1 , Aj \(A1 ∪ . . . ∪ Aj−1 ) für j = 2, . . . , n paarweise disjunkt sind, haben wir für alle n ≥ 2 wegen der Additivität und der 46 Uwe Küchler Monotonie von µ µ [ n Ai = i=1 n X µ(Ai \(Ai ∪ . . . ∪ Ai−1 )) ≤ i=1 n X µ(Ai ) ≤ i=1 ∞ X µ(Ai ) i=1 Mittels der Stetigkeit der Mengenfunktion µ von unten ergibt sich ∞ n S S µ( Ai ) = lim µ( Ai ) und somit 5). i=1 n→∞ i=1 Definition 3.3 Es sei E eine σ-Algebra von Teilmengen einer nichtleeren Menge E. 1) Ist µ eine σ-additive Mengenfunktion auf E, so nennt man µ ein Maß auf E und das Tripel (E, E, µ) einen Maßraum. 2) Gilt für ein Maß µ auf einer σ-Algebra E die Beziehung µ(E) < ∞, so heißt µ endliches (oder finites) Maß. Gilt µ(E) = 1, so nennt man µ normiert. S 3) Gibt es eine Folge (En ) aus E mit En = E, wobei für alle n gelte n µ(En ) < ∞, so heißt µ σ-endliches oder σ-finites Maß. Normierte Maße heißen auch Wahrscheinlichkeitsmaße (oder Wahrscheinlichkeitsverteilungen), und µ(A) nennt man in diesem Fall die Wahrscheinlichkeit von A. Ein normierter Maßraum (E, E, µ) ist ein Maßraum, dessen Maß µ normiert ist. Er wird auch Wahrscheinlichkeitsraum genannt. Beispiele 3.4 k a) Es seien λ > 0, E := N0 , E := P(N0 ) und qk = λk! , k ∈ N0 . Durch X µ(B) := qk , B ⊆ N0 , (3.5) k∈B ist ein endliches Maß µ auf der σ-Algebra P(N0 ) mit µ(N0 ) = exp (λ) gegeben. Mit der Normierung µ∗ (.) := exp (−λ)µ(.) wird (N0 , P(N0 ), µ∗ ) zu einem Wahrscheinlichkeitsraum. Mengenfunktionen und Maße 47 b) Sind E eine nichtleere Menge, E := {A ⊆ E|A oder Ac ist höchstens abzählbar}, so ist durch µ(B) := Anzahl der Elemente der MengeB, B ∈ E, (3.6) falls B endlich ist, µ(B) = ∞ anderenfalls, ein Maß µ auf E definiert. µ ist finit, falls E endlich ist, und µ ist σ−finit, falls E abzählbar unendlich ist. Es seien (E, E, µ) ein Maßraum und C eine E-messbare Teilmenge von E. Die Mengenfunktion µC (.), definiert durch µC (B) := µ(B), B ∈ EC , (3.7) ist die Einschränkung von µ auf den messbaren Raum (C, EC ). Ist ν(.) eine σ−additive Mengenfunktion auf einem System S von Teilmengen einer Menge E, und gibt es ein Maß µ(.) auf einer σ−Algebra E von Teilmengen von E mit S ⊆ E und µ(B) = ν(B) ür alle B ∈ S , so heißt µ eine Fortsetzung der Mengenfunktion ν von S auf E. Definition 3.5 Eine messbare Menge A aus einem Maßraum (E, E, µ) heißt eine µ-Nullmenge, falls µ(A) = 0 gilt. Gilt eine Eigenschaft (z.B. X(y) ≥ 0) nicht für alle y ∈ E, sondern nur für alle y aus dem Komplement Nc einer µ-Nullmenge N, so sagt man, die Eigenschaft gelte µ−fast überall, kurz: µ−f.ü. Ist (An , n ≥ 1) eine Folge von µ-Nullmengen, so istSwegen der Subadditivität von Maßen (Eigenschaft 5) aus Aussage 3.2) auch n≥1 An eine µ-Nullmenge. In der Wahrscheinlichkeitstheorie werden Ereignisse mit der Wahrscheinlichkeit Null häufig ignoriert: mit ihrem Eintreten braucht nicht gerechnet zu werden. Bisher haben wir einige unmittelbare Folgerungen aus der Additivität und σAdditivität von Mengenfunktionen hergeleitet und den Begriff des Maßes auf einer σ-Algebra E definiert. Wie gelangt man aber zu konkreten Maßen? Die Angabe der Werte µ(A) für alle A ∈ E erscheint zunächst hoffnungslos, da man i.a. nicht einmal alle Elemente von E kennt, z.B. für E = Bd , d ≥ 1. Wir widmen uns als nächstes dieser Frage und beginnen mit dem relativ einfachen Fall sogenannter diskreter Maße. 48 Uwe Küchler 3.2 Diskrete Maße Definition 3.6 a) Es seien M eine Teilmenge der natürlichen Zahlen, E irgend eine Menge und Y := {yn , n ∈ M } eine endliche oder abzählbar unendliche Teilmenge von E. Weiterhin sei (qn , n ∈ M ), eine Folge positiver reeller Zahlen. Durch µ(B) := X qn , B ⊆ E, (3.8) n:yn ∈B ist auf der σ-Algebra P(E) ein Maß µ definiert. Die Menge Y heißt Träger des Maßes µ und die qn nennt man die Einzelmaße von µ. Wegen (3.8) gilt µ({yn }) = qn , n ∈ M und µ(E\Y ) = 0. Das Maß µ heißt diskretes Maß, da es in diskreten“ Punkten yn konzentriert ist. ” (Das Wort diskret steht hier für abgetrennt, einzeln.) b) Gilt in a) die Beziehung qn = 1 für alle n ∈ M , so ist µ(B) = Anzahl der Elemente y aus Y, die auch zu B gehören. Das Maß µ heißt in diesem Fall das Zählmaß auf Y . q1 q2 y2 y1 q1 q3 y2 y1 E q3 q2 y2 B y2 E Abbildung 3.1: Diskretes Maß µ mit Träger {y1 , y2 , y3 } und Einzelmaßen q1 , q2 , q3 . Das Maß von B ist gemäß(3.8) µ(B) = q1 + q2 . Mengenfunktionen und Maße 49 Diskrete Maße sind einfach zu handhaben, wegen (3.8) sind sie für jede Menge B ⊆ Y explizit definiert und können (zumindestens prinzipiell) unmittelbar berechnet werden. Da sie durch die Folge (yn , qn )n∈M eindeutig bestimmt sind, heißt mitunterP die Folge (yn , qn )n∈M bereits ein diskretes Maß. Gilt überdies n∈M qn = 1, so spricht man von diskreten Wahrscheinlichkeitsmaßen oder -verteilungen (die Gesamtwahrscheinlichkeit Eins ist auf die yn , n ∈ M, verteilt). Ist Y eine endliche Menge, z.B. Y = {y1 , y2 , . . . , yn }, und gilt qk ≡ n1 , so heißt die dadurch gegebene Wahrscheinlichkeitsverteilung die gleichmäßige Verteilung auf {y1 , y2 , . . . , yn }. Sie stellt das mathematische Modell der rein zufälligen Auswahl eines Elementes aus {y1 , y2 , . . . , yn } dar: Jedes Element von Y wird bei einer zufälligen Auswahl mit der gleichen Wahrscheinlichkeit gewählt. Klassische Beispiele sind das Werfen einer Münze mit den Versuchsergebnissen W “für Wappen und Z “für Zahl, das Werfen eines regelmäßigen Spielwürfels ” ” mit den möglichen Ergebnissen 1, 2, . . . , 6 oder die zufällige Auswahl einer Kugel aus einer Lostrommel beim Lotto 6 aus 49 “. ” 3.3 Maße auf (R, B) Bisher haben wir Beispiele für Maße kennen gelernt, die explizit auf gegebenen σ−Algebren, meist auf größtmöglichen, nämlich den Potenzmengen, definiert werden konnten. Im Allgemeinen werden Maße jedoch nur auf sehr viel kleineren Mengensystemen vorgegeben und müssen dann auf größere geeignet fortgesetzt werden. In diesem Abschnitt werden wir Maße auf der reellen Achse R, versehen mit der σ−Algebra B der Borelmengen, durch einfachere Objekte, nämlich ihre Verteilungsfunktionen, charakterisieren, was den Umgang mit ihnen wesentlich erleichtert. Dabei beschränken wir uns zunächst auf finite Maße, zu denen auch die Wahrscheinlichkeitsmaße gehören. Im Weiteren behandeln wir lokal finite Maße, das sind solche, die für beschränkte Mengen endlich sind. Dadurch werden wichtige σ−finite Maße wie das Lebesguemaß, das jedem Intervall seine Länge als Maß zuweist, erfasst. Definition 3.7 Für jedes endliche Maß µ auf (R, B) ist durch F (x) := µ((−∞, x]), x ∈ R, (3.9) 50 Uwe Küchler eine Funktion F auf R definiert, die als Verteilungsfunktion des Maßes µ bezeichnet wird. Wegen Eigenschaft 3.2a) gilt für x ≤ y die Beziehung µ((x, y]) = F (y) − F (x). (3.10) Die folgende Aussage fasst einige weitere Eigenschaften von Verteilungsfunktionen F zusammen. Aussage 3.8 Es sei F die Verteilungsfunktion eines endlichen Maßes µ auf (R, B). Dann gilt: a) F ist monoton nichtfallend: x ≤ y =⇒ F (x) ≤ F (y) für alle x, y ∈ R, b) lim F (x) =: F (−∞) = 0, x↓−∞ lim F (x) =: F (∞) < ∞, x↑∞ c) F ist von rechts stetig: F (x + 0) := lim F (y) = F (x), y↓x d) F (x) − F (x − 0) := F (x) − lim F (y) = µ({x}), x ∈ R1 . y↑x Beweis: Zum Beweis werden die Eigenschaften 1), 3) und 4) von Aussage 3.2 eingesetzt. Dazu beachte man: a) (−∞, x] ⊆ (−∞, y] für x ≤ y, T b) aus xn ↓ −∞ folgt (−∞, xn ] = ∅, n S aus xn ↑ +∞ folgt (−∞, xn ] = R, n c) aus yn ↓ x ergibt sich T (−∞, yn ] = (−∞, x]. n T d) µ({x}) = µ( (x − n1 , x]) = lim [F (x) − F (x − n1 )] = F (x) − F (x − 0). n n→∞ Die Punkte x ∈ R mit µ({x}) > 0 sind also genau die Punkte aus R, in denen F nicht stetig ist: F (x + 0) 6= F (x − 0). Der Wert F (∞) ist gleich dem gesamten Maß µ(R) des Maßes µ. Mengenfunktionen und Maße 51 1 qn q3 q2 q1 y1 y2 y3 ... yn Abbildung 3.2: Verteilungsfunktion eines diskreten Maßes µ auf R1 mit dem Träger {y1 , y2 , . . . , yn } und den Einzelmaßen q1 , q2 , . . . , qn Definition 3.9 Ist F eine Funktion auf R mit den Eigenschaften a) - c) aus Aussage 3.8, so nennt man sie ebenfalls eine Verteilungsfunktion auf R. Im Folgenden wollen wir zeigen, dass es zu jeder Verteilungsfunktion F auf R ein Maß µ auf (R, B) gibt, so daß (3.10) gilt. Es sei F eine Verteilungsfunktion auf R. Durch µF ((a, b]) := F (b) − F (a), −∞ ≤ a ≤ b ≤ ∞ (3.11) mit F (−∞) := 0, F (∞) := lim F (x), x→∞ wird eine additive Mengenfunktion µF auf der Semialgebra S aller nach links halboffenen Intervalle aus R definiert. Sind nämlich A := (a1 , a2 ] und B := (b1 , b2 ] aus S mit A ∩ B = ∅ und A ∪ B ∈ S , so muss a2 = b1 oder b2 = a1 gelten. Im ersten Fall ist A ∪ B gleich (a1 , b2 ], im zweiten gleich (b1 , a2 ]. Die Additivität von µF auf S folgt nun im ersten Fall aus F (b2 ) − F (a1 ) = (F (b2 ) − F (b1 )) + (F (a2 ) − F (a1 )). Der zweite Fall ergibt sich analog. Wir erweitern µF zu einer additiven Mengenfunktion auf der kleinsten Algebra A0 = A0 ( S ), die S umfaßt. Für A ∈ A0 gilt (siehe Theorem 2.5) A = n S (ak , bk ] für gewisse Intervalle k=1 (ak , bk ], die paarweise disjunkt gewählt werden können. Nun definieren wir 52 Uwe Küchler µF (A) := n X F (bk ) − F (ak ). (3.12) k=1 Die Addivität dieser Mengenfunktion µ auf A0 ist einfach zu sehen. Die folgende Aussage ist entscheidend für unser Vorhaben, nachzuweisen, dass µF zu einem finiten Maß auf B erweitert werden kann. Aussage 3.10 Die durch (3.12) definierte Mengenfunktion µF ist σ-additiv auf A0 (S ). Beweis: (Wir folgen hier einem Beweis, der in Siraev [[7]], Kapitel II, angegeben ist.) Wegen Aussage 3.2 Punkt 4) genügt es, die Stetigkeit von µF in der leeren Menge zu zeigen. Dazu nehmen wirTan, (An ) sei eine Folge von Mengen aus A0 (S ) mit An ⊇ An+1 , n ≥ 1, und n An = ∅. Wir wollen zeigen, dass limn→∞ µF (An ) = 0 gilt. Aus Aussage 3.2 Punkt 3) folgt dann, dass µF eine σ−additive Mengenfunktion auf A0 (S ) ist. Erster Schritt: Wir nehmen zusätzlich an, dass es eine positive Zahl N gibt, so dass alle An in dem Intervall [−N, N ] enthalten sind. Die Mengen An haben eine einfache Struktur. Sie sind (siehe Theorem 2.5) endliche Vereinigungen von nach links halboffenen Intervallen An = kn [ In,k mit In,k = (an,k , bn,k ], k = 1, 2, . . . , kn . (3.13) n=1 Die Funktion F ist rechtsseitig stetig. Folglich gibt es zu jeder positiven Zahl ε Zahlen a0n,k mit an,k < a0n,k < bn,k und F (an,k ) − F (a0n,k ) < ε · 2−n · 2−kn , 1 ≤ k ≤ kn , n ≥ 1. Sn 0 Die Mengen Bn := kn=1 [an,k , bn,k ] sind T abgeschlossen, es T gilt Bn ⊆ An und −n µF (An \Bn ) < ε · 2 , n ≥ 1. Wegen n An = ∅ gilt auch n Bn = ∅. T 0 Lemma 3.11 Es gibt eine Zahl n0 ≥ 1 mit nn=1 Bn = ∅. Das bedeutet, bereits endlich viele BSn haben einen leeren Durchschnitt. T S der c Beweis: Wegen n Bn = ∅ gilt n Bn = n R\Bn = R, und somit überdeckt das Mengensystem (Bnc )n≥1 aus offenen Mengen Bnc insbesondere die abgeschlossene und beschränkte Menge [−N, N ]. Nach einem Satz aus der Analysis Mengenfunktionen und Maße 53 (Überdeckungssatz von heine und borel) genügt bereits eine endliche Anc zahl von offenen Das heißt, es gibt ein Sn0 Mengen Bn , um [−N, N ] zu überdecken. Tn0 n0 ≥ 1 mit n=1 R\Bn ⊇T[−N, N ]. Also ist n=1 Bn ⊆ [−N, N ]c , was wegen 0 Bn ⊆ [−N, N ], n ≥ 1, zu nn=1 Bn = ∅ führt. Nun gilt An0 ⊆ An0 −1 ⊆ . . . A1 und µF (An0 ) = µF (An0 \( n0 \ Bk )) + µF ( k=1 µF (An0 \( n0 \ Bk )) ≤ µF ( k=1 µF (Ak \Bk ) ≤ Bk ) = k=1 k=1 n0 X n0 \ n0 [ Ak \Bk ) ≤ k=1 n0 X ε · 2−k ≤ ε. k=1 Wir haben also für jedes noch so kleine, aber positive ε ein n0 = n0 (ε) gefunden, so dass 0 ≤ µF (An ) ≤ µF (An0 ≤ ε für alle n ≥ n0 gilt. Das bedeutet limn→∞ µF (An ) = 0. Zweiter Schritt: Es sei ε > 0. Wir wählen ein N so groß, dass ε µF ([−N, N ]) > µF (R) − 2 erfüllt ist. Dann gilt µF (An ) = µF (An ∩ [−N, N ]) + µF (An ∩ (R\[−N, N ])) ≤ ε µF (An ∩ [−N, N ]) + . 2 Ersetzt man im ersten Beweisschritt die Mengen An durch An ∩ [−N, N ], so ergibt sich für genügend großes n, dass µF (An ∩ [−N, N ]) < 2ε wird. Ganz allgemein gilt der folgende Satz 3.12 (Fortsetzungssatz für σ-additive Mengenfunktionen) Es sei µ eine σ-additive σ-finite Mengenfunktion auf einer Algebra A0 von Teilmengen einer nichtleeren Menge E. Dann gibt es ein eindeutig bestimmtes Maß µ̃ auf σ(A0 ) für das gilt µ̃(A) = µ(A) für alle A aus A0 . 54 Uwe Küchler Man nennt µ̃ die Fortsetzung der Mengenfunktion µ von A0 zu einem Maß auf σ(A0 ) und bezeichnet es der Einfacheit halber ebenfalls mit µ. Wir begnügen uns hier mit einer Beweisskizze, eine detaillierte Darstellung der Einzelheiten findet man z.B. in Elstrodt [??], Kap.II. Für jede Teilmenge B von E definieren wir µ∗ (B) := inf{ ∞ X µ(Bn )|Bn ∈ A0 , n ≥ 1, B ⊆ n=1 ∞ [ Bn } n=1 mit inf ∅ := ∞. Dadurch ist eine Mengenfunktion µ∗ (.) auf der Potenzmenge P(E) mit Werten in R ∪ {∞} definiert. Sie heißt das von µ erzeugte äußere Maß, ihre Konstruktion und der Nachweis ihrer in der folgenden Aussage angegebenen Eigenschaften stammen weitgehend von c. caratheodory (griechischer Mathematiker, 1873-1950). Die Menge aller Teilmengen B von E, für die gilt µ∗ (C) = µ∗ (C ∩ B) + µ∗ (C ∩ B c ) für alle C ⊆ R mit µ∗ (C) < ∞ bezeichnen wir mit Aµ∗ . Die folgende Aussage fasst eine ganze Reihe von Eigenschaften der σ−Algebra Aµ∗ und des äußeren Maßes µ∗ zusammen. Aussage 3.13 Das Mengensystem Aµ∗ und das äußere Maß µ∗ haben folgende Eigenschaften: a) Aµ∗ ist eine σ−Algebra, b) A0 ⊆ Aµ∗ , (und folglich auch σ(A0 ) ⊆ Aµ∗ ) c) die Einschränkung µ∗ |Aµ∗ von µ∗ auf Aµ∗ ist ein Maß, d) auf A0 stimmen µ∗ und µ überein: µ∗ (B) = µ(B), B ∈ A0 , (µ∗ ist also eine Fortsetzung von µ auf die σ−Algebra Aµ∗ ) e) µ∗ ist die einzige σ−finite Fortsetzung von µ auf σ(A0 ). Folgerung 3.14 Die durch µF in (3.12) gegebene σ-additive Mengenfunktion µF auf A0 (S ) besitzt eine eindeutig bestimmte Fortsetzung auf die σ-Algebra B = σ(A0 (S )) = σ(S ) der Borelmengen aus R. Wir werden sie ebenfalls mit µF bezeichnen. Mengenfunktionen und Maße 55 0, 5 1 0 1 2 3 4 0 1 2 3 4 Abbildung 3.3: Einzelmaße und Verteilungsfunktion der Binomialverteilung B(n, p) mit n = 4, p = 0, 4 Damit ist insgesamt eine bijektive Entsprechung zwischen den endlichen Maßen auf B und den Verteilungsfunktionen F auf R hergestellt: Jedem endlichen Maß µ ist durch (3.8) eine Verteilungsfunktion F zugeordnet, und zu jeder Verteilungsfunktion F existiert ein Maß µ, dessen Verteilungsfunktion eben dieses F gemäß (3.8) ist. Wenn man also ein Maß µ auf R1 charakterisieren will, so muss man nicht µ(B) für jede Borelmenge B aus B1 kennen, sondern es genügt, die Verteilungsfunktion F des Maßes µ zu kennen. Die Untersuchung von Maßen µ auf B ist somit zurückgeführt auf die Untersuchung von Verteilungsfunktionen F auf R. Beispiele 3.15 a) Es sei (yn , qn ), n ≥ 1, ein diskretes endliches Maß auf (R, P(R)), siehe Beispiele 1.22 und die Bemerkungen danach. Seine Verteilungsfunktion F ist gegeben durch F (x) := µ((−∞, x]) = X qk , x ∈ R. k:yk ≤x Die Funktion F ist eine monoton nichtfallende, stückweise (d.h. auf den Intervallen [yk , yk+1 ), falls man die Folge (yn ) monoton wachsend anordnen kann) konstante, von rechts stetige Funktion mit Sprüngen der Höhe qk = F (yk ) − F (yk − 0) in den Punkten yk , k ≥ 1. 56 Uwe Küchler b) Es seien a und b reelle Zahlen mit a < b. Durch 0, falls y ≤ a L(y) := y − a, falls y ∈ (a, b) b − a, falls y ≥ b ist die Verteilungsfunktion eines Maßes µL =: λ[a,b] auf (R, B) gegeben. Für jedes Intervall (c, d] ⊆ [a, b] gilt λ[a,b] ((c, d]) = d − c, und jede zu [a, b] disjunkte Borelmenge besitzt das λ[a,b] -Maß Null. 1 Das normierte Maß b−a λ[a,b] wird gleichmäßige Wahrscheinlichkeitsverteilung auf dem Intervall [a, b] genannt. Sie modelliert den zufälligen Versuch, rein zufällig (sozusagen auf gut Glück) einen Punkt aus dem Intervall [a, b] auszuwählen und ist damit das kontinuierliche Gegenstück zur gleichmäßigen Verteilung auf einer endlichen Menge (siehe ). Mit der Bezeichnung Ik := (k, k + 1], k ∈ Z, gilt n X λIk = λ(−n,n+1] , n ≥ 1 (3.14) −n Aussage 3.16 Durch λ(B) := sup{λ(−n,n+1] (B)|n ≥ 1}, B ∈ B, (3.15) ist ein σ−finites Maßλ(.) auf (R, B) definiert, das folgende Eigenschaften hat λ([a, b]) = b − a, für alle a, b ∈ R mit a ≤ b, (3.16) λ(B + {x}) = λ(B), B ∈ B, (3.17) (Translationsinvarianz) Das Maß λ heißt Lebesguemaß (Henri Lebesgue, französischer Mathematiker, 1875-1941). Beweis:Sind Bn , n ≥ 1 paarweise disjunkte Borelmengen aus S R, so gilt mit B := n Bn nach Definition λ(B) = sup{λ(−n,n+1] (B)|n ≥ 1}. Mengenfunktionen und Maße 57 Da (λ(−n,n+1] (B), n ≥ 1) eine wachsende Folge bildet, ergibt die rechte Seite dieser Gleichung unter Verwendung von (3.14) den Wert lim λ(−n,n+1] (B) = lim n→∞ n→∞ n X λIk (B) = k=−n ∞ X λIk (B). k=−∞ Nun verwenden wir die σ−Additivität der Maße λIk und erhalten ∞ X λIk (B) = k=−∞ ∞ X ∞ X λIk (Bn ). k=−∞ n=1 Auf Grund des großen Umordnungssatzes für Reihen nichtnegativer Zahlen ergibt sich ∞ X ∞ X k=−∞ n=1 λIk (Bn ) = ∞ X ∞ X n=1 k=−∞ λIk (Bn ) = ∞ X λ(Bn ). n=1 Damit ist die σ−Additivität der Mengenfunktion λ bewiesen. Da λ auf der σ−Algebra S B definiert ist, handelt es sich um ein Maß auf B. Wegen λ([−n, n]) < ∞ und n [−n, n] = R ist λ σ−finit. Für alle a, b ∈ R mit a ≤ b gibt es ein hinreichend großes N ∈ N mit [a, b] ⊆ [−N, N ]. Für dieses N gilt λ([a, b]) = sup{λ(−n,n+1] ([a, b])|n ≥ 1} = λ(−N,N +1] ([a, b]) = L(b) − L(a − 0) = b − a. Die Menge M aller Borelmengen aus R, für die die Translationseigenschaft (3.17) gilt, ist eine σ−Algebra. Hat man nämlich eine Folge paarweise disjunkter Borelmengen Bn , so sind auch alle Bn + {x} für beliebige x aus R Borelmengen. (Die Abbildung h(z) := z − x, z ∈ R, ist stetig, damit Borelmessbar, und es gilt h−1 (B) = {y ∈ R|h(y) S ∈ B} = {y ∈SR|y − x ∈ B} = {z + x|z ∈ B} = B + {x}.) Außerdem ist n (Bn + {x}) = ( S n Bn ) + {x}) und dieSBn + {x} sind ebenfalls paarweise disjunkt. Also gilt λ((Sn Bn ) + {x}) = P λ( n (Bn + {x})) = n λ((Bn + {x})). Folglich gehört auch ( n Bn ) + {x}) zu M. Dass mit B auch B c zu M gehört, zeigt man auf die gleiche Weise mittels (B + {x})c = B c + {x}. Wegen ∅ + {x} = ∅ gehört auch die leere Menge zu M. Offensichtlich ist jedes Intervall (a, b] Element von M. Nun ergibt sich M = B aus (2.13) und (2.12). Insbesondere gilt für jede reelle Zahl x die Gleichung λ({x}) = 0. Zum Nachweis setze man in (3.16) a = b = x. Ist B eine abzählbar unendliche Teilmenge von R, so gilt. folglich λ(B) = 0. Abzählbar unendliche Teilmengen 58 Uwe Küchler von R sind also Nullmengen bezüglich des Lebesguemaßes, m.a.W. LebesgueNullmengen.Somit hat die Menge Q aller rationalen Zahlen aus R das Lebesguemaß Null. Nicht jede Lebesgue-Nullmenge aus R ist jedoch höchstens abzählbar unendlich. Ein häufig zitiertes Beispiel ist das sogenannte Cantorsche Diskontinuum, eine Teilmenge des Intervalls [0, 1], die wie folgt konstruiert wird. Wir entfernen in einem nullten Schritt aus dem Intervall [0, 1] das mittlere offene Drittel I0,1 := ( 31 , 23 ). Der Rest besteht aus den abgeschlossenen Intervallen K0,1 := [0, 31 ] und K0,2 := [ 32 , 1] mit λ(K0,1 ∪ K0,2 ) = 23 . Aus jeder dieser beiden Mengen entfernen wir im ersten Schritt wieder das offene mittlere Drittel I1,1 := ( 19 , 29 ) bzw. I1,2 := ( 79 , 98 ). Nun ist die Restmenge auf die vier abgeschlossenen Intervalle K1,1 := [0, 91 ], K1,2 := [ 29 , 13 ], K1,3 := [ 23 , 79 ], K1,4 := [ 98 , 1] reduziert. Diese haben zusammen das Lebesguemaß 4 · 19 = ( 32 )2 . Führt man dieses Vefahren fort, so erhält man nach dem n-ten Schritt 2n+1 S n+1 abgeschlossene Intervalle Kn,k , k = 1, 2, . . . , 2n+1 . Die Menge Kn := 2k=1 Kn,k ist als endliche Vereinigung abgeschlossener Mengen abgeschlossen und hat die Gesamtlänge λ(Kn ) = ( 32 )n+1 . Die Folge (Kn ), n ≥ 0 ist eine fallende Mengenfolge, da aus jedem Kn,k im nächsten Schritt das offene mittlere Drittel T∞ entfernt wird. Wir definieren das Cantorsche Diskontinuum C als C := n=0 Kn . Wegen der Stetigkeit das Lebesguemaßes λ von oben (siehe Aussage 3.2) gilt λ(C) = limn→∞ λ(Kn ) = limn→∞ ( 32 )n+1 = 0. Die Menge C enthält alle Endpunkte der offenen Intervalle In,j , j = 1, 2, . . . , 2n ; n ≥ 0, von denen es abzählbar unendlich viele gibt. Darüberhinaus enthält sie aber noch weitaus mehr Elemente, wie die folgende Aussage zeigt. Aussage 3.17 Die Menge C ist eine abgeschlossene, überabzählbar unendliche Menge vom Lebesguemaß Null. Dass C als Durchschnitt abgeschlossener Mengen abgeschlossen ist, haben wir in Bemerkung 2.15 gesehen. Die Überabzählbarkeit ist schwieriger nachzuweisen. Den entsprechenden Beweis und eine Reihe weiterer Eigenschaften der Menge C findet man in Elstrodt [3] Kap.II, §8. Die Menge C enthält kein einziges Intervall positiver Länge, sonst wäre ihr Lebesguemaß positiv. Sie ist also sehr zerstreut auf [0, 1], daher die Bezeichnung Diskontinuum. Mengen mit den Eigenschaften, die in Aussage 3.17 genannte wurden, treten in der Wahrscheinlichkeitstheorie bei stochastischen Prozessen, z.B. der Brownschen Bewegung und anderen Diffusionsprozessen, als Zeiten des Durchschreitens gewisser Niveaus, beispielsweise der Null, auf, vgl. []. Mengenfunktionen und Maße 59 1 λ F (x) f (x) x x Abbildung 3.4: Dichte f (x) = λe−λx 1[0,∞) (x) und Verteilungsfunktion F (x) = (1 − e−λx ) Beispiele 3.18 a) (Vorläufige Definition von Dichten, vgl. Abschnitt 3.5.) Es seien F eine Verteilungsfunktion und f eine nichtnegative, stückweise stetige Funktion auf R. (Eine Funktion f (.) heißt stückweise stetig auf R, falls sie auf R definiert ist, falls sie stetig ist außer in endlich vielen Punkten y1 , y2 , . . . , yn , und falls in diesen Punkten die rechts- und linksseitigen Grenzwerte limy↑yk f (y), limy↓yk f (y), k = 1, 2, . . . , n existieren und endlich sind.) Es gelte Zx F (x) = f (s)ds, x ∈ R. −∞ Dann heißt F eine absolutstetige Verteilungsfunktion und f nennt man eine Dichte von F . (Zu absolutstetigen Funktionen siehe auch Kapitel VI.) Es gilt in diesem Fall f (y) = und dF (y) = F 0 (y) dy für alle y ∈ R, in denen f stetig ist, Z∞ f (s)ds = F (∞) < ∞. −∞ (Die Integrale in diesem Beispiel sind Integrale im Sinne von Riemann, wir werden den Begriff der Dichte in Abschnitt 3.5 allgemeiner formulieren.) b) Das Lebesguemaß λ[a,b] hat eine Dichte, und zwar 1[a,b] (.). 60 Uwe Küchler x) Es sei λ > 0. Durch f (y) = λ exp −(λy), y ∈ R, ist die Dichte eines Wahrscheinlichkeitsmaßes mit der Verteilungsfunktion F (y) = (1 − exp (−λy)1[0,∞) (y), y ∈ R, gegeben, der Exponentialverteilung mit dem Parameter λ. Die Cantorsche Funktion aus der Stetigkeit einer Verteilungsfunktion folgt noch nicht, dass sie eine Dichte besitzt. Wir geben hier ein Gegenbeispiel an, dessen Konstruktion auf Georg Cantor zurückgeht. Es sei 1 2 1 F1 (x) = 0, x ≤ 0, F1 (x) = , x ∈ I0,1 = ( , ), F1 (x) = 1, x ≥ 1. 2 3 3 Auf den Intervallen K0,1 = (0, 31 ) und K0,2 = ( 23 , 1) wird F1 linear fortgesetzt, so dass eine stetige Funktion entsteht. Wir definieren die Funtion F2 durch 0 : 1 4 : 1 : F2 (x) = 2 3 : 4 1 : x≤0 x ∈ I1,1 = ( 91 , 29 ) x ∈ I0,1 = ( 31 , 23 ) x ∈ I1,2 = ( 97 , 89 ) x≥1 Auf den übrigen Intervallen K1,1 , . . . , K1,4 wird F2 wieder linear zu einer insgesamt stetigen Funktion fortgesetzt. Dieser Prozeß der Definition neuer Funktionen Fn+1 aus Fn wird fortgeführt. Auf den offenen Intervallen Im,k , k = 1, 2, . . . , m + 1, m = 0, 1, . . . , n auf denen Fn konstant ist, wird Fn+1 gleich Fn gesetzt. Die restlichen abgeschlossenenen Intervalle Kn,k , k = 1, 2, . . . , 2n werden jeweils in drei gleich lange Teile geteilt, auf dem mittleren offenen Intervall wird Fn+1 gleich dem arithmetischen Mittel von Fn auf den benachbarten Konstanzintervallen von Fn gesetzt, und auf dem ersten und dritten Teil des Intervalls wird Fn+1 wieder linear zu einer stetigen Funktion fortgesetzt. (Siehe Abbildung ) Führt man diesen Prozess unbegrenzt weiter, so erhält man eine Folge (Fn , n ≥ 1) von Verteilungsfunktionen, die für n → ∞ gegen eine stetige Verteilungsfunktion F , die sogenannte Cantorsche Funktion, konvergieren. Mengenfunktionen und Maße 1 1 F1 0 61 1 1 F2 ( ) 0 ( ) 1 F3 ()( )() ()( )() 0 Abbildung 3.5: Konstruktion der Cantor’sche Funktion auf [0, 1] Diese Verteilungsfunktion ist auf jedem der Intervalle In,k sowie auf (−∞, 0) und (0, ∞) konstant, hat also dort die Ableitung Null. Daraus ergibt sich, dass F keine Dichte besitzt. Es sei µF das von F erzeugte Maß auf (R, B). Interessant ist, dass jedes der Intervalle In,k das µF −Maß Null hat, dass also das gesamte Maß µF auf dem Cantorschen Diskontinuum konzentriert ist, das das Lebesguemaß Null besitzt, wobei kein einzelner Punkt ein positives Maß besitzt. Das bedeutet aus der Sicht der Wahrscheinlichkeitstheorie, dass eine Zufallsgröße X, deren Verteilungsfunktion die Cantorsche Funktion ist, mit Wahrscheinlichkeit Eins nur Werte aus einer Lebesgue-Nullmenge annimt, und kein Wert eine positive Wahrscheinlichkeit hat, angenommen zu werden. Man bezeichnet solche Verteilungsfunktionen auch als singulär. Eine weitere bemerkenswerte Eigenschaft der Cantorschen Funktion ist die folgende. Sind X und Y zwei vonenander unabhängige Zufallsgrößen, die beide die gleiche Verteilung mit der Cantorschen Funktion als Verteilungsfunktion besitzen, so ist die Summe X + Y gleichmäßig auf [0, 2] verteilt.(Siehe [[4]].) Das in Aussage angegebene Maß µ∗ auf A∗ hat aufgrund ihrer Definition die Eigenschaft, dass jede Teilmenge einer µ∗ −Nullmenge aus A∗ ebenfalls eine µ∗ −Nullmenge aus A∗ ist. Diese Eigenschaft nennt man Vollständigkeit des Maßes. Definition 3.19 Ein Maßraum (E, E, µ) heißt vollständig, falls jede Teilmenge einer µ-Nullmenge aus E ebenfalls zu E gehört (und damit auch eine µNullmenge ist). Wenn (E, E, µ) vollständig ist, so heißt auch µ vollständig. Aussage 3.20 Es seien (E, E, µ) ein Maßraum und N die Menge aller Teil- 1 62 Uwe Küchler mengen von µ-Nullmengen aus E. a) Das Mengensystem Ē := {B ∪ N |B ∈ E, N ∈ N} ist eine σ−Algebra Ē von Teilmengen von E, b) die auf Ē durch µ̄(B ∪ N ) := µ(B), B ∈ E, N ∈ N definierte Mengenfunktion µ̄ ist ein Maß, und µ̄(.) ist eine Fortsetzung des Maßes µ von E auf Ē. c) (E, Ē, µ̄) ist ein vollständiger Maßraum. Man nennt (E, Ē, µ̄) die Vervollständigung von (E, E, µ). Beweis der Aussage: a) Wir zeigen zunächst, dass Ē eine σ−Algebra ist. Dass die leere Menge zu Ē gehört, ist offensichtlich. Ist B ∈ Ē, so gibt es ein B0 ∈ E und ein N ∈ N mit B = B0 ∪ N . Nach Definition von N existiert ein M ∈ E mit N ⊆ M und µ(M ) = 0. Nun gilt B c = B0c ∩ N c = B0c ∩ (M c ∪ (M ∩ N c )) = (B0c ∩ M c ) ∪ (B c ∩ M ∩ N c ). Wegen B0c ∩ M c ∈ E und B c ∩ M ∩ N c ⊆ M ist B c ∈ Ē. Dass die abzählbare Vereinigung von Mengen Bn aus Ē wieder zu Ē gehört, folgt aus der Tatsache, dass die abzählbare Vereinigung von µ−Nullmengen wieder eine µ−Nullmenge ist. b) Die σ−Additivität von µ̄ ist offensichtlich. Wir zeigen noch, dass die Definition von µ̄ eindeutig ist. Dazu nehmen wir an, B ∈ Ē können wir auf zwei Weisen darstellen: B = B0 ∪N und B = B1 ∪M mit B0 , B1 ∈ E und N, M ∈ N. Dann gibt es eine µ-Nullmenge P aus E mit M ⊆ P . Also ist B0 ⊆ B1 ∪ P und somit gilt µ(B0 ) ≤ µ(B1 ) + µ(P ) = µ(B1 ). Auf analoge Weise zeigt man µ(B1 ) ≤ µ(B0 ). Also gilt µ(B1 ) = µ(B0 ) und somit hängt die Definition von µ̄(B) nicht von der Darstellung von B durch Elemente von E und N ab. c) Es gilt E ⊆ Ē, und auf E ist µ̄ = µ (man setze in der Definition von Ē und µ̄ für N die leere Menge ein). Also ist µ̄ eine Fortsetzung von µ auf Ē. hfill Mengenfunktionen und Maße 63 Ist λ(.) das Lebesguemaß auf (R, B), so bezeichnet man die Vervollständigung von (R, B) bezülich λ(.) mit (R, L) und nennt L die σ-Algebra der Lebesguemessbaren Mengen. Das vervollständigte Maß λ̄(.) auf L nennt man ebenfalls Lebesguemaß. Zur Abgrenzung heiß das Maß λ(.) auf B mitunter auch Lebesgue-Borelsches Maß. Übungsaufgaben 1. Es sei µ ein diskretes Maß auf (R1 , B) mit dem Träger N und µ({n}) > 0, n ≥ 1. Man gebe diejenigen Teilmengen von R an die µ-Nullmengen sind. 2. Es seien F eine Verteilungsfunktion auf R, definiert durch 1 1 1 F (x) = 1[0,∞) (x) + 1[1,∞) (x) + 1[2,∞) (x), 4 2 4 x∈R und µF das durch F vermittels (3.11) auf B festgelegte Maß. Berechnen Sie das µF -Maß folgender Mengen b) B = (− 21 , 23 ) ė) E = (3, ∞) a) A = [1, ∞) d) D = ( 32 , 52 ) c) C = [0, 2) f) [0, 1] ∪ [2, 5). 3. Es sei (E, E, µ) ein finiter Maraum und (An , n ≥ 1) eine Folge von Teilmengen von E mit An ∈ E, n ≥ 1. Man beweise das folgende Lemma von Borel-Cantelli: Wenn ∞ X n=1 µ(An ) < ∞, so gilt µ(lim sup An ) = 0 (3.18) n→∞ . Hinweis: Nutzen Sie die Eigenschaften 3) und 6) der Aussage 3.2 aus. 4. Es seien (E, E, µ) ein finiter Maßraum und (Ak , k = 1, 2, . . . , n) eine Folge von Mengen aus E. a) Man beweise die Gültigkeit der Gleichungen µ(A1 ∪ A2 ∪ A3 ) = µ(A1 ) + µ(A2 ) + µ(A3 )− 64 Uwe Küchler µ(A1 ∩ A2 ) − µ(A1 ∩ A3 ) − µ(A2 ∩ A3 ) + µ(a1 ∩ A2 ∩ A3 ) . b) Man zeige mit Hilfe der vollständigen Induktion, dass für alle n ≥ 2 gilt: n n [ X X \ µ( Ak ) = (−1)k−1 µ( Ai ). k=1 k=1 I⊆{1,2,...,n},cardI=k i∈I (Ein- und Ausschlußformel) P Die Summation I⊆{1,2,...,n},cardI=k erfolgt über alle möglichen Teilmengen von {1, 2, . . . , n} mit genau k Elementen. Kapitel 4 Messbare Abbildungen 4.1 Definitionen Messbare Abbildungen sind ein zentraler Gegenstand der Maßtheorie. In der Wahrscheinlichkeitstheorie dienen sie zur Modellierung von Zufallsgrößen. Während normierte Maßräume (Ω, F, P) als zufällige Experimente angesehen werden, die im Hintergrund ablaufen und eventuell nicht wahrgenommen werden können, dienen messbare Funktionen von Ω in R1 oder Rd als Modell beobachtbarer Teilaspekte des zugrundeliegenden Experimentes. Die Voraussetzung der Messbarkeit sichert die Existenz einer Wahrscheinlichkeitsverteilung der Zufallsgröße im Bildraum R1 oder Rd . Es seien(E, E) und (F, F) zwei messbare Räume und X eine Abbildung von E in F . (Wir verwenden die Bezeichnungen Abbildung und Funktion synonym.) Definition 4.1 Die Abbildung X heißt (E, F)-messbar (wenn keine Verwechslungen möglich sind, auch kürzer E-messbar, oder einfach messbar), falls X −1 (B) ∈ E für alle B ∈ F, d.h., falls (4.1) X −1 (F) ⊆ E. Ist F, F) = (Rd , Bd ), so heißt jede (E, Bd )-meßbare Abbildung von E in Rd auch Borel-messbar oder Borelsch. Beispiele 4.2 Gegeben sei ein messbarer Raum (E, E). 65 66 Uwe Küchler a) Es seien α ∈ R1 , α 6= 0, A ⊆ E. Die Funktion X(y) = α1A (y), y ∈ E, ist E-messbar genau dann, wenn A ∈ E, insbesondere ist jede konstante Funktion messbar. b) Gilt A1 , A2 , . . . , An ∈ E, so ist X(y) = n X αk 1Ak (y), y ∈ E, (4.2) k=1 E-messbar für jede Wahl reeller Zahlen α1 , α2 , . . . , αn . Funktionen X von der Gestalt (2.2) nennen wir einfache Funktionen oder Elementarfunktionen. Man prüft leicht nach, dass, wenn X und Y einfache Funktionen sind, auch αX + βY (α, β ∈ R1 ) eine einfache Funktion ist. Es sei X eine Abbildung von einer Menge E in einen messbaren Raum (F, F). Aussage 4.3 1) EX := X −1 (F) ist eine σ-Algebra, 2) EX ist die kleinste σ-Algebra H aus E, so dass X eine (H, F)-messbare Abbildung ist. Beweis: 1): Diese Eigenschaft liegt vor wegen der Operationstreue von X −1 . 2):(2.1) ist für EX = X −1 (F) erfüllt, also ist X eine (EX , F)-messbare Abbildung. Ist H eine σ-Algebra aus E und X eine (H, F)-messbare Abbildung, so gilt wegen (2.1), dass X −1 (F) ⊆ H richtig ist. Das heißt, dass EX die kleinste σAlgebra H aus E ist, bezüglich der X eine (H, F)-messbare Abbildung ist. Die σ-Algebra EX nennen wir die von X erzeugte σ-Algebra. 4.2 Eigenschaften Der Begriff der messbaren Funktion ist einfach zu formulieren, aber im allgemeinen schwer nachzuprüfen, da man die Elemente von F meist nicht explizit kennt. Aussage 1.17 erlaubt es uns, mit der folgenden Aussage und ihrer Folgerung einfache Messbarkeitskriterien zu formulieren. Messbare Abbildungen 67 Satz 4.4 Es sei S ein Erzeuger von F, d.h., es gelte σ(S) = F. Genau dann ist X eine (E, F)-messbare Funktion, wenn X −1 (S) ⊆ E. (4.3) Beweis: Aus (2.1) folgt offensichtlich (2.3). Also erfüllt jede (E, F)-messbare Abbildung die Inklusion (2.3). Aus (2.3) folgt mittels Aussage 1.17, dass X −1 (F) = X −1 (σ (S)) = σ(X −1 ( S )) ⊆ σ(E) = E erfüllt ist. Also gilt (2.1). Folgerungen 4.5 a) Eine Abbildung X von (E, E) in R1 ist genau dann Borel-messbar, wenn für alle x ∈ R1 gilt {y ∈ R1 |X(y) ≤ x} ∈ E. (4.4) Beweis: Aus der Borel-Messbarkeit von X folgt sofort (2.4). Gilt (2.4), so ist X −1 ((a, b]) = X −1 ((−∞, b])\X −1 ((−∞, a]) ∈ E für alle a, b mit −∞ ≤ a ≤ b ≤ ∞. Die Menge S dieser Intervalle (a, b] ist aber ein Erzeuger von B1 . Mit Aussage 1.17 folgt die (E, B1 )-Messbarkeit von X. b) Sind Xn , n ≥ 1 Borel-messbare Abbildungen von (E, E) in R1 , so sind es auch sup Xn , n≥1 inf Xn , n≥1 lim sup Xn , n→∞ lim inf Xn . n→∞ (Hierbei erfolgt die Bildung von supXn , inf Xn , usw. punktweise, d.h., es gilt (supn≥1 Xn )(y) := supn≥1 (Xn (y)), y ∈ E, usw..) Beweis: Weil Xn Borel-messbarTist, gilt {Xn ≤ x} ∈ E für alle x ∈ R1 . Daraus folgt {supn Xn ≤ x} = {Xn ≤ x} ∈ E. Also ist sup Xn wegen n Sn Folgerung a) Borel-messbar. Analog gilt {inf n Xn < x} = {Xn < x} ∈ n T E, also auch {inf n Xn ≤ x} = m {inf n Xn < x + m1 } ∈ E für alle x ∈ R1 . Somit ist inf n Xn ebenfalls Borel-messbar. Es gilt lim sup Xn = n→∞ inf n supm≥n Xm und lim inf = supn inf m≥n Xm , somit folgt der Rest von n→∞ b). 68 Uwe Küchler c) Sind Xn , n ≥ 1, wie in c) definiert und konvergieren die Xn punktweise gegen X, dann ist X Borel-messbar. Beweis: In diesem Fall gilt X = lim sup Xn = lim inf Xn und somit ist X n→∞ n→∞ Borel-messbar. Die Folgerung 2.5 c) besagt, dass punktweise Grenzwertbildung aus der Menge der messbaren Funktionen nicht hinaus führt. Diese Eigenschaft hat z. B. die Menge aller stetigen Funktionen nicht. Bisher haben wir als konkrete Beispiele messbarer Funktionen nur die einfachen Funktionen kennengelernt. Die folgende Aussage liefert uns eine ganze Reihe weiterer Beispiele. Aussage 4.6 Es sei X eine stetige Funktion von R1 in sich. Dann ist X Borel-messbar. n P ai y i ist {y ∈ R1 |Q(y) ≤ x} VereiniBeweis: Für jedes Polynom Q(y) := i=0 gung von höchstens n Intervallen, also Borel-messbar. Also ist nach Folgerung 2.5a) jedes Polynom Q Borel-messbar. Für jedes N > 0 ist 1[−N,N ] (y)X(y) punktweiser Grenzwert einer Folge von Polynomen (Weierstraßscher Approximationssatz), folglich Borel-messbar. Daraus ergibt sich, dass auch X Borel-messbar ist. (Karl Weierstraß, deutscher Mathematiker, 1815-1897) Bemerkung: Die Aussage gilt auch für stetige Funktionen X von (Rn in Rd . Im folgenden Beispiel geben wir eine einfache (im Sinne von Beispiel 2.2a)) Borel-messbare Funktion an, die an jeder Stelle ihres Definitionsbereiches unstetig ist. Beispiel 4.7 (Dirichletsche Funktion) Die Funktion X(y) = 1Q (y), y ∈ [0, 1], ist Borel-messbar, da die Menge Q der rationalen Zahlen Borel-messbar ist. Andererseits ist X an keiner Stelle y ∈ [0, 1] stetig, da lim inf z→y X(z) = 0 und lim supz→y X(z) = 1 für alle y ∈ [0, 1] gilt. (Peter Gustave Dirichlet, deutscher Mathematiker, 1805-1859) Messbare Abbildungen 69 Die nächsten beiden Aussagen werden es uns ermöglichen, aus gegebenen messbaren Funktionen weitere zu bilden. Aussage 4.8 Es seien X eine (E, F)-messbare Abbildung von (E, E) in (F, F) und Y eine (F, G)-messbare Abbildung von (F, F) in (G, G). Dann ist die zusammengesetzte Abbildung Z(y) := Y (X(y)), y ∈ E, eine (E, G)-messbare Abbildung von (E, E) in (G, G). Symbolisch: Z := Y ◦ X. Beweis: Z −1 (B) = X −1 (Y −1 (B)) ∈ E für alle B ∈ G, da Y −1 (B) ∈ F für alle B ∈ G. Aussage 4.9 a) Sind X1 , X2 , . . . , Xn reellwertige Borel- messbare Funktionen auf (E, E), und ist h eine Borel-messbare Funktion von Rn in Rd , so ist h(X1 , . . . , Xn ) eine E-messbare Funktion von (E, E) in Rd . b) Sind X und Y Borel-messbar, so sind es auch X+Y, X·Y, max(X, Y ), min(X, Y ) . und, (falls Y 6= 0), X Y Beweis: a) X = (X1 , X2 , . . . , Xn ) ist eine Borel-messbare Funktion von (E, E) in Rn . (Wir werden das in Aussage 6.1 beweisen.)Es gilt nämlich für (a, b] = n n Q T (ak , bk ] die Beziehung X −1 ((a, b]) = {y ∈ E|X(y) ∈ (a, b]} = {y ∈ k=1 k=1 E|Xk (y) ∈ (ak , bk ]} ∈ E. Anwendung von Satz 2.4 liefert die E-Messbarkeit von X. Die Anwendung von Aussage 2.8 ergibt die Behauptung a). b) Die angegebenen Funktionen (x, y) 7→ x + y, max(x, y), min(x, y), x\y sind stetig (letztere auf R1 ×(R1 \{0})). Aus der Bemerkung nach Aussage 2.6 folgt die Behauptung. Der Begriff der messbaren Funktion ist recht abstrakt, und es ist auf den ersten Blick nicht klar, wie umfangreich die Menge aller messbaren Funktionen ist. Stetige Funktionen sind auf jeden Fall in dieser Menge enthalten. Auch Indikatorfunktionen messbarer Mengen und einfache Funktionen (im Sinne von (2.2)) gehören dazu. 70 Uwe Küchler Der folgende Satz zeigt, dass man andererseits jede messbare Funktion durch einfache Funktionen beliebig genau annähern kann. Wir werden später sehen, dass er den Umgang mit messbaren Funktionen sehr erleichtert. Approximation Borel-messbarer Funktionen Satz 4.10 Für jede nichtnegative Borel-messbare Funktion X von (E, E) in R1 gibt es eine nichtfallende Folge (Xn , n ≥ 1) einfacher nichtnegativer Borelmessbarer Funktionen, die punktweise von unten gegen X konvergiert: 0 ≤ Xn (y) ≤ Xn+1 (y) ≤ X(y), n ≥ 1, y ∈ E und lim Xn (y) = X(y), y ∈ E. n→∞ Beweis: Wir setzen Xn (y) := k · 2−n , falls X(y) ∈ [k · 2−n , (k + 1)2−n ) und 0 ≤ k ≤ n2n , n , falls X(y) ≥ n + 2−n . Die Xn sind einfache, insbesondere Borel-messbare, Funktionen mit Xn (y) ≤ Xn+1 (y) ≤ X(y), y ∈ E und |Xn (y) − X(y)|1{X≤n} (y) ≤ 2−n , y ∈ E. (4.5) (4.6) Also gilt lim Xn (y) = X(y) für alle y ∈ E. n→∞ Folgerung 4.11 Mit Hilfe des Satzes 2.10 zeigt man leicht, dass jede Borelmessbare Funktion X von E in R1 punktweiser Grenzwert einer Folge (Xn ) einfacher (insbesondere Borel-messbarer) Funktionen ist. (Man verwende die Zerlegung X = X + − X − mit X + = max(X, 0) und X − = − min(X, 0).) Messbare Abbildungen 71 X(y) n Xn (y) (k + 1)2−n k2−n y Abbildung 4.1: Approximation von X(y) = y 2 durch einfache Funktionen Pn2 n −1 Xn (y) = k=0 k2−n · 1X −1 ([k2−n ,(k+1)2−n )) (y) 4.3 Produkt-σ-Algebren Produktmengen und Produkt-σ-algebren dienen in der Wahrscheinlichkeitstheorie zur Modellierung mehrerer gleichzeitig oder nacheinander ausgeführter zufälliger Versuche. Um die Notation nicht mit technischen Details zu überlasten, beginnen wir mit dem Fall des Produktes zweier messbarer Räume. Gegeben seien zwei messbare Räume (E1 , E1 ) und (E2 , E2 ). Wir bilden die Produktmenge E := E1 × E2 = {y = (y1 , y2 )T : y1 ∈ E1 , y2 ∈ E2 } und führen die Projektionsabbildungen (oder Koordinatenabbildungen) P1 ein durch Pi : E → Ei , Pi y = yi , die jedem Paar y = (y1 , y2 ) ∈ E seine i-te Koordinate yi zuordnet, i = 1, 2. Definition 4.12 Die kleinste σ-Algebra E in E, bezüglich der beide Pi jeweils (E, Ei )-messbar sind, heißt die Produkt-σ-Algebra von E1 und E2 . Sie wird mit E = E1 ⊗ E2 bezeichnet. 72 Uwe Küchler Aussage 4.13 S1 und S2 seien Erzeuger von E1 bzw. E2 . Dann wird E1 ⊗ E2 vom System S1 × S2 aller Mengen S1 × S2 mit Si ∈ Si , i = 1, 2, erzeugt: E = E1 ⊗ E2 = σ(S1 × S2 ) = σ({S1 × S2 : S1 ∈ S1 , S2 ∈ S2 }). Beweis: Pi ist (E, Ei )-messbar, folglich gilt Pi−1 (Si ) ⊆ E, i = 1, 2, und somit S1 × S2 = P1−1 (S1 ) ∩ P2−1 (S2 ) ⊆ E. (4.7) Daraus folgt σ(S1 × S2 ) ⊆ E. (4.8) Andererseits sind P1 bzw. P2 bez. (σ(S1 × S2 ), Ei ) messbar. Es gilt nämlich (siehe Aussage 1.17) Pi−1 (Ei ) = Pi−1 (σ(Si )) = σ(Pi−1 (Si )) ⊆ σ(P1−1 (S1 ) ∩ P2−1 (S2 )) = σ(S1 × S2 ), i = 1, 2, und somit, nach Definition der Produkt-σ-Algebra, E ⊆ σ(S1 × S2 ). (4.9) Aus (2.8) und (2.9) folgt die Aussage. Bemerkung: Auf analoge Weise definiert man für gegebene messbare Räume n Q (Ei , Ei ), i = 1, 2, . . . , n, den Produktraum E = Ei und die Produkt-σAlgebra E = n N i=1 Ei . i=1 Gilt (Ei , Ei ) ≡ (E1 , E1 ), so schreibt man n N Ei =: En1 . i=1 Folgerung 4.14 Im Fall (Ei , Ei ) = (R1 , B1 ), i = 1, 2, . . . , d, erhalten wir als Produkt-σ-Algebra die σ-Algebra Bd der Borelmengen aus Rd . In der Tat, ist S die Semialgebra der nach links halboffenen Intervalle aus R1 , so ist Sd gleich der Semialgebra der nach links halboffenen Quader aus Rd , und somit gilt die Folgerung. Messbare Abbildungen 73 Man kann diese Definition auf Produkträume mit beliebig vielen Faktoren “ ” Ei ausdehnen. Wir skizzieren das Vorgehen. Q Ist I eine Indexmenge (z.B. N oder [0, ∞)), so bezeichnet Ei die Menge aller i∈I Funktionen x = (xi , i ∈ I) auf I mit xi ∈ Ei , i ∈ I. Q Für jedes i ∈ I sei Pi der Projektionsoperator von Ei in Ei , gegeben durch i∈I Q Pi x = xi für x = (xi , i ∈ I) in Ei . Qi∈I Als Produkt-σ-Algebra E = Ei wird die kleinste σ-Algebra von Teilmengen i∈I Q von Ei bezeichnet, bez. der alle Pi , i ∈ I, (E, Ei )−messbar sind. i∈I Im Fall Ei ≡ E schreiben wir E I bzw. EI anstelle Q Ei bzw. i∈I Q Ei . i∈I Für I = {1, 2} haben wir die Konstruktion ausgeführt. Die messbaren Räume (RN , EN ) und (R[0,∞) , E[0,∞) ) dienen in der Wahrscheinlichkeitstheorie zur Beschreibung unendlicher Folgen von Zufallsgrößen bzw. zufälliger Prozesse mit stetiger Zeit. 4.4 Durch messbare Abbildungen induzierte Maße Es seien (E, E, µ) ein Maßraum (µ sei σ-finit) und X eine (E, F)-messbare Abbildung von (E, E) in einem messbaren Raum (F, F). Aussage 4.15 Durch µX (B) := µ(X −1 (B)), B ∈ F, (4.10) ist auf F ein σ-finites Maß µX definiert, das als das von X induzierte Maß auf F oder als Bildmaß von µ bez. X bezeichnet wird. Ist µ(E) = 1, so nennt man (in der Wahrscheinlichkeitstheorie) µX auch die Wahrscheinlichkeitsverteilung der Zufallsgröße X. Bemerkung: Damit µ(X −1 (B)) für B aus F überhaupt definiert ist, muss X −1 (B) zu E gehören. Das wird gerade durch die (E, F)−Messbarkeit von X bewirkt. 74 Uwe Küchler Beweis: µX (∅) = 0, µX ∞ P ∞ S Bk = µ X −1 k=1 ∞ S Bk = µ k=1 ∞ S X −1 (Bk ) = k=1 µX (Bk ) für jede paarweise disjunkte Folge (Bk ) aus F. Dabei haben wir die k=1 Operationstreue von X −1 benutzt. Beispiele 4.16 Es sei (F, F) = (R1 , B1 ). Besteht der Wertebereich von X (also die Menge {X(y)|y ∈ E}) aus den Zahlen xk , k ≥ 1, so ist µX ein diskretes Maß mit den Einzelmaßen µX ({xk }) = µ({y ∈ E : X(y) = xk }) = µ(X = xk ), k ≥ 1, (4.11) und für jede Menge B ⊆ R1 ist µX (B) = µ({y ∈ E : X(y) ∈ B}) = X µX ({xk }). (4.12) k:xk ∈B Ist µ darüber hinaus ein Wahrscheinlichkeitsmaß, so sagt man, X habe eine diskrete Wahrscheinlichkeitsverteilung µX . Besitzt µX eine Dichte fX (wir nehmen wieder der Einfacheit halber hier an, daß fX stückweise stetig ist), so gilt X Z µ (B) = fX (x)dx, z. B. für B = [a, b], (4.13) B und man sagt, X habe eine absolut-stetige Verteilung mit der Dichte fX , oder verkürzt, X habe die Dichte fX . (Für allgemeine Borelmengen B wird das Integral, das in (2.13) auftritt, im nächsten Abschnitt definiert werden.) Im Allgemeinen kann man im Fall (F, F) = (R1 , B1 ) und µ(E) < ∞ das Bildmaß µX charakterisieren durch seine Verteilungsfunktion FX (x) := µX ((−∞, x]) = µ(X −1 ((−∞, x])) =: µ(X ≤ x), x ∈ R1 , (siehe Folgerung 1.27). Übungen Messbare Abbildungen 1) Beweisen Sie: Wenn Si für i = 1, 2 Semialgebren in Ei sind, so ist eine Semialgebra in E1 × E2 . 75 S1 × S2 2) Es sei E = [0, 1), E = B1[0,1) und X(y) = y 2 für y ∈ E. Konstruieren Sie eine nichtfallende Folge (Xn , n ≥ 1) einfacher nichtnegativer Borelmessbarer Funktionen, die punktweise von unten gegen X konvergiert. 3) Es sei X eine Abbildung von einer Menge E in einen messbaren Raum (F, F) und EX := X −1 (F) die von X in E erzeugte σ-Algebra. Ist Y eine (EX , Bd )−messbare Abbildung von E in Rd , so existiert eine (F, Bd )messbare Abbildung h von F in Bd , so dass gilt Y (y) = h(X(y)), y ∈ E. Hinweis:Zunächst sei X = 1B für ein B ∈ EX . Für dieses X gilt die Aussage, da B = X −1 (C) für ein C ∈ F und 1X −1 (C) = 1C (X) gelten. In diesem Fall kann man h = 1C setzen. Auf analoge Weise behandle man den Fall einfacher (EX , Bd )−messbarer Abbildungen. Anschließend wende man den Approximationssatz 2.10 bzw. Folgerung 2.11 an. 4) Zeigen Sie: Wenn (E, E, µ) ein diskreter Maßraum ist, und wenn X eine messbare Abbildung von (E, E, µ) in einen messbaren Raum (F, F) ist, so ist auch µX ein diskretes Maß. 5) Es sei E = {1, 2, . . . , 6}2 und E = P(E). Mit µ werde das normierte Zählmaß auf (E, E) bezeichnet. Die Abbildung X sei auf E definiert durch X(y) = y1 + y2 , für y = (y1 , y2 ) ∈ E. a) Geben Sie die Elemente der σ−Algebra EX an. b) Bestimmen Sie die Wahrscheinlichkeitsverteilung µX von X. 6) Es seien E = [0, 1), E = B1[0,1) und µ = λ[0,1) das Lebesguemaß auf E. Durch X(y) = y n , y ∈ E, ist eine Borel-messbare Abbildung X von E in R1 definiert. Man bestimme das von X induzierte Maß µX auf (R1 , B1 ). Besitzt X eine Dichte? 76 Uwe Küchler Kapitel 5 Integration messbarer Funktionen 5.1 Definitionen Es seien (E, E, µ) ein Maßraum, µ ein finites Maß und X eine Borel-messbare Funktion in R1 . Wir werden in diesem Abschnitt das InZ auf (E, E) mit Werten Z tegral X(y)µ(dy) (kurz: E Xdµ) der Funktion X bez. des Maßes µ über die E Menge E einführen. Dieser Integralbegriff wird in Wahrscheinlichkeitstheorie und Statistik verwendet, um Erwartungswerte, Varianzen, Kovarianzen und höhere Momente von Zufallsgrößen zu berechnen. Er gestattet u. a. eine einheitliche Behandlung diskreter und absolut-stetiger Maße. Wir beginnen mit dem Fall, dass X eine einfache Funktion ist, d. h., X(y) = m X ai 1Ai (y), y ∈ E, (5.1) i=1 für gewisse ai ∈ R1 , Ai ∈ E, i = 1, 2, . . . , m, m ≥ 1. Definition 5.1 Als Integral der einfachen Funktion X aus (3.1) über E bezüglich µ bezeichnet man die Zahl Z X(y)µ(dy) := m X i=1 E 77 ai µ(Ai ). (5.2) 78 Uwe Küchler Das Integral hängt nicht von der Wahl der Darstellung (3.1) ab (siehe zum Beispiel Elstrodt [3], Kap.IV,Lemma 1.1). Wir erwähnen zunächst zwei schnell einzusehende Eigenschaft dieses Integralbegriffs. Es seien X und Y einfache Funktionen. a) Aus X ≤ Y (d.h. X(y) ≤ Y (y) für alle y ∈ E) folgt Z Z Xdµ ≤ E Y dµ, (5.3) E (Monotonie des Integrals) b) für alle a, b ∈ R1 gilt Z Z Xdµ + b (aX + bY )dµ = a E Z E Y dµ. (5.4) E (Linearität des Integrals) Es sei nun X eine nichtnegative Borel-messbare Abbildung von (E, E) in R1 . Auf Grund des Satzes 2.10 über die Approximation Borel-messbarer Funktionen gibt es eine nichtfallende Folge (Xn ) nichtnegativer einfacher Funktionen mit lim Xn (y) = X(y), y ∈ E. n→∞ Z Wegen (3.3) ist die bereits mit (3.2) definierte Folge ( Xn dµ, n ≥ 1) moE noton nichtfallend und besitzt folglich einen (evtl. unendlichen) Grenzwert, nämlich ihr Supremum. Definition 5.2 Als Integral von X über E bezüglich des Maßes µ bezeichnet man den Wert Z Z X(y)µ(dy) := lim Xn (y)µ(dy) n→∞ E E (5.5) Integration messbarer Funktionen 79 Die Funktion X, die integriert wird, nennt man Integrand, die Menge E, über die sich das Integral erstreckt, heißt Integrationsbereich. Ist X eine beliebige Borel-messbare Funktion von E in R1 , so benutzen wir die Zerlegung X(y) = X + (y) − X − (y) mit X + (y) := max(X(y), 0) und X − (y) := − min(X(y), 0). Z Z + X dµ und Definition 5.3 Sind E X − dµ beide endlich, so heißt X bez. µ E integrierbar, und wir definieren Z Z Z + Xdµ := X dµ − X − dµ. E Z + X dµ = ∞ und Ist E Z E X dµ < ∞, so definieren wir Z + X dµ < ∞ und Im Falle Z − E Z E E Xdµ := ∞. ZE X dµ = ∞ setzen wir Xdµ := −∞. − E E Auch in diesen Fällen heißt X integrierbar bez. µ, allerdings ist das Integral gleich +∞ bzw. −∞. Z Z + Anderenfalls, also wenn X dµ = X − dµ = ∞, nennen wir X nicht inteE E grierbar bez. µ. Z Ohne Beweis vermerken wir, dass das Integral Xdµ nicht von der Wahl E der approximierenden Folge (Xn ) einfacher Funktionen abhängt (siehe z.B. Elstrodt [3],Kap.IV, Korollar 2.2). Das soeben eingeführte Integral heißtµIntegral oder auch Lebesgueintegral über die Funktion X (nach dem Maß µ) (siehe Elstrodt [3], Kap.8, S.110). 80 Uwe Küchler Definition 5.4 Ist X eine bezüglich µ integrierbare Funktion und ist A ∈ E, so ist offensichtlich auch X · 1A bez. µ integrierbar. Wir schreiben in diesem Fall Z Z Xdµ := X · 1A dµ (5.6) A E Auch in diesemn Zusammenhang heißt A der Integrationsbereich, über den die Funktion X integriert wird. Wir benötigen noch den Integralbegriff für den Fall, dass µ ein σ-finites Maß ist. In diesem Fall sei {Bn , n ≥ 1, } eine Zerlegung von E in messbare Mengen Bn mit µ(Bn ) < ∞. Wir definieren für nichtnegative messbare Funktionen X Z Xdµ := E ∞ Z X Xdµ, n=1B n und erweitern diesen Integralbegriff auf beliebige messbare Funktionen X wie oben durch Zerlegung von X in Positiv- und Negativteil. In der Wahrscheinlichkeitstheorie und Mathematischen Statistik werden messbare Funktionen X zur Modellierung von Zufallsgrößen verwendet. Ihr Integral bezüglich des zugrunde liegenden Wahrscheinlichkeitsmaßes µ ist der Erwartungswert EX von X. Er spielt in der Statistik, zum Beispiel auf Grund des Gesetzes der großen Zahlen, eine fundamentale Rolle. (Siehe z.B. Schmidt [5], Kap.15.) 5.2 Einige Eigenschaften des Integrals In diesem Abschnitt nehmen wir an, (E, E, µ) sei ein σ−finiter Maßraum. Wir bezeichnen die Menge aller Borel-messbaren Funktionen X auf (E, E) mit Werten in R1 , deren Integral über E bez. µ endlich ist, mit L1 (ausführlicher: L1 (E, E, µ)). Integration messbarer Funktionen 81 Z Xdµ kann man bereits Allein auf Grundlage der Definition des Integrals E eine ganze Reihe von Eigenschaften dieses herleiten. Satz 5.5 Im Folgenden seien X und Y bez. µ integrierbare Funktionen mit endlichem Integral, also Elemente von L1 (E, E, µ). Es gelten folgende Aussagen: a) Z Für alle a, b ∈ R1 istZaX + bY ∈Z L1 (E, E, µ), und es gilt (aX + bY )dµ = a Xdµ + b Y dµ, E E E (man sagt, L1 (E, E, µ) bilde ein linearen Raum), Z Z Z Xdµ ≥ 0, wenn X ≤ Y , so Xdµ ≤ Y dµ, b) wenn X ≥ 0, so E E E (man sagt, die Integration sei eine monotone Operation), Z Z c) | X(y)µ(dy)| ≤ |X(y)|µ(dy) < ∞, E E (Spezialfall der Jensenschen Ungleichung; siehe Abschnitt 3.6.) Z Z d) wenn µ({y ∈ E|X(y) 6= Y (y)}) = 0, so ist X(y)µ(dy) = Y (y)µ(dy), E (das Integral R E Xdµ ist unempfindlich gegenüber Änderungen des Inte- E granden X(.) auf einer µ-Nullmenge), R e) Aus X ≥ 0 und Xdµ = 0 folgt X = 0 µ-fast überall. E Beweis: a) Es seien X und Y nichtnegative Funktionen aus L1 (E, E, µ) und (Xn ) bzw. (Yn ) nichtfallende Folgen einfacher Funktionen mit X = lim Xn , Y = n lim Yn , a, b ≥ 0. Dann ist Zn := (aXn + bYn ) eine wachsende Folge einfan cher Funktionen mit lim Zn = aX + bY . Also gilt (siehe (3.3)und (3.5)) n 82 Uwe Küchler Z Z (aX + bY )dµ : = lim n E Z Z (aXn + bYn )dµ = lim a Xn dµ + b Yn dµ n E E E Z Z Y dµ. Xdµ + b = a E E Im allgemeinen Fall nutzt man wieder die Zerlegungen X = X + − X − und Y = Y + − Y − , Z b) der erste Teil ergibt sich aus der Definition von Xdµ, der zweite folgte E aus Y − X ≥ 0 und Teil a), Z Z Z Z Z + − + c) | Xdµ| = | X dµ − X dµ| ≤ X dµ + X − dµ E E E E E Z Aus dieser Ungleichung ist ersichtlich, dass genau dann Xdµ endlich E Z |X|dµ es ist. ist, wenn E d) Nach Voraussetzung ist A := {y ∈ E|X(y) 6= Y (y)} eine µ-Nullmenge. Wir setzen zunächst voraus, dass X, Y ≥ 0 gilt. Dann haben wir Z Z Y dµ = E Y 1A dµ + E Z Y 1Ac dµ = E Z Y 1A dµ + E Z X 1Ac dµ. (5.7) E Es sei (Yn ) eine nichtfallende Folge einfacher Funktionen mit lim Yn = Y . n Dann ist auch (1A Yn ) eine nichtfallende Folge einfacher Funktionen und es gilt lim 1A · Yn = 1A Y wie in Satz 2.9. Somit ist (siehe Definition 3.2) n Z Y 1A dµ = lim Z n E E Yn 1A dµ. Integration messbarer Funktionen Z Daraus folgt 0 ≤ 83 Yn 1A dµ ≤ Cn · µ(A) = 0 für ein Cn > 0, da Yn E Z nach oben beschränkt ist. Also gilt Y 1A dµ = 0. Analog zeigt man E Z X 1A dµ = 0. Daraus ergibt sich mit (3.7) E Z Z Y dµ = E Xdµ. E Beispiel 5.6 Es sei (E, E, µ) = ([0, 1), B1[0,1) , λ[0,1) ), wobei λ das Lebesguemaß auf B1 bezeichne. Die Funktion X sei die Dirichletsche R Funktion, siehe Beispiel 1.7. Dann ist X bez. λ[0,1) integrierbar, und es gilt [0,1) Xdλ[0,1) = 0, da X = 0 λ[0,1) −f.ü.. Wir haben im Abschnitt 1.3 beim Studium von Maßen auf der reellen Achse gesehen, dass es eine bijektive Entsprechung zwischen finiten Maßen auf B1 1 und Verteilungsfunktionen R R F auf R gibt. Aus diesem Grund schreibt man auch häufig R1 XdF anstelle R1 Xdµ. Das Gleiche gilt übrigens auch für Maße auf Bn mit n > 1. Wir kommen darauf in Kapitel 6 zurück. 5.3 Substitutionsregel Wir nehmen wieder an, dass (E, E, µ) ein σ−finiter Maßraum sei. Satz 5.7 (Substitutionsregel) Es seien X eine (E, F)-messbare Funktion von einem Maßraum (E, E, µ) in einem messbaren Raum (F, F), h eine Borelmessbare Funktion von F in R1 , µX das Bildmaß von µ vermittels der Abbildung X (siehe (2.10)). Dann gilt 84 Uwe Küchler a) h ◦ X = h(X) ∈ L1 (E, E, µ) genau dann, wenn h(·) ∈ L1 (F, F, µX ), b) falls h ≥ 0, oder falls h die Eigenschaften aus a) hat, dann Z Z h(X(y))µ(dy) = E h(x)µX (dx) (5.8) F Beweis: Die Gleichung (3.8) gilt für h(x) = 1B (x), B ∈ F, x ∈ F , nach Definition (2.10) des Bildmaßes µX : Z X X h(x)µ (dx) = µ (B) = µ(X −1 Z (B)) = E 1X −1 (B) (y)µ(dy) = E Z E 1B (X(y))µ(dy) = Z h(X(y))µ(dy). E Auf Grund der Linearität der Integration gilt (3.8) für alle einfachen Funktionen. Ist h ≥ 0 und hn eine wachsende Folge einfacher Funktionen mit h(x) = lim hn (x), x ∈ F , so folgt (3.8) aus der Definition der Integrale n siehe (3.5). Den allgemeinen Fall erhält man wieder mittels h = h+ − h− . Bemerkung: Die hier verwendete Methode zum Beweis einer Eigenschaft von Integralen heißt mitunter die Lifting-Methode“. Eine Aussage über messba” re Funktionen wird zunächst für messbare Indikatorfunktionen bewiesen, was sich häufig als einfach herausstellt, und dann mit Hilfe des Approximationssatzes 2.10. und der Zerlegung in Positiv- und Negativteil auf das Niveau von allgemeinen messbaren Funktionen geliftet“.(Elstrodt [3], S.109 nennt sie al” ” gebraische Induktion“.) Die Z Bedeutung des Satzes 3.6 besteht darin, dass man zur Berechnung von h(X(y))µ(dy) nur das Bildmaß µX und die Funktion h(.) verwenden muss, E nicht die Abbildung X und das Maß µ selbst. Für die Wahrscheinlichkeitstheorie heißt das, daß der Erwartungswert (und auch alle sogenannten Momente) einer Zufallsgröße X über einem Wahrscheinlichkeitsraum (Ω, A, P) allein durch ihre Wahrscheinlichkeitsverteilung PX bestimmbar sind, die konkrete Form der Zufallsgröße X (d.h. der A-meßbaren Integration messbarer Funktionen 85 Abbildung ω −→ X(ω)) dabei also keine Rolle spielt. Das ist von grundsätzlicher Bedeutung, da i.a. der Wahrscheinlichkeitsraum (Ω, A, P) hypothetische Natur besitzt, gut geeignet für theoretische Überlegungen, in der Praxis aber, auf Grund von Stichproben, nur die Wahrscheinlichkeitsverteilung PX zugänglich ist. 5.4 Integrale bezüglich diskreter Maße Wir setzen jetzt voraus, daß (E, E, µ) ein diskreter finiter Maßraum ist, d.h., es gibt eine Folge (yn , n ∈ M ) aus E mit M ⊆ N und eine Folge (qn , n ∈ M ) positiver Zahlen, mit endlicher Summe, so dass µ(B) = X für alle B ∈ E qn , (5.9) n:yn ∈B gilt. Die Gleichung (3.9) definiert sogar ein Maß µ auf der Menge P(E) aller Teilmengen von E, diskrete Maße gestatten also eine Erweiterung“ auf die ma” ximale σ-Algebra P(E) von Teilmengen von E. Offenbar ist jede reellwertige Funktione X auf E eine (P(E), B1 )-messbare Funktion. Mit Y := {yn , n ∈ M }) gilt wegen µ(Y c ) = 0 die Gleichung X = 1Y · X µ-fast überall und wegen Satz 3.5 d) ist Z Z Xdµ = E 1Y · Xdµ. E Setzt man Ym := {yn , n ∈ M, n ≤ m}, so ist die Abbildung y → 1Ym (y) · X(y) = X n∈M ;n≤m 1{yn } (y) · X(yn ) (5.10) 86 Uwe Küchler eine einfache Funktion, also gilt nach Definition Z X 1Ym · Xdµ = X(yn )qn . n∈M :n≤m E Ist X nichtnegativ, so folgt für m → ∞ aus der Definition (3.5) des Integrals die Formel Z X Xdµ = X(yn )qn . (5.11) n∈M E Für beliebige X benutzt man wieder die Zerlegung X = X + − X − , um (3.11) zu zeigen. daß X genau dann µ-integrierbar ist mit endlichem Integral REs ergibt sich,P Xdµ, wenn |X(yn )| qn < ∞. E n∈M Die Berechnung von Integralen bezüglich diskreter Maß ist damit auf Summenbildungen reduziert. 5.5 Integrale bezüglich absolutstetiger Maße auf (Rd, Bd) Es sei zunächst (F, F) = (R1 , B1 ). Die Berechnung von Integralen der Form (3.8) wird häufig einfacher, wenn das Maß µX eine Dichte besitzt. Ist E = R1 , E = B1 und λ dasZ Lebesguemaß auf B1 (siehe Beispiele 1.28 c)), so nennen wir das Integral Xdλ das Lebesgueintegral der Funktion X R1 1 Z bezüglich des Lebesguemaßes über R und bezeichnen es mit Z der Deutlichkeit halber, mit L − der Dichte eines Maßes. X(y)dy oder, R1 X(y)dy. Wir präzisieren jetzt den Begriff R1 Definition 5.8 Es seien µ ein σ-finites Maß auf B1 , und f eine nichtnegative Borel-messbare Funktion auf R1 mit Integration messbarer Funktionen 87 Z µ((a, b]) = −∞ ≤ a < b ≤ ∞. f (x)dx, (5.12) (a,b] Dann heißt f Dichte des Maßes µ und das Maß µ heißt absolutstetig (bez. des Lebesguemaßes). Für die Verteilungsfunktion F jedes endlichen absolutstetigen Maßes µ auf B1 gilt dann (siehe (Definiton 1.23): Z F (x) = µ((−∞, x]) = f (s)ds, x ∈ R1 . (5.13) (−∞,x] Ist f eine darüber hinaus stückweise stetige Funktion, so existiert in jedem Stetigkeitspunkt x von f die Ableitung F 0 (x) und es gilt F 0 (x) = dF (x) = f (x) λ − f. ü. dx (5.14) Wir Zerwähnen hier vorgreifend auf Abschnitt 3.7, dass das Lebesgueintegral L− X(y)dy für den Fall, dass X eine hinreichned glatte Funktion ist (z.B. R1 stetig, oder zumindestens stückweise stetig) gleich dem aus dem Gymnasium bekannten Riemann-Integral ist. Beispiele 5.9 a) f (x) = exp − (x−m)2 2σ 2 , x ∈ R1 ist für feste m ∈ R1 und σ 2 > 0 die Dichte eines sogenannten Gaußschen Maßes µ auf B1 ( Normalverteilung N (m, σ 2 )“, falls µ normiert wird). ” b) Das Lebesguemaß λ auf einem Intervall [a, b] hat die Dichte f (x) = 1[a,b] (x), x ∈ R1 . 88 Uwe Küchler Der Begriff der Dichte bez. des Lebesguemaßes λd wird im Fall (F, F) = (Rd , Bd ) analog definiert. Das Intervall (a, b] in (3.12) wird dabei durch einen d-dimensionalen Quader (a, b] (siehe (1.1)) ersetzt. Ist f eine Dichte von µX , so nennt man sie auch Dichte der meßbaren Funktion X. Hintergrund ist, daß man in Wahrscheinlichkeitstheorie und Statistik gern von Dichten von Zufallsgrößen X spricht und dabei Dichten ihrer Wahrscheinlichkeitsverteilungen PX meint. Der folgende Satz erlaubt die Rückführung von Integralen bezüglich Maßen auf (Rd , Bd ) mit Dichten auf die Berechnung von Lebesgueintegralen bez. des Lebesguemaßes. Später werden wir sehen, daß man diese wiederum häufig durch Riemannintegrale, wie sie aus dem Gymnasium bekannt sind, auswerten kann. Für sie gibt es eine Füllle von konkreten Berechnungsformeln, z.B. die Substitutionsregel oder die Methode der partiellen Integration. Es sei µ ein σ−finites Maß auf Bd mit einer Dichte f und d ≥ 1. Satz 5.10 ZFalls h eine reellwertige Borel-messbare Funktion auf Rd ist mit h ≥ 0 oder |h(z)|µ(dz) < ∞, so gilt Z Z h(y)µ(dy) = Rd h(z)f (z)dz. (5.15) Rd Insbesondere haben wir Z µ(B) = f (z)dz für alle B ∈ Bd . (5.16) B Beweis: Wir verwenden die Lifting Methode. Für h = 1(a,b] ist der Satz nach Formel (3.12)(in seiner allgemeinen Form mit (a, b] als Quader) richtig. Nun erweitert man ihn mit Hilfe der Linearität der Integralbildung auf einfache Funktionen und durch monotone Limites auf nichtnegative messbare Funktionen h. Abschließend zerlegt man beliebige messbare Funktionen h in Positivund Negativteil h = h− − h− . Transformationssatz für Dichten Integration messbarer Funktionen 89 Wir beschränken uns in diesem Punkt der Klarheit halber auf reellwertige Borel-messbare Funktionen X. Der Fall Rd mit d > 1 wird später in Kapitel 6 behandelt. Es sei X eine reellwertige Borel-messbare Funktion auf einem finiten Maßraum X (E, E, µ) mit der Dichte f . Das bedeutet, das durch Z X induzierte Maß µ hat f (x)dx für alle B ∈ B1 . die Dichte f , es gilt also (siehe (3.16)) µX (B) = B Häufig hat man die Verteilung einer Borel-messbaren Funktion Y auf (E, E, µ) zu berechnen, die eine Funktion von X ist. Dazu nehmen wir an, h sei eine Borel-messbare Funktion von R1 in sich, und es gelte y ∈ E. Y (y) := h(X(y)), Offenbar gilt für die Verteilungsfunktion FY von Y FY (y) = µ(Y ≤ y) = µ({z ∈ E|h(X(z)) ≤ y}) = µ(h(X) ≤ y). Aus dieser Gleichung gewinnen wir folgende Aussage 5.11 Es seien fX eine stückweise stetige Dichte von X und {x ∈ R1 |fX (x) > 0} ein Intervall I = (a, b). Weiterhin sei h eine stetig differenzierbare, streng monotone Funktion auf dem Intervall I mit einem Intervall J = (c, d) ⊆ R1 als Wertebereich und mit h0 (x) 6= 0 für alle x ∈ I. (Die Funktion h ist insbesondere eine bijektive Abbildung von I auf J.) Gilt Y = h(X) und setzt man g(y) := h−1 (y), y ∈ J, g(y) := 0, y ∈ R1 \J, so besitzt Y ebenfalls eine Dichte, wir bezeichnen sie mit fY , und es gilt fY (y) = fX (g(y))|g 0 (y)|, y ∈ (c, d), fY (y) = 0, y ∈ R1 \(c, d). (5.17) Gleichung (3.17) kann man auch wie folgt schreiben fX (x) = fY (h(x))|h0 (x)|, x ∈ (a, b), fX (x) = 0, x ∈ R1 \(a, b). Beweis: Wir wissen aus der Differential- und Integralrechnung, dass g(.) differenzierbar ist. Es sei h zunächst (streng) monoton wachsend. Dann gilt FY (y) = µ(Y ≤ y) = µ(h(X) ≤ y) = µ(X ≤ g(y)) = 90 Uwe Küchler Z X µ ((−∞, g(y)]) = fX (s)ds = FX (g(y)). (−∞,g(y)] Das Integral kann als Riemann-Integral aufgefasst werden, da fX nach Voraussetzung stückweise stetig ist.(Wir gehen in Abschnitt 3.7 noch darauf ein.) Nach der Substitionsregel der Differential- und Integralrechnung ist es gleich Z y fX (g(y)) · g 0 (y)dy. −∞ Daraus folgt, dass FY eine Dichte besitzt (siehe (3.13) und (3.14)), und dass gilt fY (y) := FY0 (y) = fX (g(y)) · g 0 (y), y ∈ (c, d). Da h nur Werte aus (c, d) annimmt, ist µ(Y ∈ / (c, d)) = 0, wir können also fY (y) = 0, y ∈ R1 \(c, d) setzen. Ist h (streng) monoton fallend, so haben wir fY (y) = fX (g(y))·(−g 0 (y)). Somit ergibt sich die Formel (3.17). Beispiele 5.12 Dann ist 1) Es sei h(x) = ax + b, x ∈ R1 , mit a 6= 0, Y = aX + b. g(y) = y−b a sowie fY (y) = 1 y−b fX ( ) |a| a und fX (x) = |a| · fY (ax + b). 2) Ist X eine Borel-messbare reellwertige Funktion auf (E, E),und µX eine (normierte) N (m, σ 2 )-Verteilung, dann besitzt Y = exp(X) eine Dichte der Form 1 2 fY (y) = √ exp − 2 (ln y − m) , y > 0 2σ 2πσ 2 y 1 fY (y) = 0, y ≤ 0. Das Maß bzw. die Verteilung mit dieser Dichte nennt man logarithmische Normalverteilung mit den Parametern m und σ 2 . Integration messbarer Funktionen 91 Die Cantorsche Funktion, Fortsetzung Wir zeigen jetzt, dass die am Ende des Abschnitts 1.3. definierte Cantorsche Funktion F , die eine Verteilungsfunktion auf R1 ist, keine Dichte besitzt, obwohl sie stetig ist. Angenommen, die Dirichletsche Funktion F habe eine Dichte f . Nach Definiton ist die Funktion F konstant auf jedem der Intervalle 1 2 1 2 7 8 (0, ∞), (−∞, 0), ( , ), ( , ), ( , ), . . . . 3 3 9 9 9 9 Auf diesen Intervallen ist F folglich stetig differenzierbar, und dort gilt F 0 (x) = dF (x) = f (x) = 0 dx Das Lebesguemaß der Vereinigung dieser Intervalle aus (0, 1) (außer den beiden erstgenannten) ist gleich Eins. Also gilt F 0 (x) = f (x) = 0 λ-f.ü., und somit kann nicht (3.13) gelten. Also besitzt das von der (stetigen) Cantorschen Funktion erzeugte Maß keine Dichte. Weitere interessante Eigenschaften der Cantorschen Funktion und des von ihr erzeugten Maßes findet man z.B. in Elstrodt [3], S.73ff. Wir beenden diesen Abschnitt mit der Definition bestimmter Teilmengen der Menge aller Borel-messbarer Funktionen auf einem Maßraum (E, E, µ), die sich später als sehr nützlich erweisen werden, und von denen im nächsten Punkt einige Eigenschaften zusammengestellt werden. Definition 5.13 (Die Mengen Lp (E, E, µ)) Es seien (E, E, µ) ein σ-finiter Maßraum und p ≥ 1. Wir bezeichnen mit Lp = Lp (E, E, µ) die Menge aller reellwertigen Borel-messbaren Funktionen X auf E mit Z |X(y)|p µ(dy) < ∞. E p Für jedes X aus L definieren wir Z k X kp := E p1 |X(y)|p dµ . 92 Uwe Küchler Die Menge L∞ = L∞ (E, E, µ) ist definiert als Menge aller reellwertigen, Borelmessbaren Funktionen X auf (E, E, µ), die beschränkt sind: sup |X(y)| < ∞. y∈E Wir setzen für alle X aus L∞ k X k∞ := sup |X(y)|. y∈E Übungen 1) Überprüfen Sie, ob die zwei Funktionen f und g, definiert durch f (y) = 21[0, 3 ] (y) + 41[ 1 ,1] (y), y ∈ [0, 1], 4 4 g(y) = 21[0, 1 ] (y) + 61[ 1 , 3 ] (y) + 41( 3 ,1] (y), y ∈ [0, 1], 4 4 4 4 auf dem Intervall [0, 1] gleich sind. Berechnen Sie die Integrale R und [0,1] g(y)dy. R [0,1] f (y)dy 2) Durch Xn (y) = k k+1 k für y ∈ [ n , n ), k = 0, 1, . . . , 2n − 1 n 2 2 2 ist eine Folge (Xn , n ≥ 1) definiert. Zeigen Sie: (Xn ) ist eine monoton nichtfallende Folge von einfachen Funktionen und bestimmen Sie den Grenzwert X = X(y) für n R→ ∞. Berechnen Sie die Integrale R X n (y)dy und ihren Grenzwert [0,1] X(y)dy. [0,1] 3) Die Abbildung X habe die Dichte f (y) = λ exp[−λy]1(0,∞) (y), y ∈ R1 für ein λ > 0. Welche Dichte hat die Funktion Y = exp[−aX] für a 6= 0? Integration messbarer Funktionen 5.6 93 Ungleichungen In diesem Punkt nehmen wir an, dass (E, E, µ) ein finiter Maßraum ist. Wir beweisen bzw. stellen eine Reihe nützlicher und in der Wahrscheinlichkeitstheorie und Statistik, aber auch darüber hinaus häufig verwendeter Ungleichungen vor. Aussage 5.14 (Jensenschen Ungleichung) Es sei X(·) eine Borel-messbare Abbildung von einem finiten Maßraum (E, E, µ) in R1 . Ist g eine konvexe Funktion auf R1 , d.h. gilt für alle x, y ∈ R1 und alle λ ∈ (0, 1) die Ungleichung g(λx + (1 − λ)y) ≤ λg(x) + (1 − λ)g(y), so ist Z g X(y)µ(dy) E Z ≤ g(X(y))µ(dy). E (J.L.W.V. Jensen, dänischer Mathematiker, 1876-1925) Zum Beweis dieser Ungleichung siehe z.B. Schmidt [5], Seite 280. Aussage 5.15 (Cauchy-Schwarzsche Ungleichung) Sind X und Y Elemente von L2 (E, E, µ), so ist X ·Y ∈ L1 (E, E, µ), und die Cauchy-Schwarzsche Ungleichung ist gültig: Z 2 Z Z 2 X · Y dµ ≤ X dµ · Y 2 dµ, m.a.W. E E (5.18) E Z | X · Y dµ| k X k2 · k Y k2 (3.18’) E Die Gleichheit ” = ” gilt genau dann, wenn es Zahlen a, b ∈ R1 gibt mit |a| + |b| > 0 und aX + bY = 0 µ − f.ü.. (5.19) 94 Uwe Küchler (Augustion Louis Cauchy, französischer Mathematiker, 1789-1857, Herrmann Amandus Schwarz, deutscher Mathematiker, 1843-1921) Die Cauchy-Schwarzsche Ungleichung wird auch oft mit dem Namen V.J.Bunjakowski, russischer Mathematiker(1804-1889), verbunden, der sie unabhängig von Cauchy und Schwarz im Jahr 1859 publiziert hat. Beweis: Für jedes c ∈ R1 gilt Z Z Z Z 2 2 2 X dµ + 2c XY dµ + Y 2 dµ =: Q(c). (5.20) 0 ≤ (cX + Y ) dµ = c E E E E 2 Die Lösungen a1,2 einer quadratischen q Gleichung der Form R(a) = a +pa+q = 0 lauten bekanntlich a1,2 = − p2 ± genau dann, wenn p2 4 p2 4 − q. Es gilt R(a) ≥ 0 für alle a ∈ R1 Z − q ≤ 0. Wegen (3.20) folgt (sofern X 2 dµ > 0) E 2 Z XY dµ Z Z E 2 ≤ Y 2 dµ X 2 dµ E Z X dµ 2 E E und somit (3.18). Es gilt Q(c) = 0 für ein c ∈ R1 genau dann, wenn cX + Y = 0 µ-f.ü.. Daraus folgt (3.19). Z X 2 dµ = 0 haben wir X = 0 µ-f.ü., und (3.18) ist erfüllt. Die Im Fall E Gleichung (3.19) erhält man in diesem Fall für a = 1undb = 0. Aus der nächsten Ungleichung werden sich mehrere nützliche konkretere Fälle ergeben, die teilweise eigene Namen tragen. Aussage 5.16 Es seien h eine nichtnegative Borel-messbare Funktion auf R1 und X eine reellwertige Borel-messbare Funktion auf (E, E, µ). Dann gilt R µ({y ∈ E|h(X(y)) ≥ a}) ≤ für jedes a > 0. h(y)µ(dy) E a (5.21) Integration messbarer Funktionen 95 Beweis: Die Funktion Y = h ◦ X ist Borel-messbar. Wir setzen A := {Y −1 ([a, ∞))} = {y ∈ E|h(X(y)) ≥ a} = {h(X) ≥ a}. Z Z Damit gilt h(X(y)) ≥ a1A (y) und h(X)dµ ≥ a 1A (y)dµ = aµ(A), also E E erhalten wir die Ungleichung (3.21). Folgerungen 5.17 a) ( Markovsche Ungleichung) Es gilt für jedes a > 0 und jedes p > 0 R µ(|X|p ≥ a) = µ({y ∈ E k X(y)| ≥ a}) ≤ |X|p dµ E . ap (Andrej Andrejevitsch Markov, russischer Mathematiker, 18561922) Zum Beweis setze man einfach h(x) = |x|p in Aussage 3.15 und berücksichtige, daß |X|p ≥ ap genau dann gilt, wenn |X| ≥ a richtig ist. b) (Chebyshev’sche Ungleichung) Es gilt für jedes a > 0 die R |X|dµ E . µ(|X| ≥ a) ≤ a (5.22) (Pavnuty Lwowitsch Chebyshev, russischer Mathematiker, 18211894) Diese Ungleichung folgt aus a) für k = 1. c) (Höldersche-Ungleichung) . Ist p > 1 und q > 1 mit p1 + 1q = 1, so gilt für je zwei reellwertige E-messbare Funktionen X und Y auf E Z | XY dµ| ≤k X kp · k Y kq . (5.23) E (Ludwig Otto Hölder, deutscher Mathematiker, 1859-1937) (Eine Verallgemeinerung der Cauchy-Schwarzschen Ungleichung (3.18)) 96 Uwe Küchler d) (Minkowski-Ungleichung) Falls p ∈ [1, ∞) und X, Y ∈ Lp (E, E, µ), so gilt k X + Y kp ≤k X kp + k Y kp . (5.24) (H.Minkowski, litauischer-deutscher Mathematiker, 1864-1909) Zu den beiden nicht bewiesenen Ungleichungen siehe zum Beispiel Siraev [6] unter dem Stichwort Ungleichungen“. ” f ) (Lyapunov-Ungleichung) Es sei X eine reellwertige Borel-messbare Abbildung auf einem finiten Maßraum (E, E, µ). Dann gilt für alle p, p0 mit 0 < p < p0 die Ungleichung Z 10 p1 Z p p0 |X(y)| µ(dy) |X(y)| µ(dy) ≤ p (5.25) E E oder, in anderer Notation, k X kp ≤k X kp0 . (Alexander Michailowitsch Lyapunov, russischer Mathematiker, 18571918) Zum Beweis dieser letzten Ungleichung setzt man in der Jensenschen Unglei0 chung g(x) := |x|r mit r = pp und |X(y)|p anstelle X(y). Dann folgt Z Z Z 0 p r p r | |X(y)| µ(dy)| ≤ |X(y)| µ(dy) = |X(y)|p µ(dy), E E E woraus sich die Lyapunovsche Ungleichung unmittelbar ergibt. Als Folgerung aus der Minkowski-Ungleichung ergibt sich, daß für jedes p ∈ [1, ∞) die Menge Lp = Lp (E, E, µ) einen linearen Raum bildet: X, Y ∈ Lp , α, β ∈ R1 ⇒ αX + βY ∈ Lp . Integration messbarer Funktionen 97 Dasselbe gilt auch für die Menge L∞ . Als Folgerung ergibt sich weiterhin, dass die Menge Lp (E, E, µ) für jedes p ∈ [1, ∞) fast “einen normierten Raum bildet, und dass k · kp ”fast” alle Eigen” schaften einer Norm besitzt: i) X ∈ Lp =⇒k αX kp = |α| k X kp , α ∈ R1 , ii) k X + Y kp ≤ k X kp + k Y kp , (Dreiecksungleichung für Normen). Allerdings ist die folgende, für eine Norm notwendige dritte Eigenschaft, i. a. nicht erfüllt: iii) k X kp = 0 genau dann, wenn X = 0 richtig ist. Aus k X kp = 0 folgt nämlich nur µ({y : X(y) 6= 0}) = 0 (siehe Satz 3.5e)). Um auch diese dritte Eigenschaft zu erhalten, geht man folgendermaßen vor. Man faßt alle Borel-messbaren Funktionen auf E, die µ-fast überall gleich sind, zu einer Äquivalenzklasse zusammen: [X] := {Y |E → R1 , Borel-messbar, µ({X 6= Y }) = 0}. Mit der Definition α[X] + β[Y ] := [αX + βY ] wird die Menge aller Äquivalenzklassen zu einem linearen Raum. Das Nullelement in diesem linearen Raum Zist [0], die Äquivalenzklasse, die die Funktion |X|p dµ hängt nicht von Änderungen von X X(y) ≡ 0 enthält. Das Integral E Z in µ-Nullmengen ab, folglich hängt der Wert |Y |p dµ nicht von der Wahl des E Elementes Y aus einer Äquivalenzklasse [X] ab (siehe Satz 3.5d)). Aus diesem Grund können wir jeder Äquivalenzklasse [X] den Wert k X kp zuordnen, wobei X irgend ein Repräsentant aus dieser Klasse ist. In der Regel bezeichnet man den linearen Raum aller Äquivalenzklassen [X], für die k [X] kp < ∞ gilt, mit Lp (E, E, µ), oder, wenn keine Verwechslungen möglich sind, oder kurz mit 98 Uwe Küchler Lp . Neben den Analoga zu i) und ii) hat nun die Funktion k [X] kp , [X] ∈ Lp , tatsächlich die Eigenschaft iii) k [X] kp = 0 genau dann, wenn [X] = [0]. Aus Gründen der Vereinfachung, und weil Verwechselungen kaum möglich sind, nennt man Lp (p ≥ 1) den Raum der p-integrierbaren Funktionen, meint aber eigentlich den Raum der entsprechenden Äquivalenzklassen. Wir formulieren hier zur Abrundung der Darstellung den folgenden Satz ohne weitere Erkläerung. Interessierte Leser können sich z.B. in Siraev [5], II,10 informieren. Satz 5.18 Jeder der Räume Lp (E, E, µ), (p ∈ [1, ∞)), ist ein Banachraum. 0 Es gilt für alle p, p0 mit 1 ≤ p < p0 < ∞ die Relation Lp ⊆ Lp . Bemerkung: In der Menge L∞ (E, E, µ) werden ebenfalls Äquivalenzklassen eingeführt, indem man alle Borel-messbaren Funktionen zusammenfasst, die µ−fast überall gleich einer beschränkten Borel-messbaren Funktion sind. Die Menge dieser Äquivalenzklassen wird mit L∞ (E, E, µ) bezeichnet. Eine passende Norm auf L∞ (E, E, µ) ist dann definiert durch k X k∞ := inf{c > 0|X(y) ≤ c µ − fast überall}. (5.26) (Die so definierte Norm k X k∞ ist unempfindlich gegeüber Ä nderungen von X auf µ−Nullmengen, d.h., k X k∞ ist gleich für alle Funktionen aus der Äquivalenzklasse [X].) Bezüglich dieser Norm ist auch L∞ (E, E, µ) ein Banachraum. Details findet man z.B. in Elstrodt [3], S.228ff. Übungen 1) Zeigen Sie, dass unter den in Aussage 3.14 formulierten Voraussetzungen an X und Y auch folgende Ungleichung gilt: Z E 2 Z Z 2 |X| · |Y |dµ ≤ X dµ · Y 2 dµ. E E Integration messbarer Funktionen 99 2) Beweisen Sie, dass die Erweiterung der Hölderschen Ungleichung (3.23) auf dem Fall p = 1 und q = ∞ richtig ist: Z | XY dµ| ≤k X k1 · k Y k∞ . E 3) Zeigen Sie, dass für die Dirichletsche Funktion gilt sup ||X(y)|} = 1, {y∈[0,1]} aber ||X||∞ = 0 im Sinne von (3.26). 4) Beweisen Sie, dass für jede reellwertige, Borel-messbare Funktion X auf einem finiten Maßraum (E, E, µ) mit ||X||∞ < ∞ gilt lim ||X||p = ||X||∞ . p→∞ 5.7 Lebesgue- und Riemannintegrale Es sei X eine reellwertige Funktion auf einem (endlichen) Intervall [a, b]. Für jede Zerlegung (m) 4m := {a = s0 (m) < s1 (m) < . . . < skm = b} (m) (m) (m) ∈ sk−1 sk , k = (m) (5.27) von [a, b] und jede Wahl von ”Zwischenpunkten” ξk 1, . . . , km , definieren wir die Summe I(4m ; X) := km X k=1 (m) (m) X(ξk )(sk − sk−1 ). 100 Uwe Küchler X a (n) ξ1 (n) (n) (n) s1 ξ2 s2 s ... b Abbildung 5.1: Bestandteile der Riemannschen Summe Definition 5.19 Man sagt, die Funktion X sei integrierbar im Riemannschen Sinne (oder einfach Riemann-integrierbar), falls für jede Folge (4m ) von Zer(m) (m) −→ legungen von [a, b] mit |4m | := max |sk − sk−1 | m→∞ 0 und jede Wahl von k=1,...,km (m) ξk , k Zwischenpunkten = 1, . . . , km , die Folge (I(4m ; X)) gegen ein und dieselbe Zahl konvergiert, die man als Riemannintegral von X über das Intervall [a, b] bezeichnet: Zb lim I(4m ) =: R − X(s)ds. |4m |→0 a (Bernhard Riemann, deutscher Mathematiker, 1826-1866) Ein hinreichendes Kriterium dafür, dass eine Funktion Riemann-integrierbar ist, liefert die folgende Aussage. Aussage 5.20 Es sei X eine stückweise stetige Funktion auf einem (endlichen) Intervall [a, b], d.h. es gebe eine Folge a = t0 < t1 < . . . < tn = b von Punkten aus [a, b], so dass X auf jedem Intervall [tk−1 , tk ], k = 1, . . . , n, stetig und beschränkt ist. Dann ist X Riemann-integrierbar. Zum Beweis siehe z. B. H. Heuser, Lehrbuch der Analysis, Teil 1, Teubner Verlag Stuttgart, Leipzig, 12. Aufl. 1998. Integration messbarer Funktionen 101 Das Riemannintegral hat eine Reihe von Eigenschaften, die Rechnungen mit ihm erleichtern oder auch erst ermöglichen. Dazu gehören die Aussage des Fundamentalsatzes der Differential- und Integralrechnung, die Formel der partiellen Integration und die Substitutionsformel. Die folgende Aussage zieht einen Vergleich zwischen den beiden Integralbegriffen, die wir bisher kennengelernt haben. Aussage 5.21 Ist X eine Riemannintegriebare Funktion auf [a, b], so existiert das Lebesgueintegral bez. des Lebesguemaßes, bezeichnet durch Zb L− X(s)ds, a Zb und ist gleich dem Riemannintegral R − X(s)ds. a Beweis: Wir nehmen der Einfachheit halber an, dass X stückweise stetig ist und setzen Xm (s) := km X k=1 1(s(m) ,s(m) ] (s)X(ξk(m) ). k−1 k (m) (m) (m) Dabei sind wie oben angegeben 4m := {a = s0 < s1 < . . . < skm = b} eine (m) (m) (m) Zerlegung von [a, b] und ξk ∈ sk−1 sk , k = 1, . . . , km eine beliebige Folge von Zwischenpunkten. Damit ist Xm eine einfache Funktion, die stückweise stetig ist. Es gilt lim Xm (s) = X(s) mit |∆m | −→ 0 für alle s ∈ [a, b] m→∞ m→∞ außer eventuell in einigen oder allen Unstetigkeitspunkten {t0 , t1 , . . . , tn } von X. Da X beschränkt ist (d.h., |X| ≤ K für eine Konstante K > 0), sind auch die Xm gleichmäßig in m beschränkt (d.h., |Xm | ≤ K für alle m und eine Konstante K > 0). Aus dem Satz über die majorisierte Konvergenz (siehe Satz 4.6 c)) folgt 102 Uwe Küchler Zb R− Zb X(s)ds = lim I(4m , X) = lim L − m→∞ a Zb Xm (s)ds = L − m→∞ a X(s)ds. a Beispiel 5.22 Die sogenannte Dirichletfunktion X(y) = 1Q (y), y ∈ [0, 1], wobei Q die Menge der rationalen Zahlen bezeichnet, ist Lebesgue-, aber nicht Riemannintegrierbar. Übungen 1) Berechnen Sie mit Hilfe des R Grenzwertes von Summen der Form (3.27) das Riemann-Integral (R)- [0,1] ydy. 2) Überzeugen Sie sich davon, dass die in Beispiel 3.21 angegebene Dirichletfunktion Lebesgue-, aber nicht Riemannintegrierbar ist. Kapitel 6 Konvergenzarten für Folgen messbarer Funktionen Es seien (E, E, µ) ein σ-finiter Maßraum und (Xn , n ≥ 1) eine Folge reellwertiger Borel-messbarer Funktionen auf E. Es gibt mehrere Möglichkeiten, eine Konvergenz der Folge (Xn ) gegen eine Funktion X auf E zu definieren. Diese Konvergenzarten stehen auf unterschiedliche Weisen in Beziehung, keineswegs folgt aber aus der Konvergenz in der einen Art immer die in einer anderen Art. In Wahrscheinlichkeitstheorie und Statistik ist es zum Beispiel so, daß fundamentale Grenzwertsätze wie Gesetze der großen Zahlen und Zentrale Grenzwertsätze in verschiedenen Konvergenzarten formuliert werden und unter unterschiedlichen Voraussetzungen gültig sind. Eine erste und naheliegende Möglichkeit der Definition der Konvergenz von Funktionenfolgen ist die punktweise Konvergenz. Definition 6.1 Man sagt, eine Folge (Xn ) reellwertiger Funktionen Xn auf E konvergiere punktweise gegen eine Funktion X auf E, falls für jedes y aus E die Zahlenfolge (Xn (y)) gegen die Zahl X(y) konvergiert: lim Xn (y) = X(y), n→∞ y ∈ E. Die ”Grenz”-funktion X ist eindeutig bestimmt. Gilt nämlich lim Xn (y) = X̃(y), n→∞ 103 y ∈ E, 104 Uwe Küchler so ist X̃(y) = X(y), y ∈ E. Die Funktion X ist mit Xn , n ≥ 1, ebenfalls Borel-messbar (siehe Folgerung 2.5c)). 6.1 Konvergenz µ-fast-überall Eine andere Konvergenzart ist die Konvergenz µ-fast-überall, die wir jetzt systematischer untersuchen wollen. Definition 6.2 Eine Folge (Xn ) reellwertiger Borel-messbarer Funktionen heißt µ-fast-überall (kurz: µ-f.ü.) konvergent gegen eine Borel-messbare Funktion X auf (E, E, µ), falls es eine µ-Nullmenge N aus E gibt, mit lim Xn (y) = X(y) für alle y ∈ E\N. n→∞ Symbolisch: Xn −→ X. µ−f.ü. Einige Eigenschaften der µ-fast-überall-Konvergenz a) Aus lim Xn = X µ − f.ü. und lim Xn = X̃µ − f.ü. folgt X = X̃ µ − f.ü.. n→∞ n→∞ Aus lim Xn = X µ − f.ü. und Xn = X̃n µ − f.ü. für alle n ≥ 1 folgt n→∞ 0 lim Xn = X µ − f.ü.. n→∞ b) Ist ϕ eine stetige Abbildung von R2 in R1 , und gilt lim Xn = X µ − f.ü. n→∞ sowie lim X̃n = X̃ µ − f.ü., so folgt lim ϕ(Xn , X̃n ) = ϕ(X, X̃) µ − f.ü.. n→∞ n→∞ Insbesondere ist lim Xn · X̃n = X · X̃ µ − f.ü. n→∞ lim Xn / = X/ auf {X̃ 6= 0} µ − f.ü. X̃n X̃ n→∞ lim (αXn + β X̃n ) = αX + β X̃ µ − f.ü.. n→∞ Konvergenzarten für Folgen messbarer Funktionen 105 Beispiel 6.3 Es sei (E, E, µ) = ([0, 1], B[0,1] , λ), wobei λ das Lebesguemaß auf [0, 1] bezeichne. Die Folge Xn (y) = y n , y ∈ [0, 1], n ≥ 1, konvergiert punktweise und damit λ-f.ü. gegen X(y) = 1{1} (y) aber λ-f.ü. auch gegen X̃(y) ≡ 0 und gegen X̃(y) = 1Q (y), y ∈ [0, 1], wobei Q die Menge der rationalen Zahlen bezeichne. Aussage 6.4 Sind (Xn , n ≥ 1) und X reellwertige, Borel-messbare Funktionen auf (E, E, µ), so ist die Menge B aller y ∈ E, für die limn→∞ Xn (y) = X(y) gilt, eine Borel-messbare Menge. Beweis: Es gilt nach Definition der Konvergenz einer Zahlenfolge, dass y genau dann zu B gehört, wenn für alle ε > 0 ein n0 = n0 (ε) ≥ 1 existiert, so dass für alle n ≥ n0 gilt |Xn (y) − X(y)| ≤ ε. Somit ist y ∈ / B genau dann, wenn es ein ε > 0 gibt, so dass für unendlich viele n die Ungleichung |Xn (y) − X(y)| > ε richtig ist. Wir definieren für jedes ε > 0 und jedes k ≥ 1 die Menge Aεk := {y ∈ E||Xk (y) − X(y)| > ε} und Aε := {y ∈ E|y ∈ Aεk für unendlich viele k ≥ 1} = \ [ lim sup Aεk = Aεk . k→∞ 0 n≥1 k≥n 0 0 Es gelten für alle ε, ε mit 0 < ε < ε und alle k ≥ 1 die Inklusionen Aεk ⊆ Aεk , 0 folglich auch Aε ⊆ Aε . Daraus folgt [ [ 1 (6.1) A := Aε = Ak . ε≥0 k≥1 Es gilt y ∈ A genau dann, wenn ein ε > 0 existiert, so daß y ∈ Aεk für unendlich viele k ≥ 1. Das heißt, A = B c . Wegen (4.1) ist A durch abzählbar unendliche Vereinigungen und Durchschnitte der Borel-messbaren Mengen Aεk darstellbar und somit auch Borel-messbar, und wegen Ac = B ist auch B eine Borelmenge, was zu zeigen war. Folgerung 6.5 Es gilt lim Xn = X µ-f.ü. genau dann, wenn n→∞ lim µ({y ∈ E| sup |Xk (y) − X(y)| > ε}) = 0 für alle ε > 0. n→∞ k≥n (6.2) 106 Uwe Küchler Beweis: Wir verwenden die Notation des Beweises der Aussage 4.4. Es gilt [ 1 µ−f.ü. Xn −→ X ⇔ µ(A) = 0 ⇔ µ( A k ) = 0. k≥0 1 Da A k mit wachsendem k monoton nichtfallend ist, gilt die letzte Gleichung 1 genau dann, wenn µ(A k ) = 0 für alle k ≥ 1. Das ist äquivalent mit µ(Aε = 0) füf alle ε > 0. Nach Definition von Aε und der Stetigkeit des Maßes µ von unten (siehe in Abschnitt 1.3 den Punkt 3a) der Unmittelbaren Folgerungen.) ist das aber genau dann der Fall, wenn [ Aεk ) = 0. lim µ( n→∞ k≥n Wegen [ Aεk = {y ∈ E| sup ||Xk (y) − X(y)| > ε} k≥n k≥n ergibt sich damit die Aussage. 6.2 Vertauschung von Grenzwertbildung und Integration Ein großer Vorteil in der Arbeit mit dem oben eingeführten Integralbegriff ist die Möglichkeit, Grenzwerte von Funktionen im Sinne der µ− f.ü.-Konvergenz und Integrale über diese Funktionen bez. des Maßes µ unter relativ allgemeinen Bedingungen vertauschen“ zu können. Das ist der Inhalt dieses Abschnittes. ” Satz 6.6 Es seien (Xn , n ≥ 1) und X reellwertige Funktionen über einem σ−finitem Maßraum (E, E, µ), die Borel-messbar sind. Dann sind folgende Aussagen richtig: a) (Theorem der monotonen Konvergenz, Satz von B. Levi) Falls alle Xn nichtnegative Funktionen sind, die µ-f.ü. monoton nichtfallend gegen X konvergieren (0 ≤ Xn (y) ≤ Xn+1 (y) ↑ X(y) für alle y ∈ E außerhalb einer gewissen µ-Nullmenge), so gilt: Konvergenzarten für Folgen messbarer Funktionen (6.3) n→∞ E E E lim Xn dµ Xdµ = Xn dµ = lim n→∞ Z Z Z 107 Z Xdµ = ∞). (auch falls E (Beppo Levi, italienischer Mathematiker, 1875-1961) b) (Lemma von Fatou) Falls es eine Funktion Y von (E, E) in (R1 , B1 ) gibt, die Borel-messbar ist, und für die Xn ≥ Y µ-f.ü. sowie Y ∈ L1 (E, E, µ) gilt, dann haben wir Z Z lim inf Xn dµ ≤ lim inf Xn dµ. (6.4) n→∞ n→∞ E E Die Voraussetzung ist insbesondere erfüllt für nichtnegative Xn . (Pierre Fatou, französischer Mathematiker, 1878-1929) c) (Lebesgues’s Theorem der majorisierten Konvergenz) Wenn die Funktionen Xn µ-fast überall gegen eine Funktion X konvergieren und |Xn | ≤ Y µ-f.ü. für ein Y ∈ L1 = L1 (E, E, µ) und alle n ≥ 1 gilt, dann ist Xn , X ∈ L1 und Z Z Xn dµ = lim n→∞ E Z lim Xn dµ = Xdµ. n→∞ E (6.5) E Beweis: Z Xn dµ ≤ a) Wegen der Monotonie der Integrationsbildung folgt ZE und somit, weil auf Grund der Monotonie der Folge ( n→∞ E E Xdµ E Xn dµ) ihr GrenzE wert Zexistiert, Z lim Xn dµ ≤ Xdµ. Z 108 Uwe Küchler Für den Nachweis der umgekehrten Ungleichung nehmen wir an, daß Y eine einfache Funktion mit 0 ≤ Y ≤ X sei. Für jedes c ≥ 1 setzen S wir Bn = Bn (c) = {cXn ≥ Y }. Es gilt Bn ∈ E, Bn ⊆ Bn+1 , n ≥ 1, Bn = n E und cXn ≥ Y · 1Bn . Offenbar ist Y · 1Bn ebenfalls eine einfache Funktion, außerdem gilt Y · 1Bn ↑ Y. Nun folgt aus Definition 3.2. und der Definition von Bn Z Z Z Y dµ = lim Y · 1Bn dµ ≤ c · lim Xn dµ. n→∞ E n→∞ E E Da diese Ungleichung für alle c ≥ 1 gilt, haben wir Z Z Y dµ ≤ lim Xn dµ. (6.6) n→∞ E E Daraus ergibt sich die Ungleichung Z Z Xdµ ≤ lim Xn dµ. n→∞ E E Insgesamt ergibt sich damit (4.3). Die Funktion X ist nämlich der Grenzwert einer nichtfallenden Folge (Yn ) nichtnegativer, einfacher Funktionen R mit Yn ≤ X, man beachte nun die Definition 3.2 für Xdµ. b) Wir können Y = 0 voraussetzen, anderenfalls betrachten wir X̃n := Xn − Y . Es sei Zn := inf Xk . Dann sind die Zn messbare Funktionen mit Zn ≤ k≥n Zn+1 , n ≥ 1. Es gilt lim Zn = supn≥1 inf k≥n Xk = lim inf Xn . n→∞ n→∞ Z Z Wegen Xk ≥ Zn für alle k ≥ n haben wir Xk dµ ≥ Zn dµ für alle E k ≥ n, und somit gilt wegen a) die Beziehung Z Z inf Xk ≥ Zn dµ k≥n E E E Konvergenzarten für Folgen messbarer Funktionen 109 für alle n ≥ 1. Daraus ergibt sich Z Z Z Z Zn dµ, lim inf Xn dµ = sup inf Xk dµ ≥ sup Zn dµ = lim n→∞ n≥1 k≥n E n→∞ n≥1 E E E m.a.W. Xn dµ ≥ lim lim inf n→∞ n→∞ E E E E lim inf Xn dµ. lim Zn dµ = Zn dµ = n→∞ n→∞ Z Z Z Z c) Es sei zunächst Xn ≥ 0 und lim Xn = 0 µ-f.ü.. n→∞ Dann folgt wegen der Voraussetzung Xn ≤ Y µ-f.ü. mittels b) Z Z lim inf (−Xn )dµ ≤ lim inf n→∞ (−Xn )dµ n→∞ E E und somit Z Z lim sup Xn dµ ≥ lim sup n→∞ E Xn dµ ≥ 0 n→∞ E Also ist wegen lim sup Xn = lim Xn = 0µ− f.ü. Z Z lim sup Xn dµ ≥ lim sup 0= n→∞ E Xn dµ ≥ 0, n→∞ E Z d.h. lim Xn dµ = 0. n→∞ E Im allgemeinen Fall lim Xn = X µ-f.ü. setzen wir Zn := |Xn − X|. Dann gilt 0 ≤ Zn ≤ 2Y ∈ L1 (E, E, µ), lim Zn = 0 n→∞ und 110 Uwe Küchler Zn dµ. (6.7) E E E E |Xn − X|dµ = Xdµ| ≤ Xn dµ − | Z Z Z Z Es gilt |Xn − X| ∈ L1 , und wegen XnZ ∈ L1 folgtZX ∈ L1 . Aus (4.7) ergibt sich dann mit Hilfe des ersten Teils lim Xn dµ = Xdµ. n→∞ E E Ein Beispiel für eine Funktionenfolge (Xn ), die µ−f.-ü. konvergiert, und für die (4.5) nicht gilt, wird in den Übungen behandelt. 6.3 Konvergenz dem Maß nach Es seien (E, E, µ) und (Xn , n ≥ 1) wie zu Beginn dieses Kapitels eingeführt. Definition 6.7 Die Folge (Xn ) konvergiert dem Maß µ nach gegen eine Borelmessbare Funktion X auf E, falls gilt lim µ({y ∈ E| |Xn (y) − X(y)| > ε}) = 0 für jedes ε > 0. n→∞ (6.8) µ Symbolisch: Xn −→ X. µ Wir halten fest, daß offenbar Xn −→ X genau dann gilt, wenn lim sup µ({y ∈ E| |Xn (y) − X(y)| > ε}) = 0 für jedes ε > 0. n→∞ k≥n (6.9) Aussage 6.8 Es gelten folgende Beziehungen zwischen µ-f.ü.-Konvergenz und Konvergenz dem Maß nach. a) Aus lim Xn = X µ − f.ü. folgt lim Xn = X dem Maß µ nach. n→∞ n→∞ b) Wenn lim Xn = X dem Maß µ nach, so gibt es eine Teilfolge (nk ) n→∞ natürlicher Zahlen mit lim Xnk = X µ − f.ü.. k→∞ Konvergenzarten für Folgen messbarer Funktionen 111 Beweis: a) Wir haben für alle k ≥ n : {|Xk (y) − X(y)| > ε} ⊆ {sup |Xk (y) − X(y)| > ε}. k≥n Daraus ergibt sich sup µ(|Xk − X| > ε) ≤ µ(sup |Xk − X| > ε) k≥n k≥n Mittels Folgerung 4.5. und (4.9) ergibt sich die Behauptung. 1 b) Da nach Voraussetzung lim µ |Xn − X| > k = 0 für alle k ≥ 1, so n→∞ gibt es für jedes k ≥ 1 ein nk ∈ N mit 1 µ |Xn − X| > k ≤ 1 für alle n ≥ nk . k2 Also ist X X 1 1 < ∞. µ |Xnk − X| > ≤ k k2 k≥1 k≥1 (6.10) An diesem Punkt verwenden wir das folgende Lemma, das auch an anderen Stellen der Maßtheorie und Wahrscheinlichkeitstheorie häufig benutzt wird. Lemma 6.9 (Borel-Cantelli) Ist (An , n ≥ 1) eine Folge messbarer Mengen aus E mit ∞ ∞ T S gilt µ lim sup An = µ Am = 0. n→∞ ∞ P µ(An ) < ∞, so n=1 n=1 m=n Der Beweis war Gegenstand der 3. Übungsaufgabe aus Abschnitt 1.3. (Francesco Paolo Cantelli, italienischer Ökonom und Mathematiker, 1875-1966) 112 Uwe Küchler Folgerung 6.10 Die Folge (Xn ) konvergiert dem Maß µ nach gegen X genau dann, wenn es zu jeder Teilfolge (Xnk ) eine Unterfolge (Xnkl ) gibt, die µ-f.ü. gegen X konvergiert. µ µ Beweis: Aus Xn −→ X folgt Xnk −→ X für jede Teilfolge (nk ) und wegen Aussage 4.8b) existiert eine Unterfolge (nkl ) von (nk ) mit lim Xnkl = X µ-f.ü.. l→∞ Umgekehrt, konvergiert (Xn ) nicht dem Maß µ nach gegen X, so gilt µ(|Xnk − X| ≥ ε) > η für gewisse ε, η > 0 und eine unendliche Folge (nk ) aus N. Andererseits gibt es nach Voraussetzung eine Unterfolge (nkl ) mit Xnkl −→ X, µ−f.ü. was zu einem Widerspruch führt. Aus Folgerung 4.10 ergibt sich nunmehr, dass die Eigenschaften a) und b) der µ-f.ü.-Konvergenz auch für die Konvergenz dem Maß nach gelten. Beispiel 6.11 ( Folge der wandernden Türme“) (E, E, µ) = ([0, 1), B[0,1) , λ) ” mit λ gleich dem Lebesguemaß auf [0, 1). Wir definieren: Xn,k (y) := 1[k·2−n ,(k+1)2−n ) (y), k = 0, 1, . . . , 2n − 1, n ≥ 0, Ym := Yn,k , falls m = 2n + k, m ≥ 1. Die Folge (Ym , m ≥ 1) konvergiert dem Maß µ nach, aber nicht µ-f.ü. gegen 1 Xn,k−1 Xn,k Xn,k+1 y k 2n k+1 2n 1 Abbildung 6.1: Wandernde Türme“ ” X(y) ≡ 0. Konvergenzarten für Folgen messbarer Funktionen 113 Der Beweis ist als Übungsaufgabe vorgesehen. In der Wahrscheinlichkeitstheorie und Statistik treten µ-f.ü.-Konvergenz bzw. Konvergenz dem Maß nach z.B. bei starken bzw. schwachen Gesetzen der großen Zahlen auf. Sie heißen dort fast sichere Konvergenz bzw. stochastische Konvergenz. 6.4 Konvergenz in Verteilung Eine völlig andere Art von Konvergenz als die bisher betrachteten ist die Konvergenz in Verteilung. Man benötigt sie in der Wahrscheinlichkeitstheorie und Statistik z.B. im Rahmen von zentralen Grenzwertsätzen. Wir nehmen an, (Xn , n ≥ 1) sei eine Folge von Borel-messbaren Funktionen auf einem finiten Maßraum (E, E, µ) mit Werten in R1 . Ihre Verteilungsfunktionen Fn seien gegeben durch Fn (x) := µ(Xn ≤ x) = µ({y ∈ E|Xn (y) ≤ x}), x ∈ R1 . Definition 6.12 Die Folge (Fn , n ≥ 1) (bzw. die Folge (Xn , n ≥ 1)) konvergiert in Verteilung gegen eine Verteilungsfunktion F auf R1 , (symbolisch: d d Fn −→ F bzw. Xn −→ F ), falls für jede Zahl x ∈ R1 , in der F stetig ist, gilt lim Fn (x) = F (x). n→∞ Bemerkung: Angenommen, es gibt eine reellwertige Borel-messbare Funktion X auf (E, E, µ) mit der Verteilungsfunktion F , so sagt man mitunter auch, dass d d Xn in Verteilung gegen X konvergiert (Xn −→ X), falls Fn −→ F für n → ∞. Die Konvergenz in Verteilung läßt sich auf folgende Weise charakterisieren. Aussage 6.13 Eine Folge (Fn , n ≥ 1) von Verteilungsfunktionen auf R1 konvergiert in Verteilung gegen eine Verteilungsfunktion F auf R1 , genau dann, wenn gilt: Z Z lim f dFn = f dF, n→∞ R1 R1 114 Uwe Küchler für jede stetige, beschränkte Funktion f auf R1 . Zum Beweis siehe Siraev [6], Kap. III. Aus der Konvergenz dem Maß nach folgt die Konvergenz in Verteilung. Das ist der Inhalt der nächsten Aussage. Aussage 6.14 Es sei (Xn , n ≥ 1) eine Folge reellwertiger Borel-messbarer µ Funktionen auf (E, E, µ) mit Xn −→ X (Konvergenz dem Maß µ nach) für n→∞ d eine Borel-messbare Funktion X auf (E, E, µ). Dann gilt Fn −→ F , wobei Fn bzw. F die Verteilungsfunktionen von Xn bzw. X bezeichnen. Beweis: Es sei f eine beschränkte stetige Funktion auf R1 , es gelte also insbesondere |f (x)| ≤ c, x ∈ R1 , für ein c > 0. Zu jedem ε > 0 gibt es einTN > 0, so dass µ(|X| > N ) ≤ 4cε richtig ist (wegen lim µ(|X| > N ) = µ( {|X| > N →∞ N N }) = µ(|X| = ∞) = 0). Auf Grund der Stetigkeit von f gibt es ein δ > 0, so dass für alle z, z 0 ∈ R1 mit |z| ≤ N und |z − z 0 | ≤ δ die Ungleichung |f (z) − f (z 0 )| ≤ 2ε richtig ist. Folglich gilt (siehe Substitutionsregel, Satz 3.6)) Z Z Z | f (x)Fn (dx) − f (x)F (dx)| = | (f (Xn (y)) − f (X(y)))µ(dy)| R1 R1 E Z ≤ |f (Xn (y)) − f (X(y))|µ(dy) = E Z Z |f (Xn (y))−f (X(y))|µ(dy) + {|X(y)|≤N } {Xn (y)−X(y)|≤δ} |f (Xn (y))−f (X(y))|µ(dy) {|X(y)|>N } {Xn (y)−X(y)|≤δ} Z |f (Xn (y)) − f (X(y))|µ(dy) ≤ + {|Xn (y)−X(y)|>δ} ≤ ε ε · µ(E) + µ(E) + 2cµ(|Xn − X| > δ) = 2 2 εµ(E) + 2cµ(|Xn − X| > δ). Nach Voraussetzung gilt µ(|Xn − X| > δ) −→ 0, also ist n→∞ Z Z 0 ≤ lim | f (x)Fn (dx) − f (x)F (dx)| ≤ ε · µ(E) n→∞ R1 R1 Konvergenzarten für Folgen messbarer Funktionen 115 für alle ε > 0, d. h. Z lim Z f (x)Fn (dx) = n→∞ R1 f (x)F (dx). R1 Aus der Konvergenz in Verteilung einer Folge Borel-messbarer Funktionen folgt i.a. nicht ihre Konvergenz dem Maß nach. Es gilt lediglich Aussage 6.15 Es sei (Xn , n ≥ 1) eine Folge Borel-messbarer Funktionen auf d (E, E, µ) mit Xn −→ F , wobei F eine Verteilungsfunktion auf R1 bezeichne. n→∞ Ist F ausgeartet, d.h., gilt F (x) = 0 falls x < x0 und F (x) = c > 0 falls x ≥ x0 für ein x0 ∈ R1 und ein c > 0, so konvergiert (Xn , n ≥ 1) dem Maß µ nach gegen die konstante Funktion X(y) ≡ x0 , y ∈ E. Der Beweis dieser Aussage ist als Übungsaufgabe vorgesehen. 6.5 Konvergenz im Lp-Sinne Wir nehmen an, (E, E, µ) sei ein finiter Maßraum und p sei eine reelle Zahl mit p ≥ 1. Weiterhin sei (Xn , n ≥ 1) eine Folge aus Lp (E, E, µ) und X ∈ Lp (E, E, µ). Definition 6.16 Man sagt, die Folge (Xn , n ≥ 1) konvergiert im Lp -Sinne gegen X, falls lim k Xn − X kp = 0. n→∞ Wenn eine Folge (Xn , n ≥ 1) im Lp -Sinne gegen X konvergiert, so erfolgt die Konvergenz auch dem Maß nach. Es gilt nämlich R µ({y ∈ E| |Xn (y) − X(y)| > ε}) ≤ |Xn (y) − X(y)|p dµ εp (6.11) für p ≥ 1, siehe Folgerung 3.16a) (Markov-Ungleichung). Für p = ∞ ist dies ohne Weiteres klar, da µ({y ∈ E||Xn (y) − X(y)| >k Xn − X k∞ }) = 0. Das Verhältnis zwischen µ-fast überall-Konvergenz und Lp -Konvergenz ist etwas komplizierter. Im Allgemeinen folgt weder aus der µ-fast überall-Konvergenz 116 Uwe Küchler die Lp -Konvergenz noch umgekehrt aus der Lp -Konvergenz die µ-fast überall Konvergenz. Für die Klärung der gegenseitigen Beziehung führen wir folgenden Begriff ein. Definition 6.17 Die Folge (Xn ), n ≥ 1 heißt gleichgradig integrierbar, falls gilt Z |Xn |dµ = 0 lim sup c→∞ n≥1 (6.12) {|Xn |≥c} Aussage 6.18 Konvergiert die Folge (Xn ) µ-fast überall gegen eine Funktion X, und ist (Xn ) gleichgradig integrierbar, so gilt k Xn − X k1 −→ 0. n→∞ Beweis: Mit (Xn ) ist auch die Folge (Xn − X) gleichgradig integrierbar. Also genügt es, die Aussage für X = 0 zu beweisen. Es sei c eine beliebige positive Zahl. Dann gilt Z Z Z k Xn k1 = |Xn |dµ = |Xn |dµ + |Xn |dµ ≤ E {|Xn |≥c} {|Xn |<c} Z sup Z |Xn |dµ + |Xn |dµ. n {|Xn |≥c} {|Xn |<c} Wegen |Xn | −→ 0 und 1{|Xn |<c} |Xn | ≤ c gilt konvergiert der zweite Summand µ−f.ü. der rechten Seite für n → ∞ gegen 0 (siehe den Satz 4.6c) von der majorisierten Konvergenz), und zwar für jedes c > 0. Der erste Summand ergibt für c → ∞ nach Voraussetzung der gleichgradigen Integrierbarkeit der Xn ebenfalls Null. Somit haben wir k Xn k1 −→ 0. n→∞ Mit Hilfe des folgenden Satzes, der eine Charakterisierung der gleichgradigen Integrierbarkeit beinhaltet, werden wir zwei hinreichende Kriterien herleiten. Konvergenzarten für Folgen messbarer Funktionen 117 Aussage 6.19 Eine Folge (Xn ) ist genau dann gleichgradig integrierbar, wenn Z a) sup |Xn |dµ < ∞ und n E b) für alle Z ε > 0 gibt es ein δ > 0, so dass für alle A ∈ E gilt: sup |Xn |dµ < ε, falls µ(A) < δ. n A Beweis: Für jedes n ≥ 1 jedes A ∈ E und jedes c > 0 gilt Z Z Z |Xn |dµ = A Z |Xn |dµ + A∩{|Xn |≥c} |Xn |dµ < A∩{|Xn |<c} |Xn |dµ + c · µ(A). {|Xn |≥c} Also ist Z Z |Xn |dµ ≤ sup sup n |Xn |dµ + c · µ(A). (6.13) n A {|Xn |≥c} Ist (Xn ) gleichgradig integrierbar, so folgt aus (4.13) die Eigenschaft a) (für A = E), sowie Eigenschaft b) (man wähle c so groß, dass Z ε ε sup |Xn |dµ < und setze δ = .) 2 2c n {|Xn |≥c} Umgekehrt, es mögen a) und b) gelten. Wir haben zu zeigen, dass (4.12) richtig ist. Es sei nun ε irgendeine positive Zahl und δ gemäß b) gewählt. Wegen a) haben wir Z 1 sup P (|Xn | ≥ c) ≤ sup |Xn |dµ −→ 0. c↑∞ c n n E Wählt man nun c so groß, dass sup P (|Xn | ≥ c) < δ, so gilt wegen b) n R sup |Xn |dµ < ε. Das bedeutet, für jedes ε > 0 gibt es ein c > 0, so n {|Xn |≥c} dass Z |Xn |dµ < ε h(c) := {|Xn |≥c} 118 Uwe Küchler gilt. Weil h(c) mit wachsendem c monoton fällt, gilt Z lim sup |Xn |dµ < ε, c↑∞ n≥1 {|Xn |≥c} und da ε als eine bliebige positive Zahl gewählt wurde, bedeutet das Z lim sup |Xn |dµ = 0. c↑∞ n≥1 {|Xn |≥c} Wir geben nunmehr zwei einfache Kriterien an, unter denen Borel-messbare Funktionen (Xn ) gleichgradig integrierbar sind. Folgerungen 6.20 gibt mit a) Wenn es eine positive messbare Funktion Y ∈ L1 (E, E, µ) |Xn | ≤ Y, n ≥ 1, so ist (Xn ) gleichgradig integrierbar. Unter der genannten Voraussetzung gilt Z Z |Xn |dµ ≤ Y dµ, n ≥ 1. {|Xn |≥c} {|Xn |≥c} Außerdem ist µ(|Xn | ≥ c} ≤ EY E|Xn | ≤ also c c lim sup µ(|Xn | ≥ c) = 0, c→∞ n woraus sich mittels Aussage 4.19 die Eigenschaft (4.12) ergibt. Konvergenzarten für Folgen messbarer Funktionen 119 Xn+1 n Xn (y) = n1[0, 1 ] (y), y ∈ [0, 1) n y 1 1 n Abbildung 6.2: Beispiel einer Folge, die nicht durch eine Funktion Z ∈ L1 ([0, 1), λ[0,1) ) majorisiert werden kann b) Ist eine Folge (Xn ) in einem Lp mit p > 1 beschränkt, d. h. gilt sup k Xn kp < ∞ für ein p > 1, n so ist (Xn ) gleichgradig integrierbar. Wir haben dann nämlich Z |Xn |dµ ≤ {|Xn |≥c} 1 Z p |Xn | dµ ≤ cp−1 {|Xn |≥c} 1 Z cp−1 |Xn |p dµ E Für p = ∞ folgt aus supn k Xn k∞ < ∞ bereits |Xn (y)| ≤ supn k Xn k∞ := c < ∞µ−fast überall. Folgerung 4.20 liefert nun die gleichgradige Integrierbarkeit. Beispiele 6.21 a) Aus der µ-f.ü. Konvergenz folgt nicht die Lp -Konvergenz: Ist (E, E, µ) = ([0, 1], B[0,1] , λ) mit λ gleich dem Lebesguemaß auf [0, 1], so ist (Xn ) mit 120 Uwe Küchler Xn (y) = 0 für y ∈ 1 ,1 n ,n ≥ 1 n für y ∈ 0, n1 λ-fast überall konvergent gegen X(y) ≡ 0, aber nicht gleichgradig integrierbar. Es gilt auch nicht lim k Xn − X kp = 0 für irgend ein p ≥ 1. n→∞ Insbesondere ist (Xn ) nicht gleichgradig integrierbar. b) Aus der Lp -Konvergenz folgt nicht die µ-f.ü. Konvergenz: Die Folge (Yn ) aus Beispiel 4.11 konvergiert im Lp -Sinne (p ∈ [1, ∞)) gegen Null, aber nicht λ-f.ü.. Die Konvergenzarten im Sinne des Lp unterscheiden sich für unterschiedliches p. Es gilt allerdings Aussage 6.22 Ist 1 ≤ p ≤ p0 < ∞, so folgt aus lim k Xn − X k0p = 0 die n→∞ Beziehung lim k Xn − X kp = 0. n→∞ Beweis: Der Beweis ergibt sich unmitelbar aus der Lyapunov-Ungleichung (3.25). Wir beweisen nun ein mitunter sehr nützliches Kriterium für die L1 -Konvergenz. Aussage 6.23 IstZ(Xn ) eine Folge nichtnegativer Borel-messbarer Funktionen auf (E, E, µ) mit Xn dµ < ∞, n ≥ 1, und gilt Xn −→n→∞ X µ− f.ü. für E Z Xdµ < ∞, so folgt aus eine Borel-messbare Funktion X auf (E, E, µ) mit E Z lim Z Xdµ < ∞ Xn dµ = n→∞ E E bereits lim k Xn − X k1 = 0, also Xn −→n→∞ X im L1 -Sinne. n→∞ Z Xn dµ < ∞, n ≥ 1, und Beweis: Nach Voraussetzung gilt E Folglich haben wir Z Xdµ < ∞. E Konvergenzarten für Folgen messbarer Funktionen Z 0≤ Z |X − Xn |dµ = E (X − Xn )1{X≥Xn } dµ + E 121 Z (Xn − X)1{X<Xn } dµ E Z = 2 (X − Xn )1{X≥Xn } dµ + Z (Xn − X)dµ. E E Wegen 0 ≤ (X − Xn )1{X≥Xn } ≤ X und Xn −→ X können wir Lebesgue’s µ−f.ü. Theorem der majorisierten Konvergenz anwenden (siehe Satz 4.6 c)) und erhalten die Konvergenz des ersten Teils der rechten Seite gegen Null. Der zweite Teil konvergiert nach Voraussetzung gegen Null. Also gilt lim k Xn − X k1 = 0. n→∞ Die Räume Lp (E, E, µ) als Banachräume Eine Folge (Xn ) reellwertiger Borel-messbarer Funktionen auf einem σ-finiten Maßraum (E, E, µ) heißt fundamental (im Sinne der Maßkonvergenz, der µ-fast sicherer Konvergenz oder der Lp -Konvergenz (1 ≤ p < ∞)) falls (Xn − Xm ) −→ 0 n,m→∞ im Sinne der entsprechenden Konvergenzart. Man kann zeigen (siehe z. B. Siraev [6], § 10), dass es zu jeder fundamentalen Folge (Xn ) eine Funktion X gibt, für die lim Xn = X n→∞ im Sinne der entsprechenden Konvergenzart gilt. Im Fall der normierten Räume (Lp , k · kp ) bezeichnet man diese Eigenschaft als Vollständigkeit, vollständige normierte Räume nennt man Banachräume. Aussage 6.24 Die Räume Lp (E, E, µ) mit 1 ≤ p ≤ ∞ sind Banachräume. 122 Uwe Küchler (zum Beweis siehe z.B.ebenfalls Siraev, a.a.0.) Übungen 1) Weisen Sie für die Folge (Xn ) aus Beispiel 4.21a) durch explizite Rechnung nach, dass sie die Bedingung (4.12) nicht erfüllt. 2) Beweisen Sie die Aussage 4.15. 3) Es seien (Xn ) und X Borel-messbare Funktionen auf einem finiten Maßraum (E, E, µ). Die Folge (Xn ) sei gleichgradig integrierbar, und X sei integrierbar mit endlichem Integral. Überzeugen Sie sich davon, dass dann auch die Folge (Xn − X) gleichgradig integrierbar ist. Kapitel 7 Produktmaße In der Wahrscheinlichkeitstheorie spielt der Begriff der Unabhängigkeit für Ereignisse bzw. Zufallsgrößen eine überragende Rolle. Die gemeinsame Verteilung voneinander unabhängiger Zufallsgrößen ist von spezieller Gestalt, es ist eine sogenannte Produktverteilung oder, in der Sprache der Maßtheorie, ein Produktmaß. In diesem Abschnitt führen wir Produktmaße ein und geben Sätze (Satz von Fubini und Satz von Tonelli) an, mit dessen Hilfe man Integrale bezüglich Produktmaßen auf einfachere Integrale zurückführen kann. 7.1 Messbare Abbildungen auf Produkträumen Es seien (E, E) und (F, F) zwei messbare Räume und E × F := {(x, y)|x ∈ E, y ∈ F } die Produktmenge aus E und F (siehe Kapitel 1) sowie E ⊗ F = σ(E × F) die Produkt-σ-Algebra von E und F. Letzteres bedeutet, dass E ⊗ F die kleinste σ-Algebra von Teilmengen von E × F ist, die alle Mengen aus der Semialgebra γ := E × F = {B × C|B ∈ E, C ∈ F} enthält. (Vgl. Abschnitt 2.3.) Dann heißt Beispiele 7.1 a) Ist E = Rn , F = Rm , E = Bn , F = Bm , so gilt E × F = Rn+m , E ⊗ F = Bn+m . 123 124 Uwe Küchler Zum Beweis der letzten Gleichung bemerken wir, dass wegen γk ⊆ σ(γk ) = Bk die Inklusionen γn × γm ⊆ E × F ⊆ E ⊗ F gelten, wobei γl die Menge aller nach links halboffenen l-dimensionalen Quader bezeichnet, l = n, m (siehe Beispiele 1.2). Nun ist aber γn × γm = γn+m , woraus Bn+m = σ(γn+m ) ⊆ E ⊗ F folgt. Andererseits gilt γn × γm = γn+m ⊆ Bn+m und somit σ(γn ) × σ(γm ) ⊆ Bn+m , also E × F ⊆ Bn+m . Nach Definition der Produkt-σ-Algebra folgt E ⊗ F ⊆ Bn+m . b) Ist E = {x1 , . . . , xn }, E = P(E), F = {y1 , . . . , ym }, F = P(F ), so ist E × F = {(xi , yi )|i = 1, 2, . . . , n; j = 1, 2, . . . , m} und E ⊗ F = P(E × F ). Zum Beweis: Es gilt {xi } ∈ E und {yj } ∈ F für alle i, j. Die letzte Gleichung folgt nun unmittelbar aus {(xi , yj )} ∈ E ⊗ F für alle i, j. Definition 7.2 Ist X eine reellwertige Funktion auf E × F , so heißt für jedes y ∈ F die Funktion x → X(x, y), x ∈ E, der Schnitt von X am Punkt y ∈ F . Analog nennt man für jedes x ∈ E die Funktion y → X(x, y), y ∈ F, den Schnitt von X am Punkt x ∈ E. Aussage 7.3 Es sei X eine (E ⊗ F, B1 )-messbare Abbildung von E × F in R1 . Dann ist für jedes x ∈ E (bzw. y ∈ F ) der Schnitt y → X(x, y) (bzw. x → X(x, y)) eine (F, B1 )-(bzw. (E, B1 ))-messbare Funktion von F (bzw. E) in R1 . Die Umkehrung gilt im Allgemeinen nicht. Beweis: Wir nehmen als Erstes an, dass X von der Form X(x, y) = 1C (x, y) für ein C ∈ E ⊗ F ist. Nun definieren wir H := {C ∈ E ⊗ F|y → 1C (x, y) ist (F, B1 )-messbar für Produktmaße 125 alle x ∈ E}. Die Menge H ist eine σ-Algebra von Teilmengen aus E (Beweis als Übung) und umfasst offenbar γ := E × F. Deshalb gilt E ⊗ F ⊆ H , da E ⊗ F nach Definition die kleinste σ-Algebra aus E × F ist, die γ umfasst. Nach Definition von H gilt aber auch H ⊆ E ⊗ F. Somit ergibt sich insgesamt H = E ⊗ F. Aussage 5.3 gilt also für alle Indikatorfunktionen 1C , C ∈ E ⊗ F. Da Linearkombinationen messbarer Funktionen messbar sind, gilt die Aussage auch für einfache Funktionen. Wenn X eine positive (E ⊗ F, B1 )-messbare Funktion ist, so wählen wir eine monoton wachsende Folge (Xn ) einfacher Funktionen aus mit 0 ≤ Xn ↑ X (punktweise), siehe Satz 2.10. Nach dem bereits Bewiesenen ist Zn (y) = Xn (x, y) für jedes x ∈ E eine Fmessbare Funktion. Folglich gilt dasselbe für Z(y) := X(x, y) = lim Xn (x, y), n→∞ da der Grenzwert messbarer Funktionen messbar ist, siehe Folgerungen 2.5c). Schließlich nutzen wir bei beliebiger E⊗F-messbarer Funktion X die Zerlegung X = X + − X − , beachten, dass X + und X − positiv und E ⊗ F-messbar sind, und dass die Differenz messbarer Funktionen messbar ist. (Lifting Methode) 7.2 Produktmaße Gegeben seien zwei σ-finite Maßräume (E, E, µ) und (F, F, ν). Wir definieren durch κ(B × C) := µ(B) · ν(C), B ∈ E, C ∈ F (7.1) eine Mengenfunktion κ auf E × F. Aussage 7.4 κ ist eine nichtnegative σ-finite und σ-additive Mengenfunktion auf der Semialgebra E × F und kann folglich auf eindeutige Weise zu einem σ-finiten Maß auf der Produkt-σ-Algebra E⊗F erweitert werden, das wiederum mit κ bezeichnet wird. Es wird das Produktmaß aus µ und ν genannt. Symbolisch: κ = µ ⊗ ν. Die Maße µ und ν nennt man die Komponenten von µ ⊗ ν. 126 Uwe Küchler Beweis: Dass κ(B × C) ≥ 0 gilt, folgt aus µ ≥ 0 und ν ≥ 0. Da µ undSν σ-finit sind, gibt es wachsende Folgen (Bn ) bzw. (Cn ) aus E bzw. F mit B = E n S bzw. Cn = F und µ(Bn ) < ∞ bzw. ν(Bn ) < ∞ für alle n ≥ 1. Folglich ist n S κ(Bn × Cn ) < ∞ für alle n ≥ 1 und (Bn × Cn ) = E × F . n Es sei nun D ∈ E ⊗ F. Für jedes x ∈ E schreiben wir D(x) = {y : (x, y) ∈ D}. Für den Fall D = B × C, B ∈ E, C ∈ F, haben wir Z κ(D) = µ(B) · ν(C) = ν(D(x))µ(dx), (7.2) E da D(x) = C, falls x ∈ B und = ∅, falls x ∈ / B. Es sei H := {D ∈ E ⊗ F|x → ν(D(x)) ist (E, B1 ) − messbar}. Man überzeuge sich davon, dass H eine σ-Algebra ist (Übung). Außerdem gilt nach dem bereits Festgestellten und der Definition von H die Beziehung E × F ⊆ H ⊆ E ⊗ F und somit die Gleichheit H = E ⊗ F. Also können wir für jedes D ∈ E ⊗ F, da ν(D(x)) als Funktion von x positiv und (E, B1 )-messbar ist, definieren Z ν(D(x))µ(dx). κ(D) := (7.3) E Die durch (5.3) gegebene Mengenfunktion κ ist offenbar nichtnegativ und additiv auf E ⊗ F. Z Wenn D = ∅ gilt, so ist κ(D) = 0 · µ(dx) = 0. E Es bleibt zu zeigen, daß κ sogar eine σ-additive Mengenfunktion ist. Wenn (Dn ) eine Folge paarweise disjunkter Mengen aus E ⊗ F bildet, gilt für jedes x ∈ E die Gleichung [ [ Dn (x) = (Dn (x)) n n und die Dn (x) sind paarweise disjunkt. Somit haben wir (Satz über die monotone Konveregenz) Produktmaße κ 127 [ Dn = n = Z X ν(Dn (x))µ(dx) = E n X κ(Dn ). XZ n ν(Dn (x))µ(dx) E n Damit ist die σ-Addivitität von κ gezeigt. Das Maß κ ist eine Fortsetzung der durch (5.1) auf E × F definierten Mengenfunktion κ auf E ⊗ F und damit eindeutig (siehe Satz 1.26). Folgerung: Zur eindeutigen Charakterisierung des Produktmaßes κ auf E ⊗ F genügt es also zu zeigen, dass κ ein Maß auf E ⊗ F ist, das jedem Rechteck “ ” S1 × S2 (S1 ∈ E, S2 ∈ F) den Wert µ(S1 ) · ν(S2 ) zuordnet. 7.3 Integrale bezüglich Produktmaßen In diesem Punkt beweisen wir einen häufig verwendeten Satz, der u. a. die Berechnung von Integralen bez. Produktmaßen auf die Berechnung von Integralen bez. der Komponenten des Produktmaßes zurückführt. Satz 7.5 (Satz von Fubini) Für jede (E ⊗ F, B1 )-messbare Funktion X = X(x, y), x ∈ E, y ∈ F , die nichtnegativ ist oder bez. κ = µ ⊗ ν ein endliches Integral besitzt, sind die Funktionen Z x→ Z X(x, y)ν(dy) und y → F X(x, y)µ(dx) (7.4) E µ− (bzw. ν−)fast überall endlich, (E, B1 )-(bzw. (F, B1 )-)messbar, und es gilt Z Z Z X(x, y)µ ⊗ ν(dx, dy) = E×F E F Z Z = F X(x, y)ν(dy) µ(dx) X(x, y)µ(dx) ν(dy), (7.5) E wobei die Seiten dieser Gleichungen entweder alle endlich oder alle unendlich sind. 128 Uwe Küchler (Guido Fubini, italienischer Mathematiker, 1879-1943) Beweis: Wir haben (5.5) bereits für Indikatorfunktionen X(x, y) = 1D (x, y), D ∈ E ⊗ F, bewiesen, siehe (5.3). Aus der Linearität der Integralabbildungen folgt (5.5) für nichtnegative einfache Funktionen X(x, y). Ist X nichtnegativ und E ⊗ F-messbar, und ist (Xn ) eine wachsende Folge einfacher Funktionen, die gegen X (punktweise) konvergieren, so gilt (nach Definition des Integralbegriffes und (5.5)) Z Z Xdµ ⊗ ν = lim n→∞ E×F E×F Z Z Xn (x, y)ν(dy) µ(dx). lim n→∞ E Xn dµ ⊗ ν = (7.6) F Z Die Funktionen x → Xn (x, y)ν(dy) bilden eine mit n wachsende Folge von EF Z messbaren Funktionen, die gegen X(x, y)ν(dy) konvergiert. Auf der GrundF lage des Theorems der Monotonen Konvergenz (s. Satz 4.6a)) folgt durch seine zweimalige Anwendung Z Z lim n→∞ Xn (x, y)ν(dy) µ(dx) = E F Z Z Z Z lim Xn (x, y)ν(dy) µ(dx) = lim Xn (x, y)ν(dy) µ(dx), n→∞ E n→∞ F E F also mit (5.6) Z Z Z Xdµ ⊗ ν = E×F E X(x, y)ν(dy µ(dx). F Aus Symmetriegründen ergibt sich damit auch die zweite Gleichung in (5.5). Produktmaße 129 Bemerkungen 7.6 a) Aus der Existenz der iterierten Integrale Z auf der rechten Seite von (5.5) folgt weder die Existenz des Integrals X(x, y)µ ⊗ ν(dx, dy) noch ihre E×F Gleichheit. Z b) Ist dagegen X ≥ 0 und ist x → X(x, y)ν(dy) eine µ-fast überall F Z X(x, y)µ ⊗ ν(dx, dy) und endliche Funktion, so existiert das Integral E×F es gilt (5.5). (Satz von Tonelli, siehe zum Beispiel Bauer [1], § 23.) (Leonida Tonelli, italienischer Mathematiker, 1885-1946) c) Wenn X(x, y) = H(x)G(y) für eine E-messbare Funktion H und eine F-messbare Funktion G, so gilt, falls H bezüglich µ und G bezüglich ν integrierbar sind und beide Integrale endlich sind, Z Z Z X(x, y)µ ⊗ ν(dx, dy) = H(x)µ(dx) · G(y)ν(dy). (7.7) E×F E E Die Formel (5.7) ist in der Wahrscheinlichkeitstheorie und Statistik wichtig. In der dortigen Sprache lautet sie: Sind G und H zwei (stochastisch) unabhängige Zufallsgrößen mit endlichem Erwartungswert, so gilt E(G · H) = EG · EH. 7.3.1 Faltung von Maßen Sind in der Wahrscheinlickeitstheorie zwei Zufallsgrößen (= messbare Funktionen) unabhängig, so bedeutet das, dass ihre gemeinsame Verteilung die Produktverteilung ihrer beiden Einzelverteilungen ist. Für die Verteilung der Summe beider Zufallsgrößen ergibt sich eine Verteilung, die man als Faltung beider Einzelverteilungen bezeichnet. Mit dieser Verteilung beschäftigen wir uns in diesem Punkt. Wir nehmen im Folgenden an, dass µ und ν zwei finite Maße auf (R1 , B1 ) sind, µ ⊗ ν bezeichne das Produktmaß auf (R2 , B2 ). 130 Uwe Küchler Definition 7.7 Die Faltung µ ∗ ν der Maße µ und ν ist ein Maß auf B1 , definiert durch Z µ ∗ ν(B) := 1B (x + y)µ ⊗ ν(dx, dy), B ∈ B1 . (7.8) R2 Auf Grund des Satzes von Fubini (Satz 5.5, siehe auch Bemerkung 5.6b)) ist dieser Wert gleich Z Z ν({y : x + y ∈ B})µ(dx) und auch gleich R1 µ({x : x + y ∈ B})ν(dy). R1 Für B = (−∞, z] ergibt sich wegen {y : x + y ∈ (−∞, z]} = (−∞, z − y] für die Verteilungsfunktion Fµ∗ν von µ ∗ ν Z Fµ∗ν (z) = µ ∗ ν((−∞, z]) = Fν (z − x)µ(dx) = R1 Z Z Fν (z − x)Fµ (dx) = R1 Fµ (z − y)Fµ (dy), z ∈ R1 . (7.9) R1 Da Fµ∗ν durch Fν und Fµ ausgedrückt werden kann, nennt man Fµ∗Fν auch die Faltung von Fµ und Fν und schreibt Fµ ∗ Fν anstelle Fµ∗ν . Offensichtlich gilt wegen des Satzes von Fubini Fµ ∗ Fν = Fν ∗ Fµ , also µ ∗ ν = ν ∗ µ. Beispiele 7.8 a) (Faltung diskreter Maße) Sind µ und ν diskrete finite Maße auf der Menge Z = {0, ±1, ±2, . . .} der ganzen Zahlen mit µ({k}) =: µk , ν({k}) =: νk , k ∈ Z, so ist µ ∗ ν ebenfalls ein diskretes finites Maß auf Z, und es gilt für seine Einzelmaße Produktmaße 131 µ ∗ ν({k}) = X µl νk−l = l∈Z X Beweis: Es gilt µ ∗ ν(B) = X µk−l µl (7.10) l∈Z 1B (k + l)µk νl , B ∈ B1 , also ist µ ∗ k,l∈Z ν(R1 \Z) = 0, d. h. µ ∗ ν ist ein diskretes Maß auf Z. Für seine Einzelmassen (µ ∗ ν)k gilt wegen (5.8) mit B = {k} X (µ ∗ ν)k := (µ ∗ ν)({k}) = 1{k} (l + m)µl · νm = l,m∈Z = X µl νk−l = X µk−l νl l∈Z l∈Z also ist (5.10) richtig. b) (Faltung von Dichten) Sind µ und ν finite Maße mit Dichten f (·) bzw. g(·) auf (R1 , B1 ), so hat µ ∗ ν ebenfalls eine Dichte, wir bezeichnen sie mit h(·) oder mit f ∗ g(.), und es gilt Z Z f (y)g(x − y)dy f (x − y)g(y)dy = h(x) = R1 (7.11) R1 Beweis: Mittels der Substitutionsformel (3.15) folgt aus (5.9) und der Translationsinvarianz des Lebesgueschen Mas̈ses Z Z Fµ∗ν (z) = Fµ ∗ Fν (z) = R1 Z Z R1 (−∞,z] f (x)dx g(y)dy = (−∞,z−y] f (x − y)dx g(y)dy. 132 Uwe Küchler Der Satz von Fubini, insbesondere der Satz von Tonelli (Bemerkung 5.6b)), liefert durch Vertauschung der Integrale Z Z Fµ ∗ Fν (z) = f (x − y)g(y)dy dx, (−∞,z] z ∈ R1 . R1 Also hat Fµ ∗ Fν die Dichte Z Z f (z − y)g(y)dy = fµ∗ν (z) := R1 g(z − x)f (x)dx. R1 Die letzte Gleichung in (5.11) ergibt sich aus Fµ ∗ Fν = Fν ∗ Fµ . Übungen 1) Unter Verwendung der Terminologie des Abschnitts 5.2 zeige man, dass H := {D ∈ E ⊗ F|x → ν(D(x)) ist (E, B1 ) − messbar} eine σ-Algebra ist. Kapitel 8 Messbare Funktionen mit Werten in Rn In diesem Kapitel werden messbare Abbildungen X von einem σ-finiten Maßraum (E, E, µ) in den Raum (Rn , Bn ) untersucht, Kriterien für ihre (E, Bn )Messbarkeit angegeben und insbesondere die von ihnen auf Bn induzierten Maße µX untersucht. In der Wahrscheinlichkeitstheorie treten solche Funktionen als zufällige Vektoren auf, die Maße µX sind ihre zugehörigen (mehrdimensionalen) Verteilungen. 8.1 Messbarkeitskriterien und induzierte Maße Es seien (E, E, µ) ein σ-finiter Maßraum und X := (X1 , X2 , . . . , Xn )T eine Abbildung von E in Rn (jede Komponenete Xk von X ist eine Abbildung von E in R1 ). Aussage 8.1 Folgende Aussagen sind miteinander äquivalent: a) Die Abbildung X ist Borel-messbar, b) Jede der Abbildungen Xk von (E, E) in (R1 , B1 ) ist Borel-messbar, 133 134 Uwe Küchler c) X −1 ((a, b]) ∈ E für jeden n-dimensionalen Quader (a, b] := n Y (ak , bk ], a = (a1 , . . . , an )T , b = (b1 , . . . , bn )T , k=1 1 ak , bk ∈ R , ak < bk , k = 1, 2, . . . , n. Beweis: Angenommen a) gilt. Dann ist jede Komponentenabbildung Xk , k = 1, 2, . . . , n eine E-messbare Abbildung, da Xk = Πk ◦ X, wobei Πk die Projektion von X auf ihre k-te Komponente ist, siehe Abschnitt 2.3. Also gilt b). Aus b) folgt c), da X −1 ((a, b]) = n \ Xk−1 ((ak , bk ]) ∈ E, k=1 und jedes Intervall (ak , bk ] eine Borelmenge aus B1 ist und folglich die Menge X −1 ((a − k, bk ]) zu E gehört. Nunmehr gelte c). Bezeichnen wir mit γn die Menge aller Quader (a, b], so gilt nach Definition σ(γn ) = Bn und somit haben wir (man beachte Aussage 1.17) X −1 (Bn ) = X −1 (σ(γn )) = σ(X −1 (γn )) ⊆ E, d. h. X ist E-messbar. Gemäß Aussage 2.15 ist durch µX (B) := µ(X −1 (B)), B ∈ Bn auf Bn ein σ-finites Maß gegeben, das das von X auf Bn induzierte Maß genannt wird. Im folgenden Punkt studieren wir finite Maße auf Bn , sie spielen eine wichtige Rolle in der Wahrscheinlichkeitstheorie und Statistik, wo sie als Wahrscheinlichkeitsverteilungen zufälliger Vektoren auftreten. 8.2 Finite Maße auf (Rn, Bn) Es seien n ≥ 2 und ν ein finites Maß auf (Rn , Bn ). Messbare Funktionen mit Werten in Rn 135 Definition 8.2 Mit der Bezeichnung x := (x1 , x2 , . . . , xn )T ∈ Rn und (−∞, x] := n Q (−∞, xk ] ist durch k=1 F (x) = ν((−∞, x]), x ∈ Rn , eine Funktion F auf Rn definiert, die Verteilungsfunktion des finiten Maßes ν. Aussage 8.3 Die Verteilungsfunktion F des Maßes ν hat folgende Eigenschaften: 1. 0 ≤ F (x) < ∞, x = (x1 , x2 , . . . , xn )T ∈ Rn , für jedes k ∈ {1, . . . , n} ist die Funktion xk → F (x1 , x2 , . . . , xk , . . . , xn ) monoton nichtfallend, 2. lim F (x1 , · · · , xn ) =: F (x1 , . . . , xk−1 , −∞, xk+1 , . . . , xn ) = 0 xk ↓−∞ für jedes k = 1, · · · , n, 3. lim x1 ,··· ,xn ↑∞ F (x1 , · · · , xn ) =: F (∞, ∞, . . . , ∞) < ∞, 4. F ist an jeder Stelle x = (x1 , x2 , . . . , xn )T ∈ Rn von rechts stetig: lim F (x1 + h1 , · · · , xn + hn ) = F (x1 , · · · , xn ), hi ↓0 i=1,··· ,n 5. Mit der Definition 4hi F (x) := F (x1 , · · · , xi−1 , xi + hi , xi+1 , · · · , xn ) − F (x1 , · · · , xn ) gilt 4h1 ···· ·4hn F (x) ≥ 0, x ∈ Rn , hi ≥ 0, i = 1, . . . , n. (Verallgemeinerung der Monotonie vom Fall n = 1 auf allgemeines n.) Der endliche Grenzwert in Punkt 3. ist offenbar gleich ν(Rn ). Der Beweis von 1.-4. erfolgt analog zum Beweis der Eigenschaften a)-c)der Aussage 1.24. Die Aussage 6.3.5 ergibt sich wegen 4h1 ···· ·4hn F (x) = ν((−∞, x]) ≥ 0 aus der Nichtnegativität des Maßes ν. 136 Uwe Küchler Bemerkungen 8.4 Für n = 2 lautet die Eigenschaft 6.3.5 wie folgt: F (x1 + h1 , x2 + h2 ) − F (x1 , x2 + h2 ) − F (x1 + h1 , x2 ) + F (x1 , x2 ) ≥ 0. (8.1) (Man bezeichnet diese Eigenschaft auch als Rechteck-Monotonie“ der Funk” tion F .) Definition 8.5 Jede Funktion F auf Rn mit den Eigenschaften 1.-5. aus Aussage 6.3 nennen wir eine Verteilungsfunktion auf Rn . Zu jeder Verteilungsfunktion F auf Rn in diesem Sinne definieren wir für alle a = (a1 , a2 , . . . , an )T ∈ Rn und b = (b1 , b2 , . . . , bn )T ∈ Rn durch ν((a, b]) = ν n Y (ak , bk ] := 4b1 −a1 4b2 −a2 . . . 4bn −an F (a) (8.2) k=1 eine Mengenfunktion ν auf der Semialgebra Sn aller n-dimensionalen Quader n Q (a, b] = (ak , bk ] ⊆ Rn . Dabei definieren wir im Falle, daß gewisse ak oder bk k=1 gleich −∞ bzw. gleich +∞ sind, den Wert ν((a, b] als entsprechenden Grenzwert gemäß den Eigenschaften 2. und 3. von Aussage 6.3. Das ist eine natürliche Erweiterung der Definition (6.2). Aussage 8.6 a) Die durch (6.2) definierte Mengenfunktion ν ist auf γn σadditiv und lässt sich auf eine und nur eine Weise zu einem σ-additiven finiten Maß auf Bn fortsetzen, das wir wiederum mit ν bezeichnen, b) Das Maß ν besitzt F als Verteilungsfunktion. Zum Beweis von Aussage 6.6, Teil a), sei auch hier auf Siraev [6] (siehe Kap.II, §3) verwiesen. Der Teil b) ergibt sich sofort aus der Definition (6.2) von ν. Damit ist ebenso wie im Fall n = 1 eine eineindeutige Beziehung zwischen den endlichen Maßen auf Bn und den Verteilungsfunktionen auf Rn hergestellt. Die Brücke zwischen beiden Mengen bildet dieR Formel (6.2. R Aus diesem Grund schreibt man auch häufig Rn XdF anstelle Rn Xdµ, falls F die Verteilungsfunktion des finiten Maßes µ ist. Messbare Funktionen mit Werten in Rn 137 Beispiele 8.7 a) Die Funktion F , definiert durch F (x1 , x2 ) = [(x1 ∧ x2 ) ∧ 1] ∨ 0, (x1 , x2 )T ∈ R2 , (8.3) ist eine Verteilungsfunktion auf R2 . Beweis: Die Eigenschaften 1.-4. aus Aussage 6.3 sind offensichtlich. Zum Nachweis von 5. bemerken wir zunächst, dass für jedes Rechteck R := (x1 , x1 + h1 ] × (x2 , x2 + h2 ], das mit der Diagonalen D := {(x, x) : 0 < x ≤ 1} höchstens eine Punkt gemeinsam hat, gilt x2 ≥ x1 + h1 oder x1 ≥ x2 + h2 . Daraus folgt für diese Rechtecke 4h1 4h2 F (x1 , x2 ) = F (x1 + h1 , x2 + h2 ) − F (x1 , x2 + h2 ) − F (x1 + h1 , x2 ) + F (x1 , x2 ) = 0. Gilt dagegen x2 < x1 + h1 und x1 < x2 + h2 , so kann man das Rechteck R in höchstens drei Rechtecke zerlegen, von denen eines die Form (x, x + h] × (x, x + h] für ein h > 0 besitzt, und die anderen mit der Diagonalen D höchstens einen Punkt gemeinsam haben. Es gilt 4h 4h F (x, x) = (x + h − x − x + x) = h > 0 . Mit Hilfe der Additivität der von F auf γ2 erzeugten Mengenfunktion ν ergibt sich die Eigenschaft 5. b) Sind Fk , k = 1, 2, . . . , n, Verteilungsfunktionen auf R1 , so ist F , definiert auf Rn durch F (x) = n Y Fk (xk ), x = (x1 , x2 , . . . , xn )T ∈ Rn , k=1 eine Verteilungsfunktion auf Rn . Der Beweis der Eigenschaften 1.-5. für dieses F wird dem Leser als Übung überlassen. 138 Uwe Küchler Es seien ν ein finites Maß auf (Rn , Bn ) und F seine Verteilungsfunktion. Definition 8.8 Für Q jede r-elementige Teilfolge Jr := (k1 , k2 , . . . , kr ) von (1, 2, . . . , n) (1 ≤ r ≤ n) bezeichne Jr den Projektionsoperator, definiert durch Y Jr x := (xk1 , xk2 , . . . , xkr )T ∈ Rr , x = (x1 , . . . , xn )T ∈ Rn . Offenbar ist ΠJr eine (Bn , Br )-meßbare Abbildung. Die durch νJr (B) := ν Y−1 Jr (B) , B ∈ Br (8.4) auf Br definierte Mengenfunktion νJr ist ein finites Maß und heißt das zu Jr gehörende r-dimensionale Randmaß von ν. Aussage 8.9 Die Verteilungsfunktion FJr des Randmaßes νJr hängt mit der Verteilungsfunktion F wie folgt zusammen: FJr (xk1 , xk2 , . . . , xkr ) = F (∞, . . . , ∞, xk1 , ∞, . . . , xk2 , . . . , ∞, xkr , ∞, . . . , ∞). (8.5) Insbesondere erhalten wir für r = 1 und k1 = k die k-te (eindimensionale) Randverteilung von ν. Beweis: r Y FJr (xk1 , xk2 , . . . , xkr ) = νJr (−∞, xkl ] = l=1 n r Y−1 Y Y ν (−∞, xkl ] = ν Bm mit Jr l=1 m=1 Bm = (−∞, xkl ], falls m = kl für ein l = 1, 2, . . . , r, Bm = (−∞, ∞)falls m 6= kl für alle l = 1, 2, . . . , r. Messbare Funktionen mit Werten in Rn 139 Aus der Kenntnis der Randverteilungsfunktionen FJr mit r < n kann die Verteilungsfunktion F selbst i.a. nicht rekonstruiert werden. Zum Beispiel haben die beiden unterschiedlichen Verteilungsfunktionen F (x1 , x2 ) = ((x1 ∧ x2 ) ∧ 1) ∨ 0 und G(x1 , x2 ) = [(x1 ∧ 1) ∨ 0] · [(x2 ∧ 1) ∨ 0], x1 , x2 ∈ R1 (siehe Beispiele 6.7) die gleichen Randverteilungsfunktionen: F (x1 , ∞) = (x1 ∧ 1) ∨ 0 = G(x1 , ∞) F (∞, x2 ) = (x2 ∧ 1) ∨ 0 = G(∞, x2 ). Wir geben noch eine Definition an, die insbesondere in der Wahrscheinlichkeitshteorie eine Rolle spielt. Ist X = (X1 , X2 , . . . , Xn )T eine E-meßbare Abbildung von einem normierten Maßraum (E, E, µ) in Rn , und ist µX das von X auf Bn induzierte Maß mit der Verteilungsfunktion FX , so heißt FX auch Verteilungsfunktion der Abbildung (des zufälligen Vektors “) X. Dann ist FJr die Verteilungsfunktion des Vektors ” (Xk1 , . . . , Xkr ), wobei Jr = {k1 , k2 , . . . , kr } gilt. Das ergibt sich aus (6.5) und F (∞, . . . , ∞, xk1 , ∞, . . . , xk2 , . . . , xkr , ∞, . . . , ∞) = µ(X1 < ∞, . . . , Xk1 ≤ xk1 , . . . , Xkr ≤ xkr +1 , . . . , Xn < ∞) = µ(Xk1 ≤ xk1 , . . . , Xkn ≤ xkn ). Verteilungsdichten auf Rn Es sei F eine Verteilungsfunktion auf Rn (n ≥ 2), siehe Definition 6.5. Definition 8.10 Gibt es eine nichtnegative Borel-messbare Funktion f auf Rn mit 140 Uwe Küchler f (x) ≥ 0, 1. Zx1 Zxn 2. F (x) = ... −∞ x ∈ Rn , (8.6) f (s1 , s2 , . . . , sn )ds, . . . dsn , x = (x1 , . . . , xn )T , (8.7) −∞ so heißt f eine Dichte der Verteilungsfunktion F , oder einfach eine Verteilungsdichte auf Rn . Aussage 8.11 Ist ν das durch F erzeugte finite Maß (siehe (6.2)), so gilt ν Y n (xk , xk + hk ] = 4h1 . . . , 4hn F (x1 , x2 , . . . , xn ) = (8.8) k=1 xZ 1 +h1 xZ n +hn ... xn f (s1 , . . . , sn )ds1 . . . dsn x1 für alle xk ∈ R1 , hk ≥ 0, k = 1, 2, . . . , n. Beweis: Der Beweis folgt aus der Addivität des Integrals. Beispiele 8.12 (Fortsetzung der Beispiele 6.7) Zu a) F hat keine Dichte, das Maß νF ist auf {(x, x) : 0 ≤ x ≤ 1} konzentriert. Zu b) Haben die Verteilungsfunktionen Fk die Dichten fk , k = 1, . . . , n, so besitzt F eine Dichte f mit f (x1 , x2 , . . . , xn ) = n Y k=1 Aussage 8.13 fk (xk ), x = (x1 , . . . , xn )T ∈ Rn . (8.9) Messbare Funktionen mit Werten in Rn 141 a) Für jede Dichte f von F gilt Zx1 F (x) = Zxn ... −∞ f (s1 , . . . , sn )ds1 . . . dsn , (8.10) −∞ x = (x1 , . . . , xn )T ∈ Rn , Z∞ F (∞, ∞, . . . , ∞) = Z∞ ... −1 f (s1 , . . . , sn )ds1 . . . dsn < ∞ (8.11) −∞ b) besitzt F eine Dichte, so ist F eine stetige Funktion, c) Besitzt F eine Dichte f , die stetig in einer Umgebung von x ∈ Rn ist, so ist F n-mal differenzierbar in diesem x = (x1 , . . . , xn )T , und es gilt ∂n F (x1 , . . . , xn ) = f (x1 , . . . , xn ). ∂x1 . . . ∂xn (8.12) Aussage 8.14 Besitzt F eine Dichte f , so hat auch jede Randverteilungsfunktion FJr mit Jr = {k1 , . . . , kr } ⊆ {1, 2, . . . , n} eine Dichte fJr , die sich folgendermaßen berechnen lässt: Z∞ fJr (xk1 , . . . , xkr ) = Z∞ ... −∞ f (s1 , . . . , sk1 −1 , xk1 , . . . , xkr , skr +1 , . . . , sn )ds1 . . . dsn −∞ | {z } (n−r)−mal Dabei wird über alle Variablen sk integriert, für die k ∈ {1, . . . , n} nicht zu der Menge Jr gehört. Beweis: Der Beweis ergibt sich aus (6.5) und der Definition 6.10 der Dichte f durch Umordnung der Reihenfolge der entsprechenden n-fachen Integrale (Satz von Fubini). Beispiel 8.15 142 Uwe Küchler a) Es sei Σ := σ12 ρσ1 σ2 ρσ1 ρ2 σ22 1 mit σ1 , σ2 > 0, ρ ∈ R mit |ρ| < 1, µ1 µ := ∈ R2 . µ2 Dann ist die Funktion fµ,Σ , definiert durch fµ,Σ (x1 , x2 ) = 1 exp − 2(1 − ρ2 ) x1 − µ 1 σ1 2 1 p . 2πσ1 σ2 1 − ρ2 2 x2 − µ 2 2ρ(x1 − µ1 )(x2 − µ2 ) + − , σ1 σ2 σ2 (x1 , x2 )T ∈ R2 , die Dichte einer Wahrscheinlichkeitsverteilung auf (R2 , B2 ), die als Normalverteilung N2 (µ, Σ) bezeichnet wird. Die Randverteilungsdichten der Verteilung N2 (µ, Σ) sind eine N (µ1 , σ12 )bzw. eine N (µ2 , σ22 )-Verteilung mit den Dichten " 2 # 1 xi − µ i 1 exp − , i = 1, 2. fµi ,σi (xi ) = √ 2 σi 2πσi Man beachte, dass in den Randverteilungen der Parameter ρ nicht mehr auftritt. Aus den Randverteilungen läßt sich deshalb die ursprüngliche Verteilung i. a. nicht rekonstruieren. Für ρ = 0 ist N2 (µ, Σ) das Produktmaß seiner beiden Randverteilungen: fµ,Σ (x1 , x2 ) = fµ1 ,σ1 (x1 ) · fµ2 ,σ2 (x2 ), x1 , x2 ∈ R1 . b) Es seien µ ∈ Rn und Σ eine positiv definite symmetrische n × n-Matrix. Dann ist die Funktion ϕµ,Σ , definiert durch fµ,Σ (x) = 1 √ (2π)n/2 1 T −1 exp − (x − µ) Σ (x − µ) , x ∈ Rn , 2 det Σ Messbare Funktionen mit Werten in Rn 143 die Dichte der sogenannten n-dimensionalen Normalverteilung Nn (µ, Σ). Zu jeder Teilfolge Jr von (1, 2, . . . , n) mit Jr = (k1 , . . . , kr ) ist die zu Jr gehörende Randverteilung ebenfalls eine Normalverteilung und zwar gleich Nr (ΠJr µ, ΠTJr ΣΠJr ) wobei ΠJr die Projektionsmatrix ist, die x = (x1 , x2 , . . . , xn )T auf ΠJr x = (xk1 , . . . , xkr )T abbildet. Transformationssatz für n-dimensionale Dichten Aussage 8.16 Es sei X = (X1 , . . . , Xn )T eine Abbildung von einem finiten Maßraum (E, E, µ) in (Rn , Bn ) mit der Dichte fX . Weiterhin sei U eine offene Menge aus Rn mit µX (Rn \ U ) = 0 und h = (h1 , . . . , hn )T eine eineindeutige stetig differenzierbare Funktion von U auf eine offene Menge V ⊆ Rn , deren Jacobimatrix ∂hi (x) Ĵh (x) := ∂xj i,j=1,...,n nirgends auf U singulär ist. Mit g werde die inverse Funktion h−1 bezeichnet. Dann hat die n-dimensionale Abbildung Y := h(X) eine Dichte fY mit fX (g(y))| det Ĵg (y)| , falls y ∈ V fY (y) = 0, falls y ∈ Rd \V. Bemerkung: Die soeben formulierte Aussage findet man in der Literatur in unterschiedlicher Form, je nachdem, welche Voraussetzungen man an h stellt. Siehe zum Beispiel Pfanzagl, 1991, Kap. 3.4 oder Jacod, Protter [3], Kap. 12. Beispiel 8.17 Es seien A eine reguläre n × n-Matrix und b ∈ Rn . Wir definieren h(x) = Ax + b, x ∈ Rn , Y := h(X). Dann gilt g(y) = A−1 (y − b), Ĵg (y) = A−1 und Y hat die Dichte fY (y) = fX (A−1 (y − b))| det A−1 | , y ∈ Rn . 144 Uwe Küchler Übungen 1) Es sei X = (X1 , X2 )T eine Abbildung von einem finiten Maßraum (E, E, µ) in (R2 , B2 ) mit der Dichte 1 1 2 2 fX (x) = exp − (x1 + x2 ) , x = (x1 , x2 ) ∈ R2 . 2π 2 X1 Man berechne das von Y1 := X induzierte Maß auf B1 . 2 Hinwweis: Wenden Sie Aussage 6.16 auf die Abbildung Y := (Y1 , Y2 ) mit Y1 wie in der Aufgabe und Y2 = X2 an und berechnen Sie dann das gewünschte Maß als Randmaß von Y . hR i2 2 2) Man berechne R1 exp( −x2 )dx mit Hilfe des Satzes von Tonelli, Aussage 6.16 und der Verwendung von Polarkoordinaten zur Berechnung des Integrals über R2 . Literaturverzeichnis [1] Alexandroff, P.S.: Einführung in die Mengenlehre und in die allgemeine Topologie, Deutscher Verlag der Wissenschaften, 1984 [2] Bauer, H.: Maß- und Integrationstheorie, de Gruyter, 1990 [3] Elstrodt, J.: Maß- und Integrationstheorie, Springer, 1999 [4] An Introduction to Probability Theory and its Applications, Vol.II, John Wiley & Sons, Inc.; New York, London, Sydney, 1966 [5] Jacod, J. und Protter, Ph.: Probability Essentials, Springer, 2000 [6] Schmidt, K.D.: Maß und Wahrscheinlichkeit, Springer, 2009 [7] Siraev, A.N.: Wahrscheinlichkeit, Verlag der Wissenschaften, Berlin, 1988 [8] Dacunha-Castelle, D.,Duflo, M.: Probability and Statistics,Vol.I and II, Springer, 1986 [9] Spektrum der Wissenschaft, Spezial: Das Unendliche, 1/2001, Weiterführende Literatur (insbesondere Wahrscheinlichkeitstheorie und Statistik): Dehling, H. und Haupt, B.: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Springer, 2004, 2.Auflage Hess, Ch. und Meister, A.: Übungsbuch zur angewandten Wahrscheinlichkeitstheorie (Aufgaben und Lösungen) Vieweg-Verlag, 2005 145 146 Uwe Küchler Löwe, M. und Knöpfel, H.: Stochastik-Struktur im Zufall, Oldenbourg Verlag, 2011 Müller, P.H. (Herausgeber): Lexikon der Stochastik, Akademie Verlag Berlin,1991, 5.Auflage Stahel, W.A.: Statistische Datenanalyse, Vieweg-Verlag 1999, 2.Auflage Index σ-Algebra, 29 Borelsche, 33 Produkt-σ-Algebra, 71 Äquivalenzklasse, 97 eines Maßes, 47 Elementarfunktion, siehe einfache Funktion Erzeuger, 31 Abbildung Definionsbereich, 8 inverse, 10 additive Mengenfunktion, 42 Algebra, 26 approximierende Folge, 79 Faltung, 129 Fatou, siehe Lemma Folge, 16 Fortsetzungssatz, 53 Fubini, siehe Satz Fundamentalfolge, 121 B. Levi, siehe Satz Banachraum, 121 beschränkt in Lp , 119 bijektiv, 8 Bildmaß, 73 Borel-Cantelli, siehe Lemma Borel-messbare Abbildung, 65 Borelsche σ-Algebra, 33 Gleichgradige Integrierbarkeit, 116 Gleichmächtigkeit, 12 Hölder-Ungleichung, siehe Ungleichung Indexmenge, 3 Indiaktorfunktion, 36 injektiv, 8 Integral, 77 Lebesgue-, 86 Cauchy-Schwarzsche Ungleichung, sieLebesgueintegral, 79 he Ungleichung Linearität, 78 Chebyshev’sche Ungleichung, siehe UnMonotonie, 78 gleichung Riemann-, 100 Dichte, 87 Integrand, 79 Normalverteilung, 143 Integrationsbereich, 79, 80 Dirichletfunktion, 102 integrierbar, 79 gleichgradig, 116 einfache Funktion, 66 Einschränkung Komplement, siehe Menge 147 148 Uwe Küchler Symmetrische Differenz von MenKonvergenz gen, 5 µ-fast-überall, 104 unendliche, 12 dem Maße nach, 110 Urbild, 9 im Lp -Sinne, 115 Mengen in Verteilung, 113 Limes inferior, 6 punktweise, 103 Limes superior, 6 Koordinatenabbildung, 20, siehe ProMengenfunktion, 42 jektionsabbildung Mengensystem, 6 Lebesgueintegral, siehe Integral messbare Abbildung, 65 Lemma Messbarkeit von Borel-Cantelli, 111 einer Menge, 33 von Fatou, 107 Minkowski-Ungleichung, siehe UngleiLifting Methode, 84 chung Maß, 46 σ-endliches, 46 Bildmaß, 73 endliches bzw. finites, 46 normiertes, 46 Produkt-, 125 Rand-, 138 Stetigkeit, 43 Subadditivität, 43 Wahrscheinlichkeits-, 46 Maximum, 16 Menge, 3 überabzählbar unendliche, 13 abgeschlossen, 33 abzählbar unendliche, 13 Differenz von Mengen, 5 endliche, 12 Komplement, 6 leere, 4 messbare, 33 Nullmenge, 47 offen, 33 Potenzmenge, 6 Norm, 97 Normalverteilung, 143 Nullmenge, siehe Menge Operationstreue, 9 Potenzmenge, siehe Menge Produktmaß, siehe Maß Produktmenge, 20 Projektion, 20 Projektionsabbildung, 71 Projektionsoperator, 138 Quader, 20 Seiten, 21 Randmaß, siehe Maß Raum messbarer , 33 Regel Substitutionsregel, 83 Riemannintegral, siehe Integral Ring, 27 Satz Messbare Funktionen mit Werten in Rn 149 Dichtentransformationssatz auf R1 , auf R1 , 50 89 auf Rn , 135 Dichtentransformationssatz auf Rn , Vollständigkeit, 121 143 Wahrscheinlichkeitsmaß, siehe Maß Fortsetzungssatz, 53 von B. Levi (monotone Konvergenz),Wahrscheinlichkeitsverteilung, 73 106 Zahlen von Fubini, 127 ganze, 11 von Lebesgue (majorisierte Konirrationale, 11 vergenz), 107 natürliche, 11 von Tonelli, 129 rationale, 11 Schnitt einer Funktion, 124 reelle, 11 Schranke, obere, 16 Zerlegung, 6 Schranke, untere, 16 Semialgebra, 24 Semiring, 25 Stetigkeit einer Mengenfunktion , siehe Mengenfunktion Subadditivität, 43 Substitutionsregel, 83 Supremum, 16 surjektiv, 8 Tonelli, siehe Satz Transformationssatz für Dichten eindimensional, 89 n-dimensional, 143 Ungleichung Cauchy-Schwarz, 93 Chebyshev, 95 Hölder, 95 Jensen, 93 Lyapunov, 96 Minkowski, 96 Urbild, siehe Menge Urbildoperation, 9 Verteilungsfunktion