Wahrscheinlichkeitstheorie Skript vom WS 10/11 Ingo Bürk 27. Mai 2011 Inhaltsverzeichnis Inhaltsverzeichnis 1 Vorwort 3 Literatur 4 I. Maÿ- und Integrationstheorie 5 I.1. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 I.2. σ -Algebren, 7 I.3. Elementare Beispiele von Wahrscheinlichkeitsräumen I I.4. σ -Stetigkeit I.5. Fortsetzung von Maÿen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 I.6. Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 I.7. Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 26 I.8. Elementare Beispiele von Wahrscheinlichkeitsräumen II . . . . . . . . . . 29 I.9. Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 I.10. Bildmaÿe und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Inhalte und Maÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 von Maÿen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 I.11. Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 I.12. Dichten und der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . 55 II. Wahrscheinlichkeitstheorie 59 II.1. Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 59 II.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 II.3. Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 II.4. Charakteristische Funktionen 76 II.5. Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . II.6. Null-Eins-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 83 87 Inhaltsverzeichnis II.7. Konvergenzarten Seite 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 II.8. Gesetze der groÿen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . 97 II.9. Konvergenz in Verteilung revisited . . . . . . . . . . . . . . . . . . . . . . 108 II.10.Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 118 III. Eine kurze Einführung in die Statistik III.1. Deskriptive Statistik III.2. Statistische Tests 124 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 Stichwortverzeichnis 140 Sätzeverzeichnis 144 - 2 / 145 - Ingo Bürk Seite 3 Vorwort Dieses Skript entstand im Rahmen der Wahrscheinlichkeitstheorie - Vorlesung bei Hr. Prof. Dr. Ingo Steinwart als Vorlesungsmitschrieb. Es kann nicht garantiert werden, dass dieses Dokument fehlerfrei ist und der Autor übernimmt für möglicherweise entstandene Schäden jeglicher Art keine Haftung. Dieser Mitschrieb ist kein ozielles Dokument der Universität Stuttgart, Mitarbeiter eben dieser tragen daher ebenfalls keine Verantwortung. Bei Fragen oder dem Aunden von Fehlern können Sie mir gerne eine Nachricht zukommen lassen. Schreiben Sie mir dafür einfach eine eMail an die folgende Adresse: [email protected] Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Germany -Lizenzvertrag lizenziert. Um die Lizenz anzusehen, gehen Sie bitte zu Dieses Werk ist unter einem http://creativecommons.org/licenses/by-nc-sa/3.0/de/ oder schicken Sie einen Brief an Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. Ein besonderer Dank geht an die folgenden Personen: • Heike Teichmann für sorgfältiges Korrekturlesen und dem Anmerken unzähliger Tipp-, Rechtschreib- und inhaltlicher Fehler, • Jim Magiera ATEX-Codefragmente, die das Aussehen dieses Dokuments maÿgeblich befür diverse L stimmen, • Nico Stein für das Anmerken diverser Fehler. Mit freundlichen Grüÿen, Ingo Bürk. - 3 / 145 - Ingo Bürk Seite 4 Literatur Für die Vorlesung wird die folgende Literatur empfohlen: • • Georgii H.-O.: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik, 4. Auage, Gruyter 2009. Henze N.: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls, 7. Auage, Vieweg+Teubner 2008. Vieweg 2003. • Jacod J.: Protter P., Probability Essentials, Springer 2000. • Kallenberg O.: Foundations of Modern Probability, 2nd edition, Springer 2002. • Krengel U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg 2000. • Shiryayev A. N.: Probability, Springer 1996. • Wengenroth J.: Wahrscheinlichkeitstheorie, De Gruyter 2008. • Hesse C.: Angewandte Wahrscheinlichkeitstheorie, Es wird darauf hingewiesen, dass im Zuge dieses Skriptes einige Beweise nicht geführt werden. Diese lassen sich in den oben genannten Werken nachlesen und es wird in der Regel darauf verwiesen, wo genau sich der Beweis nden lässt. Die Bücher von A. Klenke sowie von D. Meintrup und S. Schäer sind der Vorlesung am nächsten und daher am ehesten vorlesungsbegleitend zu empfehlen. - 4 / 145 - Ingo Bürk Kapitel I.1 Motivation Seite 5 I. Maÿ- und Integrationstheorie I.1. Motivation Würfelexperiment (intuitiv): • Ereignisraum • Jedes Einzelereignis hat die Wahrscheinlichkeit i) ii) = {1, 2, 3, 4, 5, 6} 1 6 Wkeit(Ereignis) ∈ [0, 1] Wkeit({1, . . . , 6}) = 1 iii) Die Wahrscheinlichkeiten zusammengesetzter Ereignisse addieren sich, d.h. für A1 , . . . , An ⊂ {1, . . . , 6} paarweise disjunkt P =⇒ Wkeit(A1 ∪ · · · ∪ An ) = ni=1 Wkeit(Ai ) folgt Regen (intuitiv): Gegeben sei ein Quadrat Q, in welches es hineinregnet. In diesem Quadrat sei eine Teilmenge A ⊂ Q gegeben. Für A wollen wir nun die Wahrscheinlichkeit bestimmen, dass der nächste (als punktförmig angenommene) Regentropfen in A landet. Betrachtet werden natürlich nur die Tropfen, die in Q landen. i) ii) Wkeit(A) ∈ [0, 1] Wkeit(Q) = 1 A1 ,S A2 , . . . ⊂ QPpaarweise disjunkt sollte gelten: ∞ Wkeit ( ∞ i=1 Wkeit(Ai ). Dass solch eine Forderung zumindest für endi=1 Ai ) = lich viele Mengen A1 , . . . , An sinnvoll ist, ist intuitiv klar. Man sollte beachten, iii) Für dass wir es aber nur für abzählbar unendlich viele Mengen fordern, für überabzählbar unendlich viele Mengen gerät man i.A. in Schwierigkeiten. Betrachte z.B. Q = [0, 1]2 und At := {t}. iv) Wir können die Wahrscheinlichkeit intuitiv wie folgt berechnen: Flaeche(A) Wkeit(A) = Flaeche(Q) Klar ist, dass die Wahrscheinlichkeit nicht von der Position der Fläche abhängen kann und darf. Um die Idee, dass eine Verschiebung oder Rotation der Fläche nichts ändert, zu formalisieren, benötigen wir den Begri der kongruenten Menge: Definition I.1.1 Seien i) n A, B ⊂ R 3∃ für Kongruente Mengen n ≥ 1. Dann heiÿen A und B kongruent :⇔ U ∈ Rn×n und ∃v ∈ Rn , B = {U x + v | x ∈ A} = U A + v . orthogonale Matrix so dass - 5 / 145 - Ingo Bürk Kapitel I.1 Motivation Seite 6 Anschaulich sind zwei Mengen kongruent, wenn sie sich durch Verschieben und Rotieren ineinander überführen lassen. Das Inhalts- und Maÿproblem: Frage (Inhaltsproblem) : Gibt es eine Inhaltsfunktion auf der Potenzmenge vom I : P(Rn ) → [0, ∞], mit den folgenden Eigenschaften: i) Bewegungsinvarianz: ii) Normiertheit: iii) Additivität: Rn , also I(A) = I(B) falls A, B ⊂ Rn kongruent. I([0, 1]n ) = 1. I(A ∪ B) = I(A) + I(B), falls A Frage (Maÿproblem) : Gibt es eine Maÿfunktion und B disjunkt sind. µ : P(Rn ) → [0, ∞] mit den ersten beiden Eigenschaften einer Inhaltsfunktion, sowie zusätzlich der verschärften Eigenschaft iii) S P∞ σ -Additivität: µ ( ∞ i=1 Ai ) = i=1 µ(Ai ), falls A1 , A2 , . . . ⊂ Rn paarweise disjunkt sind. Antwort auf das Inhaltsproblem: Die Antwort auf die Frage nach dem Inhaltsproblem n = 1 und n = 2 mit einem Ja zu beantworten, es gibt sogar mehrere solcher Funktionen. Für n ≥ 3 gibt es dagegen keine solche Funktion mehr. Der Beweis wird hier nicht geführt. Mit dem Maÿproblem gerät man allerdings bereits für n = 1 in ist wenigstens für Schwierigkeiten: Satz I.1.2 Für alle n≥1 gibt es keine Maÿfunktion. Antwort auf das Maÿproblem: Beweis n > 1 analog) Betrachte die Äquivalenzrelation x ∼ y :⇔ x − y ∈ Q auf R. Ferner sei R /Q die Menge : (Beweis für n = 1, für der zugehörigen Äquivalenzklassen. Wähle für jede Äquivalenzklasse einen Repräsentan- r ∈ [0, 1] und schreibe [r]∼ für die Äquivalenzklasse von r, d.h. [r]∼ = {y | r−y ∈ Q}. R für die Menge der ReS präsentanten. Es gilt r∈R [r]∼ = R. Ferner ist [r]∼ = r + Q. ten Dies ist unter Annahme des Auswahlaxioms möglich. Schreibe ⇒ R= [ r∈R (r + Q) = [[ (r + q) = r∈R q∈Q [ (q + R) q∈Q q + R disjunkt sind. Falls ein q1 6= q2 ∈ Q mit (q1 + R) ∩ (q2 + R) 6= ∅ existiert, so folgt, dass r1 , r2 ∈ R mit [r1 ]∼ 3 q1 + r1 = q2 + r2 ∈ [r2 ]∼ ⇒ [r1 ]∼ ∩ [r2 ]∼ 6= ∅ existieren. Daraus folgt [r1 ]∼ = [r2 ]∼ , also r1 = r2 , da wir Wir wollen nun zeigen, dass diese Mengen - 6 / 145 - Ingo Bürk σ -Algebren, Kapitel I.2 Inhalte und Maÿe Seite 7 für jede Äquivalenzklasse einen eindeutigen Repräsentanten gewählt haben. Ebenso ist aber 0 6= q1 − q2 = r2 − r1 und damit r1 6= r2 . Damit ist die Disjunktheit bewiesen. 1. Fall: Angenommen, es ist ⇒ µ(R) = µ µ(R) = 0. ! [ X X (q + R) = µ(q + R) = µ(R) = 0 q∈Q q∈Q q∈Q A ⊂ B auch B = B \ A ∪˙ A eine disjunkte Vereinigung und daher µ(B) = µ(B \ A) + µ(A) und damit µ(A) ≤ µ(B). Ist nun B = R und A = [0, 1], so folgt 1 ≤ µ([0, 1]) ≤ µ(R) = 0, d.h. wir haben einen Widerspruch gefunden. Allerdings ist für 2. Fall: Angenommmen, es ist µ(R) > 0. Dann ist µ(q + R) > 0 und damit folgt mit der Normiertheit und Bewegungsinvarianz ⊂[0,2] X ⇒ ∞= }| { z µ(q + R) = µ Q ∩ [0, 1] + R q∈Q∩[0,1] ≤ µ([0, 2]) = µ([0, 1]) + µ((1, 2)) ≤ µ([0, 1]) + µ([1, 2]) ≤2 Da beide Annahmen zum Widerspruch führen kann keine solches Maÿ existieren und der Satz ist bewiesen. I.2. σ -Algebren, Inhalte und Maÿe Motivation: Da Maÿfunktionen im Allgemeinen nicht auf der ganzen Potenzmenge deniert werden können wollen wir nun Maÿfunktionen auf gewissen Teilmengen A der Potenzmenge denieren. Diese brauchen aber eine gewisse Struktur, weswegen wir zunächst die Eigenschaften von Definition I.2.1 A untersuchen werden. (σ -)Algebra Ω 6= ∅ beliebig und P(Ω) ihre P(Ω) Algebra genau dann, wenn Sei i) A⊂ ∅∈A ii) Ω\A∈A iii) A∪B ∈A Ferner heiÿt iii') Potenzmenge. Dann heiÿt eine Teilmenge S∞ i=1 für alle für alle A∈A A, B ∈ A A σ -Algebra, Ai ∈ A für alle wenn statt der dritten Bedingung die folgende gilt: A1 , A2 , . . . ∈ A. - 7 / 145 - Ingo Bürk σ -Algebren, Kapitel I.2 Definition I.2.2 Inhalte und Maÿe Seite 8 Messbare Mengen, Messraum A eine σ -Algebra, so heiÿen die in ihr enthaltenen Mengen eine σ -Algebra ist, so heiÿt das Tupel (Ω, A) Messraum. Ist messbar. Falls A Bemerkung: Die folgenden Aussagen ergeben sich direkt aus der Denition: • A σ -Algebra ⇒ A • A Algebra. ⇒ Ω ∈ A, Algebra • Die kleinste • Die gröÿte σ -Algebra σ -Algebra denn ist ist Ω = Ω \ ∅. A = {∅, Ω}. A = P(Ω). Lemma I.2.3 Sei i) A eine Algebra. Dann gilt Tm Sm i=1 Ai ∈ A i=1 Ai ∈ A und A\B ∈A ii) Falls A sogar für alle für alle A1 , . . . , Am ∈ A. A, B ∈ A. σ -Algebra ist, so gilt die erste Eigenschaft A1 , A2 , . . . von Mengen aus A. auch für eine abzählbar unendliche Folge Beweis S m i=1 aus : Die erste und letzte Eigenschaft folgen mittels vollständiger Induktion sofort Sm−1 i=1 Ai ∪ Am . Für die zweite Eigenschaft betrachte A\B = A∩(Ω\B) ∈ Ai = A. Definition I.2.4 Inhalt, Maÿ Ω 6= ∅, C ⊂ P(Ω) mit ∅ ∈ C . Eine Funktion µ : C → [0, ∞] heiÿt Sei i) Nulltreue: Inhalt, falls gilt: µ(∅) = 0 ii) Additivität: Für alle paarweise disjunkten µ m [ ! Ai i=1 µ heiÿt Maÿ auf = m X A1 , . . . , A m ∈ C mit Sm i=1 Ai ∈ C gilt µ(Ai ) i=1 C, falls gilt: - 8 / 145 - Ingo Bürk σ -Algebren, Kapitel I.2 σ -Additivität: µ Seite 9 µ(∅) = 0 i) Nulltreue: ii) Inhalte und Maÿe ∞ [ Für alle paarweise disjunkten ! Ai = i=1 ∞ X A1 , A2 , . . . ∈ C mit S∞ i=1 Ai ∈ C gilt µ(Ai ) i=1 Anmerkung: Die hier denierten Begrie Inhalt und Maÿ erfüllen andere Anforderungen als diejenigen, die wir beim Maÿproblem gefordert hatten. Für das Maÿproblem ging es um ein spezielleres Maÿ, der nun denierte Maÿbegri ist etwas allgemeiner, da er i.A. keine Normiertheit fordert (vgl. I.1.2). Begrisdenitionen: • • Ist µ ein Maÿ auf einer Ist µ ein Maÿ mit σ -Algebra A, so heiÿt (Ω, A, µ) Maÿraum. µ(Ω) < ∞, so heiÿt µ endliches Maÿ und (Ω, A, µ) endlicher µ(Ω) = 1, so heiÿt µ Wahrscheinlichkeitsmaÿ und (Ω, A, µ) Maÿraum. • Ist µ ein Maÿ mit Wahrscheinlichkeitsraum (WR). Lemma I.2.5 Sei (Ω, A, µ) ein Maÿraum. Dann gilt: i) Monotonie: µ(A) ≤ µ(B) ii) Subadditivität: Für alle µ n [ ! ≤ Ai i=1 iii) Komplemente: n X für alle A, B ∈ A A1 , . . . , A n ∈ A mit A⊂B gilt µ(Ai ) i=1 µ(B \ A) = µ(B) − µ(A ∩ B) für alle A, B ∈ A Für die letzte Eigenschaft muss allerdings vorausgesetzt werden, dass ein endlicher Maÿraum vorliegt. Beweis i) : B = (B \ A) ∪ (B ∩ A) mit B ∩ A = A ist disjunkte µ(B) = µ(B \ A) + µ(A) ≥ µ(A), da µ(B \ A) ≥ 0. - 9 / 145 - Vereinigung, d.h. es folgt Ingo Bürk σ -Algebren, Kapitel I.2 ii) Für n=2 ist A1 ∪ A2 = A1 ∪ (A2 \ A1 ) i) Inhalte und Maÿe Seite 10 disjunkte Vereinigung, es folgt also µ(A1 ∪ A2 ) = µ(A1 ) + µ(A2 \ A1 ) ≤ µ(A1 ) + µ(A2 ). Der Rest geschieht mit vollständiger Induktion. iii) B = (B \ A) ∪ (B ∩ A), dann ist µ(B) = µ(B \ A) + µ(B ∩ A). Damit ist das Lemma bewiesen. Lemma I.2.6 J 6= ∅ eine beliebige Indexmenge i ∈ J . Dann folgt \ ⇒ A := Ai ist σ -Algebra. Sei und Ai ⊂ P(Ω) seien σ -Algebren für alle i∈J Beweis i) Sei : Ai σ -Algebra. A ∈ A. Ω \ A ∈ A. ii) Sei Für alle Daraus folgt i∈J gilt ∅ ∈ Ai A ∈ Ai ∀i∈J . (An )n∈N eine Folge von und alle i ∈ J . Damit folgt iii) Sei und damit ∅ ∈ A. Damit folgt dann Mengen An ∈ S∞ dann n=1 An Ω \ A ∈ Ai und damit A. Daraus folgt An ∈ S Ai für alle n ≥ 1 ∈ Ai ∀i∈J und damit ∞ n=1 An ∈ A. Damit ist das Lemma bewiesen. Korollar I.2.7 Ist C ⊂ P(Ω), so folgt, dass σ(C) := \ A A⊃C A σ -Algebra C ⊂ A auch σ(C) ⊂ A. σ(C) ist die kleinste σ -Algebra, die C enthält. Wir sagen: σ(C) wird von C erzeugt.. Falls A eine σ -Algebra ist und C ⊂ A mit σ(C) = A, so heiÿt C Erzeugendensystem. eine σ -Algebra ist. Auÿerdem ist für jede - 10 / σ -Algebra A 145 - mit Ingo Bürk σ -Algebren, Kapitel I.2 Inhalte und Maÿe Seite 11 Lemma I.2.8 Es gilt i) ii) σ(σ(C)) = σ(C) σ(A) = A iii) Für iv) Ist Beweis i) genau dann, wenn C⊂D A eine gilt A eine σ -Algebra ist σ(C) ⊂ σ(D) σ -Algebra C⊂A und A ⊂ σ(C), mit so folgt A = σ(C) : σ(C) ii) σ -Algebra ⇒ σ(σ(C)) = σ(C). ist ii) Die Richtung ⇒ ist trivial. Für ⇐ ist klar, dass σ(A) ⊃ A gilt. Die andere Inklusion folgt aus der Monotonie. iii) Trivial. iv) iii) ii) C ⊂ A ⇒ σ(C) ⊂ σ(A) = A. Damit ist das Lemma bewiesen. Ziel: Wir wollen σ -Algebren auf metrischen Räumen denieren. Im Folgenden sei • (Ω, d) ein metrischer Raum, • Bd (ω, ε) := {ω 0 ∈ Ω : d(ω, ω 0 ) < ε}, • O⊂Ω heiÿt oen • τd := {O ⊂ Ω : O Definition I.2.9 Sei (Ω, d) ⇔ ∀ω ∈ O ∃ε > 0 : Bd (ω, ε) ⊂ O, oen}. Borelsche σ -Algebra σ(τd ) ein metrischer Raum, dann heiÿt die Borel-σ -Algebra auf (Ω, d). Bemerkung: • {ω} ∈ σ(τd ), T∞ Bd (ω, n−1 ) ∈ σ(τd ). S ⇒ A ∈ σ(τd ), da A = a∈A {a} ∈ σ(τd ). da • A abzählbar • A abgeschlossen {ω} = n=1 ⇒ A ∈ σ(τd ), da - A 11 / abgeschlossen 145 - ⇔ Ω\A oen. Ingo Bürk Kapitel I.3 Elementare Beispiele von Wahrscheinlichkeitsräumen I Beispiel I.2.10: Auf dem Rn ist die euklidische Metrik deniert durch Wir wollen die zugehörige Borelsche σ -Algebra d(x, x0 ) = ( Seite 12 1 Pn 0 2 2 i=1 (xi − xi ) ) . betrachten: i) Abzählbare Mengen, Abgeschlossene Mengen und kompakte Mengen sind in σ(τd ) (auf Rn ) enthalten. B n := ii) Rechtecke (mit und ohne Rand) sind enthalten (wegen i)). iii) B n 6= P(Rn ). I n := {(a, b] : a, b ∈ Rn }, (a, b] := {(x1 , . . . , xn ) : ai < xi ≤ bi ∀i = 1, . . . , n} n n gilt: σ(I ) = B . Das Gleiche gilt für andere Systeme von Intervallen wie z.B. n dem System der abgeschlossenen Intervalle. Beweis: Für a, b ∈ R ist (a, b) = S −1 n R∈N (a, b − R ) ∈ σ(I ), da die einzelnen Intervalle enthalten sind. Das heiÿt, n n dass (a, b) ∈ σ(I ) liegt. Ferner gilt, dass jede oene Menge des R eine abzählbare iv) Für Vereinigung von oenen Intervallen mit rationalem Durchmesser und Mittelpunkt S n (R) (R) ist. Für O ⊂ R oen folgt also O = , b ), daraus folgt O ∈ σ(I n ). Für R∈N (a n n τ = {O ⊂ Rn : O Richtung T oen} gilt B−1 = σ(τ ) ⊂ σ(σ(τ )) = σ(I ). Die andere n folgt mit (a, b] = (a, b + R } , denn dann ist (a, b] ∈ σ(τ ) = B . Mit I n ⊂ Bn R∈N n n n folgt schlieÿlich σ(I ) ⊂ σ(B ) = B . I.3. Elementare Beispiele von Wahrscheinlichkeitsräumen I Im Folgenden bezeichnet Definition I.3.1 in der Regel ein Wahrscheinlichkeitsmaÿ. Gleichverteilung, Laplace-Wahrscheinlichkeitsraum A := P(Ω). Dann heiÿt das durch P (A) := Wahrscheinlichkeitsmaÿ auf Ω die Gleichverteilung auf Ω. Das Tripel (Ω, A, P ) heiÿt Laplacescher Wahrscheinlichkeitsraum. Sei Ω 6= ∅ P endlich und Beispiel I.3.2: |A| denierte |Ω| Fairer Würfel • Experiment: Einmaliges Würfeln eines fairen Würfels. • Modell: Ω = {1, . . . , 6}, A = P(Ω), P ({ω}) = 16 für ω ∈ Ω. ⇒ P (A) = |A| = |A| für A ∈ A, d.h. P ist die Gleichverteilung |Ω| 6 auf • Frage: Wie ist die Wahrscheinlichkeit, eine gerade Zahl zu werfen? • Antwort: A = {2, 4, 6}, also P (A) = - 12 3 6 = / 145 Ω. 1 . 2 - Ingo Bürk Kapitel I.3 Elementare Beispiele von Wahrscheinlichkeitsräumen I Beispiel I.3.3: • Seite 13 Wiederholter Münzenwurf Experiment: Wir werfen eine faire Münze n-Mal, wobei einzelne Würfe unabhängig sind. Wir sind an der Folge der Beobachtungen interessiert. • Modell: Kodiere Kopf als 0 und Zahl als 1. Sei Ω = {0, 1}n und A = P(Ω). P aus? Mit einem simplen Wahrscheinlichkeitsbaum kommt P ({w}) = 2−n für w ∈ Ω. Dies ist die Gleichverteilung auf Ω. Wie sieht nun unser man leicht zu • Frage: Wie ist die Wahrscheinlichkeit von mindestens einmal Zahl nach 3 Würfen? A := {ω = (ω1 , ω2 , ω3 ) | ∃i ∈ {1, 2, 3} : ωi = 1} Ω := {0, 1}3 Ω \ A = {ω = (ω1 , ω2 , ω3 ) | ωi = 0 ∀i ∈ {1, 2, 3}} = {(0, 0, 0)} ⇒ P (A) = P (Ω) − P (Ω \ A) = 1 − 2−3 = 87 . Beispiel I.3.4: Unfaire Münze • Experiment: Werfe eine unfaire Münze ein Mal. • Modell: P P mit Ω = {0, 1}, A = P(Ω) P ({1}) := p ∈ [0, 1] und P ({0}) = 1 − p heiÿt Bernoulli-Verteilung Beispiel I.3.5: Mehrfaches Werfen einer unfairen Münze • Experiment: Werfe unfaire Münze • Ωn = {0, 1}n , A = P(Ω) P ({ω}) = pk (1 − p)n−k , k ist die Anzahl der 1 Für p 6= ist P nicht die Gleichverteilung! 2 • n-mal, ansonsten wie oben. Modell: Frage: Wahrscheinlichkeit nach n Einsen in Würfen genau k -mal ω ∈ Ω, d.h. k= |Ak | k k Es gibt • Wäre jeder Ausgang unterscheidbar, so hat man • Wäre jeder Ausgang Zahl unterscheidbar, so hat man • Wäre jeder Ausgang Kopf unterscheidbar, so hat man ⇒ |Ak | = Möglichkeiten, n! k!(n−k)! = n k ωi . − p)n−k . − p)n−k . zu bestimmen überlegen wir uns: • n! i=1 eine Zahl geworfen? Der Ansatz für dieses Problem ist wie folgt: Pn ({ω}) = pk (1 Wähle Ak := {ω ∈ Ωn | P i=1 ωi = k}. Für P ω ∈ kAk gilt P n−k Daraus folgt P (Ak ) = = |Ak |pk (1 ω∈A P ({ω}) = ω∈A p (1 − p) Um den Wert von Pn n unterscheidbare Objekte anzuordnen. und damit P (Ak ) = - 13 / 145 n k - n! Möglichkeiten. k! Möglichkeiten. (n − k)! Möglichkeiten. pk (1 − p)n−k . Ingo Bürk Kapitel I.3 Elementare Beispiele von Wahrscheinlichkeitsräumen I Definition I.3.6 Seite 14 Binomialverteilung N0 = {0} ∪ N, A = P(N) durch ( n k p (1 − p)n−k k ∈ {0, 1, . . . , n} k P̃ ({k}) := 0 sonst Das auf denierte Wahrscheinlichkeitsmaÿ heiÿt Binomialverteilung mit Parametern p. P̃ Schreibe B(n, p, k) = b(n, p, k) := P̃ ({k}) bzw. n und B(n, p) = b(n, p) := P̃ . ist wirklich ein Wahrscheinlichkeitsmaÿ, denn P̃ (N0 ) = n X n [ P (Ak ) = P k=0 ! Ak = P (Ω) = 1. k=0 Beispiel: Ankreuztest Ein Fragebogen hat 5 Fragen, es gibt zwei Fragebögen insgesamt. Jede Frage hat m≥2 mögliche Antworten und nur eine Antwort ist richtig. Es müssen 50% richtig beantwortet werden. Wie groÿ is die Wahrscheinlichkeit durch bloÿes Raten zu bestehen? Ansatz: Jede Frage ist ein Bernoulli-Experiment mit p = m−1 , wobei p die Wahrschein- lichkeit angibt, richtig zu raten. Das Raten ist bei jeder Frage unabhängig. Wähle nun Ω = {0, 1}10 , A = P(Ω) und P sei das Wahrscheinlichkeitsmaÿ aus Beispiel I.3.5. Gesucht ist P 10 [ k=5 ! Ak 10 X 10 X k 10−k 10 X 1 10 1 . 1− = P (Ak ) = B(n, m , k) = m m k k=5 k=5 k=5 −1 Es ergibt sich folgende Tabelle: m Wahrscheinlichkeit Definition I.3.7 Sei 2 3 4 5 0.62 0.21 0.08 0.03 Zählmaÿ, Dirac-Maÿ Ω 6= ∅, A = P(Ω). Dann heiÿt ( |A| A ⊂ Ω endlich #(A) := ∞ sonst das durch - 14 / 145 - Ingo Bürk Kapitel I.3 Elementare Beispiele von Wahrscheinlichkeitsräumen I denierte Maÿ das Zählmaÿ. Ferner heiÿt das für ein festes ω∈Ω Seite 15 durch ( 1 ω∈A δ{ω} (A) := 0 sonst denierte Maÿ das Dirac-Maÿ. Bemerkungen: • # • und δ{ω} kann man immer denieren. µ und ν Sind • # auf Rn zwei Maÿe, so sind ist bewegungsinvariant, aber Definition I.3.8 ii) (pk )k∈N αµ α ≥ 0) (für auch Maÿe. #([0, 1]n ) = ∞. heiÿt Zähldichte genau dann, wenn pk ≥ 0 für alle k ∈ N P∞ k=0 pk = 1 Lemma I.3.9 Sei und Zähldichte Eine reelle Zahlenfolge i) µ+ν (pk )k∈N P (A) := eine Zähldichte. Dann wird auf X pk , (R, B) durch A∈B k∈A ein Wahrscheinlichkeitsmaÿ deniert. Auÿerdem gilt Beweis • P (N0 ) = 1. : Überprüfen der Eigenschaften: Nulltreue: P (∅) = 0. • σ -Additivität: Sei An ⊂ R, n ≥ 1. O.B.d.A. seien An ⊂ N0 paarweise disjunkt. Dann ist P ∞ [ n=1 ! An X = k∈ pk = S∞ ∞ X X n=1 k∈An n=1 An - 15 / 145 - pk = ∞ X P (An ). n=1 Ingo Bürk σ -Stetigkeit Kapitel I.4 • P (N0 ) = 1, da P (N0 ) = P k∈N0 von Maÿen Seite 16 pk = 1. Damit ist das Lemma bewiesen. Beispiel I.3.10: Sei λ ≥ 0. Dann deniert pk (λ) := e−λ λk k! für k ∈ N0 eine Zähldichte, denn es gilt ∞ X pk (λ) = k=0 ∞ X −λ λ e k k! k=0 = e−λ eλ = 1. Das zugehörige Wahrscheinlichkeitsmaÿ heiÿt Poissonverteilung mit Parameter Wir schreiben dafür Pois(λ, k) := pk (λ) und nennen Pois(λ, ·) λ. die Poissonvertei- lung. Es gilt ∞ X |B(n, p, k) − Pois(np, k)| ≤ 2np2 . k=0 Beispiel (Zellenbelegung): Wir haben m Zellen und n Teilchen, die zufällig auf die Zellen verteilt werden. Mehrn , die anfachbelegungen seien erlaubt. Wir denieren die Belegungsintensität λ := m schaulich etwa die durchschnittliche Zellenbelegung darstellt. Die genauere Bedeutung dieser Konstante wollen wir hier nicht näher untersuchen. Betrachte nun Zelle 1 und die Wahrscheinlichkeit, dass genau k Teilchen in Zelle 1 sind. Diese Wahrscheinlichkeit lässt −1 sich durch B(n, m , k) ausdrücken. Wir wissen, dass n 1 1 B n, , k − Pois , k ≤ 2n 2 m m m Für A ⊂ N0 gilt sogar n X 1 n 1 B n, , A − Pois , A = B n, , k − Pois ,k m m m m k∈A ∞ n X 1 ≤ B n, m , k − Pois m , k k=0 ≤ I.4. ist. σ -Stetigkeit 2n . m2 von Maÿen Wir wissen, dass monotone Folgen in R konvergieren (ggf. gegen ±∞). Was gilt für Wahrscheinlichkeiten? - 16 / 145 - Ingo Bürk σ -Stetigkeit Kapitel I.4 Definition I.4.1 Seien • • A1 , A2 , . . . ⊂ Ω Ist Ist Seite 17 Mengen. A1 ⊂ A2 ⊂ · · · , A1 ⊃ A2 ⊃ · · · , Beachte: Es ist von Maÿen so schreiben wir so schreiben wir Ai % A ⇒ µ(Ai ) ↑ Ai % A := S∞ An . Ai & A := T∞ An . n=1 Ai & A ⇒ µ(Ai ) ↓. und Die Frage, die wir uns nun stellen, ist, ob n=1 lim µ(An ) = µ(A) gilt. Dies wollen im folgenden Satz beantworten: Satz I.4.2 A Ω und µ : A → [0, ∞] ein Inhalt. Dann sind äquivalent: S P∞ µ ist σ -additiv, d.h. µ ( ∞ k=1 Ak ) = k=1 µ(Ak ) für paarweise disjunkte Ak ∈ A mit S ∞ k=1 Ak ∈ A. Sei i) ii) µ ist eine Algebra auf σ -stetig µ(Ω) < ∞, Ist von unten, d.h. µ ist σ -stetig von oben, d.h. iv) µ ist σ -stetig in ∅, Ferner gilt immer ii) Ai & A Beweis : i) mit Ai , A ∈ A ⇒ µ(Ai ) % µ(A). so sind die folgenden Aussagen ebenfalls äquivalent zur ersten: iii) iii') Ai % A mit d.h. mit Ai , A ∈ A ⇒ µ(Ai ) & µ(A). Ai & ∅, Ai ∈ A ⇒ µ(Ai ) & 0. ⇒ iii') Ai , A ∈ A ⇒ ii): Ai & A mit und Deniere µ(Ai ) < ∞ ⇒ µ(Ai ) & µ(A). A0 := ∅ wachsen, folgt, dass die Bn paarweise Sn i=1 Bn ∈ A. Dann gilt Bn := An \ An−1 , n ≥ 1. S Da die An monoton ∞ disjunkt sind. Zudem ist A = n=1 Bn ∈ A, sowie und An = i) µ(A) = ∞ X µ(Bn ) = lim n=1 n→∞ n X µ(Bi ) = lim µ n→∞ i=1 n [ ! Bi i=1 = lim µ(An ). n→∞ ii) ⇒ Ai & A mit Ai , A ∈ A. Daraus µ(A1 \ Ai ) % µ(A1 \ A). Nun ist iii): Sei mit iii), dass folgt A1 \ Ai % A1 \ A und daraus folgt µ(A1 ) − µ(Ai ) = µ(A1 \ Ai ) % µ(A1 \ A) = µ(A1 ) − µ(A) ⇒ µ(Ai ) & µ(A). - 17 / 145 - Ingo Bürk σ -Stetigkeit Kapitel I.4 von Maÿen Seite 18 Die anderen Implikationen werden analog bewiesen. Korollar I.4.3 Sei (Ω, A, µ) ∞ [ µ ein Maÿraum, dann ist ! ∞ X ≤ Ak k=1 Beweis µ(Ak ) für µ σ -subadditiv, d.h. Ak ∈ A. k=1 : Es ist klar, dass Sn i=1 Ai % S∞ i=1 Ai gilt. Wegen der Implikation i) ⇒ ii) des vorherigen Satzes folgt damit µ ∞ [ ! Ai n [ = lim µ n→∞ i=1 ≤ lim ≤ ∞ X Ai i=1 n X n→∞ ! µ(Ai ) i=1 µ(Ai ). i=1 Für die erste Abschätzung wurde dabei die Subadditivität von Lemma bewiesen. Definition I.4.4 Sei (Ω, A, P ) und lim inf für Mengen ein Wahrscheinlichkeitsraum und lim sup An := n→∞ lim sup ∞ [ ∞ \ µ benutzt. Damit ist das A1 , A2 , . . . ∈ A. Wir schreiben Ak n=1 k=n = {ω ∈ Ω : ∀n≥1 ∃k≥n : ω ∈ Ak } = {ω ∈ Ω : ∃ unendlich viele k mit ω ∈ Ak }. ∞ \ ∞ [ lim inf An := Ak n→∞ n=1 k=n = {ω ∈ Ω : ∃n≥1 ∀k≥n : ω ∈ Ak } = {ω ∈ Ω : ω ∈ Ak für alle k bis auf - 18 / 145 - endlich viele}. Ingo Bürk Kapitel I.5 Fortsetzung von Maÿen Lemma I.4.5 (Ω, A, P ) Sei ∞ X Borel-Cantelli 1. Teil ein Wahrscheinlichkeitsraum und P (An ) < ∞ =⇒ P A1 , A2 , . . . ∈ A, dann gilt lim sup An = 0. n→∞ n=1 Interpretation: Falls die nur endlich vielen Beweis Seite 19 An Bn := : Deniere An hinreichend disjunkt sind gilt, dass fast alle ω ∈ Ω in sind. B⊂Bn P (B) ≤ P (Bn ) S k≥n σ -subadd. ≤ Ak & ∞ X T∞ S n=1 k≥n Ak =: B . Dann gilt für n ≥ 1: P (Ak ) |k=n {z } n→∞ −→ 0 Damit folgt dann P (B) = 0. I.5. Fortsetzung von Maÿen Ziel: Wenn wir ein Maÿ auf einem elementaren Mengensystem dann auf σ(C) i) ii) haben, können wir es fortsetzen? Definition I.5.1 Ein C H ⊂ P(Ω) Halbring heiÿt Halbring über Ω genau dann, wenn ∅∈H A∩B ∈H für alle A, B ∈ H A, B ∈ H mit A ⊂ B C1 , . . . , Ck ∈ H, so dass iii) Für alle B\A= n [ gibt es ein k ≥ 1 und paarweise disjunkte Ck k=1 - 19 / 145 - Ingo Bürk Kapitel I.5 Fortsetzung von Maÿen Motivation: Seien A, B ∈ H. ˙ A ∪ B = B \ (A ∩ B)∪A disjunkt ! n [ A∩B⊂B = ck ∪ |{z} A paarweise |{z} A∩B∈H k=1 ∈H Idee: Falls µ ein Maÿ auf µ(A ∪ B) := Seite 20 n X H disjunkt ∈H ist kann man µ(ck ) + µ(A) k=1 denieren. Die Frage ist allerdings, ob dies wohldeniert ist? Satz I.5.2 µ : H → [0, ein Maÿ, welches σ -endlich ist, S∞] ∞ d.h. es existieren abzählbar viele Ai ∈ H mit i=1 Ai = Ω, so dass µ(Ai ) < ∞ für ∗ ∗ alle i ≥ 1 ist. Dann existiert genau ein Maÿ µ : σ(H) → [0, ∞] mit µ (A) = µ(A) für alle A ∈ H. Ferner gilt für beliebige A ∈ σ(H): (∞ ) ∞ X [ µ∗ (A) = inf µ(Bn ) : Bn ∈ H, A ⊂ Bn Sei H ein Halbring über Ω 6= ∅ und n=1 Beweis n=1 : Der Satz wird hier nicht bewiesen. Der Beweis ndet sich z.B. als Kombination von Lemma I.3.1 und Satz I.53 im Buch von Klenke. Kurzfassung zum Satz: Jedes einem Maÿ auf σ(H) σ -endliche Maÿ auf einem Halbring H lässt sich zu eindeutig fortsetzen. Korollar I.5.3 A = σ(H) und µ, ν : A → [0, ∞] zwei σ -endliche Maÿe mit der Eigenschaft µ(A) = ν(A) für alle A ∈ H. Dann folgt µ = ν . Der Satz gilt sogar, falls H kein Halbring ist, sofern er die folgenden beiden EigenSei H ein Halbring, schaften erfüllt: i) A∩B ∈H ii) σ(H) = A für alle A, B ∈ H - 20 / 145 - Ingo Bürk Kapitel I.5 Fortsetzung von Maÿen Kurzfassung des Korollars: Seite 21 σ -endliche Maÿe sind durch ihr Verhalten auf ∩-stabilen Erzeugendensystemen eindeutig bestimmt. Beweis : Die erste Aussage folgt unmittelbar aus dem vorherigen Satz. Der zweite Teil lässt sich z.B. als Lemma I.42 im Buch von Klenke. Beispiel I.5.4: Sei Ω 6= ∅ höchstens abzählbar und H = {A ⊂ Ω | card(A) ≤ 1}. Dann hat µ : H → [0, ∞], welches durch µ(A) := card(A) für alle A ∈ H deniert ∗ ∗ eine eindeutige Fortsetzung µ : σ(H) → [0, ∞] und es gilt µ = #, d.h. die das Maÿ ist, Fortsetzung ist gleich dem Zählmaÿ. • H ist ein Halbring, denn dass ∅∈H gilt und dass H stabil bezüglich des Durch- X schnitts und des Komplements ist sieht man direkt ein. • µ • X ist trivialerweise ein Maÿ. Die σ -Endlichkeit • σ(H) = P(Ω) X folgt ebenfalls sofort. X Es bleibt zu zeigen, dass wirklich µ∗ = # gilt. ! [ µ∗ (A) = µ∗ {ω} = ω∈A ( |A| = ∞ X µ∗ ({ω}) = ω∈A falls X µ({ω}) ω∈A |A| < ∞ sonst = #(A) Beispiel I.5.5: n QR n Auf dem (a, b] 7→ • In • λ • λ • n n Lebesgue-Maÿ betrachte i=1 (bi − ai ) . I n := {(a, b] ist a, b ∈ Rn } und n λ : I n → [0, ∞] mit Dann gilt: ist ein Halbring und ist ein Maÿ auf : σ(I n ) = B n . I n. σ -endlich. n n n Es existiert genau ein Maÿ λ : B → [0, ∞] mit λ (A) n Dieses Maÿ λ heiÿt das n-dimensionale Lebesgue-Maÿ. Für den Fall n=1 n = λ (A) für alle A ∈ I n. lässt sich der Beweis wie folgt skizzieren (für den höherdimen- sionalen Fall geht es analog): • In ist Halbring: ∅ = (a, a − 1] ∈ I n . (a, b] ∩ (c, d] = (max{a, c}, min{b, d}] ∈ I n . - 21 / 145 - Ingo Bürk Kapitel I.5 Fortsetzung von Maÿen Sei (a, b] = B und (c, d] = A, B \ A = C1 ∪ C2 . Dass n σ(I n ) = B n C1 := (a, c] und C2 := (d, b]: gilt wurde bereits gezeigt. • Dass • Die • Dies folgt aus Satz I.5.2. λ dann ist mit Seite 22 ein Maÿ ist wird hier nicht gezeigt, da der Beweis umfangreicher ist. σ -Endlichkeit ist trivial. Lemma I.5.6 Es gelten folgende Eigenschaften: i) Das Lebesgue-Maÿ ist bewegungsinvariant. ii) Für alle x ∈ Rn gilt λn ({x}) = 0. n iii) Regularität von innen: Für alle A ∈ B mit λn (A) = sup{λn (K) : K ⊂ A kompakt}. iv) Regularität von auÿen: Für alle v) Ist Beweis O ⊂ Rn oen mit O 6= ∅, λn (A) < ∞ gilt A ∈ B n gilt λn (A) = inf{λn (O) : A ⊂ O, O so folgt oen}. λn (O) > 0. : Die erste Eigenschaft werden wir nicht beweisen. ii) Es ist {x} = T∞ k=1 (x − k −1 , x] λn ({x}) = lim λn k→∞ | (x − k −1 , x] & {x}. (x − k −1 , x] = 0. {z } und Aus Satz I.4.2 folgt dann =k−n iii) Diese Eigenschaft wird hier nicht bewiesen. iv) Diese Eigenschaft wird hier nicht bewiesen. v) Sei O 6= ∅ ∈ O und ein r > 0, so dass Bd (x, 2r) ⊂ O λ (Bd (x, 2r)) > 0 ist. Deniere oen, dann existiert ein x n Es reicht daher, zu zeigen, dass Q := r r x − √ ,x + √ n n ist. . Q ⊂ Bd (x, 2r) ist: Für x0 ∈ Q gilt ! 21 2 ! 12 n n X X 1 r r √ d(x, x0 ) = (xi − x0i )2 ≤ = √ · n 2 = r. n n i=1 i=1 n n 2r n √ Dann ist λ (Q) = λ (Q) = > 0, wegen der Monotonie ist n n λ (Bd (x, 2r)) > 0. Wir zeigen, dass - 22 / 145 - also auch Ingo Bürk Kapitel I.5 Fortsetzung von Maÿen Seite 23 Damit ist das Lemma vollständig bewiesen. Definition I.5.7 µ-Nullmenge, µ-fast alle Gültigkeit N ∈ A µ-Nullmenge :⇔ µ(N ) = 0. Eine Eigenschaft gilt für µ-fast alle ω ∈ Ω :⇔ ∃µ-Nullmenge N ∈ A, so dass Eigenschaft für alle ω ∈ Ω \ N gilt. Sei (Ω, A, µ) ein Maÿraum, dann heiÿt die Erinnerung: • Borel-Cantelli: • {x} • sind P∞ n=1 P (An ) < ∞ ⇒ lim sup An ist P -Nullmenge. λn -Nullmengen. Abzählbare Vereinigungen von Achtung: Es gibt nicht abzählbare N ∈A µ(A) = 0 µ-Nullmengen sind µ-Nullmengen. λn -Nullmengen! A ⊂ N. Beobachtung: Sei mit dass dann auch ist. Tatsächlich ist im Allgemeinen aber Ausdruck µ(A) µ(N ) = 0 und Intuitiv würde man vermuten, A 6∈ A und der damit nicht erklärt! Definition I.5.8 Vollständiger Maÿraum (Ω, A, µ) µ(N ) = 0 ⇒ A ∈ A. Ein Maÿraum heiÿt vollständig :⇔ Für alle N ∈ A und A ⊂ N gilt Satz I.5.9 (Ω, A, µ) ein Maÿraum. Dann gibt es genau eine kleinste σ -Algebra A∗ ⊃ A und ∗ ∗ ∗ ∗ genau eine Fortsetzung µ : A → [0, ∞] von µ, so dass der Maÿraum (Ω, A , µ ) Sei vollständig ist. Ferner gelten • A∗ = {A ∪ B : A ∈ A • µ∗ (A ∪ B) = µ(A) und ∃N ∈ A mit µ(N ) = 0, B ⊂ N }, für die Bezeichnungen wie eben. - 23 / 145 - Ingo Bürk Kapitel I.5 Beweis Fortsetzung von Maÿen : Der Beweis erfolgt durch simples Überprüfen aller Eigenschaften. card(B) = card(R). Dann ist card(B ∗ ) = card(P(R)), die ∗ diese Vergröÿerung B → B also bedeutend gröÿer geworden. Beachte: durch Seite 24 Definition I.5.10 n Ω∈B Dann ist A Sei Kardinalität ist Gleichverteilung ∞ > λn (Ω) > 0. Betrachte A := B n ∩ Ω = {A ∩ Ω : A ∈ B n }. eine σ -Algebra und µ : A → [0, 1] mit mit λn (B) µ(B) := n λ (Ω) B∈A für ist ein Wahrscheinlichkeitsmaÿ. Beachte: Wenn λn (Ω) > 0 µ heiÿt die Gleichverteilung auf ist, so folgt daraus, dass |Ω| = ∞. Ω. Die eben denierte Gleichverteilung ist damit wirklich etwas anderes als die zuvor denierte Gleichverteilung auf endlichen Mengen. Definition I.5.11 Sei (Ω, A) ein Messraum und Spur-σ -Algebra von Definition I.5.12 Sei Spur-σ -Algebra (Ω, A, µ) A auf B. B ∈ A. Dann heiÿt B ∩ A := {B ∩ A : A ∈ A} σ -Algebra auf B . die Dies ist tatsächlich eine Einschränkung eines Maÿes ein Maÿraum und B ∈ A. Dann heiÿt das Maÿ µB : B ∩ A → [0, ∞], C 7→ µ(C) die Einschränkung von Beispiel: Betrachte z.B. µ auf B ∩ A. λn |[a,b] . - 24 / 145 - Ingo Bürk Kapitel I.6 Verteilungsfunktion Seite 25 I.6. Verteilungsfunktion P ein Wahrscheinlichkeitsmaÿ auf B := B 1 , dann ist F : R → [0, ∞] x 7→ P ((−∞, x]) monoton wachsend und hat weitere Eigenschaften, auf die wir im Motivation: Ist mit Folgenden eingehen werden. Definition I.6.1 Verteilungsfunktion F : R → [0, ∞] Eine Funktion heiÿt Verteilungsfunktion genau dann, wenn x ≤ y ⇒ F (x) ≤ F (y). i) F ist wachsend, d.h. ii) F ist rechtsseitig stetig, d.h. iii) lim F (x) = 0 x→−∞ und xn & x ⇒ F (xn ) → F (x). lim F (x) = 1. x→∞ Satz I.6.2 Für alle Wahrscheinlichkeitsmaÿe F : R → [0, ∞) P auf B existiert genau eine Verteilungsfunktion mit F (b) − F (a) = P ((a, b]) für a, b ∈ R mit a < b. Umgekehrt existiert zu jeder Verteilungsfunktion maÿ P Beweis auf B, F genau ein Wahrscheinlichkeits- so dass diese Gleichung gilt. : Wir zeigen zunächst die Existenz der Verteilungsfunktion. Deniere hierfür F (x) := P ((−∞, x]), x ∈ R. Wir zeigen, dass die Gleichung aus dem Satz erfüllt ist: F (b) − F (a) = P ((−∞, b]) − P ((−∞, a]) = P ((−∞, b] \ (−∞, a]) = P ((a, b]) Zu zeigen ist noch, dass F wirklich eine Verteilungsfunktion ist. Dass F monoton wächst P monoton wächst. Auÿerdem ist F rechtsseitig stetig. Wähle hierfür eine Folge xn & x, dann ist (−∞, xn ] & (−∞, x]. Damit folgt dann F (xn ) = P ((−∞, xn ]) & P ((−∞, x]) = F (x), wobei die σ -Stetigkeit von oben verwendet wurde. Nun bleiben noch die Grenzwerte für x → ±∞ zu überprüfen: Sei xn → −∞, dann ist lim sup xn = −∞, also auch yn := supk≥n xk → −∞. Aufgrund der Konstruktion wissen wir sogar, dass yn & −∞ ist. Dann folgt aber (−∞, yn ] & ∅ und es gilt yn ≥ xn . Daraus folgt dann F (xn ) ≤ F (yn ) (wegen der bereits gezeigten ist klar, da Monotonie). Dann ist 0 ≤ lim F (xn ) ≤ lim F (yn ) = lim P ((−∞, yn ]) = P (∅) = 0. n→∞ n→∞ n→∞ - 25 / 145 - Ingo Bürk Kapitel I.7 Bedingte Wahrscheinlichkeiten Seite 26 Den anderen Grenzwert kann man analog herleiten. Es bleibt nun noch zu zeigen, dass ∗ diese Verteilungsfunktion auch eindeutig ist. Dazu nehmen wir an, F und F seien zwei Verteilungsfunktionen, die der Gleichung aus dem Satz genügen. Daraus folgt dann, dass F (b) − F (0) = P ((0, b]) = F ∗ (b) − F ∗ (0) für b ≥ 0 ist. Analog gilt F (0) − F (b) = F ∗ (0) − F ∗ (b) für b ≤ 0. Es lässt sich also zusammenfassen, dass F ∗ (b) − F ∗ (0) = F (b) − F (0) für ∗ ∗ alle b ∈ R gilt. Daher gilt nun für alle b ∈ R, dass F (b) = F (b) + F (0) − F (0) ist. Wir ∗ ∗ bezeichnen c := F (0) − F (0), d.h. es ist F = F + c. Wir wollen zeigen, dass c = 0 ist. ∗ Auch für n ∈ N gilt F (n) = F (n) + c, für n → ∞ muss nach dem vorher Bewiesenen ∗ ∗ also F (n) → 1 und F (n) → 1 sein, also ist 1 = 1 + c ⇒ c = 0 ⇒ F = F . Die Umkehrung erfolgt über den Fortsetzungssatz für Maÿe und wird hier nicht bewiesen. Der Beweis ndet sich z.B. als Theorem 1.40 aus Meintrup+Schäer oder Satz 1.60 aus Klenke. Bemerkung: Woher kommen die Unstetigkeiten? Betrachte das Dirac-Maÿ δ{0} : ( 0 x<0 F (x) = δ{0} ((−∞, x]) = 1 x≥0 F ist oenbar nicht stetig, aber durchaus rechtsseitig stetig. I.7. Bedingte Wahrscheinlichkeiten Angenommen, es wird eine Umfrage unter Studenten durchgeführt. In dieser wird nach dem Geschlecht gefragt und ob die betreende Person Sport treibt oder nicht. Wir haben also eine Tabelle Sei Ω = {1, . . . , 66}. m w Sport 12 18 kein Sport 16 20 Die Personen 1 - 12 sollen sporttreibende Männer sein, die Perso- nen 13-30 sollen sporttreibende Frauen sein, die Personen 31-46 sollen Männer sein, die keinen Sport machen und zu guter letzt sollen die Personen 47 - 66 die Frauen sein, die keinen Sport machen. Es sei A := P(Ω) und P die Gleichverteilung. Bezeichne die Menge der Männer und ben. Von allen 66 B := {1, . . . , 30} A := {1, . . . , 12} ∪ {31, . . . , 46} die Menge der Personen, die Sport trei- Personen wird nun zufällig eine Person gewählt und das Geschlecht bestimmt (z.B. durch Erfragen des Namens). Die ausgesuchte Person sei zum Beispiel männlich. Wir stellen uns nun die Frage: Wie groÿ ist die Wahrscheinlichkeit, dass diese Person Sport treibt? Antwort: Es gibt ist also 12 28 = 28 Möglichkeiten und 12 davon treiben Sport. Die Wahrscheinlichkeit 3 . 7 - 26 / 145 - Ingo Bürk Kapitel I.7 Bedingte Wahrscheinlichkeiten Beobachtung: Es ist 12 = |A ∩ B| |A∩B| |Ω| |A| |Ω| 12 |A ∩ B| = = 28 |A| Definition I.7.1 Sei (Ω, A, P ) und 28 = |A|. Seite 27 Was wir gemacht hatten war also P (A ∩ B) . P (A) = Bedingte Wahrscheinlichkeit ein Wahrscheinlichkeitsraum und A, B ∈ A mit P (B) > 0. Dann heiÿt P (A|B) := P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit von Satz I.7.2 Sei i) (Ω, A, P ) iii) Für A∈A mit m \ B∈A mit ist ein Wahrscheinlichkeitsmaÿ mit P (A|B) = P (B|A) · Tm−1 P n=1 An > 0 gilt P (A) > 0 A1 , . . . , Am ∈ A P unter der Bedingung ein Wahrscheinlichkeitsraum und P ( · |B) : A → [0, 1] ii) Für A mit gilt B. P (B) > 0. P (B|B) = 1. P (A) . P (B) ! Ai = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · . . . · P m−1 \ Am An ! . n=1 i=1 Beweis Dann gilt : i) Dies ist eine leichte Übung. ii) Betrachte: P (A|B) = P (A ∩ B) P (A) P (A ∩ B) P (A) = · = · P (B|A) P (B) P (B) P (A) P (B) iii) Wir beweisen dies für n = 2, der Rest folgt dann induktiv. Es ist P (A1 ∩ A2 ) = P (A1 ) · P (A2 |A1 ). Damit ist der Satz bewiesen. - 27 / 145 - Ingo Bürk Kapitel I.7 Bedingte Wahrscheinlichkeiten Satz I.7.3 Sei (Ω, A, P ) (Bi )i∈I eine höchstens abzählbare Bi sind paarweise disjunkt. Ferner ein Wahrscheinlichkeitsraum und S Ω, d.h. i∈I Bi = Ω und P (Bi ) > 0 für alle i ∈ I . Dann gilt Zerlegung von gelte Seite 28 alle i) Formel von der totalen Wahrscheinlichkeit: P (A) = X P (Bi ) · P (A|Bi ) für A∈A i∈I ii) Für A∈A P (A) > 0 mit gilt die Formel von Bayes: P (Bn ) · P (A|Bn ) P (Bn |A) = P i∈I P (Bi ) · P (A|Bi ) Beweis für alle n∈I : i) Es ist A=A∩Ω=A∩ P (A) = P [ S i∈I S Bi = ! (A ∩ Bi ) = X i∈I = X i∈I (A ∩ Bi ) paarweise disjunkt. P (A ∩ Bi ) i∈I P (Bi ) · P (A|Bi ) i∈I ii) Mit dem zweiten Teil von Satz I.7.2 folgt I.7.2 P (Bn |A) = P (A|Bn ) · P (Bn ) 1.) P (Bn ) · P (A|Bn ) = P . P (A) i∈I P (Bi ) · P (A|Bi ) Damit ist der Satz vollständig bewiesen. Beispiel (Ursache und Wirkung): Betrachte die Ereignisse • a=1= b Person hat Krebs. • a=0= b Person hat kein Krebs. • b=1= b Person hat geraucht. • b=2= b Person hat giftige Gase eingeatment. • b=3= b Person hat irgendeine andere Krankheit. Sei nun Ω := {0, 1} × {1, 2, 3} = {(a, b) : a ∈ A, b ∈ B}, A := P(Ω) Ω. und P sei ein Wahrscheinlichkeitsmaÿ auf - 28 / 145 - Ingo Bürk Kapitel I.7 Bedingte Wahrscheinlichkeiten Schreibweise: Seite 29 P ({a = 0}|{b = 1}) = P (a = 0|b = 1) := P ({0} × B|A × {1}). Diese Schreibweise soll analog für Wahrscheinlichkeiten allgemein (nicht nur für bedingte) gelten. Betrachte: Der Wert von b wird zufällig ermittelt, danach wird der Wert von A zufällig ermittelt. Es ist (z.B.): P (a = 0|b = 1) = P (a = 0 und b = 1) P ({(0, 1)}) = P (b = 1) P (b = 1) Der Satz der totalen Wahrscheinlichkeit sagt zum Beispiel P (a = 1) = 3 X P (a = 1 | b = i) · P (b = i), i=1 Bi := {b = i}, dann ist P (b = i) = P (Bi ). Man nennt dies die a-priori-Wahrscheinlichkeit von Bi . Es ist P (b = i | a = j) = P (Bi | Aj ) die so genannte a-posteriori-Wahrscheinlichkeit von Bi . was im Grunde der Summe der möglichen Wege entspricht. Sei nun Beispiel: Alarmanlage Es gelten folgende Dinge: • bei Einbruch erfolgt der Alarm mit Wahrscheinlichkeit • bei Nicht-Einbruch erfolgt der Alarm mit Wahrscheinlichkeit • die Einbruchswahrscheinlichkeit beträgt 0.99. 0.005. 0.001. Gesucht seien nun ... i) ... die Wahrscheinlichkeit, das bei einem Alarm auch ein Einbruch vorliegt. ii) ... die Wahrscheinlichkeit, dass ein Alarm ausgelöst wird. Ω = {E, E c } × {A, Ac } (E = Einbruch, A = Alarm) und A = P(Ω). P sei c ein Wahrscheinlichkeitsmaÿ auf A mit den Eigenschaften P (A | E) = 0.99, P (A | E ) = 0.005 und P (E) = 0.001. Wir suchen nun die Wahrscheinlichkeit (1) mit P (E | A). Mit Sei nun also der Formel von Bayes I.7.3 folgt Bayes P (E | A) = 22 P (A | E) · P (E) = ≈ 0.165. c c P (A | E) · P (E) + P (A | E ) · P (E ) 133 Dies bedeutet, in etwa 5 von 6 Fällen liegt kein Einbruch vor, selbst wenn ein Alarm ausgelöst wurde. Nun suchen wir die Wahrscheinlichkeit (2) P (A) und mit dem Satz von der totalen Wahrscheinlichkeit I.7.3 gilt P (A) totale Wk. = P (A | E) · P (E) + P (A | E c ) · P (E c ) ≈ 0.006. Die Alarmanlage wird also nur sehr selten ausgelöst, was im Gegensatz zur Wahrscheinlichkeit (1) erwartungsgemäÿ ist. - 29 / 145 - Ingo Bürk Kapitel I.8 Elementare Beispiele von Wahrscheinlichkeitsräumen II Seite 30 I.8. Elementare Beispiele von Wahrscheinlichkeitsräumen II Urnenmodell: • In einer Urne seien • Es werden • Wir sind an den gezogenen Kugeln interessiert (Stichprobe). n N Kugeln, die mit 1, . . . , N nummeriert sind. Kugeln zufällig gezogen. Alternativen: • Mit oder ohne Zurücklegen der gerade gezogenen Kugel. • Die Reihenfolge der gezogenen Kugeln kann wichtig sein, muss aber nicht. ⇒ Es gibt insgesamt B := {1, . . . , n}. Beispiel I.8.1: also vier Möglichkeiten. Von nun an sei Ω1 := {ω = (ω1 , . . . , ωn ) : ωi ∈ A für P die Gleichverteilung auf Ω1 . Dann ist 1 |Ω1 | Beispiel I.8.2: und Stichprobe mit Reihenfolge mit Zurücklegen Sei P ({ω}) = A := {1, . . . , N } und i ∈ B} = An alle und A := P(Ω1 ), sowie |Ω1 | = N n . Stichprobe mit Reihenfolge ohne Zurücklegen Ω2 = {(ω1 , . . . , ωn ) | ωi ∈ A und ωi 6= ωj für alle i 6= j}. Klar ist, dass n ≤ N A = P(Ω2 ) und P die Gleichverteilung auf Ω2 . Für n = 1 ist |Ω2 | = N , ! n = 2 ist |Ω2 | = N · (N − 1). Insgesamt ist für beliebiges n also |Ω2 | = (NN−n)! . Es ist gilt. Sei für Beispiel I.8.3: Für ω, ω 0 ∈ Ω2 Stichprobe ohne Reihenfolge ohne Zurücklegen schreiben wir ω ∼ ω 0 :⇔ ∃π : B→B mit 0 ωi = ωπ(i) für alle i ∈ B, d.h. wenn eine Permutation existiert. Diese Relation ∼ ist eine Äquivalenzrelation. Für 0 0 die Äquivalenzklasse schreiben wir [ω]∼ = {ω ∈ Ω2 : ω ∼ ω }. Ein guter Re- ω1 < · · · < ωn . Dieser existiert präsentant einer Äquivalenzklasse ist geordnet, d.h. oensichtlich für jede Äquivalenzklasse. Ω3 := {[ω]∼ : ω ∈ Ω2 }, A = P(Ω3 ) Gesucht ist |Ω3 |. Nun sei • Es gibt • Für eine Permutation n! Permutationen auf Daraus folgt und P Ω3 . B. π 6= idB existiert ein i ∈ B |[ω]∼ | = n! für alle ω ∈ Ω2 . Wir erhalten insgesamt dann die Gleichverteilung auf |Ω3 | = - |Ω2 | n! 30 = / N! (N −n)!n! 145 - mit = ωi 6= ωπ(i) . N . n Ingo Bürk Kapitel I.8 Elementare Beispiele von Wahrscheinlichkeitsräumen II Beispiel I.8.4: Für 0 ω, ω ∈ Ω1 Seite 31 Stichprobe ohne Reihenfolge mit Zurücklegen schreiben wir eine Äquivalenzrelation und Ω4 := {[ω]∼ : ω ∈ Ω1 }. 0 für alle i ∈ B. ∼ ist ω ∼ ω 0 :⇔ ∃π : B→B mit ωi = ωπ(i) [ω]∼ bezeichne die Äquivalenzklasse von ω . Schreibe Auch hier suchen wir die Mächtigkeit dieser Menge, in diesem Fall ist dies aber nicht so einfach. Der Trick aus I.8.3 funktioniert nicht, ω1 = ω2 ist und π : B → B mit π(1) = 2, π(2) = 1 π 6= id, aber ωi = ωπ(i) für alle i ∈ B. Daher haben denn es könnte sein, dass z.B. und π(i) = i sonst. Dann ist die Äquivalenzklassen im Allgemeinen nicht die selbe Kardinalität. 0 0 0 0 Für [ω]∼ ∈ Ω4 wählen wir den Repräsentanten ω mit ω1 ≤ ω2 ≤ · · · ≤ ωn . Damit 0 0 0 ist Ω4 gleichmächtig mit der Menge der Repräsentanten Ω4 := {(ω1 , . . . , ωn ) ∈ An | ω10 ≤ · · · ≤ ωn0 }, d.h. |Ω4 | = |Ω04 |. Für ω 0 ∈ Ω04 betrachten wir ω 00 ∈ {1, . . . , N + n − 1}n mit ωi00 := ωi0 + i − 1. Daraus folgt ω100 < · · · < ωn00 , d.h. ω 00 ∈ Ω3 für N + n − 1 0 00 Kugeln. Zudem ist ω 7→ ω eine Bijektion. Insgesamt erhalten wir damit |Ω4 | = N +n−1 . n Damit haben wir nun also alle vier Möglichkeiten für das Urnenmodell beispielhaft abgearbeitet. Wir möchten uns nun noch ein konkretes Beispiel anschauen: Beispiel I.8.5: Geburtstagszwillinge Frage: Wie groÿ ist die Wahrscheinlichkeit, dass in einer Klasse von mindestens 2 P (A) für Ω1 für N = 365 und n = 25 mit der Gleichverteilung A = {(ω1 , . . . , ω25 ) : ωi ∈ {1, . . . , 365}, ∃i6=j mit A = Ω1 \ Ω2 . Dann ist P. ωi = ωj }. |A| 2| = 1 − |Ω ≈ 0.568. P (A) = |Ω |Ω1 | 1| scheinlichkeit, dass in einer Klasse von 25 mindestens zwei Schüler am Geburstag haben beträgt erstaunlicherweise also etwa 56.8%. Nun ist also Schülern Schüler am selben Tag Geburtstag haben? Ansatz: Betrachte Gesucht: 25 Die Wahrselben Tag Am letzten Beispiel sieht man auch, dass für konkrete Beispiele oft sehr rechenaufwändige 365 Terme wie berechnet werden müssen. Um diesen Rechenaufwand zu verkleinern 25 werden wir hier nun die Stirlingsche Formel zur Approximation (ohne Beweis) angeben. Satz I.8.6 Für n≥1 √ 2πn · Stirlingsche Formel zur Berechnung von Fakultäten gilt n n e 1 · e 12n+1 ≤ n! ≤ √ 2πn · - 31 n n e / 145 1 · e 12n . - Ingo Bürk Kapitel I.9 Beweis Zufallsvariablen Seite 32 : Diese Formel wird hier nicht bewiesen. Die Idee eines Beweises ndet sich zum Beispiel in An Introduction to Probability Theory and it's Applications von Feller. I.9. Zufallsvariablen Definition I.9.1 Seien Ω und 0 Ω Urbild, Menge aller Urbilder nicht-leere Mengen und X : Ω → Ω0 eine Abbildung. Für A0 ⊂ Ω0 heiÿt X −1 (A0 ) := {X ∈ A0 } := {ω ∈ Ω : X(ω) ∈ A0 } das Urbild von A0 unter X. Für C 0 ⊂ P(Ω0 ) schreiben wir X −1 (C 0 ) := {X −1 (A0 ) : A0 ∈ C 0 } für die Menge aller Urbilder. Lemma I.9.2 Seien i) X Ω −1 und Ω0 nicht-leere Mengen und X : Ω → Ω0 eine Abbildung. Dann gilt ist verträglich mit ∪, ∩, \, d.h. ! X [ −1 Ai = i∈I [ X −1 (Ai ) i∈I ! \ X −1 X ii) −1 = Ai i∈I 0 \ i∈I −1 0 (B \ A ) = X X −1 (∅) = ∅ und X −1 (Ai ) (B 0 ) \ X −1 (A0 ) X −1 (Ω0 ) = Ω. iii) A0 ⊂ B 0 ⊂ Ω0 ⇒ X −1 (A0 ) ⊂ X −1 (B 0 ). iv) X(X −1 (A)) ⊂ A. v) Ist A0 vi) Für eine σ -Algebra C 0 ⊂ P(Ω0 ) gilt auf Ω0 , so ist X −1 (A0 ) eine σ -Algebra auf Ω. X −1 (σ(C 0 )) = σ(X −1 (C 0 )). - 32 / 145 - Ingo Bürk Kapitel I.9 Beweis i) Zufallsvariablen Seite 33 : Wir beweisen die Eigenschaften der Reihe nach: S −1 ω S ∈ X−1 ( i∈I Ai ) ⇔ ∃i ∈ I : X(ω) ∈ Ai . (Ai ). Die Fälle ∩ und \ gehen analog. i∈I X Dies ist äquivalent zu ω ∈ ii) trivial. iii) trivial. ω 0 ∈ X(X −1 (A0 )). Daraus folgt, dass ein ω ∈ X −1 (A0 ) −1 und ω ∈ X (A0 ) bedeutet ω 0 = X(ω) ∈ A0 . iv) Sei existiert mit X(ω) = ω 0 v) Folgt aus i) und ii). X −1 (C 0 ) ⊂ X −1 (σ(C 0 )), daraus folgt σ(X −1 (C 0 )) ⊂ σ(X −1 (σ(C 0 ))) = X (σ(C 0 )). Für ⊂ betrachte A00 := {A0 ∈ σ(C 0 ) : X −1 (A0 ) ∈ σ(X −1 (C 0 ))}. 0 0 0 0 Dann ist A0 eine σ -Algebra, denn z.B. für A1 , A2 , . . . ∈ A0 gilt ! ∞ ∞ [ [ −1 0 X Ai = X −1 (A0i ) ∈ σ(X −1 (C 0 )). vi) ⊃: −1 i=1 i=1 0 Damit ist σ(C ) ⊂ σ(C 0 ) gilt X −1 (A0 ) σ(A00 ) = A00 ⊂ σ(C 0 ). Also ist A00 = σ(C 0 ), d.h. für jedes A0 ∈ ∈ σ(X −1 (C 0 )). Daraus folgt dann X −1 (σ(C 0 )) ⊂ σ(X −1 (C 0 )). Damit ist das Lemma bewiesen. Definition I.9.3 Messbare Funktion (Ω, A) und (Ω0 , A0 ) Messräume, dann (A, A0 )-messbar (oder kurz: messbar) genau Seien 0 heiÿt eine Abbildung X : Ω → Ω −1 dann, wenn X (A0 ) ⊂ A ist, d.h. wenn jedes Urbild einer messbaren Menge wieder messbar ist. Bemerkungen: Man kann sehen, dass gilt: • X stetig ⇔ Urbilder oener Mengen sind oen. • X −1 (A0 ) ist die kleinste σ -Algebra −1 ben σ(X) := X (A0 ). • Schreibweise: Ist auf X (A, A0 )-messbar, Ω bezüglich der so schreiben wir X messbar ist. Wir schrei- X : (Ω, A) → (Ω0 , A0 ). Satz I.9.4 (Ω, A) und (Ω0 , A0 ) Messräume und C 0 ⊂ A0 ein Erzeugendensystem, d.h. σ(C ) = A0 . Dann sind für eine Abbildung X : Ω → Ω0 folgende Aussagen äquivaSeien 0 lent: - 33 / 145 - Ingo Bürk Kapitel I.9 X i) Zufallsvariablen ist (A, A0 )-messbar. X −1 (C 0 ) ⊂ A, ii) Seite 34 d.h. X −1 (A0 ) ∈ A für alle A0 ∈ C 0 . Bemerkung: Es genügt also, Messbarkeit für ein Erzeugendensystem zu zeigen. Beweis dass : Die Implikation i) → ii) ist trivial. Für die andere X −1 (A0 ) = X −1 (σ(C 0 )) = σ(X −1 (C 0 )) ⊂ σ(A) = A ist. Richtung folgt mit I.9.2, Korollar I.9.5 Jede stetige Abbildung zwischen zwei metrischen Räumen ist Borel-messbar. Beweis (Ω0 , d0 ) seien metrische Räume und τd , τd0 0 seien die Systeme der 0 0 oenen Mengen in Ω bzw. Ω . Weiterhin sei X : Ω → Ω eine stetige Abbildung. Aus I.9.3 0 −1 0 folgt dann X (τd0 ) ⊂ τd ⊂ σ(τd ). Da τd0 ein Erzeugendensystem von σ(τd0 0 ) ist folgt die Behauptung mit Satz I.9.4. : (Ω, d) und Korollar I.9.6 Sei i) ii) (Ω, A) ein Messraum und X : Ω → R. Dann sind folgende Aussagen äquivalent: X ist (A, B)-messbar. {X ≤ α} := X −1 ((−∞, α]) = {ω ∈ Ω : X(ω) ≤ α} iii) {X < α} ∈ A für alle α ∈ R. iv) {X ≥ α} ∈ A für alle α ∈ R. v) {X > α} ∈ A für alle α ∈ R. Falls X (A, B)-messbar ist, so gilt auch {X = α} ∈ A liegt in für alle Bedingung ist nicht hinreichend für die Messbarkeit von Beweis A für alle α ∈ R, α ∈ R. aber diese X. I := {(−∞, a] : a ∈ R} B ist. Dazu erinnern wir uns daran, dass wir in I.2.8 bereits gezeigt haben, dass I := {(a, b] : a, b ∈ R} ein Erzeugendensystem von B ist. Nun ist (a, b] = (−∞, b] \ (−∞, a] ∈ σ(I), da σ(I) eine σ -Algebra ist. Das heiÿt also B = σ(I) ⊂ σ(I). Umgekehrt ist R \ (−∞, a] = (a, ∞) oen und messbar. Dann liegt aber auch das : Um i) ⇔ ii) zu zeigen werden wir beweisen, dass ein Erzeugendensystem von - 34 / 145 - Ingo Bürk Kapitel I.9 Zufallsvariablen Seite 35 (−∞, a] ∈ B , d.h. es gilt I ⊂ B . Daraus folgt σ(I) ⊂ σ(B) = B , womit insgesamt σ(I) = B folgt. Nun folgt die Äquivalenz mit I.9.4. Alle anderen Implikationen funktionieren völlig analog. Komplement R := R ∪ {−∞, ∞} und B := {B ∪ U : B ∈ B und U ⊂ {−∞, ∞}} σ -Algebra auf R und für X : Ω → R gilt die Charakterisierung aus I.9.6 für Bemerkung: Für ist B eine (A, B)-Messbarkeit. Korollar I.9.7 X, Y : (Ω, A) → (R, B), dann gilt {X < Y } := {ω ∈ Ω : X(ω) < Y (ω)} ∈ A. Das Gleiche gilt für {X ≤ Y }, {X = Y }, . . . und auch für X, Y : (Ω, A) → (R, B). Seien Beweis : Es ist {X < Y } = S α∈Q {X < α} ∩ {α < Y }. Dies ist nach I.9.6 messbar. Korollar I.9.8 (Ω, A) ein Messraum und A ⊂ Ω. 1A : Ω → R mit ( 0 ω∈ /A 1A (ω) := . 1 ω∈A Sei Betrachte die so genannte Indikatorfunktion Dann sind die folgenden Aussagen äquivalent: i) ii) 1A ist (A, B)-messbar. A ∈ A. Beweis α ∈ R gilt α<0 ∅ {1A ≤ α} = Ω \ A α ∈ [0, 1) . Ω α≥1 : Für Damit ist die Richtung i) Beispiel: Die Indikatorfunktion 1Q ⇒ ii) trivial, die Rückrichtung folgt aus I.9.6. ist Borel-messbar, aber nirgends stetig. - 35 / 145 - Ingo Bürk Kapitel I.9 Zufallsvariablen Satz I.9.9 Seite 36 (Ω, A), (Ω0 , A0 ) und (Ω00 , A00 ) Messräume und X : (Ω, A) → (Ω0 , A0 ), Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann ist Y ◦ X : (Ω, A) → (Ω00 , A00 ) messbar. Seien Beweis sowie : Betrachte X −1 (Y −1 (A)) = {ω ∈ Ω : X(ω) ∈ Y −1 (A)} = {ω ∈ Ω : X(ω) ∈ {ω 0 ∈ Ω0 : Y (ω 0 ) ∈ A}} | {z } d.h. Y (X(ω))∈A −1 = (Y ◦ X) (A) Damit ist für alle A ∈ A00 . (Y ◦ X)−1 (A00 ) = X −1 (Y −1 (A00 )) ⊂ A. Korollar I.9.10 X : (Ω, A) → (Rn , B n ) und g : Rn → Rm (A, B m )-messbare Funktion. Sei Beweis g stetig. Dann ist : Die Aussage folgt unmittelbar aus I.9.5 und I.9.9. Satz I.9.11 Seien mit Xi : (Ω, A) → (R, B) für alle 1 ≤ i ≤ n. g◦X eine Dann ist Y : Ω → Rn ω 7→ (X1 (ω), . . . , Xn (ω)) eine (A, B n )-messbare Beweis Funktion. I = {(a, b] : a, b ∈ Rn } ein Erzeugendensystem von B n . Nach I.9.4 reicht −1 zeigen, dass Y (I) ⊂ A ist. Dazu betrachte : Sei es daher zu Y −1 ((a, b]) = {ω ∈ Ωi : X1 (ω) ∈ (a1 , b1 ], . . . , Xn (ω) ∈ (an , bn ]} n \ = Xi−1 ((ai , bi ]) ∈ A. {z } | i=1 ∈A - 36 / 145 - Ingo Bürk Kapitel I.9 Zufallsvariablen Seite 37 Damit ist der Satz bewiesen. Korollar I.9.12 Sind X1 , X2 : (Ω, A) → (Rn , B n ) und Y : (Ω, A) → (R, B), so sind auch die folgen- den Abbildungen messbar: i) ii) iii) αX1 + βX2 für alle α, β ∈ R. Y · X1 . X1 t mit der Konvention Y 0 Beweis : Die Addition := 0 für t∈R + : Rn × Rn → Rn (insbesondere auch für t = 0). und die Skalarmultiplikation sind jeweils stetig. Daraus und nach I.9.10 und I.9.11 folgen 1.) und 2.). Wir zeigen nun 3.). Be1 (nach obiger Konvention ist damit H(0) = 0). trachte hierfür H : R → R mit H(t) := t X1 Dann gilt = (H ◦ Y ) · X . Damit bleibt nur noch zu zeigen, dass H messbar ist. Für 1 Y B ∈ B ist auch B \ {0} ∈ B. Daraus folgt dann H −1 (B) = H −1 (B \ {0} ∪ {0}) = H −1 (B \ {0}) ∪ H −1 ({0}) . | {z } | {z } ∈B Damit ist H messbar und damit auch ={0}∈B X1 . Y Satz I.9.13 Xn : (Ω, A) → (R, B) für n ∈ N. Dann sind auch inf Xn , lim inf Xn , sup Xn , lim sup Xn und, falls existent, lim Xn jeweils (A, B)-messbar. Seien Beweis inf Xn (ω) < α ⇔ ∃n ∈ N mit Xn (ω) < α. [ {inf Xn < α} = {Xn < α} ∈ A. : Daraus folgt n∈N Damit ist der Satz bewiesen. - 37 / 145 - Ingo Bürk Kapitel I.9 Zufallsvariablen Definition I.9.14 Xi : Ω → Ω i Seien Erzeugte Abbildungen σ -Algebra für i ∈ I , wobei (Ωi , Ai ) Seite 38 Messräume sind. Dann heiÿt ! [ σ((Xi )i∈I ) := σ Xi−1 (Ai ) i∈I (Xi )i∈I erzeugte σ -Algebra auf Ω. Dies ist die kleinste σ -Algebra bezüglich alle Xi messbar sind. die durch welcher Ω := ×i∈I Ωi = {(ωi )i∈I : ωi ∈ Ωi } und πi : Ω → Ωi πi ((ωj )j∈I ) := ωi . Im Folgenden sei das heiÿt Definition I.9.15 (Ωi , Ai ) Seien Produkt-σ -Algebra Messräume für i ∈ I, Ω := so heiÿt die auf die i-te Projektion, ×i∈I Ωi denierte σ- Algebra O Ai := σ((πi )i∈I ) i∈I die Produkt-σ -Algebra der Ai . Dies ist die kleinste σ -Algebra auf Ω, für die alle Projektionen messbar sind. Bemerkungen: • Im Folgenden heiÿt πi−1 (Ai ) i ∈ I , Ai ∈ Ai für eine Zylindermenge. Es gilt für I = {1, . . . , n} πi−1 (Ai ) = Ωi × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn • nT −1 j∈J πj (Aj ) :J ⊂I endlich, Aj ∈ Aj für j∈J o Schnitte von Zylindermengen. Diese Mengen sind von • Nn N i=1 i∈I ist eine Menge endlicher ∩-stabile Erzeugendensysteme Ai . Bi = B n . Dies gilt auch für abzählbare Produkte. - 38 / 145 - Ingo Bürk Kapitel I.10 Bildmaÿe und Verteilungen Lemma I.9.16 Seien (Ω, A) X: Ω → und (Ωi , Ai ) (i ∈ I ) Messräume und Xi : Ω → Ωi . Seite 39 Dann sind für ×Ω i i∈I ω 7→ (Xi (ω))i∈I die folgenden Aussagen äquivalent: i) ii) X ist (A, N Xi : Ω → Ω i Beweis N : 1.) ⇒ i∈I Ai )-messbar. ist (A, Ai )-messbar 2.): Xi = π i ◦ X , für alle i ∈ I. dann gilt: X ist (A, N i∈I Ai )-messbar Ai , Ai )-messbar (vgl. I.9.9). S N −1 2.) ⇒ 1.): Da i∈I πi (Ai ) ein Erzeugendensystem von i∈I Ai ( und πi ist i∈I ist, reicht es nach I.9.4 zu zeigen, dass ! X −1 [ πi−1 (Ai ) ∈A ist. i∈I Sei also A ∈ Ai . Dann gilt nach I.9.9: X −1 (πi−1 (A)) = (πi ◦ X)−1 (A) πi ◦X=Xi = n.V. Xi−1 (A) ∈ A. Damit ist das Lemma bewiesen. I.10. Bildmaÿe und Verteilungen Motivation: Bis jetzt hatten wir untersuchen, was passiert, wenn Definition I.10.1 P X : (Ω, A) → (Ω0 , A0 ) betrachtet. Jetzt wollen wir ein Wahrscheinlichkeitsmaÿ auf (Ω, A) ist. Zufallsvariable, Zufallsvektor, Realisierung (Ω, A, P ) ein Wahrscheinlichkeitsraum X : (Ω, A) → (Ω0 , A0 ): Ist und (Ω0 , A0 ) ein Messraum, so heiÿt i) Zufallsvariable (ZV), ii) reelle Zufallsvariable, falls Ω0 = R und iii) erweiterte reelle Zufallsvariable, falls - 39 A0 = B ist, Ω0 = R = R ∪ {±∞} / 145 - und A0 = B ist und Ingo Bürk Kapitel I.10 Bildmaÿe und Verteilungen iv) Zufallsvektor, falls Ferner heiÿt X(ω) für Ω0 = Rn ω∈Ω und A0 = B n ist. Realisierung von X. Satz I.10.2 (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) X : (Ω, A) → (Ω0 , A0 ) eine Zufallsvariable. Dann ist Seien PX : A0 → [0, 1] A0 7→ P (X −1 (A0 )) für oder auch Verteilung von Beweis ein Messraum und A0 ∈ A0 (Ω0 , A0 ). ein Wahrscheinlichkeitsmaÿ auf Seite 40 Dieses heiÿt das Bildmaÿ von X auf Ω0 X. : • PX (A) ∈ [0, 1] ist klar, da P ein Wahrscheinlichkeitsmaÿ ist. • PX (∅) = P (X −1 (∅)) = P (∅) = 0. • σ -Additivität: Seien A01 , A02 , . . . ∈ A0 paarweise disjunkt. Dann ist i6=j X −1 (A0i ) ∩ X −1 (A0j ) = X −1 (A0i ∩ A0j ) = X −1 (∅) = ∅. Die X −1 (Ai ) PX für ∞ [ A0i i∈N ! sind also paarweise disjunkt. Damit ist Def. = P X −1 i=1 ∞ [ !! A0i 1.9.2 = P i=1 = ∞ X ∞ [ ! X −1 (A0i ) i=1 ∞ Def. X −1 0 P (X (Ai )) = PX (Ai ). i=1 i=1 Damit ist der Satz bewiesen. Bemerkung: Wenn Ω0 = Ω und X = idΩ ist, dann ist PX = P . Das heiÿt, jedes Wahrscheinlichkeitsmaÿ ist ein Bildmaÿ und eine Verteilung bezüglich einer geeigneten Zufallsvariablen. - 40 / 145 - Ingo Bürk Kapitel I.10 Bildmaÿe und Verteilungen Definition I.10.3 Seien (Ω, A, P ) Seite 41 gleichverteilte Zufallsvariablen und (Ω0 , A0 , P 0 ) Wahrscheinlichkeitsräume und (Ω00 , A00 ) ein Mess- raum. Dann heiÿen X : (Ω, A) → (Ω00 , A00 ) X 0 : (Ω0 , A0 ) → (Ω00 , A00 ) gleichverteilt (oder auch identisch verteilt) genau dann, wenn PX −1 heiÿt wenn P (X (A00 )) = P 0 ((X 0 )−1 (A00 )) für alle A00 ∈ A00 gilt. = PX0 ist, das Bemerkungen: • X : (Ω, A) → (R, B) eine reelle B nach I.6.2 eine eindeutige Vertei0 lungsfunktion FX . Diese ist für t ∈ R durch FX (t) = PX ((−∞, t]) gegeben. Ist X 0 eine weitere reelle ZV, so sind X und X gleichverteilt genau dann, wenn FX = FX 0 Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum und Zufallsvariable, so besitzt das Bildmaÿ PX auf ist. • X und X 0 gleichverteilt sind, reicht es zu zeigen, dass (A)) = P ((X ) (A)) für alle A aus einem ∩-stabilen Erzeugendensystem Um zu zeigen, dass zwei ZV −1 0 −1 P (X gilt. Dies folgt aus I.5.3. Beispiel I.10.4: Betrachte nochmal das mehrfache Werfen einer unfairen Münze (vgl. I.3.5) für p ∈ [0, 1]. Dann ist Ω = {0, 1}n (n Würfe) und A = P(Ω).PEin Wahrscheinlichn k n−k keitsmaÿ ist gegeben durch P ({ω}) = p (1 − p) mit k = i=1 ωi . Pn Deniere nun X : Ω → R mit ω = (ω1 , . . . , ωn ) 7→ i=1 ωi , das heiÿt X(ω) entspricht der Anzahl der Einsen in ω . Dann ist X messbar, da A = P(Ω) und jede Abbildung, die auf für (Ω, A) startet, dann messbar ist. Das Bildmaÿ von X erfüllt k = 0, . . . , n: ( PX ({k}) = P (X −1 ω∈Ω: ({k})) = P n X )! ωi = k i=1 n k = p (1 − p)n−k = B(n, p, k). k 1.3.5 - 41 / 145 - Ingo Bürk Kapitel I.10 Bildmaÿe und Verteilungen Pn PX ({k}) = 1. Damit folgt für eine beliebige X PX (A) = PX ({k}) + PX (A \ {0, . . . , n}) | {z } Es gilt k=0 k∈{0,...,n}∩A Menge Seite 42 A ∈ B: =0 = B(n, p, {0, . . . , n} ∩ A) X n k = p (1 − p)n−k . k k∈{0,...,n}∩A Lemma I.10.5 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ), (Ω00 , A00 ) Messräume, sowie zwei Zufallsvariablen X : (Ω, A) → (Ω0 , A0 ) Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt PY ◦X = (PX )Y . Beweis : Für A00 ∈ A00 gilt PY ◦X (A00 ) = P ((Y ◦ X)−1 (A00 )) = P (X −1 (Y −1 (A00 ))) = PX (Y −1 (A00 )) = (PX )Y (A00 ). Damit ist das Lemma bewiesen. Satz I.10.6 Seien (Ωi , Ai , µi ) Maÿräume mit σ -endlichen Maÿen µi für endlich viele Indizes N N i = 1, . . . , n. Dann existiert genau ein Maÿ ni=1 µi auf ni=1 Ai mit der Eigenschaft ! n n n O Y µi Ai = µi (Ai ) für alle Ai ∈ Ai , i = 1, . . . , n. × i=1 i=1 Insbesondere ist i=1 Nn i=1 λ1 = λn . - 42 / 145 - Ingo Bürk Kapitel I.10 Beweis Bildmaÿe und Verteilungen Seite 43 : Der Beweis ndet sich u.a. in Klenke als Satz 14.14. Satz I.10.7 Wahrscheinlichkeitsräume für i ∈ N. Dann existiert genau ein N∞ Wahrscheinlichkeitsmaÿ i=1 Pi mit der Eigenschaft Seien (Ωi , Ai , Pi ) ∞ O Pi (A1 × A2 × . . . × An × Ωn+1 × Ωn+2 × . . .) = i=1 Pi (Ai ) i=1 für alle Beweis n Y n≥1 und Ai ∈ Ai (i = 1, . . . , n). : Der Beweis ndet sich u.a. in Klenke als Satz 14.33. Definition I.10.8 gemeinsame Verteilung, Randverteilung (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ωi , Ai ) und Xi : (Ω, A) → (Ωi , Ai ) Abbildungen. Betrachte ! n n O X : (Ω, A) → Ωi , Ai Sei Messräume für i = 1, . . . , n × i=1 i=1 ω 7→ (Xi (ω))ni=1 Dann heiÿt i) PX die gemeinsame Verteilung der Xi . Beachte n −1 PX (A) = P ((X1 , . . . , Xn ) (A)) ! n \ =P Xi−1 (A) . und falls A= ×A i i=1 i=1 ii) PXi die Randverteilung bezüglich Xi von PX . Beachte PXi (Ai ) = P (Xi−1 (Ai )) = PX (Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ). Bemerkungen: - 43 / 145 - Ingo Bürk Kapitel I.11 Integration Seite 44 • PXi = Pπi ◦X . • Die Randverteilungen • Ist (Ω, A) = × PXi = Pπi =: PΩi . n i=1 PX1 , . . . , PXn legen PX nicht fest. N Ωi , ni=1 Ai und Xi = πi , so ist X = idΩ , PX = P und I.11. Integration Motivation: Der Erwartungswert einer Zufallsvariable sollte der mittlere Wert der Zufallsvariablen sein. Zum Beispiel: • Ω = {ω1 , . . . , ωn } mit P der Gleichverteilung auf n Ω und X : Ω → R. Dort wäre n X 1X X(ωi ) = X(ωi )P ({ωi }). EX = n i=1 i=1 • Ω = N0 und EX = P hat die Zähldichte ∞ X X(i)pi = i=0 ∞ X (pi )i≥0 und X : Ω → R. Dann wäre Xi P ({i}). i=0 • Ω = [0, 1], X(ω) = ω und P = λ1 . Z 1 1 X(ω) dω = . EX = 2 0 Dann wäre Ziel: Das Denieren eines Integrals für Zufallsvariablen. Zum Beispiel für (A ∈ A). Z X = 1A Dann wäre 1A dµ = 1 · µ(A) + 0 · µ(Ω \ A) = µ(A). Dies sollte ein Integral auf jeden Fall erfüllen. Auÿerdem sollte es linear und monoton sein. Definition I.11.1 Sei (Ω, A) Elementar-/Treppenfunktion ein Messraum, so heiÿt eine messbare Funktion f: Ω → R Elementar- oder Treppenfunktion genau dann, wenn ∃A1 ,...,An ∈A ∃c1 ,...,cn ∈R : f = n X ci · 1Ai . i=1 Wir schreiben E(A) für die Menge Treppenfunktionen auf - 44 / 145 - (Ω, A). Ingo Bürk Kapitel I.11 Integration A ∈ E(A) wäre Z n n Z X X f dµ := ci µ(Ai ) = ci · 1Ai dµ. Der Ansatz für Treppenfunktionen i=1 Seite 45 dann: i=1 1 Pn i=1 ci · Ai unabhängig, das heiÿt ist dieser Integralbegri wohldeniert? Wir werden zeigen, dass dies wirklich der Fall Frage: Ist diese Denition von der Darstellung f= ist. Definition I.11.2 f ∈ E(A) Normaldarstellung Pn 1 ci · Ai Normaldarstellung genau i=1S n dann, wenn die Ai paarweise disjunkt sind und i=1 Ai = Ω gilt. Für Lemma I.11.3 Für f ∈ E(A) heiÿt eine Darstellung f = gilt: i) Es gibt eine Normaldarstellung von ii) Sind Pn i=1 ci f= n X · 1Ai ci µ(Ai ) = i=1 Beweis i) f und m X f= f. Pm j=1 dj · 1Bj Normaldarstellungen von f, so gilt dj µ(Bj ). j=1 : kann nur endlich viele Werte annehmen, das heiÿt f= X |f (Ω)| < ∞. Dann ist y · 1f −1 ({y}) y∈f (Ω) eine Normaldarstellung. S Ai S = m j=1 (Ai ∩ Bj ) eine Vereinigung paarweise n Bj = i=1 (Ai ∩ Bj ). Damit können wir schreiben ii) Es ist für n X ci µ(Ai ) = X dj µ(Bj ) = X i=1 m X j=1 disjunkter Mengen. Ebenso ci µ(Ai ∩ Bj ) i,j dj µ(Ai ∩ Bj ). i,j - 45 / 145 - Ingo Bürk Kapitel I.11 Integration Seite 46 µ(Ai ∩ Bj ) > 0 existiert ein x ∈ Ai ∩ Bj . Dann ist nach der ersten Darstellung von f aber ci = f (x), aus der anderen Darstellung folgt dj = f (x). Also ist ci = dj , wenn das Maÿ des Schnitts nicht 0 ist. Für i und j mit Damit ist das Lemma bewiesen. Damit haben wir wirklich die Unabhängigkeit von der Darstellung, welche die folgende Denition ermöglicht: Definition I.11.4 Für f ∈ E(A) µ Z f dµ := f dµ := Ω Lemma I.11.5 Für auf f, g ∈ E(A) R i) Linearität: und A i=1 ci · 1Ai ist das Integral deniert durch n X ci µ(Ai ). i=1 α∈R gilt: (f + g) dµ = R f dµ + ii) Monotonie: Wenn punktweise Beweis Pn f = mit einer Normaldarstellung bezüglich dem Maÿ Z Integral von Elementarfunktionen R f ≤g g dµ und gilt, so ist R R (αf ) dµ = α f dµ. R R auch f dµ ≤ g dµ. : Der Beweis ist einfach und rein technischer Natur, indem man einfach auf Treppenfunktionen zurückgeht. Wir werden ihn an dieser Stelle daher auslassen. Ziel: Wir wollen ein Integral für nicht-negative reelle Funktionen denieren. Die Idee hierbei ist, diese Funktionen durch Elementarfunktionen zu approximieren und dann auf den bereits eingeführten Integralbegri zurückzugreifen. Lemma I.11.6 (Ω, A, µ) ein Maÿraum, f : Ω → [0, ∞] und f messbar. Folge (fn ) ⊂ E(A) mit fn ≥ 0 und fn % f punktweise. Sei - 46 / 145 - Dann existiert eine Ingo Bürk Kapitel I.11 Beweis Integration : Für n∈N Seite 47 denieren wir fn := 2 · 1{f >2n } + n 2n −1 2X i=0 i ·1 i i+1 2n { 2n ≤f < 2n } Es gilt: • 0 ≤ f1 ≤ f2 ≤ . . . . • 0 ≤ f (x) − fn (x) ≤ 2−n , • fn (x) = 2n falls falls f (x) < 2n . f (x) ≥ 2n . Damit haben wir alle Eigenschaften oensichtlich erfüllt. Lemma I.11.7 (Ω, A, µ) ein Maÿraum, fn ∈ E(A) für n ≥ 1 und g ∈ E(A) 0 ≤ fn % f : Ω → [0, ∞] und 0 ≤ g ≤ f . Dann folgt Z Z g dµ ≤ sup fn dµ. Sei mit n≥1 Beweis P g= m i=1 ci · 1Ai eine Normaldarstellung von g . Für α ∈ (0, 1) sei Bn := {f ≥ αg} ∈ A und es ist fn ≥ αg · 1Bn ∈ E(A), da 1A · 1B = 1A∩B . Daraus folgt dann R n R fn dµ ≥ α g · 1Bn dµ (∗). Auÿerdem gilt Bn % Ω und daraus folgt Bn ∩ Ai % Ai für alle i = 1, . . . , n. Mit Hilfe der σ -Stetigkeit von unten von µ folgt dann : Sei Z g dµ = m X ci µ(Ai ) = lim n→∞ i=1 m X Z ci µ(Ai ∩ Bn ) = lim n→∞ i=1 g · 1Bn dµ. Daraus folgt dann aber (∗) Z sup Z g · 1Bn dµ Z g · 1Bn dµ, fn dµ ≥ sup α n≥1 n≥1 ≥ lim α n→∞ woraus für α→1 schlieÿlich die Behauptung folgt. - 47 / 145 - Ingo Bürk Kapitel I.11 Integration Korollar I.11.8 Seien fn , gn ∈ E(A) und f : Ω → [0, ∞] messbar mit fn % f und Seite 48 gn % f . Dann folgt Z Z sup fn dµ = sup n≥1 n≥1 Beweis R supi≥1 : Für ≥ betrachten wir I.11.7 für fi dµ. g := gn . Damit ist dann supn≥1 Die andere Ungleichung folgt aus Symmetriegründen. Definition I.11.9 Sei gn dµ. f gn dµ ≤ Integral nicht-negativer Funktionen (Ω, A, µ) ein Maÿraum und f : Ω → [0, ∞] messbar, so Z Z g dµ : g ∈ E(A) und 0 ≤ g ≤ f f dµ := sup das Integral von R bezüglich ist µ. Bemerkungen: • Ist 0 ≤ fn % f : Ω → [0, ∞] und fn ∈ E(A), Z Z f dµ = lim fn dµ. so ist n→∞ • R (f + g) dµ = • R f dµ ≥ 0. R f dµ + R g dµ und R (αf ) dµ = α R f dµ für α ≥ 0. Definition I.11.10 µ-Integrierbarkeit, Integral Eine messbare Abbildung f : Ω → [−∞, ∞] heiÿt µ-integrierbar genau dann, wenn Z |f | dµ < ∞. - 48 / 145 - Ingo Bürk Kapitel I.11 Integration Seite 49 Dies ist genau dann der Fall, wenn f + dµ < ∞ und f − dµ < ∞, wobei f + = max{0, f } und f − = − min{0, f } ist. In diesem Fall denieren wir wegen f = f + − f −: R Z Z f dµ := f + Z dµ − R f − dµ. Lemma I.11.11 Sei (Ω, A, µ) ein Maÿraum und f, g : Ω → [−∞, ∞] zwei µ-integrierbare α ∈ R. Dann gelten die folgenden Eigenschaften: Funktio- nen, sowie i) ii) iii) iv) µ({|f | = ∞}) = 0. R R R (f + g) dµ = f dµ + g dµ mit der Konvention −∞ + ∞ := 0. R R (αf ) dµ = α f dµ. R R f ≤ g punktweise impliziert f dµ ≤ g dµ. h : Ω → [−∞, ∞] messbar mit |h| ≤ f , so ist h R Für f ≥ 0 gilt f dµ = 0 ⇔ µ({f 6= 0}) = 0. R R f dµ ≤ |f | dµ. v) Ist vi) vii) Beweis auch µ-integrierbar. : A := {|f | = ∞} µ(A) > 0 ist, betrachte die Folge (fn ) aus n Beweis von I.11.6. Diese erfüllt fn (ω) = 2 für ω ∈ A. Zudem wissen wir, 0 ≤ 1A · fn ≤ fn und 1A · fn ∈ E(A). Dann ist Z Z |f | dµ = lim fn dµ n→∞ Z ≥ lim 1A · fn dµ = lim 2n · µ(A) = ∞. i) Falls für gilt, dass n→∞ dem dass n→∞ Dies ist aber ein Widerspruch dazu, dass f µ-integrierbar ist. ii) Einfach. iii) Einfach. f ≤ Rg folgt g − f ≥ 0. R g dµ ≥ f dµ. R |h| dµ ist erklärt und aus iv) iv) Für v) Daraus folgt aber folgt dann - 49 / 145 R - R (g − f ) dµ ≥ 0 |h| dµ ≤ R und damit f dµ < ∞. Ingo Bürk Kapitel I.11 Integration Seite 50 An := {f ≥ n−1 } % {f > 0} =: A. Falls µ(A) > 0 wäre, so σ -Stetigkeit von unten, dass es ein n ∈ N gibt mit µ(An ) > 0. Dann vi) ⇒: Betrachte aus der folgt folgt aber 1 0< n Z 1An dµ ≤ Z f dµ, wobei für die letzte Abschätzung n−1 1An ≤ f benutzt wurde. Dies ist aber ein Widerspruch. ⇐: Sei R 0 ≤ g ≤ f mit g ∈ E(A). Dann ist auch µ({g 6= 0}) = 0. g dµ = 0, dann ist aber auch Z Z f dµ = sup g dµ : 0 ≤ g ≤ f , g ∈ E(A) = 0. vii) Aus f ≤ |f | folgt nach iv), dass R f dµ ≤ R |f | dµ ist. Analog für Daraus folgt −f ≤ |f |. Damit ist das Lemma vollständig bewiesen. Bemerkungen: • Es gibt spiel • λ-integrierbare 1Q . Funktionen, die nicht Riemann-integrierbar sind, zum Bei- f : [a, b] → R Riemann-integrierbar, dann folgt, dass f auch λ-integrierbar ist R Rb und es gilt f dλ = a f (t) dt. Dies gilt aber wirklich nur für Funktionen, die Ist auf einem kompakten Intervall Riemann-integrierbar sind, nicht jedoch für nur uneigentlich Riemann-integrierbare Funktionen. • Unterschied zwischen Riemann- und Lebesgue-Integral: Die Arbeit für das Definition I.11.12 Sei (Ω, A, P ) λ-Integral liegt in der Konstruktion von λ. Erwartungswert ein Wahrscheinlichkeitsraum und X : Ω → R eine P -integrierbare X deniert als Zufallsvariable. Dann ist der Erwartungswert von Z EP X = EX := Beachte: X dP . EP 1A = P (A). Auÿerdem erfüllt - 50 / EP 145 die Eigenschaften aus I.11.11. - Ingo Bürk Kapitel I.11 Integration Satz I.11.13 Seite 51 Satz von Beppo Levi I und II Satz von Beppo Levi I / Satz zur monotonen Konvergenz: Seien f fn : Ω → [0, ∞] messbar für n≥1 und fn % f punktweise. Dann folgt, dass messbar und nicht-negativ ist. Auÿerdem gilt dann Z Z f dµ = lim Z fn dµ = sup n→∞ fn dµ. n≥1 Satz von Beppo Levi II: (fn ) ⊂ L1 (µ) (d.h. |fn | ist Lebesgue-integrierbar) und fn % f : Ω → R µ-fast sicher, das heiÿt µ({lim fn 6= f }) = 0. Dann gilt Z Z Z Z + lim fn dµ = f dµ = f dµ − f − dµ. Seien n→∞ Beweis : (Satz Konstruiere von Beppo Levi I) (gn ) ∈ E(A) existiert eine Folge Wir denieren nun mit 0 ≤ gn % f gn ≤ fn . und (n) (n) Dazu überlegen wir uns: Zu fn i→∞ (gi )i≥1 ⊂ E(A) mit 0 ≤ gi % fn . Dies folgt aus I.11.6. (j) gn := max1≤j≤n gn . Dann gelten die folgenden Eigenschaften: • gn ∈ E(A). (j) (j) (j) • gn+1 = max1≤j≤n+1 gn+1 ≥ max1≤j≤n gn+1 ≥ max1≤j≤n gn = gn , die Folge ist also monoton wachsend. (n) • gn ≥ gn % f . (j) • gn ≤ fj ≤ fn Damit folgt insbesondere für j≤n gn % f . und damit aus der Denition der gn auch gn ≤ fn . Damit ist dann auch Z R -Def. Z Z f dµ = sup gn dµ ≤ sup n≥1 n≥1 fn dµ. Für die andere Ungleichungsrichtung folgt aus Z Z fn dµ ≤ Z f dµ ⇒ sup fn ≤ f : Z fn dµ ≤ f dµ. n≥1 Damit ist der Beweis abgeschlossen. - 51 / 145 - Ingo Bürk Kapitel I.11 Beweis : Integration Seite 52 (Satz von Beppo Levi II) Sei N ⊂ Ω eine µ-Nullmenge, so dass fn (ω) % f (ω) für alle ω ∈ fn0 := (fn − f1 ) · Ω\N ≥ 0 und f 0 := (f − f1 ) · Ω\N ≥ 0. Es ist Damit können wir nach I.11.13 wie folgt vorgehen: 1 1 Z Z (fn − f1 ) dµ = | Ω \ N . Deniere nun fn0 % f 0 punktweise. Z (fn − f1 ) · 1Ω\N dµ + (fn − f1 ) · 1N dµ , {z } | {z } →I.11.13 =0 nach I.11.11 und im Grenzübergang dann: Z Z (f − f1 ) dµ = (f − f1 ) · 1Ω\N dµ + Z (f − f1 ) · 1N dµ | {z } =0 Damit ist der Satz bewiesen. Lemma I.11.14 Seien Lemma von Fatou fn : Ω → [0, ∞] messbar für Z n ≥ 1. Dann folgt Z lim inf fn dµ ≤ lim inf n→∞ Beachte: Beweis n→∞ fn ≥ 0 ist wirklich notwendig. : Deniere gn := inf m≥n fm fn dµ. mit f := lim inf n→∞ fn , das heiÿt f : Ω → [0, ∞]. Auÿerdem deniere gn : Ω → [0, ∞]. Es ist 0 ≤ gn % f und aus dem Satz von Beppo Levi folgt damit Z Z f dµ = lim gn dµ Beppo Levi n→∞ = Z lim gn ≤ fm für alle m ≥ n und damit Z Z gn dµ ≤ fm dµ ≤ inf fm dµ. Ferner gilt Z gn dµ. n→∞ folgt dann m≥n Setzt man dies zusammen, so folgt die Behauptung. - 52 / 145 - Ingo Bürk Kapitel I.11 Integration Korollar I.11.15 (An ) ⊂ A und ein Wahrscheinlichkeitsmaÿ P P lim inf An ≤ lim inf P (An ) n→∞ n→∞ lim sup P (An ) ≤ P lim sup An . Für n→∞ Beweis Seite 53 gilt: n→∞ : Wende das Lemma von Fatou auf fn := 1An ≥ 0 und lim inf 1An = 1lim inf An an, daraus folgt die erste Behauptung. Die zweite Behauptung folgt dann aus der Bildung von Komplementen. Satz I.11.16 Satz von der majorisierten Konvergenz (Lebesgue) fn : Ω → [−∞, ∞] messbar (n ≥ 1), f, g : Ω → [−∞, ∞] messbar, sowie fn → f und |fn | ≤ g für n ≥ 1. Ist g µ-integrierbar, so folgt, dass auch f µSeien integrierbar ist und es gilt Z Z lim fn dµ = Beweis : Aus Z f dµ = lim |fn | ≤ g folgt, dass fn dµ |f | ≤ g ist und damit die µ-Integrierbarkeit von f. −f ≤ g und daraus folgt 0 ≤ f + g . Damit ist dann Z Z f dµ = (f + g) dµ = lim (fn + g) dµ n→∞ Z = lim inf (fn + g) dµ n→∞ Z Z Z Fatou ≤ lim inf (fn + g) dµ = lim inf fn dµ + g dµ Auÿerdem ist dann auch Z Z g dµ + n→∞ Subtrahiert man das Integral über Z n→∞ g auf beiden Seiten, so folgt dann Z f dµ ≤ lim inf n→∞ fn dµ. - 53 / 145 - Ingo Bürk Kapitel I.11 Integration Analog für die andere Richtung folgt aus Es ist |fn | ≤ g , lim inf −fn = − lim sup fn . Damit ist dann Z Z − f dµ ≤ − lim sup fn dµ Z Z ⇒ lim sup fn dµ ≤ f dµ. dass f ≤g 0 ≤ g − f. wie eben schon Die Behauptung folgt dann durch Zusammensetzen und Satz I.11.17 ist und damit Seite 54 lim inf ≤ lim sup. Satz von Tonelli (Ωi , Ai , µi ) für i = 1, 2 σ -endliche Maÿräume und f : Ω1 × Ω2 → [0, ∞] (A1 ⊗ A2 , B([0, ∞]))-messbar. Dann sind die Funktionen Z ω1 7→ f (ω1 , ω2 ) dµ2 (ω2 ) Ω2 Z ω2 7→ f (ω1 , ω2 ) dµ1 (ω1 ) Seien sei Ω1 messbar und es gilt Z Z Z f d (µ1 ⊗ µ2 ) = f (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 ) Ω1 Z Ω2 Z = f (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ). Ω2 Beweis Ω1 : Der Beweis ndet sich in Meintrup+Schäer als Satz 2.24 oder in Klenke als Satz 14.16. Satz I.11.18 Satz von Fubini (Ωi , Ai , µi ) für i = 1, 2 σ -endliche Maÿräume (µ1 ⊗ µ2 )-integrierbar. Dann sind die Funktionen Z ω1 7→ f (ω1 , ω2 ) dµ2 (ω2 ) Ω2 Z ω2 7→ f (ω1 , ω2 ) dµ1 (ω1 ) Seien und f : Ω1 × Ω2 → R sei Ω1 - 54 / 145 - Ingo Bürk Kapitel I.11 Integration Seite 55 ebenfalls integrierbar und es gilt Z Z Z f d (µ1 ⊗ µ2 ) = f (ω1 , ω2 ) dµ2 (ω2 ) dµ1 (ω1 ) Ω1 Z Ω2 Z = f (ω1 , ω2 ) dµ1 (ω1 ) dµ2 (ω2 ). Ω2 Beweis Ω1 : Die Beweise nden sich wie beim Satz I.11.17 in Meintrup+Schäer als Satz 2.24 und in Klenke als Satz 14.16, da die beiden Sätze dort jeweils zusammen bewiesen werden. Satz I.11.19 Sei (Ω, A, µ) ein σ -endlicher Maÿraum Z Z f dµ = µ ({f > t}) dt [0,∞) Z = µ ({f ≥ t}) dt. und f : Ω → [0, ∞) messbar. Dann gilt [0,∞) Insbesondere: Für ein Wahrscheinlichkeitsmaÿ f P = µ und eine Zufallsvariable X = gilt Z (1 − FX (t)) dt. EP X = [0,∞) Beweis F : Ω × [0, ∞) → R2 (ω, t) 7→ (f (ω), t). Nach I.9.16 ist diese 2 Funktion messbar. Auÿerdem ist die Menge H := {(x, y) ∈ R : x > y} messbar, da h : (x, y) 7→ x − y die Gleichung h−1 ({(0, ∞)}) = H erfüllt. Sei nun E := {(ω, t) ∈ Ω × [0, ∞) : f (ω) > t}. Es ist E = F −1 (H) und damit messbar. Nun ist Z Z Z Z Tonelli 1E (ω, t) dt dµ(ω) = 1E (ω, t) dµ(ω) dt Ω [0,∞) [0,∞) Ω Z Z = µ({f > t}) dt + 1E (ω, t) dµ(ω) = µ({f > t}), : Betrachte mit [0,∞) da Ω 1E (ω, t) = 1 ⇔ f (ω) > t. Ferner ist Z 1[0,f (ω)) (t) dt. f (ω) = f (ω) − 0 = λ([0, f (ω))) = [0,∞) - 55 / 145 - Ingo Bürk Kapitel I.11 Integration Seite 56 Damit folgt dann Z Z Z Z f (ω) dµ(ω) = 1[0,f (ω)) (t) dt dµ(ω) Ω [0,∞) Z Z 1E (ω, t) dt dµ(ω), = f dµ = Ω Ω Ω [0,∞) wobei die letzte Gleichung wegen analog durch, indem man Satz I.11.20 1[0,f (ω)) (t) = 1E (ω, t) f (ω) ≥ t betrachtet und gilt. Den Fall ≥ f (ω) = λ([0, f (ω)]) t führt man benutzt. Transformationsformel (Ω, A, P ) ein Wahrscheinlichkeitsraum, (Ω0 , A0 ) ein Messraum, X : Ω → Ω0 eine 0 Zufallsvariable und f : Ω → [−∞, ∞] messbar. Dann sind die folgenden Aussagen Sei äquivalent: i) ii) f ist PX -integrierbar. f ◦X ist P -integrierbar. Ist eine der Bedingungen (und damit beide) erfüllt, so gilt Z Z f ◦ X dP = f dPX . Ω0 Ω Beweis : Zunächst betrachten wir die Indikatorfunktion f = 1A . Die Äquivalenz der Aussagen ist damit klar. Dann ist Z Z f ◦ X dP = Ω ZΩ = Ω0 1X −1 (A) dP = P (X −1 (A)) = PX (A) 1A dPX = Z f dPX . Ω0 Als zweiten Schritt betrachten wir Treppenfunktionen f = Pm 1 i=1 ci Ai . Hier folgt alles aus dem eben Bewiesenen und der Linearität von Integralen. 0 Im dritten Schritt sei f : Ω → [0, ∞) messbar. Wähle nun eine Folge 0 ≤ fn % f und fn ∈ E(A0 ). Daraus folgt sofort 0 ≤ fn ◦ X % f ◦ X und es gilt wieder fn ◦ X ∈ E(A). Es folgt Z f ◦ X dP Beppo Levi Z lim fn ◦ X dP Z 2. Schritt = lim fn dPX Z Beppo Levi = f dPX . = - 56 / 145 - Ingo Bürk Kapitel I.12 Dichten und der Satz von Radon-Nikodym Im vierten Schritt schlieÿlich sei f PX -integrierbar, dann zerlege Seite 57 f = f + − f −. Die Behauptungen folgen dann aus dem dritten Schritt und der Linearität. I.12. Dichten und der Satz von Radon-Nikodym Motivation: Die Konstruktion neuer Maÿe. Satz I.12.1 Sei (Ω, A, µ) f : Ω → [0, ∞] messbar. Dann ist ν : A → [0, ∞], 1A · f dµ (A ∈ A), ein Maÿ auf A. Für N ∈ A gilt ein Maÿraum und R ν(A) := µ(N ) = 0 ⇒ ν(N ) = 0 (∗). Die Funktion f heiÿt die Dichte von ν bezüglich µ. Ist ν σ -endlich, so ist f µ-fast R 0 sicher eindeutig, das heiÿt für f : Ω → [0, ∞] mit ν(A) = 1A · f 0 dµ (A ∈ A) dν 0 für die Dichte und sagen: Ein Maÿ ν folgt µ({f 6= f }) = 0. Wir schreiben f =: dµ R hat die Dichte f bezüglich µ genau dann, wenn ν(A) = 1A · f dµ gilt. Auÿerdem sagen wir, dass ein Maÿ ν absolut stetig bezüglich µ ist genau dann, wenn (∗) gilt. Wir schreiben dann ν µ. gegeben durch Beweis Setze : fn := ist klar. Für die σ -Additivität seien An ∈ A paarweise disjunkt. S∞ Ai f und A := i=1 Ai . Dann folgt 0 ≤ fn % A f . Ferner ist ν(∅) Pn = 0 i=1 ν(A) = 1 1 Z X ∞ 1Ai f dµ i=1 Beppo Levi = = lim Z lim n Z X n→∞ n→∞ | P {zi=1} | = = ∞ X ∞ i=1 fn dµ 1Ai f dµ {z =ν(Ai ) } ν(Ai ). i=1 Um (∗) zu zeigen gehen wir wie folgt vor: Es gilt 0}) = 0. 1N f ≥ 0. Aus µ(N ) = 0 folgt µ({1N f 6= Aus I.11.11 folgt dann Z 0= 1N f dµ = ν(N ). Zu beweisen ist noch die Eindeutigkeit. Darauf werden wir hier verzichten. - 57 / 145 - Ingo Bürk Kapitel I.12 Dichten und der Satz von Radon-Nikodym Frage: Wann hat ein Maÿ ν eine Dichte bezüglich Seite 58 µ? 1. Antwort: Nicht immer, zum Beispiel hat das Dirac-Maÿ ( 1 0∈A δ{0} (A) = 0 0∈ /A keine Dichte bezüglich dem Lebesgue-Maÿ, denn falls es eine Dichte gäbe, so würde aus λ({0}) = 0 folgen, dass auch Satz I.12.2 Seien µ δ{0} (A) = 0 ist, dies ist aber nicht der Fall. Satz von Radon-Nikodym und ν σ -endliche Maÿe auf einem Messraum (Ω, A). Dann sind die folgen- den Aussagen äquivalent: i) ii) ν µ. ν hat eine Dichte bezüglich Beweis µ. : Der Beweis ndet sich in Klenke als Satz 7.34 und in Meintrup+Schäer als Satz 2.38. Korollar I.12.3 (Ω, A) Sei ein Messraum und µ ein σ -endliches und ν ein endliches Maÿ auf A. Dann sind die folgenden Aussagen äquivalent: i) ii) ν µ. ∀ε > 0 ∃δ > 0 ∀A ∈ A : µ(A) ≤ δ ⇒ ν(A) ≤ ε. Beweis Satz I.12.4 (Ω, A) Sei f= i) ii) h : Der Beweis ndet sich in Meintrup+Schäer als Korollar 2.40. ein Messraum und µ, ν zwei σ -endliche Maÿe mit ν dν . Dann sind für h : Ω → R die folgenden Aussagen äquivalent: dµ ist h·f µ. Sei ferner ν -integrierbar. ist µ-integrierbar. - 58 / 145 - Ingo Bürk Kapitel I.12 Dichten und der Satz von Radon-Nikodym Seite 59 In diesem Fall gilt Z Z h dν = Beweis h · f dµ. : Der Beweis erfolgt wieder dadurch, dass man den Satz schrittweise für Indi- katorfunktionen, Treppenfunktionen, nicht-negative Funktionen und schlieÿlich für beliebige Funktionen beweist. Dabei werden Linearität, der Satz von Beppo Levi u.ä. benutzt. - 59 / 145 - Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Seite 60 II. Wahrscheinlichkeitstheorie II.1. Momente von Zufallsvariablen Definition II.1.1 p-fache µ-Integrierbarkeit Sei (Ω, A, µ) ein Maÿraum und p > 0. Dann heiÿt ein messbares f : Ω → R p-fach µ-integrierbar genau dann, wenn |f |p µ-integrierbar ist. Wir schreiben Lp (µ) := {f : Ω → R : f ist p-fach µ-integrierbar} und denieren 1 R p p . eine Norm kf kL (µ) = kf kp := |f | p Bemerkungen: • Minkowski-Ungleichung ( 4 -Ungleichung): Für kf + gkp ≤ kf kp + kgkp p≥1 gilt f, g ∈ Lp (µ). Der Beweis wird hier nicht geführt. • Bis auf kf kp für • = 0 ⇒ f = 0 erfüllt k·kp alle Eigenschaften einer Norm auf Lp (µ) p ≥ 1. r, p, q > 0 mit r−1 = p−1 + q −1 . f · g ∈ Lr (µ) ist und Hölder-Ungleichung: Seien Lp (µ) und g ∈ Lq (µ), dass Dann gilt für f ∈ kf · gkr ≤ kf kp · kgkq . Der Beweis wird hier nicht geführt. Lemma II.1.2 Ist (Ω, A, µ) ein endlicher Maÿraum und 0 < p < q < ∞, so gilt Lq (µ) ⊂ Lp (µ) und kf kp ≤ (µ(Ω)) Ist µ q−p pq · kf kq für f ∈ Lq (µ). ein Wahrscheinlichkeitsmaÿ, so ist insbesondere - 60 / 145 - kf kp ≤ kf kq . Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Beweis q −1 + 1 : Es sei g := Ω . Da p −1 s = p−1 ist, nämlich s = Seite 61 −1 ist gilt q < p−1 . Es existiert ein s > 0, so dass pq . Wir wenden nun die Hölder-Ungleichung an: q−p <q kf kp = kf gkp ≤ kgks · kf kq Z 1s s ≤ 1Ω dµ · kf kq 1 ≤ (µ(Ω)) s · kf kq ≤ (µ(Ω)) q−p pq · kf kq . Damit ist das Lemma bewiesen. Definition II.1.3 (zentriertes) k -tes Moment, Varianz, Streuung (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable, die P -integrierbar ist, dann heiÿen für k ∈ N Sei i) ii) EP X k das k -te EP (X − EP X) falls für ungerade k Moment, das k -te zentrierte Moment, k die Erwartungswerte existieren. Letzteres ist erfüllt, falls |X|k ∈ L1 (P ). 2 Für k = 2 und X ∈ L1 (P ) heiÿt VarP (X) := EP (X − EP X) p und σX := VarP (X) die Streuung von X . Beachte: i) ii) X VarP (X) < ∞ ⇔ (X − EX) ∈ L2 (P ) ⇔ X ∈ L2 (P ). Lemma II.1.4 Sei die Varianz von X ∈ L1 (P ). Dann gilt VarP (X) = EP X 2 − (EP X)2 . VarP (aX + b) = a2 VarP (X) für a, b ∈ R, wobei a 6= 0 für VarP (X) = ∞ sein muss. Beweis 1. Fall: : X ∈ L2 (P ). - 61 / 145 - Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Seite 62 i) Es ist VarP (X) = EP (X − EP X)2 = EP (X 2 − 2XEP X + (EP X)2 ) = EP X 2 − 2EP (XEP X) + EP (EP X)2 = EP X 2 − 2(EP X)(EP X) + (EP X)2 = EP X 2 − (EP X)2 . ii) Hier gilt VarP (aX + b) = EP (aX + b − EP (aX + b))2 EP b=b = EP (aX − EP (aX))2 = a2 EP (X − EP X)2 = a2 VarP (X). VarP (X) = ∞. 2. Fall: i) Auf beiden Seiten steht dann X ∈ / L2 (P ) ii) Aus folgt Seiten steht dann ∞. aX ∈ / L2 (P ) und damit auch aX + b ∈ / L2 (P ). Auf beiden ∞. Damit ist der Beweis vollständig. Lemma II.1.5 Es sei x2 1 ϕ(x) := √ e− 2 2π Dann gilt für i) ii) iii) R RR RR R ϕ k ∈ N0 : ϕ(x) · x2k+1 dλ(x) = 0 (es ist ϕ(x) · x2k+2 dx = (2k + 1) R R dλ(x) = dx). ϕ(x) · x2k dx. ϕ(x) dx = 1. Beweis i) x ∈ R. : ist achsensymmetrisch um 0. Durch die Multiplikation mit x2k+1 wird der Inte- grand zur ungeraden Funktion. - 62 / 145 - Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Seite 63 ii) Es ist Z ϕ(x) · x 2k R 2 dx = √ 2π Z ∞ x2 e− 2 x2k dx 0 ∞ Z ∞ 2k+1 2k+1 x2 x x2 x 2 2 − 2 = √ dx e (−x)e− 2 −√ 2k + 1 2k + 1 2π 2π 0 0 | {z } =0−0 Z ∞ 2k+2 x2 x 2 =√ dx e− 2 2k + 1 2π 0 Z 2k+2 x2 x 1 =√ dx. e− 2 2k + 1 2π R part.Int. Daraus folgt die Behauptung. iii) Der Beweis wird hier nicht geführt, da dieser etwas umfangreicher ist. Damit ist das Lemma bewiesen. Beispiel II.1.6: µ∈R Für und ϕµ,σ (x) = √ Normalverteilung σ>0 1 2πσ 2 sei e− (x−µ)2 2σ 2 x∈R Dann gilt mit Substitution und II.1.5 Z ϕµ,σ dλ = 1. R Das Wahrscheinlichkeitsmaÿ mit der Dichte ϕµ,σ bezüglich λ heiÿt Normalvertei- lung mit Parametern µ und σ . Wir schreiben für dieses Wahrscheinlichkeitsmaÿ N (µ, σ 2 ). N (0, 1) heiÿt Standardnormalverteilung. Sei (Ω, A, P ) i) E P X = µ. ein Wahrscheinlichkeitsraum und X : Ω 2 Zufallsvariable, das heiÿt PX = N (µ, σ ). Dann gilt ii) →R eine N (µ, σ 2 )-verteilte VarP (X) = σ 2 . Beweis : Wir leiten beide Eigenschaften getrennt her: - 63 / 145 - Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Seite 64 i) Es ist Z Z X dP = idR ◦X dP Z I.11.20 = idR dPX Z (x−µ)2 1 =√ xe− 2σ2 dx 2πσ 2 Z x2 1 =√ (x + µ)e− 2σ2 dx 2πσ 2 Z Z 2 2 1 − x2 − x2 =√ xe 2σ dx + µ e 2σ ddx 2πσ 2 ! Z Z x2 x2 1 =√ e− 2 dx xe− 2 dx +µ 2π | |√ {z } {z } EP X = =0 nach II.1.5 = 2π nach II.1.5 = µ. R f (t) = (t − µ)2 . Dann ist Z (x−µ)2 1 2 I.11.20 (x − µ)2 e− 2σ2 dx EP (X − EP X) = √ 2πµ 2 Z x2 Subst. σ = √ x2 e− 2 dx 2π 2 Z x2 II.1.3 σ = √ e− 2 dx 2π ii) Betrachte f ◦ X dP für II.1.3 = σ2. Es gilt zudem noch: Beweis : Es sei Y := σ1 (X − µ) f (t) := ist N (0, 1)-verteilt. t−µ . Es ist σ I.10.5 PY (A) = Pf ◦X (A) = (PX )f (A) 1 Z = N (µ, σ )(f (A)) = √ 1f −1 (A) (x)e− 2 2πσ 2 Z 1 x − µ − (x−µ) =√ 1A e 2σ2 dx σ 2πσ 2 Z x2 Subst. 1 1A (x)e− 2 dx = √ 2π = N (0, 1)(A). 2 −1 - 64 / 145 - (x−µ)2 2σ 2 dx Ingo Bürk Kapitel II.1 Momente von Zufallsvariablen Satz II.1.7 Seite 65 Markov'sche Ungleichung (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable, dass X ∈ Lq (P ) für q > 0. Dann gilt für alle t > 0 die folgende Ungleichung: Sei P ({|X| ≥ t}) ≤ EP |X|q . tq Die Ungleichung schätzt die Konvergenz von q=2 so P ({|X| ≥ t}) → 0 für t → ∞ ab. Für ergibt sich der Spezialfall der so genannten Tschebyscheff-Ungleichung. Beweis 1 1 ≤ |X|q . q q : Sei At := {ω ∈ Ω : |X(ω)| ≥ t} (t > 0). Dann folgt t At ≤ |X| At q q q Damit folgt t P (At ) = EP t At ≤ EP |X| . Damit folgt die Behauptung. 1 Satz II.1.8 Umkehrung (Ω, A, P ) ein dass es ein c > 0 Sei X ∈ Lq−ε (P ) Beweis Z X : Ω → R eine Zufallsvariable, P ({|X| ≥ t}) ≤ ct−q . Dann gilt Wahrscheinlichkeitsraum und und ein q>0 für alle ε>0 gibt mit mit so q − ε > 0. : Es ist q−ε |X| dP I.11.19 Z P ({|X|q−ε ≥ t}) dt = Z [0,∞) 1 P ({|X| ≥ t q−ε }) dt = Z[0,∞) Z q 1 dt + ct− q−ε dt ≤ [0,1] [1,∞) | {z } | {z } =1 <∞ < ∞. Damit ist der Satz bewiesen. - 65 / 145 - Ingo Bürk Kapitel II.2 Unabhängigkeit Seite 66 Lemma II.1.9 (Ω, A, P ) und (Ω0 , A0 , P 0 ) Wahrscheinlichkeitsräume und X : Ω → R, X 0 : Ω → R Zufallsvariablen, die identisch verteilt sind, das heiÿt PX = PX0 0 . Dann Seien 0 sind die folgenden Aussagen äquivalent: X ∈ Lq (P ). i) X 0 ∈ Lq (P 0 ). ii) In diesem Fall gilt Beweis EP X q = EP 0 (X 0 )q . : Es ist q Z EP |X| = q Trafo Z | idR ◦X| dP = Z q | idR | dPX = | idR |q dPX0 0 = . . . = EP 0 |X 0 |q . Damit ist das Lemma bewiesen. II.2. Unabhängigkeit Ω = {1, . . . , 6}2 und P sei die Gleichverteilung. Betrachte nun die Wahrscheinlichkeiten P (1. Wurf = 1 . Hier gilt also 6) = 16 , P (2. Wurf = 6) = 16 und P (1. und 2. Wurf = 6) = 36 Beispiel: Wir führen ein 2-maliges Werfen eines Würfels durch. Es ist P (1. und 2. Wurf = 6) = 1 1 1 = · = P (1. 36 6 6 Wurf = 6) · P (2. Wurf = 6). Diese Eigenschaft bezüglich und und dem Produkt ist etwa das, was wir von der Unabhängigkeit erwarten. Beispiel: Sei A von B (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A mit P (B) > 0. Falls unabhängig wäre, so sollte gelten P (A|B) = P (A) P (A ∩ B) , = P (B) also P (A ∩ B) = P (A) · P (B). Definition II.2.1 Sei (Stochastische) Unabhängigkeit (Ω, A, P ) ein Wahrscheinlichkeitsraum. Eine Familie (Ai )i∈I (I 6= ∅) mit Ai ∈ A - 66 / 145 - Ingo Bürk Kapitel II.2 Unabhängigkeit heiÿt stochastisch unabhängig genau dann, wenn für alle J 6= ∅ J ⊂I mit J Seite 67 endlich und gilt: ! P \ Aj = j∈J Y P (Aj ). j∈J Anstatt stochastisch unabhängig werden wir oft einfach nur unabhängig schreiben. Bemerkungen: • Die Denition verallgemeinert den intuitiven Unabhängigkeits-Begri von zwei auf beliebig viele Ereignisse. • Physikalische Unabhängigkeit ist nicht das Gleiche wie stochastische Unabhängigkeit. • (Ai )i∈I unabhängig ist äquivalent dazu, dass jede endliche Teilfamilie (Aj )j∈J un- abhängig ist. • Paarweise Unabhängigkeit bedeutet nicht Unabhängigkeit. Betrachte zum Beispiel das 2-malige Würfeln wie oben. Es sei Ai := (ω1 , ω2 ) : ωi ∈ {1, 3, 5} i = 1, 2, B := (ω1 , ω2 ) : ω1 + ω2 ungerade . Dann sind A1 , A2 und B paarweise unabhängig, nicht jedoch insgesamt unabhän- gig. Es ist P (Ai ) = P (B) = P (A1 ∩ A2 ) = P (A1 ∩ B) = P (A2 ∩ B) = Aber insgesamt gilt 1 i = 1, 2 2 1 2 1 = P (A1 ) · P (A2 ) 4 1 = P (A1 ) · P (B) 4 1 = P (A2 ) · P (B). 4 P (A1 ∩ A2 ∩ B) = P (∅) = 0 6= - 67 / 145 - 1 8 = P (A1 ) · P (A2 ) · P (B). Ingo Bürk Kapitel II.2 Unabhängigkeit Definition II.2.2 Seite 68 (Stochastische) Unabhängigkeit (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ci )i∈I eine Familie von Mengensystemen Ci ⊂ A. Dann heiÿt (Ci )i∈I stochastisch unabhängig genau dann, wenn alle Familien (Ai )i∈I mit Ai ∈ Ci für alle i ∈ I stochastisch unabhängig sind (vgl. Sei II.2.1). Definition II.2.3 Unabhängige Zufallsvariablen (Ω, A, P ) ein Wahrscheinlichkeitsraum und seien (Ωi , Ai ) für i ∈ I Messräume, Xi : Ω → Ωi für i ∈ I Zufallsvariablen. Dann heiÿt (Xi )i∈I unabhängig genau dann, wenn die Familie (σ(Xi ))i∈I unabhängig ist, das heiÿt also, dass für alle endlichen ∅ = 6 J ⊂ I und alle Aj ∈ Aj mit j ∈ J gilt: ! Y \ P P Xj−1 (Aj ) (∗). Xj−1 (Aj ) = Sei sowie j∈J j∈J Bemerkungen: • (Xi )i∈I ist unabhängig genau dann, wenn jede Kombination von messbaren Aus- gängen der Zufallsvariablen unabhängig ist. • Sei ∅= 6 J ⊂I endlich. Dann folgt für X := (Xj )j∈J , dass X wieder eine Zufallsva- riable ist. Auÿerdem gilt PX ×A ! j ! I.10 = P j∈J \ Xj−1 (Aj ) (∗) = Y P Xj−1 (Aj ) j∈J j∈J O Def. Y PXj PXj (Aj ) = = j∈J ×A ! j . j∈J j∈J Satz II.2.4 (Ωi , Ai ) Messräume, (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → Ωi Zufallsvariablen für i ∈ N =: I . Ferner sei X := (Xi )i∈N . Dann sind die folgenden Seien Aussagen äquivalent: i) (Xi )i∈N sind unabhängig. - 68 / 145 - Ingo Bürk Kapitel II.2 ii) PX = Unabhängigkeit N∞ i=1 Seite 69 PXi . Beweis : Wir benutzen die Rechnung aus der obigen Bemerkung, sowie die Tatsache, N∞ dass diese Rechnung auf einem ∩-stabilen Erzeugendensystem von i=1 Ai gilt. Auÿerdem benötigen wir noch die Aussage von I.5.3. Satz II.2.5 Kanonisches Modell (Ωi , Ai , Pi ) Wahrscheinlichkeitsräume N∞ N∞ für i ∈ N. Wir denieren ∞ Ω := ×i=1 Ωi , A := i=1 Ai , P := i=1 Pi und die i-te Projektion πi : Ω → Ωi mit (ωi )i∈N 7→ ωi . Dann gilt: Seien i) ii) iii) πi sind Ωi -unabhängige P π i = Pi (πi )i≥1 für alle Zufallsvariablen für alle i ∈ N. i ∈ N. ist unabhängig. Kurzfassung des Satzes: Zu vorgegebenen Verteilungen Folge unabhängiger Zufallsvariablen Beweis Xi mit der Eigenschaft Pi nden PXi = Pi . wir immer eine : i) Klar. ii) Siehe Bemerkung nach I.10.8. iii) Es ist mit II.2.4: P(πi )i∈N = PidΩ = P = ∞ O Pi = i=1 ∞ O P πi . i=1 Damit ist der Satz bewiesen. Definition II.2.6 Unabhängig und identisch verteilt (Xi )i∈I von Zufallsvariablen heiÿt unabhängig und identisch verteilt = independent, identically distributed) genau dann, wenn (Xi )i∈I und PXi = PXj für i, j ∈ I gilt. Es ist also wirklich nur die Zusam- Eine Familie (kurz: i.i.d. unabhängig menfassung beider bereits bekannten Begrie. - 69 / 145 - Ingo Bürk Kapitel II.2 Unabhängigkeit Seite 70 Satz II.2.7 (Ω, A, P ) ein Wahrscheinlichkeitsraum und seien (Ωi , Ai ) und (Ω0i , A0i ) Messräu0 me für i ∈ I . Ferner seien Xi : Ω → Ωi Zufallsvariablen und gi : Ωi → Ωi messbare Abbildungen. Ist (Xi )i∈I unabhängig, so folgt, dass auch (gi ◦ Xi )i∈I unabhängig Sei ist. Beweis : Sei J ⊂I endlich und A0j ∈ A0j . Dann ist ! ! P \ {gj ◦ Xj ∈ A0j } =P j∈J \ {Xj ∈ gj−1 (A0j )} {z } | j∈J ∈σ(Xj ) = Y Y P {Xj ∈ gj−1 (A0j )} = P {gj ◦ Xj ∈ A0j } . j∈J j∈J Damit ist der Satz bewiesen. Satz II.2.8 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, Ci ⊂ Ai ein ∩-stabiles σ(Ci ) = Ai für alle i ∈ I , und gilt ferner Aj ∈ Cj die Gleichung ! \ Y P Xj−1 (Aj ) = P Xj−1 (Aj ) , Zufallsvariablen. Ist j∈J (Ωi , Ai ) Messräume und Erzeugendensystem von für alle endlichen J ⊂ I Xi : Ω → Ω i Ai , das heiÿt und für alle j∈J so folgt, dass (Xi )i∈I unabhängig ist. Kurzfassung des Satzes: Es reicht, Unabhängigkeit auf ∩-stabilen Erzeugendensys- temen zu überprüfen. Beweis : Der Beweis ndet sich in Klenke als Satz 2.16 bzw. 2.13 und in Mein- trup+Schäer als Satz 5.9. Die Grundidee des Beweises ist die, dass man die Eindeutigkeit von Maÿen auf ∩-stabilen Bemerkung: Satz II.2.8 gilt auch für densysteme Ci ⊂ A i , so dass Erzeugendensystemen verwendet. (Ci )i∈I σ -Algebren, das heiÿt für ∩-stabile Erzeugen- unabhängig ist, gilt, dass dann bereits (Ai )i∈I unabhängig ist. Der Beweis funktioniert völlig analog. - 70 / 145 - Ingo Bürk Kapitel II.2 Unabhängigkeit Satz II.2.9 (Ω, A, P ) Sei ein Wahrscheinlichkeitsraum und Xi : Ω → Ω i Seite 71 eine Folge von mess- S i ∈ I = k∈K Ik paarweise disjunkt mit K beliebig. Es Yk := (Xi )i∈Ik : Ω → ×i∈Ik Ωi . Ist die Familie (Xi )i∈I unabhängig, so folgt, dass auch (Yk )k∈K unabhängig ist. baren Zufallsvariablen für sei Beweis : Für k∈K deniere ( ) \ Ck := Ai : Ai ∈ Ai und #{i ∈ Ik : Ai 6= Ωi } endlich . i∈Ik Ck Die ∩-stabil und es gilt σ(Ck ) = σ(Yk ). Mit II.2.8 für σ -Algebren reicht es die Ck nachzuweisen. Dazu sei o.B.d.A. |K| < ∞. Sei Bk ∈ Ck für k ∈ K T S Jk ⊂ Ik endlich mit Bk = j∈Jk Aj für geeignete Aj ∈ σ(Xj ). Es ist J = k∈K Jk sind Unabhängigkeit der und endlich, damit folgt ! P \ Bk ! =P \ Aj = Y Y P (Aj ) = P (Aj ) k∈K j∈Jk j∈J j∈J k∈K Y ! = Y P k∈K \ = Aj j∈Jk Y P (Bk ). k∈K Damit ist der Satz bewiesen. Satz II.2.10 (Ω, A, P ) Sei variablen mit Xi : Ω → R unabhängige ZufallsQn i ∈ {1, . . . , n}. Dann gilt i=1 Xi ∈ L1 (P ) ein Wahrscheinlichkeitsraum und Xi ∈ L1 (P ) für alle und EP (X1 · . . . · Xn ) = EP (X1 ) · . . . · EP (Xn ). Bemerkung: • Für unabhängige Zufallsvariablen ist • Der Satz ist gewissermaÿen eine Verschärfung der Hölder-Ungleichung. - 71 E / also verträglich mit der Produktbildung. 145 - Ingo Bürk Kapitel II.2 Beweis Unabhängigkeit : Wir führen hier wieder die Schritte 1. bis 4. wie in der Integralkonstruktion durch. 1. Sei Xi = 1Ai . Dann folgt, dass (Ai )ni=1 Seite 72 unabhängig ist und 1Tj∈J Aj = Q j∈J 1Aj . Dann ist ! EP Y \ Xj = P j∈J Aj Y = j∈J P (Aj ) = j∈J Y EP (Xj ). j∈J 2. Wir verwenden, dass die linke und rechte Seite jeweils linear in jeder Komponente sind (Tensorprodukteigenschaft). 3. Dies folgt mittels Monotonie. 4. Dies führt man durch f = f + − f − auf 3. zurück. Damit ist der Satz bewiesen. Satz II.2.11 Satz von Bienaymé (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R Zufallsvariablen mit Xi ∈ L1 (P ) für alle i ∈ {1, . . . , n}, die paarweise unkorreliert sind, das heiÿt es gilt EP (Xi · Xj ) = EP (Xi ) · EP (Xj ) für alle i 6= j . Dann folgt ! n n X X VarP Xi = VarP (Xi ). Sei i=1 i=1 Bemerkung: Sind die Xi paarweise unabhängig, so folgt, dass sie paarweise unkorreliert sind. Die Umkehrung gilt im Allgemeinen jedoch nicht. Beweis Yi := Xi − EP Xi . Damit ist Var Xi = Var Yi , da EP Xi konstant 2 2 auÿerdem VarP (X) = EP (X ) − (EP X) für eine Zufallsvariable X . : Deniere ist. Nach II.2.4 ist Analog gilt dann VarP n X ! Xi n X = VarP i=1 VarP Yi i=1 EP Yi = 0. ! und ferner ist dann n X ! Yi II.2.4 = EP i=1 Damit folgt dann n X !2 Yi n X n X = EP i=1 = EP n X = EP Yi Yj j=1 i=1 ! Yi Yi ! + EP i=1 n X ! X Yi Yj i6=j ! Yi2 ! X + EP i=1 Yi Yj . i6=j - 72 / 145 - Ingo Bürk Kapitel II.2 Unabhängigkeit Seite 73 Auÿerdem gilt aber EP (Yi Yj ) = EP (Xi − EP Xi )EP (Xj − EP Xj ) = EP Xi Xj −2EP Xi EP Xj + EP Xi Xj | {z } | {z } =EP Xi EP Xj =EP Xi EP Xj = 0. Damit folgt dann schlieÿlich n X VarP ! Yi = n X i=1 EP Yi2 = i=1 n X VarP (Yi ). i=1 Damit ist der Satz bewiesen. Beispiel II.2.12: Binomialverteilung revisited Erinnerung: In Beispiel I.3.5 haben wir das n-malige Werfen einer unfairen Münze untersucht. Wir kodieren Kopf mit 0 und Zahl mit 1. Es sei Wkeit(Zahl ) = p ∈ [0, 1] fest. Wir wählen Ω = {0,P1}n und A = P(Ω). Dann ist P ({ω}) = pk (1 − p)n−k n für ω ∈ Ω. Dabei ist k := i=1 ωi die Anzahl, wie oft Zahl vorkommt. Dies hatten wir in I.3.5 heuristisch hergeleitet. Als kleinen Einschub erinnern wir uns daran, dass II.2.5 sagt, dass man zu einer Pi vorgegebenen Verteilung so dass Pπ i = Pi immer eine Folge von Zufallsvariablen πi nden kann, gilt. Jetzt: • Ein Einzelexperiment • Beim Ωi = {0, 1} Pi ({1}) = p mit und Pi ({0}) = 1 − p. × n n unabhängigen Wiederholen ist Ω = i=1 {0, 1} = {0, 1} mit Nn dem Produktmaÿ P = i=1 Pi , um die Unabhängigkeit der Einzelexperimente πi n-maligen, P (Projektionen) zu sichern. Für dieses P ({ω}) = n O Pi ({ωi }) = i=1 k k , Xi = B(n, p)-verteilt EX = E n X i=1 = n X B(n, p) = Nn Beispiel i=1 B(1, p). In P n πi (i-te Projektion) gesehen, dass für X = i=1 Xi wie oben deniert ist. Kurz: Es ist I.10.4 haben wir für dieses Pi ({ωi }) i=1 n−k = p (1 − p) wobei n Y gilt ist. Ferner gilt ! Xi = n X EXi i=1 (0 · (1 − p) + 1 · p) = np i=1 - 73 / 145 - Ingo Bürk Kapitel II.3 Erzeugende Funktionen Seite 74 EXi2 = 02 (1 − p) + 12 p = p: ! n n n X X II.1.4 X Var X = Var Xi = Var(Xi ) = EXi2 − (EXi )2 und mit i=1 = n X i=1 i=1 (p − p2 ) = np(1 − p). i=1 Da Zufallsvariablen, welche die selbe Verteilung haben, auch die gleichen Momente haben, folgt, dass für B(n, p)-verteilte Zufallsvariablen X gilt: EX = np und Var X = np(1 − p). • B(ni , p)-verteilte Zufallsvariablen Xi (mit i ∈ {1, 2}) und (X1 , X2 ) unabhängig zeigen, dass X1 + X2 nun B(n1 + n2 , p)-verteilt ist. Auch dies n1 n2 funktioniert über das kanonische Modell II.2.5 mit X1 = (πi )i=1 und X2 = (πi )i=1 . Pn1 +n2 Dann ist X1 + X2 = πi , und dies ist B(n1 + n2 , p)-verteilt. i=1 Analog kann man für II.3. Erzeugende Funktionen Motivation: Identiziere bestimmte Maÿe mit Funktionen, da diese (hoentlich) einfach zu verstehen sind. Definition II.3.1 Sei P Erzeugende Funktion ein Wahrscheinlichkeitsmaÿ auf Zähldichte von gegeben durch (R, B) mit P (N0 ) = 1 und (pk )k≥0 sei eine g : [0, 1] → [0, 1] P (pk =PP ({k}), k ≥ 0). Dann heiÿt die Funktion k g(s) := ∞ k=0 pk s (für s ∈ [0, 1]) eine erzeugende Funktion. Bemerkung: • Die Potenzreihe in der Denition konvergiert absolut und gleichmäÿig, m ≥ n gilt: m X pk sk da für k=n+1 Daraus folgt, dass ∞ m m m X X X k k = sup pk s ≤ sup pk |s| ≤ p k · 1 ≤ ε. s∈[0,1] s∈[0,1] k=n+1 Pn k=0 pk s k k=n+1 k=n+1 eine Cauchyfolge bezüglich n≥1 k·k∞ Pn und punktwei- k k=0 pk s existiert und mittels Wiederholung der obigen Rechnung folgt dann die gleichmäÿige und se absolut konvergent ist. Dann sehen wir noch, dass limn→∞ absolute Konvergenz. • Es gibt eine analoge Denition für • Es gibt eine analoge Denition für reelle Zufallsvariablen - s ∈ {z ∈ C : |z| < 1}. 74 / 145 - X mit PX (N0 ) = 1. Ingo Bürk Kapitel II.3 Erzeugende Funktionen Beispiel II.3.2: Und nocheinmal Die Binomialverteilung B(n, p) g(s) = (ps + 1 − p)n Beweis Seite 75 B(n, p) hat die Erzeugendenfunktion s ∈ [0, 1]. : Es ist n n X X n k n n−k k g(s) = p (1 − p) s = (ps)k (1 − p)n−k k k k=0 k=0 = (ps + 1 − p)n mit dem binomischen Lehrsatz. Es ist also wirklich die Erzeugendenfunktion. Beispiel II.3.3: Für λ ∈ (0, ∞) Poissonverteilung hat die Poissonverteilung g(s) = e−λ(1−s) Beweis Pois(λ) die Erzeugendenfunktion s ∈ [0, 1]. : Es ist g(s) = ∞ X −λ λ k k e s =e k! k=0 | {z } −λ ∞ X (λs)k k=0 k! = e−λ eλs . pk Dies ist gerade die behauptete Funktion. Satz II.3.4 Seien P und P0 zwei Wahrscheinlichkeitsmaÿe auf R Stimmen die Erzeugendenfunktionen überein, das heiÿt s ∈ [0, 1], so gilt auch P = P 0 . Beweis g = g0 P = P 0. : Für folgt auch ist aus Eindeutigkeitsgründen auch P (N0 ) = P 0 (N0 ) = 1. 0 gilt g(s) = g (s) für alle mit pk = p0k für alle k ≥ 0. Damit Bemerkung: Wir haben damit eine Bijektion zwischen auf (d.h. N0 konzentrierten Maÿen P (N0 ) = 1) und Erzeugendenfunktionen, da jede auf [0, 1] konvergente Taylorreihe eine solche Verteilung erzeugt. - 75 / 145 - Ingo Bürk Kapitel II.3 Erzeugende Funktionen Lemma II.3.5 Sei (Ω, A, P ) Seite 76 X : Ω → R eine Zufallsvariable, heiÿt PX (N0 ) = 1). Dann gilt für die ein Wahrscheinlichkeitsraum und deren Verteilung auf N0 konzentriert g von X : ist (das Erzeugendenfunktion g(s) = EP sX Beweis (Ω, A, P ) gendenfunktion g X : Ω → R eine Zufallsvariable, heiÿt PX (N0 ) = 1). Für die Erzeu- ein Wahrscheinlichkeitsraum und deren Verteilung auf i) : Der Beweis wird hier nicht geführt. Satz II.3.6 Sei s ∈ [0, 1]. g N0 X von konzentriert ist (das gilt: ist unendlich oft dierenzierbar mit g (j) (1− ) = lim g (j) (s) = EP (X · (X − 1) · . . . · (X − j + 1)) . s%1 Insbesondere gilt ii) Falls Beweis EP X < ∞ EP X = lims%1 g 0 (s) = g 0 (1− ). gilt, so folgt VarP (X) = g 00 (1− ) + g 0 (1− ) − (g 0 (1− ))2 . : Betrachte die beiden zu beweisenden Eigenschaften: i) Dass die Funktion unendlich oft dierenzierbar ist weiÿ man aus der Analysis. Dort wird insbesondere gezeigt, dass man gliedweise dierenzieren darf. Damit ist dann (j) g (s) = ∞ X bk · k · (k − 1) · . . . · (k − j + 1)sk−j s ∈ [0, 1]. k=j sn % 1, k ≥ 0 fest und fn (k) := bk · k · (k − 1) · . . . · (k − j + 1) · sk−j n Grenzwert fn (k) % bk · k · (k − 1) · . . . · (k − j + 1) = f (k). Ferner ist Damit gilt für der ∞ X Z fn (k) = fn d#, k=j - 76 / 145 - Ingo Bürk Kapitel II.3 Erzeugende Funktionen # das Zählmaÿ auf {j, j + 1, . . .} ist. Mit dem Satz von Beppo wobei Seite 77 Levi I.11.13 folgt dann lim g (j) (sn ) = n→∞ ∞ X bk · k · (k − 1) · . . . · (k − j + 1) k=j = EP (X · (X − 1) · . . . · (X − j + 1)) . ii) Für die Varianz gilt nach II.1.4 die Formel VarP (X) = EP X 2 − (EP X)2 . Damit ist dann VarP (X) = EP X 2 − (EP X)2 = EP (X(X − 1)) + EP X − (EP X)2 1. = g 00 (1− ) + g 0 (1− ) − (g 0 (1− ))2 . Damit ist der Beweis vollständig. Satz II.3.7 Seien X1 , . . . , X n unabhängige Zufallsvariablen, deren Verteilungen auf triert sind. Es seien N0 g1 , . . . , gn die zugehörigen Erzeugendenfunktionen. g von X := X1 + . . . + Xn gegeben durch konzen- Dann ist die Erzeugendenfunktion g= n Y gi . i=1 Beweis : Es ist II.3.5 X g(s) = EP s = EP s X1 +...+Xn = EP n Y sXi . i=1 Nun sind die Zufallsvariablen EP n Y s Xi II.2.10 = i=1 II.3.5 = n Y sX1 , . . . , sXn unabhängig wegen II.2.7. Daher ist EP sXi i=1 n Y gi (s) i=1 und der Beweis ist damit vollständig. - 77 / 145 - Ingo Bürk Kapitel II.4 Charakteristische Funktionen Seite 78 II.4. Charakteristische Funktionen Motivation: Erzeugendenfunktionen identizieren Wahrscheinlichkeitsmaÿe mit P (N0 ) = 1 mit Funktionen. Jetzt wollen wir allgemeinere Maÿe auf Notation: Ist Im f f: R → C der Imaginärteil von heiÿt Definition II.4.1 µ betrachten. Re f der Real- bzw. f . Zu beachten ist, dass dies reellwertige Funktionen sind, das Re f, Im f : C → R. Entsprechend sind Integrale Z Z Z f dµ := Re f dµ + i · Im f dµ. Ferner sei wie üblich für Sei eine komplexwertige Funktion, dann sei R z = x + iy ∈ C folgendermaÿen zu verstehen: das komplexe Konjugat z = x − iy . Charakteristische Funktion ein Wahrscheinlichkeitsmaÿ auf R, dann heiÿt die Funktion ϕ: R → C gege- ben durch Z ϕ(t) = eitx dµ(x) t∈R R die charakteristische Funktion. Analog: Sei X: Ω → R Z ϕ(t) = itx e eine Zufallsvariable mit dem Bildmaÿ Z dPX (x) = PX = µ . Dann ist eitX dP = EP eitX . R Lemma II.4.2 Sei µ ein Wahrscheinlichkeitsmaÿ ϕ von µ: auf R. Dann gilt für die charakteristische Funk- tion i) ii) ϕ(t) ist für alle |ϕ(t)| ≤ 1 t∈R für alle iii) ϕ iv) ϕ(−t) = ϕ(t) deniert. t ∈ R. ist gleichmäÿig stetig. für alle t ∈ R. - 78 / 145 - Ingo Bürk Kapitel II.4 Beweis Charakteristische Funktionen : Betrachte die einzelnen Aussagen: t, x ∈ R gilt |eitx | ≤ 1. Damit folgt (x 7→ eitx ) ∈ L1 (µ) dass ϕ(t) deniert ist, da das Integral deniert ist. i) Für ii) Dies folgt ebenfalls aus iii) Für Seite 79 t, h ∈ R und daraus wiederum, |eitx | ≤ 1. gilt Z Z i(t+h)x itx |ϕ(t + h) − ϕ(t)| = e dµ(x) − e dµ(x) Z itx ihx = e − 1 |{z} e dµ(x) |·|≤1 Z ≤ eihx → 1 Dann gilt δ > 0, ihx e − 1 · 1 dµ(x). h → 0. Damit folgt ihx dann also für alle ε > 0 existiert ein h ∈ (−δ, δ) gilt: e − 1 < ε. Für solche h ∈ (−δ, δ) folgt für so dass für alle mit obiger Rechnung Z |ϕ(t + h) − ϕ(t)| ≤ Also ist ϕ ihx e − 1 dµ(x) ≤ Z ε dµ(x) = ε. gleichmäÿig stetig. ez = ez : Z Z −itx e dµ(x) = eitx dµ(x) ϕ(−t) = R Z Z itx = Re e dµ(x) − i · Im eitx dµ(x) Z = eitx dµ(x) = ϕ(t). iv) Es gilt wegen Damit ist das Lemma bewiesen. Satz II.4.3 Für a ∈ R und σ > 0 ist die charakteristische Funktion von N (a, σ 2 ) gegeben durch ϕ(t) = eiat · e− σ 2 t2 2 t ∈ R. Insbesondere gilt für die Standardnormalverteilung t2 ϕ(t) = e− 2 N (0, 1) die Formel t ∈ R. - 79 / 145 - Ingo Bürk Kapitel II.4 Beweis Charakteristische Funktionen Seite 80 : Der Beweis wird hier nicht geführt, da er Methoden der Funktionentheorie oder fortgeschrittenes Wissen über charakteristische Funktionen benötigt. Beispiel II.4.4: Exponentialverteilung λ ∈ (0, ∞) fest betrachte ( 0 x<0 f (x) := . −λx λe x≥0 Für Es gilt R f (x) dx = 1. Das Maÿ bezüglich der Lebesguedichte alverteilung mit Parameter Ist (Ω, A, P ) λ. exp(λ). X: Ω → R f heiÿt Exponenti- Wir schreiben dafür ein Wahrscheinlichkeitsraum und eine exp(λ)-verteilte Zufallsvariable, dann gilt i) Gedächtnislosigkeit: P ({X > t + s} | {X > s}) = P ({X > t}). ii) EP X = 1 und λ VarP X = 1 . λ2 iii) Die charakteristische Funktion ist ϕ(t) = Beweis λ λ − it t ∈ R. : i) Der Beweis wird hier nicht geführt. ii) Der Beweis wird hier nicht geführt. iii) Es ist Z ∞ ϕ(t) = itx −λx e λe Z ∞ e−(λ−it)x dx dx = λ 0 0 λ . = λ − it Damit ist der Beweis vollständig. Bemerkung: Ist eine reelle gedächtnislose Zufallsvariable, so folgt, dass ein geeignetes auch X λ>0 Frage: Ist die Abbildung exp(λ)-verteilt X für ist. µ 7→ ϕµ , die einem Maÿ die zugehörige charakteristische Funk- tion zuordnet, injektiv? Die Antwort auf diese Frage lautet Ja, wie wir im folgenden Satz sehen werden: - 80 / 145 - Ingo Bürk Kapitel II.4 Charakteristische Funktionen Satz II.4.5 Sind µ Seite 81 Eindeutigkeitssatz ν und zwei Wahrscheinlichkeitsmaÿe auf R, so dass für die zugehörigen charakteristischen Funktionen ϕµ und ϕν gilt, dass ϕµ = ϕν ist, so folgt, dass auch µ = ν ist. Ist ferner F die Verteilungsfunktion von µ und sind a < b Stetigkeitsstellen von F , so gilt 1 µ((a, b]) = F (b) − F (a) = lim s→∞ 2π Beweis : Es genügt die Gleichung Z s −s e−ita − e−itb ϕ(t) dt it (∗). (∗) zu beweisen. Dazu benutzen wir die so genannte Dirichlet-Formel: 1 lim A→−∞ π B Z A B→∞ sin v dv = 1 v (∗∗). Diese Formel wird hier nicht bewiesen, da der Beweis Elemente der Funktionentheorie benötigt. Ferner benötigen wir die Gleichung e −ita −e −itb Z b x=a = it e−itx dx −itx =e x=b (∗ ∗ ∗ ). a Dann folgt: s e−ita − e−itb ϕ(t) dt it −s Z s Z ∞ −ita 1 e − e−itb itx Def. v. ϕ = lim e dµ(x) dt s→∞ 2π −s it −∞ Z s Z ∞ Z b 1 (∗ ∗ ∗) = lim e|−ity+itx dy dµ(x) dt {z } s→∞ 2π −s −∞ a messbar u. beschränkt Z ∞ Z b Z s 1 I.11.18 eit(x−y) dt dy dµ(x) = lim s→∞ 2π −∞ a −s Z ∞ Z b is(x−y) 1 e − e−is(x−y) = lim dy dµ(x) s→∞ 2π −∞ i(x − y) a 1 lim s→∞ 2π Z - 81 / 145 - Ingo Bürk Kapitel II.4 Charakteristische Funktionen eiz = cos(z) + i sin(z) − sin(−z) folgt Mit ∞ und den Eigenschaften cos(z) = cos(−z) und Seite 82 sin(z) = b 2 sin(s(x − y)) dy dµ(x) x−y −∞ a Z s(x−b) Z sin u 1 ∞ u=s(x−y) − du dµ(x) = lim s→∞ π −∞ u s(x−a) Z ∞ Z 1 s(x−b) sin u = lim − du dµ(x) s→∞ −∞ π s(x−a) u | {z } 1 = lim s→∞ 2π Z Z =:G(s,x) Z ∞ = lim s→∞ Ferner ist s und x G G(s, x) dµ(x) −∞ beschränkt, das heiÿt es existiert ein B > 0, so dass |G(s, x)| ≤ B für alle gilt. Dies sieht man durch Anwendung des Reihenvergleichskriteriums und der alternierenden harmonischen Reihe. Mit dem Satz der majorisierten Konvergenz I.11.16 folgt dann ∞ Z = lim G(s, x) dµ(x). −∞ s→∞ Ferner gilt 1 G(s, x) = − π damit folgt für (∗∗) Z s(x−b) s(x−a) s→∞ 1 sin u du = u π Z s(b−x) s(a−x) sin u du, u und a < x < b ⇒ lims→∞ G(s, x) = 1 x < a < b ⇒ lims→∞ G(s, x) = 0. Insgesamt lässt sich dies als Z ∞ = −∞ Da lims→∞ G(s, x) = 1(a,b) (x) schreiben. Damit folgt 1(a,b) (x) dµ(x) = µ((a, b)). µ({b}) = limn→∞ µ([b, b + n−1 )) = 0 ist gilt auch = µ((a, b]) = F (b) − F (a). Damit ist der Satz bewiesen. - 82 / 145 - Ingo Bürk Kapitel II.4 Charakteristische Funktionen Satz II.4.6 Seite 83 Umkehrformel µ ein Wahrscheinlichkeitsmaÿ auf (R, B) mit stetiger Verteilungsfunktion F und λ-integrierbarer charakteristischer Funktion ϕ. Dann hat µ eine Lebesgue-Dichte f und es gilt Sei i) F ist stetig dierenzierbar und es gilt ii) f ist beschränkt. F0 = f. iii) Umkehrformel: 1 f (x) = 2π Beweis Z e−itx ϕ(t) dt x ∈ R. : Wir betrachten den Dierenzenquotienten F (x + h) − F (x) II.4.5 1 = lim s→∞ 2π h Mit dem Mittelwertsatz für ein für alle R ξ ∈ [x, x + h] Z s − −s e−it(x+h) − e−itx ϕ(t) dt. ith h > 0 und g : [x, x + h] → R stetig dierenzierbar folgt, dass existiert, so dass g(x + h) − g(x) = g 0 (ξ) h gilt. Wir haben allerdings keine reellwertige Funktion vorliegen. Setze daher e−ix cos(−x) + i sin(−x) = Re i i = − sin x. g(x) = Re Dies ergibt mit der Anwendung des Mittelwertsatzes dann e−it(x+h) − e−itx − sin(tx + th) + sin(tx) MWS Re = = | − cos(ξ)| ≤ 1. ith th Analog kann man e−it(x+h) − e−itx Im ≤1 ith herleiten und alle diese Dinge funktionieren analog auch für Für Folgen sn → ∞ gn (t) := − und hn → 0 h < 0. denieren wir die Funktionenfolge e−it(x+hn ) − e−itx ϕ(t)1[−sn ,sn ] (t). ithn - 83 / 145 - Ingo Bürk Kapitel II.4 Charakteristische Funktionen |gn | ≤ 2|ϕ| ∈ L1 (λ). Damit gilt dann Auÿerdem gilt gn (t) → e−itx ϕ(t). Seite 84 Damit ist dann Z sn 1 e−it(x+hn ) − e−itx F (x + hn ) − F (x) = lim − ϕ(t) dt lim n→∞ 2π −s n→∞ hn ithn n Z 1 = lim gn (t) dt n→∞ 2π R Z I.11.16 1 = lim gn (t) dt 2π R n→∞ Z 1 e−itx ϕ(t) dt =: f (x). = 2π R R Falls ϕ ≥ 0 und ϕ dλ = 1 ist folgt, dass ν := ϕdλ ein Wahrscheinlichkeitsmaÿ ist. Daraus folgt dann, dass 2πf die charakteristische Funktion von ν ist. Mit II.4.2 folgt dann, dass 2πf gleichmäÿig stetig und beschränkt ist. R + + − Für den allgemeinen Fall zerlege ϕ = ϕ −ϕ und normiere mit ϕ dλ beziehungsweise R − ϕ dλ. Damit müssenR wir nur noch zeigen, dass f wirklich die Dichte bezüglich µ ist. Dazu zeigen wir, dass 1A f dλ = µ(A) für alle A ∈ B gilt. Da {(a, b] : a < b} ein ∩stabiles Erzeugendensystem ist genügt es nur Mengen der Form A = (a, b] zu betrachten. Betrachte Z 1(a,b] f dλ = Z b f dλ, a mit F0 = f und dem Hauptsatz der Dierentialrechnung folgt dann = F (b) − F (a) = µ((a, b]). Damit ist der Satz bewiesen. Satz II.4.7 Momentenberechnung (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable mit PX auf R. Falls für ein j ∈ N gilt, dass EP |X|j < ∞ ist, das heiÿt, dass X ∈ Lj (P ) ist, so folgt, dass die charakteristische Funktion ϕ von X j -mal stetig Sei Bildmaÿ dierenzierbar ist und es gilt (j) j Z ϕ (t) = i xj eitx dPX (x). R Insbesondere ist ϕ(j) (0) = ij EP X j . - 84 / 145 - Ingo Bürk Kapitel II.5 Beweis Faltung : Der Beweis funktioniert mittels einer Induktion über Seite 85 j . Der Induktionsanfang und -schritt sind dabei ähnlich zum Beweis von II.4.6. Der Beweis wird hier jedoch nicht geführt. Satz II.4.8 (Ω, A, P ) Sei X1 , . . . , Xn : Ω → R unabhängige Funktionen ϕ1 , . . . , ϕn . Dann hat die Zu- ein Wahrscheinlichkeitsraum und Zufallsvariablen mit charakteristischen fallsvariable X := X1 + . . . + Xn die charakteristische Funktion ϕ= n Y ϕj . j=1 Beweis : Es ist ϕ(t) = EP e it(X1 +...+Xn ) = EP n Y itXj II.2.10 e = j=1 n Y itXj EP e j=1 = n Y ϕj . j=1 Damit ist der Satz vollständig bewiesen. II.5. Faltung Ziel: Untersuchung der Verteilung von Summen unabhängiger Zufallsvariablen. Definition II.5.1 Es sei S: R×R → R Faltung S(X, Y ) := X + Y denierte Summenbildung. Für P und Q auf (R, B) heiÿt das Wahrscheinlichkeitsmaÿ die durch Wahrscheinlichkeitsmaÿe P ∗ Q := (P ⊗ Q)S auf (R, B) die Faltung von P und Q. Notation: Im Folgenden wird der Ausdruck B und x − x auftauchen, wobei B eine Menge eine Zahl ist. Dieser ist mengentheoretisch zu verstehen: B − x := {b − x | b ∈ B}. - 85 / 145 - Ingo Bürk Kapitel II.5 Faltung Lemma II.5.2 Seien P i) Ist und Q (Ω, A, µ) Wahrscheinlichkeitsmaÿe auf ii) Dann gilt: X, Y : Ω → R messbar und folgt, dass P ∗ Q = µX+Y (das ein Wahrscheinlichkeitsraum und sind µX = P µX ∗ µY = µX+Y ) ist. unabhängig, so dass heiÿt (R, B). Seite 86 und µY = Q gilt, so P ∗ Q = Q ∗ P. R ein weiteres Wahrscheinlichkeitsmaÿ (P ∗ Q) ∗ R = P ∗ (Q ∗ R). iii) Ist iv) Für das Dirac-Maÿ v) Für vi) Für δ{0} gilt so gilt f : R → [0, ∞] messbar gilt Z ZZ f d(P ∗ Q) = f (x + y) dP (x) dQ(y) ZZ = f (x + y) dQ(y) dP (x). B∈B gilt (P ∗ Q)(B) = vii) Haben P und Q Z P (B − y) dQ(y) = die Lebesguedichten f (f ∗ g)(x) := Q(B − x) dP (x). g, und Z i) Für (R, B), P ∗ δ{0} = δ{0} ∗ P = P . Z Beweis auf so hat P ∗Q die Lebesguedichte Z f (x − y)g(y) dy = g(x − y)f (y) dy = (g ∗ f )(x). : Z := (X, Y ) : Ω → R2 zeigt II.2.4, dass µZ = µX ⊗ µY ist. Daraus folgt I.10.5 µX+Y = µS◦Z = (µZ )S = (µX ⊗ µY )S = (P ⊗ Q)S = P ∗ Q. ii) Folgt aus 1. mit µX+Y = µY +X , was sich für B∈B aus µX+Y (B) = µ({x + y ∈ B}) = µ({y + x ∈ B}) = µY +X (B). ergibt. iii) Folgt aus µ(X+Y )+Z = µX+(Y +Z) und - 86 1.. / 145 - Ingo Bürk Kapitel II.5 Faltung Seite 87 iv) Wir greifen zum Beweis dieser Eigenschaft auf die Eigenschaften zurück, die wir im Folgenden beweisen werden. Es gilt R f dδ{a} = f (a) für alle a ∈ R. Dies kann mit den Schritten 1-4, die wir im Aufbau der Integrationstheorie betrachtet haben, gezeigt werden. Damit ist 6. Z P ∗ δ{0} = Damit ist δ{0} P (B − y) dδ{0} = P (B − 0) = P (B). rechtsneutrales Element. Die Linksneutralität folgt wegen 2. aus der Kommutativität. v) Es ist Z Z I.11.20 f d(P ∗ Q) = Z f d(P ⊗ Q)S = f ◦ S d(P ⊗ Q) ZZ I.11.17 = f (x + y) dP (x) dQ(y) ZZ I.11.17 = f (x + y) dQ(y) dP (x). vi) Setze Mit f := 1B , dann ist x + y ∈ B ⇔ x ∈ B − y . Es folgt Z Z 1B (x + y) dP (x) = 1B−y (x) dP (x) = P (B − y). 5. folgt dann schlieÿlich Z (P ∗ Q)(B) = P (B − y) dQ(y). vii) Es ist Z 5. 1B d(P ∗ Q) = ZZ I.12.4 1B (x + y) dP (x) dQ(y) ZZ = 1B (x + y)f (x) dx g(y) dy ZZ = 1B (x)f (x − y) dx g(y) dy ZZ I.11.17 = 1B (x)f (x − y)g(y) dy dx Z Z = 1B (x) f (x − y)g(y) dy dx = 1B (x)(f ∗ g)(x) dx. Daraus folgt die Behauptung. Damit ist das Lemma bewiesen. - 87 / 145 - Ingo Bürk Kapitel II.5 Faltung Seite 88 Bemerkungen: i) Diese Konstruktion geht für allgemeine Gruppen. Die Faltung wird dann kommutativ, falls die Gruppe kommutativ (d.h. abelsch) ist. ii) Die Faltung von Dichten ist erklärbar, falls das zugrundeliegende Maÿ translationsinvariant ist. Zum Beispiel sei ν Z. Hat man Dichten bezüglich ν , so gilt 7. aus dem Lemma. Im Speziellen: P habe die Zähldichte (pk )k≥0 und Q habe die Zähldichte (qk )k≥0 . Dann hat P ∗ Q die Zähldichte (rk )k≥0 mit rk = k X pk−i qi = i=0 k X das Zählmaÿ auf qk−i pi . i=0 Beispiel II.5.3: i) B(n1 , p) ∗ B(n2 , p) = B(n1 + n2 , p). ii) Pois(λ1 ) ∗ Pois(λ2 ) = Pois(λ1 + λ2 ). iii) N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ). iv) δ{a} ∗ δ{b} = δ{a+b} . Beweis : i) II.2.12 und II.5.2 zeigen: Falls B(n1 , p), und X2 ∼ B(n2 , p) X1 + X2 ∼ B(n1 + n2 , p). X1 ∼ B(n1 , p), das heiÿt X1 hat die Verteilung X1 und X2 unabhängig sind, so folgt und falls ferner Pois(λ) die Erzeugendenfunktion g(s) = e−λ(1−s) (für s ∈ [0, 1]) hat. Seien nun X1 ∼ Pois(λ1 ) und X2 ∼ Pois(λ2 ) unabhängig. Mit II.3.7 folgt dann, dass X := X1 + X2 die Erzeugendenfunktion g(s) = g1 (s) · g2 (s) hat, wobei g1 , g2 die Erzeugendenfunktionen von X1 , X2 sind. Damit ist ii) II.3.3 zeigte, dass g(s) = e−λ1 (1−s) e−λ2 (1−s) = e−(λ1 +λ2 )(1−s) . Da II.3.4 zeigte, dass die Abbildung Wahrscheinlichkeitsmaÿ 7→ Erzeugendenfunktion (mit einem auf N0 konzentrierten Wahrscheinlichkeitsmaÿ) bijektiv ist, folgt, dass X ∼ Pois(λ1 +λ2 ) ist. Mit der ersten Aussage von II.5.2 folgt dann die Behauptung. iii) II.4.3 zeigte: N (a, σ 2 ) hat die charakteristische Funktion ϕ(t) = eiat e− σ 2 t2 2 . Mit II.4.7 (Summen unabhängiger Zufallsvariablen induzieren Produkte von charakteristischen Funktionen) und II.4.5 (Eindeutigkeitssatz für charakteristische Funktionen) reicht es dann zu zeigen eia1 t e− 2 t2 σ1 2 · eia2 t e− 2 t2 σ2 2 Der Rest verläuft analog zu = ei(a1 +a2 )t e− 2 +σ 2 )t2 (σ1 2 2 . 2.. - 88 / 145 - Ingo Bürk Kapitel II.6 Null-Eins-Gesetz iv) Die Idee ist: X ∼ δ{a} ⇔ X = a P -fast Seite 89 sicher. Dann verwendet man die erste Aussage von II.5.2. Damit sind alle Eigenschaften bewiesen. II.6. Null-Eins-Gesetz Ziel: Der erste Teil von Borel-Cantelli I.4.5 sagte: Ist P∞ n=1 P (An ) < ∞, so folgt P (lim sup An ) = zu nden und diese auch zu verallgemeinern. Lemma II.6.1 0. (An )n≥1 ⊂ A mit Unser Ziel ist es nun, eine Umkehrung Borel-Cantelli 2. Teil (Ω, A, P ) ein Wahrscheinlichkeitsraum und (An )n≥1 ⊂ A sei unabhängig. Dann Sei gilt ∞ X P (An ) = ∞ =⇒ P lim sup An = 1. n→∞ n=1 Insbesondere gilt für unabhängige Folgen und P (lim inf An ) ∈ {0, 1} (An )n≥1 ⊂ A, dass P (lim sup An ) ∈ {0, 1} gilt. Bemerkung: Die Unabhängigkeit ist hierbei wirklich wichtig. Betrachte zum Beispiel A∈A mit P (A) = Beweis Setze B 1 . Setze nun 2 An := A für alle n ≥ 1. Dann ist P (lim sup An ) = 1 . 2 : Anmerkung: Wir werden hier auf das nachfolgende Lemma II.6.2 vorgreifen. T S := lim sup An = ∞ n=1 k≥n Ak . Dann folgt Ω\B = ∞ \ [ (Ω \ Ak ) = lim inf(Ω \ Ak ). n=1 k≥n Es reicht P (Ω \ B) = 0 zu zeigen, die Aussage folgt dann aus der P m \ ! (Ω \ Ak ) (Ω \ A ) =0 k k≥n σ -Additivität. Für m ≥ n gilt zu zeigen. Dazu reicht es unabh. = k=n II.6.2 ≤ m Y P T für alle n≥1 (1 − P (Ak )) k=n m Y e−P (Ak ) = e− Pm k=n P (Ak ) . k=n - 89 / 145 - Ingo Bürk Kapitel II.6 Null-Eins-Gesetz Seite 90 σ -Stetigkeit von unten folgt: ! ! m \ \ (Ω \ Ak ) = lim P (Ω \ Ak ) Wegen der P m→∞ k≥n ≤ lim e − k=n Pm k=n P (Ak ) n.V. = 0. m→∞ Damit ist das Lemma bewiesen. Lemma II.6.2 Es gilt 1 − x ≤ e−x für alle x ∈ R. Beweis : Es sei f (x) := 1 und g(x) 0 −x und g (x) = −e + 1. Daraus folgt • f 0 (x) ≤ g 0 (x) für x ≥ 0. • f 0 (x) ≥ g 0 (x) für x ≤ 0. := e−x + x, jeweils für x ∈ R. Dann ist f 0 (x) = 0 • f (0) = g(0). Dann gilt mit dem Hauptsatz für x ≥ 0: x Z f 0 (t) dt f (x) − f (0) = Z0 x ≤ g 0 (t) dt = g(x) − g(0). 0 f (x) ≤ g(x) für alle x ≥ 0. Für den Z 0 f (0) − f (x) = f 0 (t) dt Zx 0 ≥ g 0 (t) dt = g(0) − g(x). Daraus folgt anderen Fall x≤0 ist x Also folgt auch hier f (x) ≤ g(x). Dies ist gerade die Behauptung. Definition II.6.3 σ -Algebra der terminalen Ereignisse Sei (Ω, A) ein Messraum und An ⊂ A eine σ -Algebra für alle n ≥ 1. ! ∞ [ Tn := σ Ak Setze k=n - 90 / 145 - Ingo Bürk Kapitel II.6 Null-Eins-Gesetz für die von T∞ := An , An+1 , . . . ∞ \ erzeugte σ -Algebra. Seite 91 Dann heiÿt Tn n=1 die σ -Algebra der terminalen Ereignisse von (An )n≥1 . Interpretation: In T∞ sind alle Ereignisse, die durch alle Ai bis auf endlich viele erzeugt sind. Bemerkungen: • T∞ • ist eine σ -Algebra. 0 0 Das wichtigste Beispiel ist für Xn : (Ω, A) → (Ω , A ) (für alle n An := σ(Xn ) = Xn−1 (A0 ). In diesem Fall schreibe T∞ ((Xn )n≥1 ). Lemma II.6.4 Sei (Ω, A) ein Messraum und Xn : Ω → R Zufallsvariablen n o ω ∈ Ω : ∃ lim Xn (ω) ∈ T∞ ((Xn )n≥1 ). (für ≥ 1). Setze dann n ≥ 1). Dann folgt n→∞ Analog kann man Ergebnisse für Beweis {lim sup Xn ≤ α}, . . . : Aus der Vollständigkeit von R formulieren und zeigen. folgt {ω ∈ Ω : ∃ lim Xn (ω)} = {ω ∈ Ω : (Xn )(ω) CF} und damit 1 |Xn (ω) − Xl (ω)| ≤ k ω ∈ Ω : ∀k≥1 ∃N ≥1 ∀n,l≥N 1 o.E. N ≥k = ω ∈ Ω : ∀k≥1 ∃N ≥k ∀n,l≥N |Xn (ω) − Xl (ω)| ≤ k \ [ \ 1 ω ∈ Ω : |Xn (ω) − Xl (ω)| ≤ = k k≥1 N ≥k n,l≥N | {z } = ∈σ(Xn ,Xl ) | = \ {z } =:Ak ∈σ(Xl ,Xl+1 ,...)=Tl Ak . k≥1 - 91 / 145 - Ingo Bürk Kapitel II.6 Es ist Null-Eins-Gesetz Ak & \ T Ak = k≥1 Ak . k≥1 \ Ak Ferner gilt Ak ∈Tk Damit gilt für m ≥ 1: Tm . k≥m Aus der Denition von Satz II.6.5 Sei ∈ Tn & T∞ . Seite 92 T∞ folgt dann 0-1-Gesetz (Ω, A, P ) T k≥1 Ak ∈ T∞ . Dies war zu zeigen. von Kolmogorov An ⊂ A seien unabhängige σ terminale σ -Algebra. Dann gilt für alle ein Wahrscheinlichkeitsraum und Algebren. Ferner sei T∞ die zugehörige A ∈ T∞ : P (A) ∈ {0, 1}. Beweis P (A) = P (A) · P (A) für alle A ∈ T∞ gilt, denn daraus folgt sofort P (A) ∈ {0, 1}. Ferner ist P (A) = P (A ∩ A). Zu zeigen ist also, dass in der terminalen S σ -Algebra jede Menge A von sich selber unabhängig ist. Deniere Dn := σ k≤n Ak . Die σ -Algebren Dn und Tn+1 sind voneinander unabhängig, denn für (n ) \ Cn := Ai : Ai ∈ Ai und : Zeige, dass C n+1 := (i=1 \ ) Aj : J ⊂ {n + 1, . . .} endlich, Aj ∈ Aj j∈J folgt, dass Cn ein zeugendensystem ∩-stabiles Erzeugendensystem von Dn und C n+1 ein ∩-stabiles Ern+1 von Tn+1 ist. Wir zeigen nun, dass Cn und C unabhängig sind. Es ist P n \ ! Ai ∩ \ A0j unabh. = i=1 P (Ai ) · i=1 | {z } j∈J | {z } ∈Cn n Y Y P (A0j ) j∈J ∈C n+1 unabh. = P n \ ! ! ·P Ai i=1 A0j . j∈J Die Bemerkung nach II.2.8 zeigt dann, dass D Tn \ Dn und Tn+1 unabhängig sind. Da T∞ ⊂ Tn+1 T∞ unabhängig sind. Betrachte nun C := D : I ⊂ N endlich , D ∈ D . Dann folgt, dass C ein ∩-stabiles i i i i∈I S ∞ Erzeugendensystem von σ ( i=1 Di ) = σ(A1 ∪A2 ∪. . .) = T1 ist. Analoge Rechnung unter gilt folgt auch, dass und - 92 / 145 - Ingo Bürk Kapitel II.7 Konvergenzarten Berücksichtigung der Tatsache, dass dann, dass T1 und T∞ Dn und T∞ für alle n≥1 Seite 93 unabhängig sind, zeigt T∞ ⊂ T1 folgt dann, dass T∞ von T∞ A, B ∈ T∞ gilt: P (A ∩ B) = P (A)P (B). P (A ∩ A) = P (A) = P (A)P (A). Dies wollten wir zeigen. unabhängig sind. Wegen unabhängig ist. Daraus folgt also, dass für alle Für A=B folgt nun Korollar II.6.6 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn : Ω → R unabhängige Zufalls- variablen. Dann haben die folgenden Ereignisse die Wahrscheinlichkeit P = 0 oder P = 1: i) ii) iii) {ω ∈ Ω : ∃ lim Xn (ω)}. {ω ∈ Ω : lim sup Xn (ω) ≤ α}. ... II.7. Konvergenzarten Ziel: Verschiedene Möglichkeiten, den Ausdruck Xn → X zu beschreiben. Notation: Es sei C b (R) := {f : R → R | f Definition II.7.1 Sei (Ω, A, P ) ist stetig und beschränkt} . Konvergenzarten ein Wahrscheinlichkeitsraum und Xn , X : Ω → R seien Zufallsvaria- blen. Dann sagen wir: i) Xn konvergiert P -fast sicher gegen X (kurz: P -f.s. Xn −→ X ) genau dann, wenn n o P ω ∈ Ω : lim Xn (ω) = X(ω) = 1. n→∞ ii) Xn konvergiert im (Wahrscheinlichkeits-)Maÿ P Xn → X stoch.) genau dann, wenn bzw. stochastisch gegen X (kurz: n→∞ ∀ε>0 P ({ω ∈ Ω : |Xn (ω) − X(ω)| > ε}) −→ 0. iii) Xn p-ten Mittel gegen X für ein p > 0 genau dann, wenn Xn , X ∈ Lp (P ) und Z p1 n→∞ p −→ 0. kXn − XkLp (P ) = |Xn − X| dP konvergiert im - 93 / 145 - (kurz: Xn → X in Lp (P )) Ingo Bürk Kapitel II.7 iv) Xn Konvergenzarten Z ∀f ∈ C (R) : Lemma II.7.2 Sei (Ω, A, P ) f dPXn (d) Xn −→ X ) genau dann, wenn Z Z Z n→∞ = f ◦ Xn dP −→ f ◦ X dP = f dPX . konvergiert in Verteilung gegen b Seite 94 X (kurz: ein Wahrscheinlichkeitsraum und Xn , X : Ω → R seien Zufallsvaria- blen. Dann gilt: P -f.s. P -f.s. Xn −→ X und Xn −→ Y für eine Zufallsvariable Y : Ω → R, sicher auch X = Y , also P ({X = 6 Y }) = 0. i) Ist ii) P -f.s. Xn −→ X ∀ε>0 lim P n→∞ Xn P -fast genau dann, wenn iii) so gilt ω ∈ Ω : sup |Xm (ω) − X(ω)| > ε = 0. m≥n P -fast sicher genau dann, wenn lim P ω ∈ Ω : sup |Xm (ω) − Xn (ω)| > ε = 0. konvergiert n→∞ m≥n Dies ist ein Cauchykriterium. iv) Ist (εn )n≥1 ⊂ (0, ∞) P -f.s. mit εn → 0 und P∞ n=1 P ({|Xn − X| ≥ εn }) < ∞, so folgt Xn −→ X . Beweis : N := {ω ∈ Ω : lim Xn (ω) 6= X(ω)} ∪ {ω ∈ Ω : lim Xn (ω) 6= Y (ω)}. Es ist P (N ) = 0. Ferner gilt für ω ∈ Ω \ N , dass X(ω) = lim Xn (ω) = Y (ω) und damit ω ∈ {X = Y } ist. Daraus folgt Ω \ N ⊂ {X = Y } und daraus schlieÿlich P ({X = Y }) = 1. Dies ist äquivalent zur Behauptung. i) Deniere ii) Es ist {ω ∈ Ω : lim Xn (ω) = X(ω)} = ∞ \ \[ k≥1 n=1 m≥n - 94 / 145 - 1 ω ∈ Ω : |Xm (ω) − X(ω)| ≤ k Ingo Bürk . Kapitel II.7 Konvergenzarten P -f.s. Xn −→ X Damit ist aber äquivalent zu ∞ [ [\ P Seite 95 k≥1 n=1 m≥n 1 |Xm (ω) − X(ω)| > k Wegen Monotonie und σ -Additivität ! = 0. ist dies wiederum äquivalent zu Folgendem und es ist ! 1 0=P |Xm (ω) − X(ω)| > ∀k≥1 k n≥1 m≥n ! [ 1 = P lim |Xm (ω) − X(ω)| > n→∞ k m≥n ! [ 1 = lim P |Xm (ω) − X(ω)| > n→∞ k m≥n 1 . = lim P ω ∈ Ω : sup |Xm (ω) − X(ω)| > n→∞ k m≥n \ [ iii) Der Beweis wird zur Übung überlassen. iv) Zu ε>0 existiert ein n0 , so dass für alle n ≥ n0 gilt: 0 < εn < ε. Für n ≥ n0 folgt dann P ! sup |Xm − X| > ε =P [ m≥n {|Xm − X| > ε} m≥n ≤ X P ({|Xm − X| > ε}) m≥n ≤ X n→∞ P ({Xm − X| > εm }) −→ 0. m≥n Nun kann man 2. anwenden und erhält die Behauptung. Damit ist das Lemma bewiesen. Lemma II.7.3 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , X : Ω → R seien Zufallsvaria- blen. Dann gilt: i) P -f.s. Xn −→ X ⇒ Xn −→ X stochastisch. Xn −→ X stochastisch genau dann, wenn für alle Teilfolgen P -f.s. (Xnkl ) mit Xnkl −→ X existiert. ii) Teilfolgenkriterium : (Xnk ) eine Teilfolge - 95 / 145 - Ingo Bürk Kapitel II.7 Konvergenzarten Xn −→ X X =Y. iii) Ist iv) stochastisch und Xn −→ Y Xn −→ X stochastisch genau dann, Z min{|Xn − X|, 1} dP → 0. Beachte: d(X, Y ) := R Seite 96 stochastisch, so folgt P -fast sicher ist eine Metrik, wenn P -fast sicher wenn min{|X − Y |, 1} dP gleiche Zufallsvariablen identiziert werden. Beweis : ε>0 i) Für ist P (|Xn − X| > ε) ≤ P II.7.2 sup |Xm − X| > ε −→ 0. m≥n ii) ⇒: Sei ein nkl , (Xnk ) eine Teilfolge von (Xn ). Für l ≥ 1 existiert dann nach Voraussetzung so dass P 1 |Xn − X| > = ε l 1 2l < für nkl ↑ Ohne Einschränkung kann man n ≥ nkl . annehmen, denn andernfalls könnte man nkl+1 := max{nkl + 1, nkl+1 } wählen. Dann ∞ 1 X < ∞. P Xnkl − X > l l=1 | {z } folgt <2−l Nun kann man II.7.2 anwenden um zu zeigen, dass ⇐: Sei reicht es dass ankl P -f.s. Xnkl −→ X ist. an := P ({|Xn − X| > ε}). Zu zeigen ist an → 0. Dazu zu zeigen, dass für alle Teilfolgen (ank ) eine Teilfolge (ank ) existiert, so l → 0. Sei also (ank ) eine Teilfolge. Zur Teilfolge (Xnk ) existiert dann nach ε>0 und setze Voraussetzung eine Teilfolge (Xnkl ) mit P -f.s. Xnkl −→ X . Mit 1. folgt dann Xnkl → X stochastisch. Daraus folgt dann ankl = P n o X − X > ε → 0. nkl Xn → X stochastisch folgt die Existenz einer Teilfolge (Xnk ), so dass Xnk −→ X . Aus Xn → Y stochastisch folgt die Existenz einer P -f.s. Teilfolge (Xnk ) so dass Xnk −→ Y . Mit II.7.2 folgt dann P -fast sicher X = Y . l l iii) Dies folgt aus 2., denn aus P -f.s. - 96 / 145 - Ingo Bürk Kapitel II.7 Konvergenzarten iv) Wir setzen Yn := min{|Xn − X|, 1}. ε ∈ (0, 1] Für Seite 97 gilt dann {|Xn − X| > ε} = {min{|Xn − X|, 1} > ε} = {|Yn | > ε}. Xn → X stochastisch genau dann, wenn Yn → 0 stochastisch. R R ⇒: Mit f dP = 1A f dP ist A Z Z min{|Xn − X|, 1} dP = |Yn | dP Z Z = |Yn | dP + |Yn | dP Damit ist {|Yn |≤ε} {|Yn |>ε} |Yn |≤1 ≤ ε + P (|Yn | > ε) {z } | →0 ≤ 2ε n. für hinreichend groÿe ⇐: Es ist Z ε · P (|Yn | > ε) ≤ |R {z } {|Yn |>ε} Damit ist Z |Yn | dP ≤ |Yn | dP → 0. {|Yn |>ε} Ω ε dP Yn → 0 stochastisch. Damit ist das Lemma bewiesen. Lemma II.7.4 (Ω, A, P ) ein Wahrscheinlichkeitsraum, p > 0 blen mit Xn , X ∈ Lp (P ). Dann gilt: Sei i) Ist Xn → X in ii) Ist Xn → X und iii) (Xn ) Lp (P ), so folgt Xn → Y konvergiert in Xn → X jeweils in Lp (P ) und Xn , X : Ω → R Zufallsvaria- stochastisch. Lp (P ), so folgt P -fast sicher X =Y. genau dann, wenn ∀ε>0 ∃n0 ∀n,m≥n0 : kXn − Xm kLp (P ) ≤ ε. Dies ist die Vollständigkeit von iv) Ist 0<q<p und Xn → X v) Lemma von Scheffé: Ist R |Xn | dP → R |X| dP , in Lp (P ) Lp (P ), und bekannt als Satz von Riesz-Fischer. so folgt, dass auch Xn ≥ 0, Xn → X stochastisch Xn → X in L1 (P ). Xn → X und in Lq (P ) gilt. Xn , X ∈ L1 (P ) mit so folgt - 97 / 145 - Ingo Bürk Kapitel II.7 Beweis Konvergenzarten Seite 98 : i) Es ist II.1.7 P ({|Xn − X| > ε}) = ii) Dies folgt aus E|Xn − X|p → 0. εp 1. und II.7.3. iii) Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Bauer Maÿund Integrationstheorie als Satz 15.7. iv) Dies folgt aus q<p kXn − XkLq (P ) ≤ kXn − XkLp (P ) . v) Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Bauer als Lemma 26.6. Damit ist das Lemma bewiesen. Lemma II.7.5 Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , X : Ω → R Zufallsvariablen. Dann gilt i) Ist Xn → X stochastisch, so folgt auch Xn → X X ∼Y. ii) Ist und Xn → Y Xn → X in Verteilung. jeweils in Verteilung, so folgt PX = PY , das heiÿt iii) Die folgenden Aussagen sind äquivalent: a) Xn → X b) lim FXn (x) = FX (x) in Verteilung. Verteilungsfunktion von Beweis x ∈ R, an denen Fx Xi und FX die von X . für alle stetig ist. Dabei ist FXi die : R R R f ∈ C b (R). Zu zeigen ist, dass f ◦X dP → f ◦X dP gilt. Sei ( f ◦Xnk dP ) n R eine Teilfolge von ( f ◦ Xn dP ). Nach II.7.3 folgt dann die Existenz einer Teilfolge i) Sei P -f.s. (Xnkl ), so dass Xnkl −→ X . Wir setzen supx∈R |f (x)| =: c < ∞. für alle l ≥ 1, ω ∈ Ω, und f ◦ Xnkl (ω) ≤ c f ◦ Xnkl (ω) → f ◦ X(ω) für - 98 / P -fast 145 - alle Damit ist ω ∈ Ω. Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Seite 99 Mit dem Satz von der majorisierten Konvergenz I.11.16 folgt dann Z Z f ◦ Xnkl dP −→ f ◦ X dP . R R ( f ◦X dP ) von ( f ◦X Teilfolge, n k R R n dP ) eine konvergente R f ◦ X dP konvergiert. Damit folgt f ◦ Xn dP → f ◦ X dP . Dies Damit hat jede Teilfolge die gegen ist was wir zeigen wollten. ii) Der Beweis wird hier nicht ausgeführt. Im Wesentlich verwendet man, dass für R R zwei Wahrscheinlichkeitsmaÿe µ, ν auf R mit f dµ = f dν für alle f ∈ C b (R) auch µ=ν folgt. iii) Der Beweis ndet sich in Meintrup+Schäer als Satz 7.5. Damit ist das Lemma bewiesen. Insgesamt lässt sich der Zusammenhang zwischen den vier Konvergenzarten also wie folgt charakterisieren: II.8. Gesetze der groÿen Zahlen Motivation: Die Intuition sagt uns, dass Wahrscheinlichkeiten ≈ relative Häugkeiten sind. Dies soll nun bestätigt werden. Definition II.8.1 Sei (Ω, A, P ) variablen mit Schwaches / Starkes Gesetz der groÿen Zahlen ein Wahrscheinlichkeitsraum und Xn ∈ L1 (P ) für alle n ≥ 1. (Xn )n≥1 eine Folge von Zufalls- Dann genügt (Xn ) dem schwachen beziehungsweise dem starken Gesetz der groÿen Zahlen genau dann, wenn n 1X (Xi − EP Xi ) −→ 0 n i=1 stochastisch beziehungsweise P -fast - sicher gilt. 99 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Seite 100 Satz II.8.2 (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Xn ) ⊂ L2 (P ) mit EP Xi Xj = EP Xi · EPP Xj für alle i 6= j (die Folge (Xn ) ist also paarweise unkorreliert). Falls n 1 ferner 2 i=1 VarP (Xi ) → 0 gilt, so folgt, dass (Xn ) dem schwachen Gesetz der n Sei groÿen Zahlen genügt. Beweis : Für Z := P (|Z| ≥ ε) ≤ 1 n Pn i=1 (Xi − E P Xi ) gilt mit Markov II.1.7: EP |Z|2 . ε2 Wir zeigen nun, dass die rechte Seite gegen i) ii) 0 konvergiert. Für Yi := Xi − EP Xi gilt EP Yi = 0. EP Yi Yj = EP (Xi − EP Xi )(Xj − EP Xj ) = EP Xi Xj − 2EP Xi EP Xj + EP Xi EP Xj = 0. Yi = EP Yi2 − (EP Yi )2 = EP Yi2 = VarP Xi 2 EP Xi )) . Damit und mit II.2.11 folgt ! n n n X X X Yi = VarP (Yi ) = VarP (Xi ), Damit ist VarP P EP ( ni=1 (Xi − VarP i=1 i=1 und analog VarP ( Pn i=1 Yi ) = i=1 daraus wiederum folgt dann n X 1 EP |Z|2 = 2 EP n !2 (Xi − EP Xi ) i=1 1 = 2 VarP n n X i=1 ! Yi n 1 X = 2 VarP (Xi ) n i=1 −→ 0. Damit ist der Satz bewiesen. Beispiel II.8.3: Wahrscheinlichkeiten sind relative Häugkeiten 0 0 ein Wahrscheinlichkeitsraum und (Ω , A ) ein Messraum. 0 Ferner seien Xi : Ω → Ω für i ≥ 1 unabhängige und identisch verteilte Zufallsva0 0 riablen. Dann gilt für A ∈ A : Sei (Ω, A, P ) n 1X 1{Xi ∈A0 } n i=1 | {z } −→ P ({X1 ∈ A0 }). rel. Häugkeiten für Xi (ω)∈A0 - 100 / 145 - Ingo Bürk Kapitel II.8 Beweis i) ii) iii) Gesetze der groÿen Zahlen : Es sei Yi := 1A0 ◦ Xi . (Yi )i≥1 ist i.i.d. ⇒ (Yi )i≥1 sind Seite 101 Für diese Zufallsvariablen gilt: paarweise unkorrelliert II.2.11. Yi ∈ L2 (P ), da |Yi | ≤ 1. Pn Pn 1 1 i=1 Var(Yi ) = n2 i=1 Var Y1 = n2 Var Y1 n → 0. Aus II.8.2 folgt dann: n 1X (1A0 ◦ Xi − E1A0 ◦ Xi ) −→ 0 n i=1 1 n da Pn i=1 1A0 ◦ Xi = 1 n 1{Xi ∈A0 } Pn i=1 stochastisch, und E1A0 ◦ Xi = P ({Xi ∈ A0 }) = P ({X1 ∈ A0 }). Bemerkungen: i) Die im Beweis von II.8.2 mitbewiesene Ungleichung P )! ( n 1 X ≤ (Xi − EP Xi ) > ε n i=1 1 n Pn Var(Xi ) i=1 ε2 n kann verbessert werden, falls höhere Momente der Xi kontrolliert werden können. Als Beispiel dafür dient die Hoedings-Ungleichung (1963): (Ω, A, P ) Sei ein Wahrscheinlichkeitsraum und Xi : Ω → [a, b] unabhängige Zu- fallsvariablen. Dann gilt P ( n )! 1 X 2 − 2ε n (Xi − EP Xi ) ≥ ε ≤ 2e (b−a)2 . n i=1 Die rechte Seite konvergiert für n→∞ deutlich schneller gegen 0 als die rechte Seite der oben genannten Ungleichung aus II.8.2. ii) Die Eigenschaft paarweise unkorreliert kann abgeschwächt werden coecients, die beschreiben, wie stark die Xi Für EP X1 X1 (ω), X2 (ω), X3 (ω), . . . mixing unkorreliert sind. iii) Falls(Xi ) i.i.d. Zufallsvariablen sind, so zeigt II.8.2, dass Wahrscheinlichkeit bei ⇒ 1 n Pn i=1 Xi mit hoher liegt. wissen wir aber bis jetzt nicht, dass n 1X P -f.s. Xi (ω) −→ EP X1 . n i=1 (Da stochastische Konvergenz i.A. nicht Die P -f.s. P -f.s. Konvergenz impliziert.) Konvergenz soll jetzt untersucht werden. - 101 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Seite 102 Satz II.8.4 (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Xn ) ⊂ L2 (P ) eine Folge paarweise unabhängiger Zufallsvariablen, das heiÿt, dass Xi und Xj für i 6= j unabhängig und identisch verteilt sind. Dann folgt, dass (Xn ) dem starken Gesetz der groÿen Sei Zahlen genügt, das heiÿt es gilt n 1X P -f.s. Xi −→ EP X1 . n i=1 Beweis Xn+ := max{Xn , 0}. Diese (Xn+ ) sind identisch verteilt und paar− weise unabhängig. Analog gilt dies für Xn := min{Xn , 0}. Damit genügt es, den Beweis für nicht-negative Zufallsvariablen zu führen. Setze sn := X1 + . . . + Xn , xiere ein ε > 0 n und setze kn := b(1 + ε) c, wobei bxc := maxk∈Z,k≤x k die Gauÿklammer darstellt. Dann 1 n folgt kn ≥ (1 + ε) für alle n ≥ 1. Auÿerdem folgt 2 ∞ ∞ X skn II.8.2 X n −n 4 (1 + ε) 2 · kn−1 Var X1 P − EX1 ≥ (1 + ε) ≤ kn n=1 n=1 : Betrachte ∞ X ≤ 2 Var X1 · n (1 + ε)− 2 n=1 < ∞. Für o n − EX1 ≥ (1 + ε)− 4 n s An := kknn dem Lemma von Borel-Cantelli I.4.5 folgt damit P ∞ \ ∞ [ P∞ P (An ) < ∞ gezeigt. Aus P (lim sup An ) = 0. Dies bedeutet haben wir somit n=1 ! (Ω \ Ak ) = P (lim inf(Ω \ An )) = 1. n=1 k=n P -fast alle ω ∈ Ω ein n0 (ω) ≥ 1 existiert, skn (ω) −n 4 für alle n ≥ n0 (ω) gilt. kn − EX1 < (1 + ε) Damit folgt, dass für so dass Daraus wiederum folgt dann sk n lim − EX1 = 0 P -f.s. n→∞ kn Das bedeutet P -f.s. (∗) Konvergenz für die Teilfolge besteht nun darin, von P -f.s. skn kn von Konvergenz der Teilfolge auf sn . Der letzte Schritt n P -f.s. Konvergenz der Ge- samtfolge zu schlieÿen. Dies geschieht durch ein Einschachtelungsargument. - 102 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Für hinreichend groÿe n gilt kn+1 ≤ (1 + 2ε)kn . Für N3l≥1 gibt es ein Seite 103 n≥1 mit l ∈ {kn , . . . , kn+1 }. Damit folgt sk sk sl − EX1 ≤ n+1 − EX1 ≤ (1 + 2ε) n+1 − EX1 . l kn kn+1 Für l→∞ → ∞ und damit s skn+1 l − EX1 ≤ lim sup (1 + 2ε) − EX1 lim sup l kn+1 n→∞ l→∞ folgt n (∗) ≤ (1 + 2ε)EX1 − EX1 = 2εEX1 . Ferner gilt sl sk n 1 sk − EX1 ≥ − EX1 ≥ · n − EX1 . l kn+1 1 + 2ε kn Damit ist dann lim inf l→∞ s l l − EX1 ≥ lim inf n→∞ 1 sk · n − EX1 1 + 2ε kn (∗) 1 EX1 − EX1 1 + 2ε 1 = − 1 EX1 1 + 2ε ≥ −2εEX1 . = Dann gilt s ns o sl l l lim sup − EX1 = lim sup max − EX1 , − + EX1 l l l l→∞ l→∞ s s l l = max lim sup − EX1 , − lim inf − EX1 l→∞ l l l→∞ ≤ 2εEX1 . s Damit haben wir gezeigt, dass lim sup l − EX1 ≤ 0 ist. Aus der Nicht-Negativität des l s Betrags folgt aber auch lim inf l − EX1 ≥ 0. Damit sind diese beiden gleich und es l liegt P -f.s. Konvergenz vor. Lemma II.8.5 Sei (Ω, A, P ) Abgeschnittene Zufallsvariablen ein Wahrscheinlichkeitsraum und identisch verteilt sind. Ferner gelte Yi := Xi · 1{|Xi |≤i} ( Xi = 0 falls E|X1 | < ∞. |Xi | ≤ i sonst - 103 / Xi : Ω → R Zufallsvariablen, i ≥ 1: die Setze für . 145 - Ingo Bürk Kapitel II.8 Falls 1 n Gesetze der groÿen Zahlen P -f.s. Pn Yi −→ EX1 , i=1 Seite 104 so folgt n 1X P -f.s. Xi −→ EX1 . n i=1 Es genügt also, das starke Gesetz der groÿe Zahlen für abgeschnittene Zufallsvariablen zu beweisen. Beweis : Nach einem vorherigen Satz ist Z I.11.19 ∞ > E|X1 | = P (|X1 | > t) dt [0,∞) ≥ ∞ X n=1 ∞ X = P (|X1 | > n) P (|Xn | > n). n=1 Für An := {Xn 6= Yn } = {|Xn | > n} folgt mit dem ersten Teil des Lemmas von Borel- Cantelli I.4.5 0=P lim sup An = P ({ω ∈ Ω : Xn (ω) 6= Yn (ω) für unendlich viele n ≥ 1}) . n→∞ Daraus folgt, dass für für alle n ≥ n0 (ω). P -fast ω ∈ Ω ein n0 (ω) ≥ 1 für alle n ≥ n0 (ω): alle Dann folgt existiert, so dass Xn (ω) = Yn (ω) n0 (ω) n n 1X 1 X 1X Yi (ω) − Xi (ω) = (Yi (ω) − Xi (ω)) n i=1 n i=1 n i=1 {z } {z } | | →0 für n→∞ n.V. →EX1 Daraus folgt dann also n 1X Xi (ω) −→ EX1 . n i=1 Damit ist das Lemma bewiesen. - 104 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Seite 105 Lemma II.8.6 x ≥ 0 gilt X 2x n−2 ≤ 4. Für alle n>x Beweis ∞ X N3m≥1 : Für n −2 −2 ≤m Z t−2 dt ≤ m−2 + m−1 ≤ 2m−1 . m m−1≤x≤m 2x ∞ + n=m Für gilt X folgt dann n−2 ≤ 2m n>x X n−2 = 2m n>m−1 ∞ X n−2 ≤ 4. n=m Damit ist das Lemma bewiesen. Lemma II.8.7 Sei (Ω, A, P ) Yi := Xi · 1{|Xi |≤i} ∞ X EY 2 n n=1 Xi : Ω → R für i ≥ 1 identisch E|X1 | < ∞. Für die abgeschnittenen Zufallsvariablen ein Wahrscheinlichkeitsraum und verteilte Zufallsvariablen mit gilt ≤ 4E|X1 |. n2 Kurz: Kontrolle der zweiten Momente der abgeschnittenen Zufallsvariablen. Beweis : Es ist I.11.19 EYn2 = Z ∞ Z ∞ P (Yn2 > t) dt 0 P (|Yn | > = 0 √ s= t Z √ t) dt ∞ 2sP (|Yn | > s) ds = 0 - 105 / 145 - Ingo Bürk Kapitel II.8 Da Gesetze der groÿen Zahlen {|Yn | > s} = {s < |Xn | ≤ n} ⊂ {s < |Xn |} und für n<s zudem Seite 106 {|Yn | > s} = ∅ gilt folgt n Z 2sP (|Xn | > s) ds ≤ (∗) 0 n Z 2sP (|X1 | > s) ds. = 0 Setze nun fm (s) := f (s) := m X n=1 ∞ X n−2 1(s,∞) (n)2sP (|X1 | > s) n−2 1(s,∞) (n)2sP (|X1 | > s). n=1 Es gilt fm (s) % f (s) f (s) = ∞ X für alle s ≥ 0. Mit II.8.6 folgt n−2 1(s,∞) (n)2sP (|X1 | > s) n=1 = X n−2 2sP (|X1 | > s) n>s II.8.6 ≤ 4P (|X1 | > s) (∗∗). Damit folgt ∞ X EY 2 n=1 n n2 (∗) ≤ lim m→∞ = lim m→∞ = lim m→∞ m X −2 2sP (|X1 | > s) ds n 0 n=1 m X n Z n −2 Z ∞ 1[0,n) (s)2sP (|X1 | > s) ds 0 n=1 Z ∞X m −2 n 1(s,∞) (n)2sP (|X1 | > s) ds 0 n=1 | Z {z } =fm (s) ∞ ≤ lim fm (s) ds m→∞ 0 Z ∞ I.11.13 = f (s) ds 0 Z ∞ (∗∗) ≤ 4P (|X1 | > s) ds 0 I.11.19 = 4E|X1 |. Damit ist das Lemma bewiesen. - 106 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Satz II.8.8 Starkes Gesetz der groÿen Zahlen von Etemadi (1981) Xi : Ω → R für i ≥ 1 identisch verteilte Zufallsvariablen mit E|X1 | < ∞. Sind die (Xi ) zudem paarweise unabhängig, Sei (Ω, A, P ) Seite 107 ein Wahrscheinlichkeitsraum und so folgt n 1X P -f.s. Xi −→ EX1 . n i=1 Anmerkung: Dieser Satz ist eine Verallgemeinerung von II.8.4 von (Xi ) ⊂ L2 (P ) zu (Xi ) ⊂ L1 (P ). Beweis : Der Beweis ähnelt der Struktur des Beweises von II.8.4. Wie im Beweis von II.8.4 können wir ohne Einschränkung Xi ≥ 0 annehmen. Für ε > αn n für n ≥ 1 setze kn := bα c. Es gilt dann kn ≥ für alle n ≥ 2 log m n0 := d log α e = dlogα me folgt X kn−2 n:kn ≥m ≤4 ∞ X 0 setze α := 1 + ε, 1. Für m ≥ 1 und α−2n = 4 · α−2n0 · (1 − α−2 )−1 n=n0 ≤ 4m−2 (1 − α−2 )−1 . Deniere die abgeschnittenen Zufallsvariablen Yi := Xi · 1{|Xi |≤i} und Tn := Y1 + . . . + Yn . Deniere nun an,m ( kn−2 Var Ym := 0 falls m ≤ kn sonst , da wir diese Doppelfolge später benötigen. Für δ>0 gilt nun mit der Ungleichung, die im Beweis von II.8.2 mitbewiesen wurde: ∞ X n=1 II.8.2 P (|Tkn − ETkn | > δkn ) ≤ ∞ X Var Tk n=1 - 107 n δ 2 kn2 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Seite 108 Yi Die sind paarweise unabhängig und daher nach der Bemerkung nach II.2.11 paarweise Pkn unkorreliert. Mit diesem Satz folgt dann zudem Var Tkn = m=1 Var Ym . Dann ist =δ 2 ∞ X kn−2 kn X Var Ym m=1 n=1 ∞ ∞ XX an,m = δ −2 |{z} n=1 m=1 ≥0 ∞ ∞ I.11.17 −2 X X an,m = δ m=1 n=1 = δ −2 ∞ X Var Ym m=1 ≤ 4δ −2 (1 − Da Var Ym ≤ EYm2 X kn−2 n:kn ≥m ∞ X Var Ym −2 −1 α ) m2 m=1 gilt folgt zudem II.8.7 ≤ 16δ −2 (1 − α−2 )−1 E|X1 | < ∞. n o P∞ Tkn Tkn Setze nun An := kn − E kn > δ . Da n=1 P (An ) < ∞ ist folgt Teil von Borel-Cantelli I.4.5 dann P (lim sup An ) = 0 und damit ! ∞ \ ∞ [ P (Ω \ Ak ) = 1. mit dem ersten n=1 k=n Für Da P -fast alle ω ∈ Ω existiert Tkn (ω) T k n ≤δ − E kn kn δ dann ein für alle n0 (ω) ≥ 1 mit n ≥ n0 (ω). beliebig gewählt werden kann folgt Tkn (ω) T k n = 0. lim −E n→∞ kn kn X1 · 1{|X1 |≤n} % X1 . Damit ist aufgrund der identischen Verteilung und nach Levi I.11.13: EYn = EXn 1{|X1 |≤n} = EX1 1{|X1 |≤n} % EX1 . Damit ist dann Ferner gilt Beppo kn ETkn 1 X = EYi −→ EX1 , kn kn i=1 - 108 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen wobei ein Ergebnis der Analysis verwendet wurde: Gilt a. an % a, so ist auch Seite 109 1 n Pn i=1 ai → Weiter folgt nun Tkn (ω) lim − EX1 = 0. n→∞ kn Wir übernehmen jetzt wortwörtlich das Einschachtelungsargument aus dem Beweis von II.8.4 und erhalten damit Tn (ω) lim − EX1 = 0. n→∞ n Mit der Anwendung von II.8.5 erhalten wir dann die zu beweisende Aussage und der Beweis ist vollständig. Korollar II.8.9 (Kolmogorov) Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R für i ≥ 1 i.i.d. E|X1 | < ∞. Dann folgt, dass das starke Gesetz der groÿen Zahlen gilt, also mit n 1X P -f.s. Xi −→ EX1 . n i=1 Beweis : Die (Xi ) sind unabhängig und damit paarweise unabhängig. Aus II.8.8 folgt dann die Behauptung. Satz II.8.10 Sei (Ω, A, P ) Satz von Menchov-Rademacher (Xi ) ⊂ L2 (P ) paarweise unkorreEXi = 0. Ferner sei (an ) ⊂ (0, ∞) mit an % ∞ ein Wahrscheinlichkeitsraum und liert und zentriert, das heiÿt und ∞ X (log n)2 a−2 n Var Xn < ∞. n=1 Dann folgt n 1 X lim sup Xi = 0 an n→∞ P -fast sicher. i=1 Im Speziellen gilt für identisch verteilte Xi und an := n damit das starke Gesetz der groÿen Zahlen. Weitere Literatur hierzu ndet sich in Klenke auf Seite 124. - 109 / 145 - Ingo Bürk Kapitel II.8 Gesetze der groÿen Zahlen Beispiel II.8.11: d f : [0, 1] → R Sei Seite 110 Monte-Carlo-Integration Lebesgue-integrierbar. Unser Ziel ist es, das Integral zu berechnen. Es gibt numerische Ansätze über sogenannte R [0,1]d f dλ Quadraturformeln, wel- che im Wesentlichen die folgende Approximation liefern: Z f dλ ≈ [0,1]d n X βi f (xi ), i=1 βi ∈ R Koezienten für die Stützstellen xi ∈ [0, 1]d sind. All diese Parameter werden je nach Verfahren geeignet gewählt. Dies kann benutzt werden, um ≈ genauer zu quantizieren. Ist d klein und f glatt (also z.B. hinreichend oft wobei stetig dierenzierbar mit beschränkten Ableitungen etc.), so werden vergleichsweise wenige Stützstellen benötigt. Ist jedoch d groÿ und f nicht glatt genug, so werden im Allgemeinen sehr viele Stützstellen benötigt. Wir wollen uns daher nun die Monte-Carlo-Integration anschauen, welche in diesem d Fall deutlich bessere Ergebnisse liefert. Seien Xi : Ω → [0, 1] i.i.d. Zufallsvariablen mit PXi = λ[0,1]d . Dann sind auch f ◦ Xi i.i.d. und E(f ◦ X1 ) < ∞. Mit dem Gesetz der groÿen Zahlen II.8.8 folgt dann n 1X P -f.s. f ◦ Xi −→ EP (f ◦ X1 ) = n i=1 Z f dλ. [0,1]d Zur Abschätzung des Approximationsfehlers kennen wir bereits: i) Die Ungleichung aus dem Beweis von II.8.2 für ii) Die Hoeffdings-Ungleichung für Beide Ungleichungen sind von Satz II.8.12 d f f ∈ L2 . beschränkt. und von der Glattheit von f unabhängig. Glivenko-Cantelli (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xi : Ω → R i.i.d. Zufallsvariablen. Ferner sei F die Verteilungsfunktion von X1 (und damit X2 , X3 usw.), sowie Sei Fn : R → [0, 1] n 1X x 7→ 1(−∞,x] (Xi ) n i=1 die empirische Verteilungsfunktion der lim sup sup |Fn (x) − F (x)| = 0 n→∞ Xi . Dann gilt P -f.s. x∈R Kurz: Die empirische Verteilungsfunktion konvergiert - 110 / 145 - P -f.s. gleichmäÿig gegen F. Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Beachte: Eigentlich ist Fn in der Literatur jedoch oft ω∈Ω Seite 111 R × Ω → [0, 1], diese Abhängigkeit von Ω wird vernachlässigt. Fn ist daher eine zufällige Funktion, da für eine Funktion gilt: n Fn (x, ω) = Beweis 1X 1(−∞,x] (Xi (ω)). n i=1 : Der Beweis wird hier nicht geführt, ndet sich jedoch zum Beispiel in Klenke auf Seite 117. II.9. Konvergenz in Verteilung revisited Bis jetzt haben wir für reelle Zufallsvariablen X Z Xn → X in Verteilung :⇔ für alle stetigen und beschränkten und Xn (n ≥ 1) deniert: Z f dPXn → f dPX f : R → R. Dies ist eigentlich ein Konvergenzbegri für Wahrscheinlichkeitsmaÿe auf ten wir in II.7.5 gezeigt, dass aus Xn → X stochastisch folgt, dass R. Ferner hatXn → X in Verteilung. Lemma II.9.1 X reelle Zufallsvariablen mit den Verteilungsfunktionen (Fn ) und F . Konvergiert Xn → X in Verteilung, so folgt, dass Fn (x) → F (x) für alle x ∈ {x0 : F stetig in x0 }. Seien (Xn ) Beweis und x ∈ R und ε > 0 denieren wir fε , gε : R → R durch 1 y ≤ x 1 y−x fε (y) := 1 − ε x < y < x + ε und gε (y) := 1 − y−x+ε ε 0 y ≥x+ε 0 das heiÿt : Für fε und gε approximieren y ≤x−ε x−ε<y <x, y>x 1(−∞,x] . Es gilt Z Fn (x) = PXn ((−∞, x]) = 1(−∞,x] dPXn Z Z Z n.V. ≤ fε dPXn −→ fε dPX ≤ 1(−∞,x+ε] dPX = F (x + ε) Damit folgt lim sup Fn (x) ≤ F (x + ε) F in x stetig =⇒ lim sup Fn (x) ≤ F (x). n→∞ Analog zeigt man n→∞ lim inf Fn (x) ≥ F (x) - über gε . 111 145 / Damit folgt die Behauptung. - Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Satz II.9.2 Seite 112 Skorokhod-Darstellung (Ωn , An , Pn ) und (Ω, A, P ) Wahrscheinlichkeitsräume mit n ≥ 1: Ferner seien Xn : Ωn → R und X : Ω → R Zufallsvariablen mit den Verteilungsfunktionen Fn und F . Gilt Seien lim Fn (x) = F (x) für alle n→∞ x ∈ {x0 : F stetig in x0 }, ∗ ∗ ∗ so folgt, dass es einen Wahrscheinlichkeitsraum (Ω , A , P ) mit den Zufallsvaria∗ ∗ ∗ ∗ blen Xn : Ω → R und X : Ω → R gibt, so dass die folgenden Eigenschaften erfüllt sind: i) ii) iii) Xn∗ ∼ Xn . X∗ ∼ X. Xn∗ → X ∗ P ∗ -fast Auÿerdem: Es kann Beweis Ω ∗ : Setze sicher. Ω∗ = (0, 1), P ∗ = λ|(0,1) Ω∗ = (0, 1), A∗ = B|(0,1) und und A∗ = B|(0,1) P ∗ = λ|(0,1) . gewählt werden. Ferner setze für t ∈ (0, 1) = : Xn∗ (t) := inf{x ∈ R : t ≤ Fn (x)} X ∗ (t) := inf{x ∈ R : t ≤ F (x)}. 1. Schritt: Wir zeigen Xn∗ ∼ Xn und X∗ ∼ X. Es genügt, X∗ ∼ X zu zeigen, da ∗ es für die Xn aufgrund der Konstruktion völlig analog funktioniert. Dazu betrachte {x ∈ R : t ≤ F (x)}. Diese Menge ist ein Intervall, da F monoton wachsend ist. Ferner ist sie nach unten beschränkt, wobei sie links sogar abgeschlossen ist, da F rechtsseitig stetig ist. Daraus folgt {x ∈ R : t ≤ F (x)} = [X ∗ (t), ∞) Dies bedeutet, dass t ≤ F (x) (∗) genau dann, wenn X ∗ (t) ≤ x. Damit ist (∗) P ∗ ({t ∈ (0, 1) : X ∗ (t) ≤ x}) = P ∗ ({t ∈ (0, 1) : t ≤ F (x)}) = λ|(0,1) ((0, F (x)]) = F (x). ∗ Daraus folgt also, dass X die Verteilungsfunktion F hat. Mit I.6.2 folgt dann, dass ∗ ∗ und X die selbe Verteilung besitzen, also X ∼ X . 2. Schritt: Wir müssen nun noch die weis ist, dass X P ∗ -f.s. Konvergenz zeigen. Die Idee für diesen Be- Xn∗ , X ∗ im Wesentlichen die Umkehrfunktionen der Verteilungsfunktionen ∗ ∗ sind. Daraus folgt dann die Konvergenz von Xn gegen X auf den Stetigkeitspunkten. Diese haben das Maÿ 1. Dies führen wir nun formal aus. - 112 / 145 - Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Seite 113 t ∈ (0, 1) und ε > 0. Da F monoton wachsend und beschränkt ist folgt, dass {x0 : F unstetig in x0 } höchstens abzählbar ist. Daraus folgt, dass es ein x ∈ (X ∗ (t) − ε, X ∗ (t)) gibt, so dass F stetig in x ist. Aus (∗) folgt dann F (x) < t und nach Voraussetzung damit Fn (x) < t für alle n ≥ n0 mit einem geeigneten n0 . Wiederum ∗ ∗ ∗ ∗ aus (∗) folgt dann x ∈ (X (t) − ε, Xn (t)) für alle n ≥ n0 . Dann ist Xn (t) > X (t) − ε ∗ ∗ und damit schlieÿlich lim inf Xn (t) ≥ X (t) für alle t ∈ (0, 1). i) Sei t̃ ∈ (0, 1) mit t̃ > t, t ∈ (0, 1), ε > 0. Dann gibt es ein x ∈ (X ∗ (t̃), X ∗ (t̃) + ε), so ∗ ∗ dass F stetig in x ist. Wende nun (∗) auf x = X (t̃) an, so folgt, dass F (X (t̃)) ≥ t̃. ∗ Die Monotonie von F ergibt dann t < F (X (t̃)) ≤ F (x). Nach Voraussetzung ist damit Fn (x) ≥ t für alle n ≥ n1 mit einem geeigneten n1 . Aus (∗) folgt dann x ∈ (Xn∗ (t̃), X ∗ (t̃)+ε). Dann ist Xn∗ (t) < X ∗ (t̃)+ε und damit lim sup Xn∗ (t) ≤ X ∗ (t̃) für alle t̃ > t. ii) Sei X ∗ stetig in t ist, so folgt aus i) und ii), dass lim Xn∗ (t) = X ∗ (t) gilt. Da X ∗ monoton ∗ ist folgt, dass es nur abzählbar viele Unstetigkeitsstellen von X gibt. Diese haben das λ|(0,1) -Maÿ 0. Damit ist der Beweis vollständig. Falls Korollar II.9.3 Seien (Xn ), X n≥1 für Zufallsvariablen mit den Verteilungsfunktionen F. Dann sind die folgenden Aussagen äquivalent: i) Xn → X ii) und in Verteilung. Fn (x) → F (x) Beweis (Fn ) für alle x∈R an denen F stetig ist. : 1.) ⇒ 2.): Dies haben wir bereits in II.9.1 bewiesen. 2.) ⇒ 1.): Wir wählen Xn∗ und X∗ wie in II.9.2. Dort haben wir auch gesehen, ∗ ∗ ∗ ∗ ∗ dass dann Xn → X P -fast sicher. Mit II.7.5 folgt dann Xn → X in Verteilung. ∗ ∗ Da Xn ∼ Xn und X ∼ X gilt folgt auch Xn → X in Verteilung. Damit ist der Beweis vollständig. Korollar II.9.4 Seien Y (Xn ), X und Y reelle Zufallsvariablen mit in Verteilung. Dann folgt Xn → X in Verteilung und Xn → X ∼Y. - 113 / 145 - Ingo Bürk Kapitel II.9 Beweis Konvergenz in Verteilung revisited Seite 114 Fn , FX und FY jeweils die Verteilungsfunktionen von Xn , X und Y . Mit II.9.3 folgt dann Fn (x) → FX (x) und Fn (x) → FY (x) für alle x an denen FX und FY stetig sind. Für diese x ∈ R folgt damit FX (x) = FY (x). Da Verteilungsfunktionen : Seien rechtsseitig stetig sind und die Menge der Unstetigkeitsstellen aus Monotoniegründen höchstens abzählbar ist folgt damit sogar Bildmaÿe gleich und es folgt FX (x) = FY (x) (Ω, A, P ) X P -fast P ({X = c}) = 1. Xn , X : Ω → R Zufallsvariaheiÿt es gibt ein c ∈ R, so dass sicher konstant, das Dann sind die folgenden Aussagen äquivalent: i) Xn → X in Verteilung. ii) Xn → X stochastisch. 1.) Damit sind die ein Wahrscheinlichkeitsraum und seien blen. Ferner sei Beweis x ∈ R. X ∼Y. Korollar II.9.5 Sei für alle : ⇒ 2.): Sei F die Verteilungsfunktion von X. F ist. Sei nun Fn die Verteilungsfunktion Fn (x) → F (x) für alle x 6= c. Sei nun ε > 0, Unstetigkeitsstelle von Mit II.9.3 folgt dann c die einzige von Xn (n ≥ 1). Dann folgt, dass dann gilt: P ({|Xn − X| ≤ ε}) = P ({c − ε ≤ Xn ≤ c + ε}) ≥ P ({c − ε < Xn ≤ c + ε}) = Fn (c + ε) − Fn (c − ε) | {z } | {z } →F (c+ε) →F (c−ε) −→ 1 − 0 = 1. 2.) ⇒ 1.): Dies wurde in II.7.5 und II.7.3 bewiesen. Damit ist der Beweis vollständig. Korollar II.9.6 (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , X : Ω → R Zufallsvariablen. Ferner sei h : R → R messbar und für A := {x ∈ R : h ist nicht stetig in x} gelte PX (A) = 0. Weiter gelte Xn → X in Verteilung. Dann folgt, dass auch h ◦ Xn → h ◦ X in Verteilung. Sei - 114 / 145 - Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Seite 115 Beweis : Wir verzichten auf den Beweis, dass tatsächlich A ∈ B ist und überlassen ∗ ∗ ∗ dies als Übung. Sei nun (Ω , A , P ) wie in II.9.2 gegeben. Es gilt dann X ∗ ∼X P ∗ ({ω ∗ ∈ Ω∗ : X ∗ (ω ∗ ) ∈ A}) = PX∗ ∗ (A) = PX (A) = 0. ∗ ∗ Also gilt P -fast sicher X ∈ / A. Da Xn∗ → X ∗ P ∗ -fast sicher gilt folgt damit auch h ◦ Xn∗ → h ◦ X ∗ P ∗ -fast sicher. Dann folgt h ◦ Xn∗ → h ◦ X ∗ in Verteilung. Es reicht nun ∗ ∗ zu zeigen, dass h ◦ Xn ∼ h ◦ Xn und h ◦ X ∼ h ◦ X gilt. Es ist ∗ ∗ Ph◦X ∗ = (PX ∗ )h = (PX )h = Ph◦X und analog für Xn und Xn∗ statt X und X ∗. Damit ist der Beweis vollständig. Lemma II.9.7 Sei f : R → R stetig und beschränkt. Dann existiert eine Folge (gn ) mit gn : R → R gn (x) % f (x) für alle x ∈ R. Lipschitz-stetig und beschränkt, so dass Beweis hn : R → [− kf k∞ , ∞) Lipschitz-stetig und supn≥1 hn (x) = f (x). Dann ist gn := max{h1 , . . . , hn } das gesuchte n-te Folgenglied. Ferner können wir ohne Einschränkung annehmen, dass f ≥ 0 gilt, andernfalls nehme f + kf k∞ . Für A ⊂ R deniere d(x, A) := inf y∈A |x − y| als den Abstand von x zu A. Für Q 3 r ≥ 0 und m ≥ 1 deniere h̃m,r (x) := m · d(x, {f ≤ r}) (x ∈ R). Dann gilt: : Wir beschränken uns auf |h̃m,r (x) − h̃m,r (y)| = m · |d(x, {f ≤ r}) − d(y, {f ≤ r})| Sei z ∈ {f ≤ r} r}). mit d(y, z) ≤ d(y, {f ≤ r}) + ε und o.E. sei d(x, {f ≤ r}) ≥ d(y, {f ≤ Dann schätzen wir ab ≤ m · (d(x, z) − d(y, z) + ε) ≤ m · (d(x, y) + ε). ε → 0 folgt damit, dass h̃m,r Lipschitz-stetig mit der Konstante m ist. Deniere hm,r := min{r, h̃m,r }, diese Funktion ist dann Lipschitz-stetig und beschränkt und es gilt hm,r ≥ 0. Sei nun x ∈ R und ε > 0, dann gilt für alle 0 ≤ r ∈ Q mit f (x) − ε < r < f (x), dass es eine Umgebung U von x gibt, so dass f (y) > r für alle y ∈ U . Daraus folgt d(x, {f ≤ r}) > 0. Dann gibt es ein m0 ≥ 1 mit hm0 ,r (x) = r . Nun folgt f (x) − ε < hm0 ,r (x) und ferner gilt hm,r (x) ≤ r < f (x) für alle m ≥ 1 und alle Q 3 r ≥ 0 mit r < f (x). Auÿerdem gilt für r ≥ f (x) oensichtlich d(x, {f ≤ r}) = 0 und damit hm,r (x) = 0 ≤ f (x). Insgesamt gilt also hm,r (x) ≤ f (x) für alle m,r,x. Dann folgt Für nun sup hm,r (x) = f (x). m≥1,0≤r∈Q Damit ist der Beweis vollständig. - 115 / 145 - Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Satz II.9.8 Seien i) ii) (Xn ), X Xn → X reelle Zufallsvariablen. Dann sind die folgenden Aussagen äquivalent: in Verteilung. E(g ◦ Xn ) → E(g ◦ X) Beweis Seite 116 für alle Lipschitz-stetige und beschränkte g : R → R. : 1.) ⇒ 2.): Diese Aussage ist trivial. 2.) ⇒ 1.): Sei eine Folge (gn ) f: R → R stetig und beschränkt. Aus II.9.7 folgt dann, dass es mit Lipschitz-stetigen und beschränkten (∗) gilt. Ferner können wir gn (x) ∈ [− kf k∞ , kf k∞ ] lim inf E(f ◦ Xn ) ≥ lim inf E(gi ◦ Xn ) n→∞ gn gibt, so dass gn % f annehmen. Dann ist ∀i∈N n→∞ n.V = E(gi ◦ X). gi + kf k∞ ≥ 0. Ferner gilt Mit (∗) und I.11.13 folgt dann E(gi ◦ X) % E(f ◦ X). Dann gilt lim inf E(f ◦ Xn ) ≥ E(f ◦ X). n→∞ Analog gilt lim sup E(f ◦ Xn ) ≤ E(f ◦ X). n→∞ Führt man diese Aussagen zusammen, so folgt die Behauptung. Korollar II.9.9 Sei (Ω, A, P ) Satz von Slutsky ein Wahrscheinlichkeitsraum und seien fallsvariablen für n ≥ 1. stochastisch. Dann folgt Kurz: Um Ferner gelte Yn → X Xn → X Xn , Yn , X : Ω → R reelle Zu|Xn − Yn | → 0 in Verteilung und in Verteilung. Yn → X in Verteilung zu zeigen genügt |Xn − Yn | → 0 stochastisch ist. es, Xn zu nden, so dass Xn → X in Verteilung und - 116 / 145 - Ingo Bürk Kapitel II.9 Beweis Konvergenz in Verteilung revisited : Sei g: R → R Seite 117 Lipschitz-stetig und beschränkt. Dann gilt |E(g ◦ Xn − g ◦ Yn )| ≤ Z Z |g ◦ Xn − g ◦ Yn | dP + |g ◦ Xn − g ◦ Yn | dP {|Xn −Yn |>δ} {|Xn −Yn |≤δ} | {z } | {z } ≤2kgk∞ P ({|Xn −Yn |>δ}) ≤|g|1 δ ≤ 2 kgk∞ P ({|Xn − Yn | > δ}) + |g|1 δ . Für n→∞ und δ→0 folgt dann E(g ◦ Xn − g ◦ Yn ) → 0. Damit ist E(g ◦ Yn ) − E(g ◦ X) = E(g ◦ Yn − g ◦ Xn ) + E(g ◦ Xn − g ◦ X) | {z } | {z } →0 n.V. →0 −→ 0. Mit II.9.8 folgt dann die Behauptung. Korollar II.9.10 (Ω, A, P ) ein Wahrscheinlichkeitsraum und Xn , Yn , X : Ω → R Zufallsvariablen. Auÿerdem sei c ∈ R und es gelte Xn → X in Verteilung und Yn → c stochastisch. Dann folgt Xn + Yn → X + c in Verteilung. Sei Beweis Zn := Xn + (Yn − c). Dann ist |Xn − Zn | = |Yn − c| → 0 stochastisch. Mit II.9.9 folgt dann Zn = Xn + Yn − c → X in Verteilung. Wenden wir II.9.6 auf h(x) := x + c an, so folgt Xn + Yn → X + c in Verteilung. : Deniere Satz II.9.11 Seien fn dλ Xn , X reelle Zufallsvariablen mit Lebesguedichten fn bzw. f , das heiÿt PXn = und PX = f dλ. Gilt fn → f λ-fast sicher, so folgt Xn → X in Verteilung. - 117 / 145 - Ingo Bürk Kapitel II.9 Beweis Konvergenz in Verteilung revisited Seite 118 g ∈ Cb (R), dann gibt es ein c > 0Rmit |g(x)| ≤ c für R alle x ∈ R. Daraus folgt dann g(x) + c ≥ 0 für alle x ∈ R. Ferner gilt g dPX = −c + R (g + c)f dλ. Weiter R ist fn ≥ 0 und f ≥ 0. Damit folgt Z Z g dPX = −c + (g + c) lim inf fn dλ R R| {zn→∞ } ≥0 Z I.11.14 ≤ −c + lim inf (g + c) fn dλ | {z } n→∞ R : Sei dPXn Z g dPXn . = lim inf n→∞ R Setzt man oben nun überall Z −g statt g ein, so erhält man analog Z g dPX ≥ lim sup g dPXn . n→∞ R Damit ist der Beweis vollständig. Satz II.9.12 Seien (Xn ) Satz von Lévy-Gramér und X reelle Zufallsvariablen und (ϕn ), ϕ die zugehörigen charakteris- tischen Funktionen, das heiÿt ϕn : R → C Z t 7→ eitx dPXn (x) = EeitXn , R sowie analog für i) ii) Xn → X ϕ. Dann sind die folgenden Aussagen äquivalent: in Verteilung. ϕn (t) → ϕ(t) für alle t ∈ R. Anmerkung: Dieser Satz erlaubt es uns also, die Konvergenz in Verteilung zu überprüfen, indem man nur eine spezielle Klasse von Funktionen betrachtet, anstatt die sehr groÿe Klasse beliebiger stetiger Funktionen betrachten zu müssen. Beweis i) 1.) : ⇒ 2.): Es gilt Z ϕn (t) = −→ itx e Z Z Z dPXn (x) = cos(tx) dPXn (x) + i sin(tx) dPXn (x) Z cos(tx) dPX (x) + i sin(tx) dPX (x) = ϕ(t). - 118 / 145 - Ingo Bürk Kapitel II.9 ii) Konvergenz in Verteilung revisited ⇒ und Y 2.) 1.): Die Idee ist es, die erste Aussage zunächst für Seite 119 Xn + αY (mit α>0 eine gutartige Störung) zu beweisen. Dann wenden wir ein Grenzwertar- gument für α→0 an. Da Konvergenz in Verteilung und charakteristische Funktionen nur von den Bild- X̃n maÿen abhängen und wir stets Zufallsvariablen X̃ ∼ X und X̃ mit X̃n ∼ Xn und (X̃n ) und X̃ unabhängig sind, können wir ohne Einschränkung annehmen, dass Xn und X unabhängig sind. Ferner sei Y eine Zufallsvariable, die von Xn und X unabhängig ist und zudem gelte Y ∼ N (0, 1). Wir beweisen nden, so dass zunächst zwei Teilaussagen: a) PXn +αY hat eine stetige Verteilungsfunktion: Aus II.5.2 folgt, dass PXn +αY = PXn ∗ PαY ist. Für ci ∈ R mit ci → c gilt dann FXn +αY (ci ) = PXn +αY ((−∞, ci ]) = (PXn ∗ PαY )((−∞, ci ]) Z II.5.2 = PXn ((−∞, ci − Y ]) dPαY (x) {z } R| ∈[0,1] I.11.16 Z PXn ((−∞, c − Y ]) dPαY (x) = . . . = FXn +αY (c). −→ R b) Die charakteristische Funktion von Setze PXn +αY ist X -integrierbar: x ∈ R. Dann ist PαY = Ph◦Y = (PY )h . Z 1(−∞,c] dPαY PαY ((−∞, c]) = R Z = 1(−∞,c] d(PY )h RZ I.11.20 1(−∞,c] ◦ h dPY = R Z y2 1 Y ∼N (0,1) √ = 1(−∞,c] (αy)e− 2 dy Z2π R 2 1 − y2 2α =√ 1 (y)e dy (−∞,c] 2πα2 R = N (0, α2 )((−∞, c]). h(x) := αx für Daraus folgt dann also rakteristische Funktion ϕαY (t) = e− αY ∼ N (0, α2 ). Aus II.4.3 von αY wie folgt aussieht: α2 t2 2 für alle Ferner gilt nach II.4.7, da ϕXn · ϕαY . dann auch Xn ϕXn ϕXn +αY ∈ L1 (λ). Nach II.4.2 ist - und / 145 gilt t ∈ R. αY - c∈R wissen wir, dass die cha- unabhängig sind, auch beschränkt und es ist 119 Für ϕαY ∈ L1 (λ). ϕXn +αY = Damit gilt Ingo Bürk Kapitel II.9 Konvergenz in Verteilung revisited Die Umkehrformel II.4.6 sagt uns, dass PXn +αY λ-absolut Seite 120 stetig ist und folgende Lebesguedichte besitzt: Z 1 gα,n (x) = e−itx ϕXn +αY (t) dt 2π R Z α2 t2 1 e−itx ϕXn (t)e− 2 dt. = 2π R Analog erhält man, dass 1 gα (x) = 2π Z PX+αY die Lebesguedichte e−itx ϕX (t)e− α2 t2 2 dt R besitzt. Nun gilt nach Voraussetzung ϕXn (t) = ϕn (t) → ϕ(t) = ϕX (t) t ∈ R. Ferner gilt II.4.2 α2 t2 −itx − α22t2 e e ϕ (t) ≤ e− 2 Xn Mit I.11.16 folgt dann X + αY für alle für alle t ∈ R. gα,n (x) → gα (x) für alle x ∈ R. Mit II.9.11 folgt Xn + αY → in Verteilung. Damit ist der erste Teil des Beweises vollständig. Wir wenden uns dem Fall α = 0 g: R → R zu. Dazu sei beschränkt und Lipschitz- stetig. Ferner sei die Lipschitz-Konstante ohne Einschränkung ≤ 1 und es sei ε > 0. ε . Ferner existiert ein n0 ≥ 1, so Dann gibt es ein α > 0 mit P ({|αY | > ε}) ≤ kgk∞ dass: Z g(Xn + αY ) − g(X + αY ) dP ≤ ε da wir eben bewiesen hatten, dass für alle Xn + αY → X + αY n ≥ n0 , in Verteilung. Für n ≥ n0 gilt dann Z Z g(Xn ) − g(X) dP ≤ |g(Xn ) − g(Xn + αY )| dP Ω | {z } =:(1) Z + Z |g(Xn ) + αY ) − g(X + αY )| dP + |g(X + αY ) − g(X)| dP | {z } |Ω {z } Ω =:(2) ≤ε Wir schätzen nun noch die anderen beiden Integrale ab. Für (1) gilt: Z |g(Xn ) − g(Xn + αY )| dP = ZΩ |αY |≤ε Z |g(Xn ) − g(Xn + αY )| dP + | {z } |αY |>ε ≤|αY |≤ε - 120 / 145 |g(Xn ) − g(Xn + αY )| dP | {z } ≤2kgk∞ - Ingo Bürk Kapitel II.10 Damit ist dann also man ≤ 3ε. (2) (1) Der zentrale Grenzwertsatz Seite 121 ≤ ε + 2 kgk∞ P (|αY | > ε) ≤ ε + 2ε ≤ 3ε. Analog zeigt Damit gilt Z g(Xn ) − g(X) dP ≤ 7ε für alle n ≥ n0 . Aus II.9.8 folgt dann der Rest der Aussage. Damit ist der Beweis vollständig. II.10. Der zentrale Grenzwertsatz Satz II.10.1 Sei Zentraler Grenzwertsatz (Xn ) ⊂ L2 (P ) √ 1 n X nσ 2 k=1 Beachte: Die i.i.d., X ∼ N (0, 1), a := EX1 (Xk − a) −→ X Xk und σ 2 := Var X1 > 0. Dann gilt in Verteilung. sind im Allgemeinen nicht normalverteilt. Beweis 2 : Wir nehmen ohne Einschränkung a = 0 und σ = 1 an, andernfalls kann Xk −a man betrachten. Sei nun ϕ die charakteristische Funktion von X1 , so folgt mit σ2 Pn n √1 II.4.8, dass Y := k=1 Xk die charakteristische Funktion ϕ besitzt. Dann hat n Y die charakteristische Funktion Z it √1n y n dP (y) = ϕ e R Ferner hat ϕ n X t √ n . die charakteristische Funktion t √ n t2 −→ e− 2 t2 e− 2 nach II.4.3. Mit II.9.12 reicht es daher t∈R für alle EX12 < ∞ ϕ zweimal stetig dierenzierbar −2 ist. Mit dem Satz von Taylor folgt, dass es ein η : R → R gibt, so dass limt→∞ t η(t) = 0 ist. Nun ist zu zeigen. Nach II.4.7 und wegen ϕ(t) = ϕ(0) + tϕ0 (0) + folgt, dass t2 00 ϕ (0) + η(t) 2 t2 = 1 + it EX1 − EX12 +η(t). |{z} 2 |{z} II.4.7 =0 =1 - 121 / 145 - Ingo Bürk Kapitel II.10 Der zentrale Grenzwertsatz Damit ist also ϕn t √ n ϕ(t) = 1 − t2 2 + η(t) für alle t ∈ R. Seite 122 Dann ist n 2 t t = 1− +η √ = 1 − 2n n t2 2 − nη n √t n n t2 −→ e− 2 , da 1− x n n → e−x und nη √t n →0 gilt. Damit ist der Beweis vollständig. Anmerkung: Wir müssen nun noch betrachten, was für den Fall σ 2 = Var X1 = 0 passiert. Die Aussage des oben formulierten Satzes ist äquivalent zu n 1 X √ Xk −→ N (a, σ 2 ). n k=1 Wir denieren uns für diesen Fall N (a, 0) := 2 valente Aussage auch für σ = 0, denn es ist X1 = a P -fast sicher. Dann ist aber gerade δ{a} . Dann gilt die eben formulierte, äqui2 0 = σ 2 = E(X1 − EXP 1 ) und daraus folgt X1 ∼ δ{a} . Dann ist √1n nk=1 Xk ∼ δ{a} und der Beweis ist vollständig. Korollar II.10.2 (Xn ) ⊂ L2 (P ) i.i.d., a := EX1 und σ 2 := Var X1 > 0. α, β ∈ R mit α < β : ( )! Z β n t2 1 X 1 P α< √ (Xk − a) ≤ β −→ √ e− 2 dt. 2π α nσ 2 k=1 Sei Dann gilt für alle Die Zeichen < und ≤ können dabei auch durch ≤ und < ersetzt werden. Beweis : II.10.1 zeigte, dass √1 nσ 2 Yn := Pn k=1 (Xk − a) → N (0, 1) in Verteilung. N (0, 1) stetig. Mit II.9.1 folgt, dass die VerFn von Yn punktweise gegen die Verteilungsfunktion F von N (0, 1) Fn (α) → F (α) für alle α ∈ R. Es ist Fn (α) = P (Yn ≤ α) und Ferner ist die Verteilungsfunktion von teilungsfunktionen konvergieren, also Rα t2 F (α) = √12π −∞ e− 2 dt. Dies kann man ebenso für β durchführen und dann die Differenz bilden. Dies ist die erste Aussage des Satzes. Der Rest ist einfach und wird hier nicht ausgeführt. - 122 / 145 - Ingo Bürk Kapitel II.10 Der zentrale Grenzwertsatz Beispiel II.10.3: Es sei Seite 123 Der Grenzwertsatz von Moivre-Laplace Xi ∼ B(1, p), wobei die Xi unabhängig sein sollen. Zudem sei p ∈ (0, 1). EX1 = p und Var X1 = p(1 − p). Dann folgt mit II.10.2 für alle α,β : ( )! Z β n X t2 1 1 α< p (Xk − p) ≤ β −→ √ e− 2 dt. 2π α np(1 − p) k=1 Dann ist P Beispiel: • Dominierte Volksabstimmung Habe eine Volksabstimmung zu den Vorschlägen • 3.000 Wähler sind zu • 1.000.000 100% A von A und B. überzeugt. Wählern ist das absolut egal. Diese wählen zufällig. Wir stellen uns nun die Frage, wie groÿ die Wahrscheinlichkeit ist, dass A tatsäch- lich angenommen wird. Wir stellen folgenden Ansatz auf: Es seien ( 1 Xk (ω) = 0 Dies gilt für Ferner seien Votum für Votum für A B . k = 1, . . . , 1.000.000 =: n. Unsere Modellannahme ist Xi ∼ B 1, 12 . die Xi unabhängig. Für r := 3.000 gilt dann A wird angenommen genau dann, wenn n X +r > n − Xk |k=1{z } Stimmen für A | ⇔ n X n X k=1 Xk > Xk |k=1{z } Stimmen für A {z } Stimmen für B n−r = 498.500. 2 Nun ist P ( n X )! Xk > 498.500 ( Pn k=1 =P q n· k=1 1 und Var X1 2 dann approximieren zu Es ist EX1 = = Xk − 1 4 1 2 > 498.500 − 500.000 500 | {z } )! . =−3 1 . Nach II.10.3 können wir die Wahrscheinlichkeit 4 Z ∞ t2 1 ≈√ e− 2 dt 2π −3 ≈ 0.9986. Die Wahrscheinlichkeit, dass A angenommen wird, liegt also bei etwa - 123 / 145 - 99.9%. Ingo Bürk Kapitel II.10 Der zentrale Grenzwertsatz Satz II.10.4 Seite 124 Berry-Esseen (Xi ) ⊂ L3 (P ) i.i.d. und Z x t2 1 e− 2 dt Φ(x) := √ 2π −∞ Seien die Verteilungsfunktion der N (0, 1)-Verteilung. Dann gilt für a := EX1 und σ 2 := Var X1 > 0: ( )! n X 1 E|X1 |3 √ sup P (Xk − a) ≤ x − Φ(x) ≤ 0.8 · 3 √ . σ n x∈R nσ 2 k=1 Kurz: Die Verteilungsfunktion von N (0, 1) wird im zentralen Grenzwertsatz gleichmäÿig 1 approximiert. Die Konvergenzrate ist √ . n Beweis : Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Klenke als Satz 15.51. Beispiel: Normal- oder Poissonapproximation von B(n, p)? −λ λk Die Poissonverteilung mit Parameter λ hat die Zähldichte pk := e , k ∈ N0 . Im k! Beispiel I.3.10 hatten wir |B(n, p)(A) − Pois(np)(A)| ≤ 2np2 für alle A ⊂ N0 , n ≥ 1, p ∈ (0, 1). Pois(np) approximiert also B(n, p) für kleine np2 . Ferner hatten wir oben gesehen, dass 1 n X p np(1 − p) k=1 (Xk − p) ≈ N (0, 1) n 1 X ⇔ √ Xk ≈ N (p, p(1 − p)). n k=1 Welche Approximation sollte man benutzen? Dafür gibt es die folgende Faustregel: np(1 − p) > 0.9, so sollte man die N (0, 1)-Approximation p ≤ 0.05 und n > 50 sollte man die Pois(np)-Approximation kleine n schlieÿen sich die Bedingungen aus. Ist - 124 / 145 - verwenden. Für verwenden. Für Ingo Bürk Kapitel II.10 Satz II.10.5 Der zentrale Grenzwertsatz Seite 125 2. Grenzwertsatz von Lindeberg für Dreiecksschemata (mn ) ⊂ N mit mn →P∞ und für n ≥ 1 seien Xn,1 , . . . , Xn,mn ⊂ L2 (P ) unabhänmn 2 gig mit EXn,i = 0 und i=1 EXn,i = 1. Weiter gelte die Lindeberg-Bedingung: Sei mn X 2 1|Xn,i |≥ε −→ 0 E Xn,i für alle ε > 0. i=1 Dann gilt: mn X Xn,i −→ N (0, 1) in Verteilung. i=1 Beweis : Der Beweis wird hier nicht geführt, ndet sich aber zum Beispiel in Mein- trup+Schäer als Satz 7.38. Korollar II.10.6 2 Sei (Xn ) ⊂ L2 (P ) unabhängig und EX1 Pn 2 2 sn := k=1 EXk > 0 und sn > 0. Gilt n 1 X E Xi2 1|Xi |≥εsn −→ 0 2 sn i=1 > 0, EXn = 0 für alle für alle n ≥ 1. Setze ε > 0, so folgt n 1 X Xk −→ N (0, 1) sn k=1 Beweis : Setze Weiter ist mn X i=1 EXn,i in Verteilung. mn := n und Xn,i := s1n Xi . Dann sind die Xn,1 , . . . , Xn,mn unabhängig. P P 2 = s1n EXi = 0. Es ist auÿerdem ni=1 EXn,i = s12 ni=1 EXi2 = 1 und 1 2 E Xn,i 1|Xn,i |≥ε = 2 sn n mn X E Xi2 1|Xi |≥εsn → 0. i=1 Mit II.10.5 folgt n n X 1 X Xi = Xn,i −→ N (0, 1). sn i=1 i=1 - 125 / 145 - Ingo Bürk Kapitel II.10 Der zentrale Grenzwertsatz Seite 126 Damit ist der Beweis vollständig. Bemerkung: Mehrdimensionale Varianten X : Ω → Rd ein Zufallsvektor mit E kXk2 < ∞ ( L2 -Bedingung). Dann sei EX := (EX1 , . . . , EXd ), wobei X = (X1 , . . . , Xd ) ist. Ferner sei die Covarianz gegeben durch Cov(X) := ((Cov(Xi , Xj ))di,j mit Cov(Xi , Xj ) := E((Xi − EXi )(Xj − EXj )). Für i = j ist also Cov(Xi , Xj ) = Var Xi . X heiÿt multivarial normalverteilt genau dann, wenn hv, XiRd : Ω → R für alle v ∈ Rd normalverteilt ist. Man kann zeigen, dass es in diesem d Fall genau eine quadratische, symmetrische Matrix Σ und ein a ∈ R gibt, welche die Verteilung von X bestimmen. Wir schreiben hierfür dann N (a, Σ). 2 Seien Xn,1 , . . . , Xn,mn d-dimensionale Zufallsvektoren mit EXn,i < ∞, EXn,i = 0 und es P m n d×d existiere eine Matrix A ∈ R mit i=1 Cov(Xn,i ) = A, Pmn 2 sowie i=1 E kXn,i k 1kXn,i k>ε → 0 für alle ε > 0. Dann folgt Sei mn X Xn,i −→ N (0, A) in Verteilung. i=1 - 126 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Seite 127 III. Eine kurze Einführung in die Statistik Bisher haben wir Zufallsexperimente mit Wahrscheinlichkeitsräumen modelliert, um dann mittels der erarbeiteten Theorie eine Vorhersage über die Beobachtungen zu machen. Mit die wichtigsten Ergebnisse waren so zum Beispiel: • • Das starke Gesetz der groÿen Zahlen (SLLN, engl. strong Pn 1 sagte aus, dass für (Xi ) ⊂ L1 (P ) i.i.d. gilt, dass i=1 Xi n law of large numbers ) → EX1 P -fast sicher. Der zentrale Grenzwertsatz (CLT, engl. central limit theorem ) sagte aus, dass für Pn 1 i.i.d. gilt, dass √ i=1 Xi → N (EX1 , Var X1 ) in Verteilung. n (Xi ) ⊂ L2 (P ) • Das 0-1-Gesetz sagte für unabhängige (Xi ) aus, dass P (∃ lim Xi ) ∈ {0, 1}. Dieses Vorgehen ist typisch für die Wahrscheinlichkeitstheorie. In der Statistik wird im weitesten Sinne das inverse Problem betrachtet: Es wird versucht, aus Beobachtungen auf Eigenschaften des zugrundeliegenden Wahrscheinlichkeitsraumes zu schlieÿen. Wir d werden uns dabei an dieser Stelle auf R -wertige Funktionen beschränken. III.1. Deskriptive Statistik Ziel: Daten von Beobachtungen sollen geordnet und übersichtlich dargestellt werden, um sich einen ersten Überblick zu verschaen, eventuelle Fehler in den Daten zu erken- nen und möglicherweise erste geschieht Hypothesen über die Gesetzmäÿigkeiten aufzustellen. Dies ohne wahrscheinlichkeitstheoretische Hilfsmittel. Beispiel: Altersverteilung der männlichen Bevölkerung in den alten Bundesländern Wir haben circa 30 Millionen Männer mit dem zugehörigen Alter (z.B. vom statisti- schen Bundesamt). Die Anzahl der Datensätze hat zur Folge, dass es nicht möglich ist, sich jeden dieser Datensätze einzeln anzuschauen. Die Frage ist also: Wie können wir uns einen ersten Überblick verschaen? Wir wollen einige Möglichkeiten vorstellen: i) Wir nehmen eine Stichprobe. ii) Wir erstellen uns eine Tabelle, indem wir Daten zusammenfassen: - 127 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Seite 128 Tabelle 1 Alter Anzahl Alter Anzahl in Jahren in Tausend in Jahren in Tausend [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35, 40) [40, 45) [45, 50) 1679 1787 1913 1788 1830 1930 2660 2971 2645 2253 [50, 55) [55, 60) [60, 65) [65, 70) [70, 75) [75, 80) [80, 85) [85, 90) [90, 95) 2070 1762 2214 1618 1262 808 411 202 73 Dies ist eine mögliche Zusammenfassung der Daten. Es sind aber je nach Zweck durchaus andere Vorgehensweisen denkbar: Tabelle 2 Alter in Jahren Anzahl in Tausend [0, 6) [6, 15) [15, 65) [65, 95) 2033 3347 22127 4377 Beschreibung Kleinkinder Schüler Arbeitnehmer, Studenten, usw. Rentner iii) Grasche Darstellungen - Man kann Informationen einer Tabelle zusammenfassen und dann zum Beispiel als Säulendiagramm darstellen, wie in Abbildung 1 gezeigt. Abbildung 1: Darstellung von Tabelle 1 - 128 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Seite 129 Abbildung 2: Darstellung von Tabelle 2 - Man beachte, dass die Fläche für die Rentner viel gröÿer wirkt, obwohl die Höhe im Wesentlichen ähnlich ist. Dieses Problem taucht bei Histogrammen nicht auf. iv) Histogramme - Diese stellen einen Alternativansatz dar. Hier werden die Säulen so gewählt, dass nicht ihre Höhe, sondern die Fläche proportional zu den Einträgen der Tabelle ist, wodurch das in Abbildung 2 zu erkennende Problem der mensch- I1 , . . . , Im disjunkte X = [0, 95]). Mit λ(Ii ) bezeichnen wir die Länge der Intervalle (also die Breite der Säulen). Ferner sei hi die Höhe der i-ten Säule und ni die relative Häugkeit im Intervall, das heiÿt, sind x1 , . . . , xn unsere Beobachtungen, so ist ni := n1 |{j : xj ∈ Ii }|. Dann ist hi λ(Ii ) die Fläche der i-ten Säule, diese soll gleich ni sein. Damit erhält man lichen Wahrnehmung gelöst wird. Angenommen, wir haben Intervalle vom Beobachtungsraum hi = X (in diesem Fall ni . λ(Ii ) v) Andere Diagramme wie zum Beispiel Kreisdiagramme, Balkendiagramme usw. vi) Streudiagramme - Angenommen, wir haben 2-dimensionale Beobachtungen (1) (2) (1) (2) (x1 , x1 ), . . . , (xn , xn ) ∈ R2 . Dazu trägt man jeden Punkt im Koordinatensystem ein und erhält dann ein Diagramm wie in Abbildung 3. Mögliche Anwendungen sind zum Beispiel das Finden von Hypothesen über funktionale Zusammenhänge der beiden Komponenten oder das Aunden von Häufungen der Daten (sog. Clus- tering ). Man kann diese Diagramme wie folgt erweitern: • Beobachtungen haben die Form (1) (2) (3) (xi , xi , xi ), wobei (3) xi ∈ A mit |A| < ∞ und klein ist. Man stellt Unterschiede in dieser dritten Komponente dann durch eine unterschiedliche Farbwahl der Datensätze dar. - 129 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Seite 130 Abbildung 3: Streudiagramm. Die grünen Daten lassen einen Zusammenhang vermuten, die roten Daten zeigen das • Beobachtungen liegen im Clustering. Rd . Man stellt dann eine Streudiagramm-Matrix auf, die wie in Abbildung 4 aussieht. Dies kann man auch mit einer variierenden Farbgebung kombinieren. Dies kann hilfreich sein, muss es aber nicht, falls die Daten zum Beispiel auf höherdimensionalen Gebilden liegen. Daher gibt es weiterführende Werkzeuge wie Ggobi, welches zur graschen Darstellung genutzt werden kann. Definition III.1.1 Lagemaÿe n D = (x1 , . . . , xn ) ∈ R seien n Beobachtungen. Dann gibt es folgende Lagemaÿe, welche die Lage der Daten beschreiben: i) Mittelwert: x := 1 n ii) Median oder auch Pn i=1 xi . 1 -Quantil: 2 |{i : xi ≤ x̃}| 1 ≥ n 2 x̃ ist ein Median von D genau dann, wenn |{i : xi ≥ x̃}| 1 ≥ . n 2 ∧ Der Algorithmus hierfür sieht wie folgt aus: • Sortiere, so dass • Falls n x1 ≤ x2 ≤ . . . ≤ xn ungerade ist, so ist ist. x̃ := x n+1 . 2 Ist n gerade, so ist x̃ ∈ x n2 , x n2 +1 . Die genaue Denition des Medians (Mittelpunkt des Intervalls, gröÿter Wert, das gesamte Intervall etc.) variiert in der Literatur. - 130 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Seite 131 Abbildung 4: Streudiagramm-Matrix iii) τ -Quantile (τ ∈ (0, 1)): x̃ ist ein |{i : xi ≤ x̃}| ≥τ n τ -Quantil genau dann, wenn |{i : xi ≥ x̃}| ≥ 1 − τ. n ∧ x̃ liegen also circa τ ·100% der Daten und entsprechend circa (1−τ )·100% Daten rechts von x̃. Links von der iv) Modus oder auch Modalwert: Dies ist der am häugsten beobachtete Wert. Beachte: Die ersten drei dieser Lagemaÿe lassen sich auch für Wahrscheinlichkeitsmaÿe auf R i) ii) Sei denieren: Sei EP idR = R R P ein Wahrscheinlichkeitsmaÿ auf x dP (x), falls R. Dann kann man denieren: EP | idR | < ∞. τ -Quantil := {t ∈ R : P ((−∞, t]) ≥ τ ∧ P ([t, ∞)) ≤ 1 − τ }. D = (x1 , . . . , xn ) ∈ Rn . Dann denieren wir das empirische Maÿ: n 1X δ{xi } , D := n i=1 1 · |{i : xi ∈ A}|. Man erhält dann die in III.1.1 denierten Lagemaÿe n aus diesen Verallgemeinerungen. das heiÿt D(A) = - 131 / 145 - Ingo Bürk Kapitel III.1 Deskriptive Statistik Definition III.1.2 Seien n Seite 132 Statistische Streumaÿe Beobachtungen D = (x1 , . . . , xn ) ∈ Rn gegeben. Dann gibt es folgende Streumaÿe: i) Varianz / Standardabweichung: n Var D := 1X (xi − x)2 n i=1 Korrigierte Varianz: n s2n 1 X := (xi − x)2 n − 1 i=1 In der Literatur wird s2n oft als die Varianz bezeichnet, nicht als korrigierte Vari- anz. Die Standardabweichung erhält man dann jeweils durch Wurzelziehen dieser Varianzen. ii) Spannweite: max xi − min xi i=1,...,n iii) i=1,...,n p-Quantilsabstand (p ∈ 0, 21 ): Sei qp das p-Quantil und q1−p das (1 − p)Quantil. Dann ist der p-Quantilsabstand deniert als q1−p − qp , das heiÿt im Intervall [qp , q1−p ] liegen mehr als (1 − 2p) · 100% Prozent der Daten (bis auf Rundungen), denn in [qp , ∞) liegen mehr als (1 − p) · 100% der Daten und in (−∞, ∞) \ (−∞, q1−p ] = (q1−p , ∞) liegen weniger als p · 100% der Daten. 1 nennen wir dies den Quartilsabstand. Für p = 4 iv) Mittlere absolute Abweichung: n 1X |xi − x| n i=1 n 1X |xi − x̃| n i=1 Weitere Maÿe sind zum Beispiel die Schiefe oder der Excess. 1 Anmerkung: Wir wollen erklären, wieso man in der korrigierten Varianz n−1 statt 1 verwendet. Es seien X1 , . . . , Xn i.i.d. und Xi n Daten sind Realisierungen der Xi , das heiÿt xi - 132 / 145 ∈ L2 (P ) mit EX1 =: µ. = Xi (ω) (i = 1, . . . , n). - Die Idee ist: 2 Setze Sn := Ingo Bürk Kapitel III.1 1 n Pn i=1 Deskriptive Statistik Xi − 1 n Pn j=1 Xj 2 , das heiÿt sieht nun der Erwartungswert EP Sn2 Sn2 (ω) = Var D mit 1 n Pn aus? Für X := Seite 133 D = (X1 (ω), . . . Xn (ω)). j=1 Xj Wie gilt: E(Xi − X)2 = E((Xi − µ)2 − 2(Xi − µ)(X − µ) + (X − µ)2 ). Damit folgt dann n ESn2 n n 2X 1X 1X = E(Xi − µ)2 − E(Xi − µ)(X − µ) + E(X − µ)2 n i=1 | {z } n i=1 n i=1 =Var X1 = Var X1 − 2E(X − µ)(X − µ) + E(X − µ)2 = Var X1 − E(X − µ)2 = Var X1 − Var X n 1 X = Var X1 − 2 Var X1 n i=1 = Var X1 − = 1 Var X1 n n−1 Var X1 n Da man gerne Beispiel: E(empirische Varianz) = Var X1 hat sollte man mit n−1 statt n teilen. Box-Whisker-Plots Hier geht es um die graphische Darstellung von Lage- und Streumaÿen. Der Begri Whisker kommt von den Schnurrbarthaaren einer Katze. Dieses Schaubild wird in Abbildung 5 gezeigt. Abbildung 5: Beispiel eines Box-Whisker-Plots Mögliche Denitionen der Whisker: • min xi i=1,...,n und • 2.5%-Quantil max xi , i=1,...,n und also die Darstellung der Spannweite. 97.5%-Quantil. - 133 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests • min xi max xi , und die Länge der Whisker ist aber maximal gleich Seite 134 1.5 Mal dem Quartilsabstand. In den letzten beiden Fällen werden Daten auÿerhalb der Whisker häug als Punkte eingezeichnet. Werden Box-Whisker-Plots für mehrere Datensätze gleichzeitig betrachtet, so werden die Plots in der Regel senkrecht gezeichnet. III.2. Statistische Tests Einführende Beispiele: i) Qualitätsprüfung: Betrachte das Abfüllen von Mineralwasser in Flaschen. Der Sollwert ist 0.7 Liter. Es werden n die gemessenen Füllmengen. Sei zum Beispiel s2n = 0.003. x1 , . . . , x n x = 0.71 und Flaschen überprüft und es bezeichnen n = 100 und es sei Wird der Sollwert nun eingehalten? n = 10 4-Zimmer-Wohnungen mit Kaltmiete-m2 -Preis 2 und m = 5 5/6-Zimmer-Wohnungen mit Kaltmiete-m -Preis y1 , . . . , y5 . ii) Mietspiegel: Wir betrachten x1 , . . . , x10 Gibt es einen Preisunterschied zwischen den beiden Wohnungstypen? Stochastische Modellierung: • Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, wobei wir hier von Ω ⊂ R ausgehen wollen (dies muss i.A. aber nicht so sein). Ferner sei Xi := πi : n n O i=1 i=1 × Ω, A, n O ! →Ω P i=1 (ω1 , . . . , ωn ) 7→ ωi , die Xi sind dann i.i.d. und es ist Xi ∼ P . Dann ist die Grundannahme, dass die Beobachtungen x1 , . . . , xn gerade Realisierungen der ω ∈ Ωn mit xi = Xi (ω) (i = 1, . . . , n). Xi sind, das heiÿt es gibt ein Als Erweiterung für das obige Mitspiegel-Beispiel betrachte einen weiteren Wahr0 0 scheinlichkeitsraum (Ω , A , Q) und dann für i = 1, . . . , n: n Xi := πi : ×Ω × ×Ω , 0 i=1 und für m n O A⊗ m O A0 , n O P⊗ m O j=1 i=1 j=1 i=1 j=1 m n O m O n O m O ! Q →Ω j = 1, . . . , m: n Yj := πj+n : ×Ω × ×Ω , 0 i=1 j=1 A⊗ i=1 Die Annahme ist dann, dass es ein ω A0 , j=1 gibt, so dass i=1 P⊗ ! Q → Ω0 . j=1 xi = Xi (ω), yj = Yj (ω) für alle i, j . - 134 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests Problem ist, dass wir Seite 135 Ansatz ist: Es sei P (und Q) eine Menge von Wahrscheinlichkeitsmaÿen auf (Ω, A). Wir wissen, dass P ∈ P ist. Dieses P dient dazu unser Vorwissen über das unbekannte P zu beschreiben. Das P und Q nicht kennen. Unser Typische Szenarien: • P = {Pϑ : ϑ ∈ Θ} und Θ ⊂ Rd , also P wird mit P ∗ bezeichnet und wir nehmen Es sei Θ = [0, 1]. Das richtige ∗ ∗ genau ein ϑ mit Pϑ∗ = P zum Beispiel an, dass es gibt. Dies ist eine so genannte parametrische Annahme. Dies ist das Szenario, mit welchem wir arbeiten werden. • Zum Vergleich sei hier angemerkt, dass es Szenarien gibt, in welchen P keine solche Form hat, zum Beispiel kann P die Menge aller Wahrscheinlichkeitsmaÿe ∗ auf Ω sein. Dann ist P ∈ P zwar auf jeden Fall erfüllt, wir haben ansonsten aber keinerlei Wissen über diese Wahrscheinlichkeitsmaÿe. Dies nennt man eine nichtparametrische Annahme, die zur nicht-parametrischen Statistik bzw. statistischen Lerntheorie gehört. Θ in Θ0 und Θ1 haben, es ist alΘ = Θ0 ∪ Θ1 eine disjunkte Vereinigung, wobei Θ0 , Θ1 6= ∅ sein sollen. Dann ist die ∗ Nullhypothese H0 : Der wahre Parameter ϑ liegt in Θ0 . Analog denieren wir die Alter∗ nativhypothese H1 : "‘ϑ ∈ Θ1 . Die Aufgabe ist es nun den Datensatz D = (x1 , . . . , xn ) zu verwenden um zwischen H0 und H1 zu entscheiden. Wir nehmen nun an, dass wir eine Aufteilung von so Beispiel: Qualitätssicherung 2 2 2 Zum Beispiel kann P = {N (µ, σ ), µ ∈ R und σ fest} oder P = {N (µ, σ ), µ ∈ 2 R, σ ≥ 0} sein. Beachte, dass dies nur einen approximativen Charakter hat und nicht 100%-ig richtig sein kann, da negative Füllmengen keinen Sinn ergeben. P und setzen Θ0 := (−∞, 0.7) Θ1 := [0.7, ∞). Man spricht hier von einem einseitigen Testproblem. Man könnte aber auch Θ0 := {0.7} und Θ1 := R \ {0.7} betrachten, dies würde man ein Wir betrachten nun den erstgenannten Fall für und zweiseitiges Testproblem nennen. Beispiel: Mietspiegel 2 2 Hier könnte man zum Beispiel P ⊗ Q ∈ {N (µX , σX ) ⊗ N (µY , σY ), µX , µY ∈ R} mit 2 2 festen σX und σY betrachten. Mögliche Hypothesen wären hier Θ0 := {(µX , µY ) : µX 6= µY } und Θ1 := {(µX , µY ) : µX = µY }. Definition III.2.1 Statistischer Test Ein statistischer Test ist eine messbare Funktion Interpretation: Es sei ϕ ein statistischer Test und - 135 / 145 - ϕ : Ωn → [0, 1]. D ∈ Ωn . Dann bedeutet: Ingo Bürk Kapitel III.2 Statistische Tests • ϕ(D) = 1 - Entscheidung für H1 . • ϕ(D) = 0 - Entscheidung für H0 . • ϕ(D) ∈ (0, 1) - Entscheidung für H1 mit Wahrscheinlichkeit Seite 136 p = ϕ(D). Dies ist später nützlich, wenn wir optimale Tests konstruieren wollen. Beachte: Für alle für H1 angibt. Die D ∈ Ωn gilt, dass ϕ(D) die Wahrscheinlichkeit Fälle ϕ(D) ∈ {0, 1} sind lediglich Spezialfälle. Bemerkung: In der Literatur wird oft Beispiel: und x=D geschrieben. Beispieltest für Qualitätssicherung ( 1 ϕ(D) := 0 Hierbei ist X = Ωn für die Entscheidung c falls 1 n Pn i=1 xi > c sonst eine noch näher zu bestimmende Konstante, die von ϑ0 , n und σn2 abhängt. Beim Benutzen eines Tests können folgende Fehler auftreten: Entscheidung für H0 H1 H0 Entscheidung für H1 ist richtig X Fehler erster Art ist richtig Fehler zweiter Art X Ein Fehler dritter Art ist ein Modellierungsfehler, diese lassen sich mathematisch aber kaum beschreiben. Das Problem ist nun, dass es im Allgemeinen keinen Test gibt, der die Fehler erster und zweiter Art gleichzeitig eliminiert. Dies wollen wir illustrieren: Betrachte die Tests ϕ0 und ϕ1 , die durch ϕ0 (D) = 0 und ϕ1 (D) = 1 für alle D ∈ Ωn deniert sind. ϕ0 entscheidet sich niemals für ϕ1 H1 und macht daher keinen Fehler erster Art. Analog macht nie einen Fehler zweiter Art. Ein simultan bester Test müsste so gut wie Fehler erster Art und so gut wie ϕ1 ϕ0 bezüglich bezüglich Fehler zweiter Art sein, das heiÿt er dürfte keine Fehler machen. Dies ist im Allgemeinen aber nicht möglich. Folgende Auswege sind für dieses Problem möglich: • Gewichte die Summe der Fehlerwahrscheinlichkeiten. • Asymmetrische Betrachtung: Kontrolliere Fehler einer Art und versuche Fehler der anderen Art bezüglich der Kontrolle zu minimieren. - 136 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests Definition III.2.2 Seite 137 Gütefunktion (Ω, A) ein Messraum, P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen n auf (Ω, A) und ϕ : Ω → [0, 1] ein statistischer Test. Die Abbildung Sei βϕ : Θ → [0, 1] Z ϑ 7→ EPϑn ϕ = Ωn ϕ(D) dPϑn (D) heiÿt Gütefunktion. Interpretation: Wir erinnern uns daran, dass ϕ(D) die Wahrscheinlichkeit für die Entβϕ (ϑ) die mittlere Wahrscheinn lichkeit für die Entscheidung H1 , falls die Daten von Pϑ erzeugt werden. Anders interpretiert gibt βϕ (ϑ) die Wahrscheinlichkeit für Fehler erster Art an, falls ϑ ∈ Θ0 ist. Analog gibt 1 − βϕ (ϑ) die Wahrscheinlichkeit für Fehler zweiter Art an, falls ϑ ∈ Θ1 ist. scheidung H1 angibt, wenn man D beobachtet. Dann ist Definition III.2.3 (Gleichmäÿig bester) Test zum Niveau α (Ω, A) ein Messraum, P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen n auf (Ω, A) und α ∈ [0, 1]. Ein statistischer Test ϕ : Ω → [0, 1] heiÿt dann Sei i) Test zum Niveau α genau dann, wenn tation hierfür ist, dass α βϕ (ϑ) ≤ α für alle ϑ ∈ Θ0 ist. Die Interpre- die Wahrscheinlichkeit für Fehler erster Art kontrolliert. ii) gleichmäÿig bester Test zum Niveau α genau dann, wenn α ist und zusätzlich für alle Tests ϕ0 zum Niveau α gilt: 1 − βϕ (ϑ) ≤ 1 − βϕ0 (ϑ) für alle ϕ ein Test zum Niveau ϑ ∈ Θ1 . Solche Tests minimieren also die Wahrscheinlichkeit für Fehler zweiter Art, während die Wahrscheinlichkeit für Fehler erster Art durch Beispiel: Es sei α kontrolliert werden. Qualitätssicherung (einseitig) 2 σ := s2n = 0.003. Beachte, dass dies eine zusätzliche Annahme ist (und Pµ := N (µ, σ 2 ), damit prinzipiell ein Fehler dritter Art sein kann). Ferner sei P = (Pµ )µ∈Ω . Die Hypothesen lauten • H0 : µ ≤ 0.7 (Sollwert wird nicht überschritten), • H1 : µ > 0.7 (Sollwert wird überschritten). - 137 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests Seite 138 Betrachte nun ( 1 ϕ(D) := 0 1 n falls Pn i=1 xi > c sonst c Unser Ziel ist es, das . nun so zu bestimmen, dass ein vorgegebenes Niveau α erreicht wird. Der erste Schritt ist es, die Gütefunktion zu berechnen: ( βϕ (µ) = EPµn ϕ = Pµn ( = Pµn D: n X )! n 1X D: xi > c n i=1 )! xi > nc i=1 eiµt e− σ 2 t2 2 Xi ∼ N (µ, σ 2 ) unabhängig ist, so folgt mit II.4.7, dass die charakteristische Funktion von X1 + . . . +Xn n 2 2 nσ 2 t2 iµt − σ 2t = einµt e− 2 ist. Dies ist gerade die charakteristische Funkgerade e e Die charakteristische Funktion von tion von N (nµ, nσ 2 ). Pµ ist . Wenn Damit können wir umformen zu = N (nµ, nσ 2 )((nc, ∞)) Z ∞ (x−nµ)2 1 e− 2nσ2 dx =√ 2 2πnσ Z ∞ nc 2 1 − x2 =√ e dx 2π √n c−µ σ Ist Φ die Verteilungsfunktion von N (0, 1), so ist √ c−µ =1−Φ n . σ Nun wollen wir erreichen, dass ϕ ein Test zum Niveau α ist, das heiÿt βϕ (µ) ≤ α µ ≤ 0.7. Durch Einsetzen erhalten wir √ c−µ n ≤α ∀µ ≤ 0.7 1−Φ σ √ c−µ n ≥1−α ∀µ ≤ 0.7 ⇔ Φ σ für alle Da Φ monoton wachsend ist √ c − µ0 Φ n ≥1−α σ gilt für µ0 := 0.7. c. 1 − βϕ (µ) Beachte: Dies gibt uns eine untere Schranke für Ferner gilt, dass die Wahr- scheinlichkeit für Fehler zweiter Art gleich für - 138 / 145 - µ > µ0 ist. Dies ist aber Ingo Bürk Kapitel III.2 Statistische Tests gerade gleich √ Φ n c−µ σ heuristischen Ansatz: Wähle √ c − µ0 Φ n σ qα ∈ R √α . c := µ0 + σq n ist. Sei c . Dies ist klein, falls c Seite 139 klein ist. Daher wählen wir den so, dass =1−α so, dass Φ(qα ) = 1 − α. Dann setze qα =: √ 0 n c−µ σ und wir erhalten α := 0.05. Dann ist qα = 1.64 und damit c ≈ 0.7089. Am Anfang wurde ein empirischer Mittelwert von 0.71 angegeben. Das bedeutet nun also, dass der Test sich für H1 entscheidet. Sei in unserem Beispiel nun beispielsweise Definition III.2.4 Sei qα das Einseitiger Gauÿtest (1 − α)-Quantil von N (0, 1), das heiÿt Φ(qα ) = 1 − α für α ∈ (0, 1). Dann heiÿt der Test, der durch ϕ(D) := ( 1 0 falls 1 n Pn i=1 xi > µ0 + σq √α n sonst deniert ist, der einseitige Gauÿtest zum Niveau • H0 := {N (µ, σ 2 ), µ ≤ µ0 } α für die Hypothesen und • H1 := {N (µ, σ 2 ), µ > µ0 }, wobei µ0 ∈ R ist. Beachte: Es ist n n 1 X 1X σqα xi > µ0 + √ ⇔ √ (xi − µ0 ) > qα . n i=1 n nσ 2 i=1 Frage: Ist der einseitige Gauÿtest ein gleichmäÿig bester Test? Definition III.2.5 Monotoner Dichtequotient P = (Pϑ )ϑ∈Θ (mit Θ ⊂ R) eine Familie von Wahrscheinlichkeitsmaÿen auf (R, B) und T : Rn → R messbar. Dann heiÿt P Familie mit monotonem Dichtequotienten in T genau dann, wenn die folgenden Bedingungen erfüllt sind: Sei i) Pϑ 6= Pϑ0 für alle ϑ, ϑ0 ∈ Θ mit ϑ 6= ϑ0 . - 139 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests σ -endliches heiÿt Pϑ µ ii) Es existiert ein µ haben, das Maÿ µ für alle auf R, so ϑ ∈ Θ. ϑ0 , ϑ1 ∈ Θ mit ϑ0 < ϑ1 gϑ0 ,ϑ1 : R → R mit Nn f (D) Nn1 ϑ1 = gϑ0 ,ϑ1 (T (D)) 1 fϑ0 (D) iii) Für alle für Pϑn0 - und Pϑn1 -fast alle D ∈ Rn . dass alle Pϑ eine Dichte Seite 140 fϑ bezüglich existiert eine streng wachsende Funktion Dabei ist Nn 1 f (D) = f (x1 ) · . . . · f (xn ). Satz III.2.6 P = (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaÿen mit monotonem Dichn tequotienten in T : R → R. Sei ferner α ∈ (0, 1) und ϑ0 ∈ Θ ⊂ R, so dass Θ0 := {ϑ ≤ ϑ0 } und Θ1 := {ϑ > ϑ0 }. Dann ist der Test ϕ∗ , der durch 1 falls T (D) > c ∗ ϕ (D) := γ ∗ falls T (D) = c 0 falls T (D) < c Sei gegeben ist, ein gleichmäÿig bester Test zum Niveau α, falls gilt: Pϑn0 ({D : T (D) > c}) + γ ∗ Pϑn0 ({D : T (D) = c}) = α. Pϑn ({D : T (D) = c}) = 0 ist, so ist γ ∗ (1 − α)-Quantil vom Bildmaÿ von Pϑn0 unter T . Beachte: Falls beliebig wählbar und Kurz: Für einseitige Testprobleme reicht es, ein geeignetes T c gleich dem zu nden, denn dann ist die Konstruktion eines gleichmäÿig besten Tests zum Niveau α durch Satz III.2.6 beschrieben. Beispiel III.2.7: Einseitiger Gauÿtest σ 2 > 0, Pµ := N (µ, σ 2 ) (mit µ ∈ R), Θ := R und µ0 ∈ R fest mit Θ0 := (−∞, µ0 ] und Θ1 := (µ0 , ∞). Dann ist der einseitige Gauÿtest zum Niveau α ∈ (0, 1) gleichmäÿig bester Test zum Niveau α. Sei - 140 / 145 - Ingo Bürk Kapitel III.2 Beweis Statistische Tests Seite 141 : Es sei fµ (x) := √ 1 2πσ 2 e− Dies ist die Dichte von n O (x−µ)2 2σ 2 , x ∈ R. N (µ, σ 2 ) = Pµ . Dann folgt n Y (xi −µ)2 1 √ e− 2σ2 2πσ 2 i=1 n Pn 2 1 i=1 (xi −µ) 2σ 2 = √ e− 2πσ 2 fµ (D) = 1 und damit Nn f (D) N1n µ1 1 fµ0 (D) Pn 1 = e 2σ2 ( −n i=1 ((xi −µ0 )2 −(xi −µ1 )2 )) 2 µ2 1 −µ0 2σ 2 2(µ1 −µ0 ) 2σ 2 =e ·e = gµ0 ,µ1 (T (D)) Pn i=1 xi für −n und 2 µ2 1 −µ0 2σ 2 gµ0 ,µ1 (y) := e P T (D) = ni=1 xi . ·e µ1 −µ0 y σ2 Ferner ist gµ0 ,µ1 streng monoton wachsend in y, falls µ0 < µ 1 ist. Nun kann man Satz III.2.6 anwenden und die Tatsache verwenden, dass der einseitige ∗ Gauÿtest genau die Form ϕ im Satz angenommen hat. Bemerkungen zum einseitigen Gauÿtest: a) Vertauschen der Hypothesen: Möchte man Θ0 := [µ0 , ∞) und Θ1 := (−∞, µ0 ) testen, so betrachtet man die Modikation ϕ(D) := qα wobei das ( 0 1 1 falls √ 2 nσ Pn i=1 (xi − µ0 ) ≥ qα sonst α-Quantil von N (0, 1) , ist. b) Wenn relativ viele Daten vorhanden sind, dann gilt 1 √ nσ 2 n X (xi − µ∗ ) ≈ N (0, 1) i=1 nach dem zentralen Grenzwertsatz. Bei der Konstruktion des einseitigen Gauÿtests wurde n 1 X √ (xi − µ∗ ) ∼ N (0, 1) 2 nσ i=1 verwendet. Damit ist der Gauÿtest auch für nicht ungefähr ein Test zum Niveau N (µ∗ , σ 2 )-verteilte Beobachtungen α. - 141 / 145 - Ingo Bürk Kapitel III.2 Statistische Tests Θ0 := {µ0 } gegen Θ1 := R \ {µ0 } testen, ( 1 P 1 falls √nσ (x − µ ) 0 > q 1−α 2 i=1 i 2 ϕ(D) := 0 sonst c) Möchte man Seite 142 so kann betrachtet werden. Dies ist ein zweiseitiger Gauÿtest. 2 d) Ist die Varianz unbekannt, so müssen wir diese schätzen. Unser Ansatz ist, sn := Pn Pn 1 1 2 √ 2 i=1 (xi − µ0 ) zu verwenden. Als Test wählt i=1 (xi − x) und T (D) := n−1 ns n man ( 1 ϕ(D) := 0 mit c falls T (D) > c sonst (1 − α)-Quantil der tn−1 -Verteilung, − n2 Γ n2 x2 1 1+ · f (x) := p n−1 (n − 1)π Γ n−1 2 gleich dem gegeben ist. Hierbei ist Z Γ(x) := Γ welche durch die Dichte die Gammafunktion, welche durch ∞ tx−1 e−t dt 0 gegeben ist. Dieser Test heiÿt Student-t-Test. Ausblick: Was gibt es sonst noch? • Punktschätzung - zum Beispiel Schätzung von • Bereichsschätzung - Finden eines Intervalls EX ∈ I • EX , Var X , . . .. I , so dass mit hoher Wahrscheinlichkeit gilt. Robuste Statistik - Entwerfen von Verfahren für obige Probleme, die robust bzw. stabil gegenüber Fehlern in der Modellannahme oder Ausreiÿern sind. • Nicht-parametrische Statistik - Verzichten auf parametrische Modellannahmen. Hierbei wird in zwei Richtungen unterschieden: Klassische Richtung - einfache Verfahren zur Dichteschätzung und daraus ableitbare Probleme wie zum Beispiel Klassikation oder Regression. Moderne Richtung - computerintensive Verfahren für zum Beispiel hochdimensionale oder ungewöhnliche Daten wie Texten oder für ungewöhnliche Fragestellungen. - 142 / 145 - Ingo Bürk STICHWORTVERZEICHNIS Seite 143 Stichwortverzeichnis τ -Quantil, 128 p-Quantilsabstand, Dichte, 56 129 Lebesguedichte, 78 0-1-Gesetz von Kolmogorov, 90 Dichtequotient Monotoner Dichtequotient, 136 Additivität σ -Additivität, 6 σ -Subadditivität, Dirac-Maÿ, 14 Dirichlet 18 Dirichletformel, 79 Additivität, 6 Algebra Eindeutigkeitssatz, 79 σ -Algebra, 7 σ -Algebra der terminalen Ereignisse, Einschachtelungsargument, 100 Elementarfunktion, 44 88 Empirisches Maÿ, 128 Algebra, 7 Borelsche Ereignisraum, 5 σ -Algebra, 11 Erwartungswert, 43, 49 Erzeugendensystem, 10 erzeugte σ -Algebra, Erzeugendensystem, 10 Esseen 37 Produkt-σ -Algebra, 38 Satz von Berry-Esseen, 121 Spur-σ -Algebra, 24 Etemadi Alternativhypothese, 132 Starkes Gesetz der groÿen Zahlen, 104 Bayes Exponentialverteilung, 78 Formel von Bayes, 28 Beppo Levi Faltung, 83 Satz von Beppo Levi I, 50 fast alle µ-fast Satz von Beppo Levi II, 50 Bernoulli-Verteilung, 13 alle, 23 Fatou Berry Lemma von Fatou, 51 Satz von Berry-Esseen, 121 Fehler Bewegungsinvarianz, 6 Fehler erster Art, 133 Bienaymé Fehler zweiter Art, 133 Satz von Bienaymé, 71 Fubini Binomialverteilung, 14, 73 Satz von Fubini, 53 Borel Funktion Lemma von Borel-Cantelli I, 19 Charakteristische Funktion, 76 Lemma von Borel-Cantelli II, 87 Erzeugende Funktion, 73 Box-Whisker-Plot, 130 Indikator-, 35 messbare, 33 Cantelli Projektion, 38 Lemma von Borel-Cantelli I, 19 Lemma von Borel-Cantelli II, 87 Gütefunktion, 134 Satz von Glivenko-Cantelli, 108 Gauÿklammer, 100 Covarianz, 123 Gauÿtest - 143 / 145 - Ingo Bürk STICHWORTVERZEICHNIS einseitiger Gauÿtest, 136 Seite 144 Lévy Gedächtnislosigkeit, 78 Satz von Lévy-Gramér, 115 Gleichverteilung, 12, 24 Lagemaÿ, 127 τ -Quantil, Glivenko Satz von Glivenko-Cantelli, 108 128 Empirisches Maÿ, 128 Gramér Median, 127 Satz von Lévy-Gramér, 115 Mittelwert, 127 Modalwert, 128 Hölder Modus, 128 Hölder-Ungleichung, 59 Laplace Halbring, 19 Satz von Moivre-Laplace, 120 Histogramm, 126 Lebesgue Hoedings Lebesgue-Maÿ, 21 Hoedings-Ungleichung, 99 Lebesguedichte, 78 Satz von Lebesgue, 52 i.i.d., 68 Lindeberg Inhalt Zweiter Grenzwertsatz für Dreiecks- Inhaltsfunktion, 8, 17 schemata, 122 Inhaltsproblem, 6 Antwort, 6 Münzenwurf Integral unfaire, 13 Integral, 48 mehrfach, 13 nicht-negativer Funktionen, 47 wiederholter, 13 Satz zur majorisierten Konvergenz, Maÿ 52 σ -endlich, Satz zur monotonen Konvergenz, 50 von Elementarfunktionen, 45 Dirac-, 14 Integrierbarkeit µ-Integrierbarkeit, 48 p-fache µ-Integrierbarkeit, 20 Bild-, 39 Einschränkung, 24 endlich, 9 59 Fortsetzung, 20 Lebesgue-, 21 Kanonisches Modell, 67 Maÿfunktion, 8 Kolmogorov Maÿproblem, 6 0-1-Gesetz, 90 Antwort, 6 Korollar von Kolmogorov, 106 Maÿraum, 9 Konvergenz endlicher, 9 P -fast sicher, 91 im p-ten Mittel, 91 Wahrscheinlichkeitsmaÿ, 9 Zähl-, 14 im (Wahrscheinlichkeits-)Maÿ, 91 Maÿraum in Verteilung, 91 vollständiger, 23 stochastische, 91 Markov Teilfolgenkriterium, 93 Markov'sche Ungleichung, 64 Korrelation Median, 127 unkorreliert, 71 Menchov - 144 / 145 - Ingo Bürk STICHWORTVERZEICHNIS Satz von Menchov-Rademacher, 107 Satz von Radon-Nikodym, 57 Menchov-Rademacher Randverteilung, 42 Satz von Menchov-Rademacher, 107 Realisierung, 39 Menge Riesz-Fischer lim inf , 18 lim sup, 18 Satz von Riesz-Fischer, 95 Scheé kongruente, 5 Lemma von Scheé, 95 messbar, 8 Schwaches Gesetz der groÿen Zahlen, 97 oen, 11 Skorokhod orthogonale, 5 Skorokhod-Darstellung, 109 Zylinder-, 38 Slutsky Messbarkeit Satz von Slutsky, 114 messbare Funktion, 33 Spannweite, 129 Messraum, 8 Standardabweichung, 129 Minkowski Starkes Gesetz der groÿen Minkowski-Ungleichung, 59 Zahlen, 97, 104 Mittelwert, 127 Statistischer Test, 132 Modalwert, 128 Gleichmäÿig bester Test zum Niveau Modus, 128 α, Moivre 134 Test zum Niveau Satz von Moivre-Laplace, 120 α, 134 Statistisches Streumaÿ, 129 Moment, 60 k -tes Seite 145 Stetigkeit Moment, 60 σ -Stetigkeit, Momentenberechnung, 82 17 von oben, 17 zentriertes Moment, 60 von unten, 17 Monte-Carlo-Integration, 107 absolut stetig, 56 Normaldarstellung, 44 Stichprobe, 29 Normalverteilung, 62 mit Reihenfolge, 30 multivarial normalverteilt, 123 mit Zurücklegen, 30 Standardnormalverteilung, 62 ohne Reihenfolge, 30 Normiertheit, 6 ohne Zurücklegen, 30 Null-Eins-Gesetz von Kolmogorov, 90 Stirling Nullhypothese, 132 Formel von Stirling, 31 Nullmenge µ-Nullmenge, Stochastische Unabhängigkeit, 65, 66 Streudiagramm, 126 23 Streudiagramm-Matrix, 127 Poissonverteilung, 16, 74 Streumaÿ, 129 Projektion, 38 p-Quantilsabstand, 129 Korrigierte Varianz, 129 Quartilsabstand, 129 Mittlere absolute Abweichung, 129 Quartilsabstand, 129 Rademacher Spannweite, 129 Satz von Menchov-Rademacher, 107 Standardabweichung, 129 Radon-Nikodym - 145 / 145 - Ingo Bürk STICHWORTVERZEICHNIS Varianz, 129 Seite 146 a-priori-, 29 Streuung, 60 bedingte, 27 totale, 28 Test Wahrscheinlichkeitsraum, 9 Gleichmäÿig bester Test zum Niveau α, Laplace-Raum, 12 134 statistischer Test, 132 Test zum Niveau α, Zähldichte, 15 134 Zählmaÿ, 14 Tonelli Zentraler Grenzwertsatz, 118 Satz von Tonelli, 53 Zufallsvariable, 39 Transformationsformel, 55 abgeschnittene, 101 Treppenfunktion, 44 Erwartungswert, 49 Tschebysche erweiterte reelle, 39 Tschebysche-Ungleichung, 64 gedächtnislose, 78 gleichverteilte, 40 Umkehrformel, 81 i.i.d., 68 Unabhängigkeit identisch verteilte, 40 stochastische, 65, 66 Konvergenz, 91 unabhängige Zufallsvariablen, 66 reelle, 39 Urbild, 31 unabhängige, 66 Menge aller Urbilder, 31 unkorrelierte, 71 Urnenmodell, 29 zentrierte, 107 Zufallsvektor, 39 Varianz, 60, 129 Korrigierte Varianz, 129 Verteilung, 39 Bernoulli, 13 Binomial-, 14, 73 Exponentialverteilung, 78 gemeinsame, 42 Gleich-, 12, 24 i.i.d., 68 multivarial normalverteilt, 123 Normal-, 62 Poisson-, 16, 74 Rand-, 42 Standardnormal-, 62 Verteilungsfunktion, 25 Verteilungsfunktion, 25 empirische, 108 Würfelexperiment, 5 fairer Würfel, 12 Wahrscheinlichkeit a-posteriori-, 29 - 146 / 145 - Ingo Bürk SÄTZEVERZEICHNIS Seite 147 Sätzeverzeichnis 0-1-Gesetz von Komogorov, 90 Hoedings-Ungleichung, 99 Kolmogorov Bayes 0-1-Gesetz, 90 Formel von Bayes, 28 Korollar von Kolmogorov, 106 Beppo Levi Konvergenz Satz von Beppo Levi I, 50 Satz von der majorisierten Konver- Satz von Beppo Levi II, 50 genz, 52 Berry Satz zur monotonen Konvergenz, 50 Satz von Berry-Esseen, 121 Bienaymé Lévy Satz von Bienaymé, 71 Satz von Lévy-Gramér, 115 Borel Laplace Lemma von Borel-Cantelli I, 19 Satz von Moivre-Laplace, 120 Lemma von Borel-Cantelli II, 87 Lebesgue Satz von Lebesgue, 52 Cantelli Lindeberg Lemma von Borel-Cantelli I, 19 Zweiter Grenzwertsatz für Dreiecks- Lemma von Borel-Cantelli II, 87 schemata, 122 Satz von Glivenko-Cantelli, 108 Markov Dirichlet Markov'sche Ungleichung, 64 Dirichletformel, 79 Umkehrung, 64 Eindeutigkeitssatz, 79 Menchov Esseen Satz von Menchov-Rademacher, 107 Satz von Berry-Esseen, 121 Menchov-Rademacher Etemadi Satz von Menchov-Rademacher, 107 Starkes Gesetz dergroÿen Minkowski Zahlen, 104 Minkowski-Ungleichung, 59 Moivre Fatou Satz von Moivre-Laplace, 120 Lemma von Fatou, 51 Fubini Null-Eins-Gesetz von Kolmogorov, 90 Satz von Fubini, 53 Rademacher Glivenko Satz von Menchov-Rademacher, 107 Satz von Glivenko-Cantelli, 108 Radon-Nikodym Gramér Satz von Radon-Nikodym, 57 Satz von Lévy-Gramér, 115 Riesz-Fischer Satz von Riesz-Fischer, 95 Hölder Hölder-Ungleichung, 59 Scheé Hoedings Lemma von Scheé, 95 - 147 / 145 - Ingo Bürk SÄTZEVERZEICHNIS Seite 148 Slutsky Satz von Slutsky, 114 Starkes Gesetz der groÿen Zahlen, 104 Stirling Formel von Stirling, 31 Tonelli Satz von Tonelli, 53 Transformationsformel, 55 Tschebysche Tschebysche-Ungleichung, 64 Umkehrformel, 81 Wahrscheinlichkeit Formel von der totalen Wahrscheinlichkeit, 28 Zentraler Grenzwertsatz, 118 - 148 / 145 - Ingo Bürk