Jan-Cornelius Molnar Wahrscheinlichkeitstheorie Aufbauend auf einer Vorlesung von PD Dr. J. Dippon Stuttgart, Wintersemester 2009 / 2010 Version: 6. November 2011 13:28 Für Hinweise auf Druckfehler und Kommentare jeder Art bin ich dankbar. Viel Spaß!1 1 Jan-Cornelius Molnar [email protected] Inhaltsverzeichnis 0 Gegenstand der Vorlesung 5 1 Wahrscheinlichkeitsräume 7 1-A Algebren, Inhalte und Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1-B Wahrscheinlichkeiträume und -maße . . . . . . . . . . . . . . . . . . . . . 13 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Eigenschaften von Wahrscheinlichkeitsmaßen . . . . . . 18 Fortsetzung von Wahrscheinlichkeitsmaßen . . . . . . . . . . . . . 22 17 1-C Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 1-D Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 Kombinatorische Wahrscheinlichkeitsrechnung 35 3 Zufallsvariablen und Verteilungen 39 3-A Meßbare Abbildungen und Zufallsvariablen . . . . . . . . . . . . . . . . . 39 3-B Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Produktmessräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4 Erwartungswerte und Dichten 53 4-A Erwartungswert, Varianz und Lebesgue Integral . . . . . . . . . . . . . . 53 Erwartungswert mittels Riemann-Stieltjes-Integral . . . . . . . . . 54 Erwartungswert mittels Maß-Integral . . . . . . . . . . . . . . . . . 55 Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . 59 4-B Dichtefunktion und Zähldichte . . . . . . . . . . . . . . . . . . . . . . . . . 63 Der Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . 67 4-C Momente von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 5 Unabhängigkeit 71 75 5-A Unabhängige Ereignisse und Zufallsvariablen . . . . . . . . . . . . . . . . 76 Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 78 -1 Inhaltsverzeichnis Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5-B Null-Eins-Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6 Erzeugende und charakteristische Funktionen, Faltungen 89 6-A Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Konvergenzsätze der Maßtheorie . . . . . . . . . . . . . . . . . . . 95 6-B Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Eindeutigkeitssatz und Umkehrformeln . . . . . . . . . . . . . . . 103 6-C Faltungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7 Spezielle Verteilungen 113 7-A Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7-B Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8 Gesetze der großen Zahlen 123 8-A Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8-B Schwache und starke Gesetze der großen Zahlen . . . . . . . . . . . . . . 126 9 Zentrale Grenzwertsätze 135 9-A Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R . . . . . . . 135 9-B Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Multivariate zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . 160 10 Bedingte Erwartungen 163 10-AGrundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 11 Martingale 177 A Begriffe und Sätze der Maß- und Integrationstheorie 191 Literaturverzeichnis 193 4 6. November 2011 13:28 0- 0 Gegenstand der Vorlesung Realität Erfahrung Daten Beobachtung Modellierung Abstraktion 0.1 Axiomatische Theorie Analyse Anwendung Aussagen über die Realität Mathematisches Model Deduktion Interpretation Mathematische Eigenschaften Theoreme Schema Mathematische Modellierung. Gegenstand der Vorlesung ist es nicht, Aussagen darüber zu treffen, was “Zufall” oder “Wahrscheinlichkeit” konkret bedeutet. Wir haben die Absicht zu klären, welche Axiome für eine Wahrscheinlichkeit gelten und welche Eigenschaften sie erfüllen muss - sofern sie existiert. 6. November 2011 13:28 5 1-A 1 Wahrscheinlichkeitsräume 1-A Algebren, Inhalte und Maße Ziel dieses Abschnittes ist es, Abbildungen µ zu definieren, die einer Teilmenge eines Raumes Ω ein “Maß” zuordnen, µ : P(Ω) → R. Gehen wir von Ω = R aus und betrachten zunächst nur Intervalle als Teilmengen, so ist es nur natürlich diesen auch ihre Länge als “Maß” zuzuordnen, µ((a, b]) = b − a. G. Vitali1 hat jedoch bereits 1905 gezeigt, dass es nicht möglich ist, ein solches “Maß” dann für alle Teilmengen von R, d.h. auf der Potenzmenge P(R) zu definieren, es ist also notwendig sich lediglich auf eine Teilmenge von P(R) zurückzuziehen, d.h. man kann auch nur bestimmen Teilmengen von R mit einem solchen Maß “vermessen”. 1 Giuseppe Vitali (* 26. August 1875 in Ravenna; † 29. Februar 1932 in Bologna) war ein italienischer Mathematiker. 6. November 2011 13:28 7 1 Wahrscheinlichkeitsräume In der Wahrscheinlichkeitstheorie werden üblicherweise als Definitionsbereich von Maßen sogenannte σ -Algebren betrachtet. 1.1 Definition Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω heißt Algebra, wenn 1.) ∅ ∈ A, 2.) A ∈ A ⇒ Ω \ A ∈ A, 3.) A, B ∈ A ⇒ A ∪ B ∈ A oder äquivalent A1 , . . . , Am ∈ A ⇒ Sm i=1 Ai ∈ A. das System A heißt σ -Algebra, falls zusätzlich gilt, 3.*) An ∈ A für n ∈ N ⇒ S∞ n=1 An ∈ A. Ï Diese Definition einer Algebra ist nicht mit der aus der Vorlesung “Algebra” zu verwechseln. Dennoch existieren Parallelen. Vereinigung und Schnittbildung könnte man als Addition und Multiplikation betrachten, das Komplement als Inverses und die leere Menge als Identität. 1.1 Bemerkung. Ist A σ -Algebra, so ist A auch auch eine Algebra. Ç Wie wir noch sehen werden, besitzen Algebren zahlreiche angenehme Eigenschaften. Durch die Forderung dass Komplemente und Vereinigungen enthalten sind, ergibt sich beispielsweise automatisch, dass auch Schnitte und Differenzen enthalten sind. 1.1 Lemma a) Sei A eine Algebra, so gilt A1 , . . . , A m ∈ A ⇒ m \ n=1 An ∈ A. A, B ∈ A ⇒ A \ B ∈ A. b) Sei A eine σ -Algebra, so gilt außerdem An ∈ A für n ∈ N ⇒ 8 ∞ \ n=1 An ∈ A. Ï 6. November 2011 13:28 Algebren, Inhalte und Maße Eine Algebra (bzw. σ -Algebra) enthält somit stets ∅ und Ω und ist abgeschlossen gegenüber endlich (bzw. abzählbar) vielen üblichen Mengenoperationen. » a) Definition 1.1 besagt, A1 , . . . , Am ∈ A ⇒ Ac1 , . . . , Acm ∈ A. Mit den Regeln von De-Morgan folgt, c m m \ [ An = Acn ∈ A, n=1 Tm d.h. n=1 n=1 An ∈ A. b) Seien A, B ∈ A. Man sieht leicht, dass A \ B = A ∩ B c und daher ist auch A \ B ∈ A als Schnitt von A und B c . « 1.2 Definition Sei Ω eine nichtleere Menge und A eine σ -Algebra in Ω. Das Paar (Ω, A) heißt Messraum (mesurable space); die Elemente ∈ A heißen A-messbare Mengen. Entsprechendes gilt für σ -Algebra. Ï Man startet bei der Definition von Abbildungen auf Messräumen oft nur auf Teilmengen - wie z.B. den Intervallen in R - und dehnt anschließend den Definitionsbereich aus. Für diese Vorgehensweise sind folgende Ergebnisse zentral. 1.2 Lemma T a) Seien Aα Algebren in Ω, α ∈ I und I beliebige Indexmenge, so ist α∈I Aα eine Algebra in Ω. b) Sei C ⊆ P(Ω) ein Mengensystem in Ω, so es existiert eine kleinste C enthaltende Algebra. Ï » a) Wir führen den Beweis für σ -Algebren; der für Algebren wird analog geführt. T Aα sei für jedes α ∈ I eine σ -Algebra in Ω. Also ist auch ∅ ∈ α∈I Aα , da ∅ ∈ Aα für alle α ∈ I. Weiterhin gilt \ A∈ Aα a ∀ α ∈ I : A ∈ Aα ⇒ ∀ α ∈ I : Ac ∈ Aα α∈I a Ac ∈ \ α∈I Aα , sowie A1 , A2 , . . . ∈ \ α∈I Aα a ∀ α ∈ I : A1 , A2 , . . . ∈ Aα ⇒ ∀α∈I : 6. November 2011 13:28 ∞ [ n=1 An ∈ Aα a ∞ [ n=1 An ∈ \ α∈I Aα . 9 1-A 1 Wahrscheinlichkeitsräume b) Betrachte alle Obermengen von C, die Algebren sind, und bilde den Schnitt, \ Aα Algebra C⊆Aα Aα Aus a) folgt, dass der Schnitt eine Algebra ist. Der Schnitt ist dann auch per definitionem die kleinste σ -Algebra, die C enthält. « 1.3 Definition Sei C ein Mengensystem in Ω. Die kleinste der C enthaltenden Algebren heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra. Entsprechendes gilt für σ -Algebren. Wir bezeichnen die von C erzeugte Algebra mit F (C). Ï Das Konzept des Erzeugersystems ermöglicht es uns, Eigenschaften nur auf dem Erzeugersystem nachzuweisen, was oft einfacher ist, und diese Eigenschaften auf die erzeugte Algebra zu übertragen. Im Rn bilden die offenen Teilmengen ein wichtiges Mengensystem, die sie die Topologie erzeugen und somit Metrik, Norm, Konvergenz, Differenziation, etc. charakterisieren. Folgende Definition ist daher für alles Weitere zentral. 1.4 Definition Sei On das System der offenen Mengen des Euklidischen Raumes Rn . Setze Bn Í F (On ). Bn wird als σ -Algebra der Borelschen Mengen in Rn bezeichnet. B Í B1 . Ï Bn enthält alle abgeschlossenen, alle kompakten und alle höchstens abzählbaren Mengen in Rn . Es gilt dennoch tatsächlich Bn ⊊ P(Rn ), der Beweis benötigt jedoch die Annahme des Auswahlaxioms. Die Borelschen Mengen bilden die grundlegenden Mengen, mit denen wir uns beschäftigen. Wenn wir auf dem Rn arbeiten, enthält also Bn alle “für uns interessanten” Mengen. Um das Konzept des Erzeugersystem ausnutzen können, verwenden wir das System Jn der halboffenen Intervalle (bzw. Rechtecke) (a, b] Í {(x1 , . . . , xn ) ∈ Rn : ai < xi à bi , i = 1, . . . , n} in Rn , wobei a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn mit ai < bi , oder auch das Sys- tem der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (−∞, a] oder der Intervalle (−∞, a). 1.1 Satz Das System Jn ist ein Erzeugersystem von Bn . 10 Ï 6. November 2011 13:28 Algebren, Inhalte und Maße » per definitionem gilt (a, b] Í {(x1 , . . . , xn ) ∈ Rn : ai < xi à bi , i = 1, . . . , n}. Nun lässt sich jedes offene Intervall als abzählbare Vereinigung halboffener Intervalle darstellen, [ 1 a, b − k k∈N [ 1 (x1 , . . . , xn ) ∈ Rn : ai < xi à bi − = ∈ Bn . k k∈N (a, b) = Ferner lässt sich jede offene Menge in Rn als abzählbare Vereinigung von offenen Intervallen mit rationalen Randpunkten darstellen. « Wir haben nun die notwendigen Vorbereitungen getroffen um ein Maß zu definieren. 1.5 Definition Sei C ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion µ : C → R Í R ∪ {+∞, −∞} heißt (mit den Konventionen a + ∞ = ∞ (a ∈ R), ∞ + ∞ = ∞ usw.) 1.) ein Inhalt (content) auf C, wenn (a) µ ist nulltreu, d.h. µ(∅) = 0, (b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0, (c) µ ist additiv, d.h. für paarweise disjunkte An ∈ C mit n = 1, 2, . . . , m Pm und n=1 An ∈ C gilt2 µ m X n=1 An = m X µ(An ). n=1 2.) ein Maß (measure) auf C, wenn (a) µ ist nulltreu, d.h. µ(∅) = 0, (b) µ ist positiv, d.h. ∀ A ∈ C : µ(A) ≥ 0, 2 A + B bzw. Pm n=1 An steht für die disjunkte Vereinigung von A und B bzw. der An . Wir fordern bei P implizit, dass A und B bzw. die An disjunkt sind. der Verwendung von + und 6. November 2011 13:28 11 1-A 1 Wahrscheinlichkeitsräume (c) µ ist σ -additiv, d.h. für paarweise disjunkte An ∈ C mit n ∈ N und P∞ n=1 An ∈ C gilt µ ∞ X n=1 An = ∞ X µ(An ). n=1 Ist A eine σ -Algebra in Ω, µ ein Maß auf A, so heißt (Ω, A, µ) ein Maßraum (mea- sure space). Ï Offensichtlich ist jedes Maß ein Inhalt. “Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σ -Algebren. P∞ Pm n=1 An ∈ n=1 An ∈ C bzw. In diesem Fall können wir auch auf die Voraussetzung C) verzichten. Häufig werden wir nur diese Definitionsbereiche verwenden. In der Wahrscheinlichkeitstheorie arbeiten wir häufig auf abzählbaren Messräumen wie z.B. N dann lassen sich alle Teilmengen messen, indem wir ihnen als Maß die Anzahl ihrer Elemente zuordnen. 1.6 Definition Sei (Ω, A) ein Messraum und Z = {z1 , z2 , . . .} eine höchstens abzählbare Teilmenge von Ω, so heißt µ : A → R, mit µ(A) Í Anzahl der Elemente in A ∩ Z, A ∈ A, ein abzählendes Maß (counting measure). Ï 1.2 Bemerkung. Sei A Algebra in Ω, µ endlicher Inhalt auf A, ferner A, B ∈ A und A ⊂ B, so gilt µ(B \ A) = µ(B) − µ(A). Diese Eigenschaft nennt sich Subtraktivität. Ç » Da B = A + B \ A, gilt µ(B) = µ(A) + µ(B \ A). 12 « 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße 1-B Wahrscheinlichkeiträume und -maße 1.7 Definition Sei A eine σ -Algebra in Ω. Eine Abbildung P : A → R heißt ein Wahr- scheinlichkeitsmaß (W-Maß) auf A, wenn (a) P nulltreu, d.h. P (∅) = 0, (b) P positiv, d.h. P (A) ≥ 0, (c) P σ -additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .) gilt P ∞ X n=1 An = ∞ X P (An ), n=1 (d) P normiert, d.h. P (Ω) = 1. (Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space). Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als Merk- malraum, Stichprobenraum (sample space), die Mengen A ∈ A als Ereignisse, P (A) als Wahrscheinlichkeit von A und die Elemente ω ∈ Ω bzw. die 1-Punkt-Mengen {ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch Realisierungen). Ein W-Raum ist ein normierter Maßraum. Ï Ein Wahrscheinlichkeitsmaß, ist also ein normiertes Maß auf (Ω, A) mit Werte- bereich R anstatt R. Bei der Definition eines Wahrscheinlichkeitsmaßes, ergeben sich Nulltreue, Positivität und Normiertheit ganz intuitiv. In der Vergangenheit wurde lange darüber diskutiert, ob es notwendig ist, die σ -Additivität für Ereignisse zu fordern. Es hat sich jedoch herausgestellt, dass dies durchaus sinnvoll und notwendig ist. Damit haben wir die Axiome der Wahrscheinlichkeitstheorie formuliert und alles Folgende wird auf diesen Axiomen aufbauen. Nun stellt sich natürlich die Frage, ob diese Definition einer “Wahrscheinlichkeit” mit unserer Alltagserfahrung übereinstimmt. Im Laufe der Vorlesung werden wir feststellen, dass dieses “Modell” in vielen Fällen eine sehr gute Approximation der Wirklichkeit darstellt. Zur Motivation des Wahrscheinlichkeitsraumes. Wir suchen nach einem alternativen Weg, eine Wahrscheinlichkeit einzuführen. Sei dazu hn (A) die absolute Häufigkeit des Eintretens eines Ereignisses A (z.B. Würfeln einer “6” bei n Würfen) und 6. November 2011 13:28 13 1-B 1 Wahrscheinlichkeitsräume Hn (A) = hn (A) n die relative Häufigkeit des Auftretens von Ereignis A. Offensichtlich gilt für jedes A und jedes n: 0 à Hn (A) à 1, Hn (Ω) = 1, Hn (∅) = 0. Für zwei disjunkte Ereignisse A1 , A2 gilt weiterhin Hn (A1 + A2 ) = Hn (A1 ) + Hn (A2 ). Hn verfügt also über alle Eigenschafen eines Wahrscheinlichkeistmaßes. Führt man das (Würfel)-Experiment hinreichend oft durch, kann man das “Empirische Gesetz der großen Zahlen” vermuten: lim Hn (A) existiert. n→∞ Im Fall der Existenz kann man dem Ereignis A den obigen Grenzwert als Wahrscheinlichkeit zuordnen (R.v. Mises 19193 ), P (A) = lim Hn (A). n→∞ Dieser Grenzwert muss aber nicht für alle möglichen Folgen von Versuchsergebnissen existieren - es lässt sich nicht ausschließen, dass man in einer Versuchsfolge ausschließlich 6er würfelt. Die endgültige, axiomatische Formulierung der Wahrschienlichkeitstheorie, wie wir sie eben eingeführt haben, hat 1933 mit dem Werk “Grundbegriffe der Wahrscheinlichkeitsrechnung” von Kolmogorov4 seinen Abschluss gefunden. Der axiomatische Ansatz hat sich bisher als der erfolgreichste erwiesen. Wir zahlen aber einen Preis, denn dieser Ansatz erklärt nicht, was Wahrscheinlichkeit eigentlich bedeutet. Binomialverteilung Oft sind nur endlich viele Elementarereignisse möglich und alle diese treten mit der gleichen Wahrscheinlichkeit ein. Wir sprechen in diesem Fall von einem LaplaceExperiment. 3 Richard Edler von Mises (* 19. April 1883 in Lemberg, Österreich-Ungarn, heute Lwiw, Ukraine; † 14. Juli 1953 in Boston, Massachusetts) war ein österreichischer Mathematiker. 4 Andrei Nikolajewitsch Kolmogorow (* 25. April 1903 in Tambow; † 20. Oktober 1987 in Moskau) war einer der bedeutendsten Mathematiker des 20. Jahrhunderts. Kolmogorow leistete wesentliche Beiträge auf den Gebieten der Wahrscheinlichkeitstheorie und der Topologie, er gilt als der Gründer der Algorithmischen Komplexitätstheorie. Seine bekannteste mathematische Leistung war die Axiomatisierung der Wahrscheinlichkeitstheorie. 14 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße Definition Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω) und P ({ω}) = 1 , |Ω| ω ∈ Ω, |Ω| = Anzahl der Elemente in Ω, heißt Laplacescher W-Raum: Für A ∈ A gilt P (A) = |A| Anzahl der “günstigen” Fälle = . |Ω| Anzahl der “möglichen” Fälle Ï Bsp 1 Seien n ∈ N, p ∈ [0, 1] fest. Betrachte n gleichartige Experimente ohne ge- genseitige Beeinflussung mit den möglichen Ausgängen 0 (“Misserfolg”, “Kopf”) und 1 (“Erfolg”, “Zahl”) mit jeweiliger Erfolgswahrscheinlichkeit p. Dies bezeichnet man auch als n-Tupel von Bernoulli-Versuchen.5 Wie groß ist die Wahrscheinlichkeit in n Bernoulli-Versuchen genau k, wobei k ∈ {0, 1, . . . , n}. Erfolge zu erhalten? Dieses Experiment entspricht der Platzierung von k Kugeln auf n Plätzen ohne Mehrfachbelegung eines Platzes. Experiment Wahrscheinlichkeit 1 . . 1} 0 . . 0} | .{z | .{z p · · · p · (1 − p) · · · (1 − p) = p k (1 − p)n−k k n−k 0 1 1...1 0...0 (1 − p)p · · · p(1 − p) · · · (1 − p) = p k (1 − p)n−k . Die Reihenfolge der Erfolge und Miserfolge ist unerheblich für die Wahrscheinlichkeit. Das Experiment besitzt genau ! n n! = k k!(n − k)! mögliche Ausgänge. Aufsummation liefert die Gesamtwahrscheinlichkeit, ! n k p (1 − p)n−k Î b(n, p; k), W = k wobei 5 n k = 0, falls k ∉ {0, 1, . . . , n}. Jakob I. Bernoulli (* 6. Januar 1655 in Basel; † 16. August 1705 ebenda) war ein Schweizer Mathematiker und Physiker. 6. November 2011 13:28 15 1-B 1 Wahrscheinlichkeitsräume Definition Durch P ({k}) Í b(n, p; k) für k ∈ N0 ist ein W-Maß auf B definiert, wobei für A ⊆ N0 , P (A) = X k∈N0 ∩A b(n, p; k) Í X k∈N0 ∩A ! n k p (1 − p)n−k . k P ist ein W-Maß und heißt Binomialverteilung b(n, p) mit Parameteren n ∈ N und p ∈ [0, 1]. Ï Bsp 2 500g Teig und 36 Rosinen seien rein zufällig verteilt. Daraus werden 10 Bröt- chen mit je 50g Teil geformt. Greife ein Brötchen heraus. Wie groß ist die Wahrscheinlichkeit, dass dieses Brötchen 2 oder mehr Rosinen enthält? 1 10 Rosine Nr. 1-36 ist unabhängig von den anderen mit Wahrscheinlichkeit p = im betrachteten Brötchen. Es handelt sich also um 36 Bernoulli Versuche mit jeweiliger Erfolgswahrscheinlichkeit p = 1 10 . ! 36 1 1 36−k 1 − k 10k 10 k=2 k=2 1 1 = 1 − b 36, ; 0 − b 36, ; 1 ≈ 0.89. 10 10 P (A) = 36 X b(n, p; k) = 36 X Wir wollen das Beispiel der Binomialverteilung nun dahingehend verallgemeinern, dass wir die Menge Ω auf die ganze reelle Achse erweitern. Definition Sei Ω = R, A = B und (pk )k∈N0 eine reelle Zahlenfolge mit X 0 à pk à 1 für k ∈ N0 , pk = 1. k∈N0 (pk ) bezeichnet man als Zähldichte. Durch P ({k}) = pk , ∀ k ∈ N0 also X P (A) = pk , A ∈ B. k∈A∩N0 wird ein W-Maß auf B definiert. P ist auf N0 konzentriert, d.h. P (N0 ) = 1 und besitzt die Zähldichte (pk )k∈N0 . Ï » Nulltreue, Positivität und Normiertheit sind klar. Wir weisen nun die σ -Additivität nach: Seien An für n ∈ N paarweise disjunkt. Ohne Einschränkung können wir da- von ausgehen, dass An ⊆ N, es gilt also, ∞ X X P An = pk . n=1 16 k∈ P n An 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße Da die Reihe absolut konvergent ist, dürfen wir den großen Umordnungssatz aus der Analysis anwenden, und die Reihenglieder umgruppieren, ... = ∞ X X n=1 k∈An | pk = {z } ∞ X P (An ). « n=1 ÍP (An ) Für Beispiel 1 gilt (b(n, p; k))k∈N0 = (pk )k∈N0 . Poissonverteilung Seien nun pn ∈ (0, 1) mit n · pn → λ ∈ (0, 1) für n → ∞, so ist ! n k b(n, pn ; k) = pn (1 − pn )n−k k n(n − 1) · · · (n − k + 1) k pn (1 − pn )n−k k! h inpn n(n − 1) · · · (n − k + 1) k = pn · (1 − pn )−k (1 − pn )1/pn k! = Für den Grenzübergang n → ∞ gilt, n(n − 1) · · · (n − k + 1) k λk pn → , k! k! (1 − pn )−k → 1, (1 − pn )1/pn → e−1 . Wir erhalten also insgesamt, n→∞ b(n, pn ; k) → λk −λ e Î π (λ; k). k! π (λ; k) definiert eine Zähldichte, denn X k∈N0 π (λ; k) = e−λ ∞ X λk = 1. k! k=0 | {z } Íeλ 1.8 Definition Das zu π (λ; k) gehörige W-Maß π (λ) auf B ist gegeben durch, π (λ)({k}) Í π (λ; k) 6. November 2011 13:28 17 1-B 1 Wahrscheinlichkeitsräume und heißt Poisson-Verteilung6 mit Parameter λ. Ï Die Poission-Verteilung hat sehr viele angenehme Eigenschaften, insbesondere ist sie numerisch gut handhabbar. Daher approximiert man oft eine Binomialverteilung durch eine Poissonverteilung. Die Approximation ist gut für p “klein” und n “groß”. Bsp 3 Eine Anwendung zu Beispiel 2. Gegeben seien m gleichgroße mehrfach be- setzbare Zellen. vorgegebene Zelle Z Zur Anwendung von 2. 1.1 n Teilchen seien rein zufällig auf die Zellen verteilt. Die Wahrscheinlichkeit, dass Teilchen Nr. 1 in Zelle Z landet, ist chen in Z landen b(n, 1 m ; k). 1 m. Also ist die Wahrscheinlichkeit, dass k Teil- Die “Belegungsintensität” ist Für n → ∞ und m → ∞ gelte n m n m. → λ ∈ (0, ∞). In der Grenze ist die Wahrschein- lichkeit, dass genau k ∈ N0 Teilchen in der Zelle Z landen gegeben durch π (λ; k). Damit können wir das Beispiel 2 wieder aufgreifen. Betrachte eine große Anzahl von Rosinen in einer großen Teigmenge. Teile den Teig in m gleichgroße Brötchen auf, mit λ Í n m. Nehmen wir nun ein Brötchen heraus, so ist die Wahrscheinlichkeit, dass es genau k Rosinen enthält ≈ e−λ λk . k! Im Zahlenbeispiel n = 36, m = 10, λ = 3.6 gilt 36 X k=2 e−λ λk ≈ 1 − e−λ − λe−λ ≈ 0.874, k! statt 0.89. Weitere Eigenschaften von Wahrscheinlichkeitsmaßen Die reellen Zahlen R sind geordnet und für “monoton fallende” bzw. “monoton steigende” Folgen wissen wir, dass ein eigentlicher oder uneigentlicher Grenzwert 6 Siméon-Denis Poisson (* 21. Juni 1781 in Pithiviers (Département Loiret); † 25. April 1840 in Paris) war ein französischer Physiker und Mathematiker. 18 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße existiert. Ein Mengensystem lässt sich durch “⊆” oder “⊇” halbordnen, somit lässt sich der Monotoniebegriff in gewisser Weise übertragen. Definition Die Konvergenz von unten bzw. von oben ist für die Mengen A und An (n = 1, 2, . . .) folgendermaßen definiert: An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . , An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . , ∞ [ n=1 ∞ \ n=1 An = A, An = A. Ï Da wir nun über eine Art Konvergenzbegriff für Mengen verfügen, lässt sich nach der Stetigkeit von Abbildungen von Mengensystemen in die reellen Zahlen fragen. Natürlich handelt es sich hierbei nicht um Konvergenz und Stetigkeit im Sinne der Analysis, denn wir haben auf A keine Norm zur Verfügung. 1.2 Satz Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞) Inhalt auf A. Dann sind die folgenden Aussagen äquivalent: a) µ ist σ -additiv b) µ ist stetig von unten, d.h. [An ∈ A, An ↑ A ∈ A ⇒ µ(An ) → µ(A)] c) µ ist stetig von oben, d.h. [An ∈ A, An ↓ A ∈ A ⇒ µ(An ) → µ(A)] d) µ ist ∅-stetig, d.h. [An ∈ A, An ↓ ∅ ⇒ µ(An ) → 0] . Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b). » a)⇒b): Sei An = A1 + A2 \ A1 + . . . + An \ An−1 und A = A1 + verwenden die Additivität von µ und erhalten somit, Ï ∞ P k=2 Ak \ Ak−1 . Wir µ (An ) = µ(A1 ) + µ(A2 \ A1 ) + . . . + µ(An \ An−1 ) = µ(A1 ) + n X k=2 Die übrigen Implikationen folgen analog. 6. November 2011 13:28 n→∞ µ(Ak \ Ak−1 ) → µ(A1 ) + ∞ X k=2 µ(Ak \ Ak−1 ) = µ(A). « 19 1-B 1 Wahrscheinlichkeitsräume Da Wahrscheinlichkeitsräume per definitionem endlich sind, ist Satz 1.2 dort stets anwendbar. Insbesondere ist jedes W-Maß stetig. 1.3 Lemma Sei A eine Algebra in Ω, µ ein Inhalt auf A. a) µ ist monoton, d.h. [A, B ∈ A, A ⊂ B ⇒ µ(A) ≤ µ(B)] . b) µ ist subadditiv, d.h. [A1 , . . . , Am ∈ A ⇒ µ( Sm n=1 An ) ≤ m P n=1 µ(An )] . c) Ist µ ein Maß, dann ist µ sogar σ -subadditiv, ∞ S∞ S∞ P d.h. [An ∈ A für n ∈ N, n=1 An ∈ A ⇒ µ( n=1 An ) ≤ µ(An )] . n=1 Ï » a): Seien A, B ∈ A und A ⊆ B. Nun gilt B = A + B \ A, also µ(B) = µ(A) + µ(B \ A), | {z } á0 ⇒µ(A) à µ(B). b): Wir untersuchen den Spezialfall n = 2. Seien A1 , A2 ∈ A, so ist µ(A1 ∪ A2 ) = µ(A1 + A2 \ A1 ) = µ(A1 ) + µ(A2 \ A1 ) | {z } àµ(A2 ) à µ(A1 ) + µ(A2 ). Der allgemeine Fall folgt durch Induktion. c): Für N ∈ N gilt, µ(A1 ∪ . . . ∪ AN ) à N X µ(An ) à n=1 ∞ X µ(An ). n=1 Beim Grenzübergang für N → ∞ erhalten wir so, µ(A1 ∪ . . . ∪ AN ) → µ ∞ [ n=1 und die Behauptung folgt. 20 An , « 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße W-Maße sind also σ -additiv, σ -subadditiv, monoton und stetig. Diese Eigenschaften sind zwar unscheinbar, es lassen sich damit aber sehr starke Aussagen beweisen, wie wir gleich sehen werden. Erinnern wir uns aber zunächst an den limes superior einer reellen Zahlenfolge (an ), lim sup an Í inf sup ak . n∈N kán n→∞ Wir können nun diese Definitionen auf Mengen übertragen. Definition Sei (Ω, A, P ) ein W-Raum, An ∈ A für n ∈ N lim sup An = n→∞ ∞ [ ∞ \ n=1 k=n Ak Í {ω ∈ Ω : es ex. unendlich viele n mit ω ∈ An } = “Ereignis, dass unendlich viele An eintreten”. Ï 1.3 1. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum und An ∈ A für n ∈ N, dann gilt ∞ X n=1 P (An ) < ∞ =⇒ P (lim sup An ) = 0, d.h. P -f.s. gilt: An tritt nur endlich oft auf. Ï Bsp 4 Lernen durch Erfahrung, d.h. je öfter man eine Tätigkeit durchführt, je klei- ner ist die Wahrscheinlichkeit, dass ein Fehler auftritt. Betrachte eine Folge von Aufgaben. Ein Misserfolg in der n-ten Aufgabe tritt mit der Wahrscheinlichkeit P (An ) = 1 n2 auf. Es gilt dann ∞ X n=1 P (An ) = ∞ X 1 < ∞. 2 n n=1 1.3 ⇒ Mit Wahrscheinlichkeit 1 wird von einem zufälligen Index n an jede Aufgabe immer richtig gelöst. 6. November 2011 13:28 21 1-B 1 Wahrscheinlichkeitsräume » Beweis des 1. Lemma von Borel und Cantelli. Sei B Í lim supn An , d.h. B= ∞ [ \ Ak . n=1 kán S Ak ↓ B. Aufgrund der Monotonie von P gilt somit, ∞ X [ P (Ak ) → 0, Ak à P (B) à P Offensichtlich gilt kán kán k=n da die Reihe nach Voraussetzung konvergent ist. Also ist P (B) = 0. « Fortsetzung von Wahrscheinlichkeitsmaßen Bisher haben wir ausschließlich mit Maßen gearbeitet, die auf N0 konzentiert sind, d.h. P (N0 ) = 1. Unser Ziel ist es jedoch ein Maß auf Bn zu definieren, das jedem Intervall (Rechteck) seinen elementargeometrischen Inhalt zuordnet. Betrachten wir wieder das Erzeugersystem Jn der halboffenen Intervalle, so bildet dieses einen Halbring. Definition h ⊆ P(Ω) heißt Halbring über Ω, falls 1.) ∅ ∈ h, 2.) A, B ∈ h ⇒ A ∩ B ∈ h, 3.) A, B ∈ h, A ⊆ B ⇒ ∃ k ∈ N : C1 , . . . , Ck ∈ h : B \ A = Pk i=1 Ci . Ï Auf dem Halbring Jn können wir das gesuchte Maß definieren durch, µ : Jn → R, (ai , bi ] , µ((ai , bi ]) = n Y i=1 (bi − ai ). Mit Hilfe des folgenden Satzes können wir µ eindeutig auf Bn fortsetzen. 1.4 Fortsetzungs- und Eindeutigkeitssatz Sei µ ein Maß auf einem Halbring h über Ω, so besitzt µ eine Fortsezung µ ∗ zu einem Maß auf F (h). S∞ Gilt außerdem Ω = i=1 Ai mit µ(Ai ) < ∞, so ist µ ∗ eindeutig. Ï » Siehe Elstrodt, Kap. III, §§ 4.5. « Insbesondere lassen sich auf Halbringen bzw. Algebren über W-Räumen definierte Maße immer eindeutig fortsetzen, da hier bereits µ(Ω) < ∞. 22 6. November 2011 13:28 Wahrscheinlichkeiträume und -maße 1.3 Bemerkung. µ ∗ in Satz 1.4 ist für A ∈ F (A) gegeben durch µ ∗ (A) = inf ∞ X n=1 µ(Bn ) : Bn ∈ A (n = 1, 2, . . .) mit A ⊂ [ n Bn . Ç 1.4 Bemerkung. Es ist im Allgemeinen nicht möglich, µ von A auf P(Ω) fortzusetzen. H. Lebesque7 hat sogar bewiesen, dass es unter Annahme des Auswahlaxioms nicht möglich ist, ein Maß auf P([0, 1]) fortzusetzen. Ist Ω jedoch abzählbar, so kann P stets auf die Potenzmenge fortgesetzt werden. Ç 1.5 Korollar Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach rechts halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt zuordnet. Ï 1.9 Definition Das Maß λ in Korollar 1.5 heißt Lebesgue–Borel–Maß (L-B-Maß) in Rn . Ï Bsp 5 Rein zufälliges Herausgreifen eines Punktes aus dem Intervall [0, 1]. Sei Ω = [0, 1], A Í [0, 1] ∩ B Í {B ∩ [0, 1] : B ∈ B}. Das W-Maß P auf A soll jedem Intervall in [0, 1] seine elementare Länge zuordnen. Also ist P = λ[0,1]∩B eine Restriktion von λ auf [0, 1] ∩ B. Das λ-Maß hat die Eigenschaft, dass nicht nur die leere Menge sondern auch jede höchstens abzählbare Menge das Maß Null hat. Eine Menge N ⊆ Ω mit µ(N) = 0 nennt man Nullmenge. Oft kann man Eigenschaften nicht auf ganz Ω nachweisen aber auf Ω bis auf eine Nullmenge. Solche Eigenschaften treten vor allem in der Maßtheorie auf und sind daher auch in der Wahrscheinlichkeitstheorie von großer Bedeutung. Definition Sei Maßraum (Ω, A, µ), W-Raum (Ω, A, P ). Eine Aussage gilt 1.) µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω, falls sie überall bis auf einer Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmenge hiervon] gilt. 2.) L-fast überall (L-f.ü.) in Rn . . . , wenn sie überall bis auf einer Menge ∈ Bn vom L-B-Maß Null [oder eine Teilmenge hiervon] gilt. Ï 7 Henri Léon Lebesgue (* 28. Juni 1875 in Beauvais; † 26. Juli 1941 in Paris) war ein französischer Mathematiker. 6. November 2011 13:28 23 1-B 1 Wahrscheinlichkeitsräume 1-C Verteilungsfunktionen W-Maße sind Abbildungen der Art P : σ ⊆ P(Ω) → R. Ihr Definitionsbereich ist somit ein Mengensystem. Wir konnten einige elementare Eigenschaften wie Stetigkeit und Monotonie aus der reellen Analysis auf diese Abbildungen übertragen, dennoch lassen sie sich nicht immer so leicht handhaben wie Funktionen. Betrachten wir nun ein W-Maß auf B, so ist durch folgende Vorschrift eine Funk- tion gegeben F : R → R, F (x) Í P ((−∞, x]), x ∈ R. F wird als die zu P gehörende Verteilungsfunktion (Verteilungsfunktion) bezeichnet. Verteilungsfunktionen auf R lassen sich in der Regel viel leichter handhaben als Maße auf B. In diesem Abschnitt werden wir zeigen, dass eine Bijektion zwischen Maßen und Verteilungsfunktionen auf einem W-Raum existiert, wir also jedem Maß eine Verteilungsfunktion zuordnen können und umgekehrt. Durch die Verteilungsfunktionen werden die Maße “greifbar”. 24 6. November 2011 13:28 Verteilungsfunktionen Bsp 6 a.) Würfeln mit Wahrscheinlichkeiten p1 , . . . , p6 für die Augenzahlen 1, . . . , 6 wobei p1 + . . . + p6 = 1. |{z} |{z} á0 á0 Als zugehörigen Wahrscheinlichkeitsraum wählen wir Ω = R mit A = B. Das W-Maß auf B erfüllt P ({1}) = p1 , . . . , P ({6}) = p6 . Zur Verteilungsfunktion betrachte die Skizze. b.) Betrachte erneut Beispiel 5: Sei (Ω, A, P ) = ([0, 1], [0, 1] ∩ B, λ[0,1]∩B ) abgewandelt zu (Ω, A, P ) = (R, B, P ). Das Lebesgue-Maß ist nur dann ein Wahr- scheinlichkeitsmaß, wenn man den zugrundeliegenden Raum auf ein Intervall der Länge Eins einschränkt. Wir setzten daher P (B) Í λ([0, 1] ∩ B). Die zugehörige Verteilungsfunktion ist dann gegeben durch, 0, x à 0, F (x) = x, x ∈ (0, 1), 1, x á 1. F (x) 1 1 p1 + ... + p5 p1 + p2 p1 1 2 3 4 5 6 1.2 1 x Verteilungsfunktionen zum Würfelexperiment und zu Beispiel 5 1.10 Definition Eine Funktion F : R → R, die monoton wachsend (im Sinne von nicht fallend) und rechtsseitig stetig ist mit lim F (x) = 0, x→−∞ lim F (x) = 1, x→+∞ heißt (eindimensionale) Verteilungsfunktion (Verteilungsfunktion). Ï Der folgende Satz stellt nun eine eindeutige Beziehung zwischen einem Maß auf B und einer eindimensionalen Verteilungsfunktion her. 6. November 2011 13:28 25 1-C 1 Wahrscheinlichkeitsräume 1.6 Satz Zu jedem W-Maß P auf B gibt es genau eine Verteilungsfunktion F : R → R, so dass gilt F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R (*) gilt, und umgekehrt. Es existiert also eine Bijektion P ←→ F . Ï » Wir wählen für die Verteilungsfunktion den Ansatz, F (x) Í P ((−∞, x]), x ∈ R. 1.) Die (*)-Bedingung ist erfüllt, denn es gilt für a, b ∈ R mit a < b, P ((a, b]) = P ((−∞, b] \ (−∞, a]) = P ((−∞, b]) − P ((−∞, a]). 2.) F ist monoton steigend, denn P ist monoton. 3.) F ist rechtsstetig, denn für xn ↓ x folgt (−∞, xn ] ↓ (−∞, x]. Somit gilt nach Satz 1.2, F (xn ) = P ((−∞, xn ]) ↓ P ((−∞, x]) = F (x). 4.) F (x) → 0 für x → −∞, denn xn ↓ −∞ ⇒ (−∞, xn ] ↓ ∅. Mit Satz 1.2 folgt daraus, F (xn ) = P ((−∞, xn ]) ↓ P (∅) = 0. 5.) F (x) → 1 für x → ∞, denn xn → ∞ ⇒ (−∞, xn ) ↑ R. Ebenfalls mit Satz 1.2 folgt F (xn ) = P ((−∞, xn ]) → P (R) = 1. 26 6. November 2011 13:28 Verteilungsfunktionen 6.) Eindeutigkeit. Seien F , F ∗ zwei Verteilungsfunktion gemäß der (*)-Bedingung in Satz 1.6. Dann unterscheiden sich F und F ∗ lediglich um eine Konstante, d.h. F ∗ = F + c. Nun gilt aber F ∗ (x), F (x) → 1 für x → +∞, also c = 0, d.h. F = F ∗ . « Wir betrachten nun zwei sehr wichtige Verteilungsfunktionen als Beispiele. Bsp 7 Die Funktion Φ : R → [0, 1] mit 1 Φ(x) Í √ 2π Zx t2 − 2 |e {z } dt, x ∈ R, −∞ ϕ(t) ist eine Verteilungsfunktion, denn Φ ist streng monoton, da ϕ > 0, die Rechtsstetigkeit folgt aus der Stetigkeit des Integrals. F (x) → 0 für x → −∞ ist offensichtlich, einzig F (x) → 1 für x → ∞ muss man explizit nachrechnen (Funktionentheorie). Der Integrand ϕ(t) heißt übrigens Gaußsche Glockenkurve und das zu Φ gehö- rige W-Maß auf B, standardisierte Normverteilung N(0, 1). ϕ(t) Φ(t) Φ ϕ t 1.3 t Gaußsche Glockenkurve und standardisierte Normalverteilung Eine Verallgemeinerung davon ist die Normalverteilung (Gauß-Verteilung) N(a, σ 2 ), mit a ∈ R und σ > 0. N(a, σ 2 ) ist ein W-Maß auf B mit Verteilungsfunktion F (x) Í √ 1 2π Zx −∞ 2 − (t−a) 2 e 2σ dt , x ∈ R. Diese Funktion ergibt sich mittels Substitution aus der Verteilungsfunktion von N(0, 1), alle Eigenschaften übertragen sich daher entsprechen. 6. November 2011 13:28 27 1-C 1 Wahrscheinlichkeitsräume Bsp 8 Wähle λ > 0 fest, so ist eine Verteilungsfunktion gegeben durch, F : R → R, 0, xà0 F (x) = −λx 1 − e , x > 0. F (x) 1 x 1.4 Verteilungsfunktion der Exponentialverteilung. Das zugehörige W-Maß heißt Exponentialverteilung mit Parameter λ (kurz exp(λ)). 1.5 Bemerkung. Definition 1.10 und Satz 1.6 lassen sich auf Bn und Rn als Definitions- bereiche von P bzw. F anstatt B bzw. R verallgemeinern. Dabei ist die Verteilungs- funktion F zu einem W-Maß P auf Bn gegeben durch F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn }) für (x1 , . . . , xn ) ∈ Rn . Ç R2 x2 x = (x1 , x2 ) x1 (u1, u2) ∈ R2 : u1 ≤ x1 , u2 ≤ x2 1.5 Zur Verallgemeinerung der Verteilungsfunktion. 28 6. November 2011 13:28 Bedingte Wahrscheinlichkeiten 1-D Bedingte Wahrscheinlichkeiten Wenn wir beim Durchführen eines Zufallsexperiments wissen, dass bereits Ereignis A eingetreten ist, so ändert sich die Wahrscheinlichkeit dafür, dass auch noch B eintritt. Für diese Wahrscheinlichkeit schreiben wir P (B | A). P (B | A) ist die bedingte Wahrscheinlichkeit, dass unter der Voraussetzung, dass A eingetreten ist, nun B eintritt. Bedingte Wahrscheinlichkeiten spielen in vielen aktuellen Fragestellungen der Wahrscheinlichkeitstheorie eine zentrale Rolle. Beispielsweise in der Finanzmathematik, denn es ist offensichtlich, dass der nächste Aktienkurs von allen vorherigen abhängt. Bsp 9 Unter Studenten einer Vorlesung wird eine Umfrage gemacht. m 1.6 w Sport 12 18 Kein Sport 16 20 Ergebnis der Umfrage. Wir nummerieren die Personen so, dass Nr. 1-12 die Sport-treibenden Frauen, 1330 die Sport-treibenden Männer, 31-46 die nicht Sport-treibenden Frauen und 47-66 die nicht Sport-treibenden Männer sind. Nun modelieren wir einen W-Raum für die rein zufällige Auswahl einer Person, Ω = {1, . . . , 66} , A = P(Ω), P ({ω}) = 1 . 66 Ereignis A Í {1, . . . , 12, 31, . . . , 46}, die ausgewählte Persion ist weiblich, Ereignis B Í {1, . . . , 30}, die ausgewählte Person treibt Sport. Es sei bekannt, dass die ausgewählte Person Sport treibt. Wie groß ist die Wahr- scheinlichkeit, dass die ausgewählte Person eine Frau ist? Abzählen der Elemente in Ω ergibt, 12 2 = . 30 5 6. November 2011 13:28 29 1-D 1 Wahrscheinlichkeitsräume Andererseits erhalten wir durch P (A ∩ B) = P (B) 12 66 30 66 = 2 5 dasselbe Ergebnis. Wir verwenden dies nun zur Definition der bedingten Wahrscheinlichkeit. 1.11 Definition Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) > 0. Dann heißt P (A | B) Í P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit (conditional probability) von A unter der Bedingung B. Ï Es folgen einige elemenatre Eigenschaften der bedingten Wahrscheinlichkeit. 1.7 Satz Sei (Ω, A, P ) ein W-Raum. a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das auf B konzentriert ist [d.h. P (B | B) = 1]. b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt P (A | B) = P (B | A) · P (A) . P (B) Tm−1 c) Für An ∈ A (n = 1, . . . , m) mit P ( n=1 An ) > 0 gilt P m \ n=1 An =P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 )· . . . · P Am | » m−1 \ n=1 An . Ï a) Der Beweis ist eine leichte Übungsaufgabe. b) Betrachte die rechte Seite, P (B | A) · 30 P (A) P (A ∩ B) P (A) P (A ∩ B) = = Î P (A|B). P (B) P (A) P (B) P (B) 6. November 2011 13:28 Bedingte Wahrscheinlichkeiten c) Vollständige Induktion. Für n = 2 P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ). Der Induktionsschulss ist eine leichte Übung. « 1.8 Satz Sei (Ω, A, P ) ein W-Raum, {Bn : n ∈ I} eine höchstens abzählbare Familie paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) > 0 (n ∈ I) und Dann gilt für A ∈ A P n∈I Bn = Ω. a) die Formel von der totalen Wahrscheinlichkeit P (A) = X n∈I P (Bn )P (A | Bn ). b) falls P (A) > 0 die Formel von Bayes P (Bk ) · P (A | Bk ) P (Bk | A) = P , P (Bn )P (A | Bn ) n∈I k ∈ I. Ï Mit der Formel von der totalen Wahrscheinlichkeit kann man somit mit bedingten Wahrscheinlichkeiten auf die Wahrscheinlichkeit für ein bestimmtes Ereignis rückschließen. Die Formel von Bayes hingegen erlaubt es die Bedingung der Bedingten Wahrscheinlichkeit umzukehren. » a) A = A ∩ Ω = P (A) = P n∈I X n∈I (A ∩ Bn ). Weiterhin gilt aufgrund der σ -Additivität, P (A ∩ Bn ) = X n∈I P (Bn )P (A | Bn ). P (B ) k b) Satz 1.7 besagt, P (Bk ) = P (A|Bk ) P (A) . Die Behauptung folgt nun unter Verwen- dung des Teils a). « Bsp 10 Zur Veranschaulichung des Satzes 1.8. Betrachte einen Weg von 0 über b1 oder b2 oder b3 oder . . . nach a oder a. [a könnte z.B. für das Auftreten von Krebs, a für das Nichtauftreten von Krebs, b1 für Rauchen, b2 für das Ausgesetzsein von giftigen Dämpfen, b3 . . . stehen]. An jeder Verzweigung b1 , b2 , b3 , . . . wird ein Zufallsexperiment durchgeführt. Das Ereignis Bk sei definiert durch, dass der Weg über bk führt. 6. November 2011 13:28 31 1-D 1 Wahrscheinlichkeitsräume P (B1 ) b b1 b a 0b P (B2 ) P (B3 ) 1.7 b b2 b a b b3 Wegediagramm. Die Formel von der totale Wahrscheinlichkeit ergibt, P (A) = X n P (A|Bn )P (Bn ). Deutung. Betrachte B1 , B2 , . . . als “Ursachen” und A als “Wirkung”. P (Bk ) bezeichnet man als sog. “a priori Wahrsch.” von Bk . Nun stehe A durch Erfahrung zur Verfügung. P (Bk |A) bezeichnet man als sog. “a posteriori Wahrsch.” von Bk . P (Bk |A) ist die Wahrscheinlichkeit, dass der Weg über bk verlaufen ist, wobei be- reits bekannt sei, dass die Ankunft in a (= Ereignis A) stattgefunden hat. Die Formel von Bayes erlaubt also den Rückschluss von einer Wirkung auf ihre Ursache - zumindest in einem Wahrscheinlichkeitstheoretischen Sinne. Anwendung. Ein Arzt beobachtet das Symptom a, welches ausschließlich die Ursachen b1 , b2 , . . . haben kann. Gesucht ist P (Bk |A), die Wahrscheinlichkeit für die jeweilige Ursache unter Berücksichtigung des Eintretens von a. Bsp 11 Betrieb mit einer Alarmanalge. Bekannt seien folgende Daten: - Bei Einbruch erfolgt Alarm mit Wahrscheinlichkeit 0.99, - bei Nichteinbruch mit Wahrscheinlichkeit 0.005. - Die Einbruchswahrscheinlichkeit ist 0.001. 32 6. November 2011 13:28 Bedingte Wahrscheinlichkeiten Gesucht ist nun die Wahrscheinlichkeit, dass bei einem Alarm auch tatsächlich ein Einbruch stattfindet. Übertragen wir dies auf unser Modell, so erhalten wir folgendes Schema: Ereignis Beschreibung E Einbruch ec kein Einbruch A Alarm Ac kein Alarm Die Wahrscheinlichkeiten der einzelnen Ereignisse sind, P (A|E) = 0.99, P (A|ec ) = 0.005, P (E) = 0.001. Gesucht ist P (E|A). Mit dem Satz von Bayes erhalten wir, P (A|E)P (E) 0.99 · 0.001 = P (A|E)P (E) + P (A|ec )P (ec ) 0.99 · 0.001 + 0.005 · 0.999 22 = ≈ 0.165. 133 P (E|A) = D.h. die Wahrscheinlichkeit, dass bei Auslösung eines Alarms, auch tatsächlich ein Einbruch stattfindet, beträgt lediglich 16.5%. Die Wahrscheinlichkeit für einen Alarm ist nach der Formel von der totalen Wahrscheinlichkeit P (A) = P (A|E)P (E) + P (A|ec )P (ec ) = 0.006. 6. November 2011 13:28 33 1-D 2- 2 Kombinatorische Wahrscheinlichkeitsrechnung In der kombinatorischen Wahrscheinlichkeitsrechnung legen wir Laplacesche WRäume zugrunde. Die Abzählung der “günstigen” und der “möglichen” Fälle erfolgt systematisch mit Hilfe der Kombinatorik. 2.1 Definition Gegeben seien n — nicht notwendiger Weise verschiedene — Elemente a1 , . . . , an . Das n-Tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij ≠ ik für j ≠ k (j, k = 1, . . . , n) heißt eine Permutation der gegebenen Elemente. Ï In der Kombinatorik spielt die mögliche Anzahl an Permutationen eine sehr große Rolle. 2.1 Satz Die Anzahl der Permutationen von n verschiedenen Elementen ist n!. Eine Verallgemeinerung für nicht notwendiger weise verschiedene Elemente liefert der folgende 2.2 Satz Gegeben seien n Elemente; die verschiedenen Elemente darunter seien mit a1 , . . . , ap bezeichnet (mit p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p), wobei n, dann können die n Elemente auf Pp i=1 ni = n! n1 ! . . . np ! verschiedene Arten permutiert werden. Ï 2.2 Definition Sei A eine n-elementige Menge, k ∈ N. 1.) [2.)] Jedes k-Tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung aus A mit [ohne] Wiederholung und mit Berücksichtigung der Anordnung. 6. November 2011 13:28 35 2 Kombinatorische Wahrscheinlichkeitsrechnung 3.) [4.)] Werden in a) [2.)] Kombinationen, welche dieselben Elemente in verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Berücksichtigung der Anordnung. Ï Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen, wobei in 1.) [2.)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Ku- geln unterscheidbar sind (ai . . . Nummer der Zelle, in der die i-te Kugel liegt), in 3.) [4.)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben durch ein k-tupel von Zahlen aus {1, . . . , n}, in dem die Zellennummern so oft auf- treten, wie die zugehörige Zelle besetzt ist). 2.3 Satz Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Menge A – mit [ohne] Wiederholung und mit [ohne] Berücksichtigung der Anordnung – ist gegeben durch m. Wiederholung m. Ber. der Anordnung o. Ber. der Anordnung n k n+k−1 k o. Wiederholung (1 ≤ k ≤ n) n(n − 1) . . . (n − k + 1) n k Bestimmung von Fakultäten durch Tabellen für log n! und – bei großem n – durch die Stirlingsche Formel n! n e n p 2π n (n → ∞) und ihre Verschärfung exp 1 n! 1 < n n√ < exp , 12n + 1 12n ( e ) 2π n n ∈ N. Ï » Wir beweisen exemplarisch die Formel für die Anzahl der Kombinationen ohne Berücksichtigung der Anordnung und mit Wiederholungen. Betrachte dazu k Kugeln, die auf n Zellen verteilt werden sollen. b b b b b Zur Platzierung von k Kugeln in n Zellen 2.1 36 6. November 2011 13:28 Ohne die äußeren Trennwende gibt es also k Kugeln und n − 1 Trennwände, d.h. es gibt insgesamt (n − 1 + k)! Permutationen. Berücksichtigen wir nun noch die Ununterscheidbarkeit der Kugeln, so erhalten wir ! n+k−1 . « k Bsp Anwendung in der Physik. Man beschreibt das makroskopische Verhalten von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich genau ki der Teilchen in der i-ten Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die Menge aller n-Tupel (k1 , . . . , kn ) ∈ Nn 0 n P 0 von Besetzungszahlen mit ki = k. W-Maße auf P(Ω ) (charakterisiert durch p): i=1 a.) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen) p(k1 , . . . , kn ) = k! 1 . k1 ! . . . kn ! nk b.) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen) !−1 n+k−1 p(k1 , . . . , kn ) = . k c.) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen ) −1 n , k p(k1 , . . . , kn ) = 0, ki ∈ {0, 1} sonst. Bsp Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein W-Maß auf B mit der Zähldichte n p k (1 − p)n−k , k k→ 0, k = 0, 1, . . . , n k = n + 1, n + 2, . . . ; durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben. 6. November 2011 13:28 37 2- 3-A 3 Zufallsvariablen und Verteilungen 3-A Meßbare Abbildungen und Zufallsvariablen Wir betrachten folgende Zufallsexperimente: 1.) Zufällige Anzahl der Erfolge bei n Bernoulli-Versuchen. 2.) Zufällige Anzahl der an einem Schalter in einem bestimmten Zeitintervall [0, T ] eintreffenden Kunden. 3.) Zufällige Wartezeit (von 0 an gemessen) bis zum Eintreffen des nächsten Kunden. 4.) Zufälliger Abstand eines aus dem Intervall [−1/2, 1/2] herausgegriffenen Punktes von 0. 5.) Zufällige Lage eines Partikels im R3 zu einem bestimmten Zeitpunkt. Die zufälligen Größen können durch sogenannte “Zufallsvariablen” modelliert werden. Bsp 1 Zu 4.): Betrachte den W-Raum (Ω, A, P ) mit Ω = [−1/2, 1/2], A = B ∩ Ω und P = λA (Restriktion des LB-Maßes auf Mengen aus A). Ein Punkt ω ∈ Ω hat Abstand Y (ω) Í |ω| von Null. Y nennen wir Zufallsvariable. Die Wahrscheinlichkeit, dass Y à x mit x ∈ [0, 1/2] fest, ist gegeben durch P [Y à x] Í P ({ω ∈ Ω : Y (ω) à x}) = [−x, x] ∈ A. Allgemeiner ist die Wahrscheinlichkeit, dass Y ∈ B für B ∈ B, gegeben durch P [Y ∈ B] Í P ({ω ∈ Ω : Y (ω) ∈ B}) . 6. November 2011 13:28 39 3 Zufallsvariablen und Verteilungen Damit P [Y ∈ B] überhaupt definiert ist, muss [Y ∈ B] eine messbare Menge sein, d.h. im Definitionsbereich von P liegen. Im Folgenden erarbeiten wir die notwendigen Vorraussetzungen, dass dem so ist. 3.1 Definition Seien Ω, Ω0 zwei nichtleere Mengen, A0 ⊂ Ω0 und X : Ω → Ω0 eine Abbildung. Die Menge ω ∈ Ω : X(ω) ∈ A0 Î X −1 (A0 ) Î [X ∈ A0 ] (in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit definierte Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu unterscheiden von einer inversen Funktion!). Ï In vielen Fällen untersuchen wir nicht nur einzelne Mengen sondern ganze Mengensysteme und verwenden daher folgende Bezeichnung als Abkürzung. Bezeichnung. Sei X : Ω → Ω0 und C 0 Mengensystem in Ω0 . So ist o n X −1 (C 0 ) Í X −1 (A0 ) : A0 ∈ C 0 , wobei X −1 (C0 ) ist ein Mengensystem in Ω ist. Ç Um zu klären, unter welchen Voraussetzungen [X ∈ B] messbar ist, wenn B messbar ist, müssen wir untersuchen, wie sich die Urbildfunktion X −1 auf σ -Algebren im Bildraum auswirkt. 3.1 Satz Sei X : Ω → Ω0 . P a) X −1 und Mengenoperationen ∪, , ∩, c , \ sind vertauschbar. ! S 0 S −1 0 z.B. ist X −1 Aα = X (Aα ) für A0α ⊂ Ω0 , α ∈ Indexbereich I. α∈I b) X −1 () = ; α∈I X −1 (Ω0 ) = Ω. A0 ⊂ B 0 ⊂ Ω0 =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ). c) Ist A0 σ -Algebra in Ω0 , so ist X −1 (A0 ) σ -Algebra in Ω. d) C0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C0 )) = FΩ (X −1 (C0 )). Ï » a)-d): Der Beweis sei als Übungsaufgabe überlassen. 40 « 6. November 2011 13:28 Meßbare Abbildungen und Zufallsvariablen Sei X : (Ω, A) → (Ω0 , A0 ), so ist X −1 (A0 ) stets eine σ -Algebra. Damit die Ur- bilder messbarer Mengen auch tatsächlich messbar sind, müssen wir also fordern, dass X −1 (A0 ) ⊆ A. 3.2 Definition Seien (Ω, A), (Ω0 , A0 ) Messräume. Die Abbildung X : Ω → Ω0 heißt A- A0 -messbar [kurz: messbar; measurable], wenn gilt: ∀ A0 ∈ A0 : X −1 (A0 ) ∈ A, d.h. X −1 (A0 ) ⊆ A, d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω. In diesem Falle verwenden wir die Schreibweise X: (Ω, A) → (Ω0 , A0 ). Ï Wie wir noch sehen werden, ist die Messbarkeit einer Abbildung eine wesentlich schwächere Voraussetzung als beispielsweise Stetigkeit oder gar Differenzierbarkeit. Es erfordert sogar einiges an Aufwand, eine nicht messbare Abbildung zu konstruieren. 3.1 Bemerkung. In Satz 3.1 c) ist X −1 (A0 ) die kleinste der σ -Algebren A in Ω mit A- A0 -Messbarkeit von X. Ç Wir fassen nun alle nötigen Vorraussetzungen in der folgenden Definition zusammen. 3.3 Definition Sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum. Die Abbildung X : (Ω, A) → (Ω0 , A0 ) heißt Zufallsvariable (ZV ) auf (Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich: (Ω0 , A0 )- Zufallsvariable auf (Ω, A, P ); random variable). 1.) X : (Ω, A) → (R, B) heißt reelle Zufallsvariable (oft auch nur ZV). 2.) X : (Ω, A) → (R, B) heißt erweitert-reelle Zufallsvariable. 3.) X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor. 4.) X(ω) für ein ω ∈ Ω heißt eine Realisierung der Zufallsvariable X. Bezeichnung. B Í {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} : B ∈ B}. Ï 6. November 2011 13:28 41 3-A 3 Zufallsvariablen und Verteilungen Zufallsvariablen ermöglichen es uns für ein Experiment lediglich einmal einen W-Raum (Ω, A, P ) zu modellieren und dann für jeden Aspekt, der uns interessiert, eine Zufallsvariable zu konstruieren. X(ω) kann man als Messung interpretieren, X(ω) ist der von ω abhängige Messwert. Außerdem lassen sich Zufallsvariablen verknüpfen, wir können sie addieren, multiplizieren, hintereinanderausführen, . . . Messbarkeit für alle Elemente der Bild-σ -Algebra nachzuweisen, kann sich als äußert delikat herausstellen. Der folgende Satz besagt jedoch, dass es genügt sich auf ein Erzeugersystem der Bild-σ -Algebra zurückzuziehen. 3.2 Satz Seien (Ω, A), (Ω0 , A0 ) Messräume, X : Ω → Ω0 und E 0 Erzeugersystem von A0 . Dann ist X genau dann messbar, wenn ∀ M ∈ E 0 : X −1 (M) ∈ A, d.h. X −1 (E 0 ) ⊆ A. Ï » ⇒: Gilt per definitionem. ⇐: Sei X −1 (E 0 ) ⊆ A, zu zeigen ist nun, dass X −1 (A0 ) ⊆ A. Es gilt X −1 (A0 ) = X −1 (FΩ0 (E 0 )) = FΩ (X −1 (E 0 )) ⊆ A, denn X −1 (E 0 ) ⊆ A und FΩ (X −1 (E 0 )) ist die kleinste σ -Algebra, die X −1 (E 0 ) ent- hält und A ist σ -Algebra. « Ein einfaches aber äußerst nützliches Korollar ergibt sich, wenn wir uns auf reellwertige messbare Abbildungen beschränken. 3.3 Korollar Sei (Ω, A) ein Messraum und X : Ω → R Abbildung. Dann sind folgende Aussagen äquivalent: (i) X A-B-messbar. (ii) ∀ α ∈ R : [X ≤ α] ∈ A. (iii) ∀ α ∈ R : [X < α] ∈ A. (iv) ∀ α ∈ R : [X á α] ∈ A. Ï » Wird geführt mit Satz 3.2 und der Tatsache, dass {(−∞, α] : α ∈ R} ein Erzeu- gersystem von B ist. 42 « 6. November 2011 13:28 Meßbare Abbildungen und Zufallsvariablen Insbesondere sind somit die Mengen [X à α], [X < α], . . . für jede reelle Zufallsvariable X messbar. 3.1 Korollar Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt [X < Y ], [X ≤ Y ], [X = Y ], [X ≠ Y ] ∈ A, wobei [X < Y ] Í {ω ∈ Ω : X(ω) < Y (ω)}. Ï » Nach dem Prinzip von Archimedes gilt [X < Y ] = ist [ [X < α < Y ] = α∈R [ α∈Q [X < α < Y ] = [ α∈Q S α∈R [X < α < Y ]. Außerdem [X < α] ∩ [Y à α]c . c Für jedes α ∈ Q ist [X < α] ∩ [Y à α] messbar und die abzählbare Vereinigung messbarer Mengen ist messbar. Die übrigen Fälle folgen sofort, denn [X à Y ] = [X > Y ]c ∈ A, [X = Y ] = [X à Y ] ∩ [X á Y ] ∈ A [X ≠ Y ] = [X = Y ]c ∈ A. « 3.4 Satz Sei ∅ ≠ A ⊂ Rm und A ∩ Bm Í {A ∩ B : B ∈ Bm }. Jede stetige Abbildung g : A → Rn ist A ∩ Bm -Bn -messbar. Ï » On , das System der offenen Mengen auf Rn , ist ein Erzeugersystem von Bn . Nach 3.2 genügt es zu zeigen, dass g −1 (On ) ⊆ A ∩ Bm . g ist stetig, daher sind die Urbilder offener Mengen offene Mengen ∩ A. « Für Abbildungen Rm > Rn ist somit Messbarkeit eine wesentlich schwächere Voraussetzung als Stetigkeit. Bsp 2 Die Dirichletfunktion f : R → R gegeben durch, f (x) = 1, 0, x ∈ Q, x ∈ R \ Q, ist messbar aber sicher nicht stetig. 6. November 2011 13:28 43 3-A 3 Zufallsvariablen und Verteilungen 3.5 Satz Seien X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ). Die zusammenge- setzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 -messbar. Ï » Offensichtlich gilt (Y ◦ X)−1 (A3 ) = X −1 ◦ Y −1 (A3 ) ⊆ A1 . « 3.2 Korollar Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung g : Rm → Rn ist g ◦ X : Ω → Rn A-Bn -messbar. Ï Insbesondere ist die Komposition von Zufallsvariablen bzw. von Zufallsvariablen mit stetigen Funktionen wieder eine Zufallsvariable. Für eine reelle Zufallsvariable p X sind somit auch |X|, X 2 , |X|, . . . Zufallsvariablen. 3.6 Satz Sei (Ω, A) Messraum. a) Seien Xn : (Ω, A) → (R, B) für n = 1, . . . , m. Dann ist Y : Ω → Rm , ω , Y (ω) Í (X1 (ω)), . . . , Xm (ω)), ω ∈ Ω, A-Bm -messbar. Für g : (Rm , Bm ) → (R, B) ist g◦Y :Ω →R A-B-messbar. b) Seien X1,2 : (Ω, A) → (R, B). Dann sind auch die Abbildungen (a) αX1 + βX2 (α, β ∈ R)0 , (b) X1 X2 , X1 (c) (falls existent) X2 A-B-messbar. Ï » a) Ein Erzeugersystem C von Bm ist gegeben durch (−∞, α1 ] × . . . × (−∞, αm ], wobei (α1 , . . . , αm ) ∈ Rm . Es genügt zu zeigen, dass Y −1 (C) ⊆ A. Nun gilt Y −1 ((−∞, α1 ] × . . . × (−∞, αm ]) = {ω ∈ Ω : x1 (ω) à α1 , . . . , Xm (ω) à αm } = [X1 à α1 ] ∩ . . . ∩ [Xm à αm ] ∈ A. 44 « 6. November 2011 13:28 Meßbare Abbildungen und Zufallsvariablen R2 α2 (α1 , α2 ) α1 3.1 Erzeuger der Bn . b) Die Messbarkeit folgt mit Korollar 3.2 und der Stetigkeit von Summen- und Produktabbildung (x, y) , x + y, (x, y) , x · y. « Eine Abbildung X : Ω → Rn ist also genau dann messbar, wenn jede Komponente Xn : Ω → R messbar ist. Insbesondere sind Produkte und Summen von Zufallsva- riablen stets messbar. 3.7 Satz Sei (Ω, A) Messraum, Xn : (Ω, A) → (R, B) für n = 1, 2, . . .. Dann sind (a) inf Xn , n (b) sup Xn , n (c) lim sup Xn , n (d) lim inf Xn , n (e) lim Xn (falls existent) n A-B-messbar. Ï » (1) ∀ α ∈ R : [inf Xn < α] = S n∈N [Xn < α] ∈ A, d.h. inf Xn ist A-B-messbar. (2) sup = − inf(−Xn ) ist A-B-messbar. (3) lim sup Xn = infn supkán Xk ist A-B-messbar. (4) lim inf Xn = supn infkán Xk ist A-B-messbar. 6. November 2011 13:28 45 3-A 3 Zufallsvariablen und Verteilungen (5) lim Xn = lim sup Xn , falls limn Xn existiert. « Da Messbarkeit eine so schwache Voraussetzung ist, ist sie auch ein sehr stabiler Begriff, da sie auch unter Grenzwertbildung und Komposition erhalten bleibt. Probleme treten erst bei überabzählbar vielen Operationen auf. 46 6. November 2011 13:28 Bildmaße und Verteilungen 3-B Bildmaße und Verteilungen In diesem Abschnitt werden wir eine Beziehung zwischen Zufallsvariablen und Maßen herstellen. Jeder Zufallsvariablen X : (Ω, A, P ) → (Ω0 , A0 ) lässt sich eindeutig ein Maß PX : A0 → R, A0 , PX (A) Í P (X −1 (A)) das sogenannte Bildmaß zuordnen. Die Verteilungsfunktion des Bildmaßes F (t) = PX ((−∞, t]) nennen wir auch Verteilungsfunktion von X. F lässt sich oft leichter handhaben als X, und aus den Eigenschaften von F lassen sich Rückschlüsse auf X machen. Analog lässt sich zu jedem Maß µ : A0 → R über Ω0 eine Zufallsvariable Y : (Ω, A, Q) → (Ω0 , A0 ) finden, so dass PY = µ. 6. November 2011 13:28 47 3-B 3 Zufallsvariablen und Verteilungen Zunächst ist natürlich zu klären, ob das Bildmaß überhaupt ein Maß ist. 3.8 Satz Seien (Ω, A) und (Ω0 , A0 ) Messräume und X : (Ω, A) → (Ω0 , A0 ) eine Abbil- dung. Sei µ ein Maß auf A. Durch µX (A0 ) Í µ(X −1 (A0 )) = µ ω ∈ Ω : X(ω) ∈ A0 Î µ[X ∈ A0 ]; A0 ∈ A0 wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert. Ist µ ein W-Maß auf A, dann ist µX ebenfalls ein W-Maß auf A0 . Ï » (i) µX á 0 ist klar. (ii) µX (∅) = µ(X −1 (∅)) = µ(∅) = 0. (iii) Seien A01 , A02 , . . . ∈ A0 paarweise disjunkt, so gilt µX X iá1 A0i = µ X −1 = X iá1 X iá1 A0i µ X −1 (A0i ) . = µ X 0 −1 X (Ai ) iá1 (iv) Sei µ ein Wahrscheinlichkeitsmaß so ist µX (Ω0 ) = µ(X −1 (Ω0 )) = µ(Ω) = 1. « Es genügt also, dass X messbar ist, damit PX tatsächlich ein Maß ist. Insbesondere ist für jede Zufallsvariable PX ein Maß. 3.4 Definition Sei X eine (Ω0 , A0 )-Zufallsvariable auf dem W-Raum (Ω, A, P ). Das W- Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der Zufallsvariable X. Sprechweise: - Die Zufallsvariable X liegt in A0 ∈ A0 . - X nimmt Werte in A0 ∈ A0 an mit Wahrscheinlichkeit PX (A0 ) = P [X ∈ A0 ]. - Wenn P [X ∈ A0 ] = 1, sagt man X liegt P -fast sicher (P -f.s.) in A0 . Ï 48 6. November 2011 13:28 Bildmaße und Verteilungen Betrachten wir die Verteilung PX einer reellen Zufallsvariablen X, so besitzt diese eine Verteilungsfunktion F (t) = PX ((−∞, t]) = P (X −1 (−∞, t]). Da es sich bei der Verteilungsfunktion um eine reelle Funktion handelt, kann man oft viel leichter mit ihr Rechnen, als mit der Zufallsvariablen selbst. Die Eigenschaften der Verteilungsfunktion charakterisieren die Zufallsvariable, man klassifiziert Zufallsvariablen daher nach Verteilung (binomial-, poisson- , exponentialverteilt, . . . ). Definition Besitzen zwei Zufallsvariaben dieselbe Verteilung (also dieselbe Verteilungsfunktion) heißen sie gleichverteilt. Ï Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrscheinlich- keit p. Ω besteht aus der Menge der Elementarereignisse ω (= n-Tupel aus Nullen und Einsen), A = P(Ω). Das Wahrscheinlichkeitsmaß P auf A ist gegeben durch P ({ω}) = p k (1 − p)n−k , falls ω aus k Einsen und n − k Nullen besteht. Wir definieren uns eine Zufallsvariable X durch: X : Ω → R, X(ω) = Anzahl der Einsen in ω. X ist A − B-messbar, denn X −1 (B) ⊆ P(Ω) = A. X : (Ω, A, P ) → (R, B) gibt also die zufällige Anzahl der Erfolge in n Bernoulli- Versuchen an. Das Bildmaß zu X ist gegeben durch PX ({k}) = P [X = k] = ! n k p (1 − p)n−k Î b(n, p; k). k Um das Bildmaß auf allgemeine Mengen in B fortzusetzen, setzen wir zu B ∈ B PX (B) = X b(n, p; k). k∈N0 ∩B PX ist die sogenannte Binominalverteilung b(n, p). X ist b(n, p)-verteilt. 6. November 2011 13:28 49 3-B 3 Zufallsvariablen und Verteilungen 3.2 Bemerkung. Seien (Ω, A, P ) ein W-Raum und (Ω0 , A0 ), (Ω00 , A00 ) Messräume. Seien X : (Ω, A) → (Ω0 , A0 ) und Y : (Ω0 , A0 ) → (Ω00 , A00 ), dann gilt PY ◦X = (PX )Y . Ç » Y ◦ X ist wieder messbar. Für A00 ∈ A00 gilt somit, PY ◦X (A00 ) = P ((Y ◦ X)−1 (A00 )) = P (X −1 (Y −1 (A00 ))) = PX (Y −1 (A00 ) = (PX )Y (A00 ). « Produktmessräume Betrachten wir die Vektorräume Rn und Rm , so können wir diese durch das karthesische Produkt verknüpfen zu V = Rn × Rm . V ist dann wieder ein Vektorraum und jedes Element v ∈ V lässt sich darstellen als v = (x, y), wobei x ∈ Rn und y ∈ Rm . Eine solche Verknüpfung lässt sich auch für Messräume definieren. 3.5 Definition Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Die Produkt-σ -Algebra wird definiert als die von dem Mengensystem n Y Ai : Ai ∈ Ai , i = 1, . . . , n Nn i=1 Ai i=1 erzeugte σ -Algebra. ! n Nn Q Nn (Ω , A ) Í Ω , A i i i i heißt Produkt-Messraum. Ï i=1 i=1 i=1 Man bildet also das karthesische Produkt der Ωi und die Produkt-σ -Algebra der Nn i=1 (Ωi , Ai ). Ai und erhält so wieder einen Messraum Bsp 4 (Rn × Rm , Bn N Bm ) = (Rn+m , Bn+m ). 3.3 Bemerkung. Sei Xi : (Ω, A) → (Ωi , Ai ) messbar für i = 1, . . . , n. Die Abbildung X:Ω→ n Y Ωi i=1 mit X(ω) Í (X1 (ω), . . . , Xn (ω)), Nn ist dann A- i=1 Ai -messbar. Ç 50 ω∈Ω 6. November 2011 13:28 Bildmaße und Verteilungen » Betrachte ein Erzeugendensystem von n Y C = Ai : Ai ∈ Ai . Nn i=1 Ai , z.B. die Quader i=1 Der Beweis wird dann wie im eindimensionalen Fall geführt. « Insbesondere ist eine Abbildung X : Ω → Rn , ω , (x1 , . . . , xn ) genau dann messbar, wenn es jede Komponete Xi : Ω → R ist. 3.4 Bemerkung. Seien (Ωi , Ai ) Messräume für i = 1, . . . , n. Ein W-Maß auf eindeutig festgelegt durch seine Werte auf dem Mengensystem n Y Ai : Ai ∈ Ai , i = 1, . . . , n . Ç Nn i=1 Ai ist i=1 » Fortsetzungs- und Eindeutigkeitssatz 1.4 mit der σ -Algebra gegeben durch die endliche Summe von Quadern der Form n Y Ai , Ai ∈ Ai . « i=1 3.6 Definition Seien Xi : (Ω, A, P ) → (Ωi , Ai ) Zufallsvariablen für i = 1, . . . , n und X Í (X1 , . . . , Xn ) Zufallsvariable auf (Ω, A, P ). 1.) Die Verteilung PX der Zufallsvariablen X - erklärt durch PX (A) Í P [(X1 , . . . , Xn ) ∈ A] für A ∈ Nn i=1 Ai oder auch nur für A = n Q i=1 Ai (Ai ∈ Ai , i = 1, . . . , n) - heißt die gemeinsame Verteilung der Zufallsvariablen Xi . 2.) Die Verteilungen PXi - erklärt durch PXi (Ai ) Í P [Xi ∈ Ai ] = P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ] für Ai ∈ Ai - heißen Randverteilungen von PX 6. November 2011 13:28 (i = 1, . . . , n). Ï 51 3-B 3 Zufallsvariablen und Verteilungen Wichtiger Spezialfall. (Ωi , Ai ) = (R, B) für i = 1, . . . , n. Dann sind die Xi reelle Zufallsvariablen und X ein Zufallsvektor. Ç 3.5 Bemerkungen. Seien die Bezeichnungen wie in Definition 3.6. a. Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt. b. Die Projektionsabbildung πi : n Y k=1 Ωk → Ωi , (ω1 , . . . , ωn ) → ωi ist messbar und somit gilt PXi = (PX )πi , i = 1, . . . , n. Ç Aufgrund der Messbarkeit der Projektionen sind die Randverteilungen einer gemeinsamen Verteilung eindeutig bestimmt. Die Umkehrung, dass die Randverteilungen auch die gemeinsame Verteilung eindeutig bestimmen ist im Allgemeinen falsch. Wir werden uns in Kapitel 5 ausführlicher damit beschäftigen. 3.6 Bemerkungen. a. Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle Zufalls- variablen X1 , . . . , Xn auf einem geeigneten W-Raum (Ω, A, P ) so, dass ihre gemeinsame Verteilung mit Q übereinstimmt: Auf dem W-Raum (Ω, A, P ) Í (Rn , Bn , Q), wird Xi : Ω → R definiert als die Projektionsabbildung (x1 , . . . , xn ) → xi (i = 1, . . . , n); hierbei ist also X Í (X1 , . . . , Xn ) die auf Rn definierte identische Abbildung. b. Wir können die Aussage aus a) unmittelbar auf einen beliebigen Produkt-Meßraum ! n Q Nn n Ωi , i=1 Ai statt (R , Bn ) verallgemeinern. i=1 c. Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische Abbildung, so gilt PX = Q. Jedes W-Maß lässt sich somit als eine Verteilung auffassen (und - definitionsgemäß - umgekehrt). Ç Dieser Zusammenhang zwischen W-Maß und Verteilung hat eine große Bedeutung, wie wir mit der Einführung des Maßintegrals im folgenden Kapitel sehen werden. 52 6. November 2011 13:28 4-A 4 Erwartungswerte und Dichten 4-A Erwartungswert, Varianz und Lebesgue Integral Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle Zufallsvariable X auf (Ω, A, P ) mit Verteilung PX (auf B) und Verteilungsfunktion F : R → R. Der Erwartungswert EX der Zufallsvariable X gibt einen “mittleren Wert” von X bezüglich P an. Bsp 1 Wir betrachten einen fairen Würfel. X gebe die zufällige Augenzahl an. Den Erwartungswert von X erhalten wir, indem wir die möglichen Werte von X mit ihrer Wahrscheinlichkeit multiplizieren und aufsummieren, EX = 1 · 1 1 1 + 2 · + . . . + 6 · = 3.5. 6 6 6 Für diskrete Zufallsvariablen, das sind Zufallsvariablen deren Verteilung auf N0 konzentriert ist, erhalten wir somit, EX = ∞ X k=1 kpk , mit pk = P [X = k]. Diese Definition lässt sich allerdings nicht auf den Fall einer Zufallsvariablen mit einer auf einem Kontinuum konzentrierten Verteilung übertragen. Um diesen Fall einzuschließen, gehen wir von der diskreten Summe zum kontinuierlichen Integral über, wir wählen also Integralansatz, um den Erwartungswert einzuführen. 6. November 2011 13:28 53 4 Erwartungswerte und Dichten Erwartungswert mittels Riemann-Stieltjes-Integral Bezeichnungen. X(ω), falls X(ω) > 0, 0, sonst −X(ω), falls X(ω) < 0, X − (ω) Í 0, sonst. X + (ω) Í Wir wählen zunächst den naiven Ansatz, den Erwartungswert von X als Integral über den Wertebereich von X zu definieren. 1. Schritt: Sei zunächst X positiv (X ≥ 0), d.h. PX (R+ ) = 1 und F (x) = 0 für x < 0. Wir ersetzen nun die Summe aus dem Beispiel durch ein Integral, Z Z Z x dF (x), EX Í x PX ( dx) Í x dF (x) Í lim R+ a→∞ R+ [0,a] wobei es sich hier um ein Riemann-Stieltjes-Integral von x bezüglich F handelt. Da der Integrand x auf R+ positiv, gilt 0 ≤ EX ≤ ∞. Für F (x) = x entspricht das Riemann-Stieltjes-Integral dem gewöhnlichen Riemann- Integral, Z R+ x dF (x) = Z∞ 0 x dx. Allgemeiner entspricht das Riemann-Stieltjes-Integral für stetig differenzierbares F dem Riemann-Integral, Z Z∞ x dF (x) = x F 0 (x) dx. 0 R+ 2. Schritt: Sei X beliebig und EX + , EX − nicht beide ∞, so ist der Erwartungswert von X definiert als Z EX Í x PX ( dx) Í EX + − EX − . R Ï 4.1 Erster Versuch des Erwartungswertes EX von X als ein Integral auf dem Wertebe- reich von X: EX Í Z R x PX ( dx). Ï Für den Erwartungswert ist diese Definition ausreichend und historisch ist man auch genau so vorgegangen. Wir integrieren hier jedoch lediglich die stetige Funktion x , x. In der Wahrscheinlichkeitstheorie arbeitet man aber meist mit unstetigen Funktionen und für diese ist das Riemann-Stieltjes-Integral nicht ausreichend. 54 6. November 2011 13:28 Erwartungswert, Varianz und Lebesgue Integral Erwartungswert mittels Maß-Integral Wir benötigen einen allgemeineren Integrationsbegriff, der es uns erlaubt, lediglich messbare (also insbesondere auch unstetige) Funktionen zu integrieren. Dazu machen wir einen neuen Integralansatz, wobei wir diesmal über den Definitionsbereich von X also Ω integrieren. Sei also X : (Ω, A) → (R, B) messbar. 0. Schritt: Sei X positiv und nehme nur endlich viele Werte an. Dann existiert eine Darstellung X= N X αi 1Ai , i=1 αi ∈ R+ , mit Ai paarweise disjunkt und PN Ai ∈ A i=1 Ai = Ω. 1A bezeichnet die sogenannte Indikatorfunktion einer Menge A, 1, x ∈ A, 1A (x) Í 0, x ∉ A. Somit können wir den Erwartungswert definieren als EX Í Z Ω X dP Í N X αi P (Ai ). i=1 Diese Definition schließt z.B. den Fall des Würfels ein, jedoch sind wir beispielsweise noch nicht in der Lage, den Erwartungswert eines zufälligen Temperaturwertes anzugeben. 1. Schritt: Sei nun X lediglich positiv. In der Maßtheorie wird gezeigt, dass dann eine Folge von Zufallsvariablen Xn ≥ 0 existiert, wobei Xn jeweils nur endlich viele Werte annimmt und die Folge (Xn ) monoton gegen X konvergiert, Xn (ω) ↑ X(ω) für n → ∞ und ω ∈ Ω. Somit können wir den Erwartungswert von X definieren als Z EX Í X dP Í lim EXn , Ω n→∞ wobei der (uneigentliche) Grenzwert existiert, da die EXn monoton wachsen. 2. Schritt: Seien EX + , EX − nicht beide ∞. Z EX Í X dP Í EX + − EX − . Ω Somit erhalten wir die endgültige Definition des Erwartungswerts. 6. November 2011 13:28 55 4-A 4 Erwartungswerte und Dichten 4.2 Definition des Erwartungswertes EX von X als ein Integral auf dem Definitionsbe- reich von X: Z EX Í Ω X(ω)P ( dω ) Î Z Ω X dP . Ï a. Die einzelnen Schritte - insbesondere bei der 4.1 Bemerkungen zu Definition 4.2 2. Definition über das Maß-Interal - sind sinnvoll. Für Interessierte werden die Details in der Maßtheorie, einem Teilgebiet der Analysis, behandelt. b. Die beiden Definitionen sind äquivalent. c. Existiert das Integral Z R x PX ( dx) in 1. Definition, so ändert es seinen Wert nicht, wenn man es gemäß 2. Definition erklärt. Insbesondere gilt dann, Z Ω X dP = d. Der Begriff R Ω Z R x PX ( dx) = Z R x dF (x). X dP in Definition 4.2 lässt sich unmittelbar verallgemeinern auf den Fall eines Maßraumes (Ω, A, µ) (anstatt eines W-Raumes) und liefert Z Ω X(ω) µ( dω ) Î Z Ω X dµ. Wichtige Spezialfälle: 1.) Sei (Ω, A) = (Rn , Bn ) oder etwas allgemeiner Ω = B mit B ∈ Bn , A = B ∩ Bn und µ = λ Restriktion des L-B-Maß(es) auf A. A Z Rn X dλ bzw. Z B X dµ wird als Lebesgue–Integral bezeichnet. Im Falle n = 1 schreiben wir auch Z 56 R X(x) dx bzw. Z B X(x) dx. 6. November 2011 13:28 Erwartungswert, Varianz und Lebesgue Integral 2.) Sei (Ω, A) = (R, B) und H : R → R eine maßdefinierende Funktion mit zugehörigem Maß µ, d.h. H(b) − H(a) = µ((a, b]), −∞ < a < b < ∞, so schreiben wir Z Z Z X(x) dH(x) Í X(x) H( dx) Í X dµ R R R Die Verallgemeinerung auf Ω = B ∈ B folgt analog. 3.) Sei (Ω, A) = (N0 , P(N0 )) und µ das Zählmaß, d.h. µ(A) = Anzahl der Elemente in A, so gilt für eine Funktion f : N0 → R, Z ∞ X f (k). f dµ = N0 k=0 Reihen sind also lediglich ein Spezialfall des Maß-Integrals. e. Sei X eine erweitert-reelle Zufallsvariable auf einem W-Raum (Ω, A, P ) mit P [|X| = ∞] = 0 und X(ω), falls |X(ω)| < ∞, ω ∈ Ω, Y (ω) Í 0 sonst, so definiert man EX Í EY , falls EX existiert. Ç Für das Maß- bzw. spezieller das Lebesgue-Integral existieren zahlreiche sehr allgemeine Sätze und elegante Beweisstrategien, die uns für das Riemann-StieltjesIntegral nicht zur Verfügung stehen, weshalb wir im Folgenden fast ausschließlich von dieser Definition ausgehen werden. Wir haben bisher nicht geklärt, wie man ein Maß- bzw. ein Lebesgue-Integral konkret berechnet, wenn X nicht nur endlich viele Werte annimmt. Ist die Verteilungsfunktion stetig differenzierbar, so gilt Z Z X dP = x F 0 (x) dx, Ω R wobei wir letzteres Integral durchaus als Lebesgue-Integral mit all seinen angenehmen Eigenschaften auffassen können, wir können damit aber auch rechnen wie mit dem Riemann-Integral (Substitution, partielle Integration, . . . ). Für allgemeineres F müssen wir uns darauf beschränken, abstrakt mit dem Integral arbeiten zu können. 6. November 2011 13:28 57 4-A 4 Erwartungswerte und Dichten 4.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum. Für A ∈ A gilt P (A) = E 1A . Ç 4.3 Definition Existiert für die reelle Zufallsvariable X auf dem W-Raum (Ω, A, P ) ein endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ). Analog für R Ω X dµ in Bemerkung 4.1 d.. Ï Ist X eine positive Zufallsvariable, so können wir den Erwartungswert direkt mit Hilfe der Verteilungsfunktion berechnen. 4.1 Lemma Für eine reelle Zufallsvariable X ≥ 0 mit Verteilungsfunktion F gilt EX = Z∞ 0 (1 − F (x)) dx. Ï » Wir verwenden Definition 4.1 mithilfe des R-S-Integrals, Z Z x dF (x) Z Za a a part.int. (∗) = lim x F (x) − 1F (x) dx = lim a − F (x) dx x=0 a→∞ a→∞ 0 0 Z a Z∞ = lim (1 − F (x)) dx = (1 − F (x)) dx. EX = R+ x dF (x) = lim a→∞ a→∞ [0,a] 0 0 1.) Zu (*). Sei EX < ∞ ∞ > EX = áa Z Z x dF (x) á R+ (a,∞) Z x dF (x) á [a,∞] Z a dF (x) [a,∞] dF (x) = a(1 − F (a)) á 0. 2.) Außerdem: Z [a,∞] da R [0,a] a→∞ x dF (x) → 0, x dF (x) → R R+ x dF (x), also a→∞ a(1 − F (a)) → 0. Der Fall EX = ∞ wird gesonderd behandelt. 58 « 6. November 2011 13:28 Erwartungswert, Varianz und Lebesgue Integral Eigenschaften des Erwartungswerts Der Erwartungswert einer reellen Zufallsvariablen X, EX = Z Ω X dP = Z R x dPX , ist ein spezielles Maß-Integral. Daher übertragen sich alle Eigenschaften dieses Integrals auf den Erwartungswert. 4.1 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ). a) X integrierbar a X + und X − integrierbar a |X| integrierbar. b) Existiert eine reelle integrierbare Zufallsvariable Y ≥ 0 mit |X| ≤ Y P-f.s., so ist X integrierbar. c) Ist X integrierbar und existiert eine reelle Zufallsvariable Y mit Y = X P-f.s., dann existiert EY = EX. Ï » Der Beweis wird in der Maßtheorie geführt. « Im Gegensatz zum klassischen uneigentlichen Riemann-Integral ist es beim MaßIntegral nicht möglich, dass sich positive und negative Anteile gegenseitig eliminieren und so eine Funktion deren Positiv- oder Negativanteil alleine nicht integrierbar sind, als ganzes integrierbar wird. Es gibt also durchaus Funktionen die (uneigentlich) Riemann- aber nicht Lebesgue-integrierbar sind. Für “viel mehr Funktionen” gilt jedoch das Gegenteil. Beim Riemann-Integral ändert eine Abänderung einer Funktion an endlich vielen Punkten den Integralwert nicht, beim Lebesgue-Integral hingegen ändert eine Abänderung einer Zufallsvariabeln auf einer Menge vom Maß Null ihren Erwartungswert nicht. Bsp 2 Die Dirichletfunktion f : R → R mit 1, x ∈ Q, f (x) = 0, x ∈ R \ Q. 6. November 2011 13:28 59 4-A 4 Erwartungswerte und Dichten ist nicht Riemann- aber Lebesgue-integirerbar. Das Lebesgue-Integral lässt sich auch sehr leicht berechnen, denn f á 0, also gilt nach Definition Z R f (x) dx = 1 · λ(Q) + 0 · λ(R \ Q) = 1 · λ(Q), | {z } =0 denn Q ist abzählbare Teilmenge von R. Ferner ist der Erwartungswert linear, monoton und erfüllt die Dreiecksungleichung. 4.2 Satz Seien X, Y reelle integrierbare Zufallsvariablen auf einem W-Raum (Ω, A, P ). a) Es existiert E(X + Y ) = EX + EY . b) Es existiert E(αX) = αEX für α ∈ R. c) X ≥ Y ⇒ EX ≥ EY . d) |EX| ≤ E|X|. e) X ≥ 0, EX = 0 ⇒ X = 0 P-f.s. Ï » Beweisidee. Wir beweisen lediglich die erste Behauptung, der Rest folgt analog. Dazu bedienen wir uns dem Standardtrick für Beweise in der Maßtheorie. 1. Schritt. Reduktion auf X á 0 und Y á 0, dann Reduktion auf einfache Funktionen X= mit n P i=1 n X αi 1Ai , Y = i=1 Ai = Ω = X= X m P j=1 ⇒X + Y = X i,j βj 1Bj j=1 Bj . Sei Cij = Ai ∩ Bj ∈ A, so gilt γij 1Cij , i,j m X Y = X δij 1Cij , i,j (γij + δij )1Cij . 2. Schritt. Nun seien X á 0 und Y á 0 beliebig und Xn , Yn Folgen von einfachen Funktionen mit Xn ↑ X, Yn ↑ Y und Xn + Yn = Zn ↑ Z = X + Y . 60 6. November 2011 13:28 Erwartungswert, Varianz und Lebesgue Integral Für jedes n ∈ N sind Xn und Yn einfach und damit E linear. Es gilt also E(Xn + Yn ) = EXn + EYn à EX + EY sowie EXn + EYn = E(Xn + Yn ) = EZn à EZ = E(X + Y ). Nach dem Grenzübergang für n → ∞ erhalten wir somit EX + EY = E(X + Y ). 3. Schritt. Für X und Y integrierbar betrachten wir X = X+ − X− , Y = Y+ − Y− . Nach dem eben gezeigten, können wir die Linearität von E für Positiv und Negativteil verwenden. EX + EY = (EX+ EY+ ) − (EX− + EY− ) = E(X+ + Y+ ) − E(X− + Y− ) = E(X + Y ). « Bsp 3 Wir betrachten n Bernoulli-Versuche mit jeweiliger Erfolgswahrscheinlich- keit p. Die Zufallsvariable Xi nehme Werte 0 bzw. 1 an, falls im i-ten Versuch ein Misserfolg bzw. Erfolg aufgetreten ist (i = 1, . . . , n). X = X1 + . . . + Xn gibt die Anzahl der Erfolge an. ! EX = EX1 + . . . EXn = nEX1 = np, da alle Xi dieselbe Verteilungsfunktion besitzen. Der Erwartungswert einer b(n, p)-verteilten Zufallsvariablen ist also np. Ein alternativer (evtl. ungeschickterer) Rechenweg ist ! n n X X n k EX = kP [X = k] = k p (1 − p)n−k = . . . = np. k k=0 k=0 Für das Riemann-Integral ist für die Vertauschbarkeit von Integration und Grenzwertbildung Z lim n→∞ [a,b] fn (x) dx = Z lim fn (x) dx [a,b] n→∞ im Allgemeinen die gleichmäßige Konvergenz der fn erforderlich. Ein entscheidender Vorteil des Lebesgue-Integrals ist die Existenz von Konvergenzsätzen, die wesentlich schwächere Voraussetzungen für die Vertauschbarkeit haben. 6. November 2011 13:28 61 4-A 4 Erwartungswerte und Dichten 4.3 Satz von der monotonen Konvergenz (B. Levi) Für reelle Zufallsvariablen Xn auf (Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞) existiert EX = lim EXn . n Hierbei EX Í ∞, falls P [X = ∞] > 0. Entsprechend für Reihen von nichtnegativen R Zufallsvariablen. – Analog für Ω Xn dµ gemäß Bemerkung 4.1d. Ï » Die Messbarkeit von X folgt aus Satz 3.7. Die Xn sind monoton wachsend und R positiv, also ist ( Ω Xn dP )n monotone Folge, somit existiert ihr Grenzwert. Setze c Í lim Z n→∞ Ω Xn dP à Z Ω X dP . Es genügt nun für jede einfache Funktion Y mit Y à X zu zeigen, dass cá Z Ω Y dP . Sei dazu Y = m X i=1 αi 1[Y =αi ] , αi á 0. Sei δ < 1 beliebig aber fest und An Í [Xn á δY ]. Wegen Xn ↑ X folgt An ↑ Ω also auch An ∩ [Y = αj ] ↑ [Y = αj ] für j = 1, . . . , m. δ Z Ω Y dP = δ m X j=1 = lim n→∞ à lim n→∞ αj P [Y = αj ] = δ m X j=1 Z Ω m X j=1 αj lim P (An ∩ [Y = αj ]) n→∞ δαj P (An ∩ [Y = αj ]) = lim Xn dP = c. n→∞ Z Ω δY 1An dP | {z } àXn Da die Ungleichung für jedes δ < 1 gilt, folgt Z Ω 62 Y dP à c. « 6. November 2011 13:28 Dichtefunktion und Zähldichte 4-B Dichtefunktion und Zähldichte 4.4 Definition Sei X ein n-dimensionaler Zufallsvektor mit Verteilung PX auf Bn und Verteilungsfunktion F : Rn → R. 1.) Nimmt X (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung. Ist X eine reelle Zufallsvariable und PX auf N0 konzentriert, so heißt die Folge (pk )k mit pk Í PX ({k}) = P [X = k], P∞ (wobei k=0 k ∈ N0 , pk = 1) Zähldichte von X bzw. PX . 2.) Gibt es eine Funktion f : (Rn , Bn ) → (R+ , B+ ) für die das Lebesgue-Integral Z Qn i=1 (−∞,xi ] f dλ existiert und mit n Y PX (−∞, xi ] = F (x1 , . . . , xn ), i=1 (x1 , . . . , xn ) ∈ Rn übereinstimmt, so heißt f Dichte(funktion) von X bzw. PX bzw. F . PX und F heißen totalstetig, falls sie eine Dichtefunktion besitzen. Ï 4.3 Bemerkungen. a. Eine totalstetige Verteilungsfunktion ist stetig. b. Besitzt die n-dimensionale Verteilungsfunktion F : Rn → R eine Dichtefunktion f : Rn → R+ , 6. November 2011 13:28 63 4-B 4 Erwartungswerte und Dichten so existiert L-f.ü. ∂nF , ∂x1 . . . ∂xn und L-f.ü., d.h. insbesondere an den Stetigkeitsstellen von f , gilt ∂nF = f. ∂x1 . . . ∂xn c. Ein uneigentliches Riemann-Integral einer nichtnegativen Bn -B-messbaren Funktion lässt sich als Lebesgue-Integral deuten. Ç Sind Dichtefunktion bzw. Zähldichte bekannt, so können wir den abstrakten Ausdruck PX durch ein Integral über eine konkrete Funktion bzw. durch eine Reihe ersetzen, PX (A) = Z A X f dλ bzw. pk . k∈N0 ∩A Zufallsvariablen mit Dichtefunktion bzw. Zähldichte, sind für uns somit sehr “zugänglich”. Es lassen sich jedoch nicht für alle Zufallsvariablen Dichten finden, denn dazu müsste jede Verteilungsfunktion L-f.ü. differenzierbar und Differentiation mit der Integration über Rn vertauschbar sein. 4.4 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX . a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt EX = ∞ X k pk . k=1 b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das Lebesgue-Integral Z R xf (x) dx Î Z R xf (x) λ( dx) genau dann, wenn EX existiert, und es gilt hierbei EX = 64 Z R xf (x) dx. Ï 6. November 2011 13:28 Dichtefunktion und Zähldichte » Beweisidee zu Satz 4.4a) Für den Erwartungswert gilt nach 4.2, EX = Z Ω X dP . X nimmt höchstens abzählbar viele verschiedene Werte in N0 an, wir können das Integral also schreiben als, Z Ω X dP = lim n→∞ n X k=0 k · P [X = k] = ∞ X k pk . k=0 Spezialfall zu 4.4b). Sei X á 0 und F stetig differenzierbar auf (0, ∞). Wir verwenden die Definition des Erwartungswerts als Riemann-Stieltjes-Integral EX = lim x→∞ Z [0,x] ! t dF (t) = lim x→∞ Z [0,x] tF 0 (t) dt = Z xf (x) dx. [0,∞] (!) gilt, da F stetig differenzierbar. Da f nur auf der positiven rellen Achse Werte ≠ 0 annimmt, gilt somit EX = Z R xf (x) dx. Mit Hilfe des Transformationssatzes werden wir später einen vollständigen Beweis geben können. « Für eine Zufallsvariable X auf (Ω, A, P ) mit Dichtefunktion bzw. Zähldichte ha- ben wir mit Satz 4.4 eine konkrete Möglichkeit den Erwartungswert zu berechnen. Wir betrachten dazu nun einige Beispiele. Bsp 4 Sei X b(n, p)-verteilt, d.h. X hat die Zähldichte pk = P [X = k] = ! n k p (1 − p)n−k , k (k = 0, 1, . . . , n) mit n ∈ N und p ∈ [0, 1]. Für den Erwartungswert gilt EX = np. Bsp 5 Sei X π (λ)-verteilt, d.h. pk = P [X = k] = e−λ λk , k! k ∈ N0 , mit λ > 0, so gilt EX = λ. 6. November 2011 13:28 65 4-B 4 Erwartungswerte und Dichten » Zu berechnen ist der Wert folgender Reihe, EX = ∞ X ke−λ k=0 λk . k! Wir verwenden dazu folgende Hilfsunktion, g(s) Í ∞ X e−λ k=0 λk k s = e−λ eλs , k! s ∈ [0, 1]. g bezeichnet man auch als erzeugende Funktion der Poisson-Verteilung. Wir werden in Kapitel 6 genauer darauf eingehen. Die Reihe konvergiert auf [0, 1] gleichmäßig, wir können also gliedweise differenzieren und erhalten somit, g 0 (s) = X ke−λ k=1 λk k−1 s = λe−λ eλs . k! Setzen wir s = 1, so erhalten wir EX = X ke−λ k=1 λk = g 0 (1) = λ. « k! Bsp 6 Sei X N(a, σ 2 )-verteilt, d.h. X besitzt die Dichtefunktion f : R → R+ mit f (x) Í √ 2 1 − (x−a) e 2σ 2 , 2π σ a ∈ R, σ > 0. Es gilt EX = a. » Wir wenden Satz 4.4b) an und erhalten, EX = Z R xf (x) dx = Z R (x − a)f (x) dx + Z R af (x) dx. f (x) ist symmetrisch bezüglich x = a, d.h. der linke Integrand ist asymmetrisch bezüglich x = a und damit verschwindet das Integral. ⇒ EX = a da f Dichte. 66 « Z R f (x) dx = a, 6. November 2011 13:28 Dichtefunktion und Zähldichte Bsp 7 Sei X exp(λ) verteilt mit λ > 0, so besitzt X die Dichtefunktion f mit, 0, f (x) = λe−λx , Es gilt EX = x < 0, x á 0. 1 λ. » Eine Anwendung von Satz 4.4b) ergibt, EX = Z R xf (x) dx = Z∞ xλe−λx dx 0 ∞ 1 1 = − e−λx = . « 0 λ λ part.int. = ∞ Z ∞ −xe−λx + e−λx dx 0 0 Bsp 8 X sei auf [a, b] gleichverteilt, d.h. mit Dichtefunktion f : R → R+ , 0, x ∉ [a, b], f (x) = 1 b−a , x ∈ [a, b]. Dann ist EX = a+b 2 . » f ist eine Rechteckfunktion, ihr Erwartungswert ist die Intervallmitte. « Der Transformationssatz 4.5 Transformationssatz Sei X : (Ω, A, P ) → R eine reelle Zufallsvariable mit Vertei- lung PX und Verteilungsfunktion F , sowie g : (R, B) → (R, B). E(g ◦ X) existiert genau dann, wenn Transformationssatz für Integrale E(g ◦ X) = Z R g dPX =: Z R R R g dPX existiert, und es gilt hierbei nach dem g dF Î Z R g(x) dF (x). Spezialfälle sind: P ká0 g(k)pk , E(g ◦ X) = R R g(x)f (x) dλ(x), 6. November 2011 13:28 unter der Voraussetzung von Satz 4.4a, unter der Voraussetzung von Satz 4.4b. 67 4-B 4 Erwartungswerte und Dichten Insbesondere gilt (mit g = 1A , wobei A ∈ B) P [X ∈ A] = PX (A) P k∈A∩N pk 0 = R R R 1A (x)f (x) dλ(x) Î A f (x) dx u. V. von Satz 4.4a Ï u. V. von Satz 4.4b. » Wir führen den Beweis nach der Standardprozedur. 0. Schritt: Beweis der Behauptung für g = 1A und A ∈ B. Z Z Z 1A (x) dPX = PX (A) = P (X −1 (A)) = X −1 (A) dP = 1A (X) dP . Ω R Ω 1. Schritt: g á 0, wobei g Linearkombination einfacher Funktionen. 2. Schritt: g á 0. Verwende den Satz von der monotonen Konvergenz. 3. Schritt: g = g + − g − . « Wir können somit einen vollständigen Beweis von 4.4 b) geben. » Sei X reelle Zufallsvariable und g = id, d.h. g(x) = x, so gilt Z Z EX = E(g ◦ X) = g dPX = id dPX . R R Die Verteilungsfunktion F erzeugt das Maß PX , somit gilt Z Z id dPX = x dF (x). R R Besitzt X die Dichte f , d.h. F 0 = f L-f.ü., so gilt Z Z x dF (x) = xf (x) dλ(x). « R R Wir betrachten einige Beispiele zu Satz 4.5 Bsp 9 Ein Schütze trifft einen Punkt des Intervalls [−1, 1] gemäß einer Gleichver- 1 teilung und erhält den Gewinn √ , wenn er den Punkt x trifft, wobei wir gewichten. |x| 1 0 Í∞ Gesucht ist der mittlere Gewinn des Schützen. Dazu konstruieren wir eine Zufallsvariable X, die den zufällig getroffenen Punkt angibt. X ist nach Voraussetzung gleichverteilt, d.h. die zugehörige Dichte gegeben durch, 1 , x ∈ [−1, 1], 2 f (x) = 0, sonst. 68 6. November 2011 13:28 Dichtefunktion und Zähldichte f (x) f x 4.1 Dichtefunktion zu X. Den mittleren Gewinn erhalten wir durch den Erwartungswert, Z Z 1 1 1 1 p p E(Gewinn) = E √ = f (x) dx = dx 2 [−1,1] |x| X R |x| 1 Z1 √ 1 √ dx = 2 x = = 2. x 0 0 Bsp 10 Ein Punkt wird rein zufällig aus der Einheitskreisscheibe K von 0 ausge- wählt. Wie groß ist der zufällige Abstand dieses Punktes von 0? Um diese Fragestellung zu modellieren, konstruieren wir einen zweidimensionalen Zufallsvektor X = (X1 , X2 ), der auf K gleichverteilt ist. Die Dichtefunktion f : R2 → R+ ist dann gegeben durch, 1 , (x1 , x2 ) ∈ K, π f (x1 , x2 ) = 0, sonst. q Gesucht ist nun E X12 + X22 . Man arbeitet überlicherweise nicht auf Ω. 1. Weg (üblich). Anwendung des Transformationssatzes, Z q q 4.5 E X12 + X22 = x12 + x22 f (x1 , x2 ) dλ(x1 , x2 ) R2 pol.koord. = 1 π 2π Z Z1 ϕ=0 r =0 r · r dλ(r , ϕ) = 2 . 3 q 2. Weg. Betrachte die Zufallsvariable Y = X12 + X22 mit der zugehörigen Verteilungsfunktion F (y) Í P [Y à y] = 6. November 2011 13:28 0, 1 2 π πy 1, falls y à 0, 2 = y , falls y ∈ (0, 1), falls y á 1. 69 4-B 4 Erwartungswerte und Dichten f F x Dichtefunktion zu X. 4.2 F ist bis auf den Punkt y = 1 stetig differenzierbar, es gilt also EY = Z1 0 yF 0 (y) dy = 2 Z1 0 y 2 dy = 2 . 3 Welcher Weg (schneller) zum Ziel führt, hängt vom Problem ab. Zusatz Sei X ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) und g : (Rn , Bn ) → (R, B), R so existiert E(g ◦ X) genau dann, wenn Rn g dPX existiert. In diesem Fall gilt Z Z E(g ◦ X) = g ◦ X dP = g dPX . Rn Ω Besitzt X außerdem eine Dichtefunktion f : Rn → R+ , so gilt Z E(g ◦ X) = g(x)f (x) dλ(x). Rn Insbesondere gilt für A ∈ Bn , Z P [X ∈ A] = PX (A) = Rn 1A (x)f (x) dx Î Z A f (x) dx. [Falls das entsprechende Riemann-Integral existiert, so stimmen Riemann- und LebesgueIntegral überein.] Ï » Der Beweis erfolgt wie im eindimensionalen Fall. Die letzte Behauptung folgt sofort für g = 1A . 70 « 6. November 2011 13:28 Momente von Zufallsvariablen R 4.4 Bemerkung. Das Integral A f (x) dx im Zusatz zu Satz 4.4 ist entspricht dem λ- Maß der Ordinatenmenge n o (x, y) ∈ Rn+1 : x ∈ A, 0 ≤ y ≤ f (x) von f |A in Rn+1 . Ç 4-C Momente von Zufallsvariablen 4.5 Definition Sei X eine reelle Zufallsvariable und k ∈ N. Im Falle der Existenz heißt EX k das k-te Moment von X und E(X − EX)k das k-te zentrale Moment von X. Ist X integrierbar, dann heißt V(X) Í E(X − EX)2 die Varianz von X und q σ (X) Í+ V(X) die Streuung von X. Ï Das erste Moment einer Zufallsvariablen haben wir bereits als Erwartungswert kennengelernt. Die Varianz V(X), gibt die “Schwankung” der Zufallsvariablen X als “mittleren Wert” ihrer quadratischen Abweichung von EX an. Für die Existenz der Varianz ist es nicht notwendig, die quadratische Integrierbarkeit von X explizit zu fordern, da durch die Integrierbarkeit von X gesichert ist, dass (X − EX)2 eine nicht-negative reelle Zufallsvariable und damit E(X − EX)2 definiert ist (wenn auch möglicherweise ∞). 4.2 Lemma Sei X eine reelle Zufallsvariable und 0 ≤ α < β < ∞. Dann gilt E|X|β < ∞ ⇒ E|X|α < ∞. Ï n o » E |X|α à E max 1, |X|β à 1 + E |X|β < ∞. « Da EX k genau dann existiert, wenn E |X|k existiert, impliziert die Existenz des k-ten Moments somit die Existenz aller niedrigeren Momente EX l mit l à k. 4.6 Satz Sei X eine reelle integrierbare Zufallsvariable. Dann gilt 6. November 2011 13:28 71 4-C 4 Erwartungswerte und Dichten a) V(X) = EX 2 − (EX)2 . b) V(aX + b) = a2 V(X), a, b ∈ R. Ï Im Gegensatz zum Erwartungswert ist die Varianz ist also insbesondere keine lineare Operation. » Den Fall EX 2 = ∞ behandeln wir durch Stutzung von X in Höhe c und gehen dann zum Grenzwert für c → ∞ über. Betrachten wir also den Fall EX 2 < ∞. a) V(X) = E(X−E(X))2 = E(X 2 −2(EX)X+(EX)2 ). Nach Voraussetzung ist EX < ∞ und somit, V(X) = EX 2 − 2(EX)(EX) + (EX)2 = EX 2 − (EX)2 . b) Unter Verwendung der Linearität von E erhalten wir sofort, V(aX + b) = E(aX + b − E(aX + b))2 = E(aX + b − aEX − b)2 = a2 E(X − EX)2 = a2 V(X). « Bsp 11 X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V(x) = np(1 − p). Wir werden dafür später einen einfachen Beweis gegeben können. Bsp 12 X sei π (λ)-verteilt mit λ > 0. Die Berechnung der Varianz erfolgt mittels der Erzeugendenfunktion, g(s) = n X e−λ k=0 n X g 00 (s) = k=2 λk k s = e−λ eλs , k! k(k − 1)e−λ λk k−2 s = λ2 e−λ eλs , k! s ∈ [0, 1]. Auswerten ergibt g 00 (1) = n X k=2 | k(k − 1)e−λ {z 4.5=E(X(X−1)) Somit erhalten wir, λk = λ2 . k! } EX 2 = E(X(X − 1)) + EX = λ2 + λ, VX = EX 2 − (EX)2 = λ2 + λ − λ2 = λ. 72 6. November 2011 13:28 Momente von Zufallsvariablen 1 Bsp 13 X sei N(a, σ 2 )-verteilt mit a ∈ R, σ > 0, dann ist Y = σ (X − a) N(0, 1) verteilt. Wir können uns also auf den Fall a = 0, σ = 1 zurückziehen, wobei man leicht zeigen kann, dass E |X|n < ∞, ∀ n ∈ N. Weiterhin gilt EX 2k+1 = 0, k ∈ N0 , da der Integrand eine ungerade Funktion ist und daher das Integral verschwindet. Insbesondere ist EX = 0. Für geraden Exponenten erhalten wir Z k2 1 4.5 EX 2k = √ x 2k e− 2 dx 2π R part. int. = ∞ Z∞ x2 x2 1 1 2 2 2k+1 − 2 √ x e x 2k+1 (−x)e− 2 dx −√ 2k + 1 2π 2k + 1 2π 0 | {z } 0 1 2 = √ 2π 2k + 1 Z∞ =0 x 2k+2 e− 0 x2 2 dx = 1 EX 2k+2 . 2k + 1 Somit gilt für jedes k ∈ N0 , EX 2k+2 = (2k + 1)EX 2k . Insbesondere erhalten wir EX 0 = E1 = 1 ⇒ EX 2 = 1 ⇒ V(X) = 1. Für allgemeines N(a, σ 2 ) verteiltes X erhalten wir somit, 1 E (X − a) = 0 ⇒ EX = a, σ 1 V (X − a) = 1 ⇒ VX = σ 2 . σ Die folgenden Ungleichungen haben zahlreiche Anwendungen und gehören zu den wichtigsten Hilfsmitteln der Stochastik. 4.7 Satz Sei X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ). Dann gilt für jedes ε > 0, r > 0: P [|X| ≥ ε] ≤ ε−r E|X|r , Markoffsche Ungleichung. Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei integrierba- rem X auch in der Variante P [|X − EX| ≥ ε] ≤ ε−2 V(X) angegeben wird. Ï 6. November 2011 13:28 73 4-C 4 Erwartungswerte und Dichten » Zum Beweis verwenden wir eine Zufallsvariable Y , die X “stutzt”, 1, falls |X| á ε, Y Í 0, sonst. Offensichtlich ist Y à |X|r εr , d.h. EY à ε−r E |X|r , wobei EY = P [|X| á ε]. « Als Anwendung beweisen wir das Bernoullische schwache Gesetz der großen Zahlen. Bsp 14 Sei Yn eine Zufallsvariable, die die Anzahl der Erfolge in n Bernoulli-Versuchen mit jeweiliger Erfolgswahrscheinlichkeit p ∈ [0, 1] (fest) angibt. Yn ist also b(n, p)verteilt und es gilt EYn = np, VYn = np(1 − p). Die relative Häufigkeit der Anzahl der Erfolge ist gegeben durch Sei nun ε > 0 beliebig aber fest, so gilt Yn . n V Yn Yn 1 p(1 − p) n P = 2 2 V(Yn ) = → 0, n − p á ε à ε2 ε n ε2 n n → ∞. Zusammenfassend erhalten wir das Bernoullische schwache Gesetz der großen Zahlen, Yn ∀ε>0:P n − p á ε → 0, n → ∞. Eines der Ziele dieser Vorlesung ist die Verallgemeinerung dieses Gesetzes auf das starke Kolmogorovsche Gesetz der großen Zahlen in Kapitel 9. 74 6. November 2011 13:28 5- 5 Unabhängigkeit Es ist eine zentrale Fragestellung der Wahrscheinlichkeitstheorie, inwiefern sich zufällige Experimente gegenseitig beeinflussen. In 1-D haben wir bereits die Bedingte Wahrscheinlichkeit definiert und festgestellt, dass sich Zufallsexperimente tatsächlich beeinflussen können und damit die Wahrscheinlichkeit für das Eintreten eines Ereignises vom Eintreten eines vorangegangen Ereignisses abhängen kann. In diesem Kapitel wollen wir die Eigenschaften von unabhängigen Ereignissen und insbesondere unabhängigen Zufallsvariablen studieren. Solche Zufallsvariablen haben viele angenehme Eigenschaften und lassen sich besonders “leicht” handhaben — Die wirklich interessanten Experimente sind jedoch gerade nicht unabhängig. 6. November 2011 13:28 75 5 Unabhängigkeit 5-A Unabhängige Ereignisse und Zufallsvariablen Wir betrachten einige Beispiele zum Einstieg. Bsp 1 Zwei Ausspielungen eines Würfels “ohne gegenseitige Beeinflussung”. Betrachte dazu einen laplaceschen W-Raum (Ω, A, P ) mit Ω = {1, . . . , 6}2 und A = P(Ω). Sei A das Ereignis, dass im ersten Wurf eine 1 erzielt wird, B das Ereignis, dass im zweiten Wurf eine gerade Zahl erscheint. Einfaches Abzählen ergibt, 6 1 = , 36 6 18 1 P (B) = = . 36 2 P (A) = Die Wahrscheinlichkeit, dass beide Ereignisse gleichzeitig eintreten ist, P (A ∩ B) = 3 1 1 1 = = · = P (A) · P (B). 36 12 6 2 Eine solche Situation (P (A ∩ B) = P (A) · P (B)) ist typisch bei Ereignissen, bei denen es physikalisch keine gegenseite Beeinflussung gibt. Wir werden den Fall, dass die Wahrscheinlichkeit des gemeinsamen Eintretens mit dem Produkt der einzelnen Wahrscheinlichkeiten übereinstimmt als Grundlage für die Definition der stochastischen Unabhängigkeit verwenden. Es ist wichtig, zwischen “stochastisch unabhängig” und “physikalisch unabhängig” zu unterscheiden, denn im Allgemeinen lassen sich aus der stochastischen Unabhänigkeit keine Rückschlüsse auf die physikalische machen. Sei (Ω, A, P ) ein W-Raum, A und B ∈ A mit P (B) > 0, dann gilt P (A ∩ B) = P (A | B)P (B). Falls A von B “unabhängig” ist, muss gelten P (A | B) = P (A) und damit P (A ∩ B) = P (A)P (B). 5.1 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Ai : i ∈ I} von Ereignissen Ai ∈ A heißt unabhängig (ausführlich: stochastisch unabhängig bzgl. P ), falls für jede nichtleere endliche Menge K ⊂ I gilt \ Y P Ak = P (Ak ). Ï k∈K 76 k∈K 6. November 2011 13:28 Unabhängige Ereignisse und Zufallsvariablen In dieser Definition werden keine Anforderungen an die Indexmenge I gemacht, unendliche (z.B. überabzählbare) Indexmengen sind also durchaus zugelassen. Im Folgenden sei mit “unabhängig” stets stochastisch unabhängig gemeint. Auf logische oder physikalische Unabhängigkeit lassen sich aus der stochastischen Unabhängigkeit im Allgemeinen keine Rückschlüsse machen. 5.2 Definition Sei (Ω, A, P ) ein W-Raum. Eine Familie {Xi : i ∈ I} von (Ωi , Ai ) - Zu- fallsvariablen auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere endli- che Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν (ν = 1, . . . , n) ist n Y P Xi1 ∈ Ai1 , . . . , Xin ∈ Ain = P Xiν ∈ Aiν . ν=1 Sprechweise: Unabhängigkeit der Zufallsvariablen statt Unabhängigkeit der Familie der Zufallsvariablen. Ï Für die Unabhängigkeit von Zufallsvariablen ist es somit nicht notwendig explizit zu fordern, dass alle Zufallsvariablen den selben Wertebereich teilen. Die Voraussetzung, dass alle auf dem selben W-Raum (Ω, A, P ) definiert sind, lässt sich jedoch nicht abschwächen. 5.1 Lemma Eine Familie von Ereignissen ist genau dann unabhängig, wenn jede endli- che Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen. Ï » Die Aussage folgt direkt aus den Definitionen 5.1 und 5.2. « 5.1 Bemerkung zu Definition 5.1 bzw. Definition 5.2. Die paarweise Unabhängigkeit im- pliziert im Allgemeinen nicht die Unabhängigkeit. Ç » Beweis durch Gegenbeispiel. Betrachte zwei Ausspielungen eines echten Würfels ohne gegenseitige Beeinflussung. Dieses Experiment können wir durch einen Laplaceschen W-Raum (Ω, A, P ) mit |Ω| = 36 modellieren. Sei Ai das Ereignis, dass im i-ten Wurf eine ungerade Zahl auftritt P (Ai ) = B das Ereignis, dass die Summe der Augenzahlen ungerade ist P (B) = P (A1 ∩ A2 ) = 9 1 = , 36 4 P (A1 ∩ B) = 9 1 = , 36 4 P (A2 ∩ B) = 1 2. 1 2 und 9 1 = , 36 4 somit sind die Ereignisse paarweise unabhängig aber P (A1 ∩ A2 ∩ B) = P (∅) = 0 ≠ 6. November 2011 13:28 111 1 = . « 222 8 77 5-A 5 Unabhängigkeit 5.2 Bemerkung. Sei (Ω, A, P ) ein W-Raum und Ai ∈ A, i ∈ I Ereignisse, mit (reellen) Zufallsvariablen und Indikatorfunktionen 1Ai auf (Ω, A, P ). {Ai : i ∈ I} unabhängig a 1Ai : i ∈ I unabhängig . Ç Unabhängige Zufallsvariablen 5.1 Satz Gegeben seien (Ωi , Ai ) - Zufallsvariablen Xi auf einem W-Raum (Ω, A, P ) und gi : (Ωi , Ai ) → (Ωi0 , A0i ), i ∈ I Abbildungen. Dann gilt: {Xi : i ∈ I} unabhängig ⇒ gi ◦ Xi : i ∈ I unabhängig Ï » Aufgrund von Lemma 5.1 genügt es den Beweis auf einer endlichen Indexmenge I = {1, . . . , n} zu führen. h i P g1 ◦ X1 ∈ A01 , . . . , gn ◦ Xn ∈ A0n = P ∀ i ∈ {1, . . . , n} : Xi ∈ gi−1 (A0i ) h i h i Y Y P gi ◦ Xi ∈ A0i , P Xi ∈ gi−1 (A0i ) = = i=1,...,n i=1,...,n da die Xi nach Voraussetzung unabhängig sind. « also die Zufallsvariablen {Xi } unabhängig, so sind es insbesondere auch n Sind o p Xi2 , Xi , . . . Bsp 2 Betrachte erneut zwei Ausspielungen eines echten Würfels ohne gegenseitige Beeinflussung mit W-Raum (Ω, A, P ). 1 , X2 die Augenzahl im 1. bzw. 2. Wurf. Da {X1 , X2 } unabhängig, ist auch n Sei Xo 3 2 X1 , X2 unabhängig. 5.2 Satz Sei eine unabhängige Familie {Xi : i ∈ I} reeller Zufallsvariablen auf einem P W-Raum n (Ω, A, P )ound eine Zerlegung I = j∈J Ij mit |Ij | < ∞ gegeben. Das |Ij |Tupel Xk : k ∈ Ij sei mit Yj bezeichnet für j ∈ J. n o a) Die Familie Yj : j ∈ J ist unabhängig. b) Sind Abbildungen gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist die Familie n o gj ◦ Yj : j ∈ J unabhängig. Ï 78 6. November 2011 13:28 Unabhängige Ereignisse und Zufallsvariablen » a) Beweisidee. Betrachte den Spezialfall Y1 = X1 , Y2 = (X2 , X3 ). Nach Annahme gilt, dass die Xi unabhängige reelle Zufallsvariablen sind. Zu zeigen ist nun für B1 ∈ B, B2 ∈ B2 P [Y1 ∈ B1 , Y2 ∈ B2 ] = P [Y1 ∈ B1 ] · P [Y2 ∈ B2 ]. Dabei genügt es nach Satz 1.4, die Aussage auf Intervallen I1 ∈ B1 bzw. Rechtecken I2 × I3 ∈ B2 nachzuweisen. Also P [X1 ∈ I1 , (X2 , X3 ) ∈ I2 × I3 ] = P [X1 ∈ I1 , X2 ∈ I2 , X3 ∈ I3 ] = P [X1 ∈ I1 ] P [X2 ∈ I2 , X3 ∈ I3 ] = P [X1 ∈ I1 ] P [(X2 , X3 ) ∈ I2 × I3 ] . b) Anwendung von Satz 5.1. « 5.3 Bemerkung. Satz 5.2 lässt sich auf (Ωi , Ai ) - Zufallsvariablen und Abbildungen gj : N i∈Ij (Ωi , Ai ) → (Ωj0 , A0j ) verallgemeinern. Ç 5.3 Satz Seien Xi (i = 1, . . . , n) reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ) mit Verteilungsfunktionen Fi . Der Zufallsvektor X Í (X1 , . . . , Xn ) habe die n-dimensionale Verteilungsfunktion F. a) {X1 , . . . , Xn } ist genau dann unabhängig, wenn gilt ∀ (x1 , . . . , xn ) ∈ Rn : F (x1 , . . . , xn ) = n Y Fi (xi ) (*) i=1 b) Existieren zu Fi (i = 1, . . . , n) bzw. F , Dichten fi bzw. f , dann gilt (*) a f (x1 , . . . , xn ) = » n Y i=1 fi (xi ) für λ-fast alle (x1 , . . . , xn ) ∈ Rn . Ï a) Seien {X1 , . . . , Xn } unabhängig, so ist Definition 5.2 äquivalent zu a ∀ B1 , . . . , B n ∈ B : a ∀ x1 , . . . , x n ∈ R : a ∀ x1 , . . . , x n ∈ R : 6. November 2011 13:28 P [X1 ∈ B1 , . . . , Xn ∈ Bn ] = P [X1 ∈ B1 ] · · · P [Xn ∈ Bn ], P [X1 à x1 , . . . , Xn à xn ] = P [X1 à x1 ] · · · P [Xn à xn ] F (x1 , . . . , xn ) = F1 (x1 ) . . . Fn (xn ). « 79 5-A 5 Unabhängigkeit Unabhänige Zufallsvariablen haben somit die angenehme Eigenschaft, dass die gemeinsame Dichte (die Dichte der gemeinsamen Verteilung) dem Produkt der Randverteilungsdichten (der Dichten der Randverteilungen) entspricht. Insbesondere ist für unabhänige Zufallsvariablen die gemeinsame Verteilung eindeutig durch die Randverteilungen bestimmt. Bsp 3 Seien X, Y unabhängig, wobei X exp(λ) und Y exp(τ) verteilt, so besitzen sie die Dichten fX (x) = λe−λx , fY (y) = τe−τx . Die gemeinsame Dichte ist nach Satz 5.3 gegeben durch f (x, y) = λτe−λx e−τy . Betrachten wir andererseits die gemeinsame Verteilung, so gilt ! F (s, t) = P [X à s, Y à t] = P [X à s]P [Y à t] da X und Y unabhängig. Weiterhin ist P [X à s]P [Y à t] = FX (s)FY (t) = = Zs Zt 0 0 Z s 0 −λx λe dx Zt 0 −τy τe dy ! −λx −τy |λτe {z e } dx dy . f (x,y) 5.4 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ) mit endlichen Erwartungswerten. Dann existiert E(X1 · . . . · Xn ) = EX1 · . . . · EXn . — Entsprechendes gilt für komplexe Zufallsvariablen, wobei wir C mit dem R2 identifizieren und komplexe Zufallsvariablen als Xk : (Ω, A) → (R2 , B2 ) mit EXk Í E Re Xk + iE Im Xk (k = 1, . . . , n). Ï » Wir beschränken uns zunächst auf reelle Zufallsvariablen. Mit Satz 5.2 ist eine Reduktion auf den Fall n = 2 möglich. Zu zeigen ist also, dass E(X1 X2 ) = (EX1 )(EX2 ). 80 6. November 2011 13:28 Unabhängige Ereignisse und Zufallsvariablen Ohne Einschränkung sind X1 , X2 á 0, ansonsten betrachten wir eine Zerlegung in X1 = X1,+ − X1,− . Mit Hilfe des des Satzes von der monotonen Konvergenz können wir uns auf einfache Funktionen der Form x, n X λj 1Aj (x) j=1 zurückziehen. Wir beweisen die Aussage nun für Indikatorfunktionen X1 = 1A1 , X2 = 1A2 mit A1 , A2 ∈ A. E(X1 X2 ) = E(1A1 1A2 ) = E(1A1 ∩A2 ) = P (A1 ∩ A2 ) = P (1A1 = 1, 1A2 = 1) = P (1A1 = 1)P (1A2 = 1) = P (A1 )P (A2 ) = (E1A1 )(E1A2 ) = (EX1 )(EX2 ). « Der Erwartungswert ist somit linear und vertauscht mit der Multiplikation. 5.5 Satz von Bienaymé Seien X1 , . . . , Xn paarweise unabhängige reelle Zufallsvaria- blen mit endlichen Erwartungswerten. Dann gilt n n X X V(Xj ) . Ï Xj = V j=1 j=1 » Addieren wir zum Erwartungswert eine Konstante, ändert sich die Varianz nicht, wir können also ohne Einschränkung annehmen EXj = 0 (j = 1, . . . , n). V n X j=1 Xj = E = n X i=1 n X j=1 2 Xj = EXi2 + 2 X i<j | n X i=1 EXi2 + 2 X E(Xi )E(Xj ) = {z =0 } E(Xi Xj ) i<j n X i=1 EXi2 = n X VXi . « i=1 Für unabhängige Zufallsvariablen vertauscht die Varianz mit endlichen Summen, wobei für reelle Konstanten a, b ∈ R und eine Zufallsvariable X gilt V(aX + b) = a2 V(X). Dies ist kein Widerspruch, denn setzen wir Y ≡ b, so ist Y Zufallsvariable und EY = b. Somit ist VY = EY 2 − (EY )2 = b2 − b2 = 0, also V(aX + b) = V(aX + Y ) = V(aX) + V(Y ) = a2 V(X). 6. November 2011 13:28 81 5-A 5 Unabhängigkeit 5.4 Bemerkung. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn } die sog. paarweise Unkorreliertheit zu fordern, d.h. ∀ j ≠ k : E((Xj − EXj )(Xk − EXk )) = 0. Dies ist tatsächlich eine schwächere Voraussetzung, denn sind X und Y unabhängig, so gilt E((X − EX)(Y − EY )) = E(X · Y − (EX)Y − (EY )X + (EX)(EY )) = E(X · Y ) − (EX)(EY ) − (EY )(EX) + (EX)(EY )) = E(X)(EY ) − (EX)(EY ) = 0. Ç Faltungen Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ) mit Verteilungen PX , PY , so ist nach Satz 5.3 und Satz 2.1 die Verteilung P(X,Y ) des 2-dimensionalen Zufallsvektors durch PX und PY eindeutig festgelegt. Setzen wir g : (x, y) , x + y, so ist g messbar und damit auch die Verteilung PX+Y = Pg◦(X,Y ) von X + Y eindeutig durch PX und PY festgelegt. Wie ermittelt man nun diese Verteilung? 5.3 Definition Sind X, Y zwei unabhängige reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y Î PX ∗ PY der Zufallsvariable X + Y als Faltung von PX und PY bezeichnet. Ï 5.5 Bemerkung. Die Faltungsoperation ist kommutativ und assoziativ. Ç 5.6 Satz Seien X, Y zwei unabhängige reelle Zufallsvariablen. a) Besitzen X und Y Dichten f bzw. g, so besitzt X + Y eine [als Faltung von f und g bezeichnete] Dichte h mit Z Z h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx, R R t ∈ R. b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X + Y eine [als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit rk = 82 k X j=0 pk−j qj = k X i=0 qk−i pi , k ∈ N0 . Ï 6. November 2011 13:28 Unabhängige Ereignisse und Zufallsvariablen Den Beweis verschieben wir auf das nächste Kapitel, denn mit Hilfe der charakteristischen Funktionen werden wir über die für einen einfachen Beweis nötigen Mittel verfügen. Bsp 4 Sei X1 eine b(n1 , p)-verteilte und X2 eine b(n2 , p)-verteilte Zufallsvariable. Sind X1 und X2 unabhängig, dann ist X1 + X2 eine b(n1 + n2 , p)-verteilte Zufalls- variable. » Einfacher Beweis. Betrachte n1 + n2 Bernoulli-Versuche mit jeweiliger Erfolgs- wahrscheinlichkeit p. Sei nun Y1 die Zufallsvariable, die die Anzahl der Erfolge der ersten n1 Versuche angibt und Y2 die Zufallsvariable, die die Anzahl der Erfolge in den letzten n2 Versuchen angibt. Somit sind Y1 und Y2 unabhängig und Y1 + Y2 gibt die Anzahl der Erfolge in n1 + n2 Bernoulli-Versuchen an. Scharfes Hinsehen liefert PX1 = PY1 und PX2 = PY2 , dann gilt auch PX1 +X2 = PY1 +Y2 = b(n1 + n2 , p). « Somit folgt für unabhängige Zufallsvariablen X1 , . . . , Xn , die b(1, p)-verteilt sind, dass X1 + . . . + Xn eine b(n, p)-verteilte Zufallsvariable ist. Bsp 5 Wir können jetzt einen einfachen Beweis dafür geben, dass eine b(n, p)- verteilte Zufallsvariable die Varianz np(1 − p) besitzt. Ohne Einschränkung lässt sich diese Zufallsvariable als Summe von n unabhängigen b(1, p)-verteilten Zufallsvariablen X1 , . . . , Xn darstellen, 5.5 V(X1 + . . . + Xn ) = nV(X1 ) = np(1 − p), da V(X1 ) = EX12 − (EX1 )2 = 02 · (1 − p) + 12 · p − p 2 = p(1 − p). Die Unabhängigkeit der Zufallsvariablen ist für die Aussage des Satzes 5.6 notwendig, denn er basiert darauf, dass für unabhängige Zufallsvariablen die gemeinsame Dichte das Produkt der Randverteilungsdichten ist. Für allgemeine (nicht unabhängige) Zufallsvariablen wird diese Aussage und damit der Satz falsch. 5.6 Bemerkung (Satz von Andersen und Jessen). Gegeben seien Messräume (Ωi , Ai ) und W-Maße Qi auf Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai )- Zufallsvariablen Xi auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi : i ∈ I} und PXi = Qi . Ç 6. November 2011 13:28 83 5-B 5 Unabhängigkeit 5-B Null-Eins-Gesetz In Kapitel 1-B haben wir das 1. Lemma von Borel und Cantelli bewiesen, welches für einen W-Raum (Ω, A, P ) und An ∈ A die Aussage macht n X P (An ) < ∞ ⇒ P (lim sup An ) = 0. n=1 Das 2. Lemma von Borel und Cantelli ist für unabhängige Ereignisse das Gegenstück zu dieser Aussage. 5.7 2. Lemma von Borel und Cantelli Sei (Ω, A, P ) ein W-Raum. Die Familie {An : n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann gilt: ∞ X P (An ) = ∞ ⇒ P (lim sup An ) = 1. n=1 In diesem Fall tritt An P-f.s. unendlich oft auf. Ï » Sei B Í lim supn An Í T∞ n=1 S kán Ak . Zu zeigen ist nun, dass P (B) = 1, d.h. P (B c ) = 0. Mit den De-Morganschen Regeln folgt, P (B c ) = P ∞ \ [ n=1 kán Ack . Aufgrund der σ -Additivität genügt es nun zu zeigen, dass die Mengen P -Maß Null haben. T kán Ack das Sei also n ∈ N fest. N \ Ack ↓ k=n \ kán Ack , N → ∞. Somit genügt es wegen der Stetigkeit der W-Maße von oben zu zeigen, dass P N \ k=n Ack ↓ 0. Aufgrund der Unabhängigkeit der A1 , A2 , . . . gilt P N \ k=n 84 Ack = N Y k=n N Y P Ack = (1 − P (Ak )). k=n 6. November 2011 13:28 Null-Eins-Gesetz e−x x 1−x 5.1 e−x mit Tangente 1 − x in (0, 1). Eine geometrische Überlegung zeigt 1 − x à e−x (siehe Skizze), also gilt auch 1 − P (Ak ) à e−P (Ak ) und somit N P N \ P (Ak ) − c k=n → 0, Ak à e P k=n N → ∞. « Korollar Sind die Ereignisse A1 , A2 , . . . unabhängig, gilt P (lim sup An ) = 0 oder 1, abhängig davon ob X X P (An ) < ∞ oder P (An ) = ∞. ná1 Ï ná1 Die Voraussetzung der Unabhängigkeit der (An ) im 2. Lemma von Borel-Cantelli ist notwendig, damit die Aussage gilt, wie folgendes Beispiel zeigt. 1 Bsp 6 Sei A ∈ A mit P (A) = 2 und ∀ n ∈ N : An = A. Dann gilt lim sup An = A P und ná1 P (An ) = ∞. Dennoch ist P (lim sup AN ) = P (A) = 1 . 2 Bsp 7 Betrachte eine unabhängige Folge von Versuchen An mit Misserfolgswahr1 scheinlichkeit n . Da X P (An ) = ∞, ná1 6. November 2011 13:28 85 5-B 5 Unabhängigkeit folgt, dass die Wahrscheinlichkeit für unendlich viele Misserfolge gleich 1 ist (obwohl P (An ) → 0). 5.4 Definition Sei (Ω, A) ein Messraum und An ⊂ A σ -Algebren für n ∈ N. Mit Tn Í F ∞ [ k=n Ak bezeichnen wir die von An , An+1 , . . . erzeugte σ -Algebra. T∞ Í ∞ \ n=1 Tn heißt die σ -Algebra der terminalen Ereignisse (tail events) der Folge (An ). Ï −1 Bsp 8 Seien Xn : (Ω, A) → (R, B) und An Í F (Xn ) Í Xn (B) für n ∈ N. Tn ist somit die von den Ereignissen, die lediglich von Xn , Xn+1 , . . . abhängen, erzeugte σ -Algebra. a.) (Xn ) konvergiert ∈ T∞ , denn es gilt (Xn ) konvergiert = lim Xn = X ∈ R = lim |Xn − X| = 0 n→∞ n→∞ = [ ∀ ε > 0 ∃ N ∈ N ∀ n á N : |Xn − X| < ε] Q liegt dicht in R, wir können uns also für die Wahl von ε auf Q zurückziehen, [ ∀ ε ∈ Q > 0 ∃ N ∈ N ∀ n á N : |Xn − X| < ε] da alle ε > 1 uninteressant sind, können wir auch schreiben 1 ∀ k ∈ N ∃ N ∈ N ∀ n á N : |Xn − X| < k \ 1 = ∃ N ∈ N ∀ n á N : |Xn − X| < k k∈N und da es auf endlich viele N nicht ankommt, \ [ 1 = ∀ n á N : |Xn − X| < k k∈N Nák " # \ [ 1 = sup |Xn − X| < . k k∈N Nák náN | {z } ∈Tk Also handelt es sich um ein terminales Ereignis. 86 6. November 2011 13:28 Null-Eins-Gesetz b.) P n Xn konvergiert ∈ T∞ , denn " # X X Xn konvergiert , Xn konvergiert = n nák da es auf endlich viele nicht ankommt also P n ∀k∈N Xn konvergiert ∈ Tk für k ∈ N. Bsp 9 Sei (Ω, A) ein Messraum, An ∈ A Ereignisse (n ∈ N) und weiterhin An Í , An , Acn , Ω (n ∈ N). lim sup An Í n→∞ lim inf An Í n→∞ ∞ [ ∞ \ n=1 k=n ∞ \ ∞ [ n=1 k=n Ak = {ω ∈ Ω : ω ∈ An für unendliche viele n} ∈ T∞ , Ak = {ω ∈ Ω : ω ∈ An von einem Index an} ∈ T∞ . 5.8 Null-Eins-Gesetz von Kolmogorov Sei (Ω, A, P ) ein W-Raum und (An ) eine unab- hängige Folge von σ -Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder P (A) = 1. Ï Für den Beweis benötigen wir das folgende Resultat. Lemma Seien E1 und E2 schnittstabile Mengensysteme von Ereignissen, d.h. A, B ∈ E1 , E2 ⇒ A ∩ B ∈ E1 , E2 . Sind E1 und E2 unabhängig, so sind es auch F (E1 ) und F (E2 ). Ï » Den Beweis findet man z.B. in [Wengenroth]. « » Beweis von Satz 5.8. Sei also A ∈ T∞ . Es genügt zu zeigen, dass A von sich selbst unabhängig ist, d.h. P (A ∩ A) = P (A)P (A), denn dann ist P (A) = 0 oder 1. Betrachte dazu die Mengen [ Tn+1 = F Ak , Dn Í F kán+1 [ kàn 6. November 2011 13:28 Ak , 87 5-B 5 Unabhängigkeit und wende das vorige Lemma an, so sind Tn+1 und Dn unabhängig. Weiterhin sind aus dem selben Grund T∞ und Dn unabhängig für alle n ∈ N. Daher ist auch G=F [ n∈N Dn unabhängig von T∞ , wobei gerade G = T1 ⊃ T∞ . Somit ist T∞ unabhängig von jeder Teilmenge von T1 insbesondere von sich selbst. Somit folgt die Behauptung. « Wir betrachten nun einige Anwendungen des 0-1-Gesetzes. Bsp 10 Sei {An : n ∈ N} unabhängig, An Í ∅, An , Acn , Ω , somit sind A1 , A2 , . . . unabhängig. Mit dem 0-1-Gesetz gilt daher, P An = 0 oder 1. |lim sup {z } ∈T∞ Diese Aussage erhalten wir auch mit dem 1. und 2. Lemma von Borel und Cantelli. Insofern kann man das 0-1-Gesetz als Verallgemeinerung dieser Lemmata betrachten. Die Aussagen von Borel und Cantelli liefern jedoch darüber hinaus noch ein Kriterium, wann die Voraussetzungen des 0-1-Gesetzes erfüllt sind. Bsp 11 Sei {Xn : n ∈ N} eine Folge reeller unabhängiger Zufallsvariablen, dann gilt P (Xn ) konvergiert = 0 oder 1, " # X P Xn konvergiert = 0 oder 1. n 88 6. November 2011 13:28 6-A 6 Erzeugende und charakteristische Funktionen, Faltungen Die erzeugenden und charakteristischen Funktionen sind ein methodisches Hilfsmittel zur Untersuchung von W-Maßen. Bisher haben wir gesehen, dass Verteilungen und Verteilungsfunktionen manchmal schwierig “zu fassen” sind. Erzeugende und charakteristische Funktionen ermöglichen den Übergang von Verteilungen definiert auf einer σ -Algebra zu Funktionen definiert auf R. Dadurch erhalten wir die Möglichkeit, Konzepte aus der Analysis wie Integration, Differentiation und Grenzwertbildung anzuwenden. 6-A Erzeugende Funktionen 6.1 Definition Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit Zähldichte (bk )k∈N0 bzw. X eine reelle Zufallsvariable auf einem W-Raum (Ω, A, P ), deren Verteilung PX auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann heißt die auf [0, 1] (oder auch {s ∈ C | |s| ≤ 1}) definierte Funktion g mit P µ({k})s k , ∞ X g(s) Í bk s k = bzw. k=0 P P [X = k]s k = P PX ({k})s k = Es X . die erzeugende Funktion von µ bzw. X. Ï 6.1 Bemerkung. In Definition 6.1 gilt |g(s)| ≤ P sich bei (bk ) um eine Zähldichte handelt. Ç 6. November 2011 13:28 bk |s|k ≤ P bk = 1 für |s| ≤ 1, da es 89 6 Erzeugende und charakteristische Funktionen, Faltungen Bei der erzeugenden Funktion handelt es sich also um die formale Potenzreihe g(s) = ∞ X bk s k , k=0 die nach obiger Bemerkung auf dem Intervall [0, 1] bzw. der abgeschlossenen Kreisscheibe {s ∈ C : |s| à 1} absolut und gleichmäßig bezüglich s konvergiert. Von besonderem Interesse sind die erzeugenden Funktionen, die neben der Dar- stellung als Potenzreihe auch über eine explizite Darstellung verfügen, denn dann lassen sich g(s), g 0 (s), . . . meißt leicht berechnen und man erspart sich kombinatorische Tricks, um die Reihen auf eine Form mit bekanntem Wert zu bringen. 6.2 Bemerkungen. a. Die Binomialverteilung b(n, p) mit n ∈ N und p ∈ [0, 1] hat - mit q Í 1 − p - die erzeugende Funktion g, g(s) Í ∞ X k=0 ! ! n X n k n n−k k p (1 − p) s = (p · s)k (1 − p)n−k k k k=0 = (p · s + (1 − p))n = (ps + q)n . Die Reihe lässt sich im Gegensatz zu dem Ausdruck (ps + q)n nur mit einigem an Aufwand direkt berechnen. b. Die Poissonverteilung π (λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g mit g(s) = ∞ X k=0 e−λ ∞ X λk k (λs)k s = e−λ = e−λ esλ = e−λ(1−s) . e−λ k! k! k=0 c. Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf N0 konzentriert ist und — mit q Í 1 − p — die Zähldichte k → Nb(r , p; k) Í ! r +k−1 r k p q , k ∈ N0 k besitzt. Speziell wird Nb(1, p) — mit Zähldichte k → p(1 − p)k , k ∈ N0 — als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. 90 6. November 2011 13:28 Erzeugende Funktionen Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen, so ist die erweitert-reelle Zufallsvariable X Í inf n ∈ N : n X k=1 Xk = r − r, mit der Konvention inf Í ∞, Nb(r , p)-verteilt. X gibt die Anzahl der Miss- erfolge bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von BernoulliVersuchen an. EX = rq rq , V(X) = 2 . p p Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r . Ç 6.1 Eindeutigkeitssatz für erzeugende Funktionen Besitzen zwei auf B definierte, aber auf N0 konzentrierte W-Maße bzw. Verteilungen dieselbe erzeugende Funktion, so stimmen sie überein. Ï » Dies folgt aus dem Identitätssatz für Potenzreihen, der besagt, dass zwei auf einer nichtleeren offenen Menge identische Potenzreihen dieselben Koeffizienten haben. « Es besteht also eine Bijektion zwischen diskreten Verteilungen und erzeugenden Funktionen. Insbesondere haben zwei diskrete Zufallsvariablen mit derselben erzeugenden Funktion auch dieselbe Verteilung. 6.2 Satz Sei X eine reelle Zufallsvariable, deren Verteilung auf N0 konzentriert ist, mit erzeugender Funktion g. a) g ist auf der offenen Kreisscheibe {s ∈ C : |s| < 1} unendlich oft differenzierbar, sogar analytisch und für j ∈ N gilt g (j) (1−) Í lim g (j) (s) = E[X(X − 1) . . . (X − j + 1)] 0às↑1 (≤ ∞), insbesondere g 0 (1−) = EX. b) Falls EX < ∞, so gilt V(X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 . Ï 6. November 2011 13:28 91 6-A 6 Erzeugende und charakteristische Funktionen, Faltungen » a) Die Differenzierbarkeit bzw. die Analytizität auf der offenen Kreisscheibe wird in der Funktionentheorie bewiesen. Auf dieser Kreisscheibe können wir gliedweise differenzieren und erhalten somit, g (j) (s) = ∞ X k=j bk k(k − 1) · · · (k − j + n)s k−j , 0 à s < 1. Auf dem Rand gehen wir gegebenfalls zum Grenzwert über und erhalten mit dem Satz von der monotonen Konvergenz für s ↑ 1, g (j) (s) → ∞ X k=j bk k(k − 1) · · · (k − j + n). Diese Reihe können wir auch als Erwartungswert der Zufallsvariablen X(X − 1) · · · (X − j + 1) betrachten (siehe Satz 4.5), d.h. lim g (j) (s) = E(X(X − 1 · · · (X − j + 1))). s↑1 Insbesondere erhalten wir g 0 (1−) = EX. b) Da X integrierbar, können wir die Varianz darstellen als VX = EX 2 − (EX)2 = E(X(X − 1)) + EX − (EX)2 = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 . « Kennen wir eine explizite Darstellung der erzeugenden Funktion einer diskreten Zufallsvariablen, lassen sich mit Satz 6.2 ihre Momente oftmals leicht berechnen. 6.3 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen, deren Verteilungen je- weils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn . Für die erQn zeugende Funktion g der Summe X1 + . . . + Xn gilt dann g = j=1 gj . Ï » Sei |s| < 1, dann gilt per definitionem g(s) = 92 ∞ X k=0 P [X1 + . . . + Xn = k]s k . 6. November 2011 13:28 Erzeugende Funktionen Nun interpretieren wir die erzeugende Funktion als Erwartungswert wie in 6.1, d.h. g(s) = E s X1 +...+Xn = E n Y s Xi . i=1 Da X1 , . . . , Xn unabhängig, sind nach Satz 5.4 auch s X1 , . . . , s Xn unabhängig, d.h. g(s) = n Y i=1 Es Xi = n Y gi (s). « i=1 Bsp 1 Seien X1 , X2 , . . . unabhängige b(1, p) verteilte Zufallsvariablen, mit P [Xi = 1] = p, P [Xi = 0] = 1 − p , | {z } q so können wir sie als Folge von Bernoulli-Versuchen interpretieren mit jeweiliger Erfolgswahrscheinlichkeit p, [Xi = 1], Erfolg im i-ten Versuch. Die erweiterte reellwertige Zufallsvariable Z1 gebe die Anzahl der Misserfolge bis zum 1. Erfolg an. Z1 ist erweitert reellwertig, da die Möglichkeit besteht, dass Z1 unendlich wird. Nach dem 1. Erfolg wiederholt sich die stochastische Situation. Z2 gebe die Anzahl der Misserfolge nach dem 1. bis zum 2. Erfolg an. Betrachte nun eine Realisierung 0, 0, 0, 0, 1, 0, 0, 1 , 1, 0, . . . | {z } | {z } |{z} Z1 Z2 Z3 Die Zufallsvariablen Z1 , Z2 , . . . sind unabhängig und identisch verteilt. » Nachweis der Unabhänigkeit und der identischen Verteilung. Wir zeigen zuerst die identische Verteilung, P [Z1 = k] = qk p, P [Z1 = ∞] = 1 − P [Z2 = k] = ∞ X j=1 ∞ X k=0 k ∈ N0 qk p = 1 − p 1 = 0, 1−q P [Z1 = j, Z2 = k] = = p 2 qk 1 = qk p, 1−q ∞ X für p > 0, qj pqk p j=1 P [Z2 = ∞] = . . . = 0. 6. November 2011 13:28 93 6-A 6 Erzeugende und charakteristische Funktionen, Faltungen Induktiv erhalten wir ∀ j, k ∈ N0 : P [Z1 = j, Z2 = k] = qj pqk p = P [Z1 = j]P [Z2 = k] insbesondere sind Z1 und Z2 unabhängig. « Z1 hat die erzeugende Funktion, h(s) = ∞ X k=0 qk ps k = p 1 = p(1 − qs)−1 , 1 − qs h0 (s) = pq(1 − qs)−2 , h00 (s) = 2pq2 (1 − qs)−3 , h0 (1−) = |s| < 1, pq q = , (1 − q)2 p h00 (1−) = 2q2 2pq2 = 2 . (1 − q)3 p Nach Satz 6.2 gilt somit EZ1 = q , p VZ1 = 2q2 q + − p2 p q p !2 = q(q + p) q = 2. p2 p Sei nun r ∈ N fest, so hat die Zufallsvariable XÍ r X Zi i=1 nach Satz 6.3 die erzeugende Funktion g = hr , also g(s) = h(s)r = p r (1 − qs)−r . Aus der Analysis kennen wir folgenden Spezialfall der binomischen Reihe, α (1 + x) = ! α k x , k ∞ X k=0 |x| < 1, ! α α(α − 1) · · · (α − k − 1) = . k k! Diese Definition ist auch für α ∈ R sinnvoll. Wir können somit g darstsellen als ! ! ∞ X −r k k k r r +k−1 g(s) = p (−1) q s = p qk s k , k k k=0 k=0 ! 6.1 r +k−1 r k ⇒P [X = k] = p q , k ∈ N0 . k ∞ X 94 r 6. November 2011 13:28 Erzeugende Funktionen Die Zufallsvariable X gibt die Anzahl der Misserfolge bis zum r -ten Erfolg an. Also ist eine äquivalente Definition von X gegeben durch X Í inf n ∈ N : n X k=1 Xk = r −r wobei Xk angibt, ob im k-ten Versuch ein Erfolg aufgetreten ist. Eine Zufallsvariable, welche die Anzahl der Misserfolge bis zum r -ten Erfolg bei Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p ∈ (0, 1) angibt, hat somit die Zähldichte ! r +k−1 r k p q , k wobei Nb (r , p; k) Í −r k k ∈ N0 , r ∈ N, p ∈ (0, 1), r +k−1 (−1)k p r qk = p r qk . Nb(r , p) heißt negative Binomialk Verteilung oder Pascal-Verteilung mit Parametern r ∈ N, p ∈ (0, 1). Für r = 1 heißt Nb(1, p) mit Zähldichte (pqk )k∈N geometrische Verteilung mit Parameter p ∈ (0, 1). Wir können nun die negative Binomial-Verteilung darstellen als Nb(r , p) = Nb(1, p) ∗ . . . ∗ Nb(1, p) . | {z } r −mal Konvergenzsätze der Maßtheorie Wir haben bereits den Satz von der monotonen Konvergenz kennengelernt, der eine Aussage über Vertauschbarkeit von Grenzwertbildung und Integration für positive, monotone Funktionenfolgen macht. Im Allgemeinen sind die Funktionenfolgen, mit denen wir in der Wahrscheinlichkeitstheorie arbeiten weder monoton noch positiv, wir benötigen also allgemeinere Aussagen. Lemma von Fatou Sei (Ω, A, P ) ein Maßraum. Für jede Folge von nichtnegativen erweitert reellen messbaren Funktionen fn gilt, Z Ω lim inf fn dµ à lim inf n→∞ n→∞ Z Ω fn dµ à lim sup n→∞ Z Ω fn dµ. R Gilt außerdem fn à g mit Ω g dµ < ∞, so gilt auch lim sup n→∞ 6. November 2011 13:28 Z Ω fn dµ à Z Ω lim sup fn dµ. n→∞ Ï 95 6-A 6 Erzeugende und charakteristische Funktionen, Faltungen » Wir beweisen lediglich die erste Ungleichung, die andere ist trivial. Setze gn Í inf fm ↑ lim inf fn Î g. n mán Auf diese Funktionenfolge können wir den Satz von der monotonen Konvergenz anwenden und erhalten somit, Z Ω lim inf fn dµ = lim n→∞ Z n→∞ mán Ω mán = lim inf n inf fn dµ à lim inf Z Ω Z Ω fn dµ fn dµ. « Man kann das Lemma von Fatou als Verallgemeinerung des Satzes von der monotonen Konvergenz von monotonen nichtnegativen auf lediglich nichtnegative Funktionenfolgen betrachten. Dadurch wird jedoch auch die Aussage auf “à” anstatt “=” abgeschwächt. Satz von der dominierten Konvergenz Sei (Ω, A, µ) ein Maßraum und fn , f , g erweitert reellwertige messbare Funktionen mit fn → f µ-f.ü., fn à g µ-f.ü. R sowie Ω g dµ < ∞. Dann existiert lim n→∞ Z Ω fn dµ und es gilt lim n→∞ Z Ω fn dµ = Z lim fn dµ = Ω n→∞ Z Ω f dµ. Ï Man findet den Satz in der Literatur auch unter dem Namen Satz von der majorisierten Konvergenz bzw. Satz von Lebesgue. » Setze N Í [fn 3 f ] ∪ S zung µ(N) = 0. Setze nun f˜n Í fn · 1N c , fn > g] ∪ [g = ∞] ∈ A, so ist nach Vorausset- n∈N [ f˜ Í f · 1N c , g̃ Í g · 1N c . Dann gilt f˜n + g̃ á 0, g̃ − f˜n á 0 auf ganz Ω und für alle n ∈ N. Mit dem Lemma 96 6. November 2011 13:28 Charakteristische Funktionen von Fatou folgt, Z Ω Z g̃ dµ lim inf(f˜n + g̃) dµ − n Ω Z ZΩ Z g̃ dµ = lim inf f˜n dµ à lim inf (f˜n + g̃) dµ − n n Ω Ω Ω Z Z −f˜n dµ à lim sup f˜n dµ = − lim inf n n Ω Ω Z Z = g̃ dµ − lim inf (g̃ − f˜n ) dµ n Ω ZΩ Z Z à g̃ dµ − lim inf(g̃ − f˜n ) dµ = f˜ dµ. f˜ dµ = Z Ω Ω Insbesondere gilt lim infn « R Ω n Ω f˜n dµ = lim supn R Ω f˜n dµ und somit ist alles gezeigt. 6-B Charakteristische Funktionen 6.2 Definition Sei µ ein W-Maß auf B bzw. X eine reelle Zufallsvariable mit Verteilungs- funktion F . Dann heißt die auf R definierte (i.a. komplexwertige) Funktion ϕ mit ϕ(u) Í Z R eiux µ( dx) bzw. ϕ(u) Í EeiuX = Z R eiux PX ( dx) = Z R eiux dF (x) die charakteristische Funktion von µ bzw. X. Ï Diese Definition ist tatsächlich sinvoll, denn wir können eiux für u, x ∈ R stets durch 1 majorisieren. Es gilt also |ϕ(u)| à E eiuX à E1 = 1 und daher existiert ϕ(u) für jedes u ∈ R. 6.3 Bemerkungen. In Definition 6.2 gilt a. ϕ(0) = 1, b. |ϕ(u)| ≤ 1, u ∈ R, 6. November 2011 13:28 97 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen c. ϕ gleichmäßig stetig in R, d. ϕ(−u) = ϕ(u), u ∈ R. Ç » Nachweis von Bemerkung 6.3 c) Z Z i(u+h)x ihx |ϕ(u + h) − ϕ(u)| = − eiux µ( dx) − 1)eiux µ( dx) e = (e R Z R ihx e à − 1 µ( dx) R Nun verschwindet der Integrand für h → 0, d.h. für jede Nullfolge hn gilt ihn x e − 1 → 0, n → ∞. R Außerdem ist eihn x − 1 à eihn x + 1 = 2, und R 2 dµ = 2µ(R) = 2, wir können also den Satz von der dominierten Konvergenz anwenden. « Die charakteristische Funktion ist im Wesentlichen die Inverse Fouriertransformierte von PX , der Verteilung von X. Besitzt X eine Dichte f , so gilt nach dem Transformationssatz Z ϕX (u) = eiux f (x) dx. R 6.4 Bemerkung. Die Normalverteilung N(a, σ 2 ) mit a ∈ R und σ 2 ∈ (0, ∞) besitzt die charakteristische Funktion ϕ : R → C mit ϕ(u) = eiau e− σ 2 u2 2 . Insbesondere besitzt die Standardnormalverteilung N(0, 1) die charakteristische Funktion ϕ mit ϕ(u) = e− u2 2 . Ç » Beweisskizze. 1. Teil. Wir betrachten zunächst N(0, 1). Die Standardnormalverteilung besitzt die Dichte f (x) = √ x2 1 e− 2 , 2π somit gilt für die charakteristische Funktion, Z Z 1 2 1 1 2 1 2 e− 2 x dx = √ ei(x−iu) − 2 u dx ϕ(u) = eiux √ 2π 2π R R Z 1 1 − 12 u2 (x−iu)2 2 √ = e e dx. 2π R 98 6. November 2011 13:28 Charakteristische Funktionen 1 2 Um das Integral zu berechnen, betrachten wir z , e 2 z ; diese Funktion einer komplexen Variablen z ist komplex differenzierbar (analytisch, holomorph). Wir verwenden nun den Residuensatz, ein Resultat aus der Funktionentheorie, der besagt, dass das Integral einer holomorphen Funktion über jede geschlossene Kurve c verschwindet, Z 1 2 e 2 z dz = 0. c Um dies auszunutzen, wählen wir eine spezielle geschlossene Kurve c (siehe Skizze) bestehend aus den Geradenstücken c1 , c2 , c3 und c4 . R c1 −R c4 c2 c3 6.1 Zur Konstruktion der geschlossenen Kurve c. Für diese Geradenstücke können wir die Integrale leicht berechnen bzw. abschätzen, Z p 1 2 R→∞ e− 2 z dz → − 2π , c Z1 Z Z 1 2 1 2 1 2 e− 2 z dz = e− 2 z dz + e− 2 z dz = 0, c2 ,c4 c2 c | 4 {z } Z 1 R→∞ 2 e− 2 z dz → c3 Z R − 1 2 R c2 1 2 e− 2 z dz e− 2 (x−iu) dx. Für ganz c gilt nach Voraussetzung, 0= ⇒ Z R Z e 1 c 2 e− 2 z dz = − 12 (x−iu)2 4 Z X i=1 ci 1 2 e− 2 z dz = Z c1 1 2 e− 2 z dz + Z c3 1 2 e− 2 z dz p dx = 2π . Somit besitzt N(0, 1) die charakteristische Funktion Z 1 2 1 1 2 1 2 ϕ(u) = √ e− 2 u e− 2 (x−iu) dx = e− 2 u . 2π R 6. November 2011 13:28 99 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen 2. Teil. Für N(a, σ 2 ) allgemein ist die charakteristische Funktion gegeben durch, ϕ(u) = Z R eiux √ Die Substitution y = (x−a)2 1 e 2σ 2 dx 2π σ x−a σ liefert die Behauptung. « 6.5 Bemerkung. Als Exponentialverteilung exp(λ) mit Parameter λ ∈ (0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit f (x) = besitzt. λe−λx , 0, x>0 x≤0 Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte Zufallsvariable angegeben. Ist X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert ist, mit P [0 < X < ∞] > 0, so gilt ∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t]. Diese Eigenschaft nennt man Gedächtnislosigkeit. Eine auf R+ konzentrierte reell erweiterte Zufallsvariable ist genau dann gedächtnislos, wenn sie exponentialverteilt ist. » “⇐”: Sei X also exp(λ) verteilt. Per definitionem der bedingten Wahrscheinlich- keit gilt, P [X > t + s | X > s] = P [X > t + s, X > s] 1 − F (t + s) = . P [X > s] 1 − F (s) Die Verteilungsfunktion erhält man durch elementare Integration, R x λe−λt dt = 1 − e−λx , x > 0, 0 F (x) = 0, x à 0. Somit ergibt sich e−λ(t+s) 1 − F (t + s) = = e−λt = 1 − F (t) = P [X > t]. 1 − F (s) e−λs 100 6. November 2011 13:28 Charakteristische Funktionen “⇒”: Sei X gedächtnislos, d.h. P [X > t + s | X > s] = P [X > s]. Unter Verwendung der Definition der bedingten Wahrscheinlichkeit erhalten wir P [X > t + s] = P [X > t] P [X > s] . | {z } | {z } | {z } H(t+s) H(t) H(s) Wir interpretieren diese Gleichung als Funktionalgleichung und suchen nach einer Lösung H : R+ → R+ , die diese Gleichung erfüllt. Da H(t) = P [X > t] = 1 − F (t) erhalten wir aus den Eigenschaften der Verteilungsfunktion für H außerdem die Randbedingungen H(0) = 1 und lim H(t) = 0. Offensichtlich ist H(t) = e−λt für t→∞ λ ∈ (0, ∞) eine Lösung. Man kann zeigen, dass dies in der Klasse auf R+ konzentrierten Verteilungen die einzige Lösung ist (siehe Hinderer § 28). « Für die Beschreibung von technischen Geräten oder Bauteilen ist es oft notwending ein “Gedächtnis” miteinzubauen. Dafür eignet sich die sog. Weibull-Verteilung1 , welche eine Verallgemeinerung der Exponential-Verteillung darstellt. Für eine Zufallsvariable X mit PX = exp(λ) gilt 1 , λ EX = V(X) = 1 . λ2 » Der Nachweis folgt durch direktes Rechnen, EX = Z∞ −∞ xf (x) dx = VX = EX 2 − (EX)2 = Z∞ 0 Z∞ 0 ∞ λxe−λx dx = −xe−λx x=0 λx 2 e−λx − + 1 R∞ 0 eiux λe−λx dx = λ R∞ 0 0 e−λx dx = 1 λ 1 1 = 2. « λ2 λ exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) = » ϕ(u) = Z∞ e−(λ−iu)x dx = λ λ−iu . λ λ−iu . « Ç Ernst Hjalmar Waloddi Weibull (* 18. Juni 1887; † 12. Oktober 1979 in Annecy) war ein schwedischer Ingenieur und Mathematiker. 6. November 2011 13:28 101 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen 6.6 Bemerkung. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈ (0, ∞) wird ein W- Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit f (x) = λν ν−1 −λx e , Γ (ν) x 0, x > 0, x ≤ 0, besitzt. Hierbei ist Γλ,1 = exp(λ) Die Gamma-Verteilung stellt also ebenfalls ei- ne Verallgemeinerung der Exponential-Verteilung dar. Γ 1 , n wird als Chi-Quadrat2 Verteilung χn mit n Freiheitsgraden bezeichnet (n ∈ N). 2 2 Für eine Zufallsvariable X mit PX = Γλ,ν gilt EX = ν , λ V(X) = ν . λ2 Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) = ν λ . λ−iu » EX und VX folgen durch direktes Integrieren oder unter Verwendung der charakteristischen Funktion. Die charakteristische Funktion ist gegeben durch folgendes Integral ϕ(u) = Z∞ 0 λν iux ν−1 −λx e x e dx. Γ (ν) Dieses wollen wir nicht direkt berechnen, sondern in eine Differentialgleichung umformen und so elegant lösen. Unter Verwendung des Satzes über dominierte Konvergenz lässt sich nachweisen, dass Differentiation und Integration hier vertauscht werden können. Somit erhalten wir 0 ϕ (u) = = Z∞ 0 λν iux ν−1 −λx λν ∂u e x e dx = Γ (ν) Γ (ν) iλν Γ (ν) Z∞ Z∞ ixeiux x ν−1 e−λx dx 0 e(iu−λ)x x ν dx 0 ∞ Z∞ e(iu−λ)x iλν ν e(iu−λ)x iλν = x − νx ν−1 dx Γ (ν) iu − λ 0 Γ (ν) iu − λ | {z } 0 =0 = 102 iν λ − iu Z∞ 0 λν ν−1 (iu−λ)x iν x e dx = ϕ(u). Γ (ν) λ − iu 6. November 2011 13:28 Charakteristische Funktionen Dies liefert nach Zerlegung der DGL in Real- und Imaginäranteil und anschließendem Lösen der Anfangswertprobleme Re ϕ(0) = 1 und Im ϕ(0) = 0 die eindeutige Lösung ϕ(u) = λ λ − iu ν . Ç « Eindeutigkeitssatz und Umkehrformeln Per se ist nicht klar, ob zwei unterschiedliche Verteilungsfunktionen auch unterschiedliche charakteristische Funktionen besitzten bzw. inwiefern eine charakteristische Funktion die Verteilung “charakterisiert”. Der folgende Satz beantwortet die Frage. 6.4 Eindeutigkeitssatz für charakteristische Funktionen Besitzen zwei auf B definier- te W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie überein. Ist µ ein W-Maß auf B bzw. PX die Verteilung einer reellen Zufallsvariablen X mit zugehöriger Verteilungsfunktion F und zugehöriger charakteristischer Funktion ϕ und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel F (b) − F (a) | {z } =µ((a,b]) bzw. PX ((a,b]) = lim U→∞ 1 2π ZU −U e−iua − e−iub ϕ(u) du . iu Ï Wir erhalten mit Hilfe dieses Satzes zunächst nur die Eindeutigkeit auf den halboffenen Intervallen. Der Fortsetzungssatz besagt jedoch, dass damit auch die Fortsetzung auf die Menge der Borelschen Mengen eindeutig ist. » Es genügt, die Umkehrformel zu beweisen. Wir verwenden dazu die DirichletFormel lim A→−∞ B→∞ 1 π ZB A sin(v) dv = 1, v die man leicht unter Verwendung der Funktionentheorie beweisen kann. Wir verwenden außerdem die Identität, −iua e −e 6. November 2011 13:28 −iub = −e b −iuy y=a = iu Zb e−iuy dy , y=a 103 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen somit folgt nach Anwendung des Satzes von Fubini 1 lim U →∞ 2π = lim U→∞ ZU u=−U 1 2π 1 = lim U→∞ 2π = lim U→∞ 1 2π 1 = lim U→∞ 2π = lim U→∞ 1 π 1 −iua e − e−iub ϕ(u) du iu ZU Z∞ Z∞ ZU u=−U x=−∞ 1 −iua e − e−iub eiux F ( dx) du iu Zb eiu(x−y) dy F ( dx) du x=−∞ u=−U y=a Z∞ Zb Z∞ Zb ZU eiu(x−y) du dy F ( dx) x=−∞ y=a u=−U x=−∞ y=a Z∞ Zb x=−∞ y=a eiU(x−y) − e−iU(x−y) dy F ( dx) i(x − y) sin(U(x − y)) dy F ( dx) (x − y) Nun substituieren wir ν = U(x − y), d.h. “ dx = = = Z∞ x=−∞ Z∞ −∞ 1 lim U→∞ π | U(x−b) Z y=U(x−a) 1 U dν”, sin(v) dv F ( dx) v {z ÍG(U,x) } lim G(U, x)F ( dx) U→∞ Für den Integranden erhalten wir unter Verwendung der Formel von Dirichlet, 1, falls a < x < b, lim G(U , x) = 0, falls x < a, U →∞ 0, falls x > b. Falls wir den Satz von der dominierten Konvergenz anwenden können, erhalten wir für das Integral Z∞ −∞ 104 lim G(U , x)F ( dx) = F (b) − F (a), U →∞ 6. November 2011 13:28 Charakteristische Funktionen denn das Verhalten des Integranden an den Unstetigkeitsstellen ist für den Integralwert nicht von Bedeutung. Wir müssen also noch nachweisen, dass wir den Satz über die dominierte Konvergenz auch anwenden können. Setze n = U und fn = G(U, ·), G(U, ·) ist beschränkt, d.h. |G(U , ·)| à g < ∞, g ∈ R. Nun ist die konstante Funktion g integrierbar bezüglich der durch die Verteilungsfunktion F induzierten Verteilung µ. (µ(a, b] = F (b) − F (a)). « Mit dem Eindeutigkeitssatz erhält man aus ϕ die Verteilungsfunktion, ist ϕ darüber hinaus integrierbar, gilt wesentlich mehr. 6.5 Satz Gegeben sei eine Verteilungsfunktion F mit charakteristischer Funktion ϕ; es sei R∞ −∞ |ϕ(u)| du < ∞. Dann besitzt F eine Dichte f , die stetig und beschränkt ist, und es gilt die Umkehrformel f (x) = 1 2π Z R e−iux ϕ(u) du , » Sei also ϕ integrierbar, d.h. formel F (b) − F (a) = lim U →∞ 1 2π R ZU R −U x ∈ R. Ï |ϕ| (x) dx = c < ∞. Wir verwenden die Umkehr- e−iua − e−iub ϕ(u) du iu und bilden so den Differenzenquotienten für F , falls F in x stetig, F (x + h) − F (x) 1 = lim U →∞ 2π h ZU −U Diesen Ausdruck können wir durch e−iu(x+h) − e−iux 1 = |uh| iuh 6. November 2011 13:28 e−iu(x+h) − e−iux iuh − 1 2π R R ! ϕ(u) du . |ϕ| (u) du majorisieren, denn Z Z x+h x+h 1 −ius ds = 1. −iue ds à |h| x x 105 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen Somit können wir den Satz von der dominierten Konvergenz anwenden und die Grenzwertbildung für h → 0 mit der Grenzwertbildung für U → ∞ und der Integration vertauschen. lim h→0 ! ZU F (x + h) − F (x) 1 e−iu(x+h) − e−iux = lim lim ϕ(u) du − h iuh h→0 U →∞ 2π −U Z 1 = e−iux ϕ(u) du Î f (x). 2π R f ist offensichtlich Dichte zu F und beschränkt, denn Z Z 1 −iux e |ϕ(u)| du = |ϕ(u)| du < ∞, 2π f (x) à 1 2π R R und außerdem stetig, denn Z iuy e − eiux |ϕ(u)| du R Z à sup eiuy − eiux |ϕ(u)| du f (y) − f (x) à x,y∈U R = c sup eiuy − eiux . x,y∈U Der rechte Ausdruck wird klein für x − y klein, denn eiu· ist stetig. « Ist X Zufallsvariable mit integrierbarer charakteristischer Funktion ϕ, so besitzt X eine Dichte und diese entspricht im Wesentlichen der Fouriertransformierten von ϕ. Wie wir bereits festgestellt haben, erhalten wir ϕ als inverse Fouriertransformierte dieser Dichte zurück. 6.6 Satz Sei X eine reelle Zufallsvariable mit Verteilung PX und charakteristischer Funk- tion ϕ. Falls für j ∈ N gilt: E |X|j < ∞, so besitzt ϕ eine stetige j-te Ableitung ϕ(j) mit ϕ(j) (u) = ij Z R x j eiux PX ( dx), u ∈ R. Insbesondere ϕ(j) (0) = ij EX j . Ï 106 6. November 2011 13:28 Charakteristische Funktionen » Wir beweisen die Behauptung für j = 1, der Rest folgt induktiv. ϕ(u) = Z∞ eiux PX ( dx) −∞ Z i(u+h)x ϕ(u + h) − ϕ(u) e − eiux ϕ (u) = lim = lim PX ( dx) h h h→0 h→0 R ! Z eihx − 1 iux PX ( dx) = lim e h h→0 R | {z } 0 →ixeiux Wir müssen also nachweisen, dass wir den Satz von der dominierten Konvergenz anwenden können, und R ! eihx − 1 ihx e − 1 iux e < const |x| , = 1 h h | {z } →ixeiux R x, h ∈ R |x| PX ( dx) = E |X| < ∞. Somit erhalten wir für das Integral, ϕ0 (u) = i Z R xeiux PX ( dx) ϕ0 ist gleichmäßig stetig, denn 0 ϕ (u + h) − ϕ0 (u) à Z R |x| ei(u+h)x − eiux PX ( dx) Nun ist ei(u+h)x − eiux nach der Dreiecksungleichung durch 2 beschränkt und konvergiert für h → 0 gegen Null, somit haben wir eine integrierbare Majorante und mit dem Satz von der dominierten Konvergenz folgt, 0 ϕ (u + h) − ϕ0 (u) → 0, h → 0. « Erinnern wir uns an die erzeugende Funktion g einer auf N0 konzentrierten Verteilung so besagt Satz 6.2, g (j) (1−) = E(X(X − 1) · · · (X − j + 1)). 6. November 2011 13:28 107 6-B 6 Erzeugende und charakteristische Funktionen, Faltungen Für charakteristische Funktionen reeller Zufallsvariablen gilt nun, ϕ(j) (0) = ij EX j . Erzeugende und charakteristische Funktionen ermöglichen es uns Integrationsaufgaben, Z R x j PX , X kj bk ká0 auf Differentiationsaufgaben ϕj (u)u=0 , g (j) (1−) zurückzuführen, die sich meist wesentlich leichter lösen lassen. 6.7 Satz Seien X1 , . . . , Xn unabhängige reelle Zufallsvariablen mit charakteristischen Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe X1 + . . . + Xn gilt dann ϕ= n Y ϕj . Ï j=1 5.4 » ϕ(u) = Eeiu(X1 +...+Xn ) = E(eiuX1 · · · eiuXn ) = (EeiuX1 ) · · · (EeiuXn ). « Für die erzeugende und charakteristische Funktion einer Summe von unabhängigen Zufallsvariablen gelten also analoge Aussagen. Beide beruhen auf der Multiplikativität des Erwartungswerts für unabhänige Zufallsvariablen. 6-C Faltungen In Abschnitt 5-A haben wir bereits für zwei reelle unabhängige Zufallsvariablen X und Y die Faltung PX ∗ PY Í PX+Y als Verteilung von X + Y definiert. Wir wollen die Definition nun noch etwas Verallgemeinern und die Argumentationslücken aus 5-A schließen. 6.3 Definition Zu zwei W-Maßen P , Q auf B wird das W-Maß P ∗ Q auf B, die sog. Faltung von P und Q, folgendermaßen definiert: 108 6. November 2011 13:28 Faltungen 1.) Sei T : R × R → R mit T (x, y) = x + y; P ∗ Q Í (P ⊗ Q)T (P ⊗ Q W-Maß auf B2 mit (P ⊗ Q)(B1 × B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B, sog. Produkt-W-Maß von P und Q) oder — äquivalent — 2.) Man wähle ein unabhängiges Paar reeller Zufallsvariablen X, Y mit Verteilungen PX = P , PY = Q und setze P ∗ Q Í PX+Y . Ï » Beweis der Äquivalenz in 6.3. Sei Z = (X, Y ) gemäß b), dann gilt ! PX+Y = PT ◦Z = (PZ )T = (PX ⊗ PY )T . Um (!) nachzuweisen, genügt es zu zeigen, dass ∀ B1 , B2 ∈ B : (PZ )(B1 × B2 ) = (PX ⊗ PY )(B1 × B2 ) . | {z } | {z } P [Z∈B1 ×B2 ] (*) PX (B1 )PY (B2 ) Da X, Y unabhängig sind, gilt P [Z ∈ B1 × B2 ] = P [(X, Y ) ∈ B1 × B2 ] = P [X ∈ B1 , Y ∈ B2 ] = P [X ∈ B1 ]P [Y ∈ B2 ] und somit ist die Identität (*) gezeigt. Mit Hilfe des Fortsetzungssatzes liegt die Identität auf allen Borelschen Mengen aus B2 vor. 6.8 Satz « a) Die Faltungsoperation ist kommutativ und assoziativ. b) Sei (X, Y ) ein unabhängiges Paar reeller Zufallsvariablen. Für X, Y und X + Y seien die Verteilungsfunktionen mit F , G, H, die Dichten — falls existent — mit f , g, h und die Zähldichten — falls PX , PY auf N0 konzentriert sind — mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt H(t) = 6. November 2011 13:28 Z R F (t − y) G( dy ) = Z R G(t − x) F (dx), t ∈ R. 109 6-C 6 Erzeugende und charakteristische Funktionen, Faltungen Falls f existiert, so existiert h mit Z h(t) = f (t − y) G( dy ) für (L-f.a.) t ∈ R; R falls zusätzlich g existiert, so gilt Z Z h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx für (L-f.a.) t ∈ R. R R Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit rk = » k X i=0 pk−i qi = k X i=0 qk−i pi (k ∈ N0 ). Ï a) Assoiziativität und Kommutativität der Faltungsoperation folgen direkt aus der Assoziativität und Kommutativität der Addition reeller Zahlen. b) Siehe auch Satz 5.6. Sei H(t) = P [X + Y à t] = P [(X, Y ) ∈ B] mit B Í (x, y) : x + y à t , also Z H(t) = P(X,Y ) (B) = (PX ⊗ PY )(B) = PX ((−∞, t − y])PY ( dy ) R Z Z Komm. von X + Y = F (t − y)G( dy ) = G(t − x)F ( dx). R R Falls zu F eine Dichte f existiert, dann gilt für t ∈ R, t−y Zt Z Z Z Fubini f (τ − y)G( dy ) dτ . H(t) = f (τ) dτ G( dy ) = R −∞ −∞ R Falls zusätzlich G eine Dichte g besitzt, dann ist G( dy ) = g(y) dy und somit besitzt H eine Dichte der Form Z Z h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx, R R wobei h(t) nur λ-f.ü. definiert ist. Falls X und Y Zähldichten (pk ) und (qk ) besitzen, dann ist rk Í P [X + Y = k] = P [ ∃ i ∈ {0, 1, . . . , k} : X = k − i, Y = i] = = 110 k X i=0 k X i=0 P [X = k − i, Y = i] = pk−i qi = k X qk−i pi . k X i=0 P [X = k − i]P [Y = i] « i=0 6. November 2011 13:28 Faltungen Sind X und Y reelle unabhängige Zufallsvariablen mit Dichten f und g, so ist mit dem eben bewiesenen die Dichte von X + Y gegeben durch Z Z f (x − y)g(y) dy = g(y − x)f (x) dx. R R Dieser Ausdruck wird als Faltung von f mit g bezeichnet, geschrieben f ∗ g Î fX+Y . 6.7 Bemerkungen. a. Für n1,2 ∈ N, p ∈ [0, 1] gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p). Die Summe von n unabhängigen b(1, p) verteilten Zufallsvariablen ist also b(n, p)-verteilt. b. Für λ1,2 > 0 gilt π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ). » π (λ1 ), π (λ2 ) haben nach Bemerkung 6.2 die erzeugenden Funktionen g1 (s) = eλ1 (s−1) , g2 (s) = eλ2 (s−1) . Im Satz 6.3 haben wir gezeigt, dass die Verteilungsfunktion einer Zufallsvariable X + Y , wobei X und Y unabhängig und X π (λ1 ) und Y π (λ2 ) verteilt ist, die Form hat π (λ1 ) ∗ π (λ2 ). Diese hat die erzeugende Funktion g1 (s)g2 (s) = e(λ1 +λ2 )(s−1) , welche ebenfalls die erzeugende Funktion von π (λ1 + λ2 ) ist. Mit Satz 6.1 folgt nun, dass π (λ1 + λ2 ) = π (λ1 ) ∗ π (λ2 ). « c. Für r1,2 ∈ N, p ∈ (0, 1) gilt Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p). Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist also Nb(r , p)-verteilt. 6. November 2011 13:28 111 6-C 6 Erzeugende und charakteristische Funktionen, Faltungen 2 ∈ (0, ∞) gilt d. Für a1,2 ∈ R, σ1,2 N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ). e. Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 . Die Summe von n unabhängigen exp(λ)-verteilten Zufallsvariablen ist Γλ,n verteilt. Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten Zu2 fallsvariablen ist χn -verteilt. Ç Es lässt sich auch für nicht unabhängige reelle Zufallsvariablen X und Y nach der Verteilung von X + Y fragen. Um diese zu berechnen kann man stets folgenden Ansatz wählen, FX+Y (t) = P [X + Y à t] = P [g ◦ (X, Y ) à t] = P [(X, Y ) ∈ g −1 (−∞, t]] Z = P(X,Y ) [g −1 (−∞, t]] = 1 dP(X,Y ) . g −1 (−∞,t] Besitzen X und Y eine gemeinsame Dichte, so kann man das eigentliche Integra tionsgebiet g −1 (−∞, t] ∩ f(X,Y ) ≠ 0 (meißt geometrisch) bestimmen und so das Integral berechnen. 112 6. November 2011 13:28 7-A 7 Spezielle Verteilungen Wir wollen in diesem Kapitel die wesentlichen Eigenschaften der bisher vorgestellten Verteilungen zusammenfassen. 7-A Diskrete Verteilungen Verteilungen, die auf höchstens abzählbare Mengen konzentriert sind, heißen diskret. Nimmt eine Zufallsvariable nur endlich oder abzählbar viele Werte an, so ist ihre Verteilung PX diskret. 7.1 Definition Als Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) oder auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} konzentriert ist und die Zähldichte k , b(n, p; k) Í besitzt. ! n k p (1 − p)n−k , k ∈ N0 k Ï 7.1 Satz Sei n ∈ N, p ∈ [0, 1]; q Í 1 − p. a) Ist (X1 , . . . , Xn ) ein n-Tupel unabhängiger reeller Zufallsvariablen mit P [Xi = 1] = p, P [Xi = 0] = q, d.h. mit jeweiliger b(1, p)-Verteilung, so ist i = 1, . . . , n Pn i=1 Xi b(n, p)-verteilt. b) Für eine Zufallsvariable X mit PX = b(n, p) gilt EX = np, V(X) = npq. c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n . 6. November 2011 13:28 113 7 Spezielle Verteilungen d) Für n1,2 ∈ N gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p), d.h. für zwei unabhängige Zufallsvariablen X1 , X2 mit PX1 = b(n1 , p) und PX2 = b(n2 , p) gilt PX1 +X2 = b(n1 + n2 , p). Ï 7.1 Bemerkung. Das n-Tupel (X1 , . . . , Xn ) von Zufallsvariablen aus Satz 7.1 beschreibt ein n-Tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“Misserfolg”) und jeweiliger Pn k=1 Xi gibt die Anzahl der Erfolge in n Bernoulli- Erfolgswahrscheinlichkeit p; Versuchen an. Ç 7.2 Definition Als Poisson-Verteilung π (λ) mit Parameter λ > 0 wird ein W-Maß auf B bezeichnet, das auf N0 konzentriert ist und die Zähldichte k , π (λ; k) Í e−λ besitzt. λk , k ∈ N0 k! Ï 7.2 Satz Sei λ > 0. a) Ist (b(n, pn ))n eine Folge von Binomialverteilungen mit n pn → λ für n → ∞, dann konvergiert b(n, pn ; k) → π (λ; k) (n → ∞) für alle k ∈ N0 . b) Für eine Zufallsvariable X mit PX = π (λ) gilt EX = V(X) = λ. c) π (λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs . d) Für λ1,2 > 0 gilt π (λ1 ) ∗ π (λ2 ) = π (λ1 + λ2 ) . Ï 7.2 Bemerkung. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teilchen auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle durch eine b(n, Zufallsvariable angegeben. Der Grenzübergang n → ∞, m → ∞ mit Belegungsintensität gemäß Satz 7.2a zu einer π (λ)-verteilten Zufallsvariable. Ç 114 n m 1 m )-verteilte → λ > 0 führt 6. November 2011 13:28 Diskrete Verteilungen 7.3 Definition Als negative Binomialverteilung oder Pascal-Verteilung Nb(r , p) mit Pa- rametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf N0 konzentriert ist und — mit q Í 1 − p — die Zähldichte ! r +k−1 r k k , Nb(r , p; k) Í p q , k∈N k besitzt. Speziell wird Nb(1, p) — mit Zähldichte k , p(1 − p)k , k ∈ N0 — als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. Ï 7.3 Satz Sei r ∈ N, p ∈ (0, 1), q Í 1 − p. a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten Zufallsvariablen. Die erweitert-reelle Zufallsvariable n X Xk = r − r X Í inf n ∈ N : k=1 mit inf Í ∞ ist Nb(r , p)-verteilt. b) Für eine Zufallsvariable X mit PX = Nb(r , p) gilt EX = rq , p V(X) = rq . p2 c) Nb(r , p) hat die erzeugende Funktion g mit g(s) = p r (1 − qs)−r . d) Für r1,2 ∈ N gilt Nb(r1 , p) ∗ Nb(r2 , p) = Nb(r1 + r2 , p). Die Summe von r unabhängigen Nb(1, p)-verteilten Zufallsvariablen ist somit Nb(r , p)-verteilt. Ï 7.3 Bemerkung. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitert-reelle Zufalls- variable n X T Í inf n ∈ N : Xk = r k=1 mit inf Í ∞ die Wartezeit bis zum r -ten Auftreten der Eins in (Xn ) und durch die erweitert-reelle Zufallsvariable X = T − r die Anzahl der Misserfolge bis zum r -ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoulli-Versuchen angegeben. Ç 6. November 2011 13:28 115 7-A 7 Spezielle Verteilungen 7.4 Definition Als hypergeometrische Verteilung mit Parametern n, r , s ∈ N, wobei n ≤ r +s, wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} — sogar auf {max (0, n− s), . . . , min (n, r )} — konzentriert ist und die Zähldichte k, besitzt. r s k n−k , r +s n 0, k = 0, 1, . . . , n k = n + 1, n + 2, . . . Ï 7.4 Bemerkung. Werden aus einer Urne mit r roten und s schwarzen Kugeln rein zu- fällig n Kugeln ohne Zurücklegen gezogen (n, r , s wie in Definition 7.4), so wird die Anzahl der gezogenen roten Kugeln durch eine Zufallsvariable angegeben, die eine hypergeometrische Verteilung mit Parametern n, r , s besitzt. Anwendung der hypergeometrischen Verteilung in der Qualitätskontrolle. Ç 116 6. November 2011 13:28 Totalstetige Verteilungen 7-B Totalstetige Verteilungen Totalstetige Verteilungen sind die Verteilungen, die eine Dichtefunktion f : R → R+ besitzen. Sie sind dann natürlich auch stetig, denn für ihre Verteilungsfunktion gilt F (t) = Zt −∞ f (x) dx, aber nicht jede stetige Verteilung besitzt eine Dichtefunktion. Mit Hilfe der Dichtefunktion können wir Randverteilungen, Erwartungswert, Varianz, Momente . . . sehr leicht berechnen. Totalstetige Verteilungen sind also sehr angenehm. 7.5 Definition Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞ wird ein W-Maß auf B bezeichnet, das eine Dichte f = besitzt. 1 1(a,b) b−a Ï 7.4 Satz Für eine Zufallsvariable X mit Gleichverteilung auf (a, b) gilt EX = a+b , 2 V(X) = (b − a)2 . 12 Ï 7.6 Definition Als (eindimensionale) Normalverteilung oder Gauß-Verteilung N(a, σ 2 ) mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B bezeichnet, das eine Dichte f mit f (x) = √ 2 1 − (x−a) e 2σ 2 , 2π σ x∈R besitzt. Speziell heißt N(0, 1) standardisierte Normalverteilung. Ï a. Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche 1 Glockenkurve. Im Fall a = 0 ist f (0) = √ und hat f zwei Wendepunkte 2π σ 1 (±σ ; √ ). 2π eσ 7.5 Bemerkungen. b. Dichte- und die Verteilungsfunktion φ von N(0, 1) sind tabelliert. 6. November 2011 13:28 117 7-B 7 Spezielle Verteilungen ϕ(t) √ 1 2πσ ϕ 7.1 t σ −σ Gaußsche Glockenkurve mit Wendepunkten c. Ist die Zufallsvariable X N(a, σ 2 )-verteilt, so ist hierbei X −a N(0, 1)-verteilt. Es gilt σ P [a − σ ≤ X ≤ a + σ ] = 2φ(1) − 1 ≈ 0, 683 P [a − 2σ ≤ X ≤ a + 2σ ] = 2φ(2) − 1 ≈ 0, 954 P [a − 3σ ≤ X ≤ a + 3σ ] = 2φ(3) − 1 ≈ 0, 997 . d. Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler. Ç 7.5 Satz Sei a ∈ R, σ > 0. a) Für eine Zufallsvariable X mit Verteilung N(a, σ 2 ) gilt: E(X − a)2k−1 = 0, E(X − a)2k = σ 2k k Y j=1 (2j − 1), k ∈ N; insbesondere EX = a, V(X) = σ 2 . Die Zufallsvariable Y = cX + b mit 0 ≠ c ∈ R, b ∈ R hat die Verteilung N(ca + b, c 2 σ 2 ). b) Die charakteristische Funktion von N(a, σ 2 ) ist ϕ mit ϕ(u) = eiau e− σ 2 u2 2 . c) Für a1,2 ∈ R, σ1,2 > 0 gilt N(a1 , σ12 ) ∗ N(a2 , σ22 ) = N(a1 + a2 , σ12 + σ22 ) . 118 Ï 6. November 2011 13:28 Totalstetige Verteilungen 7.7 Definition Als Exponentialverteilung exp(λ) mit Parameter λ > 0 wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit λe−λx , x > 0, f (x) = 0, x ≤ 0, besitzt. Ï 7.6 Satz Sei λ > 0. a) Sei X eine erweitert-reelle Zufallsvariable, deren Verteilung auf R+ konzentriert sei, mit P [0 < X < ∞] > 0. X erfüllt ∀ s, t ∈ (0, ∞) : P [X > t + s | X > s] = P [X > t]. genau dann, wenn PX eine Exponentialverteilung ist. Diese Eigenschaft heißt “Gedächtnislosigkeit”. b) Für eine Zufallsvariable X mit PX = exp(λ) gilt EX = 1 , λ V(X) = 1 . λ2 c) exp(λ) hat die charakteristische Funktion ϕ mit ϕ(u) = λ . λ − iu Ï 7.6 Bemerkung. Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte Zufallsvariable angegeben. Ç 7.8 Definition Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0 wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit λν ν−1 −λx x e , Γ (ν) f (x) = 0, x>0 x≤0 2 besitzt. Hierbei gilt Γλ,1 = exp(λ). Γ 1 , n wird als Chi-Quadrat-Verteilung χn mit n(∈ N) Freiheitsgraden bezeichnet. Ï 2 2 7.7 Satz Seien λ, ν > 0, n ∈ N. 6. November 2011 13:28 119 7-B 7 Spezielle Verteilungen a) Für eine Zufallsvariable X mit PX = Γλ,ν gilt EX = ν λ, V(X) = ν λ2 . b) Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) = λ λ − iu ν . c) Für ν1,2 > 0 gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 . Insbesondere ist Γλ,n die n-fache Faltung von exp(λ). d) Die Summe der Quadrate von n unabhängigen jeweils N(0, 1)-verteilten re2 ellen Zufallsvariablen ist χn -verteilt. Ï 7.7 Bemerkung. Sind X, Y zwei unabhängige reelle Zufallsvariablen mit PX = N(0, 1) X 2 als t -Verteilung und PY = χn , so wird die Verteilung der Zufallsvariablen p Y /n oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet (n ∈ N). t1 2 bzw. St1 ist eine sogenannte Cauchy-Verteilung — Anwendung von χn und Stn in der Statistik. Ç Sei {Tn : n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvariablen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1. Definiere die Zufallsvariable Nt Í sup {n ∈ N : T1 + . . . + Tn ≤ t} für t ∈ R+ und der Konvention sup = 0. Bsp 1 In einem technischen System wird ein Bauelement mit endlicher zufälliger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt. Die einzelnen Lebensdauern seien Realisierung der Zufallsvariablen Tn . Nt gibt die Anzahl der Erneuerungen im Zeitintervall [0, t] an. 7.8 Satz Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ > 0), so ist Nt π (λt)-verteilt, t ∈ R+ . Ï » Setze Sk Í T1 + . . . + Tk mit k ∈ N, wobei S0 = 0. Gesucht ist nun P [Nt = k] = P [Sk à t, Sk+1 > t] = P [Sk à t] − P [Sk+1 à t], 120 6. November 2011 13:28 Totalstetige Verteilungen denn [Sk+1 > t] = [Sk+1 à t]c und somit ist [Sk à t] ∩ [Sk+1 à t]c = [Sk à t] \ [Sk+1 à t]. Nun ist Sk Γλ,k verteilt und Sk+1 Γλ,k+1 verteilt. Für die Dichte erhalten wir somit, P [Nt = k] = Zt =e 0 λk x k−1 e−λx dx − (k − 1)! −λt (λt)k k! Zt 0 λk+1 k −λx x e dx k! Der letzte Schritt folgt durch Differenzieren der Integrale nach t, Zusammenfassen und anschließendes Integrieren. « 7.8 Bemerkung. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson- Prozess. Ç 6. November 2011 13:28 121 7-B 8-A 8 Gesetze der großen Zahlen 8-A Konvergenzbegriffe 8.1 Definition Seien Xn , X reelle Zufallsvariablen (für n ∈ N) auf einem W-Raum (Ω, A, P ). Die Folge (Xn ) heißt gegen X 1.) vollständig konvergent, wenn für jedes ε > 0 gilt X n∈N P [|Xn − X|] á ε] → 0. c Schreibweise Xn → X. 2.) konvergent P -fast sicher (P -f.s., f.s.), wenn P [Xn → X] = 1. 3.) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn für jedes ε > 0 gilt P [|Xn − X| á ε] → 0. P Schreibweise Xn → X, 4.) konvergent im r -ten Mittel (r > 0), wenn E |Xn |r , E |X|r < ∞ für n ∈ N und E |Xn − X|r → 0. Spezialfall: r = 2, . . . konvergenz im quadratischen Mittel. 5.) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion g : R → R gilt Eg(Xn ) → Eg(X), 6. November 2011 13:28 n → ∞, 123 8 Gesetze der großen Zahlen oder — hier äquivalent — wenn für die Verteilungsfunktion Fn und F von Xn bzw. X gilt Fn (x) → F (x), n → ∞, D in jedem Stetigkeitspunkt x von F . Schreibweise Xn → X. Ï 8.1 Bemerkungen. a. Seien Fn Verteilungsfunktionen für n ∈ N, dann impliziert (Fn ) konvergiert nicht, dass lim Fn eine Verteilungsfunktion ist. n→∞ b. Die Grenzverteilungsfunktion in Definition 8.1 e) ist eindeutig bestimmt. c. Die Konvergenz in e.) entspricht einer schwach*-Konvergenz der Fn im Dualraum von Cb (R). Ç 8.1 Satz Seien Xn , X reelle Zufallsvariablen auf einem W-Raum (Ω, A, P ). c a) Falls Xn → X, so gilt Xn → X f.s. P b) Falls Xn → X f.s., so gilt Xn → X. P c) Falls für r > 0, Xn → X im r -ten Mittel, so gilt Xn → X. D P d) Falls Xn → X, so gilt Xn → X. Ï » Vorbetrachtung. Seien Xn , X reelle Zufallsvariablen, so gilt Xn → X P -f.s. a P [ lim Xn = X] = 1 n→∞ \ [ \ aP [|Xm − X| < ε] = 1 0<ε∈Q n∈N mán Wobei sich die letzte Äquivalenz direkt aus dem ε − δ-Kriterium für konvergente Folgen ergibt, wenn man sich für die Wahl von ε auf Q zurückzieht. Dies ist natürlich äquivalent zu [ \ [ P [|Xm − X| á ε] = 0 0<ε∈Q n∈N mán \ [ a∀ε>0:P [|Xm − X| á ε] = 0 mán n∈N | {z } ÍAn (ε) 124 6. November 2011 13:28 Konvergenzbegriffe Nun ist An ↓ A, d.h. wir können dies auch schreiben als ∀ ε > 0 : lim P (An (ε)) = 0 n→∞ a ∀ ε > 0 : lim P n→∞ sup |Xm − X| á ε mán ! = 0. Weiterhin gilt P [|Xn − X| á ε] à P [sup |Xn − X| á ε] à c a) Falls Xn → X, dann gilt P mán X mán P [|Xn − X| á ε] . P [|Xn − X| á ε] → 0 und damit auch Xn → X f.s. b) Falls Xn → X f.s., so gilt P [sup |Xn − X| á ε] → 0 und damit auch P [|Xn − X| á ε] → 0. c) Unter Verwendung der Markov-Ungleichung erhalten wir P [|Xn − X| á ε] à 1 E |Xn − X|r εr P also Xn → X, wenn Xn → X im r -ten Mittel. P d) Sei g : R → R beschränkt und stetig und Xn → X. Es existiert also zu jeder Teil- folge (Xn0 ) eine konvergente Teilfolge (Xn00 ), die gegen X konvergiert. Somit gilt g(Xn00 ) → g(X) f.s. Mit dem Satz von der dominierten Konvergenz erhalten wir somit Eg(Xn00 ) → Eg(X). Nun verwenden wir den Satz aus der Analysis, dass eine Folge genau dann konvergiert, wenn jede Teilfolge eine konvergente Teilfolge besitzt, und alle diese Teilfolgen denselben Grenzwert haben und erhalten somit, Eg(Xn ) → D Eg(X), d.h. Xn → X. 6. November 2011 13:28 « 125 8-B 8 Gesetze der großen Zahlen 8-B Schwache und starke Gesetze der großen Zahlen 8.2 Definition Eine Folge (Xn ) von integrierbaren reellen Zufallsvariablen auf einem W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz der großen Zahlen, wenn n 1 X (Xk − EXk ) → 0, n k=1 n → ∞ nach Wahrscheinlichkeit bzw. P -f.s. Ï 8.2 Bemerkung. Genügt eine Folge von Zufallsvariablen dem starken Gesetzt der großen Zahlen, dann genügt sie auch dem schwachen Gesetz der großen Zahlen. Die Umkehrung gilt im Allgemeinen nicht. Ç 8.2 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine unab- hängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit ∞ X n=1 n−2 V(Xn ) < ∞ genügt dem starken Gesetz der großen Zahlen. Ï » Wir wollen den Satz zunächst nur unter der stärkeren Bedingung sup V(Xn ) Î C < ∞ n (jedoch unter der schwächeren Voraussetzung der paarweisen Unkorreliertheit der (Xn ) anstatt der Unabhängigkeit). Einen vollständigen Beweis werden wir mit Hilfe der Martingaltheorie geben können. Wir zeigen nun und X 1 n C ∀ ε > 0 : P Xj − EXj á ε à nε2 n j=1 (1) n 1 X (Xj − EXj ) → 0 n j=1 126 6. November 2011 13:28 Schwache und starke Gesetze der großen Zahlen im quadratischen Mittel und P -f.s.. Setze Yj Í Xj − EXj , Zn Í 1 n der Markov-Ungleichung erhalten wir n P j=1 Yj . Mit Hilfe n n 1 X Bienayme 1 X C ε P [|Zn | á ε] à V(Zn ) = 2 V Yj V Yj à . = n n2 j=1 n j=1 2 Somit folgt (1) und damit n 1 X Xj − EXj → 0, n j=1 im quadratischen Mittel. Es verbleibt die P -f.s. konvergenz zu zeigen. Betrachte dazu ∞ C X 1 P [Zn2 á ε] à 2 . ε n=1 n2 n=1 ∞ X also konvergiert Zn2 vollständig und insbesondere auch P -f.s. gegen 0 (mit Satz 8.1). Sei nun n ∈ N, setze n o m(n) Í max m ∈ N : m2 à n dann folgt m(n)2 à n < (m(n) + 1)2 . 2 m(n) 1 X 1 |Zn | à Y j + n n j=1 | 1 Nun ist n m(n) P2 1 Yj à m(n) 2 j=1 Yj j=m(n)2 +1 {z } n X ÎRn m(n) P2 j=1 Yj → 0 P -f.s.. Es genügt also zu zeigen, dass Rn → 0 P -f.s.. Sei also ε > 0, dann folgt mit der Markov-Ungleichung und dem Satz von Bienayme ε2 P [|Rn | á ε] à V(Rn ) à 1 n2 n X j=m(n)2 +1 V(Yj ) à C (n − m(n)2 ) n2 C ((m(n) + 1)2 − 1 − m(n)2 ) n2 √ C n = 2 (2m(n)) à 2C 2 = 2Cn−3/2 . n n à Da P ná0 n−3/2 < ∞, folgt (Rn ) konvergiert vollständig gegen 0. 6. November 2011 13:28 « 127 8-B 8 Gesetze der großen Zahlen 8.3 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol- ge (Xn ) identisch verteilter integrierbarer reeller Zufallsvariablen gilt n 1 X Xk → EX1 , n k=1 n → ∞, f .s. Ï » Um die quadratische Integrierbarkeit der Zufallsvariablen zu gewährleisten, führen wir gestutzte Zufallsvariablen ein durch Xi0 Í Xi 1[|Xi |ài] Insbesondere folgt aus der Unabhängigkeit der Xn auch die Unabhängigkeit der Xn0 . Setze weiterhin Sn0 = n X i=1 Xi0 , kn Í bϑn c Sn Í n X Xi , i=1 für beliebiges aber fest gewähltes ϑ > 1. ∞ X ε2 n=1 à à P kn ∞ ∞ X X 1 1 X 1 0 Skn − ESk0 n à V(Sk0 n ) = V(Xk0 ) 2 2 kn k k n=1 n k=1 n=1 n kn kn ∞ ∞ X X 1 X 1 X E((Xk0 )2 ) à E(Xk2 1[|Xk |àk] ) 2 2 k k n=1 n k=1 n=1 n k=1 kn ∞ X 1 X E(X12 1[|X1 |àkn ] ), k2 n=1 n k=1 denn da alle Zufallsvariablen dieselbe Verteilung besitzten, ist es für den Erwartungswert unerheblich, welche Zufallsvariable speziell ausgewählt wird. Aufgrund der Linearität von E und dem Satz der monotonen Konvergenz folgt, à E X12 ∞ X 1 1[|X1 |àkn ] . k n=1 n Setzen wir n0 Í min {n ∈ N : |X1 | à kn }, so gilt = E X12 128 ∞ X n=n0 1 1[|X1 |àkn ] . kn 6. November 2011 13:28 Schwache und starke Gesetze der großen Zahlen Außerdem |X1 | à kn0 = bϑn0 c à ϑn0 , also ∞ X n=n0 wobei 1 bϑn0 c ∞ ∞ X 1 1 X 2 2 1 1 1[|X1 |àkn ] à à n = n n n 0 0 kn bϑ c ϑ ϑ ϑ 1 − n=n0 n=0 à 2 ϑ n0 1 ϑ à 2 ϑ , |X1 | ϑ − 1 , denn es gilt allgemein für positive reelle Zahlen bpc > erhalten wir für den Erwartungswert, ∞ X 1 ϑ 2ϑ 2 2 E X1 1[|X1 |àkn ] à E X12 = E |X1 | < ∞, k |X | ϑ − 1 ϑ −1 1 n=n0 n p 2. Also da E |Xn | < ∞ nach Voraussetzung. Mit Satz 8.1 folgt 1 0 Skn − ESk0 n → 0, kn P -f.s. für n → ∞ wobei kn 1 X 1 ESk0 n = E(X1 1[|X1 |àk] ). kn kn k=1 Mit dem Satz von der dominierten Konvergenz folgt E(X1 1[|X1 |àk] ) → EX1 und damit, kn 1 X E(X1 1[|X1 |àk] ) → EX kn k=1 nach dem Satz von Césaro–Stolz bzw. dem Cauchyschen Grenzwertsatz. Sk Außerdem konvergiert n → EX1 P -f.s., denn kn ∞ X n=1 P [Xn = Xn0 ] = ∞ X n=1 P [|Xn | > n] à dom.konv = Z∞ 0 n ∞ Z X n=1 n−1 P [|Xn | > t] dt P [|Xn | > t] dt = EX1 . Mit Lemma von Borel-Cantelli folgt dass Xn und Xn0 für alle bis auf endlich viele n übereinstimmen, damit Skn − Sk0 n kn 6. November 2011 13:28 → 0, P -f.s. für n → ∞. 129 8-B 8 Gesetze der großen Zahlen Zusammenfassend erhalten wir also Skn − Sk0 n Sk0 − ESk0 n ESk0 n S kn = + n + → EX1 f.s. kn kn kn k | {z } | {z } | {zn } →0 f.s. →0 f.s. →EX1 f.s. Sei zunächst Xi á 0 für alle i ∈ N. Dann gilt für alle i mit kn à i à kn+1 , Sk Sk kn Skn kn+1 kn Si Si à n+1 à n+1 à à . kn+1 kn kn+1 kn i i kn+1 kn per definitionem ist kn bϑn c ϑn − 1 1 = á → kn+1 bϑn+1 c ϑn+1 ϑ analog erhält man kn+1 kn → ϑ. Somit folgt 1 Sn Sn EX1 à lim inf à lim sup à ϑEX1 . n ϑ n n n Da ϑ > 1 beliebig und obige Gleichung für alle ϑ gilt, folgt durch den Übergang ϑ ↓ 1, EX1 = lim n→∞ Sn , n P -f.s. n → ∞. Sei jetzt Xi reellwertig, mit Xi = Xi+ − Xi− , dann ist n n n 1 X 1 X + 1 X − Xi = Xi − X → EX1+ − EX1− = EX1 , n i=1 n i=1 n i=1 i 8.3 Bemerkungen. P -f.s. für n → ∞. « a. In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht weg- gelassen werden. b. Die Voraussetzung der Unabhängigkeit in Satz 8.4 kann zur Voraussetzung der paarweisen Unabhängigkeit abgeschwächt werden (Etemadi). c. In Satz 8.2 kann bei P n−2 V(Xn )(log n)2 < ∞ die Unabhängigkeitsvorausset- zung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.) abgeschwächt werden (Rademacher, Menchov). Ç 130 6. November 2011 13:28 Schwache und starke Gesetze der großen Zahlen 8.4 Satz von Tschebyschev Eine Folge (Xn ) quadratisch integrierbarer paarweise un- korrelierter, d.h. es gilt ∀ j ≠ k : E(Xj − EXj )(Xk − EXk ) = 0, reeller Zufallsvariablen mit n−2 n X k=1 V(Xk ) → 0, n → ∞, genügt dem schwachen Gesetz der großen Zahlen. Ï 8.4 Bemerkung. Für eine unabhängige Folge (Xn ) identisch verteilter reeller Zufallsva- riablen mit P [X1 = 1] = p, P [X1 = 0] = 1 − p (festes p ∈ [0, 1]) gilt n 1 X Xk → p, n k=1 n→∞ P -f.s. und nach Wahrscheinlichkeit. Borelsches Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetzt der großen Zahlen. Ç Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache dar, dass im Allgemeinen die relative Häufigkeit eines Ereignisses bei großer Zahl der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente näherungsweise konstant ist. Wir betrachten nun zwei Beispiele zu Satz 8.3 und Bemerkung 8.4. Bsp 1 Es seien X1 , X2 , . . . unabhängige identisch verteilte Zufallsvariablen Zn mit existierenden (endlichen) EX1 Î a und V(X1 ) Î σ 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt durch xn Í n 1 X xi n i=1 das sogenannte empirische Mittel und σ 2 durch 2 sn Í n 1 X (xi − x n )2 n − 1 i=1 die sogenannte empirische Varianz. Für Xn Í n 1 X Xi , n i=1 6. November 2011 13:28 Sn2 Í n 1 X (Xi − X n )2 n − 1 i=1 131 8-B 8 Gesetze der großen Zahlen gilt EX n = a, ESn2 = σ 2 (sogenannte Erwartungstreue der Schätzung) und ferner für n → ∞, X n → a f.s., Sn2 → σ 2 f.s., sogenannte Konsistzenz der Schätzfolgen. » Wir zeigen Sn2 → σ 2 P -f.s.. Setzen wir µ = EX1 , so gilt Sn2 n n 1 X n 1 X 2 2 Í (Xi − X n ) = (Xi − µ + µ − X n ) n − 1 i=1 n − 1 n i=1 X n n n X X 2 1 n 1 (Xi − µ)2 + (Xi − µ) (µ − X n ) + (µ − X n )2 = , | {z } n n − 1 n n | {z } i=1 i=1 i=1 →0 f.s. | | {z } {z } {z } | →1 2 →σ 2 P -f.s. →0 P -f.s. (µ−X n )2 →0 f.s. → σ f.s. Bsp 2 Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)-verteilten Lebensdauern (mit Verteilungsfunktion F ) gebe - bei festem T > 0 - die Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt (Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfällt, ist p = F (T ) = 1 − e−λT . Nach Bemerkung 8.4 konvergiert mit 1 Wahrscheinlichkeit Eins Zn /n → p für n → ∞. Wählt man T so, dass F (T ) = 2 , d.h. T = (ln 2)/λ (T sog. Median von exp(λ)), dann gilt f.s. Zn 1 → , n 2 n → ∞. Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet (nach T Zeiteinheiten ist i.A. bei großem n ungefähr die Hälfte der Atome zerfallen). Bsp 3 Aus der Analysis ist der Satz von Weierstraß bekannt, dass jede stetige Funk- tion f : R → R auf einem kompakten Intervall gleichmäßiger Limes von Polynomen ist. Wir wollen diesen Satz nun unter Verwendung des Kolmogorovschen starken Gesetz der großen Zahlen beweisen. Dazu verwenden wir Bernstein-Polynome, um stetige Funktionen über einem kompakten Intervall zu approximieren. 132 6. November 2011 13:28 Schwache und starke Gesetze der großen Zahlen Sei f : [0, 1] → R stetig. Die Bernsteinpolynome n-ten Grades sind definiert durch fn (p) = n X f k=0 k n ! n k p (1 − p)n−k , k p ∈ [0, 1]. Wir versehen also [0, 1] mit einem Gitter mit Gitterabstand und multiplizieren mit speziellen Gewichten. 1 n, werten f an k n aus Seien U1 , . . . , Un unabhängige auf [0, 1] identisch gleichverteilte Zufallsvariablen. Wähle p ∈ [0, 1] fest und setze Xi Í 1[0,p] (Ui ) = 1Ui ∈[0,p] . Die Xi sind dann unabhängige und b(1, p)-verteilte Zufallsvariablen. n X 1 E f 1[0,p] (Ui ) = E f n i=1 = n X f k=0 k n n 1 X Xi n i=1 | {z } ∈{0,1/n,2/n,...,1} ! n k p (1 − p)k = fn (p) k Sei ε > 0 beliebig. Da f auf dem kompakten Intervall [0, 1] gleichmäßig stetig, existiert ein δ > 0, so dass x − y < δ ⇒ f (x) − f (y) < ε, für x, y ∈ [0, 1]. Somit gilt n X fn (p) − f (p) = E f 1 1[0,p] (Ui ) − f (p) n i=1 n n X X 1 1 = E f 1[0,p] (Ui ) − f (p) à E f 1[0,p] (Ui ) − f (p) n i=1 n i=1 P 1 n Falls nun n 1[0,p] (Ui ) − p < δ, ist der Erwartungswert < ε, andernfalls schät i=0 6. November 2011 13:28 133 8-B 8 Gesetze der großen Zahlen zen wir grob durch die Dreiecksungleichung ab, # " à E ε + 2 f ∞ · 1 1 P n n 1 (U )−p áδ i=0 [0,p] i X 1 n V 1[0,p] (U1 ) = ε + 2 f ∞ P 1[0,p] (Ui ) − p n áδ àε+2 f ∞ nδ2 i=0 p(1 − p) 1 à ε + 2 f ∞ = ε + 2 f ∞ 2 nδ nδ2 Somit fn % f gleichmäßig auf [0, 1]. Bernstein-Polynome haben sehr angenehme Eigenschaften. Ist beispielsweise f monoton, so ist auch fn monoton. Ist f konvex, so ist auch fn konvex. 134 6. November 2011 13:28 9-A 9 Zentrale Grenzwertsätze 9-A Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R Im Folgenden sei stets n ∈ N und “→” bezeichne die Konvergenz für n → ∞. 1.) Seien Qn , Q W-Maße auf der σ -Algebra B der Borelschen Mengen 9.1 Definition in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly convergent) — Schreibweise Qn → Q schwach — , wenn für jede beschränkte stetige Funk- tion g : R → R gilt, Z R g dQ n → Z R g dQ , n → ∞. 2.) Seien Xn , X reelle Zufallsvariablen (nicht notwendig auf demselben W-Raum definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konvergent (converD gent in distribution, convergent in law) — Schreibweise Xn → X (n → ∞) — , wenn PXn → PX schwach, d.h. für jede beschränkte stetige Funktion g : R → R gilt Z R g dPXn → Z R g dPX , n→∞ oder (äquivalent nach dem Transformationssatz für Integrale) Eg(Xn ) → Eg(X), 9.1 Bemerkungen. n → ∞. Ï a. In Definition 9.1a ist das Grenz-W-Maß Q eindeutig bestimmt. b. In Definition 9.1b können Xn , X durch reelle Zufallsvariablen Xn0 , X 0 mit PXn0 = PXn , PX 0 = PX ersetzt werden. Ç 6. November 2011 13:28 135 9 Zentrale Grenzwertsätze Bevor wir die Eindeutigkeit des Grenz-W-Maßes beweisen, betrachten wir zunächst den Poissonschen Grenzwertsatz ∀ k ∈ N0 : b(n, pn ; k) → π (λ; k), n → ∞, falls npn → λ. Dies ist (hier) äquivalent zu ∀ x ∈ R : Fn (x) → F (x), wobei Fn Verteilungsfunktion einer b(n, p)-verteilten und F Verteilungsfunktion einer π (λ)-verteilten Zufallsvariable ist. Seien Xn , X reelle Zufallsvariablen mit Xn = für n → ∞. 1 f.s., X Í 0 f.s., so gilt Xn → X f.s. Fn F 1 n 9.1 1 n t Verteilungsfunktionen von X und Xn . Für die Verteilungsfunktionen folgt ∀ x ∈ R \ {0} : Fn (x) → F (x), denn 0 ist Unstetigkeitsstelle von F . Wir sehen an diesem Beispiel, dass die Konvergenz der Verteilungsfunktion in Unstetigkeitsstellen im Allgemeinen nicht fordern können. Wir können jedoch die Konvergenz nach Verteilung durch die Konvergenz der Fn in Stetigkeitspunkten charakterisieren. Klassische Definition der Verteilungskonvergenz Seien Xn , X reelle Zufallsvariablen bzw. Qn , Q W-Maße mit Verteilungsfunktion Fn bzw. F . Dann ist D Xn → X, bzw. Qn → Q schwach, 136 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R wenn ∀ Stetigkeitspunkte x von F : Fn (x) → F (x), n → ∞. Ï Diese Definition ist jedoch nicht so allgemein wie die in 9.1, da sie sich nicht auf unendlichdimensionale Räume übertragen lässt. » Beweis der Eindeutigkeit des Grenz-W-Maßes. Falls Qn → Q∗ schwach und Qn → Q∗∗ schwach, so gilt nach Satz 9.2 (noch zu zeigen), Fn (x) → F ∗ (x), Fn (x) → F ∗∗ (x) für jede Stetigkeitsstelle x von F ∗ bzw. F ∗∗ . Aufgrund der rechtsseitigen Stetigkeit einer Verteilungsfunktion folgt, ∀ x ∈ R : F ∗ (x) = F ∗∗ (x) und damit auch Q∗ = Q∗∗ . « 9.1 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Dann gilt D P Xn → X ⇒ Xn → X. Ï » Sei g : R → R stetig und beschränkt. Angenommen E(g(Xn ) − g(X)) konvergiert nicht gegen Null, es gibt also eine Teilfolge (nk ), so dass E(g(Xn ) − g(X)) > ε, k ∀ k ∈ N. P Aber da auch Xnk → X, besitzt Xnk eine Teilfolge, die P -f.s. konvergiert. Da g stetig, folgt somit auch g(Xnkl ) → g(X) P -f.s. Da außerdem g beschränkt, können wir den Satz von der dominierten Konvergenz anwenden und erhalten somit Eg(Xnkl ) → Eg(X), im Widerspruch zur Annahme, dass Eg(Xn ) nicht gegen Eg(X) konvergiert. 6. November 2011 13:28 « 137 9-A 9 Zentrale Grenzwertsätze 9.2 Satz Seien Qn , Q W-Maße auf B bzw. reelle Zufallsvariablen Xn , X mit Verteilungs- funktion Fn , F . D Qn → Q schwach bzw. Xn → X gilt genau dann, wenn Fn (x) → F (x) für alle Stetigkeitspunkte x von F . Ï D » “⇒”: Es gelte Xn → X. Sei D Í {x ∈ R : F (x−) = F (x)} die Menge der Stetigkeitspunkte von F . D ist dicht in R, denn F ist monoton und daher ist D c höchstens abzählbar. Sei x ∈ D. Für jedes p ∈ N setze 1, fp (y) Í p(x − y), 0, 1, gp (y) Í p(x − y), 0, y à x, xày àx+ x+ 1 p à y, 1 p, y àx− x− 1 p à y à x, x à y. gp x− 9.2 1 p, 1(−∞,x] 1 p x fp x+ 1 p t Verteilungsfunktionen von X und Xn . fp , gp : R → [0, 1] sind stetige, beschränkte Approximationen von 1(−∞,x] (y), wobei fp (y) ↓ 1(−∞,x] (y), gp (y) ↑ 1(−∞,x] (y), p → ∞. Da Xn nach Verteilung konvergiert, gilt ∀ p ∈ N : lim Efp (Xn ) = Efp (X), n→∞ ∀ p ∈ N : lim Egp (Xn ) = Egp (X). n→∞ 138 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R Nach Definition der Verteilungsfunktion ist Fn (x) = E1(−∞,x] (X), also gilt auch Egp (Xn ) à Fn (x) à Efp (Xn ). Mit dem Lemma von Fatou folgt außerdem ∀ p ∈ N : Egp (X) à lim inf Egp (Xn ) à lim inf Fn (x) à lim sup Fn (x) n→∞ n→∞ n→∞ à lim sup Efp (Xn ) à Efp (X), (*) n→∞ da fp beschränkt. Weiterhin folgt mit dem Satz von der monotonen Konvergenz, lim Efp (X) = E1(−∞,x] (X) = P [X à x] = F (x), p→∞ lim Egp (X) = E1(−∞,x) (X) = P [X < x] = F (x−). p→∞ Mit (*) folgt F (x − 0) à lim inf Fn (x) à lim sup Fn (x) à F (x). Für x ∈ D gilt n→∞ n→∞ F (x−) = F (x), also auch lim Fn (x) = F (x). n→∞ “⇐”: Diese Richtung ist etwas mühsamer. Hier approximiert man umgekehrt zur Hinrichtung eine stetige, beschränkte Funktion g durch Stufenfunktionen. Details findet man in [Jacod J, Protter P. Probability Essentials]. « 9.3 Satz Seien Xn , X reelle Zufallsvariablen auf (Ω, A, P ). Ist X P-f.s. konstant, so gilt: D P Xn → X a Xn → X. Ï » “⇐”: Klar nach Satz 9.1. “⇒”: Sei X = c P -f.s. mit Verteilungsfunktion F . c ist die einzige Unstetigkeits- stelle von F . D Da Xn → X nach Voraussetzung folt mit Satz 9.1, ∀ R \ {c} : Fn (x) → F (x). 6. November 2011 13:28 139 9-A 9 Zentrale Grenzwertsätze 1 F c 9.3 x Verteilungsfunktionen von X. Sei ε > 0 beliebig aber fest, so gilt P [|Xn − X| > ε] = 1 − P [|Xn − X| à ε] P [|Xn − X| à ε] = P [c − ε à Xn à c + ε] á P [c − ε < Xn à c + ε] = Fn (c + ε) − Fn (c − ε) → 1. | {z } | {z } →F (c+ε) →F (c−ε) Somit konvergiert P [c − ε < Xn à c + ε] → 1, also P [|Xn − X| > ε] → 0. « 9.4 Satz Seien Xn , Yn , X reelle Zufallsvariablen auf (Ω, A, P ). Gilt D P Xn → X, |Xn − Yn | → 0, so folgt D Yn → X. Ï » Sei g : R → R stetig und beschränkt. Ohne Einschränkung können wir annehmen, dass g gleichmäßig stetig ist (siehe Satz 9.9). Außerdem gilt ohne Einschränkung |Xn − Yn | → 0 P -f.s. ansonsten gehen wir zu einer Teilfolge (nk ) über. Betrachte Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )]. da g gleichmäßig stetig und |Xn − Yn | → 0 P -f.s. gilt g(Yn ) − g(Xn ) → 0 P -f.s.. g(Yn ) − g(Xn ) à c, da g beschränkt, also können wir den Satz von der dominierten Konvergenz anwenden und erhalten E[g(Yn ) − g(Xn )] → 0. 140 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R Somit gilt Eg(Yn ) = Eg(Xn ) + E[g(Yn ) − g(Xn )] → Eg(X) P -f.s.. | {z } | {z } « →0 P -f.s. →Eg(X) P -f.s. 9.5 Spezialfall des Darstellungssatzes von Skorokhod Seien Xn , X reelle ZufallsvaD riablen mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ ) — wobei man Ω∗ = [0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen kann — und reelle Zufallsvariablen Xn∗ , X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass ∀ n ∈ N : PXn = PX∗n∗ , PX = PX∗∗ , Xn∗ → X ∗ P ∗ -f.s. Ï » Beweisidee. Wähle als Ansatz für Xn∗ , X ∗ die verallgemeinerte Inverse von Fn und F, Xn∗ (ω) Í inf {t ∈ R : Fn (t) á ω} , X ∗ (ω) Í inf {t ∈ R : F (t) á ω} . D Nach Annahme konvergiert Xn → X und daher Fn (x) → F (x) in den Stetigkeitspunkten von F . Zu zeigen ist nun Xn∗ (ω) → X ∗ (ω) in den Stetigkeitspunkten ω von X ∗ , also λ-f.ü.. Formaler Beweis. Wähle Ω∗ = (0, 1), A∗ = (0, 1) ∩ B und P ∗ = λA∗ . Seien Fn und F die Verteilungsfunktionen von Xn und X. Nun setzen wir Xn∗ (ω) Í inf {t ∈ R : Fn (t) á ω} , X ∗ (ω) Í inf {t ∈ R : F (t) á ω} , d.h. Xn∗ und X ∗ sind die verallgemeinerten Inversen von Fn bzw. F . Somit sind Xn∗ und X ∗ monotone Funktionen und damit insbesondere messbar. Wähle für die Verteilung von X ∗ , P ∗ [X ∗ à x] Í F (x) = P [X à x], so gilt PX∗∗ = PX , entsprechend für Xn und Xn∗ . Somit ist auch klar, dass X ∗ höchstens abzählbar viele Unsteigkeitsstellen hat. 6. November 2011 13:28 141 9-A 9 Zentrale Grenzwertsätze Es genügt nun zu zeigen Xn∗ → X ∗ für alle Stetigkeitspunkte ω von X ∗ . Sei ω Stetigkeitspunkt von X ∗ und ε > 0. Es existieren dann Stetigkeitspunkte x1 und x2 von F mit x1 < X ∗ (ω) < x2 und x2 − x1 < ε, (*) Hierbei gilt auch F (x1 ) < ω < F (x2 ), da ω Stetigkeitspunkt von X ∗ , sowie Fn (x1 ) → D F (x1 ) und Fn (x2 ) → F (x2 ), da x1 , x2 Stetigkeitspunkte von F und Xn → X. Also ∃ n0 ∈ N ∀ n á n0 : Fn (x1 ) < ω < Fn (x2 ) und damit auch ∀ n á n0 : x1 à Xn∗ (ω) à x2 , (**) wobei lediglich benötigt wird, dass ω Stetigkeitspunkt von X ∗ , nicht unbedingt von Xn∗ . Aus (*) und (**) folgt nun Xn∗ (ω) − X ∗ (ω) < ε. « D 9.6 Satz von der stetigen Abbildung Seien Xn , X reelle Zufallsvariablen mit Xn → X. Sei die Abbildung h : (R, B) → (R, B) D PX -f.ü. stetig. Dann gilt h(Xn ) → h(X). Ï » Sei D Í x ∈ R : h unstetig in x . Den Beweis D ∈ B überspringen wir. Nach Voraussetzung ist PX (D) = 0. Nach Satz 9.5 existieren ein W-Raum (Ω∗ , A∗ , P ∗ ) und Zufallsvariablen Xn∗ , X ∗ : (Ω∗ , A∗ , P ∗ ) → (R, B) mit Xn∗ → X ∗ P ∗ -f.ü. und PX∗n∗ = PXn , PX∗∗ = PX . Da h stetig, gilt h(Xn∗ (ω)) → h(X ∗ (ω)) für ω ∈ D c , aber P ∗ ( ω ∈ Ω∗ : X ∗ (ω) ∈ D ) = P ∗ [X ∗ ∈ D] = PX∗∗ (D) = PX (D) = 0, 142 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R D also gilt h(Xn∗ ) → h(X ∗ ) P ∗ f.s. Somit folgt nach Satz 9.1 h(Xn∗ ) → h(X ∗ ), also ∗ ∗ Ph(X ∗ → Ph(X ∗ ) n) schwach. ∗ ∗ ∗ Nun ist Ph(X ∗ = (P ∗ )h = (PXn )h = Ph(Xn ) , analog Ph(X ∗ ) = Ph(X ∗ ) . Somit Xn n) Ph(Xn ) → Ph(X) schwach. « Wie wir gesehen haben, vertauscht der Limes Operator der Verteilungskonvergenz im Allgemeinen nicht mit der Addition oder der Multiplikation. Für spezielle Zufallsvariablen erhalten wir jedoch Vertauschbarkeit. 9.7 Satz von Slutsky Seien Xn , Yn und X reelle Zufallsvariablen auf (Ω, A, P ) und c ∈ R. D Xn → X, P Yn → c, D Xn + Yn → X + c, ⇒ D Y X → cX. Ï n n » Sei c ∈ R und Zn Í Xn + (Yn − c), so gilt |Xn − Zn | = |Yn − c| = 0 f.s., P insbesondere |Xn − Zn | → 0. Somit ist 9.4 anwendbar und daher, D Xn + (Yn − c) = Zn → X. Nun wenden wir den Satz von der stetigen Abbildung an mit h : R → R, x , x + c, so gilt D Xn + Yn = h(Xn + (Yn − c)) → h(X) = X + c. « 9.8 Satz Für reellwertige Zufallsvariablen Xn , X mit Dichten fn bzw. f gilt: D fn → f λ-f.ü. ⇒ Xn → X. 6. November 2011 13:28 Ï 143 9-A 9 Zentrale Grenzwertsätze » Sei g ∈ Cb (R). Wähle c ∈ R, so dass g à c, so folgt g + c á 0. Da dPX = f dλ erhalten wir, Z Z Z g dPX = −c + (c + g) dPX = −c + (c + g)f dλ. R R R Nun ist f = lim fn = lim inf fn λ-f.ü. nach Vorraussetzung. Da f , fn Dichten und n→∞ n→∞ daher positiv, können wir das Lemma von Fatou anwenden und erhalten, Z Z Z gfn dλ g dPX à −c + lim inf (c + g)fn dλ = lim inf n→∞ n→∞ R R R Z Z à lim sup gfn dλ = − lim inf −gfn dλ n→∞ n→∞ R R Z Z = c − lim inf (c − g) fn dλ à c − lim inf(c − g)fn dλ n→∞ R | {z } R n→∞ = á0 Z R gf dλ. Es gilt also Z Z Z Z gfn dλ à lim sup gfn dλ à g dPX . g dPX à lim inf n→∞ R Somit existiert lim R n→∞ R lim n→∞ Z R R n→∞ R R gfn dλ und es gilt g dPXn = Z R g dPX . « D Um Xn → X nachzuweisen, müssen wir für jedes stetige beschränkte g nachwei- sen Eg(Xn ) → Eg(X). Der nächste Satz zeigt, dass es genügt, sich auf eine kleinere Menge von Funktionen zurückzuziehen. Definition Eine Funktion g : R → R heißt Lipschitz-stetig, falls eine Konstante L ∈ R existiert, so dass g(x) − g(y) à L x − y , 144 ∀ x, y ∈ R. Ï 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R Jede lipschitzstetige Funktion ist gleichmäßig stetig und jede gleichmäßig stetige Funktion ist stetig. Die Umkehrungen gelten im Allgemeinen nicht. Die gleichmäßig stetigen Funktionen auf R bilden eine echte Teilmenge der stetigen Funktionen. 9.9 Satz Für reellwertige Zufallsvariablen Xn , X gilt: D Xn → X a Ef (Xn ) → Ef (X) für alle beschränkten gleichmäßig stetigen Funktionen f : R → R. Ï » “⇒”: Klar, denn die Aussage gilt nach Voraussetzung für stetige beschränkte und somit insbesondere für gleichmäßig stetige beschränkte Funktionen. “⇐”: Sei f ∈ Cb (R). Zu zeigen ist Ef (Xn ) → Ef (X), da f lediglich stetig und beschränkt. Setzen wir α Í sup f (x) = f ∞ . x∈R Wir zeigen nun, dass für jedes i ∈ N eine Lipschitz-stetige Funktion gi : R → R existiert mit −α à gi à gi+1 à α, ∀ x ∈ R : gi (x) → f (x), i → ∞. (*) Haben wir die Existenz der gi gezeigt, so gilt für i ∈ N lim inf Ef (Xn ) á lim inf Egi (Xn ) = lim Egi (Xn ) = Egi (X), n n→∞ n→∞ (**) denn die gi sind gleichmäßig stetig und daher konvergiert der Erwartungswert nach Voraussetzung. Da die gi durch α beschränkt sind, ist gi (X) + α á 0 und es gilt lim E(gi (X) + α) i→∞ mon.konv = E(f (X) + α). Somit gilt auch lim E(gi (X)) = Ef (X). Zusammen mit (**) erhalten wir also i→∞ lim inf Ef (Xn ) á Ef (X). n→∞ Analog erhalten wir mit f ersetzt durch −f , lim sup Ef (Xn ) à Ef (X). n→∞ 6. November 2011 13:28 145 9-A 9 Zentrale Grenzwertsätze Insgesamt gilt also Ef (Xn ) → Ef (X) und die Behauptung ist gezeigt. Wir müssen also noch die Behauptung (*) nachweisen. Es genügt, eine Folge (hk )k∈N Lipschitz-stetiger Funktionen zu finden mit hk á −α und ∀ x ∈ R : sup hk (x) = f (x). k∈N Denn dann leistet gi mit gi (x) = max {h1 (x), . . . , hi (x)} das Gewünschte, denn das Maximum über endlich viele Lipschitz-stetige Funktionen ist wieder Lipschitzstetig. Wir können ohne Einschränkung davon ausgehen, dass f á 0, ansonsten ersetzen wir f durch f˜ = f + α á 0. Wähle A ∈ B und setze dA (x) = inf x − y : y ∈ A . dA ist der Hausdorffabstand des Punktes x von der Menge A. Sei r á 0 rational, m ∈ N und n o hm,r (x) = min r , (m · d{t:f (t)àr } (x)) , so sind die hm,r lipschitz, denn hm,r (x) − hm,r (y) à m d{t:f (t)àr } (x) − d{t:f (t)àr } (y) à m x − y , außerdem sind die hm,r beschränkt, denn hm,r à r , und hm,r (x) = 0 für x mit f (x) à r . Insbesondere 0 à hm,r (x) à f (x), ∀ x ∈ R. Wähle x ∈ R, ε > 0 beliebig aber fest. Wähle außerdem 0 à r ∈ Q so, dass f (x) − ε < r < f (x). Es gilt f (y) > r für alle y aus einer hinreichend kleinen Umgebung von x, da f stetig. Somit folgt d{t:f (t)àr } (x) > 0, also ist auch hm,r (x) = r 146 < f (x), > f (x) − ε, 6. November 2011 13:28 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in R f h2,r h1,r x 9.4 hm,r (x) für f (x) = x 2 , r = 1 und m = 1, 2. für m hinreichend groß. Die Menge hm,r : m ∈ N, 0 à r ∈ Q ist abzählbar. Sei {hk : k ∈ N} eine Abzählung dieser Menge. Nach Konstruktion gilt nun à f (x), sup hk (x) á f (x) − ε, k∈N also sup hk (x) = f (x), da ε > 0 beliebig. k∈N « 9.10 Satz von Lévy-Cramér; Stetigkeitssatz Seien Qn , Q W-Maße auf B mit charakte- ristischen Funktionen ϕn , ϕ : R → C. Dann gilt: Qn → Q schwach a ∀ u ∈ R : ϕn (u) → ϕ(u). Ï » “⇒”: Sei ϕn die charakteristische Funktion von Qn , also Z Z Z ϕn (u) = eiux dQ n (x) = cos(ux) dQ n (x) + i sin(ux) dQ n (x). R R R sin und cos sind beschränkte Funktionen also, Z Z Z ϕn (u) → cos(ux) dQ (x) + i sin(ux) dQ (x) = eiux dQ (x) R R R = ϕ(u). 6. November 2011 13:28 147 9-A 9 Zentrale Grenzwertsätze “⇐”: Seien Yn , Y0 , X unabhängige Zufallsvariablen auf (Ω, A, P ) mit Yn ∼ Qn , Y0 ∼ Q, X ∼ N(0, 1). Dann gilt für alle α > 0, PYn +αX = PYn ∗ PαX . Nach Übungsaufgabe 40 besitzt PYn +αX die Dichte gn,α (x) = 1 2π Z e−ux ϕn (u)e− (αu)2 2 du . Der Integrand besitzt eine integrierbare Majorante, denn 2 2 −ux − (αu) e à e−ux e− (αu) 2 2 , ϕ (u)e n also können wir den Satz von der dominierten Konvergenz anwenden und erhalten, ∀ x ∈ R : gn,α (x) → 1 2π Z R e−ux ϕ(u)e− (αx)2 2 du . Unter Verwendung des Satzes 9.8 erhalten wir D Yn + αX → Y0 + αX. (*) D Zum Nachweis von Yn → Y0 genügt es nach Satz 9.9 zu zeigen, dass für beliebige beschränkte gleichmäßig stetige Funktionen gilt f : R → R Z f (Yn ) dP → Z f (Y0 ) dP . Seien also f wie vorausgesetzt, ε > 0 und δ > 0, so dass f (y + x) − f (y) < ε , 6 ∀ x, y ∈ R mit |x| < δ. Wähle außerdem α > 0 mit P [|αX| á δ] à ε . 12 f ∞ Nach (*) existiert ein n0 so, dass Z ε ∀ n á n0 : f (Yn + αX) − f (Y0 + αX) dP < 3 . Ω 148 6. November 2011 13:28 Zentrale Grenzwertsätze Dann gilt für n á n0 , Z Z f (Yn ) − f (Yn + αX) dP f (Yn ) − f (Y0 ) dP à Ω |Ω {z } (1) Z + f (Yn + αX) − f (Y0 + αX) dP Ω | {z } (2) Z f (Y0 + αX) − f (Y0 ) dP . + Ω | {z } (3) (1): Wir nutzen die gleichmäßige Stetigkeit von f aus, Z Z f (Yn ) − f (Yn + αX) dP = f (Yn ) − f (Yn + αX) dP Ω |αX|áδ Z f (Yn ) − f (Yn + αX) dP + |αX|<δ (2) < (3) < ε 3 für n á n0 . ε 6 P [|αX| < δ] ε < 2 f ∞ P [|αX| á δ] + P [|αX| < δ] 6 ε ε ε + ·1= . à 2 f ∞ 12 f ∞ 6 3 + 2 f ∞ P [|αX| á δ] à 3ε . D Somit Ef (Yn ) → Ef (Y0 ), d.h. Yn → Y0 . « 9.2 Bemerkung. Die obigen Definitionen und Sätze lassen sich auf W-Maße auf Bk bzw. k-dim. Zufallsvektoren übertragen. Ç 9-B Zentrale Grenzwertsätze Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung im Sinne der schwachen Konvergenz werden als zentrale Grenzwertsätze bezeichnet. 9.11 Zentraler Grenzwertsatz von Lindeberg-Lévy im 1-dim. Fall Sei (Xn )n∈N eine un- abhängige Folge identisch verteilter quadratisch integrierbarer reeller Zufallsvariablen mit EX1 Î a, V(X1 ) Î σ 2 mit σ > 0. Dann √ n 1 X (Xk − a) nσ k=1 6. November 2011 13:28 D -→ N(0, 1)-verteilte reelle Zufallsvariable. Ï 149 9-B 9 Zentrale Grenzwertsätze » Ohne Einschränkung können wir a = 0 und σ = 1 annehmen (andernfalls ersetzen wir Xk durch n X Xk −a σ ). X1 habe die charakteristische Funktion ϕ, dann besitzt Xk k=1 nach Satz 6.4 die charakteristische Funktion ϕn . Somit hat n 1 X √ Xk n k=1 · die charakteristische Funktion ϕn ( √n ). Nach Satz 9.10 genügt es zu zeigen, ∀ x ∈ R : ϕn e− u2 2 u √ n → e− u2 2 . ist nach Bemerkung 6.4 die charakterisitsche Funktion einer N(0, 1)-Verteilung. Nach Satz 6.6 besitzt ϕ wegen EX12 < ∞ eine stetige 2. Ableitung und daher nach dem Satz von Taylor eine Darstellung ϕ(u) = ϕ(0) + uϕ0 (0) + = 1 + iuEX1 − u2 00 ϕ (0) + ρ(u) 2 u2 EX12 + ρ(u), 2 mit einem Restterm ρ(u) der Ordnung o(u2 ), d.h. lim u→0 ρ(u) = 0. u2 Nach Voraussetzung ist EX1 = a = 0 und EX1 (X1 − 1) = EX12 = VX1 = 1 und daher u2 + ρ(u). 2 ϕ(u) = 1 − Für u ∈ R beliebig aber fest gilt ϕ 2 u √ n = !n u2 u 1− = 1 − +ρ √ 2n n Nach Voraussetzung nρ 1 − 150 u2 2 + nρ n √u n √u n n u2 2 + nρ n √u n n → 0 für n → ∞, also → e− u2 2 . « 6. November 2011 13:28 Zentrale Grenzwertsätze Als unmittelbares Korollar erhalten wir. 9.2 Zentraler Grenzwertsatz von de Moivre und Laplace Für eine unabhängige Folge (Xn )n∈N identisch verteilter reeller Zufallsvariablen auf (Ω, A, P ) mit P [X1 = 1] = p, gilt für n → ∞ P [X1 = 0] = 1 − p Î q, " ∀α<β∈R:P α < (=) Pn (0 < p < 1) # Zβ Xk − np 1 2 <β → √ e−t /2 dt . √ npq (=) 2π α k=1 Ï Bsp 1 Volksabstimmung zu Vorschlägen A und B. Eine resolute Minderheit von 3.000 Personen stimmt für A. Weitere 1.000.000 Personen stimmen zufällig ab. Wie groß ist die Wahrscheinlichkeit, dass A angenommen wird? Bezeichne die “gleichgültigen” Wähler mit den Nummern k = 1, 2, 3, . . . , 1.000.000, 1, Wähler wählt A, Xk = 0, Wähler wählt B. Somit sind X1 , X2 , . . . unabhängig und b(1, 1/2)-verteilt. Seien n = 1.000.000, r = 3.000, so wird der Vorschlag A angenommen, wenn n X k=1 Xk + r > n − n X Xk , k=1 d.h. genau dann, wenn n X Xk > k=1 n−r = 498.500. 2 Die Wahrscheinlichkeit dafür ist gegeben durch, P n n n X Xk − 2 498.500 − 500.000 k=1 q P[ Xk > 498.500] = P > = −3 . 500 n 14 k=1 Korollar 9.2 besagt, dass P P n k=1 6. November 2011 13:28 Xk − q 1 n4 n 2 Pn k=1 q Xk − 1 n4 n 2 annähernd N(0, 1)-verteilt ist, d.h. P > −3 = 1 − P n k=1 q Xk − n 2 1 n4 ≈ 1 − Φ(−3) = 0.9986. à −3 151 9-B 9 Zentrale Grenzwertsätze Obwohl lediglich 3.000 Personen sicher für A stimmen, wird der Vorschlag mit einer Wahrscheinlichkeit von 99.86% angenommen. Dies ist auch der Grund dafür, dass Vorschläge, die den Großteil der Abstimmenden nicht interessieren, bereits von einer kleinen Gruppe von Entschlossenen durchgesetzt werden können. Normal- oder Poisson-Approximation? Seien Xn unabhängige b(1, p)-verteilte Zufallsvariablen. Nach dem Grenzwertsatz von de Moivre-Laplace gilt n X i=1 | D X −p p i ≈ N(0, 1)-verteilt für “große” n. np(1 − p) {z } (1) →N(0,1)−vert. ZV Andererseits gilt nach dem Grenzwertsatz von Poisson n X j=1 Xi ≈ π (npn ), falls n “groß” und pn “klein”, (2) | {z } D →π (λ) und npn → λ ∈ (0, ∞) (siehe Übungsaufgabe 45). Im Fall (1) sind die Summanden dem Betrag nach klein für großes n, während im Fall (2) nur die Wahrscheinlichkeit, pn = P [Xn = 1], klein ist, dass die Summanden nicht klein sind. Als Faustregel gilt (a) Normal-Approximation ist “gut”, falls np(1 − p) á 9. (b) Poisson-Approximation ist “gut”, falls n á 50 und p à 0.05. Im Allgemeinen können Poisson- und Normal-Approximation (für kleine n) nicht gleichzeitig angewendet werden. 9.3 Bemerkungen. a. Seien Xn unabhängige, identisch verteilte reelle Zufallsvaria- blen mit endlichen Varianzen und µ = EX1 , so gilt nach dem starken Gesetz der großen Zahlen, n 1 X 1 Sn Í Xi → µ, n n i=1 152 P -f.s. und L2 . 6. November 2011 13:28 Zentrale Grenzwertsätze Sei ε > 0. Wie groß ist nun n0 zu wählen, so dass 1 Sn − µ < ε, n n á n0 ? Mit Standardmethoden der Analysis lässt sich die Fragestellung umformulieren zu Sn ∃ α > 0 ∃ c ≠ 0 : lim nα − µ = c, n→∞ n P -f.s.? Ein solches α existiert nicht, da nach dem zentralgen Grenzwertsatz 1 n2 Für α < 1 2 Sn D − µ → N(0, V(X1 ))-verteilte Zufallsvariable. n liegt nach dem Satz von Slutsky Verteilungs-Konvergenz gegen Null vor, also auch nach Wahrscheinlichkeit. b. In der Praxis ist die Verteilungsfunktion F der Zufallsvariablen X meist unbekannt. Seien dazu X1 , . . . , Xn unabhängige Zufallsvariablen mit Verteilungsfunktion F . Schätze Fn durch F̂n (x) Í F̂n (x, ω) Í n 1 X 1[Xi (ω)àx] , n i=1 x ∈ R, wobei F̂n (x) die relative Anzahl derjenigen X1 , . . . , Xn bezeichnet mit Xi à x. F̂n heißt empirische Verteilungsfunktion zu X1 , . . . , Xn . Nach dem starken Gesetz der großen Zahlen von Kolmogorov gilt P -f.s. lim F̂n (x) = lim n→∞ n→∞ n 1 X 1[Xi àx] = EY1 (x) = E1[X1 àx] = P [X1 à x] n i=1 | {z } ÍYi (x) = F (x), also F̂n (x) → F (x) P -f.s. und L2 . Eine Verschärfung dieser Aussage liefert der Satz von Glivenko-Cantelli Seien Xn , X unabhängige und identisch verteilte Zufallsvariablen. Die empirische Verteilungsfunktion F̂n konvergiert P-f.s. gleichmäßig gegen F , d.h. ∀ ε > 0 ∃ n0 ∈ N ∀ x ∈ R, n á n0 : sup F̂n (x) − F (x) < ε f.s.. x∈R 6. November 2011 13:28 Ï 153 9-B 9 Zentrale Grenzwertsätze Dieser Satz wird in der mathematischen Statistik bewiesen und heißt auch Hauptsatz der Statistik. Nach dem zentralen Grenzwertsatz gilt n √ √ 1 X n F̂n (x) − F (x) = n 1[Xi àx] − E1[X1 àx] n i=1 Pn i=1 1[Xi àx] − E1[X1 àx] D √ = → N(0, σ 2 (x)) n wobei σ 2 (x) = V(1[X1 àx] ) = F (x)(1 − F (x)) und 1[X1 àx] eine b(1, F (x)) ver F (x)(1−F (x) teilte Zufallsvariable. Somit ist F̂n (x) − F (x) approximativ N 0, n verteilt. Da σ (x) à 1/4 für alle x ∈ R, gilt für ein vorgegebenes ε > 0 und eine N(0, 1)- verteilte Zufallsvariable Z, " s n P [|F̂n (x) − F (x)| à ε] ≈ P |Z| à F (x)(1 − F (x)) √ á P |Z| à 2 nε √ = 2Φ(2ε n) − 1 # Zahlenbeispiel ε = 0.1, n = 100, dann ist P [|F̂n (x) − F (x)| à ε] Û 0, 955 für jedes x und jede Verteilfungsfunktion F . c. Satz von Berry-Esseen Seien Xn unabhängige identisch verteilte Zufallsvariablen mit EX1 = µ, V(X1 ) = σ 2 und E |X1 |3 < ∞. Dann gilt " # Pn √ E |X1 |3 i=1 (Xi − µ) n sup P à x − Φ(x) à c 3 √ , nσ σ n x∈R mit c < 0.7975, wobei " √ P n Pn i=1 (Xi nσ − µ) àx # → Φ(x) = nach dem zentralen Grenzwertsatz. Ï 154 Zx −∞ 1 − t2 e 2 dt . 2π Ç 6. November 2011 13:28 Zentrale Grenzwertsätze 9.12 Zentraler Grenzwertsatz von Lindeberg Die Folge (Xn )n∈N quadratisch integrier- barer reeller Zufallsvariablen mit EX12 > 0, EXn = 0, sei unabhängig und erfülle — q P n 2 2 Í i=1 EXi2 , sn = sn mit sn — die klassische Lindeberg-Bedingung n 1 X E(Xi2 1[|Xi |>εsn ] ) → 0. 2 sn i=1 ∀ε>0: (LB) Dann n 1 X Xi sn i=1 D -→ N(0, 1)-verteilte Zufallsvariable. Ï Die Lindeberg-Bedingung stellt sicher, dass der Einfluss aller Zufallsvariablen ungefähr “gleich groß ist”. Salop kann man sagen, dass ein Zentraler Grenzwertsatz immer existiert, wenn man eine Größe betrachtet, die aus sehr vielen aber kleinen und nahezu unabhängigen Einflüssen besteht. In diesem Fall kann man stets vermuten, dass die Summe der Einflüsse normalverteilt ist. Als Beispiel sei der Kurs einer Aktien genannt, die sich im Streubesitzt befindet. Durch unabhängige Kauf- und Verkaufsaktionen haben die Aktienbesitzer nur einen geringen Einfluss auf den Kurs, in ihrer Gesamtheit führt dies aber zu normalverteilten Tages-Renditen. Befindet sich die Aktie dagegen im Besitz einiger weniger Großaktionäre, sind die Aktienkurse nicht mehr (log)normalverteilt. 9.4 Bemerkungen. a. In Satz 9.12 dient die Folge (sn ) zur Normierung. Die Lindeberg- Bedingung (LB) schränkt den Einfluss der einzelnen Zufallsvariablen ein. b. In Satz 9.12 — mit am Erwartungswert zentrierten Zufallsvariablen — impliziert die klassische Lindeberg-Bedingung (LB) die klassische Feller-Bedingung max i=1,...,n 1 EXi2 2 sn ! →0 und wird ihrerseits durch die klassische Ljapunov-Bedingung ∃δ>0: 1 2+δ sn n X i=1 E|Xi |2+δ → 0 impliziert. Bei nicht am Erwartungswert zentrierten Zufallsvariablen ist jeweils Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen. c. Satz 9.12 ⇒ Satz 9.11. Ç 6. November 2011 13:28 155 9-B 9 Zentrale Grenzwertsätze Satz 9.12 folgt aus 9.13 Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von ZVn Für jedes n ∈ N seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare reelle Zufallsvariablen mit mn → ∞ für n → ∞. Ferner seien m Xn EXn,i = 0, i=1 2 EXn,i =1 und die Lindeberg-Bedingung ∀ε>0: m Xn i=1 2 E Xn,i 1[|Xi |>ε] → 0. erfüllt. Dann m Xn i=1 D Xn,i → N(0, 1)-verteilte Zufallsvariable. Ï Bevor wir den Satz beweisen, betrachten wir folgendes Beispiel. Bsp 2 Seien Xn unabhängige, identisch verteilte, quadratisch integrierbare reelle Zufallsvariablen mit EX1 = 0, EX12 = 1, Sn Í n X Xi . i=1 Wir zeigen 3 n− 2 n X k=1 Sk → N(0, 1 )-verteilte Zufallsvariable. 3 Der zentrale Grenzwertsatz von Lindeberg 9.12 lässt sich so nicht anwenden, da beispielsweise die Unabhängikeit in Bezug auf die Sk verletzt ist. Es gilt jedoch, n n k n p p p 3 X 3 X X 3 X 3n− 2 Sk = 3n− 2 Xj = 3n− 2 k=1 k=1 j=1 j=1 n X Xj . k=j | {z } (n−j+1)Xj Die Vertauschbarkeit der Summen macht man sich schnell an der Skizze klar. 156 6. November 2011 13:28 Zentrale Grenzwertsätze j n b b b b b b b b b b b b b b b n k 9.5 Zur Vertauschbarkeit der Summen. Setzen wir nun Xn,j = √ 9.13 erfüllt, denn EXn,j = 0, m Xn 2 EXn,j = j=1 n X E j=1 →3 Z1 0 p 3 3n− 2 (n − j + 1)Xj , so sind die Voraussetzung von Satz 3 3n− 2 (n − j + 1)Xj 2 =3 n 1 X j−1 2 1− n j=1 n (1 − t)2 dt = 1. Außerdem ist (LB) erfüllt, da für ε > 0, 3 n X j=1 à En−3 (n − j + 1)2 Xj2 1 3 √ [ 3n− 2 (n−j+1)Xj >ε] n 3 X 1 E X21 √ → 0, n j=1 | 1 [ 3n{z− 2 |X1 |>ε]} →0 in Ω denn X12 1 1 √ [ 3n− 2 |X1 |>ε] à X12 und EX12 < ∞, also können wir den Satz von der do- minierten Konvergenz anwenden. Somit konvergieren die Erwartungswerte gegen Null und nach dem Satz von Stolz-Cesàro konvergiert daher auch das arithmetische Mittel gegen Null. Somit gilt n n X p 3 X D 3n− 2 Sk = Xn,j → N(0, 1) k=1 j=1 Zur Beweisvorbereitung benötigen wir noch einige Ergebnisse. 6. November 2011 13:28 157 9-B 9 Zentrale Grenzwertsätze Lemma Seien zi , ηi ∈ C mit |zi | , |ηi | < 1, so gilt, Y X n n Y n zi − |zi − ηi | . Ï ηi à i=1 i=1 i=1 » Der Beweis erfolgt durch Induktion. Der Induktionsanfang mit n = 1 ist klar. “n = 2”: z1 z2 − η1 η2 = z1 (z2 − η2 ) + η2 (z1 − η1 ), ⇒ |z1 z2 − η1 η2 | à |z2 + η2 | + |z1 + η1 | . Der Induktionsschritt erfolgt analog. « Aus der Analysis kennen wir die Taylor-Formel mit Integralrestglied Sei I ⊂ R ein Intervall und f : I → C mindestens (n + 1)-mal stetig differenzierbar, so gilt für a ∈ I f (x) = Z n X f (k) (0) 1 x (x − a)k + (x − t)n f (n+1) (t) dt . k! n! a k=0 Ï Als unmittelbare Konsequenz erhalten wir x2 Hilfsformel 1 eix − (1 + ix − 2 ) à min x 2 , x 3 . Ï » Nach dem Taylor-Formel gilt für a = 0 und m ∈ N, ix e Z m X 1 x m 1 k i (x − s)m eis ds . (ix) + = k! m! 0 k=0 Zx |x|2 is à m = 1 : eix − (1 + ix) = , ie (x − s) ds 2 0 3 x2 |x| m = 2 : eix − (1 + ix − ) à à |x|3 . 2 6 und folglich |x|2 x2 ix e − (1 + ix − ) à eix − (1 + ix) + à |x|2 . 2 2 Zusammenfassend also n o x2 ix e − (1 + ix − ) à min x 2 , x 3 . « 2 158 6. November 2011 13:28 Zentrale Grenzwertsätze 1 Hilfsformel 2 Für x á 0 gilt |e−x − (1 − x)| à 2 x 2 . Ï » |e−x − (1 − x)| à Rx 0 |e−s (x − s)| ds à Rx 0 |x − s| ds = 21 x 2 . « » Beweis von Satz 9.13 Wir zeigen zunächst, dass das Maximum der Varianzen von Xn,1 , . . . , Xn,nm gegen Null konvergiert. Sei also ε > 0 Z 2 2 max V(Xn,i ) = max Xn,i 1[|Xn,i |àε] + Xn,i 1[|Xn,i |>ε] dP i∈{1,...,mn } i∈{1,...,mn } à ε2 + Z m Xn | Ω i=1 Ω 2 Xn,i 1[|Xn,i |>ε] dP . {z →0 nach Vor. } Somit konvergiert das Maximum gegen Null, da ε beliebig. Pn Pn Seien nun Sn = i=1 Xi und Cn,i Í VXn,i , so gilt nach Annahme i=1 Cn,i = 1. Nach Satz 6.7 gilt für t ∈ R, Y X m n 2 2 2 Yn n −Cn,i t2 ϕS (t) − e− t2 = ϕX (t) − e−Cn,i t2 , (*) e ϕXn,i (t) − n à n,i i=1 i=1 i=1 nach dem obigen Lemma. Anwendung von Hilfsformel 1 und EXn,i = 0 ergibt, ! Z ! 2 t2 2 t = eitXn,i − 1 − itXn,i − Xn,i ϕn,i (t) − 1 − cn,i dP 2 Ω 2 Z n 2 3 o HF1 à min tXn,i , tXn,i dP Ω n oZ 2 à max 1, |t|3 Xn,i min 1, Xn,i dP , | {z } Ω α wobei Z 2 Xn,i min 1, Xn,i dP à Durch Summation erhalten wir, Z [|Xn,i |>ε] 2 Xn,i dP + Z 2 Xn,i Xn,i dP | {z } [|Xn,i |àε] àε 2 à E Xn,i 1[|Xn,i |>ε] + εCn,i . m ! m m Xn Xn Xn t2 2 ϕn,i (t) − 1 − Cn,i à α E Xn,i 1[Xn,i >ε] +ε Cn,i 2 i=1 i=1 i=1 | {z } | {z } →0, 6. November 2011 13:28 n→∞ (1) =1 159 9-B 9 Zentrale Grenzwertsätze Also konvergiert der gesamte Ausdruck gegen Null für n → ∞, da ε > 0 beliebig. Da Cn,i Varianz, ist Cn,i á 0. Wir können somit Hilfsformel 2 anwenden und erhalten, ! mn m Xn t2 t2 −Cn,i t22 HF2 t 2 X 2 e à Cn,i à max Cn,i Cn,i . − 1 − Cn,i 2 4 i=1 4 1àiàmn i=1 | {z } j=1 | {z } m Xn →0, n→∞ (2) =1 Wenden wir die Dreieckungsungleichugn sowie (1) und (2) auf (*) an, so folgt t2 ∀ t ∈ R : ϕSn (t) → e− 2 . « Multivariate zentrale Grenzwertsätze Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. E kXk < ∞, so heißt EX = (EX1 , . . . , EXd )> Erwartungsvektor von X. Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h. E kXk2 < ∞, so heißt Cov(X) Í (Cov(Xi , Xj ))i,j∈{1,...,d} Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen Cov(Xi , Xj ) Í E(Xi − EXi )(Xj − EXj ) der reellwertigen Zufallsvariablen Xi und Xj darstellen. Auf der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen der Xi . Insbesondere ist im eindimensionalen Fall gerade VX = Cov(X). Die Nebendiagonal- elemente können als Maß für die stochastische Abhängigkeit der Xi , Xj interpretiert werden. Sind alle Komponenten unabhängig, so ist die Kovarianzmatrix eine Diagonalmatrix. 9.2 Definition Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )> heißt multivariat normalverteilt (oder auch d-dimensional normalverteilt), falls für jedes u ∈ Rd die Pd Zufallsvariable hu, Xi = ut X = i=1 ui Xi eindimensional normalverteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine Dirac-Verteilung δa im Punkt a interpretiert wird. 160 Ï 6. November 2011 13:28 Zentrale Grenzwertsätze 9.3 Definition Seien Xn , X d-dimensionale Zufallsvektoren so konvergiert Xn → X nach Verteilung für n → ∞, wenn ∀ f ∈ Cb (Rn ) : Ef (Xn ) → Ef (X). D Schreibe Xn → X. Ï D 9.14 Satz (Cramér-Wold-Device) Für d-dimensionale Zufallsvektoren Xn und X gilt Xn → D X genau dann, wenn hu, Xn i → hu, Xi für alle u ∈ Rd . Ï » Der Beweis wird in den Übungen behandelt. « 9.15 Multivariater zentraler Grenzwertsatz Seien Xn,1 , . . . , Xn,mn unabhängige quadra- tisch integrierbare d-dimensionale Zufallsvariablen mit mn → ∞ für n → ∞. Des Weiteren gelte (a) ∀ n ∈ N ∀ i ∈ {1, . . . , mn } : EXn,i = 0, (b) ∀ n ∈ N : (c) ∀ ε > 0 : Dann m Xn i=1 » Sn Í P mn i=1 P mn i=1 Cov(Xn,i ) = C ∈ Rd×d , E kXk2n,i 1[kXi k>ε] → 0. D Xn,i → N(0, C)-verteilten Zufallsvektor. P mn i=1 Ï Xn,i . Wegen Satz 9.14 genügt es zu zeigen, D ∀ u ∈ Rd : hu, Sn i → N(0, hu, Cui). 1. Fall hu, Cui = 0. Dann ist V(hu, Sn i) = 0, also hu, Sn i = 0 P -f.s. 2. Fall hu, Cui > 0. Wende Satz 9.13 auf 1 u, Xn,i X̃n,i = p hu, Cui 6. November 2011 13:28 161 9-B 9 Zentrale Grenzwertsätze an, so erhalten wir für den Erwartungswert also 1 EX̃n,i = p u, EXn,i = 0, hu, Cui m Xn i=1 V(X̃n,i ) = m Xn 1 V( u, Xn,i ) = 1. hu, Cui i=1 | {z } hu,Cui Zum Nachweis der Lindebergbedingung betrachte m Xn i=1 m Xn 2 1 E u, Xn,i 1 √ 1 |hu,Xn,i i|>ε {z } hu, Cui i=1 | hu,Cui 2 àkuk2 kXn,i k m Xn 2 1 E kuk2 Xn,i 1 √ kuk à kXn,i k>ε hu, Cui i=1 hu,Cui 2 E X̃n,i 1[|X̃n,i |>ε] = à mn 2 kuk2 X √ E Xn,i 1 → 0, hu,Cui [kXn,i k> kuk ε] hu, Cui i=1 nach Voraussetzung für n → ∞. Damit sind alle Voraussetzungen von Satz 9.13 erfüllt. « 9.3 Korollar Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch inte- grierbarer Zufallsvektoren, so gilt mn 1 X D √ (Xi − EXi ) → N(0, Cov(X1 ))-verteilte ZV. n i=1 162 Ï 6. November 2011 13:28 10- 10 Bedingte Erwartungen Bedingte Erwartungen stellen den mathematischen Rahmen zur Untersuchung der Fragestellung, welchen Mittelwert eine Zufallsvariable Y annimmt unter der Voraussetzung, dass eine andere Zufallsvariable X den Wert x annimmt, E(Y | X = c). Als Beispiel sei die Suche des mittleren Körpergewichts einer gegebenen Bevölkerungsschicht, unter Vorraussetzung einer gewissen Körpergröße, genannt. Erinnern wir uns zurück an die Definition des Erwartungswerts, so können wir diesen als Verallgemeinerung des Begriffes der Wahrscheinlichkeit für das Eintreten eines Ereignisses interpretieren. Allgemeiner gilt P (A | X = x) = E(1A | X = x). Als Beispiel sei das Ereignis A, die Straße ist glatt, unter der Voraussetzung, dass die Lufttemperatur X den Wert x annimmt. Unsere bisherige Definition von P (A | X = x) schließt den Fall P [X = x] = 0 nicht mit ein. Wir werden dieses Manko durch die Definition einer allgemeinen “bedingten Erwartung” beheben. 6. November 2011 13:28 163 10 Bedingte Erwartungen 10-A Grundlagen Wie immer sei (Ω, A, P ) ein W-Raum. Erinnern wir uns zunächst an die Definition der Messbarkeit einer Abbildung. f ist C-B-messbar a f −1 (B) ⊆ C. Eine reellwertige Funktion ist eine Zufallsvariable, falls sie A − B messbar ist. Bedingte Erwartungen sind spezielle Zufallsvariablen, bei denen die Messbarkeitsforderung noch verschärft wird. Zum Beweis des folgenden Satzes benötigen wir den Satz von Radon-Nikodym (siehe Anhang), der ein Verhältnis zwischen zwei Maßen µ und ν herstellt. 10.1 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂ A σ -Algebra. Dann existiert eine Zufallsvariable Z : (Ω, A, P ) → (R, B) mit folgenden Eigenschaften: (a) Z ist integrierbar und C-B-messbar, (b) ∀ C ∈ C : R C X dP = R C Z dP . Ï » Ohne Einschränkung sei X á 0, ansonsten zerlegen wir X in X+ und X− . Sei ϕ : C → R definiert durch Z ϕ(C) Í X dP , C ∈ C, C so ist ϕ aufgrund der Integrierbarkeit von X wohldefiniert und ein Maß. Außerdem ist ϕ ein P -stetiges endliches Maß auf C. C Somit sind alle Voraussetzungen des Satzes von Radon-Nikodyn erfüllt und es folgt die Existenz einer bis auf die Äquivalenz “= P C -f.ü.” eindeutige, C − B- messbare Funktion Z : Ω → R+ . Weiterhin ist Z P C -integrierbar, wobei ∀ C ∈ C : ϕ(C) = Z C Z dP C = Z C Z dP . « Z ist auch A − B-messbar und bezüglich P integrierbar. 164 « 6. November 2011 13:28 Grundlagen Die Aussage des Satzes mag zunächst unscheinbar sein. Es ist jedoch zu beachten, dass die Zufallsvariable Z tatsächlich so konstruiert werden kann, dass sie C-B-messbar ist. Da man C als echte Teilmenge von A wählen kann, ist dies überhaupt nicht offensichtlich Z ist eindeutig bis auf die Äquivalenz “ P C -f.ü.’ 10.1 Definition Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und C ⊂ A σ - Algebra. Die Äquivalenzklasse (im oberen Sinne) der Zufallsvariablen Z: (Ω, A, P ) → (R, B) mit (a) und (b) — oder auch ein Repräsentant dieser Äquivalenzklasse — heißt bedingte Erwartung von X bei gegebenem C. Man bezeichnet Z mit E(X | C). Häufig wird ein Repräsentant dieser Äquivalenzklasse als eine Version von E(X | C) bezeichnet. Ï Die bedingte Erwartung E(X | C) stellt im Allgemeinen also keine reelle Zahl sondern eine Zufallsvariable dar! E(X | C) kann man als eine “Vergröberung” von X betrachten, da C gröber als A und Z daher weniger Möglichkeiten der Variation als X besitzt. (Siehe Abbildung 11.2) Bemerkungen. a. Zur Eindeutigkeit von Satz 10.1 betrachte zwei Zufallsvariablen Z1 und Z2 , so gilt Z ∀ C ∈ C : (Z1 − Z2 ) dP = 0 ⇒ Z1 = Z2 P C -f.ü. C b. E(X | C) = dϕ dP C , wobei ϕ(C) = R C X dP für C ∈ C. Ç Bsp 1 a.) Sei C = A, so gilt E(X | C) = X f.s. b.) Sei C = {, Ω} so gilt E(X | C) = EX, denn Z Z Z Z X dP = EX dP , X dP = EX dP . Ω Ω } | {z } | ∅ {z =0 =0 c.) Sei C = {, B, B c , Ω} für festes B mit 0 < P (B) < 1. So gilt R 1 P (B) B X dP Î E(X | B), ω ∈ B (E(X | C))(ω) = 1 R X dP , ω ∈ Bc . P (B c ) B c E(X | B) heißt bedingter Erwartungswert von X unter der Hypothese B. 6. November 2011 13:28 165 10-A 10 Bedingte Erwartungen 4 X Z 3 2 1 1 4 10.1 Ω = [0, 1], A = σ 1 2 3 4 ω 1 n o n o [0, 41 ), [ 14 , 12 ), [ 12 , 34 ), [ 34 , 1] , C = σ [0, 12 ), [ 21 , 1] ⊊ A. » Scharfes Hinsehen liefert, dass die rechte Seite nach obiger Definition C − Bmessbar ist. Weiterhin gilt Z Z “rechte Seite" dP = 0 = X dP , ∅ ∅ R Z Z Z 1 dP “rechte Seite" dP = B X dP = X dP , P (B) B B B R Z Z Z c 1 dP X dP = X dP , “rechte Seite" dP = B c c P (B ) B c Bc ZB Z Z “rechte Seite" dP = “rechte Seite" dP + “rechte Seite" dP c Ω ZB Z ZB = X dP + X dP = X dP . « Bc B Ω 10.2 Satz Seien X, Xi integrierbar, C ⊂ A σ -Algebra und c, α1,2 ∈ R. a) ∀ C ∈ C : R C E(X | C) dP = R C X dP . b) X = c P-f.s. ⇒ E(X | C) = c f.s. c) X ≥ 0 P-f.s. ⇒ E(X | C) ≥ 0 f.s. d) E(α1 X1 + α2 X2 | C) = α1 E(X1 | C) + α2 E(X2 | C) f.s. e) X1 ≤ X2 P-f.s. ⇒ E(X1 | C) ≤ E(X2 | C) f.s. 166 6. November 2011 13:28 Grundlagen f) X C-B-messbar ⇒ X = E(X | C) f.s. g) X integrierbar, Y C-B-messbar, XY integrierbar ⇒ E(XY | C) = Y E(X | C) f.s. g’) X, X 0 integrierbar, XE(X 0 | C) integrierbar ⇒ E(XE(X 0 | C) | C) = E(X | C)E(X 0 | C) f.s. h) σ -Algebra C1,2 mit C1 ⊂ C2 ⊂ A, X integrierbar E(E(X | C1 ) | C2 ) = E(X | C1 ) f.s. E(E(X | C2 ) | C1 ) = E(X | C1 ) f.s. Hier bedeutet f.s., Rest C2 P-f.s. bzw. Rest C1 P-f.s. » Ï a) Folgt sofort aus der Definition der bedingten Erwartung. b) Klar, denn Glättung einer Konstanten ergibt die Konstante selbst. c) Für eine C − B-messbare Funktion Z mit ∀ C ∈ C : P - f.s. C R C Z dP á 0 folgt Z á 0 d) Folgt direkt aus der Linearität des Intergrals. e) Folgt direkt aus der Monotonie des Integrals, denn für C − B-messbare Zufallsvariablen Z1,2 mit ∀C∈C: Z C Z1 dP à Z C Z2 dP gilt auch Z1 à Z2 P C - f.s. f) Klar. g) Es folgt sofort, dass XY und Y E(X | C) C − B-messbar. Es verbleibt zu zeigen, dass ∀C∈C: 6. November 2011 13:28 Z C Y E(X | C) dP = Z C XY dP . 167 10-A 10 Bedingte Erwartungen Ohne Einschränkung ist X á 0, ansonsten gehen wir zu X+ und X− über. Sei C ∈ C so gilt Z Z Y E(X | C) dP = Y E(X | C) dP C , C C wobei E(X | C) = dϕ dP C mit ϕ(C) = R C X dP für C ∈ C, so dass nach dem Zusatz zum Satz von Radon-Nikodym, Z Z Z Y E(X | C) dP C = Y dϕ = Y dϕ∗ , C C ∗ mit ϕ (A) = R A C X dP für A ∈ A (also ϕ = ϕ∗ C ). Somit ist ϕ∗ ein endliches Maß auf A. Erneute Anwendung des Zusatzes zum Satz von Radon-Nikodym ergibt, Z C Nun ist Z Y dϕ∗ = dϕ∗ dP C Y Z C Y dϕ∗ dP . dP = X P -f.s. und daher dϕ∗ dP = dP Z C Y X dP . g’) Folgt sofort aus g), wenn wir Y = E(X | C) setzen. h) (α) Aus g) folgt direkt, dass E(E(X | C1 ) | C2 ) = E(X | C1 ) E(1 | C2 ), | {z } 1 da E(X | C1 ) C1 − B-messbar. (β) Die zweite Gleichung ist plausibel, da die Vergröberung von X über C2 zur noch kleineren σ -Algebra C1 dasselbe liefert, wie die unmittelbare Vergröberung über C1 . Seien also Z Í E(X | C1 ) und Y Í E(X | C2 ). Es ist zu zeigen, dass Z = E(Y | C1 ). Zunächst ist nach Definition Z auch C1 − B-messbar. Weiterhin sei C ∈ C1 ⊆ C2 , so gilt per definitionem, Z Z Z Z Z dP = X dP , Y dP = X dP , C C ZC ZC ⇒ Y dP = Z dP . « C 168 C 6. November 2011 13:28 Grundlagen 10.2 Definition Sei C ⊂ A σ -Algebra und A ∈ A. P (A | C) Í E(1A | C) heißt bedingte Wahrscheinlichkeit von A bei gegebenem C. Ï Setzen wir C = {∅, Ω}, so ist E(1A | C) = E1A = P (A) (vgl. Bsp 1). Nach Definition 10.2 gilt dann E(1A | C) = P (A | C). 10.1 Bemerkung zu Definition 10.2. ∀C∈C: Z C P (A | C) dP = P (A ∩ C). » Sei C ∈ C, so gilt Z C P (A | C) dP = Z C E(1A | C) dP = Z C Ç 1A dP = Z Ω 1A 1C dP = P (A ∩ C). « Bsp 2 Sei C = {, B, B c , Ω} mit 0 < P (B) < 1. Sei A ∈ A, so gilt denn P (A∩B) Î P (A | B), ω∈B P (B) (P (A | C))(ω) = P (A∩B c ) c c P (B c ) Î P (A | B ), ω ∈ B , (P (A | C))(ω) vgl. Bsp 1 E(1A | C)(ω) 1 R P (A∩B) ω ∈ B, P (B) B 1A dP = P (B) = P (A | B), = R c) 1 P (A∩B c c B c 1A dP = P (B ) P (B c ) = P (A | B ), ω ∉ B. = 1.) Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsva- 10.3 Definition riablen und X integrierbar. E(X | Y ) Í E(X | Y −1 (A0 )) heißt bedingte Erwartung von X bei gegebenem Y . Y −1 (A) bezeichnet hier die kleinste σ -Algebra in Ω, bzgl. der Y messbar ist. 6. November 2011 13:28 169 10-A 10 Bedingte Erwartungen 2.) Seien X : (Ω, A, P ) → (R, B), Yi : (Ω, A, P ) → (Ωi0 , A0i ) für i ∈ I Zufallsvariablen und X integrierbar. C ⊂ A sei die kleinste σ -Algebra in Ω, bzgl. der alle Yi messbar sind, d.h. S −1 C=F i∈I Yi (Ai ) . So heißt E(X | (Yi )i∈I ) Í E(X | C) bedingte Erwartung von X bei gegebenen Yi , i ∈ I. 3.) Sei A ∈ A und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. P (A | Y ) Í E(1A | Y ) heißt bedingte Wahrscheinlichkeit von A bei gegebenem Y . Ï 10.2 Bemerkungen. Sei X : (Ω, A, P ) → (R, B) eine integrierbare Zufallsvariable. a. Sei C σ -Algebra in A. Dann gilt (X −1 (B), C) unabhängig ⇒ E(X | C) = EX f.s. b. Sei Y : (Ω, A, P ) → (Ω0 , A0 ) eine Zufallsvariable. Dann gilt (X, Y ) unabhängig ⇒ E(X | Y ) = EX f.s. Ç » a. Zu zeigen ist, dass ∀C∈C: Z C EX dP = Z C X dP . Schreiben wir Z Z EX dP = (EX) 1C dP = (EX)(P (C)), C Ω sowie Z C X dP = Z Ω 1C X dP = E(1C X) = E(1C )EX, mit Hilfe der Unabhängigkeit, so ist die Gleichheit offensichtlich. b. Folgt direkt mit a). 170 « 6. November 2011 13:28 Grundlagen 10.3 Satz Seien X : (Ω, A, P ) → (R, B), Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariablen. Dann existiert eine Abbildung g : (Ω0 , A0 ) → (R, B), mit E(X | Y ) = g ◦ Y . g ist die sog. Faktorisierung der bedingten Erwartung. g ist eindeutig bis auf die Äquivalenz “= PY -f.ü. ”. Ç » Sei Z Í E(X | Y ), dann Z : (Ω, F (Y )) → (R, B). a) Existenz 1. Schritt. Rückführung auf Indikatorfunktionen. Sei Z = 1A für ein A ∈ F (Y ) = Y −1 (A0 ), also existiert ein A0 ∈ A0 , so dass Y −1 (A0 ) = A. 1A0 (Y (ω)) = 1, Y (ω) ∈ A0 , d.h. ω ∈ A, = 1A (ω). 0, sonst Also ist Z = g ◦ Y mit g = 1A0 . 2. Schritt. Z sei nichtnegativ und einfach. Dann folgt die Existenz von g mit Z = g ◦ Y direkt aus dem 1. Schritt. 3. Schritt. Z sei nichtnegativ und C − B-messbar. Dann existiert einer Folge von einfachen Zufallsvariablen Zn mit Zn ↑ Z. Nach dem 2. Schritt existieren gn : (Ω0 , A0 ) → (R, B0 ) mit Zn = gn ◦ Y . Setzen wir g ∗ Í sup gn , n∈N so ist g ∗ messbar und setzten wir weiterhin g = g ∗ 1[g ∗ <∞] , so ist g reellwertig. Da Z = supn∈N Zn , gilt auch P -f.s. Z = g ◦ Y. 4. Schritt. Sei Z messbar, so besitzt Z eine Darstellung Z = Z+ − Z− , mit Z+ , Z− positiv und messbar. Nach dem 3. Schritt existieren Abbildungen g+ , g− mit Z+ = g+ ◦ Y und Z− = g− ◦ Y . g Í g+ − g− ist die gesuchte Abbildung. 6. November 2011 13:28 171 10-A 10 Bedingte Erwartungen b) Eindeutigkeit. Es gelte E(X | Y ) = g1 ◦ Y f.s. = g2 ◦ Y f.s. und somit Z Z Z ∀ C ∈ F (Y ) : g1 ◦ Y dP = X dP = g2 ◦ Y dP . C C Z C Z ⇒ ∀ C 0 ∈ A0 : g1 ◦ Y dP = g2 ◦ Y dP . Y −1 (C 0 ) Y −1 (C 0 ) Nach dem Transformationssatz gilt somit Z Z ∀ C 0 ∈ A0 : g1 dPY = g2 dPY , C0 C0 d.h. gerade ∀ C 0 ∈ A0 : Z C0 (g1 − g2 ) dPY = 0 und daher g1 = g2 PY -f.ü. « 10.4 Definition Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A eine integrierbare Zufallsva- riable und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Sei g bzw. gA eine — bis auf Äquivalenz “= PY - f.ü.” eindeutig bestimmte — Faktorisierung von E(X|Y ) bzw. von P (A | Y ). E(X | Y = y) Í g(y) heißt bedingte Erwartung von X unter der Hypothese Y = y. P (A | Y = y) Í gA (y) heißt bedingte Wahrscheinlichkeit von A unter der Hypoththese. Y = y E(X | Y = ·) = g, P (A | Y = ·) = gA . Ï 10.4 Satz Sei X : (Ω, A, P ) → (R, B) bzw. A ∈ A integrierbare Zufallsvariable und Y : (Ω, A, P ) → (Ω0 , A0 ) Zufallsvariable. Dann gelten a) ∀ A0 ∈ A0 : insbesondere b) ∀ A0 ∈ A0 : insbesondere 172 R A0 R R E(X | Y = y) dPY (y) = Ω0 A0 R R Y −1 (A0 ) X dP , E(X | Y = y) dPY (y) = EX. P (A | Y = y) dPY (y) = P (Y −1 (A0 ) ∩ A). Ω0 P (A | Y = y) dPY (y) = P (A). Ï 6. November 2011 13:28 Grundlagen R In vielen Anwendungen ist es tatsächlicher einfacher, die bedingte Erwartung Ω0 » E(X | Y = y) dPY (y) anstelle des Erwartungswerts EY zu berechnen. a) Sei g eine Faktorisierung von E(X | Y ) (deren Existenz sichert Satz 10.3) und A0 ∈ A0 . So gilt Z Z Z Satz 10.3 X dP = E(X | Y ) dP = g ◦ Y dP Y −1 (A0 ) Y −1 (A0 ) Y −1 (A0 ) Z Z Def 10.4 = g(y) dPY (y) = E(X | Y = y) dPY (y). A0 A0 b) Folgt direkt aus dem Vorangegangenen mit X = 1A . « Bsp 3 Seien X bzw. A sowie Y wie zuvor. Sei y ∈ Ω0 wobei y y] = PY ( y ) > 0. ∈ A0 und P [Y = a.) E(X | Y = y) = E(X | [Y = y]). | {z } | {z } s. Bsp 1 s. Definition 10.4 0 » Sei also y ∈ Ω fest mit y ∈ A0 und PY ( y ) > 0. Nach Satz 10.4 ist E(X | Y = y) eindeutig, denn für zwei Faktorisierungen g1 und g2 von E(X | Y ) stimmen g1 und g2 bis auf eine Menge vom PY -Maß Null überein, aber PY ( y ) > 0, also g1 (y) = g2 (y). Sei also g eine Faktorisierung von E(X | Y ), so ist E(X | Y ) = g(y) unabhängig von der Wahl von g. Nach Satz 10.4 gilt Z Z g(y 0 ) dPY (y 0 ) = X dP , [Y =y] {y } Z 1 X dP . « ⇒g(y) = P [Y = y] [Y =y] b.) P (A | Y = y) = P (A | [Y = y]). | {z } | {z } s. Definition 10.4 s. Bsp 2 10.5 Satz Sei X : (Ω, A, P ) → (R, B) integrierbare Zufallsvariable und Y : (Ω, A) → (Ω0 , A0 ) Zufallsvariable. a) X = cf.s. ⇒ E(X | Y = ·) = c PY -f.ü.. b) X ≥ 0 f.s. ⇒ E(X | Y = ·) ≥ 0 PY -f.ü.. c) E(αX1 + βX2 | Y = ·) = αE(X1 | Y = ·) + βE(X2 | Y = ·) PY -f.ü.. 6. November 2011 13:28 173 10-A 10 Bedingte Erwartungen d) X1 ≤ X2 f.s. ⇒ E(X1 | Y = ·) ≤ E(X2 | Y = ·) PY -f.ü.. Ï » Diese Eigenschaften ergeben sich sofort aus Satz 10.2 und Satz 10.3. « 10.6 Satz Seien C ⊂ A eine Sub-σ -Algebra und X, Xn integrierbare Zufallsvariablen. Dann gilt: a) Ist 0 à Xn ↑ X f.s., so folgt E(Xn | C) → E(X | C) f.s. (Satz von der monotonen Konvergenz für bedingte Erwartungen). b) Ist Xn → X f.s., |Xn | à Y f.s. und Y eine integrierbare Zufallsvariable, so folgt E(Xn | C) → E(X | C) f.s. (Satz von der dominierten Konvergenz für bedingte Erwartungen). Ï » a) Sei 0 à Xn ↑ X f.s., so folgt mit dem klassischen Satz von der monotonen Konvergenz, dass E |Xn − X| = EXn − EX → 0. Außerdem folgt aus der Dreiecksungleichung oder aus Satz 10.7, E(E(|Xn − X| | C)) á E(|E((Xn − X) | C)|) = E(|E(Xn | C) − E(X | C)|), L1 wobei die linke Seite gegen Null konvergiert, also E(Xn | C) → E(X | C). Nun existiert eine Teilfolge, so dass E(Xnk | C) → E(X | C) f.s. und da Xnk ↑ X f.s. ist auch die Konvergenz von (E(Xnk | C)) monoton und da (E(Xn | C)) monoton folgt E(Xn | C) ↑ E(X | C). b) Sei Xn → X f.s. Setzen wir Zn Í sup |Xk − X|, so ist klar, dass Zn ↓ 0 P -f.s. und es gilt kán |E(Xn | C) − E(X | C)| à E(|Xn − X| | C) à E(Zn | C), 174 6. November 2011 13:28 Grundlagen aufgrund der Monotonie der bedingten Erwartung. Es genügt nun zu zeigen, dass E(Zn | C) ↓ 0 P -f.s. Da Zn ↓ 0 P -f.s., konvergiert auch E(Zn | C) P -f.s. punktweise gegen eine nicht- negative Zufallsvariable. Sei also U Í lim E(Zn | C). Nun gilt n→∞ 0 à Zn à sup |Xn | + |X| à 2Y . n∈N Wir können schreiben E(U ) = E(E(U | C)) à E(E(Zn | C)) = E(Zn ) → 0, nach dem klassischen Satz von der dominierten Konvergenz, denn die Zn konvergieren f.s. und werden durch eine integrierbare Zufallsvariable majorisiert. Somit ist U = 0 f.s. « 10.7 Jensen’sche Ungleichung Sei C ⊂ A eine Sub-σ -Algebra, I ⊂ R ein Intervall, f : I → R eine konvexe Funktion und X : Ω → I eine integrierbare Zufallsvariable. Dann ist E(X | C) ∈ I fast sicher. Ist f (X) integrierbar, so gilt f (E(X | C)) à E(f (X) | C) f.s. Ï » Falls a à X bzw. X à b, so ist a à E(X | C) bzw. E(X | C) à b und daher E(X | C) ∈ I. Eine konvexe Funktion f : I → R besitzt eine Darstellung als f (x) = sup v(x), v∈V V Í v : I → R : v(t) = a + bt à f (t), t∈I . Somit gilt aufgrund der Linearität f (E(X | C)) = sup v(E(X | C)) = sup(E(v(X) | C)). v∈V v∈V Nun ist sup v(X) à f (X) und somit, v∈V sup(E(v(X) | C)) à E(f (X) | C). v∈V 6. November 2011 13:28 « 175 10-A 11- 11 Martingale Ziel dieses Kapitels ist es, Kriterien für ein starkes Gesetz der großen Zahlen auch für abhängige Zufallsvariablen zu finden. Dazu untersuchen wir zunächst spezielle Folgen von Zufallsvariablen, die Martingale, für die sehr angenehme Konvergenzsätze existieren, auch wenn die Zufallsvariablen der Folge abhängig sind. Martingale spielen eine große Rolle in der Spieltheorie, in der Finanzmathematik und in der stochastischen Analysis. Für alles Weitere sei (Ω, A, P ) ein W-Raum, n ∈ N und sofern nicht anders ange- geben, mit “→” die Konvergenz für n → ∞ bezeichnet. 11.1 Definition Eine Folge (Xn ) integrierbarer Zufallsvariablen Xn : (Ω, A, P ) → (R, B) heißt bei gegebener monoton wachsender Folge (An ) von σ -Algebren An ⊂ A mit An -B-Messbarkeit von Xn a) ein Martingal bzgl. (An ), wenn E(Xn+1 | An ) = Xn f.s., n á 1, b) ein Submartingal bzgl. (An ), wenn E(Xn+1 | An ) ≥ Xn f.s., n á 1, c) ein Supermartingal bzgl. (An ), wenn (−Xn ) ein Submartingal bzgl. (An ) ist. Ï Eine Folge von Zufallsvariablen ist nicht per se ein Martingal sondern immer nur in Bezug auf eine Folge von σ -Algebren. Ein wichtiger Spezialfall ist An = F (X1 , . . . , Xn ) und sofern nicht anders angegeben, gehen wir immer von dieser Wahl von An aus. 11.1 Bemerkung. Ein Martingal (Xn ) bezüglich (An ) ist stets auch ein Martingal be- züglich (F (X1 , . . . , Xn )). Denn nach Voraussetzung ist jedes Xn An -B-messbar, so 6. November 2011 13:28 177 11 Martingale dass Xn−1 (B) = F (Xn ) ⊂ An . Aus der Monotonie von An folgt dass F (X1 , . . . , Xn ) ⊂ An und somit E(Xn+1 | X1 , . . . , Xn ) = E(E(Xn+1 | An ) | F (X1 , . . . , Xn )) | {z } áXn á E(Xn | F (X1 , . . . , Xn )) = Xn . Entsprechend für Sub-, Supermartingal. Ç 11.1 Satz Sei (Vn ) eine Folge von Zufallsvariablen Vn : (Ω, A, P ) → (R, B). Die Partial- summenfolge Sn = Pn j=1 Vj ist genau dann ein Martingal bzw. Submartingal bzgl. (F (V1 , V1 + V2 , . . . , V1 + . . . + Vn )) = (F (V1 , . . . , Vn )), wenn für jedes n gilt a) Vn ist integrierbar, und b) E(Vn+1 | V1 , . . . , Vn ) = 0 bzw. ≥ 0 f.s. Ï » Die Integrierbarkeit sichert die Existenz der bedingten Erwartungen. Weiterhin gilt für jedes n á 0 n+1 X E j=1 X n Vj | Fn = E Vn+1 | Fn + Vj , j=1 nach Satz 10.2, denn Vj ist Fn -messbar für ist ist die Partialsummen j à n. Somit folge genau dann ein Martingal, wenn E Vn+1 | Fn = 0, bzw. ein Submartingal, wenn á 0. « 11.2 Definition Ein Spiel mit zufälligen Gewinnständen X1 , X2 , . . . nach dem 1., 2., . . . Schritt heißt fair, wenn EX1 = 0 und (Xn ) ein Martingal ist, d.h. für jedes n gilt EXn = 0 und E(Xn+1 | X1 = x1 , . . . , Xn = xn ) = xn für P(X1 ,...,Xn ) -f.a. (x1 , . . . , xn ). Ï 11.2 Satz Seien die Vn : (Ω, A, P ) → (R, B) quadratisch integrierbare Zufallsvariablen und die Partialsummenfolge Sn = se unkorreliert, d.h. E(Vi Vj ) = 0, 178 i ≠ j. Pn j=1 Vj ein Martingal. Dann sind die Vn paarwei- Ï 6. November 2011 13:28 11- » Da Vi und Vj quadratisch integrierbar sind, folgt mit der Cauchy-Schwartz-Ungleichung, dass (E(Vj Vi ))2 à (EVj2 )(EVi2 ) < ∞. Also ist Vj Vi integrierbar. Falls i < j, so ist Vi Fj -messbar und wir erhalten 10.2 E(Vj Vi ) = E(E(Vj Vi | Vi )) = E(Vi E(Vj | Vi )) = E(E(Vj | V1 , . . . , Vj−1 ) | Vi ). | {z } « =0 f.s. nach 11.1 Pn Bsp 1 Ein Beispiel für ein Martingal ist die Partialsummenfolge ( i=1 Vj )n zu ei- ner unabhängigen Folge (Vn ) von integrierbaren reellen Zufallsvariablen mit Erwartungswerten 0. » Nach Satz 11.1 genügt es zu zeigen, dass E(Vn+1 | V1 , . . . , Vn ) = 0 f.s. da (F (Vn+1 ), F (V1 , . . . , Vn )) ein unabhängiges Paar von σ -Algebren ist, gilt nach Bemerkung 10.2, E(Vn+1 | V1 , . . . , Vn ) = EVn+1 = 0. « 11.3 (Sub-/Super-)Martingalkonvergenztheorem von Doob Sei (Xn ) ein Sub-, Super- oder Martingal mit lim sup E|Xn | < ∞. Dann existiert eine integrierbare reelle Zufallsvan→∞ riable X, so dass Xn → X P -f.s. Ï Zur Beweisvorbereitung benötigen wir noch Definition 11.3 und 11.4, sowie Satz 11.4 und 11.5. 11.3 Definition Sei (An ) eine monoton wachsende Folge von σ -Algebren An ⊂ A. Eine Zufallsvariable T : (Ω, A, P ) → (N, P(N)), N Í N ∪ {∞} heißt Stoppzeit bzgl. (An ), wenn ∀ k ∈ N : [T = k] ∈ Ak . Hierbei heißt T Stoppzeit im engeren Sinne, falls P [T < ∞] = 1 (“Kein Vorgriff auf die Zukunft”). Wichtiger Spezialfall: An = F (X1 , . . . , Xn ) mit Zufallsvariablen Xn . Ï 6. November 2011 13:28 179 11 Martingale Man kann (Xn ) als Folge der Gewinnstände in einem Spiel interpretieren. Ein Spieler ohne prophetische Gaben bricht das Spiel im zufälligen Zeitpunkt T aufgrund des bisherigen Spielverlaufs, d.h. aufgrund der Informationen, die bis zu diesem Zeitpunkt zur Verfügung stehen, ab. Bsp 2 T (ω) = inf {n ∈ N : Xn (ω) ∈ B}, ω ∈ Ω — festes messbares B. Zum Beispiel habe sich ein Aktienhändler einen festen Minimalwert vorgegege- ben, bei dessen Unterschreitung er seine Aktien verkaufen will. B stellt dann das Ereignis dar, dass eine Aktie den Minimalwert unterschreitet, und Xn den Aktienkurs seiner Aktien. Seine Bedingung lautet damit “Verkaufe die Aktien für das kleinste n, so dass Xn ∈ B”. 11.4 Definition Sei (Xn ) eine Folge von Zufallsvariablen Xn : (Ω, A, P ) → (R, B) und (Tn ) eine Folge von Stoppzeiten bzgl. (Xn ) [d.h. bzgl. (F (X1 , . . . , Xn ))] mit T1 ≤ T2 ≤ . . . < ∞. So wird eine neue Folge (XTn )n von Zufallsvariablen definiert durch (XTn )(ω) Í XTn (ω) (ω), ω ∈ Ω. Der Übergang von (Xn ) zu (XTn ) heißt optional sampling [frei gewählte Stichprobenbildung]. Ï Man kann optional sampling z.B. als ein Testen des Spielverlaufs zu den Zeitpunkten Tn (ω) interpretieren. Anschaulich greift man aus einer vorgegebenen Menge von Zufallsvariablen eine zufällige Teilmenge heraus. Dabei ist es durchaus möglich, dass eine Zufallsvariable mehrfach auftritt. Vorsicht: Die (XTn ) stellen keine Teilfolge von (Xn ) dar! 11.4 Optional Sampling Theorem Sei (Xn ) ein Submartingal, M ∈ N fest und (Tn ) eine Folge von Stoppzeiten bzgl. (Xn ) mit T1 ≤ T2 ≤ . . . ≤ M. Die durch optional sampling erhaltene Folge (XTn )n∈N ist ebenfalls ein Submar- tingal. — Entsprechend für Martingal statt Submartingal. Ï Die Martingaleigenschaft ist invariant unter “Stoppen”. Interpretieren wir (Xn ) z.B. als Folge von Gewinnständen in einem Spiel, so besagt der Satz, dass sich die Fairness eines Spielverlaufs nicht ändert. 180 6. November 2011 13:28 » Wir führen den Beweis für Submartingale. Martingale werden analog behandelt. Für alles weitere sei n ∈ N fest und C ∈ F (XT1 , . . . , XTn ). Setzen wir T = Tn+1 und S = Tn , so ist S à T à M und wir haben zu zeigen, dass Z Z XT dP á XS dP . C Da C = C PM j=1 C ∩ [S = j] genügt es obige Ungleichung auf Dj Í C ∩ [S = j] zu zeigen. Es sei noch bemerkt, dass Dj ∈ Aj = F (X1 , . . . , Xj ). Wir zeigen nun per Induktion, dass für jedes m á j Z Z XT dP á Xm dP . Dj ∩[T ám] Dj ∩[T ám] Somit folgt da j à T auf Dj , Z Z Z XT dP = XT dP á Dj Dj ∩[T áj] Dj Xj dP = Z Dj XS dP . Für den Induktionsanfang bemerken wir, dass [T á M] = [T = M], also folgt die Behauptung unmittelbar. Für m á j ist Dj ∩ [T á m + 1] = Dj ∩ [T à m]c ∈ Am , also folgt mit der Submartingaleigenschaft von X Z Z Xm+1 dP á Xm dP . Dj ∩[T ám+1] Dj ∩[T ám+1] Zusammen mit der Induktionsvoraussetzung gilt also Z Z Z XT dP = XT dP + Dj ∩[T ám] Dj ∩[T ám+1] á á Z Dj ∩[T ám+1] Z Dj ∩[T ám] Dj ∩[T =m] Xm+1 dP + Z XT dP Dj ∩[T =m] XT dP Xm dP . Damit ist die Induktion komplett und es gilt E(XTn+1 | XT1 , . . . , XTn ) á XTn , was zu zeigen war. « 11.5 Upcrossing inequality von Doob Sei (X1 , . . . , Xn ) ein bei n á 1 abbrechendes Sub- martingal und a < b reelle Zahlen. Die Zufallsvariable U[a, b] gebe die Anzahl der aufsteigenden Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn an (d.h. die Anzahl der Übergänge der abbrechenden Folge von einem Wert ≤ a zu einem Wert ≥ b). Dann gilt (b − a)EU [a, b] ≤ E(Xn − a)+ − E(X1 − a)+ . 6. November 2011 13:28 Ï 181 11- 11 Martingale b b b b b b b a b b b b 1 11.1 2 3 4 5 6 7 8 9 10 ω Zur Upcrossing Inequality. Xn (ω) mit Überquerungen, U10 [a, b] = 2. » Da (X1 , . . . , Xn ) ein Submartingal ist, ist auch (X1 − a, . . . , Xn − a) ein Submartin- gal und ebenso ((X1 − a)+ , . . . , (Xn − a)+ ), aufgrund der Monotonie der bedingten Erwartung. Somit gibt U[a, b] die Anzahl der aufsteigenden Überschreitungen des Intervalls [0, b − a] durch ((X1 − a)+ , . . . , (Xn − a)+ ) an. Deshalb können wir ohne Einschränkung a = 0 und Xi á 0 annehmen. Zu zeigen ist nun b EU[0, b] à EXn − EX1 . Wir definieren uns Zufallsvariablen T1 , . . . , Tn+1 durch folgende Vorschrift: T1 (ω) T2j (ω) T2j+1 (ω) Tn+1 (ω) = 1, n o min i : T2j−1 à i à n, Xi (ω) = 0 , = n, n o min i : T2j (ω) à i à n, Xi (ω) á b , = n, falls existent, sonst, falls existent, sonst, = n. Die geraden Zeiten T2j geben die Zeitpunkte der Unterschreitungen von [0, b − a] an, und die ungeraden Zeiten T2j+1 geben die Zeitpunkte der Überschreitungen an. So definiert sind T1 , . . . , Tn+1 sind Stoppzeiten mit T1 à . . . à Tn+1 = n. Nach Satz 11.4 überträgt sich die Submartingaleigenschaft von X auf (XT1 , . . . , XTn ) 182 6. November 2011 13:28 11- und ein Teleskopsummenargument liefert Xn − X1 = n X (XTk+1 − XTk ) = k=1 Also EXn − EX1 á bEU [0, b]. X X XT2j+1 − XT2j + XT2j − XT2j−1 | {z } | {z } | « áb, da Aufsteigung {z ábU[0,b] } E...á0, da Submartingal Nun können wir einen Beweis für Satz 11.3 geben. » Beweis von 11.3. Es gilt lim infn Xn à lim supn Xn und beide Zufallsvariablen sind messbar. Angenommen [lim infn Xn ≠ lim supn Xn ] habe positives Maß, so gilt aufgrund der Stetigkeit von P , dass für ein ε > 0 P [lim sup Xn − lim inf Xn > ε] > 0. n n Also existieren reelle Zahlen a < b, so dass auch P [lim inf Xn < a < b < lim sup Xn ] > 0. n (?) n Gebe nun Un [a, b] die Anzahl der aufsteigenden Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn an. Nach Voraussetzung ist supná1 E |Xn | à M < ∞, also gilt nach Doobs Upcrossing Inequality 11.5 (b − a)EUn [a, b] à E(Xn − a)+ à M + |a| < ∞, n á 1. Nach (?) überqueren die Xn auf einer Menge mit positivem Maß das Intervall [a, b] jedoch unendlich oft, d.h. EUn [a, b] ↑ ∞ im Widerspruch zur Upcrossing Inequality. Somit ist die Annahme falsch und es gilt P [lim inf Xn = lim sup Xn ] = 1. n n Setzen wir also X = lim Xn wann immer der Limes erklärt ist, so gilt Xn → X f.s.. « n→∞ 11.1 Korollar Ist (Un ) eine Folge integrierbarer nichtnegativ-reeller Zufallsvariablen auf (Ω, A, P ) und (An ) eine monoton wachsende Folge von Sub-σ -Algebren von A mit An -B+ -Messbarkeit von Un und gilt weiterhin E(Un+1 | An ) ≤ (1 + αn )Un + βn , P P wobei αn , βn ∈ R+ mit αn < ∞, βn < ∞, dann konvergiert (Un ) f.s. — (Un ) ist “fast ein nichtnegatives Supermartingal”. Auch (EUn ) konvergiert. Ï 6. November 2011 13:28 183 11 Martingale Zusatz zum Martingalkonvergenztheorem Ist das Martingal (Xn ) bezüglich der Folge (An ) gleichgradig integrierbar, d.h. sup E(|Xn | · 1[|Xn |ác] ) → 0, ná1 c → ∞, so gilt zusätzlich L1 Xn -→ X, Xn = E(X | An ). Ï » Sei ε > 0 fest. Dann existiert ein c > 0, so dass sup E(|Xn | · 1[|Xn |>c] ) < ε, ná1 da (Xn ) gleichgradig integrierbar. Nun gilt E |Xn | = E(|Xn | | 1[|Xn |>c] ) + E(|Xn | | 1[|Xn |àc] ) < c + ε. | {z } | {z } <ε àc Also ist (Xn ) L1 -beschränkt. Mit Satz 11.3 folgt somit lim Xn Î X existiert f.s. und n→∞ X ∈ L1 . Wir zeigen nun, dass Xn → X in L1 , d.h. E |Xn − X| → 0. Setze dazu c, x > c, fc (x) Í x, −c à x à c, −c, x < −c, so ist f lipschitz stetig und wegen der gleichgradigen Integrierbarkeit der Xn existiert ein c > 0, so dass ε E fc (Xn ) − Xn < , 3 ε E fc (X) − X < , 3 ná1 (1) (2) Da lim Xn = X f.s. folgt n→∞ fc (Xn ) → fc (X) f.s. und fc (Xn ) à c. Mit dem Satz von der dominierten Konvergenz folgt E fc (Xn ) − fc (X) → 0 f.s. 184 6. November 2011 13:28 11- Zusammenfassend ergibt sich, E |Xn − X| à E Xn − fc (Xn ) + E fc (Xn ) − fc (X) + E fc (X) − X < ε also Xn → X in L1 . Es verbleibt zu zeigen, dass Xn = E(X | An ) f.s.. Sei C ∈ Am und n á m. Da (Xn ) ein Martingal ist, gilt E(Xn 1C ) = E(Xm 1C ). Betrachte |E(Xn 1C ) − E(X1C )| à E(|Xn − X| 1C ) à E(|Xn − X|) → 0, so folgt E(Xm 1C ) = E(X1C ). « c ω 11.2 Zur gleichgradigen Integrierbarkeit. 11.6 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen mit P∞ n=1 V(Vn ) < ∞. Dann ist ∞ X (Vn − E(Vn | V1 , . . . , Vn−1 )) f.s. konvergent. n=1 Sind die Vn zusätzlich unabhängig, dann ist P∞ n=1 (Vn − EVn ) f.s. konvergent. Ï » Ohne Einschränkung sei EVn = 0 ansonsten ersetze Vn durch Vn − EVn . Setze Wn = Vn − E(Vn | V1 , . . . , Vn−1 ), so ist Wn integrierbar und Fn = F (V1 , . . . , Vn )-messbar. Wir haben zu zeigen, dass Pn Sn = j=1 Wj f.s. konvergiert. Zunächst ist E(Wn+1 | V1 , . . . , Vn ) = E(Vn+1 | V1 , . . . , Vn ) − E(E(Vn+1 | V1 , . . . , Vn ) | V1 , . . . , Vn ) = 0, 6. November 2011 13:28 185 11 Martingale also ist Sn ein Martingal. Im nächsten Schritt zeigen wir, dass supná1 E |Sn | < ∞ ist. Betrachte dazu 2 . Sn2 = (Wn + Sn−1 )2 = Wn2 + 2Wn Sn−1 + Sn−1 Nach Satz 11.2 sind Wn und Sn−1 unkorreliert, so dass 2 ESn2 = EWn2 + ESn−1 = ... = n X j=1 EWj2 . Weiterhin gilt EWn2 = E(Vn − E(Vn | V1 , . . . , Vn−1 ))2 à 2E(Vn2 + E(Vn | V1 , . . . , Vn−1 )2 ) à 2E(Vn2 + E(Vn2 | V1 , . . . , Vn−1 )) = 4EVn2 = 4VVn2 . Pn Pn Somit folgt ESn2 = j=1 Wj2 à 4 j=1 VVj2 . Also ist (E |Sn |)2 à ESn2 beschränkt. Mit dem Martingalkonvergensatz 11.3 folgt nun die Behauptung, dass Sn f.s. konvergiert. Sind die Vn außerdem unabhängig, so können wir Bemerkung 10.2 anwenden und erhalten E(Vn | V1 , . . . , Vn−1 ) = EVn f.s. « 11.7 Satz Sei (Vn ) eine Folge von quadratisch integrierbaren reellen Zufallsvariablen mit P∞ n=1 n−2 V(Vn ) < ∞. Dann gilt n 1 X (Vj − E(Vj | V1 , . . . , Vj−1 )) → 0 n j=1 Falls zusätzlich (Vn ) unabhängig, dann 1 n f.s. Pn j=1 (Vj − EVj ) → 0 f.s. (Kriterium von Kolmogorov zum starken Gesetz der großen Zahlen) Ï » Wenden wir Satz 11.6 auf n−1 Vn an, erhalten wir ∞ X Vn − E(Vn | V1 , . . . , Vn−1 ) konvergiert f.s.. n n=1 Daraus folgt mit dem Lemma von Kronecker (s.u.), n 1 X (Vi − E(Vi | V1 , . . . , Vi−1 ) → 0 f.s.. n i=1 Falls die Vn unabhängig sind, können wir Bemerkung 10.2 anwenden und erhalten so den Zusatz. 186 « 6. November 2011 13:28 11- 11.1 Lemma von Kronecker Sei (cn ) eine Folge reeller Zahlen. ∞ n X cn 1 X konvergiert ⇒ cj → 0. n n j=1 n=1 » Sei sn = Pn j=1 Ï j −1 cj , so ist (sn ) nach Voraussetzung konvergent, sei s der Grenz- wert. Offensichtlich ist sn − sn−1 = n−1 cn mit s0 = 0 und daher n X j=1 cj = n X j=1 j(sj − sj−1 ) = nsn − n X j=1 Somit gilt (j − (j − 1)) sj−1 . {z } | 1 n n 1 X 1 X cj = sn − sj−1 → 0. « n j=1 n j=1 | {z } →s 11.2 Bemerkung. Aus Satz 11.6 bzw. 11.7 ergibt sich unmittelbar für eine Folge (Vn ) quadratisch integrierbarer reeller Zufallsvariablen eine hinreichende Bedingung für Pn 1 Pn die f.s.-Konvergenz der Reihe j=1 Vn bzw. für n j=1 Vj → 0 f.s. Ï 11.8 Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen Eine unab- hängige Folge (Xn ) quadratisch integrierbarer reeller Zufallsvariablen mit ∞ X n=1 n−2 V (Xn ) < ∞ genügt dem starken Gesetz der großen Zahlen. Ï 11.9 Kolmogorovsches starkes Gesetz der großen Zahlen Für eine unabhängige Fol- ge (Xn )n∈N identisch verteilter integrierbarer reeller Zufallsvariablen gilt n 1 X Xk → EX1 f.s. Ï n k=1 Der Satz wurde bereits im Kapitel 8 beweisen, wir wollen nun unter Verwendung der Martingaltheorie einen eleganteren Beweis geben. Stutzungslemma Sei (Xn ) eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit E |X1 | < ∞. Setze Yn Í Xn 1[|Xn |àn] . Dann gilt 6. November 2011 13:28 187 11 Martingale a) EYn → EX1 , b) P [Xn = Yn für fast alle n] = 1, c) (Yn ) erfüllt die Kolmogorov-Bedingung, ∞ X n=1 » n−2 V(Yn ) < ∞. Ï a) Sei Zn Í X1 1[|X1 |àn] . Für jedes n ∈ N haben X1 und Xn dieselbe Verteilgung also besitzen auch Yn und Zn dieselbe Verteilung. Somit gilt EZn = EYn . Ferner ist |Zn | à |Xn | und Zn → X1 f.s. also nach dem Satz von der dominierten Konvergenz EYn = EZn → EX1 f.s. b) ∞ X n=1 P [Xn ≠ Yn ] = ∞ X P [Xn > n] à n=1 Lemma 4.1 = Z∞ 0 P [|X1 | > t] dt E |X1 | < ∞. Mit dem 1. Lemma von Borel und Cantelli folgt somit P [Xn ≠ Yn für fast alle n] = 0. c) Für jedes n ∈ N gilt nach Partialbruchzerlegung, 1 2 1 1 à à 2 − . n2 n(n + 1) n n+1 Damit erhalten wir eine Abschätzung für den Reihenrest X 1 2 à . 2 n k nák (*) Somit folgt ∞ X X |X1 |2 1[|X1 |àn] à 2 n n=1 námax{1,|X 1 |} |X1 |2 2 |X1 |2 à à 2 |X1 | . 2 n max {1, |X1 |} Also gilt auch für die Summe der Varianzen ∞ ∞ ∞ X X X V(Yn ) E |Yn |2 E |Zn |2 à = à 2E |X1 | < ∞. « n2 n2 n2 n=1 n=1 n=1 188 6. November 2011 13:28 11- » Beweis von Satz 11.9. Wir betrachten die gestutzten Zufallsvariablen Yn Í Xn 1[|Xn |àn] , Sn Í n X Xi . i=1 Nach Betrachtung b) im obigen Lemma genügt es zu zeigen, n 1 X Yi → EX1 f.s. n i=1 Dazu betrachten wir die Zerlegung n n n 1 X 1 X 1 X Yi = EYi + (Yi − EYi ). n i=1 n i=1 n i=1 Nach dem Grenzwertsatz von Caesaro gilt n 1 X EYi → EX1 f.s. n i=1 und nach Satz 11.8 gilt außerdem n 1 X (Yi − EYi ) → 0 f.s. n i=1 « 11.2 Korollar Sei (Xn ) eine Folge von unabhängigen identisch verteilten reell-erweiterten Zufallsvariablen mit EX1− < ∞ und EX1+ = ∞, d.h. EX1 = ∞. Dann gilt ∞ 1 X Xi → ∞ f.s. Ï n n=1 » Mit Satz 11.9 gilt ∞ 1 X − X → EX1− f.s. n i=1 i Deshalb können wir ohne Einschränkung davon ausgehen, dass Xi á 0. Sei k ∈ N beliebig aber fest und setze Zn(k) Í Xn 1[Xn àk] . 6. November 2011 13:28 189 Martingale (k) So folgt Zn à k und n n 1 X 1 X (k) (k) Xi á Z → EZ1 f.s. n i=1 n i=1 i (k) Aber Z1 ↑ X1 und mit dem Satz von der monotonen Konvergenz folgt (k) EZ1 (**) ↑ EX1 . Mit (**) folgt jedoch, dass n 1 X Xi → ∞ f.s. n i=1 190 « 6. November 2011 13:28 1- A Begriffe und Sätze der Maß- und Integrationstheorie Sei (Ω, A, µ) ein Maßraum. Satz von der monotonen Konvergenz (B. Levi) Für erweitert reellwertige messbaR re Funktionen fn mit fn ≥ 0 und fn ↑ f existiert lim fn dµ und es gilt n lim n Z fn dµ = Z lim fn dµ. n Ï Lemma von Fatou Für jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn á 0 µ-f.ü. gilt Z Z lim inf fn dµ à lim inf fn dµ. Ï Satz von der dominierten Konvergenz (Lebesgue) Für erweitert-reellwertige messbare Funktionen fn , f und g mit fn → f µ-f.ü., |fn | à g µ-f.ü. für alle n und R R g dµ < ∞ existiert limn→∞ fn dµ und es gilt Z Z lim fn dµ = f dµ. Ï n→∞ Definition 1.) Das Maß µ heißt σ -endlich, wenn es ein Folge von Mengen An ∈ A gibt mit An ↑ Ω und µ(An ) < ∞. 2.) Ein Maß ν auf A heißt µ-stetig, falls ∀ A ∈ A : µ(A) = 0 ⇒ ν(A) = 0. Ï Satz von Radon-Nikodym Seien (Ω, A) Messraum, µ und ν σ -endliche Maße auf A und ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ ) mit Z ∀ A ∈ A : ν(A) = f dµ A 6. November 2011 13:28 191 A Begriffe und Sätze der Maß- und Integrationstheorie f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”. f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig kurz durch dν dµ angegeben. Ï » Zum Beweis siehe Elstrodt. « Bsp 1 Sei Q ein W-Maß auf B, λ das LB-Maß auf B und Q sei λ-stetig. Dann ist die Radon-Nikodyn-Ableitung dQ dλ die gewöhnliche Dichte von Q. Zusatz Seien µ, ν, ϕ σ -endliche Maße, ϕ sei ν-stetig und ν sei µ-stetig. Dann gilt dϕ dϕ dν = · . dµ dν dµ 192 Ï 6. November 2011 13:28 1- Literaturverzeichnis [1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4. Aufl. [2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998), 2. Aufl. [3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd ed. [4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer (2004), 2nd ed. [5] Dudley, R.M. Real Analysis and Probability; Cambridge University Press (2002), 2nd ed. [6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl. [7] Feller, W. An Introduction to Probability and Its Applications I,II; Wiley, New York (1970/71), 3rd ed./2nd ed. [8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik; VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl. [9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin (1977). [10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls; Vieweg+Teubner (2008), 7. Aufl. [11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen und Anwendungen. Vieweg+Teubner (2009), 2. Aufl. [12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer, Berlin (1985), 3. korr. Nachdruck. [13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004), 2nd ed. [14] Kallenberg, O. Foundations of Modern Probability. Springer, New York (2001), 2nd ed. 6. November 2011 13:28 193 A Literaturverzeichnis [15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006) [16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Aufl. [17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed. [18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen; Springer (2004). [19] Williams, D. Probability with Martingales; Cambridge University Press (1991). [20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008). [21] Williams, D. Weighing the Odds — A Course in Probability and Statistics; Cambridge University Press (2001). 194 6. November 2011 13:28