Wahrscheinlichkeitstheorie Stochastik I Prof. Dr. rer. nat. habil. Jan Kallsen Jens Liebenau (AMS-LATEX 2ε) Sommersemester 2014 Mathematisches Seminar Mathematisch-Naturwissenschaftliche Fakultät der Christian-Albrechts-Universität zu Kiel Literatur [1] Jean Jacod, Philip Protter: Probability Essentials. 2. Aufl. Springer-Verlag, Berlin/ Heidelberg 2004, ISBN: 978-3-540-43871-7, 254 S. (Grundlage der Vorlesung) [2] Albrecht Irle: Wahrscheinlichkeitstheorie und Statistik. 2. Aufl., Nachdr. Vieweg+ Teubner-Verlag, Wiesbaden 2010, ISBN: 978-3-519-12395-8, 437 S. [3] Heinz Bauer: Maß- und Integrationstheorie. 2. Aufl. Verlag de Gruyter, Berlin 1992, ISBN: 978-3-11-013625-8, 260 S. [4] Heinz Bauer: Wahrscheinlichkeitstheorie. 5. Aufl. Verlag de Gruyter, Berlin 2002, ISBN: 978-3-11-017236-2, 520 S. [5] Achim Klenke: Wahrscheinlichkeitstheorie. 3. Aufl. Springer-Verlag, Berlin/Heidelberg 2013, ISBN: 978-3-642-36017-6, doi:10.1007/978-3-642-36018-3, 650 S. (E-Book). [6] Albert N. Schirjajew (Shiryaev): Probability. 3. Aufl. Bd. 1. Springer-Verlag, New York 2014, ISBN: 978-0-387-72205-4, 520 S. [7] Leo Breiman: Probability. 2. Nachdr. Society for Industrial and Applied Mathematics (SIAM), Philadelphia 1993, ISBN: 978-0-898712-96-4, 421 S. [8] William Feller: An Introduction to Probability Theory and Its Applications. 3. Aufl. Bd. 1. Verlag John Wiley & Sons, 1968, ISBN: 978-0-471-25708-0, 528 S. [9] William Feller: An Introduction to Probability Theory and Its Applications. 2. Aufl. Bd. 2. Verlag John Wiley & Sons, 1968, ISBN: 978-0-471-25709-7, 704 S. [10] Jürgen Elstrodt: Maß- und Integrationstheorie. 7. Aufl. Springer-Verlag, Berlin/ Heidelberg 2011, ISBN: 978-3-642-17904-4, doi:10.1007/978-3-642-17905-1, 434 S. (E-Book). 1 Symbolverzeichnis Jan Kallsen Symbolverzeichnis N; N∗ R+ ; R Rm×n ∅, ∅ P(A) := 2A BA I, J Lp Lp ⊂, ⊃ S ∪·, · AC A◦ AT (an )∞ n=1 an ↑ a an ↓ a X ∧Y X ∨Y X+ X− f. s. f. ü. Menge der natürlichen Zahlen: {0, 1, 2, . . .}; N \ {0} nicht-negative reelle Zahlen: [0, ∞); erweiterte reelle Zahlen: R ∪ {±∞} Menge der (m × n)-Matrizen über R leere Menge Potenzmenge der Menge A Menge der Abbildungen A → B: Abb(A, B) (abzählbare) Indexmenge Lp - oder Lebesgue-Raum mit p ∈ [1, ∞) (allgemeiner p ∈ (0, ∞]): o n p L (Ω, A , µ) := X : (Ω, A , µ) → R, B : X p-fach integrierbar L p /∼ bzgl. der Äquivalenzrelation X ∼ Y :⇔ X = Y f. s. bzw. f. ü. echte oder unechte Teilmenge: j, k disjunkte Vereinigung Komplement von A: Ω \ A Inneres/offener Kern der Menge A Transponierte der Matrix A Folge: (an )n∈N∗ gegen a konvergente, monoton steigende Folge (an )∞ n=1 gegen a konvergente, monoton fallende Folge (an )∞ n=1 Minimum von X und Y : min(X, Y ) Maximum von X und Y : max(X, Y ) Positivteil: X ∨ 0 Negativteil: −(X ∨ 0) fast sicher fast überall Jens Liebenau – SoSe 2014 2 Inhaltsverzeichnis Jan Kallsen Inhaltsverzeichnis Literatur 1 Symbolverzeichnis 2 1. Diskrete Wahrscheinlichkeitsräume 4 2. Bedingte Wahrscheinlichkeiten und Unabhängigkeit 8 3. Diskrete Zufallsvariablen 11 4. Maße und Wahrscheinlichkeitsmaße 13 5. Konstruktion von Maßen und Wahrscheinlichkeitsmaßen 19 6. Wahrscheinlichkeitsmaße auf R 22 7. Messbare Funktionen und Zufallsvariablen 24 8. Integration nach Maßen 26 9. Unabhängigkeit und Produktmaße 31 10. Lebesgue-Integrale auf R 35 11. Lebesgue-Integrale im Rn 40 12. Charakteristische Funktionen 43 13. Summen unabhängiger Zufallsgrößen 43 14. Konvergenz von Folgen von Zufallsvariablen 44 15. Schwache Konvergenz 44 16. Schwache Konvergenz und charakteristische Funktionen 44 17. Gesetz der großen Zahlen 44 18. Zentraler Grenzwertsatz 44 Stichwortverzeichnis 46 Jens Liebenau – SoSe 2014 3 1. Diskrete Wahrscheinlichkeitsräume Jan Kallsen 14.04.2014 1. Diskrete Wahrscheinlichkeitsräume Ziel ist die mathematische Modellierung von Zufallsexperimenten – eher unwichtig ist z. B.: Ist es echter Zufall (falls es den gibt) oder nur Nichtwissen (Würfel, Zufallszahlengenerator, Aktienkurse, . . . )? 1.1) Bezeichnung: Sei Ω 6= ∅ die Menge der möglichen Ausgänge eines Zufallsexperiments. Ω heißt Ergebnisraum, Grundraum oder Stichprobenraum. Elemente ω ∈ Ω heißen Ergebnisse. Teilmengen A ⊂ Ω heißen (vorläufig) Ereignisse. 1.2) Beispiele: 1) Würfelwurf: Ω = {1, 2, . . . , 6}, Ereignis „Würfelwurf ist gerade“: A = {2, 4, 6} 2) n-maliger Wurf: Ω = {1, 2, . . . , 6}n (Achtung: Nicht n-mal ein ω aus {1, 2, . . . , 6} ziehen!) ∗ b „Kopf“, 3) ∞ viele Münzwürfe: Ω = {0, 1}N = {(ωn )n∈N∗ : ωn ∈ {0, 1} ∀n ∈ N∗ }, hier: 0 = b „Zahl“ 1= 4) Wartezeit auf den Bus: Ω = R+ Generalvoraussetzung: Ab jetzt sei Ω 6= ∅ (höchstens) abzählbar; der allgemeine Fall wird in Kapitel 4 behandelt. 1.3) Definition: Sei Ω 6= ∅. P : P(Ω) → [0, 1] heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung oder Verteilung) auf Ω, falls die Kolmogorow’schen Axiome1 gelten: 1) P (Ω) = 1 (Normierung/Normiertheit) und 2) A1 , A2 , . . . paarweise disjunkt (d. h. Ai ∩ Aj = ∅ für i = 6 j) ⇒ P ∞ [ · Ai i=1 ! = ∞ X P (Ai ) i=1 (σ-Additivität). (Ω, P(Ω), P ) heißt Wahrscheinlichkeitsraum. 1.4) Beispiele: 1) Sei n ∈ N, A ⊂ Ω und seien x1 , . . . , xn ∈ Ω. Definiere r(A) := n1 |{i ∈ {1, . . . , n} : xi ∈ A}|. Die relative Häufigkeit r : P(Ω) → [0, 1] ist ein Wahrscheinlichkeitsmaß (leicht). Interpretation: x1 , . . . , xn sind die Stichproben eines mehrfach durchgeführten Experiments. r(A) ist der Anteil der Versuche, in denen A auftritt, an allen Versuchen. 1 Andrei Nikolajewitsch Kolmogorow (1903–1987) war ein russischer Wahrscheinlichkeitstheoretiker sowie Topologe und einer der bedeutendsten Mathematiker des 20. Jahrhunderts (v. a.: Axiomatisierung der Wahrscheinlichkeitstheorie und Gründer der Algorithmischen Komplexitätstheorie). Jens Liebenau – SoSe 2014 4 1. Diskrete Wahrscheinlichkeitsräume Jan Kallsen |A| für alle A ⊂ Ω. Die Laplace-Verteilung2 |Ω| (Gleichverteilung) P : P(Ω) → [0, 1] ist ein Wahrscheinlichkeitsmaß auf Ω (leicht). 2) Sei Ω endlich, d. h. |Ω| = 6 ∞. Definiere P (A) := Interpretation: P (A) beschreibt den Anteil der zu A führenden Ereignisse an allen Ergebnissen. Falls alle Ergebnisse ω ∈ Ω gleich plausibel sind (Indifferenzprinzip oder Prinzip des unzureichenden Grundes) ist P (A) natürliches Maß für den Grad an Sicherheit, mit dem b unmöglich, 1 = b sicher usw.). A zu erwarten ist (0 = 1.5) Motivation: Warum die Axiome aus 1.3? Was bedeutet P (A) = 0,3? 1) Frequentistische Deutung: Wahrscheinlichkeiten sind idealisierte relative Häufigkeiten, vgl. Beispiel 1.4 (1). P (A) bezeichnet den Anteil der A-Beobachtungen, wenn man das Experiment theoretisch „∞ oft unter identischen Bedingungen“ ablaufen ließe. Achtung: – Diese Deutung ist nur sinnvoll, wenn die Wiederholbarkeit grundsätzlich denkbar ist. – Es muss klar sein, was „identische Bedingungen“ bedeuten. 2) Subjektive Deutung: Wahrscheinlichkeiten sind verallgemeinerte Laplace-Wahrscheinlichkeiten, vgl. Beispiel 1.4 (2). P (A) = 0,3 (z. B.) bedeutet: Man hält A für so wahrscheinlich/plausibel/sicher wie 3 von 10 gleich wahrscheinlichen Ausgängen (z. B. 3 Seiten eines 10-seitigen „Würfels“). (Bei irrationalen Zahlen approximiere man!) P ist hier subjektiv wählbar und auch für einmalige „Experimente“ denkbar wie beispielsweise: P („Gott existiert“) = 0,7. 1.6) Bemerkungen: 1) Zur Wahl von P ist eine Modellbildung (= Verbindung Realität – mathematisches Modell) notwendig. Die Modellbildung erfolgt aufgrund theoretischen Wissens (z. B. Symmetrien) oder mathematischer Statistik und ist eine eigenständige (nicht nur mathematische) Leistung. 2) Bei allgemeinem Ω (Kapitel 4) definiert man P oft nur auf einer Teilmenge von P(Ω), einer σ-Algebra. 1.7) Beispiel: Würfelwurf Ω = {1, . . . , 6}: Da alle Seiten gleich plausibel sind (Symmetrie), ist die Laplace-Verteilung angemessen. 2 Pierre-Simon Marquis de Laplace (1749–1827) war ein französischer Mathematiker, Physiker und Astronom (u. a.: Wahrscheinlichkeitstheorie und Differenzialgleichungen). Jens Liebenau – SoSe 2014 5 1. Diskrete Wahrscheinlichkeitsräume Jan Kallsen Zur Charakterisierung von Wahrscheinlichkeitsverteilungen gibt es folgenden: 1.8) Satz: Sei Ω 6= ∅ abzählbar. Sei % : Ω → [0, 1] mit Wahrscheinlichkeitsmaß P auf (Ω, P(Ω)) mit P ω∈Ω %(ω) = 1. Dann existiert genau ein ∀ω ∈ Ω : P ({w}) = %(ω). (1) ∈ P(Ω) ∈Ω In diesem Fall gilt: ∀A ⊂ Ω : P (A) = X (2) %(ω). ω∈A % heißt Zähldichte oder Wahrscheinlichkeitsfunktion. Beweis: Existenz: Definiere P wie in (2). Dann gilt: 0 5 P (A) = X X %(ω) 5 ω∈A Vor. %(ω) = 1 ⇒ P (A) ∈ [0, 1]. ω∈Ω Es ist P (Ω) = P %(ω) = 1. Seien A , A , . . . paarweise disjunkt. Dann gilt laut Cauchy’schem Doppelreihensatz Vor. ω∈Ω 1 3 2 (2) P (A) = X CDR %(ω) = ω∈A ∞ X X (2) %(ω) = i=1 ω∈Ai ∞ X (CDR): ∞ [ P (Ai ) mit A := · Ai . i=1 i=1 Eindeutigkeit und (2): Sei P ein Wahrscheinlichkeitsmaß wie in (1). Dann folgt: σ-Add. ∀A ⊂ Ω : P (A) = X (1) P ({ω}) = ω∈Ω X %(ω) ⇒ (2). ω∈Ω 17.04.2014 1.9) Beispiele: 1) Poisson-Verteilung:4 Sei Ω = N, λ > 0 sowie %(k) := e−λ Normierung: Es gilt X %(k) = e k∈Ω −λ λk für alle k ∈ Ω. k! ∞ X λk = e−λ eλ = 1. k! k=0 % ist die Zähldichte einer Verteilung – nämlich der Poisson-Verteilung mit Parameter λ. 3 Augustin-Louis Cauchy (1789–1857) war ein französischer Mathematiker und Pionier der Analysis, der auch Beiträge zur Geometrie sowie Wahrscheinlichkeitstheorie lieferte. 4 Siméon Denis Poisson (1781–1840) war ein französischer Physiker und Mathematiker, der sich u. a. mit der Differenzialgeometrie, Infinitesimalrechnung sowie Wahrscheinlichkeitstheorie beschäftigte. Jens Liebenau – SoSe 2014 6 1. Diskrete Wahrscheinlichkeitsräume Jan Kallsen Zur Modellierung der Anzahlen von Anrufen, Mails, Kunden sowie Versicherungsschäden Warum? später 2) Hypergeometrische Verteilung: Sei n ∈ N∗ , Ω = {0, . . . , n} (oder N), s, w ∈ N mit s + w = n und ∀k ∈ Ω : %(k) := s k ! ! w n−k ! . s+w n Normierung: Es ist: n X s k k=0 ! ! ! w s+w = . n−k n (3) % ist die Zähldichte einer Verteilung – und zwar der hypergeometrischen Verteilung mit den Parametern n, s und w. Zur Modellierung der Anzahl der Erfolge beim Ziehen von n Kugeln ohne Zurücklegen aus einer Urne mit s schwarzen (Erfolge) und w weißen (Misserfolge) Kugeln Warum? Kombinatorik (Überlegen!?) Beweis von (3): Vollständige Induktion nach s + w: ! ! ! s IA: Für s + w = 1 ist 0 w s + 1 1 IS: Es gilt für s + w − 1 s + w: n X k=0 s k ! ! n X w w = + n−k n k=1 ! ! = = n X k=1 n−1 X k=0 ! ! ! w 1 1 s+w = = = . 0 1 n n ! !! s−1 s−1 + k−1 k w n−k ! n X w s−1 + n−k k k=0 ! n X w s−1 + n−1−k k k=0 s−1 k−1 s−1 k ! ! ! ! ! w n−k ! ! ! w n−k ! ! s+w−1 s+w−1 s+w = + = . n−1 n n IV 3) Binomialverteilung: Seien n ∈ N∗ , Ω = {0, . . . , n} (oder N), p ∈ [0, 1] sowie ! n k ∀k ∈ Ω : %(k) := p (1 − p)n−k . k Normierung: Mithilfe des Binomischen Lehrsatzes gilt: n X k=0 ! n k BL p (1 − p)n−k = (p + (1 − p))n = 1n = 1. k Jens Liebenau – SoSe 2014 7 2. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Jan Kallsen % ist die Zähldichte einer Verteilung – nämlich der Binomialverteilung zu den Parametern n und p. Zur Modellierung der Anzahl der Erfolge bei n unabhängigen Versuchen (z. B. Münzwürfe) jeweils mit der Erfolgswahrscheinlichkeit p 4) Negative Binomialverteilung (Pascal-Verteilung):5 Sei Ω = N, p ∈ (0, 1), r ∈ N∗ und ! ! k+r−1 r k+r−1 r ∀k ∈ Ω : %(k) := p (1 − p)k = p (1 − p)k . r−1 k Normierung: Es gilt (PR steht für Potenzreihe): ∞ X ∞ X Y r k−1 PR %(k) = p (r + i)(1 − p)k = pr (1 −(1 − p))−r = pr p−r = 1. {z } | | {z } k=0 k=0 k! i=1 r −x x % ist die Zähldichte einer Verteilung – und zwar der negativen Binomialverteilung zu den Parametern p und r. Für r = 1 spricht man von der geometrischen Verteilung zum Parameter p. Zur Modellierung der Wartezeit auf den r-ten Erfolg bei unabhängigen Versuchen (z. B. bei Münzwürfen) jeweils mit der Erfolgswahrscheinlichkeit p (nur Misserfolge gezählt) 2. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Sei (Ω, P(Ω), P ). Bemerkung: Die Aussagen in diesem Kapitel gelten auch für allgemeine Wahrscheinlichkeitsräume (Ω, F, P ) (vgl. Kapitel 4) anstelle von (Ω, P(Ω), P ). Ersetze dann „⊂ Ω“ durch „∈ F“. 2.1) Definition: Seien B ⊂ Ω mit P (B) > 0 und A ⊂ Ω. Dann heißt PB (A) := P (A | B) := P (A ∩ B) P (B) (4) die bedingte Wahrscheinlichkeit von A gegeben B. 2.2) Satz: Sei B ⊂ Ω mit P (B) > 0. Dann definiert PB : P(Ω) → [0, 1], A 7→ PB (A) ein Wahrscheinlichkeitsmaß auf Ω mit PB (B) = 1. Beweis: 1) Es gilt PB (A) ∈ [0, 1]. 2) Es ist PB (Ω) = 5 P (B) = 1. P (B) Blaise Pascal (1623–1662) war ein französischer Mathematiker, Physiker, Literat sowie christlicher Philosoph, der v. a. für seine Beiträge zur Kombinatorik und Wahrscheinlichkeitstheorie bekannt ist. Jens Liebenau – SoSe 2014 8 2. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Jan Kallsen 3) Für die σ-Additivität von PB gilt: PB ∞ [ ! · Ai Def. P ∞ S · Ai ∩ B i=1 = P ∞ S P (B) ∞ P · (Ai ∩ B) i=1 = P (B) i=1 4) Es ist PB (B) = σ-Add. i=1 = von P P (Ai ∩ B) P (B) Def. = ∞ X PB (Ai ). i=1 P (B) = 1. P (B) 2.3) Motivation: Wann ist (4) in Definition 2.1 sinnvoll? 1) Frequentistische Sichtweise (vgl. 1.5 (1)): Seien x1 , . . . , xn ∈ Ω und r : P(Ω) → [0, 1] die zugehörige relative Häufigkeit (empirische Verteilung, vgl. 1.4 (1)). Sei nun x̃1 , . . . , x̃k ∈ Ω die Teilstichprobe von x1 , . . . , xn , die in B ⊂ Ω liegt. Diese definiert (wieder mit 1.4 (1)) die relative Häufigkeit rB : P(Ω) → [0, 1] mit 1 |{j ∈ {1, . . . , k} : x̃j ∈ A}| k 1 1 n = |{i ∈ {1, . . . , n} : xi ∈ A ∩ B}| · = r(A ∩ B) = . n |{i ∈ {1, . . . , n} : xi ∈ B}| r(B) rB (A) = | {z } =k (4) gilt für relative Häufigkeiten, wenn man Stichproben verkleinert. 2) Verallgemeinerte Laplace-Wahrscheinlichkeiten (vgl. 1.5 (2)): Sei P die LaplaceVerteilung auf Ω, PB die Laplace-Verteilung auf B, auf P(Ω) erweitert durch PB (A) := PB (A ∩ B). Dann folgt für alle A ⊂ Ω: PB (A) = PB (A ∩ B) = |A ∩ B| |Ω| P (A ∩ B) |A ∩ B| = = = wie in (4). |B| |Ω| |B| P (B) Also: Im Zusammenhang von 1.5 (2) ergibt sich (4), wenn die Zusatzinformation „ω ∈ B“ die Plausibilität/Wahrscheinlichkeit der Ergebnisse in B nicht neu gewichtet wird. 2.4) Beispiele: Zweimal würfeln: Sei Ω = {1, . . . , 6} , P die Laplace-Wahrscheinlichkeit auf Ω und A := {„2. Wurf ist 6.“} = 2 {1, . . . , 6} × {6}. Dann gilt P (A) = |A| 6 1 = = . |Ω| 36 6 2 1 = = . Sei B := {„Augensumme ist 11.“} = {(5, 6), (6, 5)}. Dann ist P (B) = |B| |Ω| 36 18 ∩ B| 1 P (A ∩ B) 1 Nun ist A ∩ B = {(5, 6)}. Es gilt P (A ∩ B) = |A|Ω| = und P (A | B) = = . 36 P (B) 2 2.5) Satz (Multiplikationsformel): Seien A1 , . . . , An ⊂ Ω mit P n T Ai > 0. Dann gilt: i=1 P n \ i=1 ! Ai = P (A1 ) n−1 Y k=1 P k \ Ak+1 ! Ai = P (A1 ) P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ). i=1 Jens Liebenau – SoSe 2014 9 2. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Jan Kallsen Beweis: Vollständige Induktion nach n: IA: Der Fall n = 1 ist klar. IS: Es gilt für n − 1 P (A1 ∩ · · · ∩ An ) = n: P (An ∩ (A1 ∩ · · · ∩ An−1 )) P (A1 ∩ · · · ∩ An−1 ) = P (An | A1 ∩ · · · ∩ An−1 ) P (A1 ∩ · · · ∩ An−1 ) IV = P (A1 ) P (A2 | A1 ) · · · P (An−1 | A1 ∩ · · · ∩ An−2 ). 2.6) Satz (Satz von der totalen Wahrscheinlichkeit): Sei Ω = · i∈I Bi Zerlegung von Ω in (höchstens) abzählbar viele Bi . Dann gilt für alle A ⊂ Ω: S X P (A) = P (A | Bi ) P (Bi ). i∈I P (Bi )>0 Beweis: Es gilt A = · i∈I (A ∩ Bi ). Dann folgt: S P (A) = X P (A ∩ Bi ) = i∈I X P (A ∩ Bi ) = i∈I P (Bi )>0 X P (A | Bi ) P (Bi ). i∈I P (Bi )>0 24.04.2014 2.7) Satz (Bayes’sche Formel6 ): Sei (Bi )i∈I eine Zerlegung von Ω wie in Satz 2.6. Sei A ⊂ Ω mit P (A) > 0. Dann gilt: P (Bj | A) = P (A | Bj )P (Bj ) . P (A | Bi )P (Bi ) P i∈I P (Bi )>0 Beweis: Es ist: Def. P (Bj | A) = P (A ∩ Bj ) Def. = 2.6 P (A) P (A | Bj )P (Bj ) . P (A | Bi )P (Bi ) P i∈I P (Bi )>0 2.8) Beispiel: Die Häufigkeit einer Krankheit K in der Bevölkerung beträgt 1/145 (d. h., 1 von 145 hat K). Es gibt einen relativ guten Test: Bei 96 % der Kranken ist das Testergebnis positiv und bei 94 % der Gesunden ist das Testergebnis negativ. Frage: Wie hoch ist bei positivem Testergebnis die Wahrscheinlichkeit, krank zu sein? 6 Thomas Bayes (um 1701–1761) war ein englischer Mathematiker und presbyterianischer Pfarrer, der sich der Logik und Wahrscheinlichkeitstheorie zuwandte. Jens Liebenau – SoSe 2014 10 3. Diskrete Zufallsvariablen Jan Kallsen Ereignisse: B := {„Sie haben K.“}, A := {„positives Testergebnis“} Dann sind P (B) = 1 − P B C = 1/145, P (A | B) = 0,96 und P AC B C = 1 − P A B C = 0,94. Nun folgt mit der Bayes’schen Formel: P (B | A) = P (A | B)P (B) 0,96 · 1/145 1 = = . C C P (A | B)P (B) + P (A | B )P (B ) 0,96 · 1/145 + 0,06 · 144/145 10 Antwort: Die gesuchte Wahrscheinlichkeit beträgt nur 10 %! 2.9) Definition: A, B ⊂ Ω heißen (stochastisch) unabhängig, falls P (A ∩ B) = P (A)P (B) gilt. 2.10) Bemerkungen: 1) Für P (B) > 0 ist die Unabhängigkeit von A und B äquivalent zu P (A | B) = P (A). 2) A ⊂ Ω und Ω sind unabhängig sowie für alle A ebenso A und ∅. 3) Aus der stochastischen Unabhängigkeit von A und B folgt nicht, dass A sowie B in keiner Kausalbeziehung zueinander stehen, d. h.: Aufpassen bei der Interpretation stochastischer (Un-)Abhängigkeit! Allgemeiner ist: 2.11) Definition: Seien I 6= ∅ eine Indexmenge, Ai ⊂ Ω für alle i ∈ I. (Ai )i∈I heißt unabhängig, falls für alle nichtleeren J ⊂ I gilt: P \ Aj = j∈J Y P (Aj ). j∈J 2.12) Bemerkung: Falls nur P (Ai ∩ Aj ) = P (Ai )P (Aj ) für alle i = 6 j gilt, heißt (Ai )i∈I paarweise unabhängig. Es gilt: unabhängig ⇒ paarweise unabhängig. 6 ⇐ 2.13) Beispiele: Beim zweifachen Münzwurf ist Ω = {0, 1}2 und P die Gleichverteilung auf Ω. Für A := {„1. Wurf ist 0.“} = {0} × {0, 1}, B := {„2. Wurf ist 0.“} = {0, 1} × {0} und C := {„Beide Würfe sind gleich.“} = {(0, 0), (1, 1)} gilt P (A) = P (B) = P (C) = 1/2. A ∩ B = A ∩ C = B ∩ C = A ∩ B ∩ C = {(0, 0)} hat die Wahrscheinlichkeit 1/4, weswegen A, B und C paarweise unabhängig sind. Jedoch gilt P (A ∩ B ∩ C) = 1/4 6= P (A)P (B)P (C) und folglich sind A, B sowie C nicht unabhängig. 3. Diskrete Zufallsvariablen Oft ist nicht das Ergebnis ω ∈ Ω von Interesse, sondern nur quantitative Eigenschaften davon. Sei wieder Ω abzählbar und ferner (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum. Jens Liebenau – SoSe 2014 11 3. Diskrete Zufallsvariablen Jan Kallsen 3.1) Definition: Eine Abbildung X : Ω → R (bzw. X : Ω → Ω0 ) heißt Zufallsgröße bzw. im allgemeinen Fall Zufallsvariable. 3.2) Bezeichnung: Es bezeichne Ω ⊃ {X ∈ B} := {ω ∈ Ω : X(ω) ∈ B} = X −1 (B) und P (X ∈ B) := P ({X ∈ B}). Allgemein: Definiere {Aussage} := {ω ∈ Ω : Aussage gilt für ω} sowie P (Aussage) := P ({ω ∈ Ω : Aussage gilt für ω}). Beispiel: Es ist {X > 5} = {ω ∈ Ω : X(ω) > 5} und P (X > 5) = P ({ω ∈ Ω : X(ω) > 5}). b „Kopf“, 1 = b „Zahl“) und 3.3) Beispiel: Beim N∗ 3 n-facher Münzwurf ist Ω = {0, 1}n (0 = Pn 0 X : Ω → Ω := {0, . . . , n} (oder R), ω = (ω1 , . . . , ωn ) 7→ X(ω) := i=1 ωi die Anzahl der „Zahl“-Würfe. 3.4) Satz: Sei X : Ω → Ω0 eine Zufallsvariable. Dann definiert P X (A0 ) := P (X −1 (A0 )) = P (x ∈ A0 ) für alle A0 ⊂ Ω0 ein Wahrscheinlichkeitsmaß auf (Ω0 , P(Ω0 )). Beweis: P (A ) = P (X (A )) ∈ [0, 1] P (Ω ) = P (X (Ω )) = P (Ω) = 1 A , A , . . . seien paarweise disjunkt. Dann sind auch X X 0 −1 0 X 0 −1 0 0 1 0 2 −1 (A01 ), X −1 (A02 ), . . . paarweise disjunkt (leicht). Es gilt: P X ∞ [ · i=1 ! A0i =P X −1 ∞ [ · !! A0i leicht = i=1 ∞ [ σ-Add. · X −1 (A0i ) = i=1 ∞ X i=1 P (X −1 (A0i )) = ∞ X P X (A0i ). i=1 3.5) Definition: P X in Satz 3.4 heißt Verteilung von X oder Bildmaß von P unter X. Schreibweisen: P X = PX = P ◦ X −1 = X(P ) = L(X) = L(X, P ) 3.6) Definition: Sei X : Ω → R eine Zufallsgröße. Der Erwartungswert von X ist: E(X) := X X(ω) P ({ω}), ω∈Ω falls X = 0 (dann ist eventuell E(X) = ∞) oder X ∈ L1 :⇔ E(|X|) < ∞, d. h., die Reihe ist absolut konvergent. 3.7) Beispiel: Beim Würfelwurf ist für Ω = {1, . . . , 6}, P als Laplace-Verteilung auf Ω und P P X : Ω → R, ω 7→ ω der Erwartungswert E(X) = 6ω=1 X(ω) P ({ω}) = 6ω=1 ω · 16 = 3,5. 3.8) Motivation: Was bedeutet der Erwartungswert? Schließlich „erwartet“ man keine 3,5! 1) Frequentistische Sichtweise: Stichproben-Anteil einer „unendlich großen“ Stichprobe Jens Liebenau – SoSe 2014 12 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen 2) Verallgemeinerte Laplace-Wahrscheinlichkeiten: arithmetisches Mittel der Werte von X bezogen auf die Grundgesamtheit gleich wahrscheinlicher Ergebnisse 3.9) Satz (Transformationssatz): Sei X : Ω → R eine Zufallsgröße. Dann gilt E(X) = P P 1 x∈X(Ω) X P (X = x), falls es sinnvoll ist, d. h., falls X = 0 oder X ∈ L ⇔ x∈X(Ω) |X| P (X = x) < ∞. Allgemeiner: Für f : R → R gilt E(f (X)) = x∈X(Ω) f (X) P (X = x), wenn es sinnvoll ist, also P falls f = 0 oder f (X) = f ◦ X ∈ L1 ⇔ x∈X(Ω) |f (X)| P (X = x) < ∞. P Beweis: Es gilt: CDR X f (X(ω)) P ({ω}) = ω∈Ω | {z ∈ f (X) } X denken x∈X(Ω) f (x) σ-Add. X P ({ω}) = ω∈{X=x} X f (x) P (X = x) x∈X(Ω) und s. o. f (X) ∈ L1 ⇔ E(|f (X)|) < ∞ ⇐⇒ mit |f | X |f (x)| P (X = x) < ∞. x∈X(Ω) 3.10) Bemerkungen: 1) Zur Berechnung von E(X) oder E(f (X)) wird nur P X benötigt, nicht aber P , Ω oder X. 2) Falls P X die relative Häufigkeit von x1 , . . . , xn ∈ R (vgl. 1.4, empirische Verteilung) ist, dann P 3.9 gilt E(X) = n1 ni=1 xi . 3.11) Definitionen: Sei X : Ω → R eine Zufallsgröße mitqE(X 2 ) < ∞. Var(X) := E((X − leicht E(X))2 ) = E(X 2 ) − E 2 (X) heißt Varianz von X. σX := Var(X) heißt Standardabweichung von X. 4. Maße und Wahrscheinlichkeitsmaße Motivation: In der Wahrscheinlichkeitstheorie ordnet man Ereignissen (d. h. Teilmengen von Ω) Zahlen (Wahrscheinlichkeiten) zu. Solche Abbildungen (Maße) sind Gegenstand der Maßtheorie (weitere Anwendungen: Fläche, Volumen, Masse, . . . ). Problem: Die Potenzmenge erweist sich zur Definition von Maßen oft als zu groß, z. B. kann man nicht jeder Teilmenge des R2 in sinnvoller Weise eine Fläche zuordnen. Ausweg: Man beschränkt sich auf kleinere Teilmengen-Systeme, die abgeschlossen bzgl. üblicher Mengenoperationen wie ∪, ∩, C und \ sind. 28.04.2014 Idee: Endliche bzw. abzählbare Mengenoperationen ∪, ∩, Teilmengen-System hinaus. C sowie \ führen nicht aus dem Sei Ω eine Menge. Jens Liebenau – SoSe 2014 13 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen 4.1) Definition: A ⊂ P(Ω) heißt σ-Algebra, falls folgende Aussagen gelten: 1) Ω ∈ A , 2) A ∈ A ⇒ AC ∈ A und ∞ [ 3) A1 , A2 , . . . ∈ A ⇒ Ai ∈ A . i=1 4.2) Satz: Sei A eine σ-Algebra auf Ω. Dann gilt: 1) ∅ ∈ A , ∞ \ 2) A1 , A2 , . . . ∈ A ⇒ Ai ∈ A sowie i=1 3) A1 , . . . , An ∈ A ⇒ n [ Ai ∈ A und i=1 n \ Ai ∈ A für alle n ∈ N∗ . i=1 Beweis: 4.1-2 1) Es ist ∅ = ΩC ∈ A . 2) Es gilt ∞ [ ∞ [ leicht Ai = i=1 !C 4.1-3 i=1 3) Sei n ∈ N∗ . Dann ist n [ 4.1-2 ∈ A. AC i Ai = i=1 ∞ [ Ai mit Ai := ∅ für i = n + 1 und i=1 n \ Ai = i=1 ∞ \ Ai mit Ai := Ω i=1 für i = n + 1. 4.3) Definition: A ⊂ P(Ω) heißt Algebra auf Ω, wenn folgende Bedingungen erfüllt sind: 1) Ω ∈ A , 2) A ∈ A ⇒ AC ∈ A und 3) A, B ∈ A ⇒ A ∪ B ∈ A . 4.4) Satz: Sei A eine Algebra auf Ω. Dann ist: 1) ∅ ∈ A sowie 2) A1 , . . . , An ∈ A ⇒ n [ Ai ∈ A und i=1 n \ Ai ∈ A für alle n ∈ N∗ . i=1 Beweis: 4.3-2 1) Es ist ∅ = ΩC ∈ A . 2) Sei n ∈ N∗ . Die Eigenschaft für die endliche Vereinigung lässt sich per vollständiger Induktion nach n zeigen: n+1 [ i=1 Ai = n [ i=1 ! 4.3-3 Ai ∪ An+1 ∈ A und n \ leicht Ai = i=1 Jens Liebenau – SoSe 2014 n [ !C AC i 4.3-2 ∈ A. i=1 14 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen 4.5) Beispiele: 1) P(Ω) ist eine σ-Algebra. 2) {∅, Ω} heißt die triviale σ-Algebra. 3) Schnitte von σ-Algebren sind σ-Algebren, d. h.: Ist Ai eine σ-Algebra für alle i ∈ I, so ist S i∈I Ai eine σ-Algebra. 4) Sei |Ω| = ∞. Dann ist A := σ-Algebra (leicht). n o A ⊂ Ω : |A| < ∞ ∨ AC < ∞ eine Algebra, aber keine 4.6) Definition: Für C ⊂ P(Ω) heißt σ(C ) := \ {A : A σ-Algebra auf Ω mit C ⊂ A } die von C erzeugte σ-Algebra. Dies ist die kleinste σ-Algebra, die C umfasst (leicht). 4.7) Beispiele: n o 1) Für A ⊂ Ω ist σ({A}) = ∅, A, AC , Ω (leicht). 2) Sei Ω = R (oder allgemeiner ein topologischer Raum). Dann ist die Borel-σ-Algebra7 leicht B := B(R) := σ({A ⊂ Ω : A offen}) = σ({A ⊂ Ω : A abgeschlossen}). Die Borel-σ-Algebra ist die üblicherweise verwendete σ-Algebra auf R (bzw. auf dem Rn ). Sie enthält alle Mengen „von Belang“, ist aber auch nicht „zu groß“ für die Definition der Länge (bzw. der Fläche oder des Volumens) und von Wahrscheinlichkeitsmaßen. 4.8) Satz: Es gilt B(R) = σ({(−∞, a] : a ∈ Q}). Beweis: Sei C := {(a, b) : a, b ∈ R, a 5 b}. Klar ist σ(B) ⊂ B. Ferner gilt B ⊂ σ(B), da für offene Mengen A ⊂ R [ A= {(a, b) : a, b ∈ Q mit (a, b) ⊂ A} (abzählbare Vereinigung) ∞ gilt. Sei D := {(−∞, a] : a ∈ Q}. Für a, b ∈ R mit a 5 b seien (an )∞ n=1 sowie (bn )n=1 Folgen in Q mit an ↓ a, bn ↑ b und bn < b für alle n ∈ N∗ . Damit folgt: (a, b) = ∞ [ (an , bn ] = n=1 ∞ [ n=1 (−∞, bn ] ∩ (−∞, an ]C = ∞ [ ((−∞, bn ] \ (−∞, an ]). n=1 Somit ist C ⊂ σ(D), also gilt σ(C ) ⊂ σ(D). Ferner ist σ(D) ⊂ B, da die Erzeugermengen (−∞, a] abgeschlossen sind. Zusammen folgt B = σ(C ) ⊂ σ(D) ⊂ B. 7 (Félix Édouard Justin) Émile Borel (1871–1956) war ein französischer Mathematiker und Politiker, der grundlegende Beiträge zur Topologie, Funktionen-, Maß-, Wahrscheinlichkeits- und Spieltheorie leistete. Jens Liebenau – SoSe 2014 15 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen 4.9) Definitionen: Sei A eine σ-Algebra auf Ω. Eine Abbildung µ : A → R+ heißt Maß auf A , falls gilt: 1) µ(∅) = 0 und 2) µ ∞ [ ! An = n=1 ∞ X µ(An ) für jede Folge A1 , A2 , . . . paarweise disjunkter Mengen in A (d. h. n=1 An ∩ Am = ∅ für n 6= m). µ heißt Wahrscheinlichkeitsmaß, wenn zusätzlich Folgendes gilt: 3) µ(Ω) = 1 (Normiertheit) und wird dann üblicherweise mit P bezeichnet. 4.10) Bemerkungen: Falls A nur eine Algebra ist, spricht man von einem Prämaß (anstelle von einem Maß). Die S 2. Bedingung aus der Definition 4.9 muss dann nur für Folgen A1 , A2 , . . . mit ∞ n=1 An ∈ A gelten. Falls A eine Algebra ist und statt (2) aus 4.9 die Bedingung (20 ) µ(A ∪ B) = µ(A) + µ(B) für A, B ∈ A mit A ∩ B = ∅ (endliche Additivität) gilt, nennt man µ einen Inhalt. σ-Additivität ist vielleicht weniger offensichtlich als endliche Additivität. Jedoch fordert man sie, da man sonst auf viele schöne Sätze verzichten müsste. 4.11) Bemerkungen: 0 1) Aus (2 ) in der Definition des Inhalts folgt µ m [ ! An = n=1 m X µ(An ) für paarweise disjunkte n=1 Mengen A1 , . . . , Am ∈ A (Beweis durch vollständige Induktion). 2) Aus der σ-Additivität folgt die (endliche) Additivität (wähle A1 := A, A2 := B, A3 := A4 := · · · := ∅), aber nicht umgekehrt. 4.12) Bezeichnung: Sei A eine σ-Algebra auf Ω. (Ω, A ) heißt messbarer Raum oder Messraum. Für ein Maß µ heißt (Ω, A , µ) Maßraum, falls P ein Wahrscheinlichkeitsmaß ist, heißt (Ω, A , P ) Wahrscheinlichkeitsraum. 4.13) Rechenregeln: Für Maße µ gilt: 1) µ(A ∪ B) = µ(A) + µ(B), falls A ∩ B = ∅ ist, 2) µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B), wenn µ(A) < ∞ gilt, 3) µ(A \ B) = µ(A) − µ(A ∩ B), falls µ(A) < ∞ ist, 4) µ ∞ [ i=1 ! Ai 5 ∞ X µ(Ai ) für Mengen A1 , A2 , . . . ∈ A (Sub-σ-Additivität oder σ-Subadditivität), i=1 5) P (A) ∈ [0, 1], wenn P ein Wahrscheinlichkeitsmaß ist, 6) P (A) = 1 − P AC , falls P ein Wahrscheinlichkeitsmaß ist, 7) µ(A) 5 µ(B), wenn A ⊂ B gilt (Isotonie/Monotonie). Jens Liebenau – SoSe 2014 16 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen Beweis: Übung 4.14) Satz: Sei A eine Algebra, µ ein endlicher Inhalt auf A (d. h. µ(Ω) < ∞) und n ∈ N∗ . Dann sind äquivalent: 1) µ ist ein Prämaß (d. h. σ-additiv); 2) Für Folgen A1 , A2 , . . . ∈ A mit An ↑ A ∈ A gilt µ(An ) ↑ µ(A) (Stetigkeit von unten); 3) Für Folgen A1 , A2 , . . . ∈ A mit An ↓ A ∈ A gilt µ(An ) ↓ µ(A) (Stetigkeit von oben); 4) Für Folgen A1 , A2 , . . . ∈ A mit An ↓ ∅ gilt µ(An ) ↓ 0 (Stetigkeit in ∅); 5) Für Folgen A1 , A2 , . . . ∈ A mit An ↑ Ω gilt µ(An ) ↑ µ(Ω) (Stetigkeit in Ω). An ↑ A bedeutet A1 ⊂ A2 ⊂ · · · mit ∞ An = A. Tn=1 ∞ An ↓ A bedeutet A1 ⊃ A2 ⊃ · · · mit n=1 An = A. S Beweis: „(2) ⇒ (3)“: Es ist: (2) leicht leicht C C C = µ(Ω) − µ(A). An ↓ A ⇒ AC n ↑ A ⇒ µ(Ω) − µ(An ) = µ An ↑ µ A „(3) ⇒ (2)“: analog „(4) ⇒ (5)“: wie „(2) ⇒ (3)“ „(5) ⇒ (4)“: wie „(3) ⇒ (2)“ 05.05.2014 „(5) ⇒ (2)“: Zu An ↑ A definiere Bn := An ∪ AC ∈ A . Dann folgt: (5) Bn ↑ Ω ⇒ µ(An ) + µ AC = µ(Bn ) ↑ µ(Ω) = µ(A) + µ AC ⇒ µ(An ) ↑ µ(A). „(2) ⇒ (1)“: Seien A1 , A2 , . . . paarweise disjunkt mit A = · ∞ i=1 Ai ∈ A . Definiere Bn := Dann gilt nach Definition des Limes: S (2) Bn ↑ A ⇒ µ(Bn ) ↑ µ(A) ⇒ µ n [ ! Add. = Ai i=1 n X i=1 µ(Ai ) = | {z } =0 ∞ X Sn i=1 Ai . µ(Ai ) i=1 und aus der Eindeutigkeit des Grenzwerts ergibt sich: µ ∞ [ ! Ai = i=1 ∞ X µ(Ai ). i=1 „(1) ⇒ (2)“: Zu An ↑ A definiere B1 := A1 und Bn := An \ An−1 für n > 1. Dann sind alle Bn S paarweise disjunkt und · ∞ i=1 Bi = A. Also gilt wegen der Definition des Limes: µ(An ) = µ n [ · Bi i=1 ! Add. = n X i=1 µ(Bi ) ↑ ∞ X σ-Add. µ(Bi ) = µ(A). i=1 Jens Liebenau – SoSe 2014 17 4. Maße und Wahrscheinlichkeitsmaße Jan Kallsen 4.15) Bemerkung: Für die Äquivalenz „(1) ⇔ (2)“ wurde µ(Ω) < ∞ nicht benötigt. 4.16) Bezeichnungen: 1) Als Indikatorfunktion von A ⊂ Ω bezeichnet man 1A : Ω → R, ω 7→ 1, 0, falls ω ∈ A, sonst. 2) Zu A1 , A2 , . . . ⊂ Ω definiere: lim sup An := n→∞ lim inf An := n→∞ ∞ [ ∞ \ n=1 m=n ∞ \ ∞ [ Am ⊂ Ω: Unendlich viele der An treten ein; Am ⊂ Ω: Fast alle8 der An treten ein. n=1 m=n 4.17) Satz: Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum und A1 , A2 , . . . eine Folge in A mit An → A (im Sinne von 1An (ω) → 1A (ω) für alle ω ∈ Ω) für n → ∞. Dann ist A ∈ A und P (An ) → P (A) für n → ∞. Beweis: Seien m, n ∈ N∗ . Dann gilt: lim sup An = n→∞ ∞ [ ∞ \ n=1 m=n | A ∈A m |{z} und ebenso lim inf An = n→∞ ∈A {z ∈A } ∞ ∞ \ [ n=1 m=n | A ∈A. m |{z} ∈A {z ∈A } Weiter ist: leicht 1lim sup An = inf sup 1Am = lim sup 1An n=1 m=n n→∞ n→∞ leicht und 1lim inf An = sup inf 1Am = lim inf 1An . n→∞ n=1 m=n n→∞ Wegen 1A = limn→∞ 1An = lim supn→∞ 1An folgt A = lim supn→∞ An ∈ A und analog A = lim inf n→∞ An ∈ A . Für Bn := T∞ m=n Am und Cn := S∞ m=n Am gilt: Bn ↑ lim inf An = A und Cn ↓ lim sup An = A, n→∞ n→∞ also nach Satz 4.14: P (Bn ) → P (A) sowie P (Cn ) → P (A) für n → ∞. Wegen Bn ⊂ An ⊂ Cn gilt P (A) ← P (Bn ) 5 P (An ) 5 P (Cn ) → P (A) und folglich gilt auch P (An ) → P (A). 8 d. h. alle bis auf endlich viele Jens Liebenau – SoSe 2014 18 5. Konstruktion von Maßen und Wahrscheinlichkeitsmaßen Jan Kallsen 5. Konstruktion von Maßen und Wahrscheinlichkeitsmaßen Motivation: Oft sind Flächeninhalt, Volumen und Wahrscheinlichkeit zunächst nur von wenigen Mengen bekannt, z. B. P ((a, b]) = b − a für 0 5 a 5 b 5 1 (Gleichverteilung auf [0, 1]). Ob diese Abbildung in eindeutiger Weise zu einem Maß auf einer geeigneten σ-Algebra ausgedehnt werden kann, muss erst noch untersucht werden. Sei Ω eine Menge. Für Beweise sind Dynkin-Systeme9 sehr nützlich: 5.1) Definition: D ⊂ P(Ω) heißt Dynkin-System, falls gilt: 1) Ω ∈ D, 2) A, B ∈ D mit A ⊂ B ⇒ B \ A ∈ D und 3) A1 , A2 , . . . ∈ D paarweise disjunkt ⇒ · ∞ i=1 Ai ∈ D. S 5.2) Bemerkung: Statt (3) wäre auch möglich: S 30 ) Aus B1 , B2 , . . . ∈ D mit Bn ↑ B folgt B ∈ D. (Definiere Bn := · ni=1 Ai bzw. An := Bn \Bn−1 .) 5.3) Definitionen: Sei E ⊂ P(Ω). 1) E heißt ∩-stabil (durchschnittsstabil oder schnittstabil), falls A ∩ B ∈ E für alle A, B ∈ E gilt. 2) D(E ) := \ {D : D Dynkin-System mit E ⊂ D} heißt das von E erzeugte Dynkin-System. 5.4) Satz: Sei E ⊂ P(Ω) ∩-stabil. Dann gilt D(E ) = σ(E ). Beweis: a) D(E ) ist ein Dynkin-System: D(E ) ⊂ σ(E ) (klar). b) D(E ) ist ∩-stabil: Sei B ∈ D(E ) und DB := {A ⊂ Ω : A ∩ B ∈ D(E )}. Dann ist DB ein Dynkin-System: 1) Ω ∈ DB , 2) Für C, D ∈ DB mit C ⊂ D gilt (D \C)∩B = (D ∩ B) \ (C ∩ B) ∈ D(E ), also D \C ∈ D(E ), | {z ∈ D(E ) } | {z ∈ D(E ) } 3) Für paarweise disjunkte C1 , C2 , . . . ∈ DB gilt: ∞ [ ! ∞ [ ∞ [ · Ci ∩ B = · (Ci ∩ B) ∈ D(E ) ⇒ · Ci ∈ DB . i=1 9 i=1 | {z ∈ D(E ) } i=1 Eugene B. Dynkin (ursprünglich: Jewgeni Borissowitsch Dynkin; * 1924) ist ein russischer Mathematiker, der als Kolmogorows Assistenzprofessor (1948–1953) zur Wahrscheinlichkeitstheorie kam, jedoch auch Beiträge zur Lie-Algebren- sowie Darstellungstheorie leistete. Jens Liebenau – SoSe 2014 19 5. Konstruktion von Maßen und Wahrscheinlichkeitsmaßen Jan Kallsen Aus der ∩-Stabilität von E folgt E ⊂ DB für alle B ∈ E und daraus D(E ) ⊂ DB für alle B ∈ E , weil DB ein Dynkin-System ist. Somit ist A ∩ B ∈ D(E ) für alle A ∈ D(E ) und B ∈ E . Sei A ∈ D(E ). Dann gilt E ⊂ DA , also D(E ) ⊂ DA und folglich ist D(E ) ∩-stabil. c) D ist ein ∩-stabiles Dynkin-System und damit eine σ-Algebra: S Z. z.: A1 , A2 , . . . ∈ D ⇒ ∞ i=1 Ai ∈ D. Wegen A ∪ B = A ∪· (B \ (A ∩ B)) ∈ D für alle A, B ∈ D sind endliche Vereinigungen wieder in S T D enthalten. Sei nun n ∈ N∗ , B1 := A1 und Bn := ( ni=1 Ai ) \ ( ni=1 Ai ) ∈ D für n > 1. Dann S∞ S∞ ist i=1 Ai = · i=1 Bi ∈ D, da die Vereinigung disjunkt ist. Aus (a), (b) sowie (c) folgt D(E ) ⊂ σ(E ) sowie σ(E ) ⊂ D(E ), also gilt σ(E ) = D(E ). 5.5) Bemerkung: Eine typische Anwendung ist das Prinzip der guten Mengen zum Nachweis von Aussagen der Form: Beh.: Die Eigenschaft „e“ gilt für alle A ∈ A , wobei A eine σ-Algebra ist. Beweismethode 1) Man zeigt: a) „e“ gilt für alle A ∈ E , wobei σ(E ) = A ist, und b) {A ∈ A : A hat Eigenschaft „e“.} ist eine σ-Algebra. Problem: (b) ist oft nicht offensichtlich. Beweismethode 2) Man zeigt: a) „e“ gilt für alle A ∈ E , wobei E ∩-stabil und σ(E ) = A ist, und b) {A ∈ A : A hat Eigenschaft „e“.} (disjunkte Mengen) ist ein Dynkin-System. 5.6) Satz (Fortsetzungssatz von Carathéodory10 ): Sei A eine Algebra und µ ein Prämaß auf A . Dann existiert ein Maß µ∗ auf σ(A ) derart, dass µ∗ |A = µ gilt. Zur Beweisvorbereitung benötigen wir folgende Hilfsmittel: 5.7) Definitionen: Eine Abbildung µ∗ : P(Ω) → [0, ∞] heißt äußeres Maß, falls gilt: 1) µ∗ (∅) = 0, 2) A ⊂ B ⇒ µ∗ (A) 5 µ∗ (B) und 3) A1 , A2 , . . . ⊂ Ω ⇒ µ∗ ∞ S i=1 Ai 5 ∞ P µ∗ (Ai ) (Sub-σ-Additivität). i=1 A ⊂ Ω heißt µ∗ -messbar, wenn µ∗ (Q) = µ∗ (Q ∩ A) + µ∗ Q ∩ AC für alle Q ⊂ Ω gilt. 5.8) Satz: Sei µ∗ ein äußeres Maß auf Ω. Dann ist A ∗ := {A ⊂ Ω : A ist µ∗ -messbar.} eine σ-Algebra und µ∗ |A ∗ ein Maß. 08.05.2014 10 Constantin Carathéodory (1873–1950) war ein Mathematiker griechischer Herkunft, der fundamentale Ergebnisse in vielen Gebieten der Mathematik – insbesondere in der Theorie der partiellen Differenzialgleichungen, der Funktionentheorie sowie der Maß- und Integrationstheorie – lieferte. Jens Liebenau – SoSe 2014 20 Jan Kallsen 5. Konstruktion von Maßen und Wahrscheinlichkeitsmaßen Beweis: . . . Beweis des Fortsetzungssatzes: . . . 5.9) Satz (Eindeutigkeitssatz): Es seien µ1 sowie µ2 Maße auf einem messbaren Raum (Ω, A ). Ferner sei E ein ∩-stabiler Erzeuger von A mit folgenden Eigenschaften: 1) A ∈ E ⇒ µ1 (A) = µ2 (A) und 2) µ1 und µ2 sind σ-endlich auf E (d. h., es existiert eine Zerlegung (Ai )∞ i=1 von Ω in E mit ∗ µ(Ai ) < ∞ für alle i ∈ N ). Dann gilt µ1 ≡ µ2 . Beweis: . . . 5.10) Definition: Sei (Ω, A , µ) ein Maßraum. A ⊂ Ω heißt µ-Nullmenge, falls es ein B ∈ A mit A ⊂ B und µ(B) = 0 gibt. 5.11) Bemerkungen: 1) Nullmengen müssen nicht unbedingt messbar (d. h. in A ) sein. 2) Man sagt, dass eine von ω ∈ Ω abhängige Eigenschaft fast überall (abgekürzt: f. ü.) gilt, falls sie für alle ω außerhalb einer Nullmenge gilt. Bei Wahrscheinlichkeitsmaßen sagt man: Die Eigenschaft gilt fast sicher (kurz: f. s.). 5.12) Satz (Vervollständigung): Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum und N := {N ⊂ Ω : N ist eine P -Nullmenge.}. Dann ist A 0 := {A ∪ N : A ∈ A , N ∈ N } eine σ-Algebra, die P -Vervollständigung von A . P lässt sich auf eindeutige Weise zu einem Wahrscheinlichkeitsmaß P auf A 0 fortsetzen, nämlich durch P (A ∪ N ) := P (A) für A ∈ A und N ∈ N . 5.13) Bemerkung: Man kann zeigen: Die σ-Algebra A ∗ der äußeren Mengen im Fortsetzungssatz (Satz 5.6) ist gerade die P -Vervollständigung von σ(A ). Beweis: . . . 12.05.2014 ... Jens Liebenau – SoSe 2014 21 6. Wahrscheinlichkeitsmaße auf R Jan Kallsen 6. Wahrscheinlichkeitsmaße auf R Ein wichtiger Spezialfall sind Zufallsexperimente, deren Ergebnisse Zahlen sind, d. h. für den Grundraum (Ω, A ) = (R, B). 6.1) Definition: Unter der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B) versteht man die Funktion F : R → [0, 1], x 7→ P ((−∞, x]). Verteilungsfunktionen sind nützlich, da sie einfachere Objekte als Wahrscheinlichkeitsmaße sind, aber das Maß bereits eindeutig festlegen: 6.2) Satz: Die Verteilungsfunktion F legt P eindeutig fest. Beweis: Seien P und Q Wahrscheinlichkeitsmaße mit Verteilungsfunktion F . Für alle x ∈ R ⊃ Q gilt dann P ((−∞, x]) = F (x) = Q(−∞, x]). Nach Satz 4.8 und Eindeutigkeitssatz 5.9 ist P ≡ Q. (Erinnerung: B(R) = σ({(−∞, a] : a ∈ Q})) 6.3) Satz: F : R → [0, 1] ist genau dann die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf (R, B), falls gilt: 1) F ist monoton wachsend, 2) F ist rechtsseitig stetig, 3) limx→−∞ F (x) = 0 sowie limx→∞ F (x) = 1. Beweis: . . . 6.4) Korollar: Sei F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B). Dann gilt: 1) P ((x, y]) = F (y) − F (x), 2) P ([x, y]) = F (y) − F (x−), wobei F (x−) := limz↑x F (z) ist, 3) P ([x, y)) = F (y−) − F (x), 4) P ((x, y)) = F (y−) − F (x−), 5) P ({x}) = F (x) − F (x−). Beweis: 1) klar 2) Es gilt P ([x, y]) = limn→∞ P 1 x − ,y n 1 F (y) − F x − n = limn→∞ = F (y) − F (x−). 3, 4, 5) ähnlich Jens Liebenau – SoSe 2014 22 6. Wahrscheinlichkeitsmaße auf R Jan Kallsen 6.5) Beispiele: 1) Wahrscheinlichkeitsmaße P auf einer diskreten Teilmenge Ω von R, wie sie in den Kapiteln 1–3 behandelt werden (Poisson-, Bernoulli-, geometrische, Pascal- und diskrete Gleichverteilung), lassen sich durch P 0 (B) := P (B ∩ Ω) für alle B ∈ B sowie die Betrachtung der Verteilungsfunktionen mit Satz 6.3 auf (R, B) fortsetzen. 15.05.2014 2) Die Ein-Punkt-Masse E a 1, falls a ∈ A, ist das durch P (A) := 1A (a) = definierte 0, sonst Wahrscheinlichkeitsmaß. Es kann für beliebige messbare Räume (Ω, A ) und a ∈ Ω definiert werden. Im Fall Ω = R ist dessen Verteilungsfunktion F (x) := 1[a,∞) (x). 3) Für jede nicht-negative (Riemann-/Lebesgue-)integrierbare Funktion f : R → R mit Z ∞ f (x) dx = 1 lässt sich via −∞ F (y) := Zy f (x) dx −∞ und Satz 6.3 ein Wahrscheinlichkeitsmaß auf (R, B) definieren – das Wahrscheinlichkeitsmaß mit der Dichte f . (Nicht jedes Wahrscheinlichkeitsmaß auf (R, B) hat eine Dichte!) Beispiele: a) Gleichverteilung auf [a, b]: f (x) := 1 1[a,b] mit a < b, b−a b) Exponentialverteilung mit Parameter β: f (x) := β exp(−βx) 1[0,∞) mit β > 0 (z. B.: Lebenszeiten von gedächtnislosen Objekten), β α α−1 x exp(−βx) 1[0,∞) für α, β ∈ Γ(α) (0, ∞) (z. B.: Lebensdauern von Systemen mit Ersatzteilen), c) Γ-Verteilung mit Parametern α sowie β: f (x) := d) Weibull-Verteilung11 mit Parametern α und β: f (x) := αβ α xα−1 exp(−(βx)α ) 1[0,∞) für α, β ∈ (0, ∞), ! 1 (x − µ)2 √ e) Normalverteilung mit Parametern µ und σ : f (x) := exp − für µ ∈ R 2σ 2 2πσ 2 sowie σ 2 ∈ (0, ∞), Bezeichnung: N (µ, σ 2 ) (die wichtigste Verteilung für alles Mögliche wegen des zentralen Grenzwertsatzes), 2 µ,σ 2 (log(x)) für x > 0, x 0, sonst, 2 Dichte von N (µ, σ ) (verschiedentlich für positive Objekte verwandt), f) Lognormalverteilung mit Parametern µ und σ 2 : f (x) := wobei gµ,σ2 1g g) Doppel-Exponentialverteilung oder Laplace-Verteilung mit Parametern α sowie β: f (x) := β exp(−β|x − α|) für α ∈ R und β ∈ (0, ∞), 2 11 (Ernst Hjalmar) Waloddi Weibull (1887–1979) war ein schwedischer Ingenieur und Mathematiker. Er entstammte einer Familie, die im 18. Jahrhundert aus Schleswig-Holstein nach Schweden eingewandert war. Jens Liebenau – SoSe 2014 23 7. Messbare Funktionen und Zufallsvariablen Jan Kallsen 1 1 für α ∈ R βπ 1 + (x − α)2 /β 2 und β ∈ (0, ∞) (ist eine stabile Verteilung, die in Verallgemeinerungen des zentralen Grenzwertsatzes auftritt). h) Cauchy-Verteilung mit Parametern α sowie β: f (x) := 7. Messbare Funktionen und Zufallsvariablen Wir wollen wie in Kapitel 3 Zufallsvariablen betrachten. Da aber z. B. P (X ∈ B) im Falle {X ∈ B} = X −1 (B) ∈ / A nicht definiert ist, nennen wir nicht jede Abbildung X : Ω → Ω0 Zufallsvariable. Sie sind Spezialfälle der messbaren Abbildungen, die die strukturerhaltenden Abbildungen in der Wahrscheinlichkeitstheorie bilden (analog: stetige Abbildungen in der Topologie und lineare Abbildungen in der linearen Algebra). 7.1) Definition: Seien (E, E ) und (F, F ) messbare Räume. 1) Eine Abbildung X : E → F heißt messbar (bzw. E -F -messbar), falls X −1 (Λ) ∈ E für alle Λ ∈ F ist. 2) Falls X auf einem Wahrscheinlichkeitsraum (Ω, A , P ) definiert ist – d. h. (E, E ) = (Ω, A ) –, heißt X Zufallsvariable. 7.2) Bemerkungen: 1) Wenn nichts gesagt wird, nimmt man bei Zufallsvariablen i. d. R. an, dass sie Näheres (F, F ) = R, B -wertig sind, wobei R := [−∞, ∞] und B := σ({(−∞, x] : x ∈ R}) = {A ∪ B : A ∈ B, B ⊂ {−∞, ∞}} ist. (Dies ist tatsächlich eine Borel-σ-Algebra, wenn man eine Menge A ⊂ R genau dann offen nennt, wenn Folgendes gilt: A ∩ R offen ist, ∞ ∈ A ⇒ (x, ∞] ⊂ A für ein x ∈ R sowie −∞ ∈ A ⇒ [−∞, x) ⊂ A für ein x ∈ R.) 2) Messbarkeit (von Abbildungen) heißt: „Urbilder messbarer Mengen sind messbar.“ Vgl. Stetigkeit: „Urbilder offener Mengen sind offen.“ 7.3) Satz: Seien (E, E ) sowie (F, F ) messbare Räume, C ⊂ F mit F = σ(C ) und X : E → F eine Abbildung. Dann ist X genau dann messbar, wenn X −1 (C ) ⊂ E gilt. Beweis: . . . 7.4) Satz und Definition: 1) Sei E eine Menge, (F, F ) ein messbarer Raum sowie X : E → F eine Abbildung. Dann ist σ(X) := X −1 (F ) die kleinste σ-Algebra E auf E derart, dass X E -F -messbar ist. Sie heißt die von X erzeugte σ-Algebra. Jens Liebenau – SoSe 2014 24 7. Messbare Funktionen und Zufallsvariablen Jan Kallsen 2) Sei E eine Menge, (F Si , Fi ) messbare Räume, Xi : E → Fi eine Abbildung für i ∈ I. Dann −1 ist σ((Xi )i∈I ) := σ i∈I Xi (Fi ) die kleinste σ-Algebra E auf E derart, dass alle Xi E -Fi -messbar sind. Sie heißt die von (Xi )i∈I erzeugte σ-Algebra. Beweis: Übung 7.5) Korollar: Sei (E, E ) ein messbarer Raum und X, X1 , X2 , . . . : E → R Funktionen. 1) X ist genau dann messbar, wenn {X 5 a} := {ω ∈ E : X(ω) 5 a} = X −1 ((−∞, a]) ∈ E oder {X < a} ∈ E für alle a ∈ R ist. 2) Sind X1 , X2 , . . . messbar, so sind supn Xn , inf n Xn , lim supn→∞ Xn sowie lim inf n→∞ Xn messbar. 3) Falls X1 , X2 , . . . messbar sind und Xn (ω) → X(ω) für alle ω ∈ E gilt, ist auch X messbar. Beweis: . . . 19.05.2014 7.6) Satz: Seien X : (E, E ) → (F, F ) und Y : (F, F ) → (G, G ) messbar. Dann ist Y ◦ X : (E, E ) → (G, G ) ebenfalls messbar. Beweis: Für A ∈ G ist (Y ◦ X)−1 (A) = X −1 (Y −1 (A)) ∈ E . | {z ∈F } Definition: U ⊂ P(E) wird als Topologie auf E (System offener Mengen) bezeichnet, falls beliebige Vereinigungen und endliche Durchschnitte von Mengen in U wieder in U liegen. (E, U ) heißt topologischer Raum, falls U eine Topologie auf E ist. 7.7) Satz: Seien (E, U ) und (F, V ) topologische Räume und E := σ(U ) sowie F := σ(V ) die zugehörigen Borel-σ-Algebren. Dann ist jede stetige Abbildung X : E → F E -F -messbar (Borel-messbar). Beweis: Da X stetig ist, gilt X −1 (V ) ⊂ U ⊂ σ(U ) = E . Wegen F = σ(V ) folgt die Behauptung nach Satz 7.3. 7.8) Satz: Sei (E, E ) ein messbarer Raum und (F, F ) = R, B (oder = (R, B)). 1) Für A ⊂ E gilt: 1A ist genau dann messbar, wenn A ∈ E ist. 2) Falls X1 , . . . , Xn : (E, E ) → (R, B) sowie f : (Rn , B(Rn )) → (F, F ) messbar sind, dann ist auch f (X1 , . . . , Xn ) : (E, E ) → (F, F ) messbar. 3) Mit messbaren X, Y : (E, E ) → (F, F ) sind auch X + Y , XY , sowie X ∧ Y := min(X, Y ) messbar, sofern sie wohldefiniert sind. X , X ∨ Y := max(X, Y ) Y Beweis: . . . Jens Liebenau – SoSe 2014 25 8. Integration nach Maßen Jan Kallsen Mithilfe von messbaren Abbildungen kann man Maße auf den Bildraum „transportieren“: 7.9) Satz: Sei (E, E , µ) ein Maßraum, (F, F ) ein messbarer Raum und X : E → F messbar. Dann definiert µX : F → R+ , B 7→ µ(X −1 (B)) ein Maß auf (F, F ), das Bildmaß von µ unter X (alternative Bezeichnung: X(µ)). Beweis: 1) Es ist µX (∅) = µ(X −1 (∅)) = µ(∅) = 0. 2) Für paarweise disjunkte B1 , B2 , . . . ∈ F gilt: µ ∞ [ X ! · Bi = µ X i=1 −1 ∞ [ · Bi i=1 !! leicht = µ ∞ [ · X ! −1 i=1 (Bi ) = ∞ X µX (Bi ). i=1 7.10) Bezeichnung: Wenn X eine Zufallsvariable auf (Ω, A , P ) ist, heißt P X Verteilung von X – Schreibweisen: P X (B) = P (X −1 (B)) = (P ◦ X −1 )(B) = P (X ∈ B) = P (ω : X(ω) ∈ B). P X ist wiederum ein Wahrscheinlichkeitsmaß (vgl. Satz 3.4 und Definition 3.5). 7.11) Bemerkungen: 1) Wenn eine Zufallsvariable X R-wertig ist, nennt man die Verteilungsfunktion FX von P X auch Verteilungsfunktion von X. Es ist FX (x) = P X ((−∞, x]) = P (X 5 x). Ebenso spricht man von der Dichte fX von X, falls diese existiert. 2) Oft sieht man vom Raum (Ω, A, P ) und der Zufallsvariablen X ab und arbeitet stattdessen X direkt auf dem Bildraum, z. B. R, B, P . 8. Integration nach Maßen Integrale sind eine Art gewichteter Mittelwert numerischer Funktionen. Für die Wahrscheinlichkeitstheorie benötigen wir sie zur Definition des Erwartungswerts. Als „Nebenprodukt“ erhalten wir das Lebesgue-Integral,12 das das Riemann-Integral13 verbessert. Im Folgenden sei (Ω, A , µ) ein Maßraum. 8.1) Definitionen: 12 Henri Léon Lebesgue (1875–1941) war ein französischer Mathematiker, der den Integralbegriff erweiterte und damit die Maßtheorie begründete. Das Lebesgue-Maß und -Integral wurden zum Standardwerkzeug in der reellen Analysis. 13 (Georg Friedrich) Bernhard Riemann (1826–1866) war ein deutscher Mathematiker, der trotz seines kurzen Lebens auf vielen Gebieten der Analysis, Differenzialgeometrie, mathematischen Physik sowie der analytischen Zahlentheorie bahnbrechend wirkte. Er gilt als einer der bedeutendsten Mathematiker. Jens Liebenau – SoSe 2014 26 8. Integration nach Maßen Jan Kallsen 1) Eine nicht-negative, messbare Abbildung X : (Ω, A , µ) → (R, B) heißt Elementarfunktion, falls sie nur endlich viele (endliche) Werte annimmt, d. h., für a1 , . . . , an ∈ R+ und A1 , . . . , An ∈ A ist: X= n X ai 1Ai . i=1 2) Für eine Elementarfunktion X wie in 1. heißt Z X dµ := n X ai µ(Ai ) i=1 das Integral von X. 8.2) Satz: 1) Das Integral für Elementarfunktionen ist wohldefiniert, d. h., es hängt nicht von der P Darstellung X = ni=1 ai 1Ai ab. 2) Das Integral ist linear, d. h., für Elementarfunktionen X und Y sowie β ∈ R gilt: Z (X + Y ) dµ = Z X dµ + Z Y dµ und Z βX dµ = β Z X dµ. 3) Das Integral ist monoton, d. h., für Elementarfunktionen X sowie Y mit X 5 Y gilt: Z X dµ 5 Z Y dµ. Beweis: 1) Übung 2) . . . 3) . . . 8.3) Definition: Sei X : (Ω, A , µ) → R, B messbar und nicht-negativ. Definiere das Integral von X als Z Z X dµ := sup Y dµ : Y Elementarfunktion mit Y 5 X . Z 8.4) Bemerkungen: Es ist X dµ ∈ R+ . Für Elementarfunktionen sind die Definitionen 8.1 und 8.3 konsistent. Für beliebige messbare Abbildungen X : (Ω, A , µ) → R, B definiere X + := X ∨ 0 sowie X − := −(X ∨ 0). Dann gelten folgende Gleichungen und Ungleichungen: X = X + − X − , X + , X − = 0 sowie |X| = X + + X − . Jens Liebenau – SoSe 2014 27 8. Integration nach Maßen Jan Kallsen 8.5) Definitionen: Sei X : (Ω, A , µ) → R, B messbar mit ∞. Z + X dµ < ∞ oder Z X − dµ < 1) Das Integral von X ist definiert durch Z 2) Im Falle Z + X dµ < ∞ und Z X dµ = Z X + dµ − Z X − dµ. X − dµ < ∞ heißt X integrierbar. n o 3) Definiere L 1 := L 1 (Ω, A , µ) := X : (Ω, A , µ) → R, B : X integrierbar . 22.05.2014 Für Beweise sind die folgenden Aussagen sehr nützlich: 8.6) Satz: Für jede nicht-negative, messbare Abbildung X : (Ω, A , µ) → R, B existiert eine Folge (Xn )∞ n=1 von Elementarfunktionen mit Xn ↑ X, z. B.: Xn (ω) := k n · 2−n für k · 2−n 5 X(ω) < (k + 1) · 2−n und k ∈ {0, 1, . . . , n · 2n − 1}, für X(ω) > n. Beweis: klar 8.7) Satz: Für X sowie (Xn )∞ n=1 wie in Satz 8.6 gilt Z Xn dµ ↑ Z X dµ. Beweis: . . . 8.8) Bemerkung: Ein typisches Beweisverfahren ist das folgende, die so genannte algebraische oder maßtheoretische Induktion: Behauptung: Für jede messbare Funktion (Ω, A , µ) → R, B gilt die Eigenschaft „e“. 1. Schritt) „e“ gilt für Indikatorfunktionen 1A für alle A ∈ A (eventuell mit dem Prinzip der guten Mengen, s. Bemerkung 5.5). 2. Schritt) „e“ bleibt für Linearkombinationen von Indikatorfunktionen gültig. 3. Schritt) „e“ gilt für Xn = 0 für alle n ∈ {1, 2, . . .} mit Xn ↑ X. Dann gilt „e“ auch für supn∈N∗ Xn = X. 4. Schritt) „e“ gilt für X + sowie X − . Dann gilt „e“ auch für X = X + − X − . 8.9) Bezeichnung: Für A ∈ A definiere Z Z X dµ := X 1A dµ, A falls dieses existiert – weitere Bezeichnungen: Z A X dµ = Z X(ω) dµ(ω) = A Jens Liebenau – SoSe 2014 Z X(ω) µ(dω). A 28 8. Integration nach Maßen Jan Kallsen 8.10) Satz: Seien Xn , X, Y : (Ω, A , µ) → R, B messbar. 1) L 1 ist ein Vektorraum, X 7→ Z X dµ ist linear, aus X = 0 folgt 0 5 X 5 Y mit Y ∈ L 1 folgt X ∈ L 1 und Z X dµ 5 Z X dµ = 0 und aus Y dµ. 2) Es ist X ∈ L genau dann, wenn |X| ∈ L ist, woraus 1 Z 1 Z X dµ 5 Z |X| dµ folgt. Ist X beschränkt und gilt µ(Ω) < ∞, resultiert daraus wiederum, dass X ∈ L 1 ist. 3) Seien X, Y Z= 0 oder ∈ L 1 . Es gilt X = Y f. ü. (d. h. µ(X 6= Y ) = 0) genau dann, wenn Z X dµ = Y dµ für alle A ∈ A ist. A A 4) Satz von derZ monotonen Konvergenz (Satz von Beppo Levi):14 Aus Xn = 0 und Xn ↑ X folgt Z Xn dµ ↑ X dµ. 5) Lemma von Fatou:15 Aus Xn = Y und Y ∈ L 1 ergibt sich Z lim inf Xn dµ 5 lim inf n→∞ Z n→∞ Xn dµ (gilt insbesondere für Xn = 0). Aus Xn → X f. s., |Xn | 5 Y 6) Satz von der majorisierten Konvergenz Z(Satz von Lebesgue): Z sowie Y ∈ L 1 folgt Xn , X ∈ L 1 und Xn dµ → X dµ. Beweis: . . . 26.05.2014 8.11) Definition: Sei X : (Ω, A , P ) → R, B eine Zufallsgröße. Dann heißt E(X) := der Erwartungswert von X. Z X dP 8.12) Bemerkung: In der Situation von Kapitel 3 ist dies konsistent mit Definition 3.6. Beweis: Für X = 0 (sonst Zerlegung X = X + − X − ): ... 8.13) Satz: Sei (Xn )∞ n=1 eine Folge von Zufallsgrößen. 1) Wenn alle Xn nicht-negativ sind, gilt: E ∞ X ! Xn = n=1 2) Wenn P∞ n=1 E(|Xn |) < ∞ ist, dann existiert ∞ X E(Xn ). (5) n=1 P∞ n=1 Xn f. s. und (5) gilt ebenfalls. 14 Beppo Levi (1875–1961) war ein italienischer Mathematiker jüdischer Herkunft, der wichtige Beiträge zur Analysis (z. B. zur Lebesgue’schen Integrationstheorie) lieferte. 15 Pierre (Joseph Louis) Fatou (1878–1929) war ein französischer Analytiker sowie Astronom (Himmelsmechaniker), der wie auch der französische Mathematiker Gaston (Maurice) Julia (1893–1978) den Grundstein der heutigen komplexen Dynamik legte. Jens Liebenau – SoSe 2014 29 8. Integration nach Maßen Jan Kallsen Beweis: . . . 8.14) Bemerkung: Oft „identifiziert“ man Zufallsvariablen bzw. messbare Abbildungen miteinander, die f. s. resp. f. ü. gleich sind, da sie die gleichen maßtheoretischen Eigenschaften besitzen. Formaler: Man betrachtet statt Zufallsvariablen die Äquivalenzklassen von Zufallsvariablen bzgl. der Äquivalenzrelation X ∼ Y :⇔ X = Y f. s. bzw. f. ü. In diesem Sinne sei L1 := L 1 /∼ (die Menge der Äquivalenzklassen bzgl. ∼) bzw. Lp := L p /∼, wobei L p := {X : (Ω, A , µ) → (R, B) : |X|p ∈ L 1 } für p ∈ [1, ∞). p Grund: L ist mit kXkp := Z p |X| dµ 1/p ein normierter Raum (sogar ein Banach-Raum),16 L p hingegen nicht (da kXkp = 0 6⇒ X = 0 gilt). 8.15) Satz: Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum. 1) Für X, Y ∈ L2 gilt XY ∈ L1 es gilt die Cauchy-Schwarz-Ungleichung:17 |E(XY )| 5 q E(X 2 ) E(Y 2 ). (6) 2) Es ist L2 ⊂ L1 . 3) Für X ∈ L2 gilt E 2 (X) 5 E(X 2 ). 4) L2 ist ein Vektorraum (sogar ein Hilbert-Raum18 – Beweis später). Beweis: . . . 8.16) Definitionen: Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum. Für X ∈ L2 heißt Var(X) := 2 2 E((X − E(X))2 ) = E(X q ) − E (X) die Varianz von X – andere Bezeichnungen: Var(X) = 2 σ 2 (X) = σX . σ(X) = Var(X) heißt Standardabweichung von X (vgl. Definition 3.11). Der Erwartungswert beschreibt den mittleren Wert einer Zufallsgrößen, die Varianz die mittlere quadratische Abweichung vom Erwartungswert. 8.17) Satz (Tschebyschow-Ungleichung19 ): Für X ∈ L2 (Ω, A , P ) gilt: P (|X| = a) 5 E(X 2 ) Var(X) ⇔ P (|X − E(X)| = a) 5 . a2 a2 16 Stefan Banach (1892–1945) war ein polnischer Mathematiker; er gilt als Begründer der modernen Funktionalanalysis und einer der Hauptvertreter der Lemberger Mathematikerschule. 17 Hermann Amandus Schwarz (1843–1921) war ein deutscher Mathematiker, der sich insbesondere mit der Funktionentheorie und der Theorie der Minimalflächen beschäftigte. 18 David Hilbert (1862–1943) war ein deutscher Mathematiker; er gilt als einer der bedeutendsten Mathematiker der Neuzeit. Viele seiner Arbeiten auf dem Gebiet der Mathematik sowie mathematischen Physik begründeten eigenständige Forschungsgebiete. 19 Pafnuti Lwowitsch Tschebyschow (1821–1894) war ein russischer Mathematiker; er arbeitete auf den Gebieten Interpolation, Approximation, Funktionentheorie, Wahrscheinlichkeitstheorie, Zahlentheorie (insbesondere Primzahltheorie), Mechanik sowie Ballistik und gilt zusammen mit Nikolai Iwanowitsch Lobatschewski (1792–1856) als der bedeutendste russische Mathematiker des 19. Jahrhunderts. Jens Liebenau – SoSe 2014 30 9. Unabhängigkeit und Produktmaße Jan Kallsen 2 2 2 2 Beweis: Wegen a 1{|X|=a} 5 X ist a P (|X| = a) = E a 1{|X|=a} 5 E(X 2 ). 8.18) Satz (Transformationssatz): Seien X : (Ω, A , µ) → (E, E ) sowie h : (E, E ) → R, B messbar. 1) Es ist h(X) ∈ L1 (Ω, A , µ) genau dann, wenn h ∈ L1 (E, E , µX ) ist. 2) Falls h = 0 oder ∈ L1 (E, E , µX ) ist, gilt: Z h(X) dµ = Z h dµX . E Ω Beweis: Übung – mit algebraischer Induktion (vgl. Bemerkung 8.8) 8.19) Korollar: Sei X : (Ω, A , P ) → R, B in L1 bzw. L2 . Dann gilt: E(X) = Var(X) = Z x P X (dx) Z (x − E(X))2 P X (dx) = bzw. Z x2 P X (dx) − Z x P X (dx) 2 . Beweis: Es ist h(x) = x bzw. h(x) = (x − E(X))2 resp. h(x) = x2 . 9. Unabhängigkeit und Produktmaße Ein zentraler Begriff der Wahrscheinlichkeitstheorie ist die Unabhängigkeit von Ereignissen bzw. Zufallsvariablen (vgl. Kapitel 2). Erinnerung: Für A, B ∈ A sei P (A | B) := P (A ∩ B) die bedingte Wahrscheinlichkeit von A P (B) gegeben B (sofern sie existiert). A und B heißen unabhängig, falls P (A | B) = P (A) gilt, d. h. P (A ∩ B) = P (A) P (B). Allgemeiner: 9.1) Definition: Sei (Ω, A , P ) ein Wahrscheinlichkeitsraum. 1) Sei Ai ∈ A für alle i ∈ I (mit beliebiger Indexmenge I). Die Familie (Ai )i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I gilt: P \ j∈J Aj = Y P (Aj ). (7) j∈J 2) Für alle i ∈ I sei Ai ⊂ A . Die Familie (Ai )i∈I heißt unabhängig, wenn (7) für alle endlichen Teilmengen J ⊂ I und für alle Ai ∈ Ai mit i ∈ J gilt. 3) Eine Familie (Xi )i∈I von Zufallsvariablen mit Werten in (Ei , Ei ) heißt unabhängig, falls (Xi−1 (Ei ))i∈I unabhängig ist. Jens Liebenau – SoSe 2014 31 9. Unabhängigkeit und Produktmaße Jan Kallsen 9.2) Satz: Für i ∈ {1, . . . , n} seien X : (Ω, A , P ) → (Ei , Ei ) Zufallsvariablen. Dann sind äquivalent: 1) X1 , . . . , Xn sind unabhängig; 2) Für alle Ai ∈ Ei mit i ∈ {1, . . . , n} gilt P (Xi ∈ Ai : i ∈ {1, . . . , n}) = Qn i=1 3) Für alle Ai ∈ Ci mit i ∈ {1, . . . , n} gilt P (Xi ∈ Ai : i ∈ {1, . . . , n}) = wobei Ci jeweils ein ∩-stabiler Erzeuger von Ei ist; P (Xi ∈ Ai ); Qn i=1 P (Xi ∈ Ai ), 4) Für alle messbaren Funktionen fi : (Ei , Ei ) → (Fi , Fi ) mit i ∈ {1, . . . , n} sind f1 (X1 ), . . . , fn (Xn ) unabhängig; 5) Für alle messbaren sowie beschränkten (oder nicht-negativen oder stetigenund beschränkten, falls die Ei Borel-σ-Algebren metrischer Räume Ei sind) f : (Ei , Ei ) → R, B gilt: E n Y ! fi (Xi ) = i=1 n Y E(fi (Xi )). i=1 Beweis: . . . 02.06.2014 ... 9.3) Definition: Seien (E, E ) sowie (F, F ) messbare Räume. Dann heißt E ⊗ F := σ(Λ × Γ : Λ ⊂ E , Γ ⊂ F ) die Produkt-σ-Algebra von E und F . 9.4) Satz: Sei f : (E × F, E ⊗ F ) → R, B messbar. Dann sind für alle x ∈ E sowie für alle y ∈ F die Abbildungen fx : F → R, y 7→ f (x, y) und fy : E → R, x 7→ f (x, y) messbar. Beweis: . . . 9.5) Satz (Satz von Fubini20 ): Seien (E, E , µ) und (F, F , ν) Maßräume mit σ-endlichen Maßen µ sowie ν. 1) Es existiert ein eindeutiges, σ-endliches Maß % auf (E × F, E ⊗ F ) mit %(A × B) = µ(A) ν(B) für alle A ∈ E sowie B ∈ F (mit 0 · ∞ := ∞ · 0 := 0). Bezeichnung: µ ⊗ ν := % heißt Produktmaß von µ und ν. 20 Guido Fubini (1879–1943) war ein italienischer Mathematiker (v. a. Geometer und Analytiker), der sich mit projektiver Differenzialgeometrie, Funktionentheorie, Integralrechnung, Gruppentheorie, mathematischer Physik und mathematischen Problemen aus der militärischen Anwendung in der Artillerie sowie später aus Interesse mit dem Arbeitsgebiet seiner beiden Söhne, die Ingenieure waren, beschäftigte. Jens Liebenau – SoSe 2014 32 9. Unabhängigkeit und Produktmaße Jan Kallsen 2) Für jede messbare Funktion f : (E × F, E ⊗ F ) → R, B , die nicht-negativ oder µ ⊗ νintegrierbar ist, gilt: x 7→ y 7→ Z Z f (x, y) ν(dy) ist E -messbar und = 0 oder µ-integrierbar, Z f (x, y) µ(dx) ist F -messbar und = 0 oder ν-integrierbar, f d(µ ⊗ ν) = ZZ f (x, y) ν(dy) µ(dx) = ZZ f (x, y) µ(dx) ν(dy). (8) Beweis: . . . 05.06.2014 Kommen wir nun zum Produkt endlich sowie unendlich vieler messbarer Räume: 9.6) Definitionen: Für i ∈ {1, 2, . . .} seien (Ωi , Ai ) messbare Räume. 1) Definiere die j-te Projektion pj : ni=1 Ωi → Ωj , (x1 , . . . , xn ) 7→ xj und die Produkt-σ-Algebra Q N auf ni=1 Ωi durch ni=1 Ai := σ(p1 , . . . , pn ). Q 2) Analog definiere die j-te Projektion pj : ∞ i=1 Ωi → Ωj , (x1 , x2 , . . .) 7→ xj und die Produkt-σQ N∞ Algebra auf ∞ Ω durch A := σ(p i i : i ∈ {1, 2, . . .}). i=1 i i=1 Q 9.7) Satz: Für n ∈ N∗ ist ni=1 Ai = σ( ni=1 Ai : ∀i ∈ {1, . . . , n} : Ai ∈ Ai ) und Q Q σ( ni=1 Ai × ∞ i=n+1 Ωi : ∀i ∈ {1, . . . , n} : Ai ∈ Ai ). N Q N∞ i=1 Ai = Beweis: . . . 9.8) Satz und Definition (Produktmaß): Für alle i ∈ {1, . . . , n} sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum. Dann existiert für alle Ai ∈ Ai mit i ∈ {1, . . . , n} genau ein WahrscheinQ N Q Q lichkeitsmaß P auf (Ω, A ) = ( ni=1 Ωi , ni=1 Ai ) mit P ( ni=1 Ai ) = ni=1 Pi (Ai ). Nn i=1 Pi =: P wird als das Produktmaß bezeichnet. Beweis: . . . 9.9) Satz und Definition (Satz von Ionescu-Tulcea21 ): Für alle i ∈ {1, 2, . . .} sei (Ωi , Ai , Pi ) ein Wahrscheinlichkeitsraum. Dann existiert für alle Ai ∈ Ai mit i ∈ {1, . . . , n} geQ N Q Q nau ein Wahrscheinlichkeitsmaß auf (Ω, A ) = ( ∞ Ωi , ∞ Ai ) mit P ( ni=1 Ai × ∞ i=1 i=1 i=n+1 Ωi ) = Qn i=1 Pi (Ai ). N∞ i=1 Pi := P heißt Produktmaß. Beweis: . . . 9.10) Satz: Für i ∈ {1, 2, . . .} sei Xi : (Ω, A ) → (Ei , Ei ) eine Abbildung. 21 Cassius Ionescu-Tulcea (* 1923) ist ein rumänisch-US-amerikanischer Mathematiker, der sich mit Wahrscheinlichkeitstheorie, Statistik sowie Analysis befasst. Jens Liebenau – SoSe 2014 33 9. Unabhängigkeit und Produktmaße Jan Kallsen 1) X := (X1 , . . . , Xn ) : (Ω, A ) → ( messbar sind. Qn 2) X := (X1 , X2 , . . .) : (Ω, A ) → ( messbar sind. i=1 Q∞ i=1 Ei , Nn Ei ) ist genau dann messbar, wenn X1 , . . . , Xn N∞ Ei ) ist genau dann messbar, falls X1 , X2 , . . . Ei , i=1 i=1 Beweis: . . . 9.11) Satz: Für i ∈ {1, 2, . . .} sei Xi : (Ω, A , P ) → (Ei , Ei ) eine Zufallsvariable. 1) X1 , . . . , Xn sind genau dann unabhängig, falls P (X1 ,...,Xn ) = ∞ (Xi )i=1 = 2) (Xi )∞ i=1 ist genau dann unabhängig, wenn P N∞ i=1 Nn i=1 P Xi gilt. P Xi ist. ∞ 9.12) Bemerkungen: Das Wahrscheinlichkeitsmaß P (X1 ,...,Xn ) bzw. P (Xi )i=1 heißt gemeinsame X1 Verteilung von X1 , . . . , Xn bzw. (Xi )∞ , P X2 , . . . heißen (eindimensionale) Randverteilungen i=1 . P von X := (X1 , X2 , . . .). Also besagt Satz 9.11: Es liegt genau dann Unabhängigkeit der Zufallsvariablen vor, wenn die gemeinsame Verteilung mit dem Produkt der Randverteilungen übereinstimmt. Beweis: . . . 12.06.2014 Oft heißt es z. B. in Sätzen: „Seien X1 , X2 , . . . unabhängige Zufallsgrößen mit Verteilung P Xi = Qi für i ∈ {1, 2, . . .}.“ Gibt es überhaupt einen Wahrscheinlichkeitsraum (Ω, A , P ), der „reich“ genug (an Zufall) ist, damit eine solche Folge existiert? Ja, wie die folgende Konstruktion, das kanonische Modell, zeigt: 9.13) Korollar: Für i ∈ {1, 2, . . .} sei (Ei , Ei , Qi ) ein Wahrscheinlichkeitsraum. Dann existieren ein Wahrscheinlichkeitsraum (Ω, A , P ) und unabhängige Zufallsvariablen Xi : (Ω, A , P ) → (Ei , Ei ) mit P Xi = Qi für i ∈ {1, 2, . . .}. Beweis: . . . Unabhängigkeit hat überraschende Auswirkungen auf Ereignisse, die von unendlich vielen, unabhängigen Faktoren abhängen: 9.14) Satz (Borel-Cantelli-Lemma22 ): Sei (An )∞ n=1 eine Folge von Ereignissen in (Ω, A , P ). 1) P∞ n=1 P (An ) < ∞ impliziert P (lim supn→∞ An ) = 0. 2) Aus der Unabhängigkeit von (An )∞ n=1 und P∞ n=1 P (An ) = ∞ folgt P (lim supn→∞ An ) = 1. (zur Erinnerung: lim supn→∞ An := {ω ∈ Ω : ω ∈ An für unendlich viele n}) 22 Francesco (Paolo) Cantelli (1875–1966) war ein italienischer Mathematiker, der sich insbesondere in der Wahrscheinlichkeitstheorie verdient gemacht hat. Jens Liebenau – SoSe 2014 34 10. Lebesgue-Integrale auf R Jan Kallsen Beweis: . . . Dass im obigen Satz nur die Wahrscheinlichkeiten 0 und 1 auftreten, ist kein Zufall: Dies ist ein typisches Phänomen, wenn man es mit unendlich vielen, unabhängigen Faktoren zu tun hat, von denen jeweils endlich viele ohne Belang sind. 9.15) Definitionen: Seien A1 , A2 , . . . Unter-σ-Algebren einer σ-Algebra A . A∞ := T∞ n=1 S∞ σ( m=n Am ) heißt σ-Algebra der terminalen Ereignisse von (An )∞ n=1 . 9.16) Satz (0-1-Gesetz von Kolmogorow): Seien (Ω, A , P ) ein Wahrscheinlichkeitsraum und (An )∞ n=1 eine unabhängige Folge von Unter-σ-Algebren von A . Für jedes terminale Ereignis A ∈ A∞ gilt P (A) = 0 oder P (A) = 1. Beweis: . . . 9.17) Bemerkung (wichtiger, neuer Aspekt): Bislang dienten σ-Algebren als Definitionsbereiche für Maße. Im Satz 9.16 stehen sie für Informationen, z. B.: An steht für die Information aus dem n-ten Zufallsexperiment; A ∈ An bedeutet: A hängt nur vom n-ten Experiment ab. A ∈ A∞ heißt: A hängt nicht von den ersten endlich vielen Experimenten ab. Beispiele: 1) Es gilt {ω : limn→∞ Xn (ω) existiert} ∈ A∞ , also P ((Xn )∞ n=1 konvergiert) = 0 oder = 1. 2) Wegen P (A) = 0 oder = 1 für alle A ∈ A∞ sind alle A∞ -messbaren Zufallsvariablen f. s. ! n 1X Xi (= 3,5) konstant, z. B. lim sup Xn (= 6 beim Würfeln), lim inf Xn (= 1), lim sup n→∞ n i=1 n→∞ n→∞ ! n 1X und lim inf Xi (= 3,5). n→∞ n i=1 9.18) Zusatz: Aus der Unabhängigkeit von A1 , A2 und A3 folgt die Unabhängigkeit von σ(A1 ∪ A2 ) und A3 . Insbesondere ergibt sich aus der Unabhängigkeit von X1 , X2 sowie X3 die Unabhängigkeit von (X1 , X2 ) und X3 – also impliziert z. B. die Unabhängigkeit von X1 , X2 und X3 die Unabhängigkeit von X1 + X22 sowie X3 (und allgemeiner für größere Anzahlen). Beweis: Prinzip der guten Mengen 10. Lebesgue-Integrale auf R Das Lebesgue-Maß λ ist das natürliche Maß auf R. Es definiert die Länge für eine große Klasse von Teilmengen von R. 10.1) Definition: Ein Maß λ auf (R, B) mit λ((a, b]) = b − a für a < b heißt Lebesgue-Maß. 10.2) Satz: Das Lebesgue-Maß ist eindeutig (falls es existiert). Jens Liebenau – SoSe 2014 35 10. Lebesgue-Integrale auf R Jan Kallsen Beweis: Dies folgt aus dem Eindeutigkeitssatz 5.9, vgl. mit dem Beweis von Satz 6.2. 10.3) Satz: Das Lebesgue-Maß existiert. Beweis: . . . Das Integral nach dem Lebesgue-Maß verallgemeinert das Riemann-Integral. Es ist sehr handlich, da es für viel mehr Funktionen existiert, z. B. 1Q . 10.4) Bemerkungen: Man kann zeigen: Wenn die Funktion f : [a, b] → R Riemann-integrierbar ist, dann ist sie auch Lebesgue-integrierbar (d. h. nach λ integrierbar) und es gilt: Zb f (x) dx = a Z f dλ. [a,b] Unterschied: Das Riemann-Integral zerlegt vertikal. Deshalb sind nur Funktionen integrierbar, die auf den Streifen nicht „zu stark“ variieren. Das Lebesgue-Integral zerlegt horizontal. Daher benötigt man Maßtheorie, um die „Streifenlänge“ messen zu können. 10.5) Bezeichnungen: Man schreibt für a < b: Z f (x) dx := Z f (x) λ(dx) Zb bzw. f (x) dx := a Z f (x) λ(dx). [a,b] Das Lebesgue-Integral ist auch für die Wahrscheinlichkeitstheorie wichtig: 10.6) Definitionen: Eine nicht-negative, messbare Funktion f : (R, B) → R, B heißt Dichte eines Wahrscheinlichkeitsmaßes auf (R, B), falls für alle x ∈ R P ((−∞, x]) = Zx f (y) dy −∞ gilt. Wenn P Verteilung einer Zufallsgrößen X ist, heißt f auch Dichte von X. 10.7) Satz: Sei f : (R, B) → R, B eine nicht-negative, messbare Funktion. 1) f ist genau dann die Dichte eines Wahrscheinlichkeitsmaßes P auf (R, B), wenn gilt. Z f (x) dx = 1 2) Die Dichte legt das Wahrscheinlichkeitsmaß eindeutig fest. Z (Für A ∈ B gilt P (A) = f (x) dx.) A Jens Liebenau – SoSe 2014 36 10. Lebesgue-Integrale auf R Jan Kallsen 3) Im Fall von (1) ist eine weitere messbare Funktion f˜ = 0 genau dann die Dichte von P , falls f = f˜ λ-f. ü. gilt. 16.06.2014 Beweis: . . . 10.8) Bemerkungen: 1) An Satz 10.7 und dessen Beweis wird deutlich, warum Lebesgue-Integration für die WahrZ scheinlichkeitstheorie sinnvoll ist. Wenn P die Dichte f hat, gilt P (A) = f (x) dx. für alle A messbaren Mengen A (auch dann, wenn das Riemann-Integral nicht existiert). 2) Es gilt F (x) = P ((−∞, x]) = Z x f (y) dy, falls P die Verteilungsfunktion F und die Dichte −∞ f hat. Falls f stetig in x ist, folgt daraus F 0 (x) = f (x). Allgemeiner gilt (ohne Beweis): F ist λ-f. ü. differenzierbar mit Ableitung f . Mithilfe der Dichte kann man die Momente E(g(X)) einer Zufallsgrößen X berechnen: 10.9) Korollar: Sei X : (Ω, A , P ) → (R, B) eine Zufallsgröße mit der Dichte f und sei g : (R, B) → (R, B) messbar. 1) Es gilt g ∈ L1 (R, B, P X ) genau dann, wenn f, g ∈ L1 (R, B, λ) sind. 2) Ist g = 0 oder ∈ L1 (R, B, P X ), so gilt: E(g(X)) = Z g dP X = Z g(x) f (x) dx. Beweis: Für g = 1C mit C ∈ B gilt: E(g(X)) = Z 8.18 g(X) dP = Z g=1 g dP X =C P X (C) f Dichte = Z von P X g=1 f (x) dx =C Z g(x) f (x) dx; C weiter mit algebraischer Induktion. 10.10) Korollar: Sei X : (Ω, A , P ) → (R, B) eine Zufallsgröße mit der Dichte f . Dann gilt: E(X) = Z x f (x) dx und Var(X) = Z (x − E(X))2 f (x) dx = Z x2 f (x) dx − Z x f (x) dx. Beweis: Es ist g(x) = x bzw. g(x) = (x − E(X))2 resp. g(x) = x2 . 10.11) Beispiele: Jens Liebenau – SoSe 2014 37 10. Lebesgue-Integrale auf R Jan Kallsen 1) Sei X exponentialverteilt mit Parameter α. Dann gilt (mit partieller Integration): E(X) = Z∞ x αe−αx dx = · · · = 0 Var(X) = Z∞ x2 αe−αx dx − 0 1 , α 1 1 = ··· = 2. 2 α α 2) Sei X N (µ, σ 2 )-verteilt. Dann ist (mit Substitutionsregel): E(X) = = Z∞ −∞ Z∞ −∞ ! 1 (x − µ)2 x√ exp − dx (Substitution: y := x − µ) 2σ 2 2πσ 2 ∞ ! ! Z 1 1 y2 y2 √ √ y exp − 2 dy +µ exp − 2 dy = µ, 2σ 2σ 2πσ 2 2πσ 2 −∞ {z | | } = 0, weil ungerade ! =σ 2 Z∞ −∞ | } = 1, da Dichte 1 (x − µ)2 Var(X) = (x − µ) √ exp dx 2 2σ 2 2πσ −∞ 2 } {z | Z∞ {z Dichte von N (0,σ 2 ) Substitution: y := x−µ σ ! y2 y2 √ exp dy = σ 2 . 2 2π {z = 1 (partielle Integration) } 3) X Cauchy-verteilt mit Parametern 0 sowie 1. Dann gilt: E X + = Z∞ 0 ∞ ∞ 1 1 1Z x 1Z 1 x dx = dx = dx = ∞, π 1 + x2 π 2x2 π 2x 1 − 1 − + analog E(X ) = ∞, d. h., E(X) = E(X ) − E(X ) existiert nicht! Wie berechnet man die Dichte von g(X) für X mit der Dichte f ? Im einfachen Fall ist dies mit Satz 10.12 und im allgemeinen Fall mit Korollar 10.15 möglich: 10.12) Satz: Sei X : (Ω, A , P ) → (R, B) eine Zufallsgröße mit der Dichte fX , g : (R, B) → (R, B) messbar und Y := g(X). Dann gilt: Z FY (y) := P (Y 5 y) = fX (x) dx mit Ay := {x : g(x) 5 y}. Ay Beweis: Die Behauptung folgt aus Korollar 10.9 mit der Funktion x 7→ 1(−∞,y] (g(x)). 1 10.13) Beispiel: Sei X gleich verteilt auf [0, 1] und Y := − log(X) mit λ > 0. Dann gilt: λ 1 FY (y) = P − log(X) 5 Y λ = P X = e−λy = 1 − e−λy , 0, falls y > 0, sonst, d. h., Y ist exponentialverteilt mit Parameter λ. Jens Liebenau – SoSe 2014 38 10. Lebesgue-Integrale auf R Jan Kallsen 10.14) Korollar: Sei X : (Ω, A , P ) → (R, B) eine Zufallsgröße mit stetiger Dichte fX . Sei g : R → R stetig differenzierbar mit g 0 (x) 6= 0 für alle x ∈ R. Dann hat Y := g(X) die Dichte fY (y) = f X (g −1 0 (y)) (g −1 ) (y) für y ∈ g(R), 0, sonst. Beweis: . . . 10.15) Korollar: Sei X : (Ω, A , P ) → (R, B) eine Zufallsgröße mit stetiger Dichte fX und S g : R → R. Seien I1 , . . . , In ⊂ R disjunkte Intervalle mit ni=1 Ii = R derart, dass g streng monoton und stetig differenzierbar auf Ii◦ mit Umkehrfunktion hi . Dann hat Y := g(X) die Dichte fY (y) = n X i=1 fXi (hi (y)) |hi (y)| 1g(I ◦ ) (y). i Beweis: ähnlich wie der Beweis zu Korollar 10.14 10.16) Bemerkung: Für Korollar 10.15 reicht die Messbarkeit von fX (statt Stetigkeit). 10.17) Beispiel: Sei X N (0, 1)-verteilt und Y := X 2 . Dann heißt Y χ2 -verteilt mit einem Freiheitsgrad. Zur Berechnung der Dichte sei g(x) = x2 , I1 = [0, ∞) sowie I2 = (−∞, 0). Dann ist in 1 √ √ Korollar 10.15: h1 : [0, ∞) → R, y 7→ y, h2 : (0, ∞) → R, y 7→ − y und |h0i (y)| = √ für 2 y i ∈ {1, 2}, also: y 1 y 1 1 1 fY (y) = √ exp − √ 1(0,∞) (y) + √ exp − √ 1(0,∞) (y) 2 2 y 2 2 y 2π 2π 1 y =√ exp − 1(0,∞) (y). 2πy 2 19.06.2014 10.18) Bemerkung: Allgemeiner heißt die Verteilung mit der Dichte 1 y fY (y) = p Γ 2 2p/2 p/2−1 y exp − 1(0,∞) (y) 2 χ2 -Verteilung mit p Freiheitsgraden (χ2p -Verteilung). Dies ist die Verteilung von Y = pi=1 Xi2 für unabhängige, N (0, 1)-verteilte Zufallsgrößen Xi . Sie tritt in der Statistik auf und sie ist ein p 1 1 Spezialfall der Γ-Verteilung Γ , . Für Y := X 2 ∼ N (0, 1) ist fY (y) = √ e−y/2 1(0,∞) (y). 2 2 2πy 1 χ22 ist eine Exponentialverteilung mit Parameter . 2 P Jens Liebenau – SoSe 2014 39 11. Lebesgue-Integrale im Rn Jan Kallsen 11. Lebesgue-Integrale im Rn Beschäftigen wir uns zunächst mit der Borel-σ-Algebra B n auf Rn : 11.1) Satz: Es gilt: B := σ({A ⊂ R : A offen}) = σ n n n Y ! (−∞, ai ] : a1 , . . . , an ∈ Q = i=1 n O B. i=1 Beweis: . . . 11.2) Definition: Die Verteilungsfunktion F : Rn → [0, 1] eines Wahrscheinlichkeitsmaßes P auf Q (Rn , B n ) ist definiert durch F (x1 , . . . , xn ) := P ( ni=1 (−∞, xi ]). Verteilungsfunktionen im Rn sind unhandlicher als auf R. Das Lebesgue-Maß λn ist das „natürliche“ Maß auf dem Rn . Es steht für Fläche, Volumen usw.: 11.3) Definition: Ein Maß λn auf (Rn , B n ) mit λn ( i ∈ {1, . . . , n} heißt Lebesgue-Maß. Qn i=1 (ai , bi ]) = Qn i=1 (bi − ai ) für ai 5 bi für 11.4) Satz: Das Lebesgue-Maß λn existiert und ist eindeutig. Für alle A1 , . . . , An ∈ B gilt: λ n n Y ! Ai = i=1 n Y λ(Ai ). (9) i=1 Beweis: Die Eindeutigkeit folgt aus dem Eindeutigkeitssatz 5.9. Die Existenz sowie (9) folgen aus Satz 9.8, der mit gleichem Beweis auch für Maße gilt. 11.5) Bemerkung: Wie schon in Kapitel 10 verallgemeinert das Integral nach λn das RiemannIntegral im Rn . Für f : Rn → R schreiben wir wieder Z f (x) dx := Z f dλn . Falls f = 0 oder ∈ L1 (λn ) ist, gilt laut Satz von Fubini (9.5): Z f (x) dx = Z ··· Z f (x1 , . . . , xn ) dx1 · · · dxn . 11.6) Definition: Eine nicht-negative, messbare Abbildung f : (Rn , B n ) → R, B heißt Dichte eines Wahrscheinlichkeitsmaßes P auf (R , B ), falls P (A) = n n Z A f (x) dx für alle A ∈ B n gilt. 11.7) Bemerkung: Satz 10.7 gilt wörtlich auch für Rn anstelle von R (leicht nachzurechnen). 11.8) Satz: Sei X := (X1 , . . . , Xn ) : (Ω, A , P ) → (Rn , B n ) eine Zufallsvariable mit der Dichte f . Dann gelten folgende Aussagen: Jens Liebenau – SoSe 2014 40 11. Lebesgue-Integrale im Rn Jan Kallsen 1) Xi hat als Dichte fXi (x) = Z ··· Z f (x1 , . . . , xi−1 , x, xi+1 , . . . , xn ) dx1 · · · dxi−1 dxi+1 · · · dxn . 2) X1 , . . . , Xn sind genau dann unabhängig, wenn f (x1 , . . . , xn ) = fX1 (x1 ) · · · fXn (xn ) für λn -fast alle (x1 , . . . , xn ) gilt. 3) Sei i ∈ {1, . . . , n} und x ∈ R mit fXn (x) 6= 0. Dann definiert f(X1 ,...,Xn−1 )|Xn =x (x1 , . . . , xn−1 ) := f (x1 , . . . , xn−1 , x) fXn (x) eine Dichte auf (Rn−1 , B n−1 ). Beweis: . . . 11.9) Bemerkung: f := f(X1 ,...,Xn ) heißt gemeinsame Dichte von (X1 , . . . , Xn ). fX1 , . . . , fXn heißen deren Randdichten und f(X1 ,...,Xn−1 )|Xn =x heißt bedingte Dichte von (X1 , . . . , Xn−1 ) gegeben Xn = x. Im wörtlichen Sinne scheint dies sinnlos, denn „P ((X1 , . . . , Xn−1 ) ∈ A | Xn = x)“ ist wegen P (Xn = x) = 0 für alle x nicht definiert. Dennoch ist die Anschauung richtig, da diese bedingte Wahrscheinlichkeit formal exakt definiert werden kann. leicht 11.10) Definition: Seien X, Y ∈ L2 (Ω, A , P ). Kov(X, Y ) := E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X) E(Y ) heißt Kovarianz von X und Y . 11.11) Bemerkungen: 1) Kov(X, Y ) existiert, da XY ∈ L1 nach Satz 8.15 (a) ist. 2) Es gilt Kov(X, X) = Var(X). 11.12) Satz: Sind X, Y ∈ L2 unabhängig, so gilt Kov(X, Y ) = 0 (d. h., X sowie Y sind unkorreliert). 11.13) Bemerkung: Die Umkehrung gilt nicht. Es gibt viele Arten von Abhängigkeit, die sich kaum universell beschreiben lassen. Die Kovarianz erfasst nur lineare Abhängigkeit. 11.14) Definition: Seien X, Y ∈ L2 (Ω, A , P ) mit Var(X), Var(Y ) 6= 0. % := q Kov(X, Y ) Var(X) Var(Y ) heißt Korrelationskoeffizient. 11.15) Bemerkungen: 1) Auf L2 ist hX, Y i := E(XY ) ein Skalarprodukt (vgl. auch Cauchy-Schwarz-Ungleichung (6) in Satz 8.15). Auf dem Unterraum {X ∈ L2 : E(X) = 0} (zentrierte Zufallsgrößen) ist hX, Y i = E(XY ) = Kov(X, Y ) ein Skalarprodukt. Der zugehörige Winkelbegriff ist cos(α) = q hX, Y i hX, XihY, Y i = %. Jens Liebenau – SoSe 2014 41 11. Lebesgue-Integrale im Rn Jan Kallsen 2) Es gilt − 5 % 5 1 wegen der Cauchy-Schwarz-Ungleichung (6). Aus der Unabhängigkeit von X und Y folgt % = 0 (d. h., X sowie Y sind orthogonal). Für a ∈ R \ {0} und b ∈ R gilt genau dann Y = aX + b f. s., wenn |%| = 1 ist. 11.16) Definition: Sei X := (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable. 1) Im Falle Xi ∈ L1 für i ∈ {1, . . . , n} heißt E(X) = (E(X1 ), . . . , E(Xn )) ∈ Rn der Erwartungswert(-Vektor) von X. 2) Im Falle Xi ∈ L2 für i ∈ {1, . . . , n} ist die Kovarianzmatrix Kov(X) ∈ Rn×n definiert durch Kov(X)i,j := Kov(Xi , Xj ). 11.17) Satz: 1) Für X1 , . . . , Xn ∈ L2 (Ω, A , P ) gilt Var( ni=1 ai Xi ) = ni=1 ai aj Kov(Xi , Xj ), insbesondere ist Var(X + Y ) = Var(X) + Var(Y ) + 2 Kov(X, Y ) für X, Y ∈ L2 . Für a ∈ R sowie X ∈ L2 gilt Var(aX) = a2 Var(X). P P 23.06.2014 2) Die Kovarianzmatrix ist symmetrisch (d. h. Kov(X)i,j = Kov(X)j,i ) und positiv semidefinit P (= nicht-negativ definit, d. h. ni,j=1 ai aj Kov(X)i,j = 0 für alle (a1 , . . . , an ) ∈ Rn ). Beweis: . . . 11.18) Satz: Für i ∈ {1, . . . , m} sei Xi eine Rn -wertige Zufallsvariable mit Xi ∈ L2 und A ∈ Rm×n . Dann ist Kov(AX) = A Kov(X) AT . Beweis: nachrechnen Kommen wir nun zur Dichte einer Zufallsvariablen g(X), falls X = (X1 , . . . , Xn ) die Dichte f besitzt. Behandeln wir zunächst ein wichtiges Hilfsmittel aus der Analysis: 11.19) Satz (Substitutionsregel im Rn ): Sei G ⊂ Rn offen, g : G → Rn stetig differenzierbar und injektiv mit det(Dg(x)) 6= 0. Weiter sei f : Rn → R messbar und = 0 oder f 1g(G) ∈ L1 (Rn , B n , λn ). Dann gilt: Z g(G) f (y) dy = Z f (g(x)) |det(Dg(x))| dx. G (ohne Beweis) Die folgenden Sätze entsprechen den Korollaren 10.14 sowie 10.15: Jens Liebenau – SoSe 2014 42 12. Charakteristische Funktionen Jan Kallsen 11.20) Satz: Sei X := (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable mit der Dichte fX . Ferner sei g : Rn → Rn stetig differenzierbar sowie injektiv mit det(Dg(x)) 6= 0 für alle x ∈ Rn . Dann hat Y := g(X) die Dichte fY (y) = f X (g 0, −1 (y)) |det(Dg −1 (y))| falls y ∈ g(Rn ), sonst. Beweis: . . . 11.21) Korollar: Seien S0 , . . . , Sm ∈ B n paarweise disjunkt, λn (S0 ) = 0, S1 , . . . , Sm offen, S m n n S ∈ B n mit m i=0 Si = S sowie g : R → R messbar und derart, dass gi : Si → R , x 7→ gi (x) injektiv sowie stetig differenzierbar mit det(Dgi (x)) 6= 0 für alle x ∈ Si und i ∈ {1, . . . , m}. Weiter sei X := (X1 , . . . , Xn ) eine S-wertige Zufallsvariable mit der Dichte fX . Dann hat Y := g(X) die Dichte fY (y) = m X fX gi−1 (y) det Dgi−1 (y) 1gi (Si ) (y). i=1 Beweis: ähnlich wie der Beweis zu Satz 11.20 11.22) Beispiele: . . . 12. Charakteristische Funktionen Die charakteristische Funktion23 oder Fourier-Transformation24 erlaubt es, Verteilungen auf dem Rn mit analytischen Mitteln zu untersuchen. Dies ist besonders dann hilfreich, wenn man es mit Summen unabhängiger Zufallsvariablen und mit Grenzverteilungen zu tun hat. ... 13. Summen unabhängiger Zufallsgrößen Oft werden die Ergebnisse unabhängiger, wiederholter Zufallsexperimente gemittelt. Daher sind Summen unabhängiger Zufallsgrößen von zentralem Interesse. Eng damit zusammen hängt die Faltung von Wahrscheinlichkeitsmaßen. ... 23 24 Der Name rührt daher, dass die charakteristische Funktion einer Verteilung diese eindeutig charakterisiert. (Jean Baptiste) Joseph Fourier (1768–1830) war ein französischer Mathematiker und Physiker; er ist für die Fourier-Reihe und die Fourier-Analyse sowie das Fourier’sche Gesetz aus der Physik bekannt. Jens Liebenau – SoSe 2014 43 14. Konvergenz von Folgen von Zufallsvariablen Jan Kallsen 14. Konvergenz von Folgen von Zufallsvariablen Der scheinbar reguläre Zufall führt zu geordnetem Verhalten, wenn man Zufallsexperimente oft wiederholt. Dieses Phänomen wird durch Grenzwertsätze präzisiert, die eine ganz zentrale Rolle in der Wahrscheinlichkeitstheorie spielen. ... 15. Schwache Konvergenz Es gibt noch einen weiteren, ganz wichtigen Konvergenzbegriff, der sich von den vorherigen in mancher Hinsicht unterscheidet. Hier kann (Ω, A , P ) bei den Xn verschieden sein; es kommt nur auf die Verteilung der Xn an. ... 16. Schwache Konvergenz und charakteristische Funktionen Der folgende Zusammenhang zwischen charakteristischen Funktionen und der schwachen Konvergenz macht charakteristische Funktionen sehr nützlich für den Nachweis von Konvergenz in Verteilung. ... 17. Gesetz der großen Zahlen Die Konvergenz des arithmetischen Mittels unabhängiger Zufallsgrößen gegen den Erwartungswert ist eines der zentralen Ergebnisse der Wahrscheinlichkeitstheorie. ... 18. Zentraler Grenzwertsatz Der zentrale Grenzwertsatz (ZGS) ist ein herausragendes Ergebnis der Wahrscheinlichkeitstheorie. In gewisser Hinsicht präzisiert er das Gesetz der großen Zahlen. Während Letzteres besagt, dass für große n das arithmetische Mittel unabhängiger Zufallsgrößen nahe beim Erwartungswert liegt, beschreibt der ZGS die Verteilung um diesen Mittelwert herum. Erstaunlicherweise hängt diese für große n kaum von der Verteilung der einzelnen Zufallsgrößen Xi ab. Jens Liebenau – SoSe 2014 44 18. Zentraler Grenzwertsatz Jan Kallsen 18.1) Satz (zentraler Grenzwertsatz): Seien X1 , X2 , . . . : (Ω, A , P ) → R, B unabhängige, identisch verteilte Zufallsgrößen mit Var(X1 ) ∈ (0, ∞). Definiere: µ := E(X1 ), 2 σ := Var(X1 ), Sn := n X Xj j=1 Sn − E(Sn ) Sn − nµ sowie Sn∗ := q . = √ nσ Var(Sn ) L Dann gilt Sn∗ → Z für n → ∞ und Z ∼ N (0, 1). Beweis: . . . Der ZGS gilt auch unter schwächeren Bedingungen, z. B.: 18.2) Satz (zentraler Grenzwertsatz): Seien X1 , X2 , . . . : (Ω, A , P ) → R, B unabhängige, identisch verteilte Zufallsvariablen mit E(Xj ) = 0 für alle j ∈ N∗ , supj∈N∗ E(|Xj |2+ε ) < ∞ für P ε > 0 und ∞ j=1 Var(Xj ) = ∞. Definiere: Sn := n X j=1 Xj Sn − E(Sn ) Sn . und Sn∗ := q =s n P Var(Sn ) Var(Xj ) j=1 L Dann gilt Sn∗ → Z für n → ∞, wobei Z ∼ N (0, 1) ist. Beweis: Der Beweis erfolgt ähnlich wie der zu Satz 18.1. Der ZGS gilt auch mehrdimensional: Dann liegt Konvergenz gegen eine mehrdimensional normalverteilte Zufallsvariable vor. ... Jens Liebenau – SoSe 2014 45 Stichwortverzeichnis Jan Kallsen Stichwortverzeichnis A Abbildung . . . . . . . . . . . . . . . . . . . . siehe auch Funktion messbare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Additivität endliche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 σ- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 σ-Sub- . . . . . . . . . . . . . . . . . . . . . . . . . . . siehe Sub-σSub-σ- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16, 20 Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 σ- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5, 14 Borel- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15, 40 der terminalen Ereignisse . . . . . . . . . . . . . . . . 35 erzeugte . . . . . . . . . . . . . . . . . . . . . . . . . . 15, 24, 25 Produkt- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32, 33 triviale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Unter- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 algebraische Induktion . . . . . . . . . . . . . . . . . . . . . . . . . . 28 B Banach, S. (1892–1945) . . . . . . . . . . . . . . . . . . . . . . . . 30 Bayes, T. (≈ 1701–1761) . . . . . . . . . . . . . . . . . . . . . . . 10 Bayes’sche Formel . . . . . . . . . . . . . . . . . . . . . . . . . 10 Bildmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12, 26 Borel, E. (1871–1956) . . . . . . . . . . . . . . . . . . . . . . . . . 15 Borel-Cantelli-Lemma . . . . . . . . . . . . . . . . . . 34 Borel-messbar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Borel-σ-Algebra . . . . . . . . . . . . . . . . . . . . . . 15, 40 C Cantelli, F. (1875–1966) . . . . . . . . . . . . . . . . . . . . . . 34 Borel-Cantelli-Lemma . . . . . . . . . . . . . . . . . . 34 Carathéodory, C. (1873–1950) . . . . . . . . . . . . . . . 20 Fortsetzungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Cauchy, A.-L. (1789–1857) . . . . . . . . . . . . . . . . . . . . . 6 Cauchy-Schwarz-Ungleichung . . . . . . . . . . . . 30 Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 24 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 D Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23, 26, 36, 40 bedingte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 gemeinsame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Rand- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Doppel-Exponentialverteilung . . . . . . . . . . . . . . . . . . . 23 durchschnittsstabil (∩-stabil) . . . . . . . . . . . . . . . . . . . 19 Dynkin, E. B. (* 1924) . . . . . . . . . . . . . . . . . . . . . . . . . 19 Dynkin-System . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 erzeugtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 E Ein-Punkt-Masse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Elementarfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Ereignis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 terminales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Ergebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . 12, 29, 42 Erwartungswert-Vektor . . . . . . . . . . . . . . . . . . . . . . . . . 42 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 23 F fast sicher (f. s.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 fast überall (f. ü.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Fatou, P. (1878–1929) . . . . . . . . . . . . . . . . . . . . . . . . . 29 Lemma von Fatou. . . . . . . . . . . . . . . . . . . . . . . . .29 Formel Bayes’sche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Multiplikations- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Fortsetzungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Fubini, G. (1879–1943) . . . . . . . . . . . . . . . . . . . . . . . . . 32 Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Funktion . . . . . . . . . . . . . . . . . . . . siehe auch Abbildung Elementar- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Indikator- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 messbare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Verteilungs- . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22, 26 G Γ-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 H Häufigkeit relative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Hilbert, D. (1862–1943) . . . . . . . . . . . . . . . . . . . . . . . 30 I Indifferenzprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Indikatorfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Inhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27, 28 integrierbar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Ionescu-Tulcea, C. (* 1923) . . . . . . . . . . . . . . . . . . 33 Satz von Ionescu-Tulcea . . . . . . . . . . . . . . . . 33 Isotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 K kanonisches Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Kolmogorow, A. N. (1903–1987) . . . . . . . . . . . . . . . 4 Kolmogorow’sche Axiome . . . . . . . . . . . . . . . . . 4 0-1-Gesetz von Kolmogorow . . . . . . . . . . . . . 35 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Kovarianz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41 Kovarianzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 L Laplace, P.-S. (1749–1827) . . . . . . . . . . . . . . . . . . . . . 5 Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . . 5, 23 Laplace-Wahrscheinlichkeit . . . . . . . . . . . . . . . . 5 Lebesgue, H. L. (1875–1941) . . . . . . . . . . . . . . . . . . . 26 Jens Liebenau – SoSe 2014 46 Stichwortverzeichnis Jan Kallsen Lebesgue-Maß . . . . . . . . . . . . . . . . . . . . . . . . 35, 40 Satz von Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . 29 Lemma Borel-Cantelli- . . . . . . . . . . . . . . . . . . . . . . . . . 34 von Fatou . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Levi, B. (1875–1961) . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Satz von Beppo Levi . . . . . . . . . . . . . . . . . . . . . . 29 Lognormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 M Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13, 16 äußeres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Bild- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12, 26 Lebesgue- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35, 40 Wahrscheinlichkeits- . . . . . . . . . . . . . . . . . . . . . . . 16 maßtheoretische Induktion . . . . . . . . . . . . . . . . . . . . . . 28 Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 messbar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20, 24 Borel- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Monotonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Multiplikationsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 N Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Normiertheit . . . . . . . . . . . . . . . . . . . . siehe Normierung Normierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 0-1-Gesetz von Kolmogorow . . . . . . . . . . . . . . . . . . 35 Nullmenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 O offen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24 P paarweise unabhängig . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Pascal, B. (1623–1662) . . . . . . . . . . . . . . . . . . . . . . . . . 8 Pascal-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Poisson, S. D. (1781–1840) . . . . . . . . . . . . . . . . . . . . . . 6 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 6 Prämaß. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16 Prinzip der guten Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . 20 des unzureichenden Grundes . . . . . . . . . . . . . . . . 5 Indifferenz- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Produkt-σ-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . 32, 33 Produktmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32, 33 Projektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 R Randdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Randverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Raum Ergebnis- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Grund- . . . . . . . . . . . . . . . . . . . . . . . . siehe ErgebnisMaß- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Mess- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 messbarer . . . . . . . . . . . . . . . . . . . . . . . . . siehe MessStichproben-. . . . . . . . . . . . . . . . . . .siehe Ergebnis- topologisch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Wahrscheinlichkeits- . . . . . . . . . . . . . . . . . . . . . 4, 16 Riemann, G. F. B. (1826–1866) . . . . . . . . . . . . . . . . . 26 S Satz Eindeutigkeits- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Fortsetzungs- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Multiplikations- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Transformations- . . . . . . . . . . . . . . . . . . . . . . . 13, 31 von Beppo Levi . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 von der majorisierten Konvergenz . . . . . . . . . . 29 von der monotonen Konvergenz . . . . . . . . . . . . 29 von der totalen Wahrscheinlichkeit . . . . . . . . . 10 von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 von Ionescu-Tulcea . . . . . . . . . . . . . . . . . . . . . 33 von Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 zentraler Grenzwert- . . . . . . . . . . . . . . . . . . . . . . . 45 schnittstabil (∩-stabil) . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Schwarz, H. A. (1843–1921) . . . . . . . . . . . . . . . . . . . 30 Cauchy-Schwarz-Ungleichung . . . . . . . . . . . . 30 σ-Additivität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 σ-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Borel- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15, 40 der terminalen Ereignisse. . . . . . . . . . . . . . . . . . .35 erzeugte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15, 24, 25 Produkt- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32, 33 triviale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Unter- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 σ-endlich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 σ-Subadditivität . . . . . . . . . . . siehe Sub-σ-Additivität Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . 13, 30 Stetigkeit in ∅ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 in Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 von oben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 von unten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 stochastisch unabhängig . . . . . . . . . . . . . . . . . . . . . . . . 11 Sub-σ-Additivität . . . . . . . . . . . . . . . . . . . . . . . . . . . 16, 20 Substitutionsregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 T Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 topologischer Raum. . . . . . . . . . . . . . . . . . . . . . . . . . . . .25 Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . 13, 31 Tschebyschow, P. L. (1821–1894) . . . . . . . . . . . . . 30 Tschebyschow-Ungleichung . . . . . . . . . . . . . . 30 U unabhängig . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11, 31 Ungleichung Cauchy-Schwarz- . . . . . . . . . . . . . . . . . . . . . . . . 30 Tschebyschow- . . . . . . . . . . . . . . . . . . . . . . . . . . 30 unkorreliert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Unter-σ-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Jens Liebenau – SoSe 2014 47 Stichwortverzeichnis Jan Kallsen V Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13, 30 Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4, 12, 26 Binomial- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Cauchy- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 χ2 -. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .39 Doppel-Exponential- . . . . . . . . . . . . . . . . . . . . . . . 23 empirische . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Exponential- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Γ-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23 gemeinsame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 geometrische . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Gleich- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5, 23 hypergeometrische . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Laplace- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5, 23 Lognormal- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 negative Binomial- . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Normal-. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .23 Pascal- . . . . . . . . . . . . . siehe negative BinomialPoisson- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Rand- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Weibull- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Verteilungsfunktion. . . . . . . . . . . . . . . . . . . . . .22, 26, 40 Vervollständigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 W Wahrscheinlichkeit bedingte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Laplace- . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 WahrscheinlichkeitsFunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Maß. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4, 12 Weibull, W. (1887–1979) . . . . . . . . . . . . . . . . . . . . . . 23 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 23 Z Zähldichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . 45 Zufallsgröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 zentrierte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12, 24 Jens Liebenau – SoSe 2014 48