2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Die Grundbegriffe der Wahrscheinlichkeitstheorie wie Wahrscheinlichkeitsraum, Zufallsvariable, Verteilung und Erwartungswert und Verteilungsfunktion werden auf maßtheoretischer Grundlage eingeführt und motiviert durch verschiedene Aufgabenstellungen. Grundlegende Themen dieses Kapitels sind der Begriff der stochastischen Unabhängigkeit, seine natürliche Verwendung zur Modellierung stochastischer Vorgänge und die fundamentalen Gesetze großer Zahlen, die einen Bezug zwischen Experimenten und den erklärenden Parametern des stochastischen Modells herstellen. Damit liefert die Wahrscheinlichkeitstheorie eine Brücke zwischen Empirie und Theorie, die wesentlich ihre Bedeutung für die Wissenschaften ausmacht. 2.1 Grundbegriffe der Wahrscheinlichkeitstheorie In diesem einführenden Abschnitt werden zentrale Begriffe der Wahrscheinlichkeitstheorie eingeführt und Eigenschaften dieser Begriffe erläutert. Dies geschieht durch Spezialisierung und Interpretation von Begriffen und Aussagen der Maß- und Integrationstheorie. Einige Beispiele zeigen die Motivation dieser Begriffe und weiterführende Fragestellungen. Definition 2.1.1 (Wahrscheinlichkeitsraum) Sei .; A/ ein Messraum. Ein normiertes Maß P auf .; A/, d. h., es gilt: P ./ D 1, heißt Wahrscheinlichkeitsmaß auf .; A/. .; A; P / heißt Wahrscheinlichkeitsraum. Interpretation Ein Experiment habe als Grundraum möglicher Elementarereignisse . A sei das System der interessierenden Ereignisse. P beschreibt eine Gewichtsfunktion, nach der gewichtet als Ergebnis des Experiments ein zufälliges Ergebnis ! erhalten wird. Das stochastische Modell .; A; P / ist also ähnlich einem Urnenmodell, aus dem zufällig mit P gewichtet eine Kugel entnommen wird. © Springer-Verlag Berlin Heidelberg 2016 L. Rüschendorf, Wahrscheinlichkeitstheorie, Springer-Lehrbuch Masterclass, DOI 10.1007/978-3-662-48937-6_2 47 48 2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Definition 2.1.2 (Zufallsvariable und Verteilung) Sei .; A; P / ein Wahrscheinlichkeitsraum und .0 ; A0 / ein Messraum. a) Eine messbare Abbildung X W .; A/ 7! .0 ; A0 / heißt Zufallsvariable. X heißt reelle Zufallsvariable, wenn .0 ; A0 / D .R1 ; B 1 / ist. b) Das Bildmaß P X von P unter X heißt Verteilung von X. Interpretation Als Ergebnis eines Zufallsexperiments im Modell .; A; P / ergibt sich ein zufälliges Element ! 2 . Von Interesse ist aber nur der Wert X.!/ einer Funktion X. X.!/ ist dann auch eine zufällige Variable, deren Verteilung in .0 ; A0 / durch P X DW PX beschrieben wird. Definition 2.1.3 (Erwartungswert und Varianz) Sei X eine reelle Zufallsvariable (ZVe) auf .; A; P /. Z Z a) Für X 2 Z C [ L1 .P / heißt EX WD X dP D x dP X .x/ Erwartungswert von X. b) Für X 2 L1 .P / heißt Var.X/ WD E.X EX/2 Varianz von X. Es gilt: Var.X/ D EX 2 .EX/2 . p .x/ WDR Var.X/ heißt Streuung von X. c) EX r D x r dP X .x/ heißt Moment der Ordnung r (falls existent). Interpretation Bei einem Spiel mit zufälligem Ausgang X ist EX der faire Einsatz. Ist P X eine Masseverteilung, dann ist EX der Schwerpunkt. Die Varianz Var.X/ ist die mittlere quadratische Schwankung um den Erwartungswert. EX und Var.X/ sind zwei charakteristische Größen zur Beschreibung der Verteilung P X von X. Definition 2.1.4 (Kovarianz, Korrelationskoeffizient) Seien X und Y reelle Zufallsvariable auf .; A; P /. a) Cov.X; Y / WD E.X EX/.Y EY / heißt Kovarianz von X; Y (falls existent). Cov.X; Y / heißt Korrelationskoeffizient von X; Y (falls existent). b) %.X; Y / WD .X / .Y / c) X; Y heißen unkorreliert, wenn Cov.X; Y / D 0. Interpretation Die Kovarianz und der Korrelationskoeffizient beschreiben den Grad von linearer Abhängigkeit von X; Y . Diese Interpretation ergibt sich aus der folgenden Proposition. 2.2 Verteilungsfunktion und stochastische Unabhängigkeit 49 Proposition 2.1.5 Seien X; Y reelle Zufallsvariable. a) Var.X/ D 0 , X D EX ŒP . b) j%.X; Y /j 1; j%.X; Y /j D 1 , 9 a; b 2 R1 W Y D aX C b ŒP . c) Für X; Y 2 L2 .P / gilt: E.X a/2 E.X EX/2 D Var.X/; 8 a 2 R1 : d) Für X; Y 2 L2 .P / gilt: E.Y .aX C b//2 D min a;b hat die Lösung a WD %.X; Y / .X/ ; .Y / b WD EY a EX: g .x/ D a x C b heißt Regressionsgerade von Y nach X. Bemerkung 2.1.6 Aussage b) in Proposition 2.1.5 ist eine Folgerung aus der CauchySchwarz-Ungleichung. c) besagt, dass der Erwartungswert EX die beste Approximation von X durch eine Konstante im L2 -Sinne ist. Entsprechend ist nach d) g .X/, g die Regressionsgerade, die beste Vorhersage (Approximation) von Y durch eine lineare Funktion y von X. 2.2 Verteilungsfunktion und stochastische Unabhängigkeit Verteilungsfunktionen erlauben eine einfache Beschreibung von Wahrscheinlichkeitsmaßen auf R1 . Der Begriff der stochastischen Unabhängigkeit ist fundamental für die Modellbildung stochastischer Experimente. Wir behandeln die grundlegenden Rechenregeln für diesen Begriff. Definition 2.2.1 (Verteilungsfunktion) Eine Abbildung F W R 7! Œ0; 1 heißt Verteilungsfunktion auf R1 , wenn i) F " (d. h., F ist monton wachsend), ii) F ist rechtsseitig stetig, iii) limx!1 F .x/ D 1 und limx!1 F .x/ D 0, F ist normiert. Sei M 1 .; A/ die Menge der Wahrscheinlichkeitsmaße auf .; A/ und sei F D F 1 die Menge der Verteilungsfunktionen auf R1 . 50 2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Satz 2.2.2 (Korrespondenzsatz) 1. Sei P 2 M 1 .R1 ; B 1 /, dann ist FP .x/ WD P ..1; x/ für x 2 R eine Verteilungsfunktion. 2. Sei F 2 F , dann existiert genau ein Wahrscheinlichkeitsmaß P 2 M 1 .R1 ; B 1 /, so dass F D FP . 3. Die Abbildung M 1 .R1 ; B 1 / ! F ist bijektiv. P 7! FP Beweis 1) i) Ist x y, dann folgt FP .x/ D P ..1; x/ P ..1; y/ D FP .y/. ii) Sei xn # x, dann folgt nach dem Stetigkeitssatz für Maße: FP .xn / D P ..1; xn / # P ..1; x/: iii) Sei xn " 1, dann folgt: FP .xn / D P ..1; xn / " P .R1 / D 1I für xn # 1 folgt FP .xn / D P ..1; xn / # P .¿/ D 0: 2) Existenz. Definiere für ein Intervall I D .a; b mit a < b, P ..a; b/ WD F .b/ F .a/: (2.1) Pn Sei A WD i D1 .ai ; bi 2 F 1 eine Vereinigung paarweise disjunkter Intervalle, d. h. eine eindimensionale Figur, und definiere P .A/ WD n X .F .bi / F .ai //: i D1 Wie bei der Konstruktion des Lebesgue-Maßes ist P wohldefiniert auf F 1 , endlich additiv und ein Prämaß (kompakt approximierbar). Außerdem ist P -endlich auf F 1 . Nach dem Maßerweiterungssatz existiert daher eine Fortsetzung von P auf B 1 D .F 1 /, und es ist F D FP nach (2.1). Eindeutigkeit. Da J 1 D f.1; xI x 2 Rg ein \-stabiler Erzeuger von B 1 ist und .1; n " R1 mit P ..1; n/ 1, folgt aus dem Eindeutigkeitssatz die Eindeutigkeit der Maßfortsetzung. 3) folgt aus 1) und 2). Die Eigenschaften einer Verteilungsfunktion lassen sich in der Regel einfach nachprüfen, und daher erhalten wir nach dem Korrespondenzsatz eindeutige zugeordnete Wahrscheinlichkeitsmaße auf R1 . Eine wichtige Klasse von Beispielen von Verteilungsfunktionen wird über Lebesgue-Dichten definiert. 2.2 Verteilungsfunktion und stochastische Unabhängigkeit 51 Definition 2.2.3 Eine messbare Abbildung f W .R1 ; B 1 / ! .RC ; B C / heißt LebesgueR Dichte auf R1 , wenn sie normiert ist, d. h. wenn f d 1 D 1. Proposition 2.2.4 Sei f eine Lebesgue-Dichte auf R1 und definiere F .x/ R .1;x f d 1 , dann gilt: WD 1) F 2 F , F ist eine Verteilungsfunktion und das zugehörige Wahrscheinlichkeitsmaß P D f 1 ist das Maß mit der Dichte f bzgl. 1 . 2) F ist stetig und P ist nicht-atomar (stetig), d. h., für alle x 2 R1 ist P .fxg/ D 0. 3) Ist f stetig in x0 , dann ist F in x0 differenzierbar und es gilt: F 0 .x0 / D f .x0 /. Beweis 1) Aus der Definition und den Eigenschaften des Integrals folgt für alle x Z f d 1 D f 1 ..1; x/: P ..1; x/ D F .x/ D .1;x Somit ist P D f 1 auf J 1 , und aus dem Eindeutigkeitssatz folgt: P D f 1 , d. h. Z P .A/ D f d 1 für alle A 2 B 1 : A 2) Es ist P D f 1 1 . Da 1 .fxg/ D 0, 8 x 2 R1 , folgt P .fxg/ D 0, d. h., P ist stetig. Behauptung: F ist stetig , P ist stetig „)“: P .fxg/ D F .x/ F .x/ D 0, also folgt „)“ „(“: F ist rechtsseitig stetig nach dem Stetigkeitssatz lim.F .x C h/ F .x// D lim P ..x; x C h/ D 0: h#0 h#0 F ist auch linksseitig stetig, da wieder nach dem Stetigkeitssatz lim F .x/ F .x h/ D P .fxg/ D 0: „ ƒ‚ … h#0 DP ..xh;x/ 3) Sei f stetig in x0 , dann existiert eine Umgebung U D .x0 h; x0 C h/ von x0 und k 2 R1 mit jf .y/j k für y 2 U . Daraus folgt: für alle x; y 2 U mit x < x0 < y gilt Z F .y/ F .x0 / 1 D f d 1 ! f .x0 / y#xo y x0 y x0 .x0 ;y und ebenso F .x0 / F .x/ ! f .x0 /: x"x0 x0 x 52 2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Falls f stetig ist, folgt die Behauptung auch direkt aus dem Hauptsatz der DifferentialRx und Integralrechnung, d. h., F .x/ D 1 f .y/ dy ist differenzierbar in x0 und F 0 .x0 / D f .x0 /. Bemerkung 2.2.5 a) Ist P D f 1 , dann gilt für F D FP , dass F 0 1 fast sicher existiert und F 0 D f Œ1 . Dies ist der Inhalt des Lebesgue’schen Differentiationssatzes. b) Ist F stetig, so folgt nicht, dass das zugehörige Maß P Lebesgue-stetig ist. Es existiert P 2 M 1 .R1 ; B 1 / mit P ? 1 , d. h., P und 1 haben disjunkte Träger so dass FP stetig ist. R c) Maße mit Dichten. Ist Rein Maß auf .R1 ; B 1 / und f 2 Z C \ L1 ./ mit f d D 1, dann definiert F .x/ D .1;x f d eine Verteilungsfunktion, F 2 F 1 . Das zugehörige Wahrscheinlichkeitsmaß P ist das Maß mit Dichte f bzgl. , d. h. P D f. Der Beweis ist analog zu dem von Proposition 2.2.4. Insbesondere durch die Wahl von D A als abzählendes Maß einer abzählbaren y Menge A R1 erhält man die kanonischen diskreten Wahrscheinlichkeitsmaße. Beispiel 2.2.6 a) Diskrete Maße 1. Bernoulli-Verteilung: B .1; #/, # 2 Œ0; 1 A D f0; 1g, Dichte f .1/ D #, f .0/ D 1 #. 2. Binomialverteilung: B .n; #/ A D f0; 1; : : : ; ng, Dichte f# .k/ D nk # k .1 #/nk . 3. Poisson-Verteilung: P ./, 0 < < 1 k A D N0 , Dichte f .k/ D kŠ e . 4. Geometrische Verteilung: G .#/, 0 < # 1 A D N, Dichte f# .n/ D .1 #/n1 #. b) Stetige Maße Für D 1 erhält man die stetigen Standardverteilungen wie z. B. 1. Gleichverteilung: UA D U.A/ auf A R1 mit 0 < 1 .A/ < 1 Dichte f D 11.A/ 1A , 2. Normalverteilung: N.; 2 /, 2 R1 , 2 > 0 1 .x/2 Dichte '; 2 .x/ D p 1 2 e 2 2 , 2 3. Exponentialverteilung: E ./, > 0 Dichte f .x/ D e x , x 0 . } 2 Beispiel 2.2.7 (Normalverteilung) Sei '.x/ WD x p1 e 2 2 , x 2 R1 , die Dichte der Standard-Normalverteilung P D '1 D N.0; 1/. Ist X eine normalverteilte Zufalls- 2.2 Verteilungsfunktion und stochastische Unabhängigkeit 53 variable auf .; A; P /, d. h. P X D N.0; 1/, dann gilt: Z Z Z EX D X dP D x dP X .x/ D x'.x/ dx D 0 Z 2 2 und Var.X/ D EX .EX/ D x 2 '.x/ dx D 1: Für X N.; 2 / gilt analog EX D , Var X D 2 . Die allgemeinen Momente ˛k für X N.0; 1/ erhält man mit Induktion und partieller Integration. Es ist ˛2kC1 D 0; ˛2k D EX 2k D .2k 1/.2k 3/ 1; speziell ˛2 D 1, ˛4 D 3 und ˛6 D 15. } Der Begriff der stochastischen Unabhängigkeit wird zunächst für zwei Ereignisse A; B eingeführt. Dazu ist es nützlich, an die elementare bedingte Wahrscheinlichkeit zu erinnern. Definition 2.2.8 Sei .; A; P / ein Wahrscheinlichkeitsraum und A; B 2 A, dann heißt 8 < P .A\B/ ; P .B/ > 0; P .B/ P .A j B/ WD :P .A/; sonst; die elementare bedingte Wahrscheinlichkeit. Definition 2.2.9 (Stochastische Unabhängigkeit) Sei .; A; P / ein Wahrscheinlichkeitsraum und A; B; C 2 A. a) A; B heißen stochastisch unabhängig , P .A \ B/ D P .A/P .B/ , P .A j B/ D P .A/: b) Die Ereignisse A; B; C heißen stochastisch unabhängig, wenn sie paarweise unabhängig sind und zusätzlich P .A \ B \ C / D P .A/P .B/P .C / gilt. (2.2) 54 2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Bemerkung 2.2.10 a) Es gilt: A; B sind stochastisch unabhängig , 1A ; 1B sind unkorreliert; d. h. Cov.1A ; 1B / D 0. b) Bedingung (2.2) ist äquivalent zu P .A \ B j C / D P .A \ B/ D P .A/P .B/ oder äquivalent zu P .B \ C j A/ D P .B \ C / oder auch zu P .A \ C j B/ D P .A \ C /: y Für allgemeinere Mengensysteme wird der Unabhängigkeitsbegriff durch eine Produkteigenschaft definiert. Definition 2.2.11 a) Ein System .Ai /i 2I A heißt stochastisch unabhängig, wenn \ Y 8 J I endlich W P Aj D P .Aj /: j 2J j 2J b) Seien Ei A für i 2 I . .Ei /i 2I heißt stochastisch unabhängig, wenn 8 Ai 2 Ei ; 8 i 2 I gilt W .Ai /i 2I ist stochastisch unabhängig: c) Seien Xi W .; A/ ! .i ; Ai /, i 2 I , Zufallsvariablen, dann heißt .Xi /i 2I stochastisch unabhängig, wenn . .Xi //i 2I stochastisch unabhängig ist. Bemerkung 2.2.12 .Ei /i 2I ist stochastisch unabhängig genau dann, wenn für alle J I endlich .Ej /j 2J stochastisch unabhängig ist. Die stochastische Unabhängigkeit ist also y eine Eigenschaft endlicher Teilsysteme. Beispiel 2.2.13 Geometrische Verteilung. Die Wartezeit W auf den ersten Erfolg einer unabhängigen Bernoulli-Folge .Xn /, Xn B .1; #/ mit Erfolgswahrscheinlichkeit # (pro Versuch) ist geometrisch verteilt: W G ./, d. h., es gilt fW .n/ WD P .W D n/ D .1 /n1 ; n 2 N; und es gilt W EW D 1 : Da W D inffn 2 N W Xn D 1g, gilt wegen der Unabhängigkeit der .Xn /: P .W D n/ D P .X1 D 0; : : : ; Xn1 D 0; Xn D 1/ D P .X1 D 0/ P .Xn1 D 0/P .Xn D 1/ D .1 #/n1 #: Die Formel EW D 1 # folgt elementar. 2.2 Verteilungsfunktion und stochastische Unabhängigkeit 55 Abb. 2.1 Spielfolge, Einsatz 6 C Abb. 2.2 Spielfolge, Einsatz 10 C Als Anwendung ergibt sich das auch historisch interessante Petersburger Paradoxon. Eine faire Münze wird so lange geworfen, bis zum ersten Mal die Seite mit dem Wappen erscheint. Die Wartezeit X ist nach a) dann geometrisch verteilt, X G . 12 /. Als Gewinn wird einem Spieler dieses Spiels Y D 2X 1 ausgezahlt. Die Frage ist nun: Was ist ein fairer Einsatz für dieses Spiel? Es ist P .X D n/ D 2n , n 1 und nach a) ist EX D 2. Im Mittel dauert es nur zwei Würfe bis zum ersten Wappen. Die Wahrscheinlichkeit für lange Zahl-Serien nimmt 1 . Es gilt aber schnell ab, z. B. ist P .X 11/ D 1024 EY D E2X 1 D 1 X 2n1 P .X D n/ nD1 D 1 X nD1 1 D 1: 2 Dieses scheinbar paradoxe Resultat: im Mittel sind Serien kurz, aber der faire Einsatz EY D 1, erklärt sich mit Hilfe von Simulationen. Bei einem Einsatz von 6 C und n D 100 Spielen tritt typischerweise (aber nicht immer) ein negativer Verlauf ein (vgl. Abb. 2.1). Ist n jedoch sehr groß, z. B. n D 10:000, dann gibt es typischerweise (aber nicht immer) eine lange Serie und einen beträchtlichen Gewinn (vgl. Abb. 2.2 für n D 10:000, } Einsatz 10 C). Die folgenden Rechenregeln über „Vergrößern“ und „Zusammenfassen“ stochastisch unabhängiger Systeme sind nützlich. 56 2 Stochastische Unabhängigkeit und Gesetze großer Zahlen Satz 2.2.14 („Vergrößern“ und „Zusammenfassen“) Sei .Ei /i 2I A ein stochastisch unabhängiges System, dann gilt: 1) .D.Ei //i 2I ist stochastisch unabhängig. 2) Sind Ei \-stabil, i 2 I , dann ist . .Ei //i 2I stochastisch unabhängig. S 3) Seien Ei \-stabil, i 2 I , sei I D j 2K Ij eine disjunkte Zerlegung von I und sei S AIi WD . j 2Ii Ej /. Dann sind die Systeme .AIi /i 2K stochastisch unabhängig. Beweis 1) Sei o. B. d. A. jI j < 1 und für i0 2 I sei Di0 WD fE 2 AI ..Ei /i ¤i0 ; fEg/ stochastisch unabhängigg: Nach Voraussetzung gilt: Di0 Ei0 . Daraus folgt: Di0 D.Ei0 /. Also sind ..Ei /i ¤i0 ; D.Ei0 // stochastisch unabhängig. Induktiv ergibt sich: .D.Ei //i 2I ist stochastisch unabhängig. 2) Die Behauptung folgt aus 1), da D.Ei / D .Ei /. 3) Sei Ai WD .Ei /, i 2 I . Diese sind nach 2) stochastisch unabhängig. T Für j 2 K definiere Bj WD f i 2J Ci I J Ij endlich; Ci 2 Ai ; i 2 J g. Es folgt Bj ist \-stabil, .Bj /j 2K sind stochastisch unabhängig und AIj D .Bj /. Nach 2) folgt .AIj /j 2K sind stochastisch unabhängig. Korollar 2.2.15 Seien Xi W .; A/ 7! .i ; Ai / Zufallsvariable und Ei \-stabile Erzeuger von Ai mit i 2 Ei , 1 i n. Dann gilt: .Xi /1i n sind stochastisch unabhängig Y \ n n fXi 2 Ei g D P .fXi 2 Ei g/; , P i D1 8 Ei 2 Ei : i D1 Beweis „)“: ist klar. „(“: Bi WD Xi1 .Ei / sind \-stabile Erzeuger von .Xi / und 2 Bi . Daraus folgt: .Bi /1i n sind stochastisch unabhängig. (Wähle einige Ei D i .) Daher gilt: .D.Bi // D . .Bi // D . .Xi // sind stochastisch unabhängig. Funktionen stochastisch unabhängiger Zufallsvariablen sind stochastisch unabhängig. Lemma 2.2.16 Seien Xi W .; A/ ! .i ; Ai / Zufallsvariable und fi W .i ; Ai / ! .0i ; A0i /, i 2 I . Sind die .Xi /i 2I stochastisch unabhängig, dann sind auch .fi ı Xi /i 2I stochastisch unabhängig. http://www.springer.com/978-3-662-48936-9