Stochastik einmal anders Ergänzungen und Korrekturen zur 1. Auflage, Stand August 2005 (Hochgestellte Zahlen bedeuten: Zeile von oben, tiefgestellte Zahlen bedeuten: Zeile von unten.) − 193 statt − 217 bis 2311 m≤k−1 statt lies m≤k Für p ∈] 0, 1 [. . . bestimmt. lies Für p ∈] 0, 1 [ gibt es nun zwei Möglichkeiten: Im ,,Normalfall” gibt es genau ein m mit F (am ) < p < F (am+1 ). Dann ist für x < am+1 : r(X ≤ x) ≤ F (am ) < p , x = am+1 : F (am ) = r(X < x) < p < r(X ≤ x) = F (am+1 ) , am+1 < x : p < F (am+1 ) ≤ r(X < x) . Also ist x̃p = am+1 das einzige p-Quantil. Im ,,Ausnahmefall” gibt es genau ein m mit F (am ) = p < F (am+1 ). Dann ist für am x < am : r(X ≤ x) < F (am ) = p , ≤ x < am+1 : r(X < x) ≤ F (am ) = p = r(X ≤ x) , x = am+1 : F (am ) = r(X < x) = p < r(X ≤ x) = F (am+1 ) , am+1 < x : p < F (am+1 ) ≤ r(X < x) . Also ist jedes x̃p ∈ [ am , am+1 ] ein p-Quantil. Normalfall: Eindeutiges Quantil Ausnahmefall: Intervall von Quantilen In 2.8 werden wir Quantile einer stetigen Verteilungsfunktion F betrachten, das sind ganz einfach die Werte der Umkehrfunktion F −1 . Da die hier betrachteten F unstetige Treppenfunktionen sind, muss man die obige etwas mühsame Ersatzkonstruktion ausführen! − 278 statt ≤a·x − 296 statt c∈R − 331 statt x > 0. − 378 statt a1 , a2 , . . . , ak − 379 statt b1 , b 2 , . . . , b l − 4411 − 475 statt statt lies lies lies ≤ a · xn c ∈ R (dabei bezeichnen a1 , . . . , ak die Ausprägungen) x > 0 . Für Y = aX mit a > 0 ist offensichtlich VY = VX . lies lies 10|6 lies 9|7 x := y := lies a1 < a2 < . . . < ak b1 < b 2 < . . . < b l x := y := 1 − 477 < x, y > − n xy . statt − 4712 statt − 4914 statt − 5914,15 F (γ, δ) , so folgt statt statt Ω − 7310 statt ≤β bis 751 lies mit a, b > 0 , so folgt lies wie man die Konvergenz beweisen könnte. Ω0 lies lies statt < x, y > −n x · y . F (γ, δ) welche ... müssten. − 665,8 − 755 lies lies <β P 0 (a) . . . bestimmt. lies PX (a) := P (X = a) , so ist dadurch eine Wahrscheinlichkeitsverteilung PX auf Ω0 ⊂ R erklärt. Durch PX ist die Verteilungsfunktion FX bestimmt und umgekehrt kann man an der Treppenfunktion FX die Wahrscheinlichkeitsverteilung PX ablesen. Das mag als Rechtfertigung der etwas gewöhnungsbedürftigen Terminologie dienen. − 777 statt für i 6= j} , Ω2 := {(a1 , . . . , ak ) : 1 ≤ ai ≤ n, ai 6= aj lies − 85 Ω2 := {(a1 , . . . , ak ) : ai 6= aj für i 6= j} , Zusatz ganz unten Welche Wahrscheinlichkeitsverteilung auf den Ωi angemessen ist, hängt davon ab, in welcher Weise die Züge ausgeführt werden. Wird vor jedem Zug gründlich gemischt und wird ,,mit verbundenen Augen” gezogen, so ist eine Gleichverteilung angemessen. Insbesondere bedeutet dies, dass das Ergebnis jedes einzelnen Zuges von den vorhergehenden Ergebnissen ,,unabhängig” angesehen wird. Dieser intuitive Begriff der Unabhängigkeit wird in 2.5 präzisiert. − 8614 − 893 statt statt 364 − k + 1 365 − k + 1 lies Ausgangspunkt... lies Wie wir am Ende von Abschnitt 2.2 gesehen hatten, erhält man aus einer Wahrscheinlichkeitsverteilung P auf Ω und einer Zufallsvariablen X : Ω → R eine Wahrscheinlichkeitsverteilung PX auf X(Ω) ⊂ R mit PX (a) = P (X = a) . Dafür geben wir in diesem Abschnitt zwei wichtige Beispiele. Ausgangspunkt... − 971 statt − 981 lies − 106 Fortsetzung Beispiel 4. Ein ... Anhang lies Das wird im Anhang erläutert. Ω2 = {(a1 , a2 ) ∈ {1, . . . , 32}2 : a1 6= a2 }. 2 Beispiel 4 (Unabhängigkeit von Zufallsvariablen und Ereignissen) Zunächst wird eine Münze zweimal hintereinander geworfen, dann ist Ω = {0, 1}2 und ω = (a1 , a2 ) ∈ Ω . a) Wir betrachten die Zufallsvariablen X1 (ω) = a1 , X2 (ω) = a2 und X3 (ω) = (a1 + a2 ) mod 2 ∈ {0, 1} . Wie man sofort nachrechnet, sind die Paare X1 , X3 und X2 , X3 unabhängig, d.h. die Parität der Summe ist stochastisch unabhängig vom ersten Wurf und stochastisch unabhängig vom zweiten Wurf. Das mag verwunderlich klingen, aber die tatsächliche Abhängigkeit vom zufälligen Ergebnis des ersten Wurfes wird durch die Zufälligkeit des zweiten Wurfes ausgeglichen. Offensichtlich ist X3 abhängig von X1 und X2 gemeinsam. Das sieht man rechnerisch in den verletzten Produktregeln, z.B. P (X1 = 0, X2 = 0, X3 = 1) = 0 6= 1 = P (X1 = 0) · P (X2 = 0) · P (X3 = 1) . 8 b)Wir betrachten die Ereignisse A1 := {ω ∈ Ω : a1 = 0}, A2 = {ω ∈ Ω : a2 = 0} und A3 = {ω ∈ Ω : a1 = a2 } . Dann ist 1 1 , P (A1 ∩ A2 ∩ A3 ) = . 2 4 Also sind A1 , A2 , A3 nicht unabhängig. Das ist auch intuitiv klar, denn A1 ∩ A2 ⊂ A3 . Dagegen ist für alle i 6= j 1 P (Ai ∩ Aj ) = = P (Ai ) · P (Aj ) , 4 also sind alle Paare Ai , Aj unabhängig. P (A1 ) = P (A2 ) = P (A3 ) = c) Für das letzte Gegenbeispiel wird zweimal gewürfelt, dann ist Ω = {1, . . . , 6}2 3 ω = (a1 , a2 ) . Als tückische Ereignisse wählen wir (vgl.[B-H], p.172) A1 A2 A3 := {ω ∈ Ω : 3 teilt a1 + a2 } , := {ω ∈ Ω : 4 teilt a1 + a2 } , := {ω ∈ Ω : 7 teilt a1 + a2 oder a1 + a2 ≥ 10} . Dann ist P (A1 ) = 1 1 1 , P (A2 ) = , P (A3 ) = 3 4 3 und P (A1 ∩ A2 ∩ A3 ) = 1 . 36 Also gilt die Produktformel für das Tripel A1 , A2 , A3 . Für alle möglichen Paare Ai , Aj mit i 6= j ist sie verletzt: 1 36 1 P (A1 ∩ A3 ) = 36 1 P (A2 ∩ A3 ) = 36 P (A1 ∩ A2 ) = 1 = P (A1 ) · P (A2 ) , 12 1 = P (A1 ) · P (A3 ) , 9 1 = P (A2 ) · P (A3 ) . 12 6= 6= 6= 3 − 1075−2 − 1071 statt statt X n , an lies X r , ar Erläuterungen ... 2.7 lies Die Unabhängigkeit im Fall von mehr als zwei Beteiligten (also r ≥ 3) ist nicht frei von Tücken. Wie im Anhang E zu 2.7 erläutert wird, folgt aus der Unabhängigkeit von Zufallsvariablen X1 , . . . , Xr auch die Unabhängigkeit jedes Teilsystems; d.h. ist {i1 , . . . , ik } ⊂ {1, . . . , r} , 2≤k ≤r−1 irgend eine echte Teilmenge, so sind mit X1 , . . . , Xn auch Xi1 , . . . , Xik unabhängig. Beispiel 4 a) zeigt, dass die Umkehrung nicht richtig ist. Für Ereignisse A1 , . . . , Ar ist die Situation noch komplizierter. Sie heißen unabhängig, wenn für jede Teilmenge {i1 , . . . , ik } ⊂ {1, . . . , r} , 2 ≤ k ≤ r die Produktregel P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) (2.5.10) gilt. Die Beispiele 4 b) und c) zeigen, dass aus der Produktregel für alle Ai nicht die Produktregeln für Teilsysteme folgen, und dass aus den Produktregeln für alle echten Teilsysteme nicht die Produktregel für das gesamte System folgt. Die unterschiedliche Situation bei Zufallsvariablen und Ereignissen kann man sich so klar machen: Bedingung (2.5.9) ist nicht nur eine einzige Gleichung, sondern besteht aus so vielen Gleichungen, wie es r-Tupel (a1 , . . . , ar ) von Werten der X1 , . . . , Xr gibt. Dagegen ist (2.5.10) für k = r nur eine einzige Gleichung. − 10912 − 1167−9 statt statt k = 2, lies r = 2, Nach dieser ... verursacht hat. lies Das Ziegenproblem hat einige Aufregung verursacht, die Gründe dafür sind vielfältig. Eine entscheidende Frage betrifft die Freiheiten des Moderators, insbesondere die Einschränkung a3 6= a2 in Schritt 3. Die obige ganz simple Rechnung ist nur dann gerechtfertigt, wenn die Regeln strikt eingehalten werden, und wenn die in den Schritten 1 bis 3 getroffenen Auswahlen rein zufällig, d.h. etwa durch Würfeln, erfolgen (vgl. hierzu auch [Ge, Beispiel 3.5]). − 1174 statt ... Produktverteilung. lies ... Produktverteilung. Im Spezialfall Ωi ⊂ R sind die Projektionen Xi : Ω → Ωi , (a1 , . . . , ar ) 7→ ai , Zufallsvariable. Dann ist die Produktverteilung auf Ω = Ω1 × . . . × Ωr dadurch charakterisiert, dass die X1 , . . . , Xr unabhängig sind, wie in (2.5.9) definiert. − 1307−9 statt 1 3 und 1 6 lies 1 4 und 1 4 4 − 1547 statt 0.056 − 1545 statt 6% − 1592 statt P (X − µ ≤ cσ) − 1596 statt P (σ ≤ X − µ ≤ σ) − 1671 statt lies lies lies 0.066 7% P (X − µ ≤ −cσ) lies P (−σ ≤ X − µ ≤ σ) lies folgenden Eigenschaften: charakteristischen Eigenschaften für ein Maß : − 1679−14 statt Alle beliebigen ... erhalten. lies Im Beispiel des Glücksrades ist Ω die ganze Kreislinie, die angemessene Elementarwahrscheinlichkeit ist P (ω) = 0 für jedes ω ∈ Ω. Überabzählbare Summen zur Definition von P (A) sind sinnlos, überdies wären alle Summanden P (ω) gleich Null. Man kann sogar beweisen, dass es kein brauchbares Maß P auf der ganzen Potenzmenge P(Ω) geben kann (vgl. [Kr, Anhang zu §10] für Ω = R oder [Ge, Satz 1.5] für Ω = {0, 1}N ). − 1705 statt X(ω) ± 10 − 1721 statt X(ω + 120) X(ω ± 10) lies X(ω ± 120) lies − 18012 statt Da F (A) ... − 18111 statt Mit ... erhält man − 18113 Einfügung Da F |A monoton und F (A) ... lies lies Es gilt Die Berechnung dieser Integrale ist recht einfach, denn t2 d − t2 (e 2 ) = −te− 2 . dt Daraus folgt für alle c > 0 Zc −c 1 tϕ(t) dt = √ 2π Zc t2 −1 − t2 c te− 2 dt = √ e 2 |−c = 0 . 2π −c Partielle Integration ergibt Zc −c 1 t ϕ(t) dt = √ 2π 2 Zc 2 − t2 t · te −c t2 1 dt = √ − te− 2 |c−c + 2π Zc t2 e− 2 dt , −c also folgt die Behauptung für die Varianz aus Zc 2 − c2 lim ±ce c→∞ = 0 und lim c→∞ −c t2 e− 2 dt = 5 √ 2π . − 18915,16,17,20,22 − 1900 statt Einfügung: FX,ϑ ∗ FX,ϑ lies Man beachte dabei, dass S1 < Xn sein kann! − 1911 statt ... zu 2.9). Die Werte xj von X und Xj ... Konstruktion von Pϑ folgt für alle j = 1, . . . , n lies ... zu 2.9). Aus der ∗ FXj ,ϑ (x) := Pϑ (Xj ≤ x) = FX,ϑ (x) . Dafür sagt man, die X1 , . . . , Xn sind identisch wie X verteilt. Die Werte xj von Xj ... − 19415 13,10,6,1 − 1954 − 19913 statt statt statt x S2 lies lies S2 X S:Ω→R S : Ω → R , ω 7→ S(ω) = x , lies − 1996 statt ... jedem x ein Ix ... Wert x von S ein Ix ... − 20112−15 statt kritischen Abstand lies jedem möglichen durch den Zufall bestimmten ... daraus folgt ... fest als lies daraus erhält man einen minimalen σ α := √ . α Damit ist folgendes bewiesen: − 20111 statt − 2033,4 statt . . . σ2 , lies σ 2 unabhängig von ϑ, von Φ ... (3.3.4) ≥ σ · Φ−1 (1 − α ), 2 von Φ−1 zu lies also α := σ · Φ−1 (1 − α ). 2 (3.3.4) − 2033 statt B Sicherheit von Stichproben lies Problematisch in den obigen Sätzen C und G ist die Vorraussetzung, dass die Varianz σϑ2 von ϑ unabhängig ist. Ersatzweise kann man eine obere Schranke σ 2 ≥ σ ϑ für alle ϑ verwenden. Ein Beispiel dafür folgt im nächsten Abschnitt. B Schätzung einer Wahrscheinlichkeit − 2056 statt Pp lies Ep − 206 Einfügung vor Beispiel 4 Eine bessere Methode die Chancen für das Überschreiten einer Hürde zu beurteilen, ist ein einseitiger Binomialtest (Beispiel 3 in 4.1). − 2075 statt ... von Rn gut ... lies ... von Rn für großes n gut ... − 2063 bis 2081 statt Nach (3.3.9) ... aller Wähler! lies Da ist mit der hier verwendeten (und wohl auch jeder anderen) Methode keine Vorhersage mehr möglich. Nach (3.3.9) würde sich für eine Sicherheit von 90% ein Stichprobenumfang von n≥ Φ−1 (0.95) 1.645 2 = · 1010 = 4.2 · 108 −5 8 · 10 8 6 ergeben. Das ist weit mehr als die Zahl der Wahlberechtigten, allein die bei einer Binomialverteilung gemachte Annahme ,,mit Zurücklegen” ist hier absurd. − 2132 und 21611 − 21914 − 220 statt statt = Testing lies lies Tasting := Zusatz am Ende Beispiel 3 (Absolute Mehrheit und Fünf-Prozent-Hürde) In Beispiel 3 aus 3.3 war auch die Frage behandelt worden, wie nach dem Ergebnis der Umfrage unter 500 Personen mit den Stimmenzahlen kA = 273 und kB = 28 die Chancen zu beurteilen sind, dass Partei A die absolute Mehrheit erhält und Partei B die Fünf-Prozent-Hürde schafft. Dafür ist ein einseitiger Binomialtest mit p0 = 0.5 für Partei A und p00 = 0.05 für Partei B geeignet. Mit Hilfe von MAPLE kann man schnell die Werte der Gütefunktionen berechnen, wir geben einige davon an: k g0.5,500 (k) k g0.05,500 (k) 264 265 268 269 276 277 0.114 0.097 0.059 0.049 0.011 0.009 27 28 31 32 37 38 0.369 0.296 0.131 0.094 0.012 0.008 Also ist für p0 = 0.5: und für p00 = 0.05: k0.1 = 265, k0.3 = 28, k0.1 = 32, k0.05 = 269, k0.01 = 277 k0.01 = 38 Eine Schranke für die Wahrscheinlichkeit dafür, dass eine Siegesfeier aufgrund dieses Umfrageergebnisses falsch war, ist also 5% für Partei A und 30% für Partei B. Das bestätigt den schon in 3.3 bemerkten Effekt der wesentlich größeren Unsicherheit bei kleineren Parteien. − 2211 statt Die Chance ... akzeptiert zu werden,... lies Die Wahrscheinlichkeit für die Nullhypothese p ≤ p0 , nach dem Test beibehalten zu werden, ... − 221 Zusatz am Ende Der mathematische Aspekt eines Tests ist recht einfach. In den praktischen Anwendungen gibt es aber meist eine subjektive Hoffnung auf ein bestimmtes Ergebnis, und damit die Versuchung von Manipulationen. Puristen fordern daher die strikte Einhaltung folgender Spielregel. Zunächst wird ein angemessenes Signifikanzniveau α festgelegt und dazu der kritische Wert kα bestimmt. Erst danach wird der Test durchgeführt, das Ergebnis muss respektiert werden. Die Versuchung ist groß, erst den Test durchzuführen und dann auszuprobieren, mit welchem α das erhoffte Ergebnis zu erhalten ist. Ein besonders fauler Trick zur Überlistung der obigen Spielregel besteht darin, zu vorgegebenem α so oft hintereinander Testserien durchzuführen, bis sich ,,zufällig” einmal das erhoffte Ergebnis einstellt, und die vorhergegangenen Serien zu unterschlagen. Korrekt wäre es, alle Serien zu einer zusammenzufassen. 7 In den ausgeführten Beispielen können wir nur mögliche Werte und mögliche Ergebnisse angeben. − 22810 − 2335 statt ... unabhängigen Varianz statt − 2377,6 := lies ... unabhängigen und bekannten Varianz =: T 0 ... mit der ... statt lies lies T − ϑ0 σ T 0 := mit Eϑ (T 0 ) = ϑ − ϑ0 . σ Man beachte, dass T 0 nur für ϑ = ϑ0 mit der ... − 2456 nach ... ersetzt. Neue Formulierung: Analog zu 4.3 hat man dann den Satz. Für einen kritischen Wert c > 0 sei die Entscheidungsregel |T 0 | < c ⇒ H0 , |T 0 | ≥ c ⇒ H1 . (4.4.4) Dann ist die Wahrscheinlichkeit für einen Fehler 1. Art gleich 2Φ(−c). Ist eine Schranke 0 < α < 1 für die Wahrscheinlichkeit eines Fehlers 1. Art vorgegeben, so ist dazu cα := u1− α2 der kleinstmögliche kritische Wert. − 24910 Einfügung nach ... beschrieben. Beim einseitigen Test kann man die Schranken verbessern, indem man nach oben offene Konfidenzintervalle Ix = [ x−α , ∞ [ verwendet und die Wahrscheinlichkeiten entsprechend korrigiert. − 2504 statt − 2503 streiche − 2517 statt n = 4 lies von n = 4 ϑ∈Θ − 25111,12 statt erwartungstreu, − 252 n=5 lies ϑ∈Θ⊂R -X1 , . . . , Xn ... i = 1, . . . , n lies -X1 , . . . , Xn sind unabhängig und Zusatz am Ende Man beachte, dass die Vervielfachung der Werte zwar die Rechnung vereinfacht, aber mit der Annahme der Unabhängigkeit schwer zu vereinbaren ist. − 2534 statt y − 2569 statt des Tests. lies der Testgröße. 1, . . . , r . lies ω1∗ , . . . , ωr∗ . − 26310 − 26313,14 statt lies lies t des ,,Gitters” G := {ω = (k1 , . . . , kr ) ∈ Nr : k1 + . . . + kr = n} ⊂ Ω := Nr 8 − 2632 statt Die X1 , . . . auf Ω betrachtet, Zufallsvariable betrachtet, − 2658−6 statt dafür ist gleich lies ... zu machen. ... Grundlage ... X lies Die Xi : Ω → N, ω 7→ ki , werden als ... zu machen. Die Wahrscheinlichkeit w(k) . k∈Kc Um sie zu berechnen, müsste man w(k) für alle Gitterpunkte k ∈ G berechnen, und all die Werte ≤ c aufsummieren. Noch umständlicher wäre die Bestimmung eines minimalen kritischen Wertes cα zu vorgegebenem Signifikanzniveau α. Zum Glück gibt es eine Methode, die mit wesentlich weniger Rechenaufwand auskommt. Grundlage ... − 2684 statt − 26814 6.622 statt − 2706 H5 lies i−1 statt − 2716 statt Gr−1 , d.h. ... − 273 lies 6.626 G5 lies i=1 die Dichtefunktion ..., d.h. ... lies Grafiken komplett − 2772 statt nq0 − 2776 statt P lies Pp0 − 2777 statt P lies Pq − 277 die Verteilungsfunktion von Tr,n gegen lies np0 Zusatz am Ende Schließlich noch einmal ein Warnung: Auch beim χ2 -Test kann man keine Aussage darüber erhalten, mit welcher Wahrscheinlichkeit die Nullhypothese zutrifft. Im allgemeinen wird sie gleich Null sein: nobody is perfect! − 2792 ... − 2845,2,1 statt ... ist stückweise ... statt < x, y > − 2946 statt sx − 2995 statt 1≤i≤j≤n − 2999 − 301 F σx lies lies lies ... ist als Summe von Betragsfunktionen stückweise < x, y > sX lies σX 1≤i<j≤n Neufassung Gesetze der großen Zahlen Wie in Abschnitt 2.1 ausgeführt wurde, wäre es naheliegend, die Wahrscheinlichkeit P (A) für ein Ereignis A ⊂ Ω zu erklären als Grenzwert der relativen Häufigkeiten Rk (A) für das Eintreten von A in einer Serie der Länge k von unabhängigen Zufallsexperimenten. In der Praxis sieht 9 man, dass die Konvergenz einer Folge Rk (A) meist sehr langsam ist; in der Theorie ist es ohne den Begriff der Wahrscheinlichkeit nicht möglich, die Voraussetzung der Unabhängigkeit zu präzisieren und die Konvergenz einer solchen Folge kann nicht bewiesen werden. Dennoch ist ein Zusammenhang zwischen einer Folge Rk (A) und P (A) offensichtlich; nach der axiomatischen Einführung der Wahrscheinlichkeit und mit den daraus gewonnenen Hilfsmitteln kann man ihn nun nachträglich aufklären. Es wird sich zeigen, dass die Konvergenz außerordentlich wahrscheinlich, aber nicht absolut sicher ist. Gegeben sei eine endliche Ergebnismenge Ω mit einer Wahrscheinlichkeitsverteilung P und einem Ereignis A ⊂ Ω, es sei p := P (A). Standardbeispiel ist das Ziehen aus einer Urne mit n Kugeln, r davon rot, und dem Ereignis ,,rot”. Dann ist p= r . n Zieht man mit Zurücklegen k mal hintereinander, so liegt das Ergebnis ω in Ωk , es ist also ω = (ω1 , . . . , ωk ) mit ωi ∈ Ω . Allgemeiner kann ω als Ergebnis einer Folge von k Zufallsexperimenten angesehen werden. Dann ist 1 Rk (A)(ω) := #{i : ωi ∈ A} k die relative Häufigkeit, mit der das Ereignis A in der vorliegenden Folge auftritt. Der Kniff ist nun, Rk (A) als Zufallsvariable anzusehen: Zunächst hat man die Zufallsvariable 1 für ω ∈ A, X : Ω → {0, 1} , X(ω) = 0 für ω 6= A. Ihr Erwartungswert ist E(X) = X X(ω)P (ω) = ω∈Ω X P (ω) = P (A) . ω∈A Entsprechend hat man auf Ωk Zufallsvariable X1 , . . . , Xk mit Xi (ω1 , . . . , ωn ) = X(ωi ) , d.h. Xi (ω) = 1 genau dann, wenn ωi ∈ A. Die Forderung der Unabhängigkeit der Zufallsexperimente wird dadurch erfüllt, dass Ωk mit der Produktverteilung Pk versehen wird. Entsprechend (2.6.7) ist Pk (ω1 , . . . , ωk ) := P (ω1 ) · . . . · P (ωk ) , also Pk (X1 = δ1 , . . . , Xk = δk ) = pl (1 − p)k−l = Pk (X1 = δ1 ) · . . . · Pk (Xk = δk ) , wobei δi ∈ {0, 1} und l = δ1 +. . .+δk . Aus X1 , . . . , Xk erhalten wir schließlich die Zufallsvariable Rk (A) := 1 (X1 + . . . + Xk ) . k Aus E(Xi ) = E(X) für alle i folgt für den Erwartungswert E(Rk (A)) = 1 (E(X1 ) + . . . + E(Xk )) = E(X) = P (A) = p . k 10 Anders ist es bei der Varianz: Zunächst ist Var(Xi ) = Var(X) =: σ 2 für alle i. Wegen der Unabhängigkeit von X1 , . . . , Xn folgt aber nach (2.7.18) Var Rk (A) = Var = σ2 . k 1 1 (X1 + . . . + Xk ) = 2 ( Var(X1 ) + . . . + Var(Xk )) k k Das ist höchst bemerkenswert: Durch die Mittelbildung wird die Streuung kleiner, falls die Ergebnisse unabhängig sind! Zufallsvariable sind Funktionen, dafür gibt es verschiedenartige Begriffe von Konvergenz. Wir betrachten zunächst die Folge Rk (A) und die konstante Zufallsvariable mit dem festen Wert p = P (A). Am einfachsten ist die punktweise Konvergenz, sie bedeutet lim Rk (A)(ω) = p k→∞ für alle ω. Das entspräche der Aussage, dass die relativen Häufigkeiten bei allen möglichen Folgen von Ergebnissen der Zufallsexperimente gegen P (A) konvergieren. Zu schön um wahr zu sein! Aus diesem Dilemma sind schwächere Konvergenzbegriffe für Zufallsvariable entstanden. Die folgende Überlegung führt zu einer ,,stochastischen Konvergenz”. Wendet man die Ungleichung von Chebyshev auf Rk (A) an, so folgt für jedes relle > 0 Pk (ω ∈ Ωk : |Rk (A)(ω) − p | ≥ ) =: Pk (|Rk (A) − p | ≥ ) ≤ σ2 , k2 also σ2 . k2 Pk (|Rk (A) − p | < ) ≥ 1 − (?) Zusammengefasst erhält man damit ein sogenanntes Schwaches Gesetz der großen Zahlen. Sei Ω mit der Wahrscheinlichkeitsverteilung P , dem Ereignis A ⊂ Ω und der Zufallsvariablen X wie oben mit E(X) = P (A) und Var(X) = σ 2 gegeben. Weiter seien X1 , . . . , Xk auf Ωk mit der Produktverteilung Pk die oben eingeführten unabhängigen Zufallsvariablen mit E(Xi ) = P (A) und Var(Xi ) = σ 2 für i = 1, . . . , k. Dann gilt für jedes > 0 lim Pk (|Rk (A) − P (A) | < ) = 1 . k→∞ Anders ausgedrückt: Die Wahrscheinlichkeit dafür, dass die relative Häufigkeit Rk (A)(ω) für alle möglichen Ergebnisse ω von Experimentfolgen der Länge k von der Wahrscheinlichkeit P (A) einen beliebig kleinen vorgegebenen Abstand unterschreitet, geht mit größer werdendem k gegen 1. Im Spezialfall einer Bernoulli-Kette der Länge k (Anhang A zu 2.8) ist E(Rk (A)) = p und Var(Rk (A)) = 1 p(1 − p) ≤ , k 4k also wird die obige Abschätzung (?) zu Pk (|Rk (A) − p | < ) ≥ 1 − 1 . 4k2 11 (??) Eine Aussage dieser Art hatte J. Bernoulli schon um 1690 gefunden, natürlich ohne all die hier verwendeten und erst im vergangenen Jahrhundert entwickelten Techniken zur Verfügung gehabt zu haben. Dieses ,,schwache Gesetz” ist zwar einfach zu beweisen, aber die Aussage ist weit schwächer als das, was man erwartet: Man möchte doch wissen, für ,,wie viele” unter allen möglichen unendlichen Folgen von Zufallsexperimenten die relativen Häufigkeiten gegen die Wahrscheinlichkeit konvergieren. Zur Beantwortung dieser Frage durch ein ,,starkes Gesetz” kommt man nicht mehr mit endlichen Ergebnismengen aus. Daher geben wir nur einen Ausblick in diese Richtung, zusammen mit dem Hinweis auf Abschnitt 2.9. Technisches Hilfsmittel sind Konvergenzbegriffe für Zufallsvariable, diese müssen alle auf der gleichen Ergebnismenge erklärt sein. Für die auf Ωk erklärten Rk (A) von oben erreicht man das durch Einführung des unendlichen Produkts Ω∗ = Ω × Ω × . . . . Die Elemente ω ∈ Ω∗ sind Folgen ω = (ω1 , ω2 , . . .) mit ωi ∈ Ω. Bei der Einführung einer angemessenen Wahrscheinlichkeitsverteilung P∗ auf Ω∗ hat man zu bedenken, dass Ω∗ nicht mehr abzählbar ist, wenn Ω mehr als ein Element enthält ( man verwende das Zweite Cantorsche Diagonalverfahren). Entsprechend 2.9 (und Anhang A dazu) muss man daher eine Familie F ⊂ P(Ω∗ ) und eine dadurch erzeugte σ-Algebra A(F) angeben, auf der P∗ erklärt wird (vgl. [Ge, 3.4]). Wir wählen dazu eine Zahl n ≥ 1 mit Teilmengen A1 , . . . , An ⊂ Ω und betrachten A∗ (A1 , . . . , An ) := {ω = (ω1 , ω2 , . . .) ∈ Ω∗ : ω1 ∈ A1 , . . . , ωn ∈ An } ⊂ Ω∗ . Die ersten n Terme ωi sind also eingeschränkt, die restlichen ωi sind beliebig. Dann ist F ⊂ P(Ω∗ ) erklärt als die Familie all solcher A∗ (A1 , . . . , An ) mit beliebigem n und beliebigen A1 , . . . , An . Die Familie F ist Durchschnitt-stabil, denn A∗ (A1 , . . . , An ) ∩ A∗ (B1 , . . . , Bm ) = A∗ (A1 ∩ B1 , . . . , Am ∩ Bm , Am+1 , . . . , An ) , falls m ≤ n. Die angemessene Wahrscheinlichkeit auf F ist P∗ (A∗ (A1 , . . . , An )) := P (A1 ) · . . . · P (An ) , da die ersten n Ergebnisse unabhängig und die weiteren Ergebnisse irrelevant sind. Aus der Maßtheorie (vgl. z. B. [El, II 5, 2.]) weiß man, dass sich dieses P∗ von F eindeutig auf A(F) fortsetzen lässt. Man nennt diese Wahrscheinlichkeitsverteilung P∗ auf Ω∗ eine Produktverteilung. Im Gegensatz zu (2.6.7) hat man hier unendlich viele Faktoren. Man beachte, dass im Allgemeinen P∗ (ω) = P∗ (ω1 , ω2 , . . .) = 0 , d.h. die Wahrscheinlichkeit dafür, dass die ganze unendliche Folge vorgegebene Werte annimmt, ist gleich Null. Im einfachsten Spezialfall Ω = {0, 1} und P (1) = p ist für a1 , . . . , an ∈ Ω und k = a1 + . . . + an P∗ (A∗ (a1 , . . . , an )) = pk (1 − p)n−k , wobei A∗ (a1 , . . . , an ) = {ω ∈ Ω∗ : ω1 = a1 , . . . , ωn = an } ∈ F. Nicht einmal hier kann man die σ-Algebra A(F) ⊂ P(Ω∗ ) explizit angeben. Man bedenke dabei, dass Ω∗ gleichmächtig mit R ist! 12 Sind auf diesem (oder irgend einem anderen) Ω∗ Zufallsvariable Y1 , Y2 , . . . , Yk , . . . und Y gegeben, so heißt eine Folge (Yk ) stochastisch konvergent gegen Y , wenn für jedes > 0 lim P∗ (| Yk − Y | < ) = 1 . k→∞ Im Allgemeinen folgt daraus für kein einziges ω ∈ Ω∗ die Konvergenz der Folge (Yk (ω)) gegen Y (ω) (siehe [Kr, 12.1]). In dieser Terminologie besagt das schwache Gesetz der großen Zahlen die stochastische Konvergenz der Folge Rk (A) gegen die Konstante P (A). Man nennt eine Folge (Yk ) von Zufallsvariablen auf Ω∗ punktweise fast sicher konvergent gegen Y , wenn P∗ ({ω ∈ Ω∗ : lim Yk (ω) = Y (ω)}) = 1 . k→∞ Bemerkung. Aus punktweiser fast sicherer Konvergenz folgt stochastische Konvergenz. Beweis. Bezeichnet C := {ω ∈ Ω∗ : lim Yk (ω) = Y (ω)} , k→∞ so ist P (C) = 1. Für > 0 und n ≥ 1 sei Bn := {ω ∈ Ω∗ : | Yk (ω) − Y (ω) | < Dann ist Bn ⊂ Bn+1 und C ⊂ B := ∞ [ für alle k ≥ n} . B n ⊂ Ω∗ . n=1 Aus P∗ (C) = 1 folgt P∗ (B) = 1 und daraus lim P∗ (Bn ) = 1 (siehe Anhang B zu 2.9). n→∞ In [Kr, 12.1] wird ein Beispiel einer stochastisch aber nicht punktweise fast sicher konvergenten Folge angegeben. Mit den nun bereitstehenden Hilfsmitteln können wir die oben im schwachen Gesetz der großen Zahlen bewiesene Aussage verschärfen: Starkes Gesetz der großen Zahlen. In der Ergebnismenge Ω mit der Wahrscheinlichkeitsverteilung P sei ein Ereignis A ⊂ Ω mit p := P (A) gegeben. Jede unendliche Folge von unabhängigen Zufallsexperimenten liefert ein Ergebnis ω = (ω1 , ω2 , . . .) ∈ Ω∗ . Ist Ω∗ mit der Produktverteilung P∗ versehen, so sind je endlich viele der Zufallsvariablen Xi : Ω∗ → {0, 1} mit Xi (ω) = 1 ⇔ ωi ∈ A unabhängig, es ist E(Xi ) = p für alle i. Weiter sei Rk (A) := 1 (X1 + . . . + Xk ) : Ω∗ → R k die Zufallsvariable, mit der die relative Häufigkeit des Ereignisses A nach k Experimenten angegeben wird; es ist E(Rk (A)) = p . 13 Die wesentliche Aussage ist nun: Die Folge Rk (A) von Zufallsvariablen auf Ω∗ ist punktweise fast sicher konvergent gegen die Konstante p = P (A), d.h. P∗ ({ω ∈ Ω∗ : lim Rk (A)(ω) = p } = 1 , k→∞ oder abgekürzt P∗ ( lim Rk (A) = p ) = 1 . k→∞ Anders ausgedrückt: Die Wahrscheinlichkeit dafür, dass für eine Folge ω von Ergebnissen die Folge Rk (A)(ω) von relativen Häufigkeiten nicht gegen p = P (A) konvergiert, ist gleich Null. Es ist nicht auszuschließen, dass es passieren könnte, aber dazu muss der Teufel seine Hände im Spiel haben. Dies ist nur ein auf unsere Fragestellung zugeschnittener Spezialfall von allgemeineren ,,starken” Gesetzen. Die Formulierungen und Beweise findet man etwa bei [Kr, §12]. Im Gegensatz zum schwachen Gesetz wurden diese Ergebnisse erst im vergangenen Jahrhundert erhalten, unter anderen von Borel, Hausdorff und Kolmogoroff. Zum Schluss noch ein Fazit. Das schwache Gesetz der großen Zahlen ist einfach zu begründen und für die Praxis ausreichend, da immer nur endlich viele Experimente ausführbar sind. Es gibt eine gute Sicherheit dafür, dass sich Rk (A) mit wachsendem k beliebig wenig von P (A) unterscheidet. Die genaue Formulierung ist elementar, aber etwas mühsam. Das starke Gesetz der großen Zahlen (in dem hier formulierten Spezialfall) gibt eine perfekte Antwort auf die grundlegende Frage, mit welchem Vorbehalt man die Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten ansehen kann. Schon für die Formulierung und noch mehr den Beweis sind fortgeschrittene Techniken der Wahrscheinlichkeitstheorie nötig. − 31217 statt Wir geben ... lies Neben dieser Definition von A(F) ,,von oben” gibt es auch eine Definition ,,von unten” ausgehend von F. Dazu benötigt man allerdings eine transfinite Induktion (vgl. etwa [El, Kap.I, §4,1]). Wir geben ... − 3145 statt − 31510−16 X + . . . X 2. statt lies aX + b Ist X stetig ... dy. oder X 2. lies Ist X stetig verteilt mit Dichtefunktion f , so kann man die Dichtefunktion g von Y = ϕ ◦ X berechnen, falls ϕ stetig differenzierbar ist und ϕ0 entweder überall positiv oder überall negativ ist. In diesem Fall ist ϕ bijektiv und durch g(y) = f (ϕ−1 (y)) | ϕ0 (ϕ−1 (y)) | ist die Transformation der Dichten gegeben. Im Fall ϕ0 > 0 hat man nämlich mit βi := ϕ(αi ) P (β1 ≤ Y ≤ β2 ) = P (α1 ≤ X ≤ α2 ) Zα2 Zβ2 = f (x) dx = g(y) dy α1 14 β1 nach der Transformationsformel für Integrale. Im Fall ϕ0 < 0 muss man Vorzeichen anpassen. − 321 Einfügung vor Anhang zu 4.6 ... Anhang zu 3.1 Punktschätzungen Beweis des Satzes über die Schätzungen von Erwartungswert und Varianz Zunächst wird festgehalten, dass aus der Voraussetzung der identischen Verteilung Eϑ (Xj ) = Eϑ (X) = µϑ Varϑ (Xj ) = Varϑ (X) = σϑ2 und für alle j und ϑ folgt. Die Beweise von (3.1.5) und (3.1.8) benötigen die Unabhängigkeit von X1 , . . . , Xn nicht, es genügen (2.7.3) und (2.7.6): n Eϑ (X̄) = Eϑ n 1X Xj n j=1 = 1X Eϑ (Xj ) = µϑ , n j=1 = 1X Varϑ (Xj ) = σϑ2 . n j=1 n Eϑ (S2∗ ) = 1X Eϑ ((Xj − µ)2 ) n j=1 n Für (3.1.7) benötigt man (2.7.7) und (2.7.18): n n n X 1X 1 1 X 1 Varϑ (X̄) = Varϑ ( Xj ) = 2 Varϑ Xj = 2 Varϑ (Xj ) = σϑ2 . n j=1 n n n j=1 j=1 Der Beweis von (3.1.6) erfordert etwas mehr Rechnung. Zur Vereinfachung der Schreibweise lassen wir dabei den Index ϑ von E, Var, µ und σ 2 weg. Zunächst einige vorbereitende Rechnungen. Nach (2.7.6) ist E(Xj2 ) = µ2 + σ 2 für j = 1, . . . , n . Da X1 , . . . , Xn unabhängig sind, ist nach (2.7.15) E(Xi · Xj ) = E(Xi ) · E(Xj ) = µ2 15 für i 6= j . Daraus folgt E(Xj X̄) = 1 (E(Xj X1 ) + . . . + E(Xj2 ) + . . . + E(Xj Xn )) n = n−1 2 1 2 · µ + (µ + σ 2 ) n n = µ2 + E(X̄ 2 ) σ2 , n = 1 E((X1 + . . . + Xn )2 ) n2 = 1 n2 = X n E(Xj2 ) + j=1 X E(Xi ) · E(Xj ) i6=j 1 (n(µ2 + σ 2 ) + (n2 − n)µ2 ) n2 = µ2 + σ2 . n Unter Verwendung dieser Zwischenergebnisse erhält man E((Xj − X̄)2 ) = E(Xj2 ) − 2E(Xj X̄) + E(X̄ 2 ) = µ2 + σ 2 − µ2 − = σ2 n n−1 2 ·σ . n Daraus ergibt sich schließlich n E(S2 ) = 1 X n−1 2 n E((Xi − X̄)2 ) = · · σ = σ2 , n − 1 i=1 n−1 n also ist S2 erwartungstreu. Warum bei S2∗ durch n und bei S2 nur durch n − 1 dividiert wird, kann man nach den obigen Rechnungen so verstehen: Es ist E((Xj − µ)2 ) = σ 2 = Var(X), E((Xj − X̄)2 ) = σ 2 − aber σ2 = Var(X) − Var(X̄) . n Die Summanden in S2 haben also die Tendenz, um Var(X̄) kleiner auszufallen, als die in S2∗ . Für größere n wird diese Korrektur natürlich unerheblich, für n = 2 ist sie extrem. − 3214 Z∞ lies t2 e− 2 dt −∞ 16 − 32112 − 323 lies ... e−t dt. Ergänzungen [Ba] Bauer, Heinz: Measure and Integration Theory. deGruyter 2001 [B-H] Büchter, Andreas und Henn, Hans-Wolfgang: Elementare Stochastik. Springer 2005 [El] Elstrodt, Jürgen: Maß-und Integrationstheorie. Springer 1996 [Ge] Georgii, Hans-Otto: Stochastik. deGruyter 2002 17