GESETZE DER GROSSEN ZAHLEN Am Anfang der

KAPITEL
17
GESETZE DER GROSSEN ZAHLEN
Am Anfang der Wahrscheinlichkeitsrechnung stand der Wunsch, gewisse
experimentelle Fakten zu modellieren, die man vage als empirische Gesetze
des Zufalls bezeichnete und die sich in einer erstaunlichen Konstanz der
Häuﬁgkeiten von Ereignissen manifestierten, wenn man nur eine genügend
grosse Anzahl von Wiederholungen eines Experiments zuliess. So hat man
bereits vor sehr langer Zeit bemerkt, dass sich bei einer grossen Zahl
von Wiederholungen des Werfens einer perfekten Münze die Häuﬁgkeit des
Auftretens von Zahl tatsächlich um den Wert 12 stabilisiert, den man
von daher versucht war, als die Wahrscheinlichkeit für das Auftreten von
Zahl anzusprechen.
J. Bernoulli (Ars Conjectandi, ) war der erste, der ein Modell für
dieses Phänomen entworfen hat. Er hat einen Konvergenzbegriﬀ eingeführt,
welcher dem der Konvergenz in der Wahrscheinlichkeit eng verwandt ist,
und er hat gezeigt, dass die Häuﬁgkeit des Auftretens von Zahl in diesem
Modell tatsächlich gegen 12 konvergiert. Die Argumente Bernoullis waren
kombinatorischer Art und sehr kompliziert. Sie wurden von Tchebychev
erheblich vereinfacht und zwar dank der Ungleichung, die seinen Namen trägt
und die er bei diesem Anlass eingeführt hat. Die von J. Bernoulli untersuchte
Problemstellung wurde in der Folge beträchtlich ausgeweitet und führte zu
den verschiedensten Versionen von Aussagen, die man unter dem Begriﬀ
Gesetze der grossen Zahlen zusammenfasst.
Es sei nun (Xn ) (n ≥ 1) eine Folge von reellen und zentrierten Zufallsvariablen. Gesucht sind hinreichende Bedingungen dafür, dass die Folge der
Zufallsvariablen
n
1 Xk
(n ≥ 1)
n
k=1
gemäss einem der in Kapitel 16 behandelten Konvergenzbegriﬀe gegen 0
konvergiert. Dabei sind nur die Konvergenz in der Wahrscheinlichkeit und
die fast-sichere Konvergenz systematisch untersucht worden. Entsprechend
ist die Rede von dem schwachen und dem starken Gesetz der grossen Zahlen.
Deﬁnition. — Die Folge (Xn ) (n ≥ 1) genügt dem schwachenGesetz der
n
grossen Zahlen, wenn die Folge mit dem allgemeinen Glied n1 k=1 Xk in
270
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
der Wahrscheinlichkeit gegen 0 konvergiert. Die Folge (Xn ) (n ≥ 1) genügt
dem starken
n Gesetz der grossen Zahlen, wenn die Folge mit dem allgemeinen
1
Glied n k=1 Xk fast-sicher gegen 0 konvergiert.
1. Das schwache Gesetz der grossen Zahlen. — Es gibt mehrere
hinreichende Bedingungen, die sicherstellen, dass eine Folge (Xn ) (n ≥ 1)
von Zufallsvariablen dem schwachen Gesetz der grossen Zahlen genügt. Wir
geben hier einige dieser Aussagen an, wobei stets die Notation
(1.1)
Sn =
n
Xk ,
Yn =
k=1
Sn
n
(n ≥ 1)
verwendet wird.
Theorem 1.1 (Schwaches Gesetz der grossen Zahlen in L2 für paarweise
nichtkorrelierte Zufallsvariable). — Es sei (Xn ) (n ≥ 1) eine Folge von
sind. Für
Zufallsvariablen aus L2 , die zentriert und paarweise
nichtkorreliert
n
2
2
2
jedes n ≥ 1 sei Var Xn = σn < +∞. Wenn (1/n ) k=1 σk für n → ∞ gegen
0 konvergiert, so konvergiert Yn in L2 gegen 0, und damit gilt auch Yn → 0
in der Wahrscheinlichkeit.
Beweis. — Da die Xn paarweise nichtkorreliert sind, gilt für jedes n ≥ 1
E[Yn2 ]
n
1
1 2
= Var Yn = 2 Var Sn = 2
σk
n
n
k=1
und somit E[Yn2 ] → 0 für n → ∞, d.h. Yn → 0 in L2 . Die Konvergenz von Yn
gegen 0 in der Wahrscheinlichkeit ist nun eine unmittelbare Konsequenz der
Ungleichung von Bienaymé-Tchebychev.
Bemerkungen. — Die Aussage von Theorem 1.1 gilt natürlich insbesondere dann, wenn die Zufallsvariablen Xn als Gesamtheit unabhängig sind
oder nur paarweise unabhängig sind.
Anwendung 1.2. — Es sei (Xn ) (n ≥ 1) eine Folge von Zufallsvariablen
aus L2 , die paarweise nichtkorreliert sind.Für jedes n ≥ 1 sei E[Xn ] = µn ;
n
die Folge mit dem allgemeinen
Glied n1 k=1 µk konvergiere für n → ∞
n
gegen µ und (1/n2 ) k=1 σk2 konvergiere gegen 0. Dann konvergiert die
n
1
Folge ( n k=1 Xk ) in L2 gegen µ, und damit gilt Konvergenz auch in der
Wahrscheinlichkeit.
Beweis. — Wir wenden Theorem 1.1 auf die Folge (Xn − µn ) (n ≥ 1) von
zentrierten Zufallsvariablen an und erhalten aus
1
1
1
(Xk − µk ) =
Xk −
µk → 0
n
n
n
n
n
n
k=1
k=1
k=1
1. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
271
das gewünschte Resultat für die L2 -Konvergenz, also auch für die Konvergenz
in der Wahrscheinlichkeit.
Das folgende Korollar betriﬀt die Situation von identisch verteilten Zufallsvariablen und ist ebenfalls ein Korollar von Theorem 1.1.
Theorem 1.3 (Schwaches Gesetz der grossen Zahlen in L2 für paarweise
nichtkorrelierte Zufallsvariablen mit identischer Verteilung.). — Es sei (Xn )
(n ≥ 1) eine Folge von zentrierten Zufallsvariablen aus L2 , die identisch
verteilt und paarweise nichtkorreliert sind. Dann gilt Yn → 0 in L2 , also
Yn → 0 in der Wahrscheinlichkeit.
Beweis. — Für jedes n ≥ 1 ist Var Xn = σn2 = σ 2 < +∞. Also gilt
n
1 2
σ2
σ
=
→0
k
n2
n
k=1
und die Behauptung folgt aus Theorem 1.1.
Bemerkung 1. — Die Aussage von Theorem 1.3 gilt natürlich insbesondere
dann, wenn die Zufallsvariablen Xn als Gesamtheit unabhängig oder nur
paarweise unabhängig sind.
Bemerkung 2. — Die Folge mit dem allgemeinen Glied E[Yn2 ] konvergiert
monoton absteigend gegen 0, denn es gilt E[Yn2 ] = σ 2 /n ↓ 0.
Anwendung 1.4. — Es sei (Xn ) (n ≥ 1) eine Folge von Zufallsvariablen
aus L2 , die identisch verteilt und paarweise nichtkorreliert sind;
n dabei sei µ
1
der gemeinsame Erwartungswert der Xn . Dann konvergiert n k=1 Xk gegen
µ in L2 , also auch in der Wahrscheinlichkeit.
Beweis. — Man wendet Theorem 1.3 auf die Folge (Xn − µ) (n ≥ 1) von
zentrierten Zufallsvariablen an und erhält
1
1
(Xk − µ) =
Xk − µ → 0
n
n
n
n
k=1
k=1
in L2 , also auch in der Wahrscheinlichkeit.
Anwendung 1.5. — Es sei (Xn ) (n ≥ 1) eine Folge von unabhängigen,
identisch verteilten Zufallsvariablen mit derVerteilung pε1 + qε0 , wobei
n
0 ≤ p ≤ 1, p + q = 1. Dann konvergiert n1 k=1 Xk gegen p in L2 , also
auch in der Wahrscheinlichkeit.
Dies ist das klassische Beispiel des Münzwurfs von Bernoulli.
Wie wir gesehen haben, ist der Beweis des schwachen Gesetzes der grossen
Zahlen (Theoreme 1.1 und 1.3) besonders einfach für Zufallsvariable aus der
272
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
Klasse L2 . Tatsächlich kann man sich von dieser Hypothese befreien und
lediglich deren Zugehörigkeit zu L1 voraussetzen, wenn man zusätzlich noch
annimmt, dass sie paarweise unabhägig und identisch verteilt sind. Der Beweis
des schwachen Gesetzes der grossen Zahlen ist in diesem Fall schwieriger
und verwendet die Techniken des Stutzens und Zentrierens, was wir jetzt
darstellen werden.
Theorem 1.6 (Schwaches Gesetz der grossen Zahlen in L1 für paarweise
unabhängige, identisch verteilte Zufallsvariable). — Es sei (Xn ) (n ≥ 1) eine
Folge von zentrierten Zufallsvariablen aus L1 , die paarweise unabhängig und
identisch verteilt sind. Mit den Bezeichnungen (1.1) gilt dann Yn → 0 in L1 ,
also auch Yn → 0 in der Wahrscheinlichkeit.
Beweis. — Würden die Xn zu L2 gehören, so folgte die Behauptung aus
Theorem 1.3, denn aus Yn → 0 im quadratischen Mittel folgt die Konvergenz
auch in L1 . Die Beweisidee besteht darin, sich mit Hilfe der Techniken des
Stutzens und Zentrierens auf den Fall von L2 zurückzuziehen. Das folgende
technische Lemma wird dabei helfen.
Lemma 1.7. — Zu jedem ε > 0 gibt es eine Borel-messbare und
beschränkte Funktion f auf R derart, dass f ◦ X1 (wie X1 ) zentriert ist und
X1 − f ◦ X1 1 < ε
gilt. Dabei hängt f nur von der Verteilung von X1 ab.
Beweis des Lemmas.
a) Sei also ε > 0 vorgegeben; da X1 zu L1 gehört, kann man ein
hinreichend grosses c > 0 wählen, damit für die Funktion
x, für |x| ≤ c;
g(x) = x I[−c,+c] =
0, sonst;
folgende Gleichung gilt:
|x| dµ(x) < ε.
X1 − g ◦ X1 1 =
{|x|>c}
b) Die Funktion g leistet nicht notwendigerweise das Gewünschte, da
g ◦ X1 nicht zentriert sein muss. Um die Zentrierung zu erreichen, geht man
über zu der Funktion
f (x) = g(x) − m,
wobei m = E[g ◦ X1 ],
also
f (x) = x I[−c,+c] (x) −
x dµ(x).
[−c,+c]
c) Für hinreichend grosses c erfüllt f die Anforderungen, denn nun
ist f ◦ X1 nach Konstruktion zentriert und X1 − f ◦ X1 1 < ε kann man
1. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN
273
folgendermassen erreichen. Man wählt c so gross, dass X1 − g ◦ X1 1 < ε
gilt, was nach a) möglich ist. Da X1 zentriert ist, gilt
|m| = |E[X1 ] − m| = |E[X1 ] − E[g ◦ X1 ]| ≤ X1 − g ◦ X1 1 < ε
und somit schliesslich
X1 − f ◦ X1 1 ≤ X1 − g ◦ X1 1 + |m| < 2ε.
Nun können wir den Beweis von Theorem 1.6 angehen. Es sei Xn =
f ◦ Xn , Sn = X1 + · · · + Xn und Yn = Sn /n. Die Zufallsvariablen Xn
sind zentriert, paarweise unabhängig und identisch verteilt. Als beschränkte
Variablen gehören sie zu L2 . Somit folgt aus Theorem 1.3 Yn → 0 in L2 und
somit auch in L1 . Andererseits gilt
1
≤
Xk − Xk 1 .
n
n
Yn −
Yn 1
k=1
Aber für k = 1, . . . , n hängt der Ausdruck Xk − Xk 1 nur von der gemeinsamen Verteilung der Xn ab; alle diese Glieder sind also gleich und es folgt
Yn − Yn 1 ≤ X1 − X1 1 < ε.
Schliesslich gilt
Yn 1 ≤ Yn − Yn 1 + Yn 1 ,
grosses n gilt. Die Folge mit dem
so dass Yn 1 < 2ε für hinreichend
allgemeinen Glied Yn 1 = E |Yn | konvergiert also für n → ∞ gegen 0.
Bemerkung 1. — Die Aussage von Theorem 1.6 gilt natürlich auch dann,
wenn die Zufallsvariablen Xn unabhängig sind.
Bemerkung 2. — In dem Fall, dass die Variablen
Xn unabhängig sind,
konvergiert die Folge mit dem allgemeinen Glied E |Yn | = Yn 1 monoton
absteigend gegen 0.
Diese Bemerkung kann man folgendermassen einsehen. Wegen
Yn−1 =
n
Xn
Yn −
n−1
n−1
ist
E[Yn−1 | Yn ] =
n
1
Yn −
E[Xn | Yn ].
n−1
n−1
Andererseits ist E[X1 | Yn ] = · · · = E[Xn | Yn ], da die Zufallsvariablen X1 ,
. . . , Xn unabhängig und identisch verteilt sind. Somit hat man
Yn = E[Yn | Yn ] =
1
E[X1 | Yn ] + · · · + E[Xn | Yn ] = E[Xn | Yn ],
n
274
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
und damit folgt
E[Yn−1 | Yn ] =
sowie
n
1
Yn −
Yn = Yn
n−1
n−1
|Yn | ≤ E |Yn−1 | | Yn .
Nimmt man nun von beiden Seiten den Erwartungswert, so folgt
E |Yn | ≤ E |Yn−1 | .
2. Das starke Gesetz der grossen Zahlen. — Wir beginnen diesen
Abschnitt mit einer Version des starken Gesetzes der grossen Zahlen für Zufallsvariable aus L2 . (Einen Beweis ﬁndet man in dem Buch von FourgeaudFuchs (op. cit.).)
Theorem 2.1 (Starkes Gesetz der grossen Zahlen für Zufallsvariable aus
L ). — Es sei (Xn ) (n ≥ 1) eine Folge von zentrierten und unabhängigen
Zufallsvariablen aus L2 . Für n ≥ 1 sei Var Xn = σn2 < +∞ und, wie vorher,
2
(2.1)
Sn =
n
k=1
Wenn die Reihe
n≥1
Xk ,
Yn =
Sn
n
(n ≥ 1).
σn2 /n2 konvergiert, so gilt Yn → 0 fast-sicher.
Theorem 2.2 (Rajchman). — Es sei (Xn ) (n ≥ 1) eine Folge von
zentrierten und unabhängigen Zufallsvariablen aus L2 . Für n ≥ 1 sei
Var Xn = σn2 ; weiter werden die Bezeichnungen wie oben in (2.1) verwendet. Ist supn σn2 < +∞, so gilt
a) Yn → 0 fast-sicher;
b) Yn → 0 in L2 .
Beweis.
1
σn2
2
≤
σ
< ∞ und
a) Es sei σ 2 = supn σn2 < +∞; dann gilt
2
2
n≥1 n
n≥1 n
damit Yn → 0 fast-sicher gemäss Theorem 2.1.
n
1 σ2
2
2
→ 0 und daher Yn → 0 in
σ ≤
b) Es gilt E[Yn ] = Var Yn = 2
n k=1 k
n
L2 gemäss Theorem 1.1.
Bemerkung 1. — Rajchman hat die entsprechenden Aussagen auch für
den Fall gezeigt, bei dem unabhängig durch paarweise nichtkorreliert ersetzt wird.
Bemerkung 2. — Man kann also in der Aussage des Satzes von Bernoulli
die Konvergenz in der Wahrscheinlichkeit durch die fast-sichere Konvergenz
ersetzen (E. Borel).
275
2. DAS STARKE GESETZ DER GROSSEN ZAHLEN
Theorem 2.3 (Starkes Gesetz der grossen Zahlen für Zufallsvariable aus
L (Kolmogorov)). — Es sei (Xn ) (n ≥ 1) eine Folge von zentrierten,
unabhängigen und identisch verteilten Zufallsvariablen aus L1 . Mit den
Bezeichnungen wie oben in (2.1) gilt dann Yn → 0 fast-sicher.
Beweis (L. Pratelli, unveröﬀentlicht).
1
f.s.
a) Gemäss Theorem 4.2 aus Kapitel 16 ist die Aussage Yn −→ 0 äquivalent zu der Feststellung
(m → ∞).
für jedes ε > 0 gilt P sup |Yk | > ε −→ 0
k≥m
b) Folgendes Lemma wird benötigt:
Lemma 2.4. — Für jedes m ≥ 1 und jedes ε > 0 gilt
ε P sup |Yk | > ε ≤ Ym 1 ,
k≥m
d.h. aus Ym → 0 in L1 folgt Ym → 0 fast-sicher.
c) Die Behauptung des Theorems folgt nun aus a) und b) und Theorem
1.6 (schwaches Gesetz der grossen Zahlen in L1 ).
Beweis des Lemmas. — Man beweist die folgende, zum Lemma äquivalente Aussage: Für jedes Paar (m, n) von ganzen Zahlen mit 1 ≤ m ≤ n und
jedes ε > 0 gilt
ε P sup |Yk | > ε ≤ Ym 1 .
m≤k≤n
Wir betrachten die Menge Tn = sup{k : 1 ≤ k ≤ n, |Yk | > ε } (mit der
Konvention sup ∅ = −∞) und setzen A = {supm≤k≤n |Yk | > ε }. Dann ist
A = {Tn ≥ m} =
{Tn = k} und
ε P(A) = ε
m≤k≤n
P{Tn = k}.
m≤k≤n
Nach Deﬁnition der Tn gilt aber für jedes k mit m ≤ k ≤ n die Abschätzung
εP{Tn = k} ≤
|Yk | dP =
Yk dP +
(−Yk ) dP
{Tn =k}
{Tn =k, Yk >0}
{Tn =k, Yk <0}
= B + C.
Wir werden B und C getrennt berechnen. Zunächst ist
k 1
B=
Xj dP.
k j=1 {Tn =k, Yk >0}
276
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
Da nun aber die Xn unabhängig und identisch verteilt sind, haben alle
Integrale auf der rechten Seite den gleichen Wert. Die rechte Seite ist also
auch gleich dem arithmetischen
Mittel von k Zahlen, die ihrerseits alle gleich
dem Wert des Integrals {Tn =k, Yk >0} X1 dP sind. Sie ist dann aber auch
gleich dem arithmetischen Mittel von m (≤ k) Zahlen mit eben diesem Wert.
Folglich kann man
m 1 X1 dP =
Ym dP
B=
m j=1 {Tn =k, Yk >0}
{Tn =k, Yk >0}
schreiben. Ganz entsprechend geht man für C vor und erhält
(−Ym ) dP.
C=
{Tn =k, Yk <0}
Zusammenfassend erhält man
εP{Tn = k} ≤ B + C =
und durch Summation über
k
εP(A) ≤
m≤k≤n
{Tn =k}
{Tn =k}
|Ym | dP ,
|Ym | dP ≤ E[ |Ym | ] = Ym 1 .
Korollar 2.5. — Es sei (Xn ) (n ≥ 1) eine Folge von unabhängigen
und identisch verteilten Zufallsvariablen aus L1 . Dann gilt
1
f.s.
Xk −→ E[X1 ].
Yn =
n
n
k=1
Dieses Korollar hat eine Umkehrung; cf. Aufgabe 3.
3. Die Lemmata von Borel-Cantelli
Lemma 3.1 (Borel-Cantelli). — Es sei (An ) (n ≥ 1) eine Folge von
Ereignissen,und es bezeichne A∗ den Limes lim supn An .
∗
a) Ist
n≥1 P(An ) < +∞, so ist P(A ) = 0, d.h. mit Wahrscheinlichkeit 1 treten nur endlich viele der Ereignisse An ein.
b) Seien nun die Ereignisse An paarweise unabhängig.
∗
Ist
n≥1 P(An ) = +∞, so ist P(A ) = 1, d.h. mit Wahrscheinlichkeit 1
treten unendlich viele der Ereignisse An ein.
Beweis.
a) Es ist A∗ = n≥1 k≥n Ak , also gilt für jedes n ≥ 1
Ak ) ≤
P(Ak ).
P(A∗ ) ≤ P(
k≥n
k≥n
Nun ist der rechte Ausdruck der Rest der Ordnung n einer konvergenten
Reihe, er muss also für n → ∞ gegen 0 gehen. Daher gilt P(A∗ ) = 0.
277
3. DIE LEMMATA VON BOREL-CANTELLI
b) Wir setzen Sn = IA1 + · · · + IAn . Dann gilt nach Voraussetzung
E[Sn ] =
n
E[IAk ] =
k=1
n
P(Ak ) ↑ +∞.
k=1
Da die An paarweise unabhängig sind, hat man aber auch
n
n
n
2
Var IAk ≤
E[IAk ] =
E[IAk ] = E[Sn ].
Var Sn =
k=1
k=1
k=1
Setzt man nun Tn = Sn /E[Sn ], so erhält man
Var Sn
1
,
E[(Tn − 1)2 ] = Var Tn =
≤
2
(E[Sn ])
E[Sn ]
und dies konvergiert für n → ∞ gegen 0. Damit wurde Tn − 1 → 0 in L2
gezeigt, dies, ebenso wie Tn → 1, gilt dann auch in der Wahrscheinlichkeit.
für
Man kann somit aus der Folge (Tn ) eine Teilfolge (Tnk ) herausziehen,
die Tnk → 1 fast-sicher für k → ∞ gilt. Da die Voraussetzung n≥1 P(An ) =
+∞ zu E[Snk ] ↑ ∞ für k → ∞ äquivalent ist, folgt Snk ↑ ∞ für k → ∞ fastsicher, und diese Aussage ist schliesslich äquivalent zu P(A∗ ) = 1.
Bemerkung. — Die Umkehrung der Aussage a) gilt nicht. Um dies
einzusehen, nehme man den Wahrscheinlichkeitsraum (Ω, A, P) mit Ω =
[0, 1], mit der Borel-σ-Algebra von [0, 1] als A und dem Lebesgue-Mass auf
[0, 1] als P. Betrachtet man nun die Folge von Ereignissen(An = [0, 1/n])
An = {0} und
(n ≥ 1), so ist diese Folge monoton-absteigend, also A∗ =
n≥1
P(A∗ ) = 0. Es ist aber
n≥1
P(An ) =
1
= +∞.
n
n≥1
Die Voraussetzung der Unabhängigkeit in b) ist also wesentlich.
Anwendung. — Wir betrachten eine unabhängige Folge von Münzwürfen,
wobei die Wahrscheinlichkeit des Auftretens von Zahl in einem Wurf gleich
p (0 < p < 1) sei. Nun sei A ein Wort der Länge l ≥ 1, d.h. eine Folge
von l Symbolen, von denen jedes entweder Zahl oder Kopf bedeutet.
Weiter bezeichne A1 das Ereignis, dass das Wort A in den ersten l Würfen
realisiert wird, A2 das Ereignis, dass A in den folgenden l Würfen realisiert
sind unabhängig und für jedes n ≥ 1
wird, etc. Die Ereignisse A1 , A2 , . . . gilt P(An ) = P(A1 ) > 0, somit ist
n≥1 P(An ) = +∞. Aus Teil b) des
Lemmas folgt nun, dass mit Wahrscheinlichkeit 1 das Wort A unendlich oft
im Verlauf des Spiels auftritt. Ein analoges Argument zeigt, dass ein Aﬀe, der
zufällig auf einer Schreibmaschine tippt, mit Wahrscheinlichkeit 1 jeden
278
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
Text beliebiger endlicher Länge im Verlauf von unendlich vielen Anschlägen
einmal schreibt.1
Das Lemma von Borel-Cantelli hat folgende Konsequenz.
Theorem 3.2 ((0, 1)-Gesetz von E. Borel). — Es sei (An ) (n ≥ 1) eine
Folge von paarweise unabhängigen Ereignissen und A∗ bezeichne das Ereignis
lim supn An . Dann kann P(A∗ ) nur die Werte 0 oder 1 annehmen, und zwar
je nachdem, ob die Reihe mit dem allgemeinen Glied P(An ) konvergiert oder
divergiert.
Dieses Theorem ist ein erstes Beispiel für das berühmte (0, 1)-Gesetz von
Kolmogorov, welches besagt, dass gewisse terminale Ereignisse nur mit
Wahrscheinlichkeit 0 oder 1 auftreten können.
Als Anwendung dieses Theorems werden wir nun zeigen, dass für eine
Folge (Xn ) (n ≥ 1) von unabhängigen Zufallsvariablen, für welche die Folge
n
Xk fast-sicher gegen einen Limes Y konvergiert,
(Yn ) (n ≥ 1) mit Yn = n1
k=1
dieser Limes fast-sicher konstant sein muss. Um dies zu sehen, stellen wir
zunächst fest, dass das System (X1 , . . . , Xk ) für jedes k ≥ 1 unabhängig
von Y = limn (X1 + · · · + Xn )/n = limn (Xk+1 + · · · + Xk+n )/n ist, und
somit auch Yk unabhängig von Y . Für jedes reelle x ist also das Ereignis
{Yk ≤ x} unabhängig von dem Ereignis {Y ≤ x}. (Das Ereignis {Y ≤ x} ist
ein typisches terminales Ereignis.) Somit gilt
P({Yk ≤ x} ∩ {Y ≤ x}) = P{Yk ≤ x}P{Y ≤ x}
für jedes reelle x. Lässt man nun k gegen unendlich gehen, so folgt daraus
P{Y ≤ x} = (P{Y ≤ x})2 ; dann kann aber für jedes x nur P{Y ≤ x} = 0
oder 1 gelten. Da die Abbildung x → P{Y ≤ x} eine Verteilungsfunktion ist,
muss sie notwendigerweise eine Stufe der Höhe 1 sein.
Also ist Y = konstant.
ERGÄNZUNGEN UND ÜBUNGEN
1. — Es sei (Xn ) (n ≥ 1) eine Folge von unabhängigen und identisch
verteilten Zufallsvariablen aus L2 . Dabei sei m = E[X1 ] und σ 2 = Var X1 .
Für jedes n ≥ 2 werden die folgenden Zufallsvariablen deﬁniert:
1
Xk ,
Yn =
n
n
k=1
1
1 Zn =
(Xk − Yn )2 .
n−1
n
k=1
Borel (Émile). — Le hasard. — Paris, Librairie Félix Alcan, .
ERGÄNZUNGEN UND ÜBUNGEN
279
a) Man berechne E[Zn ].
f.s.
b) Man zeige Zn −→ σ 2 für n → ∞.
2. — Es sollen nun die Voraussetzungen von Theorem 1.6 gelten, wobei die
Zufallsvariablen Xn als Gesamtheit unabhängig, und nicht etwa nur paarweise
unabhängig seien. Man zeige auf direktem Weg, und zwar unter Verwendung
p
von charakteristischen Funktionen, dass Yn −→ 0 gilt.
3. — Es sei (Xn ) (n ≥ 1) eine Folge von unabhängigen und identisch
n
f.s.
verteilten Zufallsvariablen. Dabei gelte Yn = (1/n)
Xk −→ Y .
k=1
Man beweise
die folgenden Aussagen:
P{|Xn | ≥ n} < +∞;
a)
n≥1
b) die Xn sind integrierbar;
c) Y ist fast-sicher konstant.
4. — Es sei (Xn ) (n ≥ 1) eine Folge von Zufallsvariablen und Sn =
√ L
p
X1 + · · · + Xn . Man zeige, dass aus Sn / n −→ Y dann Sn /n −→ 0 folgt, d.h.
die Folge (Xn ) (n ≥ 1) genügt dem schwachen Gesetz der grossen Zahlen.
5. — Das Modell des Münzwurfs von Bernoulli kann dazu verwendet
werden, um einen bemerkenswerten Beweis des Approximationssatzes von
Weierstrass zu liefern. Dieser Satz sagt aus, dass eine auf einem beschränkten
Intervall stetige Funktion dort von Polynomen gleichmässig approximiert
werden kann. Dieser Beweis stammt von Bernstein.
Es sei (Xn ) (n ≥ 1) eine Folge von unabhängigen und mittels pε1 + qε0
(0 ≤ p ≤ 1, p + q = 1) identisch verteilten Zufallsvariablen. Man setzt
n
p
wieder Yn = (1/n)
Xk ; der Satz von Bernoulli besagt Yn −→ p. Sei nun
k=1
h : [0, 1] → R eine stetige und somit beschränkte Funktion. Wir zeigen
E[h ◦ Yn ] → h(p) (n → ∞), wobei dies gleichmässig für p ∈ [0, 1] gilt.
Beweis. — Bezeichnet µ die Verteilung von Yn , so gilt für jedes δ > 0
A=
|E[h ◦ Yn − h(p)]| ≤ E[ |h ◦ Yn − h(p)| ] = A + B, wobei
|h(x) − h(p)| dµ(x) und B =
|h(x) − h(p)| dµ(x).
{|x−p|≤δ}
{|x−p|>δ}
Als stetige Funktion auf [0, 1] ist h sogar gleichmässig stetig. Zu jedem
ε > 0 gibt es also ein δ(ε) > 0 derart, dass |x − p| ≤ δ die Abschätzung
|h(x) − h(p)| < ε impliziert. Damit ist A < ε.
Halten wir nun ε, und damit auch
δ fest. Es sei M eine obere Schranke
für |h| auf [0, 1]. Dann gilt B ≤ 2M {|x−p|>δ} dµ(x) = 2M P{|Yn − p| > δ},
280
KAPITEL 17: GESETZE DER GROSSEN ZAHLEN
und dies wird gemäss der Ungleichung von Bienaymé-Tchebychev majorisiert
durch 2M Var Yn /δ 2 ≤ 2M pq/(nδ 2 ) ≤ 2M/(nδ 2 ). Die rechte Seite ist aber
von p unabhängig und strebt für n → ∞ gegen 0. Dies gilt also auch für B,
und zwar gleichmässig in p.
Folglich konvergiert E[h ◦ Yn ] für n → ∞ gleichmässig in p gegen h(p).
Wegen Yn = Sn /n und L(Sn ) = B(n, p) gilt aber
E[h ◦ Yn ] =
n
k=0
n k
h(k/n)
p (1 − p)n−k ,
k
und dieser Ausdruck konvergiert gleichmässig für p ∈ [0, 1] gegen h(p). Dies
ist gerade die Aussage des Satzes von Weierstrass, wobei die Polynome sogar
noch explizit angegeben werden. Man nennt sie auch Bernstein-Polynome.
6. — Wir betrachten nun die Kugel Bn (0, R) im Rn (n ≥ 1) mit Mittelpunkt 0 und Radius R ≥ 0. Ihr Volumen ist Vn (R) = π n/2 Rn /Γ(1 + n/2)
(cf. Aufgabe 12, Kap. 14). Wir projizieren dieses Volumen auf eine der
Achsen, etwa die x-Achse; man erhält eine Massenverteilung auf R, die
eine Dichte gn (x, R) besitzt. Mittels geeigneter Normierung wird daraus
eine Wahrscheinlichkeitsdichte
fn (x, R) = gn (x, R)/Vn (R). Wählt man nun
√
erstaunlicherweise fest, dass die Folge der WahrscheinR = n, so stellt man√
lichkeitsdichten fn (x, n) für n → ∞ punktweise gegen die Dichte der Normalverteilung N (0, 1) konvergiert. Anders gesagt, für jedes reelle x gilt
√
2
1
fn (x, n ) → √ e−x /2
2π
(n → ∞).
7. — Es sei (un ) (n ≥ 1) eine Folge von reellen Zahlen mit 0 < un ≤ 1
für jedes n ≥ 1. Weiter sei (Xn ) (n ≥ 1) eine Folge von unabhängigen
Zufallsvariablen, wobei Xn für jedes n ≥ 1 die Verteilung un ε1/un +(1−un )ε0
hat. Dann gilt:
1) Für jedes n ≥ 1 ist E[Xn ] = 1.
p
2) Xn −→ 0 genau dann, wenn un → 0.
f.s.
un < +∞.
3) Xn −→ 0 genau dann, wenn
n≥1
Man beachte: für eine Folge (un ) (n ≥ 1) mit der Eigenschaft, dass die Reihe
X1 + · · · + Xn f.s.
−→ 0 aus
mit dem allgemeinen Glied un konvergiert, folgt
n
dem Resultat 3) und dem Satz von Césaro, obwohl man E[Xn ] = 1 für alle
n ≥ 1 hat.
http://www.springer.com/978-3-7643-6169-3