Vorlesung 7b Der Zentrale Grenzwertsatz

Werbung
Vorlesung 7b
Der Zentrale Grenzwertsatz
1
Binomialverteilte Zufallsvariable kann man verstehen als
2
Binomialverteilte Zufallsvariable kann man verstehen als
Summen von unabhängigen, identisch verteilten
{0, 1}-wertigen Zufallsvariablen.
Binomialverteilte Zufallsvariable kann man verstehen als
Summen von unabhängigen, identisch verteilten
{0, 1}-wertigen Zufallsvariablen.
Den Satz von de Moivre-Laplace kann man auch so lesen:
Binomialverteilte Zufallsvariable kann man verstehen als
Summen von unabhängigen, identisch verteilten
{0, 1}-wertigen Zufallsvariablen.
Den Satz von de Moivre-Laplace kann man auch so lesen:
Die standardisierte Summe von unabhängigen,
identisch verteilten {0, 1}-wertigen Zufallsvariablen
konvergiert in Verteilung
gegen eine standard-normalverteilte Zufallsvariable.
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
3
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
dass dies auch richtig bleibt, wenn man die
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
dass dies auch richtig bleibt, wenn man die
{0, 1}-wertigen Zufallvariablen
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
dass dies auch richtig bleibt, wenn man die
{0, 1}-wertigen Zufallvariablen
durch
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
dass dies auch richtig bleibt, wenn man die
{0, 1}-wertigen Zufallvariablen
durch
R-wertige Zufallsvariable mit endlicher Varianz
Es ist eine tolle (und zentrale) Botschaft der W-Theorie,
dass dies auch richtig bleibt, wenn man die
{0, 1}-wertigen Zufallvariablen
durch
R-wertige Zufallsvariable mit endlicher Varianz
ersetzt.
Zentraler Grenzwertsatz (Tschebyscheff)
4
Zentraler Grenzwertsatz (Tschebyscheff)
Die standardisierte Summe von unabhängigen,
identisch verteilten R-wertigen Zufallsvariablen
Zentraler Grenzwertsatz (Tschebyscheff)
Die standardisierte Summe von unabhängigen,
identisch verteilten R-wertigen Zufallsvariablen
konvergiert in Verteilung
Zentraler Grenzwertsatz (Tschebyscheff)
Die standardisierte Summe von unabhängigen,
identisch verteilten R-wertigen Zufallsvariablen
konvergiert in Verteilung
gegen eine standard-normalverteilte Zufallsvariable.
Formal:
5
Formal:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
Formal:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
X1 + · · · + Xn − nµ
√
∈ [a, b] n→∞
−→ P{Z ∈ [a, b]}.
P
2
nσ
Formal:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
X1 + · · · + Xn − nµ
√
∈ [a, b] n→∞
−→ P{Z ∈ [a, b]}.
P
2
nσ
Dabei ist Z standard-normalverteilt.
Formal:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
X1 + · · · + Xn − nµ
√
P
∈ [a, b] n→∞
−→ P{Z ∈ [a, b]}.
nσ 2
Dabei ist Z standard-normalverteilt.
Noch zu klären ist: Was heißt: X1, X2, . . . unabhängig ?
Die Zufallsvariablen X1, . . . , Xn heißen
(stochastisch) unabhängig,
6
Die Zufallsvariablen X1, . . . , Xn heißen
(stochastisch) unabhängig,
wenn ihre gemeinsame Verteilung
die folgende Produktgestalt hat:
Die Zufallsvariablen X1, . . . , Xn heißen
(stochastisch) unabhängig,
wenn ihre gemeinsame Verteilung
die folgende Produktgestalt hat:
P{X1 ∈ A1, . . . , Xn ∈ An}
= P{X1 ∈ A1} · · · P{Xn ∈ An} .
Sind die Zufallsvariablen Xi diskret, dann ist notwendig und
hinreichend für ihre Unabhängigkeit, dass
7
Sind die Zufallsvariablen Xi diskret, dann ist notwendig und
hinreichend für ihre Unabhängigkeit, dass
P{X1 = a1, . . . , Xn = an}
= P{X1 = a1} · · · P{Xn = an} .
Sind die Zufallsvariablen Xi diskret, dann ist notwendig und
hinreichend für ihre Unabhängigkeit, dass
P{X1 = a1, . . . , Xn = an}
= P{X1 = a1} · · · P{Xn = an} .
M.a. W.: Die gemeinsamen Verteilungsgewichte sind
die Produkte der Randverteilungsgewichte:
Sind die Zufallsvariablen Xi diskret, dann ist notwendig und
hinreichend für ihre Unabhängigkeit, dass
P{X1 = a1, . . . , Xn = an}
= P{X1 = a1} · · · P{Xn = an} .
M.a. W.: Die gemeinsamen Verteilungsgewichte sind
die Produkte der Randverteilungsgewichte:
ν(a1, . . . , an) = ν1(a1) · · · νn(an) .
Wenn die Zufallsvariablen X1, . . . , Xn
eine gemeinsame Dichte besitzen,
8
Wenn die Zufallsvariablen X1, . . . , Xn
eine gemeinsame Dichte besitzen,
dann ist die Unabhängigkeit gleichbedeutend damit,
Wenn die Zufallsvariablen X1, . . . , Xn
eine gemeinsame Dichte besitzen,
dann ist die Unabhängigkeit gleichbedeutend damit,
dass diese Dichte
das Produkt über die Dichten der Randverteilungen ist:
Wenn die Zufallsvariablen X1, . . . , Xn
eine gemeinsame Dichte besitzen,
dann ist die Unabhängigkeit gleichbedeutend damit,
dass diese Dichte
das Produkt über die Dichten der Randverteilungen ist:
f (x1, . . . , xn) d(x1, . . . , xn) =
f1(x1) · · · fn(xn) dx1 · · · dxn
Beispiel:
9
Beispiel:
Unabhängige standard-normalverteilte Z1, . . . , Zn
Beispiel:
Unabhängige standard-normalverteilte Z1, . . . , Zn
haben die gemeinsame Dichte
Beispiel:
Unabhängige standard-normalverteilte Z1, . . . , Zn
haben die gemeinsame Dichte
1
(2π)
n/2
2+···+z 2)/2
−(z
n
1
e
dz
=
1
(2π)n/2
2/2
−||z||
e
dz.
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
10
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
dann ist auch
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
dann ist auch
1
Y := √ (Z1 + . . . + Zn)
n
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
dann ist auch
1
Y := √ (Z1 + . . . + Zn)
n
standard-normalverteilt.
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
dann ist auch
1
Y := √ (Z1 + . . . + Zn)
n
standard-normalverteilt.
Am elegantesten sieht man das geometrisch
Sind Z1, . . . , Zn unabhängig und standard-normalverteilt,
dann ist auch
1
Y := √ (Z1 + . . . + Zn)
n
standard-normalverteilt.
Am elegantesten sieht man das geometrisch
(vgl. Vorlesung 6a für den Fall n = 2):
Wir betrachten im Rn den Einheitsvektor
~a := √1n (1, . . . , 1).
11
Wir betrachten im Rn den Einheitsvektor
~a := √1n (1, . . . , 1).
1
Y := √ (Z1 + . . . + Zn)
n
Wir betrachten im Rn den Einheitsvektor
~a := √1n (1, . . . , 1).
1
Y := √ (Z1 + . . . + Zn)
n
lässt sich auffassen als ~a-Koordinate des zufälligen Vektors
Z := (Z1, . . . , Zn).
Wir betrachten im Rn den Einheitsvektor
~a := √1n (1, . . . , 1).
1
Y := √ (Z1 + . . . + Zn)
n
lässt sich auffassen als ~a-Koordinate des zufälligen Vektors
Z := (Z1, . . . , Zn).
Wegen der Rotationsinvarianz der Verteilung von Z
Wir betrachten im Rn den Einheitsvektor
~a := √1n (1, . . . , 1).
1
Y := √ (Z1 + . . . + Zn)
n
lässt sich auffassen als ~a-Koordinate des zufälligen Vektors
Z := (Z1, . . . , Zn).
Wegen der Rotationsinvarianz der Verteilung von Z
ist Y so verteilt wie die erste Standardkoordinate Z1.
Die folgende einfache Bemerkung wird uns auch hilfreich
sein beim Beweis des Zentralen Grenzwertsatzes:
12
Die folgende einfache Bemerkung wird uns auch hilfreich
sein beim Beweis des Zentralen Grenzwertsatzes:
Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch
die beiden Tupel
Die folgende einfache Bemerkung wird uns auch hilfreich
sein beim Beweis des Zentralen Grenzwertsatzes:
Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch
die beiden Tupel
(Y1, . . . , Ym) und (Ym+1, . . . , Yn)
Die folgende einfache Bemerkung wird uns auch hilfreich
sein beim Beweis des Zentralen Grenzwertsatzes:
Sind Y1, . . . , Yn unabhängig, dann sind für m < n auch
die beiden Tupel
(Y1, . . . , Ym) und (Ym+1, . . . , Yn)
voneinander unabhängig.
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
13
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
für reellwertige g und h die folgende
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
für reellwertige g und h die folgende
Produktformel:
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
für reellwertige g und h die folgende
Produktformel:
E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)]
= E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)],
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
für reellwertige g und h die folgende
Produktformel:
E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)]
= E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)],
vorausgesetzt die Erwartungswerte sind endlich.
Inbesondere folgt aus der Unabhängigkeit der Y1, . . . , Yn,
für reellwertige g und h die folgende
Produktformel:
E[g(Y1, . . . , Ym) h(Ym+1, . . . , Yn)]
= E[g(Y1, . . . , Ym)]E[h(Ym+1, . . . , Yn)],
vorausgesetzt die Erwartungswerte sind endlich.
(Vgl. dazu auch Vorlesung 5a.)
Definition:
14
Definition:
Eine Folge von Zufallsvariablen Y1, Y2, . . . heißt unabhängig,
Definition:
Eine Folge von Zufallsvariablen Y1, Y2, . . . heißt unabhängig,
wenn je endlich viele Y1, . . . , Yn unabhängig sind.
Wir sind jetzt vorbereitet auf eine Beweisskizze des
Zentralen Grenzwertsatzes. Dieser besagt:
15
Wir sind jetzt vorbereitet auf eine Beweisskizze des
Zentralen Grenzwertsatzes. Dieser besagt:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
Wir sind jetzt vorbereitet auf eine Beweisskizze des
Zentralen Grenzwertsatzes. Dieser besagt:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
X1 + · + Xn − nµ
√
∈ [a, b] n→∞
−→ P{Z ∈ [a, b]}.
P
2
nσ
Wir sind jetzt vorbereitet auf eine Beweisskizze des
Zentralen Grenzwertsatzes. Dieser besagt:
Seien X1, X2, . . . unabhängige und identisch verteilte
Zufallsvariable mit endlichem Erwartungswert µ und
endlicher Varianz σ 2 > 0. Dann gilt für alle a < b ∈ R
X1 + · + Xn − nµ
√
∈ [a, b] n→∞
−→ P{Z ∈ [a, b]}.
P
2
nσ
Dabei ist Z standard-normalverteilt.
X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable
mit endlicher Varianz.
16
X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable
mit endlicher Varianz.
Ohne Einschränkung können wir annehmen:
X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable
mit endlicher Varianz.
Ohne Einschränkung können wir annehmen:
E[Xi] = 0,
VarXi = 1.
X1, X2, . . . seien identisch verteilte rellwertige Zufallsvariable
mit endlicher Varianz.
Ohne Einschränkung können wir annehmen:
E[Xi] = 0,
VarXi = 1.
(Denn sonst gehen wir einfach zu den
standardisierten Zufallsvariablen Xiσ−µ über.)
Die Behauptung ist dann:
17
Die Behauptung ist dann:
E 1[a,b]
+
·
·
·
+
X
n
1
−→ E[1[a,b](Z)]
√
n→∞
n
X
Die Behauptung ist dann:
E 1[a,b]
+
·
·
·
+
X
n
1
−→ E[1[a,b](Z)]
√
n→∞
n
X
mit standard-normalverteiltem Z.
Weil man Indikatorfunktionen 1[a,b]
durch “glatte” Funktionen h approximieren kann, reicht es
(wie man zeigen kann, mehr dazu später),
diese Konvergenz nur für solche h zu beweisen.
1
a
b
18
Satz.
19
Satz.
Sei h : R → R dreimal stetig differenzierbar
Satz.
Sei h : R → R dreimal stetig differenzierbar
und seien h, h′, h′′ und h′′′ beschränkt. Dann gilt
Satz.
Sei h : R → R dreimal stetig differenzierbar
und seien h, h′, h′′ und h′′′ beschränkt. Dann gilt
+
·
·
·
+
X
n
1
−→ E[h(Z)]
√
n→∞
n
X
Eh
Beweisskizze: ∗
∗ Wir
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
20
Beweisskizze: ∗
Die Hauptidee besteht darin, eine Folge von unabhängigen
standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .)
∗ Wir
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
Beweisskizze: ∗
Die Hauptidee besteht darin, eine Folge von unabhängigen
standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .)
ins Spiel zu bringen, die zusammen mit (X1, X2, . . .)
∗ Wir
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
Beweisskizze: ∗
Die Hauptidee besteht darin, eine Folge von unabhängigen
standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .)
ins Spiel zu bringen, die zusammen mit (X1, X2, . . .)
ein zufälliges Paar von Folgen bilden.
Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig.
∗ Wir
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
Beweisskizze: ∗
Die Hauptidee besteht darin, eine Folge von unabhängigen
standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .)
ins Spiel zu bringen, die zusammen mit (X1, X2, . . .)
ein zufälliges Paar von Folgen bilden.
Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig.
Wir wissen schon, dass gilt:
∗ Wir
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
Beweisskizze: ∗
Die Hauptidee besteht darin, eine Folge von unabhängigen
standard-normalverteilten Zufallsvariablen (Z1, Z2, . . .)
ins Spiel zu bringen, die zusammen mit (X1, X2, . . .)
ein zufälliges Paar von Folgen bilden.
Dabei seien alle Z1, Z2, . . . , X1, X2, . . . unabhängig.
Wir wissen schon, dass gilt:
Z
E[h(Z)] = E h
∗ Wir
+
·
·
·
+
Z
n
1
.
√
n
folgen einem im Klassiker “Probability” von Leo Breiman (SIAM 1992)
angegebenen Beweis.
Außerdem ergibt sich
mit der Linearität des Erwartungswertes:
21
Außerdem ergibt sich
mit der Linearität des Erwartungswertes:
X
Eh
1
Z1 + · · · + Zn + · · · + Xn −E h
√
√
n
n
Außerdem ergibt sich
mit der Linearität des Erwartungswertes:
X
Eh
1
Z1 + · · · + Zn + · · · + Xn −E h
√
√
n
n
X
=Eh
1
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
Außerdem ergibt sich
mit der Linearität des Erwartungswertes:
X
1
Eh
Z1 + · · · + Zn + · · · + Xn −E h
√
√
n
n
X
=Eh
1
Z + · · · + Zn + · · · + Xn ).
−h 1 √
√
n
n
Es reicht also zu zeigen, dass letzteres
für n → ∞ gegen Null konvergiert.
22
Eine clevere Idee ist es jetzt, die Differenz als
Teleskopsumme darzustellen:
23
Eine clevere Idee ist es jetzt, die Differenz als
Teleskopsumme darzustellen:
X
h
1
Z + · · · + Zn + · · · + Xn 1
−
h
√
√
n
n
Eine clevere Idee ist es jetzt, die Differenz als
Teleskopsumme darzustellen:
X
h
=
1
n X
X
1
h
i=1
X
−h
1
Z + · · · + Zn + · · · + Xn 1
−
h
√
√
n
n
+ · · · + Xi−1 + Xi + Zi+1 + · · · + Zn √
n
+ · · · + Xi−1 + Zi + Zi+1 + · · · + Zn √
n
Taylorentwicklung ergibt:
24
Taylorentwicklung ergibt:
n
X
Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
=
√
√
n
n
i=1
Taylorentwicklung ergibt:
n
X
Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
=
√
√
n
n
i=1
Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
+
√
2n
n
i=1
n
X
Taylorentwicklung ergibt:
n
X
Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
=
√
√
n
n
i=1
Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
+
√
2n
n
i=1
n
X
Xi3 ′′′
Zi3 ′′′
h (Yi) −
h (Ỹi)
+
3/2
3/2
6n
i=1 6n
n X
Taylorentwicklung ergibt:
n
X
Xi − Zi ′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
=
√
√
n
n
i=1
Xi2 − Zi2 ′′ X1 + · · · + Xi−1 + Zi+1 + · · · + Zn h
+
√
2n
n
i=1
n
X
Xi3 ′′′
Zi3 ′′′
h (Yi) −
h (Ỹi)
+
3/2
3/2
6n
i=1 6n
n X
mit passenden Zwischenstellen Yi, Ỹi.
Wir nehmen der Einfachheit halber an:
25
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
X1
E h
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
1
≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0,
6n
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
X1
E h
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
1
≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0,
6n
denn die Erw. werte der ersten beiden Summen sind Null
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
X1
E h
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
1
≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0,
6n
denn die Erw. werte der ersten beiden Summen sind Null
wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1,
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
X1
E h
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
1
≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0,
6n
denn die Erw. werte der ersten beiden Summen sind Null
wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1,
zusammen mit der Unabhängigkeit der Xi, Zi
Wir nehmen der Einfachheit halber an:
E[|X1|3] < ∞.
Ist C eine obere Schranke von |h′′′|, so folgt
X1
E h
Z + · · · + Zn + · · · + Xn −h 1 √
√
n
n
1
≤ n 3/2 (E[|X1|3] + E[|Z1|3])C −→ 0,
6n
denn die Erw. werte der ersten beiden Summen sind Null
wegen E[X1] = E[Z1] = 0 und E[X12] = E[Z12] = 1,
zusammen mit der Unabhängigkeit der Xi, Zi
und der oben festgestellten Produktformel.
Hier ist die (oben präzisierte) Botschaft der Stunde:
26
Hier ist die (oben präzisierte) Botschaft der Stunde:
Summen (und Mittelwerte) von vielen unabhängigen,
identisch verteilten ZV mit endlicher Varianz
sind annähernd normalverteilt.
Hier ist die (oben präzisierte) Botschaft der Stunde:
Summen (und Mittelwerte) von vielen unabhängigen,
identisch verteilten ZV mit endlicher Varianz
sind annähernd normalverteilt.
Diese Aussage bleibt übrigens auch
unter schwächeren Bedingungen bestehen,
Hier ist die (oben präzisierte) Botschaft der Stunde:
Summen (und Mittelwerte) von vielen unabhängigen,
identisch verteilten ZV mit endlicher Varianz
sind annähernd normalverteilt.
Diese Aussage bleibt übrigens auch
unter schwächeren Bedingungen bestehen,
sowohl was die Unabhängigkeit,
als auch was die identische Verteiltheit betrifft.
Hier ist die (oben präzisierte) Botschaft der Stunde:
Summen (und Mittelwerte) von vielen unabhängigen,
identisch verteilten ZV mit endlicher Varianz
sind annähernd normalverteilt.
Diese Aussage bleibt übrigens auch
unter schwächeren Bedingungen bestehen,
sowohl was die Unabhängigkeit,
als auch was die identische Verteiltheit betrifft.
Zu letzterem vgl Skript Kersting, Abschnitt 6.3.
Eine gängige und nützliche Variante
unseres Zentralen Grenzwertsatzes ist:
27
Eine gängige und nützliche Variante
unseres Zentralen Grenzwertsatzes ist:
Seien X1, X2, . . . unabhängig und identisch verteilt
mit endlichem Erwartungswert µ und endlicher Varianz σ 2.
Dann gilt für die standardisierten Summen
X1 + · + Xn − nµ
√
:
Vn :=
2
nσ
Eine gängige und nützliche Variante
unseres Zentralen Grenzwertsatzes ist:
Seien X1, X2, . . . unabhängig und identisch verteilt
mit endlichem Erwartungswert µ und endlicher Varianz σ 2.
Dann gilt für die standardisierten Summen
X1 + · + Xn − nµ
√
:
Vn :=
2
nσ
E[g(Vn)] n→∞
−→ E[g(Z)]
für jede stetige und beschränkte Abbildung g : R → R.
Eine gängige und nützliche Variante
unseres Zentralen Grenzwertsatzes ist:
Seien X1, X2, . . . unabhängig und identisch verteilt
mit endlichem Erwartungswert µ und endlicher Varianz σ 2.
Dann gilt für die standardisierten Summen
X1 + · + Xn − nµ
√
:
Vn :=
2
nσ
E[g(Vn)] n→∞
−→ E[g(Z)]
für jede stetige und beschränkte Abbildung g : R → R.
Dabei ist Z standard-normalverteilt.
(Auch beim Beweis dieser Variante kann man verwenden,
dass sich eine stetige und beschränkte Abbildung g
geeignet durch glatte Abbildungen h approximieren lässt;
mehr dazu später.)
28
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
29
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
Beispiel:
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
Beispiel:
Yn sei Poisson-verteilt mit Parameter n.
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
Beispiel:
Yn sei Poisson-verteilt mit Parameter n.
Dann konvergiert für n → ∞
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
Beispiel:
Yn sei Poisson-verteilt mit Parameter n.
Dann konvergiert für n → ∞
Yn − n
Vn := √
n
Das folgende (auch für sich interessante) Beispiel wird uns
einen hübschen Beweis der Stirling-Formel liefern.
Beispiel:
Yn sei Poisson-verteilt mit Parameter n.
Dann konvergiert für n → ∞
Yn − n
Vn := √
n
in Verteilung gegen ein standardnormalverteiltes Z.
Denn:
30
Denn:
Die Summe von n unabhängigen Poisson(1)-verteilten
Zufallsvariablen
ist Poisson(n)-verteilt (vgl. Übungsaufgabe).
Denn:
Die Summe von n unabhängigen Poisson(1)-verteilten
Zufallsvariablen
ist Poisson(n)-verteilt (vgl. Übungsaufgabe).
Damit folgt die behauptete Verteilungskonvergenz
aus dem Zentralen Grenzwertsatz.
Denn:
Die Summe von n unabhängigen Poisson(1)-verteilten
Zufallsvariablen
ist Poisson(n)-verteilt (vgl. Übungsaufgabe).
Damit folgt die behauptete Verteilungskonvergenz
aus dem Zentralen Grenzwertsatz.
(Zur Erinnerung:
Die Varianz einer Poisson(λ)-verteilten Zufallsvariable ist λ.)
Für ℓ ∈ N sei
gℓ(x) := x+ ∧ ℓ,
x ∈ R.
31
Für ℓ ∈ N sei
gℓ(x) := x+ ∧ ℓ,
x ∈ R.
Dabei verwenden wir die Notation
a ∧ b := min(a, b),
a ∨ b := max(a, b),
x+ := x ∨ 0.
x+ = x ∨ 0
ℓ
x+ ∧ ℓ
ℓ
AAAAAAAAAAAAAAA
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
32
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Mit anderen Worten:
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Mit anderen Worten:
−→ E[Z + ∧ ℓ]
E[Vn+ ∧ ℓ] n→∞
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Mit anderen Worten:
−→ E[Z + ∧ ℓ]
E[Vn+ ∧ ℓ] n→∞
Behauptung: Es gilt auch
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Mit anderen Worten:
−→ E[Z + ∧ ℓ]
E[Vn+ ∧ ℓ] n→∞
Behauptung: Es gilt auch
−→ E[Z +]
E[Vn+] n→∞
Weil x 7→ gℓ(x) eine beschränkte, stetige Funktion ist,
liefert der Zentrale Grenzwertsatz:
E[gℓ(Vn)] n→∞
−→ E[gℓ(Z)]
Mit anderen Worten:
−→ E[Z + ∧ ℓ]
E[Vn+ ∧ ℓ] n→∞
Behauptung: Es gilt auch
−→ E[Z +]
E[Vn+] n→∞
Dazu schätzen wir die Differenzen ab:
E[Z +] − E[Z + ∧ ℓ]
33
E[Z +] − E[Z + ∧ ℓ]
= E[Z + − Z + ∧ ℓ]
E[Z +] − E[Z + ∧ ℓ]
= E[Z + − Z + ∧ ℓ]
≤ E[Z 1[ℓ,∞)(Z)]
E[Z +] − E[Z + ∧ ℓ]
= E[Z + − Z + ∧ ℓ]
≤ E[Z 1[ℓ,∞)(Z)]
1 Z ∞ −x2/2
xe
dx
=√
ℓ
2π
E[Z +] − E[Z + ∧ ℓ]
= E[Z + − Z + ∧ ℓ]
≤ E[Z 1[ℓ,∞)(Z)]
1 Z ∞ −x2/2
xe
dx
=√
ℓ
2π
−→ 0.
ℓ→∞
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
34
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
Mit der Cauchy-Schwarz-Ungleichung
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
Mit der Cauchy-Schwarz-Ungleichung
r
r
E[XY ] ≤ E[X 2] E[Y 2]
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
Mit der Cauchy-Schwarz-Ungleichung
r
r
E[XY ] ≤ E[X 2] E[Y 2]
(siehe unten) können wir weiter abschätzen:
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
Mit der Cauchy-Schwarz-Ungleichung
r
r
E[XY ] ≤ E[X 2] E[Y 2]
(siehe unten) können wir weiter abschätzen:
≤
r
r
E[Vn2] E[1[ℓ,∞)(Vn)]
E[Vn+] − E[Vn+ ∧ ℓ] = E[Vn+ − Vn+ ∧ ℓ]
≤ E[Vn 1[ℓ,∞)(Vn)]
Mit der Cauchy-Schwarz-Ungleichung
r
r
E[XY ] ≤ E[X 2] E[Y 2]
(siehe unten) können wir weiter abschätzen:
≤
r
E[Vn2]
r
q
E[1[ℓ,∞)(Vn)]
= 1 · P{Vn ≥ ℓ}.
Mit der Tschebyscheff-Ungleichung ergibt sich
35
Mit der Tschebyscheff-Ungleichung ergibt sich
(man beachte E[Vn] = 0, Var Vn = 1):
Mit der Tschebyscheff-Ungleichung ergibt sich
(man beachte E[Vn] = 0, Var Vn = 1):
1
P{Vn ≥ ℓ} ≤ 2 .
ℓ
Mit der Tschebyscheff-Ungleichung ergibt sich
(man beachte E[Vn] = 0, Var Vn = 1):
1
P{Vn ≥ ℓ} ≤ 2 .
ℓ
Insgesamt also:
Mit der Tschebyscheff-Ungleichung ergibt sich
(man beachte E[Vn] = 0, Var Vn = 1):
1
P{Vn ≥ ℓ} ≤ 2 .
ℓ
Insgesamt also:
E[Vn+] − E[Vn+
1
∧ ℓ] ≤ .
ℓ
Aus dem eben Bewiesenen,
−→ E[Z + ∧ ℓ],
E[Vn+ ∧ ℓ] n→∞
36
Aus dem eben Bewiesenen,
−→ E[Z + ∧ ℓ],
E[Vn+ ∧ ℓ] n→∞
E[Z +] − E[Z + ∧ ℓ] −→ 0,
ℓ→∞
Aus dem eben Bewiesenen,
−→ E[Z + ∧ ℓ],
E[Vn+ ∧ ℓ] n→∞
E[Z +] − E[Z + ∧ ℓ] −→ 0,
ℓ→∞
E[Vn+] − E[Vn+
1
∧ ℓ] ≤ ,
ℓ
Aus dem eben Bewiesenen,
−→ E[Z + ∧ ℓ],
E[Vn+ ∧ ℓ] n→∞
E[Z +] − E[Z + ∧ ℓ] −→ 0,
ℓ→∞
E[Vn+] − E[Vn+
1
∧ ℓ] ≤ ,
ℓ
folgt
−→ E[Z +]
E[Vn+] n→∞
Für das standard-normalverteilte Z gilt:
37
Für das standard-normalverteilte Z gilt:
1
1 Z ∞ −x2/2
xe
dx = √
E[Z ] = √
0
2π
2π
+
Für das standard-normalverteilte Z gilt:
1
1 Z ∞ −x2/2
xe
dx = √
E[Z ] = √
0
2π
2π
+
Andererseits gilt für das Poisson(n)-verteilte Yn
(Übungsaufgabe!)
Für das standard-normalverteilte Z gilt:
1
1 Z ∞ −x2/2
xe
dx = √
E[Z ] = √
0
2π
2π
+
Andererseits gilt für das Poisson(n)-verteilte Yn
(Übungsaufgabe!)
n+1
n
E[(Yn − n)+] = e−n
n!
Für das standard-normalverteilte Z gilt:
1
1 Z ∞ −x2/2
xe
dx = √
E[Z ] = √
0
2π
2π
+
Andererseits gilt für das Poisson(n)-verteilte Yn
(Übungsaufgabe!)
n+1
n
E[(Yn − n)+] = e−n
n!
Also:
Für das standard-normalverteilte Z gilt:
1
1 Z ∞ −x2/2
xe
dx = √
E[Z ] = √
0
2π
2π
+
Andererseits gilt für das Poisson(n)-verteilte Yn
(Übungsaufgabe!)
n+1
n
E[(Yn − n)+] = e−n
n!
Also:
n 1/2
n n
1
+
+
E[Vn ] = √ E[(Yn − n) ] =
n
e
n!
Unser Grenzwertsatz
38
Unser Grenzwertsatz
−→ E[Z +]
E[Vn+] n→∞
Unser Grenzwertsatz
−→ E[Z +]
E[Vn+] n→∞
besagt also:
Unser Grenzwertsatz
−→ E[Z +]
E[Vn+] n→∞
besagt also:
1
n n n1/2
−→ √ .
n→∞
e
n!
2π
Unser Grenzwertsatz
−→ E[Z +]
E[Vn+] n→∞
besagt also:
1
n n n1/2
−→ √ .
n→∞
e
n!
2π
Das ist aber nichts anderes als eine Umstellung der
Stirling-Formel, die wir damit
aus dem Zentralen Grenzwertsatz hergeleitet haben.
Wir tragen nach:
39
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
r
r
E[|U V |] ≤ E[U 2] E[V 2]
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
r
r
E[|U V |] ≤ E[U 2] E[V 2]
Beweis:
Ist E[U 2] = 0, so folgt
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
r
r
E[|U V |] ≤ E[U 2] E[V 2]
Beweis:
Ist E[U 2] = 0, so folgt
P{U = 0} = 1,
E[|U V |] = 0.
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
r
r
E[|U V |] ≤ E[U 2] E[V 2]
Beweis:
Ist E[U 2] = 0, so folgt
P{U = 0} = 1,
E[|U V |] = 0.
(Im diskreten Fall ist das klar, für den allgemeinen Fall
kommen wir hierauf zurück.)
Wir tragen nach:
Cauchy-Schwarz-Ungleichung:
Für zwei reellwertige Zufallsvariable U , V gilt:
r
r
E[|U V |] ≤ E[U 2] E[V 2]
Beweis:
Ist E[U 2] = 0, so folgt
P{U = 0} = 1,
E[|U V |] = 0.
(Im diskreten Fall ist das klar, für den allgemeinen Fall
kommen wir hierauf zurück.)
Wir können also annehmen: 0 < E[U 2], 0 < E[V 2].
Für E[U 2] = ∞ oder E[V 2] = ∞
40
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
0 < E[V 2] < ∞.
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
q
Setzen wir X := U/ E[U 2],
0 < E[V 2] < ∞.
q
Y := V / E[V 2].
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
q
Setzen wir X := U/ E[U 2],
0 < E[V 2] < ∞.
q
Y := V / E[V 2].
Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
q
Setzen wir X := U/ E[U 2],
0 < E[V 2] < ∞.
q
Y := V / E[V 2].
Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt
E[|XY |] ≤ 1.
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
q
Setzen wir X := U/ E[U 2],
0 < E[V 2] < ∞.
q
Y := V / E[V 2].
Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt
E[|XY |] ≤ 1.
Dies folgt durch Bilden des Erwartungswertes über
Für E[U 2] = ∞ oder E[V 2] = ∞
gilt dann die CS-Ungleichung klarerweise.
Bleibt der Fall 0 < E[U 2] < ∞,
q
Setzen wir X := U/ E[U 2],
0 < E[V 2] < ∞.
q
Y := V / E[V 2].
Dann gilt E[X 2] = E[Y 2] = 1, und zu zeigen bleibt
E[|XY |] ≤ 1.
Dies folgt durch Bilden des Erwartungswertes über
1 (X 2 + Y 2).
|XY | ≤ 2
Herunterladen