Staatsexamensvorbereitung

Werbung
Vorbereitung für die mündliche Staatsexamensprüfung
Wahrscheinlichkeitstheorie und Statistik
Frank Reinhold
19. April 2010
nach einer Vorlesung von Prof. H. Abels
Inhaltsverzeichnis
I. Wahrscheinlichkeitstheorie
2
1. Wahrscheinlichkeitsräume und Zufallsvariablen
1.1. Diskreter Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Allgemeiner Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Zusammenhang zwischen diskreten und allgemeinen Wahrscheinlichkeitsräumen . . . . . . . .
2
2
2
3
2. Verschiedene Verteilungen
2.1. Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Verteilungen mich Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3
4
5
3. Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1. Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
6
4. Erwartungswert, Varianz, Kovarianz
4.1. Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
7
7
5. Grenzwertsätze
5.1. Schwaches und Starkes Gesetz der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . .
5.2. Approximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
9
11
II. Statistik
11
6. Grundbegriffe der Statistik
11
7. Arten und Eigenschaften von Schätzern
11
7.1. Das Maximum-Likelihood-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.2. Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
7.3. Varianzminimierende Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
8. Testtheorie
13
8.1. Entscheidungsprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
8.2. Beste Tests, Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1
Teil I.
Wahrscheinlichkeitstheorie
1. Wahrscheinlichkeitsräume und Zufallsvariablen
1.1. Diskreter Fall
Definition 1 (Diskreter Wahrscheinlichkeitsraum, Wahrscheinlichkeit). (Ω, p) heißt diskreter Wahrscheinlichkeitsraum, falls
1.) Ω ist eine endliche oder abzählbare Menge.
2.) p : Ω → [0, 1] ist eine Abbildung, für die gilt:
P
ω∈Ω
p(ω) = 1.
In diesem Fall wird für alle A ⊆ Ω durch
P (A) =
X
p(ω)
(1)
ω∈A
die Wahrscheinlichkeit des Ereignisses A definiert.
Definition 2 (Zufallsvariable im diskreten Fall). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann
heißt X : Ω → M eine M -wertige Zufallsvariable.
Beispiel 1 (diskrete Zufallsvariable). Betrachte die Augensumme bei zwei Würfen eines fairen Würfels.
Diese ist auf Ω = {1, . . . , 6}2 mit Gleichverteilung eine Zufallsvariable:
X(i, j) = i + j
∀(i, j) ∈ Ω
1.2. Allgemeiner Fall
Definition 3 (σ-Algebra). Sei Ω eine Menge. Dann heißt A ⊆ P(Ω) σ-Algebra, falls gilt:
1.) Ω ∈ A.
2.) Für alle A ∈ A gilt Ac ∈ A.
3.) Seien Aj ∈ A für alle j ∈ N. Dann ist auch
S∞
j=1
Aj ∈ A.
Definition 4 (Messbarer Raum). Ist Ω eine Menge und A ⊂ P(Ω) eine σ-Algebra, dann heißt (Ω, A)
messbarer Raum.
Definition 5 (Wahrscheinlichkeitsmaß). Ist (Ω, A) ein messbarer Raum, so heißt P : A → [0, 1] Wahrscheinlichkeitsmaß, falls gilt:
1.) P ist normiert: P(Ω) = 1.
2.) P ist σ-additiv: Für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A für alle j ∈ N ist: P
P∞
j=1 P(Aj )
S
∞
j=1
Aj =
Definition 6 (Allgemeiner Wahrscheinlichkeitsraum). Ist (Ω, A) ein messbarer Raum und P ein Wahrscheinlichkeitsmaß auf (Ω, A), so heißt (Ω, A, P) allgemeiner Wahrscheinlichkeitsraum.
Lemma 1 (Kolmogorov’sche Axiome). Ein Wahrscheinlichkeitsmaß erfüllt die Kolmogorov’schen Axiome:
1.) P ist normiert:
P(Ω) = 1
2
(2)
2.) P ist σ-additiv: Für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A für alle j ∈ N ist:


∞
∞
[
X
P
Aj  =
P(Aj )
j=1
(3)
j=1
3.) Für jedes Ereignis A ∈ A ist die Wahrscheinlichkeit eine reelle Zahl zwischen 0 und 1:
0 ≤ P(A) ≤ 1
(4)
Definition 7 (Messbare Abbildungen). Seien (Ω, A), (Ω0 , A0 ) messbare Räume, so heißt f : Ω → Ω0 messbar, falls f −1 (A0 ) ∈ A für alle A0 ∈ A0 .
Definition 8 (Zufallsvariable im allgemeinen Fall). Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω0 , A0 )
ein messbarer Raum, so heißt jede messbare Funktion X : Ω → Ω0 Zufallsvariable.
Definition 9 (Dichte einer Zufallsvariable). Sei X : Ω → R eine Zufallsvariable. Eine Funktion fX : R → R
heißt Dichte von X, wenn
P
ω ∈ Ω : a < X(ω) < b =
Z
b
fX (t) dt
(5)
a
und
R
R
fX (t) dt = 1.
1.3. Zusammenhang zwischen diskreten und allgemeinen
Wahrscheinlichkeitsräumen
P
Lemma 2. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und P(A) = ω∈A p(ω). Dann ist (Ω, P(Ω), P)
ein allgemeiner Wahrscheinlichkeitsraum. Die σ-Algebra ist die Potenzmenge.
Im Allgemeinen ist die Potenzmenge zu groß:
Lemma 3 (Satz von Vitali). Sei Ω = {0, 1}N . Dann gibt es keine Abbildung P : P(Ω) → [0, 1] mit:
1.) P ist normiert.
2.) P ist σ-additiv.
3.) Für alle A ⊆ Ω, n ≥ 1 gilt P(Tn A) = P(A) mit
(
Tn A =
ωj
1 − ωn
j=
6 n
j=n
(6)
Bemerkung. Tn : Ω → Ω ist die Abbildung von Ω auf sich selbst, welche das Ergebnis des n-ten Wurfes
umdreht und Tn A = {Tn (ω) : ω ∈ A} ist das Bild von A unter Tn . Dies drückt die Fairness der Münze und
die Unabhängigkeit der Würfe aus.
Aus (6) folgt: P({ω ∈ Ω : ωn = 1}) = P(An ) = P({ω ∈ Ω : ωn = 0}) = P(Tn An ) =
Also beschreibt der Satz von Vitali den unendlichen Münzwurf.
1
2
da Tn An ∪ An = Ω.
2. Verschiedene Verteilungen
2.1. Urnenmodelle
Gegeben sei eine Urne mit N Kugeln mit den Aufschriften 1, 2, . . . , N . Ziehe n Kugeln aus der Urne. Sei
M = {1, . . . , N } und (k1 , . . . , kn ) ∈ Mn , wobei ki bedeute, bei i-ter Ziehung die Kugel ki zu bekommen. Es
ergeben sich folgende Möglichkeiten:
3
a) Mit Zurücklegen, mit Reihenfolge (bzw. unterscheidbare Murmeln, mit Mehrfachbesetzung):
Ωi. = Mn = {(k1 , . . . , kn ) : k1 , . . . , kn ∈ M}
|Ωi. | = N n
(7)
b) Ohne Zurücklegen, mit Reihenfolge (bzw. unterscheidbare Murmeln, ohne Mehrfachbesetzung): Zusätzliche
Voraussetzung: n ≤ N .
Ωii. = {(k1 , . . . , kn ) ∈ Mn : k1 , . . . , kn ∈ M paarweise verschieden}
N!
|Ωii. | = N · (N − 1) · . . . · (N − n + 1) =
(N − n)!
(8)
c) Ohne Zurücklegen, ohne Reihenfolge (bzw. ununterscheidbare Murmeln, ohne Mehrfachbesetzung):
Ωiii. = {A ⊂ M : |A| = n} = {k1 , . . . , kn } ⊂ M : k1 , . . . , kn paarweise verschieden
|Ωii. |
N!
N
|Ωiii. | =
=
=
(9)
n!
(N − n)! · n!
n
d) Mit Zurücklegen, ohne Reihenfolge (bzw. ununterscheidbare Murmeln, mit Mehrfachbesetzung): Ordne
am Ende die Kugeln nach Aufschrift und zähle, wie oft welche gezogen wurde. ki bedeutet nun die i-te
größte Aufschrift, die wir gezogen haben.
Ωiv. = {(k1 , . . . , kn ) ∈ Mn : k1 ≤ . . . ≤ kn }
N +n−1
|Ωiv. | =
n
(10)
2.2. Diskreter Verteilungen
Definition 10 (Hypergeometrische Verteilung). Betrachte Urne mit S schwarzen und W weißen Kugeln.
Ziehe n ≤ S + W Kugeln ohne Rücklegen. Unter der Annahme, dass alle Kugeln gleich wahrscheinlich sind,
ist die Wahrscheinlichkeit, dass genau s schwarze Kugeln gezogen wurden hypergeometrisch verteilt:
S
W
s n−s
S+W
n
Hypn,S,W (s) =
(11)
Definition 11 (Poissonverteilung). Die Poissonverteilung zum Parameter α > 0 ist die Verteilung
auf Ω = N0 = {0, 1, 2, . . .}, die gegeben ist durch:
Poα (k) = e−α
αk
k!
(12)
Definition 12 (Bernoulliverteilung). Wir beschreiben ein Bernoulliexperiment der Länge n durch
Ω = {0, 1}n , P (xi = 1) = p, P (xi = 0) = 1 − p mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Weiterhin bedeute
für x = (x1 , . . . , xn ) ∈ Ω xi = 1, dass das i-te Spiel ein Erfolg war und umgekehrt xi = 0, im i-ten Spiel
einen Misserfolg. Dann ist die Wahrscheinlichkeit für einen Ausgang x ∈ Ω:
P (x) =
n
Y
pxi · (1 − p)1−xi = p
Pn
i=1
xi
Pn
· (1 − p)n−
i=1
xi
(13)
i=1
Definition 13 (Binomialverteilung). Die Wahrscheinlichkeit dafür, in einem Bernoulliexperiment der Länge
n genau k Erfolge zu haben, ist binomialverteilt:
n
Bin,p (k) =
· pk · (1 − p)n−k
(14)
k
4
2.3. Verteilungen mich Dichten
Definition 14 (Exponentialverteilung). Die Exponentialverteilung zum Parameter α ≥ 0 hat die
Dichte:
(
αe−αx x ≥ 0
(15)
f (x) =
0
x<0
Definition 15 (Standardnormalverteilung). Die Dichte der Standardnormalverteilung ist:
2
exp − x2
√
%(x) =
2π
(16)
Definition 16 (Normalverteilung). Die Dichte der Normalverteilung mit Erwartungswert µ und
Varianz σ 2 ist:
2
exp − (x−µ)
2
2σ
√
%µ,σ2 (x) =
(17)
σ · 2π
Definition 17 (Gleichverteilung). Die Gleichverteilung auf dem Intervall [a, b] hat die Dichte:
%(x) =
1
1[a,b] (x)
b−a
(18)
3. Bedingte Wahrscheinlichkeit und Unabhängigkeit
3.1. Bedingte Wahrscheinlichkeit
Definition 18 (Bedingte Wahrscheinlichkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und A, B ⊆
Ω mit P (B) > 0. Dann definieren wir die bedingte Wahrscheinlichkeit von A gegeben B als:
P (A|B) =
P (A ∩ B)
P (B)
(19)
Lemma 4 (Formel von der totalen Wahrscheinlichkeit). Es sei (Ω, p) ein diskreter
Wahrscheinlichkeitsraum.
Sn
Für alle A ⊆ Ω und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω und Ω = i=1 Bi , sowie P (Bi ) > 0 für alle
i = 1, . . . , n gilt:
P (A) =
n
X
P (Bi )P (A|Bi )
(20)
i=1
Lemma 5 (Formel von Bayes). Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum.
Für alle A ⊆ Ω mit
Sn
P (A) > 0 und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω mit Ω = i=1 Bi und P (Bi ) > 0 für alle i = 1, . . . , n
gilt:
P (Bi )P (A|Bi )
P (Bi )P (A|Bi )
P (Bi |A) = Pn
=
P (A)
P
(B
)P
(A|B
)
j
j
j=1
(21)
Beispiel 2 (Seltene Krankheit). Eine seltene Krankheit liegt bei ca. 0.5% der Bevölkerung vor. Ein Test
auf diese Krankheit spricht auf 99% aller Kranken positiv an, sowie bei 2% der Gesunden. Mit welcher
Wahrscheinlichkeit ist eine positiv getestete Person wirklich krank?
Ω Menge aller getesteten Personen, B1 Menge der Kranken, B2 Menge der Gesunden. A bedeute, dass
der Test positiv auf eine Person anspricht. Dann ist: P (B1 ) = 0.005, P (B2 ) = 0.995, P (A|B1 ) = 0.99,
P (A|B2 ) = 0.02. Wir suchen P (B1 |A).
P (B1 |A) =
1
P (B1 )P (A|B1 )
≈ = 20%
P (B1 )P (A|B1 ) + P (B2 )P (A|B2 )
5
5
3.2. Unabhängigkeit
Definition 19 (Unabhängigkeit). A, B ⊆ Ω heißen unabhängig, falls P (A) · P (B) = P (A ∩ B), oder
allgemeiner: (Ai )i∈I heißen unanhängig, wenn für alle endlichen J ⊆ I gilt:


\
Y
P
Aj  =
P (Aj )
(22)
j∈J
j∈J
Definition 20 (Unabhängigkeit von Zufallsvariablen). Zufallsvariablen Xi : Ω → R heißen unabhängig,
falls für alle Ai ⊆ Ω, i ∈ I die Familie {Xi ∈ Ai }, i ∈ I unabhängig ist.
Lemma 6 (Äquivalenzaussagen). Dieses Lemma sollte man wissen...
Beispiel 3 (Unabhängigkeit beim zweimaliger Münzwurf). Sei Ω = {K, Z}2 und
1
2
1
P (B) =
4
1
P (C) =
2
A = 1. Wurf Kopf“ = {(K, Z), (K, K)},
”
P (A) =
B = Zweimal Kopf“ = {(K, K)},
”
C = 2. Wurf Zahl“ = {(K, Z), (Z, Z)},
”
Dann sind:
1
1
1 1
6= = · = P (A) · P (B)
4
8
2 4
1
1 1
P (A ∩ C) = P ((K, Z)) = = · = P (A) · P (B)
4
2 2
P (A ∩ B) = P ((K, K)) =
A, B nicht unabhängig
A, C unabhängig
4. Erwartungswert, Varianz, Kovarianz
4.1. Erwartungswert
Definition 21 (Erwartungswert
im diskreten Fall). Eine Zufallsvariable X : Ω → R besitzt einen ErwarP
tungswert, wenn die Reihe ω∈Ω p(ω) · |X(ω)| konvergiert. Der Erwartungswert von X ist dann:
X
X
E(X) =
p(ω) · X(ω) =
x · P (X = x)
(23)
ω∈Ω
x∈X(Ω)
Beispiel 4 (Erwartungswert der Poissonverteilung). Sei X Poα -verteilt. Dann ist:
E(X) =
∞
X
k=0
k · P (X = k) = e−α
∞
X
kαk
k!
k=1
= αe−α
∞
∞
X
X
αk−1
αk
= αe−α
= αe−α eα = α
(k − 1)!
k!
k=1
k=0
Definition 22 (Erwartungswert im allgemeinen Fall). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum
und X :
R
Ω → R eine Zufallsvariable mit Dichte %. Dann existiert der Erwartungswert von X, falls Ω |X(ω)| dP(ω) <
∞, also falls X ∈ L1 . Der Erwartungswert von X ist dann:
Z
Z
E(X) =
X(ω) dP(ω) =
x · %(x) dx
(24)
Ω
R
Beispiel 5 (Erwartungswert der Exponentialverteilung). Sei X exponentialverteilt zum Parameter α ≥ 0.
Dann ist:
Z ∞
∞ Z ∞
e−αx ∞
1
E(X) =
x · αe−αx dx = −x · e−αx +
e−αx dx =
=
−α 0
α
0
0
0
Lemma 7 (Eigenschaften des Erwartungswerts). Seien X, Y ∈ L2 , c ∈ R. Dann gilt:
1.) Sei X(ω) ≤ Y (ω) für fast alle ω ∈ Ω. Dann ist E(X) ≤ E(Y ).
2.) X + cY ∈ L1 und E(X + cY ) = E(X) + cE(Y ).
3.) Seien X, Y unabhängig. Dann ist XY ∈ L1 und E(XY ) = E(X)E(Y ).
4.) X + Y ∈ L1 und E(X + Y ) = E(X) + E(Y ).
6
4.2. Varianz
Definition 23 (Varianz). Sei X ∈ L1 . Die Varianz von X ist:
V(X) = E (X − E(X))2 = E X 2 − E(X)2
(25)
Lemma 8 (Eigenschaften der Varianz). Seien X, Y ∈ L2 , a, b ∈ R. Dann gilt:
1.) aX + b ∈ L2 und V(aX + b) = a2 V(X).
2.) Seien X, Y unabhängig. Dann ist X + Y ∈ L2 und V(X + Y ) = V(X) + V(Y ).
4.3. Kovarianz
Definition 24 (Kovarianz). Seien X, Y ∈ L2 Zufallsvariablen. Dann ist die Kovarianz von X und Y :
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = E (X − E(X))(Y − E(Y ))
(26)
Lemma 9 (Eigenschaften der Kovarianz). Seien X, Y ∈ L2 und a, b, c, d ∈ R. Dann gilt:
1.) Cov(X, X) = V(X).
2.) Cov(X, Y ) = Cov(Y, X).
3.) Cov(aX + b, cY + d) = ac Cov(X, Y ).
Pn
Pn
Pn
4.) Für alle X1 , . . . , Xn ∈ L2 ist V ( i=1 Xi ) = i=1 V(Xi ) + i,j=1;i6=j Cov(Xi , Xj ).
5.) Seien X, Y unabhängig. Dann ist Cov(X, Y ) = 0, sprich X, Y sind unkorreliert.
Lemma 10 (Satz von Bienaymé). Seien X1 , . . . , Xn ∈ L2 paarweise unkorreliert, dann ist:
!
n
n
X
X
V
Xi =
V(Xi )
i=1
(27)
i=1
Beispiel 6 (Erwartungswert und Varianz der Binomialverteilung). Sei X Bin,q -verteilt. Dann ist:
E(Xi ) = 1 · P (Xi = 1) + 0 · P (Xi = 0) = q
n
X
E(Sn ) =
E(Xi ) = nq
i=1
Bienaymé
 n
yX
V(Sn ) =
V(Xi ) =
i=1
n
X
n
X
E Xi2 − E(Xi )2 =
q · 12 − q 2 = nq(1 − q)
i=1
i=1
5. Grenzwertsätze
5.1. Schwaches und Starkes Gesetz der Großen Zahlen
Lemma 11 (Markov-Ungleichung). Sei X eine reelle Zufallsvariable und f : [0, ∞) → [0, ∞) eine monoton
wachsende Funktion mit f (x) > 0 für x > 0. Dann gilt für alle ε > 0:
P (|X| ≥ ε) ≤
E(f ◦ |X|)
f (ε)
(28)
Beweis. f ◦ |X| ist eine Zufallsvariable, da {f ≤ c} für alle c ∈ R ein Intervall ist. f ◦ |X| ist nicht-negativ
und hat damit einen Erwartungswert. Dann ist
f (ε)P(|X| ≥ ε) = E f (ε) · 1{|X|≥ε} ≤ E(f ◦ |X|)
da f (ε) · 1{|X|≥ε} ≤ f ◦ |X|. Dies gilt, da auf {|X| ≥ ε} = {ω ∈ Ω : |X(ω)| ≥ ε} wegen der Monotonie von f
gilt, dass f (ε) ≤ f (|X(ω)|).
7
Lemma 12 (Tschebyscheff-Ungleichung). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X eine
reellwertige Zufallsvariable mit endlicher Varianz. Dann gilt für alle ε > 0:
P (|X − E(X)| ≥ ε) ≤
Beweis (ausführlich). Sei Z = X − E(X). Wir setzen
(
ε2
Y (ω) =
0
V(X)
ε2
(29)
|Z(ω)| ≥ ε
|Z(ω)| < ε
Dann gilt: Y ≤ |Z 2 | und somit
V(X) = E(|Z 2 |) ≥ E(Y ) = ε2 · P(Y = ε2 ) = ε2 · P(|X − E(X)| ≥ ε)
Beweis (mit Markov-Ungleichung). Sei Z = X − E(X), f (x) = x2 . Dann gilt nach der Markov-Ungleichung
P (|X − E(X)| ≥ ε) ≤
V(X)
E(f ◦ Z)
=
f (ε)
ε2
Satz 13 (Schwaches Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorrelierte
Zufallsvariablen mit gleichem Erwartungswert und supn V(Xn ) = µ < ∞. Dann gilt für alle ε > 0:
n
!
1 X
µ n→∞
P Xi − E(X1 ) ≥ ε ≤ 2 −−−−→ 0
(30)
n
nε
i=1
Also konvergiert
1
n Sn
stochastisch gegen E(X1 ).
Pn
Beweis. Der Erwartungswert ist linear. Damit ist E n1 Sn = n1 · i=1 E(Xi ) = n1 · nE(X1 ) = E(X1 ). Mit der
Pn
paarweisen Unkorreliertheit und den Eigenschaften der Varianz ist: V n1 Sn = n12 · i=1 V(Xi ) ≤ n12 ·nµ = nµ .
Mit Tschebyscheff:
1
V n1 Sn
µ
= 2
P Sn − E(X1 ) ≥ ε ≤
2
n
ε
nε
Satz 14 (Starkes Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorreliert mit
gleichem Erwartungswert und supn V(Xn ) = M < ∞. Dann gilt:
(
)!
n
1X
P
ω ∈ Ω : lim
Xi (ω) = E(X1 )
=1
(31)
n→∞ n
i=1
Also konvergiert
1
n Sn
fast sicher gegen E(X1 ).
Lemma 15. Konvergiert (Zn )n∈N fast sicher gegen Z, so konvergiert (Zn )n∈N stochastisch gegen Z. Die
Umkehrung gilt nicht.
Beweis. Sei ε > 0. Die Mengen BN = {ω ∈ Ω : |Yn (ω) − Y (ω)| < ε ∀n ≥ N } bilden eine aufsteigende Folge:
BN ≤ BN +1 . Ihre Vereinigung B enthält die Menge A := {ω ∈ Ω : limn→∞ Yn (ω) = Y (ω)}. Konvergiert Yn
fast sicher gegen Y , so gilt P(A) = 1. Also ist auch P(B) = 1 und damit P(BN ) → 1. Also P(|Yn − Y | ≥ ε) ≤
c
P (BN
) → 0.
Die Umkehrung gilt nicht. Gegenbeispiel: Sei Zn (ω) = 1[m2−k ,(m+1)2−k ] (ω) falls n = 2k + m mit 0 ≤ m < 2k
für ω ∈ [0, 1] mit Gleichverteilung (die Zn sind immer schmaler werdende Balken, die zwischen 0 und 1
wandern):
8
1
Z2
k = 1, m = 0
⇒ n=2
Z3
1
1
1
2
1
k = 1, m = 1
⇒ n=3
1
2
Z4
k = 2, m = 0
⇒ n=4
1
1
4
1
2
1
Z5
1
k = 2, m = 1
⇒ n=5
1
4
1
1
2
Dann gilt limn→∞ P(|Zn | > ε) = 2−k ≤ n1 → 0, aber Zn (ω) 6→ 0, da für alle N ∈ N ein n ≥ N exisitert,
sodass Zn (ω) = 1 ist. Also konvergiert Zn stochastisch gegen 0, aber nicht fast sicher!
Lemma 16 (Borel-Cantelli). Seien Ak ∈ A, k ∈ N, (Ω, A, P) Wahrscheinlichkeitsraum und sei A∗ = {ω ∈
Ω : ω ∈ Ak für unendlich viele k ∈ N}.
P∞
1.) Gilt k=1 P(Ak ) < ∞, so ist P(A∗ ) = 0.
P∞
2.) Sind Ak , k ∈ N unabhängig mit k=1 P(Ak ) = ∞, so ist P(A∗ ) = 1.
Beweisidee Satz 14. oBdA sei E(Xi ) = 0 für alle i, betrachte sonst Xi0 = Xi − E(Xi ). Setze Yn =
1
n
Pn
i=1
Xi .
1. Schritt: Zeige Yn2 → 0 fast sicher mit Hilfe von Tschebyscheff und Borel-Cantelli, wobei An = {ω :
|Yn2 (ω)| > ε} ist.
2. Schritt: Für m ∈ N sei n = n(m) so gewählt, dass n2 ≤ m < (n + 1)2 . Vergleiche Ym mit Yn2 und setze
Pk
Sk = k · Yk = i=1 Xi . Tschebyscheff Ungleichung und erneut Borel-Cantelli liefert das Starke
Gesetz der großen Zahlen.
5.2. Approximation der Binomialverteilung
Lemma 17 (Stirling-Formel). Es gilt:
n! ∼
wobei an ∼ bn ⇔ limn→∞
an
bn
√
2πn ·
n n
e
(32)
= 1.
Satz 18 (Lokaler Grenzwertsatz für die Binomialverteilung). Es sei 0 < p < 1 und q = 1 − p. Dann gilt mit
√
Xn (k) = k−np
npq für alle c > 0:
√
npq Bin,p (k)
lim
max
− 1 = 0
n→∞ k:|Xn (k)|≤c ϕ(Xn (k))
mit ϕ(x) =
√1
2π
(33)
2
exp − x2 Dichte der Standardnormalverteilung.
Beweisidee. 3x Stirling und Umformungen
Satz 19 (Zentraler Grenzwertsatz der Binomialverteilung, Satz von Moivre-Laplace). Sei 0 < p < 1 und
Sn , n ∈ N eine Folge Bin,p -verteilter Zufallsvariablen. Dann gilt für alle a, b ∈ R mit a < b:
lim P (a ≤ Sn∗ ≤ b) =
n→∞
n −E(Sn )
mit Sn∗ = S√
=
V(Sn )
Z
b
ϕ(x) dx = Φ(b) − Φ(a)
(34)
a
Sn −np
√
npq .
9
p
∗
Beweis. Sei σn = np(1 − p) ⇒ Xn (k) = k−np
σn . Es ist a ≤ Sn ≤ b genau dann, wenn aσn + np ≤ Sn ≤
bσn + np ist. Sei αn = daσn + npe und βn = bbσn + npc.
αn − np
1
⇒ |αn − aσn − np| ≤ 1 ⇒ |Xn (αn ) − a| = − a ≤
σn
σn
Ähnlich |Xn (βn ) − b| ≤
1
σn .
1 − εn ≤
Mit dem Lokalen Grenzwertsatz der Binomialverteilung folgt:
σn · Bin,p (k)
≤ 1 + εn
ϕ(Xn (k))
∀k : αn ≤ k ≤ βn , εn → 0
Riemann-Summe bezüglich von Intervallen mit Seitenlänge
Pβn
1
Rn = k=α
· ϕ(Xn (k)).
n σn
βn
X
⇒ (1 − εn )Rn ≤
1
σn
und Mittelpunkten Xn (k), αn ≤ k ≤ βn :
Bin,p (k) ≤ (1 + εn )Rn
k=αn
|
{z
}
∗
=P(αn ≤Sn ≤βn )=P(a≤Sn
≤b)
⇒ lim P(a ≤ Sn∗ ≤ b) = lim Rn =
n→∞
n→∞
Z
b
ϕ(x) dx
a
Bemerkung. Es gilt:
E(Sn ) − np
=0
√
npq
V(Sn )
=1
V (Sn∗ ) =
npq
E (Sn∗ ) =
Lemma 20. Es seien X1 , . . . , Xn unabhängige Zufallsvariablen mit P(Xi = 1) = qi , P(Xi = 0) = 1 − qi für
qi ∈ [0, 1] und i = 1, . . . , n. Sei S = X1 + . . . + Xn und α = q1 + . . . + qn . Dann gilt:
∞ n
k
X
X
P(S = k) − e−α α ≤ 2 ·
qi2
k! (35)
i=1
k=0
Satz 21 (Poissonapproximation der Binomialverteilung). Ist p(n) eine Folge mit p(n) ∈ [0, 1] und n ·
n→∞
p(n) −−−−→ α > 0. Dann gilt:
lim Bin,p (k) = Poα (k)
(36)
n→∞
Beweis. Setze qi = p(n) für alle i. Seien Xi wie in vorhergenden Lemma. Dann ist S =
n→∞
verteilt, sowie p(n) −−−−→ 0. Dann ist
2·
n
X
i=1
Pn
i=1
Xi Bin,p(n) -
p(n)2 = 2 · p(n) · (n + 1)p(n) −−−−→ 0
|{z} |
{z
}
n→∞
→0
→α
∞
n
X
X
n→∞
Bin,p(n) (k) − Poα (k) ≤
|P(S = k) − Poα (k)| ≤ 2 ·
qi2 −−−−→ 0
i=1
k=0
Bemerkung (Fehlerabschätzung). Sind n · p(n) ≤ C für alle n ∈ N0 , so gilt:
∞
2
X
Bin,p(n) (k) − Poα (k) ≤ 2C
sup Bin,p(n) (k) − Poα (k) ≤
n
k∈N0
k=0
10
(37)
5.3. Zentraler Grenzwertsatz
Satz 22 (Zentraler Grenzwertsatz). Es sei (Xi )i∈N eine Folge von unabhängige, identisch verteilte Zufallsvariablen (d.h. PXi = PXj für alle i, j) mit Xi ∈ L2 (Ω, P) und E(Xi ) = m, V(Xi ) = v > 0. Dann ist:
lim P(Sn∗ ≤ t) = Φ(t)
n→∞
wobei Sn∗ =
√1
n
Pn
i=1
X√
i −m
v
(38)
ist.
Beweisidee. Die sollte man wissen...
Teil II.
Statistik
6. Grundbegriffe der Statistik
Definition 25 (Statistisches Modell). Ein statistisches Modell ist ein Tripel X , A, (Pϑ )ϑ∈Θ , wobei
(X , A) ein messbarer Raum, Θ eine (mindestens zweielementige) Indexmenge und Pϑ : A → [0, 1] Wahrscheinlichkeitsmaße für alle ϑ ∈ Θ sind.
Definition 26 (Statistik). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Σ ein messbarer Raum. Dann
ist jede Zufallsvariable S : X → Σ eine Statistik.
Definition 27 (Kenngröße, Schätzer). Sei τ : Θ → Σ eine messbare Abbildung - die Kenngröße. Dann
heißt jede Statistik T : X → Σ Schätzer für τ .
7. Arten und Eigenschaften von Schätzern
7.1. Das Maximum-Likelihood-Prinzip
Definition 28 (Likelihood-Funktion). Sei M ein statistisches Modell und %ϑ (x) die Dichte von Pϑ . Dann
heißt die Abbildung % : X × Θ → [0, ∞) mit %(x, ϑ) = %ϑ (x) Likelihood-Funktion.
Definition 29 (Maximum-Likelihood-Schätzer). Ein Schätzer T : X → R für τ (ϑ) = ϑ ist ein MaximumLikelihood-Schätzer, falls
%(x, T (x)) = max %(x, ϑ)
ϑ∈Θ
(39)
Dies ist genau dann der Fall, wenn die Log-Likelihood-Funktion log %(x, T (x)) maximal ist.
Beispiel 7 (Reißnagel). Mit Wahrscheinlichkeit ϑ ∈ [0, 1] fällt ein Reißnagel auf die Spitze. n-mal Werfen
liefert x-mal Spitze. Die Ergebnisse
seien unabhängig, also ist x Bin,ϑ -verteilt. Also ist die LikelihoodFunktion: %(x, ϑ) = Bin,ϑ (x) = nx ϑx (1 − ϑ)n−x . Dann ist:
n
log %(x, ϑ) = log
+ x · log ϑ + (n − x) · log(1 − ϑ)
x
d
x n−x !
log %(x, ϑ) = −
=0
dϑ
ϑ
1−ϑ
x − ϑx − ϑn + ϑx !
=0
ϑ(1 − ϑ)
Also ist %(x, ϑ) maximal für ϑe =
x
n.
11
7.2. Erwartungstreue Schätzer
Definition 30 (Erwartungstreu). Sei M ein statistisches Modell und τ : Θ → R eine reelle Kenngröße.
Dann ist ein Schätzer T : X → R erwartungstreu bezüglich τ , falls
Z
Eϑ (T ) =
T (x) dPϑ (x) = τ (ϑ)
(40)
X
Beispiel 8 (Raten eines Bereichs von Zufallszahlen). Zahlen auf [0, ϑ], ϑ ∈ Θ = (0, ∞) gleichverteilt.
Aufgrund von n gegebenen Zufallszahlen
x1 , . . . , xn soll τ (ϑ) = ϑ geschätzt werden. Annahme: xi unabhängig!
⊗n
n
n
Statistisches Modell: M = (0, ∞) , B ((0, ∞) ) , Pϑ ϑ∈Θ mit Pϑ hat Dichte pϑ (x) = ϑ1 1[0,ϑ] (x).
Pn
Mit schwachem Gesetz der großen Zahlen: n1 i=1 xi ≈ E(x1 ) =
als Schätzer für τ (ϑ) = ϑ. T ist erwartungstreu, weil
=
1
ϑ
Rϑ
2X
2
Eϑ (xi ) = 2 · Eϑ (x1 ) =
n i=1
ϑ
Z
ϑ
ϑ
2
n
E⊗n
ϑ (T ) =
0
0
x dx. Also wähle T (x) =
2
n
Pn
i=1
xi
x dx = ϑ
Definition 31 (Bias). Sei M ein statistisches Modell, τ : Θ → R eine Kenngröße und T : X → R ein
Schätzer für τ . Dann ist der Bias von T
Bϑ (T ) = Eϑ (T ) − τ (ϑ)
(41)
Bemerkung. Ist T erwartungstreu, so ist B(T ) = 0.
Definition 32 (Mittlerer quadratischer Fehler). Sei M ein statistisches Modell, τ : Θ → R eine reelle
Kenngröße, und T : X → R ein Schätzer. Dann ist der mittlere quadratische Fehler von T :
Fϑ (T ) = Eϑ (T − τ (ϑ))2 = Vϑ (T ) + Bϑ (T )2
(42)
Beispiel 9 (Ein guter Schätzer mit Bias). Nochmal Reißnagel: Sei S(x) =
τ (ϑ) = ϑ. Dann ist:
nϑ + 1
,
n+2
1 − 2ϑ
B(S) =
,
n+2
nϑ(1 − ϑ)
V(S) =
,
(n + 2)2
nϑ(1 − ϑ) − (1 − 2ϑ)2
F(S) =
,
(n + 2)2
E(S) =
x+1
n+2
ein weiterer Schätzer für
E(T ) = ϑ
B(T ) = 0
ϑ(1 − ϑ)
n
ϑ(1 − ϑ)
F(T ) =
n
V(T ) =
Dann ist in einem bestimmten Intervall F(S) < F(T )!
7.3. Varianzminimierende Schätzer
Definition 33 (Varianzminimierend). Sei M ein statistisches Modell und τ : Θ → R eine reelle Kenngröße.
Dann heißt ein erwartungstreuer Schätzer T für τ varianzminimierend, wenn für jeden erwartungstreuen
Schätzer S für τ gilt, dass Vϑ (T ) ≤ Vϑ (S) für alle ϑ ∈ Θ.
Definition 34 (Regularität, Score Funktion, Fisher-Information). Ein statistisches Modell M heißt regulär,
falls Θ ⊆ R ein offenes Intervall ist und
1.) % : X × Θ → [0, ∞) ist strikt positiv und nach ϑ ∈ Θ stetig differenzierbar.
2.) Für jedes ϑ ∈ Θ existiert (und ist positiv) die Varianz I(ϑ) := Vϑ (Uϑ ), wobei
Uϑ (x) =
d
%0 (ϑ)
log %(x, ϑ) = x
dϑ
%x (ϑ)
die sog. Score-Funktion ist und I : Θ → [0, ∞) Fisher-Information heißt.
12
(43)
Außerdem gelte:
gilt:
R
d
%(x, ϑ) dx
X dϑ
=
Z
X
d
dϑ
R
X
%(x, ϑ) dx. Weiterhin heißt T (x) ein regulärer Schätzer, wenn
d
d
T (x) %(x, ϑ) dx =
dϑ
dϑ
Z
T (x)%(x, ϑ) dx
(44)
X
Satz 23 (Informationsungleichung). Sei M ein reguläres Standardmodell, τ : Θ → R eine stetig differenzierbare Kenngröße mit τ 0 (ϑ) 6= 0 für alle ϑ ∈ Θ und T ein regulärer, erwartungstreuer Schätzer für τ . Dann
gilt:
Vϑ (T ) = Fϑ (T ) ≥
τ 0 (ϑ)2
I(ϑ)
(45)
und Gleichheit gilt genau dann, wenn
τ 0 (ϑ)2 · Uϑ (x)
I(ϑ)
bzw. %(x, ϑ) = exp (a(ϑ)T (x) − b(ϑ)) · h(x)
T (x) − τ (ϑ) =
mit a0 (ϑ) =
(46)
(47)
I(ϑ)
τ 0 (ϑ) .
Beweisidee. Die sollte man wissen...
Bemerkung. Ein Schätzer, der (46) oder (47) erfüllt, heißt Cramer-Rao-Effizient und ist varianzminimierend in der Klasse der erwartungstreuen Schätzer.
Beispiel 10 (Ein Cramer-Rao-Effizienter Schätzer). Sei M = N0 , P(N0 ), (Poϑ )ϑ∈Θ mit Θ = (0, ∞) und
τ (ϑ) = ϑ. Die Likelihood-Funktion ist:
%(x, ϑ) = e−ϑ
mit T (x) = x, h(x) =
1
x!
1
ϑx
= exp (x · log ϑ − ϑ) ·
x!
x!
und a(ϑ) = log ϑ. Zu prüfen ist, dass a0 (ϑ) =
I(ϑ) = Vϑ
%0x (ϑ)
%x (ϑ)
= Vϑ
e−ϑ
x!
· −ϑx + xϑx−1
I(ϑ)
τ 0 (ϑ)
= I(ϑ) ist, wobei a0 (ϑ) =
1
ϑ
ist.
!
=
· ϑx
x
x
x
1
1
−ϑ + xϑx−1
=
V
−
1
=
V
= 2 Vϑ (x) =
= Vϑ
ϑ
ϑ
x
ϑ
ϑ
ϑ
ϑ
ϑ
e−ϑ
x!
Also ist T (x) = x ein Cramer-Rao-Effizienter Schätzer.
8. Testtheorie
8.1. Entscheidungsprobleme
Definition 35 (Nullhypothese, Alternative, Test, randomisiert). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell
˙ 1 mit Nullhypothese Θ0 und Alternative Θ1 . Jede Statistik ϕ : X → [0, 1] heißt Test
und Θ = Θ0 ∪Θ
von Θ0 gegen Θ1 . Ein Test ϕ heißt nicht randomisiert, falls ϕ(x) ∈ {0, 1}, sonst randomisiert.
Definition 36 (Irrtumsniveau). ϕ ist ein Test zum Irrtumsniveau α, falls supϑ Eϑ (ϕ) ≤ α.
˙ 1.
Definition 37 (Güte, Fehler 1. und 2. Art). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Θ = Θ0 ∪Θ
Gϕ : Θ → [0, 1] mit Gϕ (ϑ) = Eϑ (ϕ) heißt Gütefunktion des Tests ϕ. Ein Fehler 1. Art liegt vor,
wenn die Nullhypothese Θ0 abgelehnt wird, obwohl sie richtig ist. Ein Fehler 2. Art liegt vor, wenn die
Nullhypothese beibehalten wird, obwohl sie falsch ist.
Bemerkung. Wir stellen folgende Anforderungen an einen Test ϕ:
a) Die Wahrscheinlichkeit für einen Fehler 1. Art soll kleiner sein, als α: Für alle ϑ ∈ Θ0 soll gelten:
Gϕ (ϑ) ≤ α.
13
b) Die Wahrscheinlichkeit für einen Fehler 2. Art soll möglichst klein sein: Für alle ϑ ∈ Θ1 soll gelten:
Gϕ (ϑ) möglichst groß.
Beispiel 11 (Außersinnliche Wahrnehmung). Ein Medium behauptet, er könne verdeckte Spielkarten identifizieren. Dazu wird ihm 20 mal ein verdecktes Paar von Herz-Dame/Herz-König vorgelegt. Er soll die
Herz-Dame umdrehen. Die Zahl x der Treffer wird notiert.
˙ 1 = 12 ∪ 12 , 1 und Irrtumsniveau
Modell: ({0, . . . , 20}, P({0, . . . , 20}), (Bi20,ϑ )ϑ∈Θ ) mit Θ = 21 , 1 = Θ0 ∪Θ
α = 0.05. Dann berechnet man, dass:
Bi20, 12 ({15, . . . , 20}) ≈ 0.02707 < α,
Bi20, 12 ({14, . . . , 20}) > α
Ein Test zum Nievau α ist folgender: Deckt das Medium 15 mal oder öfter die Herz-Dame um, so verwirft
man die Nullhypothese Θ0 und gesteht ihm außersinnliche Wahrnehmung zu.
8.2. Beste Tests, Neyman-Pearson-Lemma
Definition 38 (Bester Test). Ein Test ϕ zum Niveau α heißt bester Test zum Niveau α, falls für jeden
Test ψ zum Niveau α gilt, dass Gϕ (ϑ) ≥ Gψ (ϑ) für alle ϑ ∈ Θ1 .
Sei M = X , A, (Pϑ )ϑ∈Θ ein Standardmodell, Θ = {0, 1}, Θ0 = {0}, Θ1 = {1}. Wir suchen einen besten
Test von Θ0 gegen Θ1 zum Niveau α. Betrachte dazu die Dichten %0 und %1 .
̺0
̺1
α
ϕ=0
ϕ=1
Gemäß dem Maximum-Likelihood-Prinzip wird man sich immer dann für die Alternative entscheiden, wenn
für das beobachtete x die Dichtefunktion %1 (x) hinreichend stark über %0 (x) dominiert. Der Grad der Dominanz von %1 über %0 wird in natürlicher Weise beschrieben durch den Likelihood-Quotienten:
(
%1 (x)
falls %0 (x) > 0
R(x) = %0 (x)
(48)
∞
falls %0 (x) = 0
Hinreichend starke Dominanz bedeutet dementsprechend, dass der Likelihood-Quotient R(x) einen geeigneten Schwellenwert c übersteigt.
Satz 24 (Neyman-Pearson-Lemma). Seien M, Θ0 , Θ1 wie oben. Dann gilt für jedes α ∈ (0, 1): Jeder beste
Test ψ von Θ0 gegen Θ1 zum Niveau α hat die Gestalt:
(
1 falls R(x) > c
ψ(x) =
(49)
0 falls R(x) < c
für ein c = c(α) > 0. Ein solcher Test heißt Neyman-Pearson-Test. Jeder Neyman-Pearson-Test mit
E0 (ϕ) = α ist ein bester Test zum Niveau α.
Bemerkung. Jeder Neyman-Pearson-Test mit E0 (ϕ) = α hat die Gestalt:


1 falls R(x) > c
ϕ(x) = γ falls R(x) = c


0 falls R(x) < c
(50)
wobei c ∈ [0, ∞) und γ ∈ [0, 1], falls P0 (R(x) = c) > 0 eindeutig durch α = P0 (ϕ) = P0 (R > c) + γP0 (R = c)
bestimmt ist.
14
Beispiel 12 (Außersinnliche Wahrnehmung). Will man aus vorhergehendem Beispiel einen besten Test zum
Niveau α kosntruieren, so wählt man:


1 falls x ∈ {15, . . . , 20}
ϕ(x) = γ falls x = 14


0 falls x < 14
wobei γ so gewählt wird, dass
α = 0.05 = Bi20, 21 ({15, . . . , 20}) + γ · Bi20, 12 ({14})
also γ =
0.05−0.02707
0.037
= 0.62 ist.
15
Herunterladen