Skript - Frank Reinhold

Werbung
Universität Regensburg
Fakultät Mathematik
Vorlesungsmitschrift
Einführung in die Wahrscheinlichkeitstheorie
und Statistik
Prof. Helmut Abels
Sommersemester 2009
LATEX: Frank Reinhold
Inhaltsverzeichnis
0 Einleitung
5
I
6
Wahrscheinlichkeitstheorie
1 Diskrete Wahrscheinlichkeitsräume
1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Weitere Beispiele von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7
10
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
13
2.1 Bedinge Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Produktexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3 Zufallsgröße, Erwarungswert und Varianz
3.1 Zufallsgrößen, -variablen . . . . . . . . . .
3.2 Unabhängigkeit von Zufallsvariablen . . .
3.3 Erwartungswert und Varianz . . . . . . .
3.4 Varianz . . . . . . . . . . . . . . . . . . .
3.5 Kovarianz . . . . . . . . . . . . . . . . . .
3.6 Das schwache Gesetz der großen Zahlen .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
22
24
27
28
31
4 Approximation der Binomialverteilung
33
4.1 Normalverteilungsapproximation von Bin,p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2 Poisson-Approximation und Summen von Zufallsvaribalen . . . . . . . . . . . . . . . . . . . . 39
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit
5.1 Definitionen und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . .
5.2 Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Erwartungswert, Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . .
Dichten
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
42
46
48
51
53
6 Grenzwertsätze
60
6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . 60
6.2 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
II Statistik
7 Einführung in die Schätztheorie
7.1 Grundbegriffe . . . . . . . . . . . . . . . .
7.2 Beispiele für Schätzer . . . . . . . . . . .
Erwartungstreue . . . . . . . . . . . . . .
Minimale Varianz . . . . . . . . . . . . . .
7.3 Das Maximum-Likelihood-Prinzip . . . . .
7.4 Erwartungstreue und quadratische Fehler
7.5 Varianzminimierende Schätzer . . . . . . .
7.6 Konsistenz . . . . . . . . . . . . . . . . . .
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
70
72
72
73
74
76
80
3
Inhaltsverzeichnis
8 Konfidenzbereiche
8.1 Definition . . . . . . . . .
8.2 Konstruktion . . . . . . .
8.3 Beispiele . . . . . . . . . .
8.4 Die X 2 - und t-Verteilung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
82
82
82
83
86
9 Einführung in die Testtheorie
88
9.1 Entscheidungsprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9.2 Alternativtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3 Beste einseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Literaturverzeichnis
4
94
0 Einleitung
Wahrscheinlichkeitstheorie: Untersuchung von Gesetzmäßigkeiten im Zufall, z.B. das Gesetz der großen
Zahlen.
Was ist Zufall? Hier: Axiomatische Beschreibung mit Hilfe von Wahrscheinlichkeitsräumen.
Grundannahme: Zufallsmechanismus ist (im Prinzip) bekannt, oder wird als bekannt angenommen.
Gesucht: Aussagen über das zufällige Ereignis (Zufallsexperiment).
Statistik: Was kann aus bestimmten Zufallsexperimenten über den Zugrundeliegenden Zufallsmechanismus
gesagt werden?
Grundansatz: Zufallsmechanismus oder bestimmte Parameter des Mechanismus sind unbekannt.
Gesucht: Was sind die Parameter?
Wichtig: Unterscheide zwischen Modellbildung und Interpretation der Ergebnisse und mathematischen
Aussagen über das mathematische Modell.
5
Teil I
Wahrscheinlichkeitstheorie
6
1 Diskrete Wahrscheinlichkeitsräume
1.1 Grundbegriffe
Im Folgenden werden wir zufällige Ereignisse bzw. Zufallsexperimente mit Hilfe von sog. Elementarereignissen beschreiben. D.h. jedes Mal tritt im Zufallsexperiment genau eines der Elementarereignisse ein.
Ω sei die Menge dieser Ereignisse.
Zu jedem Elementarereignis ω ∈ Ω sei p(ω) ∈ [0, 1] die Wahrscheinlichkeit, dass ω eintritt. Es muss gelten:
X
p(ω) = 1
ω∈Ω
Definition 1.1.
a) (Ω, p) ist ein diskreter Wahrscheinlichkeitsraum, falls
1.) Ω ist eine endliche oder abzählbare Menge.
P
2.) p : Ω → [0, 1] eine Abbildung, ω∈Ω p(ω) = 1
b) Ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum, so wird für alle A ⊆ Ω durch
X
P (A) :=
p(ω)
(1)
ω∈A
die Wahrscheinlichkeit des Ereignisses A definiert.
Bemerkung.
a) Jede Teilmenge A ⊆ Ω wird Ereignis genannt.
b) Durch (1) wird eine Abbildung P : P(Ω) → [0, 1] definiert. P heißt das zu (Ω, p) gehörende Wahrscheinlichkeitsmaß.
Beispiel 1. Wir betrachten einen Würfel und nehmen an, dass alle Zahlen 1, . . . , 6 gleich wahrscheinlich
sind ( freier Würfel“).
”
Die beschreiben wir durch Ω = {1, . . . , 6} und setzen:
p(ω) =
1
1
=
|Ω|
6
∀ω ∈ Ω
Das Ereignis Der Würfelwurf ist gerade“ entspricht der Menge A = {2, 4, 6}. A = Ω heißt sicheres Ereignis“,
”
”
A = {} heißt unmögliches Ereignis.
Beispiel 2. Allgemein: Eine endliche Menge von Elementarereignissen, die alle gleich wahrscheinlich sind,
so setzen wir
p(ω) =
1
|Ω|
(Gleichverteilung)
Dann ist
P (A) =
|A|
|Ω|
(Laplace-Wahrscheinlichkeit)
Beispiel 3. Die Wahl von Ω ist erstmal willkürlich. Es können unterschiedliche Wahlen sinnvoll sein.
Wir betrachten den Wurf von zwei Würfeln:
7
1 Diskrete Wahrscheinlichkeitsräume
1. Möglichkeit: Ω = {1, 2, 3, 4, 5, 6}2 = {(a, b) : a, b ∈ {1, . . . , 6}}
Wir nehmen an, dass die Ergebnisse der beiden Würfe unabhängig sind, und dass die
1
=
Würfel fair sind. Dann sind alle Elementarereignisse gleich wahrscheinlich. ⇒ p(ω) = |Ω|
1
1
=
∀ω
∈
Ω.
|{1,...,6}|2
36
Nicht elementare Ereignisse:
• A1 = Summe der Würfel ist 4“ = {(1, 3), (2, 2), (3, 1)}
”
• A2 = Es sind nur gerade Zahlen gefallen“= {(2, 2), (2, 4), (2, 6), . . . , (6, 6)}
”
1
32
1
1|
⇒ P (A1 ) = |A
36 = 12 , P (A2 ) = 62 = 4
2. Möglichkeit: Ω = {2, 3, . . . , 12}, d.h. die Elementarereignisse ist Menge der möglichen Summen von zwei
Würfeln.
In diesem Fall liegt aber keine Gleichverteilung vor. Die Bestimmung von p(ω) ist etwas
aufwändiger:
p(2) =
p(3) =
1
36
2
36
=
=
1 1
6 · 6 beide Würfel müssen 1 sein. Dies entspricht
1
18 entspricht {(1, 2), (2, 1)} im 1. Modell.
{(1, 1)} im 1. Modell.
Beispiel 4. Die Menge Ω kann auch abzählbar sein:
Wir werfen eine Münze solange, bis Kopf“ das erste Mal fällt. Wann fällt das erste Mal Kopf“?
”
”
Dazu wählen wir Ω = N = {1, 2, . . .} und n ∈ N bedeutet, dass nach genau n Würfen das erste Mal Kopf
fällt.
n
1
1
1
1
⇒ p(n) =
=
· ... ·
∀n ∈ N
·
2
2
2
2
| {z } |{z}
n−1-mal Zahl Kopf
Dann gilt:
∞
X
p(n) = 1
n=1
Waraum? Geometrische Reihe!
Alternativ: Wähle Ω = {Z, K}N = {(ak )k∈N : ak ∈ {Z, K}}. Achtung: Dann ist Ω überabzählbar! Die
Konstruktion eines Wahrscheinlichkeitsmaßes ist aufwändiger (→ Maßtheorie, Allgmeine Wahrscheinlichkeitsräume, später).
Einfache Eigenschaften von P sind:
Lemma 1.2. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und P sei das Wahrscheinlichkeitsmaß. Dann
erfüllt P : P(Ω) → [0, 1] die sog. Kolmogorov’schen Axiome:
K1: P (Ω) = 1
K2: Für alle Folgen (Ai )i∈N von paarweise disjunkten Mengen aus P (Ω) gilt:
!
∞
∞
[
X
P
Ai =
P (Ai )
(abzählbare oder σ-Additivität)
i=1
i=1
Beweis. Klar.
Folgerung 1.3. Es sei Ω eine Menge und P : P(Ω) → [0, 1], welche K1 und K2 erfüllt. Dann gilt:
a) P (∅) = 0
b) Sind A1 , . . . , An ⊆ Ω paarweise disjunkte Mengen, so gilt:
P (A1 ∪ . . . ∪ An ) =
n
X
j=1
8
P (Aj )
(endliche Additivität)
1.1 Grundbegriffe
c) Für alle A1 , . . . , An ⊆ Ω gilt:
!
n
n
[
X
P
≤
P (Ai )
i=1
(Subadditivität)
i=1
d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ∀A, B ⊆ Ω
e) A ⊆ B ⇒ P (A) ≤ P (B)
f ) P (Ac ) = 1 − P (A) mit Ac = Ω \ A
Beweis.
a) Wähle Ak = ∅, k ∈ N. Dann sind Ak paarweise disjunkt, denn Ak ∩ Aj = ∅ ∀j 6= k, j, k ∈ N. Mit (K2):
!
∞
∞
∞
[
X
X
P (∅) = P
Ak =
P (Ak ) =
P (∅)
k=1
k=1
k=1
⇒ P (∅) = 0, da sonst rechte Seite +∞ ist.
b) Wähle Ak = ∅. Für k ≥ n + 1 ⇒ (Ak )k∈N sind paarweise disjunkt. (K2) + a) ⇒ Aussage.
c) d) ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) ≤ P (A) + P (B) für n = 2. Rest per Induktion.
| {z }
≥0
d) Die Mengen A \ B, B \ A und A ∩ B sind paarweise disjunkt.
P (A ∪ B) = P (A \ B ∪ B \ A ∪ (A ∩ B)) =
= P (A \ B) + P (B \ A) + P (A ∩ B) =
= P (A \ B) + P (A ∩ B) + P (B \ A) + P (A ∩ B) −P (A ∩ B)
{z
} |
{z
}
|
=P (A)
=P (B)
⇒ Aussage.
e) A ⊆ B ⇒ P (B) = P (A) + P (B \ A), da B = B \ A ∪ A. ⇒ P (B) ≥ P (A)
| {z }
≥0
c
f) A und A sind disjunkt, Ω = A + Ac ⇒ 1 = P (Ω) = P (AC ) + P (A) ⇒ Aussage.
Bemerkung.
1.) f)) ist nützlich zum Berechnen von einigen Wahrscheinlichkeiten, wenn P (Ac ) leichter zu berechnen
ist.
2.) Verallgemeinerung von d): Für alle A1 , A2 , A3 ⊆ Ω gilt:
P (A1 ∪ A2 ∪ A3 ) = P ((A1 ∪ A2 ) ∪ A3 ) =
= P (A1 ∪ A2 ) + P (A3 ) − P ((A1 ∪ A2 ) ∩ A3 ) =
= P (A1 ∪ A2 ) + P (A3 ) − P ((A1 ∩ A3 ) ∪ (A2 ∩ A3 )) =
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − (P (A1 ∩ A3 ) + P (A2 ∩ A3 ) − P (A1 ∩ A2 ∩ A3 )) =
= P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A2 ∩ A3 ) − P (A2 ∩ A3 ) + P (A1 ∩ A2 ∩ A3 )
Allgemein erhält man:
P
m
[
!
Ai
=
(m)
S1
−
(m)
S2
− . . . + (−1)
i=1
(m)
wobei Sk
=
P
1≤i1 <·<ik ≤m
m+1
·
(m)
Sm
=
m
X
(m)
(−1)k+1 · Sk
k=1
P (Ai1 ∩ . . . ∩ Aik )k=1,...,m
Beweis: Übungsblatt per Induktion.
9
1 Diskrete Wahrscheinlichkeitsräume
Beispiel 5. Verteilung von Spatzen
Auf wie viele Arten können sich zwei nicht-unterscheidbare Spatzen auf vier Telegraphenmasten verteilen?
∼ Murmeln, Mast ∼
Wir benutzen Spatzen =
= Zelle. ⇒ N = 4, n = 2 (mit Mehrfachbesetzung, ununterscheidbare Murmeln).
Antwort: 4+2−1
= 52 = 10 Möglichkeiten.
2
Beispiel 6. Ein zerstreuter Briefschreiber schreibt 3 (verschiedene) Briefe und beschriftet 3 (verschiedene)
Umschläge. Danach verteilt er die 3 Briefe zufällig auf die 3 Umschläge.
Frage: Wie groß ist die Wahrscheinlichkeit, dass kein Brief richtig ankommt?
A = kein Brief kommt richtig an“
”
Wir betrachten das Gegenereignis Ac = B1 ∪ B2 ∪ B3 mit Bi = Brief i kommt richtig an“.
”
Wir wählen Ω = {π : {1, 2, 3} → {1, 2, 3} bijektiv} und die Gleichverteilung auf Ω.
⇒ |Ω| = 3! = 6
⇒ Bi = {π : {1, 2, 3} → {1, 2, 3} : π(i) = i} , |Bi | = 2! = 2
2
1
|Bi |
= =
|Ω|
6
3
B1 ∩ B2 = {π : {1, 2, 3} → {1, 2, 3} : π(1) = 1, pi(2) = 2} = {id}
⇒ P (Bi ) =
⇒ |B1 ∩ B2 | = |B2 ∩ B3 | = |B1 ∩ B3 | = 1
⇒ P (B1 ∩ B2 ) = P (B2 ∩ B3 ) = P (B1 ∩ B3 ) =
1
6
B1 ∩ B2 ∩ B3 = B1 ∩ B2 = {id}
1 1 1
1
1
2
⇒ P (B1 ∪ B2 ∪ B3 ) = + + − 3 · + 1 · =
3 3 3
6
6
3
1
c
P (A) = 1 − P (A ) =
3
1.2 Weitere Beispiele von Verteilungen
Hypergeometrische Verteilung: Wir betrachten eine Urne mit S schwarzen Kugeln und W weißen Kugeln
und ziehen n ≤ S + W Kugeln ohne Rücklegen.
Annahme: Kugeln sind gut durchmischt“ ⇒ Alle Kugeln gleich wahrscheinlich.
”
Frage: Wahrscheinlichkeit, dass genau s schwarze gezogen wurden. ⇒ Genau w = n − s weiße Kugeln.
Die Wahrscheinlichkeit ist:
Hypn,S,W (s) =
S
W
s n−s
S+W
n
wobei s ∈ {max{0, n − W }, . . . , min{S, n}}. Hierbei ist S+W
die Zahl der Möglichkeiten n Kugeln aus
n
S + W Kugeln auzuwählen, Ss die Zahl der Möglichkeiten s schwarze Kugeln aus S schwarzen Kugeln und
W
n−s die Zahl der Möglichkeiten n − s weiße Kugeln aus W weißen Kugeln auszuwählen.
Durch Ω = {max{0, n − W }, . . . , min{S, n}} und p(s) = Hypn,S,W (s) ∀s ∈ Ω wird (Ω, p) ein diskreter
Wahrscheinlichkeitsraum, denn
X
s∈Ω
10
p(s) =
1
·
S+W
n
min{S,n}
X
s=max{0,n−W }
S
W
·
=1
s
n−s
1.2 Weitere Beispiele von Verteilungen
Beispiel 7. Lotterie
Wie groß ist die Wahrscheinlichkeit 4 richtige von 6 getippten Zahlen bei einer Lotterie 6 aus 49 zu erhalten?
Wir färben“ die 6 getippten Zahlen (Kugeln) schwarz, die anderen weiß. D.h. wir suchen die Wahrschein”
lichkeit 4 von den 6 schwarzen Kugeln zu ziehen bei einem Zug von insgesammt 6 Kugeln.
6 43
1
4
2 = 9, 682 · 10−4 ≈
P = Hyp6,6,43 (4) =
49
1000
6
Bernoulliverteilung: Wir spielen n-mal ein Glücksspiel, das mit Wahrscheinlichkeit p ∈ [0, 1] zum Erfolg führt (Bernoulliexperiment der Länge n). Um dies zu beschreiben wählen wir Ω = {0, 1}n . Ist x =
(x1 , . . . , xn ) ∈ {0, 1}n , so bedeutet xi = 1, dass das i-te Spiel ein Erfolg war, xi = 0 im i-ten Spiel einen
Misserfolg.
Dann ist die Wahrscheinlichkeit für den Ausgang x ∈ Ω:
p(x) =
n
Y
pxi (1 − p)1−xi =
i=1
Pn
=p
i=1
xi
· (1 − p)n−
Pn
i=1
xi
mit p falls xi = 1 und (1 − p) falls xi = 0. Dann gilt:
X
∈ Ωp(x) = 1
x
Beweis per Induktion
Binomialverteilung: Wir führen ein Bernoulliexperiment der Länge n durch.
Frage: Wahrscheinlichkeit dafür, genau k ∈ {0, . . . , n} Erfolge zu haben?
Pn
n
Betrachte: Ak = {x ∈ {0, 1}n :
i=1 xi = k} ⇒ |Ak | = k . Verteile k Einsen auf n Zellen ohne
Mehrfachbesetzen. Da p(x) = pk · (1 − p)n−k ∀x ∈ Ak ist, folgt
n
P (Ak ) = |Ak | · pk · (1 − p)n−k =
· pk · (1 − p)n−k =: Bin,p (k)
k
Bemerkung. ({0, . . . , n}, Bin,p ) ist ein diskreter Wahrscheinlichkeitsraum, da
n X
n
k=0
k
· pk · (1 − p)n−k = (x + y)n = (p + (1 − p))n = 1n = 1 =
|{z} | {z }
xk
y n−k
n
X
Bin,p (k)
k=0
Satz 1.4 (Binomischer Lehrsatz). Für alle n ∈ N, x, y ∈ R gilt:
n
(x + y) =
n X
n
k=0
k
· xk · y n−k
Beweis. Analysis 1
Folgerung 1.5.
Pn
n
n
i)
k=0 k = 2
Pn
k n
ii)
k=0 (−1) k = 0
Pn
n
n−1
iii)
k=0 k · k = n · 2
Beweis.
i) Wähle x = y = 1.
11
1 Diskrete Wahrscheinlichkeitsräume
ii) Wähle x = 1, y = −1.
iii) Differenziere (??) bezüglich x.
⇒ n(x + y)n−1 =
n X
n
k=0
k
· k · xk−1 · y n−k
Setze nun x = y = 1.
Bemerkung. Außerdem gilt für alle n, k ∈ N:
n
n−1
n−1
=
+
k
k
k−1
sofern nk := 0, falls k > n oder k < 0.
Multinomialkoeffizienten: nk beschreibt auf wieviele Arten genau k Elemente aus einer n-elementigen
Menge ausgewählt werden können.
Frage: Wieviele Möglichkeiten gibt es eine Menge M mit n Elementen in
Prr disjunkte Mengen M1 , . . . , Mr
aufzuteilen, wobei die Menge Mi genau ki Elemente haben soll und n = i=1 ki .
Antwort: Es gibt
n!
=:
k1 ! · . . . · kr !
n
k1 , k2 , . . . , kr
Mulitnomialkoeffizient
Beweis. Per Induktion über r ∈ N.
Induktionsanfang
: r = 1. Es gibt genau eine Möglichkeit, k1 = n Elemente für M1 aus M auszuwählen
und
n
n!
=
=1
n
n!
Induktionsvoraussetzung: Aussage ist für r richtig.
Induktionsschritt
: Wir wählen zuerst k1 Elemente für M1 aus der Menge M aus. Dafür gibt es kn1
Möglichkeiten. Betrachte nun M̃ = M \ M1 . Dann hat M̃ genau ñ = n − k1
ñ
Elemente und nach Induktionsvoraussetzung gibt es k2 ,...,k
Möglichkeiten M̃
r
auf M2 , . . . , Mr aufzuteilen.
⇒ Die Gesamtzahl der Möglichkeiten ist:
n
n − k1
n!
(n − k1 )!
n
=
·
=
k1
k2 , . . . , kr
k1 !(n − k1 )! k2 ! · . . . · kr !
k1 , . . . , kr
Bemerkung. Die Reihenfolge der Mengen spielt hierbei eine Rolle!
Beispiel 8. Wir wollen 26 Kinder auf 2 Mannschaften mit je 11 Spielern und 2 Tennisteams mit je 2 Spielern
aufteilen. Dann gibt es
26
26!
=
11, 11, 2, 2
11!11!2!2!
Möglichkeiten. Dabei werden die Mannschaften unterschieden und z.B. die Einteilungen A = {1, 2, . . . , 11}, B =
{12, . . . , 22}, C = {23, 24}, D = {25, 26} und A0 = A, B 0 = B, C 0 = D, D0 = C unterschieden.
12
2 Bedingte Wahrscheinlichkeit und
Unabhängigkeit
2.1 Bedinge Wahrscheinlichkeit
Häufig möchte man eine Wahrscheinlichkeit berechnen unter der Voraussetzung, dass ein bestimmtes Ereignis
schon eingetreten ist (bzw. eine bestimmte Information zur Verfügung steht).
Beispiel 1. Wir werfen dreimal einen fairen Würfel. Wie groß ist die Wahrscheinlichkeit, dass 3x eine 6
fällt, sofern schon in den ersten beiden Würfen jeweils eine 6 gefallen ist.
Der Wahrscheinlichkeitsraum sei Ω = {1, . . . , 6}3 mit Gleichverteilung. Da schon zweimal eine 6 gefallen ist,
sind die möglichen Elementarereignisse nur noch
B = {(6, 6, k) : k = 1, . . . , 6}
Da alle Elementarereignisse aus B gleich wahrscheinlich sind, ist
P (A|B) =
|A ∩ B|
P (A ∩ B)
=
P (B)
|B|
Insbesondere ist
P ({(6, 6, 6)}) =
(1)
|{(6, 6, 6)}|
1
=
|B|
6
und z.B.
P ({(x, y, z) : x + y + z ≤ 12}|B) =
|∅|
|A ∩ B|
=
=0
|B|
|B|
Bemerkung. Wesentlich für alle Herleitungen von (1) war die Annahme, dass Gleichverteilung vorliegt.
Im allgemeinen definieren wir:
Definition 2.1 (Bedingte Wahrscheinlichkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und A, B ⊆
Ω mit P (B) > 0. Dann definieren wir
P (A|B) :=
P (A ∩ B)
P (B)
als bedingte Wahrscheinlichkeit von A gegeben B.
Beispiel 2. Es sei pk (k ∈ N) die Wahrscheinlichkeit, dass man im k-ten Lebensjahr stirbt. Dann ist
sk = pk+1 + . . . + . . . die Wahrscheinlichkeit, dass man das Alter k erreicht (und später sterbe). Wenn man
nun für eine Person, die schon k Jahre alt geworden ist, die Wahrscheinlichkeit berechnen möchte, mit der
die Person im (k + 1)-ten Lebensjahr stirbt, so sollte man die bedingte Wahrscheinlichkeit berechnen:
pk+1
P (A ∩ B)
=
sk
P (B)
Lemma 2.2. Es sei (Ω, p) ein diskreiter Wahrscheinlichkeitsraum und B ⊆ Ω mit P (B) > 0.
a) Es sei pB (ω) = P ({ω}|B) ∀ω ∈ Ω. Dann ist (Ω, PB ) ein diskreter Wahrscheinlichkeitsraum und für
das zugehörige Wahrscheinlichkeitsmaß PB gilt:
PB (A) = P (A|B)
∀A ⊆ Ω
13
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
b) Formel von der totalen
Sn Wahrscheinlichkeit: Für alle A ⊆ Ω und alle paarweise disjunkten
B1 , . . . , Bn ⊆ Ω und B = i=1 Bi sowie P (Bi ) > 0 ∀i = 1, . . . , n gilt:
P (A ∩ B) =
n
X
P (Bi )P (A|Bi )
i=1
c) Formel S
von Bayes: Für alle A ⊆ Ω mit P (A) > 0 und alle paarweise disjunkten B1 , . . . , Bn ⊆ Ω
n
mit Ω = i=1 Bi und P (Bi ) > 0 ∀i = 1, . . . , n gilt:
P (Bi )P (A|Bi )
P (Bi |A) = Pn
j=1 P (Bj )P (A|Bj )
∀i = 1, . . . , n
wobei für den Nenner gilt:
n
X

P (Bj )P (A|Bj ) = P A ∩
j=1
n
[

Bj  = P (A ∩ Ω) = P (A)
j=1
Bemerkung. Die Aussagen in b) und c) gelten entsprechend für abzählbar viele, paarweise disjunkte
(Br )r∈N .
Beweis.
a) Es gilt:
X
ω∈Ω
S
X P ({ω} ∩ B)
P
=
pB (ω) =
P (B)
ω∈Ω {ω}
∩B
P (B)
ω∈Ω
=
P (Ω ∩ B)
=1
P (B)
Für PB (A) gilt:
PB (A) =
X
ω∈A
S
X P ({ω} ∩ B)
P
=
PB ({ω}) =
P (B)
ω∈A {ω}
∩B
P (B)
ω∈A
=
P (A ∩ B)
P (B)
⇒ PB (A) = P (A|B) ∀A ⊆ Ω
b) Nach Definition von P (A|Bi ) gilt:
n
X
P (Bi )P (A|Bi ) =
i=1
mit Distributivität:
n
X
P (A ∩ Bi ) = P
i=1
n
[
!
(Bi ∩ A)
A∩
n
[
c) Da
P (Bi |A) =
!
Bi
= P (A ∩ B)
i=1
i=1
(Bi ∩ A) = A ∩
i=1
wobei nach b)
=P
n
[
n
[
Bi
i=1
P (Bi ∩ A)
P (Bi )P (A|Bi )
=
P (A)
P (A)

P (A) = P A ∩
n
[
j=1

Bj  =
n
X
P (Bj )P (A|Bj )
j=1
Beispiel 3. Eine seltene Krankheit liegt bei ca. 0, 5% der Bevölkerung vor. Ein Test auf diese Krankheit
spricht auf 99% der Kranken positiv an, sowie bei 2% der Gesunden.
Frage: Mit welcher Wahrscheinlichkeit ist eine positiv getestete Person wirklich krank?
Sie Ω die Menge aller getesteten Personen, sowie B1 die Menge der Kranken und B2 die Menge der gesunden
Personen. Es sei A ⊆ Ω das Ereignis, dass der Test positiv auf eine Person anspricht.
14
2.2 Unabhängigkeit von Ereignissen
Gesucht: P (B1 |A)
Wir wissen:
P (B1 ) = 0, 005,
P (A|B1 ) = 0, 99
P (B2 ) = 0, 995,
P (A|B2 ) = 0, 02
Formel von Bayes:
P (B1 |A) =
P (B1 )P (A|B1 )
1
≈ = 20%
P (B1 )P (A|B1 ) + P (B2 )P (A|B2 )
5
Lemma 2.3 (Multiplikationsformel). Für alle n ∈ N und alle A1 , . . . , An ⊆ Ω mit P (A1 ∩ . . . ∩ An−1 ) > 0
gilt:
P (A1 ∩ . . . ∩ An ) = P (A1 ) · P (A2 |A1 ) · . . . · P (An |A1 ∩ . . . ∩ An−1 )
Beweis. Einsetzen in die Definition der bedingten Wahrscheinlichkeit.
Beispiel 4. Mit welcher Wahrscheinlichkeit besitzt bei einem Skatspiel jeder der 3 Spieler genau ein Ass
(ohne Skataufnahme!)?
Genauer: Wir verteilen 32 Karten mit 4 Assen zufällig auf 3 Spieler, sodass jeder Spieler genau 10 Karten
erhält und 2 übrig bleiben.
Es sei Ai das Ereignis: Der Spieler i hat genau ein Ass“. Dann folgt aus Lemma 2.3:
”
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) =
2 10
3 19
4 28
1
=
9
32
10
·
1
| {z }
9 ·
22
10
1
9
12
10
≈ 0, 0556
=Hyp10,4,28 (1)
2.2 Unabhängigkeit von Ereignissen
Intuitiv bedeutet Unabhängigkeit zweier Ereignisse A und B, dass das Eintreten von Ereignis A nicht das
Eintreten von Ereignis B beeinflussen soll und umgekehrt.
Formal: Falls P (B) > 0 muss gelten: P (A) = P (A|B) =
Falls P (A) > 0 muss gelten: P (B) = P (B|A) =
P (A∩B)
P (A)
P (A∩B)
P (B)
⇒ P (A) · P (B) = P (A ∩ B) in beiden Fällen.
Definition 2.4 (Unabhängigkeit). Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum.
a) A, B heißen unabhängig, falls P (A) · P (B) = P (A ∩ B).
b) Eine Familie (Ai )i∈I von Ereignissen (wobei I eine beliebige Indexmenge sei) heißt unabhängig, wenn
für alle endlichen J ⊆ I gilt:


[
Y
P
Aj  =
P (Aj )
(2)
j∈J
j∈J
Bemerkung.
1.) Es ist wesentlich, dass (2) für alle J ⊆ I endlich gilt, selbst wenn I endlich ist. Es reicht nicht aus (2)
für I = J zu zeigen, wenn I endlich ist.
15
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
Gegenbeispiel: Es sei Ω = {Z, K}3 und p(ω) =
1
8
∀ω ∈ Ω. Es sei:
A = mindestens zweimal Kopf“ =
”
= {(K, K, K), (K, K, Z), (Z, K, K), (K, Z, K)}
B = 1. Wurf ist Kopf“ =
”
= {(K, x, y) : x, y ∈ {Z, K}}
C = 2. und 3. Wurf sind gleich“ =
”
= {(K, K, K), (K, Z, Z), (Z, K, K), (Z, Z, Z)}
⇒ P (A) = P (B) = P (C) = 21 . Dann ist
P (A
B ∩ C}) =
| ∩ {z
={(K,K,K)}
1
= P (A) · P (B) · P (C)
8
aber
P (A) · P (B) =
1
3
6= = P (A ∩ B)
4
8
2.) Eine Familie (Ai )i∈I muss nicht unabhängig sein, sofern sie paarweise unabhängig sind, d.h.
P (Ai ∩ Aj ) = P (Ai ) · P (Aj )
Gegenbeispiel: Ω = {Z, K}2 , p(ω) =
1
4
∀i, j ∈ I, i 6= j
∀ω ∈ Ω.
A1 = {(K, K), (K, Z)} = 1. Wurf Kopf“
”
A2 = {(Z, K), (K, K)} = 2. Wurf Kopf“
”
A3 = {(K, K), (Z, Z)} = beide Würfe gleich“
”
Dann sind (A1 , A2 , A3 ) paarweise unabhängig
P (Ai ∩ Aj ) =
aber
P (A1 ∩ A2 ∩ A3 ) =
1
= P (Ai ) · P (Aj ) ∀i 6= j
4
1
1
6= = P (A1 ) · P (A2 ) · P (A3 )
4
8
⇒ (A1 , A2 , A3 ) sind nicht unabhängig.
3.) Unabhängigkeit ist keine Eigenschaft von mengen von Ereignissen, sondern von Tupeln von Ereignissen.
Dabei kommt es aber auf die Reihenfolge der Ereignisse nicht an.
Dies ist wichtig, falls ein Ereignis mehrfach in der Familie (Ai )i∈I auftritt.
Beispiel: (A, A) ist unabhängig genau dann, wenn
P (A) = P (A ∩ A) = P (A) · P (A)
⇒ P (A) = 0 oder P (A) = 1, also A = ∅ oder A = Ω.
Beispiel 5. Beim n-fachen Wurf eines fairen Würfels (also Ω = {1, . . . , 6}n mit Gleichverteilung) sind die
Ereignisse:
Ai = {ω ∈ Ω : ωi = 6} = i-ter Wurf ist 6“
”
mit i = 1, . . . , n unabhängig, denn
P (Ai1 ∩ . . . ∩ Aik ) =
1
= P (Ai1 ) · . . . · P (Aik )
| {z }
6k
= 16
für alle 1 ≤ i1 < . . . < ik ≤ n, k = 1, . . . , n
Ein nützliches Lemma ist:
16
2.2 Unabhängigkeit von Ereignissen
Lemma 2.5. Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum. Dann sind A1 , . . . , An ≤ Ω genau dann
unabhängig, wenn für alle k1 , . . . , kn ∈ {1, c} gilt:
!
n
n
\
Y
ki
P
Ai
=
(3)
P Aki i
i=1
i=1
wobei: A1i = Ai ist.
Beweis.
⇒“: Seien A1 , . . . , An unabhängig. Wir zeigen nun (3) für alle k1 , . . . , kn ∈ {1, c}. Da es auf die Reihenfolge
”
von A1 , . . . , An nicht ankommt, reicht es den Fall k1 = . . . = km = c, km+1 , . . . , kn für m = 0, . . . , n
zu betrachten. Dies beweisen wir per Induktion über m ∈ N bei beliebigen A1 , . . . , An und n ≥ m.
Für m = 0 ist k1 , . . . , kn = 1 und es folgt (3) aus (2).
Nun sei die Aussage für m ∈ N bewiesen. Dann gilt für den Fall m + 1
!
!
n
n
\
\
ki
ki
c
P
Ai
= P A1 ∩
Ai
=
i=1
i=2
n
\
=P
i=2
!
Aki i
−P
A1 ∩
i=2
|
| {z }
nur noch m
Komplemente
n
\
!
Aki i
{z
=
}
nur noch m
Komplemente
Induktionsvoraussetzung
 n
yY
n
Y
P Aki i − P (A1 ) ·
P Aki i =
=
i=2
= P (Ac1 ) ·
n
Y
i=2
P Aki i =
i=2
n
Y
i=1
P Aki i ⇒ (3)
⇐“: Es gelte (3) für alle k1 , . . . , kn ∈ {1, c}.
”
Behauptung: Es gilt


n
n
\
Y
P  Aki i  =
P Aki i
i=j
∀j = 1, . . . , n
(4)
i=j
Beweis per Induktion: Falls j = 1 folgt (4) aus (3). Falls (4) für j ≤ n − 1 bereits gilt, folgt für j + 1:

P
Ω=Aj ∪Acj
n
\
i=j+1


y
ki 
Ai
=P
z
Situation für j
Aj ∩
}|
n
\
i=j+1
{!
Aki i
+P
Acj
∩
n
\
i=j+1
!
Aki i
=
Induktionsvoraussetzung

n
n
y
Y
Y
ki
c
= P (Aj )
P Ai + P Aj
P Aki i =
i=j+1
=
n
Y
i=j+1
P Aki i
i=j+1
da P (Aj ) + P Acj = 1 ist.
⇒ Behauptung.
⇒ P (Aj ∩ . . . ∩ An ) =
Qn
i=j
P (Ai ) für j = 1, . . . , n für beliebige A1 , . . . , An , sodass (3) gilt.
Da die Reihenfolge keine Rolle spielt, folgt (2).
17
2 Bedingte Wahrscheinlichkeit und Unabhängigkeit
Folgerung 2.6. Seien A1 , . . . , An ⊆ Ω unabhängig.
a) Dann sind B1 , . . . , Bn unabhängig für alle Bi ∈ {Ai , Aci }, i = 1, . . . , n.
b) A1 ∩ A2 , A3 , . . . , An sind unabhängig.
c) A1 ∪ A2 , A3 , . . . , An sind unabhängig.
Beweis. 3. Übungsblatt
2.3 Produktexperiment
Der Begriff der Unabhängigkeit ist eng verknüpft mit Produkträumen von mehreren (diskreten) Wahrscheinlichkeitsräumen. Dazu seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume mit Wahrscheinlichkeitsmaßen P1 , . . . , Pn . Auf der Produktmenge
Ω = Ω1 × . . . × Ωn = {(ω1 , . . . , ωn ) : ωi ∈ Ωi , i = 1, . . . , n}
definieren wir p : Ω → [0, 1] durch
p(ω) = p1 (ω1 ) · . . . · pn (ωn ) =
und P (A) =
P
ω∈A
n
Y
pi (ωi )
∀ω ∈ Ω
i=1
p(ω) ∀A ⊆ Ω.
Lemma 2.7. Für alle A1 ⊆ Ω1 , . . . , An ⊆ Ωn gilt
P (A1 × . . . × An ) =
n
Y
Pi (Ai )
i=1
Beweis. Es ist
P (A1 × . . . × An ) =
X
p(ω) =
ωi ∈Ai
i=1,...,n
X
X
p1 (ω1 ) · . . . · pn (ωn )
{z
}
|
ω1 ∈Ω1 ωn ∈Ωn unabhängig
von ωn
=
=
...
!
n
Y
X
i=1
ωi ∈Ai
|
pi (ωi )
{z
Pi (Ai )
=
}
per Induktion
 n
yY
=
Pi (Ai ) ⇒ Behauptung
i=1
Folgerung 2.8. (Ω, p) ist ein diskreter Wahrscheinlichkeitsraum.
Beweis. Es ist
P (Ω) = P (Ω1 × . . . × Ωn ) =
n
Y
i=1
Pi (Ωi ) = 1
| {z }
=1
Bemerkung. (Ω, p) heißt Produktwahrscheinlichkeitsraum von Ω1 , . . . , Ωn .
18
=
(5)
2.3 Produktexperiment
Satz 2.9. Es seien (Ω1 , p1 ), . . . , (Ωn , pn ) diskrete Wahrscheinlichkeitsräume mit Wahrscheinlichkeitsmaßen
P1 , . . . , Pn und (Ω, p) der wie oben definierte Produktraum mit Wahrscheinlichkeitsmaß P .
Dann sind für alle A1 ⊆ Ω1 , . . . , An ⊆ Ωn die Ereignisse Ã1 , . . . , Ãn ⊆ Ω mit
Ãi = {ω ∈ Ω : ωi ∈ Ai } = im i-ten Experiment ist Ereignis Ai eingetreten“
”
unabhängig.
Beweis. Wir benutzen Lemma 2.5 und bemerken
Ãci = {ω ∈ Ω : ωi ∈ Aci } =
= Ω1 × . . . × Ωi−1 × Aci × Ωi+1 × . . . × Ωn
2.7
=⇒ P (Ãi ) = Pi (Ai ) = P1 (Ω1 ) · . . . · Pi−1 (Ωi−1 ) · Pi (Ai ) · Pi+1 (Ωi+1 ) · . . . · Pn (Ωn )
P (Ãci ) = Pi (Aci )
Daraus folgt für alle k1 , . . . , kn ∈ {1, c}:
n
\
P
i=1
!
Ãki i
= P Ak11 + . . . + Aknn =
2.7
=
n
Y
P Ãki i
Pi Aki i =
i=1
i=1 | {z }
n
Y
k
P (Ãi i )
⇒ (Ã1 . . . , Ãn ) sind unabhängig nach Lemma 2.5.
Beispiel 6 (Bernoulli-Experiment). Sei (Ω = {0, 1}n , p) der Wahrscheinlichkeitsraum, der das BernoulliExperiment der Stufe n beschreibt. D.h.
p(x) = q i=1 xi · (1 − q)n− i=1 xi =
n
Y
=
q xi · (1 − q)1−xi
|
{z
}
8 i=1
>
<q
xi = 1 Erfolg
=
>
:(1 − q) xi = 0 Misserfolg
Pn
⇒ Ω = Ω1 × . . . × Ωn , p(x) =
Qn
i=1
Pn
pi (xi ), x ∈ Ω, wobei
Ωi = {0, 1}
und
(
q
pi (xi ) =
1−q
xi = 1
xi = 0
für alle i = 1, . . . , n.
D.h. (Ω, p) ist der Produktwahrscheinlichkeitsraum von (Ωi , pi ), die jeweils ein q-stufiges Bernoulli-Experiment
beschreiben.
Satz 2.9 ⇒ A1 , . . . , An mit Ai = {x ∈ {0, 1}n , xi = 1} sind unabhängig.
19
3 Zufallsgröße, Erwarungswert und Varianz
3.1 Zufallsgrößen, -variablen
Wir betrachten nun Größen, z.B. den Gewinn eines Spiels, die von zufälligen Ereignissen abhängen.
Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum.
Definition 3.1.
a) Jede Abbildung X : Ω → R heißt eine (reellwertige) Zufallsgröße oder Zufallsvariable.
b) Ist M eine beliebige Menge, so heißt jede Abbildung X : Ω → M eine M -wertige Zufallsgröße.
c) Ist M = Rn , so heißt X : Ω → Rn Zufallsvektor.
n
Beispiel
1. Die
P Anzahl der Erfolge bei einem Bernoulli-Experiment mit n Stufen (Ω = {0, 1} mit p(x) =
P
n− xi
xi
(1 − q)
) ist die Zufallsgröße X : Ω → R mit
q
X(x) =
n
X
xi
∀x ∈ Ω
i=1
Außerdem ist ∀i = 1, . . . , n Xi : Ω → R mit Xi (x) = xi eine Zufallsvariable.
Beispiel 2. Die Augensumme bei zwei Würfeln eines fairen Würfels ist die auf Ω = {1, . . . , 6}2 mit Gleichverteilung definierte Zufallsvariable X(i, j) = i + j ∀(i, j) ∈ Ω.
Es A ⊆ Ω die Indikatorfunktion
(
1
iA (ω) =
0
iA : Ω → R,
ω∈A
ω∈
/A
eine Zufallsvariable. Es gilt:
iA1 (x) · . . . · iAn (x) = iA1 ∩...∩An (x)
∀x ∈ Ω
Notation. Sei X eine Zufallsvariable und A ⊆ R, z ∈ R.
X(Ω) = {X(ω) : ω ∈ Ω} das Bild,
{x ∈ A} := X −1 (A) = {ω ∈ Ω : X(ω) ∈ A} das Urbild von A,
{X = z} := X −1 ({z}) = {ω ∈ Ω : X(ω) = z},
{X ≤ z} := X −1 ((−∞, z])
Statt P ({x ∈ A}) schreiben wir P (x ∈ A) und mit P (X ∈ A, Y ∈ B) meinen wir P ({X ∈ A} ∩ {Y ∈ B})
wobei Y : Ω → R, B ⊆ Ω.
Lemma 3.2 (Verteilung einer Zufallsgröße). Sei X eine beliebige M -werige Zufallsvariable und
pX (x) = P(X = x)
∀x ∈ X(Ω)
Dann ist (Ω(x), px ) ein diskreter Wahrscheinlichkeitsraum und das zugehörige Wahrscheinlichkeitsmaß
!
X
[
PX (A) =
P({X = x}) = P
{X = x} = P(X ∈ A)
∀A ⊆ X(Ω)
x∈A
heißt Verteilung von X.
20
x∈A
3.1 Zufallsgrößen, -variablen
Beweis. Es ist zu ziegen, dass (X(Ω), pX ) ein diskreter Wahrscheinlichkeitsraum ist.


X
X
[
pX (x) =
P({X = x}) = P 
{X = x} = 1
x∈X(Ω)
x∈X(Ω)
|
x∈X(Ω)
{z
=X −1 (X(Ω))=X
}
Bemerkung. Es gilt:
PX (A) = P(X −1 (A)) = (P ◦ X −1 )(A)
∀A ⊆ X(Ω)
wobei: X −1 : P(X(Ω)) → P(Ω) die Urbildabbildung ist.
Beispiel 3. Für die Summe X zweier Würfelwürfe aus Beispiel 2 gilt:
|X −1 (k)|
|{(x, y) ∈ {1, . . . , 6}2 : x + y = k}|
=
36
36
1
⇒ pX (2) = pX (12) =
36
2
pX (3) = pX (11) =
36
pX (k) =
bzw.: pX (k) = pX (14 − k) =
k−1
36 ,
k = 2, . . . , 7.
Anschaulich als Stabdiagramm:
pX (k)
P12
k=2
Pn
2
4
6
8
10
pX (k) = 1
12
Beispiel 4. Es sei S(x) = i=1 xi , x ∈ {0, 1}n die Summe der Erfolge von X im Bernoulli-Experiment der
Stufe n wie in Beispiel 1. Dann gilt:
(
)!
n
X
n
pX (k) = P({S = k}) = P
x ∈ {0, 1} :
xi = k
=
n k
=
q (1 − q)n−k = Bin,p (k)
k
i=1
die Binomialverteilung.
Bemerkung. Ist xy“ der Name der Verteilung, so heißt X : Ω → R, xy“-verteilt, wenn PX die xy“”
”
”
Verteilung ist, d.h. S in Beispiel 4 ist gerade binomialverteilt.
Definition. Seien X1 , . . . , Xn Zufallsvariablen bezüglich des selben Wahrscheinlichkeitsraums (Ω, p), so ist
X : Ω → Rn mit X(ω) = (X1 (ω), . . . , Xn (ω)) ∀ω ∈ Ω ein Zufallsvektor.
Die Verteilung PX von X wird gemeinsame Verteilung von X1 , . . . , Xn genannt.
Bemerkung. Insbesondere ist (X(Ω), pX ) ein diskreter Wahrscheinlichkeitsraum, wobei
X(Ω) = X1 (Ω) × . . . × Xn (Ω)
pX = PX ({ω})
∀ω ∈ X(Ω)
PX ist im Allgemeinen nicht die Produktwahrscheinlichkeit von ((X1 (Ω), pX1 ), . . . , (Xn (Ω), pXn ))!
21
3 Zufallsgröße, Erwarungswert und Varianz
Beispiel 5. Sei S wie in Beispiel 4 und
(
N (x) =
min{j ≥ 1 : xj = 1} falls S(x) ≥ 1
n+1
falls S(x) = 0
die Nummer des ersten Erfolges von x ∈ {0, 1}n . Dann kann die gemeinsame Verteilung von S, N beschrieben
werden durch p(k, h) = P(S = k, N = h) mit 0 ≤ k ≤ n und 1 ≤ h ≤ n + 1. Dann ist:
(
0
für 1 ≤ h ≤ n
(1 − q)n h = n + 1
n−h k
q (−q)n−k
p(k, h) =
k−1
p(0, h) =
wobei
n−h
k−1
die Anzahl der Möglichkeiten ist, k − 1 Erfolge auf Xh+1 , . . . , Xn aufzuteilen.
Bemerkung. Ist N (x) = h, so ist x1 = . . . = xn−1 = 0, xn = 1.
Beispiel 6. Für n = 3, q =
1
2
ist:
N
S
0
1
2
3
1
0
2
0
3
0
4
1
8
2
8
1
8
1
2
1
8
1
8
1
8
0
0
0
0
0
0
1
4
1
8
1
8
1
8
P (N = h)
1
8
3
8
3
8
1
8
P (S = k)
Es gilt:
P(N = h) =
n
X
P(S = k, N = h)
k=0
P(S = k) =
n+1
X
P(S = k, N = h)
h=0
Allgemein gilt: Ist PX die gemeinsame Verteilung von X1 , . . . , Xn , so gilt für die Verteilungsfunktion von
Xi , i = 1, . . . , n:
pXi (ωi ) =
X
ω1 ,...,ωi−1
ωi+1 ,...,ωn
pX (ω1 , . . . , ωn )
i-te Rand-, oder Marginalverteilung
wobei pXi (ωi ) = PXi ({ωi }) ist.
Bemerkung. Es ist pXi (ωi ) = P({x ∈ Ω : xi = ωi }).
3.2 Unabhängigkeit von Zufallsvariablen
Definition 3.3. Es sei (Xi )i∈I eine Familie von Zufallsvariablen Xi : Ω → R, wobei I eine beliebige
Indexmenge ist. Dann ist (Xi )i∈I unabhängig, wenn für jede Familie (Ai )i∈I , Ai ⊆ R, die Familie von
Ereignissen ({Xi ∈ Ai })i∈I unabhängig sind.
22
3.2 Unabhängigkeit von Zufallsvariablen
Im Folgenden sein X1 , . . . , Xn unabhängige Zufallsgrößen. Dann gilt für x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω):


n

\


P(X1 = x1 , . . . , Xn = xn ) = P  {Xi = xi } =
i=1 | {z }
unabhängig
Ai ={xi }
=
n
Y
i=1
P({Xi = xi })
|
{z
}
=
=pXi (xi )=PXi ({xi })
n
Y
pXi (xi )
∀X ∈ X1 (Ω) × . . . × Xn (Ω)
i=1
⇒ Die Verteilung von X = (X1 , . . . , Xn ) ist gerade die Verteilung des Produktraumes (X1 (Ω), pX1 ) × . . . ×
(Xn (Ω), pXn ). D.h. gemeinsame Verteilung = Produktverteilung von X1 , . . . , Xn .
Satz 3.4. Die folgenden Aussagen sind äquivalent:
a) Die Zufallsvariablen X1 , . . . , Xn sind unabhängig.
b) Für alle x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω) gilt:
pX (x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn ) =
n
Y
pXi (xi )
(1)
i=1
c) Für alle A1 ⊆ X1 (Ω), . . . , An ⊆ Xn (Ω) gilt:
P
n
\
!
{Xi ∈ Ai }
=
i=1
n
Y
P(Xi ∈ Ai )
(2)
i=1
Beweis.
a) ⇒ b) Siehe oben.
b) ⇒ a) (1) besagt, dass die Verteilung von X = (X1 , . . . , Xn ) die Verteilung des Produktraums von
(X1 (Ω), pX1 ), . . . , (Xn (Ω), pXn )
ist. Da {Xi ∈ Ai } = {ω ∈ X(Ω) : ωi ∈ Xi−1 (Ai )} ist, folgt aus Lemma 2.7, dass {X1 ∈
A1 }, . . . , {Xn ∈ An } unabhängig sind für alle A1 ⊆ X1 (Ω), . . . , An ⊆ Xn (Ω).
D.h. X1 , . . . , Xn sind unabhängig.
c) ⇒ b) trivial
b) ⇒ c) Lemma 2.7
Satz 3.5. Seien X1 , . . . , Xn unabhängige Zufallsvariablen und fi : R → R, i = 1, . . . , n beliebige Funktionen.
Dann sind die Zufallsvariablen Yi = fi ◦ Xi , i = 1, . . . , n ebenfalls unabhängig.
Beweis. Es seinen yi ∈ fi (Xi (Ω)) = Yi (Ω), i = 1, . . . , n und
Ai = {xi ∈ Xi (Ω) : fi (xi ) = yi } = fi−1 (yi )
⇒ {ω ∈ Ω : Yi (ω = yi } = {ω ∈ Ω : Xi (ω) ∈ Ai }
(2)
⇒ P(Y1 = y1 , . . . , Yn = yn ) = P(X1 ∈ A1 , . . . , Xn ∈ An ) =
(2)
= P(X1 ∈ A1 ) · . . . · P(Xn ∈ An )
|
{z
}
|
{z
}
P(Y1 =y1 )
P(Yn =yn )
3.4
=⇒ Y1 , . . . , Yn sind unahängig.
23
3 Zufallsgröße, Erwarungswert und Varianz
3.3 Erwartungswert und Varianz
Definition 3.6 (Erwartungswert). Eine Zufallsgröße X : Ω → R besitzt einen Erwartungswert, wenn die
Reihe
X
p(ω) · |X(ω)|
ω∈Ω
1
1
konvergiert. Kurz: X ∈ L (Ω, P) oder X ∈ L . In diesem Fall definieren wir den Erwartungswert von X als
E(X) =
X
p(ω) · X(ω)
(3)
ω∈Ω
Bemerkung.
P
a) Ist X ≥ 0 und divergiert
ω∈Ω
p(ω)X(ω), so setzen wir E(x) = +∞.
b) Ist Ω endlich, so hat jede Zufallsvariable X : Ω → R einen Erwartungswert.
Lemma 3.7 (Eigenschaften).
a) X ∈ L1 (Ω, P) genau dann, wenn
X
|x| · P(X = x)
x∈X(Ω)
konvergiert. In diesem Fall ist
E(x) =
X
x · P(X = x)
(4)
x∈X(ω)
b) X, Y ∈ L1 mit X(ω) ≤ Y (ω) ∀ω ∈ Ω ⇒ E(X) ≤ E(Y )
c) X, Y ∈ L1 , c ∈ R, so ist X + cY ∈ L1 und es gilt:
E(X + cY ) = E(X) + c · E(Y )
d) Falls X, Y ∈ L1 unabhängig sind, so ist auch X · Y ∈ L1 und es gilt:
E(XY ) = E(X) · E(Y )
Beweis.
a) Es gilt:
X
|x| · P(X = x) =
x∈X(Ω)
X
x∈X(Ω)
=
=
X
|x| ·
X
X
x∈X(Ω)
ω∈Ω
X(ω)=x
X
p(ω) =
ω∈Ω
X(ω)=x
|X(ω)|p(ω) =
p(ω · |X(ω)|
ω∈Ω
⇒ X ∈ L1 ⇔
P
x∈X(Ω)
|x| · P(X = x) konvergiert. Gleiche Rechnung ohne |.| zeigt Gleichung (4).
b) Folgt direkt aus (3)
c) Folgt direkt aus (3) und den Rechenregeln für kovergente Reihen.
24
3.3 Erwartungswert und Varianz
d) Es gilt:
X
X
|z| · P(XY = z) =
z∈XY (Ω)
X
|z| · P(XY = z, X = x) =
z∈XY (Ω) x∈X(Ω)
=
X X
|z| · P(XY = z, X = x) =
z6=0 x∈X(Ω)
X
=
x,z6=0
x∈X(Ω)
z∈XY (Ω)
X
=
x∈X(Ω)
y∈Y (Ω)

=
z y=: xz
=
|z| · P X = x, Y =
x
|xy| · P(X = x, Y = y) =
|
{z
}
X
=P(X=x)P(Y =y)
da unabhängig
 
|x| · P(X = x) · 
x∈X(Ω)
X

|y| · P(Y = y)
y∈Y (Ω)
⇒ XY ∈ L1 . E(XY ) = E(X)E(Y ) folgt aus gleicher Rechnung ohne |.|.
Bemerkung. Es ist X ∈ L1 genau dann, wenn E(|x|) < ∞.
Beispiel 7. Erwartungswert der Binomialverteilung: Es sei Ω = {0, 1}n mit p(ω) = q
mit q ∈ [0, 1], ω ∈ Ω (Bernoulli-Experiment der Stufe n) und
S(ω) =
n
X
ωi
P
ωi
· (1 − q)n−
P
ωi
∀ω ∈ Ω
i=1
Beispiel 4: ⇒ P(S = k) = Bin,q (k) =
n
k
q k (1 − q)n−k ∀k = 0, . . . , n.
Andererseits: S = X1 + . . . + Xn wobei Xi (ω) = ωi ∀ω ∈ Ω = {0, 1}n und P(Xi = 1) = q, P(Xi = 0)1 − q.
⇒ E(Xi ) = 1 · P(Xi = 1) + 0 · P(Xi = 0) = q
3.7
=⇒ E(S) = E(X1 ) + . . . + E(Xn ) = nq
Wir betrachten die geometrische Verteilung auf N, d.h. wir betrachten Ω = N und p(k) = (1 − q)k−1 · q
Wahrscheinlichkeit für Erfolg beim k-ten Spiel, sonst Misserfolge. q ∈ (0, 1] Erfolgswahrscheinlichkeit des
Spiels.
Nun sei X eine geometrisch verteilte Zufallsvariable. Um E(X) zu berechnen, benuzten wir:
∞
f (x) :=
X
1
=
xk
1−x
k=0
f 0 (x) =
3.7
E(X) =
∀|x| < 1
∞
X
1
=
kxk−1
(1 − x)2
∞
X
k=1
k=0
k · P(X = k) = q ·
| {z }
q(1−q)k−1
∀|x| < 1
∞
X
k · (1 − q)k−1 =
k=1
q
q
1
= 2 =
2
(1 − (1 − q))
q
q
Beispiel 8. Erwartungswert der Poissonverteilung: Es sei X eine zum Parameter α > 0 Poisson-vertilte
Zufallsvariable, d.h.
P(X = k) =
αk −α
e
k!
∀k ∈ N0
Wahrscheinlichkeitsfunktion der Poissonverteilung. Man kann die Poissonverteilung als Grenzwert der Binomialverteilung erhalten. Es gilt:
P ◦ α(k) = lim Bin,p (k)
n→∞
falls npn → α > 0
25
3 Zufallsgröße, Erwarungswert und Varianz
Dann ist:
E(X) =
∞
X
k · P(X = k) = e−α ·
k=0
∞
X
k · αk
k!
k=1
= αe−α
∞
X
k=0
αk
= αe−α eα = α
(k − 1)!
Lemma 3.8. Der Erwartungswert einer N0 -wertigen Zufallsvariable ist gegeben durch
E(X) =
∞
X
P(X > k)
k=0
Beweis. Übung.
Zur Behandlung von Erwartungswerten von zusammengesetzten Zufallsvariablen ist das folgende Lemma
nützlich.
Lemma 3.9. Es seien X1 , . . . , Xn Zufallsvariablen und g : X1 (Ω) × . . . × Xn (Ω) → R. Dann gibt es den
Erwartungswert von Y (ω) = g(X1 (ω), . . . , Xn (ω) ∀ω ∈ Ω genau dann, wenn:
X
...
x1 ∈X1 (Ω)
X
g(x1 , . . . , xn ) · P(X1 = x1 , . . . , Xn = xn )
xn ∈Xn (Ω)
absolut konvergiert und der Wert dieser Reihe ist dann E(Y ).
Beweis. Es sei Ω0 = X1 (Ω) × . . . × Xn (Ω) und
p0 (x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn )
∀x1 , . . . , xn ∈ Ω0
(5)
Dann ist (Ω0 , p0 ) ein diskreter Wahrscheinlichkeitsraum und g : Ω0 → R eine Zufallsvariable auf (Ω0 , p0 ).
Außerdem ist die Verteilung von g auf (Ω0 , p0 ) identisch mit der Verteilung Y , denn:
X
P(g ∈ A) =
(x1 ,...,xn
p0 (x1 , . . . , xn ) =
X
(5)
=
bzgl. (Ω0 , p0 )
)∈g −1 (A)
P(X1 = x1 , . . . , Xn = xn ) =
{z
}
|
(x1 ,...,xn )∈g −1 (A)
P({ω:X1 =x1 ,...,Xn =xn })
= P {ω : g(X1 (ω), . . . , Xn (ω)) ∈ A} = P(Y ∈ A)
|
{z
}
da disjunkt
=Y (ω)
Nun folgt aus 3.7, dass E(Y ) exisitiert, genau dann, wenn
E(|Y |) =
X
x∈Y (Ω)
=
X
mit x ∈ Y (Ω) = g −1 (Ω0 )
|x| · P(Y = x) =
| {z }
=P(|g|=x)
3.7
|x| · P(|g| = x) = E(|g|) < ∞
x∈g −1 (Ω0 )
E(|g|) < ∞ ⇔
X
g(x1 , . . . , xn ) · p(x1 , . . . , xn ) absolut konvergiert
|
{z
}
0
(x1 ,...,xn )∈Ω
P(X1 =x1 ,...,Xn =xn )
E(|Y |) < ∞ ⇔ E(|g|) < ∞
Falls dies der Fall ist, zeigt obige Rechnung ohne |.|:
E(Y ) = E(g) = (6)
26
(6)
3.4 Varianz
3.4 Varianz
Der Erwartungswert sagt nocht nicht viel über eine Zufallsvariable aus. Insbesondere kann |X(ω0 ) − E(X)|
für ω0 ∈ Ω beliebig groß sein. Eine Größe, die diese Abweichung kontrolliert, ist die Varianz.
Definition 3.10 (Varianz). Es sei X ∈ L1 . Die Varianz von X ist
V(X) =
X
(x − E(X))2 · P(X = x) ∈ [0, ∞]
x∈X(Ω)
Wir sagen die Varianz von X existiert, falls V(X) < ∞. In diesem Fall ist S(X) =
abweichung von X.
p
V(X) die Standart-
Bemerkung. Aus Lemma 3.7a) folgt, dass
V(X) = E (X − E(X))2
Beispiel 9. Varianz der Gleichverteilung: Es sei X(Ω) = {x1 , . . . , xn } mit P(X = xj ) =
Dann ist
1
n,
j = 1, . . . , n.
n
1X
xj
E(X) =
n j=1
(arithmetisches Mittel)
n
V(X) =
1X
(xj − E(X))2
n j=1
mittlere quadratische Abweichung vom Mittelwert
Beispiel 10. Varianz der Bernoulliverteilung: Für eine bernoulliverteilte Zufallsvariable X gilt:
P(X = 1) = q,
P(X = 0) = 1 − q
mit q ∈ [0, 1]
⇒ E(X) = q
V(X) = (0 − q)2 P(X = 0) + (1 − q)2 P(X = 1) = q 2 (1 − q) + (1 − q)2 q = q(1 − q)
Lemma 3.11 (Eigenschaften). Es seien X, Y ∈ L1 .
a) Die Varianz von X existiert genau dann, wenn E(X 2 ) < ∞, kurz X ∈ L2 . In diesem Fall gilt:
V(X) = E(X 2 ) − E(X)2
b) Es seinen a, b ∈ R. Existiert die Varianz von X, so existiert die Varianz von aX + b und es gilt:
V(aX + b) = a2 V(X)
c) Sind X, Y unabhängige Zufallsvariablen und X, Y ∈ L2 , dann existiert auch die Varianz des Summe
X + Y und es gilt:
V(X + y) = V(X) + V(Y )
d) Falls V(X) existiert und V(X) = 0 ist, so gibt es ein x ∈ R mit P(X = x) = 1
Beweis.
a) Es gilt:
(x − E(X))2 P(X = x) = x2 P(X = x) − 2xE(X)P(X = x) + E(X)2 P(X = x)
Da X ∈ L1 , konvergiert
X
2xE(X)P(X = x)
x∈X(Ω)
27
3 Zufallsgröße, Erwarungswert und Varianz
absolut. Außerdem gilt
X
E(X)2 P(X = x) = E(X)2 · P(Ω) = E(X)2
x∈X(Ω)
⇒ V(X) < ∞± ⇔ E(X 2 ) < ∞
Damit ist:
V(X) =
X
x2 P(X = x) − 2E(X)
x∈X(Ω)
X
xP(X = x) + E(X)2 P(Ω) =
x∈X(Ω)
2
2
2
= E(X ) − 2E(X) + E(X) = E(X 2 ) − E(X)2
b) Aus a)) folgt:
V(aX + b) = E((aX + b)2 ) − E(aX + b)2 =
= a2 E(X 2 ) + b2 + 2abE(X) − a2 E(X)2 + b2 + 2abE(X) =
= a2 E(X 2 ) + E(X)2 = a2 V(X)
c) Wegen (X(ω) + Y (ω))2 ≤ 4 (X(ω))2 + (Y (ω))2 ist E((X + Y )2 ) < ∞ ⇒ V(X + Y ) existiert. Dies
gilt auch für abhängige Zufallsgrößen.
Aus a)) folgt:
V(X + Y ) = E((X + Y )2 ) − E((X + Y ))2 =
= E(X 2 ) + E(Y 2 ) + E(2XY ) − E(X)2 − 2E(X)E(Y ) − E(Y )2 =
= E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2E(XY ) − 2E(X)E(Y ) = V(X) + V(Y )
{z
}
|
=0, Lemma 3.7
d) Aus V(X) = 0 folgt, für jedes x ∈ Ω: x = E(X) oder P(X = x) = 0. ⇒ P(X = E(X)) = 1.
Lemma 3.12 (Minimale quadratische Abweichung). Für alle X ∈ L2 gilt
E (X − a)2 ≥ V(X)
∀a ∈ R
mit Gleichheit genau dann, wenn a = E(X).
Beweis. Mit Hilfe der Linearität von E(X) errechnet man mit E(X − E(X)) = E(X) − E(X) = 0:
E((X − a)2 ) = E (X − E(X) + E(X) − a)2 =
= E (X − E(X))2 + E (E(X) − a)2 + 0
⇒ E((X − a)2 ) = E((X − E(X))2 ) + (E(X) − a)2 ≥ E((X − E(X))2 ) = V(X)
Außerdem gilt: =“ genau dann, wenn (E(X) − a)2 = 0 genau dann, wenn a = E(X).
”
3.5 Kovarianz
Definition 3.13. Es seinen X, Y ∈ L2 . Dann ist die Kovarianz von X und Y die Zahl
Cov(X, Y ) = E(XY ) − E(X)E(Y )
Wir nennen X, Y unkorreliert, falls Cov(X, Y ) = 0.
28
3.5 Kovarianz
Bemerkung. Die Kovarianz ist wohldefiniert, denn
2 |X(ω) + Y (ω)| ≤ X(ω)2 + Y (ω)2
⇔ 0 ≤ X 2 − 2XY + Y 2 = (X − Y )2
⇒ E(XY ) existieren
Lemma 3.14 (Eigenschaften).
a) Für alle X, Y ∈ L2 gilt:
Cov(X, Y ) = E (X − E(X))(Y − E(Y ))
Cov(X, X) = V(X)
Cov(X, Y ) = Cov(Y, X)
Cov(aX + c, bY + d) = ab Cov(X, Y )
∀a, b, c, d ∈ R
b) Für alle X1 , . . . , Xn ∈ L2 gilt:
V
n
X
!
Xi
=
i=1
n
X
V(Xi ) +
i=1
n
X
Cov(Xi , Xj )
i,j=1
i6=j
c) Sind X, Y ∈ L2 unabhängig, so gilt Cov(X, Y ) = 0.
Beweis. 4. Übungsblatt.
Folgerung 3.15 (Satz von Bienaymé). Sind X1 , . . . , Xn ∈ L2 paarweise unkorreliert (d.h. Cov(Xi , Xj ) =
0 ∀i 6= j), dann gilt:
V(X1 + . . . + Xn ) = V(X1 ) + . . . + V(Xn )
Beispiel 11 (Varianz der Binomialverteilung). Wie in Beispiel 7.) sei S = X1 + . . . + Xn wobei X1 , . . . , Xn
unabhängige Bernoulliverteilte Zufallsvariablen zum Parameter q ∈ [0, 1] sind.
Beispiel 10.): ⇒ C(Xi ) = q(1 − q) ∀i = 1, . . . , n
3.14 ⇒ X1 , . . . , Xn paarweise unkorreliert. Satz von Bienaymé 3.15:
V(S) = V(X1 ) + . . . V(Xn ) = n · q(1 − q)
Erinnerung: P(S = k) = Bin,q (k) = nk q k (1 − q)n−k ∀k = 0, . . . , n
Die folgende Minimalitätseigenschaft ist nützlich, wenn eine komplizierte Zufallsvariable durch aX + b approximiert werden soll.
Lemma 3.16 (Beste lineare Vorhersage). Es seien X, Y ∈ L2 mit V(X) = 1. Dann wird die quadratische
Abweichung
E (Y − a − bX)2
a, b ∈ R
zwischen Y und a + bX minimiert genau dann, wenn:
b = Cov(X, Y ),
a = E(Y − bX)
Bemerkung. Falls X und Y unkorreliert sind, so hängt die Lösung b = 0 und E(Y ) = a nicht von X ab.
Beweis. 4. Übungsblatt
Eine der wichtigsten Ungleichungen:
29
3 Zufallsgröße, Erwarungswert und Varianz
Satz 3.17 (Cauchy-Schwarz-Ungleichung). Für alle X, Y ∈ L2 gilt:
p
p
|E(XY )| ≤ E(X 2 ) · E(Y 2 )
(7)
Es gilt Gleichheit genau dann, wenn P(aX + bY = 0) = 1, genau dann, wenn aX(ω) + bY (ω) = 0 ∀ω mit
p(ω) > 0 nur für E(XY ) 6= 0!
Beweis. Sei α = E(Y 2 ) und β = E(XY ).
1. Fall: α = 0: Dann ist P(Y = 0) = 1 ⇒ E(XY ) = 0
2. Fall: α > 0: Es gilt:
0 ≤ E (αX − βY )2 = α2 E(X 2 ) − 2αβE(XY ) + β 2 E(Y 2 ) =
= αE(X 2 )E(Y 2 ) − 2αE(XY )2 + E(XY )2 · α =
= α E(X 2 )E(Y 2 ) − E(XY )2
⇒ E(X 2 )E(Y 2 ) ≥ E(XY )2 ⇒ (7)
Die Abschätzung zeigt, dass Gleichheit gilt genau dann, wenn
0 = E (αX − βY )2
⇒ αX(ω) − βY (ω) = 0 ∀ω ∈ Ω mit p(ω) > 0
⇒ P(αX − βY = 0) = 1
Bemerkung. Aus (7) folgt:
| Cov(X, Y )| = E (X − E(X))(y − E(Y )) ≤
q
q
≤ E (X − E(X))2 · E (Y − E(Y ))2 =
(8)
= S(X)S(Y )
⇒ −1 ≤
Cov(X, Y )
≤1
S(X)S(Y )
(9)
Bemerkung.
1.) Es gelte Gleichheit in einer der Ungleichungen in (9). Dann gilt Gleichheit in (8) und es folgt aus 3.17,
dass es a, b ∈ R gibt mit P(a(X − E(X)) + b(Y − E(Y )) = 0) = 1.
⇒ aX(ω) + bY (ω) + c = 0 ∀ω ∈ Ω : p(ω) > 0, wobei c = −aE(X) − bE(Y ) ist.
D.h. die Werte von (X(ω, Y (ω)) liegen für alle ω ∈ Ω mit p(ω) > 0 auf einer Geraden.
2.) Grob gesagt bedeutet Cov(X, Y ) > 0, dass eine Tendenz vorliegt, nach der das Ereignis {X > E(X)}
öfter mit dem Ereignis {Y > E(Y )} oder das Ereignis {X < E(X)} mit dem Ereignis {Y < E(Y )}
zusammentrifft, als {X ≥ E(X)} auf {Y < E(Y )} bzw. {X ≤ E(X)} auf {Y > E(Y )}.
3.) Ist Cov(X, Y ) = 0, so müssen X, Y nicht unabhängig sein!
Bsp.: Ω = {1, 2, 3, 4}, p(1) = p(2) = 52 , p(3) = p(4) =
1
10
X(1) = 1, Y (1) = −1
X(2) = −1, Y (2) = 1,
X(3) = Y (3) = 2
X(4) = Y (4) = −2
⇒ E(X) = E(Y ) = 0
Cov(X, Y ) = E(XY ) = 1 ·
P(X = 1, Y = 1) =
30
2
2
1
1
−1· +4·
+4·
=0
5
5
10
10
2
4
6=
= P(X = 1) · P(Y = −1)
5
25
3.6 Das schwache Gesetz der großen Zahlen
3.6 Das schwache Gesetz der großen Zahlen
Das schwache Gesetz der großen Zahlen liefert eine Aussage über Abweichungen von einer Summe von
Zufallsvariablen n1 (X1 , . . . , Xn ) von dem Erwartungswert.
Satz 3.18 (Tschebyschewsche Ungleichung). Es sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X
eine (reellwertige) Zufallsvariable mit endlicher Varianz. Dann gilt für alle ε 0
P (|X − E(X)| ≥ ε) ≤
Beweis. Es sei Z = X − E(X). Wir setzen
(
Y (ω) =
0
ε2
V(X)
ε2
falls |Z9ω)|, ε
falls |Z(ω)| ≥ ε
Dann gilt Y ≤ |Z 2 | und somit
V(X) = E(|Z 2 |) ≥ E(Y ) = ε2 · P(Y = ε2 ) = ε2 P (|X − E(X)| ≥ ε)
|{z}
Monotonie
von E
Bemerkung (Markovsche Ungleichung). ist Φ : [0, ∞) → [0, ∞) monoton wachsend und Φ(ε) > 0, so gilt
für jede Zufallsvariable Z:
E(Φ(Z))
P (|Z| ≥ ε) ≤
Φ(ε)
Der Beweis ist der Gleiche wie oben: Man setze
(
0
|Z(ω)| < ε
Y (ω) =
Φ(ε) |Z(ω) ≥ ε
Satz 3.19 (Schwaches Gesetz der großen Zahlen für unabhängige Zufallsvariablen mit beschränkter Varianz).
Es seien X1 , . . . , Xn paarweise unkorrelierte Zufallsvariablen mit gleichem Erwartungswert und V(Xi ) ≤
M < ∞ für alle i = 1, . . . , n. Dann gilt für alle ε > 0:
1
M n→∞
P (X1 + . . . + Xn ) − E(X1 ) ≥ ε ≤ 2 −−−−→ 0
n
ε n
Bemerkung. Ist (Yn )n∈N eine Folge von Zufallsvariablen, so sagt man (Yn )n∈N konvergiert in Wahrscheinlichkeit, bzw. konvergiert stochastisch gegen Zufallsvariable Y , falls
lim P(|Yn − Y | ≥ ε) = 0
für alle ε > 0
n→∞
In diesem Fall schreibt man auch
Yn −−−−→ Y
P
n→∞
Satz 3.19 besagt gerade, dass
1
n Sn
:=
1
n (X1
+ . . . + Xn ) −−−−→ 0.
P
n→∞
Beweis. Aufgrund der Linearität des Erwartungswertes ist:
1
1
E
(X1 + . . . + Xn ) =
E(X1 ) + . . . + E(Xn ) = E(X1 )
n
n
Aufgrund der paarweisen Unkorreliertheit, 3.11b) und 3.15 (Satz von Bienaymé) ist:


1
1
1 
1
M

V
Sn = 2 V(X1 + . . . + Xn ) = 2 V(X1 ) + . . . + V(Xn ) ≤ 2 · n · M =
| {z }
n
n
n | {z }
n
n
1
V( n1 Sn )
M
3.18
=⇒ P Sn − E(X1 ) ≥ ε ≤
≤ 2
2
n
ε
nε
≤M
≤M
31
3 Zufallsgröße, Erwarungswert und Varianz
Beispiel 12. Sind X1 , . . . , Xn unabhängige bernoulliverteilte Zufallsvariablen zum Parameter p ∈ [0, 1], d.h.
P(Xj = 1) = p,
So ist E(Xj ) = p, V(Xj ) = p(1 − p) ≤
Dann erhält man:
1
4
P(Xj = 0) = 1 − p
∀j = 1, . . . , n siehe Beispiel 10.)
1
p(1 − p)
1
P (X1 + . . . + Xn ) − p ≥ ε ≤
≤
2
n
nε
4nε2
Mit großer Wahrscheinlichkeit ist der Mittelwert
Bsp.: p =
1
6
1
n Sn
nahe der Erfolgswahrscheinlichkeit p.
1
6
= P( Wrürfelwurf ist 6“) ⇒ p = aller Würfelwürfe ist die 6“ für große n.
”
”
Beispiel 13 (Ein vorteilhaftes Spiel, das man auf Dauer verliert). Ein Spiel, bei dem in jeder Runde der
Erwartungswert des Gewinns gleich dem Erwartungswert des Verlustes ist, heißt fair. Eines, bei dem der
erwartete Gewinn größer als der erwartete Verlust ist, heißt vorteilhaft.
Das folgende Spiel heißt vorteilhaft: Man beginnt mit Startkapital X0 = 1. In jeder Runde wird eine faire
Münze geworfen und
(
1
Xn−1 falls n-ter Wurf Kopf“
”
Xn = 25
falls n-ter Wurf Zahl“
3 Xn−1
”
Dann ist der erwartete Gewinn 21 · 23 ·Xn−1 größer als der erwartete Verlust 12 · 21 ·Xn−1 , da 13 > 41 . Andererseits
(
1
falls n-ter Wurf Kopf“
”
Yn = 25
falls n-ter Wurf Zahl“
3
”
Dann ist Xn = Y1 · . . . · Yn und die Y1 , . . . , Yn sind unabhängig. Aus
2
1
13
15
E(Yi ) =
=
>1
folgt
+
2
23
12
n
n
Y
13
n→∞
⇒ E(Xn ) =
E(Yi ) =
−−−−→ ∞
12
i=1
Wir betrachten nun µ = E(log Yi ). Dann ist
1
5
1
1
1
µ = log + log
· < log + log 2 · = 0
2
3
2
2
2
µ
Wir wählen ε = |µ|
2 = − 2 und wenden das schwache Gesetz der großen Zahlen an:
1
1
n→∞
P (log Y1 + . . . + log Yn ) − µ < ε = 1 − P (log Y1 + . . . + log Yn ) − µ ≥ ε −−−−→ 1 + 0 = 1
2
n
Da log Xn = log Y1 + . . . + log Yn folgt:
P
log Xn
µ
−µ≤−
n
2
⇒ Mit Wahrscheinlichkeit nahe bei 1 ist also
Xn ≤ exp
nµ 2
n→∞
−−−−→ 1
n→∞
−−−−−→ 0
da µ<0
D.h. mit großer Wahrscheinlichkeit strebt das Kapital exponentiell schnell gegen 0.
Bemerkung.
1.) Für das Spiel ist wichtig, dass
5
3
< 2.
2.) Die Existenz von einer Folge von Zufallsvariablen (Yn )n∈N , sodass Y1 , . . . , Yn ∀n ∈ N unabhängig sind
und Yn bernoulliverteilt mit p = 21 sind, ist im Rahmen der diskreten Wahrscheinlichkeitsräume nicht
gesichert! Dafür werden allgemeine Wahrscheinlichkeitsräume benötigt. Allerdings kann man mit Hilfe
(n)
(n)
von endlichen Produkträumen zeigen, dass es ∀n ∈ N unabhängige Zufallsvariablen Y1 , . . . , YN gibt,
1
die bernoulliverteilt mit p = 2 sind (vgl. Ergänzungen).
(n)
(n)
Für Y1 , . . . , YN
32
gelten dann alle oben gemachten Aussagen.
4 Approximation der Binomialverteilung
4.1 Normalverteilungsapproximation von Bin,p
Es seien X1 , . . . , Xn unabhängige bernoulliverteilte Zufallsvariablen zum Parameter p ∈ (0, 1). P(Xi = 1) =
p, P(Xi = 0) = 1 − p. Dann ist S1 = X1 + . . . + Xn binomialverteilt zu den Parametern n, p
n k
P(Sn = k) = Bin,p (k) =
p (1 − p)n−k
k
Erinnerung.
E(Sn ) = n · E(Xi ) = np
V(Sn ) = np (1 − p) = npq
| {z }
=:q
Frage: Wie stark weicht Sn von E(Sn ) = np ab?
Lemma 4.1 (Größenordnung der Fluktuation). Es sei (an )n∈N eine Folge positiver Zahlen. Dann gilt:
(
an
→∞
1 falls √
n
lim P |Sn − np| ≤ an =
a
n→∞
0 falls √nn → 0
Beweis.
1. Fall: Mit 3.18 (Tschebyschewsche Ungleichung), 3.19 (schwaches Gesetz der großen Zahlen) gilt:


√ 2
an 
M
Mn
n
n→∞
 1
= 2 =M·
−−−−→ 0
P  Sn − p ≥
 ≤ a 2
n
n
n
a
a
n
n
·n
|{z}
n
=ε
da
an
√
n
n→∞
−−−−→ ∞ ist. Also ist:
P (|Sn − np| ≤ an ) = 1 − P(|Sn − np| ≥ an ) =
1
an
M n n→∞
= 1 − P Sn − p ≥
≥ 1 − 2 −−−−→ 1
n
n
an
|
{z
}
n
≤M
a2
n
2. Fall: [3, Georgii], oder Satz 4.2.
Für eine genauere Untersuchung von P(|Sn − np| ≤ an ) ist es gut, an ≈
trivial). Genauere Asymptotik: Wir betrachten
Bin,p (k)
√
n zu wählen (sonst ist das Ergebnis
für |k − np| ≤ c ·
√
n
mit c > 0 beliebig, aber fest. Wichtiges Hilfsmittel: Stirling Formel.
Stirling Formel.
n! ∼
wobei an ∼ bn ⇔ limn→∞
an
bn
√
2πn ·
n n
e
(1)
= 1.
33
4 Approximation der Binomialverteilung
Beweis. Analysis I oder [1, Krengel]
Bemerkung. an ∼ bn , cn ∼ dn ⇒ an cn ∼ bn dn
Vorbereitung.
1.)
k
√
c
k n→∞
|k − np| ≤ c n ⇒ − p ≤ √ ⇒
−−−−→ p
n
n
n
n−k
k n→∞
⇒
= 1 − −−−−→ 1 − p =: q
n
n
⇒ n − k ∼ nq
2.)
wobei:
q
n
k(n−k)
∼
q
bzw. k ∼ np
√
2πn( ne )n
n
n!
p
=
∼√
=
n−k
k!(n − k)!
k
2πk( ke )k · 2π(n − k)( n−k
e )
r
n k n n−k
1
n
=√ ·
·
k(n − k)
k
n−k
2π
n
npnq
⇒ Bin,p (k) =
=
√1
npq
np k nq n−k
k
n k n−k
1
1
p q
∼√
=√
· e−nh( n )
k
n−k
2πnpq k
2πnpq
mit h(s) := s · ln p2 + (1 − 2) · ln 1−s
q . Nun gilt:
h(p) = 0
h0 (s) = ln
1−s
s
− ln
⇒ h0 (p) = 0
p
q
Bem.:
k
→ n → inf typ
n
1
1
1
=
h00 (s) = +
s 1−s
s(1 − s)
1
1
⇒ h00 (p) =
=
p(1 − p)
pq
Taylorreihenentwicklung um s = p:
(s − p)2
+ O((S − p)3 ) =
2
(s − p)2
=
+ O((s − p)3 )
2pq
h(s) = h00 (p)
Da | nk − p| ≤
√c
n
für n → ∞, folgt:
( k − p)2
3
k
h
= n
+ O(n− 2 )
n
2pq
Sei nun:
k − np
Xn (k) = √
npq
3
k
Xn (k)2
⇒ nh
=
+ nO(n− 2
n
2
Xn (k)2
1
1
· e− 2 =: ϕ(Xn (k)) · √
⇒ Bin,p (k) ∼ √
npq
2πnpq
34
für n → ∞
4.1 Normalverteilungsapproximation von Bin,p
mit ϕ(x) =
x2
−
2
e√
sπ
Dichte der Standartnormalverteilung.
Daraus erhalten wir:
Satz 4.2 (Lokaler Grenzwertsatz für die Binomialverteilung). Es sei 0 < p < 1 und q = 1 − p. Dann gilt für
alle c > 0:
√
npq · Bin,p (k)
(2)
lim max − 1 = 0
n→∞
k,
ϕ(Xn (k))
|Xn (k)|≤c
Bemerkung.
Skizze für ϕ(x) =
√
|k − np| ≤ c n ⇔ |Xn (k)| ≤ c0
2
x
√1 e− 2
2Π
:
Es gilt:
ϕ(−x) = ϕ(x)
∀x ∈ R
Mann kann zeigen:
Z
∞
−∞
ϕ(x) dx = 1
Weiterhin erhalten wir:
Satz 4.3 (Satz von Moivre-Laplace, Zentraler Grenzwertsatz für Bin,p ). Sei 0 < p < 1 und Sn , n ∈ N eine
Folge Bin,p verteilter Zufallsvariablen. Dann gilt für alle a, b ∈ R, a < b:
lim P a ≤ Sn∗ ≤ b =
n→∞
mit
Z
b
a
ϕ(x) dx
Sn − np
Sn∗ = p
np(1 − p)
normalisierte Form von Sn .
Bemerkung.
35
4 Approximation der Binomialverteilung
1.) Es ist
p
p
np(1 − p) = V(Sn ) und es gilt:
E(Sn∗ ) = 0
V(Sn∗ ) =
2.) Setzt man
Z
Φ(x) =
x
−∞
V(Sn )
=1
np(1 − p)
Z
ϕ(t) dt =
x
−∞
exp(− t2 )
√
dt
2π
2
die sog. Verteilungsfunktion der Standartnormalverteilung, so gilt:
lim P(a ≤ Sn∗ ≤ b) = |P hi(b) − Φ(a)
n→∞
x→−∞
x→∞
3.) Es gilt Φ(0) = 0, 5, Φ(x) −−−−−→ 0, Φ(x) −−−−→ 1. Insbesondere ist Φ(−x) = 1 − Φ(x) ∀x ∈ R, da
Z
Φ(−x) =
Beweis. Sei σn =
nun:
−x
−∞
Z
ϕ(t) dt =
p
np(1 − p) ⇒ xn (k) =
k−np
σn .
∞
−∞
Z
ϕ(t) dt −
x
−∞
ϕ(t) dt = 1 − Φ(x)
Nun gilt: a ≤ Sn∗ ≤ b ⇔ aσn + np ≤ Sn ≤ bσn + np. Sei
αn := daσn + npe,
βn := bbσn + npc
mit d. . .e aufgerundet, b. . .c abgerundet.
⇒ |αn − aσn − np| ≤ 1
1
⇒ |xn (αn ) − a| ≤
σn
Ähnlich: |xn (βn ) − b| ≤
1 − εn ≤
36
1
σn .
Mit (4.2) folgt:
σn · Bin,p (k)
≤ 1 + εn
ϕ(xn (k))
n→∞
∀k : αn ≤ k ≤ βn wobei εn −−−−→ 0
(3)
4.1 Normalverteilungsapproximation von Bin,p
Sei nun:
Rn =
βn
X
1
· ϕ(xn (k))
σn
k=αn
(3)·Rn
=⇒ (1 − εn )Rn ≤
βn
X
Bin,p (k) ≤ (1 + εn )Rn
k=αn
|
{z
}
=P(αn ≤Sn ≤βn )
∗
=P(a≤Sn
≤b)
⇒ lim P(a ≤ Sn∗ ≤ b) = lim Rn
n→∞
n→∞
Nun ist:
Z
lim Rn =
n→∞
b
a
ϕ(x) dx
da Rn ist Riemann-Summe bzgl. von intervallen mit Seitenlänge
k ≤ βn . Mit xn (k + 1) = xn (k) + σ1n .
1
σn
und Mittelpunkten xn (k), wobei αn ≤
Nachtrag zum Beweis. Wir haben gezeigt:
(1 − εn )Rn ≤ P(a ≤ Sn∗ ≤ b) ≤ (1 + εn )Rn
wobei
n→∞
εn −−−−→ 0
Rn =
βn
X
1
ϕ(xn (k))
σn
k=αn
Es gilt:
σn =
αn = daσn + npe,
βn = bbσn + npc
Z
b
a
Beweis. Zu zeigen:
p
k − np
,
xn (k) = p
np(1 − p)
R∞
−∞
Z
n→∞
ϕ(x) dx ←−−−− Rn ≈
xn (βn + 12 )
xn (αn − 21 )
n→∞
ϕ(x) dx −−−−→
np(s − p)
Z
a
b
ϕ(x) dx
ϕ(x) dx = 1
≤“:
”
Z
s∗n
1 ≥ lim P(a ≤
≤ b) =
n→∞
Z ∞
⇒1≥
ϕ(x) dx
a
b
ϕ(x) dx ∀a, b
−∞
≥“: Sei ε > 0. Lemma 4.1:
”
Wähle an = M ·
√
n.
an n→∞
⇒ lim P(|S − n − np| ≤ an ) + 1 falls √ −−−−→ ∞
n→∞
n
⇒ ∃M > 0, sodass
an
P(|Sn − np| ≤ an ) ≥ 1 − ε falls √ ≥ M
n
√
⇒ P(|Sn − np| ≤ M n) ≥ 1 − ε
{z
}«
|„
∗
=P − √ M
≤Sn
≤√ M
p(1−p)
p(1−p)
R M̃
R∞
= −M̃ ϕ(x) dx≤ −∞ ϕ(x) dx
Z
⇒ ε > 0 beliebig ⇒
∞
−∞
ϕ(x) dx ≥ 1
37
4 Approximation der Binomialverteilung
Beispiel 1. Frage: Wie groß ist näherungsweise die Wahrscheinlichkeit bei 600 Würfelwürfen (fairer Würfel)
mindestens 90 und maximal 100 mal eine 6 zu würfeln?
Es sei n = 600 und p = 61 .
⇒ E(Sn ) = np = 100
p
p
r
1 5
np(1 − p) = 600 . . . · ≈ 9, 13
6 6
90 − 100
Sn − 100
100 − 100
⇒ P(90 ≤ Sn ≤ 100) = P
≤
≤
≈
σn
σn
σn
−10
≈ Φ(0) − Φ
= 0, 5 − (1 − Φ(1, 095)) =
9, 13
σn =
V(Sn ) =
= Φ(1, 095) − 0, 5 = 0, 862 − 0, 5 = 0, 36
Exakter Wert: P(90 ≤ S − n ≤ 100) = 0, 4025 (Computer)
Bessere Approximation: Nutze (3)
1
1
P(90 ≤ S − n ≤ 100) ≈ Φ xn (β +
− Φ xn α −
=
2
2
90 − 21 − 100
100 + 12 − 100
−Φ
=
=Φ
σn
σn
0, 5
−10, 5
=Φ
−Φ
= . . . = 0, 397
σn
σn
Beispiel 2. (Wahlvorhersage) wir wollen den Prozentsatz der Wähler einer Partei A schätzen. Sind unter n befragten Wählern Sn Wähler der Partei A, so nehmen wir Snn als Schätzung für die (unbekannte)
Wahrscheinlichkeit p, dass ein Wähler Partei A wählt.
Frage: Wie groß muss n gewählt werden, damit die Wahrscheinlichkeit einer Abweichung von
mehr als 1% kleiner als 0, 05 ist?
Sn
n
von p um
Gesucht ist also ein (minimales) n, sodass
Sn
− p ≤ 0, 01 & 0, 95
P −0, 01 ≤
n
p
Mit σn = np(1 − p) folgt aus 4.3:
!
−0, 01 · n
Sn − np
0, 01 · n
0, 01n
0, 01n
0, 01n
P
≤
≤
=Φ
−Φ −
= 2Φ
− 1 ≥ 0, 95
σn
σn
σn
σn
σn
σn
0, 01n
⇒Φ
≥ 0, 9725
σn
Wissen: Φ : R → (0, 1) bijektiv, streng monoton wachsend. Wähle n ∈ N, sodass
0, 01n
≥ Φ−1 (0, 9725) ≈ 1, 96
np(1 − p)
√
1, 96 · 100
1
⇒ n≥ p
⇔ n ≥ (196)2 · p(1 − p) ≈ (196)2 ·
4
p(1 − p)
Da p ∈ (0, 1), folgt p(1 − p) ≤ 12 1 − 12 = 14
p
⇒ n≥
(196)2 )
= 9604
4
Wissen wir außerdem, dass p ≤ 0, 1, so gilt p(1 − p) ≤ 0, 1(1 − 0, 1) = 0, 09. Dann würden n ≥
Wähler ausreichen.
38
(196)2
0,09
= 3450
4.2 Poisson-Approximation und Summen von Zufallsvaribalen
4.2 Poisson-Approximation und Summen von Zufallsvaribalen
Ist p klein (genauer: p·n ≈ α für ein α > 0), so ist eine Approximation von Bin,p durch die Poissonverteilung
αk
∀k ∈ N
k!
besser als die Normalverteilungsapproximation von Satz 4.3. Um dies herzuleiten, benötigen wir:
Poα (k) = e−α
Satz 4.4. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so ist
X
P(X + Y = k) =
P(X = k − j)P(Y = j)
∀k ∈ Z
j∈Z
Bemerkung.
1.) Setzt man ak = P(X = k), bk = P(Y = k) ∀k ∈ Z, so ist
X
P(X + Y + k) =
ak−j bj =: (a ∗ b)k
∀k ∈ Z
j∈Z
wobei die Folge a ∗ b = ((a ∗ b)k )k∈Z die Faltung von den Folgen (ak )k∈Z und (bk )k∈Z ist.
2.) Nehmen X, Y nur Werte in N0 an, so gilt:
P(X + Y = n) =
n
X
k=0
Beweis.
P(X + Y = k) =
X
P(X = n − k) · P(Y = k)
{z
} | {z }
|
=0 ∀l>n
(4)
=0 ∀k<0
P(X + Y = k, Y = j) =
j∈Z
=
X
P(X = k − j, Y = j) =
j∈Z
=
X
P(X = k − j)P(Y = j)
j∈Z
Erinnerung. Eine Zufallsvariable X heißt Poissonverteilt zum Parameter α > 0 (kurz Poα -verteilt), falls:
αk
∀k ∈ N0
k!
Lemma 4.5. Sind X1 und X2 unabhängige Zufallsvariablen und ist Xi Poαi -verteilt mit αi > 0, i = 1, 2,
so ist die Summe X1 + X2 Poα1 +α2 -verteilt.
P(X = k) = Poα (k) = e−α
Beweis. Benutze (4). Es ist:
P(X1 + X2 = n) =
=
n
X
k=0
n
X
k=0
P(X1 = n − k)P(X2 = k) =
e−α1
α1n−k
αk
· e−α2 2 =
(n − k)!
k!
n
1 X
αn−k α2k
·
n! 1
=
n!
(n − k)! k!
k=0
n 1 X n n−k k
·
α
· α2 =
= e−(α1 +α2 ) ·
n!
k 1
k=0
|
{z
}
= e−α1 −α2 ·
=(α1 +α2 )n Binom. Lehrsatz
= e−(α1 +α2 ) ·
(α1 + α2 )n
= Poα1 +α2 (n)
n!
39
4 Approximation der Binomialverteilung
Satz 4.6. Es seien X1 , . . . , Xn unabhängige Zufallsvariablen mit P(Xi = 1) = qi , P(Xi = 0) = 1 − qi für
qi ∈ [0, 1] und i = 1, . . . , n. Sei S = X1 + . . . + Xn und α = q1 + . . . + 1n . Dann gilt:
n
∞ k
X
X
P(S = k) − e−α α ≤ 2 ·
qi2
k! k=0
k=0
Beweis. Für die Berechnung P(S = k) ist es egal, auf welchem Wahrscheinlichkeitsraum X1 , . . . , Xn definiert
sind. Es kommt nur auf die Verteilung von X1 , . . . , Xn und deren Unabhängigkeit an. Deswegen können wir
einen passenden Wahrscheinlichkeitsraum wählen.
Sei Ωi = {−1, 0, 1, 2, . . .} = N ∪ {0, −1} und pi (0) = 1 − qi , pi (−1) = e−qi − (1 − qi ), pi (k) = e−qi ·
für i = 1, . . . , n ⇒ (Ωi , pi ) ist ein diskreter Wahrscheinlichkeitsraum.
qik
k!
∀k ∈ N
Wir setzen (Ω, p) der Produktwarhscheinlichkeitsraum von (Ω1 , p1 ), . . . , (Ωn , pn ):
Ω = Ω1 × . . . × Ωn
p(ω) = p1 (ω1 ) · . . . · pn (ωn )
Wir setzen:
(
Xi (ω) =
(
Yi (ω) =
∀ω = (ω1 , . . . , ωn )
0 falls ωi = 0
1 sonst
k
0
falls ωi = k ≥ 1
sonst, also ωi ∈ {−1, 0}
für alle ω ∈ Ω, i = 1, . . . , n. Dann sind X1 , . . . , Xn unabhängig und P(Xi = 1) = qi , P(Xi = 0) = 1 − qi .
Außerdem sind Y1 , . . . , Yn unabhängig, da Yi nur von ωi abhängt.
Es gilt:
P(Xi = Yi ) = pi (0) + pi (1) = 1 − qi + e−1i · qi
⇒ P(Xi 6= Yi ) = 1 − P(Xi = Yi ) = qi − e−qi · qi = qi 1 − e−1i ≤ qi2
da 1 − e−x = xe−ξ < x nach Mittelwertsatz.
4.5
=⇒ T = Y1 + . . . + Yn ist Poα -verteilt mit α = q1 + . . . + 1n , da Y − i Poαi -verteilt sind und Y1 , . . . , Yn
unabhängig.
∞
∞
X
X
P(S = k, T = k) + P(S = k, T 6= k) − P(T = k, S = k)−]P (T = k, S 6= k) ≤
⇒
P(S = k) − Poα (k) =
| {z }
k=0
k=0 P(T =k) ≤
∞
X
|P(S = k, T 6= k)| + |P(T = k, S 6= k)| = 2 · P(S 6= T ) ≤
k=0
≤2·
n
X
P(Xi 6= Yi ) =: I
i=0
(5)
⇐= da S(ω) 6= T (ω), gibt es ein i ∈ {1, . . . , n}, sodass Xi (ω) 6= Yi (ω).
⇒ {ω : S(ω) 6= T (ω)} ⊆
⇒ I ≤2·
n
X
i=1
40
n
[
i=1
qi2
{ω : Xi (ω) 6= Yi (ω)}
(5)
4.2 Poisson-Approximation und Summen von Zufallsvaribalen
n→∞
Folgerung 4.7. Ist p(n) eine Folge mit p(n) ∈ [0, 1] und n · p(n) −−−−→ α > 0. Dann gilt
lim Bin,p (k) = Poα (k)
∀k ∈ N0
n→∞
Beweis. Setze qi = p(n), i = 1, . . . , n. Sei X1 , . . . , Xn wie in Satz 4.6.
⇒ S = X1 + . . . + Xn ist Bin,p(n) -verteilt
sowie:
2·
n
X
i=1
n→∞
n→∞
p(n)2 = 2 · p(n) (n + 1)p(n) −−−−→ 0
{z
}
|{z} |
→α
→0
n→∞
da p(n) −−−−→ 0, weil n · p(n) −−−−→ α.
∞
X
|P(S = k) − Poα (k)| ≤
⇒ Bin,p(n) (k) − Poα (k) ≤
k=0
≤2·
n
X
n→∞
qi2 −−−−→ 0
i=0
Bemerkung. Man erhält sogar die folgende Fehlerabschätzung: Sind n · p(n) ≤ C ∀n ∈ N0 , so gilt:
∞
2
X
Bin,p(n) (k) − Poα (k) ≤ 2C
sup Bin,p(n) (k) − Poα (k) ≤
n
k∈N0
k=0
Beispiel 3. In einem Hörsaal seien n = 91 Studenten. Wir nehmen an, dass die Wahrscheinlichkeit heute
1
Geburtstag zu haben p = 365
ist. Dann ist die Anzahl X von Studierenden, die heute Geburtstag haben,
91
näherungsweise Poα -verteilt mit α = np = 365
≈ 0, 25.
Beispiel 4. Von einer Ware (z.B. Glühbirnen) ist ein kleiner Anteil p = 0, 015 nach der Produktion defekt.
Wie viele Stücke muss man in einen Karton tun, um mit Wahrscheinlichkeit ≥ 0, 8 mindestens 100 intakte
Stücke zu haben?
Gesucht ist ein minimales n ≥ 100, sodass
0, 8 ≤
n−100
X
Bin,p (k) ≈
| {z }
n−100
X
k=0
k=0
Wahrscheinlichkeit k
defekte Objekte zu haben.
e−αn αnk
k!
Wahrscheinlichkeit maximal n − 100 defekte Objekte zu haben =: rn , wobei αn = n · p ≈ 1, 5.
⇒ r100 ≈ e−1,5 · 1 = 0, 22
r101 ≈ e−1,5 (1 + 1, 5) ≈ 0, 558
2, 25
−1,5
r102 ≈ e
1 + 1, 5 +
≈ 0, 809
2
⇒ Wähle n = 102.
41
5 Allgemeine Wahrscheinlichkeitsräume und
Wahrscheinlichkeitsmaße mit Dichten
5.1 Definitionen und grundlegende Eigenschaften
Motivation. Für einige Konstruktionen und Grenzprozesse ist die Klasse der diskreten Wahrscheinlichkeitsräume zu eng:
1.) Es gibt kein diskretes Wahrscheinlichkeitsmaß, sodass:
Z
P([a, b]) =
a
b
ϕ(x) dx = lim P(a ≤ Sn∗ ≤ b)
n→∞
da P({ω}) = P([ω, ω]) = 0 ∀ω ∈ R und ein diskretes Wahrscheinlichkeitsmaß durch P({ω}) = p(ω) ∀ω ∈
Ω charakterisiert ist.
2.) Unendlicher Münzwurf: Ω = {0, 1}N = {(aj )j∈N : aj ∈ {0, 1}} ist überabzählbar.
3.) Allgemeiner: Sind (Ωj , pj )j∈N diskrete Wahrscheinlichkeitsräume, so ist
Ω=
∞
Y
Ωj = (ωj )j∈N : ωj ∈ Ωj ∀j ∈ N
j=1
überabzählbar, falls |Ωj | ≥ 2 ∀j ∈ N.
⇒ Abzählbare Produkte von diskreten Wahrscheinlichkeitsräumen sind im Allgemeinen keine diskreten
Wahrscheinlichkeitsräume mehr. Solche Produkte sind notwendig, um Folgen Xj ,j ∈ N0 von unabhängigen
Zufallsvariablen (mit vorgegebener Verteilung) zu konstruieren.
Grundlegendes Problem. Im Allgemeinen kann man P(A) nicht für alle A ∈ P(Ω) kosntruieren, wenn Ω
überabzählbar ist.
Satz 5.1 (Vitali: Die Potenzmenge ist zu groß“). Sei Ω = {0, 1}N . Dann gibt es keine Abbildung P : P(Ω) →
”
[0, 1] mit:
(N) P(Ω) = 1
(A) P ist σ-additiv, d.h.
P
∞
[
i=1
!
Ai
=
∞
X
P(Ai )
i=1
für alle paarweise disjunkten (Ai )i∈N , Ai ⊆ Ω.
(I) Invarianz: Für alle A ⊆ Ω, n ≥ 1 gilt:
P(Tn A) = P(A)
(
ωj
wobei Tn A =
1 − ωn
j 6= n
ist.
j=n
Beweis. Ergänzung, bzw. [3, Georgii, Satz 1.5]
42
(1)
5.1 Definitionen und grundlegende Eigenschaften
Bemerkung. (1) ⇒ P({ω ∈ Ω : ωn = 1}) = P({ω ∈ Ω : ωn = 0}) = 12 , da An ∪ Tn An = Ω.
{z
}
|
{z
}
|
An
Tn A n
⇒ (N), (A), (I) beschreiben unendlichen Münzwurf.
Deswegen muss man sich auf passende Teilmengen den P(Ω) einschränken.
Definition 5.2. Sei Ω eine Menge. Dann heißt A ⊆ P(Ω) σ-Algebra, falls
i) Ω ∈ A
ii) ∀A ∈ A : Ac ∈ A
iii) Aj ∈ A ∀j ∈ N ⇒
S∞
j=1
Aj ∈ A
Bemerkung. Eigenschaft (iii)) hängt mit σ-Additivität zusammen.
Definition 5.3.
1.) Ist Ω eine Menge und A ⊆ P(Ω) eine σ-Algebra, dann heißt (Ω, A) messbarer Raum.
2.) Ist (Ω, A) ein messbarer Raum, so heißt P : A → [0, 1] Wahrscheinlichkeitsmaß, oder Wahrscheinlichkeitsverteilung auf (Ω, A), falls gilt:
i) P ist normiert:
P(Ω) = 1
(K1)
ii) P ist σ-additiv, d.h. für alle paarweise disjunkten (Aj )j∈N mit Aj ∈ A ∀j ∈ N gilt:


∞
∞
[
X
P
Aj  =
P(Aj )
j=1
(K2)
j=1
3.) Ist (Ω, A) ein messbarer Raum und P ein Wahrscheinlichkeitsmaß auf (Ω, A), so heißt (Ω, A, P) allgemeiner Wahrscheinlichkeitsraum.
Beispiel 1. Ist (Ω, p) ein diskreter Wahrscheinlichkeitsraum und
X
P(A) =
p(ω)
∀A ⊆ Ω
ω∈A
so ist (Ω, P(Ω), P) ein allgemeiner Wahrscheinlichkeitsraum.
Definition 5.4. Ist f : Rn → [0, ∞) (Lebesgue-)integrierbar mit
Z
f (x) dx = 1
Rn
so heißt f Dichte (bzgl. des Lebesgue-Maßes).
Beispiel 2. Für jede Dichte f ist mit
1A (charakteristische Funktion)
Z
Pf (A) =
A
Z
f (x) dx =
Rn
f (x)1A (x) dλn (x)
für alle Lebesguemessbaren Mengen A ∈ L(Rn ) ein Wahrscheinlichkeitsmaß auf (Rn , L(Rn )).
Bew.:
1.) P(Rn ) =
R
Rn
f (x) dx = 1
2.) σ-Additivität folgt aus Satz über monotone Konvergenz.
43
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
Wiederholung (Satz über monotone Konvergenz). Seien 0 ≤ f1 (x) ≤ . . . ≤ fn (x) ≤ fn+1 (x) für fast alle
x ∈ Rn und n ∈ N, sodass limn→∞ fn (x) = f (x) für fast alle x ∈ Rn .
Dann gilt:
Z
Z
lim
n→∞
Rn
fn (x) dx =
Z
lim fn (x) dx =
Rn n→∞
f (x) dx ∈ [0, ∞]
Rn
Daraus folgt die σ-Additivität:
Seien Aj ∈ L(Rn ), j ∈ N, paarweise disjunkt und
gn (x) =
n
X
1Aj (x) = 1Snj=1 Aj (x)
∀x ∈ Rn , n ∈ N
j=1
Dann gilt ∀x ∈ Rn 0 ≤ . . . ≤ gn (x) ≤ gn+1 (x), sowie
n→∞
(x)
gn (x) −−−−→ g(x) = 1S∞
j=1 Aj
∀x ∈ Rn
Satz über monotone Konvergenz:
∞
X
Pf (Aj ) = lim
n→∞
j=1
∞
X
Z
Pf (Aj ) = lim
n→∞
j=1
Z
j=1
Z
= lim
n→∞
S∞
f (x)gn (x) dx =
Rn
Rn
Aj
f (x) dx =

f (x)g(x) dx = Pf 
∞
[

Aj 
j=1
Beispiel 3. Gleichverteilung: Setzt man für a < b ∈ R:
f (x) =
1
· 1[a,b] (x)
b−a
∀x ∈ R
Dann ist f eine Dichte und
Pf (A) =
1
λ1 A ∩ [a, b]
b−a
∀A ∈ L(R)
Beispiel 4. Exponentialverteilung: Sei α > 0. Annahme: Für t > 0 sie die Zahl der Schadensfälle im
Zeitintervall [0, t] Poαt -verteilt. Dann ist die Wahrscheinlichkeit mindestens einen Schadensfall im Intervall
[0, t] zu haben:
Z t
Poα ([0, t]) = 1 − Poαt (0) = 1 − e−αt =
αe−αx dx
0
Sei nun
(
αe−αx
fα (x) =
0
x≥0
x<0
Dann ist fα eine Dichte und die zugehörige Verteilung Pα heißt Exponentialverteilung zum Parameter
α > 0.
Beispiel 5. Standartnormalverteilung: Sei
x2
1
ϕ(x) = √ · e− 2
2π
Dann ist ϕ eine Dichte (Abschnitt 4.1). Die zugehörige Verteilung Pϕ heißt Standartnormalverteilung.
Produktdichten: Sind fj : R → [0, ∞], j = 1, . . . , n Dichten auf R, so ist
f (x) = f1 (x1 ) · . . . · fn (xn )
eine Dichte auf Rn , denn:
Z
Z
f (x) dx =
Rn
44
∀x = (x1 , . . . , xn )
Z
f1 (x1 ) dx1 · . . . ·
R
R
fn (xn ) dxn = 1n = 1
5.1 Definitionen und grundlegende Eigenschaften
Sind fj (xj ) = ϕ(xj ), ∀j = 1, . . . , n, so ist
n
x2
x2
1
1
n
√
· e− 2 · . . . · e− 2 =
f (x) =
2π
n
x2
x2
1
1
n
· e− 2 −...− 2 =
= √
2π
n
|x|2
|x|2
1
1
− 2
· e− 2 =
= √
n · e
(2π) 2
2π
∀x ∈ Rn
die Dichte der Standartnormalverteilung im Rn .
Aus (K1) und (K2) folgt:
Folgerung 5.5. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt:
i) P(∅) = 0
ii) Sind Ai paarweise disjunkt und A1 , . . . , An ∈ A, so gilt
!
n
n
[
X
P
Ai =
P(Aj )
i=1
iii) Sind A1 , . . . , An ∈ A, so gilt:
n
[
P
j=1
!
Ai
≤
i=1
n
X
P(Aj )
j=1
iv) P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ∀A, B ∈ A
v) A ⊆ B, A, B ∈ A ⇒ P(A) ≤ P(B)
vi) P(Ac ) = 1 − P(A) ∀A ∈ A
Eine Folgerung aus der σ-Additivität ist:
Lemma 5.6. Es sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt:
1.) Sind Aj ∈ A mit Aj ⊇ Aj+1 ∀j ∈ N, so ist

lim P(Aj ) = P 
j→∞
n
\

Aj 
j=1
2.) Sind Aj ∈ A mit Aj ⊆ Aj+1 ∀j ∈ N, so ist

lim P(Aj ) = P 
j→∞
3.) Sind Aj ∈ A, j ∈ N, so ist

P
n
[

Aj 
j=1
∞
[
j=1

Aj  ≤
∞
X
P(Aj )
j=1
Beweis.
45
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
1.) Betrachte A0j := Acj ∀j ∈ N
⇒ A0j ⊆ A0j+1 ∀j ∈ N



c 
∞
∞
\
\
⇒ P
Aj  = 1 − P 
Aj   = 1 − lim P(Acn ) = lim (1 − P(Acn )) = lim (P(An ))
j=1
|S
∞
j=1
=
n→∞
j=1
{z S
Acj =
∞
j=1
n→∞
n→∞
}
A0j
2.) Setze Bj = Aj+1 \ Aj ∈ A ∀j ∈ N. Dann ist (Bj )j∈N0 paarweise disjunkt.
A :=
∞
[
Aj =
j=1
∞
[
Bj
j=0
mit B0 := A1 . Mit (K2) folgt:
P(A) =
∞
X
P(Bj ) = lim
n→∞
j=0
n
X
[n
j=0
|
Sn
j=1
n→∞
|„ {z
P
3.) Setze Bn =
P(Bj ) = lim P(An+1 ) = lim P(An )
j=1
n→∞
}«
Bj
{z
An+1
}
Aj ⇒ Bn ⊆ Bn+1 ∀n ∈ N

⇒ P
n
[

Aj  = P
j=1
∞
[
n=1
!
Bn
= lim P(Bn ) ≤ lim
n→∞
n→∞
∞
X
P(Aj ) =
j=1
∞
X
P(Aj )
j=1
5.2 Verteilungsfunktionen
Im Folgenden seien für a, b ∈ Rn
a ≤ b :⇔ aj ≤ bj ∀j = 1, . . . , n
a < b :⇔ aj < bj ∀j = 1, . . . , n
sowie:
(a, b] := {x ∈ Rn : a < x ≤ b} = (a1 , b1 ] × . . . × (an , bn ]
[a, b] := {x ∈ Rn : a ≤ x ≤ b}
(−∞, a] := {x ∈ Rn : x ≤ a}
(−∞, a) := {x ∈ Rn : x < a}
Erinnerung (Borelsche σ-Algebra).
1.) Ist F ⊆ P(Ω) ein Mengensystem, so gibt es immer eine kleinste σ-Algebra σ(F), die F enthält. Es
gibt also genau eine σ-Algebra σ(F), sodass
i) F ⊆ σ(F)
ii) Ist A ⊇ F eine σ-Algebra, so gilt σ(F) ⊆ A
Die σ(F) heißt die von F erzuegt σ-Algebra. Es ist
o
\n
σ(F) =
A σ-Algebra : A ⊇ F
46
5.2 Verteilungsfunktionen
2.) Es sei O ⊆ P(Rn ) die Menge aller offenen Mengen. Dann ist
B(Rn ) := σ(O)
die Borelsche σ-Algebra. Es ist:
(a, b] : a, b ∈ Rn mit a < b
= σ [a, b] : a, b ∈ Rn mit a < b
= σ (−∞, a] : a ∈ Rn
= σ (−∞, a) : a ∈ Rn
B(Rn ) = σ
Bemerkung. Es gilt B(Rn ) ⊆ L(Rn ).
Die Eigenschaft (1.)) ist nützlich für folgenden Eindeutigkeitssatz:
Satz 5.7. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und G ⊆ P(Ω) ein Erzeugendensystem von A, d.h.
σ(G) = A, sodass A, B ∈ G ⇒ A ∩ B ∈ G ( Durchschnittsstabil“). Dann ist P eindeutig durch P(A) ∀A ∈ G
”
bestimmt.
Folgerung 5.8. Ist P ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )), so ist P eindeutig durch
i) P((a, b]) ∀a, b ∈ Rn , a < b oder
ii) P([a, b]) ∀a, b ∈ Rn , a < b oder
iii) P((−∞, a]) ∀a ∈ Rn festgelegt.
Beweis. Folgt direkt aus (1.)), Satz 5.7 und der Durchschnittsstabilität der Intervallsysteme, z.B. (−∞, a1 ] ∩
(−∞, a2 ] = (−∞, min{a1 , a, 2}).
Definition 5.9.
1.) Ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )) heißt Borelsches Wahrscheinlichkeitsmaß.
2.) Ist P ein Borelsches Wahrscheinlichkeitsmaß, so heißt
∀x ∈ Rn
F (x) = P((−∞, x])
Verteilungsfunktion von P.
Bemerkung.
1.) Durch F (x), x ∈ Rn ist nach 5.8 das P eindeutig festgelegt.
2.)
i) Jedes diskrete Wahrscheinlichkeitsmaß P auf Ω ⊆ Rn kann durch
X
P(A) =
p(ω)
∀A ∈ B(Rn )
ω∈A∩Ω
als Borelsches Wahrscheinlichkeitsmaß aufgefasst werden.
ii) Ist f : Rn → [0, ∞) eine Dichte, so ist
Z
Pf (A) =
f (x) dx
A
∀A ∈ B(Rn ) ⊆ L(Rn )
ein Borelsches Wahrscheinlichkeitsmaß.
⇒ Alle für uns wichtigen Wahrscheinlichkeitsmaße werden Borelsche Wahrscheinlichkeitsmaße und durch
dren Verteilungsfunktion F eindeutig bestimmt sein.
Definition 5.10. Ist P ein Borelsches Wahrscheinlichkeitsmaß, so sagen wir
47
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
i) P hat eine Dichte, falls es eine Dichte f : Rn → [0, ∞] gibt mit
Z
P(A) =
f (x) dx
A
∀A ∈ B(Rn )
ii) P is diskret, fall es eine höchstens abzählbare Menge Ω ⊆ Rn gibt und ein p : Ω → [0, 1], sodass
X
P(A) =
p(ω)
∀A ⊆ B(Rn )
ω∈A∩Ω
Bemerkung.
1.) Hat P eine Dichte f , so gilt für die zugehörige Verteilungsfunktion F
Z
Z
Z
F (x) =
f (y) dy =
...
f (y1 , . . . , yn ) d(y1 , . . . , yn )
(−∞,x]
(−∞,x1 ]
(−∞,xn ]
2.) Ist P ein Borelsches Wahrscheinlichkeitsmaß auf (R, B(R)) und ist F : R → [0, 1] die zugehörige
Verteilungsfunktion, so ist F monoton wachsend, rechtsseitig stetig, d.h.
lim F (t) = F (s)
t&s
und es gilt
lim F (t) = 1,
lim F (t) = 0
t→∞
t→−∞
Spezialfälle.
a) Wenn P eine Dichte hat, dann ist
Z
F (x) =
x
−∞
f (t) dt
stetig.
b) P ist diskret. Dann ist
X
F (x) =
p(ω)
ω∈Ω
ω≤x
stückweise konstant und F springt an x = ω ∈ Ω um p(ω) nach oben, d.h.
F (ω) = lim F (x) + p(ω)
x%ω
5.3 Zufallsvariablen
Definition 5.11.
a) Sind (Ω, A), (Ω0 , A0 ) messbare Räume, so heißt f : Ω → Ω0 messbar, falls f −1 (A0 ) ∈ A ∀A0 ∈ A0
b) Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum, so heißt jede messbare
Abbildung X : Ω → Ω0 Zufallsvariable.
Bemerkung. Im Folgenden werden meist Ω0 = Rn und A0 = B(Rn ) sein. In diesem Fall haben wir das
einfache Messbarkeitskriterium:
Lemma 5.12. Ist (Ω, A) ein messbarer Raum, so ist f : Ω → Rn mesbar bezüglich B(Rn ), falls
f −1 ((−∞, x]) ∈ A
∀x ∈ Rn
oder f −1 ((−∞, x)) ∈ A
∀x ∈ Rn
Beweis. Es sei A0f := {A0 ⊆ Rn : f −1 (A0 ) ∈ A}. Dann ist A0f eine σ-Algebra, denn
48
5.3 Zufallsvariablen
i)
(A0j )j∈N ∈ A0f ⇒ f −1 (A0j ) ∈ A
⇒ A3
∞
[

f −1 (A0j ) = f −1 
j=1
⇒
∞
[
∞
[

A0j 
j=1
A0j ∈ A0f
j=1
ii)
A0 ∈ A0f ⇒ f −1 (A0 ) ∈ A
c
c
⇒ A 3 f −1 (A0 ) = f −1 (A0 )
c
⇒ A0 ∈ A0f
Nun gilt nach Voraussetzung:
n
o
(−∞, x] : x ∈ Rn ∈ A0f
n
o
oder (−∞, x) : x ∈ Rn ∈ A0f
n
o
⊆ A0f
⇒ σ (−∞, x] : x ∈ Rn
{z
}
|
oder σ
|
n
=B(Rn )
o
⊆ A0f
(−∞, x) : x ∈ Rn
{z
}
=B(Rn )
Nun ist f messbar ⇔ B(Rn ) ⊆ A0f .
Mit diesem Kriterium zeigt man:
Folgerung 5.13. Sind X1 , . . . , Xn : Ω → R messbar, wobei (Ω, A) messbarer Raum, so ist (X1 , . . . , Xn ) :
Ω → Rn messbar.
Beweis. Folgt aus
(X1 , . . . , Xn )−1 ((−∞, x]) =
n
\
Xj−1 ((−∞, x])
{z
}
j=1 |
∈A
|
{z
}
∈A
Schließlich gilt:
Lemma 5.14. Sind (Ω, A), (Ω0 , A0 ), (Ω00 , A00 ) messbare Räume und X : Ω → Ω0 , g : Ω0 → Ω00 messbar, so
ist Y = g ◦ X : Ω → Ω00 messbar.
Beweis. Ist A00 ∈ A00 so folgt g −1 (A00 ) ∈ A0 , da g messbar ist. Somit folgt:
Y −1 (A00 ) = X −1 g −1 (A00 ) ∈ A
Aus 5.13 und 5.14 erhält man, dass α1 X1 +. . .+αn Xn und X1 ·. . .·Xn messbar sind, sofern X1 , . . . , Xn : Ω → R
messbar sind und α1 , . . . , αn ∈ R.
Wähle dafür entweder g(X1 , . . . , Xn ) = α1 X1 + . . . + αn Xn , oder g(X1 , . . . , Xn ) = X1 · . . . · Xn .
49
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
Bemerkung. Jede stetige Abbildung g : Rn → Rn ist messbar, da g −1 ((−∞, x)) für alle x ∈ Rn offen ist.
Definition 5.15.
a) Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable, so heißt
PX : B(Rn ) → [0, 1]
PX (A) = P(X −1 (A))
die Verteilung von X und
b)
FX : Rn → [0, 1]
FX (x) = PX ((−∞, x))
die Verteilungsfunktion von X.
Bemerkung.
a) Es ist X −1 (A) = {ω ∈ Ω : X(ω) ∈ A} = {X ∈ A} und somit PX (A) = P(X ∈ A) und FX (x) = P(X ≤
x).
b) PX ist das so genannte Bildmaß von P unter X.
Lemma 5.16. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable. Dann ist
PX ein Wahrscheinlichkeitsmaß auf (Rn , B(Rn )).
Beweis. Für alle paarweise disjunkten Mengen (Aj )j∈N in B(Rn ) sind (X −1 (Aj ))j∈N in A auch paarweise
disjunkt.







∞
∞
∞
∞
∞
X
X
[
[
[
PX (Aj )
P(X −1 (Aj )) =
X −1 (Aj ) =
Aj  = P 
Aj  = P X −1 
⇒ PX 
j=1
j=1
j=1
j=1
j=1
d.h. PX ist σ-additiv. Außerdem ist PX (Rn ) = P(X −1 (Rn )) = P(Ω) = 1 und PX (A) ∈ [0, 1].
Definition 5.17. Ist (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable, so hat
X eine Dichte F , falls PX eine Dichte besitzt, d.h. es gibt eine Dichte F :
Z
PX (A) =
F (x) dx
∀A ∈ B(Rn )
A
Eine nützliche Transformationsformel ist:
Lemma 5.18. Ist X : Ω → R eine Zufallsvaribale mit Dichte f und ϕ : R → R stetig differenzierbar und
streng monoton, so hat Y = ϕ ◦ X die Dichte
g(y) =
f (ϕ−1 (y))
ϕ0 (ϕ−1 (y))
∀y ∈ R
Beweis. 7. Übungsblatt
Folgerung 5.19. Hat X : Ω → R eine Dichte f , so hat Y = aX + b, a 6= 0, b ∈ R die Dichte:
1
y−b
g(y) =
·f
∀y ∈ R
|a|
a
50
5.4 Unabhängigkeit
Anwendung. Es sei X : Ω → R Standartnormalverteilt, d.h.:
Z
FX (x) =
Dann hat X die Dichte f (x) =
x2
−
2
e√
2π
x
−∞
t2
e− 2
√ dt
2π
∀x ∈ R
und y = σX + µ, σ 6= 0, µ ∈ R hat die Dichte:
(x−µ)2
2σ 2
e−
ϕµ,σ2 (x) = √
∀x ∈ R
2πσ
Die zugehörige Verteilung heißt Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Y ist
N (µ, σ 2 )-verteilt.
5.4 Unabhängigkeit
Definition 5.20. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum.
a) Eine Familie Ai ∈ A, i ∈ I heißt unabhängig, falls für jede endliche Auswahl von Indizes J ⊆ I gilt:
!
\
Y
P
Ai =
P(Aj )
i∈J
j∈J
b) Zufallsvariablen Xi : Ω → R, i ∈ I heißen unabhängig, falls für alle Ai ∈ B(Rn ), i ∈ I die Familie
{Xi ∈ Ai }, i ∈ I unabhängig ist.
Bemerkung. Es gelten die gleichen Bemerkungen, wie im diskreten Fall
Ein wichtiges Kriterium für Unabhängigkeit ist:
Satz 5.21. Seien Zufallsvariablen Xi : Ω → R, i ∈ I gegeben. Dann sind äquivalent:
a) X1 , . . . , Xn unabhängig.
b) ∀x ∈ Rn sind {X1 ≤ x1 }, . . . , {Xn ≤ xn } unabhängig.
c) Es gilt:
P(X = x) =
n
Y
∀x ∈ Rn
P(Xi = xi )
i=1
Bemerkung. Ein ähnliches Kriterium für diskrete Wahrscheinlichkeitsräume lieferte Satz 3.4: (Xi )i∈I sind
unabhängig genau dann, wenn
P(X1 = x1 , . . . , Xn = xn ) = P(X1 = x1 ) · . . . · P(Xn = xn )
∀xj ∈ Xj (Ω), j = 1, . . . , n
Eine ähnliche Aussage liefert:
Folgerung 5.22. Es seien X1 , . . . , Xn Zufallsvariablen mit Dichten f1 , . . . , fn und X = (X1 , . . . , xn ).
a) Sind X1 , . . . , Xn unabhängig, so hat X = (X1 , . . . , Xn ) die Dichte
f (x1 n . . . , xn ) = f1 (x1 ) · . . . · fn (xn )
∀x ∈ Rn
(2)
b) Umgekehrt gilt: Hat X die Dichte (2), so sind X1 , . . . , Xn unabhängig.
51
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
Beweis.
a) Es sei Q das Wahrscheinlichkeitsmaß mit Dichte f . Dann gilt für alle a ≤ b ∈ Rn :
Z
Q([a, b]) =
=
a1
Z b1
|
=
b1
a1
Z
...
bn
an
f1 (x1 ) · . . . · fn (xn ) dxn . . . dx1 =
Z
bn
f1 (x1 ) dx1 · . . . ·
fn (xn ) dxn =
a
| n
{z
}
{z
}
PXn ([an ,bn ])
PX1 ([a1 ,b1 ])
n
Y
i=1
PX ([ai , bi ]) =
| i {z
}
=P(Xi ∈[ai ,bi ])
Ereignisse unabhängig
n
\
=P
|
Xi ∈ [ai , bi ]
i=1
{z
!
= PX ([a, b])
}
{X∈[a,b]}
⇒ Q([a, b]) = PX ([a, b]) ∀a ≤ b ∈ Rn . Eindeutigkeitssatz 5.7 und Folgerung 5.8
∀A ∈ B(Rn )
⇒ Q(A) = PX (A)
b) Hat PX die Dichte f wie (2), so gilt:
Z
PX ([a, b]) = . . . =
=
n
Y
b1
a1
Z
f1 (x1 )dx1 · . . . ·
bn
an
fn (xn ) dxn =
PXi ([ai , bi ])
∀a ≤ b ∈ Rn
i=1
Für a1 , . . . , an → −∞ erhält man
P(X ≤ b) =
n
Y
PXi ((−∞, b])
∀b ∈ Rn
i=1
Satz 5.21 ⇒ X1 , . . . , Xn sind unabhängig.
Bemerkung. Sind X1 , . . . , Xn Zufallsvariablen, so heißt PX mit X = (X1 , . . . , Xn ) gemeinsame Verteilung
von X1 , . . . , Xn .
Ein analoges Ergebnis zu [1, Krengel, Satz 5.6] ist:
Satz 5.23. Sind X1 , X2 unabhängig mit Dichten f1 , f2 , so hat X1 + X2 die Dichte:
Z
f1 ∗ f2 (x) =
f1 (x − y)f2 (y) dy
∀x ∈ R
R
Bemerkung. f1 ∗ f2 heißt Faltung von f1 , f2 .
Beweis. Es sei BX := {(x1 , x2 ) ∈ R2 : x1 + x2 ≤ x} mit x ∈ R.
P(X1 + X2 ≤ x) = P((X1 , X2 ) ∈ BX ) =
Z
5.22
= P(X1 ,X2 ) (BX ) =
f1 (x1 )f2 (x2 ) d(x1 , x2 ) =
B
Z x
Z ∞
Z x
=
du
dv f1 (u − v)f2 (v) =
f1 ∗ f2 (u) du
−∞
−∞
−∞
{z
}
|
=f1 ∗f2 (u)
⇒ PX1 +X2 bzw. X1 + X2 hat die Dichte f1 ∗ f2 .
52
u = x1 + x2 , v = x2
∀x ∈ R
5.5 Erwartungswert, Varianz und Kovarianz
5.5 Erwartungswert, Varianz und Kovarianz
Erinnerung. E(X) =
ist.
P
X(ω)p(ω) falls X : Ω → R und (Ω, p) ein diskreter Wahrscheinlichkeitsraum
X
X
3.7
E(X) =
x · P(X = x) =
x · PX (x)
ω∈Ω
x∈X(Ω)
x∈X(Ω)
Definition 5.24 (Erwartungswert). Es sei (Ω, A, P) ein Warhscheinlichkeitsraum und X : Ω → R eine
Zufallsvariable. Dann exisitert der Erwartungswert von X, falls:
Z
|X(ω)| dP(ω) < ∞
Ω
In diesem Fall ist
Z
E(X) =
Ω
X(ω) dP(ω)
der Erwartungswert von X.
Bemerkung. Es existiert der Erwartungswert von X genau dann, wenn
Z
1
X ∈ L (Ω, P) = f : Ω → R messbar :
|f (ω| dP(ω) < ∞
R
Ω
Erinnerung (Integralkonstruktion). Die Konstruktion von f (ω) dP(ω) verläuft in 3 Schritten:
P
1.) Für einfache Funktionen: f (x) = i∈N αi 1Ai (x) für αi ∈ R, Ai ∈ A ∀i ∈ N ist:
Z
X
f (ω) dP(ω) :=
αi P(Ai )
Ω
i∈N
2.) Ist f : Ω → [0, ∞) nicht negativ, so wählt man eine Folge einfacher Funktionen fn : Ω → [0, ∞), sodass
n→∞
fn (x) ≤ fn+1 (x) −−−−→ f (x) für fast alle x ∈ Ω und setzt:
Z
Z
f (ω) dP(ω) = lim
fn (ω) dP(ω) ∈ [0, ∞]
n→∞
Ω
3.) Für f ∈ L1 (Ω, P) existiert
Z
Ω
und man setzt:
Z
±
f (ω) dP(ω) ≤
Z
Ω
Z
f (omega) dP(ω) =
wobei f ± (ω) = max(0 ± f (x)).
Bemerkung. X ist eine einfache Funktion X =
E(X) =
Ω
Ω
|f (ω)| dP(ω) < ∞
+
f (ω) dP(ω) −
P
i∈N
X
Z
Ω
f − (ω) dP(ω)
αi 1Ai ⇔ X ist diskret verteilt. In diesem Fall ist:
x · P(X = x)
x∈X(Ω)
Bemerkung. Ist Ω abzählbar und (Ω, P(Ω), P) ein Wahrscheinlichkeitsraum, so gilt:
Z
X
f (ω) dP(ω) =
f (ω)p(ω)
Ω
ω∈Ω
für f ∈ L1 (Ω, P) wobei p(ω) = P({ω}).
Man kann E(X) für X ∈ L1 (Ω, P) auch durch Approximation durch diskret-verteilte Zufallsvariablen Xn
definieren: Für n ∈ N
∞
X
k
k+1
k
1A (ω),
An,k =
≤ X(ω) ≤
(3)
Xn (ω) =
n n,k
n
n
k=−∞
|
{z
}
k k+1
X −1 ([ n
, n ])∈A
53
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
Dann sind Xn diskret-verteilte Zufallsvariablen, bzw. einfache Funktionen, da Xn (Ω) ⊆
dem gilt:
Xn (ω) ≤ X(ω) ≤ Xn (ω) +
1
n
k
n
: k ∈ Z . Außer-
∀ω ∈ Ω
Daraus folgt:
Lemma 5.25. Es existiert E(X) genau dann, wenn E(Xn ) für ein n ∈ N existiert. In diesem Fall existiert
E(Xn ) für alle n ∈ N und es gilt:
E(X) = lim E(Xn )
(4)
n→∞
Bemerkung. Die Identität (4) wird im Buch [1, Krengel] als Definition von E(X) im allgemeinen Fall
verwendet.
Beweis.
1.) Da Xn ≤ X ≤ Xn + n1 , so folgt:
1
1
≤ |X(ω) ≤ |Xn (ω)| +
n
n
1
1
⇒ E(|Xn |) − ≤ E(|X|) ≤ E(|Xn |) +
n
n
|Xn (ω)| −
∀n ∈ N
E(|X|) < ∞ ⇔ E(|Xn |) < ∞ für ein n ∈ N
⇔ E(|Xn |) < ∞ für alle n ∈ N
⇒ 1. Teil der Aussage.
2.) Nach Konstruktion gilt:
i) limn→∞ Xn (ω) = X(ω) für fast alle x ∈ Ω.
ii) |Xn (ω)| ≤ |X(ω)| +
1
n
≤ |X(ω)| + 1 wobei |X| + 1 ∈ L1 (Ω, P)
Satz über majorisierte Konvergenz:
Z
lim E(Xn ) = lim
n→∞
n→∞
Ω
Z
xn (ω) dP(ω) =
Ω
X(ω) dP(ω) = E(X)
Einfache Eigenschaften von E(X) sind:
Lemma 5.26. Es seine X, Y ∈ L1 (Ω, P) und (Ω, A, P) ein Wahrscheinlichkeitsraum. Dann gilt:
i) Für λ ∈ R ist λX ∈ L1 (Ω, P) und
ii) X + Y ∈ L1 (Ω, P) und
E(λX) = λE(X)
E(X + Y ) + E(X) + E(Y )
iii) Gilt X(ω) ≤ Y (ω) für fast alle ω ∈ Ω, so gilt:
E(X) ≤ E(Y )
iv) Sind X, Y unabhängig, so ist XY ∈ L1 (Ω, P) und es gilt:
E(XY ) = E(X)E(Y )
Beweis. (i)-(iii) folgt sofort aus der Linearität und Monotonie von
54
R
dP oder per Approximation.
5.5 Erwartungswert, Varianz und Kovarianz
iii) Beweis per Approximation: Es sei Xn wie in (3) und Yn entsprechend mit X 7→ Y . Dann gilt: X, Y
unabhängig
k
k+1
k
= ω: ≤X≤
und
⇒ Xn =
n
n
n
k0
k0
k0 + 1
= ω:
Yn =
≤Y ≤
sind unabhängig
n
n
n
|
{z
}
0
0
={Y ∈[ kn , k n+1 ]}
⇒ {Xn = x} und {Yn = y} sind unabhängig für alle x, y ∈ R, bzw. x ∈ Xn (Ω), y ∈ Yn (Ω).
3.4
=⇒ Xn , Yn sind unabhängig.
1
1
⇒ |X(ω)Y (ω)| ≤ Xn (ω+
Yn (ω) +
n
n
{z
}
|
∈L1 (Ω,P) da Xn Yn ∈L1 ,Xn ,Yn ∈L1
⇒ E(|XY |) < ∞
Satz über
major. Konvergenz
↓
⇒ E(XY ) =
Aussage im
diskreten Fall
↓
5.25
lim E(Xn Yn ) = lim E(Xn )E(Yn ) =
n→∞
n→∞
E(X)E(Y )
Eine Verallgemeinerung der Identität:
E(g(X)) =
X
X
3.9
g((X(ω))p(ω) =
ω∈Ω
x∈X(Ω)
g(x) P(X = x)
| {z }
=PX (x)
im diskreten Fall ist:
Satz 5.27. Es sei X : Ω → R eine Zufallsvariable und (Ω, A, P) ein Wahrscheinlichkeitsraum und g : R → R
messbar (oder stetig). Dann existiert der Erwartungswert von g ◦ X genau dann, wenn
Z
|g(x)| dPX (x) < ∞
R
In diesem Fall ist:
Z
E(g ◦ X) =
Ω
Z
g(X(ω)) dP(ω) =
g(x) dPX (x)
(5)
R
Beweis.
1. Schritt“: Wir zeigen (5) für alle g(x) ≥ 0 messbar:
”
P∞
Ist g(x) = i=1 αiAi (x) eine einfache Funktion, so gilt:
Z
∞
Def.X
↓
g(x) dPX (x) =
i=1
R
Def.Z
↓
=
αi PX (Ai ) =
| {z }
=P({X∈Ai })
∞
X
αi P({X ∈ A − i}) =
i=1
∞
X
αi 1{X∈Ai } (ω) dP(ω) =
|
{z
}
Ω i=1
=1Ai (Xi (ω))
Z
Ω
g(X(ω)) dP(ω)
D.h. (5) gilt für alle einfachen g(x) ≥ 0.
Ist nun g(x) messbar, so gibt es einfache Funktionen gn (x) > 0, sodass
n→∞
gn (x) ≤ gn+1 (x) −−−−→ g(x)
55
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
für fast alle x ∈ Ω, so folgt:
Z
Z
Def.
↓
g(x) dPX (x) = lim
n→∞
R
Z
(5)
gn (x) dPX (x) = lim
n→∞
R
gn (X(ω)) dP(ω) =
| {z }
−−−−→g(X(ω))
Ω
n→∞
für fast alle ω∈Ω
Satz über
Z
mon. Konvergenz
↓
=
Ω
g(X(ω)) dP(ω)
2. Schritt“: Für allgemeines g : R → R messbar, folgt die Aussage aus der Aussage für g ± (x) = max(0, ±g(x)).
”
Folgerung 5.28. Es sei X : Ω → R eine Zufallsvariable mit Dichte f und g : R → R messbar. Dann
existiert E(g ◦ X) genau dann, wenn
Z
|g(x)|f (x) |{z}
dx < ∞
R
Lebesgue-Maß
Z
In diesem Fall ist:
E(g ◦ X) =
g(x)f (x) dx
R
Beweis. Hat X bzw. PX eine Dichte, so gilt:
Z
Z
g(x) dPX (x) = g(x)f (x) dx
R
für alle g ∈ L1 (Ω, PX ) und g(x) ≥ 0 messbar. Beweis dazu in der Übung - ähnlich wie zuvor. Damit folgt
die Aussage.
Man erhält nun insbesondere:
Z
E(X) =
xf (x) dx
R
falls X ∈ L1 (Ω, P) die Dichte f hat.
Beispiel 6. Erwartungswert der Normalverteilung: Ist X standartnormalverteilt, dann X die Dichte ϕ(x) =
x2
−
2
e√
2π
, x ∈ R.
x7→−x
Z
Subst.
↓
Z
⇒ E(X) =
xϕ(x) dx =
R | {z }
ungerade
d
(−x)ϕ(−x) · (−x) dx =
dx
R
| {z }
=1
Z
=−
xϕ(x) dx = 0
R
Für σ 6= 0, µ ∈ R ist Y = σX + µ, N (µ, σ 2 )-verteilt.
⇒ E(Y ) = σE(X) + µ = µ
Erinnerung: Doe Dichte der N (µ, σ 2 )-Verteilung ist
ϕµ,σ2
Vergleiche Anwendung nach Folgerung 5.19.
56
2
exp − (x−µ)
2σ 2
√
=
2πσ
5.5 Erwartungswert, Varianz und Kovarianz
Erwartungswert der Exponentialverteilung: Es sei X exponentialverteilt, α ≥ 0. Dann hat X die Dichte
(
αe−αt x ≥ 0
f (x) =
0
x<0
Z ∞
Z ∞
∞
e−αx dx =
+
xαe−αx dx = −xe−αx ⇒ E(X) =
x=0
0
−αx ∞
0
e
1
=
=
−α x=0
α
Es sei
Lp (Ω, P) :=
Z
f : Ω → R messbar :
|f (ω)|p dP(ω) < ∞
für 1 ≤ p ≤ ∞
Definition 5.29. Für X, Y ∈ L2 (Ω, P) heißt:
a) V(X) = E((X − E(X))2 ) Varianz von X.
b) Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) Kovarianz von X, Y .
c) Ist Cov(X, Y ) = 0, so heißen X und Y unkorreliert.
Wie im diskreten Fall ist
V(X) = E(X 2 ) − E(X)2
Cov(X, Y ) = E(XY ) − E(X)E(Y )
und es gelten die Rechenregeln:
Satz 5.30. Es seien X, Y, Xi ∈ L2 (Ω, P), i = 1, . . . , n, a, b, c, d ∈ R. Dann gilt:
a) aX + b, cY + d ∈ L2 (Ω, P) und
Cov(aX + b, cY + d) = ac Cov(X, Y )
V(aX + b) = a2 V(X)
b)
Pn
i=1
Xi ∈ L2 (Ω, P) und
V
n
X
!
Xi
=
i=1
n
X
V(Xi ) +
i=1
Insbesondere gilt (Bienaymé):
!
n
n
X
X
V
Xi =
V(Xi )
i=1
X
Cov(Xi , Xj )
1≤i6=j<n
falls X1 , . . . , Xn paarweise unkorreliert
i=1
c) Sind X, Y unabhängig, so sind X, Y unkorreliert.
Beweis. Wie im diskreten Fall
Bemerkung.
1.) Ist X ∈ L2 (Ω, P) mit V(X) > 0, so ist
X − E(X)
X∗ = p
V(X)
standartisiert, d.h. E(X ∗ ) = 0, V(X ∗ ) = 1
57
5 Allgemeine Wahrscheinlichkeitsräume und Wahrscheinlichkeitsmaße mit Dichten
2.) Hat X ∈ L2 die Dichte f , so folgt aus Folgerung 5.28
Z
Z
V(X) = (x − E(x))2 f (x) dx =
x2 f (x) dx − E(X)2
R2
R
Beispiel 7 (Varianz von Normal- und Exponentialverteilung).
Dichte ϕ(x) =
2
exp(− x2 )
√
2π
a) Ist X N (0, 1)-verteilt, so hat X die
und es gilt:
Z
da E(X)=0
↓
2
V(X) = E(X ) =
∞
x2 e−
−∞
|
=
part. Int
1
↓
=√
2π
Z
x2
2
1
· √ dx =
2π
{z
}
√x
2π
x2
− 2
· |xe{z
}
d −
= − dx
e
∞
−∞
1 · e−
x2
2
x2
2
dx = 1
Für σ 6= 0, µ ∈ R ist Y = σX + µ N (µ, σ 2 )-verteilt und
V(Y = σ 2 V(X) = σ 2
b) Ist X exponentialverteilt zum parameter α, α > 0, so hat X die Dichte
(
αe−αx x ≥ 0
f (x) =
0
x<0
Z ∞
1
−αx
dx − 2 =
V(X) = E(X 2 ) − E(X)2 =
x2 · αe
{z
}
|
| {z }
α
0
d −αx
− dx
e
= α12
part. Int Z ∞
1
2
1
1
↓
=0+
2xe−αx dx − 2 = 2 − 2 = 2
α
α
α
α
0
{z
}
R |
1 ∞
= α 0 xαe−αx dx = α2 E(X)
Beispiel 8. Ist X gleichverteilt auf [a, b], d.h. X hat die Dichte f (x) =
E(X) =
a+b
,
2
1
b−1
V(X) =
1[a,b] (x), so ist
(b − 1)2
12
Abschließend noch zwei Eigenschaften der Normalverteilung:
Satz 5.31.
a) Ist X N (µ, σ 2 )-verteilt, µ ∈ R, σ 6= 0, so ist aX + b, N (aµ + b, a2 σ 2 )-verteilt ∀a, b ∈ R, a 6= 0.
b) Sind X1 , X2 unabhängige Zufallsvariablen, die N (µ1 , σ12 )- bzw. N (µ2 , σ22 )-verteilt sind, so ist X1 + X2
N (µ1 + µ2 , σ12 + σ22 )-verteilt.
Beweis.
a) Folgt aus Folgerung 5.19 (vgl Anwendung nach dieser Folgerung).
b) Es sei Yi = Xi − µi , i = 1, 2. Dann ist Yi N (0, σi2 )-verteilt (Teil a)).
⇒ Yi hat die Dichte
58
x2
exp − 2σ
2
√ i
ϕ0,σi (x) =
σi 2π
5.5 Erwartungswert, Varianz und Kovarianz
und Y1 + Y2 hat nach Satz 5.23 die Dichte:
Z ∞
ϕ0,σ1 (x − y)ϕ0,σ2 (y) dy =
ϕ0,σ1 ∗ ϕ0,σ2 (x) =
−∞
=√
1
1
√
2πσ1 2πσ2
Z
∞
−
|e
−∞
e
(x−y)2
2
2σ1
{z· e
(x−y)2
−
2
2σ1
−
y2
2
2σ2
} dy
2
− y2
2σ2
Nun verwenden wir die Substitution:
z=y
σ
σ2
−x
σ1 σ2
σσ1
⇒
dz
σ
=
dy
σ1 σ2
wobei σ 2 = σ12 + σ22 und die Identität
y2
z2
(x − y)2
x2
+ 2 =
+ 2
2
2σ1
2σ2
2
2σ
⇒ ϕ0,σ1
1
∗ ϕ0,σ2 (x) = √
2πσ
Z
|
∞
−∞
x2
x2
z2
1
e− 2σ2
√ e− 2 dz · e− 2σ2 = √
= ϕ0,σ2 (x)
2π
2πσ
{z
}
=1
59
6 Grenzwertsätze
6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen
Genauso wie im Fall diskreter Wahrscheinlichkeitsräume haben wir:
Satz 6.1 (Schwaches Gesetz der großen Zahlen). Seien Xn ∈ L2 (Ω, P), n ∈ N, paarweise unkorrelierte
Zufallsvariablen mit gleichem Erwartungswert und supn∈N (V(Xn )) = µ < ∞. Dann gilt für alle ε > 0:
n
!
1 X
µ n→∞
P Xi − E(X1 ) > ε ≤ 2 −−−−→ 0
n
nε
i=1
Beweis. Wie zuvor, vgl. Satz 3.19, wobei die Tschebyscheff-Ungleichung
V(Z)
∀ε > 0, Z ∈ L2 (Ω, P)
P |Z − E(Z) < ε ≤
ε2
(1)
Erinnerung. Eine Folge (Zn )n∈N konvergiert stochastisch gegen Z, falls für alle ε > 0
n→∞
P |Zn − Z| > ε −−−−→ 0
Eine Verschärfung ist der folgende Satz:
Satz 6.2 (Starkes Gesetz der großen Zahlen). Es seine Xn ∈ L2 (Ω, P), n ∈ N paarweise unkorreliert mit
gleichem Erwartungswert und supn∈N V(Xn ) = M < ∞. Dann gilt:
)!
(
n
1X
Xi (ω) = E(X1 )
=1
P
ω ∈ Ω : lim
n→∞ n
i=1
Bemerkung.
• Eine Folge (Zn )n∈N konvergiert fast sicher gegen Z, falls
P lim Zn = Z = 1
n→∞
• Satz 6.1 ⇒
1
n
• Satz 6.2 ⇒
1
n
Pn
i=1
Xi → E(X1 ) stochastisch
i=1
Xi → E(X1 ) fast sicher
Pn
Lemma 6.3. Konvergiert (Zn )n∈N fast sicher gegen Z, so konvergiert (Zn )n∈N stochastisch gegen Z.
Beweis. Für ε > 0:


sup |Zn (ω) − Z(ω)| > ε
P(|Zn − Z| < ε) ≤ P k≥n
{z
}
|

5.6
===⇒ P
n→∞
\
!
An
=:An ≥An+1
= P ({ω ∈ Ω : |Zn (ω) − Z(ω)| > ε für unenedlich viele n ∈ N})
n∈N
da Zn →Z
fast sicher
n
o
↓
n→∞
=0
≤ P ω ∈ Ω : Zn (ω) 6−−−−→ Z(ω)
{z
}
|
T
⊇
60
n∈N
An
6.1 Schwaches Gesetz und starkes Gesetz der großen Zahlen
Bemerkung. Die Umkehrung ist im Allgemeinen falsch. Gegenbeispiel:
Zn (ω) = 1[m2−k ,(m+1)2−k (ω)
falls n = 2k + m mit 0 ≤ m < 2k für ω ∈ [0, 1] mit Gleichverteilung auf [0, 1].
Z2
1
k = 1, m = 0
⇒ n=2
1
1
2
1
Z4
k = 2, m = 0
⇒ n=4
1
4
Z3
1
1
1
2
1
Z5
1
1
1
2
1
2
1
4
Dann gilt:
lim P(|Zn | < ε) = 2−k ≤
⇒
k→∞
n→∞
Zn −−−−→
1 n→∞
−−−−→ 0
n
0 stochastisch
n→∞
Aber: Zn (ω) 6−−−−→ 0 für alle ω ∈ [0, 1], da für alle N ∈ N ∃n ≥ N : Zn (ω) = 1.
Für den Beweis benötigen wir:
Lemma 6.4 (Borel-Cantelli). Seien Ak ∈ A, k ∈ N, wobei (Ω, A, P) ein Wahrscheinlichkeitsraum ist und
sei
A∗ = {ω ∈ Ω : ω ∈ Ak für unendlich viele k ∈ N}
P∞
a) Gilt k=1 P(Ak ) < ∞, so ist P(A∗ ) = 0.
P∞
b) Sind Ak , k ∈ N unabhängig und ist k=1 P(Ak ) = ∞, so ist P(A∗ ) = 1.
Beweis.
a)
ω ∈ A∗ ⇔ ∀n ∈ N ∃k ≥ n : ω ∈ Ak
\ [
⇔ ω∈
Ak
(2)
n∈N k≤n

P(A∗ ) ≤ P 
[
k≤n
σ-Sub
addit.∞
↓ X
n→∞
An  ≤
P(Ak ) −−−−→ 0
k=n
61
6 Grenzwertsätze
P∞
da für jede konvergente Reihe
k=n
n→∞
ak −−−−→ 0.
⇒ 0 ≤ P(A∗ ) ≤ 0 ⇒ P(A∗ ) = 0
b) Für alle 0 ≤ s < 1 gilt 1 − s ≤ e−s , da s → e−s konvex ist (Mittelwertsatz)
Unabhängigk.
von (Ak )
bzw.(Ack )
⇒ P
N
\
Ack
k=n
! N
N
N
y Y
Y
Y
e−P(Ak ) =
=
P(Ack ) =
(1 − P(Ak )) ≤
{z
}
|
k=n
k=n
k=n
≤ e−P(Ak )
= e−
da
P∞
k=1
P(Ak )−
−−−→−∞ N →∞
N →∞
PN
k=n
−−−−→ 0
P(Ak ) = ∞.
∞
\
⇒P
k=n
∞
\
⇒P
!
Ack
N
\
≤P
k=n
N →∞
−−−−→ 0
k=n
!
Ack
!
Ack
=0
∀n ∈ N

[ \
(2)
⇒ P ((A∗ )c ) = P 

Ack  ≤
n∈N k≤n
∞
X
P(Ack ) = 0
| {z }
n=1
=0
⇒ P(A ) = 1 − P(A∗ c ) = 1
∗
Beweis 6.2. P
Wir können oBdA annehmen, dass E(Xn ) = E(X1 ) = 0 ist (sonst ersetze Xn durch Xn −E(Xn )).
Sei Zn = n1 i Xi .
1. Schritt:“ Zeige: (Zn2 )n∈N konvergiert fast sicher gegen 0. (Xn ) sind paarweise unkorreliert:
”
n
1 X
M
⇒ V(Zn2 ) = 4
V(Xi ) ≤
n i=1 | {z } n2
2
≤M
Tschebyscheff-Ungleichung:
⇒ P (|Zn2 | > ε) ≤
V(Zn2 )
m
≤ 2 2
ε2
ε n
Setze nun An := {ω : |Zn2 (ω)| > ε}.
⇒
∞
X
P(An ) ≤
n=1
∞
∞
X
M
M2 X 1
=
<∞
ε2 n2
ε2 n=1 n2
n=1
6.4a)
===⇒ P(A∗ ) = 0 mit A∗ = {ω ∈ Ω : |Zn2 (ω)| > ε für unendlich viele n ∈ N}
Wähle nun ε = k1 , k ∈ N und Ek = {ω : |Zn2 (ω)| > ε}
⇒ P(Ek ) = 0
⇒P
∞
[
Ek =: E
∀k ∈ N
!
=0
⇒ P(E c ) = 1
k=1
T∞
Für jedes x ∈ E c = Ω \ k=1 Ekc gilt nun limn→∞ Zn2 (ω) = 0, da es für alle k ∈ N nur endlich
viele n ∈ N gibt, mit |Zn (ω)| ≥ k1 .
62
6.2 Zentraler Grenzwertsatz
m→∞
2. Schritt:“ Zeige: Zm (ω) −−−−→ Z(ω)
für fast alle ω ∈ Ω. Für m ∈ N sei u = n(m), sodass u2 ≤ m <
Pm
”
2
(n + 1) und setze Sm = i=1 Xi .
Tschebyscheff-Ungleichung:
!
2
εn
⇒ P |Sm − Sn2 | > |{z}
≤
=:ε0
V
Pm
i=n2 +1
(εn2 )2
Xi
=
≤M
z }| {
V(Xi )
M (m − n2 )
2
= i=n +1
≤
ε2 n4
ε2 n4
∞
∞
X
M X
m − n(m)2
2
2
=
⇒
P |Sn − Sm(n) | > εn ≤ 2
ε m=1 n(m)4
|
{z
}
m=1
Pm
=:Am
≤ 2n + 1
z }| {
∞
M
m − n2
m X (2n + 1)2
= 2
≤
4
ε n=1
n4
ε2 n=1 | n
{z }
m=n2
|
{z
}
1
≤c· 2
(n + 1)2 − n2 Terme
n
{z
}
|
|
{z
}
= 2n + 1
<∞
2
+1)−1
∞ (n X
X
Borel-Cantelli wie im 1. Schritt anwenden auf (Am ) liefert:

 S
Sn2 m
−
m→∞

n(m)2 −
P  n(m)2
−−−→ 0 = 1
|
{z
}
=Z
n2
⇒ Für fast alle ω ∈ Ω gilt:
Zm (ω) =
da limn→∞ Zn2 (ω) = 0, limm→∞
Sm (ω)
n(ω)2
n(ω)2 Sm (ω) m→∞
·
−−−−→ 0
m } n(m)2
| {z
| {z }
≤c
m→∞
−−−−→0
− Zn(m)2 (ω) = 0 für fast alle ω ∈ Ω.
6.2 Zentraler Grenzwertsatz
Eine bemerkenswerte Verallgemeinertung vom Satz von Moivre-Laplace (Satz 4.3) ist:
Satz 6.5. Es seien (Xi )i∈N eine Folge von unabhängigen, identisch verteilten Zufallsvariablen (d.h. PXi =
PXj ∀i, j) mit Xi ∈ L2 (Ω, P) und E(Xi ) = m, V(Xi ) = v > 0. Dann ist
lim P (Sn∗ ≤ t) = Φ(t)
∀t ∈ R
n→∞
(3)
wobei
Sn∗
n
1 X Xi − m
√
,
=√
n i=1
v
1
Φ(t) = √
2π
Z
t
e−
x2
2
dx
−∞
Bemerkung.
a) Yi =
X√
i −m
v
ist normalisiert, d.h. E(Yi ) = 0, V(Yi ) = 1. ⇒ E(Sn∗ ) = 0, V(Sn∗ ) =
1
n
Pn
i=1
V(Yi ) = 1.
b) Sind Xi Bernoulli-verteilt, so erhalten wir den Satz von Moivre-Laplace (Satz 4.3).
63
6 Grenzwertsätze
c) Sind Xi N (µ, σ 2 )-verteilt, so ist
n
1 X Xi − µ
Sn∗ = √
σ }
n i=1 | {z
N (0, 1)-verteilt
|
{z
}
N (0, n)-verteilt
N (0, 1)-verteilt. In diesem Fall gilt P(Sn∗ ≤ t) = Φ(t).
d) Ist (Xi )i∈N eine Folge von Zufallsvariablen, so sagt man (Xi ) konvergiert in Verteilung gegen X, falls
lim FXn (t) = FX (t)
für alle t ∈ R, in dem FX stetig ist.
n→∞
Lemma 6.6. Die folgenden Aussagen sind äquivalent:
a) (Xi ) konvergiert in Verteilung gegen X.
b) FXi konvergiert gleichmäßig gegen FX , d.h.
i→∞
sup |FXi (t) − FX (t)| −−−→ 0
t∈R
c) Für jede stetige und beschränkte Funktion f : R → R gilt:
lim E(f ◦ Xi ) = E(f ◦ X)
(4)
i→∞
d) Für jede stetige, beschränkte, dreimal stetig differenzierbare Funktion f : R → R mit beschränkten
Ableitungen gilt (4)
Beweis. Siehe [3, Georgii, Bemerkung 5.28].
d) ⇒ a) Es sei t ∈ R, sodass FX stetig ist. Dann gibt es zu jedem δ > 0 ein f ∈ C 3 (R) mit beschränkter
Ableitung, sodass
1(−∞,t] (x) ≤ f (x) ≤ 1(−∞,t+δ) (x)
Vor.
↓
=
Rt
−∞
⇒ lim sup FXi (t) ≤ lim sup E(f ◦ Xi ) = E(f ◦ X)
| {z }
i→∞
R i→∞
dPXi (x) = R 1(−∞,t] (x) dPXi (x) = E 1(−∞,t] ◦ X
⇒ lim sup FXi (t) ≤ E(f ◦ X) ≤ E 1(−∞,t+δ]◦X
{z
}
|
i→∞
δ→0
FX (δ + t) −−−→ FX (t) da F stetig ist.
⇒ lim sup FXi (t) ≤ FX (t)
i→∞
Ähnlich ziegt man:
lim FXi (t) ≥ lim E(f˜ ◦ Xi ) = E(f˜ ◦ X) ≥
i→∞
≥ E 1(−∞,t−δ] (x) = FX (t − δ)
i→∞
wobei f˜ ∈ C 3 (R) mit
1(−∞,t−δ] (x) ≤ f˜(x) ≤ 1(−∞,t] (x)
⇒ lim inf FXi (t) ≥ lim FX (t − δ) = FX (t)
i→∞
δ→0
⇒ lim FXi (t) = FX (t)
i→∞
64
6.2 Zentraler Grenzwertsatz
Lemma 6.7 (Taylorentwicklung). Es sei f ∈ C 3 (R) beschränkt und mit beschränkten Ableitungen und X, Y
seien unabhängige Zufallsvariablen. Dann gilt:
Y 2 E f (X + Y ) = E f (X) + E f 0 (X) E(Y ) + E f 00 (X) E
+ E R(X, Y )
2
2
3
wobei R(X, Y ) = Y6 f 000 (x + ϑXY Y ) = Y2 f 00 (x + ϑ̃XY Y ) − f 00 (X) mit ϑ, ϑ̃ ∈ [0, 1].
Beweis.
Z
E(X + Y ) =
TaylorZf
↓
f X(ω) + Y (ω) dP(ω) =
f X(ω) dP(ω) +
Ω
{z
}
|Ω
Z
E(f ◦X)
Z
Z
Y 2 (ω)
+
f 0 X(ω) Y (ω) dP(ω) +
f 00 X(ω)
dP(ω) +
R X(ω), Y (ω) dP(ω) =
2
Ω
Ω
|Ω
{z
}
E(f (X)·Y )
Y2
0
00
+E R(X, Y )
= E f (X) + E f (X) · Y + E f (X) ·
2
{z
} |
|
{z
}
=E(f 0 (X))E(Y ), da
f 0 (X),Y unabhängig
→ 6.8
2
E(f 00 (X))E( Y2 )
Lemma 6.8. Sind X1 , . . . , Xn unabhängige Zufallsvariablen und f : Rk → R, k ≤ n − 1, so sind
f (X1 , . . . , Xk ), Xk+1 , . . . , Xn
unabhängig.
Beweis. Zentralübung
Beweis 6.5. nach [3, Georgii]
Es sei (Yi )i∈N eine Folge von unabhängigen standartnormalverteilten Zufallsvariablen, sodass (Xi )i∈N , (Yi )i∈N
unabhängig sind. Existenz von (Yi ) wird in den Ergänzungen gezeigt. Dann sind:
n
1 X
√
Yi
n i=1
standartnormalverteilt (siehe Bemerkungen).
oBdA: Sei E(Xi ) = 0, V(Xi ) = 1 sonst ersetze Xi durch
X√
i −m
.
v
Wir nutzen Lemma 6.6d)) um Konvergenz in Verteilung zu zeigen. Dazu zeigen wir
!!
!!
n
n
1 X
1 X
n→∞
E f √
Xi
−E f √
Yi
−−−−→ 0
n i=1
n i=1
(5)
Dazu sei für alle i = 1, . . . , n:
1
Zn,i = √ (X1 + . . . + Xi−1 + Yi+1 + . . . + Yn )
n
√1 Xi
n
= Zn,i+1 + √1n Yi+1 für alle i = 1, . . . , n − 1
Pn
2.) Zn,n + Xn = √1n i=1 Xi
Pn
3.) Zn,1 + Y1 = √1n i=1 Yi
1.) Zn,i +
65
6 Grenzwertsätze
X
n
n
X
1
1
⇒ (5) =
E f Zn,i + √ Xi − f Zn,i + √ Yi
=
Ii
n
n
i=1
i=1
|
{z
}
Xi wird als Yi ersetzt.
Teleskopsumme
Aus Lemma 6.7 folgt nun:
=0
=0
z }| {
z }| {
1
1
0
0
Ii = E(f (Zn,i )) − E(f (Zn,i )) + E(f (Zn,i )) E √ Xi −E(f (Zn,i )) E √ Yi +
n
n
2
2 Xi
Yi
1
1
00
√
√
+ E(f (Zn,i )) E
−E
+E R Zn,i ,
Xi − R Zn,i ,
Yi
2n
2n
n
n
{z
}
|
=
wobei
V(Xi )
V(Y )
− 2 i =0
2

 |Xi |3
c · √n3 ≤ ε|Xi |2 falls
1
E R Zn,i , √ Xi
≤
 |Xi |2
n
c· n
falls
3
c̃
i|
E R Zn,i , √1 Yi
≤ c · E |Y
√
= √
n
n n
n n
√1 |Xi |
n
√1 |Xi |
n
≤ε
>ε


i)
= V(X
n
n
X
}|

z {
2
⇒ |(5)| ≤
|Ii | ≤ c ·

Xi2
Xi
c =
εE
· 1{ √1 |Xi |≤ε} +cE
· 1{ √1 |Xi |>ε} + √
i=1
i=1
n
n
n
n
n n
n
X 1
nV(Xi )
1
√
≤ cε ·
+n · E Xi2 · 1{ n1 |Xi |>ε} +
n }
n|
{z
} i=1 n n
| {z
| {z }
=1
= (∆)
= √1n
1
≤ c · ε + √ + (∆)
n
n
X
wobei
X12 · 1{|Xi |>√nε}
|
{z
}
(∆) = E |{z}
n→∞
∈L1
−−−−→0 punktw.
!
n→∞
−−−−→ 0
Majorisierte Konvergenz.
⇒ lim sup |(5)| ≤ cε
∀ε > 0
n→∞
⇒ lim |(5)| = 0
n→∞
Beispiel 1 (Brown’sche Molekularbewegung). Ein schweres Teilchen erfahre durch zufällige Stöße von beliebigen Teilchen pro Zentimeter eine zufällige Geschwindigkeitsänderung (-umkehr), d.h. für den Ort Xt ∈ R
zur Zeit t = 0, 1, 2, 3, 4, 5, . . . gilt
t
X
Xt =
Vi
i=1
wobei
1
für ein ν > 0
2
√
Dies gelte, sofern die Zeiten in kleinen Zeiteinheiten (∼ ε) und Xt in kleinen Längeneinheiten (∼ ε)
gemessen wird. Durch Skalierung geht man nun zu einer makroskopischen Größe über, indem man:
√
(ε)
Bt := ε · Xb εt c
P(Vi = ±ν) =
setzt.
66
6.2 Zentraler Grenzwertsatz
x, t ∈ R
Xt
(ε)
Bt
ε
x, t ∈ N
Behauptung.
Z
(ε)
lim P Bt ≤ x =
ε→0
wobei %t (x) =
x2
−
t
e√
2πt
x
−∞
%t (y) dy
∀t ≥ 0, x ∈ R
Wärmeleitkern falls v = 1.
Beweis. Falls v = 1, gilt: V(Xi ) = E(Xi )2 = 12 (1+1) = 1 und E(Xi ) = 0. Setze Nε = b εt c ⇒
ε→0
und N −−−→ ∞.
P
(ε)
Bt
Nε
√ X
≤x =P
ε
vi ≤ x
!
Nε
=P
i=1
ε→0
x
wobei √xt ≤ √Nx ε ≤ √t−ε
−−−→
ε
Dann ist ∀0 < ε ≤ ε0 :
x
√
.
t
x
1 X
√
vi ≤ √
εNε
N ε i=1
Sei nun δ > 0 beliebig und ε0 > 0, sodass
√x
t−ε
t
ε −1
< Nε ≤
t
ε
!
≤
x
√
ε
+ δ ∀0 < ε ≤ ε0 .
!
Nε
x
x
1 X
(ε)
∗
P
vi ≤ √
≤ P Bt ≤ x ≤ P SNε ≤ √ + δ
Nε i=1
t
t
|
{z }
ε→0
−−−→ Φ √xt
x
x
ε→0
∗
√
√
P SN
≤
+
δ
−
−
−
→
Φ
+
δ
ε
ε
t
⇒ Φ
⇒ lim P
ε→0
(ε)
Bt
x
√
t
(ε)
≤ lim inf P Bt ≤ x
ε→0
x
(ε)
≤ lim sup P Bt ≤ x ≤ Φ √ + δ
t
ε→0
|
{z } δ → 0 ⇒ Φ √xt
≤x =Φ
x
√
t
Z
=
x
−∞
s2
s= √ytZ
e− 2
↓
√ ds =
2π
x
−inf ty
∀δ > 0
y2
e− 2t
√
dy
sπt
Bemerkung. %t (x) löst die sogenannte Wärmeleitungsgleichung
δt u(t, x) = δx2 u(t, x) = 0
∀t > 0, x ∈ R
%t heißt Fundamentallösung der Wärmeleitungsgleichung. Lösungen dieser Gleichung beschreiben Konzentrationen von Stoffen bei (einfachen) Differsionsprozessen.
67
Teil II
Statistik
68
7 Einführung in die Schätztheorie
Referenz. Nach Skript von [2, König] und [1, Krengel §4, §13]
7.1 Grundbegriffe
Grundproblem. In der Realität ist meist das genaue stochastische Modell (bzw. der zugehörige Wahrscheinlichkeitsraum) für einen gegebenen Prozess nicht bekannt.
Selbst wenn man die Art der zugehörigen Verteilung passend modellieren kann (z.B. durch eine Binomialverteilung), so sind oft die Parameter (z.B. n ∈ N, p ∈ [0, 1]) unbekannt und müssen aus Ergebnissen geeigneter
Experimente geschlossen werden.
Beispiel 1. Schätzung eines Fischbestandes: In einem Teich ist eine unbekannte Anzahl N von Fischen.
Wir wollen N schätzen. Dazu fischen wir W ≤ N Fische aus dem Teich, markieren diese und werfen sie in
den Teich. Nach einigen Tagen (damit markierte und unmarkierte Fische gut durchmischen“) fischen wir n
”
Fische und zählen x markierte Fische unter diesen.
Frage: Was ist (basierend auf diesen Daten) eine gute Schätzung für N ?
1. Ansatz: Quote der gefangenen, markierten Fische ∼ Quote aller markierten Fische:
W
x
∼
n
N
⇒N ≈W ·
n
=: N1 (x)
x
Also nehmen wir N1 (x) den Schätzer für N .
2. Ansatz: Wir nehmen an, dass die Zahl x Hypn,W,NW -verteilt ist.
Frage: Für welches N ∈ N besitzt das beobachtete Ereignis x die größte Wahrscheinlichkeit? D.h.
(W )(N −W )
für welches N ≥ max(x, W ) ist PN (x) = Hypn,W,N −W (x) = x Nn−x maximal?
(n)
Dazu betrachten wir:
PN (x)
=
PN −1 (x)
N −1 N −W
n
n−x
N N −1−W
n−x
n
=
N −n
N −W
Wn − Nx
·
=1+
≥1
N
N −W −n+x
N (N − W − n + x)
⇔ Wn − Nx ≥ 0
⇒ N ≤ W nx
D.h. das Maximum liegt bei Ñ2 (x) =
Schätzer für N sein.
Wn
x . Somit sollten N2 (x) =
Wn
x
oder Ñ2 (x) =
Wn
x
gute
Bemerkung. Ein Schätzer, der nach diesem Ansatz bestimmt ist, heißt Maximum-Likelihood-Schätzer.
Nun erstmal zum Allgemeinen Kontext der Schätztheorie:
Definition 7.1 (Statistisches Modell). Ein statistisches Modell ist ein Tripel X , A, (Pϑ )ϑ∈Θ , wobei
(X , A) ein messbarer Raum ist, Θ eine (mindestens zweielementige) Indesxmenge und Pϑ : A → [0, 1] sind
für alle ϑ ∈ Θ Wahrscheinlichkeitsmaße. X heißt Stichprobenraum.
Definition 7.2. Sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell.
69
7 Einführung in die Schätztheorie
a) M heißt parametrisiertes Modell, falls Θ ⊆ Rn für ein n ∈ N und M heißt einparametrig, falls
Θ ⊆ R.
b) M heißt diskret, falls X abzählbar oder endlich und A = P(X ) ist. In diesem Fall ist
pϑ (x) = Pϑ ({x})
∀x ∈ X
c) M heißt stetig, falls X ⊆ Rn Borel-messbar ist (d.h. X ∈ B(Rn )) und
n
o
A = B(X ) =: A ⊆ X : A = B ∩ X für B ∈ B(Rn )
und jedes Pϑ eine Dichte %ϑ besitzt.
d) M heißt Standardmodell, falls M stetig oder diskret ist.
Beispiel 2. Wählt man X = N, Θ = N, x ∈ X , N ∈ Θ und Pϑ = PN , sodass
PN ({x}) = Hypn,W,N −W (x)
∀x ∈ N, N ∈ Θ = N
so erhält man ein diskretes statistisches Modell für Beispiel 1.). Hierbei sei
Hypn,W,N −W (x) = 0
∀x ≥ min(W, n) ∀x < max(0, n − N + W )
Um endliche Serien von unabhängigen Experimenten zu modellieren, benötigen wir:
Definition 7.3 (Produktmodell). Sei M = X , A, (Pϑ )ϑ∈Θ ein Standardmodell und n ∈ N. Dann heißt
M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ
n-faches Produktmodell, wobei:
a) Falls M diskret: A⊗n = P(X n ) und
Pϑ ⊗n (x) = pϑ (x1 ) · . . . · pϑ (xn )
∀x ∈ X n
(1)
wobei Pϑ ⊗n ({x}) = pϑ ⊗n (x)Z∀x ∈ X n .
b) Falls M stetig: A⊗n = B(X n ) und Pϑ ⊗n habe Dichte pϑ ⊗n mit pϑ (x) gegeben durch (1) ∀x ∈ X n
Schließlich sei Xi : X n → X die Projektion auf die i-te Komponente, d.h. Xi (x) = xi ∀x ∈ X n .
Bemerkung.
X1 , . . . ,Xn sind unabhängig bezüglich Pϑ ⊗n ∀ϑ ∈ Θ und jedes Xi hat Verteilung Pϑ , sofern
⊗n
n
⊗n
X , A , Pϑ
der zugrundeliegende Wahrscheinlichkeitsraum ist (vgl. Folgerung 5.22, Satz 3.4).
ϑ∈Θ
Bemerkung. Die Erwartungswerte und die Varianz bzgl. Pϑ und Pϑ ⊗n werden mit Eϑ und Vϑ , bzw. Eϑ ⊗n
und Vϑ ⊗n bezeichnet.
7.2 Beispiele für Schätzer
Definition 7.4. Es sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Σ ein messbarer Raum, der Ereignisraum.
a) Jede Zufallsvariable S : X → Σ heißt Statistik.
b) Sei τ : Θ → Σ eine messbare Abbildung, die Kenngröße, so heißt jede Statistik T : X → Σ Schätzer
für τ .
Beispiel 3. Es sei X = Θ = N wie in Beispiel 2.) (Fischteich) und τ : N → R =: Σ gegeben durch
τ (N ) = N ∀N ∈ N. Dann heißt jede messbare Abbildung T :: N → R Schätzer für τ , die unbekannte Zahl
der Fische. Insbesondere sind N1 , N2 , Ñ2 Schätzer. T muss im Allgemeinen nichts mit τ zu tun haben (nach
Definition).
70
7.2 Beispiele für Schätzer
Taxiproblem: In einer großen Stadt gebe es eine unbekannte Zahl von N Taxis, die wir Schätzen wollen. Jedes
Taxi trage genau eine der Zahlen 1, . . . , N . Wir stellen uns an eine Kreuzung und warten, bis n verschiedene
Taxis vorbeigefahren sind, mit den Nummern 1 ≤ x1 ≤ . . . ≤ xn ≤ N .
Frage: Was ist eine gute Schätzung von N (gegeben x1 , . . . , xn ).
1. Ansatz: Wähle N ∩ (x1 , . . . , xn ) = max{x1 , . . . , xn } = xn . Dies ist der sogenannte Maximum-LikelihoodSchätzer: Wenn wir annehmen, dass alle n-elementigen Teilmengen von {1, . . . , N } gleich wahrscheinlich sind so ist die Wahrscheinlichkeit
1
∀xn ≤ N
PN (x1 , . . . , xn ) = N n
N
Dies ist maximal für N1 = xn , da
n
in N monoton wächst.
Problem: Es gilt immer N1 (x1 , . . . , xn ) < N , sofern nicht xn = N .
2. Ansatz: Aus Symmetriegründen sollte gelten, dass:
x1 − 1 ≈ N − xn
⇒ N2 (x1 , . . . , xn ) = x1 + xn − 1
3. Ansatz: Es sollte gelten: N − xn = Mittelwert der Lücken zwischen den Zahlen 1 ≤ x1 , . . . , xn .
1
(x1 − 1) + (x2 − x1 − 1) + . . . + (xn − xn−1 − 1)
⇒ N − xn ≈
n
xn − n
=
n
⇒ N3 (x1 , . . . , xn ) = x + n +
xn −n
n
sollte ein guter Schätzer für N sein.
Beispiel 4. Raten des Bereichs von Zufallszahlen: Ein Showmaster produziert mit einer Maschine Zufallszahlen, die in [0, ϑ] gleichverteilt (= gleichförmig verteilt) sind. ϑ ∈ Θ = (0, ∞) wird geheim eingestellt. Nun
sollen die Kandidaten aufgrund von n gegebenen Zufallszahlen x1 , . . . , xn den Parameter τ (ϑ) = ϑ schätzen.
Unter der Annahme, dass x1 , . . . , xn unabhängig sind, bietet sich das statistische Modell
(0, ∞)n , B ((0, ∞)n ) , Pϑ ⊗n ϑ∈Θ
an, wobei Pϑ die Dichte pϑ (x) =
1
ϑ
1[0,ϑ] (x) hat.
1. Ansatz: Schwaches Gesetz der großen Zahlen
n
⇒ T1 (x1 , . . . , xn ) =
2
n
Pn
i=1
2. Ansatz: Wähle
1X
ϑ
1
xi ≈ E(x1 ) = =
n i=1
2
ϑ
Z
0
ϑ
x dx
xi ist ein plausibler Schätzer für ϑ.
T2 (x1 , . . . , xn ) = max{x1 , . . . , xn }
Dann gilt zwar T2 (x1 , . . . , xn ) ≤ ϑ und fast sicher T2 (x1 , . . . , xn ) < ϑ wegen Pϑ (xj = ϑ) =
0Z∀j = 1, . . . , n. Allerdings gilt für alle ε > 0
Pϑ ⊗n {|T2 (x1 , . . . , xn ) − ϑ| ≥ ε) = Pϑ ⊗n (max{x1 , . . . , xn } ≤ ϑ − ε) =
x1 ,...,xn
unabhängig
↓
= Pϑ ⊗n (x1 ≤ ϑ − ε, . . . , xn ≤ ϑ − ε) =
= Pϑ ⊗n (x1 ≤ ϑ − ε) · . . . · Pϑ ⊗n (xn ≤ ϑ − ε) =
| R {z
}
1
ϑ
=
ϑ−ε
0
dx= ϑ−ε
ϑ
ϑ − ε n→∞
−−−−→ 0
ϑ
| {z }
n
<1
⇒ T2 (x1 , . . . , xn ) konvergiert stochastisch gegen ϑ. Das gleiche gilt für T1 (x1 , . . . , xn ) wegen dem
schwachen Gesetz der Großen Zahlen.
71
7 Einführung in die Schätztheorie
Frage: Welcher der beiden Schätzer ist besser? Das hängt vom Gütekriterium ab.
1. Kriterium: Erwartungstreue
Definition 7.5. Sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße. Dann
ist dein Schätzer T : X → R erwartungstreu (bzgl. τ ), falls
Z
Eϑ (T ) =
T (x) dPϑ (x) = τ (ϑ)
∀ϑ ∈ Θ
X
T1 ist erwartungstreu (in Beispiel 4), da
Eϑ ⊗n (T1 ) =
n
2
2 X ⊗n
Eϑ (xi ) = 2 · Eϑ ⊗n (x1 ) =
n i=1
ϑ
Z
0
ϑ
x dx = ϑ
T2 ist nicht erwartungstreu, aber asymptotisch erwartungstreu, d.h.
n→∞
Eϑ ⊗n (T2 ) −−−−→ ϑ
n
n→∞
Eϑ ⊗n (T2 ) =
ϑ −−−−→ ϑ
n+1
Denn T2 hat die Verteilungsfunktion
Fn (t) = Pϑ ⊗n (x1 ≤ t, . . . , xn ≤ t) = Pϑ ⊗n (x1 ≤ t)


falls t ≥ ϑ
1
= ( ϑt )n falls 0 < t < ϑ


0
falls t ≤ 0
⇒ T2 hat die Dichte
n
=


t≥ϑ
0
−n
n−1
0
fn (t) = Fn (t) = nϑ t
0≤t<ϑ


0
t≤0
Z ϑ
n
⇒ Eϑ ⊗n (T2 ) =
t · n · ϑ−n tn−1 dt =
·ϑ
n
+
1
0
Aus T2 bekommt man einen Erwartungstreuen Schätzer durch
T3 (x1 , . . . , xn ) =
n+1
· T2 (x1 , . . . , xn )
n
2. Kriterium: Minimale Varianz
Es hilft wenig, wenn ein Schätzer erwartungstreu ist, aber stark streut, d.h. wenn die Varianz gros ist.
⇒ Varianz sollte klein sein.
Es gilt:
Vϑ ⊗n (T1 ) =
n
ϑ2
4 X ⊗n
4
⊗n
·
V
(x
)
=
V
(x
)
=
ϑ
i
ϑ
1
n2 i=1 | {z } n | {z } 3n
2 )
Vϑ ⊗n
(x
1
=ϑ
12 Varianz der Gleichverteilung auf [0,ϑ]
nϑ2
Berechnet man mit Hilfe der Dichte
(n + 1)2 (n + 2)
2 n+1
ϑ2
1
⊗n
⊗n
Vϑ (T3 ) =
·Vϑ (T2 ) =
=O
für n → ∞
n
n(n + 2)
n2
| {z }
Vϑ ⊗n (T2 ) =
≥1
72
7.3 Das Maximum-Likelihood-Prinzip
Für große n sind die Varianzen von T2 und T3 wesentlich kleiner als von T1 . Allerdings gilt:
Vϑ ⊗n (T2 ) < Vϑ ⊗n (T3 )
Aber T2 streut um den falschen Erwartungswert. Seine mittlere quadratische Abweichung von τ (ϑ) = ϑ
ist:
2
Eϑ ⊗n (T2 (n) − ϑ)2 = Vϑ ⊗n (T2 (n)) + ϑ − Eϑ ⊗n (T2 )
Bemerkung. Es gilt allgemein:
E (X − a)2 = V(X) + (a − E(X))2
∀X ∈ L2
vgl. Beweis von Lemma 3.11
⇒ Die mittlere quadratische Abweichung von T2 ist:
Eϑ ⊗n T2 (n) − ϑ)2 =
ϑ2
nϑ2
=
+
2
(n + 1) (n + 2) (n + 2)2
2ϑ2
=
> Vϑ ⊗n (T3 )
(n + 1)2 (n + 2)
da
2
1
> für n ≥ 2
n+1
n
Für große n ist die quadratische Abweichung von T2 fast doppelt so groß, wie Vϑ ⊗n (T3 ).
7.3 Das Maximum-Likelihood-Prinzip
In diesem Abschnitt formalisieren wir die Maximum-Likelihood-Konstruktion aus Beispiel 1.)
Definition 7.6 (Maximum-Likelihood-Schätzer). Es sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Standardmodell und %ϑ (x) = Pϑ ({x}) falls M diskret ist und %ϑ (x) sei die Dichte von Pϑ sonst.
a) Die Abbildung % : X × Θ → [0, ∞) mit %(x, ϑ) = %ϑ (x) heißt Likelihood-Funktion, oder Plausibilitätsfunktion. Die %x : Θ → [0, ∞) Likelihood-Funktion zum Beobachtungswert x ∈ X .
b) Ein Schätzer T : X → Θ für τ (ϑ) = ϑ ist ein Maximum-Likelihood-Schätzer, falls
% x, T (x) = max %(x, ϑ)
∀x ∈ X
ϑ∈Θ
Beispiel 5. Reißnagel: Ein auf den Boden geworfener Reißnagel fällt mit unbekannter Wahrscheinlichkeit
ϑ ∈ [0, 1] auf die Spitze. Wir werfen den Reißnagel n-mal und zählen, dass er x-mal dabei auf die Spitze
fällt. Da die Ergebnisse der Würfe unabhängig sind, ist x Bin,ϑ -verteilt mit ϑ ∈ [0, 1] unbekannt.
Dann ist die Likelihood-Funktion:
%(x, ϑ) = %ϑ (x) = Bin,ϑ (x) =
n x
ϑ (1 − ϑ)n−x
x
für x ∈ {0, . . . , n}, ϑ ∈ [0, 1]
Mit der sogenannten Log-Likelihood-Funktion log %x lässt sich besser rechnen, da
n
log %x (ϑ) = log
+ x log ϑ + (n − x) log(1 − ϑ)
x
Da log : (0, ∞) → R streng monoton wachsend, ist %x an einer Stelle ϑe maximal genau dann, wenn log %x
an der Stelle ϑe maximal ist. Nun ist:
d
x n−x
log %x (ϑ) = −
=: f (ϑ)
dϑ
ϑ
1−ϑ
f : (0, 1) → R ist streng monoton fallend und f (ϑ) = 0 für ϑ = xn.
⇒ T (x) =
x
n
ist der eindeutige Maximum-Likelihood-Schätzer.
73
7 Einführung in die Schätztheorie
Beispiel 6. Bereich von Zufallszahlen: Die Likelihood-Funktion zu Beispiel 4.) ist:
(
ϑ−n falls x1 , . . . , xn ≤ ϑ
%x (ϑ) =
0
sonst
wobei x = (x1 , . . . , xn ). Der Schätzer T2 (n) = max{x1 , . . . , xn } ist der Maximum-Likelihood-Schätzer, denn
für gegebenes x1 , . . . , xn ist das Maximum max{x1 , . . . , xn } = ϑe die kleinste Zahl ϑ mit x1 ≤ ϑ, . . . , xn ≤ ϑ
und %x (ϑ) ist maximal für minimales ϑ ≥ x1 , . . . , xn .
Ein wichtiges statistisches Modell mit zwei Parametern ist das Gauß-Modell:
Satz 7.7 (Maximum-Likelihood-Schätzer imGauß-Modell). Für n ∈ N betrachten wir das Produkt-GaußModell Rn , B(Rn ), (N (µ, σ 2 )⊗n )µ∈R,σ2 ∈(0,∞) , wobei N (µ, σ 2 ) die Normalverteilung (Gaußverteilung) mit
Erwartungswert µ und Varianz σ 2 mit Dichte
(x−µ)2
2σ 2
e−
ϕµ,σ (x) = √
2πσ
ist. Dann ist der einzige Maximum-Likelihood-Schätzer für τ (µ, σ 2 ) = (µ, σ 2 ) ∀(µ, σ 2 ) ∈ R × [0, ∞) gegeben
durch:
n
n
1X
1X
xi ,
V =
(xi − M )2
T = (M, V ),
M=
n i=1
n i=1
Beweis. 10. Übungsblatt
Bemerkung. Man nennt M auch den empirischen Mittelwert und V die exmpirische Varianz der Zufallsgröße x1 , . . . , xn .
7.4 Erwartungstreue und quadratische Fehler
Definition 7.8 (Bias). Ist M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße
und T : X → R ein Schätzer für τ , so heißt
Bϑ (T ) = Eϑ (T ) − τ (ϑ)
für ϑ ∈ Θ der Bias oder systematischer Fehler von T .
Bemerkung.
1.) Ein Schätzer ist erwartungstreu ⇔ Bϑ (T ) = 0 ∀ϑ ∈ Θ.
2.) In Beispiel 4.) und 6.) ist T2 (n) ein Maximum-Likelihood-Schätzer. Dieser ist nicht erwartungstreu.
Auch der Maximum-Likelihood-Schätzer in Satz 7.7 (Gauß-Modell) ist nicht erwartungstreu, wie der
folgende Satz zeigt:
Satz 7.9 (Erwartungstreue Schätzer für Erwartungswert und Varianz). Es sei n ∈ N, n ≥ 2, X n , A⊗n , Pϑ ⊗n ϑ∈Θ
ein n-faches Produktmodell eines Standardmodells X , A, (Pϑ )ϑ∈Θ mit X ⊆ R. Für jedes ϑ ∈ Θ sei
Z
m(ϑ) = Eϑ (Pϑ ) :=
x dPϑ (x)
ZX
v(ϑ) = Vϑ (Pϑ ) :=
(x − m(ϑ))2 dPϑ (x)
X
der Erwartungswert und die Varianz von Pϑ . Dann sind der empirische Mittelwert und die korrigierte empirische Varianz
n
M=
1X
xi
n i=1
V∗ =
1 X
(xi − M )2
n − 1 i=1
erwartungstreue Schätzer für m(ϑ) bzw. v(ϑ).
74
n
7.4 Erwartungstreue und quadratische Fehler
Beweis.
1.) Es ist
Eϑ
⊗n
n
1 X ⊗n
Eϑ (Xi ) = Eϑ (Pϑ ) = m(ϑ)
(M ) =
n i=1 | {z }
=Eϑ (Pϑ ), da
Xi Pϑ -verteilt
2.) Es sei V =
n−1 ∗
n V
=
1
n
Pn
− M )2 . Dann gilt:
i=1 (Xi
Eϑ ⊗n (V ) =
n
1 X ⊗n
Eϑ
(Xi − M )2 =
n i=1
{z
}
|
⊗n
=V⊗n
ϑ (Xi −M ), da Eϑ (Xi −M )=0
=V⊗n
(X
−M
),
da
X
1
i gleichverteilt
ϑ
= Vϑ
⊗n
(X1 − M ) = Vϑ
⊗n
n
1X
n−1
X1 −
Xi
n
n i=2
!
=
Bienaymé

n
y n − 1 2
1 X ⊗n
=
Vϑ ⊗n (X1 ) + 2
Vϑ (Xi ) =
| {z } n
n
i=2 |
{z }
=v(ϑ)
=
⇒ Eϑ ⊗n (V ∗ ) =
n
n−1
2
(n − 1)
n−1
+
n
n2
=v(ϑ), da Xi Pϑ -verteilt
· v(ϑ) =
n−1
· v(ϑ)
n
· Eϑ ⊗n (V ) = v(ϑ).
Ein Maß für die Qualität eines Schätzers ist:
Definition 7.10. Es sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine reelle Kenngröße und
T : X → R ein Schätzer. Dann ist der mittlere quadratische Fehler von T :
Fϑ (T ) = Eϑ (T − τ (ϑ))2
Bemerkung.
1.) Es gilt:
Fϑ (T ) = Vϑ (T ) + Bϑ (T )2
∀ϑ ∈ Θ
vgl. Beispiel 4
2.) Um den quadratischen Fehler klein zu halten, muss aber die Summe aus Varianz und Bias2 klein sein.
Dazu muss der Bias aber nicht unbedingt verschwinden, wie das folgende Beispiel zeigt.
Beispiel 7. Ein guter Schätzer mit Bias: Wir betrachten das Binomialmodell {0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈[0,1]
aus Beispiel 5. Der Maximum-Likelihood-Schätzer ist T (x) =
Eϑ (T ) =
x
n.
Dieser ist erwartungstreu, da:
1
1
Eϑ (x
) = nϑ = ϑ
n
n
y
Bin,ϑ -verteilt
Nun S(x) =
x+1
n+2 .
Dann ist S nicht mehr erwartungstreu, aber es gilt:
für alle ϑ −
Fϑ (S) ≤ Fϑ (T )
vgl. 10. Übungsblatt. D.h. ist bekannt, dass ϑ nahe bei
kleineren quadratischen Fehlers.
1
2
3
1 ≤ 2− 2
2
liegt, so ist S ein besserer Schätzer im Sinne eines
75
7 Einführung in die Schätztheorie
7.5 Varianzminimierende Schätzer
Definition 7.11. Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und τ : Θ → R eine reelle Kenngröße.
Dann heißt ein erwartungstreuer Schätzer T für τ varianzminimierend, oder bester (gleichmäßiger)
Schätzer, wenn für jeden erwartungstreuen Schätzer S für τ gilt, dass
Vϑ (T ) ≤ Vϑ(S)
∀ϑ ∈ Θ
Wir werden uns auf einparametrige Modelle beschränken und varianzminimierende Schätzer für die folgende
Klasse von Modellen konstruieren:
Definition 7.12 (Reguläre Modelle, Fischerinformation). Ein einparametriges Modell X , A, (Pϑ )ϑ∈Θ heist
regulär, falls Θ ⊆ R ein offenes Intervall ist und:
i) Die Likelihood-Funktion % : X × Θ → [0, ∞) strikt positiv und nach ϑ ∈ Θ stetig differenzierbar ist.
ii) Für jedes ϑ ∈ Θ existiert die Varianz
I(ϑ) := Vϑ (Uϑ )
und ist positiv, wobei
Uϑ (x) =
%0 (ϑ)
d
log %(x, ϑ) = x
dϑ
%x (ϑ)
die sog. Score-Funktion ist.
Außerdem gelte:
Z
Z
d
d
%(x, ϑ) dx =
%(x, ϑ) dx
dϑ X
X dϑ
X d
d X
%(x, ϑ) =
%(x, ϑ)
dϑ
dϑ
x∈X
falls M stetig
falls M diskret
(2)
x∈X
I : Θ → [0, ∞) heißt Fischerinformation.
Der Einfachheit halber schreiben wir ab jetzt auch
R
X
. . . dx statt
P
x∈X
. . . im diskreten Fall.
Bemerkung.
a) Aus der Vertauschungsrelation (2) folgt Eϑ (Uϑ ) = 0, denn
Z
Z
%0x (ϑ)
d
Eϑ (Uϑ ) =
· %x (ϑ) dx =
%(x, ϑ) dx = 0
dϑ X
X %x (ϑ)
|
{z
}
=1
b) Wegen Eϑ (Uϑ ) = 0 folgt:
I(ϑ) = Vϑ (Uϑ ) = Eϑ (Uϑ2 ) =
Z
X
%02
x (ϑ)
dx
%x (ϑ)
⇒ Große Werte von I(ϑ) bedeuten große Änderungen der Likelihodd-Funktion %(., ϑ) bei Variation
von ϑ.
c) Die Vertauschungsrelation ist erfüllt, falls es für jedes feste ϑ0 ∈ Θ eine Umgebung N (ϑ0 ) gibt, sodass
Z
d
sup
%(x, ϑ) dx < ∞
dϑ
X ϑ∈N (ϑ0 )
Folgt aus Satz über majorisierte Konvergenz und Approximation von
d
dϑ
durch Differenzenquotienten.
Die Bedeutung der Fischer-Information folgt aus folgendem Satz. Dazu nennen wir einen (erwartungstreuen)
Schätzer T (x) regulär, falls
Z
Z
d
d
T (x)
%(x, ϑ) dx =
T (x)%(x, ϑ) dx
dϑ
dϑ X
X
76
7.5 Varianzminimierende Schätzer
Satz 7.13 (Informationsungleichung). Sei M = X , A, (Pϑ )ϑ∈Θ ein reguläres Standardmodell, τ : Θ → R
eine stetig differenzierbare Kenngröße mit τ 0 (ϑ) 6= 0 ∀ϑ ∈ Θ und T ein regulärer, erwartungstreuer Schätzer
für τ . Dann gilt:
Vϑ (T ) = Fϑ (T ) ≥
τ 0 (ϑ)2
I(ϑ)
∀ϑ ∈ Θ
(3)
Gleichheit gilt genau dann, wenn
τ 0 (ϑ) · Uϑ (x)
I(ϑ)
∀ϑ ∈ Θ und fast alle x ∈ X
(4)
%(x, ϑ) = ea(ϑ)T (x)−b(ϑ) h(x)
∀ϑ ∈ Θ und fast alle x ∈ X
(5)
T (x) − τ (ϑ) =
Es gilt (4) genau dann, wenn
I(ϑ)
τ 0 (ϑ)
wobei a : Θ → R stetig differenzierbar mit a0 (ϑ) =
Z
b(ϑ) = log
X
6= 0 und h : X → (0, ∞) messbar ist. Hierbei ist:
ea(ϑ)T (x) h(x) dx
Bemerkung.
a) Wenn sich ein regulärer, erwartungstreuer Schätzer T : X → R finden lässt, sodass (4) bzw. (5) gilt, so
hat T minimale Varianz in der Klasse aller regulären, erwartungstreuen Schätzer. Solch ein Schätzer
heißt Cramér-Rao-effizient.
b) Ein einparametriges Standardmodell, welches (5) für ein a : Θ → R stetig differenzierbar mit a0 (ϑ) 6=
0 ∀ϑ ∈ Θ, h : X → R+ messbar und b(ϑ) wie in Satz 7.13 erfüllt, heißt exponentielles Modell
bezüglich der Statistik T : X → R.
Für solche Modelle kann man zeigen, dass alle erwartungstreuen Schätzer regulär sind und damit T
varianzminimierend ist, siehe [2, König, Satz 7.5.6] oder Ergänzungen.
Beweis. Aus Eϑ (Uϑ ) und der Regularität und Erwartungstreue von T folgt:
Covϑ (T, Uϑ ) = Eϑ (T · Uϑ ) =
Z
%0 (ϑ)
=
T (x) x
%x (ϑ) dx =
%x (ϑ)
X
Z
d
T (x)%(x, ϑ) dx = τ 0 (ϑ)
=
dϑ X
|
{z
}
=Eϑ (T )=τ (ϑ)
Hieraus folgt mit c(ϑ) =
τ 0 (ϑ)
I(ϑ) :
0 ≤ Vϑ (T − c(ϑ)Uϑ ) =
= Vϑ (T ) + c(ϑ)2 Vϑ (Uϑ ) −2 c(ϑ) Covϑ (T, Uϑ ) =
| {z }
|{z} |
{z
}
=I(ϑ)
= Vϑ (T ) −
τ 0 (ϑ)
I(ϑ)
τ 0 (ϑ)
τ 02 (ϑ)
I(ϑ)
⇒ (3)
Nun gilt Gleichheit in (3) ⇔ Vϑ (T − c(ϑ)Uϑ ) = 0 ⇔
T (x) − c(ϑ)Uϑ (x) = d(ϑ)
⇒ d(ϑ) = Eϑ (T ) − E(Uϑ (x)) ·c(ϑ) = τ (ϑ)
| {z } | {z }
=τ (ϑ)
für fast alle x ∈ X
(6)
∀ϑ ∈ Θ
=0
Somit gilt Gleichheit in (3) genau dann, wenn (4) gilt. Es bleibt zu zeigen:
77
7 Einführung in die Schätztheorie
(4) ⇒ (5): Aus (4) und Uϑ =
d
dϑ
log %(x, ϑ) folgt
d
I(ϑ)
log %(x, ϑ) = 0
(T (x) − τ (ϑ))
dϑ
τ (ϑ)
| {z }
=a0 (ϑ)
⇒ log %(x, ϑ) = a(ϑ)T (x) − b(ϑ) + ũ(x)
wobei a0 (ϑ) =
I(ϑ)
τ 0 (ϑ) ,
b0 (ϑ) =
I(ϑ)
τ 0 (ϑ) τ (ϑ)
und ũ : X → R messbar.
⇒ %(x, ϑ) = ea(ϑ)T (x)−b(ϑ) h(x)
für eine messbare Funktion h : X → (0, ∞) mit h(x) = eũ(x) und a : Θ → R stetig differenzierbar
mit a0 (ϑ) = τI(ϑ)
0 (ϑ) . Hierbei ist b(ϑ) eindeutig gegeben durch:
Z
Z
1=
%(x, ϑ) dx = e−b(ϑ) X ea(ϑ)T (x) h(x) dx
X
Z
⇒ b(ϑ) = log
ea(ϑ)T (x) h(x) dx
X
(5) ⇒ (4): Aus (5) folgt:
log %(x, ϑ) = a(ϑ)T (x) − b(ϑ) + log h(x)
d
log %(x, ϑ) = a0 (ϑ) T (x) − b0 (ϑ)
⇒ Uϑ (x) =
| {z }
dϑ
I(ϑ)
= τ 0 (ϑ)
Außerdem folgt:
0 = Eϑ (Uϑ ) =
I(ϑ)
Eϑ (T ) −b0 (ϑ)
τ 0 (ϑ) | {z }
=τ (ϑ)
⇒ b0 (ϑ) = I(ϑ)
τ (ϑ)
τ 0 (ϑ)
⇒ (4)
Beispiel 8. Es sei M = (N0 , P(N0 ), (Poϑ )ϑ∈Θ ) mit Θ = (0, ∞) und τ (ϑ) = ϑ. Dann ist die LikelihoodFunktion:
%(x, ϑ) = e−ϑ
ϑx
=
x!
T (x)
↑
log ϑ·x−ϑ
=e
=h(x)
↑
·
1
x!
Dann hat % die Form (5), wobei T (x) = x und a(ϑ) = log ϑ ist. Es ist nun zu prüfen, dass a0 (ϑ) =
I(ϑ) =
∞
X
%0x (ϑ)2 ·
x=0
=
∞
X 1
1
=
· e−ϑ · (x!%0x )2 =
| {z }
%x (ϑ) x=0 x!
=(−e−ϑ ϑx +e−ϑ xϑx−1 )2
2
ϑx −ϑ x
e
−1 =
x!
| ϑ {z }
x=0
∞
X
= ϑ12 (x−ϑ)2
=
∞
1 X ϑx −ϑ
e (x − ϑ)2 =
↓
ϑ2 x=0 x!
=Eϑ (T (x))=Eϑ (x)
=
1
1
Vϑ (x) = = a0 (ϑ)
ϑ2 | {z } ϑ
=V(Poϑ )=ϑ
78
I(ϑ)
τ 0 (ϑ)
= I(ϑ)
7.5 Varianzminimierende Schätzer
Damit ist T (x) = x ein regulärer, erwartungstreuer Schätzer für τ (ϑ) = ϑ, der (5) erfüllt. ⇒ T hat kleinste
Varianz in der Klasse der erwartungstreuen Schätzer.
Beispiel 9. Binomialmodell: Für festes n ∈ N sei X = {0, . . . , n} und Pϑ = Bin,ϑ mit ϑ ∈ Θ = (0, 1). Dann
gilt:
n x
%(x, ϑ) =
ϑ (1 − ϑ)n−x =
x
n
ϑ x
(1 − ϑ)n =
=
x 1−ϑ
ϑ
n
x
· n · log
=
exp
+n · log(1 − ϑ)
x
n
1−ϑ
|{z}
|
{z
}
T (x)
⇒ % hat die Form (5) mit T (x) =
x
n,
a(ϑ) = n · log
Eϑ (T (x)) =
a(ϑ)
ϑ
1−ϑ ,
h(x) =
x
n
. Dann ist T (x) =
x
n
erwartungstreu, da
Eϑ (x)
Eϑ (Bin,ϑ
=
=ϑ
n
n
(5) ⇒ T ist varianzminimierend, da alle Schätzer S : X → R regulär sind. Dabei ist noch zu prüfen, dass
a0 (ϑ) = τI(ϑ)
0 (ϑ) .
Zu Produktmodellen und der Fischeinformation:
Lemma7.14. Es sei M = X , A, (Pϑ )ϑ∈Θ ein reguläres Standardmodell mit Fischerinformation I und
M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ das n-fache Produktmodell. Dann hat M⊗n die Fischerinformation
n · I(ϑ) =: I ⊗n (ϑ)
Beweis. Die Likelihood-Funktion von M⊗n ist:
%⊗n (x, ϑ) =
n
Y
∀x ∈ X n , ϑ ∈ Θ
%(xi , ϑ)
i=1
n
d
d X
⇒
log %⊗n (x, ϑ) =
log %(xi , ϑ) =
dϑ
dϑ i=1
=
n
X
d
log %(xi , ϑ)
dϑ
{z
}
i=1 |
=Uϑ (x) von M
⇒I
⊗n
(ϑ) = Vϑ
Uϑ (x) =
n
X
=
Vϑ ⊗n (Uϑ (xi )) =
{z
}
|
⊗n
i=1
⊗n
=Vϑ (Uϑ )=I(ϑ)
= n · I(ϑ)
Bemerkung. Ist Tn : X n → R ein erwartungstreuer, regulärer Schätzer für τ bezüglich M⊗n , so folgt:
Vϑ ⊗n (Tn ) ≥
τ 0 (ϑ)2
const.
=
n · I(ϑ)
n
für n → ∞
Bemerkung. In Beispiel 4 (Zufallszahlen) hatten wir Schätzer mit Vϑ (Tn ) = O
zugehörige Modell M ist aber nicht regulär, da
%(x, ϑ) =
1
n2
für n → ∞. Das
1
· 1[0,∞) (x)
ϑ
nicht stetig differenzierbar bezüglich ϑ ∀ϑ > 0 ist.
79
7 Einführung in die Schätztheorie
7.6 Konsistenz
In Beispiel 4 (Raten des Bereichs von Zufallszahlen) hatten wir Schätzer
n
T1 (n) =
2X
Xi
n i=1
T2 (x) = max{X1 , . . . , Xn }
betrachtet, für die gilt:
n→∞
Pϑ ⊗n |Tj (n) − ϑ| ≥ ε −−−−→ 0
∀ε > 0, ϑ ∈ Θ
Diese Eigenschaft nenn man Konsistenz. Allgemeiner:
Definition 7.15 (Konsistente Schätzer). Für jedes n ∈ N sei Xn , A, (Pϑ,n )ϑ∈Θ ein statistisches Modell
für festes Θ (unabhängig von n). Ferner sei τ : Θ → R eine reelle Kenngröße und Tn : Xn → R ein Schätzer
für alle n ∈ N. Dann heißt die Schätzerfolge (Tn )n∈N konsistent, falls für alle ε > 0, ϑ ∈ Θ gilt:
lim Pϑ,n |T − n − τ (ϑ)| > ε = 0
n→∞
Bemerkung. Wir schreiben kurz Xn −−−n−→ 0, falls limn→∞ Pn (|Xn | > ε) = 0, wobei (Ωn , An , Pn ), n ∈ N
x→∞
eine Folge von Wahrscheinlichkeitsräumen ist und Xn : Ωn → R Zufallsvariablen sind.
P
Ein nützliches Lemma ist:
Lemma 7.16. Es seine (Ωn , An , Pn ) Wahrscheinlichkeitsräume und Xn , Yn : Ωn → R Zufallsvariablen für
alle n ∈ N, sodass Xn −−−n−→ 0, Yn −−−n−→ 0, sowie (an )n∈N eine beschränkte Folge in R. Dann gilt:
P
P
n→∞
n→∞
Xn + Yn −−−n−→ 0,
an Xn −−−n−→ 0
P
P
n→∞
n→∞
Beweis.
i) Zunächst gilt:
n
o n
ε
εo ∪ ω ∈ Ωn : |Yn (ω)| >
ω ∈ Ωn : |Xn (ω) + Yn (ω)| > ε ⊆ ω ∈ Ωn : |Xn (ω)| >
2
2
denn aus |Xn (ω) + Yn (ω)| > ε folgt |Xn (ω)| > 2ε oder |Yn (ω)| > 2ε
ε
ε n→∞
⇒ Pn (|Xn + Yn | > ε) ≤ Pn |Xn | >
+ Pn |Yn | >
−−−−→ 0
2} |
|
{z
{z 2 }
n→∞
n→∞
−−−−→0
−−−−→0
ii) Wenn |an | ≤ c für alle n ∈ N, c > 0, gilt:
ε n→∞
−−−−→ 0
Pn (|an Xn | > ε) ≤ Pn (c|Xn | > ε) = Pn |Xn | >
c
Satz 7.17 (Konsistenz von empirischem
Mittelwert und Varianz).
Es sei M = X , A, (Pϑ )ϑ∈Θ ein Stan
dardmodell mit X ⊆ R und M⊗n = X n , A⊗n , Pϑ ⊗n ϑ∈Θ das n-fache Produktmodell von M. Ferner sei
für alle ϑ ∈ Θ
Z
Eϑ (x4 ) =
X
x4 dPϑ (x) < ∞
und m(ϑ) = E(Pϑ ), v(ϑ) = V(P(ϑ). Dann sind die Schätzer
n
Mn =
1X
xi ,
n i=1
konsistente Schätzer für m(ϑ) und v(ϑ).
80
V∗n =
n
1 X
(xi − M )2
n − 1 i=1
7.6 Konsistenz
Beweis.
i) Die Konsistenz von Mn folgt sofort aus dem schwachen Gesetz der großen Zahlen (bzw. der TschebyscheffUngleichung):
X
n
Vϑ (x1 ) n→∞
⊗n 1
xi − m(ϑ) > ε ≤
−−−−→ 0
Pϑ
n
| {z }
ε2 n
i=1
=E(xi )
wobei Vϑ (xi ) = V(Pϑ ) = v(ϑ) ist.
ii) Wegen Eϑ (x4 ) < ∞ ist
Vϑ ⊗n (xi − m(ϑ)2 = Vϑ x1 − m(ϑ)2 = M < ∞
Ist nun:
n
Ṽn :=
folgt mit:
1X
(xi − m(ϑ)) 2
n i=1
M n→∞
Pϑ ⊗n |Ṽn − v(ϑ)| > ε ≤ 2 −−−−→ 0
ε n
da Eϑ (xi − m(ϑ)2 = v(ϑ). Damit folgt für Vn =
n−1 ∗
n Vn :
n
Vn − v(ϑ) =
1X
(xi − m(ϑ))2 − v(ϑ) − (Mn − m(ϑ))2
|
{z
}
n i=1
⊗n
|
{z
}
P
ϑ
−−
−
−→0
⊗n
Pn
n→∞
−−
−
−
→
n→∞
P⊗n
ϑ
⇒ Vn − v(ϑ) −−−
−→ 0 nach Lemma 7.16. Schließlich folgt:
n→∞
V∗n − v(ϑ) =
n
v(ϑ)
(Vn − v(ϑ)) −
n−1
n−1
|
{z
} | {z }
⊗n
P
ϑ
−−
−
−→0
n→∞
⊗n
P
ϑ
−−
−
−→0
n→∞
P⊗n
n
⇒ V∗n − v(ϑ) −−−
−→ 0
n→∞
81
8 Konfidenzbereiche
8.1 Definition
Bis jetzt haben wir keine Aussage darüber gemacht, wie weit der wahre Wert ϑ von einer Schätzung T (x)
entfernt liegen kann. (Die Varianz gibt nur eine Aussage über die Abweichung im Mittel.)
Besser ist es deswegen, statt einem Wert T (x) als Schätzung für ϑ, einen Bereich C(x) anzugeben, in dem
ϑ mit großer Wahrscheinlichkeit liegt.
Definition 8.1 (Konfidenzbereich). Es sei M = X , A, (Pϑ )ϑ∈Θ ein statistisches Modell, τ : Θ → R eine
Kenngröße und α ∈ (0, 1) eine Fehlerschranke. Dann heißt eine Familie (C(x))x∈X von Mengen C(x) ⊆ R
Konfidenz- oder Vertrauensbereich für τ zum Irrtumsniveau α, falls ∀ϑ ∈ Θ:
Pϑ {x ∈ X : τ (ϑ) ∈ C(x)} ≥ 1 − α
(1)
Falls C(x) für jedes x ∈ X ein Intervall ist, spricht man von Konfidenzintervallen C(x).
Bemerkung.
a) Damit (1) wohldefiniert ist, müssen wir voraussetzen, dass ∀ϑ ∈ Θ Cϑ = {x ∈ X : τ (ϑ) ∈ C(x)} ∈ A
messbar ist. (Ist M diskret, so ist dies keine Bedingung. Ist M stetig, so wird im Folgenden meist Cϑ
ein Intervall sein.)
b) Die Abbildung x 7→ C(x) ist gewissermaßen eine Zufallsvariable mit Werten in P(R) (ohne auf Details
der Messbarkeit einzugehen).
c) Setzt man C(x) = R für alle x ∈ X , so ist (1) natürlich erfüllt. Gesucht sind abber möglichst kleine
C(x). Die Wahl ist aber nicht eindeutig.
d) Allgemein gilt: Je kleiner α > 0 gewählt wird, umso größer muss man C(x) wählen.
8.2 Konstruktion
Es sei τ (ϑ) = ϑ und
n
o
C = (x, ϑ) ∈ X × Θ : ϑ ∈ C(x)
Dann ist C bzw. sind (C(x))x∈X eindeutig durch Cϑ = {x ∈ X : (x, ϑ) ∈ C} für alle ϑ ∈ Θ festgelegt:
Θ
111111111111
000000000000
000000000000
111111111111
000000000000
111111111111
000000000000
01111111111111
1111111111
0000000000
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
000000000000
111111111111
C(x)
C
ϑ
Cϑ
x
82
X
8.3 Beispiele
(1) ist äquivalent zu
Pϑ (Cϑ ) ≥ 1 − α
∀ϑ ∈ Θ
Ist M ein Standardmodell und % die zugehörige Likelihood-Funktion, so kann Cϑ z.B. wie folgt konstruiert
werden:
i) Für festes ϑ ∈ Θ wähle man mϑ > 0 so, dass:
n
o
Cϑ = x ∈ X : %(x, ϑ) > mϑ
wobei mϑ > 0 so bestimmt wird, dass Pϑ (Cϑ ) ≥ 1 − α möglichst knapp erfüllt ist.
ii) Ist X ⊆ R und m(ϑ) = E(Pϑ ), so macht es Sinn
n
o
Cϑ = x ∈ X : |x − m(ϑ)| ≤ s
zu wählen, wobei s > 0, so gewählt wird, dass
Pϑ |x − m(ϑ)| ≤ s ≥ 1 − α
8.3 Beispiele
Beispiel 1 (Emissionskontrolle). Von N = 10 Kraftwerken sollen bei n = 4 zufällig getestet werden, ob die
Emissionswerte eingehalten werden. Darunter sind x ∈ {0, . . . , 4} Kraftwerke, die die Grenzwerte verletzen.
Gesucht ist ein Konfidenzbereich für die unbekannte Zahl ϑ ∈ {0, . . . , 10} mit zu hohen Emissionswerten
gegeben x ∈ {0, . . . , 4}.
Als statistisches Modell wählen wir:
X = {0, . . . , 4},
X , A, (Pϑ )ϑ∈Θ ,
Θ = {0, . . . , 10},
Pϑ = Hyp4,ϑ,1−ϑ
Wir wählen α = f rac15 als Fehlerschranke. Die folgenden Tabellen zeigen die Werte von %̃(x, ϑ) =
ϑ
Hyp4,ϑ,1−ϑ = 10−ϑ
4−x
x für alle ϑ ≤ 5. Die Werte für ϑ > 5 folgen aus Symmetrie.
C2
ϑ=5
4
3
2
1
0
x=0
5
15
35
70
126
210
1
50
80
105
112
84
0
2
100
90
63
28
0
0
3
50
24
7
0
0
0
C(2)
ϑ=5
4
3
2
1
0
C(0)
ϑ=5
4
3
2
1
0
4
5
1
0
0
0
0
x=0
5
15
35
70
126
210
1
50
80
105
112
84
0
2
100
90
63
28
0
0
3
50
24
7
0
0
0
x=0
5
15
35
70
126
210
1
50
80
105
112
84
0
2
100
90
63
28
0
0
3
50
24
7
0
0
0
10
4
·
4
5
1
0
0
0
0
4
5
1
0
0
0
0
In jeder Zeile wählt man so lange Werte von x für ϑ aus (angefangen mit dem größten Wert), bis Pϑ (Cϑ ) ≥
1 − α, bzw.
X
10
%̃(x, ϑ) ≥
(1 − α) = 168
4
x∈Cϑ
83
8 Konfidenzbereiche
So erhält man
C(0) = {0, 1, 2},
C(1) = {1, . . . , 5},
C(2) = {3, . . . , 7},
Beispiel 2 (Binomialmodell (Reißnagel)). Wir betrachten
sucht ist ein Konfidenzbereich für τ (ϑ) = ϑ ∈ (0, 1).
Beispiel 9 ⇒ T (x) =
ist, d.h.
x
n
C(3) = {5, . . . , 9},
C(4) = {8, 9, 10}
{0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈(0,1) . Ge-
ist ein varianzminimierender Schätzer, der auch der Maximum-Likelihood-Schätzer
%(x, ϑ) = Bin,ϑ (x)
ist für gegebenes x ∈ {0, . . . , n} bei ϑe =
x
n
maximal. Deshalb machen wir den Ansatz:
C(x) =
x
− ε,
n
x
+ε
n
wobei ε > 0 so gewählt wird, dass
x
o X
n
=
Pϑ,n x ∈ X : − ϑ ≥ ε
Bin,ϑ (x) ≤ α
n
x
x:| n −ϑ|≥ε
wobei
Pn,ϑ (M ) =
X
Bin,ϑ (x)
x∈M
i) Verwendung der Tschbyscheff-Ungleichung: Aus der Ungleichung, bzw. dem schwachen Gesetz der
großen Zahlen, folgt:
x
Pn,ϑ − ϑ ≥ ε = Pn,ϑ |x − |{z}
nϑ | ≥ εn ≤
n
E(Bin,ϑ )
≤
ϑ(1 − ϑ)
1
V(Bin,ϑ
=
≤
ε2 n
nε2
4nε2
Falls ε > 0 so gewählt wird, dass
1
=α → ε=
4nε2
r
1
4nα
folgt
x
Pn,ϑ − ϑ ≥ ε ≤ α
n
∀ϑ ∈ (0, 1)
Für n = 1000, α = 0, 025 benötigt man ε = 0, 1.
Nachteil: Tschebyscheff-Ungleichung ist im Allgemeinen recht ungenau.
ii) Verwendung der Normalverteilung: Aus dem Satz von Moivre-Laplace, bzw. dem Zentralen Grenzwertsatz folgt:
!
r
x − nϑ x
n
Pn,ϑ − ϑ < ε = Pn,ϑ p
≈
≤ε
nϑ(1 − ϑ) n
ϑ(1 − ϑ)
r
r
n
n
≈Φ ε
− Φ −ε
=
ϑ(1 − ϑ)
ϑ(1 − ϑ)
r
n
= 2Φ ε
−1
ϑ(1 − ϑ)
wobei Φ standardnormalverteilt ist.
Falls n = 1000, α = 0, 025 und führt man eine Sicherheitsmarge von 0,02 für die Approximationsfehler
ein, so sollte
x
Pn,ϑ − ϑ ≤ ε ≤ 1 − α
n
84
8.3 Beispiele
erfüllt sein, sofern
Da ϑ(1 − ϑ) ≤
1
4
n
− 1 ≥ 1 − α + 0, 02 = 0, 975 + 0, 02
ϑ(1 − ϑ)
12
n
⇒ε
≥ Φ−1 (0, 9975) = 2, 82
ϑ(1 − ϑ)
r
2Φ ε ·
ist, ist dies erfüllt, falls
2, 82
ε≥ √
≈ 0, 0446
4000
Also ist dieses Ergebnis trotz der Sicherheitsmarke noch um einen Faktor 2 besser als im 1. Fall.
Beispiel 3 (Mittelwert im Gaußschen Produktmodell). Wir betrachten Rn , B(Rn ), N (m, v)⊗n
(m,v)∈Θ , Θ =
R × (0, ∞). Wir wollen die ersten Komponenten von ϑ = (m, v) schätzen, bzw. ein Konfidenzintervall
bestimmen, wobei auch die Varianz unbekannt ist. Dazu suchen wir eine möglichst kleine Menge Cm ⊆ Rn ,
sodass
Pϑ (Cm ) ≥ 1 − α
∀ϑ ∈ (m, v) ∈ Θ
Wir machen den Ansatz:
n
o
Cm = x ∈ Rn : |M (x) − m| ≤ s(x) ,
M (x) =
1X
xi
n i
für ein geeignetes s(x), denn die Dichte von M = M (x) ist maximal in m, falls x1 , . . . , xn unabhängig und
Normalverteilt sind.
Für die Abweichung s(x) machen wir den Ansatz:
r
s(x) = t
mit V∗ (x) =
1
n−1
P
i (xi
V∗ (x)
n
− M (x))2 , da V∗ (x) ∼ v, wobei t > 0 noch zu wählen ist. Dies führt zu:




M (x) − m ≤
t
Cm = x ∈ Rn : q


V ∗ (x) n
Nun ist t > 0 so zu bestimmen, dass
P(m,v) ⊗n (Cm ) ≥ 1 − α
∀(m, v) ∈ Θ
Sind nun x1 , . . . , xn unabhängig und N (m, v)-verteilt, so ist die Verteilung von
P
√1
i Yi
n
Tm (x1 , . . . , xm ) = q
=: T0 (Y1 , . . . , Yn )
P
1
2
Y
i i
n−1
wobei Y1 , . . . , Yn unabhängig und standardnormalverteilt sind. Die Verteilung T0 (Y1 , . . . , Yn ) ist die sogenannte stidentsche t-Verteilung mit n − 1 Freiheitsgraden, kurz tn−1 -Verteilung.
Wir suchen nun ein Intervall I, sodass
PT0 (I) := P(0,1) ⊗n T0 (Y1 , . . . , Yn ) ∈ I ≥ 1 − α
⇔ P(0,1) ⊗n Tm (x1 , . . . , xn ) ∈ I ≥ 1 − α
PT0 hat die Dichte τn−1 , sie symmetrisch um 0, sowie monoton fallend auf (0, ∞) ist. ⇒ Wählt man tα > 0,
sodass
1
FT0 (tα ) := PT0 (−∞, tα ] = 1 −
α
so folgt:
PT0 [−tα , tα ] = PT0 (−∞, tα ] − PT0 (−∞, −tα ) = 1 − α
|
{z
} |
{z
}
F (tα )
1−F (tα )
85
8 Konfidenzbereiche
Definition 8.2. Ist Q ein Wahrscheinlichkeitsmaß auf R und α ∈ (0, 1), so heißt q ∈ R mit Q((−∞, q]) und
Q([q, ∞)) ≥ 1 − α α-Quantilvon Q. Ein 21 -Quantil heißt Median, ein (1 − α)-Quantil heißt α-Fraktil.
Die Quantile der tn−1 -Verteilung sind tabelliert. ⇒ Wähle t = tα als 1 −
Verteilung.
α
2
-Quantil von der tn−1 -
Somit erfüllt die Menge:
Cm = {x ∈ Rn : |Tm (x)| ≤ tα }
P(m,v) ⊗n (Cm ) = PT0 ((−tα , tα )) = 1 − α
Daraus erhält man:
r
C(x) =
M (x) − tα
1 ∗
V (x), M (x) + tα
n
r
1 ∗
V (x)
n
!
als Konfidenzintervalle für m.
Beispiel 4 (Vergleich zweier Schlafmittel). Es werden zwei verschiedene Schlafmittel an n = 10 Personen
getestet und die Differenz der Schlafdauer notiert.
Patient
Differenz
1
1,2
2
2,4
3
1,3
4
1,3
5
0
6
1,0
7
1,8
8
0,8
9
4,6
10
1,4
Nimmt man an, dass die Schlafdauer von vielen kleinen unabhängigen Einflüssen abhängt, so sollte die
Differenz der Schlafdauer N (m, v)-verteilt sein.
Für die Daten x = (x1 , . . . , x10 ) berechnet man M (x) = 1, 58 und V ∗ (x) = 1, 513. Für α = 0, 025 ist
tα = 2, 72 (siehe Tabelle). ⇒ C(x) = (0.52, 2.64) als Konfidenzintervall für m zum Niveau α.
8.4 Die X 2 - und t-Verteilung
Definition 8.3. Es seien Y, X1 , . . . , Xn unabhängige N (0, 1)-verteilte Zufallsvariablen.
a) Die Verteilung von
n
X
Xi2
i=1
heißt X -Verteilungmit n Freiheitsgraden, kurz Xn2 -Verteilung.
2
b) Die Verteilung von
Y
T =q P
n
1
n
i=1
Xi2
heißt Studentsche t-Verteilung mit n Freiheitsgraden, kurz tn -Verteilung.
Die Quantile der Xn2 und tn -Verteilung sind tabelliert.
Lemma 8.4.
a) Die Xn2 -Verteilung hat die Dichte:
t
t 2 −1
n · e− 2 · 1[0,∞) ,
n
Γ 2 22
n
Xn2 (t) =
t∈R
b) Die tn -Verteilung hat die Dichte:
τn (t) =
86
Γ
Γ
n
2
n+1
2 √
Γ n1
n
− n+1
2
t2
· 1+
,
n
∀t
8.4 Die X 2 - und t-Verteilung
Beweis. Ergänzungen, oder [2, König, Lemma 8.44]
Bemerkung. Für n → ∞ konvergiert τn (t) gegen die Dichte der Normalverteilung.
Satz 8.5. Es seien X1 , . . . , Xn unabhängige und N (0, 1)-verteilte Zufallsvariablen.
n
1X
Xi ,
M=
n i=1
n
1 X
V =
(X − i − M )2
n − 1 i=1
∗
a) M und V ∗ sind unabhängig.
2
b) M ist N (0, n− 2 )-verteilt und (n − 1)V ∗ ist Xn−1
-verteilt.
1
c) T0 =
√
√nM
V∗
ist tn−1 -verteilt.
Beweis. Es sei X = (X1 , . . . , Xn ) und U eine orthogonale n × n-Matrix:



U =

√1
n
···
···
∗
···
∗
..
.

√1
n
∗
..
.




∗
sowie Y = U X = (Y1 , . . . , Yn ). Dann sind Y1 , . . . , Yn wieder unabhängig und N (0, 1)-verteilt. Außerdem gilt:
n
√
1 X
Y1 = √
Xi = nM
n i=1
(n − 1)V ∗ =
n
X
i=1
=
n
X
i=1
Xi2 − nM 2 = |X|2 −Y12 =
|{z}
=|Y |2
Yi2 − Y12 =
n
X
Yi2
i=2
⇒ M und (n − 1)V ∗ sind unabhängig.
Pn
2
⇒ (n − 1)V ∗ = i=2 Yi2 ist Xn−1
-verteilt.
⇒ T0 ist tn−1 -verteilt.
Bemerkung. Sind X1 , . . . , Xn N (µ, σ 2 )-verteilt und unabhängig, so ist
(n−1)V ∗
σ2
2
Xn−1
-verteilt.
87
9 Einführung in die Testtheorie
9.1 Entscheidungsprobleme
Beispiel 1. Ein Importeur erhält 10000 Orangen. Den vereinbarten Preis muss er nur zahlen, falls höchstens
5% der Orangen faul sind. Dafür untersucht er 50 Orangen und zählt, wie viele davon faul sind. Falls maximal
c davon faul sind, akzeptiert er die Ladung, sonst reklamiert er sie.
Frage: Wie ist 0 ≤ c ≤ 50 zu wählen?
Problem: Wählt man c klein, so ist die Wahrscheinlichkeit groß, dass die Ladung reklamiert wird, obwohl
sie okay ist.
Wählt man c groß, ist die Wahrscheinlichkeit groß, dass die Ladung akzeptiert wird, obwohl sie schlecht ist.
Der Importeur sucht einen sogenannten Test bzw. ein Entscheidungsverfahren, der ihm die Entscheidung
über die Ladung abnimmt.
Ein solches Verfahren wird in 5 Schritte eingeteilt:
1.) Statistisches Modell aufstellen
Im Beispiel: M = {0, . . . , 50}, {0, . . . , 10000}, Hyp50,ϑ,10000−ϑ = (X , P(X ), (Pϑ )ϑ∈Θ ).
2.) Zerlege Θ in Θ0 und Θ1 (disjunkt), wobei
ϑ ∈ Θ0
ϑ ist abzeptabel (Hypothese)
ϑ ∈ Θ1
ϑ ist problematisch (Alternative)
Man sagt: Die Hypothese H0 : ϑ ∈ Θ0 wird gegen die Alternative getestet.
Im Beispiel: Θ0 = {0, . . . , 500}, Θ1 = {501, . . . , 10000}.
3.) Wähle ein Irrtumsniveau α ∈ (0, 1) für den Fehler 1. Art, d.h. für die Wahrscheinlichkeit, dass die
Alternative gewählt wird, obwohl die Hypothese zutrifft.
4.) Wähle eine Entscheidungsregel, d.h. eine Statistik ϕ : X → [0, 1], wobei
ϕ(X) = 0
Feshalten an der Hypothese
ϕ(X) = 1
Verwerfen der Hypothese/Entscheidung für Alternative
ϕ(X) ∈ (0, 1)
Führe ein Zufallsexperiment mit Erfolgswahrscheinlichkeit ϕ(X)
durch und wähle Alternative, im Falle eines Erfolges.
Im Beispiel: Wähle
ϕ(x) =


1
1
2

0
falls x > c
falls x = c
falls x < c
Im Fall von c faulen Orangen wird in diesem Fall eine Münze geworfen.
5.) Führe das Experiment durch, das M beschreibt.
Bemerkung.
a) Führe erst das Experiment in 5. durch, wenn 1.-4. geklärt ist. Alles andere ist unseriös.
b) Das Verfahren ist symmetrisch in Hypothese und Alternative. Hypothese und Alternative unterscheiden
sich nur durch den Fehler 1. Art.
88
9.1 Entscheidungsprobleme
c) Ein Fehler 2. Art liegt vor, falls ϑ ∈ Θ1 , aber die Hypothese akzeptiert bzw. nicht verworfen wird.
Diesen Fehler kann man im Allgemeinen nicht klein kriegen, wenn der Fehler 1. Art schon begrenzt ist.
Der mathematische Kern ist:
Definition 9.1 (Test, Hypothese, Niveau, Macht). Sei X , A, (Pϑ )ϑ∈Θ ein statistisches Modell und Θ =
˙ 1 eine (Null-)Hypothese Θ0 und Θ1 die Alternative.
Θ0 ∪Θ
a) Jede Statistik ϕ : X → [0, 1] heißt Test von Θ0 gegen Θ1 . Sie heißt nicht randomisiert, falls
ϕ(x) ∈ (0, 1) für (fast) alle x ∈ X , sonst randomisiert. Im ersten Fall heißt {x ∈ X : ϕ(x) = 1} der
Ablehnungs-, Verwertungs- oder krischer Bereich von 0.
b) supϑ∈Θ Eϑ (ϕ) heißt Umfang oder effektives Niveau vom Test ϕ. ϕ ist ein Test zum Irrtumsniveau α, falls supϑ∈Θ Eϑ (ϕ) ≤ α.
c) Gϕ : Θ → [0, 1] mit Gϕ (ϑ) = Eϑ (ϕ) heißt Gütefunktion des Tests ϕ. Für ϑ ∈ Θ1 heißt Gϕ (ϑ) Macht,
Stärke oder Schärfe von ϕ bei ϑ.
Bemerkung. Für ϑ ∈ Θ1 ist βϕ (ϑ) = 1 − Gϕ (ϑ) die Wahrscheinlichkeit für einen Fehler 2. Art.
Wir stellen folgende Anforderungen an ϕ:
i) Gϕ (ϑ) ≤ α ∀ϑ ∈ Θ0 , d.h. Fehler 1. Art ≤ α.
ii) Für ϑ ∈ Θ1 sollte Gϕ (ϑ) möglichst groß sein, d.h. Fehler 2. Art möglichst klein.
Definition 9.2. Ein Test ϕ zum Niveau α heißt bester Test zum Niveau α, falls für jeden Test ψ zum
Niveau α gilt:
Gϕ (ϑ) ≥ Gψ (ϑ)
∀ϑ ∈ Θ1
Beispiel 2 (Außersinnliche Wahrnehmung). Ein Medium“ behauptet, er könne verdeckte Spielkarten iden”
tifizieren. Dazu wird ihm 20 mal ein verdecktes Paar von Herz-Dame/Herz-König vorgelegt. Er soll die
Herz-Dame umdrehen.
Die Zahl der Treffer X wird notiert.
Ein geeignetes Modell ist:
{0, . . . , 20}, P({0, . . . , 20}, (Bi20,ϑ )ϑ∈Θ
mit Θ = 21 , 1 . Mann will die Nullhypothese H0 : ϑ =
ein Irrtumsniveau α = 0, 05. Als Test wählen wir
1
2
gegen die Alternative Θ1 =
1
2, 1
testen und wählt
ϕ(x) = 1{0,...,20}(x)
für passendes c. Man berechnet, dass
Bi20, 12 ({15, . . . , 20}) ≈ 0, 02707 < α
aber Bi20, 21 ({14, . . . , 20}) > α
⇒ Wählt man c = 15, so erhält man einen Test zum Niveau α, d.h. der Fehler 1. Art ist durch α beschränkt.
Im Folgenden studieren wir beste Tests, zunächst in einem einfachen Fall:
89
9 Einführung in die Testtheorie
9.2 Alternativtests
Sei M = X , A, (Pϑ )ϑ∈Θ ein Stadardmodell mit Θ = {0, 1}, sowie Θ0 = {0}, Θ1 = {1} (einelementige
Hypothesen und Alternativen werden einfach genannt).
Gemäß dem Maximum-Likelihood-Prinzip wird man sich für die Alternative P1 entscheiden, falls
(
%1 (x)
falls %0 (x) > 0
R(x) = %0 (x)
+∞ falls %0 (x) = 0
hinreichend groß ist. Dabei werden wir davon ausgehen, dass %0 (x) = %1 (x) > 0 für alle x ∈ X (sonst entfernt
man x aus X ).
Die Intuition liefert sogar beste Schätzer:
Satz 9.3 (Neyman-Pearson-Lemma). Es seien M, Θ0 , Θ1 wie oben. Dann gilt für jedes α ∈ (0, 1):
a) Jeder beste Test ψ von Θ0 gegen Θ1 zum Niveau α hat die Gestalt
(
1 falls R(x) > c
ψ(x) =
0 falls R(x) < c
für ein c = c(α) > 0. Jeder solche Test heißt Neyman-Pearson-Test.
b) Es gibt einen Neyman-Pearson-Test ϕ mit E0 (ϕ) = α.
c) Jeder Neyman-Pearson-Test ϕ mit E0 (ϕ) = α ist ein bester Test zum Niveau α.
Beweis.
a) Wir betrachten G∗ : (0, 1) → [0, ∞) mit G∗ (α) = sup{E1 (ϕ) : ϕ Test zum Niveau α, d.h. E0 (ϕ) ≤ α}.
D.h. G∗ ist die maximal erreichbare Macht. Dann ist G∗ monoton wachsend und konkav, wie man wie
folgt sieht: Sind ϕ, ψ Tests mit E0 (ϕ) ≤ α und E0 (ψ) ≤ β, so folgt:
G∗ (tα + (1 − t)β) = E1 (tϕ + (1 − t)ψ) =
= tE1 (ϕ) + (1 − t)E1 (ψ)
für alle 0 ≤ t ≤ 1, 0 ≤ α, β ≤ 1, da E0 (tϕ + (1 − t)ψ) ≤ tα + (1 − t)β.
Supremum bezüglich ϕ, ψ mit E0 (ϕ) ≤ α, E0 (ψ) ≤ β
⇒ G∗ (tα + (1 − t)β) ≥ tG∗ (α) + (1 − t)G∗ (β)
(konkav)
Ist nun ψ ein bester Tester zum Niveau α, so gilt
Niveau
 α
besterTester
y
E0 (ψ) ≤ α
y
E1 (ψ) = G∗ (α),
G∗ monoton wachsend ⇒ G∗ (E0 (ϕ)) ≤ G∗ (α) = E1 (ψ)
G∗ monoton wachsend und konkav ⇒ Es gibt eine Gerade mit Steigung c ≥ 0, die oberhalb vom
Graphen G∗ liegt und G∗ im Punkt E0 (ψ) berührt.
t(x)
G∗
0
90
E0 (ψ)
1
9.2 Alternativtests
D.h.
t(x) = G∗ (E0 (ϕ)) + c(s − E0 (ψ)) ≥ G∗ (s)
(
Beh.:
ψ(x) =
1
0
∀s ∈ (0, 1)
(1)
R(x) > c
R(x) ≤ c
Bew.: ϕ(x) := 1{R(x)>c}
≥E1 (ψ)
≥E1 (ϕ)
z }| { z }| {
(1) für s = E0 (ϕ) ⇒ 0 ≤ G∗ (E0 (ϕ)) − G∗ (E0 (ψ)) −c(E0 (ϕ) − E0 (ψ)) ≥
≥ E1 (ϕ) − E1 (ψ) − c(E0 (ϕ) − E0 (ψ)) =
= E1 (ϕ − ψ) − cE0 (ϕ − ψ) =
Z
=
(%1 − c%0 )(ϕ − ψ) dx
{z
}
X |
mit
P
x∈X
. . . falls M diskret ist. ⇒ 0 ≥
=:f (x)
R
X
f (x) dx.
Nun ist f (x) ≥ 0, denn
%1 (x) − c%0 (x) > 0 ⇔ R(x) > c
⇒ ϕ(x) − ψ(x) = 1 − ψ(x) ≥ 0
%1 (x) − c%0 (x) < 0 ⇔ R(x) < c
⇒ ϕ(x) − ψ(x) = 0 − ψ(x) ≤ 0
⇒ f (x) = 0 für fast alle x ∈ X ⇒ ϕ(x) = ψ(x) falls %1 (x) 6= c%0 (x) ⇔ R(x) 6= c
(
1 R(x) > c
⇒ ψ(x) =
0 R(x) < c
b) Es sei c ein α-Fraktil von der Verteilung von R bezüglich P0 , d.h.
P0 (R ≤ c) ≥ 1 − α ⇔ P0 (R > c) ≤ α
P0 (R ≥ c) ≥ α
⇒ 0 ≤ α − P0 (R > c) ≤ P0 (R ≥ c) − P0 (R > c) = P0 (R = c)
Sei nun
(
γ=
und
0
α−P0 (R>c)
P0 (R=c)


1
ϕ= γ


0
(2)
falls P0 (R = c) = 0
falls P0 (R = c) 6= 0
R(x) > c
R(x) < c
R(x) < c
Dann ist ϕ ein Neyman-Pearson-Test mit
E0 (ϕ) = P0 (R > c) + γP0 (R = c) = α
|
{z
}
=α−P0 (R>c)
c) Sei ϕ ein Neyman-Pearson-Test mit α = E0 (ϕ) und Schwellenwert c, sowie ψ ein beliebiger Test zum
Niveau α. Dann ist wiederrum
f (x) = (%1 (x) − c%0 (x))(ϕ(x) − ψ(x)) ≥ 0
Z
Z
Z
⇒ o≤
f (x) dx = %1 (x)(ϕ(x) − ψ(x)) dx − c %0 (x)(ϕ(x) − ψ(x)) dx =
X
= E1 (ϕ) − E1 (ψ) − c E0 (ϕ − ψ) ≤ E1 (ϕ) − E1 (ψ)
| {z }
= E0 (ϕ) − E0 (ψ)
| {z } | {z }
=α
≤α
⇒ E1 (ψ) ≤ E1 (ϕ) mit ψ beliebig. ⇒ ϕ ist optimaler Test.
91
9 Einführung in die Testtheorie
Bemerkung. Aus dem Beweis von Satz 9.3 folgt, dass jeder Neyman-Pearson-Test mit E0 (ϕ) = α die
Gestalt


1 R(x) > c
ϕ(x) = γ R(x) = c


0 R(x) < c
hat, wobei c ∈ [0, ∞) und γ ∈ [0, 1], falls P0 (R(x) = c) > 0 eindeutig durch
α = R0 (ϕ) = P0 (R > c) + γP0 (R = c)
bestimmt ist. Dabei ist c das α-Fraktil von der Verteilungsfunktion
FR (t) := P0 (R ≤ t)
Beispiel 3 (Außersinnliche
Wir betrachten M = ({0, . . . , n}, P({0, . . . , n}), (Bin,ϑ )ϑ∈Θ )
Wahrnehmung).
wobei Θ = Θ0 ∪ Θ1 , Θ0 = 21 , Θ1 = {p1 } mit p > 12 . Dann ist:
n x
n−x
Bin,p (x)
Bin,p1 (x)
xp1 (1 − p1 )
=
R(x) =
=
= n x
n−x
Bin, 12 (x)
Bin,p0 (x)
x p0 (1 − p0 )
x n−x
p1
1 − p1
=
p0
1 − p0
p1 1 − p0
1 − p1
⇒ ln R(x) = x · ln
+n · ln
·
p0 1 − p1
1 − p0
{z
}
|
>1
|
{z
}
>0
⇒ ln R(x) und R(x) streng monoton wachsend.
⇒ R(x) > c ⇔ ln R(x) > ln c
1−p0
ln c − n ln 1−p
1
⇔ x > tc :=
p1 1−p0
ln p0 · 1−p1
n
o n
o
x : R(x) > c = t̃c + 1, . . . , n
mit t̃c = max{btc c − 1} für t̃c ∈ {−1, . . . , n}, wobei {n + 1, . . . , n} := ∅.
⇒ Der Test ϕ(x)
= 1{15,...,20} (x), n = 20 aus Beispiel 2 ist ein Neyman-Pearson-Test mit E0 )ϕ) =
E0 1{15,...,20} (x) = Bin, 21 ({15, . . . , 20}) = 0, 02707 < α.
Will man nun einen optimalen Test zum Niveau α = 0, 05 konstruieren, so wählt man


1 x ∈ {15, . . . , 20}
ϕ(x) = γ x = 14


0 x < 14
wobei γ so gewählt wird, dass
0, 05 = αE0 (ϕ) = Bi20, 12 ({15, . . . , 20}) +γ · Bi20, 12 ({14})
|
{z
}
|
{z
}
=0,02707
⇒γ=
0, 05 − 0, 02707
= 0, 62
0, 037
9.3
=⇒ ϕ ist ein optimaler Test zum Niveau α.
Bemerkung. c, γ bzw. ϕ hängen nicht von der Wahl von p1 > 12 ab!
⇒ ϕ ist optimaler Test für alle p1 ∈ 21 , 1 zum Niveau α.
⇒ ϕ ist optimaler Test von Θ0 = 21 gegen Θ1 = 12 , 1 zum Niveau α.
92
=0,037
9.3 Beste einseitige Tests
9.3 Beste einseitige Tests
Beispiel 4 (Qualitätskontrolle). Wie in Beispiel 1 betrachten wir X = {0, . . . , n}, Θ = {0, . . . , N } und
Pϑ = Hypn,ϑ,N −ϑ wobei n < N, ϑ ∈ Θ (n: Zahl der getesteten, N : Gesamtzahl).
⇒ %ϑ (x) =
ϑ
x
N −ϑ
n−x
N
n
für max{0, n − N + ϑ} ≤ x ≤ min{n, ϑ}. Wir wollen einen optimalen Test ϕ von H0 : ϑ ∈ Θ0 = {0, . . . , ϑ0 }
gegen H1 : ϑ ∈ Θ1 = {ϑ0 + 1, . . . , N } zum Niveau α ∈ (0, 1) kosntruieren.
Ansatz: Sei ϑ1 ∈ Θ1 beliebig und ϕ ein Neyman-Pearson-Test von {ϑ0 } gegen {ϑ1 } mit E0 (ϕ) = α.
Behauptung: ϕ ist ein optimaler Test (gleichmäßiger bester Test) von Θ0 gegen Θ1 zum Niveau α.
93
Literaturverzeichnis
[1] U. Krengel, Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Vieweg und Teubner, 8. Auflage,
2005
[2] W. König, Elementare Wahrscheinlichkeitstheorie und Statistik, Universität Leipzig,
http://www.math.uni-leipzig.de/~koenig/www/ElemWT.pdf
[3] H.-O. Georgii, Stochastik, DeGruyter, 3. Auflage, 2007
94
Herunterladen