Stochastik - Hu

Werbung
Stochastik
Prof. Reiß
Sommersemester 2012
Vorlesungsmitschriften1 Paul Boeck2
Zuletzt geändert am 14. Oktober 2012
Fehler bitte an
[email protected]
Inhaltsverzeichnis
I.
Wahrscheinlichkeitsräume
I.1. Ereignisse, Wahrscheinlichkeiten und Zufallsvariablen
I.2. Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . .
I.3. Wichtige diskrete Verteilungen . . . . . . . . . . . . . . .
I.4. Maßtheorie und W-Maße in Rd . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
. 2
. 6
. 7
. 10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
II.1. Bedingte Wahrscheinlichkeit und Bayesformel .
II.2. Unabhängigkeit . . . . . . . . . . . . . . . . . . . .
II.3. Unabhängige Zufallsvariablen . . . . . . . . . . .
Zur Existenz unabhängiger Zufallsvariablen . .
II.4. Faltung . . . . . . . . . . . . . . . . . . . . . . . . .
16
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
18
20
23
26
III. Erwartungswert, Varianz und Kovarianz
29
III.1. Der Erwartungswert und Momente . . . . . . . . . . . . . . . . . . . . . . . . . . 29
III.2. Varianz, Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . 34
III.3. Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 37
IV. Statistische Tests
40
IV.1. Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
IV.2. Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
V. Grenzwertsätze
V.1.
V.2.
V.3.
V.4.
Gesetze der großen Zahlen . .
Konvergenz in Verteilung . . .
Charakteristische Funktionen
Zentraler Grenzwertsatz . . .
Interpretation des ZGWS . . .
43
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
50
54
58
59
VI. Einführung in die Schätztheorie
60
VI.1. Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
VI.2. Cramér-Rao-Ungleichung und Maximum-Likelihood-Prinzip . . . . . . . . . . 62
VI.3. Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Index
68
Literatur
70
1 Nicht
2 mit
von Prof. Reiß korrigiert
Hilfe von Stephanie Brandl, Jane Knöchel und Sorin Pascu
Stochastik 1
I. Wahrscheinlichkeitsräume
I. Wahrscheinlichkeitsräume
I.1. Ereignisse, Wahrscheinlichkeiten und Zufallsvariablen
Wir widmen uns zunächst der mathematischen Modellierung des Zufalls und werden erst
später kurz auf Interpretationen eingehen.
Beispiel I.1
a) Das Würfeln mit zwei unterscheidbaren Würfeln. Jeder Würfel wird eine der Zahlen {1, 2, 3, 4, 5, 6} zeigen. Als Ergebnis nach dem Würfeln erhalten wir so ein Tupel
(n1 , n2 ) mit n1 , n2 ∈ {1, 2, 3, 4, 5, 6}. Interpretation: n1 ist die Augenzahl von Würfel 1
und n2 entsprechend von Würfel 2.
Vor dem Würfelexperiment werden wir unter der Annahme zweier fairer Würfel, die
sich nicht gegenseitig beeinflussen, sagen, dass jeder Versuchsausgang mit gleicher
Wahrscheinlichkeit (W-keit) eintritt. Weitere Fragen sind dann beispielsweise Wahrscheinlichkeiten für folgende Ereignisse
A1 ∶ Es wird ein Pasch gewürfelt.
A2 ∶ Die Augensumme ist 7.
A3 ∶ Es tritt keine 1 auf.
Mathematisch werden Ereignisse als Teilmengen der Menge Ω = {1, 2, 3, 4, 5, 6}2 aller
Versuchsausgänge modelliert, also hier:
A1 = {(n1 , n2 ) ∈ Ω ∣ n1 = n2 } = {(1, 1), . . . , (6, 6)}
A2 = {(n1 , n2 ) ∈ Ω ∣ n1 + n2 = 7} = {(1, 6), (2, 5), . . . , (6, 1)}
A3 = {(n1 , n2 ) ∈ Ω ∣ (n1 ≠ 1) ∧ (n2 ≠ 1)}
Sind alle Versuchsausgänge gleich wahrscheinlich, erhalten wir die Wahrscheinlichkeit für ein Ereignis A, indem wir die Zahl aller für A günstigen Ausgänge durch die
Zahl aller möglichen Ausgänge teilen, also hier
P(A1 ) =
6
1
∣A1 ∣
=
=
∣Ω∣ 36 6
P(A2 ) =
∣A2 ∣
6
=
∣Ω∣ 36
P(A3 ) =
∣A3 ∣ 25
=
∣Ω∣ 36
b) n-facher Münzwurf. Wir werfen eine Münze n-mal hintereinander. Den Versuchsausgang codieren wir mit einem n-Tupel (b1 , . . . , bn ) ∈ {0, 1}n mit der Interpretation:
bk = 1 heißt, „k-ter Wurf ist Kopf“ und bk = 0 heißt „k-ter Wurf ist Zahl“. Unter fairen
Bedingungen werden wir jeden Versuchsausgang wieder dieselbe Wahrscheinlichkeit zuweisen (= 2−n ).
Betrachten zu Ω = {0, 1}n .
A1 ∶ „n-mal Kopf“
= {(b1 , . . . , bn ) = b = Ω ∣ b1 = b2 = ⋯ = bn = 1} Ô⇒ P(A1 ) =
2
∣A1 ∣
1
= n = 2−n
∣Ω∣ 2
Stochastik 1
I. Wahrscheinlichkeitsräume
A2 ∶ „(n − 1)-mal Kopf“
= {(0, 1, 1, . . . , 1), (1, 0, 1, 1, . . . , 1), . . . , (1, 1, . . . , 1, 0)} Ô⇒ P(A2 ) =
∣A2 ∣ n
=
∣Ω∣ 2n
A3 ∶ „mindestens einmal Zahl“
= {b ∈ Ω ∣ b ≠ (1, 1, . . . , 1)} = A1C Ô⇒ P(A3 ) =
∣A3 ∣ 2n − 1
=
= 1 − 2−n = 1 − P(A3C )
∣Ω∣
2n
c) beliebig häufiger Münzwurf. Es ist natürlich zu fragen, was passiert, wenn eine faire
Münze beliebig häufig („∞ oft“) geworfen wird. Dann erhalten wir
Ω = „Menge aller 0-1-Folgen“ = {0, 1}N
Also b ∈ Ω ist eine Folge b = (b1 , b2 , . . . ) = (bn )n∈N mit Werten in {0, 1}. Betrachte nun
die Ereignisse
A1 ∶ „immer nur Kopf“ = {b ∈ Ω ∣ ∀k ≥ 1 ∶ bk = 1} = ⋂k≥1 {b ∈ Ω ∣ bk = 1} =
{(1, 1, 1, . . . )}. Aufgrund von Beispiel b) würden wir aus „Stetigkeitsgründen“ A1 die
Wahrscheinlichkeit limn→∞ 2−n = 0 zuordnen. Formal können wir hier nicht mit einer
Gleichverteilung argumentieren, weil ∣Ω∣ = ∞. Bereits intuitiv sind Wahrscheinlichkeiten für andere Ereignisse sehr unklar.
A2 : „für jedes M ∈ N gibt es einen „Kopfrun“ der Länge M
= {b ∈ {0, 1}N ∣ ∀M ∈ N∃k ∈ N ∶ bk = bk+1 = ⋯ = bk+M−1 = 1}
´¹¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¶
Ω
Beachte, dass hier Ω = {0, 1}N die Kardinalität ℵ1 , d.h. die Kardinalität der reellen
Zahlen besitzt, die P(Ω) = {A ∣ A ⊂ Ω} sogar noch größere Kardinalität besitzt und
es daher nicht einfach ist, eine Wahrscheinlichkeit jeder Teilmenge (jedem Ereignis)
zuzuordnen. Dies ist aber meist auch gar nicht beabsichtigt und wir beschränken uns
auf „interessierende“ Ereignisse. (siehe unten Satz von Vitali I.14).
Definition I.2
Mit Ω werde die (nichtleere) Menge der möglichen Versuchsausgänge bezeichnet. Ein Teilmengensystem F ⊆ P(Ω) heißt σ-Algebra oder Menge der interessierenden Ereignisse, falls gilt
(A1 ) Ω ∈ F
(A2 ) A ∈ F Ô⇒ AC = Ω ∖ A ∈ F
(A3 ) An ∈ F, n ∈ N Ô⇒ ⋃n∈N An ∈ F
Jedes Element von F nennen wir Ereignis. Ein Wahrscheinlichkeitsmaß (W-Maß) ist eine Abbildung P ∶ F → [0, 1] mit
(B1 ) P(Ω) = 1
(B2 ) Für An ∈ F, n ∈ N, die paarweise disjunkt sind (∀i ≠ j ∶ Ai ∩ A j = ∅) gilt P(⋃n∈N An ) =
∑n∈N P(An ) σ-Additivität.
3
Stochastik 1
I. Wahrscheinlichkeitsräume
Ein W-Raum ist ein Tripel (Ω, F, P) mit Ω nichtleere Menge, F σ-Algebra über Ω und P W-Maß
auf F.
Bemerkung Axiome (B1 ), (B2 ) heißen Kolmogorovsche Axiome (Kolmogorov, 1933).
Lemma I.3
Für jede σ-Algebra F gilt:
(a) ∅ ∈ F
(b) A1 , A2 ∈ F Ô⇒ A1 ∪ A2 , A1 ∩ A2 ∈ F
(c) An ∈ F, n ∈ N Ô⇒ ⋃n∈N An ∈ F
Beweis: klar (beachte A1 ∩ A2 = (A1C ∪ A2C )C )
Beispiel I.4 Die trivialen σ-Algebren sind {∅, Ω} und P(Ω).
Lemma I.5
Für jedes W-Maß P auf F gilt
(a) P(∅) = 0
(b) A, B ∈ F, A ⊂ B Ô⇒ P(A) ≤ P(B)
(c) A, B ∈ F ∶ P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
(d) An ∈ F, n ≥ 1 beliebig Ô⇒ P(⋃n≥1 An ) ≤ ∑∞
n=1 P(An ) (Subadditivität, BonferroniUngleichung)
(e) An ∈ F, n ≥ 1 mit An ↑ A ∈ F (d.h. An ⊆ An+1 ∀n und ⋃n≥1 An = A):
P(A) = lim P(An )
n→∞
σ-Stetigkeit
Beweis: (a)-(d) und die Umkehrung von (e) als Übung.
(e) Setze B1 ∶= A1 , B2 ∶= A2 ∖ A1 , B3 = A3 ∖ A2 , . . . Bn = An ∖ An−1 . Dann sind die
(Bn )n≥1 paarweise disjunkt mit ⋃n≥1 Bn = ⋃n≥1 An . Daher gilt
P(A) = P( ⋃ An ) = P( ⋃ Bn )
n≥1
=
σ-Add.
n≥1
N
= lim ∑ P(Bn )
N
⋃n=1 Bn =A N
N→∞ n=1
∑ P(Bn )
n≥1
=
lim P(A N )
N→∞
◻
Häufig interessieren uns nicht die Versuchsausgänge selbst, sondern begleitete Größen, z.B.
nur die Augensumme beim Würfeln mit zwei Würfeln. In dem Beispiel würde man also
modellieren:
Ω = {1, . . . , 6}2 ,
F = P(Ω),
P(A) =
∣A∣
∀A ∈ F, A ⊆ Ω
36
und Augensumme S(ω) = S(ω1 , ω2 ) = ω1 + ω2 , ω ∈ Ω.
4
(das ist ein W-Raum!)
Stochastik 1
I. Wahrscheinlichkeitsräume
Wie groß ist die Wahrscheinlichkeit dafür, dass die Augensumme gleich k ist für k aus der
Menge {2, 3, . . . , 12}? S(ω) = k ⇐⇒ ω ∈ S−1 ({k}). Also
1
⎧
⎪
36
⎪
⎪
⎪
2
⎪
⎪
⎪
36
⎪
⎪
⎪
3
⎪
⎪
⎪
36
⎪
⎪
⎪
⎪
⎪4
P({ω ∈ Ω ∣ S(ω) = k}) = P(S−1 ({k})) = ⎨ 36
5
⎪
⎪
36
⎪
⎪
⎪
6
⎪
⎪
⎪
36
⎪
⎪
⎪
5
⎪
⎪
⎪
36
⎪
⎪
⎪
⎪⋮
⎩
k=2
k=3
k=4
k=5
k=6
k=7
k=8
Wir haben mittels S einen neuen W-Raum konstruiert! Ω̃ = {2, . . . , 12}, F̃ ∶= P(Ω̃) und
PS (A) ∶= P(S−1 (A)), A ⊂ Ω̃. In der Maßtheorie heißt P X Bildmaß von X unter P.
Definition I.6
Es sei (Ω, F, P) ein W-Raum und (S, S) ein Messraum. Dann heißt eine Abbildung X ∶ Ω →
S S-wertige Zufallsvariable, falls X messbar bezüglich (F, S) ist ( d.h. ∀A ∈ S ∶ X −1 (A) ∈
F). Im Fall (S, S) = (R, B) (Borel-σ-Algebra) spricht man bloß von reellwertigen Zufallsvariable
oder Zufallsgröße, im Fall (S, S) = (Rd , BRd ) von einem Zufallsvektor. Das W-Maß (check!)
P X (A) ∶= P(X −1 (A)), A ∈ S heißt Verteilung der Zufallsvariablen X.
Man schreibt statt P X auch L(X) („law of X“) sowie
{X ∈ A} = {ω ∈ Ω ∣ X(ω) ∈ A} = X −1 (A), {X = x} = {ω ∈ Ω ∣ X(ω) = x} = X −1 ({x})
P(X ∈ A) = P({X ∈ A}) = P(X −1 (A)) = P X (A); P(X = x) = P({X = x}) = P X ({x}).
Beispiel I.7 (a) Ist F = P(Ω), so ist jede Abbildung X ∶ Ω → S messbar, also eine Zufallsvariable. Das gilt insbesondere also für die Augensumme S von oben sowie diskrete
W-Räume (siehe unten).
⎧
⎪
⎪1, falls ω ∈ A
(b) Für ein Ereignis A ∈ F ist 1 A (ω) = ⎨
(Indikatorfunktion) eine Zufallsva⎪
0, falls ω ∉ A
⎪
⎩
riable auf (Ω, F, P) mit Werten in ({0, 1}, P({0, 1})) oder auch in (R, BR ). Insbesondere ist jede konstante Funktion X(ω) = c für c ∈ Rd eine Zufallsvariable.
Beispiel I.8 (Geburtstagsproblem) Wie groß ist die Wahrscheinlichkeit, dass n (n ≤ 365)
Personen an n verschiedenen Tagen Geburtstag haben? Wir gehen davon aus, dass das
Jahr genau 365 Tage hat und jeder Tag mit gleicher Wahrscheinlichkeit Geburtstag einer
Person ist (und diese Geburtstage unabhängig für alle Personen gewählt werden).
Die Menge aller Geburtstagskombinationen kann als Ziehen von n Kugeln einer Urne mit
365 Kugeln mit Zurücklegen und mit Beachtung der Reihenfolge modelliert werden. Es ergeben sich 365n Kombinationen. Die „günstigen“ Ereignisse (an verschiedenen Tagen Geburtstag) entsprechen dem Ziehen ohne Zurücklegen. Dafür ergeben sich 365 ⋅ 364⋯(365 −
n + 1) Kombinationen. Die gesuchte Wahrscheinlichkeit ist also
365!
365n (365−n)!
365−n+1
1
= 1 364
= 1 ⋅ (1 − 365
)⋯(1 −
365 ⋯ 365
5
n−1
365 )
n−1
k
))
= exp( ∑ log (1 − 365
k=1
Stochastik 1
I. Wahrscheinlichkeitsräume
k
) = exp(−n(n − 1)/2 ⋅
Für kleine x gilt log(1 + x) ≈ x, stets gilt log(1 + x) ≤ x ⪅ exp(∑nk=1 − 365
365)
I.2. Diskrete Verteilungen
Definition I.9
Ist Ω eine endliche oder abzählbar unendliche Menge F = P(Ω) und ein W-Maß auf F, so heißt
(Ω, F, P) diskreter W-Raum. Eine S-wertige Zufallsvariable heißt diskret verteilt, falls (S, S =
P(S), PS ) ein diskreter W-Raum ist.
Beispiel I.10 n-facher Münzwurf, Würfelwurf, Geburtstagsproblem, aber nicht der beliebig häufige Münzwurf.
Lemma I.11
(a) Ist (Ω, F, P) diskreter W-Raum, so ist P eindeutig durch seine Zähldichte
p(ω) ∶= P({ω}), ω ∈ Ω
festgelegt. Ebenso legt bei einer diskret verteilten Zufallsvariable X (mit Werten in S)
p X (s) = P X ({s}) = P(X = s)
die Verteilung P X von X eindeutig fest.
(b) Ist Ω andererseits endlich oder abzählbar unendlich und p ∶ Ω → [0, 1], so dass ∑ω∈Ω p(ω) =
1 gilt, dann wird durch P(A) ∶= ∑ω∈A p(ω), A ⊂ Ω ein W-Maß P auf (Ω, P(Ω)) definiert,
dessen Zähldichte p ist.
Beweis: (a) Seien P, Q W-Maße auf (Ω, F) mit p(ω) = P({ω}) = Q({ω}) für alle
ω ∈ Ω. Wegen σ-Additivität gilt dann für alle A ⊆ Ω:
P(A) = P( ⋃ {ω})
=
σ-Add.
ω∈A
∑ P({ω}) = ∑ p(ω) = ∑ Q({ω})
ω∈A
ω∈A
ω∈A
= Q( ⋃ {ω}) = Q(A) Ô⇒ P = Q
ω∈A
Genauso für Zufallsvariablen.
Vor.
Def
(b) Es gilt P(Ω) = ∑ω∈Ω p(ω) = 1 sowie für An ⊆ Ω paarweise disjunkt
Def
P( ⋃ An ) =
n≥1
∑
ω∈⋃n≥1 An
Def
p(ω) = ∑ ∑ p(ω)
n≥1 ω∈An
= ∑ P(An ) Ô⇒ P
ist σ-additiv
n≥1
Also ist P ein W-Maß. Natürlich gilt P({ω}) = p(ω) nach Definition.
6
◻
Stochastik 1
I. Wahrscheinlichkeitsräume
I.3. Wichtige diskrete Verteilungen
Gleichverteilung/Laplaceverteilung Ist Ω endlich, so beschreibt die Zähldichte p(ω) =
1
,ω
∣Ω∣
∈ Ω, die Gleichverteilung auf Ω. Es gilt also
P(A) = ∑ p(ω) =
ω∈A
∣A∣
,A⊆Ω
∣Ω∣
Das hatten wir bereits bei Münzwurf und Würfelwurf verwendet.
Hypergeometrische Verteilung
Bernoulli-Schema/Bernoulli-Kette : Wir spielen ein Spiel n-mal hintereinander, bei dem
jeweils mit Wahrscheinlichkeit p Erfolg eintritt und die einzelnen Spielausgänge nicht
voneinander abhängen. („Münzwurf“). Setze „1“ für Erfolg und „0“ für Misserfolg
und modelliere Ω = {0, 1}n mit Zähldichte
n
n
p̄(ω) = p̄(ω1 , . . . , ωn ) = p∑i=1 ωi (1 − p)∑i=1 (1−ωi )
Man spricht von einem Bernoulli-Schema der Länge n mit Erfolgswahrscheinlichkeit
p.
Binomialverteilung: Es bezeichne N die Anzahl der Erfolge in einem Bernoulli-Schema
der Länge n mit Erfolgswahrscheinlichkeit p. N ist also die Zufallsvariable
N ∶ ΩBernoulli → {0, 1, . . . , n}
n
mit
N(ω) = N(ω1 , . . . , ωn ) = ∑ ωi
i=1
N
N
Was ist die Verteilung P von N? Betrachte die Zähldichte p .
n
p N (k) = P(N = k) = ( ) ⋅ pk (1 − p)n−k =∶ Binn,p (k)
k
Die durch Binn,p (⋅) beschriebene Verteilung heißt Binomialverteilung der Länge n mit
Wahrscheinlichkeit p. Beispiele sind „Anzahl Kopf“ beim Münzwurf, Gewinne beim
regelmäßigen Lotto, Heilungserfolg eines Medikaments bei Patienten etc.
Binn,p kann durch ein sogenanntes Stabdiagramm visualisiert werden.
Geometrische Verteilung Es bezeichne K den Zeitpunkt des ersten Erfolgs in einem Ber-
noulli-Schema. Für k ≤ n gilt
P(K = k) = (1 − p)k−1 p =∶ Geo p (k)
Man kann die Zähldichte Geo p (⋅) der geometrischen Verteilung mit Wahrscheinlichkeit p auf N = {1, 2, . . . } als Zähldichte der Zufallsvariablen K bei einem beliebig
langen Bernoulli-Schema (n = ∞) auffassen. Beachte
∞
∞
k=1
k=1
∑ Geo p (k) = ∑ (1 − p)
k−1
⋅p = p⋅
1
=1
1 − (1 − p)
für p ∈ (0, 1]
Beispielanwendung ist z.B. die Anzahl von Tagen bis zum Ausfall eines technischen
Geräts („Glühbirne“).
7
Stochastik 1
I. Wahrscheinlichkeitsräume
Multinomialverteilung : Oft gibt es nicht nur zwei Versuchsausgänge (Erfolg, Misserfolg),
sondern r > 2. In der Genetik werden z.B. weiß-, rosa- und rotblühende Ausprägungen einer Pflanze modelliert und gezählt. Auf der Menge Ω = {k ∈ {0, . . . , n}r ∣
r
∑i=1 k i ∶= n}, wobei k = (k1 , . . . , kr ) ist und k i die Anzahl der Versuchsausgänge mit
Merkmal i ∈ {1, . . . , r} (oder in Klasse i) bezeichnet, betrachte die Zähldichte
Multn,p1 ,...,pr (k) =
r
n!
k
p 1 ⋅ p2k2 ⋯prkr
k1 !k2 !⋯kr ! 1
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
pi ≥ 0, ∑ pi = 1
für
i=1
Multinomialkoeffizient
pi gibt dabei die Wahrscheinlichkeit für Merkmal/Klasse i an. Bei zwei Klassen, d.h.
r = 2, ergibt sich
Multn,p1 ,p2 (k) =
n! k1 k2
n!
k
p1 p2 =
p 1 ⋅ (1 − p1 )n−k1
k1 !k2 !
k1 !(n − k1 )! 1
dann in der ersten Koordinate Binn,p1 (k1 )
Poissonverteilung Auf Ω = N0 definiert für λ > 0
Poissλ (k) = e−λ
λk
,
k!
k≥0
die Zähldichte der Poissonverteilung. Die Wichtigkeit ergibt sich aus dem Poissonschen Grenzwertsatz:
Satz I.12 (Poissonscher Grenzwertsatz)
Es seien pn ∈ [0, 1] mit limn→∞ npn = λ > 0. Dann gilt für alle k ∈ N0
lim Binn,pn (k) = Poissλ (k)
n→∞
Beweis: Schreibe An ∼ Bn falls limn→∞
An
Bn
= 1. Dann gilt
n
n(n − 1)⋯(n − k + 1) nk nk
⋅
( )=
∼
k!
k!
k
nk
k
n
n k
Ô⇒ Binn,pn (k) = ( )pkn (1 − pn )n−k ∼
p (1 − pn )n−k
k! n
k
1
⋅npn
nk k (1 − pn ) pn
=
p ⋅
k! n
(1 − pn )k
∼
Analysis
∼
(npn )k −npn
e
k!
λk −λ
e
k!
◻
Bemerkung Später werden wir mit stoch. Methoden folgende Konvergenzgeschwindigkeit erhalten:
n
2
∑ ∣ Binn,p (k) − Poissλ (k)∣ ≤ 2np = 2λp
für λ = np
k=0
Auf Grund dieses Grenzwertsatzes heißt die Poissonverteilung auch „Verteilung der seltenen Ereignisse“
8
Stochastik 1
I. Wahrscheinlichkeitsräume
Beispiel I.13 (a) In einem Land gibt es 730 Geburten pro 100.000 Einwohnern im Jahr.
Wie ist die Anzahl X der Geburten pro Tag in einer Stadt mit 280.000 Einwohnern
verteilt? (wichtig z.B. für Geburtsstation im Krankenhaus.) Approximative Modellierung
p: „Wahrscheinlichkeit, dass ein Einwohner an einem festen Tag ein Kind be730
kommt.“ p = 100 000⋅365
= 1002000
n = 280 000 unabhängige Wiederholungen dieses „Experiments“
n groß, p klein, das heißt Poisson-Approximation mit λ = n ⋅ p = 5.6. Die Zufallsvariable X ist also approximativ Poiss(5, 6) verteilt, d.h. P(X = k) = Poiss5,6 (k) mit k ∈ N0 .
(b) Radioaktiver Zerfall: Anzahl N der Zerfälle in einer festen Zeiteinheit wird kanonisch mit der Poissonverteilung modelliert (Atomzahl n groß, Wkeit für Zerfall eines
Atoms sehr klein).
Folgendes Beispiel zeigt nun, dass wir bei überabzählbaren Mengen Ω nicht mehr vernünftig definieren können, weshalb wir uns dann auf σ-Algebren (wie Borel-σ-Algebra)
beschränken werden.
Satz I.14 (Vitali, 1905)
Sei Ω = {0, 1}N die Ergebnismenge des beliebig langen Münzwurfs. Dann gibt es keine Abbildung
P ∶ P(Ω) → [0, 1], die den Kolmogorovschen Axiomen (eines W-Maßes) genügt und folgende
Invarianzeigenschaften besitzt:
∀A ⊂ Ω, n ≥ 1 ∶ P(Tn (A)) = P(A)
wobei
Tn (ω) = Tn ((ω1 , ω2 , . . . , ωn , . . . )) = (ω1 , ω2 , . . . , ωn−1 , 1 − ωn , ωn+1 , . . . )
das Ergebnis des n-ten Wurfes umkehrt.
Beweis: Definiere Äquivalenzrelation ∼ auf Ω: ω ∼ ω ′ ⇐⇒ ∃N ≥ 1∀n ≥ N ∶ ωn = ωn′
(ω und ω ′ unterscheiden sich nur in endlich vielen Gliedern). Nach dem Auswahlaxiom existiert eine Menge A ⊆ Ω, die aus jeder Äquivalenzklasse genau einen Repräsentanten enthält. Nun sei
S = {S ⊆ N ∣ ∣S∣ endlich} = ⋃ {S ⊂ N ∣ max S = m}
m≥1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
endliche Kardinalität
so dass S abzählbar ist. Setze TS ∶= ∏n∈S Tn = Tn1 ○ Tn2 ○ ⋯ ○ Tnk für S = {n1 , n2 , . . . , nk } (
TS diskret, dreht also die Ergebnisse an allen Indizes in S um). Dann gilt:
(a) Ω = ⋃S∈S TS (A) (zu jedem ω ∈ Ω existiert ω ′ ∈ A mit ω ′ ∼ ω, also auch ein S ⊆ N,
∣S∣ < ∞ mit TS (ω ′ ) = ω)
(b) Die Mengen (TS (A))S∈S sind paarweise disjunkt, da sonst für ω, ω ′ ∈ A und
S, S′ ∈ S
TS (ω) = TS′ (ω ′ ) Ô⇒ ω ∼ TS (ω) = TS′ (ω ′ ) ∼ ω ′
aber
ω, ω ′ ∈ A Ô⇒ ω = ω ′
σ-Additivität zeigt: 1 = P(Ω) = P(⋃S∈S TS (A)) = ∑S∈S P(TS (A))
{0, ∞} E
Also kann ein solches P nicht existieren.
9
Ann.
=
∑S∈S P(A) ∈
◻
Stochastik 1
I. Wahrscheinlichkeitsräume
I.4. Maßtheorie und W-Maße in Rd
Zunächst rekapitulieren wir die Grundlagen der Maßtheorie.
• Für jedes E ⊂ P(Ω) gibt es eine kleinste σ-Algebra σ(E), die E enthält.
• Ist (S, d) ein metrischer Raum (wie (Rd , ∣ ⋅ ∣)), so heißt BS = σ({O ⊆ S ∣ O offen})
Borel-σ-Algebra von S.
• BR wird z.B. erzeugt von E = {(a, b] ∣ a, b ∈ R} oder F = {(−∞, b] ∣ b ∈ R}. BRd analog
durch E = {(a1 , b1 ] + . . . + (ad , bd ] ∣ a1 , . . . , ad , b1 , . . . bd ∈ R} (Quader, Rechtecke)
• g ∶ Ω → S ist (F ⊆ P(Ω), S ⊆ P(S))-messbar, wenn für einen Erzeuger E von S gilt:
∀A ∈ E ∶ g−1 (A) ∈ F
• jede stetige Funktion zwischen metrischen Räumen ist Borel-messbar (d.h. messbar
bzgl. der jeweiligen Borel-σ-Algebren).
• Jede Funktion g ∶ Ω → R mit {g ≤ y} ∈ F für alle y ∈ R ist (F, BR )-messbar.
• Falls gn ∶ Ω → R (F, BR )-messbar sind, so auch
inf gn , sup gn , lim inf gn , lim sup gn , lim gn
n
n
n→∞
n→∞
n→∞
(sofern existent)
• g1 , . . . , gd ∶ Ω → R, (F, BR )-messbar, dann ist ω ↦ (h(g1 (ω), . . . , gd (ω)) mit h ∶ Rd →
Rk Borelmessbar ist (F, BRk )-messbar. Insbesondere gilt:
(g1 , . . . , gd ), g1 + g2 , g1 − g2 , g1 ⋅ g2 , g1 /g2 , max(g1 , . . . , gd ), min(g1 , . . . , gd )
sind dann messbar. 3
• g ∶ Ω → S, (F, S)-messbar, h ∶ S → T (S, T )-messbar Ô⇒ h ○ g ∶ Ω → T ist (F, T )messbar.
Definition I.15
Sei Ω nichtleere Menge. Dann heißt A ⊆ P(Ω) Algebra über Ω, falls
• Ω∈A
• A ∈ A Ô⇒ AC ∈ A
• A, B ∈ A Ô⇒ A ∪ B ∈ A.
µ ∶ A → [0, +∞] heißt Prämaß über A, falls
• µ(∅) = 0
• ∀An ∈ A paarweise disjunkt mit ⋃n≥1 An ∈ A ∶ µ(⋃n≥1 An ) = ∑n≥1 µ(An ).
µ heißt Maß, falls A bereits eine σ-Algebra ist. Ein Maß µ heißt σ-endlich, falls es An ∈ A gibt mit
µ(An ) < ∞ und ⋃n An = Ω. Ein Maß µ mit µ(Ω) = 1 ist ein W-Maß (s.o.).
3g
1 /g2
nur falls sie wohldefiniert ist.
10
Stochastik 1
I. Wahrscheinlichkeitsräume
Beispiel I.16 Auf Ω = R ist A ∶= {⋃nk=1 (ak , bk ] ∣ n ≥ 1, ak ∈ R ∪ {−∞}, bk ∈ R ∪ {∞}} eine
Algebra (wobei (ak , ∞] = (ak , ∞). Setze λ((a, b]) ∶= b − a für b ≥ a. Für paarweise disjunkte
(ak , bk ] ∶ λ(⋃nk=1 (ak , bk ]) = ∑nk=1 (bk − ak ). Unten werden wir zeigen, dass dieses λ ein Prämaß
auf A definiert. Mit Hilfe des folgenden Satzes wird dies zu einem Maß auf BR fortgesetzt,
dem Lebesguemaß:
Satz I.17 (von Caratheodory, 1917)
Jedes Prämaß µ auf A kann zu einem Maß µ̃ auf σ(A) fortgesetzt werden, d.h. µ̃(A) = µ(A) für
alle A ∈ A.
Eindeutigkeitssatz: Es seien µ, ν σ-endliche Maße auf (Ω, F) mit ∃(An ) ∈ F ∶ ⋃ An = Ω, µ(An ) =
ν(An ) < ∞. Ist dann E ein Erzeuger von F, der ∩-stabil (d.h. A, B ∈ E Ô⇒ A ∩ B ∈ E) und gilt
µ(A) = ν(A) für alle E, so folgt µ = ν auf F. (Insbesondere gilt Eindeutigkeit der Maßerweiterung
bei W-Maßen).
Definition I.18
Für ein W-Maß P auf (R, BR ) ist seine Verteilungsfunktion F ∶ R → [0, 1] gegeben durch F(x) ∶=
P((−∞, x]). Für reellwertige Zufallsvariablen X setzt man entsprechend F X (x) = P X ((−∞, x]) =
P(X ≤ x), x ∈ R.
Lemma I.19
Jede Verteilungsfunktion F ist monoton wachsend, rechtsstetig und erfüllt limx→−∞ F(x) = 0 und
limx→∞ F(x) = 1.
Beweis: Monotonie für x < y gilt
F(y) − F(x) = P((−∞, y]) − P((−∞, x])
Add. v. P
=
P((x, y]) ≥ 0
s.o.
Rechtsstetigkeit Es gelte xn ↓ x (xn → x, xn ≥ x, xn monoton fallend) F(xn ) − F(x) =
P((x, xn ]). Nun gilt
(x, xn ] ⊇ (x, xn+1 ] ⊇ ⋯∀n ≥ 1 mit ⋂(x, xn ] = ∅ und lim (x, xn ] = ∅
n→∞
σ-Stetigkeit
Ô⇒ lim P((x, xn ]) = P( lim (x, xn ]) = P(∅) = 0
n→∞
n→∞
Ô⇒ lim F(xn ) = F(x)
n→∞
(F ist rechtsstetig)
s.o.
σ-Stetigkeit: An = (x, xn ]C , An ⊆ An+1 ∀n, ⋃n≥1 An = R Ô⇒ P(An ) → P(R) = 1
n→∞
Dann ist P((x, xn ]) = P(AC
n ) = 1 − P(An ) ÐÐÐ→ 0.
lim F(x) = lim P((−∞, x])
x→−∞
x↓−∞
=
σ−Stet.
P( lim (−∞, x]) = P(∅) = 0
x↓−∞
lim F(x) = lim P((−∞, x]) = P(R) = 1
x→∞
x↑∞
◻
Satz I.20
Es sei F ∶ R → R eine monoton wachsende, rechtsstetige Funktion. Dann existiert ein Maß µ auf
(R, BR ) mit
µ((a, b]) = F(b) − F(a) für alle a < b ∈ R
µ ist eindeutig durch F definiert und heißt Lebesgue-Stieltjes-Maß zu F.
11
Stochastik 1
I. Wahrscheinlichkeitsräume
Korollar I.21
Es gibt genau ein Maß λ auf (R, BR ) mit λ((a, b]) = b − a (∀a < b ∈ R). λ heißt Lebesguemaß
(wähle F(x) = x)
Korollar I.22
Zu jedem F ∶ R → [0, 1] monoton wachsend, rechtsstetig und limx→−∞ F(x) = 0, limx→∞ F(x) = 1
gibt es genau ein W-Maß P, dessen Verteilungsfunktion F ist.
Beispiel I.23 Für alle Intervalle berechnet man dann leicht P((a, b]) = F(b) − F(a).
Beweis: (des Satzes) Eindeutigkeit folgt, weil die Menge {(a, b] ∣ a < b ∈ R} ein ∩stabiler Erzeuger von BR ist und ⋃n≥1 [−n, n] = R gilt, aus dem Eindeutigkeitssatz. Auf
K
der Algebra (s.o) A = {⋃k=1
(ak , bk ] ∣ K ≥ 1, −∞ ≤ a1 < b1 ≤ ⋯ ≤ ak < bk ≤ ∞} definiere
K
K
k=1
k=1
µ( ⋃ (ak , bk ]) ∶= ∑ (F(bk ) − F(ak ))
Dann ist µ offensichtlich additiv mit µ(∅) = 0.
Kn
Zu zeigen ist σ-Additivität für µ Prämaß: An = ⋃k=1
(ank , bkn ] mit An paarweise disjunkt
und ⋃n≥1 An ∈ A, d.h.
K∞
∞ ∞
⋃ An = ⋃ (ak , bk ],
n≥1
K∞ ∈ N,
k=1
Kn
∞
∞
∞
−∞ ≤ a∞
1 ≤ b1 ≤ . . . ≤ aK∞ ≤ bK∞ ≤ ∞
K∞
Ô⇒ ∑ ∑ (F(bkn ) − F(ank )) = ∑ (F(bk∞ ) − F(a∞
k ))
!
K≥1 k=1
k=1
Dafür reicht es, für ein Intervall zu zeigen:
(a∞ , b∞ ] = ⋃ (al , bl ] Ô⇒ µ((a∞ , b∞ ]) = ∑ µ((al , bl ])
l≥1
l>1
L
L
Natürlich gilt µ(⋃l=1
(al , bl ]) ≤ µ((a∞ , b∞ ]), also Subadditivität von µ, da ⋃l=1
(al , bl ] ⊆
∞ ∞
(a , b ])
L
∀L ≥ 1 ∑ µ((al , bl ]) ≤ µ((a∞ , b∞ ])
l=1
∞
Ô⇒ ∑ µ((al , bl ]) ≤ µ((a∞ , b∞ ])
l=1
Für „≥“ betrachte Ol = (al , bl + δl ) ⊃ (al , bl ] mit µ((al , bl + δl ]) ≤ µ((al , bl ]) + ε ⋅ 2−l , was
wegen Rechtsstetigkeit von F immer möglich ist. Dann ist (Ol )l≥1 eine offene Überdeckung von [a∞ + δ∞ , b∞ ], wobei µ((a∞ , a∞ + δ∞ ]) ≤ ε gelte (F rechtsstetig!).
Nach dem Satz von Heine-Borel gilt wegen Kompaktheit von [a∞ + δ∞ , b∞ ], dass es
L
ein L ≥ 1 existiert mit [a∞ + δ∞ , b∞ ] ⊆ ⋃l=1
(al , bl + δl ].
L
Ô⇒ µ((a∞ , b∞ ]) = µ((a∞ + δ∞ , b∞ ]) + µ((a∞ , a∞ + δ∞ ]) ≤ ∑(µ((al , bl ]) + ε ⋅ 2−l ) + ε
l=1
≤ ∑ µ((al , bl ]) + 2ε
l≥1
Dies gilt für beliebiges ε > 0. Mit ε → 0 folgt ∑l≥1 µ((al , bl ]) ≥ µ((a∞ , b∞ ]).
12
◻
Stochastik 1
I. Wahrscheinlichkeitsräume
Definition I.24
Ist f ∶ Rd → [0, ∞) eine (Lebesgue)-integrierbare Funktion mit ∫Rd f (x) dx = 1, so heißt f
Lebesgue-Dichte oder auch (Wahrscheinlichkeits)-Dichte auf Rd .
Lemma I.25
b
Jede W-Dichte f auf R erzeugt mittels Pf ((a, b]) ∶= ∫a f (x) dx ein W-Maß Pf auf (R, BR ).
x
Beweis: Betrachte F(x) = ∫−∞ f (y) dy. Dann ist F monoton wachsend, stetig und erfüllt
∞
f (x) dx = 1
lim F(x) = 0,
lim F(x) = ∫
x→−∞
−∞
x→∞
Der Satz/Korollar liefert, dass F die Verteilungsfunktion eines W-Maßes Pf ist, so dass
b
gilt Pf ((a, b]) = F(b) − F(a) = ∫a f (x) dx.
◻
Bemerkung
(a) Aus der Integrationstheorie folgt dann für jede Borelmenge B, dass
Pf (B) = ∫ f (x) dx
B
(b) Man kann Dichten auch bezüglich beliebiger σ-endlicher Maße definieren, nicht nur
bzgl. des Lebesguemaßes.
Lemma I.26
(a) Ist f die Dichte eines W-Maßes P auf (R, BR ) mit Verteilungsfunktion F, so gilt ∀x ∈ R ∶
x
F(x) = ∫−∞ f (s) ds
(b) Ist die Verteilungsfunktion F auf R (schwach) differenzierbar, so ist f (x) = F′ (x), x ∈ R, die
zugehörige W-Dichte.
Bemerkung F heißt schwach differenzierbar (oder absolut stetig), falls es eine Funktion F gibt
b
mit der Eigenschaft F(b) − F(a) = ∫a F′ (y) dy für alle a < b.
Beispiel I.27 F(x) = ∣x∣ ist schwach differenzierbar mit F′ (x) = 1(0,∞) (x) − 1(−∞,0) (x).
1
Beispiel I.28 (a) W-Dichte f (x) = b−a
1[a,b] (x), x ∈ R für a < b. Dann ist Pf ([a, b]) = 1
1
und Pf = b−a ⋅ λ∣[a,b] (das Lebesguemaß auf [a, b]). Pf heißt gleichmäßige Verteilung auf
[a, b], Notation U([a, b]) für „uniform“.
(b) Exponentialverteilung für λ > 0 setze f λ (x) = λe−λx 1[0,∞) (x), x ∈ R ist W-Dichte.
Das zugehörige W-Maß Pλ heißt Exponentialverteilung mit Parameter λ, Notation
Exp(λ). Die Verteilung Exp(λ) wird häufig zur Modellierung von Wartezeiten (Bedienzeiten, Atomzerfall etc) verwendet. λ entspricht z.B. Stärke der Radioaktivität
(siehe Übung)
(c) Normalverteilung Parameter µ ∈ R, σ > 0. W-Dichte
ϕµ,σ2 (x) = √
1
2π ⋅ σ
13
e
−
(x−µ)2
2σ2
,
x∈R
Stochastik 1
I. Wahrscheinlichkeitsräume
Das zugehörige W-Maß heißt Normalverteilung, Notation N (µ, σ2 ). Zeige
∫
∫
∞
−∞
∞
−∞
!
ϕµ,σ2 (x) dx = 1
(x−µ)
1
−
√
e 2σ2
2πσ
2
x−µ
z= σ
=
∫
subst.
∞
−∞
z2
1
√
e− 2 ⋅ σ
dz
2π σ
Ô⇒ ∫ ϕµ,σ2 = ∫ ϕ0,1
(∫
∞
−∞
z2
2
e− 2 dz)
Fubini
=
∫
∞
−∞
Reduktion auf Fall µ = 0, σ = 1
∫
∞
−∞
z2
e− 2 ⋅ e−
y2
2
dz dy = ∫ e−
R2
²
y2 +z2
2
dy dz
= dλR2
Polar
=∫
R+ ×[0,2π]
= 2π ∫
∞
0
e
2
− r2
r dr dϕ
r2
r2
re− 2 dr = 2π (−e− 2 ) ∣
∞
r=0
= 2π Ô⇒ ∫ ϕ0,1 = 1
(d) Produktdichte im Rd . Sind f 1 , . . . , f d ∶ R → [0, ∞) W-Dichten in R, so ist
d
(x1 , . . . , xd ) ∈ Rd
f (x1 , . . . , xd ) = ∏ f i (xi )
i=1
eine W-Dichte in Rd die Produktdichte von f 1 , . . . , f d . Beachte
∫
Rd
f (x) dx
Fubini
=
∫
∞
−∞
(⋯ ∫
∞
−∞
f 1 (x1 )⋯ f d (xd ) dx1 . . . ) dxd
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
∞
d-mal
∞
=∫
⋯∫
f 2 (x2 )⋯ f d (xd ) dx2 . . . dxd = ⋯ = 1
−∞
−∞
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
(d−1)-mal
d
∣x∣2
(e) Mehrdimensionale Standard-Normalverteilung: f (x) = (2π)− 2 e− 2 , x ∈ Rd mit ∣x∣2 = x12 +
⋯ + xd2 ist Produktdichte der eindimensionalen Standard-Normalverteilungen f i (xi ) =
√1 e−
2π
x2
i
2
. Notation: N (O, Ed ) mit Ed = (
ant.
1
0
⋱
0
1
) ∈ Rd×d . Beachte: f ist rotationsinvari-
Bemerkung (Resultate für W-Maße in (Rd , BRd )) Betrachte die d-dim. Verteilungsfunktion
F(x) = F(x1 , . . . , xd ) = P((−∞, x1 ] × ⋯ × (−∞, xd ])
F hat wiederum Eigenschaften wie im Eindimensionalen, nur die Monotonie wird ersetzt
durch die Nichtnegativität eines komplexeren Ausdrucks.
Im R2 z.B. gilt F(x1 , x2 ) − F(x1 , y2 ) − F(y1 , x2 ) + F(y1 , y2 ) ≥ 0, ∀y1 ≤ x1 , y2 ≤ x2 . Dann kann
man umgekehrt zeigen, dass eine d-dim. Verteilungsfunktion (d.h. Funktion mit diesen
14
Stochastik 1
I. Wahrscheinlichkeitsräume
Eigenschaften) eindeutig ein W-Maß auf (Rd , BRd ) bestimmt. Ist f ∶ Rd → [0, ∞) eine Wx1
xd
f (z) dz1 . . . dzd eine Verteilungsfunktion, so dass es
⋯ ∫−∞
Dichte, so ist F(x1 , . . . , xd ) = ∫−∞
ein entsprechendes W-Maß Pf gibt mit Pf (B) = ∫B f (x) dx für alle B ∈ B.
Satz I.29 (Dichtetransformation)
Es sei X eine reellwertige Zufallsvariable mit stetiger Dichte f X (d.h. f X ist W-Dichte von P X )
sowie Y = ϕ(X) mit ϕ ∶ R → R monoton wachsend, so dass die Linksinverse ϕ−1 stetig differenzierbar ist. Dann hat Y ebenfalls eine Dichte und zwar f Y (y) = f X (ϕ−1 (y)) ⋅ (ϕ−1 )′ (y), y ∈ R.
Beachte: Für beliebiges ϕ muss Y keine Dichte besitzen, z.B. falls ϕ(x) ≡const.
Beweis: Es gilt
FY (y) = PY ((−∞, y]) = P(Y ≤ y) = P(ϕ(X) ≤ y)
= P(ϕ−1 ϕ(X) ≤ ϕ−1 (y)) = P(X ≤ ϕ−1 (y))
= F X (ϕ−1 (y))
Ô⇒ f Y (y) = (FY )′ (y) = f X (ϕ−1 (Y)) ⋅ (ϕ−1 )′ (y)
◻
Korollar I.30
Im vorangegangen Satz gilt für Y = aX + b mit a ≠ 0, b ∈ R
f Y (y) = f X (
Beweis: klar wegen ϕ−1 (y) =
Beispiel I.31
y−b 1
)
a
a
y−b
a
(a) X ∼ N (0, 1) d.h. (P X = N(0, 1)) Ô⇒ Y = σX + µ ∼ N (µ, σ2 ).
f Y (y) = ϕ0,1 (
y−µ
σ )⋅
1 − 1 ( y−µ )2 1
1
= √ e 2 σ ⋅ = ϕµ,σ2 (y)
σ
σ
2π
(b) X ∼ Exp(1) Ô⇒ X = λ−1 ⋅ X ∼ Exp(λ).
λ>0
f Y (y) = f X (λy) ⋅ λ = λ ⋅ e−λy 1R+ (y)
(gilt trotz Sprungs von f X bei Null)
(c) X ∼ N (0, 1) Ô⇒ Y = X 2 ∼ χ2 (1) (chi-quadrat-Verteilung mit einem Freiheitsgrad)
Problem: ϕ(x) = x2 nicht monoton. Argument über Verteilungsfunktion y ≥ 0
√
√
P(Y ≤ y) = P(X 2 ≤ y) = P(X ∈ [− y, + y]) = ∫
Ô⇒ f Y (y) =
√
y
√
− y
ϕ0,1 (z) dz
√
y
√
y
d
d
1
1
P(Y ≤ y) =
e− 2
∫ √ ϕ0,1 (z) dz = 2 ϕ0,1 ( 2) ⋅ √ = √
dy
dy − y
2 y
2πy
y≥0
Der Dichtetransformationssatz lässt sich entsprechend im Mehrdimensionalen formulieren
(s. Krengel), insbesondere gilt für eine affine Abbildung ϕ ∶ Rd → Rd , ϕ(x) = Ax + b mit
15
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
A ∈ Rd×d invertierbar, b ∈ Rd und einem d-dim. Zufallsvektor X mit Dichte f X , dass Y =
ϕ(X) = AX + b die Dichte
f Y (y) = f X (A−1 (y − b)) ⋅ ∣ det(A−1 )∣ besitzt.
Anwendung: X ∼ N (0, Ed ), Y = AX + b:
d
f Y (y) = f X (A−1 (y − b))∣ det(A−1 )∣ = (2π)− 2 ⋅ exp (−
∣A−1 ∣(y − b)2
1
)⋅
2
∣ det(A)∣
⎛ ⟨(A−1 )∗ A−1 (y − b), (y − b)⟩ ⎞
d
1
= (2π)− 2 exp −
⋅
2
⎝
⎠ ∣ det(AA∗ )∣ 12
⎛ ⟨Σ−1 (y − b), y − b⟩ ⎞
exp
−
mit
1
d
2
⎝
⎠
(2π) 2 det(Σ) 2
Ô⇒ Y ist N (b, Σ)-verteilt mit Σ = AA∗ (siehe III.3)
=
1
Σ = AA∗
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
II.1. Bedingte Wahrscheinlichkeit und Bayesformel
Beispiel II.1 (Motivation) Ein neu entwickelter Test auf eine Krankheit ergibt bei 1000 Versuchspersonen, davon 900 gesund und 100 krank, folgende Ergebnisse:
gesund
krank
Summe
Test positiv Test negativ
15
885
92
8
107
893
Kontingenztafel
Summe
900
100
1000
92
Was würde der Arzt einem Patienten sagen, dessen Test positiv ausfällt. Antwort: 107
Wkeit
für „krank“, d.h. ca 80% der Fälle ist der Patient wirklich krank. Andererseits liegt bei
8
einem negativem Testergebnis in nur 893
≈ 0.9% der Fälle doch eine Krankheit vor.
∣K ∩ P∣
92
=
,
107
∣P∣
8
∣K ∩ N∣
=
893
∣N∣
Dieser Ansatz führt auf den Begriff der bedingten Wahrscheinlichkeit; hier würde dies – im
Sinne relativer Häufigkeiten – der bedingten Wahrscheinlichkeiten für „krank“ unter der
Bedingung „Test positiv“ bzw. „Test negativ“ entsprechen.
Definition II.2
Es seien A und B Ereignisse mit P(B) > 0. Dann bezeichnet P(A∣B) ∶=
Wahrscheinlichkeit von A unter B (oder A gegeben B).
P(A∩B)
P(B)
die bedingte
Beispiel II.3 (Wurf zweier fairer Würfel) A =„Pasch“, B =„beide Augenzahlen ungerade“
P(A∣B) =
P(A ∩ B)
=
P(B)
16
3
36
9
36
=
1 1
> = P(A)
3 6
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Satz II.4
Es sei B ein Ereignis mit P(B) > 0. Dann gilt
(a) A ↦ Q(A) ∶= P(A∣B) ist ein W-Maß.
N
(b) Formel von der totalen Wahrscheinlichkeit: Für B = ⊍i=1
Bi die Vereinigung paarweise
disjunkter Ereignisse Bi mit P(Bi ) > 0 und Ereignis A gilt
N
P(A ∩ B) = ∑ P(Bi )P(A∣Bi )
i=1
(c) Bayesformel Für Ereignisse A mit P(A) > 0 und paarweise disjunkte Ereignisse B1 , . . . , BN
N
mit P(Bi ) > 0∀i und ⊍i=1
Bi = Ω gilt
P(Bi ∣A) =
P(Bi ) ⋅ P(A∣Bi )
N
∑ j=1
P(Bj ) ⋅ P(A∣Bj )
In (b) und (c) kann N = ∞ gesetzt werden.
B
Beweis:
­
P( Ω ∩ B)
(a) Q(Ω) = P(Ω∣B) =
= 1, Ai paarweise disjunkt:
P(B)
Q( ⊍ Ai ) =
i≥1
P(Ai ∩ B)
P((⊍i Ai ) ∩ Bi ) P(⊍(Ai ∩ B))
=
=∑
= ∑ Q(Ai )
P(B)
P(B)
P(B)
i
i
N
N
N
i=1
i=1
i=1
(b) P(A ∩ B) = P( ⊍ (A ∩ Bi )) = ∑(A ∩ Bi ) = ∑ P(A∣Bi ) ⋅ P(Bi )
(c) Nach (b) folgt
P(Bi ) ⋅ P(A∣Bi )
N
∑ j=1
P(Bj )P(A∣Bj )
=
P(A ∩ Bi )
= P(Bi ∣A)
P(A)
◻
Bemerkung (a) Beachte den Unterschied zwischen P(A∣B) und P(A ∩ B). Es gilt stets
P(A∣B) ≥ P(A ∩ B).
(b) Interpretation:
a) frequentistisch: Bei häufiger Wiederholung ist P(A∣B) der Anteil der Fälle, in denen A eintritt, in der Gesamtheit der Fälle, in denen B eintritt.
b) subjektiv: Ist P meine Einschätzung der Lage vor Beginn des Experiments, so ist
P(⋅∣B) meine Einschätzung, nachdem ich vom Eintreten von B erfahren habe.
Beispiel II.5 (Test auf eine seltene Krankheit) Eine Krankheit komm bei ca 0.5% der Bevölkerung vor. Ein Test führt bei 99% der Kranken zu einer Reaktion, aber auch bei 2%
der Gesunden. Wie groß ist die Wahrscheinlichkeit, dass bei positiver Reaktion eine Person
wirklich krank ist. A = „Reaktion positiv“, B = „krank“
Bayes
P(B∣A) =
P(B) ⋅ P(A∣B)
0.005 ⋅ 0.99
495
=
=
≈ 0.2
P(B)P(A∣B) + P(BC )P(A∣BC ) 0.005 ⋅ 0.99 + 0.995 ⋅ 0.02 2485
Diese Wahrscheinlichkeit beträgt also nur ca. 20%!
17
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Lemma II.6 (Multiplikationsformel)
Für Ereignisse A1 , . . . An mit P(A1 ∩ . . . ∩ An ) > 0 gilt
P(A1 ∩ . . . ∩ An ) = P(A1 ) ⋅ P(A2 ∣A1 )P(A3 ∣A1 ∩ A2 )⋯P(An ∣A1 ∩ A2 ∩ ⋯ ∩ An−1 )
P(A
1∩ A2 ) P(A1 ∩ A2 ∩ . . . ∩ An )
⋯
Beweis: rechte Seite: P(A
)
⋅
( = P(A1 ∩ . . . ∩ An ) ◻
1
(A((
(
P(A
(
P(A
∩
.
.
.
∩
)
1)
(
1
n−1
(
(
Dies führt auf die sogenannte Pfadregel. Betrachte z.B. ein Urnenmodell mit Ziehen ohne
Zurücklegen und Beachtung der Reihenfolge sowie W weißen und S schwarzen Kugeln,
N = S+W
II.2. Unabhängigkeit
Falls Kenntnis über das Ereignis B die Wahrscheinlichkeit des Ereignisses A nicht beeinflusst (und umgekehrt), so bezeichnet man A und B als (stochastisch) unabhängig
P(A∣B) = P(A)
P(B∣A) = P(B) ⇐⇒
und
P(A ∩ B)
P(A ∩ B)
= P(A) ⇐⇒
= P(B)
P(B)
P(A)
Allgemeiner definiert man auch im Fall von P(A) = 0 oder P(B) = 0
Definition II.7
(a) Zwei Ereignisse A und B sind (stochastisch) unabhängig, falls P(A ∩ B) = P(A) ⋅ P(B)
gilt.
(b) Eine Familie (Ai )i∈I , I beliebige Indexmenge von Ereignissen heißt unabhängig, falls für
jede endliche Teilmenge J ⊆ I gilt P(⋂ j∈J A j ) = ∏ j∈J P(A j ).
Satz II.8 (Lemma von Borel-Cantelli)
Sei (An )n≥1 eine Folge von Ereignissen in (Ω, F, P) sowie
A ∶= lim sup An ∶= ⋂ ⋃ An = {ω ∈ Ω ∣ ω ∈ An gilt für unendlich vielen n ≥ 1}
n→∞
m≥1 n≥m
Dann gilt
(a) Aus ∑n≥1 P(An ) < ∞ folgt P(A) = 0.
(b) Gilt ∑n≥1 P(An ) = ∞ und ist (An )n≥1 unabhängig, so folgt P(A) = 1.
Beweis:
(a) Es gilt A ⊆ ⋃n≥m An für alle m ≥ 1, weshalb
P(A) ≤ inf P( ⋃ An ) ≤ inf ∑ P(An ) = lim ∑ P(An )
m≥1
n≥m
m≥1 n≥m
18
m→∞ n≥m
∑n≥1 P(An )<∞
=
0
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
(b) Betrachte AC ∶= ⋃ ⋂ AC
n:
m≥1 n≥m
P(AC ) ≤ ∑ P( ⋂ AC
n)
=
σ-stet.
n≥m
m≥1
N
C
∑ lim P( ⋂ An )
m≥1 N→∞
n=m
N
UE
1 − x ≤ e−x , x ≥ 0
= ∑ lim ∏ P(AC
n)
m≥1 N→∞ n=m ´¹¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¶
1−P(An )
N
≤ ∑ lim ∏ exp(−P(An ))
m≥1 N→∞ n=m
N
= ∑ exp(− lim ∑ P(An )) = ∑ 0 = 0
N→∞ n=m
m≥1
◻
m≥1
Beispiel II.9 (a) In Teil (b) kann nicht auf die Unabhängigkeit verzichtet werden: Betrachte z.B. ein Ereignis A1 mit P(A1 ) ∈ (0, 1) und setze An ∶= A1 , n ≥ 2. Dann ist
lim supn→∞ An = A1 und somit P(lim supn→∞ An ) < 1, obwohl ∑n≥1 P(An ) = +∞ ist.
(b) Runs im beliebig langen Münzwurf: Es sei AnM das Ereignis „Kopf in den Würfen
(M)
n, n + 1, . . . , n + M − 1“ (M-Run ab n-ten Münzwurf). Frage: P(lim supn→∞ An ) =?.
(M)
(M)
Da (An )n≥1 nicht unabhängig ist, betrachten wir die Teilfolge (AkM+1 )k≥1 . Diese ist
unabhängig, weil für k1 < k2 < ⋯ < k n gilt
(k n +1)⋅M
(M)
P (Ak M+1 ∩ . . . ∩
1
(M)
Akn M+1 )
=
∑
(M)
(M)
∩...∩Ak M+1
n
1 M+1
ω∈Ak
1 ∑i=1
( )
2
(1−ωi )
= 2−M⋅n
(M)
(M)
= P (Ak M+1 ) ⋯ P (Akn M+1 )
1
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
2−M
2−M
Borel-Cantelli (b)
Ô⇒
(M)
∑k≥1 P(AkM+1 )=∞
(M)
P (lim sup An
n→∞
(M)
B-C
) ≥ lim P (lim sup AkM+1 ) = 1
k→∞
k→∞
Es gilt sogar noch mehr:
(M)
P(“für jedes M ≥ 1 gibt es ∞-viele M-Runs“) = P ( ⋂ lim sup An
M≥1
n→∞
)=1
weil der Schnitt von 1-Mengen wieder eine 1-Menge ist, d.h.:
P(En ) = 1, n ≥ 1 Ô⇒ P( ⋂ En ) = 1 − P( ⋃ EnC ) ≥ 1 − ∑ P(EnC ) = 1
n≥1
n≥1
n≥1
Definition II.10
Seien Mi ⊂ Fi , i ∈ I Mengen von Ereignissen. Dann heißt (Mi )i∈I unabhängig, falls für jede
beliebige Auswahl von Ai ∈ Mi , die Familie (Ai )i∈I unabhängig ist.
19
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
II.3. Unabhängige Zufallsvariablen
Definition II.11
Eine Familie (Xi )i∈I von (Si , Si )-wertige Zufallsvariablen heißt unabhängig, falls für beliebige
Ereignisse Ai ∈ Si die Ereignisse ({Xi ∈ Ai })i∈I unabhängig sind. Äquivalent ist (Xi )i∈I unabhängig genau dann, wenn die von den Xi erzeugten σ-Algebren F Xi ∶= {Xi−1 (A) ∣ A ∈ Si }, i ∈ I
unabhängig sind.
Satz II.12
Es seien (Xi , i ∈ I) Zufallsvariablen auf (Ω, F, P) mit Werten in (Si , Si ) und Ei seien ∩-stabile
Erzeuger der Si . Damit ist (Xi )i∈I bereits unabhängig, falls ({Xi ∈ Ai })i∈I unabhängig sind für
beliebige Wahlen von Ai in Ei .
Beweis: Es reicht, diesen Satz für beliebige endliche Indexmengen J ⊆ I zu beweisen.
Wegen ∣J∣ < ∞ gibt es dann ein n mit n ≥ ∣{j ∈ J ∣ A j ∉ E j }∣ bei einer beliebigen Wahl von
A i ∈ Si .
(∗)
Induktionsbehauptung: Es gilt P (⋂ j∈J {X j ∈ A j }) = ∏ j∈J P ({X j ∈ A j }) für beliebige
A j ∈ S j , sofern ∣{j ∈ J ∣ A j ∉ E j }∣ ≤ n.
Induktionsanfang (n = 0): Das ist gerade die Annahme.
Induktionsschritt (n → n + 1): Sei o.B.d.A. ∣J∣ ≥ 2 und seien die A j so, dass ∣{j ∈ J ∣ A j ∉
E j }∣ = n + 1 gilt. Setze J ′ = J ∖ {j} für ein j mit A j ∉ E j . Nach Annahme gilt (∗) für
J ′ . O.B.d.A. sei dabei P (⋂ j∈J ′ {X j ∈ A j }) > 0 (sonst gilt (∗) trivialerweise auch für
J ∶ 0 = 0). Betrachte nun auf S j die W-Maße (!!)
⎞
⎛
A ↦ P {X j ∈ A} ∣ ⋂ {Xi ∈ Ai } =∶ Q1 (A)
⎠
⎝
i∈J ′
A ↦ P(X j ∈ A) =∶ Q2
Für A ∈ E j gilt nach Induktionsannahme
Q1 (A) =
Eindeutig-
Ô⇒
keitssatz
P ({X j ∈ A} ∩ ⋂i∈J ′ {Xi ∈ Ai })
P (⋂i∈J ′ {Xi ∈ Ai })
Q1 = Q2 Ô⇒ (∗)
((
((
P(X
P(X j ∈ A) ⋅ (
∏i∈J
i ∈ Ai )
(′(
= Q2
=
((
((
P(X
∏i∈J
i ∈ Ai )
(′(
(
I.A.
gilt für J
◻
Korollar II.13
Es seien X1 , . . . , Xn Zufallsvariablen auf (Ω, F, P).
(a) Sind alle Xk diskret verteilt, so sind X1 , . . . , Xn genau dann unabhängig, wenn gilt
!
P(X1 = s1 , . . . , Xn = sn ) = p X (s1 , . . . , sn ) = p X1 (s1 )⋯p Xn (sn ) = P(X1 = s1 )⋯P(Xn = sn )
falls alle si ∈ Si , i = 1 . . . , n
(b) Sind die Xk reellwertig, so sind X1 , . . . , Xn genau dann unabhängig, wenn gilt
P(X1 ≤ x1 , . . . , Xn ≤ xn ) = F X (x1 , . . . , xn ) = F x1 (x1 )⋯F xn (xn ) = P(X1 ≤ x1 )⋯P(Xn ≤ xn )
20
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Beweis: (a) Die Richtung „⇒“ ist klar (wähle Ai = {si } in der Definition). Andererseits ist Ek = {{s j } ∣ sk ∈ Sk } ∪ {∅} ein ∩-stabiler Erzeuger von Sk = P(Sk ). Die
trivialen Ereignisse {Xk ∈ ∅} = ∅ erfüllen stets die Unabhängigkeitsbedingung
P(∅) = 0). Nach Voraussetzung gilt nun
n
P(X1 ∈ A1 , . . . Xn ∈ An ) = ∏ P(Xk ∈ Ak )
k=1
Satz 2.12
für die ∩-stabilen Erzeuger Ek und alle Ak ∈ Ek Ô⇒ X1 , . . . , Xn sind unabhängig.
(b) Wir schließen wie in (a) mit den ∩-stabilen Erzeugen Ek = {(−∞, x] ∣ x ∈ R}.
◻
Satz II.14
Es sei X = (X1 , . . . , Xn ) ein Zufallsvektor auf (Ω, F, P) mit W-Dichte f X ∶ Rn → [0, ∞). Dann
gilt:
(a) Jedes Xk besitzt eine Dichte, die sogenannte Randdichte
∞
∞
f X (x1 , . . . , xn ) dx1 . . . dxk−1 dxk+1 . . . dxn
⋯∫
f Xk (xk ) = ∫
−∞
−∞
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
n−1
(b) Die Zufallsvariablen X1 , . . . , Xn sind unabhängig genau dann, wenn
f X (x1 , . . . , xn ) = f X1 (x1 )⋯ f Xn (xn )
für Lebesgue-fast alle x1 , . . . , xn ∈ R.
Beweis:
(a) Es gilt
P(Xk ≤ bk ) = ∫
{(ξ 1 ...,ξ n )∈Rn ∣ξ k ≤bk }
P(dx)
Fubini
=
∫
bk
−∞
f Xk (ξ k ) dξ k
für alle bk ∈ R und daher f Xk ist Dichte von Xk .
(b) Es bleibt zu zeigen (wegen Satzes):
n
P(X1 ≤ b1 , . . . , Xn ≤ bn ) = ∏ P(Xk ≤ bk )
∀b1 , . . . , bn
k=1
n
⇐⇒ f X (x1 , . . . , xn ) = ∏ f Xk (xk )
λ-f.ü.
k=1
„⇐“ folgt durch Integration
P(X1 ≤ b1 , . . . , Xn ≤ bn ) = ∫
b1
−∞
Fubini
=
21
⋯∫
bn
n
−∞
bk
k=1
−∞
∏∫
f X (x1 , . . . , xn ) dxn . . . dx1
n
f Xk (xk ) dxk = ∏ P(Xk ≤ bk )
k=1
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
„⇒“: Die selbe Rechnung zeigt hier
∫
b1
−∞
⋯∫
bn
−∞
n
f X (x1 , . . . , xn ) dxn . . . dx1 = ∏ ∫
Maßtheorie
Ô⇒
Hauptsatz der
Diff/Int-Rechnung
k=1
bk
∞
f Xk (xk ) dxk
∀b1 , . . . , bn ∈ R
n
f X (x1 , . . . , xn ) = ∏ f Xk (xk )
◻
λ-f.ü.
k=1
Beispiel II.15 (a) Besitzt X = (X1 , . . . , Xn ) eine Produktdichte f X ∶ Rn → [0, ∞) (d.h.
n
f i (xi )), so sind X1 , . . . , Xn , unabhängig mit den Randdichten
f X (x1 , . . . , xn ) = ∏i=1
Xi
f (x) = f i (x):
f Xi (xi ) = ∫ ⋯ ∫ f X (x1 , . . . , xn ) dx1 . . . dxi−1 dxi+1 . . . dxn = 1 ⋅ f i (xi )
¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¶ (´¹∏¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹f¹ ¹ ¹ ¹ (x
))⋅ f (x )
(n−1)-mal
j≠i j
j
i
i
und obiger Satz zur Unabhängigkeit findet Anwendung. Bei der n-dimensionalen
n
Standardnormalverteilung X ∼ N (O, En ) mit Dichte f X (x) = (2π)− 2 e−
eindimensionale Randverteilungen
n
f X (x) = ∏
N (0, 1) ∶
i=1
∣x∣2
2
, x ∈ Rn hat
2
1 − xi
e 2
2π
Außerdem sind die Koordinaten X1 , . . . Xn unabhängig.
(b) Es sei X = (X1 , X2 ) gleichverteilt auf G = {(x1 , x2 ) ∈ R2 ∣ x12 + x22 ≤ 1}, d.h. f X (x) =
√
1
2
2
X12 + X22 , Φ = arctan( X
1
(x),
x
∈
R
.
Schreibe
nun
X
in
Polarkoordinaten
R
=
G
X1 ) ∈
∣G∣
[0, 2π). Es gilt für beliebige r ∈ [0, 1], ϕ ∈ [0, 2π] ∶
P(R ≤ r, Φ ≤ ϕ) = ϕ
r2 1
⋅ = P(R ≤ r) P(Φ ≤ ϕ) Ô⇒
2 π ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
r2
R, Φ unabhängig.
ϕ
2π
Also ist f R (r) = 2r ⋅ 1[0,1] (r) und f Φ (ϕ) =
gemeinsame Dichte als Produktdichte:
f (R,Φ) (r, ϕ) =
1
2π 1[0,2π) (ϕ).
Mit dem Satz ergibt sich die
r
1
(R)1[0,2π) (ϕ)
π [0,1]
Alternative Herleitung: Dichtetransformation im R2 (X1 , X2 ) ↦ (R, Φ).
(c) Falls X1 , . . . , Xn Dichten f Xi ∶ R → [0, ∞) besitzen, so braucht der Zufallsvektor
X = (X1 , . . . Xn ) keine Dichte zu besitzen. Einfachstes Beispiel ist der Fall X1 (ω) =
X2 (ω) = . . . = Xn (ω)∀ω ∈ Ω. Dann gilt für die Diagonale D = {(x1 , . . . , xn ) ∈ Rn ∣
x1 = x2 = . . . = xn }, dass P(X ∈ D) = P(X1 = X2 = ⋯ = Xn ) = 1 und andererseits besitzt D Lebesguemaß Null im Rn , n ≥ 2. Hätte X eine Dichte f X , so wäre
P(X ∈ D) = ∫D f X (x) dx = 0 ≠ 1. Also gibt es keine Dichte f X . Dies heißt insbesondere, dass für X1 , . . . , Xn N (0, 1)-verteilt nicht notwendigerweise X = (X1 , . . . , Xn ) als
Vektor normalverteilt ist (P = N (0, En ) gilt nur bei Unabhängigkeit).
22
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Zur Existenz unabhängiger Zufallsvariablen
Frage: Gegeben Verteilungen Pi auf (Si , Si ), gibt es unabhängige Zufallsvariablen (Xi )i∈I mit
P Xi = Pi ? Gesucht ist also ein W-Raum (Ω, F, P) und messbare Abbildungen Xi ∶ Ω → Si .
Definition II.16
Es seien (Ωi , Fi , Pi )1≤i≤n W-Räume. Setze Ω = Ω1 × ⋯ × Ωn ,
F = F1 ⊗ F2 ⋯ ⊗ Fn = σ ({A1 × A2 × ⋯ × An ∣ A1 ∈ F1 , . . . , An ∈ Fn })
Dann heißt F Produkt σ-Algebra auf Ω der F1 , . . . Fn . Gilt für ein W-Maß P auf F P(A1 ×
⋯ × An ) = P(A1 )⋯P(An ) für alle A1 ∈ F1 , . . . , An ∈ Fn , s heißt P Produktmaß der P1 , . . . , Pn
Notation P = P1 ⊗ P2 ⊗ ⋯ ⊗ Pn .
Bemerkung Da die Rechteckmengen A1 × A2 × ⋯An ein ∩-stabiler Erzeuger von F sind, ist
das Produktmaß auf jeden Fall eindeutig bestimmt. In der Maßtheorie wird gezeigt, dass
ein solches Produktmaß stets existiert („Prinzip von Cavalieri“).
Beispiel II.17 Sind f 1 , . . . , f d ∶ R → [0, ∞) W-Dichten von W-Maßen P1 , . . . , Pd , auf BR , so
hat das Produktmaß P = P1 ⊗ ⋯ ⊗ Pd die Produktdichte f (x1 , . . . , xd ) = f 1 (x1 )⋯ f d (xd ) denn:
P(A1 × ⋯ × Ad ) = ∫ f (x) dx
Fubini
=
A1 ×⋯×Ad
d
∫ ∫ ⋯ ∫ f 1 (x1 )⋯ f d (xd ) dxd ⋯ dx2 dx1 = ∏ ∫ f k (x) dx
k=1 Ak
A1 A2
Ad
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
Pk (Ak )
d
= ∏ Pk (Ak )
k=1
Ein anderes Beispiel ist das Bernoulli-Schema, wofür für die Zähldichte gilt
n
p( ω1 , . . . ωn ) = p∑ ωi (1 − p)∑(1−ωi ) = ∏ pωi (1 − p)1−ωi
¯
i=1
∈{0,1}
Wir erhalten also ein Produktmaß auf dem Produktraum {0, 1}n , F = P(Ω) = P({0, 1})⊗n .
!
Lemma II.18
Ist (Ω1 × ⋯ × Ωn , F1 ⊗ ⋯ ⊗ Fn , P1 ⊗ ⋯ ⊗ Pn ) ein Produkt-W-Raum, so sind die Koordinatenabbildung Xi (ω1 , . . . , ωn ) ∶= ωi von Ω1 × ⋯ × Ωn auf Ωi unabhängige (Ωi , Fi )-wertige Zufallsvariablen mit Verteilung Pi .
Beweis:
Xi ist (F1 ⊗ ⋯ ⊗ Fn , Fi )-messbar wegen
(∗)
Xi−1 (A) = Ω1 × ⋯ × Ωi−1 × A × Ωi+1 × ⋯ × Ωn ∈ F1 ⊗ ⋯ ⊗ Fn
für alle A ∈ Fi . Außerdem gilt
(P1 ⊗ ⋯Pn )Xi (A) = P1 ⊗ ⋯ ⊗ Pn (Xi−1 (A))
Produktmaß
=
und (∗)
P1 (Ω1 ) ⋯Pi−1 (Ωi−1 ) ⋅ Pi (A) ⋅ Pi+1 (Ωi+1 )⋯Pn (Ωn ) = Pi (A)
´¹¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¶
=1
Also besitzt Xi die Verteilung Pi .
23
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Unabhängigkeit folgt aus
(P1 ⊗ ⋯ ⊗ Pn )(X1 ∈ A1 , . . . , Xn ∈ An ) = P1 ⊗ ⋯ ⊗ Pn (A1 × ⋯ × An )
s.o.
= P1 (A1 )⋯Pn (An ) = (P1 ⊗ ⋯ ⊗ Pn )(X1 ∈ A1 )⋯(P1 ⊗ ⋯ ⊗ Pn )(Xn ∈ An )
◻
Für unendliche Produkträume gelten bei W-Maßen analoge Resultate, für deren Beweis
wir auf Stochastik II verweisen (dort allg. für stochastische Prozesse).
Definition II.19
Es seien (Ωi , Fi , Pi )i∈I , I ≠ ∅ beliebige Indexmenge, eine Familie von W-Räumen. Setze Ω ∶=
∏i∈I Ωi = ⨉i∈I Ωi (kartesisches Produkt), π j ((ωi )i∈I ) = ω j (j-te Koordiantenprojektion), F =
⊗i∈I Fi ∶= σ({πi−1 (Ai ) ∣ i ∈ I, Ai ∈ Fi }). (Produkt-σ-Algebra) Dann heißt P Produktmaß der
(Pi )i∈I auf F, falls
⎛
⎞
P ⋂ πi−1 (Ai ) = ∏ Pi (Ai )
⎝i∈J
⎠ i∈J
gilt für alle J ⊆ I endlich und Ai ∈ Fi .
Beachte: Ist I = {1, . . . , n} so ist die Produkt-σ-Algebra gerade gleich σ({A1 × ⋯ × An ∣ A1 ∈
F1 , . . . , An ∈ Fn }), weil A1 × ⋯ × An = π1−1 (An ) ∩ . . . ∩ πn−1 (An ) gilt und σ-Algebren ∩-stabil
sind. Die Definition des Produktmaßes ist ebenso wie vorher.
Satz II.20
Es solches Produktmaß existiert stets und ist eindeutig.
Korollar II.21
Zu gegebenen W-Maßen Pi auf (Ωi , Fi ), i ∈ I, existiert stets eine Familie unabhängiger Zufallsvariablen Xi mit P Xi = Pi , i ∈ I, nämlich
Ω = ∏ Ωi ,
F = ⊗ Fi ,
i∈I
i∈I
P = ⊗ Pi
und
Xi (ω) = πi (ω) = ωi
i∈I
Beweis: wie oben
Beispiel II.22 Man kann ein unendlich langes Münzwurfexperiment auf
Ω = {0, 1}N , F = P({0, 1})⊗N ⊊ P({0, 1}N )
konstruieren (Siehe Vitali).
Satz II.23 (0-1-Gesetz von Kolmogorov)
Seien (Xk )k≥1 unabhängige Zufallsvariablen auf (Ω, F, P). Dann gilt für jedes bezüglich (Xk )k≥1
asymptotische Ereignis A:
P(A) = 0 oder P(A) = 1
Definition II.24
Ein Ereignis A heißt asymptotisch bezüglich (Xk )k≥1 , falls es für alle n ∈ N nur von (Xk , k ≥ n)
abhängt, genauer falls A ist der asymptotischen σ-Algebra AX = ⋂n≥1 σ(⋃k≥n F Xk ) (mit F Xk =
{Xk−1 (B) ∣ B ∈ S}) liegt.
24
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Lemma II.25
Sind (Xi )i∈I (Si , Si )-wertige unabhängige Zufallsvariablen und ϕi ∶ Si → Ti (Si , Ti )-messbar, so
sind auch die (Ti , Ti )-wertige Zufallsvariablen (ϕi (Xi ))i∈I unabhängig.
Beweis: Zu zeigen ist, dass für ∀Ai ∈ Ti die ({ϕi (Xi ) ∈ Ai })i∈I unabhängig sind. Wegen
{ϕi (Xi ) ∈ Ai } = {ω ∈ Ω ∣ ϕi (Xi (ω)) ∈ Ai } = {ω ∈ Ω ∣ Xi (ω) ∈ ϕ−1 (Ai )}
= {Xi ∈ ϕ−1
i (Ai )}
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
=∶Bi
und Bi ∈ Si (da ϕi messbar) sind die Ereignisse {ϕi (Xi ) ∈ Ai } = {Xi ∈ Bi } unabhängig
auf Grund der Unabhängigkeit der (Xi )i∈I .
◻
Beispiel II.26 In obigen Beispiel der Gleichverteilung auf dem Einheitskreis waren R, Φ
unabhängig. Dann sind zum Beispiel auch (R2 , Φ) oder (R, cos Φ) unabhängig, aber nicht
(R cos Φ, R sin Φ).
1
Frage: Betrachte die harmonische Reihe ∑∞
k=1 k , wähle aber die Vorzeichen jedes Summan-
den rein zufällig. Wie groß ist die Wahrscheinlichkeit, dass diese zufällige Reihe konvergiert?
Wir wissen:
∞
1 1
1
= 1 + + + ⋯ = +∞
k
2 3
k=1
∑
∞
(−1)k+1
= log 2 < +∞
k
k=1
∑
1
Nun betrachte ∑∞
k=1 Xk k mit P(Xk = 1) = P(Xk = −1) und (Xk )k≥1 unabhängig.
Zur Erinnerung: A ist asymptotisches Ereignis bzgl. (Xk )k≥1 falls A ∈ AX = ⋂ σ( ⋃ F Xk )
n≥1
k≥n
∞
Hier:
m X
Xk
konvergiert} = ⋂ ⋃ ⋂ {∣ ∑ k ∣ < ε}
ε>0 N∈N m,n≥N k=n k
k=1 k
ε∈Q
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
A ∶= { ∑
X
X
∈σ(⋃m F k )=F Xn ,...,Xm ⊆σ(⋃k≥N F k )
k=n
∈σ(⋃k≥N F Xk )
³¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ · ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ µ
C
m X
Xk
Ô⇒ ( ⋃ ⋂ {∣ ∑
∣ < ε}) = ⋂ ⋃ {∣ ∑ k ∣ ≥ ε} ∈ AX
N∈N m,n≥N k=n k
N≥1 m,n≥N k=n k
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
m
∈σ(⋃k≥N F Xk )
AC ∈ AX Ô⇒ A ∈ AX , also ist A asymptotisches Ereignis. Das 0-1-Gesetz von Kolmogorov impliziert daher P(A) ∈ {0, 1} d.h. mit Wahrscheinlichkeit 1 konvergiert diese
zufällige Reihe oder divergiert. Es kann also nicht sein, dass z.B. beides mit Wahrscheinlichkeit 0.5 eintritt.
Zum Beweis des 0-1-Gesetzes benötigen wir
Lemma II.27
Es seien (Xi )i∈I eine Familie unabhängiger Zufallsvariablen mit Werten in (Si , Si ) und I = I1 ⊍
I2 eine Zerlegung der Indexmenge I. Dann sind die σ-Algebren F1 = σ (⋃i∈I1 F Xi ) und F2 =
σ (⋃i∈I2 F Xi ) unabhängig.
25
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Beweis: Man betrachte die Zufallsvariablen Y1 = (Xi )i∈I1 , Y2 = (Xi )i∈I2 mit Werten in
(∏i∈I1 Si , ⊗i∈I1 Si ) beziehungsweise (∏i∈I2 Si , ⊗i∈I2 Si ). [Messbarkeit folgt, weil ⊗i∈I1 Si
von {πi−1 (A) ∣ i ∈ I1 , A ∈ Si } erzeugt wird.] Wegen dieses Erzeugers ist die Unabhängigkeit der σ-Algebren F1 , F2 auch äquivalent zur Unabhängigkeit der Zufallsvariablen Y1 , Y2 (d.h. F1 = F Y1 , F2 = F Y2 ). Nach obigem Satz reicht es, für die ∩-stabilen
Erzeuger E j = {⋃i∈J πi−1 (Ai ) ∣ J ⊆ Ij , endlich, Ai ∈ Si } für j = 1, 2 zu zeigen.
∀B1 ∈ E1 , B2 ∈ E2 ∶ P(Y1 ∈ B1 , Y2 ∈ B2 ) = P(Y1 ∈ B2 ) ⋅ P(Y2 ∈ B2 )
Dies folgt nun aus der Unabhängigkeit der (Xi )i∈I ∶ Betrachte B1 = ⋂i∈J1 πi−1 (Ai ), B2 =
⋂i∈J2 πi−1 (Ai ) mit J1 , J2 ⊆ I endlich, J1 ∩ J2 = ∅, Ai ∈ Si . Dann gilt
P(Y1 ∈ B1 , Y2 ∈ B2 ) = P(∀i ∈ J1 , Xi ∈ Ai und ∀i ∈ J2 ∶ Xi ∈ Ai )
Unabh.
=
∏ P(Xi ∈ Ai )
der Xi i∈J ∪J
1 2
= ( ∏ P(Xi ∈ Ai ))( ∏ P(Xi ∈ Ai ))
i∈J1
i∈J2
Xi
= P(∀i ∈ J1 ∶ Xi ∈ Ai )P(∀i ∈ J2 ∶ Xi ∈ Ai )
unabh.
= P(Y1 ∈ B1 ) ⋅ P(Y2 ∈ B2 )
◻
∞
=
Beweis: (des 0-1-Gesetzes) Betrachte die σ-Algebren F1n = σ (⋃nk=1 F Xk ) sowie Fn+1
∞
n
n
X
k
σ (⋃k=n+1 F ). Nach dem Lemma sind F1 , Fn+1 unabhängig. Für die Zufallsvariable
X = (Xk )k≥1 mit Werten in (∏k≥1 Sk , ⊗k≥1 Sk ) und für 1 A (ω) gilt wegen
n
n
∀n ≥ 1, Bi ∈ Si ∶P( X ∈ ⋂ πi−1 (Bi ) , 1 A = 1) = P(X ∈ ⋂ πi−1 (Bi ))P(1 A = 1)
´¹¹ ¹ ¹¸¹ ¹ ¹ ¶
i=1
i=1
n
∈Fn+1
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
={X1 ∈B1 ,...,Xn ∈Bn }∈F1n
n
πi−1 (Bi ) ∣ n ∈ N, Bi ∈ Si } ein σ-stabiler Erzeuger von ⊗i≥1 Si . Also folgt
Nun ist {⋂i=1
nach obigem Satz, dass X und 1 A unabhängige Zufallsvariablen sind [beachte F 1 A =
{A, AC , Ω, ∅} + Übung]. Andererseits gilt AX ⊆ σ (⋃k≥1 F Xk ) = F X . Also gibt es für
A ∈ AX ein B ∈ ⊗k≥1 Sk mit A = X −1 (B). Sind 1 A und X unabhängig, so sind auch 1 B (X)
und 1 A nach obigem Lemma unabhängig und daher ist 1 A von sich selbst unabhängig.
Ô⇒ P(A) = P(1 A = 1) Ô⇒ P({1 A = 1} ∩ {1 A = 1}) = P(1 A = 1)P(1 A = 1) = P(A)2
Ô⇒ P(A) ∈ {0, 1}
◻
II.4. Faltung
Definition II.28
Sind P und Q W-Maße auf (R, BR ), so definiere die Faltung P ∗ Q von P und Q als das W-Maß
auf
(R, BR )
mit
(P ∗ Q)(B) = ∫ P(B − {x})Q( dx),
26
B ∈ BR
Stochastik 1
Bemerkung
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
(a) Dabei ist B − {x} = {b − x ∣ b ∈ B}, z.B. [0, 1] − {x} = [−x, 1 − x].
(b) ∫R f (x)Q( dx) bezeichnet das Maß-Integral (Lebesgue-Integral) von f bzgl. dem Maß
Q. Insbesondere ist im Fall, dass Q eine W-Dichte q auf R besitzt,
∫ f (x)Q( dx) = ∫ f (x)q(x) dx
R
R
Alternative Schreibweisen sind ∫ f (x)Q( dx) = ∫ f (x) dQ(x) = ∫ f dQ
(c) Dass P ∗ Q in der Tat ein W-Maß ist (und dass x ↦ P(B − {x}) messbar ist), wird sich
aus dem folgenden Lemma ergeben:
Lemma II.29
Es seien X und Y unabhängige reellwertige Zufallsvariablen. Dann besitzt X + Y die Verteilung
P X+Y = P X ∗ PY .
Beweis: Wir zeigen, dass die Verteilungsfunktionen übereinstimmen, d.h.
∀b ∈ R ∶ P(X + Y ≤ b) = P X ∗ PY ((−∞, b])
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
P X+Y ((−∞,b])
P(X + Y ≤ b) = ∫ P(X,Y) ( dx, dy) = ∫ (P X ⊕ PY )( dx, dy)
{(x,y)∣x+y≤b}
{(x,y)∣x+y≤b}
Fubini
= ∫ (∫ 1(x + y ≤ b)P X ( dx))PY ( dy)
= ∫ P X ((−∞, b − y])PY ( dy) = ∫ P X ((−∞, b] − {y})PY ( dy)
= P X ∗ PY ((−∞, b])
◻
Korollar II.30
Die Faltung ist kommutativ, also P ∗ Q = Q ∗ P und assoziativ P ∗ (Q ∗ R) = (P ∗ Q) ∗ R.
Beweis: Das folgt sofort aus den Eigenschaften der Zufallsvariablen:
X+Y = Y+X
bzw. (X + Y) + Z = X + (Y + Z)
für unabhängige Zufallsvariablen mit P X = P, PY = Q, P Z = R.
◻
Bemerkung Die Faltung ist allgemein auch für (signierte) Maße definiert, womit man sogar eine Faltungs-Algebra im Sinne der Algebra erhält.
Lemma II.31
Es seien X und Y unabhängige reellwertige Zufallsvariablen und X besitze eine W-Dichte f X . Dann
besitzt X + Y die Dichte f X+Y (z) = ∫R f X (z − y)PY ( dy). Falls auch Y eine Dichte f Y besitzt,
so gilt f X+Y = f X ∗ f Y , wobei die Faltung zweier integrierbarer Funktionen f , g definiert ist als
( f ∗ g)(y) = ∫R f (y − x)g(x) dx.
27
Stochastik 1
II. Bedingte Wahrscheinlichkeiten und Unabhängigkeit
Beweis:
b−y
X
Def.
Y
∀b ∈ R ∶ (P ∗ P )((−∞, b]) =
Fubini
=
X
Y
∫ P ((−∞, b − y])P ( dy) = ∫ ( ∫ f (x) dx)P ( dy)
X
Y
R
R
X
−∞
Y
∫ ∫ 1(x ≤ b − y) f (x)P ( dy) dx
RR
Substitution
=
z=x+y
X
Y
∫ ∫ 1(z ≤ b) f (z − y)P ( dy) dz
RR
b
= ∫ (∫ f X (z − y)PY ( dy)) dz
−∞
R
Wegen P X+Y = P X ∗ PY besitzt X + Y also die Verteilungsfunktion
F X+Y (b) = ∫
b
−∞
(∫ f X (z − y)P X ( dy)) dz
R
und somit Dichte f X+Y (z) = ∫R f X (z − y)PY ( dy). Im Fall, dass Y die Dichte f Y besitzt,
gilt nach Integrationstheorie „PY ( dy) = f Y (y) dy“ d.h.
f X+Y (z) = ∫ f X (z − y) f Y (y) dy = f X ∗ f Y (z)
◻
Beispiel II.32 Es seien X und Y unabhängig mit X ∼ N (µ x , σx2 ), Y ∼ N (µy , σy2 ). Wie ist
X + Y verteilt? Es ist nun klar, dass X + Y wieder eine Dichte hat, nämlich f X+Y = f X ∗ f Y .
f X ∗ f Y (z)
=∫ √
1
2πσx2
exp (−
⎛ (y − µy )2 ⎞
(z − y − µ x )2
1
)
⋅
dy
exp
−
√
⎝
2σx2
2σy2 ⎠
2πσ2
y
⎛ ((z − µ x ) − y)2 (y − µy ) ⎞
= c1 ∫ exp −
dy
−
konst.
⎝
2σx2
2σy2 ⎠
2
ci >0
2
2
⎛ (z − µ x − µy )
= c1 exp −
⎝
2σx2
2
2 2
⎛ (z − µ x − µy ) σy ⎞
⎞
⋅ exp
∫
⎠
⎝ (σx2 + σy2 ) ⋅ σx2 ⎠
⎛ ⎛y− σy (z−µx −µy )⎞
⎠
⎜ ⎝ σx2 +σy2
exp ⎜−
σx2 σy2
⎜
2 2 2
⎝
σx +σy
⎞
⎟
⎟ dy
⎟
⎠
σy2
⎛ 1
⎛1
⎞⎞
⎛ 1 (z − µ x − µy )2 ⎞
= c2 ⋅ exp − (z − µ x − µy )2 ⋅ 2 − 2 2
=
c
exp
−
2
⎝ 2
⎝ σx σx (σx + σy2 ) ⎠⎠
⎝ 2
⎠
σx2 + σy2
Da f X ∗ f Y wieder eine W-Dichte sein muss, ist die Normierungskonstante c2 =
und es gilt X + Y ∼ N (µ x + µy , σx2 + σy2 ).
28
√
1
2π(σx2 +σy2 )
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
III. Erwartungswert, Varianz und Kovarianz
III.1. Der Erwartungswert und Momente
Wir wollen für reellwertige Zufallsvariablen einen Mittelwert als Kenngröße angeben. Dafür gibt es mehrere Möglichkeiten, aber wie bei deterministischen Größen ist das Analogon
des arithmetischen Mittels, nämlich der Erwartungswert, die gängigste Wahl.
Beispiel III.1 Beim Würfeln von zwei Würfeln erwarten wir als Augensumme X im Mittel
E[X] = P(X = 2) ⋅ 2 + P(X = 3) ⋅ 3 + ⋯ + P(X = 12) ⋅ 12 = 7
gewichtetes Mittel der möglichen Werte von X.
Definition III.2
Eine reellwertige Zufallsvariable X heißt einfach, falls sie nur endlich viele Werte annimmt, d.h.
m
X ist von der Form X(ω) = ∑i=1
αi 1 Ai (ω) mit m ∈ N, αi ∈ R, Ai ∈ F geeignet. Für eine solche
Zufallsvariable definieren wir ihren Erwartungswert
m
E[X] ∶= EX ∶= ∑ αi P(Ai )
i=1
Lemma III.3
Für einfache Zufallsvariablen X auf (Ω, F, P) gilt:
(a) E[X] = ∑ xP(X = x); insbesondere hängt der Erwartungswert nur von der Verteilung P X
x∈X(Ω)
von X ab.
(b) Der Erwartungswert ist linear und monoton: Ist Y eine weitere einfache Zufallsvariable und
sind α, β ∈ R, so gilt E[αX + βY] = αE[X] + βE[Y] und aus X ≤ Y (d.h. ∀ω ∈ Ω ∶ X(w) ≤
Y(ω)) folgt E[X] ≤ E[Y].
(c) Falls X und Y unabhängige einfache Zufallsvariablen sind, so gilt E[XY] = E[X]E[Y].
(d) ∀A ∈ F ∶ P(A) = E[1 A ]
Beweis:
(a) o.B.d.A. Ai paarweise disjunkt
Def.
m
m
i=1
i=1
E[X] = ∑ αi P(Ai ) = ∑ αi P(Ai ∩ X = αi ) =
∑
x∈X(Ω)
m
x ∑ 1{x=αi } P(Ai ∩ X = αi )
i=1
X
= ∑ xP(X = x) = P (x)
x∈X(Ω)
hängt dies nur von der Verteilung P X ab.
m
(b) Zu X = ∑i=1
αi 1 Ai , Y = ∑nj=1 β j 1 Bj wähle eine gemeinsame Verteilung (Ck )1≤k≤r
der (Ai ), (Bi ), sodass X = ∑rk=1 α̃k 1Ck , Y = ∑rk=1 β̃ k 1Ck . Da nach a) der Erwartungs-
29
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
wert nicht von der Darstellung von X abhängt, gilt:
⎡ r
⎤ r
⎢
⎥
E[αX + βY] =E ⎢ ∑ (αα̃k + β β̃ k )1Ck ⎥ = ∑ (αα̃k + β β̃ k )P(Ck )
⎢
⎥
⎣k=1
⎦ k=1
r
r
k=1
k=1
=α ∑ α̃k P(Ck ) + β ∑ β̃ k P(Ck ) = αE[X] + βE[Y]
r
r
k=1
k=1
Genauso folgt E[X] = ∑ α̃k P(Ck ) ≤ ∑ β˜k P(Ck ) = E[Y] für X ≤ Y und o.B.d.A
(Ck ) paarweise disjunkt Ô⇒ α̃k ≤ β̃ k
(a)
(c) E[XY] =
zP(XY = z) =
∑
z∈(XY)(Ω)
Unabhängig
= ∑
x∈X(Ω)
z≠0
x≠0
zP(X = x)P(Y =
∑
x∈X(Ω) z∈(XY)(Ω)
x≠0
= ∑
z ∑ P(XY = z, X = x)
∑
z∈(XY)(Ω)
z
x)
z≠0
∑ xyP(X = x)P(Y = y)
x∈X(Ω) y∈Y(Ω)
x≠0
y≠0
= ∑ xP(X = x) ∑ yP(Y = y) = E[X]E[Y]
x∈X(Ω)
y∈Y(Ω)
x≠0
y≠0
◻
(d) klar nach Def.
Beispiel III.4 Sei X eine Bin(n, p)-verteilte Zufallsvariable
n
n
n
n
n!
Def.
E[X] = ∑ kP(X = k) = ∑ k( )pk (1 − p)n−k = ∑
pk (1 − p)n−k
k
(n
−
k)!(k
−
1)!)
k=0
k=0
k=1
n
=n ∑ (
k=1
n−1 n − 1
n−1 k
)p (1 − p)n−k =l=k−1 n ∑ (
)pl+1 (1 − p)n−1−l
k−1
l
l=0
n−1
=np ∑ (
l=0
n−1 l
)p (1 − p)(n−1)−l = np
l
n
Zweite Möglichkeit: es gilt ja X = ∑i=1
Zi mit unabhängigen Zi ∼ Bin(1, p). Linearität liefert
n
n
n
1p = np
E[X] = E[∑i=1 Zi ] = ∑i=1 E[Zi ] = ∑ ∑1k=0 kP(Zi = k) = ∑i=1
Definition III.5
Für eine nicht negative Zufallsvariable X setze mittels approximierender Folge (Xn ) einfacher Zufallsvariablen mit Xn ↑ X
E[X] ∶= lim E[Xn ] ∈ [0, ∞]
n→∞
Betrachte für einen Wahrscheinlichkeitsraum (Ω, F, P) die Menge
L1 = L1 (Ω, F, P) = {X ∶ ω → R messbar, E[∣X∣] < ∞}
30
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Definiere für X ∈ L1 mit X + (ω) = max(X(ω), 0) und X − (ω) = max(−X(ω), 0) den Erwartungswert
E[X] = E[X + ] − E[X − ] ∈ R
Wegen E[X + ] ≤ E[∣X∣] < ∞ und E[X − ] ≤ E[∣X∣] < ∞ gilt für X ∈ L1 stets ∣E[X]∣ < ∞. Man
schreibt auch
E[X] = ∫ XdP = ∫ X(ω)P(dω) = ∫ X(ω)dP(ω)
Ω
Ω
Ω
und setzt ∫ A XdP = ∫Ω X(1 A )dP für A ∈ F.
Satz III.6
Für X ∈ L1 (Ω, F, P) gilt
(a) E[X] = ∫Ω xP X (dx) und E[X] hängt nur von der Verteilung von X ab.
(b) Der Erwartungswert ist linear und monoton auf L1 .
(c) Falls X, Y ∈ L1 unabhängig sind, so gilt XY ∈ L1 und E[XY] = E[X]E[Y]
Beweis: (a),(b) folgen aus der Maßtheorie (Lemma + Approximation). Für (c) betrachte
(a)
E[∣XY∣] = ∫
∣xy∣P(XY) (dx, dy) = ∫
XY
R2
R2
∣x∣∣y∣(P X ⊗ PY )(dx, dy)
Tonelli
= ∫ ∫ ∣x∣∣y∣P X (dx)PY (dy) = (∫ ∣x∣P X (dx)) (∫ ∣y∣PY (dy))
R
R
R
=E[∣X∣]E[∣Y∣]
X,Y∈L1
<
R
∞ Ô⇒ XY ∈ L1
Dieselbe Rechnung ohne Betrag zeigt dann E[XY] = E[X]E[Y] (Fubini!)
Korollar III.7
(a) Ist X eine Zufallsvariable mit Wahrscheinlichkeitsdichte f X ∶ R → [0, ∞), so gilt
X ∈ L1 ⇐⇒ ∫
∞
−∞
∣x∣ f X dx < ∞
und in diesem Fall E[X] = ∫
∞
−∞
x f X dx
(b) Ist X eine Zufallsvariable mit Zähldichte p X , so gilt
X ∈ L1 ⇐⇒ ∑ ∣x∣p X (x) < ∞
und in diesem Fall E[X] = ∑ xp X (x)
x∈X(Ω)
Beweis:
x∈X(Ω)
(a) Sei X ≥ 0, d.h. f X (x) = 0 für x < 0. Dann gilt für
⎧
⎪
⎪k2−n ,
Xn = ⎨
⎪
n,
⎪
⎩
falls k2−n ≤ X < (k + 1)2−n , 0 ≤ k ≤ n2n − 1
falls X ≥ n
31
◻
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
mit Xn ↑ X, Xn einfach und
n2n −1
E[Xn ] = ∑ k2−n P(k2−n ≤ X ≤ (k + 1)2−n ) + nP(X ≥ n)
k=0
n2n −1
= ∑ ∫
k=0
=∫
mon. Konv.
Ô⇒
Beppo-Levi
E[X] = ∫
(k+1)2−n
k2−n
k2−n f X (x)dx + ∫
∞
n
n f X (x)dx
n
∞ ⎛n2 −1
⎝
0
∞
0
⎞ X
−n
∑ k2 1[k2−n ,(k+1)2−n ) (x) + n1[n,∞) (x) f (x)dx
⎠
k=0
x f X (x)dx
∞
∞
Dies zeigt insbesondere E[∣X∣] = ∫0 x f ∣X∣ (x)dx = ∫0 x( f X (x) + f X (−x))dx und
∞
dies ist endlich genau dann, wenn ∫−∞ ∣x∣ f X (x)dx < ∞.
1
Ist nun X ∈ L , so folgt
E[X + ] = ∫
E[X − ] = ∫
∞
0
∞
0
−
x f X (x)dx = ∫
Ô⇒ E[X] =E[X + ] − E[X − ] = ∫
(b) Setze
⎧
k2−n
⎪
⎪
⎪
⎪
Xn = ⎨n
⎪
⎪
⎪
⎪
⎩0
∞
+
x f X (x)dx = ∫
0
∞
0
∞
−∞
x f X (x)dx
x f X (−x)dx = − ∫
0
−∞
x f X (x)dx
x f X (x)dx
, k2−n ≤ X < (k + 1)2−n , k = 0, . . . , n2n − 1
,X ≥ n
,X < 0
also eine einfache Zufallsvariable. Dann ist
n
E[Xn+ ] =
⎛n2 −1 −n
−n
−n ⎞
∑ k2 P(X ∈ [k2 , (k + 1)2 )) + nP(X ≥ n) + 0
⎝ k=0
⎠
n
⎛n2 −1
⎞
= ∑ k2−n ⋅
p X (x) + n
p X (x)
∑
∑
⎝ k=0
⎠
x∈[n,∞)∩X(Ω)
x∈[k2−n ,(k+1)2−n )∩X(Ω)
n
⎛n2 −1
⎞
= ∑ p (x)[ ∑ k2−n 1(k2−n ≤ x < (k + 1)2−n ) + n1(x ≥ n)]
⎝
⎠
k=0
x∈X(Ω)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
X
monoton wachsend in n mit Limes max{x, 0}
n→∞
ÐÐÐ→
∑
max{x, 0} ⋅ p X (x)
x∈X(Ω)
Also gilt E[Xn+ ] → ∑x∈X(Ω) max(x, 0)p X (x) und wegen Xn+ ↑ max{X, 0} = X +
32
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
nach Definition
E[X + ] =
(analog E[X − ] = ∑ max{−x, 0}p X (x))
max{x, 0}p X (x)
∑
x∈X(Ω)
Ô⇒ E[∣X∣] = E[X + + X − ] =
∣x∣p X (x)
∑
x∈X(Ω)
und es gilt E[∣X∣] < ∞ ⇐⇒ ∑x∈X(Ω) ∣x∣p X (x) < ∞. In dem Fall sind auch
E[X + ], E[X − ] endlich und somit
E[X] = E[X + ] − E[X − ] =
X
∑ (max{x, 0} − max{−x, 0})p (x) =
x∈X(Ω)
∑
xp X (x)
x∈X(Ω)
◻
Satz III.8
Es seien X ein Zufallsvektor mit Dichte f X ∶ Rd → [0, ∞) sowie h ∶ Rd → R Borel-messbar. Dann
gilt
h(X) ∈ L1 ⇐⇒ ∫
Rd
∣h(x)∣ f X (x) dx < ∞
In dem Fall gilt E[h(X)] = ∫Rd h(x) f X (x) dx.
Beweis: (maßtheoretische Induktion)
m
m
αi 1 X−1 (Ai )
αi 1 Ai Ô⇒ h ○ X = ∑i=1
(a) h einfache Funktion: h = ∑i=1
E[h(X)]
linear
=
m
m
m
i=1
i=1
i=1
∑ αi E[1 X−1 (Ai ) ] = ∑ αi P(X ∈ Ai ) = ∑ αi ∫
=∫
Rd
Rd
1 Ai (x) f X (x) dx
h(x) f X (x) dx
(b) h ≥ 0 messbar: Dann gibt es einfache hn mit hn ↑ h:
(a)
E[hn (X)] = ∫ hn (x) f X (x) dx
mon.
Def
↑ ∫ h(X) f X (x) dx = E[h(X)] ∈ [0, ∞]
Konv.
Wir schließen daraus, dass E[∣h(X)∣] < ∞ ⇐⇒ ∫ ∣h(x)∣ f X (x) dx < ∞ für beliebige messbare h.
(c) h beliebig messbar mit ∫ ∣h∣ f X (x) dx < ∞:
(b)
E[h(X)] = E[h+ (X)] − E[h− (X)] = ∫ h+ (x) f X (x) dx − ∫ h− (x) f X (x) dx
Def
= ∫ h(x) f X (x) dx
Beispiel III.9
1
k∈N
(a) X ∼ U[0, 1] Ô⇒ E[X k ] = ∫ x k ⋅ f X (x) d x = ∫
insbesondere E[X] =
◻
R
1
2
0
xk d x =
1
,
k+1
(b) Zufallsvariable X mit Zähldichte auf Z ∶ p X (m) = π32 ⋅ m12 für m ∈ Z ∖ {0} und p X (0) =
3
1
0. Was ist E[X]? Existiert nicht, weil E[∣X∣] = ∑m∈Z ∣m∣ ⋅ p X (x) = 2 ∑∞
m=1 m π 2 ⋅ m2 = ∞.
33
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Definition III.10
Eine Zufallsvariable X liegt im L p = L p (Ω, F, P), für p > 0, falls ∣X∣ p ∈ L1 , also E[∣X∣ p ] < ∞ ist.
Für X ∈ L p und p ∈ N heißt E[X p ] p-tes Moment von X; für X ∈ L p und p > 0 heißt E[∣X∣ p ]
p-tes absolutes Moment.
Lemma III.11
Für 0 < p ≤ q gilt Lq ⊆ L p .
Beweis: E[∣X∣ p ]
Lq , p ≤ q.
Mon.
≤
E[max{1, ∣X∣q }]
Mon.
≤
Lin.
E[1 + ∣X∣q ] = 1 + E[∣X∣q ] < ∞ für X ∈
◻
Lemma III.12
Für eine Zufallsvariable X ∈ L2 nimmt die Funktion ϕ ∶ R → R mit ϕ(x) = E[(X − x)2 ] ihr
Minimum bei x = E[X] an.
Beweis: Wegen L2 ⊂ L1 ist E[X] wohldefiniert und
E[(X − x)2 ] = E[X 2 − 2xX + x2 ] = E[X 2 ] − 2xE[X] + x2
endlich. Wir erhalten
ϕ(x) = E[((X − E[X]) + (E[X] − x))2 ]
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
deterministisch
= E[(X − E[X])2 ] + 2(E[X] − x) E[X − E[X]] +(E[X] − x)2
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
=0
2
= ϕ(E[X]) + (E[X] − x]) ≥ ϕ(E[X])
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
◻
≥0
Bemerkung
(a) Das Minimum ist sogar eindeutig.
(b) Man versteht E[(X − x)2 ] als den mittleren quadratischen Fehler beider Vorhersagen
von X durch den reellen Wert x. Dieser Fehler ist minimal für den Erwartungswert.
(c) In der Statistik heißt die Identität
ϕ(x) = (x − E[X])2 + E[(X − E[X])2 ]
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
Bias2
Varianz
Bias-Varianz-Zerlegung.
III.2. Varianz, Kovarianz und Korrelation
Das Minimum von ϕ im vorigen Lemma misst gerade die Streuung der Zufallsvariablen X
um den (besten) deterministischen Wert E[X].
Definition III.13
Für eine Zufallsvariable X ∈ L2 bezeichnet Var(X) ∶= E[(X − E[X])2 ] die Varianz und σ(X) =
√
Var(X) die Standardabweichung von X.
34
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Satz III.14 (Eigenschaften)
Für X, Y ∈ L2 gilt
(a) Var(X) = 0 ⇐⇒ P(X = c) = 1 für ein c ∈ R.
(b) ∀α, β ∈ R ∶ Var(αX + β) = α2 ⋅ Var(X)
(c) Var(X) = E[X 2 ] − E[X]2
(d) Var(X + Y) ≤ 2(Var(X) + Var(Y))
(e) Falls X, Y unabhängig sind, gilt Var(X + Y) = Var(X) + Var(Y).
Beweis: (a) Var(X) = 0 ⇐⇒ E[(X − E[X])2 ] = 0 ⇐⇒ P(X − E[X] = 0) = 1 ⇐⇒
P(X = E[X]) = 1 und damit E[X] = c.
(b) Var(αX + β) = E[(αX + β − (αE[X] + β))2 ] = α2 E[(X − E[X])2 ] = α2 Var(X)
2
(c) Var(X) = E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X]2 + E[X]
= E[X 2 ] − E[X]2 .
(d) Var(X + Y) = E[(X − E[X] + Y − E[Y])]2 ] ≤ E[2(X − E[X])2 + 2(Y − E[Y])2 ] =
2(Var(X) + Var(Y).
(e) Var(X + Y) = E[(X − E[X])2 + 2(X − E[X])(Y − E[Y]) + (Y − E[Y])2 ]
X,Y unabh.
◻
= E[(X − EX])2 ] + 2 E[X − E[X]] ⋅E[Y − E[Y]] + E[(Y − E[Y])2 ]
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
=0
= Var(X) + Var(Y)
Gegeben seien nun zwei Zufallsvariablen X, Y ∈ L2 . Wir fragen nach der besten in X linearen Vorhersage von Y.
Satz III.15
Für X, Y ∈ L2 sei L X ∶= {aX + b ∣ a, b ∈ R} ⊆ L2 die Menge der linearen affinen Funktionen in
X. Dann nimmt der mittlere quadratische Fehler ϕ ∶ L X → [0, ∞) mit ϕ(Z) = E[(Y − Z)2 ] sein
Minimum an bei Z = a∗ X + b∗ mit
a∗ =
bzw. beliebig falls Var(X) = 0
E[(X − E[X])(Y − E[Y])]
Var(X)
b∗ = E[Y − a∗ E[X]]
an. Für Var(X) > 0 gilt ϕ(a∗ X + b∗ ) = Var(Y) −
(E[(X − E[X])(Y − E[Y])])2
.
Var(X)
Beweis: Setze X̃ = X − E[X], Ỹ = Y − E[Y]. Dann gilt für jedes Z = aX + b,
ϕ(Z) = E[((Ỹ − a X̃) + E[Y] − aE[X] − b)2 ] = E[(Ỹ − a X̃)2 ] + (E[Y] − aE[X] − b)2 + 2 ⋅ 0
Ô⇒ b∗ = E[Y] − a∗ E[X]. Damit ist ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] + (a∗ )2 E[X̃ 2 ] − 2a∗ E[X̃Ỹ]
Ô⇒ Minimieren in a∗ gibt a∗ =
E[X̃Ỹ] E[(X − E[X])(Y − E[Y])]
=
falls Var(X) > 0.
Var(X)
E[X̃ 2 ]
Im Fall das Var(X) = 0 gilt ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] für alle a∗ .
35
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Als Minimum erhalten wir ϕ(a∗ X + b∗ ) = E[Ỹ 2 ] −
E[X̃Ỹ]
wie behauptet.
E[X̃ 2 ]
◻
Definition III.16
Für Zufallsvariablen X, Y ∈ L2 definiert Cov(X, Y) ∶= E[(X − E[X])(Y − E[Y])] die Kovarianz
von X und Y. Falls außerdem σ(X) > 0, σ(Y) > 0 gilt, so heißt
$(X, Y) =
Cov(X, Y)
σ(X)σ(Y)
die Korrelation von X und Y. Im Fall Cov(X, Y) = 0 heißen X und Y unkorreliert.
Bemerkung Im Satz gilt also a∗ =
Cov(X,Y)
Var(X)
und das Minimum ist Var(Y)(1 − $2 (X, Y)).
Satz III.17 (Eigenschaften der Kovarianz)
Für X, Y, Z ∈ L2 gilt
(a) Cov(X, Y) = Cov(Y, X) = E[XY] − E[X]E[Y]; Cov(X, X) = Var(X).
(b) Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y)
(c) ∀a, b ∈ R ∶ Cov(aX + b, Y) = a Cov(X, Y)
(d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
(e) Falls X, Y unabhängig sind, so sind X, Y unkorreliert
(f) ∣ Cov(X, Y)∣ ≤ σ(X)σ(Y) und ∣$(X, Y)∣ ≤ 1 (d.h. $(X, Y) ∈ [−1, 1])
Beweis:
(a) Cov(X, Y) = Cov(Y, X) und Cov(X, X) = Var(X) klar nach Definition
Cov(X, Y) = E[(X − E[X])(Y − E[Y])]
= E[XY] − E[XE[Y]] − E[E[X]Y] + E[X]E[Y]
= E[XY] − E[X]E[Y]
(b) Var(X + Y) = E[(X − E[X] + Y − E[Y])2 ] = Var(X) + Var(Y) + 2 Cov(X, Y)
(c) Cov(aX + b, Y) = E[(aX + b − (aE[X] + b))(Y − E[Y])] = a Cov(X, Y)
(d) Cov(X + Y, Z) = E[((X − E[X]) + (Y − E[Y]))(Z − E[Z])]
= Cov(X, Z) + Cov(Y, Z)
(b)
s.o.
(e) X, Y unabhängig Ô⇒ Var(X + Y) = Var(X) + Var(Y) Ô⇒ Cov(X, Y) = 0
(f) Im Satz haben wir ϕ(a∗ X + b∗ ) = Var(Y)(1 − $2 (X, Y)) gezeigt, was wegen ϕ(Z) >
0 für alle Z impliziert $2 (X, Y) ≤ 1, d.h. $ ∈ [−1, 1] und ∣ Cov(X, Y)∣ ≤ σ(X)σ(Y).
Beachte nur, dass im Fall Var(X) = 0 oder Var(Y) = 0 gilt P(X = E(X)) = 1
bzw. P(Y = E(Y)) = 1, sodass P((X − E[X])(Y − E[Y]) = 0) = 1 gilt und somit
Cov(X, Y) = 0 folgt.
◻
36
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Bemerkung Teil f) ist äquivalent zur Cauchy-Schwarz-Ungleichung für X, Y ∈ L2
1
1
∣E[XY]∣ ≤ E[X 2 ] 2 E[Y 2 ] 2
Beispiel III.18 Es seien X1 , X2 ∈ L2 unabhängig mit Var(X1 ) = Var(X2 ). Setze S = X1 + X2 ,
D = X1 − X2 . Dann gilt
Cov(S, D) = Cov(X1 + X2 , X1 − X2 )
= Cov(X1 , X1 ) + Cov(X2 , X1 ) − Cov(X1 , X2 ) − Cov(X2 , X2 )
= Var(X1 ) − Var(X2 ) = 0 Ô⇒ S und D sind unkorreliert.
Beim Würfelwurf sind aber S und D nicht unabhängig: Xi Augensumme des i-ten Würfels.
Beste Vorhersage von D, im Fall das S = s bekannt ist gerade Null (= E[D])( Ô⇒ a∗ =
0, b∗ = 0). S und D sind aber abhängig, z.B. gilt S ungerade ⇐⇒ D ungerade oder aber
S = 2 Ô⇒ D = 0
1
1
≠ P(S = 2)P(D = 0) < )
(P(S = 2, D = 0) = P(S = 2) =
36
36
III.3. Mehrdimensionale Normalverteilung
Zur Erinnerung: Eine Matrix M ∈ Rd×d ist positiv semi-definit, falls ∀v ∈ Rd ∶ ⟨Mv, v⟩ ≥ 0. Die
1
Wurzel M 2 aus M ist diejenige positiv semi-definite Matrix N mit M = N 2 . Die Existenz
1
wird via Diagonalisierung gezeigt: M = ODO⊺ , O orthogonal, D diagonal Ô⇒ M 2 =
√
√
1
1
OD 2 O⊺ mit D = diag(λ1 , . . . , λd ), D 2 = diag( λ1 , . . . , λd ).
Definition III.19
Es seien µ ∈ Rd und Σ ∈ Rd×d symmetrisch und positiv semi-definit. Ein Zufallsvektor X ∈ Rd
1
heißt N (µ, Σ)-verteilt, falls X = µ + Σ 2 Y gilt mit einem Standard-normalverteilten Zufallsvektor
Y ∼ N (0, Eλ ). N (µ, Σ) heißt d-dimensionale Normalverteilung mit Mittelwert µ und Kovarianzmatrix Σ.
Bemerkung Für d = 1 und Σ = σ2 > 0 liefert die Dichtetransformation , dass X die Dichte
−
(x−µ)2
f X (x) = √ 1 e 2σ2 besitzt. Im Fall Σ = σ2 = 0 gilt X = µ und N (µ, 0) = δµ (Einpunktmaß
2π⋅σ
in µ).
Lemma III.20
Für X ∼ N (µ, Σ) und 1 ≤ l, k ≤ d gilt:
(µ = (µk )1≤k≤d , Σ = (Σkl )1≤l,k≤d )
E[Xk ] = µk , Cov(Xk , Xl ) = Σkl
Beweis:
d
1
Def
1
E[Xk ] = E[(µk + (Σ 2 Y)k )] = µk + ∑(Σkl2 )E[Yl ] = µk
l=1
1
Def
1
Cov(Xk , Xl ) = E[(Xk − µk )(Xl − µl )] = E[(Σ 2 Y)k ∗ (Σ 2 Y)l ]
d
1
d
1
1
1
1
1
2
2
2
2
= ∑ Σk,i
Σl,j
E[Yi Yj ] = ∑ Σk,i
Σl,i
= (Σ 2 Σ 2 )k,l
i,j=1
i=1
= Σk,l
◻
37
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
Lemma III.21
Ist Σ ∈ Rd×d symmetrisch und strikt positiv definit, so besitzt die N (µ, Σ)-Verteilung eine Dichte,
nämlich
d
ϕµ,Σ (x) = (2π)− 2 ⋅ det(Σ)− 2 ⋅ exp (− 12 ⟨Σ−1 (x − µ), (x − µ)⟩) ,
1
x ∈ Rd
1
Beweis: Dichtetransformation für X = ϕ(Y), Y ∼ N (0, Ed ), ψ(y) = ∑ 2 y + µ, ψ−1 (x) =
1
Σ− 2 (x − µ)
Ô⇒ ϕµ,Σ (x) = ϕ0,Ed (ψ−1 (x))(det Dψ−1 (x))
d
= ∣ det(Σ− 2 )∣ ⋅ (2π)− 2 exp(− 12 ∣Σ− 2 (x − µ)∣2 )
1
1
◻
Lemma III.22 (Rotationsinvarianz der Normalverteilung)
Ist O ∈ Rd×d orthogonal, d.h. O⊺ O = Ed , so gilt für X ∼ N (0, Ed ), dass auch OX ∼ N (0, Ed ) gilt.
Beweis: Dichtetransformation: Y = OX:
d
f Y (y) = f X (O−1 y)∣ det(O−1 )∣ = (2π)− 2 exp (−
∣O−1 y∣2
) ⋅ 1 = ϕ0,Ed (y)
2
◻
Satz III.23
Ist X ein N (µ, Σ)-verteilter Zufallsvektor im Rd und A ∈ Rm×d eine deterministische Matrix, so
ist Y = A ⋅ X ein N (A ⋅ µ, AΣA⊺ )-verteilter Zufallsvektor im Rm .
1
Beweis: Wir müssen zeigen, dass sich Y darstellen lässt als Y = Aµ + (AΣA⊺ ) 2 Z mit
1
einer geeigneten Zufallsvariablen Z ∼ N (0, Em ). Aus der Darstellung X = µ + Σ 2 W mit
W ∼ N (0, Ed ) ergibt sich die zu erfüllende Bedingung als
A(µ + Σ 2 W) = Aµ + (AΣA⊺ ) 2 Z
1
1
d.h.
AΣ 2 W = (AΣA⊺ ) 2 Z
1
1
Der
Satz III.24 (über orthogonale Transformationen)
zeigt, dass es orthogonale Matrizen T1 ∈ Rm×m , T2 ∈ Rd×d und eine Diagonalmatrix D ∈
Rr×r , r ≤ min{m, d} mit strikt positiven Diagonaleinträgen gibt, so dass in Blockmatrixno1
tation (beachte jeweils die Dimension!) AΣ 2 = T1 ( D0 00 ) T2 gilt. Für einen Beweis, siehe [5],
Seite 199.
Dies impliziert
1
2
⊺
(AΣA⊺ ) 2 = (AΣ 2 (AΣ 2 ) ) = (T1 ( D0 00 ) T2 T2⊺ ( D0
1
1
1
2
= (T1 ( D0
1
0 ) T⊺ ) 2
1
0
⊺
1
0 ) T⊺ ) 2
1
0
= T1 ( D0 00 ) T1⊺
Wir müssen also Z ∼ N (0, Em ) finden mit ( D0 00 ) T1⊺ Z = ( D0 00 ) T2 W. Setze
Z ∶= T1 (( E0r 00 ) T2 W + W ′ )
38
0
))
mit W ′ ∼ N (0, ( 00 Em−r
Stochastik 1
III. Erwartungswert, Varianz und Kovarianz
unabhängig von W, ggf. definiert auf einem größeren Wahrscheinlichkeitsraum (bzw.
W ′ = 0 falls m = r). Aus dem Lemma 3.22 folgt T2 W ∼ N (0, Ed ), weil T2 eine orthogonale Matrix ist, und weiter, dass ( E0r 00 ) T2 W ein N (0, ( E0r 00 ))-verteilter Vektor im Rm ist
(Projektion auf die ersten r Koordinaten). Daher gilt ( E0r 00 ) T2 W + W ′ ∼ N (0, Em ) und
es folgt wieder nach Lemma 3.22 Z ∼ N (0, Em ).
1
Schließlich ergibt sich für (AΣA⊺ ) 2 Z
T1 ( D0 00 ) (( E0r 00 ) T2 W + W ′ ) = T1 ( D0 00 ) T2 W = AΣ 2 W
1
◻
was zu zeigen war.
Korollar III.25
Ist X N (µ x , σx2 )-verteilt und Y N (µy , σy2 )-verteilt mit µ x , µy ∈ R und σx , σy ≥ 0, so ist – falls X
und Y unabhängig sind – X + Y N (µ x + µY , σx2 + σy2 )-verteilt.
Bemerkung vergl. obiges Beispiel zur Faltung.
Beweis: Da X, Y unabhängig sind, besitzt der Zufallsvektor (X, Y) die Produktdichte
f (X,Y) (x, y) = f X (x) ⋅ f Y (y) =
⎛ 1 ⎛ (x − µ x )2 (y − µy )2 ⎞⎞
1
1
+
⋅
exp
2π σx σy
⎠⎠
⎝2 ⎝
σx2
σy2
d.h. (X, Y) ist ein normalverteilter Zufallsvektor mit Parametern µ = ( µyx ), Σ = (
µ
σx2 0
).
0 σy2
Wende nun die lineare Abbildung (x, y) ↦ x + y auf (X, Y) an und erhalte aus obigem
Satz (d.h. A = ( 1 1 ) ∈ R1×2 ):
X + Y ∼ N (µ x + µy , ( 1 1 ) (
σx2 0
) ( 11 ))
0 σy2
= N (µ x + µy , σx2 + σy2 )
◻
Lemma III.26
Sind X1 , . . . , Xn gemeinsam normalverteilt, d.h. (X1 , . . . , Xn ) ∼ N (µ, Σ) und sind alle Xi paarweise unkorreliert, d.h. Σij = 0 für i ≠ j, so sind X1 , . . . , Xd sogar unabhängig und es gilt Xi ∼
N (µi , Σii ).
Beweis: Wegen Σ = diag(Σ11 , . . . , Σdd ) mit Σii = Var(Xi ) folgt, dass X = (
mit Y ∼ N (0, Ed ), also
√
⎛ Σ11
X=⎜
⎝ 0
⋱
x1
⋮ )
xn
1
= Σ2Y+µ
√
0 ⎞
⎛ Σ11 Y1 + µ1 ⎞
⋮
⎟ Y + µ = ⎜√
⎟
√
⎝ Σdd Yd + µd ⎠
Σdd ⎠
√
Da Y1 , . . . , Yd unabhängig sind und Xi = Σii Yi + µi gilt, sind auch X1 , . . . , Xd unabhängig (s.o. Lemma). Außerdem impliziert Yi ∼ N (0, 1), dass Xi ∼ N (µi , Σii ) gilt.
◻
Bemerkung Im großen Ausnahmefall der gemeinsamen Normalverteilung sind also die Koordinaten genau dann unabhängig, wenn sie unkorreliert sind.
39
Stochastik 1
IV. Statistische Tests
IV. Statistische Tests
IV.1. Hypothesentests
Beispiel IV.1 Wir wollen testen, ob die 1-Euro-Münze fair ist. Selbst wenn sie fair ist, ist
bei 300 Würfen die Wahrscheinlichkeit, 150 mal Kopf und 150 mal Zahl zu bekommen
Bin300,0.5 (150) ≈ 0.065. Man wird also die Annahme einer fairen Münze verwerfen, wenn
die Anzahl Kopf außerhalb eines Intervalls [150 − r, 150 + r] liegt.
Definition IV.2
Ein statistisches Modell ist ein Tupel (X , F, (Pϑ )ϑ∈Θ ) bestehend aus einer Menge X mit einer σAlgebra F (dem Stichprobenraum) und einer Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen auf
F. Die mindestens zweielementige Menge Θ heißt Parametermenge und jedes ϑ ∈ Θ Parameter.
Aufbau eines Testverfahrens:
1. Schritt Wahl eines statistischen Modells
Beispiel X = {K, Z}300 , F = P(X ), Θ = [0, 1], Pϑ ({x}) = ϑ#K (1 − ϑ)#Z , x ∈ X .
2. Schritt Formulierung von Hypothese und Alternative: Θ = Θ0 ⊍ Θ1 disjunkte Zerlegung
mit
ϑ ∈ Θ0 ∶ ϑ entspricht der Hypothese
ϑ ∈ Θ1 ∶ ϑ entspricht der Alternative
Beispiel Θ0 = { 21 }, Θ1 = [0, 1] ∖ { 21 }
Man sagt, dass die (Null)-Hypothese H0 ∶ ϑ ∈ Θ0 gegen die Alternative H1 ∶ ϑ ∈ Θ1
getestet werden soll.
3. Schritt Wahl des Irrtumsniveaus: Wähle α ∈ (0, 1) und fordern, dass die Wahrscheinlich-
keit einer Entscheidung für die Alternative obwohl die Hypothese vorliegt (Fehler 1.
Art) maximal α beträgt.
4. Schritt Wahl der Entscheidungsregel. Man wählt eine Zufallsvariable (messbare Funkti-
on), Teststatistik genannt, ϕ ∶ X → [0, 1] mit folgender Bedeutung: Tritt x ∈ X ein, so
impliziert
ϕ(x) = 0 ∶ Entscheidung für H0 („akzeptieren der Hypothese“)
ϕ(x) = 1 ∶ Entscheidung für H1 („ablehnen der Hypothese“)
ϕ(x) ∈ (0, 1) ∶ Die Entscheidung wird mittels eines zusätzlichen unabhängigen Zufallsexperiments bestimmt, wobei mit Wahrscheinlichkeit ϕ(x) die Wahl auf H1
fällt.
Die letzte Möglichkeit (randomisierter Test) ist in der Anwendung oft nicht gewollt,
aber erlaubt eine klarere mathematische Formulierung. Forderung: ∀ϑ ∈ Θ0 ∶ Eϑ [ϕ] ≤
α, dann heißt ϕ Test zum Niveau α (bei nicht randomisierten Test Pϑ (ϕ = 1) ≤ α).
40
Stochastik 1
IV. Statistische Tests
5. Schritt Durchführung des Experiments: Das passiert zum Schluss, weil sonst Täuschung
und Selbsttäuschung fast unvermeidbar sind.
Definition IV.3
Für ϑ1 ∈ Θ1 und einen Test ϕ gibt 1 − Eϑ1 [ϕ] die Wahrscheinlichkeit für den Fehler 2. Art, der
Entscheidung für H0 obwohl ϑ1 ∈ Θ1 vorliegt, an. (ϕ nicht randomisiert. 1 − Eϑ1 [ϕ] = 1 − Pϑ1 (ϕ =
1) = Pϑ1 (ϕ = 0))
Definition IV.4
Ein Test ϕ von H0 ∶ ϑ ∈ Θ1 heißt gleichmäßig bester Test zum Niveau α (UMP = uniformly
most powerful), falls
(a) mit ϕ ist Test zum Niveau α gilt, dass sup Eϑ0 [ϕ] ≤ α und
ϑ0 ∈Θ0
(b) Für jeden anderen Test ψ zum Niveau α gilt ∀ϑ1 ∈ Θ1 ∶ Eϑ1 [ϕ] ≥ Eϑ1 [ψ]. („Fehlerwahrscheinlichkeit 2. Art ist minimal unter allen Niveau-α-Test und zwar gleichmäßig ∀ϑ1 ∈ Θ1 “)
Ziel der Testtheorie ist es, beste Tests zu konstruieren.
IV.2. Neyman-Pearson-Lemma
Definition IV.5
Für Wahrscheinlichkeitsmaße P0 , P1 auf einem diskreten Raum (X , P(X )) mit Zähldichten p0 , p1
heißt
⎧
p1 (x)
⎪
, falls p0 (x) > 0
⎪
⎪
⎪
⎪ p0 (x)
x∈X
R(x) = ⎨+∞
, falls p0 (x) = 0, p1 (x) > 0
⎪
⎪
⎪
⎪
⎪
⎩beliebig , falls p0 (x) = p1 (x) = 0
Likelihood-Quotient (oder Dichtequotient von p1 bzgl. p0 .)
Für Wahrscheinlichkeitsmaße p0 , p1 mit (Rd , BRd ) mit Dichten f 0 , f 1 definieren wir
⎧
f 1 (x)
⎪
⎪
⎪
⎪
⎪ f0 (x)
R(x) = ⎨+∞
⎪
⎪
⎪
⎪
⎪
⎩beliebig
, falls f 0 (x) > 0
, falls f 0 (x) = 0, f 1 (x) > 0
, sonst
mit
x ∈ Rd
Jeder Test ϕ ∶ X → [0, 1] der Form
⎧
1
⎪
⎪
⎪
⎪
ϕ(x) = ⎨0
⎪
⎪
⎪
⎪
⎩γ
, falls R(x) > c
, falls R(x) < c
, falls R(x) = c
mit beliebigen c ≥ 0, γ ∈ [0, 1] heißt Neyman-Pearson-Test.
Bemerkung Mit dem Satz von Radon-Nykodym kann die Definition von R(x) verallgemeinert werden.
Satz IV.6 (Neyman-Pearson-Lemma, 1932)
Für das Testen von H0 ∶ ϑ = 0 gegen H1 ∶ ϑ = 1 gilt
41
Stochastik 1
IV. Statistische Tests
(a) Ist ϕ∗ ein Neyman-Pearson-Test, so gilt E1 [ϕ∗ ] ≥ E1 [ϕ] für jeden beliebigen Test ϕ mit
E0 [ϕ] ≤ E0 [ϕ∗ ].
(b) Für jedes Niveau α ∈ (0, 1) existiert ein Neyman-Pearson-Test ϕ∗ mit exakt E0 [ϕ∗ ] = α.
(c) Ein gleichmäßig bester Test zum Niveau α ist gegeben durch einen Neyman-Pearson-Test ϕ∗
mit E0 [ϕ∗ ] = α.
Beweis: (nur für Zähldichten, Dichten analog) (a) Für x ∈ A = {x ∈ X ∣ ϕ∗ (x) >
ϕ(x)} gilt p1 (x) ≥ cp0 (x) wegen ϕ∗ (x) > 0. Für x ∈ B = {x ∈ X ∣ ϕ∗ (x) < ϕ(x)}
gilt p1 (x) ≤ cp0 (x) wegen ϕ∗ (x) < 1. Daher erhalten wir
E1 [ϕ∗ ] − E1 [ϕ] = E1 [ϕ∗ − ϕ] = ∑ (ϕ∗ (x) − ϕ(x))p1 (x)
x∈X
∗
∗
≥ ∑ (ϕ (x) − ϕ(x)) cp0 + ∑ (ϕ (x) − ϕ(x)) cp0 (x) + ∑ 0
x∈B ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
x∈A ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
x∈(A∪B)C
>0
<0
= c ∑ (ϕ∗ (X) − ϕ(x))p0 (x) = c(E0 [ϕ∗ ] − E0 [ϕ]) ≥ 0
x∈X
(b) Behauptung: Es gibt ein c ≥ 0 mit P0 (R ≥ c) ≥ α und P0 (R > c) ≤ α. Setze c ∶=
inf{k ≥ 0 ∣ P0 (R > k) ≤ α}. Wegen P0 (R = ∞) = 0 ist c ∈ [0, ∞) wohldefiniert. Setze
$(k) = P0 (R > k). Dann ist $ auf [0, ∞) monoton fallend und rechtsstetig (beachte
$(k) = 1 − P0 (R ≤ k)). Daher erfüllt c sowohl $(c) ≤ α als auch $(k) > α für k < c.
Außerdem erfüllt
P0 (R ≥ c)
σ-Stetigkeit
=
1 − lim P 0 (R ≤ k) ≥ α
k↑c
´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¶
<1−α
Setze nun
⎧
⎪
⎪0
γ = ⎨ α−P0 (R>c)
⎪
⎪
⎩ P0 (R=c)
, falls P0 (R = c) = 0
, sonst
sowie
⎧
1
⎪
⎪
⎪
⎪
ϕ (x) = ⎨0
⎪
⎪
⎪
⎪
⎩γ
∗
, falls R(x) > c
, falls R(x) < c
, falls R(x) = c
Dann gilt γ ⊂ [0, 1] und E0 [ϕ∗ ] = 1P0 (R(x) > c) + γP0 (R(x) = c) = α.
◻
(c) folgt direkt aus (a) und (b).
Beispiel IV.7 (Einfacher Gaußtest) Gegeben sei das statistisches Modell
(R, BR , (Pϑ )ϑ∈[0,1] )
mit
Pϑ ∼ N (ϑ, 1)
Teste H0 ∶ ϑ = 0 gegen H1 ∶ ϑ = 1 zum Niveau α = 0.025 Likelihood-Quotient:
R(x) =
f 1 (x)
= exp (− 12 ((x − 1)2 − x2 )) = exp (x − 21 )
f 0 (x)
42
Stochastik 1
V. Grenzwertsätze
Wähle c ≥ 0 so dass
1
!
α = P0 (R(x) ≥ c) = P0 (e x− 2 ≥ c) = P0 (x ≥ log c + 12 )
1
≈ 1.96 Ô⇒ c ≈ 4.3
2
⎧
⎪1 , falls e x− 12 ≥ 4.3
⎪
Ô⇒ ϕ x (x) = ⎨
⎪0 sonst
⎪
⎩
Ô⇒ log c +
ist gleichmäßig bester Test.
V. Grenzwertsätze
Wirft man einen Würfel unendlich oft, und zählt die „6“-Würfe, so wird bei fairem Würfel
mit zunehmender Zahl der Versuche die Proportion der „6“-Würfe zur Anzahl der Versuche, d.h. die relative Häufigkeit der „6“ gegen deren Wahrscheinlichkeit 16 konvergieren.
In welchem Sinne ist diese heuristische Feststellung wichtig?
V.1. Gesetze der großen Zahlen
Satz V.1 (Markov-Ungleichung)
Sei Y eine reelle Zufallsvariable und f ∶ [0, ∞) → [0, ∞) monoton wachsend. Dann gilt für jedes
ε > 0:
E[ f (∣Y∣)]
P(∣Y∣ ≥ ε) ≤
falls f (ε) > 0
f (ε)
Beweis: ∣Y∣ ist Zufallsvariable, also auch f (∣Y∣) (da f monoton wachsend Ô⇒
messbar, denn f −1 ((c, ∞)) ist Intervall). Sei ε > 0 mit f (ε) > 0:
1{∣Y∣≥ε} ≤
f (∣Y∣)
f (∣Y∣)
Ô⇒ E[1{∣Y∣≥ε} ] ≤ E[
]
f (ε)
f (ε)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
f
◻
P(∣Y∣≥ε)
Beispiel V.2 Hat die Zufallsvariable X ein endliches p-tes Moment (d.h. E[∣X∣ p ] < ∞) mit
p > 0, so gilt P(∣X∣ ≥ k) ≤
k−p .
E[∣X∣ p ]
kp ,
d.h. für große k ist P(∣X∣ > k) maximal von der Ordnung
Korollar V.3 (Tschebyscheff4 )
Var(Y)
.
Sei Y ∈ L2 (P), ε > 0. Dann gilt P(∣Y − E[Y]∣ ≥ ε) ≤
ε2
Beweis: X ∶= Y − E[Y], f (x) ∶= x2 für alle x ≥ 0. Dann gilt
P(∣X∣ ≥ ε) ≤
4 Weitere
E[∣X∣2 ] Var(Y)
=
ε2
ε2
Umschriften für P. L. Qebyxv sind Čebyšev oder Tschebyschow.
43
◻
Stochastik 1
V. Grenzwertsätze
Satz V.4 (schwaches Gesetz der großen Zahlen)
Es seien (Xi )i≥1 unkorrelierte Zufallsvariablen in L2 (P) mit demselben Erwartungswert µ ∈ R so
dass supi≥1 Var(Xi ) < ∞ mit supi≥1 Var(Xi ) = c. Dann erfüllt das arithmetische Mittel An ∶=
1 n
n ∑i=1 Xi für jedes ε > 0 gerade
lim P(∣An − µ∣ > ε) = 0
n→∞
Beweis:
1
n
E[An ] =
n
∑ E[Xi ] = µ
i=1
n
Var(An ) = Var( n1 ∑ Xi ) =
i=1
n
1
Var(
Xi )
∑
n2
i=1
n
n
1
(∑ Var(Xi ) + ∑ Cov(Xi , X j ))
2
n i=1
i,j=1
=
i≠j
n
c
1
1
∑ Var(Xi ) ≤ 2 ⋅ n ⋅ c =
n2 i=1
n
n
=
c n→∞
Var(An )
≤ 2 ÐÐÐ→ 0
2
ε
nε
Ô⇒ P(∣An − E[An ]∣ > ε) ≤
◻
Beispiel V.5 Bernoulli-Experiment mit P(Xi = 1) = p, P(Xi = 0) = 1 − p. Dann gilt
P(∣An − p∣ > ε) ≤
p(1 − p) n→∞
ÐÐÐ→ 0
nε2
Man sagt, „der Mittelwert An stabilisiert sich um den Erwartungswert p mit wachsender
Zahl von Wiederholungen des Versuchs“. Man beachte hier, dass die Abweichungen für p
nahe 0 oder 1 viel kleiner sind als für p nahe 12 .
Bemerkung Das schwache Gesetz gilt auch für unabhängige, identisch verteilte Zufallsvariablen in L1 . (Siehe [3])
Korollar V.6 (Weierstraßscher Approximationssatz)
Für f ∶ [0, 1] → R stetig definiere das zugehörige Bernstein-Polynom f n ∶ [0, 1] → R
n
k n
f n (p) ∶= ∑ f ( ) ( )pk (1 − p)n−k
n k
k=0
p ∈ [0, 1)
n→∞
Dann gilt ∥ f − f n ∥∞ ÐÐÐ→ 0
Beweis: Seien X1 , . . . , Xn unabhängig, Bernoulli-verteilte (zum Parameter p) Zufallsvariablen.
n
k
1 n
Ô⇒ E p [ f ( ∑ Xi )] = ∑ f ( ) Bn,p ({k})
n i=1
n
k=0
n
1 n
= ∑ f ( ) ( )pk (1 − p)n−k = f n (p)
n k
k=0
44
Stochastik 1
V. Grenzwertsätze
f ist gleichmäßig stetig auf [0, 1]. Sei ε > 0 beliebig, dann existiert ein δ > 0, so dass
∀x, y ∈ [0, 1] mit ∣x − y∣ ≤ δ gilt: ∣ f (x) − f (y)∣ ≤ ε.
1 n
∣ f n (p) − f (p)∣ = ∣E [ f ( ∑ Xi )] − f (p)∣
n i=1
1 n
≤ E [∣ f ( ∑ Xi ) − f (p)∣ 1{∣ 1 ∑n X −p∣≤δ} ]
n
i=1 i
n i=1
1 n
+ E [∣ f ( ∑ Xi ) − f (p)∣ 1{∣ 1 ∑n X −p∣>δ} ]
n
i=1 i
n i=1
≤ ε + 2∥ f ∥∞ E [1{∣ 1 ∑n
n
i=1
Xi −p∣>δ} ]
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
n X −p∣>δ)
P(∣ n1 ∑i=1
i
p(1 − p)
1
≤ ε + 2∥ f ∥∞ 2
2
nδ
nδ
Ô⇒ lim sup ∥ f n − f ∥∞ ≤ ε
∀ε > 0
≤ ε + 2∥ f ∥∞
n→∞
Ô⇒ lim ∥ f n − f ∥∞ = 0
◻
n→∞
Definition V.7
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum, Y und (Yn )n∈N seien Zufallsvariablen mit Werten in
R. (Yn )n∈N konvergiert stochastisch gegen Y, wenn
∀ε > 0 ∶
n→∞
P(∣Yn − Y∣ ≤ ε) ÐÐÐ→ 1
oder auch ∀ε > 0
n→∞
P(∣Yn − Y∣ > ε) ÐÐÐ→ 0
P
Man schreibt Yn ÐÐÐ→ Y. Man sagt auch „Yn konvergiert nach Maß“ oder „in Wahrscheinlichn→∞
keit“.
Definition V.8
Seien (Ω, F, P), Y, Yn wie oben. (Yn )n∈N konvergiert P-fast sicher, falls
n→∞
P({ω ∈ Ω ∣ Yn (ω) ÐÐÐ→ Y(ω)}) = 1
Bemerkung
n→∞
Man schreibt Yn ÐÐÐ→ Y.
P-f.s
P
• Im schwachen Gesetz gilt also An Ð
→µ
• {Yn → Y} = ⋂n∈N ⋃k∈N ⋂l≥k {∣Yl − Y∣ ≤ n1 } ∈ F (= ⋂ε>0 ⋃k∈N ⋂l≥k {∣Yl − Y∣ ≤ ε}).
• Fast sichere Konvergenz impliziert stochastische Konvergenz (siehe Übung).
• Die Umkehrung gilt nicht: Sei Ω = R, F = BR , P gleichmäßige Verteilung auf [0, 1),
X j,k = 1[k2−j ,(k+1)2−j ) ,
j ∈ N,
k = 0, . . . , 2 j − 1
Setze Yn ∶= X j,k für n = 2 j + k, k = 0, . . . , 2 j − 1. Dann gilt für ε > 0, dass
n→∞
P(∣Yn ∣ > ε) = P(Yn = 1) = 2−j ÐÐÐ→ 0
Andererseits ∀ω ∈ [0, 1)∃ unendlich viele n mit Yn (ω) = 1 Ô⇒ P({ω ∣ Yn (ω) →
Y(ω)}) = 0
45
Stochastik 1
V. Grenzwertsätze
Satz V.9 (Starkes Gesetz der großen Zahlen)
Es seien (Xi )i≥1 unkorrelierte Zufallsvariablen in L2 mit dem selben Erwartungswert µ, so dass
n
Xi :
supi≥1 Var(Xi ) < ∞. Dann gilt für An = n1 ∑i=1
n→∞
An ÐÐÐ→ µ
P-f.s.
Bemerkung Die von Etemadi (1981) angegebene Version des starken Gesetzes der großen
Zahlen (GdgZ) benötigt nur die Voraussetzung Xi ∈ L1 , fordert dafür aber, dass die (Xi )i≥1
paarweise unabhängig und identisch verteilt (i.i.d.) sind.
Beweis: Setze v ∶= supi Var(Xi )
(a) Zeige An2 → µ P-f.s.: Tschebyscheff-Ungleichung V.3 liefert für ε > 0
P(∣An2 − µ∣ > ε) ≤
Var(An2 )
v
= 2 2
ε2
n ε
Damit sind diese Wahrscheinlichkeiten summierbar:
∑ P(∣An2 − µ∣ > ε) ≤
n≥1
1
v
∑ 2 <∞
2
ε n≥1 n
1. Teil von Borel-Cantelli II.8 gibt daher P(∣An2 − µ∣ > ε für unendlich viele n) = 0.
Ô⇒ P( ⋃ {∣An2 − µ∣ > ε für ∞-viele n}) = 0
ε∈Q
ε>0
Ô⇒ P({An2 → µ}C ) = 0 ⇐⇒ An2 → µ
P-f.s.
(b) Betrachte Abweichungen von Am zu An2 (m) mit n(m) ∈ N so, dass n2 (m) ≤ m <
(n(m) + 1)2 . Tschebyscheff:
m
n(m)2
i=1
i=1
2
P(∣∑ Xi − ∑ Xi ∣ ≥ εn(m) ) ≤
m
n(m)2
i=1
i=1
m
Var(∑i=n(m)
2 +1 Xi )
ε2 n(m)4
Ô⇒ ∑ P(∣∑ Xi − ∑ Xi ∣ ≥ εn(m)2 ) ≤
m≥1
=
2
∞ (n+1) −1
v
∑
ε2 n=1
∑
m=n2
≤
(m − n(m)2 ) ⋅ v
ε2 n(m)4
m − n(m)2
v
∑
2
ε m≥1 n(m)4
m − n2 v ∞ 2n ⋅ (2n + 1)
≤ 2 ∑
<∞
ε n=1
n4
n4
n(m)2
m
Borel-Cantelli liefert P(∣ ∑i=1
Xi − ∑i=1
+
gung über ε ∈ Q liefert wie oben
Xi ∣ > εn(m)2 für ∞-viele m) = 0. Vereini-
n
1
∣
Xi − ∑ n(m)2 Xi ∣ → 0
∑
n(m)2 i=1
i=1
46
P-f.s.
Stochastik 1
V. Grenzwertsätze
Wegen
auch
n(m)2
1
n(m)2
∑i=1
P-f.s.
P-f.s.
m
1
Xi ÐÐÐ→ µ aus (a) folgt ∣ n(m)
ÐÐ→ 0 und daher
2 ∑i=1 Xi − µ∣ Ð
m
n(m)2
1
n(m)2
1 m
P-f.s.
⋅∣
X
−
µ∣ ÐÐÐ→ 0
X
−
µ∣
=
∣
∑
∑
i
i
2
m
n(m) i=1
m i=1
m
´¹¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¶
´¹¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¶
→1
→1
und daher Am → µ P-f.s.
◻
Definition V.10
Identifiziert man X, Y ∈ L p (Ω, F, P), falls X = Y P-f.s. (d.h. P({ω ∶ X(ω) = Y(ω)}) = 1) gilt,
so erhält man die Menge L p (Ω, F, P) (der Äquivalenzklassen). In der Analysis zeigt man, dass
1
1
L p (Ω, F, P) mit der Norm ∥X∥ L p = E[∣X∣ p ] p = (∫ ∣X(ω)∣ p P( dω)) p für p ≥ 1 einen Banachraum
(d.h. vollständigen normierten Raum) bilden. L2 (Ω, F, P) mit dem Skalarprodukt ⟨X, Y⟩ L2 = E[X ⋅
Y] ist sogar ein Hilbertraum.
Für eine Folge (Xn ) von Zufallsvariablen in L p , p ≥ 1 und ein X ∈ L p sagen wir, dass Xn gegen X
1
n→∞
in L p konvergiert, falls ∥Xn − X∥ L p = E[∣Xn − X∣ p ] p ÐÐÐ→ 0 gilt.
Lemma V.11
L p -Konvergenz impliziert stochastische Konvergenz.
Beweis: Die Markov-Ungleichung V.1 liefert
∀ε > 0
P(∣Xn − X∣ > ε) ≤
E[∣Xn − X∣ p ]
n→∞
p
= ε−p ∥Xn − X∥ L p ÐÐÐÐ→ 0
Vorauss.
εp
P
Ô⇒ Xn → X stochastisch
◻
Beispiel V.12 Betrachte wiederum Sn ∶= ∑nk=1 ε k ⋅ 1k mit P(ε k = 1) = P(ε k = −1) =
unabhängig. Wir berechnen
1
2
und (ε k )
n
E[Sn ] = ∑ E[ε k ] ⋅ 1k = 0
k=1
m>n
m
Var(Sm − Sn ) = Var( ∑ ε k ⋅ 1k )
Unabh.
=
k=n+1
m
m
1
1
⋅ Var(ε k ) = ∑ 2
2
k
k
k=n+1
k=n+1
∑
∞
1 n→∞
1
<
ÐÐÐ→ 0
∑
2
2
k=n+1 k
k=n+1 k
m
Ô⇒ ∥Sm − Sn ∥2L2 = Var(Sm − Sn ) = ∑
Ô⇒ (Sn )
2
L vollst-
(m > n)
ist Cauchy-Folge.
L2
P
Ô⇒ ∃S∞ ∈ L2 ∶ Sn ÐÐÐ→ S∞ Ô⇒ Sn Ð
→ S∞
n→∞
stochastisch
Offene Frage: Gilt auch Sn → S∞ P-f.s.?
Satz V.13 (Lévys Äquivalenzsatz)
Es sei (Xk )k≥1 eine Folge unabhängiger Zufallsvariablen und Sn = ∑nk=1 Xk . Dann sind äquivalent:
(i) Sn konvergiert P-f.s.
47
Stochastik 1
V. Grenzwertsätze
(ii) Sn konvergiert P-stochastisch.
Bemerkung (a) Konvergenz ist im Sinne des Cauchy-Kriteriums gemeint, d.h. in (i) ist
P((Sn ist Cauchyfolge)) = 1 und in (ii) gilt
∀ε > 0 lim sup P(∣Sm − S N ∣ > ε) = 0
N→∞ m≥N
(b) Falls (i) bzw. (ii) nicht gelten, so divergiert (Sn ) P-f.s. wegen des 0-1-Gesetzes von
Kolmogorov II.23.
Beweis: (i)⇒(ii) folgt wie die Implikation f.s. Konvergenz Ô⇒ stoch. Konvergenz
(ii)⇒(i) benötigt eine sogenannte Maximal-Ungleichung:
Lemma V.14 (Ottaviani-Ungleichung)
P(∣Sn ∣ ≥ α)
Für α > 0 gilt P(max ∣S j ∣ ≥ 2α) ≤
sofern der Nenner
1 − max1≤j≤n P(∣Sn − S j ∣ ≥ α)
1≤j≤n
nicht 0 ist.
Beweis: Setze τ(w) ∶= inf ({1 ≤ j ≤ n ∣ ∣S j (w)∣ ≥ 2α} ∪ {n + 1}) („Stoppzeit“).
Dann gilt
n
P(∣Sn ∣ ≥ α) ≥ P(∣Sn ∣ ≥ α, max ∣S j ∣ ≥ 2α) = ∑ P(∣Sn ∣ ≥ α, τ = j)
1≤j≤n
j=1
n
≥ ∑ P(∣Sn − S j ∣ ≤ α, τ = j)
j=1
Da Sn − S j = ∑nk=j+1 Xk gilt und {τ = j} nur von S1 , . . . , S j , d.h. X1 , . . . , X j
abhängt, gilt wegen Unabhängigkeit weiter
n
n
(. . . ) = ∑ P(∣Sn − S j ∣ ≤ α) ⋅ P(τ = j) ≥ min P(∣Sn − S j ∣ ≤ α) ⋅ ∑ P(τ = j)
1≤j≤n
j=1
j=1
= (1 − max P(∣Sn − S j ∣ > α)) ⋅ P(max ∣S j ∣ ≥ 2α)
1≤j≤n
◻
1≤j≤n
n
Wende Ottaviani auf die Summen Sn − Sk = ∑i=k+1
Xi mit α =
ε
2
an und verwende
α
α
oder ∣S j − Sk ∣ ≥ )
2
2
ε
ε
ε 1
≤ P (∣Sn − Sk ∣ ≥ ) + P (∣S j − Sk ∣ ≥ ) ≤ ≤
4
4
2 2
ε
Ô⇒ ∀n ≥ k ∶ P(max ∣S j − Sk ∣ ≥ ε) ≤
2
k≤j≤n
P(∣Sn − S j ∣ ≥ α) ≤ P (∣Sn − Sk ∣ ≥
σ-Stetigkeit des Wahrscheinlichkeitsmaßes liefert für n → ∞
P(max ∣S j − Sk ∣ ≥ ε) ≤
j≥k
48
ε
2
Stochastik 1
V. Grenzwertsätze
Zu zeigen: P((Sn ) Cauchyfolge) = 1. Die linke Seite ist gleich
P( ⋂ {∃k ≥ 1∀m, n ≥ k ∶ ∣Sm − Sn ∣ < ε})
ε>0
ε∈Q
Zeige also, dass für alle ε > 0 P(∀k ≥ 1∃m, n ≥ k ∶ ∣Sm − Sn ∣ ≥ ε) = 0. Dies folgt aus
∀ε > 0 ∶
P(∀k ≥ 1 sup ∣S j − Sk ∣ ≥ 2ε ) = 0
j≥k
Dies folgt wiederum aus ∀ε > 0 ∶ limk→∞ P(sup j≥k ∣S j − Sk ∣ ≥ 2ε ) = 0 (σ-Stetigkeit).
Oben haben wir nun gesehen, dass für k = k(ε) gilt
P( sup ∣S j − Sk(ε) ∣ ≥ ε) ≤
j≥k(ε)
ε
2
Halte nun das erste ε fest und lasse k → ∞ gehen, so dass limk→∞ P(sup j≥k ∣S j −
Sk ∣ ≥ ε) = 0.
◻
n
Anwendung
(a) Sn = ∑ ε k ⋅ 1k ,
k=1
s.o.
Ô⇒ (Sn )n≥1
Äq-Satz
Ô⇒ (Sn )n≥1
P(ε k = ±1) = 12 ,
(ε k ) unabhängig
konvergiert in L2 , also stochastisch
konvergiert fast sicher.
(b) Man kann mit dem Äquivalenzsatz auch unsere Variante des starken GdgZ aus dem
schwachen GdgZ folgern. Dafür braucht man aus der Analysis ein Reihenkriterium:
n α
1 n
k
→0
∑ αk → 0 ⇐⇒ ∑
n k=1
k
k=1
Details siehe [1]
Aus [4] ohne Beweis folgendes einfaches Kriterium für Konvergenz einer Reihe unabhängiger Zufallsvariablen:
Satz V.15 (Drei-Reihen-Satz)
Für unabhängige Zufallsvariablen (Xk )k≥1 konvergiert Sn = ∑nk=1 Xk f.s. (bzw. stochastisch) genau
dann, wenn folgende drei Reihen konvergieren:
(i) ∑ P(∣Xk ∣ > 1)
k=1
∞
(ii) ∑ E[Xk ⋅ 1[−1,1] (Xk )]
k=1
∞
(iii) ∑ Var(Xk ⋅ 1[−1,1] (Xk ))
k=1
Anwendung Beispiel von oben (a), aber mit P(ε k = 1) = p, P(ε k − 1) = 1 − p. Dann konvergiert (Sn ) genau dann, wenn p = 21 gilt (sonst divergiert die Reihe in (ii)).
49
Stochastik 1
V. Grenzwertsätze
V.2. Konvergenz in Verteilung
n→∞
Im schwachen Gesetz der großen Zahlen wurde An ÐÐÐ→ µ stochastisch gezeigt. Wie
schnell ist diese Konvergenz eigentlich?
Tschebyscheff 1 ⋅ v n→∞
1 n
n
P(∣ ∑(Xi − µ)∣ > n−α )
ÐÐÐ→ 0
≤
n i=1
n−2α
2α
für alle α <
1
2
n→∞
Für α > 12 gilt Var(nα ⋅ An ) ≅ nn ÐÐÐ→ ∞ und es ist keine Konvergenz von (An ) zu erwarten.
Kritischer Wert ist α = 12 , wo im Fall Xi ∈ L2 identisch verteilt und unkorreliert gilt
Sn∗ ∶= n 2 ⋅ (
1
An − µ
1 n X −µ
)= √ ∑ i
σ(X1 )
n i=1 σ(Xi )
Var(X )
n
i
besitzt die Varianz Var(Sn∗ ) = n1 ∑i=1
= 1 sowie E[Sn∗ ] = 0. Man nennt Sn∗ standarσ2 (Xi )
disierte Summe der (Xi ). Wir erwarten nicht, dass Sn∗ → 0 (stochastisch) konvergiert, weil
Var(Sn∗ ) = 1 > 0 gilt, andererseits könnte die Verteilung von (Sn∗ )n≥1 sich stabilisieren und
in geeignetem Sinne konvergieren.
Beispiel V.16
(a) Xi ∼ N (µ, σ2 ) Ô⇒ Sn∗ ∼ N (0, 1), d.h. PSn = N (0, 1) für alle n ≥ 1.
∗
Übung
∗
(b) Xi ∼ U[−1, 1] Ô⇒ f Sn nähert sich der Gaußschen Glockenkurve an.
(c) „Stabdiagramm“ der Binomialverteilung nähert sich auch der Gaußschen Glockenkurve an (Schule oder später in Vorlesung).
Definition V.17
Es seien (Xn )n≥1 und X Rd -wertige Zufallsvariablen (nicht notwendigerweise auf dem selben
Wahrscheinlichkeitsraum). Man sagt, dass (Xn ) gegen X in Verteilung konvergiert, Notation
d
Xn → X, falls für alle stetigen und beschränkten Funktionen ϕ ∶ Rd → R gilt:
n→∞
E[ϕ(Xn )] ÐÐÐ→ E[ϕ(X)]
Allgemein definiert man für Wahrscheinlichkeitsmaße (µn ) und µ auf BRd die schwache Konverw
genz µn → µ, falls
∫
Rd
ϕ(x)µn ( dx) → ∫
Rd
ϕ(x)µ( dx)
gilt für alle stetigen und beschränkten ϕ ∶ Rd → R.
Bemerkung
d
w
(a) Konvergenz in Verteilung Xn → X bedeutet also gerade P Xn → P X , weil
E[ϕ(Xn )] = ∫ ϕ(x)P Xn ( dx) → ∫ ϕ(x)P X ( dx) = E[ϕ(X)]
d
Man kann daher z.B. auch schreiben Xn → N (0, 1) ohne eine Zufallsvariable X ∼
N (0, 1) hinzuschreiben.
50
Stochastik 1
V. Grenzwertsätze
w
(b) Schwache Konvergenz Pn → P bedeutet nicht Pn (A) → P(A) für alle Ereignisse A.
Einfaches Gegenbeispiel ist für eine Folge reeller Zahlen (xn )n≥1 mit xn → x ∈ R die
Folge (δxn )n≥1 der Punktmaße in (xn ) zu betrachten, dann gilt
ϕ stetig
∫ ϕ(ξ)δxn ( dξ) = ϕ(xn ) ÐÐÐÐ→ ϕ(x) = ∫ ϕ(ξ)δx ( dξ)
w
d.h. δxn → δx , aber i.A. gilt δxn ({x}) = 0 ≠ 1 = δx ({x}), d.h. δxn ({x}) →
/ δx ({x}).
Analog sieht man z.B. für eine Zufallsvariable X und an → a, bn → b (reeller Zahlen), dass
d
an X + bn → aX + b.
Satz V.18
P
d
Konvergiert Xn gegen X stochastisch, so auch in Verteilung Xn → X Ô⇒ Xn → X.
P
Beweis: Nach Übungsaufgabe folgt aus Xn → X, dass für eine Teilfolge gilt Xnl → X
P-f.s.
f.s.
→X(ω)
³¹¹ ¹ ¹ ¹ ¹ · ¹ ¹ ¹ ¹ ¹ µ
dominierte
Ô⇒ E[ϕ(Xnk )] = ∫ ϕ(Xnk (ω)) P( dω) ÐÐÐÐÐÐ→ ∫ ϕ(X(ω))P( dω) = E[ϕ(X)]
Konvergenz
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
f.s.
ϕ stetig → ϕ(X(ω))
und ≤∥ϕ∥∞ <∞∈L1
d
Ô⇒ Xnk ÐÐÐ→ X
k→∞
d
Daraus folgt auch allgemein Xn → X, wegen Widerspruchsarguments:
Sonst gäbe es eine Teilfolge (Xnl ), ein ϕ und ein ε > 0 mit
∀l ∈ N ∶ ∣E[ϕ(Xnl ) − E[ϕ(X)]∣ > ε
◻
Dies wäre dann auch für jede Teilteilfolge (Xnl ) wahr. Nach obigem Argument gibt es
k
jedoch eine f.s.-konvergierende Teilfolge (Xnl ) mit E[ϕ(Xnl )] → E[ϕ(X)]. E
k
k
Beispiel V.19 (Die Umkehrung gilt nicht) Es sei X N (0, 1)-verteilt sowie Xn = X, n ≥ 1
w
und Y = −X. Dann gilt P Xn = P X = N (0, 1), PY = N (0, 1). Offenbar gilt daher P Xn → PY ,
P
d
d.h. Xn → Y. Andererseits ist P(∣Xn − Y∣ > ε) = P(∣2X∣ > ε) ≡ c > 0, so dass Xn →
/ Y.
Beachte auch, dass für Konvergenz in Verteilung die Zufallsvariablen nicht auf demselben
Wahrscheinlichkeitsraum definiert sein muss.
Satz V.20
Für reellwertige Zufallsvariablen (Xn )n≥1 und X sind äquivalent:
d
(a) Xn ÐÐÐ→ X
n→∞
n→∞
(b) F Xn (x) ÐÐÐ→ F X (x) für alle x ∈ R, wo F X stetig ist („Stetigkeitspunkte von F X “).
51
Stochastik 1
V. Grenzwertsätze
Beispiel V.21 xn → x reelle Zahlen,
⎧
⎪
⎪1,
Xn ≡ xn , X ≡ x Ô⇒ F Xn (ξ) = P(Xn ≤ ξ) = ⎨
⎪
0,
⎪
⎩
ξ ≥ xn
= 1[xn ,∞) (ξ)
ξ < xn
Analog ist F X (ξ) = 1[x,∞) (ξ).
w
∀ξ < x ∶ F Xn (ξ) → 0 = F X (ξ)
∀ξ > xF Xn (ξ) → 1 = F X (ξ)
F Xn (x) kann 0 oder 1 sein, d.h. „F Xn (ξ) → F X (ξ)“ gilt i.A. nicht für ξ = x.
Beweis:
(a)⇒(b): Wähle ϕ stetig und beschränkt mit 1(−∞,x] ≤ ϕ ≤ 1(−∞,x+δ] für x ∈ R, δ > 0.
Dann gilt
F Xn (x) = E[1(−∞,x] (Xn )] ≤ E[ϕ(Xn )] ≤ E[1(−∞,x+δ] (Xn )] = F Xn (x + δ)
n→∞
F X (x) ≤ E[ϕ(X)] ≤ F X (x + δ)
mit E[ϕ(Xn )] ÐÐÐ→ E[ϕ(X)]
Also folgt
lim sup F Xn (x) ≤ lim sup E[ϕ(Xn )] = E[ϕ(X)] ≤ F X (x + δ)
n→∞
n→∞
lim inf F Xn (x + δ) ≥ lim inf E[ϕ(Xn )] = E[ϕ(X)] ≥ F X (x)
n→∞
∀x ∈ R, δ > 0
n→∞
Ist F stetig bei x, so gilt limδ→0 F X (x ± δ) = F X (x) und somit
X
lim sup F Xn (x) = lim inf F Xn (x) = F X (x)
n→∞
n→∞
(b)⇒(a): Zu ϕ stetig, beschränkt und δ > 0 wähle Stetigkeitspunkte x1 < . . . < xK von
F X mit F X (x1 ) < δ, F X (xk ) > 1 − δ und
∀x ∈ [xk−1 , xk ] ∶ ∣ϕ(x) − ϕ(xk )∣ < δ,
k = 2, . . . , K
X
Diese Wahl ist möglich, weil F als monotone Funktion nur abzählbar viele Unstetigkeitsstellen hat sowie ϕ auf einem kompakten Intervall gleichmäßig stetig
ist. Es folgt
E[ϕ(Xn )] = E[ϕ(Xn )1(−∞,x1 ] (Xn )] + E[ϕ(Xn )1(xK ,∞) (Xn )]
K
+ ∑ E[ϕ(Xn )1(xk−1 ,xk ) (Xn )]
k=2
K
n
≤ ∥ϕ∥∞ ⋅ (F X (x1 ) + 1 − F Xn (xK )) + ∑ (ϕ(xk ) + δ)(F Xn (xk ) − F Xn (xk−1 ))
k=2
und somit
(b)
lim sup E[ϕ(Xn )] ≤ ∥ϕ∥∞ (F X (x1 ) + 1 − F X (xK ))
n→∞
K
+ ∑ (ϕ(xk ) + δ)(F X (xk ) − F X (xk−1 ))
k=2
52
Stochastik 1
V. Grenzwertsätze
Andererseits gilt
K
E[ϕ(X)] ≥ −∥ϕ∥∞ {F X (x1 ) + 1 − F X (xK )} + ∑ (ϕ(xk ) − δ)(F X (xk ) − F X (xk−1 ))
´¹¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶ k=2
<δ
<δ
K
Ô⇒ lim sup E[ϕ(Xn )] ≤ 4δ∥ϕ∥∞ + E[ϕ(X)] + 2δ ∑ (F X (xk ) − F X (xk−1 ))
n→∞
k=2
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
≤1
Mit δ ↓ 0 folgt also lim supn→∞ E[ϕ(Xn )] ≤ E[ϕ(X)]. Vollkommen analog erhält
man (ersetze ϕ durch −ϕ) lim infn→∞ E[ϕ(Xn )] ≥ E[ϕ(X)]. Daher gilt
lim E[ϕ(Xn )] = E[ϕ(X)]
◻
n→∞
Bemerkung Im Beweis (a)⇒(b) reicht es aus, E[ϕ(Xn )] → E[ϕ(X)] nur für ϕ ∈ C ∞ (R) mit
Ableitung ϕ(m) zu wissen, deren Träger kompakt ist. Zum Nachweis der Konvergenz in
Verteilung reicht es also, nur solche ϕ zu betrachten.
d
Beispiel V.22 (a) Xn ∼ N (0, σn2 ) mit σn → 0. Dann gilt Xn → δ0 , denn F Xn (x) → 1[0,∞) (x)
für alle x ≠ 0 (beachte: F Xn (0) = 21 .)
(b) U1 , . . . , Un ∼ U([0, 1]) unabhängig, Xn ∶= n ⋅ min(U1 , . . . , Un ).
x≥0∶
n→∞
F Xn (x) = P(min{U1 , . . . , Un } ≤ nx ) = 1 − (1 − nx )+n ÐÐÐ→ 1 − e−x
Verteilungsfunktion von Exp(1)-Verteilung.
d
Ô⇒ Xn → Exp(1)
Später werden wir folgendes zentrale Resultat der Stochastik beweisen
Satz V.23 (Zentraler Grenzwertsatz)
Es sei (Xk )k≥1 eine Folge unabhängiger, identisch verteilter Zufallsvariablen in L2 mit E[Xk ] = µ,
Var(Xk ) = σ2 > 0. Dann gilt für die standardisierte Summe
1 n x −µ
∶
Sn∗ = √ ∑ k
n k=1 σ
also P(Sn∗ ≤ x) → Φ(x) = ∫
x
−∞
d
Sn∗ ÐÐÐ→ N (0, 1)
n→∞
y2
1
√ e− 2 dy ∀x ∈ R.
2π
Satz V.24 (Auswahlsatz von Helly)
Ist (Pn )n≥1 eine Folge von W-Maßen auf (R, BR ) mit Verteilungsfunktionen (Fn )n≥1 , so existiert
k→∞
eine Teilfolge (nk )k≥1 und monoton wachsende, rechtsstetige Funktion F ∶ R → [0, 1] mit Fnk ÐÐÐ→
F(x) für alle Stetigkeitspunkte x von F.
Beweis: Es sei (qn )n≥1 eine Abzählung von Q, d.h. Q = {qn ∣ n ≥ 1}. Da (Fn (q1 ))n≥1 bek→∞
schränkt ist, gibt es eine Teilfolge (n1 (k))k≥1 mit Fn1 (k) (q1 ) ÐÐÐ→ H(q1 ) für eine reelle
53
Stochastik 1
V. Grenzwertsätze
Zahl H(q1 ). Ebenso gibt es eine Teilfolge (n2 (k))k≥1 von (n1 (k))k≥1 von Fn2 (k) (q2 ) →
H(q2 ) für H(q2 ) ∈ R geeignet.
k→∞
Rekursiv erhalten wir Teilfolgen (nl (k))k≥1 mit Fnl (k) (ql ) ÐÐÐ→ H(ql ). Die Diagonalk→∞
folge (nk (k))k≥1 erfüllt daher Fnk (k) (ql ) ÐÐÐ→ H(ql )∀l ∈ N. Mit n(k) ∶= nk (k) gilt also
Fnk (q) → H(q) für alle q ∈ Q. Offensichtlich ist H ∶ Q → [0, 1] monoton wachsend.
Setze F(x) ∶= lim q↓x H(q) = inf q>x H(q), x ∈ R. Dann ist F rechtsstetig per Konstrukq∈Q
q∈Q
tion. Zeige nun: F stetig in x Ô⇒ Fnk (x) → F(x). Wähle dazu r1 , r2 , s ∈ Q mit
r1 < r2 < x < s und F(x) − ε ≤ F(r1 ) ≤ F(s) ≤ F(x) + ε (möglich, wenn F stetig bei
x).
Mon.
Ô⇒
lim sup Fnk (x) ≤ lim sup Fnk (s)
k→∞
k→∞
Mon.
lim inf Fnk (x) ≥ lim inf Fnk (r2 )
k→∞
k→∞
Def
=
von H
Def
=
von H
H(s) ≤ F(s) ≤ F(x) + ε
H(r2 ) ≥ F(r1 ) ≥ F(x) − ε
ε↓0
Ô⇒ lim Fnk (x) = F(x)
◻
k→∞
Beispiel V.25 Ist Pn = U([n, n + 1]), so gilt für die Verteilungsfunktionen Fn (x) → 0 für alle
x ∈ R, d.h. F(x) = 0 im obigen Satz. Um sicherzustellen, dass im Grenzwert wieder ein
Wahrscheinlichkeitsmaß erscheint, muss man verhindern, dass „Masse“ von den (Pn )n≥1
nach ±∞ läuft.
Definition V.26
Eine Folge (Pn )n≥1 von Wahrscheinlichkeitsmaßen auf (R, BR ) heißt (gleichartig) straff falls für
jedes ε > 0 ein Kε > 0 existiert mit supn≥1 Pn ([−Kε , Kε ]C ) < ε.
Korollar V.27
Ist (Pn )n≥1 eine straffe Folge von Wahrscheinlichkeitsmaßen auf (R, BR ), so gibt es eine Teilfolge
k→∞
(nk ) und ein Wahrscheinlichkeitsmaß P auf (R, BR ) mit Pnk ÐÐÐ→ P. (Kompaktheitskriterium)
Beweis: Nach Konstruktion des Lebesgue-Stieltjes-Maßes gibt es ein Maß P mit
P((a, b]) = F(b) − F(a)
für
a<b
und F aus dem Satz. Es bleibt zu zeigen, dass P ein Wahrscheinlichkeitsmaß ist, d.h.
limx→−∞ F(x) = 0, limx→∞ F(x) = 1. Sei dazu Kε > 0 mit supn≥1 Pn ([−Kε , Kε ]C ) < ε und
x > Kε so, dass ±x Stetigkeitspunkt von F ist. Dann folgt
1 − F(x) + F(−x) = lim (1 − Fnk (x) + Fnk (−x)) ≤ sup(1 − Fn (x) + Fn (−x) ) ≤ ε
k→∞
n≥1 ´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
´¹¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¶
Pn ((x,∞))
Pn ((−∞,−x]
und ε ↓ 0 liefert die Behauptung.
◻
V.3. Charakteristische Funktionen
Definition V.28
Für eine reellwertige Zufallsvariable X bezeichnet
ϕ X (u) ∶= E[eiu⋅X ] = E[cos(u ⋅ X)] + iE[sin(u ⋅ X)],
54
u∈R
Stochastik 1
V. Grenzwertsätze
die charakteristische Funktion von X. Analog ist für ein Wahrscheinlichkeitsmaß P auf (R, BR )
ϕ P (u) ∶= ∫ eiux P( dx) = ∫ cos(ux)P( dx) + i ∫ sin(ux)P( dx),
R
R
R
u∈R
die char. Funktion von P.
Lemma V.29
Die charakteristische Funktion erfüllt ϕ(0) = 1, ∣ϕ(u)∣ ≤ 1∀u ∈ R und ϕ ist gleichmäßig stetig.
Beweis:
ϕ(0) = ∫ ei0x P( dx) = ∫ 1P( dx) = 1
∣ϕ(u)∣ = ∣∫ eiux P( dx)∣
∆-Ungl.
≤
iux
∫ ∣e ∣ P( dx) = 1
±
=1
∣ϕ(u) − ϕ(v)∣ = ∣∫ (e
iux
−e
ivx
)P( dx)∣ ≤ ∫ ∣eiux − eivx ∣P( dx)
DCT
= ∫ ∣ei(u−v)x − 1∣ P( dx) ÐÐÐÐ→ 0
∣u−v∣→0
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
∣u−v∣→0
→0
◻
und damit ist ϕ gleichmäßig stetig.
Beispiel V.30
n n
(a) P = Bin(n, p) ∶ ϕ P (u) = ∫ eiux P( dx) = ∑ ( )pk (1 − p)n−k ⋅ eiku
R
k=0 k
n n
= ∑ ( )(p ⋅ eiu )k (1 − p)n−k = (p ⋅ eiu + 1 − p)n
k=0 k
(b) P = Exp(λ) ∶ ϕ p (u) = ∫ eiux P( dx) = ∫
R
= λ∫
∞
0
e
(iu−λ)x
∞
0
eiux ⋅ λe−λx dx
+∞
1
iu −1
e(iu−λ)x
∣
= −λ
= (1 − )
dx = λ
iu − λ x=0
iu − λ
λ
x2
1
(c) P = N (0, 1) ∶ ϕ P (u) = ∫ eiux √ e− 2 dx
R
2π
2
u
u2
1
(x − iu)2
(∗)
= e− 2 ∫ √ exp (−
) dx = e− 2
2
2π
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
G(u)
Nun ist G ∶ C → C holomorph mit G(ir) = 1 für alle r ∈ R. Daraus folgt G(u) = 1 für
alle u ∈ C und x → ∞ (Eindeutigkeitssatz). Damit folgt (∗).
Lemma V.31
(a) Sind X, Y unabhängige Zufallsvariablen, so gilt ϕ X+Y (u) = ϕ X (u) ⋅ ϕY (u), u ∈ R.
(b) Für X ∈ L p (Ω, F, P) mit p ∈ N ist ϕ X ∈ C p (R) und es gilt
(ϕ X )(k) (0) = ik E[X k ],
k = 0, 1, . . . , p
Beweis: Übungsaufgabe.
Satz V.32 (Eindeutigkeit der char. Funktion)
Zwei Wahrscheinlichkeitsmaße auf (R, BR ) mit derselben charakteristischen Funktion sind identisch.
55
Stochastik 1
V. Grenzwertsätze
Beweis: Zeige die Inversionsformel für a < b
u e−iua − e−iub
1
ϕ P (u) du
∫
u→∞ 2π −u
iu
P((a, b)) + 12 P({a, b}) = lim
u sin x
x
wobei der Integrand bei u = 0 stetig ergänzt sei. Wir verwenden limu→∞ ∫−u
aus der Analysis. Setze
u
I(u) = ∫
−u
e−iũa − e−iũb P
ϕ (ũ) dũ
i ũ
∞ −i ũa
u
Def
=
Char.Fkt.
e
∫ (∫
−u −∞
∞ u
Fubini
=
∫ ∫
beschr.
Integrand −∞ −u
∞
Symmetrie
=
in ũ
dx = π
u
∫ ∫
−∞ −u
∞
− e−iũb iũx
e P( dx)) dũ
i ũ
e−iũ(a−x) − e−iũ(b−x)
dũP( dx)
i ũ
sin(ũ(x − a)) − sin(ũ(x − b))
dũP( dx)
ũ
u∣x−a∣
u∣x−b∣
sin v
sin v
= ∫ (sgn(x − a) ∫
dv − sgn(x − b) ∫
dv)P( dx)
v=∣ũ(x−a)∣
v
v
subst.
−∞
−u∣x−a∣
−u∣x−b∣
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
⎧
⎪
⎪
x≠a
u→∞ ⎪
⎪π,
ÐÐÐ→⎪⎨⎪
⎪
⎪
⎪
0, x = a
⎪
⎩
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
⎧
⎪
⎪
⎪π, x ≠ b
⎨
⎪
⎪
x=b
⎪
⎩0,
⎧
x < a oder x > b⎫
⎪
⎪
⎪
⎪
⎪
⎪
x = a oder x = b⎬ P( dx)
ÐÐÐÐÐÐ→ ∫ ⎨ π ± 0,
u→∞
⎪
⎪
⎪
⎪
⎪
−∞ ⎪
⎪
⎪
⎩ π − (−π), a < x < b
⎭
= 2πP((a, b)) + πP({a, b})
dominierte
Konvergenz
∞⎪
⎪ π − π,
Da es nur abzählbar viele a, b ∈ R gibt mit P({a, b}) > 0 erhalten wir
u e−iua − e−iub
1
ϕ P (u) du
∫
u→∞ 2π −u
iu
F(b) − F(a) = P((a, b]) = lim
für alle bis auf abzählbar viele a < b. Wegen Rechtsstetigkeit ist die Verteilungsfunktion
F daher eindeutig festgelegt.
◻
Beispiel V.33
n
Xi , Xi ∼ Bin(1, p) unabh.).
(a) Sn sei Bin(n, p)-verteilt (d.h. Sn = ∑i=1
Sn − np
Sn∗ = √
,
npq
∗
∗
q ∶= 1 − p Ô⇒ E[Sn∗ ] = 0,
ϕSn = E [eiuSn ] = E [e
= (p ⋅ e
u
i √npq
iu
Sn −np
√
npq
n
+ q ⋅ 1) e
] = ϕ Sn ( √
Var(Sn∗ ) = 1
−iunp
√
u
) e npq
npq
up
−iu √npq
56
Üb.
=
Lemma
n
(ϕ X1 ( √
iunp
u
−√
)) e npq
npq
Stochastik 1
V. Grenzwertsätze
2
2
⎛ ⎛
⎞⎞
⎛
⎞
iuq
iuq
iup
1
1 iup
p 1+ √
+ (√
) + o( n1 ) + q 1 − √
+ (√
) + o( n1 )
npq
2
npq
npq
2
npq
⎝ ⎝
⎠⎠
⎝
⎠
Taylor
=
n
n
⎛
⎞
u2
u2
1 ⎛ u2 pq2 u2 p2 q ⎞
n→∞
= 1−
+
+ o( n1 ) = (1 −
+ o( n1 )) ÐÐÐ→ e− 2
2 ⎝ n pq
n pq ⎠
2n
⎝
⎠
Beachte dazu (1 +
n
∀u ∈ R
n
+ o ( n1 )) → ez weil
z
n
n log (1 +
z
n
+ o( n1 ))
Taylor
=
2
n→∞
n( nz + o( n1 ) + O (( nz + o( n1 )) )) ÐÐÐ→ z
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
1
o( n )
Die char. Funktionen von Sn∗ konvergieren also für n → ∞ gegen die char. Funktion
u2
ϕN (0,1) (u) = e− 2 . Für ein Bild siehe [3], S. 132.
(b) (vgl. Übung) Es seien X j ∼ U([−1, 1]), j ≥ 1 unabhängig
Sn∗
√ n
3
= √ ∑ X j Ô⇒ E[Sn∗ ] = 0,
n j=1
∗
ϕSn (u) = E [e
Taylor
=
√
iu √ 3
n
n
∑ j=1
Xj
] = (E [e
Var(Sn∗ ) = 1
√
iu √ 3 X1
n
n
√
1 iu √ 3 ⋅x
1
]) = ( ∫ e
2 −1
n
√
n
⎛ sin ( 3 u) ⎞
n
⎜
⎟
⎟
dx) = ⎜ √
⎜
⎟
3
n ⋅u ⎠
⎝
n
n
√
2
⎛
⎞
n
( n3 u)
u2
u2
⎜
⎟
⎜1 −
+ o( n1 )⎟ = (1 −
+ o( n1 )) → e− 2 = ϕN (0,1) (u)
⎜
⎟
3!
2n
⎝
⎠
d
Gilt Xn → X, so folgt aus der Definition sofort ϕ Xn (u) → ϕ X (u) punktweise für alle u ∈ R
(beachte sin(ux), cos(ux) sind stetig, beschränkt). Überraschenderweise gilt auch die Umkehrung unter schwachen Voraussetzungen:
Satz V.34 (Stetigkeitssatz von Lévy)
n→∞
Sind (Pn )n≥1 Wahrscheinlichkeitsmaße auf (R, BR ) mit char. Funktionen ϕn und gilt ϕn (u) ÐÐÐ→
ψ(u), u ∈ R, mit einer bei u = 0 stetigen Funktion ψ ∶ R → C, so ist ψ = ϕ P , die char. Funktion
w
eines Wahrscheinlichkeitsmaßes P und es gilt Pn → P.
Beweis:
(a) Zeige die Ungleichung P([− n2 , n2 ]C ) ≤
1 u
4 ∫−u (1 −
ϕ P (v)) dv, u > 0. Es gilt
u
u
1
sin(ux)
1
ivx
∫ (1 − e ) dv = (2u − ∫ cos(vx) dv) = 2 − 2
u −u
u
ux
−u
Fubini
Ô⇒
u
1
sin(ux)
(∗)
P
) P( dx)
∫ (1 − ϕ (v)) dv = 2 ∫ (1 −
u −u
ux
R
57
(∗)
Stochastik 1
V. Grenzwertsätze
≤ 21
≥ 2⋅ ∫
∣x∣≥ u2
¬
1
) P( dx) ≥ P([− u2 , u2 ]C )
(1 −
∣ux∣
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
≥ 21
(b) Zeige: (Pn )n≥1 ist straff. Zu ε > 0 wähle aufgrund der Stetigkeit von ψ bei Null
u
ein u > 0 mit u1 ∫−u (1 − ψ(v)) dv < ε. Dominierte Konvergenz impliziert
∃N ≥ 1∀n ∶
Für ein R ≥
2
n
u
(a)
1
2 2 C
∫ (1 − ϕn )(v)) dv ≤ 2ε Ô⇒ ∀n ≥ N ∶ Pn ([− n , n ] ) ≤ 2ε
u −u
gilt daher ∀n ≥ 1 ∶ Pn ([−R, R]C ) ≤ 2ε Ô⇒ (Pn )n≥1 ist straff.
(c) Schluss: Nach dem Satz von Helly (Satz 5.24) existiert eine Teilfolge nk und ein
w
Wahrscheinlichkeitsmaß P mit Pnk ÐÐÐ→ P. Dann gilt auch (s.o.) ϕnk (u) → ϕ P (u)
k→∞
für alle u ∈ R, d.h. ψ(u) = ϕ P (u)∀u ∈ R. Also besitzt jede Teilfolge von (Pn ) eine
w
gegen P schwach konvergierende Teilteilfolge. Damit folgt Pn → P.
◻
V.4. Zentraler Grenzwertsatz
Wir haben in obigen Beispielen für Binomial- und gleichmäßiger Verteilung gesehen, dass
n→∞
d
ϕSn (u) ÐÐÐ→ ϕN (0,1) (u). Nach dem Stetigkeitssatz von Lévy folgt also Sn∗ → N (0, 1). Dies
gilt in größter Allgemeinheit für standardisierte Summen unabhängiger Zufallsvariablen:
∗
Satz V.35 (Zentraler Grenzwertsatz)
Es sei (X j ) j≥1 eine Folge unabhängiger, identisch verteilter Zufallsvariablen in L2 und µ = E[X j ]
sowie σ2 = Var(X j ) > 0. Dann gilt
1 n Xj − µ d
Sn∗ ∶= √ ∑
ÐÐÐ→ N (0, 1)
n→∞
n j=1 σ
u2
Beweis: Es reicht nach Lévy zu zeigen: ϕSn (u) → ϕN (0,1) (u) = e− 2 . Es gilt mit X̃ j =
∗
X j −µ
σ :
∗
ϕSn (u) = E [e
iu
√
n
n
∑i=1 X̃ j
] = (E[e
i √u X̃1
n
])
2
Übung
=
Taylor
n
2 n
iu
iu
u
(1 + √ E[X̃1 ] + 12 ( √ ) E[X̃12 ] + o ( √ ) )
n ´¹¹ ¹ ¹¸ ¹ ¹ ¹ ¶
n
n
=0
2
n
u2
1u
n→∞
= (1 −
+ o( n1 )) ÐÐÐÐÐÐ→ e− 2 = ϕN (0,1) (u)
2 n
s.o. Beispiel
58
◻
Stochastik 1
V. Grenzwertsätze
Interpretation des ZGWS
Der ZGWS besagt, dass bei vielen unabhängigen und identisch verteilten stochastischen
Fehlern (Störgrößen) die standardisierte Summe gerade approximativ N (0, 1)-verteilt ist.
Bei physikalischen Messungen z.B. wird daher gerne von normalverteilten Fehlern ausgegangen. Die allgemeine ZGWS von Lindeberg – Fehler gibt eine hinreichende und notwendige Bedingung für Sn∗ → N (0, 1), wenn die Xi unabhängig, aber nicht unbedingt identisch
verteilt sind. Ebenso gibt es Verallgemeinerungen für abhängige Zufallsvariablen („Mischungskoeffizienten“)
Wann gilt für die Binomialverteilung die Normal- und wann die Poisson-Approximation?
(ZGWS vs. Poissonscher GWS (I.12). Sei dazu Sn ∼ Bin(n, p), 0 < p < 1, dann gilt einerseits
(ZGWS)
Sn∗ = √
Sn − np
d
→ N (0, 1)
np(1 − p)
√
√
Ô⇒ P(a < Sn∗ ≤ b) = P (np + a np(1 − p) < Sn ≤ np + b np(1 − p)) → ϕ(b) − ϕ(a)
und andererseits
(Poiss. GWS)
d
Sn → Poiss(λ)
falls npn → λ (insbesondere pn → 0)
Grundsätzlicher Unterschied: Beim Poiss. GWS müssen die Einzelwahrscheinlichkeiten pn
klein sein und Sn nimmt Werte asymptotisch in N0 an. Beim ZGWS ist pn = p =const.
(beliebig), die Werte von Sn∗ sind zwar diskret, aber verteilen sich asymptotisch auf der
reellen Achse.
Genauer muss man den Approximationsfehler in beiden GWS genauer untersuchen. Im
Poissonschen GWS gilt:
Satz V.36
Für p ∈ (0, 1) und n ∈ N gilt
∑ ∣ Binn,p (k) − Poissn⋅p (k)∣ ≤ 2np
2
k≥0
Beweis: („coupling“-Argument) Seien die Zufallsvariablen Xi ∼ Bin(1, p) unabhänn
gig („Bernoulli-Folge“), 1 ≤ i ≤ n und Sn = ∑i=1
Xi ∼ Bin(n, p) sowie Yi ∼ Poiss(p) unabn
hängig, 1 ≤ i ≤ n und Tn = ∑i=1 Yi ∼ Poiss(np). Wir werden nun die Familien (Xi )1≤i≤n
nicht unabhängig voneinander wählen, sondern geschickt auf denselben Wahrscheinlichkeitsraum miteinander koppeln. Konstruiere dazu unabhängige Zufallsvariablen
Z1 , . . . , Zn mit Werten in N0 ∪ {−1}, so dass
⎧
Poiss p (k)
⎪
⎪
⎪
⎪
P(Zi = k) = ⎨1 − p
⎪
⎪
−p
⎪
⎪
⎩e − (1 − p)
für k ≥ 1
für k = 0
für k = −1
gilt (beachte e−p ≥ 1 − p). Setze Xi = 1{Zi ≠0} , Yi ∶= max(Zi , 0). Dann gilt Xi ∼ Bin(1, p)
sowie Yi ∼ Poiss(p), und (Xi )1≤i≤n und (Yi )1≤i≤n sind jeweils unabhängige Familien
59
Stochastik 1
VI. Einführung in die Schätztheorie
von Zufallsvariablen, da (Zi )1≤i≤n unabhängig ist. Damit erhalten wir
∑ ∣ Binn,p (k) − Poissnp (k)∣
k≥0
= ∑ ∣P(Sn = k) − P(Tn = k)∣
k≥0
= ∑ ∣P({Sn = k} ∩ ⋃ {Xi ≠ Yi }) − P({Tn = k} ∩ ⋃ {Xi ≠ Yi })∣
1≤i≤n
k≥0
1≤i≤n
+ P({Sn = k}
∩
∩
⋂ {X = Yi }) − P({Tn = k}
⋂ {Xi = Yi })
1≤i≤n i
1≤i≤n
≤ 2P( ⋃ {Xi ≠ Yi }) = 2P( ⋃ {Zi ∉ {0, 1}})
1≤i≤n
−p
≤ 2n(1 − e
1≤i≤n
−e
−p
p+e
−p
− (1 − p)) = 2n(1 − e−p )p ≤ 2np2
◻
Bemerkung Im ZGWS gilt unter der Bedingung Xi ∈ L3 folgende Fehlerabschätzung (Satz
von Berry-Esséen, siehe z.B. [2])
∗
∥F Sn − ϕ∥∞ ≤ 0.8 ⋅
E[∣Xi − µ∣3 ]
σ
3
2
1
1
⋅ √ = O(n− 2 )
n
Man kann sogar eine asymptotische Entwicklung (Edgeworth-Entwicklung) der Form
∗
k
1
1
1
F Sn (x) = ϕ(x) + √ ⋅ H1 (x) + H2 (x) + ⋯ + k Hk (x) + o(n− 2 )
n
n
n2
herleiten mit Koeffizienten Hk (x), die auf Hermite-Polynomen beruhen.
VI. Einführung in die Schätztheorie
VI.1. Grundbegriffe
Definition VI.1
Es sei (X = Ω, F, (Pϑ )ϑ∈Θ ) ein statistisches Modell sowie g ∶ Θ → Rd eine Funktion. Für jeden
Parameter ϑ heißt g(ϑ) abgeleiteter Parameter . Jede messbare Funktion ĝ ∶ X → (Rd , BRd ) heißt
Schätzer von g(ϑ). Für eine Realisierung (Daten) x ∈ X heißt ĝ(x) Schätzung oder Schätzwert.
In der Statistik wird das Verhalten des Schätzers ĝ als Zufallsvariable bezüglich der wahren, aber unbekannten Wahrscheinlichkeitsverteilung Pϑ untersucht. Ein häufig angewandtes Gütekriterium ist der MSE (mean squared error):
Definition VI.2 (Mittlerer quadratischer Fehler, MSE)
Der mittlere quadratische Fehler eines Schätzers ĝ von g(ϑ) ist gegeben durch
R( ĝ, ϑ) ∶= Eϑ [∣ ĝ − g(ϑ)∣2 ]
60
(Risikofunktion)
Stochastik 1
VI. Einführung in die Schätztheorie
wobei ∣ ⋅ ∣ die Euklidische Norm bezeichne. Die Differenz
B( ĝ, ϑ) ∶= Eϑ [ ĝ] − g(ϑ)
heißt Verzerrung oder Bias von ĝ bei ϑ. Gilt B( ĝ, ϑ) = 0 für alle ϑ ∈ Θ, so heißt ĝ erwartungstreu
oder unbiased.
∞
Beispiel VI.3 X = R, F = BR , Θ = {W-Maße P auf BR ∣ ∫−∞ x2 P( dx) < ∞}, Pϑ ∶= ϑ bzw.
stat. Modell (R, BR , {W-Maße P⊗n auf BR ∣ ∫ x2 P( dx) < ∞}). g ∶ Θ → R Erwartungswert,
∞
also g(P) = ∫−∞ xP( dx). Stichprobenraum X = Rn , d.h. Beobachtungen x1 , . . . , xn ∈ R, jedes
xi ∼ P und x1 , . . . , xn unabhängig.
ĝ(x) =
1
n
n
∑ xi
Arithmetisches Mittel
i=1
n
∫ x dP = g(P), d.h. ĝ ist ist erwartungstreuer Schätzer von g(P). MSE:
Es gilt E p [ ĝ] = n1
∑i=1
R
R(P, ĝ) = EP [( ĝ − g(P))2 ] = VarP ( ĝ)
=
Unabh.
=
1
2
∫ (x − g(P)) P( dx)
n R
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
n
2
∑
∫ (x − g(P)) P( dx)
R
n2 i=1
1
„Varianz von P“
P-f.s.
Außerdem gilt (starkes Gesetz der großen Zahlen) mit der Notation ĝn = ĝ ∶ ĝn ÐÐÐ→
g(P)∀P ∈ Θ (in der Statistik sagt man, dass ĝn ein (start) konsistenter Schätzer ist für n → ∞).
Lemma VI.4 (Bias-Varianz-Zerlegung)
Für jeden Schätzer ĝ ∈ L2 (X , F, Pϑ ) gilt
R( ĝ, ϑ) = B( ĝ, ϑ)2 + Varϑ ( ĝ)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¶ ´¹¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¶
Bias2
Varianz
Beweis: R( ĝ, ϑ) = Eϑ [( ĝ − Eϑ [ ĝ] + Eϑ [ ĝ] − g(ϑ))2 ]
=0
³¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ·¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ µ
= Eϑ [( ĝ − Eϑ [ ĝ]) ] + 2E[ ĝ − Eϑ [ ĝ]](Eϑ [ ĝ] − g(ϑ)) + (Eϑ [ ĝ] − g(ϑ))2
2
= Varϑ ( ĝ) + B( ĝ, ϑ)2
Beispiel VI.5
◻
(a) Bernoulli-Experiment X = {0, 1}n , F = P(X ), Pϑ habe Zähldichte
n
n
pϑ (x1 , . . . , xn ) = ϑ∑i=1 xi ⋅ (1 − ϑ)∑i=1 (1−xi )
n
ϑ ∈ Θ = [0, 1]. Betrachte Identität g(ϑ) = ϑ und den Schätzer ϑ̂(x) ∶= n1 ∑i=1
xi (rel.
Häufigkeit). Wie oben im Beispiel ist ϑ̂ erwartungstreu, konsistent für n → ∞ und es
ϑ(1−ϑ)
1
gilt R(ϑ̂, ϑ) = n . Stets gilt R(ϑ̂, ϑ) ≤ 4n
, aber z.B. R(ϑ̂, 0) = 0.
Ein anderer Schätzer ist ϑ̃(x) = π1 ∶ R(ϑ, ϑ̃) = ( π1 − ϑ)2 . Man wird bei der Suche nach
einem besten Schätzer im Allgemeinen die Klasse der Schätzer einschränken (z.B. Erwartungstreue) und/oder den in ϑ maximalen MSE bzw. gemittelten MSE betrachten.
61
Stochastik 1
VI. Einführung in die Schätztheorie
(b) Taxiproblem: In einer Stadt werden alle N Taxis mit einer gut sichtbaren Lizenznummer zwischen 1 und N verstehen. Ein Tourist sieht Taxis mit den Nummern
X1 , . . . , Xn (ohne Doppelte). Welche sinnvolle Schätzung von N könnte ihm einfallen.
a) Er nimmt den Mittelwert und multipliziert ihn mit 2: N̂1 =
2
n
n
∑i=1 Xi .
b) Er nimmt das Maximum N̂2 = max(X1 , . . . , Xn )
c) Er addiert den mittleren Abstand zwischen Beobachtungen zu Maximum hinn−1
1
n
die geordneten
zu N̂3 = max(X1 , . . . , Xn ) + n−1
∑i=1 (X(i) − X(i+1) ) mit (X(i) )i=1
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶
X(1) −X(n)
Zufallsvariablen.
d) betrachte beim letzten Beispiel auch den Abstand X(n) zu 0:
N̂4 = X(1) +
1
n+1
X(1) =
max{X1 , . . . , Xn }.
n
n
Alle Vorschläge haben gewisse Meriten, aber wir wollen den bzgl. MSE optimalen
Schätzer finden. Zur leichten Analyse (sonst siehe [6]) nehmen wir hier ein stetiges
Modell an, nämlich X1 , . . . , Xn ∼ U([0, ϑ]) unabhängig mit ϑ ∈ Θ = (0, ∞) unbekannt
(Approx. für N groß). Zufallszahlen glm. in [0, ϑ], ϑ zu schätzen).
a) ϑ̂1 =
2
n
s.o.
n
∑i=1 Xi Ô⇒ R(ϑ̂1 , ϑ) =
4
n
Varϑ (X1 ) =
ϑ2
3n
b) ϑ̂2 = max(X1 , . . . , Xn ) Ô⇒ R(ϑ̂2 , ϑ) = B(ϑ̂2 , ϑ)2 ,
Varϑ (ϑ̂2 ) =
c) ϑ̂3 =
n+1
n
1
ϑ2 n
n2
2
2
ϑ
+
(
−
ϑ2 ) = ϑ2 ⋅
(n + 1)2
n + 2 (n + 1)2
(n + 1)(n + 2)
2
2
⋅ ϑ̂2 Ô⇒ R(ϑ̂3 , ϑ) = B(ϑ̂3 , ϑ)2 + Varϑ (ϑ̂3 ) = ( n+1
n ) Varϑ (ϑ̂2 ) = ϑ ⋅
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
1
n(n+2)
=0
Wir stellen fest, dass ϑ̂3 für alle ϑ > 0 und (zumindest) große n den kleinsten MSE
besitzt. Darüber hinaus ist ϑ̂3 erwartungstreu. Man kann zeigen, dass ϑ̂3 in der Tat
bzgl. MSE optimaler Schätzer ist.
VI.2. Cramér-Rao-Ungleichung und Maximum-Likelihood-Prinzip
Satz VI.6 (Cramér-Rao-Schranke, 1943)
Es sei (X , F, (Pϑ )ϑ∈Θ ) ein statistisches Modell mit Θ ⊆ R offen und ĝ ein erwartungstreuer Schätzer von g(ϑ) mit g ∶ Θ → R differenzierbar. Weiterhin besitze Pϑ eine Dichte f ϑ ∶ R → [0, ∞), so
∂
dass ∂ϑ
f ϑ existiere für λ-f.a. x ∈ X und Vertauschungen seien erlaubt:
∂
∂
∫ h(x) f ϑ (x) dx = ∫ h(x) f ϑ (x) dx
∂ϑ
∂ϑ
62
Stochastik 1
VI. Einführung in die Schätztheorie
für h(x) = 1 und h(x) = ĝ(x). Dann gilt
∀ϑ ∈ Θ ∶
Eϑ [∣ ĝ − g(ϑ)∣2 ] ≥
∂
g′ (ϑ)2
I(ϑ)
2
f
sofern die Fisher-Information I(ϑ) = Eϑ [( ∂ϑf ϑ ) ] endlich ist.
ϑ
Beweis: Da ĝ erwartungstreu ist, gilt die Bias-Varianzzerlegung (VI.4)
E[( ĝ − g(ϑ))2 ] = Var( ĝ)
Für Y =
∂ f (x)
∂ϑ ϑ
f ϑ (x)
gilt nun
Eϑ [Y] = ∫
∂
∂
f ϑ (x) dx =
∫ f ϑ (x) dx = 0
∂ϑ
∂ϑ
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
1
2
Eϑ [Y ] = I(ϑ)
2
( Ô⇒ Y ∈ L )
Wir erhalten
Covϑ ( ĝ, Y)2 ≤ Varϑ ( ĝ) Var(Y) = E[( ĝ − g(ϑ))2 ]I(ϑ)
und
Covϑ ( ĝ, Y) = E[( ĝ − E[ ĝ])(Y − E[Y])]
= E[ ĝY] − E[
ĝ]E[Y]
= ∫ ĝ(x)
∂
∂
′
f ϑ (x) dx =
∫ ĝ(x) f ϑ (x) dx = g (ϑ)
∂ϑ
∂ϑ
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
◻
=g(ϑ)
Bemerkung (a) Im Fall von Zähldichten pϑ anstatt von Dichten f ϑ gilt exakt die selbe
Aussage (allg. für Radon-Nikodym-Ableitung von Pϑ bzgl. eines dominierenden Maßes).
(b) Im Fall g′ (ϑ) = 0 wird die rechte Seite als 0 interpretiert. Ist I(ϑ) = 0 und g′ (ϑ) = 0
folgt Eϑ [( ĝ − g(ϑ))2 ] = ∞.
(c) Die Bedingungen an f ϑ sind die, die an ein reguläres stat. Modell gestellt werden. Sie
∂
sind für bzgl. ϑ stetig differenzierbares f ϑ mit ∫ supϑ∈Θ ∣ ∂ϑ
f ϑ (x)∣ dx < ∞ stets erfüllt.
∂
f
(d) Gleichheit in der Cramér-Rao-Schranke gilt genau dann, wenn Y = ∂ϑf ϑ und ĝ linear
ϑ
unabhängig sind. In diesem Fall nennt man ĝ effizient . Die lineare Unabhängigkeit
führt auf die Exponentialfamilien als stat. Modell.
Lemma VI.7
Im Produktmodell (X n , F ⊗n , (Pϑ⊗n )ϑ∈Θ ) mit Pϑ wie oben gilt für die Fisher-Information
In (ϑ) = nI1 (ϑ)
(n unabhängige und identisch verteilte Beobachtungen Ô⇒ n-fache Information.)
63
Stochastik 1
VI. Einführung in die Schätztheorie
n
Beweis: Pϑ⊗n hat die Dichte ∏i=1
f ϑ (xi ), x ∈ X n und daher
⎤
⎡
⎢⎛ n ∂ f ϑ (Xi ) ⎞2 ⎥
⎥
⎢
∂ϑ
⎥
In (ϑ) = Eϑ ⎢ ∑
⎥
⎢⎝
f
(X
)
⎠
⎥
⎢ i=1 ϑ i
⎣
⎦
∂
n
f ϑ (Xi ) ⎞ unabh. n
⎛ ∂ f ϑ (Xi ) ⎞
⎛
= ∑ Varϑ ∂ϑ
= Varϑ ∑ ∂ϑ
⎝ f ϑ (Xi ) ⎠
⎝i=1 f ϑ (Xi ) ⎠
i=1
= nI1 (ϑ)
Insbesondere ist die Rate
1
n
◻
für den MSE optimal.
(a) Bernoulli-Experimet X1 , . . . , Xn
Beispiel VI.8
n
Pϑ (x1 , . . . , xn ) = ∏ ϑ xi (1 − ϑ)1−xi
Unabh.
∼
Bin(1, ϑ), ϑ ∈ (0, 1).
x ∈ {0, 1}n
i=1
2⎤
⎡
⎢ X ϑ X1 −1 (1 − ϑ)1−X1 − (1 − X1 )ϑ X1 (1 − ϑ)−X1 ⎥
⎥
)
Ô⇒ I1 (ϑ) = E ⎢⎢( 1
⎥
ϑ X1 (1 − ϑ)1−X1
⎢
⎥
⎦
⎣
2
1 − X1
X
) ]
= E [( 1 −
ϑ
1−ϑ
1
1
1
2
= P(X1 = 1) 2 +
p(X1 = 0) −2 E[X
1 − X1 ]
2
ϑ
(1
−
ϑ)
ϑ(1
−
ϑ)
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¸ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¶
´¹¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹ ¹¶ =ϑ
=(1−ϑ)
1
1
1
n
= +
=
Ô⇒ In (ϑ) =
ϑ 1 − ϑ ϑ(1 − ϑ)
ϑ(1 − ϑ)
g(ϑ) = ϑ und Modell ist regulär. Daher ist die Cramér-Rao-Schranke:
also ist ϑ̂ =
1
n
1
I(ϑ)
=
ϑ(1−ϑ)
n
n
∑i=1 Xi effizient.
n
(b) Taxiproblem. Vereinfachtes Modell Pϑ = U⊗n
[0,ϑ] auf R . Daher ist
n 1
f ϑ (x) = ∏ 1[0,ϑ] (xi )
i=1 ϑ
ist nicht differenzierbar bzgl. ϑ (nicht stetig bei x1 ). Also ist das statistische Modell
nicht regulär. Wir erhalten die schnellere Konvergenzrate n12 . Man kann zeigen, dass
diese optimal ist.
Idee des Maximum-Likelihood-Prinzips: Ist (X , F, (Pϑ )ϑ∈Θ ) ein diskretes stat. Modell, so
wollen wir bei Vorliegen der Stichprobe x ∈ X einen Schätzwert ϑ̂(x) für ϑ bestimmen.
Das Maximum-Likelihood-Prinzip ϑ besagt, dass man als ϑ̂(x) denjenigen Parameter ϑ
nehmen soll, für den pϑ (x) maximal ist, d.h. so dass der Versuchsausgang x bei Vorliegen
der Verteilung Pϑ am wahrscheinlichsten ist. Im stetigen Fall benutzt man analog Dichten
fϑ .
64
Stochastik 1
VI. Einführung in die Schätztheorie
Definition VI.9
(a) Ist (X , F, (Pϑ )ϑ∈Θ ) ein diskretes stat. Modell mit Zähldichten pϑ (⋅), so heißt
L(ϑ, x) ∶= pϑ (x)
sowie
Likelihood-Funktion
l(ϑ, x) ∶= log L(ϑ, x)
Log-Likelihood
Entsprechend in einem stat. Modell (X , F, (Pϑ )ϑ∈Θ ) mit Dichten L(ϑ, x) = f ϑ (x) und
l(ϑ, x) = log L(ϑ, x).
(b) Gilt für einen Schätzer ϑ̂
L(ϑ̂(x), x) = sup L(ϑ, x)
bzw. äquivalent
l(ϑ̂(x), x) = sup l(ϑ, x)
ϑ∈Θ
ϑ∈Θ
so heißt ϑ̂ Maximum-Likelihood-Schätzer (MLE) .
Lemma VI.10 (Plugin-Prinzip)
Ist g ∶ Θ → Θ′ bijektiv, so ist g(ϑ̂ML ) der Maximum-Likelihood-Schätzer von ϑ′ = g(ϑ), wobei ϑ̂ML
der ML-Schätzer von ϑ ∈ Θ.
Beweis: sup L′ (ϑ′ , x) = sup f g−1 (ϑ′ ) (x) = sup f ϑ (x) = sup L(ϑ, x)
ϑ′ ∈Θ′
ϑ′ ∈Θ′
ϑ∈Θ
◻
ϑ∈Θ
(a) Binomialverteilung mit unbekannter Erfolgswahrscheinlichkeit ϑ ∈
Beispiel VI.11
(0, 1).
n
L(ϑ, x) = ( )ϑ x (1 − ϑ)n−x
x ∈ {0, . . . , n}
x
n
Log-Likelihood l(ϑ, x) = log ( ) + x log ϑ + (n − x) log(1 − ϑ)
x
x n−x
∂
!
l(ϑ̂, x) = −
Maximum bestimmen: 0 =
∂ϑ
ϑ̂ 1 − ϑ̂
Likelihood-Funktion
⇐⇒ 0 = (1 − ϑ̂)x − ϑ̂(n − x) = x − ϑ̂n ⇐⇒ ϑ̂(x) =
x
n
ist ML-Schätzer und nach obigen Beispiel optimal.
(b) Schätzung eines Fischbestandes. X = {0, . . . , n} (n =„Anzahl der Fische beim 2. Fangen“), Θ = {w, w + 1, . . . } (w = „Anzahl der markierten Fische“), x ∈ X = “Anzahl
markierter Fische beim 2. Fang“.
Pϑ = Hypn,w,ϑ−w
L(ϑ, x) =
(wx)(ϑ−w
n−x )
(nϑ)
ϑ
L(ϑ,x)
Ô⇒ L(⋅, x) ist monoton wachsend
L(ϑ−1,x)
nw
ϑ ∈ {⌊ x ⌋ + 1, . . . } Ô⇒ ϑ̂ML (x) = ⌊ nw
x ⌋.
Betrachte
lend auf
→ max
auf ϑ ∈ {w, . . . , ⌊ nw
x ⌋} und fal-
Bemerkung (a) Das ML-Prinzip liefert in komplexen Modellen gute Ideen, wie Schätzer
konstruiert werden können, aber jenseits von asymptotischen Untersuchungen existieren kaum allgemeine Sätze über deren Eigenschaften. Ob der ML-Schätzer eine
gute Wahl ist, muss im Einzelfall geprüft werden.
65
Stochastik 1
VI. Einführung in die Schätztheorie
(b) Unter Regularitätsannahmen an das Modell kann man zeigen
√
d
n(ϑ̂ML − ϑ) → N (0, I −1 (ϑ0 ))
VI.3. Likelihood-Quotienten-Tests
Motivation: Mendels Erbse (1865). Beobachtung bei Erbsen: Ausprägung „rund“ (A) oder
„kantig“ (a) sowie „gelb“ (B) oder „grün“ (b). Das Merkmal „rund“ ist dominant, d.h. die
Genotypen AA, Aa, aA führen zum Phänotypen „rund“, bei aa ergibt sich „kantig“. Ebenso
ist „gelb“ dominant.
Betrachtet man nun Nachkommen des heterozygoten
Genotypen AaBb, dann sollten die vier Phänotypen
(„rund, gelb“, „rund, grün“, „kantig, gelb“, „kantig,
grün“) im Verhältnis 9:3:3:1 auftauchen.
Mendel erhob folgende Daten
(n = 556 Erbsen):
gelb grün
rund
315
108
kantig 101
32
Dies führt auf die Multinomialverteilung mit r = 4 Klassen und (theor.) Wahrscheinlichkei3
1
9
, p2 = 16
= p3 , p4 = 16
für die verschiedenen Klassen. Statistisches Modell
ten p1 = 16
X = {k ∈ {0, 1, . . . , n}r ∣ k1 + ⋯ + kr = n} ,
F = P(X )
Parametermenge Θ = {ϑ ∈ (0, 1)r ∣ ϑ1 + ϑ2 + ⋯ + ϑr = 1} (entsprechen den (pi )1≤i≤r ).
pϑ (k) = Pϑ ({k}) =
n!
k
ϑ 1 ⋅ ϑ2k2 ⋯ϑrkr
k1 !⋯kr ! 1
9
Teste H0 ∶ ϑ = ϑ0 gegen H1 ∶ ϑ ≠ ϑ0 mit ϑ0 = ( 16
3
16
3
16
1 )⊺
.
16
1
n
Weitere Anwendung: Zufallszahlen auf {1, . . . , n} und Hypothese H0 ∶ ϑ = ( ⋮ ). Inspiriert
1
n
von Neyman-Pearson-Test verwendet man für diese Probleme folgende Testkonstruktion:
Definition VI.12
In einem statistischen Modell mit Likelihood-Funktion L(ϑ, x) betrachte das Testproblem H0 ∶ ϑ ∈
Θ0 gegen H1 ∶ ϑ ∈ Θ1 mit Θ = Θ0 ⊍ Θ1 . Dann heißt ein Test der Form
ϕ(x) = 1
⎛ supϑ∈Θ1 L(ϑ, x)
⎞
> cα
⎝ supϑ∈Θ0 L(ϑ, x)
⎠
mit cα > 0 geeignet heißt Likelihood-Quotienten-Test. Mit ϑ̂0 , ϑ̂1 , Maximum-Likelihood-Schätzern in der Parametermenge Θ0 bzw. Θ1 , gilt entsprechend
ϕ(x) = 1 (
L(ϑ̂1 (x), x)
> cα )
L(ϑ̂0 , x)
66
Stochastik 1
VI. Einführung in die Schätztheorie
In unserem Multinomialmodell ergibt sich
supϑ∈Θ1 L(ϑ, x)
Stetigkeit
supϑ∈Θ0 L(ϑ, x)
in ϑ
=
x
supϑ∈Θ L(ϑ, x) supϑ∈Θ pϑ (x) supϑ∈Θ ϑ1 1 ⋯ϑrxr
=
=
x1
xr
L(ϑ0 , x)
pϑ0 (x)
⋯ϑ0,r
ϑ0,1
Lagrange-
=
( xn1 )x1 ⋯( xnr )xr
x
xr
1
ϑ0,1
⋯ϑ0,1
Multiplikatoren
Wir erhalten weiter
log
⎛ supϑ∈Θ1 L(ϑ, x) ⎞ r
x
= ∑ xi log ( i )
nϑ0,i
⎝ supϑ∈Θ0 L(ϑx) ⎠ i=1
und der Likelihood-Quotienten-Test hat die Form
r
ϕ(x) = 1 (∑ xi log (
i=1
xi
) > log cα )
nϑ0,i
Taylor-Entwicklung liefert x log( xx ) = (x − x0 ) +
0
2
ϕ(x) ≈ 1(V (x) > vα )
mit
(x−x0 )2
2x0
+ o((x − x0 )2 ) und somit
2
⎛ x
( xni − ϑ0,i ) ⎞
i
⎟
V (x) = 2n ∑ ⎜( − ϑ0,i ) +
2ϑ0,i
⎠
i=1 ⎝ n
r
2
(xi − nϑ0,i )2
(B − Ei )2
=∑ i
nϑ0,i
Ei
∑ ϑ0,i =1 i=1
i
∑
xi
n
=
=1
r
∑
symbolisch mit Bi : beobachtete Anzahl in Klasse i und Ei erwartete Anzahl in Klasse i.
ϕ̃(x) = 1(V 2 (x) > vα )
heißt χ2 -Test
Zur Bestimmung des kritischen Wertes vα für ein vorgegebenes Niveau α bedient man sich
der asymptotischen Näherung
∀v > 0 ∶
lim Pϑ0 (V 2 ≤ v) = ∫
n→∞
0
v
f χ2 (r−1) (x) dx
mit
f χ2 (r−1) (x) =
1
r−1
2
Γ( r+1
2 )2
x
r−1 −1
2
x
e− 2
(der Dichte der χ2 (r − 1)-Verteilung). Das heißt, man wählt vα als das (1 − α)-Quantil der
χ2 (r − 1)-Verteilung.
Bei Mendels Daten ergibt sich eine klare Annahme der Hypothese zum Niveau α = 0.05
(oder sogar größer). In der Tat ist die Wahrscheinlichkeit, dass V 2 den Wert entsprechend
diesen Daten oder kleiner annimmt, ca. 10%. (Manipulationsverdacht)
Eine weitere Anwendung des Likelihood-Quotienten-Tests ist der sogenannte t-Test für
X1 , . . . , Xn ∼ N (µ, σ2 ) unabhängig und H0 ∶ µ = µ0 vs H1 ∶ µ ≠ µ0 (σ > 0 beliebig, unbekannt).
67
Stochastik 1
Index
Index
χ2 -Test, 67
σ-Additivität, 3
σ-Algebra, 3
σ-Stetigkeit, 4
σ-endlich, 10
σ-Algebra
Produkt-, 23
Faltung, 26
Fehler 1. Art, 40
Fisher-Information, 63
absolut stetig, 13
Algebra, 10
Hermite-Polynome, 60
gleichmäßig bester Test, 41
gleichmäßige Verteilung, 13
Gleichverteilung, 7
Indikatorfunktion, 5
Irrtumsniveau, 40
Bayesformel, 17
bedingte Wahrscheinlichkeit, 16
Bernoulli-Schema, 7
Bernstein-Polynom, 44
Berry-Esséen
Satz von, 60
Bias, 61
Bias-Varianz-Zerlegung, 34, 61
Binomialverteilung, 7
Bonferroni-Ungleichung, 4
Borel-σ-Algebra, 10
Borel-Cantelli
Lemma von, 18
Kontingenztafel, 16
Konvergenz
fast sicher, 45
in Verteilung, 50
schwache, 50
stochastische, 45
Korrelation, 36
Kovarianz, 36
Laplaceverteilung, 7
Lebesgue-Stieltjes-Maß, 11
Lebesguemaß, 11, 12
Likelihood-Funktion, 65
Likelihood-Quotient, 41
Likelihood-Quotienten-Test, 66
Caratheodory
Satz von, 11
charakteristische Funktion, 55
chi2 -Test, 67
Maß, 10
Produkt-, 23
Maß-Integral, 27
Markov-Ungleichung, 43
Maximum-Likelihood-Schätzer, 65
mittlerer quadratischer Fehler, 60
Moment, 34
MSE, 60
Multinomialverteilung, 8
Multiplikationsformel, 18
Dichte
Lebesgue-, 13
Wahrscheinlichkeits-, 13
Zähl-, 6
Dichtequotient, 41
Dichtetransformation, 15
diskret verteilt, 6
Edgeworth-Entwicklung, 60
Entscheidungsregel, 40
Ereignis, 3
asymptotisch, 24
unabhängig, 18
erwartungstreu, 61
Erwartungswert, 29
Exponentialverteilung, 13
Neyman-Pearson-Test, 41
Normalverteilung, 13
d-dimensional, 37
Parameter, 40
abgeleiteter, 60
Parametermenge, 40
68
Stochastik 1
Index
Pfadregel, 18
Poissonscher Grenzwertsatz, 8
Poissonverteilung, 8
Prämaß, 10
Produktdichte, 14
Produktmaß, 23, 24
Subadditivität, 4
Taxiproblem, 62, 64
Teststatistik, 40
totalen Wahrscheinlichkeit, 17
UMP, 41
unbiased, 61
unkorreliert, 36
Randdichte, 21
randomisierter Test, 40
Realisierung, 60
Risikofunktion, 60
Varianz, 34
Verteilung, 5
Verteilungsfunktion, 11
Verzerrung, 61
Vitali
Satz von, 9
Schätzer, 60
effizienter, 63
konsistenter, 61
Maximum-Likelihood, 65
Schätzung, 60
schwach differenzierbar, 13
schwache Konvergenz, 50
Standardabweichung, 34
standardisierte Summe, 50
Statistik
Test-, 40
statistisches Modell, 40
Stichprobenraum, 40
stochastische Konvergenz, 45
straff, 54
Streuung, 34
Wahrscheinlichkeitsmaß, 3
Wahrscheinlichkeitsraum, 4
diskreter, 6
Produkt-, 23
Zähldichte, 6
Zentraler Grenzwertsatz, 53, 58
Zufallsvariable, 5
einfach, 29
unabhängig, 20
Zufallsvektor, 5
69
Stochastik 1
Literatur
Literatur
[1] Heinz Bauer. Wahrscheinlichkeitstheorie. De Gruyter, 1991.
[2] Kai Lai Chung. A Course in Probability Theory. Academic Press, 1994.
[3] Hans-Otto Georgii. Stochastik. De Gruyter, 2007.
[4] Achim Klenke. Wahrscheinlichkeitstheorie. Springer, 2006.
[5] Max Koecher. Lineare Algebra und analytische Geometrie. Springer, 1997.
[6] Ulrich Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, 2005.
70
Herunterladen