Einführung in die Statistik MINISKRIPTUM

Werbung
Einführung in die Statistik
MINISKRIPTUM
Bruno Nietlispach
mit Beiträgen von A. D. Barbour und Dominic Schuhmacher
30. März 2006
Inhaltsverzeichnis
0 Grundbegriffe der Wahrscheinlichkeit
0.1 Der Wahrscheinlichkeitsraum . . . . . . .
0.2 Zufallsvariablen und ihre Verteilungen . .
0.3 Bedingte Wahrscheinlichkeit . . . . . . . .
0.4 Unabhängigkeit . . . . . . . . . . . . . . .
0.5 Der Erwartungswert . . . . . . . . . . . .
0.6 Die Bienaymé-Chebyshev-Ungleichung und
0.7 Bedingter Erwartungswert . . . . . . . . .
.
.
.
.
.
.
.
3
3
8
10
12
16
22
24
starke Gesetz der grossen Zahlen
Die Lemmata von Borel-Cantelli . . . . . . . . . . . . . . . . . . .
Fast sichere Konvergenz . . . . . . . . . . . . . . . . . . . . . . .
Das starke Gesetz der grossen Zahlen . . . . . . . . . . . . . . . .
33
33
36
37
2 Der zentrale Grenzwertsatz
2.1 Konvergenz in Verteilung . . . . . . . . . . . . . . . . . . . . . . .
2.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . .
39
39
41
3 Einführung in die Statistik
3.1 Zusammenfassung und Darstellung von Daten
3.2 Entscheidungstheoretische Grundlagen . . . .
3.3 Suffizienz . . . . . . . . . . . . . . . . . . . .
3.4 Exponentielle Familien . . . . . . . . . . . . .
3.5 Schätzung . . . . . . . . . . . . . . . . . . . .
3.6 Tests . . . . . . . . . . . . . . . . . . . . . . .
3.7 Die Bayes’sche Methode . . . . . . . . . . . .
3.8 Die nichtparametrische Statistik . . . . . . . .
43
43
45
48
50
51
53
54
55
1 Das
1.1
1.2
1.3
2
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
Anwendungen
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Kapitel 0
Grundbegriffe der
Wahrscheinlichkeit
0.1
Der Wahrscheinlichkeitsraum
Definition 0.1.1. Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei Ω
eine nichtleere Menge, F eine σ-Algebra von Teilmengen von Ω, und P : F → R
eine Abbildung ist, die folgende drei Eigenschaften erfüllt:
Axiom I: Für alle A ∈ F sei 0 ≤ P[A] ≤ 1.
Axiom II: Es gelte P[Ω] = 1.
Axiom III: Für eine Folge (An )n∈N von paarweise disjunkten Elementen aus F
gelte
∞
h[∞
i X
P
An =
P[An ] .
n=1
n=1
Diese Eigenschaft von P heisst σ-Additivität.
Ist die Menge Ω endlich, so sprechen wir von einem endlichen Wahrscheinlichkeitsraum, ist Ω endlich oder abzählbar unendlich, so nennen wir (Ω, F, P) einen
diskreten Wahrscheinlichkeitsraum.
Ein Element A ∈ F heisst ein Ereignis. Ist {ω} ∈ F für ω ∈ Ω, so wird {ω}
ein Elementarereignis genannt. Die Abbildung P heisst Wahrscheinlichkeit oder
Wahrscheinlichkeitsmass. Für ein Ereignis A wird der Wert P[A] als Wahrscheinlichkeit des Ereignisses A bezeichnet.
Schon aus den Axiomen I und II mit der schwächeren paarweise Additivät
Axiom IIIendl : Für disjunkte Ereignisse A, B gilt:
P[A ∪ B] = P[A] + P[B],
3
kann man erste Eigenschaften der Wahrscheinlichkeit P folgern:
Lemma 0.1.2. Für m ≥ 2 und (Ai )1≤i≤m paarweise disjunkt gilt:
P
h[m
i
n=1
An =
m
X
P[An ].
n=1
Wir nennen diese Eigenschaft die Additivität von P.
Lemma 0.1.3.
1.
P[∅] = 0 ;
(0.1.1)
c
2.
P[A ] = P[Ω\A] = 1 − P[A] ;
3.
4.
Falls A ⊂ B, so folgt P[A] ≤ P[B] ;
(0.1.3)
Für beliebige Ereignisse (Cn )1≤n≤m gilt die Boolesche Ungleichung:
m
h[m
i X
P
Cn ≤
P[Cn ] .
(0.1.4)
n=1
(0.1.2)
n=1
Die nächsten Resultate brauchen das volle Axiom III.
Lemma 0.1.4 (Stetigkeitslemma). Sei (Bn )n∈N eine steigende Folge von Ereignissen aus F: also Bn ⊂ Bn+1 für alle n. Dann gilt
"
#
[
P
Bn = lim P[Bn ].
n→∞
n∈N
Für beliebige Ereignisse (Cn )n∈N gilt also
"
#
" n
#
[
[
P
Cm = lim P
Cm .
n→∞
m≥1
m=1
Beweis: Setze An := Bn \Bn−1 , verwende Axiom III. Dann setze Bn =
2
Sn
m=1
Cm .
Lemma 0.1.5. Sei (Cn )n∈N eine Folge von beliebigen Ereignissen aus F. Dann
gilt die allgemeine Boolesche Ungleichung:
P
h[∞
n=1
Cn
i
≤
∞
X
P[Cn ] .
(0.1.5)
n=1
Beweis: Zunächst Lemma 0.1.4, zweiter Teil, danach Lemma 0.1.3 (4).
4
2
Fall 1: Ω endlich
In diesem Fall können wir zeigen, dass jede Wahrscheinlichkeit P durch eine Familie reeller Zahlen (pi )1≤i≤n mit
n
X
pi = 1
(0.1.6)
i=1
und
pi ≥ 0 für alle 1 ≤ i ≤ n
(0.1.7)
eindeutig bestimmt ist. Die Zahlen pi sind gerade die Werte von P auf den Elementarereignissen.
Wir wollen möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen
können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst
gross wählen. Die obigen Ausführungen zeigen, dass wir, falls Ω endlich ist, immer
F := 2Ω setzen können.
Beispiele von Wahrscheinlichkeiten im endlichen Fall: die Uniformverteilung, die
Bernoulli-Verteilung, die Binomialverteilung.
Fall 2: Ω abzählbar unendlich
Analog zum endlichen Fall können wir hier zeigen, dass jede Wahrscheinlichkeit
P durch eine Folge reeller Zahlen (pi )i≥1 mit
∞
X
pi = 1
(0.1.8)
i=1
und
pi ≥ 0 für alle i ∈ N
(0.1.9)
eindeutig bestimmt ist. Die pi sind gerade die Werte von P auf den Elementarereignissen.
Wie im endlichen Fall wollen wir möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes
(Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass auch
im abzählbar unendlichen Fall stets F := 2Ω gesetzt werden kann.
Beispiele von Wahrscheinlichkeiten auf abzählbar unendlichen Mengen: die geometrische Verteilung, die Negativ-Binomialverteilung, die Poisson-Verteilung. Es
gibt keine Uniformverteilung auf abzählbar unendlichen Mengen.
Die Binomialverteilung lässt sich durch die Poisson-Verteilung approximieren.
Lemma 0.1.6 (Poissonscher Grenzwertsatz). Sei λ > 0 und sei (p(n))n≥1
eine Folge von Zahlen im Intervall [0, 1] mit limn→∞ np(n) = λ. Für n → ∞ gilt
5
dann
Bi(n, p(n))[{i}]
=
n
p(n)i (1 − p(n))n−i
i
n(n − 1) · · · (n − i + 1) ni p(n)i
=
ni
i!
i
λ −λ
−→
e = Po(λ)[{i}] .
i!
np(n)
1−
n
n np(n)
1−
n
2
Beweis: Stirling’sche Formel.
Fall 3: Ω überabzählbar unendlich
Im abzählbar unendlichen Fall wurde gezeigt, dass es keine Uniformverteilung
geben kann. Für ein beliebiges Teilintervall (a, b] von (0, 1] liegt es jedoch intuitiv
nahe, eine Wahrscheinlichkeit P mit uniformer Verteilung durch
P[(a, b]] = b − a
(0.1.10)
zu konstruieren.
Wie ist aber die σ-Algebra F zu wählen? Wir betrachten hierzu die kleinste σAlgebra von Teilmengen in (0, 1], die von allen Intervallen der Form (a, b] mit
0 < a < b ≤ 1 erzeugt wird. Dies ist die Borelsche σ-Algebra B((0, 1]) :=
(0, 1] ∩ B(R). Der Erweiterungssatz der Masstheorie besagt, dass ein eindeutig
bestimmtes Wahrscheinlichkeitsmass P auf B((0, 1]) existiert, das für jedes Intervall (a, b] mit 0 < a < b ≤ 1 die Gleichung (0.1.10) erfüllt. Auf diese Weise
erhalten wir einen Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), P). Wir nennen P die
Uniformverteilung U[(0, 1]].
Bemerkung 0.1.7. Wäre es hier aber nicht möglich wie im diskreten Fall als σAlgebra die Potenzmenge 2(0,1] zu wählen? Nein. Man kann zeigen, dass das durch
(0.1.10) bestimmte P nicht konsistent auf die Potenzmenge von (0, 1] fortgesetzt
werden kann.
Die Idee der Konstruktion der Uniformverteilung auf (0, 1] soll nun erweitert
werden, damit wir Wahrscheinlichkeitsräume mit Ω := R konstruieren können.
Dazu benötigen wir folgende Definition:
Definition 0.1.8. Eine Funktion F : R → [0, 1] heisst Verteilungsfunktion, wenn
sie rechtsstetig und monoton wachsend ist, und wenn limx→−∞ F (x) = 0 und
limx→+∞ F (x) = 1 gilt.
6
−i
Bemerkung 0.1.9. Aus den Eigenschaften der Verteilungsfunktion folgt, dass
diese in jedem Punkt in R den linksseitigen Limes besizt. Rechtsstetige Funktionen
mit linksseitigen Limites werden auch als càdlàg-Funktionen bezeichnet ( continue
à droit - limite á gauche).
Jedes Wahrscheinlichkeitsmass auf B(R) kann auf eindeutige Weise durch eine
Verteilungsfunktion beschrieben werden.
Eine wichtige Klasse von Verteilungsfunktionen wird über Wahrscheinlichkeitsdichten definiert.
Definition 0.1.10. Eine Wahrscheinlichkeitsdichte ist eine integrierbare Funktion
f : R → R+ mit
Z +∞
f (t)dt = 1 .
−∞
Ist f eine Dichte, so wird durch
Z
x
f (t)dt
F (x) :=
−∞
eine stetige Verteilungsfunktion F , und damit auch eine Wahrscheinlichkeit P auf
B(R), definiert.
Bemerkung 0.1.11. Der Begriff der Dichte lässt sich auch allgemeiner fassen.
Eine integrierbare Funktion f : Rn → R+ heisse Wahrscheinlichkeitsdichte, wenn
Z
f (x1 , . . . , xn ) d(x1 , . . . , xn ) = 1
Rn
gilt. Nach dem Erweiterungssatz der Masstheorie gibt es ein eindeutig bestimmtes
Wahrscheinlichkeitsmass P auf B(Rn ), so dass für jedes n-dimensionale Intervall
(a, b] ⊂ Rn gilt:
Z
P[(a, b]] =
f (x1 , . . . , xn ) d(x1 , . . . , xn ) .
(0.1.11)
(a,b]
Wir erhalten so Wahrscheinlichkeitsräume der Form (Rn , B(Rn ), P). Der Begriff
der Verteilungsfunktion wird im mehrdimensionalen Fall selten verwendet.
Beispiele von Wahrscheinlichkeiten auf überabzählbar unendlichen Mengen: die
Negativ-Exponentialverteilung, die Normalverteilung, die bivariate Normalverteilung, die Cauchy-Verteilung, die Gamma-Verteilung, die Chi-Quadrat-Verteilung.
Auf R+ bzw. auf R gibt es keine Uniformverteilung. Dafür gibt es eine auf jedem
endlichen Intervall von R.
7
0.2
Zufallsvariablen und ihre Verteilungen
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.2.1. Ein n-dimensionaler Zufallsvektor auf Ω ist eine F-B(Rn )messbare Abbildung X : Ω → Rn . Der Fall n = 1 ist besonders wichtig: hier
sprechen wir von einer Zufallsvariablen X.
Ist X(Ω) endlich oder abzählbar unendlich, so sprechen wir von einer diskreten
Zufallsvariablen.
Wir verwenden im folgenden die abkürzende Schreibeweise
{X ∈ B} := X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} für B ⊂ Rn ,
bzw. {X = c} für c ∈ Rn oder, für n = 1, {X ≤ c} u.s.w.
Ist B ∈ B(Rn ) eine Ereignis, so ist X −1 (B) ∈ F, und wir verwenden entsprechend
die Notation
P[X ∈ B] := P[X −1 (B)] .
Satz 0.2.2. Sei X : Ω → Rn ein Zufallsvektor. Sei PX : B(Rn ) → R definiert
durch
PX [B] := P[X ∈ B] .
Dann ist PX eine Wahrscheinlichkeit auf B(Rn ), also (Rn , B(Rn ), PX ) ein Wahrscheinlichkeitsraum.
Anstelle von PX wird auch die Schreibweise PX −1 benutzt. Wir nennen PX die
Verteilung des Zufallsvektors X und verwenden die Notationen X ∼ PX . Speziell
verwenden wir für die in den Beispielen betrachteten Verteilungen die Notationen
X ∼ Po(λ), X ∼ N (µ, σ 2 ), X ∼ U[0, 1], u.s.w.
Ist X eine Zufallsvariable, so bezeichen wir mit FX die durch PX definierte Verteilungsfunktion.
Wir betrachten nun einige Beispiele dazu, wie sich aus gegebenen Zufallsvariablen
neue bilden lassen.
1. Sind Xi Zufallsvariablen für alle 1 ≤ i ≤ n, so ist (X1 , . . . , Xn ) : Ω → Rn ,
definiert durch
(X1 , . . . , Xn )(ω) := (X1 (ω), . . . , Xn (ω)) ,
ein Zufallsvektor und umgekehrt. Dies folgt aus der Eigenschaft, dass B(Rn ) =
Nn
i=1 B(R) die von B(R) × · · · × B(R) erzeugte σ-Algebra ist:
(X1 , . . . , Xm )−1 (A1 × · · · × Am ) =
m
\
j=1
8
Xj−1 (Aj ).
2. Sei X : Ω → Rn ein Zufallsvektor und g : Rn → Rm eine B(Rn )-B(Rm )messbare Abbildung. Dann ist durch
g(X)(ω) := g(X(ω))
ein Zufallsvektor g(X) : Ω → Rm definiert.
3. Aus den vorhergehenden beiden Punkten ergibt sich, dass, wenn X und Y
Zufallsvariablen sind, auch X + Y , XY und eX Zufallsvariablen sind.
4. Sei (Xi )i≥1 eine Folge von Zufallsvariablen Xi : Ω → R. Existiert supi≥1 Xi
in R, so ist supi≥1 Xi : Ω → R, gegeben durch
(supi≥1 Xi )(ω) := supi≥1 (Xi (ω)) ,
T
eine Zufallsvariable. Dies folgt, da {supi≥1 Xi ≤ x} = i≥1 {Xi ≤ x} für
jedes x ∈ R ein abzählbarer Durchschnitt von messbaren Mengen ist. Entsprechend zeigt man, dass, falls inf i≥1 Xi in R existiert, dies eine Zufallsvariable ist.
5. Sei wie vorher (Xi )i≥1 eine Folge von Zufallsvariablen. Existieren
lim supi→∞ Xi := inf j≥1 (supk≥j Xk ), bzw. lim inf i→∞ Xi := supj≥1 (inf k≥j Xk )
in R, so sind dies wegen vorhergehendem Punkt ebenfalls Zufallsvariablen.
6. Betrachte wiederum eine Folge (Xi )i≥1 von Zufallsvariablen. Existiert
limi→∞ Xi (ω) in R für alle ω, so haben wir insbesondere limi→∞ Xi (ω) =
lim supi→∞ Xi (ω), und so eine Zufallsvariable limi→∞ Xi .
Pj
P
Konvergiert die Summe ∞
i=1 Xi (ω) für alle ω, so ist
i=1 Xi (ω) := limj→∞
diese wiederum eine Zufallsvariable.
Kehren wir zurück zu Punkt 2 der obigen Liste: Wir betrachten eine Zufallsvariable X mit der Verteilung PX und eine messbare Funktion g : R → R. Was
können wir über die Verteilung Pg(X) der Zufallsvariablen g(X) aussagen?
Betrachten wir dazu zwei Beispiele.
Beispiel 0.2.3. Sei g : R → R bijektiv und steigend. Für die Verteilungsfunktion
Fg(X) gilt:
Fg(X) (x) := Pg(X) [(−∞, x]] = P[g(X) ≤ x]
= P[X ≤ g −1 (x)] = PX [(−∞, g(x)]]
= FX (g −1 (x))
für alle x ∈ R.
9
Beispiel 0.2.4. Aus dem vorhergehenden Beipiel erhalten wir einen wichtigen
Spezialfall. Seien dazu µ ∈ R und σ ∈ (0, ∞) gegeben. Betrachte eine Zufallsvariable X ∼ N (0, 1) und setze
Y := σX + µ .
Dann ist Y ∼ N (µ, σ 2 ).
Ist umgekehrt eine Zufallsvariable Y ∼ N (µ, σ 2 ) vorgegeben, so folgt
X :=
Y −µ
σ
der Standard-Normalverteilung N (0, 1).
Beispiel 0.2.5. Sei g : R → R gegeben durch x 7→ x2 . Dann gilt für x ∈ R
FX 2 (x) := PX 2 [(−∞, x]] = P[X 2 ≤ x]
√
√
√
√
= P[− x ≤ X ≤ x] = P[X ≤ x] − P[X < − x]
√
√
= FX ( x) − FX (− x−) .
Aus der Substitutionsregel der Differential- und Integralrechnung folgt:
Satz 0.2.6 (Dichtetransformation). Sei X eine Zufallvariable mit Dichte fX .
Sei g : R → R eine messbare Abbildung und Y := g(X).
Ist g im Wertebereich X(Ω) von X stetig differenzierbar mit strikt postiver Ableitung g 0 > 0, so ist die Dichte fY von Y gegeben durch
(
fX (g −1 (y))
für y ∈ g(X(Ω))
|g 0 (g −1 (y))|
fY (y) =
0
für y 6∈ g(X(Ω))
Die gleiche Aussage folgt, wenn vorausgesetzt wird, dass g eine strikt negative
Ableitung g 0 < 0 hat.
0.3
Bedingte Wahrscheinlichkeit
Definition 0.3.1. Seien A, B ∈ F Ereignisse mit P[A] > 0. Dann heisst
P[B|A] :=
P[A ∩ B]
P[A]
die bedingte Wahrscheinlichkeit von B gegeben das Ereignis A.
Aus der Definition lässt sich sofort schliessen:
1. Für festes A mit P[A] > 0 ist die Wahrscheinlichkeit P[B|A] für alle B ∈ F
definiert.
10
2. Offenbar gilt für jedes B ∈ F die Eigenschaft P[B|A] = P[A ∩ B|A].
3. Speziell haben wir P[A|A] = 1.
Satz 0.3.2. Sei das Ereignis A ∈ F mit P[A] > 0 fest gegeben. Dann ist PA :
F → R, definiert durch PA [B] := P[B|A] für B ∈ F, eine Wahrscheinlichkeit;
das heisst (Ω, F, PA ) ist ein Wahrscheinlichkeitsraum.
Satz 0.3.3 (Formel der totalen Wahrscheinlichkeit (FTW)). Sei (An )n≥1
eine Folge von Ereignissen aus F, die eine Partition von Ω bildet. Die Ereignisse
S
seien also paarweise disjunkt, und ∞
n=1 An = Ω.
Dann gilt für alle B ∈ F:
P[B] =
∞
X
P[B|An ]P[An ] ,
n=1
wobei P[B|An ]P[An ] := 0 gesetzt wird, falls P[An ] = 0.
Satz 0.3.4 (Bayes). Seien A, B ∈ F mit P[A] > 0 und P[B] > 0. Dann gilt:
P[B|A] =
P[A|B]P[B]
.
P[A]
Die in Satz 0.3.3 vorausgesetzte Partition der Menge Ω wird häufig in Verbindung
mit Zufallsvariablen definiert. Betrachte zunächst eine diskrete Zufallsvariable X.
Sei (xn )n≥1 eine Aufzählung ihres Wertebereichs. Dann ist durch (An )n≥1 , wobei
An := {X = xn } für alle n ∈ N, eine Partition von Ω definiert. Mit Satz 0.3.3
gilt demnach für alle Ereignisse B ∈ F:
P[B] =
∞
X
P[B|X = xn ]P[X = xn ] =
n=1
∞
X
P[B|X = xn ]PX [xn ] .
(0.3.1)
n=1
Diese Formel lässt sich aber nur im diskreten Fall verwenden.
Was aber haben wir, wenn die Verteilung X durch eine Dichte fX bestimmt ist?
Hier haben wir offenbar P[X = x] = 0 für alle x ∈ R, und P[B|X = x] ist nirgends
definiert.
Bemerkung 0.3.5. Sei X : Ω → R eine beliebige Zufallsvariable. Wir betrachten
ein fest gewähltes Ereignis B ∈ F. Es kann gezeigt werden, dass eine messbare
Funktion gB : R → [0, 1] existiert, die für alle A ∈ B(R) die Gleichung
Z
gB dPX = P[B ∩ {X ∈ A}]
(0.3.2)
A
erfüllt. Die Funktion gB ist dadurch ( PX -fast sicher) eindeutig bestimmt.
11
Wir definieren nun
P[B|X = ·] := gB (·) .
Setzen wir weiter in Gleichung (0.3.2) A := R ein, so erhalten wir
Z
P[B|X = x] dPX = P[B ∩ {X ∈ R}] = P[B ∩ Ω] = P[B] .
R
Ist die Verteilung PX über die Dichte fX gegeben ist, folgt nun mittels Transformation das stetige Analogon zu Gleichung (0.3.1):
Z
+∞
P[B|X = x]fX (x) dx .
P[B] =
(0.3.3)
−∞
0.4
Unabhängigkeit
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Unabhängigkeit von Ereignissen
Definition 0.4.1. Zwei Ereignisse A und B aus F heissen genau dann unabhängig, wenn sie der Gleichung
P[A ∩ B] = P[A]P[B]
(0.4.1)
genügen.
Drei Spezialfälle sind bemerkenswert:
1. Die Ereignisse A und B seien disjunkt. In diesem Fall sind A und B genau
dann unabhängig, wenn P[A] = 0 oder P[B] = 0 gilt.
2. Sei P[B] ∈ {0, 1}. Dann folgt aus der Definition, dass A und B stets unabhängig sind. Mit anderen Worten: Jedes Ereignis ist unabhängig von
einem fast sicheren oder fast unmöglichen Ereignis.
3. Sei A ⊂ B. In diesem Fall sind A und B genau dann unabhängig, wenn
P[A] = 0 oder P[B] = 1 gilt.
Erweitern wir nun die Definition der Unabhängigkeit auf eine beliebige Anzahl
von Ereignissen:
12
Definition 0.4.2. Sei N eine endliche oder abzählbar unendliche Indexmenge.
Seien (An )n∈N Ereignisse aus F. Setze A0n := Acn , A1n := An für alle n ∈ N.
Die Ereignisse (An )n∈N heissen unabhängig, wenn für jede endliche Teilmenge
M ⊂ N gilt
h\
i
Y
(0.4.2)
P
P[Aann ] für alle (an ) ∈ {0, 1}N .
Aann =
n∈M
n∈M
Wir bemerken zu dieser Definition:
1. Mittels vollständiger Induktion über |M | kann gezeigt werden, dass Gleichung (0.4.2) äquivalent ist zu
h\
i
Y
P
An =
P[An ] für alle endliche M ⊂ N .
(0.4.3)
n∈M
n∈M
Diese äquivalente Formulierung ist für den expliziten Nachweis der Unabhängigkeit der Ereignisse (An )n∈N offenbar besser geeignet als die Gleichung (0.4.2).
2. Mit dem vorhergehenden Punkt folgt weiter, dass die Definition 0.4.1 mit
der allgemeinen Definition 0.4.2 verträglich ist.
3. Seien die Ereignisse (An )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition 0.4.2 folgt sofort, dass auch die
Teilfamilie (An )n∈N 0 unabhängig ist.
Die Gleichungen (0.4.2), beziehungsweise (0.4.3) müssen für jede Teilmenge M ⊂
N verifiziert werden um Unabhängigkeit der Ereignisse (An )n∈N nachzuweisen.
Es ist nicht hinreichend die Gleichungen lediglich für M := N zu überprüfen.
Unabhängigkeit von Zufallsvariablen
Zum Begriff der Unabhängigkeit der Zufallsvariablen gelangen wir über die Unabhängigkeit von Ereignissen.
Definition 0.4.3. Sei N eine endliche oder abzählbar unendliche Indexmenge.
Sei (Xn )n∈N eine Folge von Zufallsvektoren mit Xn : Ω → Rkn . Die Zufallsvektoren heissen unabhängig, wenn für alle Bn ∈ B(Rkn ) die Ereignisse {Xn ∈ Bn },
n ∈ N , unabhängig sind, das heisst wenn für jede endliche Teilmenge M ⊂ N
und beliebige Ereignisse Bn ∈ B(Rkn ) gilt:
h\
i
Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ] .
(0.4.4)
n∈M
n∈M
13
Einige Bemerkungen zu dieser Definition:
1. Es kann gezeigt werden, dass eine Folge von Ereignissen (An )n∈N genau
dann unabhängig ist, wenn die entsprechenden Indikatorvariablen (I[An ])n∈N
unabhängig sind.
2. Seien die Zufallsvektoren (Xn )n∈N unabhängig. Sei weiter N 0 ⊂ N eine
Teilmenge der Indexmenge N . Aus Definition folgt, dass auch die Teilfamilie
(Xn )n∈N 0 unabhängig ist.
3. Sei N eine endliche Indexmenge. Gilt (0.4.4) für alle M ⊂ N , so ist insbesondere auch
h\
i Y
P
{Xn ∈ Bn } =
P[Xn ∈ Bn ]
(0.4.5)
n∈N
n∈N
für beliebige Bn ∈ B(Rkn ).
Ist (0.4.5) andererseits für alle Bn ∈ B(Rkn ) erfüllt, und M ⊂ N vorgegeben, so können wir Bn := Rkn für alle n ∈ N \M setzen, und erhalten
wegen P[Xn ∈ Rkn ] = 1 die Gleichung (0.4.4) zurück.
Im endlichen Fall genügt es daher für die Unabhängigkeit der Zufallsvariablen (Xn )n∈N die Gleichung (0.4.4) für M := N zu überprüfen.
4. Die Borelsche σ-Algebren B(Rkn ) wird erzeugt von kn -dimensionalen Intervallen der Form
(a, b] := (a1 , b1 ] × · · · × (akn , bkn ]
mit ai ∈ R ∪ {−∞}, bi ∈ R und ai < bi für alle 1 ≤ i ≤ kn .
Aus des Masstheorie folgt, dass es für die Unabhängigkeit der (Xn )n∈N
hinreichend ist, die Gleichung (0.4.4) nur für solche Intervalle nachzuprüfen,
also
h\
i
Y
P
{Xn ∈ (a, b]} =
P[Xn ∈ (a, b]] .
(0.4.6)
n∈M
n∈M
für alle kn -dimensionalen (a, b] zu verifizieren.
Ist die Unabhängigkeit endlich vieler diskreter Zufallsvariablen nachzuweisen, ist
das folgende Lemma hilfreich:
Lemma 0.4.4. Sei (Xn )1≤n≤m eine Familie diskreter Zufallsvariablen auf Ω,
wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind. Die Zufallsvariablen Xn sind genau dann unabhängig, wenn für alle in ∈ N mit n ∈ N
gilt:
m
h\m
i Y
P
{Xn = xnin } =
P[Xn = xnin ] .
(0.4.7)
n=1
n=1
14
Korollar 0.4.5. Sei (Xn )1≤n≤m eine Familie unabhängiger diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche
sind. Dann gilt, falls P[X1 = x1,i1 , . . . , Xn−1 = xn−1,i(n−1) ] > 0 erfüllt ist:
P[Xn = xnin | X1 = x1i1 , . . . , Xn−1 = xn−1,i(n−1) ] = P[Xn = xnin ] .
Eine 0.4.4 entsprechende Aussage für unabhängige Zufallsvariablen mit Dichten
kann mit Hilfe der Masstheorie ebenfalls bewiesen werden.
Bemerkung 0.4.6. Seien Xi : Ω → R Zufallsvariablen für alle 1 ≤ i ≤ n. Sei
weiter der Zufallsvektor X := (X1 , . . . , Xn ) : Ω → Rn gegeben. Dann gilt:
1. Sind die Xi unabhängig und haben die Dichten fXi , so hat X eine Wahrscheinlichkeitsdichte fX , gegeben durch
fX (x1 , . . . , xn ) := fX1 (x1 ) · · · fXn (xn ) .
2. Hat der Zufallsvektor X eine Dichte der Form fX := fX1 · · · fXn , so sind
die Xi unabhängig und besitzen die Dichten fXi .
Die nächsten zwei Sätze können in Kombination verwendet werden, um die Unabhängigkeit von Zufallsvariablen auf die Unabhängigkeit anderer Zufallsvariablen zurückzuführen.
Satz 0.4.7. Seien Xn , 1 ≤ n ≤ m, unabhängige Zufallsvariablen. Gegeben seien
weiter die Zufallsvektoren
Yij := (Xij +1 , Xij +2 , . . . , Xij+1 ) : Ω → Rij+1 −ij ,
wobei 1 ≤ j < q für ein festes q ≤ m, und 0 =: i1 < i2 < · · · < iq := m. Dann
sind die Zufallsvektoren (Yij )1≤j<q unabhängig.
Satz 0.4.8. Seien Xn : Ω → Rkn , 1 ≤ n ≤ m, unabhängige Zufallsvektoren.
Seien weiter messbare Abbildungen ϕn : Rkn → Rln für 1 ≤ n ≤ m gegeben. Dann
sind die Zufallsvektoren ϕn (Xn ) : Ω → Rln unabhängig.
Dieses nützliche Korollar, das im nächsten Abschnitt noch häufig angewendet
werden wird, folgt direkt aus den zwei vorhergehenden Sätzen:
Korollar 0.4.9. Seien Xn , 1 ≤ n ≤ m + 1, unabhängige Zufallsvariablen. Dann
P
sind die Zufallsvariablen Sm := m
n=1 Xn und Xm+1 unabhängig.
15
Summen unabhängiger Zufallsvariablen
Es soll nun die Frage nach der Verteilung der Summe unabhängiger Zufallsvariablen untersucht werden. Obwohl diese Frage für beliebige endliche Familien
unabhängiger Rk -wertiger Zufallsvariablen mittels der Faltung ihrer Verteilungen beantwortet werden kann, werden wir uns hier auf den Fall der diskreten
Zufallsvariablen und den Fall der R-wertigen Zufallsvariablen, deren Verteilungen durch Dichten gegeben sind, beschränken.
Satz 0.4.10 (Faltungsformel im diskreten Fall). Seien X, Y : Ω → Rk unabhängige diskrete Zufallsvektoren. Sei (xi )i≥1 eine Aufzählung des Wertebereichs
von X. Dann gilt für z ∈ Rk
P[X + Y = z] =
∞
X
P[X = xi ]P[Y = z − xi ] .
i=1
Satz 0.4.11 (Faltungsformel im stetigen Fall). Seien X, Y unabhängige Zufallsvariablen mit Dichten fX , resp. fY . Dann hat die Zufallsvariable X + Y eine
Dichte fX+Y , gegeben durch
Z +∞
fX+Y (z) =
fX (x)fY (z − x) dx
−∞
für z ∈ R.
0.5
Der Erwartungswert
Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P)
zugrundegelegt.
Definition 0.5.1. Sei X : Ω → R+ eine nicht-negative Zufallsvariable. Der
Erwartungwert von X wird definiert als
Z
E(X) :=
X dP ∈ R+ ∪ {∞} .
(0.5.1)
Ω
Ist X eine nicht-negative diskrete Zufallsvariable, so erhalten wir gerade
X
E(X) =
X(ω) P[{ω}] .
(0.5.2)
ω∈Ω
Aus (0.5.1) folgt mittels des Transformationssatzes für Masse
Z
E(X) =
x dPX ,
[0,∞)
16
(0.5.3)
beziehungsweise im diskreten Fall aus (0.5.2)
E(X) =
∞
X
xi P[X = xi ] ,
(0.5.4)
i=1
wobei (xi )i≥1 eine Abzählung des Wertebereichs von X ist.
Ist die Verteilung PX von X durch eine Dichte fX bestimmt, so folgt aus (0.5.3)
mit dem Transformationssatz für Masse mit Dichten weiter
Z ∞
xfX (x) dx .
(0.5.5)
E(X) =
0
Lemma 0.5.2. Der Erwartungswert von X ≥ 0 kann auch in der Form
Z ∞
Z ∞
E(X) =
P[X > x] dx =
(1 − FX (x)) dx
0
0
geschrieben werden. Hierbei bezeichnet FX die Verteilungsfunktion von X. Für
ganzzahlwertiges X gilt also
X
X
E(X) =
P[X > j] =
P[X ≥ j].
j≥0
j≥1
Also gelten im Allgemeinen die folgenden Abschätzungen:
X
X
P[X ≥ n] ≤ E(X) ≤ 1 +
P[X ≥ n]
n≥1
(0.5.6)
n≥1
Bisher wurden lediglich nicht-negative Zufallsvariablen und deren Erwartungswerte betrachtet. Die Definition des Erwartungswerts für eine beliebige reellwertige Zufallsvariablen wird zurückgeführt auf die Definition für nicht-negative
Zufallsvariablen. Man definiert für eine Zufallsvariable X
X + := max(X, 0) und X − := min(X, 0) .
Sowohl X + als auch X − sind Zufallsvariablen. Offenbar ist X + ≥ 0, X − ≤ 0,
X = X + + X − und |X| = X + − X − .
Definition 0.5.3. Sei X eine reelle Zufallsvariable. Wir sagen der Erwartungswert von X existiert, wenn E(X + ) < ∞ oder E(−X − ) < ∞ gilt.
In einem solchen Fall wird der Erwartungswert von X definiert durch
E(X) := E(X + ) − E(−X − ) ∈ R ∪ {±∞} .
17
Die Existenz des Erwartungswerts gemäss Definition 0.5.3 besagt, dass dieser als
Wert in R ∪ {±∞} gegeben ist.
Eine hinreichende Bedingung für die Existenz des Erwartungswerts von X ist
E(|X|) < ∞ .
Denn es gilt 0 ≤ X + ≤ |X| und 0 ≤ −X − ≤ |X| und somit folgt mit Definition 0.5.1 wegen der Monotonie des Integrals
E(X + ) ≤ E(|X|) < ∞ und E(−X − ) ≤ E(|X|) < ∞ .
Die Bedingung ist also äquivalent zur Intergrierbarkeit von X. Es gilt dann
Z
E(X) =
X dP .
Ω
Der Erwartungswert ist hier als Zahl in R gegeben.
Mittels Transformationen erhalten wir die (0.5.2) bis (0.5.5) entsprechenden Gleichungen im allgemeinen Fall. Also beispielsweise
Z +∞
E(X) =
xfX (x) dx ,
(0.5.7)
−∞
wenn die Verteilung von X durch eine Dichte fX festgelegt ist.
Wir werden im folgenden, wenn nicht anders erwähnt, stets E(|X|) < ∞ als
Bedingung voraussetzen.
Bemerkung 0.5.4. Ist eine Zufallsvariable X : Ω → R und eine messbare Funktion ϕ : R → R gegeben, so folgt aus dem Transformationssatz, dass der Erwartungswert von ϕ(X) genau dann existiert, wenn die Funktion ϕ PX -integrierbar
ist, und dass in diesem Fall gilt
Z
Z
E(ϕ(X)) =
ϕ(X) dP =
ϕ dPX .
(0.5.8)
Ω
R
Im diskreten Fall haben wir so gerade
E(ϕ(X)) =
∞
X
ϕ(xi )P[X = xi ] .
i=1
Ist die Verteilung von X durch eine Dichte fX gegeben, so erhält man aus (0.5.8)
durch eine weitere Transformation
Z +∞
E(ϕ(X)) =
ϕ(x)fX (x) dx .
(0.5.9)
−∞
18
Satz 0.5.5 (Eigenschaften des Erwartungswerts). Seien X und Y Zufallsvariablen mit E(|X|) < ∞, beziehungsweise E(|Y |) < ∞. Sei weiter c ∈ R eine
Konstante. Dann gilt:
i) Ist X ≥ 0 P-fast sicher, so gilt E(X) ≥ 0.
ii) E(cX) = c E(X), insb. E(c) = c.
iii) E(X + Y ) = E(X) + E(Y ).
iv) Ist X ≥ Y P-fast sicher, so folgt E(X) ≥ E(Y ).
v) |E(X)| ≤ E(|X|).
vi) Sind X und Y unabhängig, so gilt E(|XY |) < ∞ und weiter E(XY ) =
E(X)E(Y ).
Beweis: Die Aussagen i) bis iii) folgen aus der Definition des Erwartungswerts
als Integral bezüglich des Wahrscheinlichkeitsmasses P. Sie gelten ebenfalls für
allgemeine nichtnegative Zufallsvariablen X, Y .
Die Aussage iv) kann auf i) zurückgeführt werden: Es gilt X − Y ≥ 0 P-fast
sicher, und daher E(X − Y ) ≥ 0. Danach schliesst man mit iii).
Die Aussage v) folgt aus iv).
Die Aussage vi) folgt wegen des Fubini-Tonelli-Satzes, da die gemeinsame Verteilung von (X, Y ) eine Produktverteilung ist.
2
Satz 0.5.6.
1. Seien (Xi , i ≥ 1) nichtnegative Zufallsvariablen. Dann gilt
(
)
X
X
E
Xi =
E(Xi ) ≤ ∞.
i≥1
i≥1
2. Seien (Xi , i ≥ 1) Zufallsvariablen sodass
E
(
X
P
i≥1
E|Xi | < ∞. Dann gilt
)
Xi
i≥1
=
X
E(Xi ),
i≥1
und die Summe ist endlich.
Beweis: Masstheorie: Die erste Aussage folgt aus dem Satz der monotonen Konvergenz, die zweite aus dem Lebesgue-Satz.
2
19
Satz 0.5.7 (Jensen-Ungleichung). Sei X : Ω → R eine Zufallsvariable mit
E(|X|) < ∞. Sei f : R → R eine konvexe Funktion. Dann ist f (X) eine Zufallsvariable. Existiert der Erwartungswert von f (X), so gilt
f (E(X)) ≤ E(f (X)) .
Beweis: Es gilt für alle x, a ∈ R
f (x) ≥ f (a) + (x − a)f+0 (a) ,
wobei f+0 (a) die rechtsseitige Ableitung von f in a bezeichnet. Ersetzt man x
durch X und bildet den Erwartungswert, so folgt die Behauptung mit a := E(X).
2
Einen wichtigen Spezialfall der Jensenschen Ungleichung erhält man für f (x) :=
x2 :
E(X 2 ) = E(|X|2 ) ≥ (E|X|)2 .
Existiert also der Erwartungswert von X 2 als endlicher Wert, so gilt dasselbe für
den Erwartungswert von X.
Mit Hilfe der Jensen-Ungleichung kann gezeigt werden, dass E(|X|p ) ≥ (E|X|)p
für eine Zufallsvariable X und p ≥ 1, sodass die Funktion g : [1, ∞) → [0, ∞],
definiert durch
g(r) := (E|X|r )1/r ,
monoton wachsend ist. Sind insbesondere m, n ∈ N mit m < n, so folgt aus
E(|X|n ) < ∞ auch E(|X|m ) < ∞.
Satz 0.5.8 (Cauchy-Schwarz-Ungleichung). Seien X und Y Zufallsvariablen
auf Ω mit E(X 2 ) < ∞ und E(Y 2 ) < ∞. Dann gilt E(|XY |) < ∞ und weiter
{E(XY )}2 ≤ E(X 2 )E(Y 2 ) .
Beweis: Im wesentlichen wie folgt: für jedes a ∈ IR gilt
E(X 2 ) − 2a E(XY ) + a2 E(Y 2 )
= E(X 2 − 2aXY + a2 Y 2 ) = E((X − aY )2 ) ≥ 0 ;
dann setzt man
a :=
E(XY )
.
E(Y 2 )
(0.5.10)
2
Bemerkung 0.5.9. In der Cauchy-Schwarz-Ungleichung gilt genau dann Gleichheit, wenn X und Y P-fast sicher linear abhängig sind, nämlich X = aY für
ein a ∈ IR.
20
Varianz, Kovarianz und Korrelation
Definition 0.5.10. Sei X eine Zufallsvariable mit existierendem Erwartungswert. Dann heisst
Var (X) := E{(X − E(X))2 } ∈ [0, ∞]
die Varianz von X. Weiter nennt man
SA(X) :=
p
Var (X)
die Standardabweichung von X.
Die Varianz von X ist genau dann endlich, wenn E(X 2 ) < ∞.
Satz 0.5.11 (Eigenschaften der Varianz und Standardabweichung). Sei
X eine Zufallsvariable mit E(X 2 ) < ∞ und c ∈ R eine Konstante. Dann gilt:
i) Var (X) = E(X 2 ) − E(X)2 ;
iii) Var (X + c) = Var (X);
v) SA(cX) = c SA(X);
ii) SA(X) ≥ E(|X − E(X)|);
iv) Var (cX) = c2 Var (X);
vi) Var (X) ≤ E((X − c)2 ).
Beweis: Die Aussagen ergeben sich aus den Eigenschaften des Erwartungswerts,
insbesondere aus Satz 0.5.5.
2
Definition 0.5.12. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞. Die Kovarianz von X und Y wird durch
Kov(X, Y ) := E((X − E(X))(Y − E(Y )))
gegeben. Gilt Kov(X, Y ) = 0, so heissen die beiden Zufallsvariablen unkorreliert.
Satz 0.5.13 (Eigenschaften der Kovarianz). Seien X, Y und Xi , 1 ≤ i ≤ n,
Zufallsvariablen deren Quadrate endiche Erwartungswerte haben. Seien c, d ∈ R
Konstanten. Dann gilt:
i) Kov(X, X) = Var (X)
ii) Kov(X, Y ) = E(XY ) − E(X)E(Y )
iii) Die Kovarianz ist wie folgt skalenabhängig: Kov(cX, dY ) = cd Kov(X, Y )
P
P
P
iv) Var ( ni=1 Xi ) = ni=1 Var (Xi ) + 2 j<k Kov(Xj , Xk )
v) Sind X und Y unabhängig, so auch Kov(X, Y ) = 0.
21
Definition 0.5.14. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp.
E(Y 2 ) < ∞ und Var (X) > 0, Var (Y ) > 0. Dann heisst die Zahl
Korr(X, Y ) :=
Kov(X, Y )
SA(X) SA(Y )
die Korrelationvon X und Y .
Satz 0.5.15 (Eigenschaften der Korrelation).
i) Die Korrelation ist skalenunabhängig: Korr(cX, dY ) = Korr(X, Y ).
ii) | Korr(X, Y )| ≤ 1.
iii) Die Korrelation kann als Mass für die lineare Abhängigkeit zweier Zufallsvariablen verstanden werden: Korr(X, Y ) = 1 gilt genau dann, wenn es
ein a > 0 und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt;
Korr(X, Y ) = −1 genau dann, wenn es ein a < 0 und ein b ∈ R gibt, so
dass P-fast sicher Y = aX + b gilt.
Wir sehen aus Aussage ii) von Satz 0.5.13, dass die Zufallsvariablen X und Y
genau dann unkorreliert sind, wenn E(XY ) = E(X)E(Y ) gilt. Nach Satz 0.5.5
sind also unabhängige Zufallsvariablen auch unkorreliert, sofern die Korrelation
definiert werden kann. Die Umkehrung gilt nicht.
Satz 0.5.16 (Bienaymé). Seien Xi , 1 ≤ i ≤ n, Zufallsvariablen, deren Quadrate endliche Erwartungswerte haben. Sind die Zufallvariablen paarweise unkorreliert, so gilt
n
X n
X
Var
Xi =
Var (Xi ) .
i=1
0.6
i=1
Die Bienaymé-Chebyshev-Ungleichung und
Anwendungen
Satz 0.6.1 (Markov-Ungleichung). Sei X : Ω → R+ eine nicht-negative
Zufallsvariable mit existierendem Erwartungswert und c > 0 eine Konstante.
Dann gilt die Ungleichung
P[X ≥ c] ≤
E(X)
.
c
Satz 0.6.2 (Bienaymé-Chebyshev-Ungleichung). Sei Y : Ω → R eine Zufallsvariable mit E(Y 2 ) < ∞ und d > 0 eine Konstante. Dann gilt die Ungleichung
P[|Y − E(Y )| ≥ d] ≤
22
Var (Y )
.
d2
Bemerkung 0.6.3. Setzen wir im vorhergehenden Satz d := k SA(Y ) für ein
k ∈ N, so erhalten wir die praktische Abschätzung
P[|Y − E(Y )| ≥ k SA(Y )] ≤
Var (Y )
1
= 2 .
2
SA(Y )
k
k2
Offenbar erhält man erst für k ≥ 2 nützliche Information.
Schwache Konsistenz des Stichprobenmittelwerts und der
Stichprobenvarianz
Definition 0.6.4. Sei (Xi )i≥1 eine Folge von reellwertigen Zufallsvariablen auf Ω.
Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xi )i≥1 konvergiere in
Wahrscheinlichkeit gegen X, Xn →p X, wenn für alle ε > 0 gilt:
lim P[|Xn − X| ≥ ε] = 0 .
n→∞
Lemma 0.6.5. Falls Xn →p X und Yn → Y folgt auch Xn + Yn →p X + Y und
Xn Yn → XY .
Satz 0.6.6. Sei (Xi )i≥1 eine Folge paarweise unkorrelierter, reeller Zufallsvariablen mit beschränkten Varianzen Var (Xi ) ≤ A, für ein A > 0. Dann gilt für alle
ε > 0:
h
i
−1 Xn
lim P n
(Xi − E(Xi )) ≥ ε = 0 .
i=1
n→∞
Beweis: Die Bienaymé-Chebyshev-Ungleichung.
2
Definition 0.6.7. Seien Xi : Ω → R, 1 ≤ i ≤ n, unabhängige, identisch verteilte Zufallsvariablen. Eine Realisierung (x1 , . . . , xn ) := (X1 (ω), . . . , Xn (ω)) ∈ Rn
heisst eine Stichprobe vom Umfang n. Die Zahl
n
µ̂ := x̄(n) :=
1X
xi
n i=1
wird der Stichprobenmittelwert genannt. Der Wert
n
σ̂ 2 :=
2
1X
xi − x̄(n)
n i=1
P
heisst Stichprobenvarianz. Die entsprechenden Zufallsvariablen X̄ (n) := n−1 ni=1 Xi
P
und n−1 ni=1 (Xi − X̄ (n) )2 werden ebenfalls als Stichprobenmittelwert, beziehungsweise Stichprobenvarianz bezeichnet.
23
Definition 0.6.8. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen.
P
Sei E(|X1 |) < ∞. Der Stichprobenmittelwert n−1 ni=1 Xi heisst schwach konsiP
stent für den Erwartungswert E(X1 ), wenn n−1 ni=1 Xi mit n → ∞ in Wahrscheinlichkeit gegen E(X1 ) konvergiert.
Sei nun sogar E(X12 ) < ∞. Entsprechend nennt
Pn man die Stichprobenvarianz
(n) 2
−1
) mit n → ∞
schwach konsistent für die Varianz, wenn n
i=1 (Xi − X̄
in Wahrscheinlichkeit gegen Var (X1 ) konvergiert.
Der folgende Satz gibt eine hinreichende Bedingung an die schwache Konsistenz
des Stichprobenmittelwertes. Der Satz wird manchmal auch Schwaches Gesetz der
grossen Zahlen genannt. Das entsprechende Starke Gesetz der grossen Zahlen ist
Thema von Kapitel 1.
Satz 0.6.9. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit endlicher Varianz Var (X1 ). Dann gilt für alle ε > 0
lim P X̄ (n) − E(X1 ) ≥ ε = 0 .
n→∞
Der Stichprobenmittelwert ist also schwach konsistent für den Erwartungswert,
falls die Varianz endlich ist.
Beweis: Der Satz ist eine direkte Folgerung aus Satz 0.6.6, wenn A := Var (X1 )
gesetzt wird.
2
Korollar 0.6.10. Sei (Ai )i≥1 eine Folge unabhängiger Ereignisse mit P[Ai ] = p
für alle i ≥ 1. Dann gilt für alle ε > 0
h
i
Xn
lim P n−1
I[Ai ] − p ≥ ε = 0 .
i=1
n→∞
Satz 0.6.11. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller
Zufallsvariablen mit E(X14 ) < ∞. Dann gilt für alle ε > 0
h
i
−1 Xn
(n) 2
lim P n
Xi − X̄
− Var (X1 ) ≥ ε = 0 .
n→∞
i=1
Unter der Voraussetzung E(X14 ) < ∞ ist die Stichprobenvarianz also schwach
konsistent für die Varianz.
0.7
Bedingter Erwartungswert
In diesem Abschnitt werden wir den bedingten Erwartungswert einer Zufallvariablen X über einem Wahrscheinlichkeitsraum (Ω, F, P) einführen. Dabei werden
drei Fälle des bedingten Erwartungswerts betrachten:
24
1. den bedingten Erwartungswert von X bei gegebenem Ereignis B aus F,
2. den bedingten Erwartungswert von X bei einer gegebener diskreter Zufallsvariable Y ,
3. und den bedingten Erwartungswert von X bei beliebiger vorgegebener Zufallsvariable Y .
Dies sind drei Spezialfälle des allgemeinen Begriffs des bedingten Erwartungswerts einer Zufallsvariablen bei gegebener Unter-σ-Algebra von F. In dieser Allgemeinheit wird der Begriff hier jedoch nicht benötigt.
Definition 0.7.1. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Sei B ∈ F
ein Ereignis mit P[B] > 0. Dann heisst
E(X|B) :=
E(X I[B])
P[B]
der bedingte Erwartungswert von X bei gegebenem Ereignis B.
Der bedingte Erwartungswert von X gegeben B ∈ F ist genau der Erwartungswert von X bezüglich der in Satz 0.3.2 betrachteten bedingten Wahrscheinlichkeit
PB [·] := P[·|B]:
Z
Z
1
X dPB .
X dP =
E(X|B) =
P[B] B
Ω
Wird umgekehrt X := I[A] für ein Ereignis A ∈ F gesetzt, so erhält man aus
obiger Definition 0.7.1 gerade die Definition 0.3.1 der bedingten Wahrscheinlichkeit. Entsprechend wir auch die Formel der totalen Wahrscheinlichkeit, Satz 0.3.3,
verallgemeinert:
Satz 0.7.2 (Formel des totalen Erwartungswerts (FTE)). Sei (Bi )i≥1 eine Folge von Ereignissen aus F, die eine Partition von Ω bildet. Sei X eine
Zufallsvariable auf Ω mit E(|X|) < ∞. Dann gilt:
E(X) =
∞
X
E(X|Bi )P[Bi ] ,
i=1
wobei E(X|Bi )P[Bi ] := 0 gesetzt wird, falls P[Bi ] = 0.
P
Beweis: Wegen X = i≥1 XI[Bi ], Satz 0.5.6 und Definition 0.7.1.
2
Wir definieren nun den Erwartungswert der Zufallsvariablen X, bedingt durch
eine gegebene Zufallsvariable Y : Ω → Rn .
25
Dazu betrachten wir zunächst den Fall, dass Y diskret ist. Sei Y (Ω) der Wertebereich von Y , in dem Sinne, dass P[Y = y] > 0 für jedes y ∈ Y (Ω) gelte. Der bedingte Erwartungswert E(X|Y = y) von X bei gegebenem Ereignis {Y = y} ∈ F
ist gemäss Definition 0.7.1 bestimmt. Durch
E(X|Y = ·)(y) := E(X|Y = y) :=
E(XI[Y = y])
,
P[Y = y]
für alle y ∈ Y (Ω), wird daher eine eindeutig bestimmte messbare Abbildung
E(X|Y = ·) : Y (Ω) → R
definiert. Weiter ist durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) ,
für ω ∈ Ω, eine Abbildung auf Ω gegeben. Diese ist als Komposition zweier
messbarer Abbildungen messbar. Fassen wir diese Konstruktion in einer Definition zusammen:
Definition 0.7.3. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und
Y : Ω → Rn eine diskrete Zufallsvariable. Der bedingte Erwartungswert von X
bei gegebener Zufallsvariablen Y ist die eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Ist Y (Ω) = {y1 , y2 , . . .} eine Aufzählung des Wertebereichs von Y , so erhalten
wir aus Satz 0.7.2 die Formel des totalen Erwartungswerts sofort in der speziellen
Form
∞
X
E(X) =
E(X|Y = yi )P[Y = yi ] .
(0.7.1)
i=1
Formt man die rechte Seite von (0.7.1) noch weiter um, erhält man
X
E(X) =
(E(X|Y = ·) ◦ Y ) (ω)P[{ω}]
ω∈Ω
=
X
E(X|Y )(ω)P[{ω}]
ω∈Ω
= E(E(X|Y )) .
Wir betrachten jetz den Fall, dass Y : Ω → Rn eine beliebige Zufallsvariable
ist. Hier können wir den Begriff des bedingten Erwartungswerts nicht mehr wie
im diskreten Fall auf Definition 0.7.1 zurückführen, da, wenn beispielsweise die
Verteilung von Y durch eine Dichte gegeben ist, P[Y = y] = 0 für jedes y ∈ Y (Ω)
gelten kann.
26
Bemerkung 0.7.4. Sei Y : Ω → Rn eine Zufallsvariable. Es kann bewiesen
werden, dass eine messbare, PY -integrierbare Funktion g : Rn → R mit
Z
Z
g dPY =
X dP
(0.7.2)
B
Y −1 (B)
für alle B ∈ B(Rn ) existiert. Die Funktion g ist durch diese Bedingung PY -fast
sicher eindeutig bestimmt.
In Analogie zum diskreten Fall setzen wir, für ein beliebiges g, das Bemerkung (0.7.4) erfüllt,
E(X|Y = ·)(y) := E(X|Y = y) := g(y)
für alle y ∈ Y (Ω), und
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y )(ω)
(0.7.3)
für alle ω ∈ Ω. Auf diese Weise wird eine P-fast sicher eindeutige Zufallsvariable
E(X|Y ) : Ω → R
bestimmt. Man definiert jetzt:
Definition 0.7.5. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und
Y : Ω → Rn beliebige Zufallsvariable. Der bedingte Erwartungswert von X bei
gegebener Zufallsvariablen Y ist die P-fast sicher eindeutig bestimmte Zufallsvariable
E(X|Y ) : Ω → R ,
definiert durch
E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) .
Die linke Seite der Gleichung (0.7.2), die g und damit E(X|Y ) fast sicher eindeutig bestimmt, kann nun mit Hilfe des Transformationssatzes der Masstheorie
umformuliert werden:
Z
Z
Z
g dPY =
g ◦ Y dP =
E(X|Y ) dP = E(E(X|Y )I[Y ∈ B]) ,
B
Y −1 (B)
Y −1 (B)
und Gleichung (0.7.2) kann daher in einer äquivalenten Form geschrieben werden
als
E(E(X|Y )I[Y ∈ B]) = E(XI[Y ∈ B]) .
(0.7.4)
Mit B := Rn folgt dann sofort
E(E(X|Y )) = E(X) .
27
(0.7.5)
Ist Y : Ω → R durch eine Dichte fY definiert, so erhält man ein stetiges Analogon
zu (0.7.1), denn (0.7.2) lässt sich mit B := R transformieren zu
Z
+∞
Z
E(X|Y = y)fY (y) dy =
−∞
Z
g dPY =
R
X dP = E(X) .
Ω
Ist Z : Ω → Rm eine weitere Zufallsvariable, so definieren wir den bedingten
Erwartungswert von X gegeben Y und Z durch
E(X|Y, Z) := E(X|(Y, Z)) .
wobei (Y, Z) : Ω → Rm+n . Es gilt hier P-fast sicher
E(X|(Y, Z)) = E(X|(Z, Y )) .
(0.7.6)
Genauso lässt sich der bedingte Erwartungswert von X gegeben Zufallsvariablen
Y1 , . . . , Yk durch
E(X|Y1 , . . . , Yk ) := E(X|(Y1 , . . . , Yk ))
definieren.
Da die bedingten Erwartungswerte nur P-fast sicher eindeutig bestimmt sind,
gelten Gleichungen, wie sie im nächsten Satz auftauchen ebenfalls nur P-fast
sicher. Dies wird im folgenden jedoch nicht mehr immer explizit erwähnt.
Satz 0.7.6 (Eigenschaften des bedingten Erwartungswerts).
Seien X : Ω → R und Y : Ω → Rn Zufallsgrössen, wobei E(|X|) < ∞.
i) Gibt es eine messbare Funktion f : Rn → R mit X = f (Y ), so gilt
E(X|Y ) = X. Insbesondere ist E(X|X) = X.
ii) Sind X und Y unabhängig, so ist E(X|Y ) = E(X).
iii) Ist h : Rn → R eine messbare, beschränkte Funktion, so gilt E(h(Y )E(X|Y )) =
E(h(Y )X).
iv) Ist h : Rn → R eine messbare Funktion und gilt E(|h(Y )X|) < ∞, so ist
E(h(Y )X|Y ) = h(Y )E(X|Y ).
v) Ist Z : Ω → Rm ein weiterer Zufallsvektor, so haben wir E(X|Y ) =
E(E(X|Y, Z)|Y ).
vi) Ist c ∈ R konstant und W : Ω → R eine Zufallsvariable mit E(|W |) < ∞,
so folgt E(X + cW |Y ) = E(X|Y ) + c E(W |Y ).
28
Beweis: (i) folgt aus (0.7.2) mit g(y) = f (y). Für (ii) nimmt man g(y) = EX für
alle y in (0.7.2), und merkt, dass die rechte Seite als E{X I[Y ∈ B]} geschrieben
werden kann, wobei die Unabhängigkeit jetzt den Beweis abschliesst.
Zu
mit h beschränkt, approximiert man h durch einfache Funktionen hn (·) :=
Pm(iii),
n
i=1 hni I[· ∈ Bni ], sodass supy |hn (y)−h(y)| ≤ 1/n. Die Definition (0.7.2) bringt
also
mn
X
E{Xhn (Y )} =
hni E{g(Y )I[Y ∈ Bni ]} = E{g(Y )hn (Y )};
i=1
danach lässt man n → ∞ streben (und E|X| < ∞ einbeziehen).
Zu (iv) hat man, für h beschränkt,
E{E(Xh(Y ) | Y ) I[Y ∈ B]} = E{Xh(Y )I[Y ∈ B]} = E{E(X | Y )h(Y )I[Y ∈ B]},
wobie die erste Gleichung aus der Definition (0.7.2) und die zweite aus Teil (iii)
folgen. Für allgemeines h approximiert man durch einfache Funktionen wieder,
nur jetzt mit unendlichen Summen überall:
X
Bni := h−1 ([(i − 1)/n, i/n)), hn+ (y) =
(i/n) I[y ∈ Bni ],
i
usw. Da E|Xh(Y )| < ∞ gilt, hat man mit Hilfe vom Satz 0.5.6
E{Xhn+ (Y )} = · · · = E{g(Y )hn+ (Y )}.
Dann hat man
|E{Xh(Y )} − E{Xhn+ (Y )}| ≤ n−1 E|X|;
|E{g(Y )h(Y )} − E{g(Y )hn+ (Y )}| ≤ n−1 E|g(Y )|.
Jetzt haben wir g(Y ) = E(X | Y ), und die Jensen–Ungleichung kann ebenfalls für
bedingte Erwartungen bewiesen werden, sodass |g(Y )| = |E(X | Y )| ≤ E(|X| | Y )
gilt: also gilt E|g(Y )| ≤ E|X| ebenfalls.
Zu (v): da I[Y ∈ B] = I[(Y, Z) ∈ B × IR] folgt
n o
E E E(X | Y, Z) Y I[Y ∈ B]
= E{E(X | Y, Z) I[Y ∈ B]}
= E{XI[(Y, Z) ∈ B × IR]}
= E{XI[Y ∈ B]}
= E{E(X | Y )I[Y ∈ B]}.
Daraus folgt (aus
der Definition des bedingten Erwartungs der Eindeutigkeit
werts), dass E E(X | Y, Z) Y = E(X | Y ), wie erwünscht.
Teil (vi) folgt einfach aus der Definition (0.7.2).
2
29
Martingale und die Ungleichung von Lévy-Kolmogorov
Definition 0.7.7. Sei (Xi )i≥0 eine Folge reell-wertiger Zufallsvariablen auf Ω
mit E(|Xi |) < ∞ für alle i ≥ 0. Die Folge (Xi )i≥0 heisst ein Martingal, wenn für
jedes i ≥ 0 gilt:
E(Xi+1 |X0 , X1 , . . . , Xi ) = Xi .
Sei (Yj )j≥0 eine Folge beliebiger Zufallsvariablen. Die Folge (Xi )i≥0 heisst ein
Martingal bezüglich (Yj )j≥0 falls Xi ∈ σ(Y0 , . . . , Yi ) für alle i, und wenn
E(Xi+1 |Y0 , Y1 , Y2 , . . . , Yi ) = Xi
für alle i ≥ 0 gilt.
Seien dieselben Voraussetzungen wie in Definition 0.7.7 gegeben. Dann gilt für
jedes i ≥ 0 und alle j ≤ i die Gleichung
E(Xj |X0 , X1 , . . . , Xi ) = Xj ,
denn die Projektion hj : Ri+1 → R auf die j-te Koordinate von Ri+1 ist messbar
und es gilt Xj = hj (X0 , X1 , . . . , Xi ). Die Behauptung ergibt sich jetzt mit Satz
0.7.6 i).
Die Folge (Xi )i≥0 ist wegen der Linearität des bedingten Erwartungswerts also
genau dann ein Martingal, wenn
E(Xi+1 − Xi |X0 , X1 , . . . , Xi ) = 0
gilt.
Lemma 0.7.8. Ist (Xi )i≥0 ein Martingal, so gilt P-fast sicher
E(Xi+k |X0 , X1 , . . . , Xi ) = Xi
für alle i ≥ 0 und k ≥ 1.
Beweis: Vollständige Induktion bez. k unter Verwendung von Satz 0.7.6 v), wobei k = 1 die Definition eines Martingals ist.
2
Beispiel 0.7.9. Sei (Xi )i≥0 eine Folge unabhängiger Zufallsvariablen auf Ω mit
E(Xi ) = 0 für alle i ≥ 0. Dann ist die Summenfolge (Sn )n≥0 ein Martingal, denn
wir haben wegen Satz 0.7.6 vi), i) und ii)
E(Sn+1 |S0 , . . . , Sn ) = E(Sn |S0 , . . . , Sn ) + E(Xn+1 |S0 , . . . , Sn )
= Sn + E(Xn+1 ) = Sn .
30
Die Folge (Sn )n≥0 ist auch ein Martingal in Bezug auf (Xi )i≥0 , denn mit denselben
Argumenten wie bei der oberen Rechnung folgt
E(Sn+1 |X0 , . . . , Xn ) = E(Sn |X0 , . . . , Xn ) + E(Xn+1 |X0 , . . . , Xn )
= Sn + E(Xn+1 ) = Sn .
Zufallsvariablen Xi : Ω → {−1, 1} mit P[X = 1] = P[X = −1] = 1/2 oder
Zufallsvariablen Xi ∼ N (0, σ 2 ) erfüllen die gewünschten Bedingungen besipielsweise.
Satz 0.7.10 (Ungleichung von Lévy-Kolmogorov). Sei (Xi )i≥0 ein Martingal, mit Var (Xi ) < ∞ für alle i ≥ 0. Sei weiter P[X0 = 0] = 1. Sei a > 0 fest
gegeben. Dann gilt für alle n ∈ N:
P [max1≤i≤n |Xi | ≥ a] ≤
Var (Xn )
.
a2
Beweis: Wir setzen
Aj := {ω ∈ Ω | |Xi (ω)| < a für 0 ≤ i < j und |Xj (ω)| ≥ a},
sodass
I [max1≤i≤n |Xi | ≥ a] =
n
X
I[Aj ].
j=1
Dann merken wir, dass
E(Xn2 I[Aj ]) = E((Xj + (Xn − Xj ))2 I[Aj ])
= E(Xj2 I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) + E((Xn − Xj )2 I[Aj ])
≥ a2 E(I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj ))
= a2 P[Aj ] + 2E(Xj I[Aj ](Xn − Xj )) .
Da
E(Xj I[Aj ](Xn − Xj )) = 0
(0.7.7)
wegen der Martingaleigenschaft, folgt
EXn2
≥
n
X
E(Xn2 I[Aj ]) ≥ a2 P [max1≤i≤n |Xi | ≥ a] ,
j=1
2
wie gewünscht.
Bemerkung 0.7.11. Aus der Lévy-Kolmogorov-Ungleichung erhält man auch
die Bienaymé-Chebyshev-Ungleichung.
31
Bemerkung 0.7.12. Ganz ähnlich hat man
2
E(Xn+i
) = E{(Xn+i − Xn )2 } + E(Xn2 ).
Also existiert σ 2 := limn→∞ E(Xn2 ) ≤ ∞. Dann, für
BnI (a) := {max1≤i≤I |Xn+i − Xn | ≥ a},
folgt vom Satz 0.7.10 und mit dem Martingal (Xn+i − Xn , i ≥ 0), dass
2
) − E(Xn2 )} ≤ a−2 {σ 2 − E(Xn2 )}.
P[BnI (a)] ≤ a−2 {E(Xn+I
Mit I → ∞ folgt
BnI (a) ↑ Bn (a) := {supi≥1 |Xn+i − Xn | ≥ a},
sodass P[Bn (a)] ≤ a−2 {σ 2 − E(Xn2 )} ebenfalls. Dann, falls σ 2 < ∞, haben wir
lim P[Bn (a)] = 0 für alle a > 0.
n→∞
32
(0.7.8)
Kapitel 1
Das starke Gesetz der grossen
Zahlen
1.1
Die Lemmata von Borel-Cantelli
Wir legen den folgenden Ausführungen wie immer einen Wahrscheinlichkeitsraum
(Ω, F, P) zugrunde.
Definition 1.1.1. Sei (An )n≥1 eine Folge von Ereignissen in F. Dann heisst das
Ereignis
\[
lim supn An := lim sup An :=
Ar ∈ F
n→∞
n≥1 r≥n
der Limes superior, und
lim inf n An := lim inf An :=
n→∞
[\
Ar ∈ F
n≥1 r≥n
der Limes inferior der Ereignisse (An )n≥1 .
Zwischen dem Limes superior und Limes inferior gelten die Beziehungen
(lim supn An )c = lim inf n Acn
(1.1.1)
und
lim inf n An ⊂ lim supn An .
Sowohl der Limes superior als auch der Limes inferior lassen sich anschaulich
interpretieren. Betrachten wir dazu ein beliebiges Element ω ∈ Ω. Dann gilt
[
ω ∈ lim supn An ⇔ ω ∈
Ar für alle n ≥ 1
r≥n
⇔ für alle n ≥ 1 existiert ein r ≥ n mit ω ∈ Ar
⇔ ω ist in unendlich vielen der Ereignisse (An )n≥1 enthalten .
33
Damit erhalten wir
lim supn An = {ω ∈ Ω | ω ist in unendlich vielen An enthalten} .
(1.1.2)
Eine ähnliche Argumentation kann beim Limes inferior angewendet werden:
\
ω ∈ lim inf An ⇔ es existiert ein n ≥ 1, so dass ω ∈
Ar
r≥n
n→∞
⇔ es existiert ein n ≥ 1, so dass ω ∈ Ar für alle r ≥ n
⇔ es existiert ein n ≥ 1, so dass ω in jedem Ereignis
der Folge (Ar )r≥n enthalten ist .
Mit anderen Worten:
lim inf n An
= {ω ∈ Ω | ω ist in allen bis auf endlich vielen der Ereignisse (An )n≥1 enthalten} .
Lemma 1.1.2 (Borel-Cantelli I). Sei (An )n≥1 eine Folge von Ereignissen in
P
F. Wenn n≥1 P[An ] < ∞ gilt, dann folgt
P [lim supn An ] = 0 .
Beweis: Setze N :=
P
j≥1
I[Aj ], sodass {N = ∞} = lim supn An ; dann gilt
X
EN =
P[Aj ] < ∞,
j≥1
2
also notwendigerweise P[N < ∞] = 1.
Lemma 1.1.3 (Borel-Cantelli
II). Sei (An )n≥1 eine Folge von unabhängigen
P
Ereignissen in F. Falls n≥1 P[An ] = ∞ gilt, dann folgt
P [lim supn An ] = 1 .
P
Beweis: Sei Nm := m
j=1 I[Aj ] ≤ N ; wegen Bienaymé-Chebyshev und der Unabhängigkeit gilt dann
IP[N ≤ a] ≤ IP[Nm ≤ a] ≤
Var Nm
ENm
≤
2
(ENm − a)
(ENm − a)2
P
für jedes a > 0, m ∈ N. Falls EN = n≥1 P[An ] = ∞, folgt also mit m → ∞,
dass IP[N ≤ a] = 0 für alle a; d.h. IP[N = ∞] = IP[lim supn An ] = 1.
2
Wir betrachten nun Beispiele, die zeigen wie sich die beiden Lemmata von BorelCantelli anwenden lassen, um das Verhalten von Folgen von Zufallsvariablen zu
studieren.
34
Beispiel 1.1.4. Sei (Xn )n≥1 eine Folge von identisch verteilten reellen Zufallsvariablen auf Ω mit E(X12 ) < ∞. Sei ε > 0 fest gewählt. Seien die Ereignisse
An := {ω ∈ Ω | |Xn − E(Xn )| > n ε}
gegeben. Mit der Bienaymé-Chebyshev-Ungleichung folgt für jedes n ∈ N
P[An ] = P [|Xn − E(X1 )| > n ε] ≤ n−2 ε−2 Var (Xn ) = n−2 ε−2 Var (X1 ) .
Da wegen E(X12 ) < ∞ auch die Varianz von X1 endlich ist, erhält man
X
P[An ] ≤ ε−2 Var (X1 )
n≥1
X
n−2 < ∞ .
n≥1
Mit Borel-Cantelli I erhalten wir also P [lim supn An ] = 0, resp. P [lim inf n Acn ] =
1.
Anschaulich bedeutet dies, dass die Folge (Xn )n≥1 P-fast sicher schliesslich in den
Intervallen [E(X1 ) − nε, E(X1 ) + nε] enthalten ist.
Beispiel 1.1.5. Sei (Xn )n≥1 eine Folge von unabhängigen, identisch verteilten
reellen Zufallsvariablen auf Ω mit existierenden Erwartungswerten, und sei ε > 0
beliebig vorgegeben. Wir betrachen die Ereignisse
An := {ω ∈ Ω | |Xn | > n ε}
für jedes n ∈ N. Dann gilt
X
X
X P[An ] =
P[|X1 | > n ε] =
P ε−1 |X1 | > n .
n≥1
n≥1
n≥1
Es lassen sich nun zwei Situationen untersuchen:
1. E(|X1 |) < ∞.
Mit der Abschätzung (0.5.6) erhält man
X P ε−1 |X1 | > n ≤ ε−1 E(|X1 |) < ∞ .
n≥1
In diesem Fall sind die Voraussetzungen von Borel-Cantelli I erfüllt. Es gilt daher
P [lim inf n Acn ] = 1.
Intuitiv bedeutet dies, dass P-fast sicher irgendwann einmal die Folge (Xn )n≥1 die
Intervalle [−nε, nε] nicht mehr verlässt.
2. E(|X1 |) = ∞.
35
Hier erhalten wir mit der Abschätzung (0.5.6)
X X X P ε−1 |X1 | > n ≥
P ε−1 |X1 | ≥ n + 1 =
P ε−1 |X1 | ≥ n
n≥1
n≥1
n≥2
X =
P ε−1 |X1 | ≥ n − P ε−1 |X1 | ≥ 1
n≥1
X ≥
P ε−1 |X1 | ≥ n − 1 ≥ ε−1 E(|X1 |) − 2 = ∞ .
n≥1
Nach Voraussetzung sind die Ereignisse An unabhängig, und somit die Voraussetzungen von Borel-Cantelli II erfüllt. Es gilt also P [lim supn An ] = 1.
Mit anderen Worten: Die Folge (Xn )n≥1 wird die entsprechenden Intervalle [−nε, nε]
P-fast sicher immer wieder verlassen.
1.2
Fast sichere Konvergenz
Definition 1.2.1. Sei (Xn )n≥1 eine Folge von reellen Zufallsvariablen auf Ω. Sei
X : Ω → R eine weitere Zufallsvariable. Die Folge (Xn )n≥1 konvergiert fast sicher
gegen X,
f.s.
Xn −→ X ,
wenn gilt
P
h\
[
s≥1
\
m≥1
r≥m
i
ω ∈ Ω |Xr (ω) − X(ω)| ≤ s−1 = 1 .
Tatsächlich ist der Name der Konvergenz gerechtfertigt, denn Xn konvergiert fast
sicher gegen X, wenn
P [{ω : Xn (ω) → X(ω)}] = 1,
wobei die Konvergenz der Folge Xn (ω), n ≥ 1, wie üblich in R zu verstehen ist.
f.s.
Eine Anwendung des Stetigkeitslemmas 0.1.4 zeigt, dass Xn −→ X genau dann,
wenn P[lim supm→∞ Am (s)] = 0 für alle s ≥ 1, wobei
Am (s) := ω ∈ Ω |Xm (ω) − X(ω)| > s−1 .
Hieran sieht man, dass Konvergenzbeweise häufig mit Hilfe der Borel-CantelliLemmata durchgeführt werden können.
Es gibt eine ‘Cauchy’-Version der fast sicheren Konvergenz: z.B.
\ [
\
f.s.
{ω : Xn (ω) −→} =
ω ∈ Ω |Xr1 (ω) − Xr2 (ω)| ≤ s−1
s≥1
m≥1
r1 ,r2 ≥m
(1.2.1)
Mit dieser Feststellung erhält man folgenden Konvergenzsatz für “L2 – Martingale”.
36
Satz 1.2.2. Sei (Xn , n ≥ 0) ein Martingal mit σ 2 := limn→∞ E(Xn2 ) < ∞. Dann
gilt
f.s.
P[Xn −→] = 1.
Beweis: Es folgt aus der Dreiecksungleichung, dass
h\
i
1 − P
ω ∈ Ω |Xr1 (ω) − Xr2 (ω)| ≤ s−1
r1 ,r2 ≥m
h[
i
−1
≤ P
ω ∈ Ω |Xr1 (ω) − Xm (ω)| > (2s)
≥m
hr1[
i
+P
ω ∈ Ω |Xr2 (ω) − Xm (ω)| > (2s)−1
r2 ≥m
≤ 2P[Bm (1/2s)],
wobei Bm (a) wie in (0.7.8) definiert ist. Aus (0.7.8), (1.2.1) und Lemma 0.1.4
folgt der Satz.
2
Die fast sichere Konvergenz erbt viele Eigenschaften von der üblichen Konvergenz
in R:
f.s.
f.s.
Lemma 1.2.3. Falls Xn −→ X und Yn −→ Y , so gelten:
f.s.
1. cXn −→ cX,
c ∈ R;
f.s.
2. Xn + Yn −→ X + Y ;
f.s.
3. Xn Yn −→ XY .
Satz 1.2.4 (Stetiger Abbildungssatz). Sei h : R → R stetig in allen Punkten
f.s.
f.s.
von C ⊂ R. Falls Xn −→ X und P[X ∈ C] = 1 folgt h(Xn ) −→ h(X).
Beweis: Xn (ω) → X(ω) ∈ C impliziert h(Xn (ω)) → h(X(ω)).
2
Bemerkung 1.2.5. Der Raum R spielt bei der fast sicheren Konvergenz keine
wesentliche Rolle. Man kann überall Zufallsvariablen durch Zufallselemente eines
vollständigen metrischen Raums und |·| durch die entsprechende Metrik ersetzen.
Insbesondere kann man die fast sichere Konvergenz ebenso gut bei Folgen von
Zufallsvektoren einsetzen.
1.3
Das starke Gesetz der grossen Zahlen
Die wichtigste Anwendung des fast sicheren Konvergenzbegriffs ist das starke
Gesetz der grossen Zahlen. Es gibt mehrere Varianten, wovon die einfachste folgendes aussagt:
37
Satz 1.3.1. Seien Xi , i ∈ N, unabhängig und identisch verteilt mit EX14 < ∞.
P
Sei Sn := ni=1 Xi . Dann gilt
f.s.
n−1 Sn −→ EX1 .
Beweis: Sei Am (s) wie oben, mit m−1 Sm an der Stelle von Xm und mit EX1
an der Stelle von X(ω) für alle ω. Die Bienaymé-Chebyshev-Ungleichung ergibt
direkt die Abschätzung P[Am (s)] ≤ s2 Var (X1 )/m, welche (leider) über m nicht
endlich summierbar ist. Stattdessen wendet man die Markov-Ungleichung auf die
Zufallsvariablen (m−1 Sm − EX1 )4 an, da eine einfache Berechnung zeigt, dass
E{(m−1 Sm − EX1 )4 } ≤ Km−2
für eine endliche Konstante K; daraus folgt eine Abschätzung von P[Am (s)], welche über m summierbar ist. Die Aussage ergibt sich nun aus dem ersten BorelCantelli-Lemma.
2
Dieser Satz genügt insbesondere, um zu zeigen, dass relative Häufigkeiten gegen
Wahrscheinlichkeiten konvergieren.
Um die Bedingung EX14 < ∞ abzuschwächen, braucht man raffiniertere Argumente. Falls EXi2 < ∞, auch wenn die Xi nicht unbedingt identisch verteilt sind,
kann man die Lévy-Kolmogorov-Ungleichung einsetzen. Um die Bedingung bei
unabhängigen und identisch verteilten Zufallsvariablen auf E|X1 | < ∞ zu reduzieren, muss man eine gezielte Stutzung vornehmen, was im wesentlichen heisst,
dass man anstatt Xi jeweils Xi I[|Xi | ≤ i] betrachtet für jedes i.
38
Kapitel 2
Der zentrale Grenzwertsatz
2.1
Konvergenz in Verteilung
Dieser Konvergenzbegriff betrifft eher Verteilungen als Zufallsvariablen. Bei der
fast sicheren Konvergenz müssen sowohl alle Zufallsvariablen der Folge als auch
die Limes-Zufallsvariable auf demselbem Wahrscheinlichkeitsraum definiert sein,
bei der Konvergenz in Verteilung spielen die Wahrscheinlichkeitsräume keine Rolle. Die intuitive Idee wäre, die Konvergenz in Verteilung einer Folge von Zufallsvariablen über die Konvergenz der Wahrscheinlichkeiten P[Xn ≤ a] für alle a zu
definieren. Dies stellt sich in der Tat als leicht zu restriktiv heraus.
Definition 2.1.1. Für eine beliebige Folge von Zufallsvariablen Xn und eine
d
Zufallsvariable X definieren wir Xn −→ X falls Ef (Xn ) → Ef (X) für alle
beschränkten stetigen Funktionen f : R → R.
Wir definieren die Menge H3 von ‘angenehmen’ Funktionen als
0
00
00
00
H3 := f : kf k + kf k + kf k < ∞, K3 (f ) := sup{|f (x) − f (y)|/|x − y|} < ∞ .
x6=y
Satz 2.1.2. Folgende Aussagen sind äquivalent:
d
i) Xn −→ X;
ii) Ef (Xn ) → Ef (X) für alle f ∈ H3 ;
iii) P[Xn ≤ a] → P[X ≤ a] für alle Stetigkeitspunkte a von FX ;
iv) lim supn→∞ P[Xn ∈ A] ≤ P[X ∈ A] für alle abgeschlossenen Mengen A.
Beweis: i) impliziert sofort ii).
Für alle a ∈ R und ε > 0 gibt es eine Funktion fa,ε ∈ H3 mit
I[x ≤ a] ≤ fa,ε (x) ≤ I[x ≤ a + ε],
39
und daraus folgt: ii) impliziert iii).
Um zu zeigen, dass Aussage iii) Aussage i) impliziert, benutzt man, dass
N
X
bj−1 I[bj−1 < f (x) ≤ bj ] ≤ f (x) ≤
j=1
N
X
bj I[bj−1 < f (x) ≤ bj ],
j=1
für jede Folge b0 < b1 < · · · < bN mit b0 ≤ inf x f (x) ≤ supx f (x) ≤ bN . Für f
eine streng wachsende Funktion, falls bj − bj−1 < ε für alle j, und falls jedes f −1 bj
ein Stetigkeitspunkt von FX ist, folgt
lim sup Ef (Xn ) ≤ lim sup
n
n
=
N
X
N
X
bj P[bj−1 < f (Xn ) ≤ bj ]
j=1
bj {P[f (X) ≤ bj ] − P[f (X) ≤ bj−1 ]}
j=1
=
N
X
bj P[bj−1 < f (X) ≤ bj ]
j=1
≤
N
X
(bj−1 + ε)P[bj−1 < f (X) ≤ bj ]
j=1
≤ Ef (X) + ε.
Das allgemeine (beschränkte stetige) f kann auf jedem abgeschlossenen Intervall gleichmässig beliebig genau durch ein Polynom approximiert werden (Weierstrass), und ein Polynom lässt sich als Differenz zweier streng wachsenden Funktionen schreiben. Daraus kann man auf eine allgemeine Funktion f fortsetzen.
Aus iv) mit A = (−∞, a] und A = [a, ∞) folgt iii).
Schliesslich gilt, für jedes ε > 0, dass
1A (x) ≤ (1 − ε−1 d(x, A))+ ≤ 1Aε (x) für alle x,
(wobei d(x, A) := miny∈A |x − y|); daraus folgt mit i), dass
lim sup P[Xn ∈ A] ≤ E{1 − ε−1 d(X, A)} ≤ P[X ∈ Aε ],
n→∞
2
und danach iv) mit ε → 0.
Aus diesem Satz kann man Eigenschaften beweisen, welche denjenigen der fast
sicheren Konvergenz ähneln.
Satz 2.1.3 (Stetiger Abbildungssatz). Sei h : R → R stetig in allen Punkten
d
d
von C ⊂ R. Falls Xn −→ X und P[X ∈ C] = 1, folgt h(Xn ) −→ h(X).
40
Beweis: Falls x ∈ C ∩h−1 (A) für ein abgeschlossenes A, folgt einfach x ∈ h−1 (A).
Aus Satz 2.1.2 iv) merkt man dann, dass für jedes abgeschlossene A gilt
lim sup P[h(Xn ) ∈ A] ≤ lim sup P[Xn ∈ h−1 (A)] ≤ P[X ∈ h−1 (A)].
n
n
Da P[X ∈ C] = 1, ist letzteres gerade P[X ∈ C ∩ h−1 (A)], also wegen der ersten
Überlegung nicht grösser als P[X ∈ h−1 (A)].
2
d
d
Satz 2.1.4 (Slutsky). Wenn Xn −→ X und Yn −→ 0, wobei Xn und Yn jeweils
d
auf demselben Wahrscheinlichkeitsraum definiert sind, folgt Xn + Yn −→ X.
2.2
Der zentrale Grenzwertsatz
Das starke Gesetz der grossen Zahlen zeigt (unter passenden Bedingungen) die
Konvergenz einer normierten Summe unabhängiger Zufallsvariablen gegen ihren
Erwartungswert. Mann kann sich fragen, wie schnell diese Konvergenz stattfindet.
Eine Antwort auf dieser Frage wird vom zentralen Grenzwertsatz gegeben. Diesen
wichtigen Satz beweisen wir mit der Methode von Lindeberg. Wir beginnen mit
folgendem Lemma.
2
2
Lemma 2.2.1. Seien X1 P
, . . . , Xn unabhängig, mit EXP
i = 0, EXi = σi und
γi := E|Xi |3 < ∞, wobei ni=1 σi2 = 1 gilt. Sei Wj := ji=1 Xi . Dann folgt für
jedes f ∈ H3 , dass
|Ef (Wn ) − Ef (N )| ≤ Kf
n
X
E{|Xi |2 min{|Xi |, 1} + n3 σi3 }
i=1
√
für eine Konstante Kf , wobei N ∼ N (0, 1) und n3 := E|N |3 = 4/ 2π.
Beweis: Nehme T1 , . . . , Tn unabhängig, auch von X1 , . . . , Xn , mit Ti ∼ N(0, σi2 ),
P
1 ≤ i ≤ n, und setze N := ni=1 Ti . Schreibe
e(u, h) := f (u + h) − f (u) − hf 0 (u) − 21 h2 f 00 (u),
sodass
|e(u, h)| ≤ Kf min(|h|2 kf 00 k, 12 |h|3 K3 (f )) ≤ Kf min(|h|2 , |h|3 )
für eine Konstante Kf = max(kf 00 k, 21 K3 (f )), falls f ∈ H3 . Dann gilt
f (Wn ) − f (N ) =
n
X
{f (Uj + Xj ) − f (Uj + Tj )},
j=1
41
wobei Uj := Wj−1 +
als auch von Tj ist,
Pn
i=j+1
Tj , und demzufolge, da Uj unabhängig sowohl von Xj
Ef (Wn ) − Ef (N ) =
n
X
E{e(Uj , Xj ) − e(Uj , Tj )}.
j=1
2
Das Lemma folgt.
Aus diesem Lemma lassen sich viele verschiedene zentrale Grenzwertsätze beweisen.
Satz 2.2.2 (Lyapunov). Seien Y1 , . . . , Yn unabhängig, mit EYi = 0, EYi2 = τi2
P
P
und Γi := E|Yi |3 < ∞; schreibe Sn := ni=1 Yi und s2n := ni=1 τi2 . Dann, falls
Pn
limn→∞ s−3
n
i=1 Γi = 0, gilt
d
s−1
n Sn −→ N (0, 1) für n → ∞.
Beweis: Setze Xi := s−1
n Yi , und wende Lemma 2.2.1 an. Natürlich hat man die
2
Ungleichung |Xi | min{|Xi |, 1} ≤ |Xi |3 , und wegen der Hölder-Ungleichung gilt
τi3 ≤ Γi .
2
Eigentlich hat man noch mehr bewiesen — für jede Funktion f ∈ H3 hat man
sogar eine konkrete Abschätzung der Differenz von Ef (s−1
n Sn ) und Ef (N ) für
jedes gegebene n.
Satz 2.2.3 (IID). Seien Y1 , . . . , Yn unabhängig
und identisch verteilt, mit EY1 =
Pn
2
2
0 und EY1 = τ < ∞. Schreibe Sn := i=1 Yi . Dann gilt
√
d
Sn /{τ n} −→ N (0, 1) für n → ∞.
Der Beweis läuft wieder über Lemma 2.2.1, braucht allerdings etwas mehr Arbeit.
Dieser Satz hat viele Anwendungen in der Statistik; als Musterbeispiel kann man
daraus eine approximative Verteilung für das arithmetische Mittel herleiten.
42
Kapitel 3
Einführung in die Statistik
3.1
Zusammenfassung und Darstellung von Daten
Die Statistik beschäftigt sich mit der realen Welt. Wir beobachten ein Phänomen
(z.B. in der Biologie, Medizin, Ökologie, in den Wirtschaftswissenschaften etc.),
das wir nicht vollständig verstehen und über das wir mehr erfahren möchten.
Es sind zwei Vorgehensweisen möglich:
• exploratorisch: Daten werden erhoben, danach werden Hypothesen aufgestellt oder Modelle gebildet. Es wird versucht, Strukturen in den Daten zu
erkennen. Dieses Vorgehen ist wenig mathematisch.
• konfirmatorisch: Sobald Hypothesen oder Modell vorhanden sind, versucht
man aufgrund der Daten die Hypothesen gegeneinander zu testen oder die
Modellparameter zu schätzen.
Das Ziel der Statistik besteht darin, aus Daten Informationen über Wahrscheinlichkeitsmodelle zu gewinnen. Diese Wahrscheinlichkeitsmodelle sollen uns dabei
helfen, die reale Welt zu beschreiben und Vorhersagen zu machen.
Daten treten in der Praxis oft als reelle Zahlen, Vektoren, Matrizen, oder als
geordnete (wenig, mässig, viel ), bzw. ungeordnete (rot, blau, gelb) Kategorien
auf. Eine Statistik ist eine ”Zusammenfassung” dieser Daten. Formal definiert
heisst dies:
Definition 3.1.1. Seien (Y, E) und (Z, F) messbare Räume. Eine Statistik ist
eine messbare Abbildung T : (Y, E) → (Z, F). Wir nennen Y den Datenraum,
Elemente von Y heissen Daten.
43
Betrachten wir einige Beispiele von Statistiken. Sei dazu (y1 , . . . , yn ) ∈ Y die
Realisierung einer Stichprobe. Hier nehmen wir für den Datenraum stets (Y, E) =
(Rn , B(Rn )).
• Die triviale Statistik T (y1 , . . . , yn ) := (y1 , . . . , yn ) liefert die beobachteten
Daten unverändert zurück.
• Die Ordnungsstatistik T (y1 , . . . , yn ) := (y(1) , . . . , y(n) ), wobei y(1) ≤ . . . ≤
y(n) , gibt die Werte der Grösse nach geordnet zurück.
• Seien z1 , . . . , zl , wobei l ≤ n, die paarweise verschiedenen Werte der beobachteten Daten (y1 , . . . , yn ) und n1 , . . . , nl die entsprechenden Häufigkeiten.
Die Statistik
n1 nl T (y1 , . . . , yn ) :=
z(1) ,
, . . . , z(l) ,
=: Fn
(3.1.1)
n
n
liefert ein ”Säulendiagramm der empirischen Verteilung”: Diese gibt zu jedem beobachteten Wert zi die relative Häufigkeit mit der er in den Daten
(y1 , . . . , yn ) erscheint an.
• Erwartungswert der empirischen Verteilung:
n
1X
T (y1 , . . . , yn ) :=
yi =: ȳn .
n i=1
• Varianz der empirischen Verteilung:
n
1X
(yi − ȳn )2 .
T (y1 , . . . , yn ) :=
n i=1
• Histogramm: Wir nehmen an, die Daten y1 , . . . , yn seien positive reelle Zahlen. Es werden Zahlen 0 = x0 < x1 < · · · < xl fest vorgegeben. Sei
rj := |{i | yi ∈ (xj−1 , xj ]}|
für alle j = 1, . . . , l. Wir setzen
T (y1 , . . . , yn ) := T(x1 ,...,xl ) (y1 , . . . , yn )
r1
rl
, . . . , xl ,
.
:=
x1 ,
n(x1 − x0 )
n(xl − xl−1 )
Graphisch dargestellt liefert das Histogramm ”Rechtecke” mit der Fläche
ri /n über den Intervallen (xi−1 , xi ].
44
3.2
Entscheidungstheoretische Grundlagen
Wir vertreten den sog. frequentistischen Standpunkt, d.h. wir gehen davon aus,
dass sich hinter den beobachteten, bzw. gemessenen Daten y ∈ Y ein fester, aber
uns unbekannter Wahrscheinlichkeitsraum (Ω, F, P) und eine Zufallsvariable
Y : (Ω, F, P) −→ (Y, E)
verbergen, so dass y = Y (ω) eine Realisierung von Y ist.
Daten sind uns häufig in Form einer Stichprobe y = (y1 , . . . , yn ) gegeben, d.h. sie
sind die Realisierung einer Zufallsvariablen Y = (Y1 , . . . , Yn ), wobei die Y1 , . . . , Yn
unabhängig und identisch verteilt sind.
Obwohl uns das Wahrscheinlichkeitsmass P nicht bekannt ist, können wir oft
in konkreten Problemstellungen die für Y vermuteten Verteilungen anhand der
Daten y einschränken, etwa auf eine durch eine Menge Θ parametrisierte Familie
von Verteilungen (Pθ )θ∈Θ . Auf diese Weise erhält man einen parametrisierten
Wahrscheinlichkeitsraum (Y, E, Pθ )θ∈Θ , das statistische Modell.
Sofern das statistische Modell ”sinnvoll” gewählt wurde, ist ein Parameter θ∗ ∈ Θ
der wahre Parameter in dem Sinne, dass Pθ∗ die tatsächliche Verteilung von Y
ist, d.h. Pθ∗ = PY .
Typische Ansätze den unbekannten wahren Parameter zu ermitteln sind
• Schätzungen: Wir versuchen den wahren Parameter θ∗ möglichst genau zu
schätzen, d.h. aufgrund der Daten entscheiden wir uns für einen Parameter
aus Θ als den wahren Parameter.
• Tests: Wir geben uns eine Teilmenge Θ0 ⊂ Θ vor und entscheiden aufgrund
der Daten ob wir die Hypothese, dass θ∗ in Θ0 liegt, annehmen sollen oder
nicht.
Es werde nun vier für die Statistik grundlegende Begriffe eingeführt:
• Aktionsraum
• Entscheidungsfunktion
• Verlustfunktion
• Risikofunktion
Bei der Ermittlung des wahren Parameters θ∗ werden aufgrund der vorliegenden
Daten y ∈ Y gewisse Aktionen durchgeführt. Dies wird in der folgenden Definition
formalisiert.
45
Definition 3.2.1. Sei (A, E 0 ) ein messbarer Raum. Eine Entscheidungfunktion
ist eine messbare Funktion.
d : (Y, E, PY ) −→ (A, E 0 ) .
Der messbare Raum (A, E 0 ) wird Aktionsraum genannt. Die Menge der Entscheidungsfunktionen wird mit D bezeichnet.
Da wir die Daten y als Realisationen der Zufallsvariablen Y auffassen, werden
wir oft der Zufallsvariablen
d(Y ) := d ◦ Y : (Ω, F, P) −→ (A, E 0 )
begegnen.
Beispiel 3.2.2. i) Schätzungen: Der unbekannte wahre Parameter θ∗ ∈ Θ wird
geschätzt. Ist Θ ein messbarer Raum, so ist in diesem Fall der Aktionsraum gerade der Parameterraum, A := Θ. Wir entscheiden uns hier für einen Parameter
θ den wir aufgrund der Daten als den wahren Parameter θ∗ vermuten.
ii) Tests: Ist θ0 der Wert des wahren Parameters θ∗ ? Gehört θ∗ zu einer vorgegebenen Teilmenge Θ0 ⊂ Θ? Bei Fragen dieser Art hat der Aktionsraum die
Form A := {0, 1}. D.h. aufgrund der Daten entscheiden wir uns eine Hypothese
anzunehmen (0) oder zu verwerfen (1).
Es können seltene Fälle auftreten, bei denen wir uns aufgrund der vorliegenden
Daten nicht sicher sind, für welche Aktion wir uns entscheiden sollten. In einem
solchen Fall wählen wir eine Aktion unabhängig von den Daten zufällig aus,
beispielsweise durch einen Münzwurf.
Diese Überlegung führt zum Begriff der randomisierten Entscheidungsfunktion.
Definition 3.2.3. Eine randomisierte Entscheidungsfunktion ist eine messbare
Funktion
d¯ : (Y × [0, 1], E ⊗ B([0, 1]), PY ⊗ U[0, 1]) −→ A .
Die Menge der randomisierten Entscheidungsfunktionen wird mit D̄ bezeichnet.
Wir können schreiben
¯ Z) := d¯ ◦ (Y, Z) : (Ω, F, P) −→ (A, E 0 ) ,
d(Y,
wobei Z ∼ U[0, 1] unabhängig von Y ist.
Beispiel 3.2.4. Seien d1 , d2 ∈ D Entscheidungsfunktionen. Sei p ∈ [0, 1] fest.
Wir definieren eine randomisierte Entscheidungsfunktion d¯ : Y × [0, 1] → A
durch
d1 (y) falls z ≤ p ;
¯
d(y, z) :=
d2 (y) falls z > p .
46
Die Aktion a ∈ A die wir aufgrund der Daten y ∈ Y ausführen sollte ”gut” sein.
Eine Schätzung des wahren Parameters sollte möglichst präzise sein oder eine
Hypothese über den wahren Parameter sollte genau dann angenommen werden,
falls sie zutrifft. In diesem Sinn entsteht bei ”schlechten” Aktionen ein Verlust.
Definition 3.2.5. Die Verlustfunktion ist eine Funktion
L : Θ × A → R+ .
Beispiel 3.2.6. i) Schätzungen: Es wird ein reeller Parameter geschätzt. Wir
haben also Θ = A = R. Sinvolle Verlustfunktionen sind beispielsweise
L(θ, a) := (θ − a)2 oder L(θ, a) := |θ − a| .
ii) Tests: Wir stellen die Hypothese auf, dass der wahre Parameter zur Teilmenge Θ0 ⊂ Θ gehört. Der Aktionsraum ist A = {0, 1}, wobei die Aktion 0 der
Schlussfolgerung ‘θ∗ ∈ Θ0 ’ entspricht usw. Eine naheliegende Verlustfunktion ist
beispielsweise definiert durch
0 falls {θ ∈ Θ0 , a = 0} oder {θ ∈ Θ\Θ0 , a = 1} ;
L(θ, a) :=
1 falls {θ ∈ Θ0 , a = 1} oder {θ ∈ Θ\Θ0 , a = 0} .
D.h. wir haben keinen Verlust, falls der wahre Parameter θ∗ in Θ0 liegt und
die Hypothese tatsächlich angenommen wird, oder falls der wahre Parameter θ∗
ausserhalb von Θ0 liegt und wir die Hypothese auch verwerfen. Andernfalls sei
der Verlust 1.
Weiter versuchen wir das Risiko zu minimieren. Das Risiko beschreiben wir als
den erwarteten Verlust, wenn ein θ ∈ Θ der wahre Parameter wäre und wir eine
Entscheidung d treffen würden.
Definition 3.2.7. Die Risikofunktion
R : Θ × D → R+
wird definiert durch
R(θ, d) := Eθ (L(θ, d(Y ))) .
Dabei verstehen wir unter Eθ f (Y ) den Erwartungswert der Zufallsvariablen f (Y ) :
Ω → R+ , wenn Y als Pθ -verteilt angenommen wird.
Bemerkung 3.2.8. Für randomisierte Entscheidungsfunktionen haben wir ent¯ :=
sprechend eine Risikofunktion
R : Θ × D̄ → R+ , die gegeben ist durch R(θ, d)
¯ Z)) . Hier ist entsprechend Eθ die Schreibweise für den ErwartungsEθ L(θ, d(Y,
wert, wenn Y ∼ Pθ und Z ∼ U[0, 1] angenommen wird.
47
Ist die randomisierte Entscheidungsfunktion d¯ via d1 , d2 ∈ D gegeben wie in Beispiel 3.2.4, so folgt mit dem Satz von Fubini
¯ = pR(θ, d1 ) + (1 − p)R(θ, d2 ) .
R(θ, d)
Das Gesamtrisiko wird also aufgeteilt in das Risiko die Entscheidung d1 und in
das Risiko die Entscheidung d2 zu treffen aufgrund der vorhandenen Daten.
Wir sollten Entscheidungsfunktionen d so wählen, dass das Risiko R(θ, d) klein
ist für möglichst viele Werte θ ∈ Θ.
.....................
.........
.....
.........
...
........
...
......
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.. ..................
.....
...
.
.
.
.
.
.
.
.
.
...........
...
..
....
.
.
.
.
.
.
.
.
.
.
.
.........
...
...
...
.
.
.
.
.
.
.
.
.
.
..
.......
..
...
.
.
.
.
.
.
.
.
...... ....
..
.
..
.
.
.
.
.
...
.
.
...... ....
...
.
.
.......
.
....
.
.........
........................
....
.
... .......
....
.
.
.
....
.
... ........
.
.......
..
.....
...
.....
........
...
...
............ .................
...
.....
...
...
....
.
.
....................................................................
.......... ....
. ...............
...
...
........
... ..........
...
...
.......
.
...
.
....
..
.
...
.
.
.....
...
..
.
.
.
.
...
.
.
.
.
.
.
...
.....
.
....
...
.
.
.
......
.
.
.
.
.
...
....
.
........
...
.
.
.
.
.
.
.
.
.
...
...........
...
..
........................................
...
.
...
..
...
.
...
...
..
...
.
...
..
.
...
.
.
.
.... ....
.......
R(θ,d1 )
R(θ,d2 )
R(θ,d3 )
θ
Im obigen Bild ist d2 wohl eine geeignetere Wahl als d1 , da das Risiko R(θ, d2 )
für jedes θ kleiner ist als das Risiko R(θ, d1 ). Ist aber d1 eine bessere Wahl als
d2 ?
Definition 3.2.9. Eine Entscheidungsfunktion d2 dominiert eine Entscheidungsfunktion d1 , wenn
i) R(θ, d2 ) ≤ R(θ, d1 ) für alle θ ∈ Θ, und
ii) R(θ, d2 ) < R(θ, d1 ) für mindestens ein θ ∈ Θ.
Definition 3.2.10. Eine Entscheidungsfunktion d heisst zulässig, falls es keine
Entscheidungsfunktion gibt die d dominiert.
PRINZIP DER ZULÄSSIGKEIT.
dungsfunktionen zu verwenden.
3.3
Es sind nur zulässige Entschei-
Suffizienz
Wie im vorhergehenden Abschnitt haben wir Daten y ∈ Y als Realisierung einer Zufallsvariablen Y und eine Familie von Verteilungen (Pθ )θ∈Θ , wobei θ∗ den
Parameter der wahren Verteilung Pθ∗ von Y bezeichnet.
48
Definition 3.3.1. Die Likelihood der Daten y ∈ Y ist eine Funktion
p(·) (y) : Θ −→ R+ ,
i) die im diskreten Fall definiert wird als
pθ (y) := Pθ [Y = y] ,
ii) und im Fall von stetigen Verteilungen auf Rn durch
pθ (y) := fθ (y) ,
wobei fθ die Dichte der Verteilung Pθ ist.
Bemerkung 3.3.2. Die Likelihood kann allgemeiner definiert werden. Wir betrachten das statistische Modell (Y, E, Pθ )θ∈Θ . Gibt es ein Referenzmass µ auf
(Y, E) in dem Sinne, dass jedes Pθ eine Dichte fθ bezüglich µ hat, so setzt man
pθ (y) := fθ (y) .
In der obigen Definition ist µ bei i) das Zählmass und bei ii) das Lebesgue-Mass
auf Rn .
Welche Idee steckt hinter der Likelihood? Je grösser der Wert der Likelihood pθ (y)
ist, desto eher wird die Verteilung Pθ zur Beobachtung y geführt haben. Dabei
ist aber nicht der absolute Wert der Likelihood von primärem Interesse, sondern
das Verhältnis der Likelihoods zweier beliebiger Parameter θ1 und θ2 aus Θ. Gilt
beispielsweise
pθ1 (y)
>1,
pθ2 (y)
so ist es plausibler, dass y die Realisierung einer Pθ1 -verteilten Zufallsvariable als
die Realisierung einer Pθ2 -verteilten Zufallsvariable ist.
Beispiel 3.3.3. Wir haben eine Beobachtung y = 1. Sei die Verteilungsfamilie
gegeben durch Pθ = N (θ, 1) wobei θ ∈ {0, 1}. Wird wohl der Parameter θ = 0
oder der Parameter θ = 1 eher zur Beobachtung y = 1 geführt haben?
Die Likelihood ist gegeben durch
(1−θ)2
1
pθ (1) := √ e− 2 .
2π
Betrachtet man den Quotienten
√
p0 (1)
2π
1
=√
= √ <1,
p1 (1)
e
2πe
so kann man schliessen, dass die Beobachtung y = 1 eher eine Realisierung einer N (1, 1)-verteilten Zufallsvariablen als einer N (0, 1)-verteilten Zufallsvariablen ist.
49
Beispiel 3.3.4. Sei y = (y1 , . . . yn ) = (Y1 (ω), . . . , Yn (ω)) eine Stichprobe, wobei
Yi ∼ N (θ, 1) für 1 ≤ i ≤ n. Sei Θ = {0, 1}. Wir nehmen weiter an, dass
P
ȳ := n−1 ni=1 yi = 1.
Da die Yi unabhängig sind können wir berechnen:
n
1 Pn
1
2
pθ (y) = pθ (y1 ) · · · pθ (yn ) = √
e− 2 i=1 (yi −θ)
2π
(
!)
n
n
X
n
1
√
exp −
(yi − ȳ)2
.
=
(θ − ȳ)2 + n−1
2
2π
i=1
Wir haben also
n
p0 (y)
= e− 2 < 1 .
p1 (y)
PRINZIP DER LIKELIHOOD. Es sind nur Entscheidungsfunktionen
zu verwenden, welche Funktionen von Likelihood-Quotienten sind.
Definition 3.3.5. Eine Statistik T : (Y, E) → Z heisst suffizient für θ, wenn es
eine Funktion λ : Z → [0, 1] gibt, sodass
Pθ [Y ∈ A | T (Y ) = t] = λ(t, A) .
Für jedes t ist λ(t, ·) eine W’keit auf Y, die gleiche für alle θ.
Das Faktorisierungskriterium. Eine Statistik T ist genau dann für einen Parameter θ suffizient, wenn sich die Likelihood in der Form
pθ (y) = g(θ, T (y))h(y)
faktorisieren lässt.
PRINZIP DER SUFFIZIENZ. Ist eine suffiziente Statistik T vorhanden, sind nur Entscheidungsfunktionen zu verwenden, welche Funktionen von T sind.
Wegen des Faktorisierungskriteriums sehen wir, dass das Prinzip der Suffizienz
in Einklang mit dem Prinzip der Likelihood steht.
3.4
Exponentielle Familien
Definition 3.4.1. Sei y ∈ Y gegeben. Eine Familie von Verteilungen (Pθ )θ∈Θ ,
wobei Θ ⊂ Rk , heisst exponentielle Familie, falls es Funktionen h, t1 , . . . , tk :
Y → R und c : Θ → R gibt, so dass sich die Likelihood der Daten y schreiben
lässt als Produkt
X k
pθ (y) = c(θ) · h(y) · exp
θi ti (y) .
i=1
50
Definition 3.4.2. Es gelten die Bezeichnungen der Definition 3.4.1. Sei (Pθ )θ∈Θ
eine diskrete exponentielle Familie. Die Menge
n
X k
o
X
k
Π := π ∈ R :
h(y) exp
πi ti (y) < ∞
y∈Y
i=1
heisst der natürliche Parameterraum der Familie (Pθ )θ∈Θ . Ganz allgemein ersetzt
man die y–Summe mit einem Integral bezüglich des Referenzmasses µ(dy).
Die meisten wohlbekannten Verteilungsfamilien sind exponentielle Familien. Wegen des Faktorisierungskriteriums sehen wir, dass bei einer Stichprobe (Y1 , . . . , Yn )
vom Umfang n aus einer exponentiellen Familie gilt:
T (Y ) := (T1 (Y ), . . . , Tk (Y )) ,
wobei Ti (Y ) :=
n
X
ti (Yj ) ,
j=1
ist suffizient für θ.
3.5
Schätzung
Der Parameterraum Θ ist typischerweise eine offene Teilmenge von IRk für ein k ≥ 1,
und bei der Schätzung ist der Aktionsraum gleich Θ. Der Vergleich zwischen den
Risikofunktionen zu verschiedenen Entscheidungsfunktionen (hier Schätzer genannt) besteht aus einem Vergleich zwischen zwei Θ-wertigen Funktionen. Für
k = 1 und quadratischen Verlust hätte man also folgendes:
Definition 3.5.1. Ein Schätzer T von f (θ) hat minimalen ‘Mean Square Error’
(MSE), falls IEθ (T − f (θ))2 minimal ist über alle Schätzer einer vorgegebenen
Klasse von Schätzern für jedes θ ∈ Θ.
Die Einschränkung auf eine vorgegebene (vernünftige) Klasse von Schätzern braucht
man, da es sonst (ausser in Trivialfällen) keinen Schätzer gibt, welcher für alle θ
am besten ist; es gibt zu viele Möglichkeiten. Insbesondere hat der Schätzer, der
ungeachtet der Daten immer einen bestimmten Punkt θ0 ∈ Θ zurückgibt, konsequenterweise das kleinste von allen Risiken im Punkt θ0 , ohne ein vernünftiger
Schätzer zu sein. Also genügt das Prinzip der Zulässigkeit bei weitem nicht, um
einen besten Schätzer zu erhalten; man muss weitere Kriterien einführen. Als
Beispiel könnte man nur diejenige Schätzer in Betracht ziehen, welche lineare
Funktionen der Daten sind. Das folgende Konzept ist etwas raffinierter.
Definition 3.5.2. Gegeben eine (z.B. reelle) Funktion f , heisst ein Schätzer T
von f (θ) erwartungstreu, falls
für alle θ ∈ Θ.
IEθ T = f (θ)
51
Leider gibt es sogar einfache Fälle, in welchen es keinen erwartungstreuen Schätzer
gibt.
Die Likelihood bietet eine ganz andere Methode, Schätzer zu erhalten. Da Werte von θ, welche (relativ) grosse Likelihood-Werte aufweisen, plausibler sind als
andere, kommt man auf die Idee, die Likelihood bezüglich θ zu maximieren.
Definition 3.5.3. Der Maximum–Likelihood–Schätzer (MLE) von θ wird durch
θ̂ := arg maxθ∈Θ pθ (y)
definiert. Wenn man f (θ) schätzen will, verwendet man einfach f (θ̂).
Hier hat man einige asymptotische Argumente, welche das Verfahren rechtfertigen. Nimmt man an, die Daten y = (y1 , . . . , yn ) stammen von einer Stichprobe
aus der Verteilung Pθ∗ , wobei nur die Verteilungsfamilie {Pθ , θ ∈ Θ} bekannt ist,
dann ist die Likelihood
n
Y
L(y; θ) =
f (yj , θ),
j=1
wobei f (y, θ) die Wahrscheinlichkeitsdichte (oder die Wahrscheinlichkeit) einer
einzelnen Beobachtung y darstellt. Wenn man das dazugehörende Wahrscheinlichkeitsmodell betrachtet, sieht man, dass
n
1
1X
log L(Y ; θ) =
log f (Yj , θ)
n
n j=1
eine normierte Summe von unabhängigen und identisch verteilten Zufallsvariablen ist, welche (unter Pθ∗ ) fast sicher gegen IEθ∗ log f (Y1 , θ) konvergiert wegen
des starken Gesetzes der grossen Zahlen, falls IEθ∗ | log f (Y1 , θ)| < ∞ gilt. Diese
Funktion von θ findet in θ∗ ihr Maximum.
Satz 3.5.4. Es gilt
IEθ∗ log f (Y1 , θ) ≤ IEθ∗ log f (Y1 , θ∗ ) − d2H (Pθ∗ , Pθ ),
falls die Erwartungswerte existieren.
Hier bezeichnet dH die sogenannte Hellinger–Distanz zwischen Wahrscheinlichkeitsverteilungen. Da die normierte Log–Likelihood nahe bei einer Funktion liegt, welche ihr Maximum an der Stelle θ∗ annimmt, ist es einleuchtend, den ML–Schätzer
zu verwenden. Mit weiteren Argumenten kann man in vielen Situationen beweisen, dass dieses Vorgehen asymptotisch sehr effizient ist.
52
3.6
Tests
Bei einem Test will man entscheiden, ob der wahre Parameter θ∗ zu einer vorgegebenen Menge Θ0 gehört (die Nullhypothese), oder nicht (die Alternativhypothese;
Θ1 := Θ \ Θ0 ). Dementsprechend besteht der Aktionsraum aus nur zwei Punkten,
A = {0, 1}. Wenn Θ0 = {θ0 } und Θ1 = {θ1 } beides Ein-Punkt-Mengen sind (‘einfache Hypothesen’), kann die Risikofunktion einer Entscheidungsfunktion (Test) d
besonders einfach als ein Punkt
(R(θ0 , d), R(θ1 , d)) ∈ [0, c0 ] × [0, c1 ]
dargestellt werden, wobei c0 die Kosten der Aktion 1 (θ ∈ Θ1 annehmen) sind,
falls in Wirklichkeit θ ∈ Θ0 gilt (Fehler erster Art), und c1 die Kosten der Aktion 0, falls in Wirklichkeit θ ∈ Θ1 gilt (Fehler zweiter Art). Normalerweise nimmt
man der Einfachheit halber c0 = c1 = 1; dann hat man natürlich
R(θ0 , d) = IPθ0 [d(Y ) = θ1 ],
R(θ1 , d) = IPθ1 [d(Y ) = θ0 ].
Daraus bildet man die Risikomenge:
S := {(R(θ0 , d), R(θ1 , d)) : d ∈ D}.
Die zulässigen Tests d sind dann diejenigen, welche Punkten auf der unteren
Grenze von S entsprechen. Die Konstruktion dieser Tests bildet den wesentlichen
Inhalt des folgenden Satzes.
Das klassische Vorgehen besteht darin, d so zu wählen, dass R(θ1 , d) minimal ist
unter allen Tests d mit R(θ0 , d) ≤ α, für eine vorgegebene ‘Grösse’ α.
Satz 3.6.1 (Das Neyman–Pearson–Lemma). In der obigen Situation hat der
beste Test die Form
d(y) = θ1
falls
Λ(y) > k;
d(y) = θ0
IP[d(y) = θ1 ] = γ
falls
falls
Λ(y) < k;
Λ(y) = k,
wobei Λ(y) den Likelihoodquotienten pθ1 (y)/pθ0 (y) bezeichnet, und IP sich auf die
Zusatzrandomisierung bezieht. Die Werte von k und γ werden durch die Bedingung
R(θ0 , d) = IPθ0 [d(Y ) = θ1 ] = α
bestimmt.
Dieses Verfahren steht wieder im Einklang sowohl mit dem Likelihood–Prinzip
als auch mit dem Prinzip der Suffizienz.
Die Betrachtungen sind selten so einfach, falls die Mengen Θ0 und Θ1 mehr
als einen Punkt enthalten; Verallgemeinerungen des Neyman–Pearson–Verfahrens
bieten jedoch ziemlich allgemein asymptotisch effiziente Tests.
53
3.7
Die Bayes’sche Methode
In der Bayes’schen Statistik betrachtet man den unbekannten Parameter θ∗ als
Realisierung einer Zufallsgrösse ϑ. Die Verteilung von ϑ beinhaltet unsere Information (bzw. unsere Ungewissheit) über den Wert θ∗ . Bevor wir ein Experiment durchführen bzw. Daten sammeln, haben wir eine eventuell vage Vorstellung
darüber, wie θ∗ sein könnte; dies müssen wir in Form einer Wahrscheinlichkeitsverteilung für ϑ ausdrücken, der a-priori-Verteilung, gegeben durch eine Wahrscheinlichkeitsdichte π. Nach dem Experiment kommt dazu die Information, welche uns die Daten y liefern, was zu einer neuen a-posteriori -Wahrscheinlichkeitsverteilung für ϑ führen, deren Dichte wir mit π(· | y) bezeichnen. Nach dem Satz
von Bayes gilt:
π(θ | y) = c(y) pθ (y) π(θ),
θ ∈ Θ,
wobei die Normierungskonstante c(y) so gewählt wird, dass daraus eine Wahrscheinlichkeitsverteilung auf Θ resultiert.
DAS BAYES’SCHE PRINZIP. Sämtliche Informationen über θ∗ sind
in der a-posteriori-Verteilung enthalten.
Es gilt zu beachten, dass dieses Prinzip nicht mit dem Likelihoodprinzip zu vereinbaren ist; die a priori Information kommt neu dazu.
Definition 3.7.1. Das Bayes’sche Risiko einer Entscheidungsfunktion d ∈ D
wird durch
rπ (d) := Eπ {R(ϑ, d)}
definiert: hierbei steht Eπ für den Erwartungswert bezüglich der a-priori-Verteilung π.
DAS BAYES’SCHE ENTSCHEIDUNGSPRINZIP. Die Entscheidung
d ∈ D sollte so gewählt werden, dass rπ (d) minimal ist.
Im Vergleich zur Lage im klassischen Fall, wo Zulässigkeit häufig keine grosse
Hilfe bei der Suche nach Entscheidungsfunktionen leistet, liefert das Bayes’sche
Entscheidungsprinzip die Möglichkeit, Entscheidungsfunktionen zu konstruieren.
Satz 3.7.2. Das Bayes’sche Risiko wird dadurch minimiert, dass man den aposteriori erwarteten Verlust minimiert:
d(y) := arg mina∈A Eπ(· | y) {L(ϑ, a)},
wobei Eπ(· | y) für den Erwartungswert bezüglich der a-posteriori-Verteilung π(· | y)
steht.
54
Dieser Satz hat einige nützliche Konsequenzen. Bei der Schätzung eines Parameters in IR mit quadratischem Verlust erhält man als Schätzer den Erwartungswert
der a-posteriori-Verteilung; mit L(θ, a) := |θ − a| erhält man ihren Median. Bei
Tests von einfachen Hypothesen erhält man die Neyman–Pearson–Tests; im Gegensatz zum klassischen Verfahren wird der Wert von k durch die Wahl von π
und der Kosten bestimmt.
Bei der Schätzung eines Parameters in IR kann man auch Konfidenzintervalle
durch die Betrachtung der a-posteriori-Verteilung π(· | y) sehr einfach gestalten.
Zum Beispiel nimmt man das kürzeste Intervall in Θ, das durch die a-posterioriVerteilung π(· | y) eine Wahrscheinlichkeit von 95% zugeordnet bekommt.
Ein weiterer Vorteil der Bayes’schen Methode: Bayes–Entscheidungen sind (mit
nur wenigen Ausnahmen) z ulässig; und zulässige Entscheidungen sind auch Bayes–
Entscheidungen (für ein gewisses π), solange die Risikomenge abgeschlossen und
konvex ist (wobei die Definition der Risikomenge verallgemeinert werden muss,
falls Θ aus mehr als nur 2 Punkten besteht).
3.8
Die nichtparametrische Statistik
Bisher haben wir angenommen, dass die Verteilung der Daten bis auf die Werte
einiger reeller Parameter bekannt ist. Wie geht man vor, wenn man Eigenschaften einer völlig unbekannten Verteilung untersuchen will? Wir betrachten nur
den einfachsten Fall, wo uns eine Stichprobe y1 , . . . , yn aus einer unbekannten
Verteilung F vorliegt.
Einen Zugang liefert uns die empirische Verteilung Fn , welche in (3.1.1) definiert
ist. Diese konvergiert gegen die unbekannte Verteilung F im folgenden Sinne.
Satz 3.8.1 (Glivenko–Cantelli). Seien Y1 , Y2 , . . . unabhängig und identisch
verteilt mit Verteilung F . Sei Fn die empirische Verteilung von Y1 , . . . , Yn . (Bemerkung: Fn = Fn (ω) ist zufällig.) Dann gilt
lim sup |Fn (x) − F (x)| = 0
n→∞
f.s.,
x
wobei wir Fn (x) für Fn {(−∞, x]} und F (x) für F {(−∞, x]} schreiben.
Beweis: Die Konvergenz gilt wegen des starken Gesetzes der grossen Zahlen
für das Supremum über beliebige, aber nur endlich viele x-Werte x1 , . . . , xk . Da
sowohl Fn (x) als auch F (x) steigende Funktionen sind, kann man jedoch die
gewünschte Konvergenz daraus ableiten.
2
Sei jetzt T ein Funktional einer Verteilung: T bildet die Menge aller Wahrscheinlichkeitsverteilungen M in IR ab. Sei T stetig in der Topologie der gleichmässigen Konvergenz von Verteilungsfunktionen. Dann folgt aus dem Satz 3.8.1, dass
55
T (Fn ) → T (F ) f.s. Leider sind sehr wenig statistisch interessante Funktionale stetig — der Erwartungswert, zum Beispiel, ist nirgendwo stetig in dieser Topologie.
Allerdings ergibt sich aus einem stetigen Abbildungssatz, dass T (Fn ) → T (F ) f.s.,
falls T im Punkt F ∈ M stetig ist, was viel einfacher zu erreichen ist (der Median ist bei den meisten F stetig). Auch die Variabilität des Schätzers T (Fn )
von T (F ) lässt sich aus dem Gedanken, dass Fn nahe bei F liegt, näherungsweise
erhalten. Um dies zu bewerkstelligen, untersucht man die Verteilung von T (Fm∗ ),
wobei Fm∗ die empirische Verteilung einer Stichprobe vom Umfang m aus der
(diskreten) Verteilung Fn ist — die sogenannte Bootstrap–Methode. Darauf, wie
dies genau geschieht, und weshalb es meistens sinnvoll ist, m viel kleiner als das
ursprüngliche n zu wählen, wird hier nicht näher eingegangen.
56
Herunterladen