Wahrscheinlichkeit und Statistik WS 2009/10

Wahrscheinlichkeit und Statistik
WS 2009/10
Vorlesung von Priv.-Doz. Dr. J. Dippon
25. März 2010
Inhaltsverzeichnis
I
Grundbegriffe der Wahrscheinlichkeitstheorie
1 Wahrscheinlichkeitsräume
1
2
2 Kombinatorische Wahrscheinlichkeitsrechnung
10
3 Zufallsvariablen und Verteilungen
14
3.1
Meßbare Abbildungen und Zufallsvariablen . . . . . . . . .
14
3.2
Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . .
16
4 Erwartungswerte und Dichten
20
5 Unabhängigkeit
28
6 Erzeugende und charakteristische Funktionen, Faltungen
32
6.1
Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . .
32
6.2
Charakteristische Funktionen . . . . . . . . . . . . . . . .
34
7 Spezielle Verteilungen
39
7.1
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . .
39
7.2
Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . .
43
1
8 Gesetze der großen Zahlen
47
8.1
Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . .
47
8.2
Schwache und starke Gesetze der großen Zahlen . . . . . .
48
9 Zentrale Grenzwertsätze
II
52
9.1
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd
52
9.2
Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . .
54
9.3
Multivariate zentrale Grenzwertsätze . . . . . . . . . . . .
56
Deskriptive Statistik
58
10 Statistische Kenngrößen
60
10.1 Empirische Häufigkeitsverteilung . . . . . . . . . . . . . .
61
10.2 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
10.3 Steuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . .
62
10.4 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . .
63
11 Grafiken
III
65
11.1 Beispiele für Grafiken für univariate Daten . . . . . . . . .
65
11.2 Beispiele für Grafiken für bivariate Daten . . . . . . . . . .
65
Grundbegriffe der Mathematischen Statistik
12 Testen von Hypothesen
66
68
2
12.1 Problemstellung, Bezeichnungen . . . . . . . . . . . . . . .
68
12.2 Wahrscheinlichkeitstheoretische Grundlagen für spezielle Tests 70
12.3 Spezielle Tests bei parametrischen Verteilungsannahmen .
72
12.4 Tests bei nichtparametrischen Verteilungsannahmen . . . .
74
13 Parameterschätzung
81
14 Parameterschätzung bei linearen Regressionsproblemen
84
15 Bereichsschätzung
87
A Begriffe und Sätze der Maß- und Integrationstheorie
90
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
91
Teil I
Grundbegriffe der
Wahrscheinlichkeitstheorie
1
Kapitel 1
Wahrscheinlichkeitsräume
Definition 1.1. Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω heißt eine Algebra, wenn
1) ∅ ∈ A
2) A ∈ A =⇒ Ac := Ω\A ∈ A
3) A, B ∈ A =⇒ A∪B ∈ A
m
∪ An ∈ A,
oder — äquivalent — A1 , . . . , Am ∈ A =⇒
n=1
das System A heißt σ-Algebra, falls zusätlich gilt
∞
3’) An ∈ A (n = 1, 2, . . .) =⇒ ∪ An ∈ A .
n=1
Bemerkung 1.1. A σ-Algebra =⇒ A Algebra.
Lemma 1.1.
a) Sei A eine Algebra.
m
A1 , . . . , Am ∈ A =⇒ ∩ An ∈ A
n=1
A, B ∈ A =⇒ A\B ∈ A .
b) Sei A eine σ-Algebra.
∞
An ∈ A (n = 1, 2, . . .) =⇒ ∩ An ∈ A .
n=1
2
Eine Algebra [σ-Algebra] enthält ∅, Ω und ist abgeschlossen gegenüber endlich [abzählbar] vielen üblichen Mengenoperationen.
Definition 1.2. Es sei Ω eine nichtleere Menge, A eine σ-Algebra in Ω.
Das Paar (Ω, A) heißt Messraum (measurable space); die Elemente ∈ A
heißen A-messbare Mengen.
Lemma 1.2.
a) Aα Algebren in Ω (α ∈ I) =⇒ ∩ Aα Algebra in Ω.
α∈I
b) C Mengensystem in Ω =⇒ es existiert eine kleinste C enthaltende
Algebra.
Entsprechend für σ-Algebren.
Definition 1.3. C sei ein Mengensystem in Ω. Die kleinste der C enthaltenden Algebren heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra. —
Entsprechend für σ-Algebren;
Bezeichnung: F(C) . . . die von C erzeugte σ-Algebra.
Definition 1.4. On := System der offenen Mengen des Euklidischen Raumes Rn ; Bn := F(On ), B := B1 . Bn wird als σ-Algebra der Borelschen
Mengen in Rn bezeichnet.
Bn enthält alle abgeschlossenen Mengen und alle höchstens abzählbaren
Mengen in Rn .
Es gilt Bn ⊂ P(Rn ).
6=
Satz 1.1. Das System Jn der halboffenen Intervalle (a, b] := {(x1 , . . . , xn ) ∈
Rn | ai < xi ≤ bi (i = 1, . . . , )} in Rn (a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈
Rn mit ai < bi ) [oder auch das System der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (−∞, a] oder der Intervalle (−∞, a)]
ist ein Erzeugersystem von Bn .
3
Definition 1.5. C sei ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion µ : C → R := R ∪ {+∞, −∞} heißt (mit a + ∞ = ∞ (a ∈ R),
∞ + ∞ = ∞ usw.)
a) ein Inhalt (content) auf C, wenn
• µ ist nulltreu, d.h. µ(∅) = 0,
• µ positiv, d.h. ∀
µ(A) ≥ 0,
A∈C
• µ additiv, d.h. für alle paarweise disjunkte An ∈ C (n = 1, 2, . . . , m)
P
Pm
Pm
mit m
A
∈
C
gilt
µ
(
A
)
=
n=1 n
n=1 n
n=1 µ(An ).
b) ein Maß (measure) auf C, wenn
• µ ist nulltreu, d.h. µ(∅) = 0,
• µ positiv, d.h. ∀
µ(A) ≥ 0,
A∈C
• µ σ-additiv, d.h. für alle paarweise disjunkte An ∈ C (n =
P
P∞
P∞
1, 2, . . .) mit ∞
A
∈
C
gilt
µ
(
A
)
=
n
n
n=1
n=1
n=1 µ(An ) .
“Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σP
P∞
Algebren (dann Verzicht auf Voraussetzung m
A
∈
C
bzw.
n
n=1
n=1 An ∈
C). Häufig werden nur diese Definitionsbereiche verwendet.
Jedes Maß ist ein Inhalt.
Definition 1.6. Ist A eine σ-Algebra in Ω, µ ein Maß auf A, so heißt
(Ω, A, µ) ein Maßraum (measure space). Ist (Ω, A) ein Messraum, Z =
{z1 , z2 , . . .} eine höchstens abzählbare Teilmenge von Ω, so heißt µ : A → R
mit µ(A) := Anzahl der zi ∈ A, A ∈ A, ein abzählendes Maß (counting
measure).
Bemerkung 1.2. A Algebra in Ω, µ endlicher Inhalt auf A.
A, B ∈ A, A ⊂ B =⇒ µ(B\A) = µ(B) − µ(A) . . . Subtraktivität.
Definition 1.7. Sei A eine σ-Algebra in Ω. Eine Abbildung P : A → R
heißt ein Wahrscheinlichkeitsmaß (W-Maß) auf A, wenn
4
• P (∅) = 0,
• P positiv, d.h. P (A) ≥ 0,
• P σ-additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .)
gilt
!
∞
∞
X
X
P (An ),
An =
P
n=1
n=1
• P normiert, d.h. P (Ω) = 1.
(Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space).
Ein W-Raum ist ein normierter Maßraum.
Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als
Merkmalraum, Stichprobenraum (sample space), die Mengen A ∈ A als
Ereignisse, P (A) als Wahrscheinlichkeit von A, die Elemente ω ∈ Ω bzw.
die 1-Punkt-Mengen {ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch Realisierungen).
1
Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω), P ({ω}) = |Ω|
(ω ∈ Ω)
(|Ω| = Anzahl der Elemente in Ω) heißt Laplacescher W-Raum:
Für A ∈ A gilt P (A) =
Anzahl der “günstigen” Fälle
|A|
=
|Ω| Anzahl der “möglichen” Fälle
Es sei (Ω, A) = (R, B) und (pk )k∈N0 (N0 := {0, 1, . . .}) eine Zahlenfolge mit
P
pk ≥ 0 (k ∈ N0 ), ∞
k=0 pk = 1. Dann ist P : B → R mit
X
P (A) :=
pk , A ∈ A ,
k∈A∩N0
ein W-Maß. (pk ) heißt Zähldichte zu P .
k
Ist speziell pk = e−λ λk! , (k ∈ N0 ) bei festem λ > 0, so heißt P PoissonVerteilung mit Parameter λ . . . Bezeichnung π(λ).
5
Bezeichnung [für Mengen An (n = 1, 2, . . .), A]
∞
An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . , ∪ An = A
n=1
∞
An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . , ∩ An = A.
n=1
Satz 1.2. Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞)
Inhalt auf A. Dann sind die folgenden Aussagen a), . . . , d) äquivalent:
a) µ σ-additiv
b) µ stetig von unten,
d.h. [An ∈ A, An ↑ A ∈ A =⇒ µ(An ) → µ(A)]
c) µ stetig von oben,
d.h. [An ∈ A, An ↓ A ∈ A =⇒ µ(An ) → µ(A)]
d) µ ∅-stetig,
d.h. [An ∈ A, An ↓ ∅ =⇒ µ(An ) → 0] .
Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b).
Lemma 1.3. Sei A eine Algebra in Ω, µ ein Inhalt auf A.
a) µ ist monoton,
d.h. [A, B ∈ A, A ⊂ B =⇒ µ(A) ≤ µ(B)] .
b) µ ist subadditiv,
m
m
P
n=1
n=1
d.h. [A1 , . . . , Am ∈ A =⇒ µ( ∪ An ) ≤
µ(An )] .
c) Ist µ ein Maß, dann ist µ sogar σ-subadditiv,
∞
∞
∞
P
n=1
n=1
n=1
d.h. [An ∈ A (n = 1, 2, . . .), ∪ An ∈ A =⇒ µ( ∪ An ) ≤
µ(An )] .
Satz 1.3 (1. Lemma von Borel und Cantelli).
W-Raum (Ω, A, P ); An ∈ A (n ∈ N) . Mit
∞
∞
lim An := ∩ ∪ Ak = {ω ∈ Ω | existieren unendlich viele n ∈ N mit ω ∈ An }
n=1 k=n
=
“Ereignis, dass unendlich viele An eintreten”
6
gilt dann:
∞
X
P (An ) < ∞
=⇒ P (lim An ) = 0,
n=1
d.h. P-f.s. gilt: An tritt nur endlich oft auf
Satz 1.4. (Fortsetzungs- und Eindeutigkeitssatz) [Verallgemeinerung
siehe Bauer (Maß- und Integrationstheorie) §5, Elstrodt Kap. II §4, Hinderer §16] Sei P ein normiertes [d.h. P (Ω) = 1] Maß auf einer Algebra A
in Ω. Dann existiert genau ein W-Maß P ∗ auf F(A), das P fortsetzt [d.h.
∀ P ∗ (A) = P (A)].
A∈A
Bemerkung 1.3. P ∗ in Satz 1.4 ist gegeben durch
(∞
)
X
P ∗ (A) = inf
P (Bn ) | Bn ∈ A (n = 1, 2, . . .) mit A ⊂ ∪ Bn , A ∈ F(A) .
n
n=1
Bemerkung 1.4. Es ist im allgemeinen nicht möglich, P fortzusetzen von
A auf P(Ω).
Satz 1.5. Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach
rechts halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt
zuordnet.
Definition 1.8. Das Maß λ in Satz 1.5 heißt Lebesgue–Borel–Maß (LB-Maß) in Rn .
Definition 1.9. Eine Funktion F : R → R, die monoton wachsend (im
Sinne von nicht fallend) und rechtsseitig stetig ist mit
lim F (x) = 0,
lim F (x) = 1 ,
x→−∞
x→+∞
heißt (eindimensionale) Verteilungsfunktion (VF).
Satz 1.6. Zu jedem W-Maß P auf B gibt es genau eine VF F : R → R, so
dass
(∗)
F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R
7
gilt, und umgekehrt . . . Bijektion P ←→ F . Hierbei F (x) = P ((−∞, x]), x ∈
R.
Beispiel: Φ : R → [0, 1] mit
1
Φ(x) := √
2π
Zx
t2
e− 2 dt, x ∈ R,
−∞
ist eine VF. Das zugehörige W-Maß auf B ist die sogenannte standardisierte Normalverteilung . . . Bezeichnung N (0, 1).
Verallgemeinerung: Normalverteilung (Gauß-Verteilung) N (a, σ 2 ) (a, σ ∈
R, σ > 0) mit durch
Zx
(t−a)2
1
e− 2σ2 dt, x ∈ R,
F (x) := √
2πσ
−∞
gegebener VF F .
Bemerkung 1.5. Definition 1.9, Satz 1.6 lassen sich auf Bn und Rn als
Definitionsbereiche von P bzw. F verallgemeinern statt B bzw. R. Dabei
ist die VF F zu einem W-Maß P auf Bn gegeben durch
F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn })
für (x1 , . . . , xn ) ∈ Rn .
Definition 1.10. Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) >
0. Dann heißt
P (A ∩ B)
P (A | B) :=
P (B)
die bedingte Wahrscheinlichkeit (conditional probability) von A unter
der Bedingung B.
Satz 1.7. Sei (Ω, A, P ) ein W-Raum.
a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das
auf B konzentriert ist [d.h. P (B | B) = 1].
8
b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt
P (A | B) = P (B | A) ·
P (A)
.
P (B)
m−1
c) Für An ∈ A (n = 1, . . . , m) mit P ( ∩ An ) > 0 gilt
n=1
m
m−1
n=1
n=1
P ( ∩ An ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · . . . · P (Am | ∩ An ) .
Satz 1.8. Es sei (Ω, A, P ) ein W-Raum, {Bn ; n ∈ I} eine höchstens
abzählbare Familie paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) >
P
0 (n ∈ I) und
Bn = Ω. Dann gilt
n∈I
a) die Formel von der totalen Wahrscheinlichkeit
X
P (A) =
P (Bn )P (A | Bn ) (A ∈ A)
n∈I
b) die Formel von Bayes
P (Bk ) · P (A | Bk )
, k ∈ I (A ∈ A mit P (A) > 0)
P (Bk | A) = P
P (Bn )P (A | Bn )
n∈I
Bezeichnungen [Maßraum (Ω, A, µ), W-Raum (Ω, A, P )]:
µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω . . . überall bis
auf eine Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmenge
hiervon].
L-fast überall (L-f.ü.) in Rn . . . überall bis auf eine Menge ∈ Bn vom L-BMaß Null [oder eine Teilmenge hiervon].
9
Kapitel 2
Kombinatorische
Wahrscheinlichkeitsrechnung
Zugrundegelegt werden Laplacesche W-Räume; die Abzählung der “günstigen” und der “möglichen” Fälle erfolgt systematisch mit Hilfe der Kombinatorik.
Definition 2.1. Gegeben seien n — nicht notwendig verschiedene — Elemente a1 , . . . , an . Das n-tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij 6= ik für
j 6= k (j, k = 1, . . . , n) heißt eine Permutation der gegebenen Elemente.
Satz 2.1. Die Anzahl der Permutationen von n verschiedenen Elementen
ist n!.
Verallgemeinerung:
Satz 2.2. Gegeben seien n Elemente; die verschiedenen Elemente darunter
seien mit a1 , . . . , ap bezeichnet (p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p,
p
P
ni = n), dann können die n Elemente auf
wobei
i=1
n!
n1 ! . . . np !
verschiedene Arten permutiert werden.
10
Definition 2.2. Sei A eine n-elementige Menge, k ∈ N.
a) [b)] Jedes k-tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung
aus A mit [ohne] Wiederholung und mit Berücksichtigung
der Anordnung.
(c) [d)] Werden in a) [b)] Kombinationen, welche dieselben Elemente in
verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Berücksichtigung der Anordnung.
Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen, wobei in a) [b)] die Zellen mehrfach [nicht mehrfach] besetzt werden
dürfen und die Kugeln unterscheidbar sind (ai . . . Nummer der Zelle, in
der die i-te Kugel liegt), in c) [d)] die Zellen mehrfach [nicht mehrfach]
besetzt werden dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben durch ein k-tupel von Zahlen
aus {1, . . . , n}, in dem die Zellennummern so oft auftreten, wie die zugehörige Zelle besetzt ist).
Satz 2.3. Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Menge A — mit [ohne] Wiederholung und mit [ohne] Berücksichtigung
der Anordnung — ist gegeben durch
m. Berücksichtigung der Anordnung
o. Berücksichtigung der Anordnung
m. Wiederholung
o. Wiederholung (1 ≤ k ≤ n)
nk
n(n − 1) . . . (n − k + 1)
n
n+k−1
k
k
Bestimmung von Fakultäten durch Tabellen für log n! und — bei großem n
— durch die Stirlingsche Formel
n n √
∼
n! =
2πn (n → ∞)
e
11
und ihre Verschärfung
exp
1
n!
1
< n √
< exp
,
12n + 1 ( e )n 2πn
12n
n ∈ N.
Anwendung in der Physik. Man beschreibt das makroskopische Verhalten von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige
Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich
genau ki der Teilchen in der i-ten Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die
n
P
n
ki = k.
Menge aller n-tupel (k1 , . . . , kn ) ∈ N0 von Besetzungszahlen mit
W-Maße auf P(Ω0 ) (charakterisiert durch p):
i=1
1) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen)
p(k1 , . . . , kn ) =
1
k!
k1 ! . . . kn ! n k
2) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen)
−1
n+k−1
p(k1 , . . . , kn ) =
k
3) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen )
( −1
n
, ki ∈ {0, 1}
k
p(k1 , . . . , kn ) =
0
, sonst.
Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein
W-Maß auf B mit der Zähldichte
( n
k
n−k
, k = 0, 1, . . . , n
k p (1 − p)
k→
0
, k = n + 1, n + 2, . . . ;
12
durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben.
13
Kapitel 3
Zufallsvariablen und Verteilungen
3.1
Meßbare Abbildungen und Zufallsvariablen
Definition 3.1. Zwei nichtleere Mengen Ω, Ω0 ; A0 ⊂ Ω0 ; Abbildung X :
Ω → Ω0 . Die Menge
{ω ∈ Ω | X(ω) ∈ A0 } =: X −1 (A0 ) =: [X ∈ A0 ]
(in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit
definierte Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu
unterscheiden von einer inversen Funktion!).
Bezeichnung. Sei X : Ω → Ω0 , C 0 Mengensystem in Ω0 .
X −1 (C 0 ) := {X −1 (A0 ) | A0 ∈ C 0 }.
| {z }
ein Mengensystem in Ω
Satz 3.1. Sei X : Ω → Ω0 .
P
a) X −1 und Mengenoperationen ∪, , ∩, c , \ sind vertauschbar;
z.B. X −1 ( ∪ A0α ) = ∪ X −1 (A0α ) (A0α ⊂ Ω0 , α ∈ Indexbereich I).
α∈I
b) X −1 (∅) = ∅;
α∈I
X −1 (Ω0 ) = Ω;
A0 ⊂ B 0 ⊂ Ω0 =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ).
c) A0 σ-Algebra in Ω0 =⇒ X −1 (A0 ) σ-Algebra in Ω.
14
d) C 0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C 0 )) = FΩ (X −1 (C 0 )) .
Definition 3.2. Messräume (Ω, A), (Ω0 , A0 ). Die Abbildung X : Ω → Ω0
heißt A-A0 -messbar [kurz: messbar; measurable], wenn gilt:
X −1 (A0 ) ∈ A,
∀
0
0
d.h. X −1 (A0 ) ⊂ A,
A ∈A
d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω.
In diesem Falle Schreibweise X: (Ω, A) → (Ω0 , A0 ).
Bemerkung 3.1. In Satz 3.1c ist X −1 (A0 ) die kleinste der σ-Algebren A
in Ω mit A − A0 -Messbarkeit von X.
Definition 3.3. Es sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum.
Die Abbildung X : (Ω, A) → (Ω0 , A0 ) heisst Zufallsvariable (ZV ) auf
(Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich: (Ω0 , A0 )-ZV auf (Ω, A, P );
random variable).
X : (Ω, A) → (R, B) heißt reelle ZV (oft auch nur ZV);
X : (Ω, A) → (R, B) heißt erweitert-reelle ZV;
X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor.
X(ω) für ein ω ∈ Ω heißt eine Realisierung der ZV X.
Bezeichnung B := {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} | B ∈ B}.
Satz 3.2. Messräume (Ω, A), (Ω0 , A0 ); X : Ω → Ω0 ; C 0 Erzeugersystem von
A0 . Dann gilt:
X messbar ⇐⇒ ( ∀ X −1 (C 0 ) ∈ A)
0
0
|C ∈C
{z
}
−1 0
d.h. X (C ) ⊂ A
Satz 3.3. Messraum (Ω, A), X : Ω → R. Dann gilt
X A-B-messbar ⇐⇒ ∀ [X ≤ α] ∈ A
α∈R
⇐⇒ ∀ [X < α] ∈ A
α∈R
⇐⇒ ∀ [X ≥ α] ∈ A.
α∈R
15
Korollar 3.1. Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt
[X < Y ], [X ≤ Y ], [X = Y ],
| {z }
:= {ω ∈ Ω | X(ω) < Y (ω)}.
[X 6= Y ] ∈ A.
Satz 3.4. Sei ∅ =
6 A ⊂ Rm , A ∩ Bm := {A ∩ B | B ∈ Bm }.
Jede stetige Abbildung g : A → Rn ist A ∩ Bm -Bn -messbar.
Satz 3.5. X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ).
Die zusammengesetzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 messbar.
Korollar 3.2. Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung
g : Rm → Rn ist g ◦ X : Ω → Rn A-Bn -messbar.
Satz 3.6. Messraum (Ω, A).
a) Sei Xn : (Ω, A) → (R, B) (n = 1, . . . , m).
Dann ist Y : Ω → Rm mit Y (ω) := (X1 (ω)), . . . , Xm (ω)), ω ∈ Ω,
A-Bm -messbar, und für g : (Rm , Bm ) → (R, B) ist g ◦ Y : Ω → R
A-B-messbar.
b) Seien X1,2 : (Ω, A) → (R, B).
Dann sind αX1 + βX2
(α, β ∈ R), X1 X2 ,
messbar.
X1
(falls existent) A-BX2
Satz 3.7. Messraum (Ω, A); Xn : (Ω, A) → (R, B) (n = 1, 2, . . .) .
Dann sind inf Xn , sup Xn , lim Xn , lim Xn A-B-messbar, ebenso lim Xn (falls
n
n
n
n
n
existent).
3.2
Bildmaße und Verteilungen
Satz 3.8. Messräume (Ω, A), (Ω0 , A0 ); Abbildung X : (Ω, A) → (Ω0 , A0 );
16
Maß µ auf A. Durch
µX (A0 ) := µ(X −1 (A0 ))
= µ({ω ∈ Ω | X(ω) ∈ A0 }) =: µ[X ∈ A0 ];
A0 ∈ A 0 ,
wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert.
Ist µ ein W-Maß auf A, dann ist µX ein W-Maß auf A0 .
Definition 3.4. Sei X eine (Ω0 , A0 )-ZV auf dem W-Raum (Ω, A, P ).
Das W-Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der ZV X.
Sprechweise: Die ZV X liegt in A0 ∈ A0 , nimmt Werte in A0 ∈ A0 an mit
Wahrscheinlichkeit PX (A0 ) = P [X ∈ A0 ]. P [X ∈ A0 ] = 1 . . . P -fast sicher
(P -f.s.) liegt X in A.
Bemerkung 3.2. W-Raum (Ω, A, P ), Messräume (Ω0 , A0 ), (Ω00 , A00 ); X :
(Ω, A) → (Ω0 , A0 ), Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt
PY ◦X = (PX )Y .
Definition 3.5. Messräume (Ωi , Ai ) (i = 1, . . . , n).
n
Die Produkt-σ-Algebra ⊗ Ai wird definiert als die von dem Mengeni=1
system
n
n
Q
Q
Ai | Ai ∈ Ai (i = 1, . . . , n) in
Ωi erzeugte σ-Algebra.
i=1
i=1
n
n
n
Q
⊗ (Ωi , Ai ) :=
Ωi , ⊗ Ai heißt Produkt-Messraum.
i=1
i=1
i=1
Beispiel: (Rn × Rm , Bn ⊗ Bm ) = (Rn+m , Bn+m ).
Bemerkung 3.3. Abbildung Xi : (Ω, A) → (Ωi , Ai ) (i = 1, . . . , n). Die
n
Q
Abbildung X : Ω →
Ωi mit
i=1
X(ω) := (X1 (ω), . . . , Xn (ω)), ω ∈ Ω
n
ist A- ⊗ Ai -messbar.
i=1
17
Bemerkung 3.4. Messräume (Ωi , Ai ) (i = 1, . . . , n). Ein W-Maß auf
n
⊗ Ai ist eindeutig festgelegt durch seine Werte auf dem Mengensystem
i=1
n
Q
Ai | Ai ∈ Ai (i = 1, . . . , n) .
i=1
Definition 3.6. Seien Xi (Ωi , Ai )-ZVn auf einem W-Raum (Ω, A, P ) (i =
1, . . . , n). Die Verteilung PX der ZV X := (X1 , . . . , Xn ) auf (Ω, A, P ) —
erklärt durch
PX (A) := P [(X1 , . . . , Xn ) ∈ A]
n
n
Q
Ai (Ai ∈ Ai , i = 1, . . . , n) —
für A ∈ ⊗ Ai oder auch nur für A =
i=1
i=1
heißt die gemeinsame Verteilung der ZVn Xi . Die Verteilungen PXi —
erklärt durch
PXi (Ai ) := P [Xi ∈ Ai ] = P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ]
für Ai ∈ Ai — heißen Randverteilungen von PX
(i = 1, . . . , n).
Wichtiger Spezialfall in Definition 3.6: (Ωi , Ai ) = (R, B) (i = 1, . . . , n).
Bemerkung 3.5. Bezeichnungen wie in Definition 3.6.
a) Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt.
n
Q
Ωk → Ωi die (messbare!) Projektionsabbildung.
b) Ist πi :
k=1
(ω1 , . . . , ωn ) → ωi , so gilt PXi = (PX )πi (i = 1, . . . , n).
Bemerkung 3.6.
a) Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle ZVn X1 , . . . , Xn
auf einem geeigneten W-Raum (Ω, A, P ) so, dass ihre gemeinsame
Verteilung mit Q übereinstimmt:
(Ω, A, P ) := (Rn , Bn , Q), Xi : Ω → R wird definiert als die Projektionsabbildung
(x1 , . . . , xn ) → xi (i = 1, . . . , n);
18
hierbei ist also X := (X1 , . . . , Xn ) die auf Rn definierte identische
Abbildung.
b) Möglichkeit der unmittelbaren
Verallgemeinerung
von a) auf einen
n
n
Q
Ωi , ⊗ Ai statt (Rn , Bn ).
Produkt-Meßraum
i=1
i=1
c) Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische
Abbildung, so gilt PX = Q. Jedes W-Maß lässt sich somit als eine
Verteilung auffassen (und — definitionsgemäß — umgekehrt).
19
Kapitel 4
Erwartungswerte und Dichten
Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle ZV X auf (Ω, A, P )
mit Verteilung PX (auf B) und VF F : R → R.
Bezeichnungen:

X(ω), falls X(ω) > 0
+
X (ω) :=
0
sonst

−X(ω), falls X(ω) < 0
−
X (ω) :=
0
sonst.
Der Erwartungswert EX der ZV X gibt einen “mittleren Wert” von X
bezüglich P an, die Varianz V (X) gibt die “Schwankung” der ZV X als
“mittleren Wert” ihrer quadratischen Abweichung von EX an.
Definition 4.1 des Erwartungswertes EX von X als Integral
Z
x PX (dx).
R
1. Schritt: Sei X ≥ 0 (also PX (R+ ) = 1, F (x) = 0 (x < 0)).
Z
Z
R
EX :=
x PX (dx) :=
x dF (x) := lim
[0,a] x dF (x)
| {z }
a→∞
|
{z
}
R(+)
R(+)
Riemann−Stieltjes−Integral
F (dx)
20
(somit 0 ≤ EX ≤ ∞)
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX :=
xPX (dx) := EX + − EX −
R
Definition 4.2 des Erwartungswertes EX von X als Integral
Z
Z
X(ω)P (dω) =:
XdP
Ω
Ω
0. Schritt: Sei X ≥ 0, und X nehme nur endlich viele Werte an. Dann
existiert Darstellung
X=
PN
PN
i=1 αi χAi
i=1 Ai
mit αi ∈ R, Ai ∈ A (i = 1, . . . , N ), paarweise disjunkt,
= Ω.
Z
EX :=
X dP :=
Ω
N
X
αi P (Ai )
i=1
1. Schritt: Sei X ≥ 0. Dann existieren ZVn Xn ≥ 0, die jeweils nur endlich
viele Werte annehmen mit Xn (ω) ↑ X(ω) (n → ∞), ω ∈ Ω(!):
Z
EX :=
X dP := lim EXn
n→∞
Ω
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX :=
X dP := EX + − EX −
Ω
Bemerkung 4.1. (zu Definition 4.1.2)
a) Die einzelnen Schritte — insbesondere bei der 2. Definition — sind
sinnvoll.
b) Die beiden Definitionen sind äquivalent.
21
R
c) Das Integral R xPX (dx) in der 1. Definition ändert seinen Wert nicht,
wenn man es gemäß der 2. Definition erklärt.
R
d) Der Begriff Ω XdP in Definition 4.2 lässt sich unmittelbar verallgeR
meinern auf den Fall eines Maßraumes (Ω, A, µ) und liefert Ω X(ω) µ(dω) =:
R
Ω X dµ. Wichtiger Spezialfall:
1) (Ω, A) = (Rn , Bn ) oder etwas allgemeiner Ω = B mit B ∈ Bn ,
A = σ-Algebra der Borelschen Mengen in B; µ = λ := (ReR
R
striktion des) L-B-Maß(es) auf A. Rn X dλ bzw. B X dλ wird als
Lebesgue–Integral bezeichnet.
R
R
Im Falle n = 1 Schreibweise R X(x) dx bzw. B X(x) dx.
2) (Ω, A) = (R, B), H : R → R maßdefinierende Funktion mit zugehörigem Maß µ, d.h. H(b)−H(a) = µ((a, b]), −∞ < a < b < ∞.
Schreibweise
Z
Z
Z
X(x) dH(x) :=
X(x) H(dx) :=
X dµ
R
R
R
Verallgemeinerung auf Ω = B ∈ B.
e) Sei X eine erweitert-reelle ZV auf einem W-Raum (Ω, A, P ) mit
(
X(ω), falls |X(ω)| < ∞, ω ∈ Ω,
P [|X| = ∞] = 0; Y (ω) :=
0
sonst.
Man definiert EX := EY , falls EX existiert.
Bemerkung 4.2. W-Raum (Ω, A, P ). Für A ∈ A gilt P (A) = EχA .
Definition 4.3. Existiert für die reelle ZV X auf dem W-Raum (Ω, A, P )
ein endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ).
R
Analog für Ω X dµ in Bemerkung 4.1d.
Lemma 4.1. Für eine reelle ZV X ≥ 0 mit VF F gilt
Z ∞
(1 − F (x)) dx .
EX =
0
22
Satz 4.1. Sei X eine reelle ZV auf einem W-Raum (Ω, A, P ).
a) X integrierbar ⇐⇒ X + und X − integrierbar ⇐⇒ |X| integrierbar,
b) existiert reelle integrierbare ZV Y ≥ 0 mit |X| ≤ Y P-f.s. =⇒ X
integrierbar,
c) X integrierbar, |{z}
Y = X P-f.s. =⇒ existiert EY = EX.
reelle ZV
Satz 4.2. Seien X, Y reelle integrierbare ZVn auf einem W-Raum (Ω, A, P ).
a) Es existiert E(X + Y ) = EX + EY .
b) Es existiert E(αX) = αEX (α ∈ R).
c) X ≥ Y =⇒ EX ≥ EY .
d) |EX| ≤ E|X|.
e) X = Y P-f.s. =⇒ EX = EY .
f) X ≥ 0, EX = 0 =⇒ X = 0 P-f.s.
Satz 4.3. (Satz von der monotonen Konvergenz; B. Levi) Für reelle ZVn Xn auf (Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞)
existiert EX = lim EXn . Hierbei EX := ∞, falls P [X = ∞] > 0. Entspren
R
chend für Reihen von nichtnegativen ZVn. — Analog für Ω X(n) dµ gemäß
Bemerkung 4.1d.
Definition 4.4. Sei X ein n-dimensionaler Zufallsvektor mit Verteilung
PX auf Bn und VF F : Rn → R.
a) Nimmt (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) X
höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung.
23
Ist X eine reelle ZV und PX auf N0 konzentriert (d.h. PX (N0 ) = 1),
so heißt die Folge (pk ) mit pk := PX ({k}) = P [X = k], k ∈ N0 , (wobei
P
pk = 1) Zähldichte von X bzw. PX .
b) Gibt es eine Funktion f : (Rn , Bn ) → (R+ , B+ ) [mit B+ := R+ ∩ B],
R
f (y) dy – allgefür die das uneigentliche Riemann-Integral Qn
(−∞,xi ]
i=1
R
f dλ [λ L-B-Maß auf Bn ] –
meiner das Lebesgue-Integral Qn
(−∞,xi ]
i=1 n
Q
(−∞, xi ] = F (x1 , . . . , xn ) übereinstimmt
existiert und mit PX
i=1
((x1 , . . . , xn ) ∈ Rn ), so heißt f Dichte(funktion) von X bzw. PX
bzw. F . — PX und F heißen totalstetig, falls sie eine Dichtefunktion
besitzen.
Bemerkung 4.3.
a) Eine totalstetige VF ist stetig.
b) Besitzt die n-dimensionale VF F : Rn → R eine Dichtefunktion f :
∂ nF
Rn → R+ , so existiert L-f.ü.
, und L-f.ü. — insbesondere
∂x1 . . . ∂xn
∂ nF
an den Stetigkeitsstellen von f —
= f.
∂x1 . . . ∂xn
c) Ein uneigentliches R-Integral einer nichtnegativen Bn -B-messbaren
Funktion lässt sich als L-Integral deuten.
Satz 4.4. Sei X eine reelle ZV mit Verteilung PX .
a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt
X
EX =
kpk .
k
b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das LebesgueR
R
Integral R xf (x) dx =: R xf (x) λ(dx) [λ L-B-Maß auf B] genau dann,
wenn EX existiert, und es gilt hierbei
Z
EX =
xf (x) dx .
R
24
Beispiel zu Satz 4.4. ZV X auf (Ω, A, P ).
a) X sei b(n, p)-verteilt, d.h. P [X = k] =
mit n ∈ N, p ∈ [0, 1]. EX = np.
n
k
pk (1−p)n−k (k = 0, 1, . . . , n)
−λ λ
b) X sei π(λ)-verteilt, d.h. P [X = k] = e
EX = λ.
k
k!
(k ∈ N0 ), mit λ > 0.
c) X sei N (a, σ 2 )-verteilt, d.h. X habe Dichtefunktion f : R → R+ mit
(x−a)2
1
e− 2σ2 x ∈ R ,
f (x) := √
2πσ
mit a ∈ R, σ > 0. EX = a.
Satz 4.5. X sei eine reelle ZV mit Verteilung PX und VF F ; g : (R, B) →
R
(R, B). E(g ◦ X) existiert genau dann, wenn R g dPX existiert, und es gilt
hierbei nach dem Transformationssatz für Integrale
Z
Z
Z
E(g ◦ X) =
g dPX =:
g dF =:
g(x) dF (x) ,
| {z }
R
R
R
F (dx)
P

g(k)pk
unter der Voraussetzung von Satz 4.4a.



k


Z
g(x)f (x) dx unter der Voraussetzung von Satz 4.4b.
E(g ◦ X) =




{z
}
|R


 Lebesgue-Integral
Insbesondere gilt (mit g = χA , wobei A ∈ B)
 P

pk
unter Vorauss. von Satz 4.4a



0

Z
 k∈A∩N
R
P [X ∈ A] = PX (A) =
χA (x)f (x) dx =: A f (x) dx unter Vorauss. von Satz 4.4b



|R
{z
}


 Lebesgue-Integral
Zusatz. X sei ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) mit Dichtefunktion f : Rn → R+ ; A ∈ Bn . Dann gilt:
Z
Z
χA (x)f (x) dx =:
f (x) dx.
P [X ∈ A] = PX (A) =
Rn
A
25
[Falls das entsprechende R-Integral existiert, dann R-Integral = L-Integral.]
R
Bemerkung 4.5. A f (x) dx in Satz 4.4 ist gleich dem L-B-Maß der Ordinatenmenge {(x, y) ∈ R2 | x ∈ A, 0 ≤ y ≤ f (x)} von f |A in R2 .
Lemma 4.2. X sei eine reelle ZV; 0 ≤ α < β < ∞. Dann gilt
E|X|β < ∞ =⇒ E|X|α < ∞ .
Definition 4.5. X sei eine reelle ZV; k ∈ N. Im Falle der Existenz heißt
EX k das k-te Moment von X und E(X − EX)k das k-te zentrale
Moment von X. Ist X integrierbar, dann heißt V (X) := E(X − EX)2 die
p
Varianz von X und σ(X) :=+ V (X) die Streuung von X.
Satz 4.6. X sei eine reelle integrierbare ZV.
a) V (X) = EX 2 − (EX)2 .
b) V (aX + b) = a2 V (X) (a, b ∈ R).
Beispiel zu Satz 4.6.
a) X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V (x) = np(1 − p).
b) X sie π(λ)-verteilt mit λ > 0. V (X) = λ.
c) X sei N (a, σ 2 )-verteilt mit a ∈ R, σ > 0.
k
Q
2k−1
2k
2k
E(X − a)
= 0, E(X − a) = σ
(2j − 1) (k ∈ N).
j=1
Satz 4.7. X sei eine reelle ZV auf einem W-Raum (Ω, A, P ). Dann gilt
für jedes ε > 0, r > 0:
P [|X| ≥ ε] ≤ ε−r E|X|r
(Markoffsche Ungleichung).
26
Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei
integrierbarem X auch in der Variante
P [|X − EX| ≥ ε] ≤ ε−2 V (X)
angegeben wird.
Satz 4.8. (Transformationssatz für Dichten). [Verallgemeinerung s.
Hinderer S. 148]
Es sei Q ein W-Maß auf B2 und T : R2 → R2 eine injektive stetigdifferenzierbare Abbildung. Es sei R := QT das Bild-W-Maß von Q bzgl.
T [d.h. R(B) = Q(T −1 (B)), B ∈ B2 ] und ∆ der Betrag der Funktionaldeterminante von T . Hat R die Dichte g, so hat Q die Dichte (g ◦ T )∆.
27
Kapitel 5
Unabhängigkeit
Definition 5.1. W-Raum (Ω, A, P ). Eine Familie {Ai | i ∈ I} von Ereignissen Ai ∈ A heißt unabhängig (ausführlich: stochastisch unabhängig
bzgl. P ), falls für jede nichtleere endliche Menge K ⊂ I gilt
!
\
Y
P
Ak =
P (Ak ) .
k∈K
k∈K
Definition 5.2. W-Raum (Ω, A, P ). Eine Familie {Xi | i ∈ I} von (Ωi , Ai )
- ZVn auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere
endliche Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν
(ν = 1, . . . , n) ist
n
Y
P [Xi1 ∈ Ai1 , . . . , Xin ∈ Ain ] =
P Xiν ∈ Aiν .
ν=1
Sprechweise: Unabhängigkeit der ZVn statt Unabhängigkeit der Familie
der ZVn.
Lemma 5.1. Eine Familie von Ereignissen ist genau dann unabhängig,
wenn jede endliche Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen.
Bemerkung 5.1 zu Definition 5.1 bzw. Definition 5.2.
Paarweise Unabhängigkeit 6⇒ Unabhängigkeit
28
Bemerkung 5.2. W-Raum (Ω, A, P ); Ereignisse Ai ∈ A, i ∈ I, mit (reellen) ZVn χAi (Indikatorfunktionen) auf (Ω, A, P ).
{Ai | i ∈ I} unabhängig ⇐⇒ {χAi | i ∈ I} unabhängig
Satz 5.1. Gegeben seien (Ωi , Ai ) - ZVn Xi auf einem W-Raum (Ω, A, P )
und Abb. gi : (Ωi , Ai ) → (Ω0i , A0i ), i ∈ I. Dann gilt:
{Xi | i ∈ I} unabhängig =⇒ {gi ◦ Xi | i ∈ I} unabhängig
Satz 5.2. Gegeben seien eine unabhängige Familie {Xi | i ∈ I} reeller ZVn
P
auf einem W-Raum (Ω, A, P ) und eine Zerlegung I =
Ij mit |Ij | < ∞.
j∈J
Das |Ij |-tupel {Xk | k ∈ Ij } sei mit Yj bezeichnet, j ∈ J.
a) Die Familie {Yj | j ∈ J} ist unabhängig.
b) Sind Abb. gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist (nach Satz
5.1) die Familie {gj ◦ Yj | j ∈ J} unabhängig.
Bemerkung 5.3. Satz 5.2 lässt sich auf (Ωi , Ai ) - ZVn und Abb. gj :
N
(Ωi , Ai ) → (Ω0j , A0j ) verallgemeinern.
i∈Ij
Satz 5.3. Seien Xi (i = 1, . . . , n) reelle ZVn auf einem W-Raum (Ω, A, P )
mit Verteilungsfunktionen Fi . Der Zufallsvektor X := (X1 , . . . , Xn ) habe
die n-dimensionale VF F.
n
Q
a) {X1 , . . . , Xn } unabhängig ⇐⇒ (∗)
F
(x
,
.
.
.
,
x
)
=
Fi (xi ) .
∀
1
n
n
(x1 ,...,xn )∈R
i=1
b) Existieren zu Fi (i = 1, . . . , n), F Dichten fi bzw. f , dann gilt

n
Q

f
(x
,
.
.
.
,
x
)
=
fi (xi )

1
n


i=1
(∗) ⇐⇒
für Lebesgue - fast alle (x1 , . . . , xn ) ∈ Rn .

|
{z
}



λ-fast alle mit λ = L-B-Maß auf Bn
29
Satz 5.4. Seien X1 , . . . , Xn unabhängige reelle ZVn auf einem W-Raum
(Ω, A, P ) mit endlichen Erwartungswerten. Dann existiert
E(X1 . . . Xn ) = EX1 · . . . · EXn .
— Entsprechendes gilt für komplexe ZVn Xk : (Ω, A) → (R2 , B2 ), wobei
EXk := E Re Xk + iE Im Xk
(k = 1, . . . , n)
Satz 5.5. Seien X1 , . . . , Xn unabhängige reelle ZVn mit endlichen Erwartungswerten. Dann gilt
!
n
n
X
X
V (Xj ) .
Xj =
V
j=1
j=1
Bemerkung 5.4. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn }
die sog. paarweise Unkorreliertheit, d.h.
∀ E(Xj − EXj )(Xk − EXk ) = 0 .
j6=k
Definition 5.3. Sind X, Y zwei unabhängige reelle ZVn auf einem WRaum (Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y =:
PX ∗ PY der ZV X + Y als Faltung von PX und PY bezeichnet.
Bemerkung 5.5. Die Faltungsoperation ist kommutativ und assoziativ.
Satz 5.6. Seien X, Y zwei unabhängige reelle ZVn.
a) Besitzen X und Y Dichten f bzw. g, so besitzt X +Y eine [als Faltung
von f und g bezeichnete] Dichte h mit
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx, t ∈ R .
R
R
|
{z
} |
{z
}
Lebesgue-Integrale
b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X +Y
eine [als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit
rk =
k
X
pk−j qj =
j=0
k
X
i=0
30
qk−i pi , k ∈ N0 .
Bemerkung 5.6. Gegeben seien Messräume (Ωi , Ai ) und W-Maße Qi auf
Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai ) — ZVn Xi
auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi | i ∈ I} und PXi = Qi
(Andersen und Jessen).
Satz 5.7. (2. Lemma von Borel und Cantelli) W-Raum (Ω, A, P ).
Die Familie {An ; n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann
gilt:
∞
X
P (An ) = ∞ (⇐⇒
)
P (limAn ) = 1 .
|
{z
}
n=1
P-f.s. tritt An unendlich oft auf
Definition
∞ 5.4.Messraum (Ω, A). σ-Algebren An ⊂ A (n ∈ N).
Tn := F ∪ Ak . . . die von An , An+1 , . . . erzeugte σ-Algebra.
∞
k=n
T∞ := ∩ Tn heißt die σ-Algebra der terminalen Ereignisse (tail events)
n=1
der Folge (An ).
Beispiele
1) Xn : (Ω, A) → (R, B); An := F(Xn ) := Xn−1 (B) (n ∈ N)
a) [
P
Xn konv.] ∈ T∞
b) [(Xn ) konv.] ∈ T∞
2) Messraum (Ω, A). Ereignisse An ∈ A (n ∈ N);
An := {∅, An , Acn , Ω} (n ∈ N).
∞
∞
lim sup An := ∩ ∪ Ak = {ω ∈ Ω | ω ∈ An für unendliche viele
n→∞
n=1 k=n
n} ∈ T∞
∞
∞
lim inf An := ∪ ∩ Ak = {ω ∈ Ω | ω ∈ An von einem Index an} ∈ T∞
n→∞
n=1 k=n
Satz 5.8 (Null-Eins-Gesetz von Kolmogorov) W-Raum (Ω, A, P ).
Sei (An ) eine unabhängige Folge von σ-Algebren An ⊂ A.
Dann gilt für jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder
P (A) = 1.
31
Kapitel 6
Erzeugende und charakteristische
Funktionen, Faltungen
Die erzeugenden und charakteristischen Funktionen sind ein methodisches
Hilfsmittel zur Untersuchung von W-Maßen.
6.1
Erzeugende Funktionen
Definition 6.1. Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit
Zähldichte (bk )k∈N0 bzw. X eine reelle ZV auf einem W-Raum (Ω, A, P ),
deren Verteilung PX auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann
heißt die auf [0, 1] (oder auch {s ∈ C | |s| ≤ 1}) definierte Funktion g mit
P

µ({k})sk


∞

X
k
g(s) :=
bk s =
bzw.


k=0

 P P [X = k]sk = P P ({k})sk = EsX
X
die erzeugende Funktion von µ bzw. X.
Bemerkung 6.1. In Definition 6.1 gilt |g(s)| ≤
|s| ≤ 1 .
Bemerkung 6.2.
32
P
bk |s|k ≤
P
bk = 1,
a) Die Binomialverteilung b(n, p) mit n ∈ N, p ∈ [0, 1] hat — mit q :=
1 − p — die erzeugende Funktion g mit
g(s) = (q + ps)n .
b) Die Poissonverteilung π(λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g mit
g(s) = e−λ+λs .
c) Als negative Binomialverteilung oder Pascal-Verteilung N b(r, p)
mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch
B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p —
die Zähldichte
r+k−1 r k
k → N b(r, p; k) :=
p q , k ∈ N0
k
besitzt. Speziell wird N b(1, p) — mit Zähldichte
k → p(1 − p)k , k ∈ N0
— als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn,
n
P
so ist die erweitert-reelle ZV X := inf {n ∈ N |
Xk = r} − r
k=1
mit inf ∅ := ∞ N b(r, p)-verteilt. X gibt die Anzahl der Misserfolge
bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoullirq
rq
Versuchen an. EX = , V (X) = 2 .
p
p
N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r .
Satz 6.1 (Eindeutigkeitssatz für erzeugende Funktionen).
Besitzen zwei auf B definierte, aber auf N0 konzentrierte W-Maße bzw.
Verteilungen dieselbe erzeugende Funktion, so stimmen sie überein.
Satz 6.2. Sei X eine reelle ZV, deren Verteilung auf N0 konzentriert ist,
mit erzeugender Funktion g.
33
a) g ist in {s ∈ C | |s| < 1} unendlich oft differenzierbar; für j ∈ N gilt
g (j) (1−) :=
lim
0≤s→1−0
g (j) (s) = E[X(X − 1) . . . (X − j + 1)] (≤ ∞) ,
insbesondere g 0 (1−) = EX.
b) EX < ∞ =⇒ V (X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 .
Satz 6.3. Seien X1 , . . . , Xn unabhängige reelle ZVn, deren Verteilungen
jeweils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn .
n
Q
gj
Für die erzeugende Funktion g der Summe X1 +. . .+Xn gilt dann g =
j=1
.
6.2
Charakteristische Funktionen
Definition 6.2. Es sei µ ein W-Maß auf B bzw. X eine reelle ZV mit
VF F . Dann heißt die auf −∞ < u < ∞ definierte (i.a. komplexwertige)
Funktion ϕ mit
Z
ϕ(u) :=
eiux µ(dx)
R
bzw.
ϕ(u) := EeiuX =
Z
eiux PX (dx) =
Z
eiux dF (x)
R
| R {z
}
L-S-Integral oder uneig. R-S-Integral
die charakteristische Funktion von µ bzw. X.
Bemerkung 6.3. In Definition 6.2 gilt
a) ϕ(0) = 1,
b) | ϕ(u) |≤ 1, u ∈ R,
c) ϕ gleichmäßig stetig in R,
d) ϕ(−u) = ϕ(u), u ∈ R.
34
Bemerkung 6.4. Die Normalverteilung N (a, σ 2 ) mit a ∈ R, σ 2 ∈ (0, ∞)
hat die charakteristische Funktion ϕ mit
ϕ(u) = eiau e−
σ 2 u2
2
.
u2
Insbesondere hat N (0, 1) die charakteristische Funktion ϕ mit ϕ(u) = e− 2 .
Bemerkung 6.5. Als Exponentialverteilung exp(λ) mit Parameter λ ∈
(0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion
f mit

λe−λx , x > 0
f (x) =
0,
x≤0
besitzt.
Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte ZV angegeben.
Ist X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert ist,
mit P [0 < X < ∞] > 0, so gilt
P [X > t + s | X > s] = P [X > t]
∀
(“Gedächtnislosigkeit”)
s,t∈(0,∞)
⇐⇒ PX ist eine Exponentialverteilung.
Für eine ZV X mit PX = exp(λ) gilt EX = λ1 , V (X) = λ12 .
λ
exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu
.
Bemerkung 6.6. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈
(0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion
f mit

 λν xν−1 e−λx , x > 0
f (x) = Γ(ν)
0,
x≤0
besitzt. Hierbei Γλ,1 = exp(λ). Γ 21 , n2 wird als Chi-Quadrat-Verteilung
χ2n mit n(∈ N) Freiheitsgraden bezeichnet.
Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) = λν2 .
ν
λ
Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu
.
35
Satz 6.4. (Eindeutigkeitssatz für charakteristische Funktionen)
Besitzen zwei auf B definierte W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie überein. — Ist µ ein W-Maß auf
B bzw. PX die Verteilung einer reellen ZV X mit zugehöriger VF F und
zugehöriger charakteristischer Funktion ϕ und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel
Z U −iua
e
− e−iub
1
F (b) − F (a)
= lim
ϕ(u) du .
|
{z
}
U →∞ 2π −U
iu
= µ((a, b]) bzw. PX ((a, b])
Satz 6.5. Gegeben sei eine VF F mit charakteristischer Funktion ϕ; es
R∞
sei −∞ | ϕ(u) | du < ∞. Dann besitzt F eine Dichte f , die stetig und
beschränkt ist, und es gilt die Umkehrformel
Z
1
e−iux ϕ(u) du, x ∈ R
f (x) =
2π R
R
[vgl. die Formel ϕ(u) = R eiux f (x) dx, u ∈ R, bei existierender Dichte f ].
Satz 6.6. Sei X eine reelle ZV mit Verteilung PX und charakteristischer
Funktion ϕ. Für j ∈ N gilt:
E | X |j < ∞
=⇒ ϕ hat eine stetige j-te Ableitung ϕ(j) mit
Z
ϕ(j) (u) = ij xj eiux PX (dx), u ∈ R,
R
insbesondere ϕ(j) (0) = ij EX j .
Satz 6.7. Seien X1 , . . . , Xn unabhängige reelle ZVn mit charakteristischen
Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe X1 +
. . . + Xn gilt dann
n
Y
ϕ=
ϕj .
j=1
Definition 6.3. Zu zwei W-Maßen P, Q auf B wird das W-Maß P ∗ Q auf
B, die sog. Faltung von P und Q, folgendermaßen definiert:
36
a) sei T : R × R → R mit T (x, y) = x + y;
P ∗ Q := (P ⊗ Q)T
(P ⊗Q W-Maß auf B2 mit (P ⊗Q)(B1 ×B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B,
sog. Produkt-W-Maß von P und Q)
oder — äquivalent —
b) man wähle ein unabhängiges Paar reeller ZVn X, Y mit PX = P ,
PY = Q und setze
P ∗ Q := PX+Y .
Satz 6.8.
a) Die Faltungsoperation ist kommutativ und assoziativ.
b) Es sei (X, Y ) ein unabhängiges Paar reeller ZVn. Für X, Y , X+Y seien
die Verteilungsfunktionen mit F, G, H, die Dichten — falls existent —
mit f, g, h und die Zähldichten — falls PX , PY auf N0 konzentriert
sind — mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt
Z
Z
H(t) =
F (t − y) G(dy) =
G(t − x) F (dx), t ∈ R.
R
R
Falls f existiert, so existiert h mit
Z
h(t) =
f (t − y) G(dy) für (L-f.a.) t ∈ R;
R
falls zusätzlich g existiert, so gilt
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx für (L-f.a.) t ∈ R.
R
R
Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit
rk =
k
X
pk−i qi =
i=0
k
X
i=0
Bemerkung 6.7.
37
qk−i pi (k ∈ N0 ).
a) Für n1,2 ∈ N, p ∈ [0, 1] gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p).
Die Summe von n unabhängigen b(1, p) verteilten ZVn ist also b(n, p)verteilt.
b) Für λ1,2 > 0 gilt π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ).
c) Für r1,2 ∈ N, p ∈ (0, 1) gilt N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p).
Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist also N b(r, p)verteilt.
2
d) Für a1,2 ∈ R, σ1,2
∈ (0, ∞) gilt
N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ).
e) Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Die Summe von n unabhängigen exp(λ)-verteilten ZVn ist Γλ,n -verteilt.
Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten
ZVn ist χ2n -verteilt.
38
Kapitel 7
Spezielle Verteilungen
7.1
Diskrete Verteilungen
Definition 7.1. Als Binomialverteilung b(n, p) mit Parametern n ∈
N, p ∈ (0, 1) oder auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf
{0, 1, . . . , n} konzentriert ist und die Zähldichte
n k
k 7→ b(n, p; k) :=
p (1 − p)n−k , k ∈ N0
k
besitzt.
Satz 7.1. Sei n ∈ N, p ∈ [0, 1]; q := 1 − p.
a) Ist (X1 , . . . , Xn ) ein n-tupel unabhängiger reeller ZVn mit P [Xi =
1] = p, P [Xi = 0] = q — d.h. mit jeweiliger b(1, p)-Verteilung —
P
(i = 1, . . . , n), so ist ni=1 Xi b(n, p)-verteilt.
b) Für eine ZV X mit PX = b(n, p) gilt EX = np, V (X) = npq.
c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n .
d) Für n1,2 ∈ N gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p),
39
d.h. für zwei unabhängige ZVn X1 , X2 mit PX1 = b(n1 , p), PX2 =
b(n2 , p) gilt
PX1 +X2 = b(n1 + n2 , p).
Bemerkung 7.1. Das n-tupel (X1 , . . . , Xn ) von ZVn aus Satz 7.1 beschreibt ein n-tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“MisserP
folg”) und jeweiliger Erfolgswahrscheinlichkeit p; nk=1 Xi gibt die Anzahl
der Erfolge in n Bernoulli-Versuchen an.
Definition 7.2. Als Poisson-Verteilung π(λ) mit Parameter λ > 0 wird
ein W-Maß auf B bezeichnet, das auf N0 konzentriert ist und die Zähldichte
−λ λ
k 7→ π(λ; k) := e
k
k!
, k ∈ N0
besitzt.
Satz 7.2. Sei λ > 0.
a) Ist (b(n, pn )) eine Folge von Binomialverteilungen mit npn → λ (n →
∞), dann konvergiert
b(n, pn ; k) → π(λ; k) (n → ∞) für alle k ∈ N0 .
b) Für eine ZV X mit PX = π(λ) gilt EX = V (X) = λ.
c) π(λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs .
d) Für λ1,2 > 0 gilt
π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ) .
Bemerkung 7.2. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teilchen auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle
durch eine b(n, m1 )-verteilte ZV angegeben. Der Grenzübergang n → ∞,
40
m → ∞ mit Belegungsintensität
einer π(λ)-verteilten ZV.
n
m
→ λ > 0 führt gemäß Satz 7.2a zu
Definition 7.3. Als negative Binomialverteilung oder Pascal-Verteilung
N b(r, p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder
auch B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p —
die Zähldichte
r+k−1 r k
k 7→ N b(r, p; k) :=
p q , k∈N
k
besitzt. Speziell wird N b(1, p) — mit Zähldichte k 7→ p(1 − p)k , k ∈ N0 —
als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet.
41
Satz 7.3. Sei r ∈ N, p ∈ (0, 1), q := 1 − p.
a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn. Die
P
erweitert-reelle ZV X := inf{n ∈ N | nk=1 Xk = r}−r mit inf ∅ := ∞
ist N b(r, p)-verteilt.
b) Für eine ZV X mit PX = N b(r, p) gilt EX =
rq
p,
V (X) =
rq
p2 .
c) N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r .
d) Für r1,2 ∈ N gilt
N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p) .
Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist somit
N b(r, p)-verteilt.
Bemerkung 7.3. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitertP
reelle ZV T := inf{n ∈ N | nk=1 Xk = r} mit inf ∅ := ∞ die Wartezeit bis
zum r-ten Auftreten der Eins in (Xn ) und durch die erweitert-reelle ZV
X = T − r die Anzahl der Misserfolge bis zum r-ten Erfolg bei der zu (Xn )
gehörigen Folge von Bernoulli-Versuchen angegeben.
Definition 7.4. Als hypergeometrische Verteilung mit Parametern
n, r, s ∈ N, wobei n ≤ r + s, wird ein W-Maß auf B bezeichnet, das auf
{0, 1, . . . , n} — sogar auf {max (0, n − s), . . . , min (n, r)} — konzentriert
ist und die Zähldichte
 r s 
 k n−k
, k = 0, 1, . . . , n
r+s
k 7→
n


0
, k = n + 1, n + 2, . . .
besitzt.
Bemerkung 7.4. Werden aus einer Urne mit r roten und s schwarzen
Kugeln rein zufällig n Kugeln ohne Zurücklegen gezogen (n, r, s wie in
Definition 7.4), so wird die Anzahl der gezogenen roten Kugeln durch eine ZV angegeben, die eine hypergeometrische Verteilung mit Parametern
42
n, r, s besitzt. Anwendung der hypergeometrischen Verteilung in der Qualitätskontrolle.
7.2
Totalstetige Verteilungen
Definition 7.5. Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞
1
wird ein W-Maß auf B bezeichnet, das eine Dichte f =
χ(a,b) besitzt.
b−a
Satz 7.4. Für eine ZV X mit Gleichverteilung auf (a, b) gilt EX =
(b − a)2
.
V (X) =
12
a+b
,
2
Definition 7.6. Als (eindimensionale) Normalverteilung oder GaußVerteilung N (a, σ 2 ) mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B
bezeichnet, das eine Dichte f mit
f (x) = √
(x−a)2
1
e− 2σ2 ,
2πσ
x∈R
besitzt. Speziell heißt N (0, 1) standardisierte Normalverteilung.
Bemerkung 7.5.
a) Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche Glocken1
kurve. Im Fall a = 0 ist f (0) = √
und hat f zwei Wendepunkte
2πσ
1
(±σ; √
).
2πeσ
b) Die Dichtefunktion und die VF φ von N (0, 1) sind tabelliert.
c) Ist die ZV X N (a, σ 2 )-verteilt, so ist
hierbei
P [a − σ ≤ X ≤ a + σ]
X −a
N (0, 1)-verteilt. Es gilt
σ
= 2φ(1) − 1 ≈ 0, 683
P [a − 2σ ≤ X ≤ a + 2σ] = 2φ(2) − 1 ≈ 0, 954
P [a − 3σ ≤ X ≤ a + 3σ] = 2φ(3) − 1 ≈ 0, 997 .
43
d) Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler.
Satz 7.5. Sei a ∈ R, σ > 0.
a) Für eine ZV X mit Verteilung N (a, σ 2 ) gilt:
2k−1
E(X − a)
2k
= 0, E(X − a)
k
Y
(2j − 1),
=σ
2k
k ∈ N;
j=1
insbesondere EX = a, V (X) = σ 2 ; die ZV cX + b mit 0 6= c ∈ R,
b ∈ R hat die Verteilung N (ca + b, c2 σ 2 ).
b) Die charakteristische Funktion von N (a, σ 2 ) ist ϕ mit
iau
ϕ(u) = e
e
σ 2 u2
2
.
c) Für a1,2 ∈ R, σ1,2 > 0 gilt
N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ) .
Definition 7.7. Als Exponentialverteilung exp(λ) mit Parameter λ > 0
wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit

 λe−λx , x > 0
f (x) =

0, x ≤ 0
besitzt.
Satz 7.6. Sei λ > 0.
a) Sei X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert
sei, mit P [0 < X < ∞] > 0. Dann gilt:
∀
P [X > t+s | X > s] = P [X > t] ⇐⇒ PX ist eine Exponentialverteilung.
s,t∈(0,∞)
“Gedächtnislosigkeit”
b) Für eine ZV X mit PX = exp(λ) gilt EX =
44
1
1
, V (X) = 2 .
λ
λ
c) exp(λ) hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
.
λ − iu
Bemerkung 7.6. Die zufällige Lebensdauer eines radioaktiven Atoms wird
durch eine exponentialverteilte ZV angegeben.
Definition 7.8. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0
wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit
 ν
 λ xν−1 e−λx , x > 0
Γ(ν)
f (x) =

0,
x≤0
besitzt. Hierbei Γλ,1 = exp(λ). Γ 12 , n2 wird als Chi-Quadrat-Verteilung χ2n
mit n(∈ N) Freiheitsgraden bezeichnet.
Satz 7.7. Seien λ, ν > 0, n ∈ N.
a) Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) =
ν
λ2
.
b) Γλ,ν hat die charakteristische Funktion ϕ mit
ν
λ
ϕ(u) =
.
λ − iu
c) Für ν1,2 > 0 gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Insbesondere ist Γλ,n die n-fache Faltung von exp(λ).
d) Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten
reellen ZVn ist χ2n -verteilt.
Bemerkung 7.7. Sind X, Y zwei unabhängige reelle ZVn mit PX =
X
als t-Verteilung
N (0, 1) und PY = χ2n , so wird die Verteilung der ZV p
Y /n
oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet
45
(n ∈ N). t1 bzw. St1 ist eine sogenannte Cauchy-Verteilung. — Anwendung von χ2n und Stn in der Statistik.
Sei {Tn | n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvariablen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1.
Definiere die ZV Nt := sup{n ∈ N | T1 + . . . + Tn ≤ t} (mit sup ∅ = 0),
t ∈ R+ .
Beispiel. In einem technischen System wird ein Bauelement mit endlicher
zufälliger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt.
Die einzelnen Lebensdauern seien Realisierung der ZVn Tn . Nt gibt die
Anzahl der Erneuerungen im Zeitintervall [0, t] an.
Satz 7.8. Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ >
0), so ist Nt π(λt)-verteilt, t ∈ R+ .
Bemerkung 7.8. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson-Prozess.
46
Kapitel 8
Gesetze der großen Zahlen
8.1
Konvergenzbegriffe
Definition 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum
(Ω, A, P ). Die Folge (Xn ) heißt gegen X
P
a) vollständig konvergent, wenn für jedes > 0 gilt n∈N P [|Xn − X| ≥
c
] < ∞ . . . Schreibweise Xn →X,
b) konvergent P -fast sicher (P -f.s., f.s.), wenn P [Xn → X (n → ∞)] = 1;
c) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn
für jedes > 0 gilt P [|Xn − X| ≥ ] → 0 (n → ∞)
P
. . . Schreibweise Xn →X,
d) konvergent im r-ten Mittel (r > 0), wenn E|Xn |r < ∞ ∀n, E|X|r < ∞
und E|Xn − X|r → 0 (n → ∞) [r = 2 . . . konv. im quadr. Mittel],
e) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion g : R → R
Eg(Xn ) → Eg(X) (n → ∞)
oder — hier äquivalent — wenn für die Verteilungsfunktionen Fn und
F von Xn bzw. X gilt
Fn (x) → F (x) (n → ∞)
47
D
in jedem Stetigkeitspunkt x von F . . . Schreibweise Xn →X.
Bemerkung 8.1.
a) Fn VF (n ∈ N), (Fn ) konv. impliziert nicht: lim Fn VF
n
b) Die Grenz-VF in Def. 8.1. e) ist eindeutig bestimmt.
Satz 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum (Ω, A, P).
c
a) Xn →X =⇒ Xn → X f.s.
b) Xn → X f.s. =⇒ Xn → X nach Wahrsch.
c) r > 0. Xn → X im r-ten Mittel =⇒ Xn → X nach Wahrsch.
d) Xn → X nach Wahrsch. =⇒ Xn → X nach Verteilung.
e) Xn → X nach Wahrsch. ⇐⇒ Zu jeder Teilfolge (Xnk )k∈N von (Xn )n∈N
gibt es eine P -f.s. konvergente Teilteilfolge (Xnki )i∈N .
8.2
Schwache und starke Gesetze der großen Zahlen
Definition 8.2. Eine Folge (Xn )n∈N von integrierbaren reellen ZVn auf
einem W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz
der großen Zahlen, wenn
n
1X
(Xk − EXk ) → 0 (n → ∞) nach Wahrscheinlichkeit bzw. P-f.s.
n
k=1
Bemerkung 8.2. Genügt eine Folge von ZVn dem starken Gesetz der
großen Zahlen, dann genügt sie auch dem schwachen Gesetz der großen
Zahlen.
48
Satz 8.2 (Kriterium von Kolmogorov für das starke Gesetz der
großen Zahlen). Eine unabhängige Folge (Xn )n∈N quadratisch integrierbarer reeller ZVn mit
∞
X
n−2 V (Xn ) < ∞
n=1
genügt dem starken Gesetz der großen Zahlen.
Satz 8.3 (Kolmogorovsches starkes Gesetz der großen Zahlen).
Für eine unabhängige Folge (Xn )n∈N identisch verteilter integrierbarer reeller ZVn gilt
n
1X
Xk → EX1 (n → ∞) f.s.
n
k=1
Bemerkung 8.3.
a) In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht weggelassen
werden.
b) Die Voraussetzung der Unabhängigkeit in Satz 8.3 kann zur Voraussetzung der paarweisen Unabhängigkeit abgeschwächt werden (Etemadi).
P −2
c) In Satz 8.2 kann bei
n V (Xn )(log n)2 < ∞ die Unabhängigkeitsvoraussetzung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.)
abgeschwächt werden (Rademacher, Menchov).
Satz 8.4 (Tschebyschev). Eine Folge (Xn )n∈N quadratisch integrierbarer
paarweise unkorrelierter [d.h. es gilt ∀ E(Xj − EXj )(Xk − EXk ) = 0]
j6=k
reeller ZVn mit
n
−2
n
X
V (Xk ) → 0 (n → ∞)
k=1
genügt dem schwachen Gesetz der großen Zahlen.
Bemerkung 8.4 (Folgerung aus obigen Sätzen). Für eine unabhängige
Folge (Xn ) identisch verteilter reeller ZVn mit P [X1 = 1] = p, P [X1 = 0] =
49
1 − p (festes p ∈ [0, 1]) gilt
n
1X
Xk → p (n → ∞) P-f.s. und nach Wahrscheinlichkeit
n
k=1
(Borelsches starkes Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetz der großen Zahlen).
Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache dar, dass i.a. die relative Häufigkeit eines Ereignisses bei großer Zahl
der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente näherungsweise konstant ist.
Beispiele zu Satz 8.3 und Bemerkung 8.4.
a) Es seien X1 , X2 , . . . unabhängige identisch verteilte ZVn mit existierenden (endlichen) EX1 =: a und V (X1 ) =: σ 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt
durch
n
1X
x :=
xi (sog. empirisches Mittel)
n i=1
und σ 2 durch
n
1 X
s :=
(xi − x)2
n − 1 i=1
2
Für
n
1X
Xi ,
X :=
n i=1
(sog. empirische Varianz).
n
1 X
S :=
(Xi − X)2
n − 1 i=1
2
gilt
EX = a,
ES 2 = σ 2
(sog. Erwartungstreue der Schätzungen),
ferner für n → ∞
X → a f.s.,
S 2 → σ 2 f.s. (sog. starke Konsistenz der Schätzfolgen).
b) Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)verteilten Lebensdauern (mit VF F ) gebe — bei festem T > 0 — die
50
Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt
(Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfällt, ist
p = F (T ) = 1 − e−λT . Nach Bemerkung 8.4 konvergiert mit Wahrscheinlichkeit Eins Zn /n → p (n → ∞). Wählt man T so, dass
F (T ) = 12 , d.h. T = (ln 2)/λ (T sog. Median von exp.(λ)), dann gilt
f.s.
Zn
1
→
n
2
(n → ∞).
Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet
(nach T Zeiteinheiten ist i.a. bei großem n ungefähr die Hälfte der
Atome zerfallen).
51
Kapitel 9
Zentrale Grenzwertsätze
9.1
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd
Definition 9.1.
a) W-Maße Qn (n ∈ N), Q auf der σ-Algebra B der Borelschen Mengen
in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly
convergent) — Schreibweise Qn → Q schwach — , wenn für jede
beschränkte stetige Funktion g : R → R gilt
Z
Z
g dQn →
g dQ (n → ∞).
R
R
b) Reelle ZVn Xn (n ∈ N), X (nicht notwendig auf demselben W-Raum
definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konvergent (convergent in distribution, convergent in law) — Schreibweise
D
Xn → X (n → ∞) — , wenn PXn → PX schwach, d.h. für jede
beschränkte stetige Funktion g : R → R gilt
Z
Z
g dPXn →
g dPX (n → ∞)
R
R
oder (äquivalent nach dem Transformationssatz für Integrale)
Eg(Xn ) → Eg(X) (n → ∞) .
52
Bemerkung 9.1. a) In Definition 9.1a ist das Grenz-W-Maß Q eindeutig
bestimmt.
b) In Definition 9.1b können Xn , X durch reelle ZVn Xn0 , X 0 mit PXn0 =
PXn , PX 0 = PX ersetzt werden.
Satz 9.1. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Aus Xn → X nach
D
Wahrscheinlichkeit (Schreibweise Xn → X) folgt Xn → X.
P
Satz 9.2. W-Maße Qn (n ∈ N), Q auf B bzw. reelle ZVn Xn (n ∈ N), X
mit VFn Fn , F .
D
Qn → Q schwach bzw. Xn → X (n → ∞) gilt genau dann, wenn Fn (x) →
F (x) (n → ∞) für alle Stetigkeitspunkte x von F .
Satz 9.3. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Ist X P-f.s. konstant,
so gilt:
D
Xn → X ⇐⇒ Xn → X .
P
Satz 9.4. Reelle ZVn Xn , Yn (n ∈ N), X auf (Ω, A, P )

D

Xn → X
D
=⇒ Yn → X .
|Xn − Yn | → 0 
P
Satz 9.5 (Spezialfall des Darstellungssatzes von Skorokhod). Reelle
D
ZVn Xn (n ∈ N), X mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ )
— wobei man Ω∗ = [0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen
kann — und reelle ZVn Xn∗ (n ∈ N), X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass
∗
∗
∗
∗
∀ PXn = PXn∗ , PX = PX ∗ , Xn → X
(n → ∞) P ∗ -f.s.
n
Satz 9.6 (Satz von der stetigen Abbildung). Reelle ZVn Xn (n ∈ N),
D
X mit Xn → X; Abbildung h : (R, B) → (R, B) sei PX -f.ü. stetig. Dann
gilt
D
h(Xn ) → h(X)
53
Satz 9.7 (Satz von Slutsky). Reelle ZVn Xn , Yn , X auf (Ω, A, P ); c ∈ R.


D
D

 Xn + Yn →
Xn → X
X +c
=⇒
D
Y X →
Yn → c 
cX .
n
n
P
Satz 9.8. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt:
D
fn → f λ-f.ü. =⇒ Xn → X
Satz 9.9. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt:
D
Xn → X ⇐⇒ Ef (Xn ) → Ef (X) für alle beschränkten gleichmäßig stetigen Funktionen f : R → R
Satz 9.10 (Satz von Lévy-Cramér; Stetigkeitssatz). W-Maße Qn
(n ∈ N), Q auf B mit charakteristischen Funktionen ϕn , ϕ : R → C. Dann
gilt:
Qn → Q schwach ⇐⇒ ∀
ϕn (u) → ϕ(u).
u∈R
Bemerkung 9.2. Die obigen Definitionen und Sätze lassen sich auf WMaße auf Bk bzw. k-dim. Zufallsvektoren übertragen.
9.2
Zentrale Grenzwertsätze
Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung
im Sinne der schwachen Konvergenz werden als zentrale Grenzwertsätze
bezeichnet.
Satz 9.11 (Zentraler Grenzwertsatz von Lindeberg-Lévy im 1dim. Fall). Sei (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer reeller ZVn mit EX1 =: a, V (X1 ) =: σ 2 mit σ > 0.
54
Dann
n
1 X
D
√
(Xk − a) → N (0, 1)-verteilte reelle ZV.
nσ
k=1
Korollar 9.2 (Zentraler Grenzwertsatz von de Moivre und Laplace). Für eine unabhängige Folge (Xn )n∈N identisch verteilter reeller
ZVn auf (Ω, A, P ) mit P [X1 = 1] = p, P [X1 = 0] = 1 − p =: q (0 < p < 1)
gilt
∀
α<β
∈R
Pn
Z β
1
X
−
np
2
k=1 k
<β →√
e−t /2 dt (n → ∞).
P α<
√
npq
(=)
(=)
2π α
Hilfsformel
∀
k∈N
|eix − 1 −
∀
x∈R
(ix)k−1
|x|k
ix
− ... −
|≤
1!
(k − 1)!
k!
Satz 9.11 folgt aus
Satz 9.12 (Zentraler Grenzwertsatz von Lindeberg). Die Folge (Xn )
quadratisch integrierbarer reeller ZVn mit EX12 > 0, ∀ EXn = 0 sei
n
Pn
2
2
unabhängig und erfülle — mit sn := i=1 EXi (n ∈ N) — die LindebergBedingung
n
(LB)
1 X
E(Xi2 χ[|Xi |>εsn ] ) → 0.
2
sn i=1
∀
ε>0
Dann
n
1 X
D
Xi → N (0, 1)-verteilte ZV.
sn i=1
Bemerkung 9.3.
a) In Satz 9.12 dient die Folge (sn ) zur Normierung. Die LindebergBedingung (LB) schränkt den Einfluss der einzelnen ZVn ein.
55
b) In Satz 9.12 — mit am Erwartungswert zentrierten ZVn — impliziert
die Lindeberg-Bedingung (LB) die Feller-Bedingung
1
max
EXi2 → 0
(n → ∞)
i=1,...,n s2n
und wird ihrerseits durch die Ljapunov-Bedingung
n
1 X
∃
δ>0
s2+δ
n
i=1
E|Xi |2+δ → 0
(n → ∞)
impliziert. Bei nicht am Erwartungswert zentrierten ZVn ist jeweils
Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen.
Satz 9.12 folgt aus
Satz 9.13 (Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von Zufallsvariablen). Für jedes n ∈ N seien Xn,1 , . . . , Xn,mn
unabhängige quadratisch integrierbare reelle ZVn mit mn → ∞ für n → ∞.
P n
2
Ferner seien EXn,i = 0, m
n=1 EXn,i = 1 und die Lindeberg-Bedingung
∀
ε>0
erfüllt. Dann
mn
X
mn
X
2
E Xn,i
χ[|Xn,i |>ε] ) → 0.
i=1
D
Xn,i → N (0, 1)-verteilte ZV.
i=1
9.3
Multivariate zentrale Grenzwertsätze
Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. EkXk < ∞, so
heißt EX = (EX1 , . . . , EXd )t Erwartungsvektor von X.
Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h.
EkXk2 < ∞, so heißt Cov(X) := (Cov(Xi , Xj ))i,j∈{1,...,d} Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen cov(Xi , Xj ) :=
56
E(Xi − EXi )(Xj − EXj ) der reellwertigen Zufallsvariablen Xi und Xj darstellen.
Definition 9.2. Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )t
heißt multivariat normalverteilt (oder auch d-dimensional normalverP
teilt), falls für jedes u ∈ Rd die Zufallsvariable hu, Xi = ut X = di=1 ui Xi
eindimensional normalverteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine Dirac-Verteilung δa im Punkt a interpretiert
wird.
Satz 9.14 (Cramér-Wold-Device). Für d-dimensionale Zufallsvektoren
D
D
Xn und X gilt Xn → X genau dann, wenn hu, Xn i → hu, Xi für alle
u ∈ Rd .
Satz 9.15 (Multivariater zentraler Grenzwertsatz). Für jedes n ∈ N
seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare d-dimensionale
ZVn mit mn → ∞ für n → ∞. Desweiteren gelte
∀
n
∀
i∈{1,...,mn }
mn
X
Cov(Xn,i ) = C ∈ Rd×d
∀
n
mn
X
∀
ε>0
EXn,i = 0
i=1
E kXk2n,i χ[kXi k>ε] ) → 0.
i=1
Dann
mn
X
D
Xn,i → N (0, C)-verteilten Zufallsvektor (n → ∞)
i=1
Korollar 9.3. Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer Zufallsvektoren, so gilt
n
1 X
D
√
(Xi − EXi ) → N (0, Cov(X1 ))-verteilte ZV.
n i=1
57
Teil II
Deskriptive Statistik
58
Die deskriptive (beschreibende) Statistik hat zum Ziel, empirische Daten
durch Tabellen und Grafiken übersichtlich darzustellen und zu ordnen, sowie durch geeignete grundlegende Kenngrößen zahlenmäßig zu beschreiben.
Vor allem bei umfangreichem Datenmaterial ist es sinnvoll, sich einen ersten Überblick zu verschaffen. Durch eine systematische Beschreibung der
Daten mit Hilfsmitteln der deskriptiven Statistik können mitunter auch
Fehler in den Daten — beispielsweise durch Tippfehler bei der Dateneingabe oder fehlerhafte Ergebnisse von Texterkennungssystemen — erkannt
werden. Die deskriptive Statistik verwendet keine stochastischen Modelle,
so dass die dort getroffenen Aussagen nicht durch Risikogrößen, wie z.B.
Fehlerwahrscheinlichkeiten, abgesichert sind. Dies kann durch die Methoden der schließenden Statistik erfolgen, sofern die untersuchten Daten den
dort unterstellten Modellannahmen genügen. Die explorative (erkundende)
Statistik hat darüber hinaus zum Ziel, bisher unbekannte Strukturen und
Zusammenhänge in den Daten zu finden und hierdurch neue Hypothesen
zu generieren. Diese auf Stichprobendaten beruhenden Hypothesen können
dann im Rahmen der schließenden Statistik mittels wahrscheinlichkeitstheoretischer Methoden auf ihre Allgemeingültigkeit untersucht werden.
Von der schließenden (auch induktiven oder inferentiellen) Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass
sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden
Grundgesamtheit macht. Beim Konklusionsschluss (indirekter Schluss) der
inferentiellen Statistik ist es also umgekehrt: Dort werden ausgehend von
der Stichprobe unbekannte Parameter der Grundgesamtheit geschätzt.
59
Kapitel 10
Statistische Kenngrößen
Bei statistischen Untersuchungen werden an geeignet ausgewählten Untersuchungseinheiten jeweils die Werte eines oder mehrerer Merkmale (variable) festgestellt. Werte, die von Merkmalen angenommen werden können,
heißen Merkmalsausprägungen.
Die Menge aller Untersuchungseinheiten wird als Grundgesamtheit oder
Population (population) bezeichnet. Eine Stichprobe (sample) ist eine
zufällig gewonnene endliche Teilmenge aus einer Grundgesamtheit.
Grob unterscheidet man zwischen qualitativen und quantitativen Merkmalen. Bei qualitativen Merkmalen unterscheidet man zwischen nominalen und ordinalen Merkmalen. Bei quantitativen Merkmalen unterscheidet man zwischen diskreten und stetigen Merkmalen.
Desweiteren unterscheidet man Merkmalstypen auch anhand ihrer Skalenniveaus: Nominalskala, Ordinalskala, Intervallskala und Verhältnisskala
(die letzten beiden Skalen für Merkmale, bei denen Differenzen bzw. Quotienten von Merkmalswerten sinnvoll interpretiert werden können).
Die Elemente einer Stichprobe x1 , . . . , xn eines ordinalen Merkmals können
der Größe nach geordnet werden. Hierbei bezeichne x(i) den i-kleinsten
60
Wert. Dann heißt
x(1) ≤ . . . ≤ x(n)
die geordnete Stichprobe (ordered sample) von x1 , . . . , xn .
10.1
Empirische Häufigkeitsverteilung
Ein Merkmal habe die Merkmalsausprägungen ξ1 , . . . , ξk . Liegt zu diesem
Merkmal eine Stichprobe x1 , . . . , xn vom Umfang n vor, so wird die Anzahl
Hn (ξi ) derjenigen Stichprobenelemente mit Merkmalsausprägung ξi als absolute Häufigkeit von ξi in der Stichprobe genannt. hn (ξi ) := Hn (ξi )/n
ist die relative Häufigkeit von ξi in der Stichprobe.
P
Handelt es sich um ein ordinales Merkmal, so ist ξk ≤ξi Hn (ξk ) die abP
solute kumulierte Häufigkeit von ξi und
ξk ≤ξi hn (ξk ) die relative
kumulierte Häufigkeit von ξi . Die relative kumulierte Häufigkeit des
Merkmalswertes ξ stimmt mit der empirischen Verteilungsfunktion
P
Fn (ξ) := 1/n ni=1 1[xi ≤ξ] am Merkmalswert ξ ∈ {ξ1 , . . . , ξk } überein.
10.2
Lagemaße
Ein Lagemaß ist eine Abbildung L : Rn → R, für die
∀
a∈R
∀
x1 ,...,xn
L(x1 + a, . . . , xn + a) = L(x1 , . . . , xn ) + a
gilt.
Beispiele für Lagemaße sind:
• Modalwert (mode)
xmod := argmax Hn (x)
x∈{x1 ,...,xn }
61
• das arithmetisches Mittel (sample mean)
n
1X
x̄n :=
xi
n i=1
• der (empirische) Median (median)

x n+1 ,
2
x̃ := x1/2 :=
1 xn + xn
2
falls n ungerade
2 +1
2
,
falls n gerade
• das empirische p-Quantil (p-th quantile) für ein p ∈ (0, 1)

x
falls np keine natürliche Zahl
(bnp+1c) ,
xp :=
 1 (x
falls np eine natürliche Zahl
2 (np) + x(np+1) ),
Das geometrische Mittel
x̄geom :=
n
Y
!1/n
xi
i=1
und das harmonische Mittel
n
x̄harm := Pn
1
i=1 xi
sind keine Lagemaße (wobei x1 , . . . , xn > 0).
Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll.
10.3
Steuungsmaße
Ein Streuungsmaß ist eine Abbildung S : Rn → R, für das
∀
a∈R
∀
x1 ,...,xn
S(x1 + a, . . . , xn + a) = S(x1 , . . . , xn )
Beispiele für Streuungsmaße sind:
62
• Stichprobenspannweite (sample range)
x(n) − x(1)
• empirische Varianz (sample variance)
n
1 X
s :=
(xi − x̄n )2
n − 1 i=1
2
empirische Standardabweicheung (sample standard deviation)
v
u
n
u 1 X
(xi − x̄n )2
s := t
n − 1 i=1
• Mittlere absolute Abweichung vom Median (mean absolute deviation)
n
1X
|xi − x̃n |
n i=1
• Interquartilabstand (interquartile distance)
x0.75 − x0.25
Der Variationskoeffizient (coefficient of variation)
s
x̄
ist kein Streuungsmaß.
Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll.
10.4
Zusammenhangsmaße
Gegeben seien die beiden Stichproben x1 , . . . , xn und y1 , . . . , yn zu zwei
Merkmalen. Bei einem ordinalen Merkmal können zu einer Stichprobe
x1 , . . . , xn die Ränge R(xi ) bestimmt werden. Hierbei erhält das kleinste
Element den Rang 1, das größte den Rang n.
63
• Sind die beiden Merkmale intervallskaliert, dann heißt
Pn
(xi − x̄)(yi − ȳ)
pPn
rxy := pPn i=1
2
2
(x
−
x̄)
i
i=1
i=1 (yi − ȳ)
Korrelationskoeffizient nach Pearson.
• Sind die beiden Merkmale ordinalskaliert, erhält man den Korrelationskoeffizient nach Spearman, wenn im Korrelationskoeffizient nach
Pearson die Werte xi und yi durch deren Ränge R(xi ) bzw. R(yi )
ersetzt werden.
• Bei nominalen oder ordinalen Merkmalen ist die mittlere quadratische
Kontingenz der Stichproben x1 , . . . , xn und y1 , . . . , yn definiert durch
2
K
L
1 X X Hkl − Hk·nH·l
Hk· H·l
n
n
k=1 l=1
wobei Hkl die absolute Häufigkeit der Stichprobenelemente (xi , yi ) mit
(xi , yi ) = (k, l), Hk· die absolute Häufigkeit der Stichprobenelemente
xi mit xi = k und H·l die absolute Häufigkeit der Stichprobenelemente
yi mit yi = l ist.
64
Kapitel 11
Grafiken
11.1
Beispiele für Grafiken für univariate Daten
• Säulendiagramm (bar chart)
• Kreisdiagramm (pie chart)
• Histogramm (histogram)
• Quantil-Quantil-Plot (QQ-plot)
• Box-Plot (box plot)
11.2
Beispiele für Grafiken für bivariate Daten
• Streudiagramm (scatter plot)
• Mosaikplot (mosaic plot)
65
Teil III
Grundbegriffe der Mathematischen
Statistik
66
Während die Wahrscheinlichkeitstheorie Eigenschaften vorgegebener WMaße untersucht, gibt die Mathematische Statistik Wege zur vernünftigen
Vorgabe von W-Maßen in wahrscheinlichkeitstheoretischen Modellen an.
Allgemein: Die Statistik ist eine Zusammenfassung von Methoden (samt
deren mit wahrscheinlichkeitstheoretischen Hilfsmitteln erfolgenden Gütebeurteilung), die es erlauben, vernünftige Entscheidungen bei Unsicherheit
zu treffen.
Bei einem einstufigen statistischen Experiment wird eine Realisierung x
einer Zufallsvariablen X mit Werten in der Menge R (mit σ-Algebra S)
beobachtet, wobei die auf S definierte Verteilung w von X nicht oder nur
teilweise bekannt ist. Die Menge R der möglichen Beobachtungsresultate
oder Stichproben(resultate) x — oder auch das Paar (R, S) — heißt Stichprobenraum [sample space]. Im Falle einer Stichprobe vom Umfang n ∈ N
liegt i.a. der Fall R = Rn , S = Bn vor, d.h. X ist ein n-dimensionaler Zufallsvektor mit unbekannter oder nur teilweise bekannter Verteilung w (auf
Bn ).
Es wird angenommen, dass w in einer Klasse {wϑ | ϑ ∈ Θ} von WVerteilungen auf S enthalten sei. Θ (mit einer darüber erklärten σ-Algebra
U von Mengen in Θ) heißt Parameterraum [parameter space] mit Parametern ϑ. Bei einer sog. parametrischen Verteilungsannahme läßt sich Θ
in natürlicher Weise als Teilmenge eines Rk (k ∈ N) auffassen. Dementsprechend unterscheidet man parametrische und nichtparametrische (verteilungsunabhängige) statistische Verfahren.
67
Kapitel 12
Testen von Hypothesen
12.1
Problemstellung, Bezeichnungen
In der Testtheorie tritt im Rahmen der oben beschriebenen Situation mit
unbekanntem Parameter ϑ folgende Aufgabe auf. Sei Θ = Θ0 ∪ Θ1 mit
nichtleeren disjunkten Mengen Θ0 , Θ1 (∈ U). Zu entscheiden ist aufgrund
der Beobachtung x ∈ R zwischen der mit H0 bezeichneten Hypothese, dass
ϑ ∈ Θ0 ist, und der mit H1 bezeichneten Hypothese, dass ϑ ∈ Θ1 ist; die
beiden Entscheidungen seien mit aH0 und aH1 bezeichnet.
Als (nichtrandomisierten) Test bezeichnet man eine Abbildung δ : R →
{aH0 , aH1 } der Form
(
aH1
für
x ∈ R1
δ(x) =
aH 0
für
x ∈ R0
mit R0 , R1 ∈ S, disjunkt, R0 ∪ R1 = R.
Ist H0 durch den Anwendungszweck ausgezeichnet, so heißt H0 Nullhypothese, H1 Alternativhypothese (Gegenhypothese). Es bedeutet aH0
Annahme oder wenigstens Nicht-Ablehnung der Hypothese H0 , aH1 Ablehnung der Hypothese H0 , R0 = {x ∈ R | δ(x) = aH0 } heißt Annahmebereich, R1 = {x ∈ R|δ(x) = aH1 } heißt kritischer Bereich (Ablehnungs68
bereich) des Tests. Ein Fehler 1. Art heißt eine Entscheidung für H1 ,
obwohl H0 richtig ist; ein Fehler 2. Art heißt eine Entscheidung für H0 ,
obwohl H1 richtig ist.
Die Funktion β : Θ → [0, 1] mit β(ϑ) := wϑ (R1 ) wird als Gütefunktion
des Tests δ bezeichnet, β(ϑ) gibt die Wahrscheinlichkeit an, dass X ∈ R1 ,
wenn ϑ der wahre Parameter ist; d.h. β(ϑ) gibt die mit Pϑ [δ(X) = aH1 ] bezeichnete Wahrscheinlichkeit für das Annehmen von H1 (Ablehnen von H0 )
an, wenn ϑ der wahre Parameter ist. Die Funktion 1 − β heißt Operationscharakteristik, ihr Graph heißt OC-Kurve. Die ideale Gütefunktion
β ist gegeben durch β(ϑ) = 0 für ϑ ∈ Θ0 , β(ϑ) = 1 für ϑ ∈ Θ1 ; Tests mit
einer solchen Gütefunktion existieren nur in trivialen Fällen.
Ein Test, dessen Fehlerwahrscheinlichkeiten 1. Art ≤ α ∈ (0, 1) sind, d.h.
mit supϑ∈Θ0 β(ϑ) ≤ α, heißt ein Test zum Niveau α.
Redeweise: Hat ein Test zum Niveau α nach Beobachtung von x ∈ R
zur Ablehnung von H0 geführt, so ist die Nichtgültigkeit von H0 , d.h. die
Gültigkeit von H1 , statistisch gesichert (signifikant) mit einer zugelassenen
Irrtumswahrscheinlichkeit α (Signifikanzzahl). Übliche α : 0, 05; 0, 01; 0, 005.
Ein Test mit diesem Ziel (Ablehnung von H0 oder auch Nicht-Ablehnung
von H0 ) heißt Signifikanztest (Hypothesentest) zum Niveau α zur statistischen Sicherung von H1 im Unterschied zum sog. Alternativtest mit
dem Ziel Annahme von H0 oder Annahme von H1 . – Die Hypothese, die
man statistisch sichern will, formuliert man also bei einem Signifikanztest
als Gegenhypothese. – In der Wahl von α drückt sich eine Bewertung der
Fehler 1. und 2. Art aus.
Häufig auftretendes (unsymmetrisches!) Testproblem: Gesucht ein Test δ
zum Niveau α mit möglichst kleinen Fehlerwahrscheinlichkeiten 2. Art
(Werten 1 − β(ϑ), ϑ ∈ Θ1 ), d.h. möglichst großen Schärfen β(ϑ) (ϑ ∈ Θ1 ).
Ein Test δ ∗ heißt gleichmäßig bester [uniformly most powerful, trennscharfer] Test für H0 gegen H1 zum Niveau α, wenn δ ∗ (mit Gütefunktion
69
βδ∗ ) ein Test für H0 gegen H1 zum Niveau α ist und wenn für alle Tests δ
(mit jeweiliger Gütefunktion βδ ) für H0 gegen H1 zum Niveau α gilt
∀
ϑ∈Θ1
βδ∗ (ϑ) ≥ βδ (ϑ).
Nimmt man die Forderung der Unverfälschtheit für Tests zum Niveau α
hinzu, d.h.
β(ϑ) ≥ α,
∀
ϑ∈Θ1
so läßt sich der Begriff eines gleichmäßig besten unverfälschten Tests
zum Niveau α definieren.
Bei Tests δ, für die mit einer Abb. T : R → R (mit {x ∈ R; T (x) < d} ∈
S, d ∈ R) – einer sog. Statistik T – und einem c ∈ R gilt
(
aH1 , falls T (x) > c
δ(x) =
aH0 , falls T (x) < c,
heißt T Prüfgröße und c kritischer Wert.
12.2
Wahrscheinlichkeitstheoretische Grundlagen für
spezielle Tests
Definition 12.1. (vgl. Definition 7.8) Die Verteilung der Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten reellen ZVn heißt ChiQuadrat-Verteilung mit n Freiheitsgraden (Bezeichnung χ2n ; n ∈ N).
Bemerkung 12.1. (vgl. Definition 7.8) Die Verteilung χ2n besitzt eine
Dichte f : R → R+ mit

1

xn/2−1 e−x/2 , x > 0
n/2 Γ( n )
2
f (x) =
2

0
, x ≤ 0.
Definition 12.2. (vgl. Bemerkung 7.7) Sind X, Y zwei unabhängige reelle
ZVn mit PX = N (0, 1) und PY = χ2n , so wird die Verteilung der ZV
70
p
X/ Y /n als t-Verteilung oder Student-Verteilung tn (auch Stn ) mit
n Freiheitsgraden bezeichnet (n ∈ N).
Bemerkung 12.2. Die Verteilung tn besitzt eine Dichte f : R → R+ mit
2
)
1 Γ( n+1
x
n+1
2
f (x) = √
1+
−
, x ∈ R.
n
n
2
nπ Γ( 2 )
Faustregeln:
b(n, p) mit hinr. Genauigkeit approx. durch N (np, np(1 − p)), falls np(1 −
p) > 9
χ2n mit hinr. Genauigkeit approx. durch N (n, 2n), falls n > 30
tn mit hinr. Genauigkeit approx. durch N (0, 1), falls n > 30
Satz 12.1. Seien X1 , . . . , Xn (n ≥ 2) unabhängige N (a, σ 2 )-vert. ZVn.
n
n
√
P
P
1
Xi ; S 2 := n−1
(Xi − X)2 , S := + S 2
X := n1
i=1
i=1
a) X und S 2 sind unabh.
2
b) X ist N (a, σn )-verteilt;
n−1 2
σ2 S
ist χ2n−1 -verteilt.
c) EX = a, ES 2 = σ 2 .
√
d) n X−a
S ist tn−1 -verteilt.
Bemerkung 12.3 zu Satz 12.1. Mit x = (x1 , . . . , xn ) ∈ Stichprobenraum
Rn und
n
n
1X
1 X
2
x :=
xi und s :=
(xi − x)2
n i=1
n − 1 i=1
sind die Abbildungen x → x und x → s2 (x ∈ Rn ) sog. erwartungstreue
Schätzfunktionen für a bzw. σ 2 (vgl. § 11). Die Realisierung x und X
heißt Stichprobenmittel, die Realisierung s2 von S 2 heißt empirische
Varianz.
Für ein W-Maß Q auf B mit VF F und ein α ∈ (0, 1) wird das α-Fraktil
erklärt als
min{t ∈ R; F (t) ≥ 1 − α}
71
und das α-Quantil als
min{t ∈ R; F (t) ≥ α}.
α-Quantil = (1 − α)-Fraktil; α-Fraktil= (1 − α)-Quantil.
12.3
Spezielle Tests bei parametrischen Verteilungsannahmen
Tests bei einseitigen Testproblemen:
Es seien uα , χ2n;α , tn;α , b(n, p)α die α-Fraktile der Verteilungen N (0, 1),
χ2n , tn , b(n, p) [n ∈ N, p ∈ (0, 1), 0 < α < 1]
Tafeln s. D. B. Owen, Handbook of Statist. Tables, 1962.
p
Approximation von b(n, p)α bei großem n durch np + np(1 − p) uα − 12 .
a) Einstichprobentests zum Niveau α ∈ (0, 1).
Unabhängige identisch verteilte ZVn X1 , . . . , Xn ;
x = (x1 , . . . xn ) beobachtete Realsierung von (X1 , . . . , Xn ).
n
1P
Stichprobenmittel x :=
xi ;
n i=1
n
1 P
Empirische Varianz s2 :=
(xi − x)2 (n ≥ 2),
n − 1 i=1
Standardabweichung s(≥ 0).
Prüfgröße T (x), kritischer Wert cα .
Die Hypothese H0 wird abgelehnt, wenn T (x) > cα .
a1 ) PXi = N (a, σ02 ) [NV mit unbekanntem α ∈ R, bekanntem σ02 ∈ (0, ∞)]
(<)
a0 ∈ R; H0 : a = a0 , H1 : a > a0
√
n
(x − a0 ), cα = uα
T (x) =
σ0
Einseitiger Gauß-Test (für eine Stichprobe)
72
a2 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)]
(<)
a0 ∈ R; H0 : a = a0 , H1 : a > a0 (n ≥ 2)
√ x − a0
T (x) = n
; cα = tn−1;α
s
Einseitiger t-Test von Student (für eine Stichprobe)
a3 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)]
(<)
σ02 ∈ (0, ∞); H0 : σ 2 = σ02 , H1 : σ 2 > σ02
n
1 P
T (x) = 2 (xi − x)2 ; cα = χ2n−1;α
σ0 i=1
Einseitiger χ2 -Test für die Varianz
(n ≥ 2)
a4 ) PXi = b(1, p) [Binomialvert. mit Par. 1 und p ∈ (0, 1)]
(<)
p0 ∈ (0, 1); H0 : p = p0 ; H1 : p > p0 .
n
P
T (x) =
xi ; cα = b(n, p0 )α
i=1
Einseitiger Binomialtest (für eine Stichprobe)
b) Zweistichprobentests zum Niveau α ∈ (0, 1).
Unabhängige ZVn X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit identisch verteilten
X1 , . . . , Xn1 und identisch verteilten Y1 , . . . , Yn2 ; x = (x1 , . . . , xn1 ), y =
(y1 , . . . , yn2 ) beobachtete Realsierung von (X1 , . . . , Xn1 ) bzw. (Y1 , . . . , Yn2 ).
n1
n2
1 P
1 P
xi bzw. y =
yj .
Stichprobenmittel x =
n1 i=1
n2 j=1
Prüfgröße T (x, y), kritischer Wert cα .
Die Hypothese H0 wird abgelehnt, wenn T (x, y) > cα .
b1 ) PXi = N (a, σ02 ), PYj = N (b, σ02 ) [NV mit unbekanntem (a, b) ∈ R2 ,
bekanntem σ02 ∈ (0, ∞)]
(<)
H0 : a = b, H1 : a > b
r
n1 n2 x − y
T (x, y) =
; c α = uα .
n1 + n2 σ0
Einseitiger Gauß-Test für zwei Stichproben
b2 ) PXi = N (a, σ 2 ), PYj = N (b, σ 2 ) [NV mit unbekanntem (a, b, σ 2 ) ∈
R2 × (0, ∞)]
73
(<)
H0 : a = b, H1 : a > b (n1 ≥ 2, n2 ≥ 2)
s
r
P
n1
n2
P
n1 n2
1
2
2
(x−y)/
(xi − x) + (yj − y) ;
T (x, y) =
n1 + n2
n1 + n2 − 2 i=1
j=1
cα = tn1 +n2 −2;α
Einseitiger t-Test von Student für zwei Stichproben.
Tests bei den entsprechenden zweiseitigen Testproblemen [H0 mit = statt
≤, H1 mit 6= statt > ] zum Niveau α:
zu a1 ), a2 ), b1 ), b2 ) . . . |T | statt T , c α2 statt cα ;
zu a3 ), a4 ) . . . kritischer Bereich {x ∈ Rn | T (x) < c1− α2 ∨ T (x) > c α2 }
Satz 12.2.
a) Alle oben angegebenen Tests sind jeweils Tests für H0 gegen H1 zum
Niveau α.
b) Die Tests in a1 ), a2 ), a3 ), b1 ), b2 ) und die angegebenen zweiseitigen Varianten zu a1 ), a2 ), b1 ), b2 ) sind jeweils gleichmäßig beste unverfälschte
Tests für H0 gegen H1 zum Niveau α; die Tests in a1 , a3 ), b1 ) sind sogar
jeweils gleichmäßig beste Tests für H0 gegen H1 zum Niveau α.
12.4
Tests bei nichtparametrischen Verteilungsannahmen
A) χ2 -Test (von Pearson)
(ein parametrischer Test mit Anwendung auf nichtparametrische Probleme)
Definition 12.3. Seien X1 , . . . , Xn unabhängige identisch verteilte ZVn
auf (Ω, A, P ), welche die r(≥ 2) geg. Werte cj mit Wahrscheinlichkeit pj
74
annehmen (j = 1, . . . , r) wobei
r
P
pj = 1. Die ZV Yj :=
n
P
i=1
j=1
I[X = c ]
i
j
mit Werten in {0, 1, . . . , n} gibt also die Anzahl der cj an, die in dem ntupel (X1 , . . . , Xn ) auftreten (j = 1, . . . , r). Die Verteilung m(n; p1 , . . . , pr )
von Y = (Y1 , . . . , Yr ) heißt Multinomialverteilung (Polynomialverteilung).
Die Zähldichte zu m(n; p1 , . . . , pr ) ist gegeben durch
(k1 , . . . , kr ) −→
n!
kr
1
pk
1 . . . pr ,
k1 ! . . . kr !
wobei k1 , . . . , kr ∈ {0, 1, . . . , n} mit k1 + . . . + kr = n.
Es gilt m(n0 ; p1 , . . . , pr ) ∗ m(n00 ; p1 , . . . , pr ) = m(n0 + n00 ; p1 , . . . , pr ).
Beobachtet seien Realisierungen xi von unabhängigen identisch verteilten
ZV Xi (i = 1, . . . , n) wie oben mit Realisierungen yj der zugehörigen Yj
(j = 1, . . . , r). — Diese Situation ergibt sich auch folgendermaßen. Seien
ei (i = 1, . . . , n) unabhängig identisch verteilte ZV mit Bildmessraum
X
(R1 , S1 ) [wichtiger Spezialfall: (R1 , S1 ) = (R, B) und Verteilungsfunktion
r
e1 ]. Es wird R1 in messbare fremde Zellen C1 , . . . , Cr mit P Cj = R1
F von X
j=1
ei (ω) ∈ Cj (i = 1, . . . , n; ω ∈ Ω).
eingeteilt und Xi (ω) := Cj gesetzt für X
Gegeben seien p10 , . . . , pr0 > 0 mit
r
P
pj0 = 1 bzw. VF F0 : R → [0, 1].
j=1
Zu testen sei H0 : (p1 , . . . , pr ) = (p10 , . . . , pr0 ) gegen H1 : (p1 , . . . , pr ) 6=
(p10 , . . . , pr0 ) bzw. H0 : F = F0 gegen F 6= F0 .
Ein Test, der asymptotisch (für n → ∞) zum Niveau α ∈ (0, 1) ist, ist
gegeben durch den sog. χ2 -Test (von Pearson), χ2 -Anpassungstest:
H0 wird abgelehnt, wenn — mit x = (x1 , . . . , xn ) —
T (x) :=
r
X
(yj − npj0 )2
j=1
npj0
r
1 X yj2
≡
− n > χ2r−1;α .
n j=1 pj0
75
Faustregel: Es soll npj0 ≥ 5 (j = 1, . . . , r) sein.
Die yj sind die beobachteten, die npj0 die bei Gültigkeit von H0 erwarteten
Zellhäufigkeiten bei Stichprobenumfang n. Hängen (p10 , . . . , pr0 ) bzw. F0
von einem unbekannten Parameter θ = (θ1 , . . . , θt ) ∈ Θ ⊆ Rt ab (Voraussetzung: r ≥ t + 2), so wird dieser geschätzt als Lösung θb (sog. modifizierte
χ2 -Schätzung von θ) der Likelihood-Gleichungen
r
X
yj ∂pj0
= 0 (l = 1, . . . , t)
np
∂θ
j0
l
j=1
b . . . , pr0 (θ))
b und obiger χ2 -Test verwendet,
(auch bei F0 !), dann (p10 (θ),
jedoch mit χ2r−1−t;α statt χ2r−1;α .
b ≥ 5 (j = 1, . . . , r) sein.
Faustregel: Es soll npj0 (θ)
Satz 12.3. X := (X1 , . . . , Xn ).
a) Im ersteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch
χ2r−1 -verteilt (für n → ∞).
b) Im letzteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch
χ2r−1−t -verteilt, falls zusätzlich gilt:
Θ offen, für alle θ ∈ Θ ist pj0 (θ1 , . . . , θt ) > 0,
∂pj0
∂ 2 pj0
,
ex. und stetig (j = 1, . . . , r; l, l0 , l00 = 1, . . . , t)
∂θl
∂θl0 ∂θl00
∂pj0
und die Matrix (
; j = 1, . . . , r; l = 1, . . . , t) vom Rang t.
∂θl
Anwendung des χ2 -Tests bei Kontingenztafeln.
Es seien (X1i , X2i ) (i = 1, . . . , n) n unabhängige identisch verteilte ZV,
welche die r · s (r ≥ 2, s ≥ 2) geg. Wertepaare (cj , dk ) mit Wahrscheinlichkeit pjk annehmen (j = 1, . . . , r; k = 1, . . . , s),
76
s
P
wobei pj· :=
pjk (j = 1, . . . , r), p·k :=
r
P
pjk (k = 1, . . . , s). — Diese
j=1
k=1
ZV können analog zu obigem aufgrund anderer ZV mit Hilfe einer Zelleinteilung definiert sein. — Es seien die zugehörigen Realisierungen (x1i , x2i )
(i = 1, . . . , n) beobachtet und dazu die entsprechenden Zellhäufigkeiten
yjk (j = 1, . . . , r; k = 1, . . . , s) in einer Kontingenztafel (r × s-Feldertafel)
angeordnet.
Zu testen sei zum Niveau α ∈ (0, 1)
H0 : Unabhängigkeit des Paares (X11 , X21 ), d.h. ∀ pjk = pj· p·k ,
(j,k)
gegen
H1 : Nicht-Unabhängigkeit des Paares (X11 , X21 ), d.h. ∃
pjk 6= pj· p·k .
(j,k)
Mit yj· :=
s
P
yjk , y·k :=
r
P
j=1
k=1
yjk sind n1 yj· und n1 y·k Likelihood-Schätzungen
für pj· bzw. p·k . H0 wird abgelehnt, wenn
X X (nyjk − yj· y·k )2
> χ2(r − 1)(s − 1); α .
nyj· y·k
j
k
Im Spezialfall r = s = 2 wird H0 abgelehnt, wenn
n
(y11 y22 − y12 y21 )2
> χ21; α
y1· y2· y·1 y·2
Test asymptotisch (für n → ∞) zum Niveau α. Faustregel n ≥ 60.
Ein weiterer Anpassungstest, d.h. Test zu dem Problem, ob vorliegende
Beobachtungen signifikant von einer durch die Nullhypothese angegebenen
Verteilung oder Klasse von Verteilungen abweichen, ist gegeben durch
B) Test von Kolmogorov(-Smirnov)
Sei (X1 , X2 , . . .) eine Folge unabhängiger identisch verteilter reellwertiger
ZV, die jeweils die VF F besitzen sollen. Beobachtet sei die Realisierung
77
x(n) := (x1 , . . . , xn ) ∈ Rn von X(n) := (X1 , . . . , Xn ). Die VF Fn mit
n
1X
Fn (t) := Fn (x(n) , t) :=
I
(xi )
n i=1 (−∞, t]
wird als empirische VF zu x(n) bezeichnet.
Die Schätzfunktion Fn (·, t) für F (t), t ∈ R, ist erwartungstreu und (stark)
konsistent, d.h.
Fn (X(n) , t) → F (t) (n → ∞) in Wahrscheinlichkeit (sogar f.s.).
Zu letzterem gilt als Verschärfung der
Satz von Glivenko-Cantelli. Unter den obigen Voraussetzungen strebt
sup | Fn (X(n) , t) − F (t) |→ 0 (n → ∞) f.s.
t∈R
Hierbei wird durch
Tn (x(n) ) := sup |Fn (x(n) , t) − F (t)|
t∈R
eine Abbildung Tn : (Rn , Bn ) → (R, B) definiert.
Bemerkung 12.4. Bei stetigem F ist die Verteilung Qn von
unabhängig von F , insbesondere ist Qn die Verteilung von
√
√
nTn (X(n) )
n
1X
n sup |
I[0, u] (Ui ) − u |
u∈[0,1] n i=1
mit unabhängigen ZV Ui (i = 1, . . . , n), die jeweils auf [0, 1] gleichverteilt
sind.
Satz von Kolmogorov(-Smirnov). Für jede stetige (wahre) VF F kon√
vergiert nTn (X(n) ) in Verteilung (n → ∞), wobei die Grenzverteilung Q
eine VF G besitzt mit

∞
P
2 2

 1 + 2 (−1)j e−2j t für t > 0
j=1
G(t) =


0
für t ≤ 0
78
Somit lässt sich
√
nTn (x(n) ) :=
√
n sup | Fn (x(n) , t) − F0 (t) | als Prüfgröße
t∈R
eines Tests zum Niveau α ∈ (0, 1) für H0 : F = F0 mit stetiger VF F0
gegen H1 : F 6= F0 verwenden: H0 wird abgelehnt, wenn
√
nTn (x(n) ) > Qn;α
|{z}
α-Fraktil von Qn
oder — bei größerem n —
√
nTn (x(n) ) > Qα
(Test von Kolmogorov-Smirnov).
Vertafelung von √1n Qn;α
Mathematische Statistik
Q0,05 = 1, 36;
(α = 0, 05 und 0, 01) z.B. bei v. d. Waerden,
Q0,01 = 1, 63.
Zu beobachtetem x(n) und somit zu Fn (x(n) , ·) verwendet man als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1−α die Menge
der stetigen Verteilungsfunktionen in einem durch
1
1
Fn (x(n) , ·) − √ Qn,α und Fn (x(n) , ·) + √ Qn;α
n
n
begrenzten Streifen (vgl. §16).
Für das entsprechende einseitige Testproblem H0 : F = stet. F0 , H1 : F ≥
F0 mit F 6= F0 wird statt Tn (x(n) ) die Prüfgröße
Tn+ (x(n) ) := sup[Fn (x(n) , t) − F0 (t)]
t∈R
mit Verteilung Q+
n (von
verwendet, wobei
√
nTn+ (X(n) ) bei wahrem F0 ) und Grenz-VF G+

1 − e−2t2 , t > 0
G+ (t) =
0,
t ≤ 0.
und kritischen Werten Q+
n;α bzw. Qα (G VF zu Q).
79
Als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1 −
α ergibt sich die Menge der stetigen Verteilungsfunktionen Fe mit Fe ≥
Fn (x(n) , ·) −
√1 Q+ .
n n;α
80
Kapitel 13
Parameterschätzung
Während die Testtheorie der Entscheidung dient, aus welcher Grundgesamtheit eine Stichprobe entnommen worden ist, bezieht sich die Schätztheorie auf das Entscheidungsproblem, wie man den wahren Parameter
(aus einem Kontinuum) aufgrund einer Stichprobe möglichst gut bestimmt.
Im folgenden werden die unmittelbar vor §13 angegebenen Bezeichnungen
verwendet, Θ ⊂ R, U ∈ B (allgemeiner Θ ⊂ Rk mit euklidischer Norm,
U ∈ Bk ).
Als Schätzfunktion (estimator), genauer Punktschätzfunktion, wird eine
Abbildung δ : R → Θ bezeichnet (mit δ −1 (U ) ∈ S für U ∈ U).
Eϑ δ(X) −ϑ heißt Verzerrung (bias) der Schätzfunktion für ϑ.
| {z }
Erwartungswert von δ(X) bei wahrem Parameter ϑ ∈ Θ
Eine Schätzfunktion mit Verzerrung 0 heißt erwartungstreu (unverzerrt,
unbiased).
Die Qualität einer erwartungstreuen Schätzfunktion für ϑ wird häufig an
Hand der i.a. von ϑ abhängigen Varianz Eϑ (δ(X) − ϑ)2 von δ(X) beurteilt.
Allg.: Eϑ (δ(X) − δ)2 ...mittlerer quadratischer Fehler (mean squared error,
MSE). Entsprechend: Schätzung eines g(ϑ) statt ϑ.
81
Satz 13.1. a) Seien X1 , . . . , Xn unabhängige identisch verteilte reelle Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. a := EX1 bzw. σ 2 :=
V (X1 ).
Die Abbildung
n
1 X
xi
x → x :=
n i=1
| {z }
Stichprobenmittel
bzw.
n
1 X
x → s :=
(xi − x)2
n − 1 i=1
|
{z
}
empirische Varianz
2
(x = (x1 , . . . , xn ) ∈ Rn )
ist eine erwartungstreue Schätzfunktion für a bzw. σ 2 .
n
P
2
Xi ist σn
Die Varianz von X := n1
(unabh. von a).
i=1
b) Sei (Xn )n∈N eine unabhängige Folge identisch verteilter reeller Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. Dann konvergiert (für n → ∞)
n
1 X
Xi → a mit Wahrscheinlichkeit Eins (f.s.)
n i=1
bzw.
n
1 X
(Xi − X)2 → σ 2 mit Wahrscheinlichkeit Eins (f.s.),
n − 1 i=1
sog. starke Konsistenz der zugehörigen Folge von Schätzfunktionen.
Spezialfall zu Satz 13.1: Xi b(1, p)-verteilt; das Stichprobenmittel ist als
eine relative Häufigkeit deutbar und dient als Schätzung für die Wahrscheinlichkeit p.
Ein Konstruktionsprinzip für Schätzfunktionen wird durch das nachstehende Maximum-Likelihood-Prinzip (R. A. Fisher) gegeben.
Sei (R, S) = (Rn , Bn ), Θ ⊂ Rk mit Θ ∈ Bk , U ⊂ Bk . Die Elemente der
Familie {wϑ ; ϑ ∈ Θ} sollen jeweils eine Dichte f (ϑ, ·) : R → R+ besitzen.
82
Aufgrund der Beobachtung x ∈ R sucht man δ(x) als Schätzung für den
unbekannten Parameter ϑ so zu wählen, dass f (ϑ, x) maximal bezüglich
ϑ ∈ Θ wird.
Bei beobachtetem x ∈ R wird f (·, x) : Θ → R+ als Likelihood-Funktion,
ein δ(x) ∈ Θ mit f (δ(x), x) = sup f (ϑ, x) als eine Maximum-Likelihoodϑ∈Θ
Schätzung (Likelihood-Schätzung) für ϑ ∈ Θ bezeichnet. Die zugehörige
Funktion δ : (R, S) → (Θ, U), falls als Schätzfunktion existent, heißt
Maximum-Likelihood-Schätzfunktion (Likelihood-Schätzfunktion) für ϑ ∈
Θ. — Man sucht eine Likelihood-Schätzung δ(x) ∈ Θ ⊂ Rk als Lösung des
Systems der Likelihood-Gleichungen
∂ ln f (ϑ, x)
= 0 (j = 1, . . . , k)
∂ϑj
[mit ϑ = (ϑ1 , . . . , ϑk )] zu gewinnen. Diese Bedingungen sind allerdings
weder notwendig noch hinreichend.
Analog für Zähldichten (im Falle n = 1; eine Verallgemeinerung auf n ∈ N
ist möglich).
Bemerkung 13.1 zum Maximum-Likelihood-Prinzip. Bei Unabhängigkeit
des n-tupels (X1 , . . . , Xn ) = X konvergiert unter gewissen Zusatzvoraussetzungen bei wahrem Parameter θ ∈ Θ die Lösung δn ◦ X der LikelihoodGleichungen (mit X statt x) gegen θ nach Wahrscheinlichkeit (n → ∞),
sog. Konsistenz der Schätzfunktionenfolge (δn ). Unter verschärften Zusatz√
voraussetzungen konvergiert sogar n(δ ◦ Xn − θ) nach Verteilung gegen
eine N (0, σ 2 )-verteilte reelle ZV mit minimalem σ 2 .
83
Kapitel 14
Parameterschätzung bei linearen
Regressionsproblemen
Beobachtungen in Abhängigkeit von unterschiedlichen Versuchsbedingungen werden aufgefaßt als Realisierungen von reellwertigen Zufallsvariablen,
die von einer (kontrollierbaren, d.h. nicht-zufallsabhängigen) Variablen s
aus einer Teilmenge von R (allgemeiner Rm ) abhängen. Die Abhängigkeit
von s des Erwartungswertes der Zufallsvariablen wird durch die sog. Regressionsfunktion beschrieben. In diesem Rahmen auftretende Probleme
werden als Regressionsprobleme bezeichnet. Lineare Regression liegt vor,
wenn die Abhängigkeit durch ein Polynom 1. Grades gegeben ist.
Beobachtet seien Realisierungen xi von unabhängigen quadratisch inte>
grierbaren reellwertigen Zufallsvariablen Xi [i = 1, . . . , n(= 3)] mit EXi =
a + b(si − s), V (Xi ) = σ 2 (nicht notw. normalverteilt) [vorgegebene si ∈ R
n
P
1
si ; unbekannte a, b ∈ R, σ 2 ∈
(nicht alle übereinstimmend) mit s := n
i=1
R+ (b sog. Regressionskoeffizient)].
84
Bezeichnungen: x = (x1 , . . . , xn ); b
a := x :=
n
wsx
1
n
n
P
xi ;
i=1
n
1X
1X
xi (si − s) =
(xi − x)(si − s) ;
:=
n i=1
n i=1
n
n
1X
1X
:=
si (si − s) =
(si − s)2 ;
n i=1
n i=1
bb := wsx ;
ws2
n
1X
2
σ
b :=
[xi − b
a − bb(si − s)]2 .
n i=1
ws2
Schätzungen b
a, bb, σ
b2 für a bzw. b bzw. σ 2 .
b
a, bb ergeben sich mit der Methode der kleinsten Quadrate, d.h. sie minimieren
P
R(a, b) := n1 [xi −a−b(si −s)]2 ; sie sind Lösungen der Normalgleichungen
i
X
[xi − s − b(si − s)] = 0 ,
i
X
[si − s][xi − a − b(si − s)] = 0 .
i
Es gilt σ
b2 = R(b
a, bb) .
Bei normalverteilten Xi ergeben sich b
a, bb auch als Maximum-LikelihoodSchätzungen, wobei die beiden Likelihood-Gleichungen zur Bestimmung
von b
a, bb mit den ob. Normalgleichungen äquivalent sind.
Die Schätzfunktionen α, β mit α(x1 , . . . , xn ) := b
a, β(x1 , . . . , xn ) := bb sind
erwartungstreu, d.h.
Eθ α(X1 , . . . , Xn ) = a
(θ = (a, b, σ 2 ) ∈ R × R × R+ ) ,
Eθ β(X1 , . . . , Xn ) = b
85
und konsistent, d.h. — bei wahrem Parameter θ = (a, b, σ 2 ) —
α(X1 , . . . , Xn ) → a nach Wahrscheinlichkeit (n → ∞) ,
β(X1 , . . . , Xn ) → b nach Wahrscheinlichkeit (n → ∞) .
Letzteres gilt für β jedoch nur, wenn
n
P
(si − s)2 → ∞ (n → ∞) .
i=1
Satz 14.1 (Spezialfall des Satzes von Gauß-Markov). Die obigen Schätzfunktionen α, β sind unter allen (in x1 , . . . , xn ) linearen erwartungstreuen
Schätzfunktionen für a bzw. b diejenigen mit der (bzgl. des Parameters
θ = (a, b, σ 2 )) gleichmäßig kleinsten Varianz.
86
Kapitel 15
Bereichsschätzung
Verwendet werden die unmittelbar vor §12 angegebenen Bezeichnungen.
Während die in §13 eingeführte Punktschätzung δ(x) eine präzise Aussage, jedoch häufig δ(X) f.s. eine Fehlentscheidung liefert, stellt eine Bereichsschätzung C(x) eine Teilmenge des Parameterraumes dar, wobei C(X)
mit einer vorgegebenen Mindestwahrscheinlichkeit 1 − α den zugrundeliegenden Parameter ϑ enthält.
Eine Abbildung C : R → P(Θ) − {∅} [P(Θ) . . . Potenzmenge von Θ]
wird als eine Bereichsschätzfunktion für ϑ(∈ Θ) zum Konfidenzniveau
(Sicherheitswahrscheinlichkeit) 1 − α [0 < α < 1] oder als ein Konfidenzbereich für ϑ zum Niveau 1 − α bezeichnet, wenn für alle ϑ ∈ Θ die
Wahrscheinlichkeit
wϑ ({x ∈ R | C(x) 3 ϑ}) =Pϑ [C(X) 3 ϑ]
(:=P [C(X) 3 ϑ] bei wahrem Par. ϑ)
definiert ist und
inf wϑ ({x ∈ R | C(x) 3 ϑ}) ≥ 1 − α
ϑ∈Θ
gilt. Die hierbei zu einer Beobachtung x ∈ R gehörige Bereichsschätzung
C(x) heißt Konfidenzschätzung (oder Konfidenzbereich) zum Niveau
1 − α.
87
Wichtiger Spezialfall: Konfidenzintervall (Vertrauensintervall); bei einem
Konfidenzintervall mit oberer Grenze ∞ wird die untere Grenze als untere
Konfidenzschranke zum Niveau 1 − α bezeichnet.
Zusammenhang zwischen Testtheorie und der Theorie der Konfidenzbereiche durch das folgende
Dualitätsprinzip. Stichprobenraum (R, S), Parameterraum (Θ, U); α ∈
(0, 1).
a) Sei C ein Konfidenzbereich zum Niveau 1 − α. Für jedes ϑ0 ∈ Θ läßt sich
dann A(ϑ0 ) := {x ∈ R | C(x) 3 ϑ0 } als Annahmebereich eines (nichtrandomisierten) Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α
auffassen.
b) Für jedes ϑ0 ∈ Θ sei A(ϑ0 ) Annahmebereich eines (nichtrandomisierten)
Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α. Dann ist C
mit C(x) := {ϑ ∈ Θ | A(ϑ) 3 x}, x ∈ R, ein Konfidenzbereich zum Niveau
1 − α, falls ∀ C(x) 6= ∅.
x∈R
Üblicherweise Kϑ0 . . . Θ − {ϑ0 } oder {ϑ ∈ Θ | ϑ > ϑ0 } oder {ϑ ∈ Θ | ϑ < ϑ0 }
oder {ϑ = (a, σ 2 ) ∈ R × (0, ∞) | a > a0 } usw.
Beispiele. Unabhängige identisch verteilte reelle ZVn X1 , . . . Xn ; x =
(x1 , . . . , xn ) beobachtete Realisierung von X = (X1 , . . . , Xn ); α ∈ (0, 1).
C(x), u(x) . . . Konfidenzintervall bzw. untere Konfidenzschranke für ϑ zum
Niveau 1 − α.
a) PXi = N (ϑ, σ02 ) [Normalverteilung mit unbekanntem ϑ ∈ R, bekanntem σ02 ∈ (0, ∞)]
h
σ0 u α2
σ0 u α2 i
σ0 uα
C(x) = x − √ , x + √
bzw. u(x) = x − √
n
n
n
n
P
1
xi und uα . . . α-Fraktil von N (0, 1) (n ≥ 1).
mit x := n
i=1
88
b) PXi = N (ϑ, σ 2 ) [Normalvert. mit unbekanntem ϑ ∈ R, unbekanntem
σ 2 ∈ (0, ∞)]
h
s
s
s i
C(x) = x − tn−1; α2 √ , x + tn−1; α2 √
bzw. u(x) = x − tn−1;α √
n
n
n
mit s2 :=
1
n−1
n
P
(xi − x)2 und tn−1;α . . . α-Fraktil von tn−1 (n ≥ 2).
i=1
89
Anhang A
Begriffe und Sätze der Maß- und
Integrationstheorie
Sei (Ω, A, µ) ein Maßraum.
Satz von der monotonen Konvergenz (B. Levi). Für erweitert reellwertige messbare Funktionen fn mit fn ≥ 0 (n ∈ N), fn ↑ f (n → ∞)
R
existiert lim fn dµ und es gilt
n
Z
lim
n
Z
fn dµ =
lim fn dµ
n
Lemma von Fatou. Für jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn ≥ 0 µ-f.ü. gilt
Z
Z
lim inf fn dµ ≤ lim inf fn dµ
Satz von der dominierten Konvergenz (Lebesgue). Für erweitertreellwertige messbare Funktionen fn (n ∈ N), f und g mit fn → f µ-f.ü.
R
(n → ∞), |fn | ≤ g µ-f.ü. für alle n und g dµ < ∞ existiert limn→∞ fn dµ
und es gilt
Z
Z
lim
n→∞
fn dµ =
90
f dµ
Definition. Das Maß µ heißt σ-endlich, wenn es ein Folge von Mengen
An ∈ A (n ∈ N) gibt mit An ↑ Ω und µ(An ) < ∞.
Ein Maß ν auf A heißt µ-stetig, falls
∀
µ(A) = 0 ⇒ ν(A) = 0.
A∈A
Satz von Radon-Nikodym. Messraum (Ω, A), σ-endliche Maße µ und ν
auf A, ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ )
mit
Z
ν(A) =
f dµ
∀
A∈A
A
f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”.
f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig
dν
kurz durch dµ
angegeben.
91
Literaturverzeichnis
[1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4.
Aufl.
[2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998),
2. Aufl.
[3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd
ed.
[4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer
(2004), 2nd ed.
[5] Dudley, R.M. Real Analysis and Probability; Cambridge University
Press (2002), 2nd ed.
[6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl.
[7] Feller, W. An Introduction to Probability and Its Applications I,II;
Wiley, New York (1970/71), 3rd ed./2nd ed.
[8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik;
VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl.
[9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin
(1977).
[10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls; Vieweg+Teubner (2008), 7. Aufl.
[11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen und Anwendungen. Vieweg+Teubner (2009), 2. Aufl.
92
[12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer,
Berlin (1985), 3. korr. Nachdruck.
[13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004),
2nd ed.
[14] Kallenberg, O. Foundations of Modern Probability. Springer, New
York (2001), 2nd ed.
[15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006)
[16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Aufl.
[17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed.
[18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen;
Springer (2004).
[19] Williams, D. Probability with Martingales; Cambridge University
Press (1991).
[20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008).
[21] Williams, D. Weighing the Odds — A Course in Probability and Statistics; Cambridge University Press (2001).
93