Wahrscheinlichkeit und Statistik WS 2009/10

Werbung
Wahrscheinlichkeit und Statistik
WS 2009/10
Vorlesung von Priv.-Doz. Dr. J. Dippon
25. März 2010
Inhaltsverzeichnis
I
Grundbegriffe der Wahrscheinlichkeitstheorie
1 Wahrscheinlichkeitsräume
1
2
2 Kombinatorische Wahrscheinlichkeitsrechnung
10
3 Zufallsvariablen und Verteilungen
14
3.1
Meßbare Abbildungen und Zufallsvariablen . . . . . . . . .
14
3.2
Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . .
16
4 Erwartungswerte und Dichten
20
5 Unabhängigkeit
28
6 Erzeugende und charakteristische Funktionen, Faltungen
32
6.1
Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . .
32
6.2
Charakteristische Funktionen . . . . . . . . . . . . . . . .
34
7 Spezielle Verteilungen
39
7.1
Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . .
39
7.2
Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . .
43
1
8 Gesetze der großen Zahlen
47
8.1
Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . .
47
8.2
Schwache und starke Gesetze der großen Zahlen . . . . . .
48
9 Zentrale Grenzwertsätze
II
52
9.1
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd
52
9.2
Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . .
54
9.3
Multivariate zentrale Grenzwertsätze . . . . . . . . . . . .
56
Deskriptive Statistik
58
10 Statistische Kenngrößen
60
10.1 Empirische Häufigkeitsverteilung . . . . . . . . . . . . . .
61
10.2 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
10.3 Steuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . .
62
10.4 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . .
63
11 Grafiken
III
65
11.1 Beispiele für Grafiken für univariate Daten . . . . . . . . .
65
11.2 Beispiele für Grafiken für bivariate Daten . . . . . . . . . .
65
Grundbegriffe der Mathematischen Statistik
12 Testen von Hypothesen
66
68
2
12.1 Problemstellung, Bezeichnungen . . . . . . . . . . . . . . .
68
12.2 Wahrscheinlichkeitstheoretische Grundlagen für spezielle Tests 70
12.3 Spezielle Tests bei parametrischen Verteilungsannahmen .
72
12.4 Tests bei nichtparametrischen Verteilungsannahmen . . . .
74
13 Parameterschätzung
81
14 Parameterschätzung bei linearen Regressionsproblemen
84
15 Bereichsschätzung
87
A Begriffe und Sätze der Maß- und Integrationstheorie
90
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
91
Teil I
Grundbegriffe der
Wahrscheinlichkeitstheorie
1
Kapitel 1
Wahrscheinlichkeitsräume
Definition 1.1. Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω heißt eine Algebra, wenn
1) ∅ ∈ A
2) A ∈ A =⇒ Ac := Ω\A ∈ A
3) A, B ∈ A =⇒ A∪B ∈ A
m
∪ An ∈ A,
oder — äquivalent — A1 , . . . , Am ∈ A =⇒
n=1
das System A heißt σ-Algebra, falls zusätlich gilt
∞
3’) An ∈ A (n = 1, 2, . . .) =⇒ ∪ An ∈ A .
n=1
Bemerkung 1.1. A σ-Algebra =⇒ A Algebra.
Lemma 1.1.
a) Sei A eine Algebra.
m
A1 , . . . , Am ∈ A =⇒ ∩ An ∈ A
n=1
A, B ∈ A =⇒ A\B ∈ A .
b) Sei A eine σ-Algebra.
∞
An ∈ A (n = 1, 2, . . .) =⇒ ∩ An ∈ A .
n=1
2
Eine Algebra [σ-Algebra] enthält ∅, Ω und ist abgeschlossen gegenüber endlich [abzählbar] vielen üblichen Mengenoperationen.
Definition 1.2. Es sei Ω eine nichtleere Menge, A eine σ-Algebra in Ω.
Das Paar (Ω, A) heißt Messraum (measurable space); die Elemente ∈ A
heißen A-messbare Mengen.
Lemma 1.2.
a) Aα Algebren in Ω (α ∈ I) =⇒ ∩ Aα Algebra in Ω.
α∈I
b) C Mengensystem in Ω =⇒ es existiert eine kleinste C enthaltende
Algebra.
Entsprechend für σ-Algebren.
Definition 1.3. C sei ein Mengensystem in Ω. Die kleinste der C enthaltenden Algebren heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra. —
Entsprechend für σ-Algebren;
Bezeichnung: F(C) . . . die von C erzeugte σ-Algebra.
Definition 1.4. On := System der offenen Mengen des Euklidischen Raumes Rn ; Bn := F(On ), B := B1 . Bn wird als σ-Algebra der Borelschen
Mengen in Rn bezeichnet.
Bn enthält alle abgeschlossenen Mengen und alle höchstens abzählbaren
Mengen in Rn .
Es gilt Bn ⊂ P(Rn ).
6=
Satz 1.1. Das System Jn der halboffenen Intervalle (a, b] := {(x1 , . . . , xn ) ∈
Rn | ai < xi ≤ bi (i = 1, . . . , )} in Rn (a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈
Rn mit ai < bi ) [oder auch das System der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (−∞, a] oder der Intervalle (−∞, a)]
ist ein Erzeugersystem von Bn .
3
Definition 1.5. C sei ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion µ : C → R := R ∪ {+∞, −∞} heißt (mit a + ∞ = ∞ (a ∈ R),
∞ + ∞ = ∞ usw.)
a) ein Inhalt (content) auf C, wenn
• µ ist nulltreu, d.h. µ(∅) = 0,
• µ positiv, d.h. ∀
µ(A) ≥ 0,
A∈C
• µ additiv, d.h. für alle paarweise disjunkte An ∈ C (n = 1, 2, . . . , m)
P
Pm
Pm
mit m
A
∈
C
gilt
µ
(
A
)
=
n=1 n
n=1 n
n=1 µ(An ).
b) ein Maß (measure) auf C, wenn
• µ ist nulltreu, d.h. µ(∅) = 0,
• µ positiv, d.h. ∀
µ(A) ≥ 0,
A∈C
• µ σ-additiv, d.h. für alle paarweise disjunkte An ∈ C (n =
P
P∞
P∞
1, 2, . . .) mit ∞
A
∈
C
gilt
µ
(
A
)
=
n
n
n=1
n=1
n=1 µ(An ) .
“Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σP
P∞
Algebren (dann Verzicht auf Voraussetzung m
A
∈
C
bzw.
n
n=1
n=1 An ∈
C). Häufig werden nur diese Definitionsbereiche verwendet.
Jedes Maß ist ein Inhalt.
Definition 1.6. Ist A eine σ-Algebra in Ω, µ ein Maß auf A, so heißt
(Ω, A, µ) ein Maßraum (measure space). Ist (Ω, A) ein Messraum, Z =
{z1 , z2 , . . .} eine höchstens abzählbare Teilmenge von Ω, so heißt µ : A → R
mit µ(A) := Anzahl der zi ∈ A, A ∈ A, ein abzählendes Maß (counting
measure).
Bemerkung 1.2. A Algebra in Ω, µ endlicher Inhalt auf A.
A, B ∈ A, A ⊂ B =⇒ µ(B\A) = µ(B) − µ(A) . . . Subtraktivität.
Definition 1.7. Sei A eine σ-Algebra in Ω. Eine Abbildung P : A → R
heißt ein Wahrscheinlichkeitsmaß (W-Maß) auf A, wenn
4
• P (∅) = 0,
• P positiv, d.h. P (A) ≥ 0,
• P σ-additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .)
gilt
!
∞
∞
X
X
P (An ),
An =
P
n=1
n=1
• P normiert, d.h. P (Ω) = 1.
(Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space).
Ein W-Raum ist ein normierter Maßraum.
Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als
Merkmalraum, Stichprobenraum (sample space), die Mengen A ∈ A als
Ereignisse, P (A) als Wahrscheinlichkeit von A, die Elemente ω ∈ Ω bzw.
die 1-Punkt-Mengen {ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch Realisierungen).
1
Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω), P ({ω}) = |Ω|
(ω ∈ Ω)
(|Ω| = Anzahl der Elemente in Ω) heißt Laplacescher W-Raum:
Für A ∈ A gilt P (A) =
Anzahl der “günstigen” Fälle
|A|
=
|Ω| Anzahl der “möglichen” Fälle
Es sei (Ω, A) = (R, B) und (pk )k∈N0 (N0 := {0, 1, . . .}) eine Zahlenfolge mit
P
pk ≥ 0 (k ∈ N0 ), ∞
k=0 pk = 1. Dann ist P : B → R mit
X
P (A) :=
pk , A ∈ A ,
k∈A∩N0
ein W-Maß. (pk ) heißt Zähldichte zu P .
k
Ist speziell pk = e−λ λk! , (k ∈ N0 ) bei festem λ > 0, so heißt P PoissonVerteilung mit Parameter λ . . . Bezeichnung π(λ).
5
Bezeichnung [für Mengen An (n = 1, 2, . . .), A]
∞
An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . , ∪ An = A
n=1
∞
An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . , ∩ An = A.
n=1
Satz 1.2. Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞)
Inhalt auf A. Dann sind die folgenden Aussagen a), . . . , d) äquivalent:
a) µ σ-additiv
b) µ stetig von unten,
d.h. [An ∈ A, An ↑ A ∈ A =⇒ µ(An ) → µ(A)]
c) µ stetig von oben,
d.h. [An ∈ A, An ↓ A ∈ A =⇒ µ(An ) → µ(A)]
d) µ ∅-stetig,
d.h. [An ∈ A, An ↓ ∅ =⇒ µ(An ) → 0] .
Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b).
Lemma 1.3. Sei A eine Algebra in Ω, µ ein Inhalt auf A.
a) µ ist monoton,
d.h. [A, B ∈ A, A ⊂ B =⇒ µ(A) ≤ µ(B)] .
b) µ ist subadditiv,
m
m
P
n=1
n=1
d.h. [A1 , . . . , Am ∈ A =⇒ µ( ∪ An ) ≤
µ(An )] .
c) Ist µ ein Maß, dann ist µ sogar σ-subadditiv,
∞
∞
∞
P
n=1
n=1
n=1
d.h. [An ∈ A (n = 1, 2, . . .), ∪ An ∈ A =⇒ µ( ∪ An ) ≤
µ(An )] .
Satz 1.3 (1. Lemma von Borel und Cantelli).
W-Raum (Ω, A, P ); An ∈ A (n ∈ N) . Mit
∞
∞
lim An := ∩ ∪ Ak = {ω ∈ Ω | existieren unendlich viele n ∈ N mit ω ∈ An }
n=1 k=n
=
“Ereignis, dass unendlich viele An eintreten”
6
gilt dann:
∞
X
P (An ) < ∞
=⇒ P (lim An ) = 0,
n=1
d.h. P-f.s. gilt: An tritt nur endlich oft auf
Satz 1.4. (Fortsetzungs- und Eindeutigkeitssatz) [Verallgemeinerung
siehe Bauer (Maß- und Integrationstheorie) §5, Elstrodt Kap. II §4, Hinderer §16] Sei P ein normiertes [d.h. P (Ω) = 1] Maß auf einer Algebra A
in Ω. Dann existiert genau ein W-Maß P ∗ auf F(A), das P fortsetzt [d.h.
∀ P ∗ (A) = P (A)].
A∈A
Bemerkung 1.3. P ∗ in Satz 1.4 ist gegeben durch
(∞
)
X
P ∗ (A) = inf
P (Bn ) | Bn ∈ A (n = 1, 2, . . .) mit A ⊂ ∪ Bn , A ∈ F(A) .
n
n=1
Bemerkung 1.4. Es ist im allgemeinen nicht möglich, P fortzusetzen von
A auf P(Ω).
Satz 1.5. Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach
rechts halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt
zuordnet.
Definition 1.8. Das Maß λ in Satz 1.5 heißt Lebesgue–Borel–Maß (LB-Maß) in Rn .
Definition 1.9. Eine Funktion F : R → R, die monoton wachsend (im
Sinne von nicht fallend) und rechtsseitig stetig ist mit
lim F (x) = 0,
lim F (x) = 1 ,
x→−∞
x→+∞
heißt (eindimensionale) Verteilungsfunktion (VF).
Satz 1.6. Zu jedem W-Maß P auf B gibt es genau eine VF F : R → R, so
dass
(∗)
F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R
7
gilt, und umgekehrt . . . Bijektion P ←→ F . Hierbei F (x) = P ((−∞, x]), x ∈
R.
Beispiel: Φ : R → [0, 1] mit
1
Φ(x) := √
2π
Zx
t2
e− 2 dt, x ∈ R,
−∞
ist eine VF. Das zugehörige W-Maß auf B ist die sogenannte standardisierte Normalverteilung . . . Bezeichnung N (0, 1).
Verallgemeinerung: Normalverteilung (Gauß-Verteilung) N (a, σ 2 ) (a, σ ∈
R, σ > 0) mit durch
Zx
(t−a)2
1
e− 2σ2 dt, x ∈ R,
F (x) := √
2πσ
−∞
gegebener VF F .
Bemerkung 1.5. Definition 1.9, Satz 1.6 lassen sich auf Bn und Rn als
Definitionsbereiche von P bzw. F verallgemeinern statt B bzw. R. Dabei
ist die VF F zu einem W-Maß P auf Bn gegeben durch
F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn })
für (x1 , . . . , xn ) ∈ Rn .
Definition 1.10. Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) >
0. Dann heißt
P (A ∩ B)
P (A | B) :=
P (B)
die bedingte Wahrscheinlichkeit (conditional probability) von A unter
der Bedingung B.
Satz 1.7. Sei (Ω, A, P ) ein W-Raum.
a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das
auf B konzentriert ist [d.h. P (B | B) = 1].
8
b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt
P (A | B) = P (B | A) ·
P (A)
.
P (B)
m−1
c) Für An ∈ A (n = 1, . . . , m) mit P ( ∩ An ) > 0 gilt
n=1
m
m−1
n=1
n=1
P ( ∩ An ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · . . . · P (Am | ∩ An ) .
Satz 1.8. Es sei (Ω, A, P ) ein W-Raum, {Bn ; n ∈ I} eine höchstens
abzählbare Familie paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) >
P
0 (n ∈ I) und
Bn = Ω. Dann gilt
n∈I
a) die Formel von der totalen Wahrscheinlichkeit
X
P (A) =
P (Bn )P (A | Bn ) (A ∈ A)
n∈I
b) die Formel von Bayes
P (Bk ) · P (A | Bk )
, k ∈ I (A ∈ A mit P (A) > 0)
P (Bk | A) = P
P (Bn )P (A | Bn )
n∈I
Bezeichnungen [Maßraum (Ω, A, µ), W-Raum (Ω, A, P )]:
µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω . . . überall bis
auf eine Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmenge
hiervon].
L-fast überall (L-f.ü.) in Rn . . . überall bis auf eine Menge ∈ Bn vom L-BMaß Null [oder eine Teilmenge hiervon].
9
Kapitel 2
Kombinatorische
Wahrscheinlichkeitsrechnung
Zugrundegelegt werden Laplacesche W-Räume; die Abzählung der “günstigen” und der “möglichen” Fälle erfolgt systematisch mit Hilfe der Kombinatorik.
Definition 2.1. Gegeben seien n — nicht notwendig verschiedene — Elemente a1 , . . . , an . Das n-tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij 6= ik für
j 6= k (j, k = 1, . . . , n) heißt eine Permutation der gegebenen Elemente.
Satz 2.1. Die Anzahl der Permutationen von n verschiedenen Elementen
ist n!.
Verallgemeinerung:
Satz 2.2. Gegeben seien n Elemente; die verschiedenen Elemente darunter
seien mit a1 , . . . , ap bezeichnet (p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p,
p
P
ni = n), dann können die n Elemente auf
wobei
i=1
n!
n1 ! . . . np !
verschiedene Arten permutiert werden.
10
Definition 2.2. Sei A eine n-elementige Menge, k ∈ N.
a) [b)] Jedes k-tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung
aus A mit [ohne] Wiederholung und mit Berücksichtigung
der Anordnung.
(c) [d)] Werden in a) [b)] Kombinationen, welche dieselben Elemente in
verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Berücksichtigung der Anordnung.
Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen, wobei in a) [b)] die Zellen mehrfach [nicht mehrfach] besetzt werden
dürfen und die Kugeln unterscheidbar sind (ai . . . Nummer der Zelle, in
der die i-te Kugel liegt), in c) [d)] die Zellen mehrfach [nicht mehrfach]
besetzt werden dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben durch ein k-tupel von Zahlen
aus {1, . . . , n}, in dem die Zellennummern so oft auftreten, wie die zugehörige Zelle besetzt ist).
Satz 2.3. Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Menge A — mit [ohne] Wiederholung und mit [ohne] Berücksichtigung
der Anordnung — ist gegeben durch
m. Berücksichtigung der Anordnung
o. Berücksichtigung der Anordnung
m. Wiederholung
o. Wiederholung (1 ≤ k ≤ n)
nk
n(n − 1) . . . (n − k + 1)
n
n+k−1
k
k
Bestimmung von Fakultäten durch Tabellen für log n! und — bei großem n
— durch die Stirlingsche Formel
n n √
∼
n! =
2πn (n → ∞)
e
11
und ihre Verschärfung
exp
1
n!
1
< n √
< exp
,
12n + 1 ( e )n 2πn
12n
n ∈ N.
Anwendung in der Physik. Man beschreibt das makroskopische Verhalten von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige
Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich
genau ki der Teilchen in der i-ten Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die
n
P
n
ki = k.
Menge aller n-tupel (k1 , . . . , kn ) ∈ N0 von Besetzungszahlen mit
W-Maße auf P(Ω0 ) (charakterisiert durch p):
i=1
1) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen)
p(k1 , . . . , kn ) =
1
k!
k1 ! . . . kn ! n k
2) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen)
−1
n+k−1
p(k1 , . . . , kn ) =
k
3) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen )
( −1
n
, ki ∈ {0, 1}
k
p(k1 , . . . , kn ) =
0
, sonst.
Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein
W-Maß auf B mit der Zähldichte
( n
k
n−k
, k = 0, 1, . . . , n
k p (1 − p)
k→
0
, k = n + 1, n + 2, . . . ;
12
durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben.
13
Kapitel 3
Zufallsvariablen und Verteilungen
3.1
Meßbare Abbildungen und Zufallsvariablen
Definition 3.1. Zwei nichtleere Mengen Ω, Ω0 ; A0 ⊂ Ω0 ; Abbildung X :
Ω → Ω0 . Die Menge
{ω ∈ Ω | X(ω) ∈ A0 } =: X −1 (A0 ) =: [X ∈ A0 ]
(in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit
definierte Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu
unterscheiden von einer inversen Funktion!).
Bezeichnung. Sei X : Ω → Ω0 , C 0 Mengensystem in Ω0 .
X −1 (C 0 ) := {X −1 (A0 ) | A0 ∈ C 0 }.
| {z }
ein Mengensystem in Ω
Satz 3.1. Sei X : Ω → Ω0 .
P
a) X −1 und Mengenoperationen ∪, , ∩, c , \ sind vertauschbar;
z.B. X −1 ( ∪ A0α ) = ∪ X −1 (A0α ) (A0α ⊂ Ω0 , α ∈ Indexbereich I).
α∈I
b) X −1 (∅) = ∅;
α∈I
X −1 (Ω0 ) = Ω;
A0 ⊂ B 0 ⊂ Ω0 =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ).
c) A0 σ-Algebra in Ω0 =⇒ X −1 (A0 ) σ-Algebra in Ω.
14
d) C 0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C 0 )) = FΩ (X −1 (C 0 )) .
Definition 3.2. Messräume (Ω, A), (Ω0 , A0 ). Die Abbildung X : Ω → Ω0
heißt A-A0 -messbar [kurz: messbar; measurable], wenn gilt:
X −1 (A0 ) ∈ A,
∀
0
0
d.h. X −1 (A0 ) ⊂ A,
A ∈A
d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω.
In diesem Falle Schreibweise X: (Ω, A) → (Ω0 , A0 ).
Bemerkung 3.1. In Satz 3.1c ist X −1 (A0 ) die kleinste der σ-Algebren A
in Ω mit A − A0 -Messbarkeit von X.
Definition 3.3. Es sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum.
Die Abbildung X : (Ω, A) → (Ω0 , A0 ) heisst Zufallsvariable (ZV ) auf
(Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich: (Ω0 , A0 )-ZV auf (Ω, A, P );
random variable).
X : (Ω, A) → (R, B) heißt reelle ZV (oft auch nur ZV);
X : (Ω, A) → (R, B) heißt erweitert-reelle ZV;
X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor.
X(ω) für ein ω ∈ Ω heißt eine Realisierung der ZV X.
Bezeichnung B := {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} | B ∈ B}.
Satz 3.2. Messräume (Ω, A), (Ω0 , A0 ); X : Ω → Ω0 ; C 0 Erzeugersystem von
A0 . Dann gilt:
X messbar ⇐⇒ ( ∀ X −1 (C 0 ) ∈ A)
0
0
|C ∈C
{z
}
−1 0
d.h. X (C ) ⊂ A
Satz 3.3. Messraum (Ω, A), X : Ω → R. Dann gilt
X A-B-messbar ⇐⇒ ∀ [X ≤ α] ∈ A
α∈R
⇐⇒ ∀ [X < α] ∈ A
α∈R
⇐⇒ ∀ [X ≥ α] ∈ A.
α∈R
15
Korollar 3.1. Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt
[X < Y ], [X ≤ Y ], [X = Y ],
| {z }
:= {ω ∈ Ω | X(ω) < Y (ω)}.
[X 6= Y ] ∈ A.
Satz 3.4. Sei ∅ =
6 A ⊂ Rm , A ∩ Bm := {A ∩ B | B ∈ Bm }.
Jede stetige Abbildung g : A → Rn ist A ∩ Bm -Bn -messbar.
Satz 3.5. X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ).
Die zusammengesetzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 messbar.
Korollar 3.2. Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung
g : Rm → Rn ist g ◦ X : Ω → Rn A-Bn -messbar.
Satz 3.6. Messraum (Ω, A).
a) Sei Xn : (Ω, A) → (R, B) (n = 1, . . . , m).
Dann ist Y : Ω → Rm mit Y (ω) := (X1 (ω)), . . . , Xm (ω)), ω ∈ Ω,
A-Bm -messbar, und für g : (Rm , Bm ) → (R, B) ist g ◦ Y : Ω → R
A-B-messbar.
b) Seien X1,2 : (Ω, A) → (R, B).
Dann sind αX1 + βX2
(α, β ∈ R), X1 X2 ,
messbar.
X1
(falls existent) A-BX2
Satz 3.7. Messraum (Ω, A); Xn : (Ω, A) → (R, B) (n = 1, 2, . . .) .
Dann sind inf Xn , sup Xn , lim Xn , lim Xn A-B-messbar, ebenso lim Xn (falls
n
n
n
n
n
existent).
3.2
Bildmaße und Verteilungen
Satz 3.8. Messräume (Ω, A), (Ω0 , A0 ); Abbildung X : (Ω, A) → (Ω0 , A0 );
16
Maß µ auf A. Durch
µX (A0 ) := µ(X −1 (A0 ))
= µ({ω ∈ Ω | X(ω) ∈ A0 }) =: µ[X ∈ A0 ];
A0 ∈ A 0 ,
wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert.
Ist µ ein W-Maß auf A, dann ist µX ein W-Maß auf A0 .
Definition 3.4. Sei X eine (Ω0 , A0 )-ZV auf dem W-Raum (Ω, A, P ).
Das W-Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der ZV X.
Sprechweise: Die ZV X liegt in A0 ∈ A0 , nimmt Werte in A0 ∈ A0 an mit
Wahrscheinlichkeit PX (A0 ) = P [X ∈ A0 ]. P [X ∈ A0 ] = 1 . . . P -fast sicher
(P -f.s.) liegt X in A.
Bemerkung 3.2. W-Raum (Ω, A, P ), Messräume (Ω0 , A0 ), (Ω00 , A00 ); X :
(Ω, A) → (Ω0 , A0 ), Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt
PY ◦X = (PX )Y .
Definition 3.5. Messräume (Ωi , Ai ) (i = 1, . . . , n).
n
Die Produkt-σ-Algebra ⊗ Ai wird definiert als die von dem Mengeni=1
system
n
n
Q
Q
Ai | Ai ∈ Ai (i = 1, . . . , n) in
Ωi erzeugte σ-Algebra.
i=1
i=1
n
n
n
Q
⊗ (Ωi , Ai ) :=
Ωi , ⊗ Ai heißt Produkt-Messraum.
i=1
i=1
i=1
Beispiel: (Rn × Rm , Bn ⊗ Bm ) = (Rn+m , Bn+m ).
Bemerkung 3.3. Abbildung Xi : (Ω, A) → (Ωi , Ai ) (i = 1, . . . , n). Die
n
Q
Abbildung X : Ω →
Ωi mit
i=1
X(ω) := (X1 (ω), . . . , Xn (ω)), ω ∈ Ω
n
ist A- ⊗ Ai -messbar.
i=1
17
Bemerkung 3.4. Messräume (Ωi , Ai ) (i = 1, . . . , n). Ein W-Maß auf
n
⊗ Ai ist eindeutig festgelegt durch seine Werte auf dem Mengensystem
i=1
n
Q
Ai | Ai ∈ Ai (i = 1, . . . , n) .
i=1
Definition 3.6. Seien Xi (Ωi , Ai )-ZVn auf einem W-Raum (Ω, A, P ) (i =
1, . . . , n). Die Verteilung PX der ZV X := (X1 , . . . , Xn ) auf (Ω, A, P ) —
erklärt durch
PX (A) := P [(X1 , . . . , Xn ) ∈ A]
n
n
Q
Ai (Ai ∈ Ai , i = 1, . . . , n) —
für A ∈ ⊗ Ai oder auch nur für A =
i=1
i=1
heißt die gemeinsame Verteilung der ZVn Xi . Die Verteilungen PXi —
erklärt durch
PXi (Ai ) := P [Xi ∈ Ai ] = P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ]
für Ai ∈ Ai — heißen Randverteilungen von PX
(i = 1, . . . , n).
Wichtiger Spezialfall in Definition 3.6: (Ωi , Ai ) = (R, B) (i = 1, . . . , n).
Bemerkung 3.5. Bezeichnungen wie in Definition 3.6.
a) Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt.
n
Q
Ωk → Ωi die (messbare!) Projektionsabbildung.
b) Ist πi :
k=1
(ω1 , . . . , ωn ) → ωi , so gilt PXi = (PX )πi (i = 1, . . . , n).
Bemerkung 3.6.
a) Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle ZVn X1 , . . . , Xn
auf einem geeigneten W-Raum (Ω, A, P ) so, dass ihre gemeinsame
Verteilung mit Q übereinstimmt:
(Ω, A, P ) := (Rn , Bn , Q), Xi : Ω → R wird definiert als die Projektionsabbildung
(x1 , . . . , xn ) → xi (i = 1, . . . , n);
18
hierbei ist also X := (X1 , . . . , Xn ) die auf Rn definierte identische
Abbildung.
b) Möglichkeit der unmittelbaren
Verallgemeinerung
von a) auf einen
n
n
Q
Ωi , ⊗ Ai statt (Rn , Bn ).
Produkt-Meßraum
i=1
i=1
c) Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische
Abbildung, so gilt PX = Q. Jedes W-Maß lässt sich somit als eine
Verteilung auffassen (und — definitionsgemäß — umgekehrt).
19
Kapitel 4
Erwartungswerte und Dichten
Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle ZV X auf (Ω, A, P )
mit Verteilung PX (auf B) und VF F : R → R.
Bezeichnungen:

X(ω), falls X(ω) > 0
+
X (ω) :=
0
sonst

−X(ω), falls X(ω) < 0
−
X (ω) :=
0
sonst.
Der Erwartungswert EX der ZV X gibt einen “mittleren Wert” von X
bezüglich P an, die Varianz V (X) gibt die “Schwankung” der ZV X als
“mittleren Wert” ihrer quadratischen Abweichung von EX an.
Definition 4.1 des Erwartungswertes EX von X als Integral
Z
x PX (dx).
R
1. Schritt: Sei X ≥ 0 (also PX (R+ ) = 1, F (x) = 0 (x < 0)).
Z
Z
R
EX :=
x PX (dx) :=
x dF (x) := lim
[0,a] x dF (x)
| {z }
a→∞
|
{z
}
R(+)
R(+)
Riemann−Stieltjes−Integral
F (dx)
20
(somit 0 ≤ EX ≤ ∞)
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX :=
xPX (dx) := EX + − EX −
R
Definition 4.2 des Erwartungswertes EX von X als Integral
Z
Z
X(ω)P (dω) =:
XdP
Ω
Ω
0. Schritt: Sei X ≥ 0, und X nehme nur endlich viele Werte an. Dann
existiert Darstellung
X=
PN
PN
i=1 αi χAi
i=1 Ai
mit αi ∈ R, Ai ∈ A (i = 1, . . . , N ), paarweise disjunkt,
= Ω.
Z
EX :=
X dP :=
Ω
N
X
αi P (Ai )
i=1
1. Schritt: Sei X ≥ 0. Dann existieren ZVn Xn ≥ 0, die jeweils nur endlich
viele Werte annehmen mit Xn (ω) ↑ X(ω) (n → ∞), ω ∈ Ω(!):
Z
EX :=
X dP := lim EXn
n→∞
Ω
2. Schritt: Seien EX + , EX − nicht beide ∞.
Z
EX :=
X dP := EX + − EX −
Ω
Bemerkung 4.1. (zu Definition 4.1.2)
a) Die einzelnen Schritte — insbesondere bei der 2. Definition — sind
sinnvoll.
b) Die beiden Definitionen sind äquivalent.
21
R
c) Das Integral R xPX (dx) in der 1. Definition ändert seinen Wert nicht,
wenn man es gemäß der 2. Definition erklärt.
R
d) Der Begriff Ω XdP in Definition 4.2 lässt sich unmittelbar verallgeR
meinern auf den Fall eines Maßraumes (Ω, A, µ) und liefert Ω X(ω) µ(dω) =:
R
Ω X dµ. Wichtiger Spezialfall:
1) (Ω, A) = (Rn , Bn ) oder etwas allgemeiner Ω = B mit B ∈ Bn ,
A = σ-Algebra der Borelschen Mengen in B; µ = λ := (ReR
R
striktion des) L-B-Maß(es) auf A. Rn X dλ bzw. B X dλ wird als
Lebesgue–Integral bezeichnet.
R
R
Im Falle n = 1 Schreibweise R X(x) dx bzw. B X(x) dx.
2) (Ω, A) = (R, B), H : R → R maßdefinierende Funktion mit zugehörigem Maß µ, d.h. H(b)−H(a) = µ((a, b]), −∞ < a < b < ∞.
Schreibweise
Z
Z
Z
X(x) dH(x) :=
X(x) H(dx) :=
X dµ
R
R
R
Verallgemeinerung auf Ω = B ∈ B.
e) Sei X eine erweitert-reelle ZV auf einem W-Raum (Ω, A, P ) mit
(
X(ω), falls |X(ω)| < ∞, ω ∈ Ω,
P [|X| = ∞] = 0; Y (ω) :=
0
sonst.
Man definiert EX := EY , falls EX existiert.
Bemerkung 4.2. W-Raum (Ω, A, P ). Für A ∈ A gilt P (A) = EχA .
Definition 4.3. Existiert für die reelle ZV X auf dem W-Raum (Ω, A, P )
ein endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ).
R
Analog für Ω X dµ in Bemerkung 4.1d.
Lemma 4.1. Für eine reelle ZV X ≥ 0 mit VF F gilt
Z ∞
(1 − F (x)) dx .
EX =
0
22
Satz 4.1. Sei X eine reelle ZV auf einem W-Raum (Ω, A, P ).
a) X integrierbar ⇐⇒ X + und X − integrierbar ⇐⇒ |X| integrierbar,
b) existiert reelle integrierbare ZV Y ≥ 0 mit |X| ≤ Y P-f.s. =⇒ X
integrierbar,
c) X integrierbar, |{z}
Y = X P-f.s. =⇒ existiert EY = EX.
reelle ZV
Satz 4.2. Seien X, Y reelle integrierbare ZVn auf einem W-Raum (Ω, A, P ).
a) Es existiert E(X + Y ) = EX + EY .
b) Es existiert E(αX) = αEX (α ∈ R).
c) X ≥ Y =⇒ EX ≥ EY .
d) |EX| ≤ E|X|.
e) X = Y P-f.s. =⇒ EX = EY .
f) X ≥ 0, EX = 0 =⇒ X = 0 P-f.s.
Satz 4.3. (Satz von der monotonen Konvergenz; B. Levi) Für reelle ZVn Xn auf (Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞)
existiert EX = lim EXn . Hierbei EX := ∞, falls P [X = ∞] > 0. Entspren
R
chend für Reihen von nichtnegativen ZVn. — Analog für Ω X(n) dµ gemäß
Bemerkung 4.1d.
Definition 4.4. Sei X ein n-dimensionaler Zufallsvektor mit Verteilung
PX auf Bn und VF F : Rn → R.
a) Nimmt (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) X
höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung.
23
Ist X eine reelle ZV und PX auf N0 konzentriert (d.h. PX (N0 ) = 1),
so heißt die Folge (pk ) mit pk := PX ({k}) = P [X = k], k ∈ N0 , (wobei
P
pk = 1) Zähldichte von X bzw. PX .
b) Gibt es eine Funktion f : (Rn , Bn ) → (R+ , B+ ) [mit B+ := R+ ∩ B],
R
f (y) dy – allgefür die das uneigentliche Riemann-Integral Qn
(−∞,xi ]
i=1
R
f dλ [λ L-B-Maß auf Bn ] –
meiner das Lebesgue-Integral Qn
(−∞,xi ]
i=1 n
Q
(−∞, xi ] = F (x1 , . . . , xn ) übereinstimmt
existiert und mit PX
i=1
((x1 , . . . , xn ) ∈ Rn ), so heißt f Dichte(funktion) von X bzw. PX
bzw. F . — PX und F heißen totalstetig, falls sie eine Dichtefunktion
besitzen.
Bemerkung 4.3.
a) Eine totalstetige VF ist stetig.
b) Besitzt die n-dimensionale VF F : Rn → R eine Dichtefunktion f :
∂ nF
Rn → R+ , so existiert L-f.ü.
, und L-f.ü. — insbesondere
∂x1 . . . ∂xn
∂ nF
an den Stetigkeitsstellen von f —
= f.
∂x1 . . . ∂xn
c) Ein uneigentliches R-Integral einer nichtnegativen Bn -B-messbaren
Funktion lässt sich als L-Integral deuten.
Satz 4.4. Sei X eine reelle ZV mit Verteilung PX .
a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt
X
EX =
kpk .
k
b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das LebesgueR
R
Integral R xf (x) dx =: R xf (x) λ(dx) [λ L-B-Maß auf B] genau dann,
wenn EX existiert, und es gilt hierbei
Z
EX =
xf (x) dx .
R
24
Beispiel zu Satz 4.4. ZV X auf (Ω, A, P ).
a) X sei b(n, p)-verteilt, d.h. P [X = k] =
mit n ∈ N, p ∈ [0, 1]. EX = np.
n
k
pk (1−p)n−k (k = 0, 1, . . . , n)
−λ λ
b) X sei π(λ)-verteilt, d.h. P [X = k] = e
EX = λ.
k
k!
(k ∈ N0 ), mit λ > 0.
c) X sei N (a, σ 2 )-verteilt, d.h. X habe Dichtefunktion f : R → R+ mit
(x−a)2
1
e− 2σ2 x ∈ R ,
f (x) := √
2πσ
mit a ∈ R, σ > 0. EX = a.
Satz 4.5. X sei eine reelle ZV mit Verteilung PX und VF F ; g : (R, B) →
R
(R, B). E(g ◦ X) existiert genau dann, wenn R g dPX existiert, und es gilt
hierbei nach dem Transformationssatz für Integrale
Z
Z
Z
E(g ◦ X) =
g dPX =:
g dF =:
g(x) dF (x) ,
| {z }
R
R
R
F (dx)
P

g(k)pk
unter der Voraussetzung von Satz 4.4a.



k


Z
g(x)f (x) dx unter der Voraussetzung von Satz 4.4b.
E(g ◦ X) =




{z
}
|R


 Lebesgue-Integral
Insbesondere gilt (mit g = χA , wobei A ∈ B)
 P

pk
unter Vorauss. von Satz 4.4a



0

Z
 k∈A∩N
R
P [X ∈ A] = PX (A) =
χA (x)f (x) dx =: A f (x) dx unter Vorauss. von Satz 4.4b



|R
{z
}


 Lebesgue-Integral
Zusatz. X sei ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) mit Dichtefunktion f : Rn → R+ ; A ∈ Bn . Dann gilt:
Z
Z
χA (x)f (x) dx =:
f (x) dx.
P [X ∈ A] = PX (A) =
Rn
A
25
[Falls das entsprechende R-Integral existiert, dann R-Integral = L-Integral.]
R
Bemerkung 4.5. A f (x) dx in Satz 4.4 ist gleich dem L-B-Maß der Ordinatenmenge {(x, y) ∈ R2 | x ∈ A, 0 ≤ y ≤ f (x)} von f |A in R2 .
Lemma 4.2. X sei eine reelle ZV; 0 ≤ α < β < ∞. Dann gilt
E|X|β < ∞ =⇒ E|X|α < ∞ .
Definition 4.5. X sei eine reelle ZV; k ∈ N. Im Falle der Existenz heißt
EX k das k-te Moment von X und E(X − EX)k das k-te zentrale
Moment von X. Ist X integrierbar, dann heißt V (X) := E(X − EX)2 die
p
Varianz von X und σ(X) :=+ V (X) die Streuung von X.
Satz 4.6. X sei eine reelle integrierbare ZV.
a) V (X) = EX 2 − (EX)2 .
b) V (aX + b) = a2 V (X) (a, b ∈ R).
Beispiel zu Satz 4.6.
a) X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V (x) = np(1 − p).
b) X sie π(λ)-verteilt mit λ > 0. V (X) = λ.
c) X sei N (a, σ 2 )-verteilt mit a ∈ R, σ > 0.
k
Q
2k−1
2k
2k
E(X − a)
= 0, E(X − a) = σ
(2j − 1) (k ∈ N).
j=1
Satz 4.7. X sei eine reelle ZV auf einem W-Raum (Ω, A, P ). Dann gilt
für jedes ε > 0, r > 0:
P [|X| ≥ ε] ≤ ε−r E|X|r
(Markoffsche Ungleichung).
26
Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei
integrierbarem X auch in der Variante
P [|X − EX| ≥ ε] ≤ ε−2 V (X)
angegeben wird.
Satz 4.8. (Transformationssatz für Dichten). [Verallgemeinerung s.
Hinderer S. 148]
Es sei Q ein W-Maß auf B2 und T : R2 → R2 eine injektive stetigdifferenzierbare Abbildung. Es sei R := QT das Bild-W-Maß von Q bzgl.
T [d.h. R(B) = Q(T −1 (B)), B ∈ B2 ] und ∆ der Betrag der Funktionaldeterminante von T . Hat R die Dichte g, so hat Q die Dichte (g ◦ T )∆.
27
Kapitel 5
Unabhängigkeit
Definition 5.1. W-Raum (Ω, A, P ). Eine Familie {Ai | i ∈ I} von Ereignissen Ai ∈ A heißt unabhängig (ausführlich: stochastisch unabhängig
bzgl. P ), falls für jede nichtleere endliche Menge K ⊂ I gilt
!
\
Y
P
Ak =
P (Ak ) .
k∈K
k∈K
Definition 5.2. W-Raum (Ω, A, P ). Eine Familie {Xi | i ∈ I} von (Ωi , Ai )
- ZVn auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere
endliche Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν
(ν = 1, . . . , n) ist
n
Y
P [Xi1 ∈ Ai1 , . . . , Xin ∈ Ain ] =
P Xiν ∈ Aiν .
ν=1
Sprechweise: Unabhängigkeit der ZVn statt Unabhängigkeit der Familie
der ZVn.
Lemma 5.1. Eine Familie von Ereignissen ist genau dann unabhängig,
wenn jede endliche Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen.
Bemerkung 5.1 zu Definition 5.1 bzw. Definition 5.2.
Paarweise Unabhängigkeit 6⇒ Unabhängigkeit
28
Bemerkung 5.2. W-Raum (Ω, A, P ); Ereignisse Ai ∈ A, i ∈ I, mit (reellen) ZVn χAi (Indikatorfunktionen) auf (Ω, A, P ).
{Ai | i ∈ I} unabhängig ⇐⇒ {χAi | i ∈ I} unabhängig
Satz 5.1. Gegeben seien (Ωi , Ai ) - ZVn Xi auf einem W-Raum (Ω, A, P )
und Abb. gi : (Ωi , Ai ) → (Ω0i , A0i ), i ∈ I. Dann gilt:
{Xi | i ∈ I} unabhängig =⇒ {gi ◦ Xi | i ∈ I} unabhängig
Satz 5.2. Gegeben seien eine unabhängige Familie {Xi | i ∈ I} reeller ZVn
P
auf einem W-Raum (Ω, A, P ) und eine Zerlegung I =
Ij mit |Ij | < ∞.
j∈J
Das |Ij |-tupel {Xk | k ∈ Ij } sei mit Yj bezeichnet, j ∈ J.
a) Die Familie {Yj | j ∈ J} ist unabhängig.
b) Sind Abb. gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist (nach Satz
5.1) die Familie {gj ◦ Yj | j ∈ J} unabhängig.
Bemerkung 5.3. Satz 5.2 lässt sich auf (Ωi , Ai ) - ZVn und Abb. gj :
N
(Ωi , Ai ) → (Ω0j , A0j ) verallgemeinern.
i∈Ij
Satz 5.3. Seien Xi (i = 1, . . . , n) reelle ZVn auf einem W-Raum (Ω, A, P )
mit Verteilungsfunktionen Fi . Der Zufallsvektor X := (X1 , . . . , Xn ) habe
die n-dimensionale VF F.
n
Q
a) {X1 , . . . , Xn } unabhängig ⇐⇒ (∗)
F
(x
,
.
.
.
,
x
)
=
Fi (xi ) .
∀
1
n
n
(x1 ,...,xn )∈R
i=1
b) Existieren zu Fi (i = 1, . . . , n), F Dichten fi bzw. f , dann gilt

n
Q

f
(x
,
.
.
.
,
x
)
=
fi (xi )

1
n


i=1
(∗) ⇐⇒
für Lebesgue - fast alle (x1 , . . . , xn ) ∈ Rn .

|
{z
}



λ-fast alle mit λ = L-B-Maß auf Bn
29
Satz 5.4. Seien X1 , . . . , Xn unabhängige reelle ZVn auf einem W-Raum
(Ω, A, P ) mit endlichen Erwartungswerten. Dann existiert
E(X1 . . . Xn ) = EX1 · . . . · EXn .
— Entsprechendes gilt für komplexe ZVn Xk : (Ω, A) → (R2 , B2 ), wobei
EXk := E Re Xk + iE Im Xk
(k = 1, . . . , n)
Satz 5.5. Seien X1 , . . . , Xn unabhängige reelle ZVn mit endlichen Erwartungswerten. Dann gilt
!
n
n
X
X
V (Xj ) .
Xj =
V
j=1
j=1
Bemerkung 5.4. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn }
die sog. paarweise Unkorreliertheit, d.h.
∀ E(Xj − EXj )(Xk − EXk ) = 0 .
j6=k
Definition 5.3. Sind X, Y zwei unabhängige reelle ZVn auf einem WRaum (Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y =:
PX ∗ PY der ZV X + Y als Faltung von PX und PY bezeichnet.
Bemerkung 5.5. Die Faltungsoperation ist kommutativ und assoziativ.
Satz 5.6. Seien X, Y zwei unabhängige reelle ZVn.
a) Besitzen X und Y Dichten f bzw. g, so besitzt X +Y eine [als Faltung
von f und g bezeichnete] Dichte h mit
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx, t ∈ R .
R
R
|
{z
} |
{z
}
Lebesgue-Integrale
b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X +Y
eine [als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit
rk =
k
X
pk−j qj =
j=0
k
X
i=0
30
qk−i pi , k ∈ N0 .
Bemerkung 5.6. Gegeben seien Messräume (Ωi , Ai ) und W-Maße Qi auf
Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai ) — ZVn Xi
auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi | i ∈ I} und PXi = Qi
(Andersen und Jessen).
Satz 5.7. (2. Lemma von Borel und Cantelli) W-Raum (Ω, A, P ).
Die Familie {An ; n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann
gilt:
∞
X
P (An ) = ∞ (⇐⇒
)
P (limAn ) = 1 .
|
{z
}
n=1
P-f.s. tritt An unendlich oft auf
Definition
∞ 5.4.Messraum (Ω, A). σ-Algebren An ⊂ A (n ∈ N).
Tn := F ∪ Ak . . . die von An , An+1 , . . . erzeugte σ-Algebra.
∞
k=n
T∞ := ∩ Tn heißt die σ-Algebra der terminalen Ereignisse (tail events)
n=1
der Folge (An ).
Beispiele
1) Xn : (Ω, A) → (R, B); An := F(Xn ) := Xn−1 (B) (n ∈ N)
a) [
P
Xn konv.] ∈ T∞
b) [(Xn ) konv.] ∈ T∞
2) Messraum (Ω, A). Ereignisse An ∈ A (n ∈ N);
An := {∅, An , Acn , Ω} (n ∈ N).
∞
∞
lim sup An := ∩ ∪ Ak = {ω ∈ Ω | ω ∈ An für unendliche viele
n→∞
n=1 k=n
n} ∈ T∞
∞
∞
lim inf An := ∪ ∩ Ak = {ω ∈ Ω | ω ∈ An von einem Index an} ∈ T∞
n→∞
n=1 k=n
Satz 5.8 (Null-Eins-Gesetz von Kolmogorov) W-Raum (Ω, A, P ).
Sei (An ) eine unabhängige Folge von σ-Algebren An ⊂ A.
Dann gilt für jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder
P (A) = 1.
31
Kapitel 6
Erzeugende und charakteristische
Funktionen, Faltungen
Die erzeugenden und charakteristischen Funktionen sind ein methodisches
Hilfsmittel zur Untersuchung von W-Maßen.
6.1
Erzeugende Funktionen
Definition 6.1. Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit
Zähldichte (bk )k∈N0 bzw. X eine reelle ZV auf einem W-Raum (Ω, A, P ),
deren Verteilung PX auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann
heißt die auf [0, 1] (oder auch {s ∈ C | |s| ≤ 1}) definierte Funktion g mit
P

µ({k})sk


∞

X
k
g(s) :=
bk s =
bzw.


k=0

 P P [X = k]sk = P P ({k})sk = EsX
X
die erzeugende Funktion von µ bzw. X.
Bemerkung 6.1. In Definition 6.1 gilt |g(s)| ≤
|s| ≤ 1 .
Bemerkung 6.2.
32
P
bk |s|k ≤
P
bk = 1,
a) Die Binomialverteilung b(n, p) mit n ∈ N, p ∈ [0, 1] hat — mit q :=
1 − p — die erzeugende Funktion g mit
g(s) = (q + ps)n .
b) Die Poissonverteilung π(λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g mit
g(s) = e−λ+λs .
c) Als negative Binomialverteilung oder Pascal-Verteilung N b(r, p)
mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch
B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p —
die Zähldichte
r+k−1 r k
k → N b(r, p; k) :=
p q , k ∈ N0
k
besitzt. Speziell wird N b(1, p) — mit Zähldichte
k → p(1 − p)k , k ∈ N0
— als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn,
n
P
so ist die erweitert-reelle ZV X := inf {n ∈ N |
Xk = r} − r
k=1
mit inf ∅ := ∞ N b(r, p)-verteilt. X gibt die Anzahl der Misserfolge
bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoullirq
rq
Versuchen an. EX = , V (X) = 2 .
p
p
N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r .
Satz 6.1 (Eindeutigkeitssatz für erzeugende Funktionen).
Besitzen zwei auf B definierte, aber auf N0 konzentrierte W-Maße bzw.
Verteilungen dieselbe erzeugende Funktion, so stimmen sie überein.
Satz 6.2. Sei X eine reelle ZV, deren Verteilung auf N0 konzentriert ist,
mit erzeugender Funktion g.
33
a) g ist in {s ∈ C | |s| < 1} unendlich oft differenzierbar; für j ∈ N gilt
g (j) (1−) :=
lim
0≤s→1−0
g (j) (s) = E[X(X − 1) . . . (X − j + 1)] (≤ ∞) ,
insbesondere g 0 (1−) = EX.
b) EX < ∞ =⇒ V (X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 .
Satz 6.3. Seien X1 , . . . , Xn unabhängige reelle ZVn, deren Verteilungen
jeweils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn .
n
Q
gj
Für die erzeugende Funktion g der Summe X1 +. . .+Xn gilt dann g =
j=1
.
6.2
Charakteristische Funktionen
Definition 6.2. Es sei µ ein W-Maß auf B bzw. X eine reelle ZV mit
VF F . Dann heißt die auf −∞ < u < ∞ definierte (i.a. komplexwertige)
Funktion ϕ mit
Z
ϕ(u) :=
eiux µ(dx)
R
bzw.
ϕ(u) := EeiuX =
Z
eiux PX (dx) =
Z
eiux dF (x)
R
| R {z
}
L-S-Integral oder uneig. R-S-Integral
die charakteristische Funktion von µ bzw. X.
Bemerkung 6.3. In Definition 6.2 gilt
a) ϕ(0) = 1,
b) | ϕ(u) |≤ 1, u ∈ R,
c) ϕ gleichmäßig stetig in R,
d) ϕ(−u) = ϕ(u), u ∈ R.
34
Bemerkung 6.4. Die Normalverteilung N (a, σ 2 ) mit a ∈ R, σ 2 ∈ (0, ∞)
hat die charakteristische Funktion ϕ mit
ϕ(u) = eiau e−
σ 2 u2
2
.
u2
Insbesondere hat N (0, 1) die charakteristische Funktion ϕ mit ϕ(u) = e− 2 .
Bemerkung 6.5. Als Exponentialverteilung exp(λ) mit Parameter λ ∈
(0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion
f mit

λe−λx , x > 0
f (x) =
0,
x≤0
besitzt.
Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte ZV angegeben.
Ist X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert ist,
mit P [0 < X < ∞] > 0, so gilt
P [X > t + s | X > s] = P [X > t]
∀
(“Gedächtnislosigkeit”)
s,t∈(0,∞)
⇐⇒ PX ist eine Exponentialverteilung.
Für eine ZV X mit PX = exp(λ) gilt EX = λ1 , V (X) = λ12 .
λ
exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu
.
Bemerkung 6.6. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈
(0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion
f mit

 λν xν−1 e−λx , x > 0
f (x) = Γ(ν)
0,
x≤0
besitzt. Hierbei Γλ,1 = exp(λ). Γ 21 , n2 wird als Chi-Quadrat-Verteilung
χ2n mit n(∈ N) Freiheitsgraden bezeichnet.
Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) = λν2 .
ν
λ
Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu
.
35
Satz 6.4. (Eindeutigkeitssatz für charakteristische Funktionen)
Besitzen zwei auf B definierte W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie überein. — Ist µ ein W-Maß auf
B bzw. PX die Verteilung einer reellen ZV X mit zugehöriger VF F und
zugehöriger charakteristischer Funktion ϕ und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel
Z U −iua
e
− e−iub
1
F (b) − F (a)
= lim
ϕ(u) du .
|
{z
}
U →∞ 2π −U
iu
= µ((a, b]) bzw. PX ((a, b])
Satz 6.5. Gegeben sei eine VF F mit charakteristischer Funktion ϕ; es
R∞
sei −∞ | ϕ(u) | du < ∞. Dann besitzt F eine Dichte f , die stetig und
beschränkt ist, und es gilt die Umkehrformel
Z
1
e−iux ϕ(u) du, x ∈ R
f (x) =
2π R
R
[vgl. die Formel ϕ(u) = R eiux f (x) dx, u ∈ R, bei existierender Dichte f ].
Satz 6.6. Sei X eine reelle ZV mit Verteilung PX und charakteristischer
Funktion ϕ. Für j ∈ N gilt:
E | X |j < ∞
=⇒ ϕ hat eine stetige j-te Ableitung ϕ(j) mit
Z
ϕ(j) (u) = ij xj eiux PX (dx), u ∈ R,
R
insbesondere ϕ(j) (0) = ij EX j .
Satz 6.7. Seien X1 , . . . , Xn unabhängige reelle ZVn mit charakteristischen
Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe X1 +
. . . + Xn gilt dann
n
Y
ϕ=
ϕj .
j=1
Definition 6.3. Zu zwei W-Maßen P, Q auf B wird das W-Maß P ∗ Q auf
B, die sog. Faltung von P und Q, folgendermaßen definiert:
36
a) sei T : R × R → R mit T (x, y) = x + y;
P ∗ Q := (P ⊗ Q)T
(P ⊗Q W-Maß auf B2 mit (P ⊗Q)(B1 ×B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B,
sog. Produkt-W-Maß von P und Q)
oder — äquivalent —
b) man wähle ein unabhängiges Paar reeller ZVn X, Y mit PX = P ,
PY = Q und setze
P ∗ Q := PX+Y .
Satz 6.8.
a) Die Faltungsoperation ist kommutativ und assoziativ.
b) Es sei (X, Y ) ein unabhängiges Paar reeller ZVn. Für X, Y , X+Y seien
die Verteilungsfunktionen mit F, G, H, die Dichten — falls existent —
mit f, g, h und die Zähldichten — falls PX , PY auf N0 konzentriert
sind — mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt
Z
Z
H(t) =
F (t − y) G(dy) =
G(t − x) F (dx), t ∈ R.
R
R
Falls f existiert, so existiert h mit
Z
h(t) =
f (t − y) G(dy) für (L-f.a.) t ∈ R;
R
falls zusätzlich g existiert, so gilt
Z
Z
h(t) =
f (t − y)g(y) dy =
g(t − x)f (x) dx für (L-f.a.) t ∈ R.
R
R
Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit
rk =
k
X
pk−i qi =
i=0
k
X
i=0
Bemerkung 6.7.
37
qk−i pi (k ∈ N0 ).
a) Für n1,2 ∈ N, p ∈ [0, 1] gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p).
Die Summe von n unabhängigen b(1, p) verteilten ZVn ist also b(n, p)verteilt.
b) Für λ1,2 > 0 gilt π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ).
c) Für r1,2 ∈ N, p ∈ (0, 1) gilt N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p).
Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist also N b(r, p)verteilt.
2
d) Für a1,2 ∈ R, σ1,2
∈ (0, ∞) gilt
N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ).
e) Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Die Summe von n unabhängigen exp(λ)-verteilten ZVn ist Γλ,n -verteilt.
Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten
ZVn ist χ2n -verteilt.
38
Kapitel 7
Spezielle Verteilungen
7.1
Diskrete Verteilungen
Definition 7.1. Als Binomialverteilung b(n, p) mit Parametern n ∈
N, p ∈ (0, 1) oder auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf
{0, 1, . . . , n} konzentriert ist und die Zähldichte
n k
k 7→ b(n, p; k) :=
p (1 − p)n−k , k ∈ N0
k
besitzt.
Satz 7.1. Sei n ∈ N, p ∈ [0, 1]; q := 1 − p.
a) Ist (X1 , . . . , Xn ) ein n-tupel unabhängiger reeller ZVn mit P [Xi =
1] = p, P [Xi = 0] = q — d.h. mit jeweiliger b(1, p)-Verteilung —
P
(i = 1, . . . , n), so ist ni=1 Xi b(n, p)-verteilt.
b) Für eine ZV X mit PX = b(n, p) gilt EX = np, V (X) = npq.
c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n .
d) Für n1,2 ∈ N gilt
b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p),
39
d.h. für zwei unabhängige ZVn X1 , X2 mit PX1 = b(n1 , p), PX2 =
b(n2 , p) gilt
PX1 +X2 = b(n1 + n2 , p).
Bemerkung 7.1. Das n-tupel (X1 , . . . , Xn ) von ZVn aus Satz 7.1 beschreibt ein n-tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“MisserP
folg”) und jeweiliger Erfolgswahrscheinlichkeit p; nk=1 Xi gibt die Anzahl
der Erfolge in n Bernoulli-Versuchen an.
Definition 7.2. Als Poisson-Verteilung π(λ) mit Parameter λ > 0 wird
ein W-Maß auf B bezeichnet, das auf N0 konzentriert ist und die Zähldichte
−λ λ
k 7→ π(λ; k) := e
k
k!
, k ∈ N0
besitzt.
Satz 7.2. Sei λ > 0.
a) Ist (b(n, pn )) eine Folge von Binomialverteilungen mit npn → λ (n →
∞), dann konvergiert
b(n, pn ; k) → π(λ; k) (n → ∞) für alle k ∈ N0 .
b) Für eine ZV X mit PX = π(λ) gilt EX = V (X) = λ.
c) π(λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs .
d) Für λ1,2 > 0 gilt
π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ) .
Bemerkung 7.2. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teilchen auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle
durch eine b(n, m1 )-verteilte ZV angegeben. Der Grenzübergang n → ∞,
40
m → ∞ mit Belegungsintensität
einer π(λ)-verteilten ZV.
n
m
→ λ > 0 führt gemäß Satz 7.2a zu
Definition 7.3. Als negative Binomialverteilung oder Pascal-Verteilung
N b(r, p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder
auch B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p —
die Zähldichte
r+k−1 r k
k 7→ N b(r, p; k) :=
p q , k∈N
k
besitzt. Speziell wird N b(1, p) — mit Zähldichte k 7→ p(1 − p)k , k ∈ N0 —
als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet.
41
Satz 7.3. Sei r ∈ N, p ∈ (0, 1), q := 1 − p.
a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn. Die
P
erweitert-reelle ZV X := inf{n ∈ N | nk=1 Xk = r}−r mit inf ∅ := ∞
ist N b(r, p)-verteilt.
b) Für eine ZV X mit PX = N b(r, p) gilt EX =
rq
p,
V (X) =
rq
p2 .
c) N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r .
d) Für r1,2 ∈ N gilt
N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p) .
Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist somit
N b(r, p)-verteilt.
Bemerkung 7.3. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitertP
reelle ZV T := inf{n ∈ N | nk=1 Xk = r} mit inf ∅ := ∞ die Wartezeit bis
zum r-ten Auftreten der Eins in (Xn ) und durch die erweitert-reelle ZV
X = T − r die Anzahl der Misserfolge bis zum r-ten Erfolg bei der zu (Xn )
gehörigen Folge von Bernoulli-Versuchen angegeben.
Definition 7.4. Als hypergeometrische Verteilung mit Parametern
n, r, s ∈ N, wobei n ≤ r + s, wird ein W-Maß auf B bezeichnet, das auf
{0, 1, . . . , n} — sogar auf {max (0, n − s), . . . , min (n, r)} — konzentriert
ist und die Zähldichte
 r s 
 k n−k
, k = 0, 1, . . . , n
r+s
k 7→
n


0
, k = n + 1, n + 2, . . .
besitzt.
Bemerkung 7.4. Werden aus einer Urne mit r roten und s schwarzen
Kugeln rein zufällig n Kugeln ohne Zurücklegen gezogen (n, r, s wie in
Definition 7.4), so wird die Anzahl der gezogenen roten Kugeln durch eine ZV angegeben, die eine hypergeometrische Verteilung mit Parametern
42
n, r, s besitzt. Anwendung der hypergeometrischen Verteilung in der Qualitätskontrolle.
7.2
Totalstetige Verteilungen
Definition 7.5. Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞
1
wird ein W-Maß auf B bezeichnet, das eine Dichte f =
χ(a,b) besitzt.
b−a
Satz 7.4. Für eine ZV X mit Gleichverteilung auf (a, b) gilt EX =
(b − a)2
.
V (X) =
12
a+b
,
2
Definition 7.6. Als (eindimensionale) Normalverteilung oder GaußVerteilung N (a, σ 2 ) mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B
bezeichnet, das eine Dichte f mit
f (x) = √
(x−a)2
1
e− 2σ2 ,
2πσ
x∈R
besitzt. Speziell heißt N (0, 1) standardisierte Normalverteilung.
Bemerkung 7.5.
a) Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche Glocken1
kurve. Im Fall a = 0 ist f (0) = √
und hat f zwei Wendepunkte
2πσ
1
(±σ; √
).
2πeσ
b) Die Dichtefunktion und die VF φ von N (0, 1) sind tabelliert.
c) Ist die ZV X N (a, σ 2 )-verteilt, so ist
hierbei
P [a − σ ≤ X ≤ a + σ]
X −a
N (0, 1)-verteilt. Es gilt
σ
= 2φ(1) − 1 ≈ 0, 683
P [a − 2σ ≤ X ≤ a + 2σ] = 2φ(2) − 1 ≈ 0, 954
P [a − 3σ ≤ X ≤ a + 3σ] = 2φ(3) − 1 ≈ 0, 997 .
43
d) Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler.
Satz 7.5. Sei a ∈ R, σ > 0.
a) Für eine ZV X mit Verteilung N (a, σ 2 ) gilt:
2k−1
E(X − a)
2k
= 0, E(X − a)
k
Y
(2j − 1),
=σ
2k
k ∈ N;
j=1
insbesondere EX = a, V (X) = σ 2 ; die ZV cX + b mit 0 6= c ∈ R,
b ∈ R hat die Verteilung N (ca + b, c2 σ 2 ).
b) Die charakteristische Funktion von N (a, σ 2 ) ist ϕ mit
iau
ϕ(u) = e
e
σ 2 u2
2
.
c) Für a1,2 ∈ R, σ1,2 > 0 gilt
N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ) .
Definition 7.7. Als Exponentialverteilung exp(λ) mit Parameter λ > 0
wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit

 λe−λx , x > 0
f (x) =

0, x ≤ 0
besitzt.
Satz 7.6. Sei λ > 0.
a) Sei X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert
sei, mit P [0 < X < ∞] > 0. Dann gilt:
∀
P [X > t+s | X > s] = P [X > t] ⇐⇒ PX ist eine Exponentialverteilung.
s,t∈(0,∞)
“Gedächtnislosigkeit”
b) Für eine ZV X mit PX = exp(λ) gilt EX =
44
1
1
, V (X) = 2 .
λ
λ
c) exp(λ) hat die charakteristische Funktion ϕ mit
ϕ(u) =
λ
.
λ − iu
Bemerkung 7.6. Die zufällige Lebensdauer eines radioaktiven Atoms wird
durch eine exponentialverteilte ZV angegeben.
Definition 7.8. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0
wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit
 ν
 λ xν−1 e−λx , x > 0
Γ(ν)
f (x) =

0,
x≤0
besitzt. Hierbei Γλ,1 = exp(λ). Γ 12 , n2 wird als Chi-Quadrat-Verteilung χ2n
mit n(∈ N) Freiheitsgraden bezeichnet.
Satz 7.7. Seien λ, ν > 0, n ∈ N.
a) Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) =
ν
λ2
.
b) Γλ,ν hat die charakteristische Funktion ϕ mit
ν
λ
ϕ(u) =
.
λ − iu
c) Für ν1,2 > 0 gilt
Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 .
Insbesondere ist Γλ,n die n-fache Faltung von exp(λ).
d) Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten
reellen ZVn ist χ2n -verteilt.
Bemerkung 7.7. Sind X, Y zwei unabhängige reelle ZVn mit PX =
X
als t-Verteilung
N (0, 1) und PY = χ2n , so wird die Verteilung der ZV p
Y /n
oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet
45
(n ∈ N). t1 bzw. St1 ist eine sogenannte Cauchy-Verteilung. — Anwendung von χ2n und Stn in der Statistik.
Sei {Tn | n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvariablen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1.
Definiere die ZV Nt := sup{n ∈ N | T1 + . . . + Tn ≤ t} (mit sup ∅ = 0),
t ∈ R+ .
Beispiel. In einem technischen System wird ein Bauelement mit endlicher
zufälliger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt.
Die einzelnen Lebensdauern seien Realisierung der ZVn Tn . Nt gibt die
Anzahl der Erneuerungen im Zeitintervall [0, t] an.
Satz 7.8. Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ >
0), so ist Nt π(λt)-verteilt, t ∈ R+ .
Bemerkung 7.8. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson-Prozess.
46
Kapitel 8
Gesetze der großen Zahlen
8.1
Konvergenzbegriffe
Definition 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum
(Ω, A, P ). Die Folge (Xn ) heißt gegen X
P
a) vollständig konvergent, wenn für jedes > 0 gilt n∈N P [|Xn − X| ≥
c
] < ∞ . . . Schreibweise Xn →X,
b) konvergent P -fast sicher (P -f.s., f.s.), wenn P [Xn → X (n → ∞)] = 1;
c) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn
für jedes > 0 gilt P [|Xn − X| ≥ ] → 0 (n → ∞)
P
. . . Schreibweise Xn →X,
d) konvergent im r-ten Mittel (r > 0), wenn E|Xn |r < ∞ ∀n, E|X|r < ∞
und E|Xn − X|r → 0 (n → ∞) [r = 2 . . . konv. im quadr. Mittel],
e) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion g : R → R
Eg(Xn ) → Eg(X) (n → ∞)
oder — hier äquivalent — wenn für die Verteilungsfunktionen Fn und
F von Xn bzw. X gilt
Fn (x) → F (x) (n → ∞)
47
D
in jedem Stetigkeitspunkt x von F . . . Schreibweise Xn →X.
Bemerkung 8.1.
a) Fn VF (n ∈ N), (Fn ) konv. impliziert nicht: lim Fn VF
n
b) Die Grenz-VF in Def. 8.1. e) ist eindeutig bestimmt.
Satz 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum (Ω, A, P).
c
a) Xn →X =⇒ Xn → X f.s.
b) Xn → X f.s. =⇒ Xn → X nach Wahrsch.
c) r > 0. Xn → X im r-ten Mittel =⇒ Xn → X nach Wahrsch.
d) Xn → X nach Wahrsch. =⇒ Xn → X nach Verteilung.
e) Xn → X nach Wahrsch. ⇐⇒ Zu jeder Teilfolge (Xnk )k∈N von (Xn )n∈N
gibt es eine P -f.s. konvergente Teilteilfolge (Xnki )i∈N .
8.2
Schwache und starke Gesetze der großen Zahlen
Definition 8.2. Eine Folge (Xn )n∈N von integrierbaren reellen ZVn auf
einem W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz
der großen Zahlen, wenn
n
1X
(Xk − EXk ) → 0 (n → ∞) nach Wahrscheinlichkeit bzw. P-f.s.
n
k=1
Bemerkung 8.2. Genügt eine Folge von ZVn dem starken Gesetz der
großen Zahlen, dann genügt sie auch dem schwachen Gesetz der großen
Zahlen.
48
Satz 8.2 (Kriterium von Kolmogorov für das starke Gesetz der
großen Zahlen). Eine unabhängige Folge (Xn )n∈N quadratisch integrierbarer reeller ZVn mit
∞
X
n−2 V (Xn ) < ∞
n=1
genügt dem starken Gesetz der großen Zahlen.
Satz 8.3 (Kolmogorovsches starkes Gesetz der großen Zahlen).
Für eine unabhängige Folge (Xn )n∈N identisch verteilter integrierbarer reeller ZVn gilt
n
1X
Xk → EX1 (n → ∞) f.s.
n
k=1
Bemerkung 8.3.
a) In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht weggelassen
werden.
b) Die Voraussetzung der Unabhängigkeit in Satz 8.3 kann zur Voraussetzung der paarweisen Unabhängigkeit abgeschwächt werden (Etemadi).
P −2
c) In Satz 8.2 kann bei
n V (Xn )(log n)2 < ∞ die Unabhängigkeitsvoraussetzung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.)
abgeschwächt werden (Rademacher, Menchov).
Satz 8.4 (Tschebyschev). Eine Folge (Xn )n∈N quadratisch integrierbarer
paarweise unkorrelierter [d.h. es gilt ∀ E(Xj − EXj )(Xk − EXk ) = 0]
j6=k
reeller ZVn mit
n
−2
n
X
V (Xk ) → 0 (n → ∞)
k=1
genügt dem schwachen Gesetz der großen Zahlen.
Bemerkung 8.4 (Folgerung aus obigen Sätzen). Für eine unabhängige
Folge (Xn ) identisch verteilter reeller ZVn mit P [X1 = 1] = p, P [X1 = 0] =
49
1 − p (festes p ∈ [0, 1]) gilt
n
1X
Xk → p (n → ∞) P-f.s. und nach Wahrscheinlichkeit
n
k=1
(Borelsches starkes Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetz der großen Zahlen).
Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache dar, dass i.a. die relative Häufigkeit eines Ereignisses bei großer Zahl
der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente näherungsweise konstant ist.
Beispiele zu Satz 8.3 und Bemerkung 8.4.
a) Es seien X1 , X2 , . . . unabhängige identisch verteilte ZVn mit existierenden (endlichen) EX1 =: a und V (X1 ) =: σ 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt
durch
n
1X
x :=
xi (sog. empirisches Mittel)
n i=1
und σ 2 durch
n
1 X
s :=
(xi − x)2
n − 1 i=1
2
Für
n
1X
Xi ,
X :=
n i=1
(sog. empirische Varianz).
n
1 X
S :=
(Xi − X)2
n − 1 i=1
2
gilt
EX = a,
ES 2 = σ 2
(sog. Erwartungstreue der Schätzungen),
ferner für n → ∞
X → a f.s.,
S 2 → σ 2 f.s. (sog. starke Konsistenz der Schätzfolgen).
b) Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)verteilten Lebensdauern (mit VF F ) gebe — bei festem T > 0 — die
50
Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt
(Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfällt, ist
p = F (T ) = 1 − e−λT . Nach Bemerkung 8.4 konvergiert mit Wahrscheinlichkeit Eins Zn /n → p (n → ∞). Wählt man T so, dass
F (T ) = 12 , d.h. T = (ln 2)/λ (T sog. Median von exp.(λ)), dann gilt
f.s.
Zn
1
→
n
2
(n → ∞).
Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet
(nach T Zeiteinheiten ist i.a. bei großem n ungefähr die Hälfte der
Atome zerfallen).
51
Kapitel 9
Zentrale Grenzwertsätze
9.1
Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd
Definition 9.1.
a) W-Maße Qn (n ∈ N), Q auf der σ-Algebra B der Borelschen Mengen
in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly
convergent) — Schreibweise Qn → Q schwach — , wenn für jede
beschränkte stetige Funktion g : R → R gilt
Z
Z
g dQn →
g dQ (n → ∞).
R
R
b) Reelle ZVn Xn (n ∈ N), X (nicht notwendig auf demselben W-Raum
definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konvergent (convergent in distribution, convergent in law) — Schreibweise
D
Xn → X (n → ∞) — , wenn PXn → PX schwach, d.h. für jede
beschränkte stetige Funktion g : R → R gilt
Z
Z
g dPXn →
g dPX (n → ∞)
R
R
oder (äquivalent nach dem Transformationssatz für Integrale)
Eg(Xn ) → Eg(X) (n → ∞) .
52
Bemerkung 9.1. a) In Definition 9.1a ist das Grenz-W-Maß Q eindeutig
bestimmt.
b) In Definition 9.1b können Xn , X durch reelle ZVn Xn0 , X 0 mit PXn0 =
PXn , PX 0 = PX ersetzt werden.
Satz 9.1. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Aus Xn → X nach
D
Wahrscheinlichkeit (Schreibweise Xn → X) folgt Xn → X.
P
Satz 9.2. W-Maße Qn (n ∈ N), Q auf B bzw. reelle ZVn Xn (n ∈ N), X
mit VFn Fn , F .
D
Qn → Q schwach bzw. Xn → X (n → ∞) gilt genau dann, wenn Fn (x) →
F (x) (n → ∞) für alle Stetigkeitspunkte x von F .
Satz 9.3. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Ist X P-f.s. konstant,
so gilt:
D
Xn → X ⇐⇒ Xn → X .
P
Satz 9.4. Reelle ZVn Xn , Yn (n ∈ N), X auf (Ω, A, P )

D

Xn → X
D
=⇒ Yn → X .
|Xn − Yn | → 0 
P
Satz 9.5 (Spezialfall des Darstellungssatzes von Skorokhod). Reelle
D
ZVn Xn (n ∈ N), X mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ )
— wobei man Ω∗ = [0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen
kann — und reelle ZVn Xn∗ (n ∈ N), X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass
∗
∗
∗
∗
∀ PXn = PXn∗ , PX = PX ∗ , Xn → X
(n → ∞) P ∗ -f.s.
n
Satz 9.6 (Satz von der stetigen Abbildung). Reelle ZVn Xn (n ∈ N),
D
X mit Xn → X; Abbildung h : (R, B) → (R, B) sei PX -f.ü. stetig. Dann
gilt
D
h(Xn ) → h(X)
53
Satz 9.7 (Satz von Slutsky). Reelle ZVn Xn , Yn , X auf (Ω, A, P ); c ∈ R.


D
D

 Xn + Yn →
Xn → X
X +c
=⇒
D
Y X →
Yn → c 
cX .
n
n
P
Satz 9.8. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt:
D
fn → f λ-f.ü. =⇒ Xn → X
Satz 9.9. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt:
D
Xn → X ⇐⇒ Ef (Xn ) → Ef (X) für alle beschränkten gleichmäßig stetigen Funktionen f : R → R
Satz 9.10 (Satz von Lévy-Cramér; Stetigkeitssatz). W-Maße Qn
(n ∈ N), Q auf B mit charakteristischen Funktionen ϕn , ϕ : R → C. Dann
gilt:
Qn → Q schwach ⇐⇒ ∀
ϕn (u) → ϕ(u).
u∈R
Bemerkung 9.2. Die obigen Definitionen und Sätze lassen sich auf WMaße auf Bk bzw. k-dim. Zufallsvektoren übertragen.
9.2
Zentrale Grenzwertsätze
Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung
im Sinne der schwachen Konvergenz werden als zentrale Grenzwertsätze
bezeichnet.
Satz 9.11 (Zentraler Grenzwertsatz von Lindeberg-Lévy im 1dim. Fall). Sei (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer reeller ZVn mit EX1 =: a, V (X1 ) =: σ 2 mit σ > 0.
54
Dann
n
1 X
D
√
(Xk − a) → N (0, 1)-verteilte reelle ZV.
nσ
k=1
Korollar 9.2 (Zentraler Grenzwertsatz von de Moivre und Laplace). Für eine unabhängige Folge (Xn )n∈N identisch verteilter reeller
ZVn auf (Ω, A, P ) mit P [X1 = 1] = p, P [X1 = 0] = 1 − p =: q (0 < p < 1)
gilt
∀
α<β
∈R
Pn
Z β
1
X
−
np
2
k=1 k
<β →√
e−t /2 dt (n → ∞).
P α<
√
npq
(=)
(=)
2π α
Hilfsformel
∀
k∈N
|eix − 1 −
∀
x∈R
(ix)k−1
|x|k
ix
− ... −
|≤
1!
(k − 1)!
k!
Satz 9.11 folgt aus
Satz 9.12 (Zentraler Grenzwertsatz von Lindeberg). Die Folge (Xn )
quadratisch integrierbarer reeller ZVn mit EX12 > 0, ∀ EXn = 0 sei
n
Pn
2
2
unabhängig und erfülle — mit sn := i=1 EXi (n ∈ N) — die LindebergBedingung
n
(LB)
1 X
E(Xi2 χ[|Xi |>εsn ] ) → 0.
2
sn i=1
∀
ε>0
Dann
n
1 X
D
Xi → N (0, 1)-verteilte ZV.
sn i=1
Bemerkung 9.3.
a) In Satz 9.12 dient die Folge (sn ) zur Normierung. Die LindebergBedingung (LB) schränkt den Einfluss der einzelnen ZVn ein.
55
b) In Satz 9.12 — mit am Erwartungswert zentrierten ZVn — impliziert
die Lindeberg-Bedingung (LB) die Feller-Bedingung
1
max
EXi2 → 0
(n → ∞)
i=1,...,n s2n
und wird ihrerseits durch die Ljapunov-Bedingung
n
1 X
∃
δ>0
s2+δ
n
i=1
E|Xi |2+δ → 0
(n → ∞)
impliziert. Bei nicht am Erwartungswert zentrierten ZVn ist jeweils
Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen.
Satz 9.12 folgt aus
Satz 9.13 (Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von Zufallsvariablen). Für jedes n ∈ N seien Xn,1 , . . . , Xn,mn
unabhängige quadratisch integrierbare reelle ZVn mit mn → ∞ für n → ∞.
P n
2
Ferner seien EXn,i = 0, m
n=1 EXn,i = 1 und die Lindeberg-Bedingung
∀
ε>0
erfüllt. Dann
mn
X
mn
X
2
E Xn,i
χ[|Xn,i |>ε] ) → 0.
i=1
D
Xn,i → N (0, 1)-verteilte ZV.
i=1
9.3
Multivariate zentrale Grenzwertsätze
Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. EkXk < ∞, so
heißt EX = (EX1 , . . . , EXd )t Erwartungsvektor von X.
Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h.
EkXk2 < ∞, so heißt Cov(X) := (Cov(Xi , Xj ))i,j∈{1,...,d} Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen cov(Xi , Xj ) :=
56
E(Xi − EXi )(Xj − EXj ) der reellwertigen Zufallsvariablen Xi und Xj darstellen.
Definition 9.2. Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )t
heißt multivariat normalverteilt (oder auch d-dimensional normalverP
teilt), falls für jedes u ∈ Rd die Zufallsvariable hu, Xi = ut X = di=1 ui Xi
eindimensional normalverteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine Dirac-Verteilung δa im Punkt a interpretiert
wird.
Satz 9.14 (Cramér-Wold-Device). Für d-dimensionale Zufallsvektoren
D
D
Xn und X gilt Xn → X genau dann, wenn hu, Xn i → hu, Xi für alle
u ∈ Rd .
Satz 9.15 (Multivariater zentraler Grenzwertsatz). Für jedes n ∈ N
seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare d-dimensionale
ZVn mit mn → ∞ für n → ∞. Desweiteren gelte
∀
n
∀
i∈{1,...,mn }
mn
X
Cov(Xn,i ) = C ∈ Rd×d
∀
n
mn
X
∀
ε>0
EXn,i = 0
i=1
E kXk2n,i χ[kXi k>ε] ) → 0.
i=1
Dann
mn
X
D
Xn,i → N (0, C)-verteilten Zufallsvektor (n → ∞)
i=1
Korollar 9.3. Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer Zufallsvektoren, so gilt
n
1 X
D
√
(Xi − EXi ) → N (0, Cov(X1 ))-verteilte ZV.
n i=1
57
Teil II
Deskriptive Statistik
58
Die deskriptive (beschreibende) Statistik hat zum Ziel, empirische Daten
durch Tabellen und Grafiken übersichtlich darzustellen und zu ordnen, sowie durch geeignete grundlegende Kenngrößen zahlenmäßig zu beschreiben.
Vor allem bei umfangreichem Datenmaterial ist es sinnvoll, sich einen ersten Überblick zu verschaffen. Durch eine systematische Beschreibung der
Daten mit Hilfsmitteln der deskriptiven Statistik können mitunter auch
Fehler in den Daten — beispielsweise durch Tippfehler bei der Dateneingabe oder fehlerhafte Ergebnisse von Texterkennungssystemen — erkannt
werden. Die deskriptive Statistik verwendet keine stochastischen Modelle,
so dass die dort getroffenen Aussagen nicht durch Risikogrößen, wie z.B.
Fehlerwahrscheinlichkeiten, abgesichert sind. Dies kann durch die Methoden der schließenden Statistik erfolgen, sofern die untersuchten Daten den
dort unterstellten Modellannahmen genügen. Die explorative (erkundende)
Statistik hat darüber hinaus zum Ziel, bisher unbekannte Strukturen und
Zusammenhänge in den Daten zu finden und hierdurch neue Hypothesen
zu generieren. Diese auf Stichprobendaten beruhenden Hypothesen können
dann im Rahmen der schließenden Statistik mittels wahrscheinlichkeitstheoretischer Methoden auf ihre Allgemeingültigkeit untersucht werden.
Von der schließenden (auch induktiven oder inferentiellen) Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass
sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden
Grundgesamtheit macht. Beim Konklusionsschluss (indirekter Schluss) der
inferentiellen Statistik ist es also umgekehrt: Dort werden ausgehend von
der Stichprobe unbekannte Parameter der Grundgesamtheit geschätzt.
59
Kapitel 10
Statistische Kenngrößen
Bei statistischen Untersuchungen werden an geeignet ausgewählten Untersuchungseinheiten jeweils die Werte eines oder mehrerer Merkmale (variable) festgestellt. Werte, die von Merkmalen angenommen werden können,
heißen Merkmalsausprägungen.
Die Menge aller Untersuchungseinheiten wird als Grundgesamtheit oder
Population (population) bezeichnet. Eine Stichprobe (sample) ist eine
zufällig gewonnene endliche Teilmenge aus einer Grundgesamtheit.
Grob unterscheidet man zwischen qualitativen und quantitativen Merkmalen. Bei qualitativen Merkmalen unterscheidet man zwischen nominalen und ordinalen Merkmalen. Bei quantitativen Merkmalen unterscheidet man zwischen diskreten und stetigen Merkmalen.
Desweiteren unterscheidet man Merkmalstypen auch anhand ihrer Skalenniveaus: Nominalskala, Ordinalskala, Intervallskala und Verhältnisskala
(die letzten beiden Skalen für Merkmale, bei denen Differenzen bzw. Quotienten von Merkmalswerten sinnvoll interpretiert werden können).
Die Elemente einer Stichprobe x1 , . . . , xn eines ordinalen Merkmals können
der Größe nach geordnet werden. Hierbei bezeichne x(i) den i-kleinsten
60
Wert. Dann heißt
x(1) ≤ . . . ≤ x(n)
die geordnete Stichprobe (ordered sample) von x1 , . . . , xn .
10.1
Empirische Häufigkeitsverteilung
Ein Merkmal habe die Merkmalsausprägungen ξ1 , . . . , ξk . Liegt zu diesem
Merkmal eine Stichprobe x1 , . . . , xn vom Umfang n vor, so wird die Anzahl
Hn (ξi ) derjenigen Stichprobenelemente mit Merkmalsausprägung ξi als absolute Häufigkeit von ξi in der Stichprobe genannt. hn (ξi ) := Hn (ξi )/n
ist die relative Häufigkeit von ξi in der Stichprobe.
P
Handelt es sich um ein ordinales Merkmal, so ist ξk ≤ξi Hn (ξk ) die abP
solute kumulierte Häufigkeit von ξi und
ξk ≤ξi hn (ξk ) die relative
kumulierte Häufigkeit von ξi . Die relative kumulierte Häufigkeit des
Merkmalswertes ξ stimmt mit der empirischen Verteilungsfunktion
P
Fn (ξ) := 1/n ni=1 1[xi ≤ξ] am Merkmalswert ξ ∈ {ξ1 , . . . , ξk } überein.
10.2
Lagemaße
Ein Lagemaß ist eine Abbildung L : Rn → R, für die
∀
a∈R
∀
x1 ,...,xn
L(x1 + a, . . . , xn + a) = L(x1 , . . . , xn ) + a
gilt.
Beispiele für Lagemaße sind:
• Modalwert (mode)
xmod := argmax Hn (x)
x∈{x1 ,...,xn }
61
• das arithmetisches Mittel (sample mean)
n
1X
x̄n :=
xi
n i=1
• der (empirische) Median (median)

x n+1 ,
2
x̃ := x1/2 :=
1 xn + xn
2
falls n ungerade
2 +1
2
,
falls n gerade
• das empirische p-Quantil (p-th quantile) für ein p ∈ (0, 1)

x
falls np keine natürliche Zahl
(bnp+1c) ,
xp :=
 1 (x
falls np eine natürliche Zahl
2 (np) + x(np+1) ),
Das geometrische Mittel
x̄geom :=
n
Y
!1/n
xi
i=1
und das harmonische Mittel
n
x̄harm := Pn
1
i=1 xi
sind keine Lagemaße (wobei x1 , . . . , xn > 0).
Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll.
10.3
Steuungsmaße
Ein Streuungsmaß ist eine Abbildung S : Rn → R, für das
∀
a∈R
∀
x1 ,...,xn
S(x1 + a, . . . , xn + a) = S(x1 , . . . , xn )
Beispiele für Streuungsmaße sind:
62
• Stichprobenspannweite (sample range)
x(n) − x(1)
• empirische Varianz (sample variance)
n
1 X
s :=
(xi − x̄n )2
n − 1 i=1
2
empirische Standardabweicheung (sample standard deviation)
v
u
n
u 1 X
(xi − x̄n )2
s := t
n − 1 i=1
• Mittlere absolute Abweichung vom Median (mean absolute deviation)
n
1X
|xi − x̃n |
n i=1
• Interquartilabstand (interquartile distance)
x0.75 − x0.25
Der Variationskoeffizient (coefficient of variation)
s
x̄
ist kein Streuungsmaß.
Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll.
10.4
Zusammenhangsmaße
Gegeben seien die beiden Stichproben x1 , . . . , xn und y1 , . . . , yn zu zwei
Merkmalen. Bei einem ordinalen Merkmal können zu einer Stichprobe
x1 , . . . , xn die Ränge R(xi ) bestimmt werden. Hierbei erhält das kleinste
Element den Rang 1, das größte den Rang n.
63
• Sind die beiden Merkmale intervallskaliert, dann heißt
Pn
(xi − x̄)(yi − ȳ)
pPn
rxy := pPn i=1
2
2
(x
−
x̄)
i
i=1
i=1 (yi − ȳ)
Korrelationskoeffizient nach Pearson.
• Sind die beiden Merkmale ordinalskaliert, erhält man den Korrelationskoeffizient nach Spearman, wenn im Korrelationskoeffizient nach
Pearson die Werte xi und yi durch deren Ränge R(xi ) bzw. R(yi )
ersetzt werden.
• Bei nominalen oder ordinalen Merkmalen ist die mittlere quadratische
Kontingenz der Stichproben x1 , . . . , xn und y1 , . . . , yn definiert durch
2
K
L
1 X X Hkl − Hk·nH·l
Hk· H·l
n
n
k=1 l=1
wobei Hkl die absolute Häufigkeit der Stichprobenelemente (xi , yi ) mit
(xi , yi ) = (k, l), Hk· die absolute Häufigkeit der Stichprobenelemente
xi mit xi = k und H·l die absolute Häufigkeit der Stichprobenelemente
yi mit yi = l ist.
64
Kapitel 11
Grafiken
11.1
Beispiele für Grafiken für univariate Daten
• Säulendiagramm (bar chart)
• Kreisdiagramm (pie chart)
• Histogramm (histogram)
• Quantil-Quantil-Plot (QQ-plot)
• Box-Plot (box plot)
11.2
Beispiele für Grafiken für bivariate Daten
• Streudiagramm (scatter plot)
• Mosaikplot (mosaic plot)
65
Teil III
Grundbegriffe der Mathematischen
Statistik
66
Während die Wahrscheinlichkeitstheorie Eigenschaften vorgegebener WMaße untersucht, gibt die Mathematische Statistik Wege zur vernünftigen
Vorgabe von W-Maßen in wahrscheinlichkeitstheoretischen Modellen an.
Allgemein: Die Statistik ist eine Zusammenfassung von Methoden (samt
deren mit wahrscheinlichkeitstheoretischen Hilfsmitteln erfolgenden Gütebeurteilung), die es erlauben, vernünftige Entscheidungen bei Unsicherheit
zu treffen.
Bei einem einstufigen statistischen Experiment wird eine Realisierung x
einer Zufallsvariablen X mit Werten in der Menge R (mit σ-Algebra S)
beobachtet, wobei die auf S definierte Verteilung w von X nicht oder nur
teilweise bekannt ist. Die Menge R der möglichen Beobachtungsresultate
oder Stichproben(resultate) x — oder auch das Paar (R, S) — heißt Stichprobenraum [sample space]. Im Falle einer Stichprobe vom Umfang n ∈ N
liegt i.a. der Fall R = Rn , S = Bn vor, d.h. X ist ein n-dimensionaler Zufallsvektor mit unbekannter oder nur teilweise bekannter Verteilung w (auf
Bn ).
Es wird angenommen, dass w in einer Klasse {wϑ | ϑ ∈ Θ} von WVerteilungen auf S enthalten sei. Θ (mit einer darüber erklärten σ-Algebra
U von Mengen in Θ) heißt Parameterraum [parameter space] mit Parametern ϑ. Bei einer sog. parametrischen Verteilungsannahme läßt sich Θ
in natürlicher Weise als Teilmenge eines Rk (k ∈ N) auffassen. Dementsprechend unterscheidet man parametrische und nichtparametrische (verteilungsunabhängige) statistische Verfahren.
67
Kapitel 12
Testen von Hypothesen
12.1
Problemstellung, Bezeichnungen
In der Testtheorie tritt im Rahmen der oben beschriebenen Situation mit
unbekanntem Parameter ϑ folgende Aufgabe auf. Sei Θ = Θ0 ∪ Θ1 mit
nichtleeren disjunkten Mengen Θ0 , Θ1 (∈ U). Zu entscheiden ist aufgrund
der Beobachtung x ∈ R zwischen der mit H0 bezeichneten Hypothese, dass
ϑ ∈ Θ0 ist, und der mit H1 bezeichneten Hypothese, dass ϑ ∈ Θ1 ist; die
beiden Entscheidungen seien mit aH0 und aH1 bezeichnet.
Als (nichtrandomisierten) Test bezeichnet man eine Abbildung δ : R →
{aH0 , aH1 } der Form
(
aH1
für
x ∈ R1
δ(x) =
aH 0
für
x ∈ R0
mit R0 , R1 ∈ S, disjunkt, R0 ∪ R1 = R.
Ist H0 durch den Anwendungszweck ausgezeichnet, so heißt H0 Nullhypothese, H1 Alternativhypothese (Gegenhypothese). Es bedeutet aH0
Annahme oder wenigstens Nicht-Ablehnung der Hypothese H0 , aH1 Ablehnung der Hypothese H0 , R0 = {x ∈ R | δ(x) = aH0 } heißt Annahmebereich, R1 = {x ∈ R|δ(x) = aH1 } heißt kritischer Bereich (Ablehnungs68
bereich) des Tests. Ein Fehler 1. Art heißt eine Entscheidung für H1 ,
obwohl H0 richtig ist; ein Fehler 2. Art heißt eine Entscheidung für H0 ,
obwohl H1 richtig ist.
Die Funktion β : Θ → [0, 1] mit β(ϑ) := wϑ (R1 ) wird als Gütefunktion
des Tests δ bezeichnet, β(ϑ) gibt die Wahrscheinlichkeit an, dass X ∈ R1 ,
wenn ϑ der wahre Parameter ist; d.h. β(ϑ) gibt die mit Pϑ [δ(X) = aH1 ] bezeichnete Wahrscheinlichkeit für das Annehmen von H1 (Ablehnen von H0 )
an, wenn ϑ der wahre Parameter ist. Die Funktion 1 − β heißt Operationscharakteristik, ihr Graph heißt OC-Kurve. Die ideale Gütefunktion
β ist gegeben durch β(ϑ) = 0 für ϑ ∈ Θ0 , β(ϑ) = 1 für ϑ ∈ Θ1 ; Tests mit
einer solchen Gütefunktion existieren nur in trivialen Fällen.
Ein Test, dessen Fehlerwahrscheinlichkeiten 1. Art ≤ α ∈ (0, 1) sind, d.h.
mit supϑ∈Θ0 β(ϑ) ≤ α, heißt ein Test zum Niveau α.
Redeweise: Hat ein Test zum Niveau α nach Beobachtung von x ∈ R
zur Ablehnung von H0 geführt, so ist die Nichtgültigkeit von H0 , d.h. die
Gültigkeit von H1 , statistisch gesichert (signifikant) mit einer zugelassenen
Irrtumswahrscheinlichkeit α (Signifikanzzahl). Übliche α : 0, 05; 0, 01; 0, 005.
Ein Test mit diesem Ziel (Ablehnung von H0 oder auch Nicht-Ablehnung
von H0 ) heißt Signifikanztest (Hypothesentest) zum Niveau α zur statistischen Sicherung von H1 im Unterschied zum sog. Alternativtest mit
dem Ziel Annahme von H0 oder Annahme von H1 . – Die Hypothese, die
man statistisch sichern will, formuliert man also bei einem Signifikanztest
als Gegenhypothese. – In der Wahl von α drückt sich eine Bewertung der
Fehler 1. und 2. Art aus.
Häufig auftretendes (unsymmetrisches!) Testproblem: Gesucht ein Test δ
zum Niveau α mit möglichst kleinen Fehlerwahrscheinlichkeiten 2. Art
(Werten 1 − β(ϑ), ϑ ∈ Θ1 ), d.h. möglichst großen Schärfen β(ϑ) (ϑ ∈ Θ1 ).
Ein Test δ ∗ heißt gleichmäßig bester [uniformly most powerful, trennscharfer] Test für H0 gegen H1 zum Niveau α, wenn δ ∗ (mit Gütefunktion
69
βδ∗ ) ein Test für H0 gegen H1 zum Niveau α ist und wenn für alle Tests δ
(mit jeweiliger Gütefunktion βδ ) für H0 gegen H1 zum Niveau α gilt
∀
ϑ∈Θ1
βδ∗ (ϑ) ≥ βδ (ϑ).
Nimmt man die Forderung der Unverfälschtheit für Tests zum Niveau α
hinzu, d.h.
β(ϑ) ≥ α,
∀
ϑ∈Θ1
so läßt sich der Begriff eines gleichmäßig besten unverfälschten Tests
zum Niveau α definieren.
Bei Tests δ, für die mit einer Abb. T : R → R (mit {x ∈ R; T (x) < d} ∈
S, d ∈ R) – einer sog. Statistik T – und einem c ∈ R gilt
(
aH1 , falls T (x) > c
δ(x) =
aH0 , falls T (x) < c,
heißt T Prüfgröße und c kritischer Wert.
12.2
Wahrscheinlichkeitstheoretische Grundlagen für
spezielle Tests
Definition 12.1. (vgl. Definition 7.8) Die Verteilung der Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten reellen ZVn heißt ChiQuadrat-Verteilung mit n Freiheitsgraden (Bezeichnung χ2n ; n ∈ N).
Bemerkung 12.1. (vgl. Definition 7.8) Die Verteilung χ2n besitzt eine
Dichte f : R → R+ mit

1

xn/2−1 e−x/2 , x > 0
n/2 Γ( n )
2
f (x) =
2

0
, x ≤ 0.
Definition 12.2. (vgl. Bemerkung 7.7) Sind X, Y zwei unabhängige reelle
ZVn mit PX = N (0, 1) und PY = χ2n , so wird die Verteilung der ZV
70
p
X/ Y /n als t-Verteilung oder Student-Verteilung tn (auch Stn ) mit
n Freiheitsgraden bezeichnet (n ∈ N).
Bemerkung 12.2. Die Verteilung tn besitzt eine Dichte f : R → R+ mit
2
)
1 Γ( n+1
x
n+1
2
f (x) = √
1+
−
, x ∈ R.
n
n
2
nπ Γ( 2 )
Faustregeln:
b(n, p) mit hinr. Genauigkeit approx. durch N (np, np(1 − p)), falls np(1 −
p) > 9
χ2n mit hinr. Genauigkeit approx. durch N (n, 2n), falls n > 30
tn mit hinr. Genauigkeit approx. durch N (0, 1), falls n > 30
Satz 12.1. Seien X1 , . . . , Xn (n ≥ 2) unabhängige N (a, σ 2 )-vert. ZVn.
n
n
√
P
P
1
Xi ; S 2 := n−1
(Xi − X)2 , S := + S 2
X := n1
i=1
i=1
a) X und S 2 sind unabh.
2
b) X ist N (a, σn )-verteilt;
n−1 2
σ2 S
ist χ2n−1 -verteilt.
c) EX = a, ES 2 = σ 2 .
√
d) n X−a
S ist tn−1 -verteilt.
Bemerkung 12.3 zu Satz 12.1. Mit x = (x1 , . . . , xn ) ∈ Stichprobenraum
Rn und
n
n
1X
1 X
2
x :=
xi und s :=
(xi − x)2
n i=1
n − 1 i=1
sind die Abbildungen x → x und x → s2 (x ∈ Rn ) sog. erwartungstreue
Schätzfunktionen für a bzw. σ 2 (vgl. § 11). Die Realisierung x und X
heißt Stichprobenmittel, die Realisierung s2 von S 2 heißt empirische
Varianz.
Für ein W-Maß Q auf B mit VF F und ein α ∈ (0, 1) wird das α-Fraktil
erklärt als
min{t ∈ R; F (t) ≥ 1 − α}
71
und das α-Quantil als
min{t ∈ R; F (t) ≥ α}.
α-Quantil = (1 − α)-Fraktil; α-Fraktil= (1 − α)-Quantil.
12.3
Spezielle Tests bei parametrischen Verteilungsannahmen
Tests bei einseitigen Testproblemen:
Es seien uα , χ2n;α , tn;α , b(n, p)α die α-Fraktile der Verteilungen N (0, 1),
χ2n , tn , b(n, p) [n ∈ N, p ∈ (0, 1), 0 < α < 1]
Tafeln s. D. B. Owen, Handbook of Statist. Tables, 1962.
p
Approximation von b(n, p)α bei großem n durch np + np(1 − p) uα − 12 .
a) Einstichprobentests zum Niveau α ∈ (0, 1).
Unabhängige identisch verteilte ZVn X1 , . . . , Xn ;
x = (x1 , . . . xn ) beobachtete Realsierung von (X1 , . . . , Xn ).
n
1P
Stichprobenmittel x :=
xi ;
n i=1
n
1 P
Empirische Varianz s2 :=
(xi − x)2 (n ≥ 2),
n − 1 i=1
Standardabweichung s(≥ 0).
Prüfgröße T (x), kritischer Wert cα .
Die Hypothese H0 wird abgelehnt, wenn T (x) > cα .
a1 ) PXi = N (a, σ02 ) [NV mit unbekanntem α ∈ R, bekanntem σ02 ∈ (0, ∞)]
(<)
a0 ∈ R; H0 : a = a0 , H1 : a > a0
√
n
(x − a0 ), cα = uα
T (x) =
σ0
Einseitiger Gauß-Test (für eine Stichprobe)
72
a2 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)]
(<)
a0 ∈ R; H0 : a = a0 , H1 : a > a0 (n ≥ 2)
√ x − a0
T (x) = n
; cα = tn−1;α
s
Einseitiger t-Test von Student (für eine Stichprobe)
a3 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)]
(<)
σ02 ∈ (0, ∞); H0 : σ 2 = σ02 , H1 : σ 2 > σ02
n
1 P
T (x) = 2 (xi − x)2 ; cα = χ2n−1;α
σ0 i=1
Einseitiger χ2 -Test für die Varianz
(n ≥ 2)
a4 ) PXi = b(1, p) [Binomialvert. mit Par. 1 und p ∈ (0, 1)]
(<)
p0 ∈ (0, 1); H0 : p = p0 ; H1 : p > p0 .
n
P
T (x) =
xi ; cα = b(n, p0 )α
i=1
Einseitiger Binomialtest (für eine Stichprobe)
b) Zweistichprobentests zum Niveau α ∈ (0, 1).
Unabhängige ZVn X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit identisch verteilten
X1 , . . . , Xn1 und identisch verteilten Y1 , . . . , Yn2 ; x = (x1 , . . . , xn1 ), y =
(y1 , . . . , yn2 ) beobachtete Realsierung von (X1 , . . . , Xn1 ) bzw. (Y1 , . . . , Yn2 ).
n1
n2
1 P
1 P
xi bzw. y =
yj .
Stichprobenmittel x =
n1 i=1
n2 j=1
Prüfgröße T (x, y), kritischer Wert cα .
Die Hypothese H0 wird abgelehnt, wenn T (x, y) > cα .
b1 ) PXi = N (a, σ02 ), PYj = N (b, σ02 ) [NV mit unbekanntem (a, b) ∈ R2 ,
bekanntem σ02 ∈ (0, ∞)]
(<)
H0 : a = b, H1 : a > b
r
n1 n2 x − y
T (x, y) =
; c α = uα .
n1 + n2 σ0
Einseitiger Gauß-Test für zwei Stichproben
b2 ) PXi = N (a, σ 2 ), PYj = N (b, σ 2 ) [NV mit unbekanntem (a, b, σ 2 ) ∈
R2 × (0, ∞)]
73
(<)
H0 : a = b, H1 : a > b (n1 ≥ 2, n2 ≥ 2)
s
r
P
n1
n2
P
n1 n2
1
2
2
(x−y)/
(xi − x) + (yj − y) ;
T (x, y) =
n1 + n2
n1 + n2 − 2 i=1
j=1
cα = tn1 +n2 −2;α
Einseitiger t-Test von Student für zwei Stichproben.
Tests bei den entsprechenden zweiseitigen Testproblemen [H0 mit = statt
≤, H1 mit 6= statt > ] zum Niveau α:
zu a1 ), a2 ), b1 ), b2 ) . . . |T | statt T , c α2 statt cα ;
zu a3 ), a4 ) . . . kritischer Bereich {x ∈ Rn | T (x) < c1− α2 ∨ T (x) > c α2 }
Satz 12.2.
a) Alle oben angegebenen Tests sind jeweils Tests für H0 gegen H1 zum
Niveau α.
b) Die Tests in a1 ), a2 ), a3 ), b1 ), b2 ) und die angegebenen zweiseitigen Varianten zu a1 ), a2 ), b1 ), b2 ) sind jeweils gleichmäßig beste unverfälschte
Tests für H0 gegen H1 zum Niveau α; die Tests in a1 , a3 ), b1 ) sind sogar
jeweils gleichmäßig beste Tests für H0 gegen H1 zum Niveau α.
12.4
Tests bei nichtparametrischen Verteilungsannahmen
A) χ2 -Test (von Pearson)
(ein parametrischer Test mit Anwendung auf nichtparametrische Probleme)
Definition 12.3. Seien X1 , . . . , Xn unabhängige identisch verteilte ZVn
auf (Ω, A, P ), welche die r(≥ 2) geg. Werte cj mit Wahrscheinlichkeit pj
74
annehmen (j = 1, . . . , r) wobei
r
P
pj = 1. Die ZV Yj :=
n
P
i=1
j=1
I[X = c ]
i
j
mit Werten in {0, 1, . . . , n} gibt also die Anzahl der cj an, die in dem ntupel (X1 , . . . , Xn ) auftreten (j = 1, . . . , r). Die Verteilung m(n; p1 , . . . , pr )
von Y = (Y1 , . . . , Yr ) heißt Multinomialverteilung (Polynomialverteilung).
Die Zähldichte zu m(n; p1 , . . . , pr ) ist gegeben durch
(k1 , . . . , kr ) −→
n!
kr
1
pk
1 . . . pr ,
k1 ! . . . kr !
wobei k1 , . . . , kr ∈ {0, 1, . . . , n} mit k1 + . . . + kr = n.
Es gilt m(n0 ; p1 , . . . , pr ) ∗ m(n00 ; p1 , . . . , pr ) = m(n0 + n00 ; p1 , . . . , pr ).
Beobachtet seien Realisierungen xi von unabhängigen identisch verteilten
ZV Xi (i = 1, . . . , n) wie oben mit Realisierungen yj der zugehörigen Yj
(j = 1, . . . , r). — Diese Situation ergibt sich auch folgendermaßen. Seien
ei (i = 1, . . . , n) unabhängig identisch verteilte ZV mit Bildmessraum
X
(R1 , S1 ) [wichtiger Spezialfall: (R1 , S1 ) = (R, B) und Verteilungsfunktion
r
e1 ]. Es wird R1 in messbare fremde Zellen C1 , . . . , Cr mit P Cj = R1
F von X
j=1
ei (ω) ∈ Cj (i = 1, . . . , n; ω ∈ Ω).
eingeteilt und Xi (ω) := Cj gesetzt für X
Gegeben seien p10 , . . . , pr0 > 0 mit
r
P
pj0 = 1 bzw. VF F0 : R → [0, 1].
j=1
Zu testen sei H0 : (p1 , . . . , pr ) = (p10 , . . . , pr0 ) gegen H1 : (p1 , . . . , pr ) 6=
(p10 , . . . , pr0 ) bzw. H0 : F = F0 gegen F 6= F0 .
Ein Test, der asymptotisch (für n → ∞) zum Niveau α ∈ (0, 1) ist, ist
gegeben durch den sog. χ2 -Test (von Pearson), χ2 -Anpassungstest:
H0 wird abgelehnt, wenn — mit x = (x1 , . . . , xn ) —
T (x) :=
r
X
(yj − npj0 )2
j=1
npj0
r
1 X yj2
≡
− n > χ2r−1;α .
n j=1 pj0
75
Faustregel: Es soll npj0 ≥ 5 (j = 1, . . . , r) sein.
Die yj sind die beobachteten, die npj0 die bei Gültigkeit von H0 erwarteten
Zellhäufigkeiten bei Stichprobenumfang n. Hängen (p10 , . . . , pr0 ) bzw. F0
von einem unbekannten Parameter θ = (θ1 , . . . , θt ) ∈ Θ ⊆ Rt ab (Voraussetzung: r ≥ t + 2), so wird dieser geschätzt als Lösung θb (sog. modifizierte
χ2 -Schätzung von θ) der Likelihood-Gleichungen
r
X
yj ∂pj0
= 0 (l = 1, . . . , t)
np
∂θ
j0
l
j=1
b . . . , pr0 (θ))
b und obiger χ2 -Test verwendet,
(auch bei F0 !), dann (p10 (θ),
jedoch mit χ2r−1−t;α statt χ2r−1;α .
b ≥ 5 (j = 1, . . . , r) sein.
Faustregel: Es soll npj0 (θ)
Satz 12.3. X := (X1 , . . . , Xn ).
a) Im ersteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch
χ2r−1 -verteilt (für n → ∞).
b) Im letzteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch
χ2r−1−t -verteilt, falls zusätzlich gilt:
Θ offen, für alle θ ∈ Θ ist pj0 (θ1 , . . . , θt ) > 0,
∂pj0
∂ 2 pj0
,
ex. und stetig (j = 1, . . . , r; l, l0 , l00 = 1, . . . , t)
∂θl
∂θl0 ∂θl00
∂pj0
und die Matrix (
; j = 1, . . . , r; l = 1, . . . , t) vom Rang t.
∂θl
Anwendung des χ2 -Tests bei Kontingenztafeln.
Es seien (X1i , X2i ) (i = 1, . . . , n) n unabhängige identisch verteilte ZV,
welche die r · s (r ≥ 2, s ≥ 2) geg. Wertepaare (cj , dk ) mit Wahrscheinlichkeit pjk annehmen (j = 1, . . . , r; k = 1, . . . , s),
76
s
P
wobei pj· :=
pjk (j = 1, . . . , r), p·k :=
r
P
pjk (k = 1, . . . , s). — Diese
j=1
k=1
ZV können analog zu obigem aufgrund anderer ZV mit Hilfe einer Zelleinteilung definiert sein. — Es seien die zugehörigen Realisierungen (x1i , x2i )
(i = 1, . . . , n) beobachtet und dazu die entsprechenden Zellhäufigkeiten
yjk (j = 1, . . . , r; k = 1, . . . , s) in einer Kontingenztafel (r × s-Feldertafel)
angeordnet.
Zu testen sei zum Niveau α ∈ (0, 1)
H0 : Unabhängigkeit des Paares (X11 , X21 ), d.h. ∀ pjk = pj· p·k ,
(j,k)
gegen
H1 : Nicht-Unabhängigkeit des Paares (X11 , X21 ), d.h. ∃
pjk 6= pj· p·k .
(j,k)
Mit yj· :=
s
P
yjk , y·k :=
r
P
j=1
k=1
yjk sind n1 yj· und n1 y·k Likelihood-Schätzungen
für pj· bzw. p·k . H0 wird abgelehnt, wenn
X X (nyjk − yj· y·k )2
> χ2(r − 1)(s − 1); α .
nyj· y·k
j
k
Im Spezialfall r = s = 2 wird H0 abgelehnt, wenn
n
(y11 y22 − y12 y21 )2
> χ21; α
y1· y2· y·1 y·2
Test asymptotisch (für n → ∞) zum Niveau α. Faustregel n ≥ 60.
Ein weiterer Anpassungstest, d.h. Test zu dem Problem, ob vorliegende
Beobachtungen signifikant von einer durch die Nullhypothese angegebenen
Verteilung oder Klasse von Verteilungen abweichen, ist gegeben durch
B) Test von Kolmogorov(-Smirnov)
Sei (X1 , X2 , . . .) eine Folge unabhängiger identisch verteilter reellwertiger
ZV, die jeweils die VF F besitzen sollen. Beobachtet sei die Realisierung
77
x(n) := (x1 , . . . , xn ) ∈ Rn von X(n) := (X1 , . . . , Xn ). Die VF Fn mit
n
1X
Fn (t) := Fn (x(n) , t) :=
I
(xi )
n i=1 (−∞, t]
wird als empirische VF zu x(n) bezeichnet.
Die Schätzfunktion Fn (·, t) für F (t), t ∈ R, ist erwartungstreu und (stark)
konsistent, d.h.
Fn (X(n) , t) → F (t) (n → ∞) in Wahrscheinlichkeit (sogar f.s.).
Zu letzterem gilt als Verschärfung der
Satz von Glivenko-Cantelli. Unter den obigen Voraussetzungen strebt
sup | Fn (X(n) , t) − F (t) |→ 0 (n → ∞) f.s.
t∈R
Hierbei wird durch
Tn (x(n) ) := sup |Fn (x(n) , t) − F (t)|
t∈R
eine Abbildung Tn : (Rn , Bn ) → (R, B) definiert.
Bemerkung 12.4. Bei stetigem F ist die Verteilung Qn von
unabhängig von F , insbesondere ist Qn die Verteilung von
√
√
nTn (X(n) )
n
1X
n sup |
I[0, u] (Ui ) − u |
u∈[0,1] n i=1
mit unabhängigen ZV Ui (i = 1, . . . , n), die jeweils auf [0, 1] gleichverteilt
sind.
Satz von Kolmogorov(-Smirnov). Für jede stetige (wahre) VF F kon√
vergiert nTn (X(n) ) in Verteilung (n → ∞), wobei die Grenzverteilung Q
eine VF G besitzt mit

∞
P
2 2

 1 + 2 (−1)j e−2j t für t > 0
j=1
G(t) =


0
für t ≤ 0
78
Somit lässt sich
√
nTn (x(n) ) :=
√
n sup | Fn (x(n) , t) − F0 (t) | als Prüfgröße
t∈R
eines Tests zum Niveau α ∈ (0, 1) für H0 : F = F0 mit stetiger VF F0
gegen H1 : F 6= F0 verwenden: H0 wird abgelehnt, wenn
√
nTn (x(n) ) > Qn;α
|{z}
α-Fraktil von Qn
oder — bei größerem n —
√
nTn (x(n) ) > Qα
(Test von Kolmogorov-Smirnov).
Vertafelung von √1n Qn;α
Mathematische Statistik
Q0,05 = 1, 36;
(α = 0, 05 und 0, 01) z.B. bei v. d. Waerden,
Q0,01 = 1, 63.
Zu beobachtetem x(n) und somit zu Fn (x(n) , ·) verwendet man als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1−α die Menge
der stetigen Verteilungsfunktionen in einem durch
1
1
Fn (x(n) , ·) − √ Qn,α und Fn (x(n) , ·) + √ Qn;α
n
n
begrenzten Streifen (vgl. §16).
Für das entsprechende einseitige Testproblem H0 : F = stet. F0 , H1 : F ≥
F0 mit F 6= F0 wird statt Tn (x(n) ) die Prüfgröße
Tn+ (x(n) ) := sup[Fn (x(n) , t) − F0 (t)]
t∈R
mit Verteilung Q+
n (von
verwendet, wobei
√
nTn+ (X(n) ) bei wahrem F0 ) und Grenz-VF G+

1 − e−2t2 , t > 0
G+ (t) =
0,
t ≤ 0.
und kritischen Werten Q+
n;α bzw. Qα (G VF zu Q).
79
Als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1 −
α ergibt sich die Menge der stetigen Verteilungsfunktionen Fe mit Fe ≥
Fn (x(n) , ·) −
√1 Q+ .
n n;α
80
Kapitel 13
Parameterschätzung
Während die Testtheorie der Entscheidung dient, aus welcher Grundgesamtheit eine Stichprobe entnommen worden ist, bezieht sich die Schätztheorie auf das Entscheidungsproblem, wie man den wahren Parameter
(aus einem Kontinuum) aufgrund einer Stichprobe möglichst gut bestimmt.
Im folgenden werden die unmittelbar vor §13 angegebenen Bezeichnungen
verwendet, Θ ⊂ R, U ∈ B (allgemeiner Θ ⊂ Rk mit euklidischer Norm,
U ∈ Bk ).
Als Schätzfunktion (estimator), genauer Punktschätzfunktion, wird eine
Abbildung δ : R → Θ bezeichnet (mit δ −1 (U ) ∈ S für U ∈ U).
Eϑ δ(X) −ϑ heißt Verzerrung (bias) der Schätzfunktion für ϑ.
| {z }
Erwartungswert von δ(X) bei wahrem Parameter ϑ ∈ Θ
Eine Schätzfunktion mit Verzerrung 0 heißt erwartungstreu (unverzerrt,
unbiased).
Die Qualität einer erwartungstreuen Schätzfunktion für ϑ wird häufig an
Hand der i.a. von ϑ abhängigen Varianz Eϑ (δ(X) − ϑ)2 von δ(X) beurteilt.
Allg.: Eϑ (δ(X) − δ)2 ...mittlerer quadratischer Fehler (mean squared error,
MSE). Entsprechend: Schätzung eines g(ϑ) statt ϑ.
81
Satz 13.1. a) Seien X1 , . . . , Xn unabhängige identisch verteilte reelle Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. a := EX1 bzw. σ 2 :=
V (X1 ).
Die Abbildung
n
1 X
xi
x → x :=
n i=1
| {z }
Stichprobenmittel
bzw.
n
1 X
x → s :=
(xi − x)2
n − 1 i=1
|
{z
}
empirische Varianz
2
(x = (x1 , . . . , xn ) ∈ Rn )
ist eine erwartungstreue Schätzfunktion für a bzw. σ 2 .
n
P
2
Xi ist σn
Die Varianz von X := n1
(unabh. von a).
i=1
b) Sei (Xn )n∈N eine unabhängige Folge identisch verteilter reeller Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. Dann konvergiert (für n → ∞)
n
1 X
Xi → a mit Wahrscheinlichkeit Eins (f.s.)
n i=1
bzw.
n
1 X
(Xi − X)2 → σ 2 mit Wahrscheinlichkeit Eins (f.s.),
n − 1 i=1
sog. starke Konsistenz der zugehörigen Folge von Schätzfunktionen.
Spezialfall zu Satz 13.1: Xi b(1, p)-verteilt; das Stichprobenmittel ist als
eine relative Häufigkeit deutbar und dient als Schätzung für die Wahrscheinlichkeit p.
Ein Konstruktionsprinzip für Schätzfunktionen wird durch das nachstehende Maximum-Likelihood-Prinzip (R. A. Fisher) gegeben.
Sei (R, S) = (Rn , Bn ), Θ ⊂ Rk mit Θ ∈ Bk , U ⊂ Bk . Die Elemente der
Familie {wϑ ; ϑ ∈ Θ} sollen jeweils eine Dichte f (ϑ, ·) : R → R+ besitzen.
82
Aufgrund der Beobachtung x ∈ R sucht man δ(x) als Schätzung für den
unbekannten Parameter ϑ so zu wählen, dass f (ϑ, x) maximal bezüglich
ϑ ∈ Θ wird.
Bei beobachtetem x ∈ R wird f (·, x) : Θ → R+ als Likelihood-Funktion,
ein δ(x) ∈ Θ mit f (δ(x), x) = sup f (ϑ, x) als eine Maximum-Likelihoodϑ∈Θ
Schätzung (Likelihood-Schätzung) für ϑ ∈ Θ bezeichnet. Die zugehörige
Funktion δ : (R, S) → (Θ, U), falls als Schätzfunktion existent, heißt
Maximum-Likelihood-Schätzfunktion (Likelihood-Schätzfunktion) für ϑ ∈
Θ. — Man sucht eine Likelihood-Schätzung δ(x) ∈ Θ ⊂ Rk als Lösung des
Systems der Likelihood-Gleichungen
∂ ln f (ϑ, x)
= 0 (j = 1, . . . , k)
∂ϑj
[mit ϑ = (ϑ1 , . . . , ϑk )] zu gewinnen. Diese Bedingungen sind allerdings
weder notwendig noch hinreichend.
Analog für Zähldichten (im Falle n = 1; eine Verallgemeinerung auf n ∈ N
ist möglich).
Bemerkung 13.1 zum Maximum-Likelihood-Prinzip. Bei Unabhängigkeit
des n-tupels (X1 , . . . , Xn ) = X konvergiert unter gewissen Zusatzvoraussetzungen bei wahrem Parameter θ ∈ Θ die Lösung δn ◦ X der LikelihoodGleichungen (mit X statt x) gegen θ nach Wahrscheinlichkeit (n → ∞),
sog. Konsistenz der Schätzfunktionenfolge (δn ). Unter verschärften Zusatz√
voraussetzungen konvergiert sogar n(δ ◦ Xn − θ) nach Verteilung gegen
eine N (0, σ 2 )-verteilte reelle ZV mit minimalem σ 2 .
83
Kapitel 14
Parameterschätzung bei linearen
Regressionsproblemen
Beobachtungen in Abhängigkeit von unterschiedlichen Versuchsbedingungen werden aufgefaßt als Realisierungen von reellwertigen Zufallsvariablen,
die von einer (kontrollierbaren, d.h. nicht-zufallsabhängigen) Variablen s
aus einer Teilmenge von R (allgemeiner Rm ) abhängen. Die Abhängigkeit
von s des Erwartungswertes der Zufallsvariablen wird durch die sog. Regressionsfunktion beschrieben. In diesem Rahmen auftretende Probleme
werden als Regressionsprobleme bezeichnet. Lineare Regression liegt vor,
wenn die Abhängigkeit durch ein Polynom 1. Grades gegeben ist.
Beobachtet seien Realisierungen xi von unabhängigen quadratisch inte>
grierbaren reellwertigen Zufallsvariablen Xi [i = 1, . . . , n(= 3)] mit EXi =
a + b(si − s), V (Xi ) = σ 2 (nicht notw. normalverteilt) [vorgegebene si ∈ R
n
P
1
si ; unbekannte a, b ∈ R, σ 2 ∈
(nicht alle übereinstimmend) mit s := n
i=1
R+ (b sog. Regressionskoeffizient)].
84
Bezeichnungen: x = (x1 , . . . , xn ); b
a := x :=
n
wsx
1
n
n
P
xi ;
i=1
n
1X
1X
xi (si − s) =
(xi − x)(si − s) ;
:=
n i=1
n i=1
n
n
1X
1X
:=
si (si − s) =
(si − s)2 ;
n i=1
n i=1
bb := wsx ;
ws2
n
1X
2
σ
b :=
[xi − b
a − bb(si − s)]2 .
n i=1
ws2
Schätzungen b
a, bb, σ
b2 für a bzw. b bzw. σ 2 .
b
a, bb ergeben sich mit der Methode der kleinsten Quadrate, d.h. sie minimieren
P
R(a, b) := n1 [xi −a−b(si −s)]2 ; sie sind Lösungen der Normalgleichungen
i
X
[xi − s − b(si − s)] = 0 ,
i
X
[si − s][xi − a − b(si − s)] = 0 .
i
Es gilt σ
b2 = R(b
a, bb) .
Bei normalverteilten Xi ergeben sich b
a, bb auch als Maximum-LikelihoodSchätzungen, wobei die beiden Likelihood-Gleichungen zur Bestimmung
von b
a, bb mit den ob. Normalgleichungen äquivalent sind.
Die Schätzfunktionen α, β mit α(x1 , . . . , xn ) := b
a, β(x1 , . . . , xn ) := bb sind
erwartungstreu, d.h.
Eθ α(X1 , . . . , Xn ) = a
(θ = (a, b, σ 2 ) ∈ R × R × R+ ) ,
Eθ β(X1 , . . . , Xn ) = b
85
und konsistent, d.h. — bei wahrem Parameter θ = (a, b, σ 2 ) —
α(X1 , . . . , Xn ) → a nach Wahrscheinlichkeit (n → ∞) ,
β(X1 , . . . , Xn ) → b nach Wahrscheinlichkeit (n → ∞) .
Letzteres gilt für β jedoch nur, wenn
n
P
(si − s)2 → ∞ (n → ∞) .
i=1
Satz 14.1 (Spezialfall des Satzes von Gauß-Markov). Die obigen Schätzfunktionen α, β sind unter allen (in x1 , . . . , xn ) linearen erwartungstreuen
Schätzfunktionen für a bzw. b diejenigen mit der (bzgl. des Parameters
θ = (a, b, σ 2 )) gleichmäßig kleinsten Varianz.
86
Kapitel 15
Bereichsschätzung
Verwendet werden die unmittelbar vor §12 angegebenen Bezeichnungen.
Während die in §13 eingeführte Punktschätzung δ(x) eine präzise Aussage, jedoch häufig δ(X) f.s. eine Fehlentscheidung liefert, stellt eine Bereichsschätzung C(x) eine Teilmenge des Parameterraumes dar, wobei C(X)
mit einer vorgegebenen Mindestwahrscheinlichkeit 1 − α den zugrundeliegenden Parameter ϑ enthält.
Eine Abbildung C : R → P(Θ) − {∅} [P(Θ) . . . Potenzmenge von Θ]
wird als eine Bereichsschätzfunktion für ϑ(∈ Θ) zum Konfidenzniveau
(Sicherheitswahrscheinlichkeit) 1 − α [0 < α < 1] oder als ein Konfidenzbereich für ϑ zum Niveau 1 − α bezeichnet, wenn für alle ϑ ∈ Θ die
Wahrscheinlichkeit
wϑ ({x ∈ R | C(x) 3 ϑ}) =Pϑ [C(X) 3 ϑ]
(:=P [C(X) 3 ϑ] bei wahrem Par. ϑ)
definiert ist und
inf wϑ ({x ∈ R | C(x) 3 ϑ}) ≥ 1 − α
ϑ∈Θ
gilt. Die hierbei zu einer Beobachtung x ∈ R gehörige Bereichsschätzung
C(x) heißt Konfidenzschätzung (oder Konfidenzbereich) zum Niveau
1 − α.
87
Wichtiger Spezialfall: Konfidenzintervall (Vertrauensintervall); bei einem
Konfidenzintervall mit oberer Grenze ∞ wird die untere Grenze als untere
Konfidenzschranke zum Niveau 1 − α bezeichnet.
Zusammenhang zwischen Testtheorie und der Theorie der Konfidenzbereiche durch das folgende
Dualitätsprinzip. Stichprobenraum (R, S), Parameterraum (Θ, U); α ∈
(0, 1).
a) Sei C ein Konfidenzbereich zum Niveau 1 − α. Für jedes ϑ0 ∈ Θ läßt sich
dann A(ϑ0 ) := {x ∈ R | C(x) 3 ϑ0 } als Annahmebereich eines (nichtrandomisierten) Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α
auffassen.
b) Für jedes ϑ0 ∈ Θ sei A(ϑ0 ) Annahmebereich eines (nichtrandomisierten)
Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α. Dann ist C
mit C(x) := {ϑ ∈ Θ | A(ϑ) 3 x}, x ∈ R, ein Konfidenzbereich zum Niveau
1 − α, falls ∀ C(x) 6= ∅.
x∈R
Üblicherweise Kϑ0 . . . Θ − {ϑ0 } oder {ϑ ∈ Θ | ϑ > ϑ0 } oder {ϑ ∈ Θ | ϑ < ϑ0 }
oder {ϑ = (a, σ 2 ) ∈ R × (0, ∞) | a > a0 } usw.
Beispiele. Unabhängige identisch verteilte reelle ZVn X1 , . . . Xn ; x =
(x1 , . . . , xn ) beobachtete Realisierung von X = (X1 , . . . , Xn ); α ∈ (0, 1).
C(x), u(x) . . . Konfidenzintervall bzw. untere Konfidenzschranke für ϑ zum
Niveau 1 − α.
a) PXi = N (ϑ, σ02 ) [Normalverteilung mit unbekanntem ϑ ∈ R, bekanntem σ02 ∈ (0, ∞)]
h
σ0 u α2
σ0 u α2 i
σ0 uα
C(x) = x − √ , x + √
bzw. u(x) = x − √
n
n
n
n
P
1
xi und uα . . . α-Fraktil von N (0, 1) (n ≥ 1).
mit x := n
i=1
88
b) PXi = N (ϑ, σ 2 ) [Normalvert. mit unbekanntem ϑ ∈ R, unbekanntem
σ 2 ∈ (0, ∞)]
h
s
s
s i
C(x) = x − tn−1; α2 √ , x + tn−1; α2 √
bzw. u(x) = x − tn−1;α √
n
n
n
mit s2 :=
1
n−1
n
P
(xi − x)2 und tn−1;α . . . α-Fraktil von tn−1 (n ≥ 2).
i=1
89
Anhang A
Begriffe und Sätze der Maß- und
Integrationstheorie
Sei (Ω, A, µ) ein Maßraum.
Satz von der monotonen Konvergenz (B. Levi). Für erweitert reellwertige messbare Funktionen fn mit fn ≥ 0 (n ∈ N), fn ↑ f (n → ∞)
R
existiert lim fn dµ und es gilt
n
Z
lim
n
Z
fn dµ =
lim fn dµ
n
Lemma von Fatou. Für jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn ≥ 0 µ-f.ü. gilt
Z
Z
lim inf fn dµ ≤ lim inf fn dµ
Satz von der dominierten Konvergenz (Lebesgue). Für erweitertreellwertige messbare Funktionen fn (n ∈ N), f und g mit fn → f µ-f.ü.
R
(n → ∞), |fn | ≤ g µ-f.ü. für alle n und g dµ < ∞ existiert limn→∞ fn dµ
und es gilt
Z
Z
lim
n→∞
fn dµ =
90
f dµ
Definition. Das Maß µ heißt σ-endlich, wenn es ein Folge von Mengen
An ∈ A (n ∈ N) gibt mit An ↑ Ω und µ(An ) < ∞.
Ein Maß ν auf A heißt µ-stetig, falls
∀
µ(A) = 0 ⇒ ν(A) = 0.
A∈A
Satz von Radon-Nikodym. Messraum (Ω, A), σ-endliche Maße µ und ν
auf A, ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ )
mit
Z
ν(A) =
f dµ
∀
A∈A
A
f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”.
f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig
dν
kurz durch dµ
angegeben.
91
Literaturverzeichnis
[1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4.
Aufl.
[2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998),
2. Aufl.
[3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd
ed.
[4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer
(2004), 2nd ed.
[5] Dudley, R.M. Real Analysis and Probability; Cambridge University
Press (2002), 2nd ed.
[6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl.
[7] Feller, W. An Introduction to Probability and Its Applications I,II;
Wiley, New York (1970/71), 3rd ed./2nd ed.
[8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik;
VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl.
[9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin
(1977).
[10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls; Vieweg+Teubner (2008), 7. Aufl.
[11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen und Anwendungen. Vieweg+Teubner (2009), 2. Aufl.
92
[12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer,
Berlin (1985), 3. korr. Nachdruck.
[13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004),
2nd ed.
[14] Kallenberg, O. Foundations of Modern Probability. Springer, New
York (2001), 2nd ed.
[15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006)
[16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Aufl.
[17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed.
[18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen;
Springer (2004).
[19] Williams, D. Probability with Martingales; Cambridge University
Press (1991).
[20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008).
[21] Williams, D. Weighing the Odds — A Course in Probability and Statistics; Cambridge University Press (2001).
93
Herunterladen