Einführung in die Stochastik

Einführung in die Stochastik
Mitschrift der Vorlesung “Einführung in die Stochastik” von Dr. Martin Wendler an der Universität
zu Köln im WS 14/15. Kann Fehler enthalten. Veröffentlicht unter (CC BY-NC-SA 3.0 DE) - Dario
Antweiler
Inhaltsverzeichnis
Kapitel 1: Wahrscheinlichkeiten & Wahrscheinlichkeitsräume
2
Kapitel 2: Bedingte Wahrscheinlichkeiten und Unabhängigkeit
6
Kapitel 3: Kombinatorik & Urnenmodelle
10
Kapitel 4: Zufallsvariablen
14
Kapitel 5: Erwartungswert & Varianz
18
Kapitel 6: Zufallsvektoren
22
Kapitel 7: Abhängige Zufallsvariablen
26
Kapitel 8: Stetig verteilte Zufallsvariablen
30
Kapitel 9: Stetig verteilte Zufallsvektoren
35
Kapitel 10: Die Normalverteilung
39
Kapitel 11: Schätztheorie
43
Kapitel 12: Testtheorie
48
Kapitel 13: Nichtparametrische statistische Modelle
51
Kapitel 14: ???
52
1
Kapitel 1: Wahrscheinlichkeiten &
Wahrscheinlichkeitsräume
Bemerkung 1.1
• Wahrscheinlichkeiten: Aussagen über nicht vorhersehbare Ereignisse
• oft keine Vorhersage wegen fehlenden Informationen möglich
• Frage: Exakte Vorhersage möglich bei genügender Information?
Beispiel 1.2
• Regnet es morgen? {ja, nein}
• Welche Augenzahl fällt beim Würfeln? {1, ..., 6}
• Wieviele Noteinsätze wird es morgen in Köln geben? N0
• Welchen Kurs hat eine Aktie morgen? 0, 01 · N0
• Wie groß wird ein Kind als Erwachsener sein? R+
• In welchem Winkel bleibt ein Roulette-Rad stehen? [0, 2π]
Bemerkung 1.3
• Modelle
• Vereinfachung der Wirklichkeit
• Vorwissen
• Modellunsicherheit
Beispiel 1.4
• Würfel: Symmetrie?
• Roulette: Sind alle Winkel gleich wahrscheinlich? Hat jeder Winkel die Wahrscheinlichkeit 0?
• Regen: Vergangenheit, Wetterbericht
• Aktie: aktueller Kurs
• Größe: Große Männer bekommen kleine Kinder
Bemerkung 1.5
• Modelle für zufällige Ergebnisse, die endlich/abzählbar viele Werte annehmen (diskrete Wahrscheinlichkeiten)
• Modelle für zufällige Ergebnisse in Rd (stetige Verteilungen)
• Teilinformationen verwenden (bedingte Wahrscheinlichkeiten)
• Zufällige Ergebnisse bewerten (Erwartungswerte)
• Unsicherheit quantifizieren (Varianz)
• Modelle an Beobachtung anpassen (Schätztheorie)
• Modelle überprüfen (Testtheorie)
2
07.10.14
Definition 1.6
Sei Ω 6= ∅. Dann heißt A ⊂ P (Ω) σ-Algebra :⇔
1. Ω ∈ A
2. ∀ ∈ A : AC ∈ A
3. (An )n∈N mit An ∈ A ⇒
S
n∈N
An ∈ A
Beispiel 1.7
Sei A = P (Ω). Dann ist A eine σ-Algebra.
Beispiel 1.8
Seien A0 , ..., Ak ⊂ Ω für i 6= j : Ai ∩Aj = ∅ (disjunkt) und
eine σ-Algebra.
Sk
i=1
Ai = Ω. Dann ist
nS
k
i=1
o
Aj | J ⊂ {1, ..., k}
Beispiel 1.9 (Borel-Mengen)
Sei Ω = Rd . Dann ist A = A ⊂ Rd | A Borel-messbar eine σ-Algebra mit {(a1 , b1 ] × ... × (ad , bd ]} ⊂
A.
Definition 1.10
Sei Ω 6= ∅, A ⊂ P (Ω) eine σ-Algebra. Dann heißt eine Abbildung P : A → [0, 1]
eine Wahrscheinlichkeitsverteilung :⇔
1. P (Ω) = 1
2. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
3. (An )n∈N mit An ∈ A, Ai ∩ Aj = ∅ für i 6= j ⇒ P
S
k∈N
P∞
An = n=1 P (An )
Außerdem definieren wir:
• (Ω, A, P ) heißt Wahrscheinlichkeitsraum
• ω ∈ Ω heißt Ergebnis
• A ∈ A heißt Ereignis
Bemerkung 1.11
1.) bis 3.) nennt man die “Axiome der Wahrscheinlichkeitstheorie” (Kolmogorov, 1933)
Beispiel 1.12
Ω = {1, ..., n} , A = P (Ω). Dann heißt P (A) =
#A
n
Laplace-Verteilung oder (diskrete) Gleichverteilung.
Lemma 1.13
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A. Dann gilt
1. P AC = 1 − P (A)
2. P (∅) = 0
3. A ⊂ B ⇒ P (B \ A) = P (B) − P (A)
4. P (B \ A) = P (B) − P (A ∩ B)
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
3
10.10.14
Lemma 1.14
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt
1. A ⊂ B ⇒ P (A) ≤ P (B)
2. P (A ∪ B) ≤ P (A) + P (B)
3. P (A ∩ B) ≤ min {P (A) , P (B)}
4. P (A ∪ B) ≤ max {P (A) , P (B)}
5. P (A ∩ B) ≥ P (A) + P (B) − 1
Die Ungleichungen sind scharf, d.h. es existieren Kombinationen, in denen Gleichheit gilt.
Beispiel 1.15
Würfel wird geworfen. Ω = {1, ..., 6} , A = P (Ω) , P Laplace-Verteilung.
• Wahrscheinlichkeit für gerade Augenzahl: A = {2, 4, 6} ⇒ P (A) =
• Wahrscheinlichkeit für Augenzahl ≥ 4: B = {4, 5, 6} ⇒ P (B) =
• P (A ∩ B) =
#{4,6}
#Ω
=
1
3
#{5}
#Ω
=
1
6
• P AC ∩ B =
#{2,4,6}
#Ω
#{4,5,6}
#Ω
=
=
1
2
1
2
Beispiel 1.16
Bemerkung 1.17
• P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
• P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) − P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) +
P (A1 ∩ A2 ∩ A3 )
Satz 1.18 (Inklusions-/Exklusionsformel)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , ..., An ∈ A. Dann gilt
P (A1 ∪ ... ∪ An ) =
n
X
(−1)
k−1
X
P (Ai1 ∩ ... ∩ Aik )
1≤i1 <...<ik ≤n
k=1
Beispiel 1.19
n-maliges Würfeln: Ω = {(ω1 , ..., ωn ) | ωi ∈ {1, ..., 6}} , A = P (Ω) , P Laplace-Verteilung.
Wahrscheinlichkeit für mindestens eine 6:
A = {(ω1 , ..., ωn ) | ∃i : ωi = 6} ⇒ AC = {(ω1 , ..., ωn | ωi ∈ {1, ..., 5})}
mit #AC = 5n . Also gilt
#AC
P (A) = 1 − P AC = 1 −
=1−
#Ω
4
n
5
6
Satz 1.20 (Stetigkeit von oben/unten)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt die Stetigkeit:
1. von unten: Sei (An )n∈N eine Folge mit An ∈ A aufsteigend, d.h. Ai ⊂ Ai+1 . Dann gilt
!
∞
[
lim P (An ) = P
An
n→∞
n=1
2. von oben: Sei (Bn )n∈N eine Folge mit Bn ∈ A absteigend, d.h. Bi ⊃ Bi+1 . Dann gilt
!
∞
\
lim P (Bn ) = P
Bn
n→∞
n=1
Bemerkung 1.21
Bis jetzt: Ω endlich, ab jetzt Ω “im wesentlichen” abzählbar.
Definition 1.22
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann heißt P diskret ⇔
1. ∀ω ∈ Ω : {ω} ∈ A
2. ∃D ⊂ Ω abzählbar oder endlich mit P (D) = 1
Die Funktion p : Ω → [0, 1] mit p (ω) = P ({w}) heißt Wahrscheinlichkeitsfunktion.
Lemma 1.23
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, P diskret und A ∈ A. Dann gilt
X
P (A) =
p (ω)
ω∈A∩D
Lemma 1.24
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, P diskret und p die zugehörige Wahrscheinlichkeitsfunktion.
Dann gilt
1. p (ω) ≥ 0
2. p (ω) = 0 bis auf abzählbar viele ω ∈ Ω
3. ∀ > 0 : p (ω) < bis auf endlich viele ω ∈ Ω
Satz 1.25
Sei (Ω, A) ein Raum mit σ-Algebra A, sodass ∀ω ∈ Ω : {ω} ∈ A, p : Ω → [0, 1] Abbildung. Dann gibt
es folgende Äquivalenz:
1. p ist Wahrscheinlichkeitsfunktion einer diskreten Wahrscheinlichkeitsverteilung
P
2.
sup
p (ω) = 1
M ⊂Ω
endlich
P
3. ∃D ⊂ Ω abzählbar, sodass ∀ω ∈ DC : p (ω) = 0 und ω∈D p (ω) = 1
Beispiel 1.26
Sei Ω = R, A = Borelmengen. Dann gilt
1 ω
2
(
p (ω) =
0
5
für ω ∈ N
sonst
14.10.14
Kapitel 2: Bedingte Wahrscheinlichkeiten
und Unabhängigkeit
Beispiel 2.1
Urne mit drei Kugeln, eine wird gezogen. Ω = {1, 2, 3} , A = P (Ω) , P Laplace-Verteilung.
1
Wahrscheinlichkeit für “Kugel 1”: p (1) = P ({1}) = #{1}
#Ω = 3
Angenommen man verrät uns bereits:
3 ist es nicht gewesen”.
“Kugel
e
e
e
e
Definiere Ω = {1, 2, 3} \ {3} , A = P Ω , P Laplace-Verteilung ⇒ pe (1) = Pe ({1}) = 12
Bemerkung 2.2
Vorwissen führt zur Änderung des W.-Raums, aber viele W.-Räume sind unpraktisch.
Definition 2.3
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A, B ∈ A mit P (B) > 0. Dann heißt
P (A | B) =
P (A ∩ B)
P (B)
bedingte Wahrscheinlichkeit von A gegeben B. (oder Wahrscheinlichkeit von A bedingt auf B)
Beispiel 2.4
Wie in Beispiel 2.1: A = {1} , B = {1, 2} ⇒ P (A | B) =
P (A∩B)
P (B)
=
1
2
Bemerkung 2.5
Sei Ω endlich, P die Laplace-Verteilung, A, B ⊂ Ω und B 6= ∅ ⇒ P (A | B) =
#A∩B
#Ω
#B
#Ω
=
#A∩B
#B
Beispiel 2.6
2
Eine Münze wird 2 Mal geworfen, Ω = {K, Z} , A = P (Ω) , P Laplace-Verteilung
1. Wie groß ist die Wahrscheinlichkeit für “Erster Wurf Kopf” gegeben “mindestens einmal Kopf”?
#A
2
A = {(K, Z) , (K, K)} , B = {(K, Z) , (Z, K) , (K, K)} ⇒ P (A | B) = #A∩B
#B = #B = 3
2. Wie groß ist die Wahrscheinlichkeit für “Erster Wurf Kopf” gegeben “beide Würfe gleich”?
#{(K,K)}
A wie oben, C = {(K, K) , (Z, Z)} ⇒ P (A | C) = #A∩C
= 21
#C =
#C
Satz 2.7
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B ∈ A mit P (B) > 0. Dann ist durch
PB := P (· | B) , A → [0, 1]
eine Verteilung gegeben auf Ω. Man nennt diese Verteilung bedingte Verteilung.
Lemma 2.8 (Multiplikationsformel)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , ..., An ∈ A mit P (A1 ∩ ... ∩ An ) > 0, dann gilt


n
\
P
Aj  = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · ... · P (An | A1 ∩ ... ∩ An−1 )
j=1
6
Beispiel 2.9 (Pólya-Urne)
Ausgangssituation: Urne mit einer roten und einer schwarzen Kugel. Nach jeder Ziehung lege die
Kugel zurück und eine weitere Kugel gleicher Farbe. Nach n-ter Ziehung sind (n + 1) Kugeln in der
Urne.
...
Lemma 2.10 (Totale Wahrscheinlichkeit)
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B1 , ..., Bn ∈ A disjunkt mit
Dann gilt
n
X
P (A) =
P (A | Bk ) · P (Bk )
Sn
i=1
Bi = Ω und A ∈ A.
k=1
Satz 2.11 (Bayes-Formel)
B1 , ..., Bn ∈ A disjunkt,
Sn
i=1
Bi = Ω und A ∈ A. Dann gilt
P (A | Bi ) · P (Bi )
P (Bi | A) = Pn
k=1 P (A | Bk ) · P (Bk )
Beispiel 2.12
Definition 2.13
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt
1. A, B heißen stochastisch unabhängig :⇔ P (A ∩ B) = P (A) · P (B)
2. Eine Familie
Mengen (Ai )i∈I mit Ai ∈ A heißt stochastisch unabhängig :⇔ ∀J ⊂ I :
von
T
Q
P
A
=
i
i∈J
i∈J P (Ai )
Bemerkung 2.14
Meist sagt man nur “unabhängig”.
Lemma 2.15
(Ai )i∈I unabhängig ⇔ ∀J ⊂ I : (Ai )i∈J unabhängig.
Beispiel 2.16
Lemma 2.17
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A, B ∈ A und P (B) > 0. Dann gilt
A, B sind unabhängig ⇔ P (A | B) = P (A)
Bemerkung 2.18
Interpretation von “A, B sind unabhängig”: Eintreten von B liefert keine Information über das Eintreten von A und umgekehrt.
Lemma 2.19
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, A ∈ A, dann sind äquivalent:
1. A unabhängig von A
2. A und AC sind unabhängig
3. P (A) ∈ {0, 1}
7
Lemma 2.20
Sei (Ω,
ein Wahrscheinlichkeitsraum, A1 , ..., An ∈ A unabhängig und für i = 1, ..., n gilt
A, P ) Bi ∈ Ai , AC
i . Dann sind B1 , ..., Bn unabhängig.
Beispiel 2.21
Es wird eine Münze geworfen. Ω = {K, Z} , A = P (Ω) , P Laplace-Verteilung. Sei A = {K} , B = {Z}
und C = ∅. Dann gilt:
• P (A) = P (B) = 21 , P (C) = 0
• P (A ∩ B ∩ C) = P (∅) = 0 = P (A) · P (B) · P (C)
• aber nicht paarweise unabhängig, denn P (A ∩ B) = P (∅) = 0 6=
1
4
= P (A) · P (B)
Beispiel 2.22
Eine Münze wird zweimal geworfen. Dann sind die Ereignisse
1. Es erscheint beim ersten Wurf Kopf
2. Es erscheint beim zweiten Wurf Kopf
3. Bei beiden Würfen erscheint die gleiche Seite
paarweise unabhängig, aber nicht unabhängig.
Beispiel 2.23
Bemerkung 2.24
Definition 2.25
Seien (Ωi , Ai , Pi ) , i = 1, ..., n diskrete Wahrscheinlichkeitsräume. Dann heißt das Tripel (Ω, A, P ) mit
• Ω = Ω1 × ... × Ωn
• P (ω1 , ..., ωn ) = P1 (ω1 ) · ... · Pn (ωn )
T
• A = B⊂S B, S = {B σ-Algebra | ∀Ai ∈ Ai : A1 × ... × An ∈ B}
Produktraum der Wahrscheinlichkeitsräume (Ωi , Ai , Pi ). Man schreibt Ω =
Nn
i=1
(Ωi , Ai , Pi ).
Lemma 2.26
(Ω, A, P ) aus Definition 2.25 ist ein diskreter Wahrscheinlichkeitsraum.
Lemma 2.27
Sind (Ω1 , A1 , P1 ) , ..., (Ωn , An , Pn ) endliche Wahrscheinlichkeitsräume mit Laplace-Verteilung und
#Ωi = ki , dann ist
n
O
(Ω, A, P ) =
(Ωi , Ai , Pi )
ein endlicher Wahrscheinlichkeitsraum mit #Ω
i=1
Qn
= i=1
ki und Laplace-Verteilung.
Lemma 2.28
Für i = 1, ..., n seien (Ωi , Ai , Pi ) diskrete Wahrscheinlichkeitsräume und (Ω, A, P ) =
mit Ai ∈ Ai , dann gilt
1. A1 × ... × An ∈ A
2. P (A1 × ... × An ) =
Qn
i=1
Pi (Ai )
8
Nn
i=1
(Ωi , Ai , Pi )
Satz 2.29
Nn
Für i = 1, ..., n seien (Ωi , Ai , Pi ) diskrete Wahrscheinlichkeitsräume und (Ω, A, P ) = i=1 (Ωi , Ai , Pi )
mit Ai ∈ Ai und Bi = {(ω1 , ..., ωn ) ∈ Ω | ωi ∈ Ai }. Dann sind B1 , ..., Bn unabhängig.
Beispiel 2.30
Binomialverteilung
(...)
9
Kapitel 3: Kombinatorik & Urnenmodelle
Bemerkung 3.1 (Standardmodell)
• Urne mit n nummerierten Kugeln
• k Kugeln werden gezogen
• mit oder ohne zurücklegen
• mit oder ohne Berücksichtigung der Reihenfolge
Definition 3.2
Wir definieren folgende Räume:
k
• ΩI = {1, ..., n}
• ΩII = {(ω1 , ..., ωk ) | ∀i : ωi ∈ {1, ..., n} , ∀j 6= i : ωi 6= ωj } für k ≤ n
• ΩIII = {A ⊂ {1, ..., n} | #A = k} für k ≤ n
Pn
• ΩIV = {(k1 , ..., kn ) | ki ∈ N0 , i=1 ki = k}
Bemerkung 3.3
• ΩI : k-mal Ziehen, mit Zurücklegen, mit Berücksichtigung der Reihenfolge
• ΩII : k-mal Ziehen, ohne Zurücklegen, mit Berücksichtigung der Reihenfolge
• ΩIII : k-mal Ziehen, ohne Zurücklegen, ohne Berücksichtigung der Reihenfolge
• ΩIV : k-mal Ziehen, mit Zurücklegen, ohne Berücksichtigung der Reihenfolge
Bemerkung 3.4
#ΩI = nk und PI = Laplace-Verteilung liefert “angemessenes Modell”
Lemma 3.5
#ΩII = n·(n − 1)·...·(n − k + 1) =
n!
(n−k)!
und PII = Laplace-Verteilung liefert “angemessenes Modell”
Beispiel 3.6
Tür, 5 Schlüssel, richtiger Schlüssel unbekannt
1. Wir probieren die Schlüssel nacheinander aus. Wahrscheinlichkeit von “vier oder mehr Versuche”?
O.B.d.A.: richtiger Schlüssel entspricht “Kugel 5” in Urne mit 5 Kugeln. Ziehe ohne Zurücklegen.
P ("vier oder mehr Versuche")
=
P ("min. 3 Fehlversuche")
n
o
(3,5)
PII ω ∈ ΩIII | ω1 , ω2 , ω3 6= 5
=
#ΩII
=
(3,4)
=
10
(3,5)
#ΩII
2
5
2. Wir ziehen jetzt jeweils einen Schlüssel aus der Hosentasche und stecken ihn zurück, wenn er
nicht passt. Wahrscheinlichkeit von “vier oder mehr Versuche”?
P ("vier oder mehr Versuche")
=
P ("bei den ersten 3 Versuchen nur Misserfolge")
n
o
(3,5)
PI ω ∈ ΩI
| ω1 , ω2 , ω3 6= 5
=
#ΩI
=
(3,4)
(3,5)
#ΩI
64
125
=
Definition 3.7
Für r ∈ R, n ∈ N definieren wir den Biniomialkoeffizienten
 r(r−1)·...·(r−n+1)

n∈N

n!
r
:= 1
n=0

n

0
sonst
Bemerkung 3.8
Falls n, k ∈ N, k ≤ n :
n
k
=
n!
k!(n−k)! , k
>n:
n
k
= 0.
Lemma 3.9
(k,n)
#ΩIII
=
n
k
und PIII = Laplace-Verteilung liefert ein “angemessenes Modell”.
Lemma 3.10
(k,n)
#ΩIV
=
n+k−1
k
und die Laplace-Verteilung liefert kein “angemessenes Modell”.
Bemerkung 3.11
Oft interessiert Nummer der Kugel nicht, sondern nur, welche Sorte/Art.
Beispiel 3.12
Beispiel 3.13
−R
)
(Rr)(Nn−r
N
(n)
Hypergeometrische Verteilung: hypergeo (N, R, n) ⇒ p (r) =
Beispiel 3.14
1. Aus einer Schulklasse mit 20 Schülern, 10 Mädchen, 10 Jungen werden 3 Schüler zufällig ausgewählt. Wie wahrscheinlich ist es, dass alle 3 das gleiche Geschlecht haben?
10 10
P (A)
=
=
3
0
20
3
10, 53%
2. 4 Mädchen, 4 Jungen:
4
P (B)
4
3
0
=
2·
=
14, 28%
11
8
3
28.10.14
Satz 3.15
Sei pN,R,n die Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung.
Falls
RN N →∞
→
N
p ∈ (0, 1), dann gilt für k ∈ {0, ..., n}
N →∞ n
n−k
pN,R,n (k) →
pk (1 − p)
k
Bemerkung 3.16
In vielen Anwendungen mehr als zwei Sorten/Farben von Kugeln.
Definition 3.17
Es seien k, k1 , ..., km ∈ N0 und
Pn
i=1
ki = k. Dann heißt
k
k!
=
k1 ! · ... · kn !
k1 , ..., kn
Multinomialkoeffizient.
Bemerkung 3.18
Für n = 2 : k1 + k2 = k ⇒ k2 = k − k1 ⇒
k
k1 ,k2
=
k!
k1 !(k−k1 )
=
k
k1
Lemma 3.19
Sei A eine Menge mit #A = k. Dann gilt
(
# {A1 , ..., An } ∈ P (P (A)) |
n
[
)
Ai = A, #Ai = ki
=
i=1
k
k1 , ..., kn
Beispiel 3.20
UrnePmit Ni Kugeln der Sorte i. Es werden k Kugeln mit Zurücklegen gezogen. Es seien k1 , ..., kn ∈ N0
n
mit i=1 ki = k. Wahrscheinlichkeit für Ereignis “ki Kugeln der Sorte i = 1, ..., n”?
[...]
Qn Ni ki
k
= k1 ,...,k
i=1 N
n
Diese Verteilung heißt Multinomialverteilung.
Beispiel 3.21
Situation wie in 3.20. k Mal ziehen ohne Zurücklegen. Dann gilt für k1 , ..., kn ∈ N0 ,
N1
P (”k1 Mal Sorte 1, ..., kn Mal Sorte n) =
k1
· ... ·
N
Pn
i=1
ki = k:
Nn
kn
n
Beispiel 3.22 (Stimmzettelproblem)
Wahl, Kandidat A gewinnt mit a Stimmen gegen Kandidat B mit b Stimmen (a > b, a, b ∈ N). Eine
Stimme wird nach der anderen ausgezählt. Wie wahrscheinlich ist es, dass A die ganze Zeit vorne
liegt?
[...]
= a−b
a+b
12
Lemma 3.23
1. #E2 = #E3
2. #E2 =
a+b−1
a
Beispiel 3.24 (Fortsetzung Stimmzettelproblem)
[...]
13
Kapitel 4: Zufallsvariablen
04.11.14
Definition 4.1
Es seien Ω1 , Ω2 6= ∅, A1 eine σ-Algebra auf Ω1 und A2 eine σ-Algebra auf Ω2 . Eine Abbildung
f : Ω1 → Ω2 heißt (A1 , A2 )-messbar, genau dann, wenn ∀A ∈ A2 : f −1 (A) ∈ A1 .
Lemma 4.2
Seien Ω1 , Ω2 , Ω3 6= ∅, Ai σ-Algebra auf Ωi sowie f : Ω1 → Ω2 (A1 , A2 )-messbar und g : Ω2 → Ω3
(A2 , A3 )-messbar. Dann ist g ◦ f (A1 , A3 )-messbar.
Definition 4.3
1. Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, B die Borelmengen auf R. Eine (A, B)-messbare
Abbildung X : Ω → R heißt Zufallsvariable
2. Sei B d die σ-Algebra der d-dimensionalen Borelmengen. Eine A, B d -messbare Abbildung Y :
Ω → Rd heißt Zufallsvektor
Lemma 4.4
Seien B die Borelmengen auf R. Dann gilt:
1. ∀O ⊂ R offen: O ∈ B
2. ∀A ⊂ R abgeschlossen: A ∈ B
3. ∀x ∈ R : (−∞, x] ∈ B
4. ∀x, y ∈ R mit x < y : (x, y] ∈ B
Lemma 4.5
Sei f : Ω → R eine Abbildung, A eine σ-Algebra auf Ω. Dann sind äquivalent:
1. f ist (A, B)-messbar
2. ∀O ⊂ R offen: f −1 (O) ∈ A
3. ∀A ⊂ R abgeschlossen: f −1 (A) ∈ A
4. ∀x ∈ R : f −1 ((−∞, x]) ∈ A
Lemma 4.6
Sei f : R → R eine Funktion. Dann gilt:
1. f stetig ⇒ f ist (B, B)-messbar
2. f monoton ⇒ f ist (B, B)-messbar
Lemma 4.7
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsvariable und f : R → R messbar.
Dann ist f ◦ X eine Zufallsvariable.
14
Definition 4.8
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsvariable. Dann heißt
PX : B
→
[0, 1]
7→ PX (M ) := P X −1 (M )
M
Verteilung von X. Statt P X −1 (M ) schreibt man meistens P (X ∈ M ).
Lemma 4.9
Sei X eine Zufallsvariable, dann ist (R, B, PX ) ein Wahrscheinlichkeitsraum.
Definition 4.10
Eine Zufallsvariable heißt diskret, wenn PX eine diskrete Wahrscheinlichkeitsverteilung auf R ist. Dann
heißt
pX : R
x
→ [0, 1]
7→ pX ({x}) = P (X = x)
Wahrscheinlichkeitsfunktion von X.
Lemma 4.11
Sei (Ω, A, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable ⇒ PX ist eine
diskrete Wahrscheinlichkeitsverteilung.
Beispiel 4.12
Zweimaliges Würfeln
2
• Ω = {1, ..., 6} , A = P (Ω) , P Laplace-Verteilung
• X : Ω → R, X (ω1 , ω2 ) = ω1 + ω2
• ∀M ⊂ R : X −1 (M ) ⊂ Ω ⇒ X −1 (M ) ∈ A
• PX (2) = P ({ω | ω1 + ω2 = 2}) = P ({(1, 1)}) =
#{(1,1)}
#Ω
Beispiel 4.13
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A ∈ A. Dann definieren wir eine Indikatorfunktion IA
durch
(
1 falls ω ∈A
IA (ω) =
0 sonst

Ω
falls 0, 1 ∈ B



∅
falls 0, 1 ∈
/B
I ist eine Zufallsvariable, denn I−1
∈A
A (B) =

A
falls 1 ∈ B, 0 ∈
/B


 C
A
falls 1 ∈
/ B, 0 ∈ B
Bemerkung 4.14
Oft interessiert P nicht, sondern nur PX . Für jedes diskrete Wahrscheinlichkeitsmaß Pe auf (R, R) gibt
es einen Wahrscheinlichkeitsraum (Ω, A, P ) und eine Zufallsvariable X, sodass PX = Pe.
[...]
15
Beispiel 4.15 (Laplace-Verteilung)
Sei D ⊂ R endlich, #D = n ≥ 1, dann heißt P gegeben
(
1
falls x ∈ D
p (x) = n
0 sonst
Laplace-Verteilung auf D und eine Zufallsvariable X heißt Laplace-verteilt, falls PX = P .
Beispiel 4.16 (Bernoulli-Verteilung)
P gegeben durch


x=1
p
p (x) = 1 − p x = 0


0
falls x ∈
/ {0, 1}
heißt Bernoulli-Verteilung und eine Zufallsvariable X heißt Bernoulli-verteilt, falls PX = P .
[...]
Beispiel 4.17 (Binomial-Verteilung)
Sei p ∈ (0, 1) , n ∈ N. P gegeben durch
( n
p (x) =
x
n−x
· px (1 − p)
0
x=1
sonst
heißt Binomial-Verteilung binom (n, p) und eine Zufallsvariable X heißt binomial-verteilt,
falls PX = binom (n, p).
Beispiel 4.18 (Geometrische Verteilung)
Sei p ∈ (0, 1). P gegeben durch
(
p (x) =
x
(1 − p) p x ∈ N0
0
sonst
heißt geometrische Verteilung mit Parameter p.
Wir führen n unabhängige Experimente durch mit Erfolgswahrscheinlichkeit p, solange bis wir Erfolg
haben. Die Anzahl der Misserfolge bis zum ersten Erfolg ist geometrisch verteilt.
[...]
Lemma 4.19
Für (Ω, A, P ) mit Ω = {0, 1} , A =
N
gilt:
T
n
o 07.11.14
n
N
B, S := B σ-Algebra | ∀k, ∀B ∈ P ({0, 1} ) : B × {0, 1} ∈ B
B∈S
1. ({ωI = 1})i∈N ist eine unabhängige Familie von Mengen
2. P ({ωi = 1}) = p
Lemma 4.20
Sei (Ω, A, P ) wie oben. Dann ist X : Ω → R mit
X (ω) = min {i | ωi = 1} − 1
eine geometrisch verteilte Zufallsvariable.
16
Beispiel 4.21
Wir werfen einen Würfel, bis das erste Mal “6” erscheint. Wie groß ist die Wahrscheinlichkeit 10-Mal
oder öfter werfen zu müssen?
• X geometrisch verteilt mit Parameter p = 16 , wobei X = ”Zeitpunkt der ersten 6”
n
9
P∞
• P (X ≥ 9) = k=9 56 16 = 56 ≈ 19, 38%
Beispiel 4.22
Sei p ∈ (0, 1) , r ∈ N. P gegeben durch
(
p (x) =
r+k−1
k
x
pr (1 − p)
0
für x ∈ N0
sonst
heißt negativ-binomiale-Verteilung mit Parametern r und p.
Lemma 4.23
p aus Beispiel 4.22 definiert eine Wahrscheinlichkeitsfunktion.
Lemma 4.24
Wir führen unabhängige Experimente durch mit Erfolgswahrscheinlichkeit p. Die Anzahl der Misserfolge bis zum r-ten Erfolg ist negativ binomial verteilt.
Beispiel 4.25
Sei λ ∈ (0, ∞) , P gegeben durch
(
p (x) =
λx −λ
x! e
0
für x ∈ N0
sonst
heißt Poisson-(λ)-Verteilung.
Satz 4.26
n→∞
Sei Pn die Binomialverteilung mit (n, pn ), wobei n · pn → λ ∈ (0, ∞). Dann gilt
lim Pn ({k}) = P ({k})
n→∞
mit P der Poisson-(λ)-Verteilung.
Beispiel 4.27
Pro Tag komm es pro 10.000 Personen im Schnitt zu einem Notarzteinsatz. Wie wahrscheinlich ist es,
dass es in einer Stadt mit 20.000 Einwohnern zu keinem Notarzteinsatz kommt?
• Vereinfachung: Personen sind unabhängig und höchstens 1 Einsatz pro Person
1
• Anzahl X der Einsätze ist binomialverteilt mit Parametern 20.000, 10.000
• Sei Y Poisson(2)-verteilt, np = 2
• P (X = 0) ≈ P (Y = 0) =
1
0!
· 20 · e−2 ≈ 13, 53%
17
Kapitel 5: Erwartungswert & Varianz
Definition 5.1
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, x :P
Ω → R eine diskrete Zufallsvariable mit Verteilung PX .
D ⊂ R sei abzählbar mit P (X ∈ D) = 1 und x∈D |x| PX (x) < ∞. Dann heißt
E [X] =
X
x · PX (x)
x∈D
Erwartungswert von X.
Bemerkung 5.2
Falls
P
x∈D
|x| PX (x) = ∞ setze
(
E [X] =
+∞ für D ⊂ [0, ∞]
−∞ für D ⊂ [−∞, 0]
Beispiel 5.3
Wir werfen einen Würfel. Ω = {1, ..., 6} , A = P (A) , P = Laplace. Verteilung: X : Ω → R, X (ω) = ω.
Dann gilt
1
21
E [X] = · (1 + 2 + 3 + 4 + 5 + 6) =
= 3, 5
6
6
Bemerkung 5.4
Seien x, y Zufallsvariablen mit der gleichen Verteilung. Dann gilt
X
X
E [X] =
|x| PX (x) =
|y| PY (y) = E [Y ]
x∈D
y∈D
Beispiel 5.5
1. a
2. b
3. c
4. d
5. e
Satz 5.6 (Trafo-Formel)
Sei X eine diskrete Zufallsvariable, g : R → R messbar, D ⊂ R abzählbar mit P (X ∈ D) = 1 und
P
x∈D |x| PX (x) < ∞. Dann gilt
E [g (X)] =
X
g (x) · PX (x)
x∈D
Beispiel 5.7
Sei X Poisson-(λ)-verteilt. Sei g (x) = ex , also g (X) = eX . Dann gilt
∞
∞
k
k
X
X X
(λ · e)
k −λ λ
−λ
E e =
e e
=e
= eλ(e−1)
k!
k!
k=0
k=0
18
Lemma 5.8
Sei X eine diskrete Zufallsvariable und g : R → [0, ∞). Dann gilt E [g (x)] ≥ 0.
Lemma 5.9
Seien X, Y diskrete Zufallsvariablen, es existiere E [X] , E [Y ]. Dann gilt
1. ∀a, b ∈ R : E [aX + b] = aE [X] + b
2. E [X + Y ] = E [X] + E [Y ]
Bemerkung 5.10
Man kann per Induktion zeigen, dass E [X1 + ... + Xn ] =
Pn
i=1
E [Xi ].
Beispiel 5.11
Theater, n Besucher, jeder gibt genau einen Schirm an der Garderobe ab und bekommt einen zufälligen
zurück. X =Anzahl der richtig zurückgegebenen Schirme. Sei
(
1 Besucher i erhält seinen Schirm zurück
Xi :=
0 sonst
Dann gilt X =
Pn
i=1
Xi und E [Xi ] = 0 · P (Xi = 0) + 1 · P (Xi = 1) =
E [X] =
n
X
1
n,
also
E [Xi ] = 1
i=1
Satz 5.12 (Jensen-Ungleichung)
Sei X eine diskrete Zufallsvariable, E [X] existiere und ϕ : R → R eine nicht-negative konvexe Funktion.
Dann gilt
E [ϕ (X)] ≥ ϕ (E [X])
Beispiel 5.13
2
1. Sei ϕ (x) = x2 ⇒ E X 2 ≥ (E [X])
2. Sei ϕ (x) = |x| ⇒ E [|x|] ≥ |E [X]| (Dreiecks-Ungleichung)
Bemerkung 5.14
Erwartungswert = “mittlere Lage”, jetzt: “Maß für Streuung”.
Definition 5.15
Es sei X : Ω → R eine diskrete Zufallsvariable und E [X] existiere, dann heißt
h
i
2
Var [X] := E (X − E [X])
Varianz von X.
p
Var (X) heißt Standardabweichung.
Bemerkung 5.16
h
i
2
2
Es gilt (X − E [X]) ≥ 0 und falls E (X − E [X]) nicht existiert, setze Var [X] = ∞.
19
14.11.14
Lemma 5.17
Es sei X eine Zufallsvariable und a, b ∈ R, dann gilt
1. Var [aX + b] = a2 · Var [X]
2
2. Var [X] = E X 2 − (E [X])
Satz 5.18
Sei X eine diskrete Zufallsvariable und E [X] existiere, dann gilt für alle a ∈ R
h
i
h
i
2
2
E (X − a) ≥ E (X − E [X])
und Gleichheit gilt genau dann, wenn a = E [X].
Definition 5.19
Sei X eine diskrete Zufallsvariable und es gelte
P
x∈D
k
|x| PX (x) < ∞ für k ∈ N0 . Dann heißt
mk := E X k
k-tes Moment von X.
Bemerkung 5.20
Es gilt
• Var [X] = m2 − m21
• Var X 2 = m4 − m22
Beispiel 5.21
1. Sei X Laplace-verteilt auf {1, ..., n}. Dann ist Var [X] =
n2 −1
12
2. Sei X Bernoulli-(p)-verteilt. Dann ist Var [X] = p (1 − p)
3. Sei X bin (n, p)-verteilt. Dann gilt Var [X] = np (1 − p)
4. Sei X hypergeo (N, R, n)-verteilt. Dann gilt Var [X] = n ·
R
N
· 1−
R
N
·
N −n
N −1
[...]
Bemerkung 5.22
18.11.14
Intuition: Varianz klein ⇒ Daten streuen wenig ⇒ mit hoher Wahrscheinlichkeit nahe am Erwartungswert.
Satz 5.23 (Markov-Ungleichung)
Sei X eine Zufallsvariable und a > 0. Dann gilt
P (|X| ≥ a) ≤
E [|X|]
a
Satz 5.24 (Chebychev-Ungleichung)
Sei X eine Zufallsvariable und E [X] existiere. Dann gilt
P (|X − E [X]| ≥ a) ≤
20
1
· Var [X]
a2
Bemerkung 5.25
Falls Var [X] nicht existiert, setzen wir Var [X] = ∞ ⇒ Chebychev-Ungleichung gilt trivialerweise.
Beispiel 5.26
Sei X eine Zufallsvariable Poisson(1)-verteilt und k ≥ 3. Es gilt E [X] = 1, Var [X] = 1 und damit
P (X ≥ k)
=
P (|X − 1| ≥ k − 1)
=
P (|X − E [X]| ≥ k − 1)
Var [X]
≤
=
(k − 1)
1
2
(k − 1)
2
Die genauere Rechnung lautet
P (X ≥ k)
=
∞
X
e−1
n!
n=k
=
∞
e−1 X k!
·
k!
n!
≤
∞
1
e−1 X
·
k!
(n − k)!
=
1
k!
n=k
n=k
Also ist die Chebychev-Ungleichung nicht immer scharf, aber dafür einfach auszurechnen und benötigt
nur die Varianz.
21
Kapitel 6: Zufallsvektoren
Erinnerung 6.1
t
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, dann heißt X = (X1 , ..., Xn ) : Ω → Rn Zufallsvektor ⇔ X
ist (A, B n )-messbar mit B n ist die σ-Algebra auf Rn und (a1 , b1 ] × ... × (an , bn ] ∈ B n .
Lemma 6.2
X = (X1 , ..., Xn ) : Ω → Rn ist (A, B n )-messbar ⇔ ∀a1 , b1 , ..., an , bn mit ai < bi gilt X −1 ((a1 , b1 ] × ... × (an , bn ])
Lemma 6.3
X = (X1 , ..., Xn ) : Ω → Rn Zufallsvektor ⇔ ∀i ∈ {1, ..., n} : Xi Zufallsvariable.
Definition 6.4
t
Sei X = (X1 , ..., Xn ) ein Zufallsvektor. Dann heißt die durch PX (A) = P X −1 (A) auf (Rn , B n )
gegebene Wahrscheinlichkeitsverteilung PX die Verteilung von X oder die gemeinsame Verteilung
von X1 , ..., Xn . X heißt diskret ⇔ PX diskret.
Lemma 6.5
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → Rn eine Zufallsvariable. Dann gilt
X diskret ⇔ X1 , ..., Xn diskret
Definition 6.6
t
Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor. Dann heißt
pX1 ,...,Xn : Rn → [0, 1]
mit pX1 ,...,Xn (x1 , ..., xn ) = PX ({(x1 , ..., xn )}) gemeinsame Wahrscheinlichkeitsfunktion.
Beispiel 6.7
2
Münze wird zwei Mal geworfen. Ω = {0, 1} , A = P (Ω) , P Laplace-Verteilung. Definiere
(
1 "erste Münze Zahl"
X=
0 sonst
und
Y = "Anzahl Zahl"
d.h. X (ω1 , ω2 ) = ω1 und Y (ω1 , ω2 ) = ω1 + ω2 . Dann sind die Werte der gemeinsamen Wahrscheinlichkeitsfunktion
X
0
1
Y
0
1
1
4
1
4
1
4
0
2
0
1
4
Definition 6.8
t
Sei X = (X1 , ..., Xn ) ein Zufallsvektor, I ⊂ {1, ..., n} , I 6= ∅, {1, ..., n}. Dann heißt P(Xi )i∈I marginale
Verteilung von (Xi )i∈I . Falls X diskret ist, so heißt
p(Xi )i∈I (yi1 , ..., yik ) = P(Xi )i∈I ({(yi1 , ..., yik )}) , I = {i1 , ..., ik }
marginale Wahrscheinlichkeitsfunktion.
22
21.11.14
Lemma 6.9
t
Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor, D ⊂ Rn abzählbar mit P (X ∈ D) = 1 und I 6=
∅, I = {i1 , ..., ik } , I c = {j1 , ..., jm }. Dann gilt
X
px (y1 , ..., yn )
P(Xi )i∈I (xi1 , ..., xik ) =
(y1 , ..., yn ) ∈ D
(yi1 , ..., yik ) = (xi1 , ..., xik )
Beispiel 6.10
Definition 6.11
t
Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor mit
 
x1 X
 .. 
 .  · px (x1 , ..., xn ) < ∞
(x1 ,...,xn )∈D x
n
 
x1   Pn
wobei  ...  = i=1 |xi |, dann heißt
xn 

x1
 .. 
 .  · px (x1 , ..., xn )
X
E [X] =
(x1 ,...,xn )∈D
xn
Erwartungswert von X.
Lemma 6.12

 

x1
E [x1 ]
  

E  ...  =  ... 
xn
E [xn ]
Satz 6.13 (Trafo-Formel)
P
Sei X = Ω → Rn ein diskreter Zufallsvektor, g : Rn → Rm messbar mit (x1 ,...,xn )∈D kg (x1 , ..., xn )k ·
px (x1 , ..., xn ) < ∞ dann gilt
X
E [g (X)] =
g (x1 , ...xn ) · px (x1 , ..., xn )
(x1 ,...,xn )∈D
Bemerkung 6.14
Schnellerer Beweis von 5.9:
E [X + Y ]
=
X
(x + y) · p(X,Y ) (x, y)
(x,y)∈D
=
X
x · p(X,Y ) (x, y) +
(x,y)∈D
=
X
x
y · p(X,Y ) (x, y)
(x,y)∈D
X
x·
X
p(X,Y ) (x, y) +
y
y:(x,y)∈D
|
X
{z
PX (x)
= E [X] + E [Y ]
23
}
X
y·
p(X,Y ) (x, y)
x:(x,y)∈D
|
{z
PY (y)
}
Beispiel 6.15
Bemerkung 6.16
Liefert eine Zufallsvariable Informationen über andere Zufallsvariablen?
• keine Infos → unabhängig
• Infos → abhängig
Definition 6.17
Es seien X1 , ..., Xn Zufallsvektoren. X1 , ..., Xn heißen unabhängig, wenn gilt:
∀B1 , ..., Bn ∈ B : P (X1 ∈ B1 , ..., Xn ∈ Bn ) =
n
Y
P (Xi ∈ Bi )
i=1
Lemma 6.18
X1 , ..., Xn unabhängig ⇔ ∀a1 , b1 , ..., an , bn ∈ R : P (X1 ) ∈ (a1 , b1 ] , ..., P (Xn ) ∈ (an , bn ] =
Qn
i=1
P (Xi ∈ (ai , bi ]).
Lemma 6.19
25.11.14
Seien X1 , ..., Xn Zufallsvariablen, dann gilt X1 , ..., Xn unabhängig ⇔ B1 , ..., Bn ∈ B : ({Xi ∈ Bi })i∈{1,...,n}
sind unabhängig.
Lemma 6.20
Seien X1 , ..., Xn unabhängige Zufallsvariablen und f1 , ..., fn : R → R seien (B, B)-messbar. Dann sind
f1 (X1 ) , ..., fn (Xn ) unabhängige Zufallsvariablen.
Lemma 6.21
Seien X1 , ..., Xn unabhängige und diskrete Zufallsvariablen, dann gilt
pX1 ,...,Xn (x1 , ..., xn ) = pX1 (x1 ) · ... · pXn (xn )
Satz 6.22
Seien X, Y diskrete Zufallsvariablen mit pX,Y (x, y) = g (x) · h (y) mit g, h : R → R, dann sind X, Y
unabhängig.
Beispiel 6.23
Sei (X1 , ..., Xd ) multinomialverteilt mit Parametern n, p1 , ..., pd . Sind Xi , Xj für i 6= j unabhängig?
Sei Xi bin (n, pi ) und Xj bin (n, pj )-verteilt. Dann gilt
P (Xi = n)
=
pni > 0
P (Xj = n)
=
pnj > 0
aber
P (Xi = n, Xj = n) = 0 6= P (Xi = n) · P (Xj = n)
also sind Pi , Pj nicht unabhängig.
Satz 6.24 (Faltungsformel)
Seien X, Y unabhängige und diskrete Zufallsvariablen, D1 , D2 abzählbar mit
P (X ∈ D1 ) = P (Y ∈ D2 ) = 1. Dann gilt für z ∈ D1 + D2 := {x + y | x ∈ D1 , y ∈ D2 }
X
pX+Y (z) =
pX (x) · pY (z − x)
x∈D1
24
Beispiel 6.25
Bemerkung 6.26
Es gilt E [X + Y ] = E [X] + E [Y ], aber im Allgemeinen E [XY ] 6= E [X] · E [Y ].
Satz 6.27
Seien X, Y unabhängige und diskrete Zufallsvariablen, dann gilt
E [X · Y ] = E [X] · E [Y ]
28.11.14
Lemma 6.28
Seien X1 , ..., Xn unabhängige, diskrete Zufallsvariablen, dann gilt
Var [X1 + ... + Xn ] = Var [X1 ] + ... + Var [Xn ]
Bemerkung 6.29
Pn
Seien X1 , ..., Xn Zufallsvariablen mit Mittelwert X := n1 i=1 Xi . Seien X1 , ..., Xn unabhängig,
E [X1 ] = ... = E [Xn ] = µ und Var [X1 ] = ... = Var [Xn ] = σ 2 . Dann gilt
"
#
n
n
1 X
1 X
E X =E
·
Xi = ·
E [Xi ] = µ
n i=1
n i=1
und
"
#
n
n
1 X
1 X
σ2
·
Xi = 2
Var [Xi ] =
Var X = Var
n i=1
n i=1
n
Satz 6.30 (Gesetz der großen Zahlen)
Sei (Xn )n∈N eine Folge unabhängiger Zufallsvariablen, E [X1 ] = ... = E [Xn ] = µ und
Var [X1 ] = ... = Var [Xn ] = σ 2 < ∞. Dann gilt ∀ > 0
k→∞
P X − µ > → 0
X konvergiert in Wahrscheinlichkeit gegen µ
25
Kapitel 7: Abhängige Zufallsvariablen
Bemerkung 7.1
• X, Y abhängig: X liefert Infos über Y
• kann man Infos nutzen für bessere Vorhersage von Y ?
h
i
2
• finde g : E (Y − g (X)) < Var [Y ]
• g linear (Regression) bzw. g beliebig (bedingte Erwartung)
Bemerkung 7.2
Var [X + Y ]
h
i
2
2
= E (X − E [X]) + (Y − E [Y ])
h
i
h
i
2
2
= E (X − E [X]) + E (Y − E [Y ]) + 2E [(X − E [X]) · (Y − E [Y ])]
Definition 7.3
Seien X, Y diskrete Zufallsvariablen mit E [|X − E [X]| · |Y − E [Y ]|] < ∞. Dann heißt
Cov (X, Y ) := E [(X − E [X]) · (Y − E [Y ])]
Kovarianz von X und Y .
t
Sei (X1 , ..., Xn ) ein Zufallsvektor. Dann heißt
P
(X1 ,...,Xn )
∈ Rn×n mit
P
(X1 ,...,Xn )
Kovarianzmatrix von X1 , ..., Xn .
i,j
= Cov (Xi , Xj )
Lemma 7.4
Seien X, Y Zufallsvariablen wie in 7.3, dann gilt
1. falls X, Y unabhängig gilt Cov (X, Y ) = 0
2. Cov (X, Y ) = E [XY ] − E [X] · E [Y ]
3. Cov (X, X) = Var [X]
4. Cov (a1 X + b1 , a2 Y + b2 ) = a1 a2 Cov (X, Y )
5. Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z)
6. Cov (X, Y ) = Cov (Y, X)
Beispiel 7.5
Falls Cov (X, Y ) = 0, nennt man X und Y unkorreliert. Aus Cov (X, Y ) = 0 folgt nicht X, Y
unabhängig. Sei P (X = 1) = P (X = −1) = P (X = 0) = 13 und Y = X 2 . Dann gilt
1
(−1 + 0 + 1) = 0
3
1
2
E [Y ] = E X 2 = (1 + 0 + 1) =
3
3
3 1
E [XY ] = E X = (−1 + 0 + 1) = 0
3
E [X]
Cov (X, Y )
=
= E [XY ] − E [X] E [Y ] = 0 − 0 ·
aber es gilt
P (X = 0 = Y ) = P (X = 0) =
2
=0
3
1
1
6= = P (X = 0) · P (Y = 0)
3
9
26
Satz 7.6 (Cauchy-Schwarz-Ungleichung)
Seien X, Y Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞, dann gilt
E [|XY |] ≤
p
p
E [X 2 ] · E [Y 2 ]
Korollar 7.7
Seien X, Y Zufallsvariablen mit E X 2 < ∞, E Y 2 < ∞, dann gilt
E [|X − E [X]| · |Y − E [Y ]|] < ∞
und Cov (X, Y ) existiert.
Definiton 7.8
Seien X, Y diskrete Zufallsvariablen mit Var [X] > 0, Var [Y ] > 0, E X 2 < ∞, E Y 2 < ∞. Dann
heißt
Cov (X, Y )
p
ρX,Y := p
Var [X] · Var [Y ]
Korrelationskoeffizient von X und Y .
Lemma 7.9
1. |ρX,Y | ≤ 1
2. ρX,X = 1, ρX,−X = −1
3. a1 , a2 , a2 , b2 ∈ R, a1 , a2 > 0, dann ρa1 X+b1 ,a2 Y +b2 = ρX,Y
Satz 7.10
h
i
2
2
Seien X, Y Zufallsvariablen mit σX
:= Var [X] ∈ (0, ∞) , σY2 := Var [Y ] ∈ (0, ∞). Dann ist E (Y − aX − b)
minimal für
σY
Cov (X, Y ) ∗
a∗ =
, b = E [Y ] − a∗ E [X]
· ρX,Y =
σX
Var [X]
und es gilt
h
i
2
E (Y − a∗ X − b∗ ) = 1 − ρ2X,Y · Var [Y ]
Bemerkung 7.11
Satz 7.12
Seien X, Y diskrete Zufallsvariablen, Var [X] , Var [Y ] ∈ (0, ∞). Dann gilt
ρX,Y = 1 ⇔ ∃a, b ∈ Rn , a > 0 : P (Y = aX + b) = 1
Bemerkung 7.13
Die Gerade (x, y) ∈ R2 | Y = a∗ X + b∗ heißt Regressionsgerade.
Bemerkung 7.14
P
Jetzt Zufallsvektor mit dim > 2 möglich. ( )i,j = Cov (Xi , Xj ) heißt Kovarianzmatrix.
27
02.12.14
Satz 7.15
Sei X = (X1 , ..., Xn ) ein diskreter Zufallsvektor mit E Xi2 < ∞. Dann gilt für A ∈ Rm×n , b ∈ Rm
P
P
t
1.
AX+b = A ·
X ·A
Pn
Pn
Pn Pi−1
2. Var [ i=1 Xi ] = i=1 Var [Xi ] + 2 · i=1 j=1 Cov (Xi , Xj )
Beispiel 7.16
Bemerkung 7.17
Aus Cov (X, Y ) = 0 folgt nicht, dass X, Y unabhängig sind. Die Kovarianz beschreibt nicht die
komplette Abhängigkeit. Wir betrachten jetzt eine genauere Beschreibung der Abhängigkeit.
Definition 7.18
Seien X, Y diskrete Zufallsvariablen, x ∈ R mit P (X = x) > 0. Dann heißt
PY |X (y | x) := P (Y = y | {X = x})
bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x.
Lemma 7.19
In der Situation von Def. 7.18 ist pY |X (y | x) die Wahrscheinlichkeitsfunktion zur diskreten Wahrscheinlichkeitsverteilung pY |X=x mit
pY |X=x (A) = P (Y ∈ A | {X = x})
Beispiel 7.20
Seien X, Y unabhängige Zufallsvariablen, X sei Poisson-(λ)-verteilt, Y sei Poisson-(µ)-verteilt. Was
ist die Verteilung von X + Y ?
PX+Y (z)
=
z
X
λx
x=0
x!
· e−λ ·
= e−(λ+µ) ·
µz−x
· e−µ
(z − x)!
z
1 X
z!
·
λx µz−x
z! x=0 x! (z − x)!
|
{z
}
(λ+µ)z
Also ist X + Y Poisson-(λ + µ)-verteilt. Außerdem gilt
PX|X+Y (k | n)
= P (X = k | X + Y = n)
=
P (X = k, Y = n − k)
P (X + Y = n)
µn−k
(n−k)!
n
e−(λ+µ) (λ+µ)
n!
k e−λ ·
=
=
λk
k!
n
·
k
· e−µ ·
λ
λ+µ
·
µ
λ+µ
n−k
Lemma 7.21
Seien X, Y diskrete Zufallsvariablen, dann gilt
X, Y unabhängig ⇔ ∃g : R → [0, 1] : ∀x mit P (X = x) > 0 : PY |X (y | x) = g (y)
28
Definition 7.22
Seien X, Y diskrete Zufallsvariablen, P (X = x) > 0. Dann heißt
X
E [Y | X = x] =
y · pY |X (y | x)
y∈D
bedingter Erwartungswert von Y gegeben X = x.
Bemerkung 7.23
1. E [Y | X = x] ist Erwartungswert bzgl. der Verteilung PY |X (·) = P (· | {X = x})
2. Falls P (X = x) = 0 ist der bedingte Erwartungswert nicht definiert. Wir setzen dann
pY |X (y | x) = pY (y) ⇒ E [Y | X = x] = E [Y ]
Definition 7.24
Seien X, Y diskrete Zufallsvariablen. Wir setzen g : R → R mit g (x) = E [Y | X = x]. Dann heißt
E [Y | X] = g (X)
bedingter Erwartungswert von Y gegeben X.
Satz 7.25 (Iterierte Erwartung)
Seien X, Y diskrete Zufallsvariablen mit
P
y∈D2
|y| · pY (y) < ∞, dann gilt
E [Y ] = E [E [Y | X]]
Lemma 7.26
Seien X, Y diskrete Zufallsvariablen f : R → R messbar, dann gilt
E [Y · f (x) | X = x] = f (x) · E [Y | X = x]
und
P (E [Y · f (x) | X]) = f (X) · E [Y | X] = 1
Bemerkung 7.27
• Erwartungswert: beste konstante Prognose
• Regressionsgerade: beste lineare Prognose für Y , wenn X bekannt
• jetzt E [Y | X] beste Prognose, wenn X bekannt
Satz 7.28
Seien X, Y diskrete Zufallsvariablen h : R → R messbar, dann gilt
h
i
h
i
2
2
E Y − h (X)
≥ E (Y − E [Y | X])
Beispiel 7.29
Würfel zweifacher Wurf [...]
29
Kapitel 8: Stetig verteilte Zufallsvariablen
Bemerkung 8.1
Bisher ∃D abzählbar, s.d. P (X ∈ D) = 1.
P
Jetzt: Zufallsvariable X mit P (X = x) = 0 ⇒ ∀A ⊂ D abzählbar: P (X ∈ A) = x∈A P (X = x) = 0
Definition 8.2
Sei X : Ω → R eine Zufallsvariable. Dann heißt
FX : R → [0, 1]
mit FX (x) = P (X ≤ x) Verteilungsfunktion von X.
Lemma 8.3
Sei F eine Verteilungsfunktion, dann gilt
1. F monoton wachsend
2. ∀x : limF (y) = F (x)
y↓x
3. ∀x, z : P (X ∈ (x, z]) = F (z) − F (x)
4.
lim F (x) = 0, lim F (x) = 1
x→−∞
x→∞
Satz 8.4
Sei X eine Zufallsvariable mit Verteilungsfunktion FX . Dann gilt für x ∈ R
P (X = x) = FX (x) − limFX (y)
y↑x
FX ist stetig in x ⇔ P (X = x) = 0
Bemerkung 8.5
Zu jeder F : R → [0, 1] monoton wachsend, rechtsstetig und
lim F (x) = 0, lim F (x) = 1 gibt es
x→−∞
x→∞
eine Zufallsvariable X, sodass FX = F . Daher nennt man jede solche Funktion Verteilungsfunktion.
Definition 8.6
Sei X eine Zufallsvariable mit Verteilung PX und Verteilungsfunktion FX . Dann heißt PX stetig,
wenn es eine integrierbare Funktion fX : R → [0, ∞) gibt mit
ˆ x
FX (x) =
fX (t) dt
−∞
fX heißt Dichte von PX (bzw. Dichte von X).
Lemma 8.7
PX stetig ⇒ FX stetig.
Bemerkung 8.8
Die Umkehrung von 8.7 gilt nicht.
30
9.12.14
Satz 8.9
Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte stetig und diffbar ist. Dann gilt
ˆ x
F (x) =
F 0 (t) dt
−∞
d.h. eine Verteilung PX mit Verteilungsfunktion F hat die Dichte f = F 0 .
Lemma 8.10
Sei f : R → [0, ∞) eine bis auf endlich viele Punkte stetige Funktion mit
ˆ
´∞
−∞
f (t) dt = 1. Dann ist
∞
F (x) =
f (t) dt
−∞
eine Verteilungsfunktion.
Beispiel 8.11
Seien a, b ∈ R, a < b. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion


x≤a
0
F (x) = x−a
x
∈ (a, b)
b−a


1
x≥b
Gleichverteilung auf dem Intervall [a, b]. Die Dichte ist gegeben durch


x≤a
0
1
f (x) = b−a
x ∈ (a, b)


0
x≥b
Beispiel 8.12
Wir drehen ein faires Rouletterad. Wie wahrscheinlich ist es, dass es im Winkel zwischne 0° und 120°
zum Ausgangspunkt stehen bleibt? Zufallsvariable ϕ : Winkel zur Ausgangsposition sei gleichverteilt
auf [0, 2π]
ˆ 2π
3
1
2π
1
P 0≤ϕ≤
dt =
=
3
2π
3
0
Beispiel 8.13
Sei λ > 0. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion
(
0
x<0
F (x) =
−λx
x≥0
1−e
Exponentialverteilung. Die Dichte ist gegeben durch
(
0
x<0
f (x) =
−λx
λ·e
x≥0
31
Beispiel 8.14
Sei a > 1. Dann heißt die Verteilung gegeben durch die Verteilungsfunktion
(
0
x<1
F (x) =
1 − x−(a−1) x ≥ 1
Pareto-Verteilung. Die Dichte ist gegeben durch
(
0
f (x) =
(a − 1) · x−a
x<1
x≥1
Beispiel 8.15
Die Verteilung gegeben durch
(
F (x) =
1 x
2e
x≤0
x>0
1 − 21 e−x
heißt Laplace-Verteilung mit Dichte
f (x) =
1 −|x|
e
2
Bemerkung 8.16
Falls X Zufallsvariable mit Dichte fX (x) , g : R → R messbar, dann ist g (X) eine Zufallsvariable.
Existiert die Dichte von g (X)? Wie sieht sie aus?
Beispiel 8.17
(
1 x ∈ 0, 2π
3
Voraussetzungen wie in 8.12. ϕ gleichverteilt auf [0, 2π], g (x) =
0 sonst
⇒ P (g (ϕ) = 1) = P
1
2π
= >0
ϕ ∈ 0,
3
3
Also hat g (ϕ) keine Dichte.
Beispiel 8.18
Sei X Laplace-verteilt. Was ist die Dichte von |X|? Sei y > 0, dann gilt
P (|X| ≤ y)
= P (−y ≤ X ≤ y)
= FX (y) − FX (−y)
1
1
= 1 − e−y − e−y
2
2
= 1 − e−y
Also ist |X| exponentialverteilt mit Dichte
(
0
f|X| (y) =
e−y
32
y<0
y≥0
Beispiel 8.19
1
? Sei y > 0, dann gilt
Sei X gleichverteilt auf [0, 1]. Was ist die Dichte von Y = X
1
P (Y ≤ y) = P
≤y
X
1
= P X≥
y
ˆ 1
1dt
=
1
y
1−
=
1
y
Also ist Y Pareto-verteilt mit Dichte
f X1 (y) =
(
0
1
y2
y≤1
y>1
Satz 8.20 (Dichte-Transformationssatz)
Sei X eine Zufallsvariable mit Dichte fX , I ⊂ R offenes Intervall mit P (X ∈ X) = 1 . Sei J ⊂ R ein
offenes Intervall und v : I → J bijektiv mit v −1 diffbar auf J, so hat Y = v (X) die Dichte
(
d −1
fX v −1 (y) · dy
v (y) y ∈ J
fY (y) =
0
sonst
Beispiel 8.21
X gleichverteilt auf [0, 1] , Y =
1
X,
Dichte von Y ? Sei u (x) =


0
fY (y) = 1 ·


0
1
y2
1
x
−1
⇒u
(y) =
1 du−1
y , dy
(y) =
12.12.14
1
y2
1
y
1
y
<0
∈ [0, 1]
sonst

(

0 x < 0
0 y<1
fX (x) = 1 x ∈ [0, 1] =

1 y≥1

0 sonst
Definition 8.22
Sei X eine Zufallsvariable mit stetiger Verteilung und Dichte f und es gelte
dann heißt
ˆ ∞
E [X] =
x · fX (x) dx
−∞
Erwartungswert von X und
h
i
2
Var [X] = E (X − E [X])
heißt Varianz von X.
33
´∞
−∞
|x| · fX (x) dx < ∞,
Bemerkung 8.23
Falls X eine Dichte fX hat, so gilt für y ≥ 0
0
= FX
2 (y)
fX 2 (y)
=
=
=
0
P X2 ≤ y
√ 0
√
(P (− y ≤ X ≤ y))
!0
ˆ √y
f (x) dx
√
− y
1
√
√
√ (fX ( y) + fX (− y))
2 y
also existiert die Dichte von X 2 und damit ist E X 2 definiert und folglich auch Var [X], sofern E [X]
existiert.
=
Lemma 8.24
Viele Aussagen über E [X] mit X diskret gelten auch für stetige Zufallsvariablen:
1. ∀a, b : E [a · X + b] = a · E [X] + b
2. E [X + Y ] = E [X] + E [Y ]
3. ϕ konvex ⇒ E [ϕ (X)] ≥ ϕ (E [X])
´∞
4. E [g (x)] = −∞ g (x) · fX (x) dx
5. P (|X| ≥ a) ≤
1
a
· E [X]
[X]
6. P (|X − E [X]| ≥ c) ≤ Var
c2
7. Var [aX + b] = a2 · Var [X]
Beispiel 8.25
Sei X gleichverteilt auf [a, b] mit Dichte
(
f (x) =
Dann gilt
ˆ
1
b−a
0
ˆ
∞
x · fX (x) dx =
E [X] =
−∞
und
b
x·
a
ˆ
∞
E X2 =
x2 · fX (x) dx =
−∞
und
x ∈ [a, b]
sonst
1
a+b
dx =
b−a
2
1 2
b + ab + a2
3
2
(a − b)
2
Var [X] = E X 2 − (E [X]) =
12
34
Kapitel 9: Stetig verteilte Zufallsvektoren
Definition 9.1
Sei X : Ω → Rn ein Zufallsvektor mit Verteilung PX . PX heißt stetig, wenn es eine integrierbare
Funktion f : Rn → [0, ∞) gibt, sodass
! ˆ
ˆ b1
n
bn
O
f (x1 , ..., xn ) dx1 , ..., dxn
∀ai < bi : P X ∈
...
[ai , bi ) =
an
i=1
a1
f heißt gemeinsame Dichte von X1 , ..., Xn .
Bemerkung 9.2
1. Integrationsreihenfolge egal:
´ b2 ´ b1
a2
a1
f (x, y) dxdy =
´ b1 ´ b2
a1
a2
f (x, y) dydx
2. oft von Interess: P (X ∈ M ), wobei M kein Quader. Falls M konvex, dann gilt ∀x2 , ..., xn :
Mx12 ,...,xn = {y | (y, x2 , ..., xn ) ∈ M } ist konvex in R, entspricht also einem Intervall. Damit gilt
ˆ bn ˆ bn−1 (xn ) ˆ b1 (x2 ,...xn )
...
f (x1 , ..., xn ) dx1 , ..., dxn
P (X ∈ M ) =
an−1 (xn )
an
a1 (x2 ,...xn )
Beispiel 9.3
Sei X = (X1, , X2 ) ein Zufallsvektor mit Dichte f und M = (x, y) ∈ R2 | x2 + y 2 ≤ 1 . Dann gilt
p
p
P (X ∈ M ) = P −1 ≤ Y ≤ 1, − 1 − Y 2 ≤ X ≤ 1 − Y 2
ˆ 1 ˆ √1−Y 2
f (x, y) dxdy
=
√
−1
− 1−Y 2
Lemma 9.4
Sei X : Ω → Rn ein Zufallsvektor mit Dichte fX , sei I = {i1 , ..., ik } ⊂ {1, ..., n} , ∅ =
6 I 6= {1, ..., n} und
I c = {j1 , ..., jl }. Dann hat (Xi )i∈I eine stetige Verteilung mit Dichte
ˆ ∞ ˆ ∞
f (Xi )i∈I (xi1 , ..., xik ) =
...
f (xj1 , ..., xi1 , ..., xik , ..., xjl ) dxj1 ...dxjl
−∞
−∞
Bemerkung 9.5
Die Umkehrung von Lemma 9.4 gilt nicht: Falls X und Y eine Dichte besitzen, so muss dies nicht für
(X, Y ) gelten. z.B. X habe Dichte
´ ∞ ´ fy und Y = X ⇒ P (X = Y ) = 1. Angenommen (X, Y ) habe die
Dichte fX,Y ⇒ P (X = Y ) = −∞ y fX,Y (x, y) dxdy = 0. Widerspruch.
Beispiel 9.6
Sei (X, Y ) ein Zufallsvektor mit Dichte
(
f(X,Y ) (x, y) =
2 falls x ≥ 0, y ≥ 0, x + y ≤ 1
0 sonst
Sei t ∈ (0, 1), dann gilt
P (X + Y ≤ t)
P (Y ≤ t, X ≤ t − Y )
ˆ t ˆ t−y
=
2dxdy
0
0
ˆ t
=
2 (t − y) dy
=
0
= t2
35
16.12.14
Damit gilt für die marginale Dichte
(
ˆ ∞
0
fX (x) =
f(X,Y ) (x, y) dy = ´ 1−x
−∞
für x < 0, x > 1
2dy = 2 − 2x sonst
0
Satz 9.7 (Dichte-Transformationsformel)
Sei (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f(X1 ,...,Xn ) . Außerdem sei u : Rn → Rn messber, bijektiv
und u−1 sei stetig total differenzierbar, dann hat u (X1 , ..., Xn ) die Dichte
fu(X1 ,...,Xn ) (y) = f(X1 ,...,Xn ) u−1 (y) · |det Ju−1 (y)|
wobei
Ju−1 =
die Jacobi-Matrix von u
−1
∂u−1
i
∂yj
i,j∈{1,...,n}
ist.
Beispiel 9.8
Lemma 9.9
Seien X1 , ..., Xn unabhängige Zufallsvariablen mit Dichten f1 , ..., fn . Dann hat der Zufallsvektor X =
(X1 , ..., Xn ) die Dichte
n
Y
fi (xi )
fX (x1 , ..., xn ) =
i=1
Satz 9.10
Sei (X, Y ) ein Zufallsvektor mit Dichte f der Form
f (x, y) = g (x) · h (y)
Dann sind X, Y unabhängig. (Der Satz gilt auch für n > 2)
Satz 9.11 (Faltungsformel)
Es seien X, Y unabhängige Zufallsvariablen mit Dichten fX , fy . Dann hat Z = X + Y die Dichte
ˆ ∞
fZ (z) =
fX (x) · fY (z − x) dx
−∞
Beispiel 9.12
Bemerkung 9.13
Sei g : R → Rn eine Funktion g (x) = (g1 (x) , ..., gn (x)) mit g1 , ..., gn integrierbar. Dann setzt man
´

b
g
(x)
dx
1
ˆ b
 a .


.
g (x) dx = 
.


a
´b
g
(x)
dx
n
a
Definition 9.14
t
Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f . Dann heißt
´∞
´ ∞

... −∞ x1 · f (x1 , ..., xn ) dx1 ...dxn
−∞


..
E [X] = 

.
´∞
´∞
... −∞ xn · f (x1 , ..., xn ) dx1 ...dxn
−∞
Erwartungswert von X, falls alle Integrale existieren.
36
Lemma 9.15
t
Sei (X1 , ..., Xn ) ein stetig verteilter Zufallsvektor. Dann gilt
  

X1
E [X1 ]
  

E  ...  =  ... 
Xn
E [Xn ]
Lemma 9.16
Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit Dichte f , sei g : Rn → Rm messbar und g · f integrierbar,
dann gilt
ˆ ∞ ˆ ∞
g (x1 , ..., xn ) · f (x1 , ..., xn ) dx1 ...dxn
...
E [g (X)] =
−∞
−∞
Lemma 9.17
Seien X, Y unabhängige Zufallsvariablen mit stetiger Verteilung. Dann gilt
E [XY ] = E [X] · E [Y ]
sofern die Erwartungswerte auf der rechten Seite existieren.
Definition 9.18
Es sei (X, Y ) ein Zufallsvektor mit Dichte f(X,Y ) . Dann heißt
(
f(X,Y ) (x, y) für fX (x) 6= 0
fY |X (y | x) :=
0
sonst
bedingte Dichte von Y gegeben X = x.
ˆ
∞
E [Y | X = x] :=
y · fY |X (y | x) dy =: g (x)
−∞
heißt bedingter Erwartungswert von Y gegeben X = x.
E [Y | X] := g (X)
heißt bedingte Erwartung von Y gegeben X.
Satz 9.19 (Iterierte Erwartung)
In der Situation von 9.18 gilt
E [Y ] = E [E [Y | X]]
Bemerkung 9.20
Wie im diskreten Fall gilt für jede Funktion h : R → R
h
i
h
i
2
2
E (Y − h (x)) ≥ E (Y − E [Y | X])
37
19.12.14
Beispiel 9.21
Sei (X, Y ) ein Zufallsvektor mit Dichte
(
2 falls x, y ≥ 0, x + y ≤ 1
=
0 sonst
fX,Y
Dann ist
(´ 1−x
fX (x) =
und
0
0
2dx = 2 (1 − x) für y ∈ [0, 1 − x]
sonst
(

1

 fX,Y (x,y) = 1−x
fX (x)
fY |X (y | x) =
0


0
für y ∈ [0, 1 − x]
sonst
für x ∈ [0, 1]
sonst
Es ergibt sich
ˆ
E [Y | X = x]
1−x
y·
=
0
E [Y | X]
=
1−X
2
38
1
1−x
dy =
1−x
2
Kapitel 10: Die Normalverteilung
Lemma 10.1
ˆ
∞
−∞
x2
1
√ · e− 2 dx = 1
2π
Definition 10.2
Eine Zufallsvariable X mit Dichte
x2
1
f (x) = √ · e− 2
2π
heißt Standard-Normalverteilt bzw. N (0, 1)-verteilt.
Eine Zufallsvariable X mit Dichte
(x−µ)2
1
f (x) = √
· e− 2σ2
2πσ 2
heißt Normalverteilt mit Parametern µ ∈ R, σ > 0 bzw. N µ, σ 2 -verteilt.
Lemma 10.3
Sei X N µ, σ 2 -verteilt. Dann ist für a, b ∈ R, a > 0 die Zufallsvariable aX + b N aµ + b, a2 σ 2 verteilt.
Lemma 10.4
Seien X, Y unabhängige
Zufallsvariablen mit X N µ, σ 2 und Y N ν, τ 2 -verteilt, dann ist Z = X +Y
N µ + ν, σ 2 + τ 2 -verteilt.
Lemma 10.5
Sei X N (0, 1)-verteilt, dann gilt für gerades n und ungerades m
E [X n ]
m
E [X ]
=
(n − 1) · (n − 2) · ... · 3 · 1
=
0
Lemma 10.6
Sei X N µ, σ 2 -verteilt. Dann gilt
E [X]
Var [X]
= µ
= σ2
Bemerkung 10.7
√1
2π
f (x) =
φ (x) mit
2
− x2
·e
ist nicht elementar integrierbar. Deshalb gibt man die Werte der Stammfunktion
ˆ
x
φ (x) =
−∞
t2
1
√ · e− 2 dt = P (X ≤ x)
2π
in Tabellen an.
Bemerkung 10.8
Als nächstes: Einer der wichtigsten Sätze der Wahrscheinlichkeitstheorie: Der zentrale Grenzwertsatz.
Vereinfachte Aussage: “Wir addieren unabhängige Zufallsvariablen auf, ziehen den Erwartungswert
ab, teilen durch die Standardabweichung, dann wird die Verteilung der standardisierten Summe mit
wachsender Zahl der Summanden der Normalverteilung ähnlich”. Wir betrachten Bernoulli-verteilte
Zufallsvariablen.
39
09.01.15
Lemma 10.9 (Stirlingsche Formel)
lim
n!
1
n→∞ nn+ 2
e−n
=
√1
2π
bzw. n! ≈
√
1
2π · nn+ 2 e−n
Lemma 10.10
Sei (Xi )i∈N eine Folge von unabhängigen Bernoulli(p)-verteilen Zufallsvariablen, p ∈ (0, 1),
Pn
n→∞
Sn := i=1 Xi undpK > 0. Dann gibt es Konstanten CK,n mit CK,n → 0, sodass für alle x mit
|x| ≤ K und np + x np (1 − p) ∈ N0 gilt
p
2 √
n · P Sn = np + x np (1 − p) − √1 · e− x2 ≤ CK,n
2π
Satz 10.11 (Moivre-Laplace)
Sei (XP
i )i∈N eine Folge von unabhängigen Bernoulli(p)-verteilen Zufallsvariablen, p ∈ (0, 1),
n
Sn := i=1 Xi . Seien a, b ∈ R mit a < b, dann gilt
! ˆ
b
x2
Sn − np
1
√ · e− 2 dx = φ (b) − φ (a)
≤b =
lim P a ≤ p
n→∞
2π
np (1 − p)
a
Bemerkung 10.12
Oft will man berechnen: P (Sn ∈ {k, ..., m}). Extremfall: k = m.
P (Sn = k)
Sn − np
k − np
p
≤p
≤p
np (1 − p)
np (1 − p)
np (1 − p)
k − np
= P
ˆ
a
≈
a
=
!
x2
1
√ · e− 2 dx
2π
0
liefert eine schlechte Approximation. Besser:
1
1
P (Sn = k) = P k − ≤ Sn ≤ k +
2
2
k − 1 − np
k + 1 − np
Sn − np
p 2
≤p
≤p 2
np (1 − p)
np (1 − p)
np (1 − p)
= P
ˆ
bn
≈
an
=
x2
1
√ · e− 2 dx
2π
1
−
1
p
· √ ·e
2π
np (1 − p)
√ k−np
2
np(1−p)
Deshalb: Stetigkeitskorrektur:
ˆ
(Sn ∈ {k, ..., m}) ≈
m+ 1 −np
2
np(1−p)
√
k− 1 −np
√ 2
np(1−p)
40
x2
1
√ e− 2 dx
2π
!
Beispiel 10.13
(
1 Kopf
ist Bernoulli
Wir werfen eine faire Münze 100 Mal. Xi =
0 sonst
ist es, dass zwischen 45 und 55 Mal Kopf erscheint?
ˆ
P (S100 ∈ {45, ..., 55}) ≈
ˆ
=
=
=
=
=
5+ 1
2
5
−5− 1
2
5
1
2
-verteilt. Wie wahrscheinlich
x2
1
√ · e− 2 dx
2π
ˆ −a
2
x2
1
1
− x2
√ ·e
√ · e− 2 dx
dx −
2π
2π
−∞
−∞
ˆ a
ˆ ∞
x2
x2
1
1
√ · e− 2 dx −
√ · e− 2 dx
2π
2π
−∞
a
ˆ a
ˆ ∞
x2
x2
1
1
√ · e− 2 dx −
√ · e− 2 dx
2π
2π
−∞
−∞
ˆ a
x2
1
√ · e− 2 dx − 1
2·
2π
−∞
2 · φ (x) − 1
a
≈ 0, 728
Definition 10.14
Es seien X1 , ...Xn unabhängige N (0, 1)-verteilte Zufallsvariablen. Dann nennt man den Zufallsvektor
t
X = (X1 , ..., Xn ) n-dimensional standardnormalverteilt.
Bemerkung 10.15
Ist X standardnormalverteilt, so hat X die Dichte
fX (x1 , ..., xn ) =
1
(2π)
n
2
· e−
Pn
2
i=1 xi
2
Definition 10.16
Sei X ein standardnormalverteiler Zufallsvektor, A ∈ Rn×n und µ ∈ Rn . Dann heißt die Verteilung
des Zufallsvektors Z = A · X + µ n-dimensionale Normalverteilung.
Bemerkung 10.17
Es gilt
• E [A · X + µ] = A · E [X] + µ = µ
P
P
P
t
t
•
A·X+µ = A ·
X A = AA =:
Daher nennt man die Verteilung von Z = A · X + µ auch N (µ,
P
)-Verteilung.
Lemma 10.18
Sei X n-dimensional standardnormalverteilt, A ∈ Rn×n ein Matrix, sodass
besitzt. Dann hat Z = AX + µ, µ ∈ Rn die Dichte
fZ (z) =
1
n/2
(2π)
·p
1
det
P · e−
P
= AAt vollen Rang
P−1
(z−µ)t
(z−µ)
2
Satz 10.19
t
Sei X = (X1 , ..., Xn ) ein Zufallsvektor mit N (µ,
x1 , ..., xn unabhängig.
P
P
)-Verteilung. Ist
eine Diagonalmatrix, so sind
41
Lemma/Definition 10.20
Pn
n 1
2
Seien X1 , ..., Xn unabhängig und N (0, 1)-verteilt. Dann ist Y =
i=1 Xi Γ 2 , 2 -verteilt. Man
nennt diese Verteilung auch χ2n -Verteilung. (“Chiquadrat mit n Freiheitsgraden”)
Definition 10.21
1. Seien X, Y unabhängig, X N (0, 1)-verteilt, Y χ2n -verteilt. Dann heißt die Verteilung von T :=
√X t-Verteilung mit n Freiheitsgraden
Y /n
2. Seien Y, Z unabhängig, Y χ2n -verteilt, Z χ2m -verteilt, dann heißt die Verteilung von F :=
F -Verteilung mit (n, m) Freiheitsgraden
42
Y /n
Z/m
Kapitel 11: Schätztheorie
Bemerkung 11.1
Bisher: X Zufallsvariable mit bekannter Verteilung PX .
Jetzt: (Pθ )θ∈Θ Familie von Verteilungen, Θ 6= ∅, Θ ⊂ Rd Parameterraum, X1 , ..., Xn unabhängig,
identisch verteilt (u.i.v) mit Verteilung Pθ .
• falls Pθ diskret: Wahrscheinlichkeitsfunktion pθ
• falls Pθ stetig: Dichte fθ
Grundfragen der Statistik:
• Wie kann man von den realistischen Werten X1 = x1 , ..., Xn = xn (Beobachtungen) auf den
Parameter θ schließen?
• Welcher Wert für θ passt am besten zu den Beobachtungen? (Schätztheorie)
• Passt der Wert θ = θ0 zu den Beobachtungen? (Testheorie)
Definition 11.2
t
Sei X = (X1 , ..., Xn ) ein Zufallsvektor, t : Rn → Rp messbar, dann nennt man T = t ◦ X eine
Statistik.
[
Sei h : Rd → Rp eine Funktion. Ein Schätzer für h (θ) ist eine Statistik h
(θ) = t ◦ X mit t : Rn → Rp .
Bemerkung 11.3
Jede Statistik mit richtiger Dimension ist ein Schätzer für h (θ). Was ist ein guter Schätzer?
Definition 11.4
Sei (Pθ )θ∈Θ eine Familie von Verteilungen.
(P
g (x1 , ..., xn ) · pθ (x1 ) · ... · pθ (xn )
1. Eθ [g (X1 , ..., Xn )] = ´ x1´,...,xn ∈D
... g (x1 , .., xn ) · fθ (x1 ) · ... · fθ (xn ) dx1 ...dxn
heißt Erwartungswert unter dem Parameter θ
diskret
stetig
2. Sei T = t ◦ (X1 , ..., Xn ) ein Schätzer für h (θ), dann heißt biast (θ) := Eθ [T ] − h (θ) Bias von T
3. Ein Schätzer von T heißt erwartungstreu, wenn ∀θ ∈ Θ : biast (θ) = 0
i
h
2
4. Rt (θ) = Eθ (T − h (θ)) heißt Risiko des Schätzens
5. Falls T = Tn in Wahrscheinlichkeit gegen h (θ) konvergiert, d.h.
n→∞
∀, θ : Pθ (|h (θ) − Tn | > ) → 0
heißt T konsistent für h (θ)
Lemma 11.5
1. Rt (θ) = Varθ (T ) + bias2t
n→∞
2. Falls Rt (θ) → 0, dann ist T konsistent
43
Beispiel 11.6
Seien X1 , ..., Xn u.i. Bernoulli(p)-verteilt und p ∈ (0, 1) unbekannt. Dann gilt
Ep [Xi ]
Varp (Xi )
Setze p̂ =
1
n
·
Pn
i=1
= p
= p (1 − p)
Xi = X. Dann gilt
Ep [p̂] =
n
1 X
·
E [Xi ] = p
n i=1
also ist p̂ erwartungstreu für p. Außerdem gilt
Varp (p̂) =
n
p (1 − p)
1 X
·
Varp (Xi ) =
2
n i=1
n
also
Rp̂ (p) = Varp (p̂) + bias2p̂ (p) =
p (1 − p)
n
Damit ist p̂ konsistent für p.
Bemerkung 11.7
Pn
1
k
Erinnerung: mk,θ = Eθ X k heißt k-tes Moment. mk lässt sich schätzen durch m
[
k,θ = n ·
i=1 Xi .
Falls wir h (θ) schätzen wollen mit h (θ) = g (m1,θ , ..., mk,θ ), dann benutzt man oft die “Momentenmethode” zur Konstruktion eines Schätzers
[
h
(θ)M M = g m
d
[
1,θ , ..., m
k,θ
Beispiel 11.8
Seien X1 , ..., Xn unabhängig, identisch N µ, σ 2 -verteilt und µ, σ 2 unbekannt. Wir wollen σ 2 schätzen:
σ2
= Varµ,σ2 (Xi )
2
= Eµ,σ2 Xi2 − Eµ,σ2 [Xi ]
= m2,µ,σ2 − m21,µ,σ2
Momentenschätzermethode:
2
σ̂M
M
2
biasσ̂M
σ2
M
!2
n
n
1 X
1 X 2
=
·
·
X −
Xi
n i=1 i
n i=1

#
!2 
"
n
n
X
1
1 X 2
·
X − Eµ,σ2 
·
Xi  − σ 2
= Eµ,σ2
n i=1 i
n i=1
1
= E Xi2 − 2
n
n
X
E [Xi Xj ] −
i,j=1,i6=j
n
1 X 2
E Xi − σ 2
n2 i=1
n (n − 1) 2
n2 − n 2
=
σ + µ2 −
µ − σ2
2
n
n2
1
= − σ2
n
Also ist der Schätzer nicht erwartungstreu (unterschätzt). Aber es gilt
2
biasσ̂M
σ2
M
44
n→∞
→ 0
Erwartungstreue Schätzeralternative:
σ̂ 2
n
· σ̂ 2
n − 1 MM
n
X
2
1
·
Xi − X
n − 1 i=1
=
=
Definition 11.9
Seien X1 , ..., Xn u.i.v. mit Wahrscheinlichkeitsfunktion Pθ und Dichte fθ .
(
pθ (x1 ) · ... · pθ (xn ) falls Xi diskret
bezeichnet die Likelihood-Funktion
• Lθ (x1 , ..., xn ) =
fθ (x1 ) · ... · fθ (xn ) sonst
• lθ (x1 , ..., xn ) = log Lθ bezeichnet die log-Likelihood-Funktion
• θ̂M L = arg maxLθ (x1 , ..., xn ) = arg maxlθ (x1 , ..., xn ) heißt Maximum-Likelihood-Schätzer
θ
θ
Beispiel 11.10
Seien X1 , ..., Xn u.i. Poisson(λ)-verteilt. Dann gilt
Lλ (x1 , ..., xn ) =
n xi
Y
λ
i=1
und damit
lλ (x1 , ..., xn ) =
n
X
xi · log λ −
i=1
·e
n
X
log xi ! − n · λ
i=1
Also
Damit gilt λ0 =
xi !
−λ
n
1
n
X
∂lλ
1
!
(x1 , ..., xn ) =
xi · − n = 0
∂λ
λ
i=1
Pn
Pn
· i=1 xi und λ̂M L = n1 · i=1 Xi .
Beispiel 11.11
Definition 11.12
Seien ĝ (θ)1 und ĝ (θ)2 zwei Schätzer von g (θ). Falls gilt Rĝ(θ)1 ≤ Rĝ(θ)2 für alle θ ∈ Θ (und < für
mindestens ein θ), dann heißt ĝ (θ)1 effizienter als ĝ (θ)2 .
Bemerkung 11.13
In vielen Fällen ist der Maximum-Likelihood-Schätzer der effizienteste, dies sprengt aber den Rahmen
der Vorlesung.
Bemerkung 11.14
Wie kann man vorhandene Schätzer effizienter machen?
• 1. Möglichkeit: “Intelligenz der Masse” nutzen, d.h. seien θ̂1 , θ̂2 zwei
Schätzer
erwartungstreue
mit endlicher Varianz und ρθ̂1 ,θ̂2 < 1, dann ist der Schätzer θ̃ = 21 θ̂1 + θ̂2 unverzerrt, denn
h i
h i
h i
E θ̃ = 21 · E θ̂1 + 12 · E θ̂2 = θ. Außerdem
1 Varθ̃ =
· Varθ̂1 + Varθ̂2 + 2·Cov θ̂1 , θ̂2
4
q
1 =
· Varθ̂1 + Varθ̂2 + 2 · ρθ̂1 ,θ̂2 · Varθ̂1 · Varθ̂2
4
1 Jensen: ≤
· Varθ̂1 + Varθ̂2
2
45
• 2. Möglichkeit: braucht etwas Vorarbeit
Definition 11.15
t
Sei T : Ω → Rp eine Statistik, (X1 , ..., Xn ) ein Zufallsvektor mit Wahrscheinlichkeitsfunktionen Pθ
bzw. mit Dichte fθ , θ ∈ Θ. T heißt suffizient, wenn die bedingte Wahrscheinlichkeitsfunktion
Pθ,(X1 ,...,Xn )|T (x1 , ..., xn | t)
bzw. die gemeinsame Dichte
fθ,(X1 ,...,Xn )|T (x1 , ..., xn | t)
nicht von θ abhängt.
Bemerkung 11.16
Intuition: Information über Paramter θ steckt nur in T . Falls T suffizient, kann man den bedingten
Erwartungswert
X
Eθ [g (x1 , ..., xn ) | T = t] =
g (x1 , ..., xn ) · Pθ,(X1 ,...,Xn )|T (x1 , ..., xn | t)
ausrechnen, ohne θ zu kennen.
Lemma 11.17 (Rao-Blackwell)
Sei θ̂ ein erwartungstreuer Schätzer für θ ∈ Θ ⊂ R mit endlicher Varianz und T eine suffiziente
Statistik. Dann gilt für den Rao-Blackwellisierten Schätzer
h
i
θ̃ = Eθ θ̂ | T
θ̃ ist erwartungstreu und für alle θ ∈ Θ gilt Varθ θ̃ ≤ Varθ θ̂ .
Beispiel 11.18
Definition 11.19
Eine Statistik T heißt vollständig, wenn für alle messbaren Funktionen g : Rp → R gilt
∀θ ∈ Θ : Eθ [g (T )] = 0 ⇒ ∀θ ∈ Θ : Pθ (g (T ) = 0) = 1
Satz 11.20 (Lehmann-Scheffé)
Sei T eine vollständige und suffiziente Statistik und θ̂ ein erwartungstreuer Schätzer, dann ist der
Rao-Blackwellisierte Schätzer
h
i
θ̃ = Eθ θ̂ | T
der effizienteste erwartungstreue Schätzer.
Beispiel 11.21
Bemerkung 11.22
Bis jetzt:x1 , ..., xn ∈ R unabhängig, identisch verteilt.
Ab jetzt: Jede Zufallsvariable anderer Erwartungswert.
Beispiel 11.23
Seien ξ1 , ..., ξn u.i. N 0, σ 2 -verteilt und [...]
23.01.15
46
Bemerkung 11.24
a∗ , b∗ werden auch ohne Normalverteilung verwendet, dann nennt man sie kleinste Quadrate-Schätzer
(KQ).
Bemerkung 11.25
Es gilt
Var (a )
∗
=
1
P
n
i=1
=
2
2 · Var
2
2 ·
1
P
n
i=1
=
(xi − x)
(xi − x)
Var [1 ]
Pn
i=1
2
(xi − x)
47
X
n
X
!
(xi − x) · Yi − Y
i=1
2
(xi − x) · Var (Yi )
Kapitel 12: Testtheorie
Beispiel 12.1
Ein neues Medikament soll eingeführt werden. Das alte Medikament heilt 50% der Patienten. In
einem Test half das neue Medikament bei 55 von 100 Patienten. Soll das neue (teurere) Medikament
eingeführt werden? Zwei mögliche Fehlentscheidungen:
• Medikament einführen, obwohl nicht besser (unnötige Kosten)
• Medikament nicht einführen, obwohl besser (unnötiges Leid)
Intuitiv: Entscheidung für neues Medikament, wenn die Anzahl K geheilter Patienten größer ist als
C ∈ {0, ..., 100}. Wie groß muss man C wählen?
Definition 12.2
Sei (Pθ )θ∈Θ ein statistisches Modell, X1 , ..., Xn u.i. Pθ -verteilt und θ unbekannt. Weiterhin sei Θ =
˙ A . Eine messbare Abbildung Ψ : R → {0, 1} heißt Test für die Hypothese
ΘH ∪Θ
H : θ ∈ ΘH gegen die Alternative A : θ ∈ ΘA
Dabei bedeutet
Ψ (x1 , ..., xn ) = 0 : Entscheidung für Hypothese
Ψ (x1 , ..., xn ) = 1 : Entscheidung für Alternative
und Ψ−1 ({1}) heißt kritischer Bereich bzw. Verwerfungsbereich.
Bemerkung 12.3
Nach Definition: Ψ = 0 ist Test (Vorurteilstest). Falls Ψ̃ ein Test ist, so auch Ψ = 1 − Ψ̃.
Definition 12.4
Sei Ψ ein Test.
1. für θ ∈ ΘH heißt Ψ (x1 , ..., xn ) = 1 Fehler 1. Art
2. für θ ∈ ΘA heißt Ψ (x1 , ..., xn ) = 0 Fehler 2. Art
3. α = sup Pθ (Ψ (x1 , ..., xn ) = 1) heißt Niveau des Tests
θ∈ΘH
Falls Ψ Test mit Niveau α und Ψ (x1 , ..., xn ) = 1, sagt man: “Die Beobachtung weichen zum
Niveau α signifikant von der Hypothese ab”. Typische Wert für α sind {0.1, 0.05, 0.01}
4. für θ ∈ ΘA heißt β (θ) = Pθ (Ψ (x1 , ..., xn ) = 1) Macht von Ψ in θ
Bemerkung 12.5
Ziel: α möglichst klein, β möglichst groß ⇒ Zielkonflikt.
Beispiel 12.6
Definition 12.7
Es sei Θ = {θ0 , θ1 } und H : θ = θ0 , A : θ = θ1 . Dann heißt
(
L (x ,...,x )
1 falls Lθθ1 (x11 ,...,xnn ) > C
0
Ψ (x1 , ..., xn ) =
0 sonst
Likelihood-Quotienten-Test (LQ-Test).
48
Satz 12.8 (Neyman-Pearson-Lemma)
Der Likelihood-Quotienten-Test Ψ hat unter allen Tests mit Niveau α̃ ≤ α = Pθ0 (Ψ (x1 , ..., xn ) = 1)
die größte Macht.
Beispiel 12.9
27.01.15
Bemerkung 12.10
Einfache Hypothese/Alternative nicht sehr praxisrelevant. Häufiger: Einseitige Hypothese/Alternative
(Pθ )θ∈[a,b] , θ0 ∈ (a, b) , H : θ ≤ θ0 , A : θ > θ0
Satz 12.11
Sei (Pθ )θ∈[a,b] ein statistisches Modell, T = t (X1 , ..., Xn ) , t : Rn → R, sodass für alle θ1 < θ2 gilt:
Lθ2 (x1 , ..., xn )
= gθ1 ,θ2 (t (x1 , ..., xn ))
Lθ1 (x1 , ..., xn )
und gθ1 ,θ2 monoton wachsend. Dann hat der Test
(
1 falls t (x1 , ..., xn ) > c
Ψ (x1 , ..., xn ) =
0 sonst
unter allen Tests für H : θ ≤ θ0 gegen A : θ > θ0 mit Niveau α̃ ≤ α = Pθ0 (Ψ (x1 , ..., xn ) = 1) für alle
θ > θ0 die größte Macht.
Beispiel 12.12
Bemerkung 12.13
In der Praxis istPσ 2 oft unbekannt. Idee: Schätzer σ̂ 2 für σ 2 einsetzen. Vorarbeit nötig: gemeinsame
Verteilung von
Xi und σ̂ 2 ?
Satz 12.14
Seien X1 , ..., Xn u.i. N µ, σ 2 -verteilt. Dann gilt für X =
1
n
P
Xi und σ̂ 2 =
1
n−1
P
Xi − X̂
2
Korollar 12.15
Beispiel 12.16
Bemerkung 12.17
Bemerkung 12.18 (Heuristisches Testprinzip)
Beispiel 12.19
Bemerkung 12.20
Der 2-Stichprobentest ist sehr wichtig in der Praxis. Vergleich zwischen “treatment group” und “control
group”.
Beispiel 12.21
Bemerkung 12.22
Test braucht gleiche Varianzen: unklar in der Praxis. Überprüfe dies mit weiterem Test.
49
30.01.15
Beispiel 12.23
Beispiel 12.24
Bemerkung 12.25
Satz 12.26 (Bonferroni-Korrektur)
50
Ab hier keine Klausurrelevanz!
Kapitel 13: Nichtparametrische statistische
Modelle
Bemerkung 13.1
Definition 13.2
Lemma 13.3
Satz 13.4 (Glivenko-Cantelli)
Satz 13.5
Beispiel 13.6 (Kolmogorov-Smirnov-Test)
Beispiel 13.7 (Cramér-von Mises-Test)
Bemerkung 13.8
Beispiel 13.9 (χ2 -Anpassungstest)
Bemerkung 13.10
Bemerkung 13.11 (χ2 -Test auf Klasse von Verteilungen)
Beispiel 13.12 (Test auf Unabhängigkeit)
51
03.02.15
Kapitel 14: ???
52