Stochastik (BA) Zusammenfassung der Vorlesung

Stochastik (BA)
Zusammenfassung der Vorlesung
Ulrich Horst
Institut für Mathematik
Humboldt-Universität zu Berlin
2
0
Allgemeine Orientierung
Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P)
1
Kombinatorik
Bei 2 (verschachtelten) Experimenten mit m ∈ N
und n ∈ N möglichen Ausgängen, lässt sich Ω als
m × n Matrix darstellen, deren Einträge die m · n
Versuchsausgänge repräsentieren.
• Assoziativgesetze:
(E ∪ F ) ∪ G = E ∪ (F ∪ G)
(E ∩ F ) ∩ G = E ∩ (F ∩ G)
• Distributivgesetze:
(E ∪ F ) ∩ G =
Sn(E ∩ G) ∪ (F ∩ G)Sn
also auch: ( i=1 Ei ) ∩ G =
i=1 (Ei ∩ G)
(E ∩ F ) ∪ G
=
(E
∪
G)
∩
(F
∪
G)
Tn
Tn
also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G)
• DeMorgansche Regeln:
Tn
Sn
c
(Si=1 Ei ) = Ti=1 Eic
c
n
n
( i=1 Ei ) = i=1 Eic
Wahrscheinlichkeitsaxiome: Die Anforderungen,
die an ein Wahrscheinlichkeitsmaß P gestellt werden
Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen:
mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ
i Realir
sierungen erlaubt, so ergeben sich insgesamt j=1 nj
• 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω
Versuchsausgänge.
• P(Ω) = 1
Permutationen: Die Möglichkeiten, n verschiedene
Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1
Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer
Grund n-elementigen
n!
menge zu erzeugen sind nr := (n−r)!·r!
• Für
jede
Folge
E1 , E2 , · · · ⊆ Ω gilt:
P
Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz:
n X
n k n−k
(x + y) =
x y
, ∀n ∈ N0
r
n
k=0
Anzahl der ganzzahligen Lösungen von Gleichungen:
n−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
n+r−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
• Es gibt n+r−1
Möglichkeiten, eine ungeordner
te Stichprobe der Länge r aus einer Menge vom
Umfang n zu bilden, wenn ‘mit Zurücklegen’
und ohne Berücksichtigung der Reihenfolge gezogen wird.
2
Wahrscheinlichkeitsaxiome
Rechenregeln für Mengen: Für Ereignisse E, F, G
und Ei , i = 1, . . . n gelten:
∞
[
paarweise
!
Ei
=
∞
X
disjunkter
P(Ei )
i=1
i=1
Diese Eigenschaft wird auch σ-Additivität genannt.
Proposition: Es gelten folgende Eigenschaften:
i) P(∅) = 0
ii) Für
jede
Folge
paarweise
disjunkter
E1 , E2 , . . . , En ⊆ Ω gilt:
!
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E)
iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F )
v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+
P(F ) − P(E ∩ F )
vi) Für Ereignisse E1 , E2 , . . . , En gilt:
P(E1 ∪· · ·∪En ) =
n
X
i=1
X
i1 <i2 <i3
P(Ei )−
X
P(Ei1 ∩Ei2 )+
i1 <i2
P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En )
3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT
Laplace-Experimente: Auf einem endlichen
Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt
wegen σ-Additivität:
1
,
N
3
Hüte aus, die nicht die eigenen
sind. Es ergeN
ben sich im ersten
Schritt
und im zweiten
k
1
1
+ 3!
− . . . (−1)N +1 N1 ! )
Schritt (N − k)! 1 − (1 − 2!
Möglichkeiten. Damit ist
|F |
P(F ) =
|Ω|
N
1
1
N +1 1
Dann gilt für ein Ereignis E ⊂ Ω:
k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1)
N! )
=
N!
X
|E|
P(E) =
P({i}) =
1
1
1
1
|Ω|
=
1 − (1 − + − . . . (−1)N +1 )
i∈E
k!
2! 3!
N!
1
Hier bedeutet |E| die Mächtigkeit von E.
≈ e−1
k!
Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren
nen werden gemischt und jeder zieht zufällig einen.
die Poissonverteilung zum Parameter λ = 1, die wir
Wie groß ist die Wahrscheinlichkeit, dass
später kennenlernen werden.
a) keiner der Besucher seinen eigenen Hut erhält?
b) genau k Besucher ihre eigenen Hüte erhalten?
P({i}) =
1 ≤ i ≤ N.
L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6=
k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j
(seinen eigenen) werde dann beschrieben durch Ej =
{(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird
c
) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe
P(E1c ∩ · · · ∩ EN
der Formel aus Prop. vi). Für n ≤ N seien gegeben
1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn =
{(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit
|E ∩···∩E |
P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)!
!
Mit Prop. vi) folgt dann,
P(
N
[
Ei ) = N ·
i=1
(N − 1)!
N!
(N − 2)!
N!
(N − 3)!
+ |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| ·
N!
N +1 1
− · · · + (−1)
N!
N
N
(N − 2)!
(N − 3)!
=1−
·
+
·
2
N!
3
N!
1
− · · · + (−1)N +1
N!
1
1
1
= 1 − (1 − + − . . . (−1)N +1 )
2! 3!
N!
≈ e−1
− |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| ·
für N groß.
b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte
In Schritt 1 wählen wir k Personen aus, die
ihre eigenen Hüte bekommen und in Schritt 2
wählen wir für die restlichen N − k Personen
3
Bedingte Wahrscheinlichkeit
und Unabhängigkeit
Für Ereignisse E, F gilt:
P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c )
Proposition: Seien S
E1 , . . . , En paarweise disjunkte
n
Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes:
i)
P(E) = P(
n
[
(E ∩ Ei )) =
n
X
i=1
=
n
X
P(E ∩ Ei )
i=1
P(E|Ei ) · P(Ei )
i=1
ii) aus i) folgt für 1 ≤ j ≤ n:
P(E|Ej ) · P(Ej )
P(Ej |E) = Pn
i=1 P(E|Ei ) · P(Ei )
Die Ereignisse E und F heißen unabhängig, falls gilt
P(E|F ) = P(E).
Dies ist äquivalent zur folgenden Definition.
Definition (Unabhängigkeit) Die Ereignisse E und
F heißen unabhängig, falls gilt
P(E ∩ F ) = P(E) · P(F ).
Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c .
Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig:
4
• E : Augensumme ist 7
Dies lässt sich auf Folgen von n bzw. unendlich vielen
Versuchen verallgemeinern. Dabei gilt immer: sind
(Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur
von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw.
(Ei )i∈N unabhängig.
• F : der erste Wurf ergibt 4
• G : der zweite Wurf ergibt 3
L:
Beispiel: Eine unendliche Folge von Versuchen
wird durchgeführt. Jeder Versuch hat zwei mögliche
F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)},
Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für
G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)}
eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und
keit, dass
P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen
abhängig von F ∩ G, denn P(E|F ∩ G) = 1.
erzielt wird?
Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)},
se.
i) E1 , . . . , En sind unabhängig, wenn für jedes
r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt:
P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) =
r
Y
P(Eij )
j=1
ii) (Ei )i∈N heißen unabhängig, falls für jedes
endliche S ⊂ N gilt:
\
Y
P(
Ei ) =
P(Ei )
i∈S
i∈S
Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen
wir Versuche. Ω1 = Ω2 seien endliche Grundräume
von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N }
an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment,
Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für
E ⊂ Ω1 × Ω2 setzen wir
X
P(E) =
P1 ({i}) · P2 ({j})
b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n).
L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”.
Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis
n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein
Erfolg in den Versuchen 1 bis n.” Also gilt
P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc )
n
Y
P(Eic ) = 1 − (1 − p)n
=1−
i=1
b): T
Sei T ⊂ {1, . T
. . , n} mit |T | = k gegeben. Betrachc
te ( i∈T Ei ) ∩ ( i∈T
/ Ei ) : Erfolg in den Versuchen
i ∈ T , Misserfolg in den anderen. Dann gilt wegen
Unabhängigkeit
P((
\
Ei ) ∩ (
i∈T
(i,j)∈E
\
Eic )) =
Y
i∈T
i∈T
/
k
P(Ei ) ·
Y
P(Eic )
i∈T
/
n−k
= p (1 − p)
Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2
abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2
wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n
Versuchen”. Dann ist
Unabhängigkeit von E1 und E2
P(E1 ∩ E2 ) = P(F1 × F2 )
X
=
P1 ({i}) · P2 ({j})
E=
[
[(
\
T ⊂{1,...,n},|T |=k i∈T
Ei ) ∩ (
\
Eic )].
i∈T
/
(i,j)∈F1 ×F2
X
=
P1 ({i}) · P2 ({k})
Also:
(i,k)∈F1 ×Ω2
·
X
P1 ({k}) · P2 ({j})
(k,j)∈Ω1 ×F2
= P(E1 ) · P(E2 )
P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k
n
=
· pk (1 − p)n−k .
k
4. ZUFALLSVARIABLEN
4
5
Zufallsvariablen
Damit folgt für n ∈ N :
Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung
n n
N
N −2
N −1
−
+ ...
N
2
N
n
N
0
+ (−1)N −1
N
N
n
N
−1
X
N
N −i
.
=
(−1)i+1
N
i
i=1
P(T > n) = N
X : Ω → Rn ,
wobei wir Rn mit der Borel-σ-algebra versehen. Die
Definition von Messbarkeit erfordert, dass F selbst
eine σ-algebra ist. Wir ignorieren dieses technische
(aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver
Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit
pX (xi ) := p(xi ) = P(X = xi )
4.1
Erwartungswert und Varianz
Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion
p ist definiert durch:
die Verteilung oder Massenfunktion von X.
X
E(X) =
x · p(x),
Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0
pons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch
erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h.
N Coupons. Sei T die Anzahl von Coupons, die nötig
X
sind, bis man einen kompletten Satz aller N besitzt.
|x| · p(x) < ∞.
Wir suchen die Verteilung von T , d.h.
x:p(x)>0
P(T = n) = pT (n), n ≥ 1
Beispiel: Für ein Ereignis A sei 1A : Ω −→ R
L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T >
n − 1) − P(T > n) zu nutzen. Sei dazu
Aj : kein j-Coupon in den ersten n Zügen.
Dann gilt,
{T > n} =
N
[
(
1,
ω−
7 →
0,
ω ∈ A,
ω∈
/A
die Indikatorfunktion von A. Es gilt p1A (0) = 1 −
P(A), p1A (1) = P(A), und damit
E(1A ) = 1 · P(A) = P(A).
Aj
j=1
Propositon: Sei X eine ZV mit Werten {xi }i∈N und
Verteilung pX . Sei g : R −→ R eine Funktion. Dann
gilt:
∞
X
E(g(X)) =
g(xi )p(xi ),
also nach dem Additionstheorem
P(T > N )
= P(
N
[
Aj )
j=1
=
N
X
P(Aj ) −
j=1
i=1
X
P(Aj1 ∩ Aj2 ) + . . .
j1 <j2
N +1
. . . + (−1)
P(A1 ∩ · · · ∩ An )
∞
X
|g(xi )|p(xi ) < ∞.
i=1
Nun gilt für 1 ≤ j ≤ N :
P(Aj ) =
falls
N −1
N
n
.
Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N :
n
N −k
P(Aj1 ∩ · · · ∩ Ajk ) =
.
N
Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt
i) E(aX + b) = aE(X) + b
ii) E(X + Y ) = E(X) + E(Y )
6
Definition: Sei X einePZV mit Massenfunktion
n
p, n ∈ N, und es gelte
x:p(x)<0 |x| · p(x) < ∞.
Dann heißt
X
E(|X|n ) =
|x|n · p(x)
Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter
ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0:
x:p(x)>0
lim pXn (k) =
n→∞
das n-te Moment von X.
Definition: Sei X eine diskrete ZV mit E(X) = µ.
Dann heißt
λk −λ
e
k!
sofern
lim npn = λ.
n→∞
Die Poisson Verteilung findet als Approximation der
Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert
die Varianz von X. Durch Anwenden der Definition
und Varianz einer Poisson-verteilten ZV X gilt:
des Erwartungswertes erhält man
E(X) = λ und V ar(X) = λ
V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 .
Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben
existierender Varianz. Dann gilt
X ∼ G(p),
V ar(aX + b) = a2 V ar(X)
so ist seine Massenfunktion gegeben durch
V ar(X) = E([X − µ]2 )
4.2
pX (n) = (1 − p)n−1 · p.
Spezielle diskrete Verteilungen
Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch
p: die Massenfunktion ist gegeben durch
(1 − p)
1
E(X) = und V ar(X) =
n i
p
p2
pX (i) =
p (1 − p)n−i , 0 ≤ i ≤ n
i
Die geometrische Verteilung beschreibt die Wartezeit
Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments.
(n, p) hat den Erwartungswert
E(X) = np
und die Varianz
V ar(X) = np(1 − p).
Wir schreiben für eine solche ZV
X ∼ B(n, p).
Negative Binomialverteilung: Eine ZV X heißt
negativ binomialverteilt mit Parametern (r, p), wenn
r
n−r n − 1
,n ≥ r
pX (n) = p (1 − p)
r−1
Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch
r
r(1 − p)
E(X) = und V ar(X) =
Hierbei steht B(n, p) für binominalverteilt zu den
p
p
Parametern (n, p). Die Binomialverteilung schreibt
die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X
heißt hypergeometrisch verteilt zu den Parametern
holungen des gleiches Experiments.
(n, N, m), wenn
Poissonverteilung: Die Massenfunktion einer
N −m
m
Poisson-verteilten ZV X zum Parameter λ > 0 ist
i · n−i
pX (i) =
gegeben durch
N
n
λk −λ
e , k ≥ 0.
pX (k) =
k!
Wir schreiben in diesem Fall
X ∼ π(λ).
Erwartungswert und Varianz einer hypergeometrisch
verteilten ZV X mit Parametern (n, N, m) sind gegeben durch
E(X) = n
m
m
m N −n
und V ar(X) = n (1 − )
N
N
n N −1
5. ABSOLUTSTETIGE VERTEILUNGEN
Eigenschaften von Verteilungsfunktionen: Sei
X eine diskrete ZV. Die Funktion
7
n
k−
Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann:
4
r
pn (k)
n
lim
max − 1 = 0
n→∞ k:|xn (k)|≤c ϕ(xn (k))
4
F (x) := P(X ≤ x), x ∈ R
heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt:
i) F ist monoton wachsend, d.h. F (a) ≤ F (b),
falls a ≤ b
ii) lim F (b) = 1
b→∞
iii)
Als unmittelbare Folgerung erhalten wir, dass die
Verteilungen der standardisierten Variablen Xn∗ mit
n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten:
Korollar: Für a, b ∈ R, a < b, gilt
lim F (b) = 0
Zb
b→−∞
lim P(a ≤
iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b.
n→∞
Xn∗
≤ b) =
ϕ(x)dx
a
5
Absolutstetige Verteilungen
5.1
Approximation der Binomialverteilung
Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt
E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ).
Gilt npn → λ < ∞, so kann die Binomialverteilung
für grosse n durch die Poissonverteilung approximiert
werden:
B(n, pn ) ≈ π(λ),
Definition: Eine ZV X heißt absolutstetig verteilt
mit Dichte
f : R → R+ (f Riemann-integrierbar),
R
falls f (t)dt = 1 und
R
Z
P(X ∈ B) =
Z
f (t)dt =
B
1B (t)f (t)dt
R
für alle (Borel messbaren) Mengen B gilt. Die Funktion
Zx
F : R → [0, 1], x 7−→ P(X ≤ x) =
f (t)dt
−∞
d.h. für kleine p approximieren wir B(n, p) durch heißt dann Verteilungsfunktion von X. Insbesondere
gilt
π(λ). Ist pn ≡ p, so gilt
Z ∞
1 − F (x) =
f (t)dt.
E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞.
x
In diesem Fall müssen wir Xn standardisieren. Dazu
definieren wir für n ∈ N:
Xn − E(Xn )
Xn − np
Xn∗ := p
=p
V ar(Xn )
np(1 − p)
Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit
k − np
P(Xn = k) = P Xn∗ =
=: pn (k)
np(1 − p)
anzunähern. Dazu betrachten wir nun den Fall p =
0.5, d.h.
1
Xn ∼ B(n, ).
2
Satz von de Moivre/Laplace: Sei c > 0. Sei
−x2
1
ϕ(x) = √ · e 2 ,
2π
x ∈ R.