Stochastik (BA) Zusammenfassung der Vorlesung

Stochastik (BA)
Zusammenfassung der Vorlesung
Ulrich Horst
Institut für Mathematik
Humboldt-Universität zu Berlin
2
0
Allgemeine Orientierung
Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P)
1
Kombinatorik
Bei 2 (verschachtelten) Experimenten mit m ∈ N
und n ∈ N möglichen Ausgängen, lässt sich Ω als
m × n Matrix darstellen, deren Einträge die m · n
Versuchsausgänge repräsentieren.
• Assoziativgesetze:
(E ∪ F ) ∪ G = E ∪ (F ∪ G)
(E ∩ F ) ∩ G = E ∩ (F ∩ G)
• Distributivgesetze:
(E ∪ F ) ∩ G =
Sn(E ∩ G) ∪ (F ∩ G)Sn
also auch: ( i=1 Ei ) ∩ G =
i=1 (Ei ∩ G)
(E ∩ F ) ∪ G
=
(E
∪
G)
∩
(F
∪
G)
Tn
Tn
also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G)
• DeMorgansche Regeln:
Tn
Sn
c
(Si=1 Ei ) = Ti=1 Eic
c
n
n
( i=1 Ei ) = i=1 Eic
Wahrscheinlichkeitsaxiome: Die Anforderungen,
die an ein Wahrscheinlichkeitsmaß P gestellt werden
Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen:
mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ
i Realir
sierungen erlaubt, so ergeben sich insgesamt j=1 nj
• 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω
Versuchsausgänge.
• P(Ω) = 1
Permutationen: Die Möglichkeiten, n verschiedene
Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1
Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer
Grund n-elementigen
n!
menge zu erzeugen sind nr := (n−r)!·r!
• Für
jede
Folge
E1 , E2 , · · · ⊆ Ω gilt:
P
Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz:
n X
n k n−k
(x + y) =
x y
, ∀n ∈ N0
r
n
k=0
Anzahl der ganzzahligen Lösungen von Gleichungen:
n−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
n+r−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
• Es gibt n+r−1
Möglichkeiten, eine ungeordner
te Stichprobe der Länge r aus einer Menge vom
Umfang n zu bilden, wenn ‘mit Zurücklegen’
und ohne Berücksichtigung der Reihenfolge gezogen wird.
2
Wahrscheinlichkeitsaxiome
Rechenregeln für Mengen: Für Ereignisse E, F, G
und Ei , i = 1, . . . n gelten:
∞
[
paarweise
!
Ei
=
∞
X
disjunkter
P(Ei )
i=1
i=1
Diese Eigenschaft wird auch σ-Additivität genannt.
Proposition: Es gelten folgende Eigenschaften:
i) P(∅) = 0
ii) Für
jede
Folge
paarweise
disjunkter
E1 , E2 , . . . , En ⊆ Ω gilt:
!
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E)
iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F )
v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+
P(F ) − P(E ∩ F )
vi) Für Ereignisse E1 , E2 , . . . , En gilt:
P(E1 ∪· · ·∪En ) =
n
X
i=1
X
i1 <i2 <i3
P(Ei )−
X
P(Ei1 ∩Ei2 )+
i1 <i2
P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En )
3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT
Laplace-Experimente: Auf einem endlichen
Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt
wegen σ-Additivität:
1
,
N
3
Hüte aus, die nicht die eigenen
sind. Es ergeN
ben sich im ersten
Schritt
und im zweiten
k
1
1
+ 3!
− . . . (−1)N +1 N1 ! )
Schritt (N − k)! 1 − (1 − 2!
Möglichkeiten. Damit ist
|F |
P(F ) =
|Ω|
N
1
1
N +1 1
Dann gilt für ein Ereignis E ⊂ Ω:
k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1)
N! )
=
N!
X
|E|
P(E) =
P({i}) =
1
1
1
1
|Ω|
=
1 − (1 − + − . . . (−1)N +1 )
i∈E
k!
2! 3!
N!
1
Hier bedeutet |E| die Mächtigkeit von E.
≈ e−1
k!
Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren
nen werden gemischt und jeder zieht zufällig einen.
die Poissonverteilung zum Parameter λ = 1, die wir
Wie groß ist die Wahrscheinlichkeit, dass
später kennenlernen werden.
a) keiner der Besucher seinen eigenen Hut erhält?
b) genau k Besucher ihre eigenen Hüte erhalten?
P({i}) =
1 ≤ i ≤ N.
L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6=
k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j
(seinen eigenen) werde dann beschrieben durch Ej =
{(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird
c
) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe
P(E1c ∩ · · · ∩ EN
der Formel aus Prop. vi). Für n ≤ N seien gegeben
1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn =
{(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit
|E ∩···∩E |
P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)!
!
Mit Prop. vi) folgt dann,
P(
N
[
Ei ) = N ·
i=1
(N − 1)!
N!
(N − 2)!
N!
(N − 3)!
+ |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| ·
N!
N +1 1
− · · · + (−1)
N!
N
N
(N − 2)!
(N − 3)!
=1−
·
+
·
2
N!
3
N!
1
− · · · + (−1)N +1
N!
1
1
1
= 1 − (1 − + − . . . (−1)N +1 )
2! 3!
N!
≈ e−1
− |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| ·
für N groß.
b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte
In Schritt 1 wählen wir k Personen aus, die
ihre eigenen Hüte bekommen und in Schritt 2
wählen wir für die restlichen N − k Personen
3
Bedingte Wahrscheinlichkeit
und Unabhängigkeit
Für Ereignisse E, F gilt:
P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c )
Proposition: Seien S
E1 , . . . , En paarweise disjunkte
n
Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes:
i)
P(E) = P(
n
[
(E ∩ Ei )) =
n
X
i=1
=
n
X
P(E ∪ Ei )
i=1
P(E|Ei ) · P(Ei )
i=1
ii) aus i) folgt für 1 ≤ j ≤ n:
P(E|Ej ) · P(Ej )
P(Ej |E) = Pn
i=1 P(E|Ei ) · P(Ei )
Die Ereignisse E und F heißen unabhängig, falls gilt
P(E|F ) = P(E).
Dies ist äquivalent zur folgenden Definition.
Definition (Unabhängigkeit) Die Ereignisse E und
F heißen unabhängig, falls gilt
P(E ∩ F ) = P(E) · P(F ).
Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c .
Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig:
4
• E : Augensumme ist 7
Dies lässt sich auf Folgen von n bzw. unendlich vielen
Versuchen verallgemeinern. Dabei gilt immer: sind
(Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur
von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw.
(Ei )i∈N unabhängig.
• F : der erste Wurf ergibt 4
• G : der zweite Wurf ergibt 3
L:
Beispiel: Eine unendliche Folge von Versuchen
wird durchgeführt. Jeder Versuch hat zwei mögliche
F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)},
Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für
G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)}
eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und
keit, dass
P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen
abhängig von F ∩ G, denn P(E|F ∩ G) = 1.
erzielt wird?
Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)},
se.
i) E1 , . . . , En sind unabhängig, wenn für jedes
r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt:
P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) =
r
Y
P(Eij )
j=1
ii) (Ei )i∈N heißen unabhängig, falls für jedes
endliche S ⊂ N gilt:
\
Y
P(
Ei ) =
P(Ei )
i∈S
i∈S
Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen
wir Versuche. Ω1 = Ω2 seien endliche Grundräume
von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N }
an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment,
Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für
E ⊂ Ω1 × Ω2 setzen wir
X
P(E) =
P1 ({i}) · P2 ({j})
b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n).
L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”.
Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis
n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein
Erfolg in den Versuchen 1 bis n.” Also gilt
P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc )
n
Y
P(Eic ) = 1 − (1 − p)n
=1−
i=1
b): T
Sei T ⊂ {1, . T
. . , n} mit |T | = k gegeben. Betrachc
te ( i∈T Ei ) ∩ ( i∈T
/ Ei ) : Erfolg in den Versuchen
i ∈ T , Misserfolg in den anderen. Dann gilt wegen
Unabhängigkeit
P((
\
Ei ) ∩ (
i∈T
(i,j)∈E
\
Eic )) =
Y
i∈T
i∈T
/
k
P(Ei ) ·
Y
P(Eic )
i∈T
/
n−k
= p (1 − p)
Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2
abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2
wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n
Versuchen”. Dann ist
Unabhängigkeit von E1 und E2
P(E1 ∩ E2 ) = P(F1 × F2 )
X
=
P1 ({i}) · P2 ({j})
E=
[
[(
\
T ⊂{1,...,n},|T |=k i∈T
Ei ) ∩ (
\
Eic )].
i∈T
/
(i,j)∈F1 ×F2
X
=
P1 ({i}) · P2 ({k})
Also:
(i,k)∈F1 ×Ω2
·
X
P1 ({k}) · P2 ({j})
(k,j)∈Ω1 ×F2
= P(E1 ) · P(E2 )
P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k
n
=
· pk (1 − p)n−k .
k
4. ZUFALLSVARIABLEN
4
5
Zufallsvariablen
Damit folgt für n ∈ N :
n n
N
N −2
N −1
Eine Zufallsvariable auf einem Wahrscheinlichkeits−
+ ...
P(T > n) = N
raum (Ω, F, P) ist eine (messbare) Abbildung
2
N
N
n
N
0
X : Ω → Rn ,
+ (−1)N −1
N
N
n
wobei wir Rn mit der Borel-σ-algebra versehen. Die
N
−1
X
N
N −i
i+1
Definition on Messbarkeit erfordert, dass F selbst
.
=
(−1)
N
i
eine σ-algebra ist. Wir ignorieren dieses technische
i=1
(aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver Definition: Der Erwartungswert einer diskreten ZuWahrscheinlichkeit annehmen, heißen diskret. In die- fallsvariable X mit Werten in R und Massenfunktion
p ist definiert durch:
sem Fall bezeichnen wir mit
X
E(X) =
x · p(x),
pX (xi ) := p(xi ) = P(X = xi )
x:p(x)<0
die Verteilung oder Massenfunktion von X.
Beispiel: Es gebe N verschiedene Arten von Cou- sofern diese Reihe wohldefiniert ist, d.h.
X
pons, die wir (unabhängig von den vorhergehenden
|x| · p(x) < ∞.
Versuchen) beliebig oft erhalten. Bei jedem Versuch
x:p(x)<0
erhalten wir mit gleicher Wahrscheinlichkeit einen der
N Coupons. Sei T die Anzahl von Coupons, die nötig
Beispiel: Für ein Ereignis A sei 1A : Ω −→ R
sind, bis man einen kompletten Satz aller N besitzt.
(
Wir suchen die Verteilung von T , d.h.
1, ω ∈ A,
ω 7−→
0, ω ∈
/A
P(T = n) = pT (n), n ≥ 1
L: Es ist einfacher, P(T > n) für n ∈ N zu be- die Indikatorfunktion von A. Es gilt p1 (0) = 1 −
A
rechnen und dann die Formel P(T = n) = P(T > P(A), p1 (1) = P(A), und damit
A
n − 1) − P(T > n) zu nutzen. Sei dazu
E(1A ) = 1 · P(A) = P(A).
Aj : kein j-Coupon in den ersten n Zügen, .
Propositon: Sei X eine ZV mit Werten {xi }i∈N und
Dann gilt,
Verteilung pX . Sei g : R −→ R eine Funktion. Dann
N
[
gilt:
{T > n} =
Aj
∞
X
j=1
g(xi )p(xi ),
E(g(X)) =
also nach dem Additionstheorem
i=1
P(T > N )
= P(
N
[
falls
Aj )
∞
X
j=1
=
N
X
|g(xi )|p(xi ) < ∞.
i=1
P(Aj ) −
j=1
X
P(Aj1 ∩ Aj2 ) + . . .
j1 <j2
. . . + (−1)N +1 P(A1 ∩ · · · ∩ An )
Nun gilt für 1 ≤ j ≤ N :
P(Aj ) =
N −1
N
n
.
Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N :
n
N −k
P(Aj1 ∩ · · · ∩ Ajk ) =
.
N
Korollar: Seien a, b ∈ R, X eine ZV mit Massenfunktion p und existierendem Erwartungswert. Dann
gilt
E(aX + b) = aE(X) + b.
Definition: Sei X einePZV mit Massenfunktion
n
p, n ∈ N, und es gelte
x:p(x)<0 |x| · p(x) < ∞.
Dann heißt
X
E(X n ) =
xn · p(x)
x:p(x)<0
das n-te Moment von X.
6
Definition: Sei X eine diskrete ZV mit E(X) = µ.
Dann heißt
V ar(X) = E([X − µ]2 )
die Varianz von X. Durch Anwenden der Definition
des Erwartungswertes erhält man
V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 .