Stochastik (BA) Zusammenfassung der Vorlesung

Stochastik (BA)
Zusammenfassung der Vorlesung
Ulrich Horst
Institut für Mathematik
Humboldt-Universität zu Berlin
2
0
Allgemeine Orientierung
Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P)
1
Kombinatorik
Bei 2 (verschachtelten) Experimenten mit m ∈ N
und n ∈ N möglichen Ausgängen, lässt sich Ω als
m × n Matrix darstellen, deren Einträge die m · n
Versuchsausgänge repräsentieren.
• Assoziativgesetze:
(E ∪ F ) ∪ G = E ∪ (F ∪ G)
(E ∩ F ) ∩ G = E ∩ (F ∩ G)
• Distributivgesetze:
(E ∪ F ) ∩ G =
Sn(E ∩ G) ∪ (F ∩ G)Sn
also auch: ( i=1 Ei ) ∩ G =
i=1 (Ei ∩ G)
(E ∩ F ) ∪ G
=
(E
∪
G)
∩
(F
∪
G)
Tn
Tn
also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G)
• DeMorgansche Regeln:
Tn
Sn
c
(Si=1 Ei ) = Ti=1 Eic
c
n
n
( i=1 Ei ) = i=1 Eic
Wahrscheinlichkeitsaxiome: Die Anforderungen,
die an ein Wahrscheinlichkeitsmaß P gestellt werden
Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen:
mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ
i Realir
sierungen erlaubt, so ergeben sich insgesamt j=1 nj
• 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω
Versuchsausgänge.
• P(Ω) = 1
Permutationen: Die Möglichkeiten, n verschiedene
Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1
Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer
Grund n-elementigen
n!
menge zu erzeugen sind nr := (n−r)!·r!
• Für
jede
Folge
E1 , E2 , · · · ⊆ Ω gilt:
P
Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz:
n X
n k n−k
(x + y) =
x y
, ∀n ∈ N0
r
n
k=0
Anzahl der ganzzahligen Lösungen von Gleichungen:
n−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
n+r−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
• Es gibt n+r−1
Möglichkeiten, eine ungeordner
te Stichprobe der Länge r aus einer Menge vom
Umfang n zu bilden, wenn ‘mit Zurücklegen’
und ohne Berücksichtigung der Reihenfolge gezogen wird.
2
Wahrscheinlichkeitsaxiome
Rechenregeln für Mengen: Für Ereignisse E, F, G
und Ei , i = 1, . . . n gelten:
∞
[
paarweise
!
Ei
=
∞
X
disjunkter
P(Ei )
i=1
i=1
Diese Eigenschaft wird auch σ-Additivität genannt.
Proposition: Es gelten folgende Eigenschaften:
i) P(∅) = 0
ii) Für
jede
Folge
paarweise
disjunkter
E1 , E2 , . . . , En ⊆ Ω gilt:
!
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E)
iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F )
v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+
P(F ) − P(E ∩ F )
vi) Für Ereignisse E1 , E2 , . . . , En gilt:
P(E1 ∪· · ·∪En ) =
n
X
i=1
X
i1 <i2 <i3
P(Ei )−
X
P(Ei1 ∩Ei2 )+
i1 <i2
P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En )
3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT
Laplace-Experimente: Auf einem endlichen
Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt
wegen σ-Additivität:
1
,
N
3
Hüte aus, die nicht die eigenen
sind. Es ergeN
ben sich im ersten
Schritt
und im zweiten
k
1
1
+ 3!
− . . . (−1)N +1 N1 ! )
Schritt (N − k)! 1 − (1 − 2!
Möglichkeiten. Damit ist
|F |
P(F ) =
|Ω|
N
1
1
N +1 1
Dann gilt für ein Ereignis E ⊂ Ω:
k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1)
N! )
=
N!
X
|E|
P(E) =
P({i}) =
1
1
1
1
|Ω|
=
1 − (1 − + − . . . (−1)N +1 )
i∈E
k!
2! 3!
N!
1
Hier bedeutet |E| die Mächtigkeit von E.
≈ e−1
k!
Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren
nen werden gemischt und jeder zieht zufällig einen.
die Poissonverteilung zum Parameter λ = 1, die wir
Wie groß ist die Wahrscheinlichkeit, dass
später kennenlernen werden.
a) keiner der Besucher seinen eigenen Hut erhält?
b) genau k Besucher ihre eigenen Hüte erhalten?
P({i}) =
1 ≤ i ≤ N.
L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6=
k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j
(seinen eigenen) werde dann beschrieben durch Ej =
{(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird
c
) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe
P(E1c ∩ · · · ∩ EN
der Formel aus Prop. vi). Für n ≤ N seien gegeben
1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn =
{(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit
|E ∩···∩E |
P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)!
!
Mit Prop. vi) folgt dann,
P(
N
[
Ei ) = N ·
i=1
(N − 1)!
N!
(N − 2)!
N!
(N − 3)!
+ |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| ·
N!
N +1 1
− · · · + (−1)
N!
N
N
(N − 2)!
(N − 3)!
=1−
·
+
·
2
N!
3
N!
1
− · · · + (−1)N +1
N!
1
1
1
= 1 − (1 − + − . . . (−1)N +1 )
2! 3!
N!
≈ e−1
− |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| ·
für N groß.
b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte
In Schritt 1 wählen wir k Personen aus, die
ihre eigenen Hüte bekommen und in Schritt 2
wählen wir für die restlichen N − k Personen
3
Bedingte Wahrscheinlichkeit
und Unabhängigkeit
Für Ereignisse E, F gilt:
P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c )
Proposition: Seien S
E1 , . . . , En paarweise disjunkte
n
Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes:
i)
P(E) = P(
n
[
(E ∩ Ei )) =
n
X
i=1
=
n
X
P(E ∩ Ei )
i=1
P(E|Ei ) · P(Ei )
i=1
ii) aus i) folgt für 1 ≤ j ≤ n:
P(E|Ej ) · P(Ej )
P(Ej |E) = Pn
i=1 P(E|Ei ) · P(Ei )
Die Ereignisse E und F heißen unabhängig, falls gilt
P(E|F ) = P(E).
Dies ist äquivalent zur folgenden Definition.
Definition (Unabhängigkeit) Die Ereignisse E und
F heißen unabhängig, falls gilt
P(E ∩ F ) = P(E) · P(F ).
Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c .
Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig:
4
• E : Augensumme ist 7
Dies lässt sich auf Folgen von n bzw. unendlich vielen
Versuchen verallgemeinern. Dabei gilt immer: sind
(Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur
von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw.
(Ei )i∈N unabhängig.
• F : der erste Wurf ergibt 4
• G : der zweite Wurf ergibt 3
L:
Beispiel: Eine unendliche Folge von Versuchen
wird durchgeführt. Jeder Versuch hat zwei mögliche
F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)},
Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für
G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)}
eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und
keit, dass
P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen
abhängig von F ∩ G, denn P(E|F ∩ G) = 1.
erzielt wird?
Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)},
se.
i) E1 , . . . , En sind unabhängig, wenn für jedes
r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt:
P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) =
r
Y
P(Eij )
j=1
ii) (Ei )i∈N heißen unabhängig, falls für jedes
endliche S ⊂ N gilt:
\
Y
P(
Ei ) =
P(Ei )
i∈S
i∈S
Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen
wir Versuche. Ω1 = Ω2 seien endliche Grundräume
von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N }
an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment,
Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für
E ⊂ Ω1 × Ω2 setzen wir
X
P(E) =
P1 ({i}) · P2 ({j})
b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n).
L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”.
Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis
n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein
Erfolg in den Versuchen 1 bis n.” Also gilt
P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc )
n
Y
P(Eic ) = 1 − (1 − p)n
=1−
i=1
b): T
Sei T ⊂ {1, . T
. . , n} mit |T | = k gegeben. Betrachc
te ( i∈T Ei ) ∩ ( i∈T
/ Ei ) : Erfolg in den Versuchen
i ∈ T , Misserfolg in den anderen. Dann gilt wegen
Unabhängigkeit
P((
\
Ei ) ∩ (
i∈T
(i,j)∈E
\
Eic )) =
Y
i∈T
i∈T
/
k
P(Ei ) ·
Y
P(Eic )
i∈T
/
n−k
= p (1 − p)
Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2
abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2
wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n
Versuchen”. Dann ist
Unabhängigkeit von E1 und E2
P(E1 ∩ E2 ) = P(F1 × F2 )
X
=
P1 ({i}) · P2 ({j})
E=
[
[(
\
T ⊂{1,...,n},|T |=k i∈T
Ei ) ∩ (
\
Eic )].
i∈T
/
(i,j)∈F1 ×F2
X
=
P1 ({i}) · P2 ({k})
Also:
(i,k)∈F1 ×Ω2
·
X
P1 ({k}) · P2 ({j})
(k,j)∈Ω1 ×F2
= P(E1 ) · P(E2 )
P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k
n
=
· pk (1 − p)n−k .
k
4. ZUFALLSVARIABLEN
4
5
Zufallsvariablen
Damit folgt für n ∈ N :
Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung
n n
N
N −2
N −1
−
+ ...
N
2
N
n
N
0
+ (−1)N −1
N
N
n
N
−1
X
N
N −i
.
=
(−1)i+1
N
i
i=1
P(T > n) = N
X : Ω → Rn ,
wobei wir Rn mit der Borel-σ-algebra versehen. Die
Definition von Messbarkeit erfordert, dass F selbst
eine σ-algebra ist. Wir ignorieren dieses technische
(aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver
Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit
pX (xi ) := p(xi ) = P(X = xi )
4.1
Erwartungswert und Varianz
Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion
p ist definiert durch:
die Verteilung oder Massenfunktion von X.
X
E(X) =
x · p(x),
Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0
pons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch
erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h.
N Coupons. Sei T die Anzahl von Coupons, die nötig
X
sind, bis man einen kompletten Satz aller N besitzt.
|x| · p(x) < ∞.
Wir suchen die Verteilung von T , d.h.
x:p(x)>0
P(T = n) = pT (n), n ≥ 1
Beispiel: Für ein Ereignis A sei 1A : Ω −→ R
L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T >
n − 1) − P(T > n) zu nutzen. Sei dazu
Aj : kein j-Coupon in den ersten n Zügen.
Dann gilt,
{T > n} =
N
[
(
1,
ω−
7 →
0,
ω ∈ A,
ω∈
/A
die Indikatorfunktion von A. Es gilt p1A (0) = 1 −
P(A), p1A (1) = P(A), und damit
E(1A ) = 1 · P(A) = P(A).
Aj
j=1
Propositon: Sei X eine ZV mit Werten {xi }i∈N und
Verteilung pX . Sei g : R −→ R eine Funktion. Dann
gilt:
∞
X
E(g(X)) =
g(xi )p(xi ),
also nach dem Additionstheorem
P(T > N )
= P(
N
[
Aj )
j=1
=
N
X
P(Aj ) −
j=1
i=1
X
P(Aj1 ∩ Aj2 ) + . . .
j1 <j2
N +1
. . . + (−1)
P(A1 ∩ · · · ∩ An )
∞
X
|g(xi )|p(xi ) < ∞.
i=1
Nun gilt für 1 ≤ j ≤ N :
P(Aj ) =
falls
N −1
N
n
.
Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N :
n
N −k
P(Aj1 ∩ · · · ∩ Ajk ) =
.
N
Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt
i) E(aX + b) = aE(X) + b
ii) E(X + Y ) = E(X) + E(Y )
6
Definition: Sei X einePZV mit Massenfunktion
n
p, n ∈ N, und es gelte
x:p(x)<0 |x| · p(x) < ∞.
Dann heißt
X
E(|X|n ) =
|x|n · p(x)
Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter
ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0:
x:p(x)>0
lim pXn (k) =
n→∞
das n-te Moment von X.
Definition: Sei X eine diskrete ZV mit E(X) = µ.
Dann heißt
λk −λ
e
k!
sofern
lim npn = λ.
n→∞
Die Poisson Verteilung findet als Approximation der
Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert
die Varianz von X. Durch Anwenden der Definition
und Varianz einer Poisson-verteilten ZV X gilt:
des Erwartungswertes erhält man
E(X) = λ und V ar(X) = λ
V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 .
Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben
existierender Varianz. Dann gilt
X ∼ G(p),
V ar(aX + b) = a2 V ar(X)
so ist seine Massenfunktion gegeben durch
V ar(X) = E([X − µ]2 )
4.2
pX (n) = (1 − p)n−1 · p.
Spezielle diskrete Verteilungen
Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch
p: die Massenfunktion ist gegeben durch
(1 − p)
1
E(X) = und V ar(X) =
n i
p
p2
pX (i) =
p (1 − p)n−i , 0 ≤ i ≤ n
i
Die geometrische Verteilung beschreibt die Wartezeit
Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments.
(n, p) hat den Erwartungswert
E(X) = np
und die Varianz
V ar(X) = np(1 − p).
Wir schreiben für eine solche ZV
X ∼ B(n, p).
Negative Binomialverteilung: Eine ZV X heißt
negativ binomialverteilt mit Parametern (r, p), wenn
r
n−r n − 1
,n ≥ r
pX (n) = p (1 − p)
r−1
Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch
r
r(1 − p)
E(X) = und V ar(X) =
Hierbei steht B(n, p) für binominalverteilt zu den
p
p
Parametern (n, p). Die Binomialverteilung schreibt
die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X
heißt hypergeometrisch verteilt zu den Parametern
holungen des gleiches Experiments.
(n, N, m), wenn
Poissonverteilung: Die Massenfunktion einer
N −m
m
Poisson-verteilten ZV X zum Parameter λ > 0 ist
i · n−i
pX (i) =
gegeben durch
N
n
λk −λ
e , k ≥ 0.
pX (k) =
k!
Wir schreiben in diesem Fall
X ∼ π(λ).
Erwartungswert und Varianz einer hypergeometrisch
verteilten ZV X mit Parametern (n, N, m) sind gegeben durch
E(X) = n
m
m
m N −n
und V ar(X) = n (1 − )
N
N
n N −1
5. ABSOLUTSTETIGE VERTEILUNGEN
Eigenschaften von Verteilungsfunktionen: Sei
X eine diskrete ZV. Die Funktion
7
n
k−
Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann:
4
F (x) := P(X ≤ x), x ∈ R
r
pn (k)
n
lim
max
− 1 = 0
n→∞ k:|xn (k)|≤c ϕ(xn (k))
4
heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt:
i) F ist monoton wachsend, d.h. F (a) ≤ F (b),
falls a ≤ b
ii) lim F (b) = 1
b→∞
iii)
Als unmittelbare Folgerung erhalten wir, dass die
Verteilungen der standardisierten Variablen Xn∗ mit
n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten:
Korollar: Für a, b ∈ R, a < b, gilt
lim F (b) = 0
b→−∞
iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b.
lim P(a ≤
5
n→∞
Absolutstetige Verteilungen
5.1
Xn∗
Zb
≤ b) =
ϕ(x)dx
a
Approximation der Binomialver- Definition: Eine ZV X heißt absolutstetig verteilt
teilung
mit Dichte
f : R → R+ (f Riemann-integrierbar),
R
Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt
E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ).
Gilt npn → λ < ∞, so kann die Binomialverteilung
für grosse n durch die Poissonverteilung approximiert
werden:
B(n, pn ) ≈ π(λ),
falls
f (t)dt = 1 und
R
Z
P(X ∈ B) =
Z
f (t)dt =
B
1B (t)f (t)dt
R
für alle (Borel messbaren) Mengen B gilt. Die Funktion
d.h. für kleine p approximieren wir B(n, p) durch
π(λ). Ist pn ≡ p, so gilt
E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞.
Zx
F : R → [0, 1], x 7−→ P(X ≤ x) =
f (t)dt
−∞
In diesem Fall müssen wir Xn standardisieren. Dazu
definieren wir für n ∈ N:
heißt dann Verteilungsfunktion von X. Insbesondere
gilt
Xn − E(Xn )
Xn − np
∗
Xn := p
=p
Z ∞
V ar(Xn )
np(1 − p)
1 − F (x) =
f (t)dt.
x
Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit
Man beachte, dass für eine absolutstetige ZV mit
k − np
P(Xn = k) = P Xn∗ =
=: pn (k)
Dichte f und Verteilungsfunktion F gilt
np(1 − p)
anzunähern. Dazu betrachten wir nun den Fall p =
0.5, d.h.
1
Xn ∼ B(n, ).
2
Satz von de Moivre/Laplace: Sei c > 0. Sei
−x2
1
ϕ(x) = √ · e 2 ,
2π
x ∈ R.
Z
x
P(X = x) =
f (t)dt = 0
x
sowie, falls f stetig,
F 0 = f.
8
5.2
Erwartungswert und Varianz
−x2
2
Definition: Für f (x) = ϕ(x) = √12π · e
(standard) normalverteilt. Wir schreiben
heißt X
Folglich auch
d
E(Ct (X))
dt
Zt
f (x)dx + ktf (t) − ktf (t)
= k
0
X ∼ N (0, 1).
Z∞
−ctf (t) − c
Definition:
Sei X absolutstetig verteilt mit Dichte
R
f . Falls |xf (x)|dx < ∞, heißt
=
R
xf (x)dx
R
0=
Erwartungswert von X.
Proposition: Sei X absolutstetig verteilt mit Dichte
fR . Sei g : R → R eine (messbare) Funktion, so dass
|g(x)|f (x)dx < ∞. Dann gilt
R
Z
E(g(X)) =
(c + k)F (t) − c
Die kritischen Punkte der Funktion t 7−→ E(Ct (X))
sind also bestimmt durch die Gleichung
Z
E(X) =
f (x)dx + ctf (t)
t
g(x)f (x)dx.
d
E(Ct (X)) = (c + k)F (t) − c,
dt
also durch die Bedingung
F (t) =
c
.
c+k
Es handelt sich um ein Minimum, da
d2
E(Ct (X)) = (c + k)f (t) ≥ 0.
dt2
R
Lemma: Sei 0 ≤ Y eine ZV(diskret oder absolutsteKorollar: Seien a, b ∈ R, X eine absolutstetige ZV
tig verteilt). Dann gilt
mit existierender Erwartung, dann gilt
Z∞
E(aX + b) = aE(X) + b
E(Y ) = P(Y > y)dy.
Definition: Sei
R X eine absolutstetige ZV mit Dichte
f , sodass gilt x2 f (x)dx < ∞. Dann heißt
0
Beispiel: Falls A zu einer Verabredung s Minuten zu
R
spät kommt, kostet es ihn cs Euro, falls er s Minuten
V ar(X) = E([X − E(X)]2 ) = E(X 2 ) − E(X)2
zu früh kommt, ks Euro. Die Reisezeit von A’s Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Zu welcher Zeit muss A aufbrechen, die Varianz von X.
Rechenregel: Für a, b ∈ R gilt
um seine Kosten zu minimieren?
L.: Sei X die Reisezeit von A, t die Anzahl der ZeitV ar(aX + b) = a2 V ar(X).
einheiten von A’s Aufbruch zur verabredeten Treffzeit. Dann sind A’s Kosten
5.3 Spezielle absolutstetige Verteilun(
c(X − t), X ≥ t,
gen
Ct (X) =
k(t − X), X ≤ t.
Gleichverteilung: Seien α, β ∈ R, α < β. Eine ZV
X heißt gleichverteilt auf [α, β], wenn die Dichte von
Damit gilt
X die Form hat
(
Zt
Z∞
1
, α ≤ x ≤ β,
E(Ct (X)) =
k(t − x)f (x)dx + c(x − t)f (x)dx
f (x) = β−α
0,
sonst.
t
0
Zt
Zt
f (x)dx − k
= kt
0
xf (x)dx
0
Z∞
Z∞
xf (x)dx − ct
+c
t
f (x)dx
t
Für die Verteilungsfunktion einer so verteilten ZV gilt

0,
x≤α


Rx
1
F (x) =
β−α dt, α ≤ x ≤ β,

α


1,
β ≤ x.
5. ABSOLUTSTETIGE VERTEILUNGEN
Lemma: Sei X gleichverteilt auf [α, β]. Es ist
Zβ
x
E(X) =
1
1
dx = (β + α)
β−α
2
α
2
Zβ
E(X ) =
1
1
x
dx = (β 2 + βα + α2 )
β−α
3
2
α
also
9
Gilt µ = 0 und σ = 1, so nennt man X standardnormalverteilt.
Proposition: Ist X normalverteilt zu den Parametern (µ, σ 2 ), und β ∈ R, 0 < α ∈ R, so ist Y = αX +β
normalverteilt zu den Parametern (αµ + β, α2 σ 2 ).
Beispiel: Angenommen, 52% aller Berliner seien für
ein striktes Alkoholverbot in der S-Bahn. Wie groß
muss eine Umfrage sein, damit mit mindestens 95%
Wahrscheinlichkeit die Hälfte der Befragten für ein
Verbot ist?
1
(β − α)2 .
12
L.: Zunächst stellen wir fest, dass die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden kann: Sei X hypergeometrisch verteilt
Beispiel (Bertrand Paradox): Betrachte eine zu den Parametern (n, N, m). Es gelte N, m → ∞ so,
zufällige Sekante auf einem Kreis mit Radius r. Mit dass m → p ∈ [0, 1]. Dann konvergiert
N
welcher Wahrscheinlichkeit ist die Länge der Sekante
N −m
m
größer als die Seite eines gleichseitigen Dreiecks, das
n i
i · n−i
dem Kreis einbeschrieben ist?
P(X = i) =
−→
p (1 − p)n−i .
N
i
n
Lösung 1: Sei X die Distanz der Sekante vom Ursprung des Kreises; Annahme: X gleichverteilt auf
Also gegen eine Binomialverteilung zu den Parame[0, r]. Dann ist E: die Länge der Sekante ist größer
tern (n, p). Sei nun
als die Seite des Dreiecks, d.h. E = {X ∈ [0, r]}, also
• N die Zahl aller Berliner,
r
Z2
1
1
r
• n die Anzahl der Befragten und
dx =
P(E) = P(X ∈ [0, ]) =
2
r
2
0
• Sn die Zahl derjenigen unter den Befragten, die
für ein Verbot sind.
Lösung 2: Sei θ der Winkel zwischen Sekante und
V ar(X) = E(X 2 ) − E(X)2 =
Tangente an den Kreis in einem Schnittpunkt; Annahme: θ gleichverteilt auf [0, 180]. Dann ist E: Länge
größer als Seite des Dreiecks, d.h. E = {θ ∈ [60, 120]},
also
Z120
P(E) = P(θ ∈ [60, 120]) =
1
1
dx =
180
3
Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0.52 · N ) (vgl. Urnenmodelle ohne
Zurücklegen). Aus den obigen Überlegungen und weil
N und 0.52 · N sehr groß werden, folgt, dass wir
die Verteilung von Sn durch eine Binomialverteilung
annähern können. Genauer gilt folgendes Lemma.
Lemma: Sei X hypergeometrisch verteilt zu den Parametern (n, N, m), d.h.
Dieses Beispiel zeigt, dass es sehr wesentlich auf die
m N −m
Modellierung eines Problems ankommt.
i
n−i
P(X = i) =
.
N
60
n
Normalverteilung: Seien µ ∈ R, σ 6= 0. Eine ZV X
heißt normalverteilt zu den Parametern (µ, σ 2 ), wenn Gilt nun N, m → ∞ mit m
N → p, so gilt
X die Dichte
m i
P(X = i) →
p (1 − p)n−i .
1
(x − µ)2
i
f (x) = √
exp −
,
x
∈
R
2σ 2
2πσ 2
Bemerkung: Die Intuition hinter obigem Lemhat. Wir schreiben
ma ist klar: die hypergemometrische Verteilung beschreibt die Anzahl der Erfolge beim “Ziehen ohX ∼ N (µ, σ 2 ).
ne Zurücklegen”, die Binomialverteilung die Anzahl
2
Erwartungswert und Varianz von X ∼ N (µ, σ ) sind der Erfolge beim “Ziehen mit Zurücklegen”. Ist die
Grundgesamtheit gross, so fällt der Unterschied nicht
gegeben durch
ins Gewicht.
2
E(X) = µ und V ar(X) = σ
10
Unter Verwendung des obigen Lemmas liefert nun die Für X ∼ E(λ) gilt
Annäherung der Binomial- durch eine NormalverteiZ∞
lung:
P(X > t) = λe−λx dx = e−λt , t ≥ 0.
P(Sn > 0.5n)
t
!
0.5n − 0.52n
Sn − 0.52n
Somit folgt unmittelbar die Gedächtnislosigkeit ex= P p
>p
n(0.52)(0.48)
n(0.52)(0.48)
ponentialverteilter ZVen.
!
√
Sn − 0.52n
= P p
> −0.4 n
n(0.52)(0.48)
6 Gemeinsame
Verteilungen
√
≈ Φ(0.04 n)
von Zufallsvariablen
Dabei ist Φ die Verteilungsfunktion√der Standardnor- Definition: Seien X, Y ZV’en auf (Ω, P). Die gemalverteilung. Es muss also Φ(0.04 n) > 0.95 gelten, meinsame Verteilungsfunktion von (X, Y ) ist gegeben
folglich, dass n ≥ 1691.266. Das heißt, der Stichpro- durch
benumfang muss mindestens 1692 betragen. Im letzten Schritt haben wir verwendet, dass aus SymmeF (a, b) = P(X ≤ a, Y ≤ b)
triegrünten für eine N (0, 1)-verteilte Zufallsvariable
= P({X ≤ a} ∩ {Y ≤ b}), a, b ∈ R
Z und z < 0 gilt:
P(Z > −z)
=
1 − P(Z ≤ −z)
=
1 − (1 − P(Z ≤ z))
Die Verteilungsfunktion von X bzw. Y erhalten wir
aus der gemeinsamen Verteilungsfunktion: Sei a ∈ R.
Dann gilt
= P(Z ≤ z)
FX (a) = F (a, ∞) := lim F (a, n),
n→∞
Exponentialverteilung: Sei λ > 0. Eine absolutstetige ZV X mit Dichte
Entsprechend gilt für b ∈ R
(
λ · e−λx , x ≥ 0,
FY (b) = F (∞, b) := lim F (n, a).
f (x) =
n→∞
0,
x < 0,
FX , FY heißen Randverteilungen von X, Y .
heißt exponentialverteilt zum Parameter λ. Wir
schreiben
6.1 Unabhängige ZVen
X ∼ E(λ).
Definition: Seien X, Y ZV. (X, Y ) heißen gemeinsam absolutstetig verteilt mit Dichte f , wenn es eine
1
1
Riemann-integrierbare
Funktion f : R2 → R+ gibt
R
E(X) = und V ar(X) = 2 .
mit R2 f (x, y)dxdy = 1, so dass für C ⊂ R2 mit 1C f
λ
λ
Riemann-integrierbar gilt
Eine wesentliche Eigenschaft der ExponentialverteiZ
lung ist die sog. Gedächtnislosigkeit (vgl. hierzu auch
P((X, Y ) ∈ C) =
f (x, y)dxdy
die geometrische Verteilung).
ZC
Definition (Gedächtnislosigkeit): Eine ZV X ≥ 0
=
1C (x, y)f (x, y)dxdy.
heißt gedächtnislos, wenn für s, t ≥ 0 gilt
2
Erwartungswert und Varianz sind gegeben durch
R
P(X > s + t|X > t) = P(X > s).
Falls f stetig, gilt
Denkt man an die zufällige Lebenszeit eines Pro∂ ∂
F (x, y), x, y ∈ R
f (x, y) =
dukts, so bedeutet diese Bedingung, die Wahrschein∂x ∂y
lichkeit, nach einem Zeitpunkt t weitere s Zeiteinheiten zu überleben, ist nicht von t abhängig. Die Definition: Zwei ZV’en (X, Y ) heißen unabhängig,
wenn für a, b ∈ R gilt
Bedingung ist äquivalent zu
P(X > s + t) = P(X > s) · P(X > t),
s, t ≥ 0.
P(X ≤ a, Y ≤ b) = P(X ≤ a) · P(Y ≤ b).
6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN
Somit gilt Unabhängigkeit, genau dann, wenn für die
gemeinsame Verteilungsfunktion F und die marginalen Verteilungsfunktionen FX , FY gilt
F (x, y) = FX (x)FY (y),
x, y ∈ R
Äquivalent gilt die Gleichung in analoger Form mit
p, pX , pY (Massenfunktionen) bzw. f, fX , fY (Dichtefunktionen) für diskrete bzw. absolutstetige X, Y .
6.3
11
Statistik für unabhängige normalverteilte ZV’en
Definition: Seien X1 , . . . , Xn unabhängige ZV’en
auf (Ω, F, P). Sie heißen identisch verteilt (i.i.d.),
wenn
P(Xk ≤ x) = P(Xl ≤ x) ∀k, l = 1, . . . , n, ∀x ∈ R.
Markov Ungleichung: Sei X ≥ 0 eine ZV mit
E(X) = µ und 0 < a ∈ R, dann gilt:
Außerdem lässt sich zeigen, dass Unabhängigkeit von
E(X)
X, Y gilt, genau dann wenn {X ∈ A}, {Y ∈ B} unP(X ≥ a) ≤
a
abhängig sind, für alle messbaren Mengen A, B ∈ R,
das sind zum Beispiel Intervalle.
Korollar (Chebyshev Ungleichung): Sei X eine
ZV mit E(X) = µ und V ar(X) = σ 2 . Dann gilt für
η > 0:
6.2 Summen unabhängiger ZVen
V ar(X)
.
P(|X − µ| > η) ≤
η2
Definition: Seien X und Y absolutstetig verteilt mit
Dichten fX bzw. fY . Die Dichte fX+y von X+Y heißt Korollar(schwaches Gesetz der großen Zahlen): Seien X1 , . . . , Xn i.i.d. N (µ, σ 2 )-verteilt und
Faltung der Verteilungen von X und Y . Es gilt
> 0 beliebig. Es gilt dann:
Z
fX+Y (x) = fX (x − y)fY (y)dy =: fX ∗ fY (x).
lim P |X n − µ| > = 0,
n→∞
Gammaverteilung: Eine absolutstetige ZV X heißt wobei X n als das arithmetische Mittel der ersten n
gammaverteilt zu den Parametern (s, λ), geschrieben, ZV’en definiert ist:
X1 + · · · + Xn
X n :=
n
X ∼ Γ(s, λ)
Im Folgenden geht es darum, aufgrund von Realiwenn sie die Dichte
sierungen x1 , . . . xn , Aussagen über die Parameter
(µ, σ 2 ) von i.i.d. normalverteilten ZV’en X1 , . . . , Xn
(
(λx)s−1
−λx
, x ≥ 0,
zu machen.
Γ(s) λe
f (x) =
0,
sonst
besitzt. Im Fall s = n2 , λ = 12 spricht man von der Schätzer für µ bei bekanntem σ:
Chi-Quadrat-Verteilung mit n Freiheitsgraden, geDer naive Schätzer Xn ist vernünftig; er konvergiert,
schrieben
im
Sinne des schwachen Gesetzes der großen Zahlen,
X ∼ χ2(n) .
gegen den wahren Wert und ist erwartungstreu in
Proposition: Seien X , . . . X unabhängige ZV’en, dem Sinne, dass
1
n
alle exponentialverteilt zum Parameter λ. Dann ist
X1 + · · · + Xn gammaverteilt zu den Parametern
(n, λ).
Proposition: Seien Z1 , . . . Zn unabhängige ZV’en,
alle standard-normalverteilt. Dann ist Z12 + · · · + Zn2
gammaverteilt zu den Parametern ( n2 , 21 ).
E(Xn ) = µ ∀µ.
Hypothesentest für µ: Bei gegebenem µ0 sind unsere Hypothesen:
H0 : µ = µ0 ,
H1 : µ 6= µ0 ,
vernünftig ist es, H1 anzunehmen, falls |xn − µ0 | > η,
Proposition: Seien X1 , . . . Xn unabhängige ZV’en, für η so gewählt, dass der Test eine vorgegebene Irralle normalverteilt, zu den Parametern (µi , σi ), 1 ≤ tumswahrscheinlichkeit α nicht übersteigt, also dass
i ≤ n. Dann ist X1 + · · · + X
pn normalverteilt zu den
Pµ0 ,σ (|Xn − µ0 | > η) ≤ α.
Parametern (µ1 + · · · + µn , σ12 + · · · + σn2 ).
Proposition: Die Summe unabhängiger, poissonver- Wir wählen folglich η aus einer N (0, 1)-Tafel so aus,
η√ teilter ZV’en X1 + · · · + Xn mit Xi ∼ π(λi ), ∀i ist dass
α
Φ
n =1−
ebenfalls poissonverteilt zum Parameter λ1 +· · ·+λn .
σ
2
12
Wir nehmen H1 an, wenn |xn − µ0 | > η.
Beim einseitigen Testproblem, mit Hypothesen:
H0 : µ ≥ µ0 ,
H1 : µ < µ0
ist es vernünftig, H1 anzunehmen, falls xn < η.
Hierbei wird η ∈ R so gewählt, dass für gegebenes
0 < α < 1:
Pµ,σ (Xn < η) ≤ α
∀µ ≤ µ0
Daher wählen wir η so, dass
η − µ0 √
n = α.
Φ
σ

Zugehörige Unterlagen

Klausur zu Stochastik - Mathematisches Institut

Typische Klausuraufgaben 1: Kommentare

Stochastik (BA) Zusammenfassung der Vorlesung

Zugehörige Unterlagen

Produkte

Unterstützung

Stochastik (BA) Zusammenfassung der Vorlesung

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können