Stochastik (BA) Zusammenfassung der Vorlesung

Stochastik (BA)
Zusammenfassung der Vorlesung
Ulrich Horst
Institut für Mathematik
Humboldt-Universität zu Berlin
2
0
Allgemeine Orientierung
Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P)
1
Kombinatorik
Bei 2 (verschachtelten) Experimenten mit m ∈ N
und n ∈ N möglichen Ausgängen, lässt sich Ω als
m × n Matrix darstellen, deren Einträge die m · n
Versuchsausgänge repräsentieren.
• Assoziativgesetze:
(E ∪ F ) ∪ G = E ∪ (F ∪ G)
(E ∩ F ) ∩ G = E ∩ (F ∩ G)
• Distributivgesetze:
(E ∪ F ) ∩ G =
Sn(E ∩ G) ∪ (F ∩ G)Sn
also auch: ( i=1 Ei ) ∩ G =
i=1 (Ei ∩ G)
(E ∩ F ) ∪ G
=
(E
∪
G)
∩
(F
∪
G)
Tn
Tn
also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G)
• DeMorgansche Regeln:
Tn
Sn
c
(Si=1 Ei ) = Ti=1 Eic
c
n
n
( i=1 Ei ) = i=1 Eic
Wahrscheinlichkeitsaxiome: Die Anforderungen,
die an ein Wahrscheinlichkeitsmaß P gestellt werden
Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen:
mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ
i Realir
sierungen erlaubt, so ergeben sich insgesamt j=1 nj
• 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω
Versuchsausgänge.
• P(Ω) = 1
Permutationen: Die Möglichkeiten, n verschiedene
Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1
Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer
Grund n-elementigen
n!
menge zu erzeugen sind nr := (n−r)!·r!
• Für
jede
Folge
E1 , E2 , · · · ⊆ Ω gilt:
P
Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz:
n X
n k n−k
(x + y) =
x y
, ∀n ∈ N0
r
n
k=0
Anzahl der ganzzahligen Lösungen von Gleichungen:
n−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
n+r−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
• Es gibt n+r−1
Möglichkeiten, eine ungeordner
te Stichprobe der Länge r aus einer Menge vom
Umfang n zu bilden, wenn ‘mit Zurücklegen’
und ohne Berücksichtigung der Reihenfolge gezogen wird.
2
Wahrscheinlichkeitsaxiome
Rechenregeln für Mengen: Für Ereignisse E, F, G
und Ei , i = 1, . . . n gelten:
∞
[
paarweise
!
Ei
=
∞
X
disjunkter
P(Ei )
i=1
i=1
Diese Eigenschaft wird auch σ-Additivität genannt.
Proposition: Es gelten folgende Eigenschaften:
i) P(∅) = 0
ii) Für
jede
Folge
paarweise
disjunkter
E1 , E2 , . . . , En ⊆ Ω gilt:
!
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E)
iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F )
v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+
P(F ) − P(E ∩ F )
vi) Für Ereignisse E1 , E2 , . . . , En gilt:
P(E1 ∪· · ·∪En ) =
n
X
i=1
X
i1 <i2 <i3
P(Ei )−
X
P(Ei1 ∩Ei2 )+
i1 <i2
P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En )
3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT
Laplace-Experimente: Auf einem endlichen
Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt
wegen σ-Additivität:
1
,
N
3
Hüte aus, die nicht die eigenen
sind. Es ergeN
ben sich im ersten
Schritt
und im zweiten
k
1
1
+ 3!
− . . . (−1)N +1 N1 ! )
Schritt (N − k)! 1 − (1 − 2!
Möglichkeiten. Damit ist
|F |
P(F ) =
|Ω|
N
1
1
N +1 1
Dann gilt für ein Ereignis E ⊂ Ω:
k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1)
N! )
=
N!
X
|E|
P(E) =
P({i}) =
1
1
1
1
|Ω|
=
1 − (1 − + − . . . (−1)N +1 )
i∈E
k!
2! 3!
N!
1
Hier bedeutet |E| die Mächtigkeit von E.
≈ e−1
k!
Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren
nen werden gemischt und jeder zieht zufällig einen.
die Poissonverteilung zum Parameter λ = 1, die wir
Wie groß ist die Wahrscheinlichkeit, dass
später kennenlernen werden.
a) keiner der Besucher seinen eigenen Hut erhält?
b) genau k Besucher ihre eigenen Hüte erhalten?
P({i}) =
1 ≤ i ≤ N.
L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6=
k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j
(seinen eigenen) werde dann beschrieben durch Ej =
{(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird
c
) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe
P(E1c ∩ · · · ∩ EN
der Formel aus Prop. vi). Für n ≤ N seien gegeben
1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn =
{(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit
|E ∩···∩E |
P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)!
!
Mit Prop. vi) folgt dann,
P(
N
[
Ei ) = N ·
i=1
(N − 1)!
N!
(N − 2)!
N!
(N − 3)!
+ |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| ·
N!
N +1 1
− · · · + (−1)
N!
N
N
(N − 2)!
(N − 3)!
=1−
·
+
·
2
N!
3
N!
1
− · · · + (−1)N +1
N!
1
1
1
= 1 − (1 − + − . . . (−1)N +1 )
2! 3!
N!
≈ e−1
− |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| ·
für N groß.
b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte
In Schritt 1 wählen wir k Personen aus, die
ihre eigenen Hüte bekommen und in Schritt 2
wählen wir für die restlichen N − k Personen
3
Bedingte Wahrscheinlichkeit
und Unabhängigkeit
Für Ereignisse E, F gilt:
P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c )
Proposition: Seien S
E1 , . . . , En paarweise disjunkte
n
Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes:
i)
P(E) = P(
n
[
(E ∩ Ei )) =
n
X
i=1
=
n
X
P(E ∪ Ei )
i=1
P(E|Ei ) · P(Ei )
i=1
ii) aus i) folgt für 1 ≤ j ≤ n:
P(E|Ej ) · P(Ej )
P(Ej |E) = Pn
i=1 P(E|Ei ) · P(Ei )
Die Ereignisse E und F heißen unabhängig, falls gilt
P(E|F ) = P(E).
Dies ist äquivalent zur folgenden Definition.
Definition (Unabhängigkeit) Die Ereignisse E und
F heißen unabhängig, falls gilt
P(E ∩ F ) = P(E) · P(F ).
Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c .
Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig:
4
• E : Augensumme ist 7
Dies lässt sich auf Folgen von n bzw. unendlich vielen
Versuchen verallgemeinern. Dabei gilt immer: sind
(Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur
von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw.
(Ei )i∈N unabhängig.
• F : der erste Wurf ergibt 4
• G : der zweite Wurf ergibt 3
L:
Beispiel: Eine unendliche Folge von Versuchen
wird durchgeführt. Jeder Versuch hat zwei mögliche
F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)},
Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für
G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)}
eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und
keit, dass
P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen
abhängig von F ∩ G, denn P(E|F ∩ G) = 1.
erzielt wird?
Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)},
se.
i) E1 , . . . , En sind unabhängig, wenn für jedes
r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt:
P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) =
r
Y
P(Eij )
j=1
ii) (Ei )i∈N heißen unabhängig, falls für jedes
endliche S ⊂ N gilt:
\
Y
P(
Ei ) =
P(Ei )
i∈S
i∈S
Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen
wir Versuche. Ω1 = Ω2 seien endliche Grundräume
von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N }
an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment,
Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für
E ⊂ Ω1 × Ω2 setzen wir
X
P(E) =
P1 ({i}) · P2 ({j})
b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n).
L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”.
Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis
n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein
Erfolg in den Versuchen 1 bis n.” Also gilt
P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc )
n
Y
P(Eic ) = 1 − (1 − p)n
=1−
i=1
b): T
Sei T ⊂ {1, . T
. . , n} mit |T | = k gegeben. Betrachc
te ( i∈T Ei ) ∩ ( i∈T
/ Ei ) : Erfolg in den Versuchen
i ∈ T , Misserfolg in den anderen. Dann gilt wegen
Unabhängigkeit
P((
\
Ei ) ∩ (
i∈T
(i,j)∈E
\
Eic )) =
Y
i∈T
i∈T
/
k
P(Ei ) ·
Y
P(Eic )
i∈T
/
n−k
= p (1 − p)
Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2
abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2
wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n
Versuchen”. Dann ist
Unabhängigkeit von E1 und E2
P(E1 ∩ E2 ) = P(F1 × F2 )
X
=
P1 ({i}) · P2 ({j})
E=
[
[(
\
T ⊂{1,...,n},|T |=k i∈T
Ei ) ∩ (
\
Eic )].
i∈T
/
(i,j)∈F1 ×F2
X
=
P1 ({i}) · P2 ({k})
Also:
(i,k)∈F1 ×Ω2
·
X
P1 ({k}) · P2 ({j})
(k,j)∈Ω1 ×F2
= P(E1 ) · P(E2 )
P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k
n
=
· pk (1 − p)n−k .
k
4. ZUFALLSVARIABLEN
4
5
Zufallsvariablen
Damit folgt für n ∈ N :
Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung
n n
N
N −2
N −1
−
+ ...
N
2
N
n
N
0
+ (−1)N −1
N
N
n
N
−1
X
N
N −i
.
=
(−1)i+1
N
i
i=1
P(T > n) = N
X : Ω → Rn ,
wobei wir Rn mit der Borel-σ-algebra versehen. Die
Definition von Messbarkeit erfordert, dass F selbst
eine σ-algebra ist. Wir ignorieren dieses technische
(aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver
Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit
pX (xi ) := p(xi ) = P(X = xi )
4.1
Erwartungswert und Varianz
Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion
p ist definiert durch:
die Verteilung oder Massenfunktion von X.
X
E(X) =
x · p(x),
Beispiel: Es gebe N verschiedene Arten von Coux:p(x)<0
pons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch
erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h.
N Coupons. Sei T die Anzahl von Coupons, die nötig
X
sind, bis man einen kompletten Satz aller N besitzt.
|x| · p(x) < ∞.
Wir suchen die Verteilung von T , d.h.
x:p(x)<0
P(T = n) = pT (n), n ≥ 1
Beispiel: Für ein Ereignis A sei 1A : Ω −→ R
L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T >
n − 1) − P(T > n) zu nutzen. Sei dazu
Aj : kein j-Coupon in den ersten n Zügen.
Dann gilt,
{T > n} =
N
[
(
1,
ω−
7 →
0,
ω ∈ A,
ω∈
/A
die Indikatorfunktion von A. Es gilt p1A (0) = 1 −
P(A), p1A (1) = P(A), und damit
E(1A ) = 1 · P(A) = P(A).
Aj
j=1
Propositon: Sei X eine ZV mit Werten {xi }i∈N und
Verteilung pX . Sei g : R −→ R eine Funktion. Dann
gilt:
∞
X
E(g(X)) =
g(xi )p(xi ),
also nach dem Additionstheorem
P(T > N )
= P(
N
[
Aj )
j=1
=
N
X
P(Aj ) −
j=1
i=1
X
P(Aj1 ∩ Aj2 ) + . . .
j1 <j2
N +1
. . . + (−1)
P(A1 ∩ · · · ∩ An )
∞
X
|g(xi )|p(xi ) < ∞.
i=1
Nun gilt für 1 ≤ j ≤ N :
P(Aj ) =
falls
N −1
N
n
.
Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N :
n
N −k
P(Aj1 ∩ · · · ∩ Ajk ) =
.
N
Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt
i) E(aX + b) = aE(X) + b
ii) E(X + Y ) = E(X) + E(Y )
6
Definition: Sei X einePZV mit Massenfunktion
n
p, n ∈ N, und es gelte
x:p(x)<0 |x| · p(x) < ∞.
Dann heißt
X
E(|X|n ) =
|x|n · p(x)
Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter
ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0:
x:p(x)>0
lim pXn (k) =
n→∞
das n-te Moment von X.
Definition: Sei X eine diskrete ZV mit E(X) = µ.
Dann heißt
λk −λ
e
k!
sofern
lim npn = λ.
n→∞
Die Poisson Verteilung findet als Approximation der
Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert
die Varianz von X. Durch Anwenden der Definition
und Varianz einer Poisson-verteilten ZV X gilt:
des Erwartungswertes erhält man
E(X) = λ und V ar(X) = λ
V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 .
Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben
existierender Varianz. Dann gilt
X ∼ G(p),
V ar(aX + b) = a2 V ar(X)
so ist seine Massenfunktion gegeben durch
V ar(X) = E([X − µ]2 )
4.2
pX (n) = (1 − p)n−1 · p.
Spezielle diskrete Verteilungen
Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch
p: die Massenfunktion ist gegeben durch
(1 − p)
1
E(X) = und V ar(X) =
n i
p
p2
pX (i) =
p (1 − p)n−i , 0 ≤ i ≤ n
i
Die geometrische Verteilung beschreibt die Wartezeit
Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments.
(n, p) hat den Erwartungswert
E(X) = np
und die Varianz
V ar(X) = np(1 − p).
Wir schreiben für eine solche ZV
X ∼ B(n, p).
Negative Binomialverteilung: Eine ZV X heißt
negativ binomialverteilt mit Parametern (r, p), wenn
r
n−r n − 1
,n ≥ r
pX (n) = p (1 − p)
r−1
Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch
r
r(1 − p
E(X) = und V ar(X) =
Hierbei steht B(n, p) für binominalverteilt zu den
p
p
Parametern (n, p). Die Binomialverteilung schreibt
die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X
heißt hypergeometrisch verteilt zu den Parametern
holungen des gleiches Experiments.
(n, N, m), wenn
Poissonverteilung: Die Massenfunktion einer
N −m
m
Poisson-verteilten ZV X zum Parameter λ > 0 ist
i · n−i
pX (i) =
gegeben durch
N
n
λk −λ
e , k ≥ 0.
pX (k) =
k!
Wir schreiben in diesem Fall
X ∼ π(λ).
Erwartungswert und Varianz einer hypergeometrisch
verteilten ZV X mit Parametern (n, N, m) sind gegeben durch
E(X) = n
m
m
m N −n
und V ar(X) = n (1 − )
N
N
n N −1
5. ABSOLUTSTETIGE VERTEILUNGEN
Eigenschaften von Verteilungsfunktionen: Sei
X eine diskrete ZV. Die Funktion
7
n
k−
Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann:
4
F (x) := P(X ≤ x), x ∈ R
r
pn (k)
n
lim
max
− 1 = 0
n→∞ k:|xn (k)|≤c ϕ(xn (k))
4
heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt:
i) F ist monoton wachsend, d.h. F (a) ≤ F (b),
falls a ≤ b
ii) lim F (b) = 1
b→∞
iii)
Als unmittelbare Folgerung erhalten wir, dass die
Verteilungen der standardisierten Variablen Xn∗ mit
n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten:
Korollar: Für a, b ∈ R, a < b, gilt
lim F (b) = 0
b→−∞
iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b.
lim P(a ≤
5
n→∞
Absolutstetige Verteilungen
5.1
Xn∗
Zb
≤ b) =
ϕ(x)dx
a
Approximation der Binomialver- Definition: Eine ZV X heißt absolutstetig verteilt
teilung
mit Dichte
f : R → R+ (f Riemann-integrierbar),
R
Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt
E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ).
Gilt npn → λ < ∞, so kann die Binomialverteilung
für grosse n durch die Poissonverteilung approximiert
werden:
B(n, pn ) ≈ π(λ),
falls
f (t)dt = 1 und
R
Z
P(X ∈ B) =
Z
f (t)dt =
B
1B (t)f (t)dt
R
für alle (Borel messbaren) Mengen B gilt. Die Funktion
d.h. für kleine p approximieren wir B(n, p) durch
π(λ). Ist pn ≡ p, so gilt
E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞.
Zx
F : R → [0, 1], x 7−→ P(X ≤ x) =
f (t)dt
−∞
In diesem Fall müssen wir Xn standardisieren. Dazu
definieren wir für n ∈ N:
heißt dann Verteilungsfunktion von X. Insbesondere
gilt
Xn − E(Xn )
Xn − np
∗
Xn := p
=p
Z ∞
V ar(Xn )
np(1 − p)
1 − F (x) =
f (t)dt.
x
Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit
Man beachte, dass für eine absolutstetige ZV mit
k − np
P(Xn = k) = P Xn∗ =
=: pn (k)
Dichte f und Verteilungsfunktion F gilt
np(1 − p)
anzunähern. Dazu betrachten wir nun den Fall p =
0.5, d.h.
1
Xn ∼ B(n, ).
2
Satz von de Moivre/Laplace: Sei c > 0. Sei
−x2
1
ϕ(x) = √ · e 2 ,
2π
x ∈ R.
Z
x
P(X = x) =
f (t)dt = 0
x
sowie, falls f stetig,
F 0 = f.
8
5.2
Erwartungswert und Varianz
−x2
2
Definition: Für f (x) = ϕ(x) = √12π · e
(standard) normalverteilt. Wir schreiben
heißt X
Folglich auch
d
E(Ct (X))
dt
Zt
f (x)dx + ktf (t) − ktf (t)
= k
0
X ∼ N (0, 1).
Z∞
−ctf (t) − c
Definition:
Sei X absolutstetig verteilt mit Dichte
R
f . Falls |xf (x)|dx < ∞, heißt
=
R
xf (x)dx
R
0=
Erwartungswert von X.
Proposition: Sei X absolutstetig verteilt mit Dichte
fR . Sei g : R → R eine (messbare) Funktion, so dass
|g(x)|f (x)dx < ∞. Dann gilt
R
Z
E(g(X)) =
(c + k)F (t) − c
Die kritischen Punkte der Funktion t 7−→ E(Ct (X))
sind also bestimmt durch die Gleichung
Z
E(X) =
f (x)dx + ctf (t)
t
g(x)f (x)dx.
d
E(Ct (X)) = (c + k)F (t) − c,
dt
also durch die Bedingung
F (t) =
c
.
c+k
Es handelt sich um ein Minimum, da
d2
E(Ct (X)) = (c + k)f (t) ≥ 0.
dt2
R
Lemma: Sei 0 ≤ Y eine ZV(diskret oder absolutsteKorollar: Seien a, b ∈ R, X eine absolutstetige ZV
tig verteilt). Dann gilt
mit existierender Erwartung, dann gilt
Z∞
E(aX + b) = aE(X) + b
E(Y ) = P(Y > y)dy.
Definition: Sei
R X eine absolutstetige ZV mit Dichte
f , sodass gilt x2 f (x)dx < ∞. Dann heißt
0
Beispiel: Falls A zu einer Verabredung s Minuten zu
R
spät kommt, kostet es ihn cs Euro, falls er s Minuten
V ar(X) = E([X − E(X)]2 ) = E(X 2 ) − E(X)2
zu früh kommt, ks Euro. Die Reisezeit von A’s Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Zu welcher Zeit muss A aufbrechen, die Varianz von X.
Rechenregel: Für a, b ∈ R gilt
um seine Kosten zu minimieren?
L.: Sei X die Reisezeit von A, t die Anzahl der ZeitV ar(aX + b) = a2 V ar(X).
einheiten von A’s Aufbruch zur verabredeten Treffzeit. Dann sind A’s Kosten
5.3 Spezielle absolutstetige Verteilun(
c(X − t), X ≥ t,
gen
Ct (X) =
k(t − X), X ≤ t.
Gleichverteilung: Seien α, β ∈ R, α < β. Eine ZV
X heißt gleichverteilt auf [α, β], wenn die Dichte von
Damit gilt
X die Form hat
(
Zt
Z∞
1
, α ≤ x ≤ β,
E(Ct (X)) =
k(t − x)f (x)dx + c(x − t)f (x)dx
f (x) = β−α
0,
sonst.
t
0
Zt
Zt
f (x)dx − k
= kt
0
xf (x)dx
0
Z∞
Z∞
xf (x)dx − ct
+c
t
f (x)dx
t
Für die Verteilungsfunktion einer so verteilten ZV gilt

0,
x≤α


Rx
1
F (x) =
β−α dt, α ≤ x ≤ β,

α


1,
β ≤ x.
5. ABSOLUTSTETIGE VERTEILUNGEN
Lemma: Sei X gleichverteilt auf [α, β]. Es ist
Zβ
x
E(X) =
1
1
dx = (β + α)
β−α
2
α
2
Zβ
E(X ) =
1
1
x
dx = (β 2 + βα + α2 )
β−α
3
2
α
also
9
Gilt µ = 0 und σ = 1, so nennt man X standardnormalverteilt.
Proposition: Ist X normalverteilt zu den Parametern (µ, σ 2 ), und β ∈ R, 0 < α ∈ R, so ist Y = αX +β
normalverteilt zu den Parametern (αµ + β, α2 σ 2 ).
Beispiel: Angenommen, 52% aller Berliner seien für
ein striktes Alkoholverbot in der S-Bahn. Wie groß
muss eine Umfrage sein, damit mit mindestens 95%
Wahrscheinlichkeit die Hälfte der Befragten für ein
Verbot ist?
1
(β − α)2 .
12
L.: Zunächst stellen wir fest, dass die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden kann: Sei X hypergeometrisch verteilt
Beispiel (Bertrand Paradox): Betrachte eine zu den Parametern (n, N, m). Es gelte N, m → ∞ so,
zufällige Sekante auf einem Kreis mit Radius r. Mit dass m → p ∈ [0, 1]. Dann konvergiert
N
welcher Wahrscheinlichkeit ist die Länge der Sekante
N −m
m
größer als die Seite eines gleichseitigen Dreiecks, das
n i
i · n−i
dem Kreis einbeschrieben ist?
P(X = i) =
−→
p (1 − p)n−i .
N
i
n
Lösung 1: Sei X die Distanz der Sekante vom Ursprung des Kreises; Annahme: X gleichverteilt auf
Also gegen eine Binomialverteilung zu den Parame[0, r]. Dann ist E: die Länge der Sekante ist größer
tern (n, p). Sei nun
als die Seite des Dreiecks, d.h. E = {X ∈ [0, r]}, also
• N die Zahl aller Berliner,
r
Z2
1
1
r
• n die Anzahl der Befragten und
dx =
P(E) = P(X ∈ [0, ]) =
2
r
2
0
• Sn die Zahl derjenigen unter den Befragten, die
für ein Verbot sind.
Lösung 2: Sei θ der Winkel zwischen Sekante und
V ar(X) = E(X 2 ) − E(X)2 =
Tangente an den Kreis in einem Schnittpunkt; Annahme: θ gleichverteilt auf [0, 180]. Dann ist E: Länge
größer als Seite des Dreiecks, d.h. E = {θ ∈ [60, 120]},
also
Z120
P(E) = P(θ ∈ [60, 120]) =
1
1
dx =
180
3
Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0.52 · N ) (vgl. Urnenmodelle ohne
Zurücklegen). Aus den obigen Überlegungen und weil
N und 0.52 · N sehr groß werden, folgt, dass wir
die Verteilung von Sn durch eine Binomialverteilung
annähern können. Genauer gilt folgendes Lemma.
Lemma: Sei X hypergeometrisch verteilt zu den Parametern (n, N, m), d.h.
Dieses Beispiel zeigt, dass es sehr wesentlich auf die
m N −m
Modellierung eines Problems ankommt.
i
n−i
P(X = i) =
.
N
60
n
Normalverteilung: Seien µ ∈ R, σ 6= 0. Eine ZV X
heißt normalverteilt zu den Parametern (µ, σ 2 ), wenn Gilt nun N, m → ∞ mit m
N → p, so gilt
X die Dichte
m i
P(X = i) →
p (1 − p)n−i .
1
(x − µ)2
i
f (x) = √
exp −
,
x
∈
R
2σ 2
2πσ 2
Bemerkung: Die Intuition hinter obigem Lemhat. Wir schreiben
ma ist klar: die hypergemometrische Verteilung beschreibt die Anzahl der Erfolge beim “Ziehen ohX ∼ N (µ, σ 2 ).
ne Zurücklegen”, die Binomialverteilung die Anzahl
2
Erwartungswert und Varianz von X ∼ N (µ, σ ) sind der Erfolge beim “Ziehen mit Zurücklegen”. Ist die
Grundgesamtheit gross, so fällt der Unterschied nicht
gegeben durch
ins Gewicht.
2
E(X) = µ und V ar(X) = σ
10
Unter Verwendung des obigen Lemmas liefert nun die
Annäherung der Binomial- durch eine Normalverteilung:
P(Sn > 0.5n)
0.5n − 0.52n
Sn − 0.52n
>p
= P p
n(0.52)(0.48)
n(0.52)(0.48)
!
√
Sn − 0.52n
> −0.4 n
= P p
n(0.52)(0.48)
√
≈ Φ(0.04 n)
!
Dabei ist Φ die Verteilungsfunktion der
√ Standardnormalverteilung. Es muss also Φ(0.04 n) > 0.95
gelten, folglich, dass n ≥ 1691.266. Das heißt, der
Stichprobenumfang muss mindestens 1692 betragen.
Exponentialverteilung: Sei λ > 0. Eine absolutstetige ZV X mit Dichte
(
λ · e−λx , x ≥ 0,
f (x) =
0,
x < 0,
heißt exponentialverteilt zum Parameter λ. Wir
schreiben
X ∼ E(λ).
Erwartungswert und Varianz sind gegeben durch
E(X) =
1
1
und V ar(X) = 2 .
λ
λ
Eine wesentliche Eigenschaft der Exponentialverteilung ist die sog. Gedächtnislosigkeit (vgl. hierzu auch
die geometrische Verteilung).
Definition (Gedächtnislosigkeit): Eine ZV X ≥ 0
heißt gedächtnislos, wenn für s, t ≥ 0 gilt
P(X > s + t|X > t) = P(X > s).
Denkt man an die zufällige Lebenszeit eines Produkts, so bedeutet diese Bedingung, die Wahrscheinlichkeit, nach einem Zeitpunkt t weitere s Zeiteinheiten zu überleben, ist nicht von t abhängig. Die
Bedingung ist äquivalent zu
P(X > s + t) = P(X > s) · P(X > t),
s, t ≥ 0.
Für X ∼ E(λ) gilt
Z∞
P(X > t) =
λe−λx dx = e−λt ,
t ≥ 0.
t
Somit folgt unmittelbar die Gedächtnislosigkeit exponentialverteilter ZVen.