Stochastik (BA) Zusammenfassung der Vorlesung

Werbung
Stochastik (BA)
Zusammenfassung der Vorlesung
Ulrich Horst
Institut für Mathematik
Humboldt-Universität zu Berlin
2
0
Allgemeine Orientierung
Ziel der Stochastik: Bereitstellung eines mathematischen Modells, mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist gegeben durch (Ω, F, P)
1
Kombinatorik
Bei 2 (verschachtelten) Experimenten mit m ∈ N
und n ∈ N möglichen Ausgängen, lässt sich Ω als
m × n Matrix darstellen, deren Einträge die m · n
Versuchsausgänge repräsentieren.
• Assoziativgesetze:
(E ∪ F ) ∪ G = E ∪ (F ∪ G)
(E ∩ F ) ∩ G = E ∩ (F ∩ G)
• Distributivgesetze:
(E ∪ F ) ∩ G =
Sn(E ∩ G) ∪ (F ∩ G)Sn
also auch: ( i=1 Ei ) ∩ G =
i=1 (Ei ∩ G)
(E ∩ F ) ∪ G
=
(E
∪
G)
∩
(F
∪
G)
Tn
Tn
also auch:( i=1 Ei ) ∪ G = i=1 (Ei ∪ G)
• DeMorgansche Regeln:
Tn
Sn
c
(Si=1 Ei ) = Ti=1 Eic
c
n
n
( i=1 Ei ) = i=1 Eic
Wahrscheinlichkeitsaxiome: Die Anforderungen,
die an ein Wahrscheinlichkeitsmaß P gestellt werden
Verallgemeinerung: betrachten wir r ∈ N Experi- lassen sich in 3 Axiomen zusammenfassen:
mente, wobei der i-te, 1 ≤ i ≤ r Versuch nQ
i Realir
sierungen erlaubt, so ergeben sich insgesamt j=1 nj
• 0 ≤ P(E) ≤ 1, ∀E ⊆ Ω
Versuchsausgänge.
• P(Ω) = 1
Permutationen: Die Möglichkeiten, n verschiedene
Objekte anzuordnen sind n! := n · (n − 1) · . . . 2 · 1
Kombinationen: Die Möglichkeiten, eine relementige Teilmenge aus einer
Grund n-elementigen
n!
menge zu erzeugen sind nr := (n−r)!·r!
• Für
jede
Folge
E1 , E2 , · · · ⊆ Ω gilt:
P
Verwendung findet der soeben definierte Binomialkoeffizient unter anderem im Binomischen Lehrsatz:
n X
n k n−k
(x + y) =
x y
, ∀n ∈ N0
r
n
k=0
Anzahl der ganzzahligen Lösungen von Gleichungen:
n−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 < xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
n+r−1
• Es gibt
verschiedene Vektoren
r−1
(x1 , x2 , . . . xr ) mit 0 ≤ xi ∈ N, welche
x1 + x2 + · · · + xr = n erfüllen.
• Es gibt n+r−1
Möglichkeiten, eine ungeordner
te Stichprobe der Länge r aus einer Menge vom
Umfang n zu bilden, wenn ‘mit Zurücklegen’
und ohne Berücksichtigung der Reihenfolge gezogen wird.
2
Wahrscheinlichkeitsaxiome
Rechenregeln für Mengen: Für Ereignisse E, F, G
und Ei , i = 1, . . . n gelten:
∞
[
paarweise
!
Ei
=
∞
X
disjunkter
P(Ei )
i=1
i=1
Diese Eigenschaft wird auch σ-Additivität genannt.
Proposition: Es gelten folgende Eigenschaften:
i) P(∅) = 0
ii) Für
jede
Folge
paarweise
disjunkter
E1 , E2 , . . . , En ⊆ Ω gilt:
!
n
n
[
X
P
Ei =
P(Ei )
i=1
i=1
iii) Für jedes Ereignis E gilt: P(E c ) = 1 − P(E)
iv) Für alle E, F gilt: E ⊂ F → P(E) ≤ P(F )
v) Für alle Ereignisse E, F gilt: P(E∪F ) = P(E)+
P(F ) − P(E ∩ F )
vi) Für Ereignisse E1 , E2 , . . . , En gilt:
P(E1 ∪· · ·∪En ) =
n
X
i=1
X
i1 <i2 <i3
P(Ei )−
X
P(Ei1 ∩Ei2 )+
i1 <i2
P(Ei1 ∩Ei2 ∩Ei3 )−. . . (−1)n+1 P(E1 ∩· · ·∩En )
3. BEDINGTE WAHRSCHEINLICHKEIT UND UNABHÄNGIGKEIT
Laplace-Experimente: Auf einem endlichen
Grundraum Ω = {1, . . . N } nehmen wir alle Elementarereignisse als gleichwahrscheinlich an, also gilt
wegen σ-Additivität:
1
,
N
3
Hüte aus, die nicht die eigenen
sind. Es ergeN
ben sich im ersten
Schritt
und im zweiten
k
1
1
+ 3!
− . . . (−1)N +1 N1 ! )
Schritt (N − k)! 1 − (1 − 2!
Möglichkeiten. Damit ist
|F |
P(F ) =
|Ω|
N
1
1
N +1 1
Dann gilt für ein Ereignis E ⊂ Ω:
k · (N − k)! 1 − (1 − 2! + 3! − . . . (−1)
N! )
=
N!
X
|E|
P(E) =
P({i}) =
1
1
1
1
|Ω|
=
1 − (1 − + − . . . (−1)N +1 )
i∈E
k!
2! 3!
N!
1
Hier bedeutet |E| die Mächtigkeit von E.
≈ e−1
k!
Beispiel Hut-Problem: Die N Hüte von N Persobei großen N für k ∈ N. Diese Zahlen approximieren
nen werden gemischt und jeder zieht zufällig einen.
die Poissonverteilung zum Parameter λ = 1, die wir
Wie groß ist die Wahrscheinlichkeit, dass
später kennenlernen werden.
a) keiner der Besucher seinen eigenen Hut erhält?
b) genau k Besucher ihre eigenen Hüte erhalten?
P({i}) =
1 ≤ i ≤ N.
L: a) Ω = {(i1 , . . . , iN ) : 1 ≤ ij ≤ N, ij 6= ik ,fürj 6=
k} Ereigniss Ej : Besucher Nr. j erhält Hut Nr. ij = j
(seinen eigenen) werde dann beschrieben durch Ej =
{(i1 , . . . , iN ) ∈ Ω : ij = j}1 ≤ j ≤ N berechnet wird
c
) = 1 − P(E1 ∩ · · · ∩ EN ) mithilfe
P(E1c ∩ · · · ∩ EN
der Formel aus Prop. vi). Für n ≤ N seien gegeben
1 ≤ j1 < . . . jn ≤ N Dann ist Ej1 ∩ · · · ∩ Ejn =
{(i1 , . . . , iN ) ∈ Ω : ij1 = j1 , . . . , ijn = jn } mit
|E ∩···∩E |
P(Ej1 ∩ · · · ∩ Ejn ) = j1 |Ω| jn = (NN−n)!
!
Mit Prop. vi) folgt dann,
P(
N
[
Ei ) = N ·
i=1
(N − 1)!
N!
(N − 2)!
N!
(N − 3)!
+ |{(j1 , j2 , j3 ) : 1 ≤ j1 < j2 < j3 ≤ N }| ·
N!
N +1 1
− · · · + (−1)
N!
N
N
(N − 2)!
(N − 3)!
=1−
·
+
·
2
N!
3
N!
1
− · · · + (−1)N +1
N!
1
1
1
= 1 − (1 − + − . . . (−1)N +1 )
2! 3!
N!
≈ e−1
− |{(j1 , j2 ) : 1 ≤ j1 < j2 ≤ N }| ·
für N groß.
b) Ereignis F: Genau k Personen erhalten ihre eigenen Hüte
In Schritt 1 wählen wir k Personen aus, die
ihre eigenen Hüte bekommen und in Schritt 2
wählen wir für die restlichen N − k Personen
3
Bedingte Wahrscheinlichkeit
und Unabhängigkeit
Für Ereignisse E, F gilt:
P(E) = P(E|F ) · P(F ) + P(E|F c ) · P(F c )
Proposition: Seien S
E1 , . . . , En paarweise disjunkte
n
Ereignisse mit Ω = i=1 Ei . Sei E ein weiteres Ereignis. Es gilt Folgendes:
i)
P(E) = P(
n
[
(E ∩ Ei )) =
n
X
i=1
=
n
X
P(E ∩ Ei )
i=1
P(E|Ei ) · P(Ei )
i=1
ii) aus i) folgt für 1 ≤ j ≤ n:
P(E|Ej ) · P(Ej )
P(Ej |E) = Pn
i=1 P(E|Ei ) · P(Ei )
Die Ereignisse E und F heißen unabhängig, falls gilt
P(E|F ) = P(E).
Dies ist äquivalent zur folgenden Definition.
Definition (Unabhängigkeit) Die Ereignisse E und
F heißen unabhängig, falls gilt
P(E ∩ F ) = P(E) · P(F ).
Propositon: Sind die Ereignisse E und F unabhängig, so sind es auch E und F c .
Beispiel (zweifacher fairer Münzwurf:) Sind die folgenden Ereignisse unabhängig:
4
• E : Augensumme ist 7
Dies lässt sich auf Folgen von n bzw. unendlich vielen
Versuchen verallgemeinern. Dabei gilt immer: sind
(Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur
von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw.
(Ei )i∈N unabhängig.
• F : der erste Wurf ergibt 4
• G : der zweite Wurf ergibt 3
L:
Beispiel: Eine unendliche Folge von Versuchen
wird durchgeführt. Jeder Versuch hat zwei mögliche
F = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)},
Ausgänge, Erfolg und Misserfolg. Die Wahrscheinlichkeit für Erfolg sei p, die für Misserfolg 1 − p, für
G = {(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3)}
eine Zahl p ∈ [0, 1]. Wie groß ist die WahrscheinlichWeil E ∩ F = E ∩ G = F ∩ G = {(4, 3)} und
keit, dass
P(E) = P(F ) = P(G) = 16 sind die drei Ereignisse (paarweise) unabhängig. E ist jedoch nicht una) mindestens ein Erfolg in den ersten n Versuchen
abhängig von F ∩ G, denn P(E|F ∩ G) = 1.
erzielt wird?
Definition: Seien E1 , . . . , En bzw. (Ei )i∈N EreignisE = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)},
se.
i) E1 , . . . , En sind unabhängig, wenn für jedes
r ≤ n, 1 ≤ i1 < · · · < ir ≤ n gilt:
P(Ei1 ∩· · ·∩Eir ) = P(Ei1 ) · · · P(Eir ) =
r
Y
P(Eij )
j=1
ii) (Ei )i∈N heißen unabhängig, falls für jedes
endliche S ⊂ N gilt:
\
Y
P(
Ei ) =
P(Ei )
i∈S
i∈S
Formalisierung von Versuchsfolgen: Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen
wir Versuche. Ω1 = Ω2 seien endliche Grundräume
von 2 Teilexperimenten, P1 = P2 Wahrscheinlichkeitsmaße darauf. Nehmen wir Ω1 = Ω2 = {1, . . . , N }
an, so betrachten wir als Grundraum für die Aufeinanderfolge der Versuche, das Gesamtexperiment,
Ω = Ω1 × Ω2 = {(i, j) : i ∈ Ω1 , j ∈ Ω2 }. Für
E ⊂ Ω1 × Ω2 setzen wir
X
P(E) =
P1 ({i}) · P2 ({j})
b) genau k Erfolge in den ersten n Versuchen erzielt werden (1 ≤ k ≤ n).
L:a): Sei Ei das Ereignis “Erfolg im iten Versuch”.
Dann ist E1c ∩ · · · ∩ Enc “Misserfolg in Versuchen 1 bis
n” und (E1c ∩ · · · ∩ Enc )c das Ereignis “mindestens ein
Erfolg in den Versuchen 1 bis n.” Also gilt
P((E1c ∩ · · · ∩ Enc )c ) = 1 − P(E1c ∩ · · · ∩ Enc )
n
Y
P(Eic ) = 1 − (1 − p)n
=1−
i=1
b): T
Sei T ⊂ {1, . T
. . , n} mit |T | = k gegeben. Betrachc
te ( i∈T Ei ) ∩ ( i∈T
/ Ei ) : Erfolg in den Versuchen
i ∈ T , Misserfolg in den anderen. Dann gilt wegen
Unabhängigkeit
P((
\
Ei ) ∩ (
i∈T
(i,j)∈E
\
Eic )) =
Y
i∈T
i∈T
/
k
P(Ei ) ·
Y
P(Eic )
i∈T
/
n−k
= p (1 − p)
Für Ereignisse E1 , E2 , die nur von Versuch 1 bzw. 2
abhängen muss gelten E1 = F1 × Ω2 , E2 = Ω1 × F2
wobei F1 ⊂ Ω1 , F2 ⊂ Ω2 . Es folgt nach Definition Sei schließlich E das Ereignis “genau k Erfolge in n
Versuchen”. Dann ist
Unabhängigkeit von E1 und E2
P(E1 ∩ E2 ) = P(F1 × F2 )
X
=
P1 ({i}) · P2 ({j})
E=
[
[(
\
T ⊂{1,...,n},|T |=k i∈T
Ei ) ∩ (
\
Eic )].
i∈T
/
(i,j)∈F1 ×F2
X
=
P1 ({i}) · P2 ({k})
Also:
(i,k)∈F1 ×Ω2
·
X
P1 ({k}) · P2 ({j})
(k,j)∈Ω1 ×F2
= P(E1 ) · P(E2 )
P(E) = |{T ⊂ {1, . . . , n} : |T | = k}| · pk (1 − p)n−k
n
=
· pk (1 − p)n−k .
k
4. ZUFALLSVARIABLEN
4
5
Zufallsvariablen
Damit folgt für n ∈ N :
Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, F, P) ist eine (messbare) Abbildung
n n
N
N −2
N −1
−
+ ...
N
2
N
n
N
0
+ (−1)N −1
N
N
n
N
−1
X
N
N −i
.
=
(−1)i+1
N
i
i=1
P(T > n) = N
X : Ω → Rn ,
wobei wir Rn mit der Borel-σ-algebra versehen. Die
Definition von Messbarkeit erfordert, dass F selbst
eine σ-algebra ist. Wir ignorieren dieses technische
(aber wichtige) Detail im Folgenden. Zufallsvariablen, die nur abzählbar viele Werte {xi } mit positiver
Wahrscheinlichkeit annehmen, heißen diskret. In diesem Fall bezeichnen wir mit
pX (xi ) := p(xi ) = P(X = xi )
4.1
Erwartungswert und Varianz
Definition: Der Erwartungswert einer diskreten Zufallsvariable X mit Werten in R und Massenfunktion
p ist definiert durch:
die Verteilung oder Massenfunktion von X.
X
E(X) =
x · p(x),
Beispiel: Es gebe N verschiedene Arten von Coux:p(x)>0
pons, die wir (unabhängig von den vorhergehenden
Versuchen) beliebig oft erhalten. Bei jedem Versuch
erhalten wir mit gleicher Wahrscheinlichkeit einen der sofern diese Reihe wohldefiniert ist, d.h.
N Coupons. Sei T die Anzahl von Coupons, die nötig
X
sind, bis man einen kompletten Satz aller N besitzt.
|x| · p(x) < ∞.
Wir suchen die Verteilung von T , d.h.
x:p(x)>0
P(T = n) = pT (n), n ≥ 1
Beispiel: Für ein Ereignis A sei 1A : Ω −→ R
L: Es ist einfacher, P(T > n) für n ∈ N zu berechnen und dann die Formel P(T = n) = P(T >
n − 1) − P(T > n) zu nutzen. Sei dazu
Aj : kein j-Coupon in den ersten n Zügen.
Dann gilt,
{T > n} =
N
[
(
1,
ω−
7 →
0,
ω ∈ A,
ω∈
/A
die Indikatorfunktion von A. Es gilt p1A (0) = 1 −
P(A), p1A (1) = P(A), und damit
E(1A ) = 1 · P(A) = P(A).
Aj
j=1
Propositon: Sei X eine ZV mit Werten {xi }i∈N und
Verteilung pX . Sei g : R −→ R eine Funktion. Dann
gilt:
∞
X
E(g(X)) =
g(xi )p(xi ),
also nach dem Additionstheorem
P(T > N )
= P(
N
[
Aj )
j=1
=
N
X
P(Aj ) −
j=1
i=1
X
P(Aj1 ∩ Aj2 ) + . . .
j1 <j2
N +1
. . . + (−1)
P(A1 ∩ · · · ∩ An )
∞
X
|g(xi )|p(xi ) < ∞.
i=1
Nun gilt für 1 ≤ j ≤ N :
P(Aj ) =
falls
N −1
N
n
.
Allgemeiner gilt für 1 ≤ j1 < · · · < jk ≤ N :
n
N −k
P(Aj1 ∩ · · · ∩ Ajk ) =
.
N
Rechenregeln: Seien a, b ∈ R, X, Y ZV mit Massenfunktionen pX , pY und existierenden Erwartungswerten. Dann gilt
i) E(aX + b) = aE(X) + b
ii) E(X + Y ) = E(X) + E(Y )
6
Definition: Sei X einePZV mit Massenfunktion
n
p, n ∈ N, und es gelte
x:p(x)<0 |x| · p(x) < ∞.
Dann heißt
X
E(|X|n ) =
|x|n · p(x)
Die Poissonverteilung ist ein Grenzfall der Binomialverteilung: Für eine Folge (Xn )n∈N binomialverteilter
ZV zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt für k ≥ 0:
x:p(x)>0
lim pXn (k) =
n→∞
das n-te Moment von X.
Definition: Sei X eine diskrete ZV mit E(X) = µ.
Dann heißt
λk −λ
e
k!
sofern
lim npn = λ.
n→∞
Die Poisson Verteilung findet als Approximation der
Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. Für Erwartungswert
die Varianz von X. Durch Anwenden der Definition
und Varianz einer Poisson-verteilten ZV X gilt:
des Erwartungswertes erhält man
E(X) = λ und V ar(X) = λ
V ar(X) = E(X 2 ) − µ2 = E(X 2 ) − E(X)2 .
Geometrische Verteilung: Folgt X einer geomeRechenregel: Seien a, b ∈ R, X eine diskrete ZV mit trischen Verteilung zum Parameter p, geschrieben
existierender Varianz. Dann gilt
X ∼ G(p),
V ar(aX + b) = a2 V ar(X)
so ist seine Massenfunktion gegeben durch
V ar(X) = E([X − µ]2 )
4.2
pX (n) = (1 − p)n−1 · p.
Spezielle diskrete Verteilungen
Binomialverteilung zu den Parametern n ≥ 2 und Erwartungswert und Varianz sind gegeben durch
p: die Massenfunktion ist gegeben durch
(1 − p)
1
E(X) = und V ar(X) =
n i
p
p2
pX (i) =
p (1 − p)n−i , 0 ≤ i ≤ n
i
Die geometrische Verteilung beschreibt die Wartezeit
Eine binomialverteilte ZV X zu den Parametern auf den ersten Erfolg bei der unabhängingen Wiederholung eines Experiments.
(n, p) hat den Erwartungswert
E(X) = np
und die Varianz
V ar(X) = np(1 − p).
Wir schreiben für eine solche ZV
X ∼ B(n, p).
Negative Binomialverteilung: Eine ZV X heißt
negativ binomialverteilt mit Parametern (r, p), wenn
r
n−r n − 1
,n ≥ r
pX (n) = p (1 − p)
r−1
Erwartungswert und Varianz einer negativ binomialverteilten ZV X zu den Parametern (r, p) sind gegeben durch
r
r(1 − p)
E(X) = und V ar(X) =
Hierbei steht B(n, p) für binominalverteilt zu den
p
p
Parametern (n, p). Die Binomialverteilung schreibt
die Anzahl von Erfolgen bei unabhängingen Wieder- Hypergeometrische Verteilung: Eine ZV X
heißt hypergeometrisch verteilt zu den Parametern
holungen des gleiches Experiments.
(n, N, m), wenn
Poissonverteilung: Die Massenfunktion einer
N −m
m
Poisson-verteilten ZV X zum Parameter λ > 0 ist
i · n−i
pX (i) =
gegeben durch
N
n
λk −λ
e , k ≥ 0.
pX (k) =
k!
Wir schreiben in diesem Fall
X ∼ π(λ).
Erwartungswert und Varianz einer hypergeometrisch
verteilten ZV X mit Parametern (n, N, m) sind gegeben durch
E(X) = n
m
m
m N −n
und V ar(X) = n (1 − )
N
N
n N −1
5. ABSOLUTSTETIGE VERTEILUNGEN
Eigenschaften von Verteilungsfunktionen: Sei
X eine diskrete ZV. Die Funktion
7
n
k−
Mit xn (k) = √ n2 , 0 ≤ k ≤ n, n ∈ N gilt dann:
4
F (x) := P(X ≤ x), x ∈ R
r
pn (k)
n
lim
max
− 1 = 0
n→∞ k:|xn (k)|≤c ϕ(xn (k))
4
heisst Verteilungsfunktion (oder kumulative Verteilungsfunktion), abgekürzt CDF. Es gilt:
i) F ist monoton wachsend, d.h. F (a) ≤ F (b),
falls a ≤ b
ii) lim F (b) = 1
b→∞
iii)
Als unmittelbare Folgerung erhalten wir, dass die
Verteilungen der standardisierten Variablen Xn∗ mit
n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale GaußVerteilung - die wir später genauer betrachten:
Korollar: Für a, b ∈ R, a < b, gilt
lim F (b) = 0
b→−∞
iv) F ist rechtsstetig, d.h. F (bn ) ↓ F (b), falls bn ↓ b.
lim P(a ≤
5
n→∞
Absolutstetige Verteilungen
5.1
Xn∗
Zb
≤ b) =
ϕ(x)dx
a
Approximation der Binomialver- Definition: Eine ZV X heißt absolutstetig verteilt
teilung
mit Dichte
f : R → R+ (f Riemann-integrierbar),
R
Wir betrachten eine Folge (Xn )n∈N ∼ B(n, pn ) binomialverteilter ZVen. Dann gilt
E(Xn ) = npn sowie V ar(Xn ) = npn (1 − pn ).
Gilt npn → λ < ∞, so kann die Binomialverteilung
für grosse n durch die Poissonverteilung approximiert
werden:
B(n, pn ) ≈ π(λ),
falls
f (t)dt = 1 und
R
Z
P(X ∈ B) =
Z
f (t)dt =
B
1B (t)f (t)dt
R
für alle (Borel messbaren) Mengen B gilt. Die Funktion
d.h. für kleine p approximieren wir B(n, p) durch
π(λ). Ist pn ≡ p, so gilt
E(Xn ) = np ↑ ∞ sowie V ar(Xn ) = np(1 − p) ↑ ∞.
Zx
F : R → [0, 1], x 7−→ P(X ≤ x) =
f (t)dt
−∞
In diesem Fall müssen wir Xn standardisieren. Dazu
definieren wir für n ∈ N:
heißt dann Verteilungsfunktion von X. Insbesondere
gilt
Xn − E(Xn )
Xn − np
∗
Xn := p
=p
Z ∞
V ar(Xn )
np(1 − p)
1 − F (x) =
f (t)dt.
x
Ziel ist es nun, in geeigneter Weise die Wahrscheinlichkeit
Man beachte, dass für eine absolutstetige ZV mit
k − np
P(Xn = k) = P Xn∗ =
=: pn (k)
Dichte f und Verteilungsfunktion F gilt
np(1 − p)
anzunähern. Dazu betrachten wir nun den Fall p =
0.5, d.h.
1
Xn ∼ B(n, ).
2
Satz von de Moivre/Laplace: Sei c > 0. Sei
−x2
1
ϕ(x) = √ · e 2 ,
2π
x ∈ R.
Z
x
P(X = x) =
f (t)dt = 0
x
sowie, falls f stetig,
F 0 = f.
8
5.2
Erwartungswert und Varianz
−x2
2
Definition: Für f (x) = ϕ(x) = √12π · e
(standard) normalverteilt. Wir schreiben
heißt X
Folglich auch
d
E(Ct (X))
dt
Zt
f (x)dx + ktf (t) − ktf (t)
= k
0
X ∼ N (0, 1).
Z∞
−ctf (t) − c
Definition:
Sei X absolutstetig verteilt mit Dichte
R
f . Falls |xf (x)|dx < ∞, heißt
=
R
xf (x)dx
R
0=
Erwartungswert von X.
Proposition: Sei X absolutstetig verteilt mit Dichte
fR . Sei g : R → R eine (messbare) Funktion, so dass
|g(x)|f (x)dx < ∞. Dann gilt
R
Z
E(g(X)) =
(c + k)F (t) − c
Die kritischen Punkte der Funktion t 7−→ E(Ct (X))
sind also bestimmt durch die Gleichung
Z
E(X) =
f (x)dx + ctf (t)
t
g(x)f (x)dx.
d
E(Ct (X)) = (c + k)F (t) − c,
dt
also durch die Bedingung
F (t) =
c
.
c+k
Es handelt sich um ein Minimum, da
d2
E(Ct (X)) = (c + k)f (t) ≥ 0.
dt2
R
Lemma: Sei 0 ≤ Y eine ZV(diskret oder absolutsteKorollar: Seien a, b ∈ R, X eine absolutstetige ZV
tig verteilt). Dann gilt
mit existierender Erwartung, dann gilt
Z∞
E(aX + b) = aE(X) + b
E(Y ) = P(Y > y)dy.
Definition: Sei
R X eine absolutstetige ZV mit Dichte
f , sodass gilt x2 f (x)dx < ∞. Dann heißt
0
Beispiel: Falls A zu einer Verabredung s Minuten zu
R
spät kommt, kostet es ihn cs Euro, falls er s Minuten
V ar(X) = E([X − E(X)]2 ) = E(X 2 ) − E(X)2
zu früh kommt, ks Euro. Die Reisezeit von A’s Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Zu welcher Zeit muss A aufbrechen, die Varianz von X.
Rechenregel: Für a, b ∈ R gilt
um seine Kosten zu minimieren?
L.: Sei X die Reisezeit von A, t die Anzahl der ZeitV ar(aX + b) = a2 V ar(X).
einheiten von A’s Aufbruch zur verabredeten Treffzeit. Dann sind A’s Kosten
5.3 Spezielle absolutstetige Verteilun(
c(X − t), X ≥ t,
gen
Ct (X) =
k(t − X), X ≤ t.
Gleichverteilung: Seien α, β ∈ R, α < β. Eine ZV
X heißt gleichverteilt auf [α, β], wenn die Dichte von
Damit gilt
X die Form hat
(
Zt
Z∞
1
, α ≤ x ≤ β,
E(Ct (X)) =
k(t − x)f (x)dx + c(x − t)f (x)dx
f (x) = β−α
0,
sonst.
t
0
Zt
Zt
f (x)dx − k
= kt
0
xf (x)dx
0
Z∞
Z∞
xf (x)dx − ct
+c
t
f (x)dx
t
Für die Verteilungsfunktion einer so verteilten ZV gilt

0,
x≤α


Rx
1
F (x) =
β−α dt, α ≤ x ≤ β,

α


1,
β ≤ x.
5. ABSOLUTSTETIGE VERTEILUNGEN
Lemma: Sei X gleichverteilt auf [α, β]. Es ist
Zβ
x
E(X) =
1
1
dx = (β + α)
β−α
2
α
2
Zβ
E(X ) =
1
1
x
dx = (β 2 + βα + α2 )
β−α
3
2
α
also
9
Gilt µ = 0 und σ = 1, so nennt man X standardnormalverteilt.
Proposition: Ist X normalverteilt zu den Parametern (µ, σ 2 ), und β ∈ R, 0 < α ∈ R, so ist Y = αX +β
normalverteilt zu den Parametern (αµ + β, α2 σ 2 ).
Beispiel: Angenommen, 52% aller Berliner seien für
ein striktes Alkoholverbot in der S-Bahn. Wie groß
muss eine Umfrage sein, damit mit mindestens 95%
Wahrscheinlichkeit die Hälfte der Befragten für ein
Verbot ist?
1
(β − α)2 .
12
L.: Zunächst stellen wir fest, dass die hypergeometrische Verteilung durch die Binomialverteilung approximiert werden kann: Sei X hypergeometrisch verteilt
Beispiel (Bertrand Paradox): Betrachte eine zu den Parametern (n, N, m). Es gelte N, m → ∞ so,
zufällige Sekante auf einem Kreis mit Radius r. Mit dass m → p ∈ [0, 1]. Dann konvergiert
N
welcher Wahrscheinlichkeit ist die Länge der Sekante
N −m
m
größer als die Seite eines gleichseitigen Dreiecks, das
n i
i · n−i
dem Kreis einbeschrieben ist?
P(X = i) =
−→
p (1 − p)n−i .
N
i
n
Lösung 1: Sei X die Distanz der Sekante vom Ursprung des Kreises; Annahme: X gleichverteilt auf
Also gegen eine Binomialverteilung zu den Parame[0, r]. Dann ist E: die Länge der Sekante ist größer
tern (n, p). Sei nun
als die Seite des Dreiecks, d.h. E = {X ∈ [0, r]}, also
• N die Zahl aller Berliner,
r
Z2
1
1
r
• n die Anzahl der Befragten und
dx =
P(E) = P(X ∈ [0, ]) =
2
r
2
0
• Sn die Zahl derjenigen unter den Befragten, die
für ein Verbot sind.
Lösung 2: Sei θ der Winkel zwischen Sekante und
V ar(X) = E(X 2 ) − E(X)2 =
Tangente an den Kreis in einem Schnittpunkt; Annahme: θ gleichverteilt auf [0, 180]. Dann ist E: Länge
größer als Seite des Dreiecks, d.h. E = {θ ∈ [60, 120]},
also
Z120
P(E) = P(θ ∈ [60, 120]) =
1
1
dx =
180
3
Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0.52 · N ) (vgl. Urnenmodelle ohne
Zurücklegen). Aus den obigen Überlegungen und weil
N und 0.52 · N sehr groß werden, folgt, dass wir
die Verteilung von Sn durch eine Binomialverteilung
annähern können. Genauer gilt folgendes Lemma.
Lemma: Sei X hypergeometrisch verteilt zu den Parametern (n, N, m), d.h.
Dieses Beispiel zeigt, dass es sehr wesentlich auf die
m N −m
Modellierung eines Problems ankommt.
i
n−i
P(X = i) =
.
N
60
n
Normalverteilung: Seien µ ∈ R, σ 6= 0. Eine ZV X
heißt normalverteilt zu den Parametern (µ, σ 2 ), wenn Gilt nun N, m → ∞ mit m
N → p, so gilt
X die Dichte
m i
P(X = i) →
p (1 − p)n−i .
1
(x − µ)2
i
f (x) = √
exp −
,
x
∈
R
2σ 2
2πσ 2
Bemerkung: Die Intuition hinter obigem Lemhat. Wir schreiben
ma ist klar: die hypergemometrische Verteilung beschreibt die Anzahl der Erfolge beim “Ziehen ohX ∼ N (µ, σ 2 ).
ne Zurücklegen”, die Binomialverteilung die Anzahl
2
Erwartungswert und Varianz von X ∼ N (µ, σ ) sind der Erfolge beim “Ziehen mit Zurücklegen”. Ist die
Grundgesamtheit gross, so fällt der Unterschied nicht
gegeben durch
ins Gewicht.
2
E(X) = µ und V ar(X) = σ
10
Unter Verwendung des obigen Lemmas liefert nun die Für X ∼ E(λ) gilt
Annäherung der Binomial- durch eine NormalverteiZ∞
lung:
P(X > t) = λe−λx dx = e−λt , t ≥ 0.
P(Sn > 0.5n)
t
!
0.5n − 0.52n
Sn − 0.52n
Somit folgt unmittelbar die Gedächtnislosigkeit ex= P p
>p
n(0.52)(0.48)
n(0.52)(0.48)
ponentialverteilter ZVen.
!
√
Sn − 0.52n
= P p
> −0.4 n
n(0.52)(0.48)
6 Gemeinsame
Verteilungen
√
≈ Φ(0.04 n)
von Zufallsvariablen
Dabei ist Φ die Verteilungsfunktion√der Standardnor- Definition: Seien X, Y ZV’en auf (Ω, P). Die gemalverteilung. Es muss also Φ(0.04 n) > 0.95 gelten, meinsame Verteilungsfunktion von (X, Y ) ist gegeben
folglich, dass n ≥ 1691.266. Das heißt, der Stichpro- durch
benumfang muss mindestens 1692 betragen. Im letzten Schritt haben wir verwendet, dass aus SymmeF (a, b) = P(X ≤ a, Y ≤ b)
triegrünten für eine N (0, 1)-verteilte Zufallsvariable
= P({X ≤ a} ∩ {Y ≤ b}), a, b ∈ R
Z und z < 0 gilt:
P(Z > −z)
=
1 − P(Z ≤ −z)
=
1 − (1 − P(Z ≤ z))
Die Verteilungsfunktion von X bzw. Y erhalten wir
aus der gemeinsamen Verteilungsfunktion: Sei a ∈ R.
Dann gilt
= P(Z ≤ z)
FX (a) = F (a, ∞) := lim F (a, n),
n→∞
Exponentialverteilung: Sei λ > 0. Eine absolutstetige ZV X mit Dichte
Entsprechend gilt für b ∈ R
(
λ · e−λx , x ≥ 0,
FY (b) = F (∞, b) := lim F (n, a).
f (x) =
n→∞
0,
x < 0,
FX , FY heißen Randverteilungen von X, Y .
heißt exponentialverteilt zum Parameter λ. Wir
schreiben
6.1 Unabhängige ZVen
X ∼ E(λ).
Definition: Seien X, Y ZV. (X, Y ) heißen gemeinsam absolutstetig verteilt mit Dichte f , wenn es eine
1
1
Riemann-integrierbare
Funktion f : R2 → R+ gibt
R
E(X) = und V ar(X) = 2 .
mit R2 f (x, y)dxdy = 1, so dass für C ⊂ R2 mit 1C f
λ
λ
Riemann-integrierbar gilt
Eine wesentliche Eigenschaft der ExponentialverteiZ
lung ist die sog. Gedächtnislosigkeit (vgl. hierzu auch
P((X, Y ) ∈ C) =
f (x, y)dxdy
die geometrische Verteilung).
ZC
Definition (Gedächtnislosigkeit): Eine ZV X ≥ 0
=
1C (x, y)f (x, y)dxdy.
heißt gedächtnislos, wenn für s, t ≥ 0 gilt
2
Erwartungswert und Varianz sind gegeben durch
R
P(X > s + t|X > t) = P(X > s).
Falls f stetig, gilt
Denkt man an die zufällige Lebenszeit eines Pro∂ ∂
F (x, y), x, y ∈ R
f (x, y) =
dukts, so bedeutet diese Bedingung, die Wahrschein∂x ∂y
lichkeit, nach einem Zeitpunkt t weitere s Zeiteinheiten zu überleben, ist nicht von t abhängig. Die Definition: Zwei ZV’en (X, Y ) heißen unabhängig,
wenn für a, b ∈ R gilt
Bedingung ist äquivalent zu
P(X > s + t) = P(X > s) · P(X > t),
s, t ≥ 0.
P(X ≤ a, Y ≤ b) = P(X ≤ a) · P(Y ≤ b).
6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN
Somit gilt Unabhängigkeit, genau dann, wenn für die
gemeinsame Verteilungsfunktion F und die marginalen Verteilungsfunktionen FX , FY gilt
F (x, y) = FX (x)FY (y),
x, y ∈ R
Äquivalent gilt die Gleichung in analoger Form mit
p, pX , pY (Massenfunktionen) bzw. f, fX , fY (Dichtefunktionen) für diskrete bzw. absolutstetige X, Y .
6.3
11
Statistik für unabhängige normalverteilte ZV’en
Definition: Seien X1 , . . . , Xn unabhängige ZV’en
auf (Ω, F, P). Sie heißen identisch verteilt (i.i.d.),
wenn
P(Xk ≤ x) = P(Xl ≤ x) ∀k, l = 1, . . . , n, ∀x ∈ R.
Markov Ungleichung: Sei X ≥ 0 eine ZV mit
E(X) = µ und 0 < a ∈ R, dann gilt:
Außerdem lässt sich zeigen, dass Unabhängigkeit von
E(X)
X, Y gilt, genau dann wenn {X ∈ A}, {Y ∈ B} unP(X ≥ a) ≤
a
abhängig sind, für alle messbaren Mengen A, B ∈ R,
das sind zum Beispiel Intervalle.
Korollar (Chebyshev Ungleichung): Sei X eine
ZV mit E(X) = µ und V ar(X) = σ 2 . Dann gilt für
η > 0:
6.2 Summen unabhängiger ZVen
V ar(X)
.
P(|X − µ| > η) ≤
η2
Definition: Seien X und Y absolutstetig verteilt mit
Dichten fX bzw. fY . Die Dichte fX+y von X+Y heißt Korollar(schwaches Gesetz der großen Zahlen): Seien X1 , . . . , Xn i.i.d. N (µ, σ 2 )-verteilt und
Faltung der Verteilungen von X und Y . Es gilt
> 0 beliebig. Es gilt dann:
Z
fX+Y (x) = fX (x − y)fY (y)dy =: fX ∗ fY (x).
lim P |X n − µ| > = 0,
n→∞
Gammaverteilung: Eine absolutstetige ZV X heißt wobei X n als das arithmetische Mittel der ersten n
gammaverteilt zu den Parametern (s, λ), geschrieben, ZV’en definiert ist:
X1 + · · · + Xn
X n :=
n
X ∼ Γ(s, λ)
Im Folgenden geht es darum, aufgrund von Realiwenn sie die Dichte
sierungen x1 , . . . xn , Aussagen über die Parameter
(µ, σ 2 ) von i.i.d. normalverteilten ZV’en X1 , . . . , Xn
(
(λx)s−1
−λx
, x ≥ 0,
zu machen.
Γ(s) λe
f (x) =
0,
sonst
besitzt. Im Fall s = n2 , λ = 12 spricht man von der Schätzer für µ bei bekanntem σ:
Chi-Quadrat-Verteilung mit n Freiheitsgraden, geDer naive Schätzer Xn ist vernünftig; er konvergiert,
schrieben
im
Sinne des schwachen Gesetzes der großen Zahlen,
X ∼ χ2(n) .
gegen den wahren Wert und ist erwartungstreu in
Proposition: Seien X , . . . X unabhängige ZV’en, dem Sinne, dass
1
n
alle exponentialverteilt zum Parameter λ. Dann ist
X1 + · · · + Xn gammaverteilt zu den Parametern
(n, λ).
Proposition: Seien Z1 , . . . Zn unabhängige ZV’en,
alle standard-normalverteilt. Dann ist Z12 + · · · + Zn2
gammaverteilt zu den Parametern ( n2 , 21 ).
E(Xn ) = µ ∀µ.
Hypothesentest für µ: Bei gegebenem µ0 sind unsere Hypothesen:
H0 : µ = µ0 ,
H1 : µ 6= µ0 ,
vernünftig ist es, H1 anzunehmen, falls |xn − µ0 | > η,
Proposition: Seien X1 , . . . Xn unabhängige ZV’en, für η so gewählt, dass der Test eine vorgegebene Irralle normalverteilt, zu den Parametern (µi , σi ), 1 ≤ tumswahrscheinlichkeit α nicht übersteigt, also dass
i ≤ n. Dann ist X1 + · · · + X
pn normalverteilt zu den
Pµ0 ,σ (|Xn − µ0 | > η) ≤ α.
Parametern (µ1 + · · · + µn , σ12 + · · · + σn2 ).
Proposition: Die Summe unabhängiger, poissonver- Wir wählen folglich η aus einer N (0, 1)-Tafel so aus,
η√ teilter ZV’en X1 + · · · + Xn mit Xi ∼ π(λi ), ∀i ist dass
α
Φ
n =1−
ebenfalls poissonverteilt zum Parameter λ1 +· · ·+λn .
σ
2
12
Wir nehmen H1 an, wenn |xn − µ0 | > η.
Aus einer χ2n Tafel erhält man γ 0 = γ ·
Beim einseitigen Testproblem, mit Hypothesen:
H0 : µ ≥ µ0 ,
Pµ,σ (
H1 : µ < µ0
n
σ2
so dass
n · Sn2
< γ0) = α
σ2
Konstruktion eines Konfidenzintervalles zum
ist es vernünftig, H1 anzunehmen, falls xn < η. Niveau α: Unser Ansatz ist:
Hierbei wird η ∈ R so gewählt, dass für gegebenes
n · Sn2
0 < α < 1:
ψ1 (x1 , . . . , xn ) =
η1
Pµ,σ (Xn < η) ≤ α ∀µ ≤ µ0
n · Sn2
ψ2 (x1 , . . . , xn ) =
η2
Daher wählen wir η so, dass
Φ
η − µ0 √
n
σ
wobei η1 > η2 und
= α.
Konstruktion eines Konfidenzintervalles zum
Niveau α: Gesucht werden die Grenzen des Intervalls
I(x1 , . . . , xn ) = [ψ1 (xn ), ψ2 (xn )],
in dem µ vermutet wird. Es soll für gegebenes α gelten
P(µ ∈
/ I(x1 , . . . , xn )) ≤ α ∀µ
Aus dem Ansatz
σ
ψ1,2 (xn ) = xn ± η · √
n
folgt, dass η so zu wählen ist, dass
Φ(n) = 1 −
α
2
Schätzer für σ bei bekanntem µ:
Der Schätzer
n
1 X
Sn2 = ·
(Xi − µ)2
n i=1
∀σ.
Aus einer χ2n Tafel kann man η1 , η2 so wählen, dass
n · Sn2
≤ η1 )
σ2
n · S2
P( 2 n < η2 )
σ
P(
=
1−
=
α
2
α
2
Schätzer für µ bei unbekanntem σ
Wir ersetzten das unbekannte σ durch eine gute
Schätzung. Wir betrachten daher die Zufallsvariable
X̄ n −µ √ √
n
X̄ n − µ
= qσ
n−1
T := q
2
S̄n
n
2
(n−1)S̄n
σ2
Die Struktur von T is die folgende:
X
T = √ ·m
Y
wobei X, Y unabhänging, N ∼ N (0, 1) und Y ∼ χ2m .
Man kann nun zeigen, dass T eine sog. tm -Verteilung
besitzt , d.h. in unserem Fall
T ∼ tn−1 .
mit Realisierung
s2n
Pµ,σ (ψ1 ≤ σ 2 ≤ ψ2 ) = 1 − α
n
1 X
= ·
(xi − µ)2
n i=1
Man kann nun µ durch X̄ n schätzen, sowie Tests
und Konfidenzintervalle konstruieren. Für das letzte
hat man σ 2 such S̄n2 zu ersetzten und die N (0, 1)Verteilung durch die tn−1 -Verteilung.
ist erwartungstreu und konvergiert schwach gegen σ 2 .
n·S 2
σ 2 ist chi-quadrat-verteilt mit n Freiheitsgraden.
Schätzer für σ bei unbekanntem µ
Hypothesentest für σ: Bei bekanntem σ0 lauten
Ist µ unbekannt, so ist
unsere Hypothesen:
n
1 X
H0 : σ ≥ σ0 , H1 : σ < σ0 .
S̃n2 :=
(Xi − X̄ n )2
n − 1 i=1
Wir nehmen H1 an, falls s2n < γ. Hierbei ist γ > 0 so
ein erwartungstreuer Schätzer für das unbekannte σ 2 .
zu wählen, dass
Tests und Konfidenzintervalle konstruiert man wie
Pµ,σ (Sn2 < γ) ≤ α ∀σ ≥ σ0 .
gehabt, unter Verwendung der χ2n−1 -Verteilung.
6. GEMEINSAME VERTEILUNGEN VON ZUFALLSVARIABLEN
6.4
Bedingte Verteilungen
Für y ∈ R mit fY (y) = 0 setzen wir
Sind E, F Ereignisse, so hatten wir die bedingte
Wahrscheinlichkeit von E gegeben F definiert als
P(E|F ) =
fX|Y (x|y) = 0.
P(E ∩ F
.
P(F )
Damit setzen wir für A = [a, b] ⊂ R, x ∈ R
Zb
Seien nun X, Y diskret verteilte ZV’en mit gemeinsamer Massenfunktion p und marginalen Massenfunktionen pX , py .
P(X ∈ A|Y = y)
=
Zx
FX|Y (x|y)
P(X = x, Y = y)
P(Y = y)
p(x, y)
x, y ∈ R.
pY (y)
=
=
=
fX|Y (t|y)dt.
Es werden also Wahrscheinlichkeiten unter Bedingungen interpretiert, die ihrerseits Wahrscheinlichkeit 0
haben!
Beispiel: Die gemeinsame Dichte von X, Y sei gegeben durch
(
k
λ1 + λ2
−x
y
e−y
,
y
Um P(X > 1|Y = y), y ∈ R zu berechnen ist zunächst
Z∞
fY (y) =
x
e− y e−y
dx,
y
0 < y.
0
also für x, y > 0
x
fX|Y (x|y) =
λ2
λ1 + λ2
0 < x, 0 < y,
sonst.
0,
P(X = k, X + Y = n)
P(X + Y = n)
P(X = k, Y = n − k)
P(X + Y = n)
P(X = k)P(Y = n − k)
P(X + Y = n)
n−k
λk
−λ2
1 −λ1 λ2
k! e
(n−k)! e
(λ1 +λ2 )n −(λ1 +λ2 )
e
n!
k n
λ1
e
f (x, y) =
= P(X = k|X + Y = n)
=
=
−∞
Beispiel: Seien X, Y unabhängig Poisson-verteilt zu
den Parametern λ1 bzw. λ2 . Die bedingte Massenfunktion von X gegeben {X + Y = n} berechnet sich
wie folgt:
Für 0 ≤ k ≤ n ist wegen der Unabhängigkeit
=
fX|Y (x|y)dx,
= P(X = x|Y = y)
=
pX|X+Y (k|n)
=
a
Die bedingte Massenfunktion von X gegeben
Y : ist dann
pX|Y (x|y)
13
n−k
Dies ist eine Binomialverteilung zu den Parametern
1
). Allgemeiner, sind X, Y diskret verteilt
(n, λ1λ+λ
2
und unabhängig, so ist für x, y ∈ R
f (x, y)
e− y
=
,
fY (y)
y
und somit für y > 0
.
Z∞
P(X > 1|Y = y)
=
fX|Y (x|y)dx,
1
p(x, y)
pX (x)pY (y)
pX|Y (x|y) =
=
= pX (x).
pY (y)
pY (y)
Z∞
=
1
y
=
x
1
− y1
[−ye− y ]|∞
.
1 =e
y
z
e− y dx
1
Seien X, Y nun gemeinsam absolutstetig verteilt mit
Dichte f und Randdichten fX , fY .
Analog zum diskreten Fall gilt allgemein: sind X, Y
Die bedingte Dichte von X gegeben Y : für absolutstetig verteilt und unabhängig, so ist
x, y ∈ R mit fY (y) > 0 sei
fX|Y (x|y) =
f (x, y)
fY (y)
fX|Y (x|y) =
fX (x)fY (y)
f (x, y)
=
= fX (x), x, y ∈ R.
fY (y)
fY (y)
14
7
Erwartungswert,
und Co-Varianz
Varianz
L.: Zu berechnen ist E(|X
gemeinsame Dichtefunktion
(
1
2,
f (x, y) = L
0,
− Y |). Zunächst ist die
vonX, Y gegeben durch
0 ≤ x, y ≤ L,
Proposition: Seien X, Y diskrete ZV mit gemeinsasonst
mer Massenfunktion p bzw. gemeinsam absolutstetig
2
verteilt mit gemeinsamer Dichte f . Sei g : R → R Nach obiger Proposition folgt
so, dass g(X, Y ) ZV, beispielsweise stetig. Dann gilt
ZL ZL
X
1
E(|X − Y |) =
[ |x − y| 2 dy]dx
E(g(X, Y )) =
g(x, y)p(x, y)
L
{(x,y):p(x,y)>0}
0
=
bzw.
Z∞ Z∞
E(g(X, Y )) =
[
g(x, y)f (x, y)dx]dy,
−∞ −∞
P
falls
{(x,y):p(x,y)>0} |g(x, y)|p(x, y)
R∞ R∞
[ |g(x, y)|f (x, y)dx]dy < ∞.
<
∞ bzw.
0
L
3
Beispiel (Sammeln von Coupons): Es gibt N verschiedene Arten von Coupons. Jedes mal, wenn man
einen Coupon erhält, ist es mit gleicher Wahrscheinlichkeit einer der N Typen. Berechne
a) die erwartete Anzahl von verschiedenen Typen,
nachdem man n Züge gemacht hat,
∞ ∞
7.1
Erwartungswert der Summe von
ZVen
b) die erwartete Anzahl von Coupons, die man erhalten muss, bis man einen kompletten Satz besitzt.
L.: a): Ei : mindestens ein Coupon vom Typ i ist in
Eine wichtige Folgerung aus vorheriger Proposition den ersten n enthalten, 1 ≤ i ≤ N. Mit Xi = 1Ei , 1 ≤
ist: sind X, Y ZVen mit gemeinsamer Dichte f oder i ≤ N ist X = X1 +· · ·+XN die Anzahl verschiedener
gemeinsamer Massenfunktion p und existieren die Er- Typen von Coupons in den ersten n. Es ist
wartungswerte, so gilt mit g(x, y) = x + y, x, y ∈ R,
N
X
N − 1n
etwa im absolutstetigen Fall,
)
E(Xi ) = N (1−P(EiC )) = N (1−
E(X) =
N
i=1
E(X + Y ) = E(g(X, Y ))
b): Für 0 ≤ i ≤ N − 1 sei Yi die Anzahl von VerZ∞ Z∞
suchen, die man benötigt, bis man einen neuen Cou=
[ (x + y)f (x, y)dx]dy
pon erhält. Dann ist Y = Y0 + · · · + YN −1 die An−∞ −∞
zahl von Versuchen, die man benötigt, bis man einen
∞
∞
Z
Z
vollständigen Satz besitzt. Es ist Yi geometrisch ver=
xfX (x)dx +
yfY (y)dy
teilt zum Parameter NN−i also
−∞
−∞
= E(X) + E(Y )
E(Yi ) =
N
,
N −i
0 ≤ i ≤ N − 1.
Der Erwartungswert ist also linear. Hieraus kann man Damit gilt
eine weitere wichtige Eigenschaft des ErwartungswerN
−1
X
tes herleiten, nämlich seine Monotonie. Sind X, Y
N
1
1
E(Y
)
=
= N (1 + + · · · + ).
ZV’en mit X ≤ Y ⇔ Y − X ≥ 0, so gilt
N
−
i
2
N
i=0
0 ≤ E(Y − X) = E(Y ) − E(X)
Beispiel:Ein Unfall ereignet sich an einem Punkt X,
der auf [0, L] gleichverteilt ist. Eine Ambulanz ist zu
dieser Zeit an einem Punkt Y , der ebenfalls auf [0, L]
gleichverteilt ist. X und Y sind unabhängig. Wie groß
ist die erwartete Distanz zwischen der Ambulanz und
dem Unfallpunkt?
7.2
Co-Varianz und Korrelation
Proposition: Seien X, Y unabhängige ZV’en und
g, h : R → R Funktionen, so dass g(X), h(Y ) ZV’en
sind, also beispielsweise stetig. Es gelte E(|g(X)|) <
∞, E(|h(X)|) < ∞ Dann ist
E(g(X)h(Y )) = E(g(X)) · E(h(Y )).
7. ERWARTUNGSWERT, VARIANZ UND CO-VARIANZ
Kovarianz: Seien X, Y ZV’en mit existierender Varianz. Die Kovarianz der beiden ist definiert durch
cov(X, Y ) := E([X − E(X)][Y − E(Y )])
E(XY ) − E(X)E(Y ),
=
15
die bedingte Erwartung von X gegeben {Y = y} definiert als
Z∞
E(X|Y = y) =
xfX|Y (x|y)dx
−∞
Z∞
letzteres, wegen der Linearität des Erwartungswertes.
f (x, y)
=
x
dx.
Proposition: Aus der Unabhängigkeit von zwei
fY (y)
−∞
ZV’en X, Y folgt cov(X, Y ) = 0, die umgekehrte Aussage gilt jedoch nicht. Proposition: Seien Beispiel: Seien (X, Y ) gemeinsam absolutstetig verX, Y, X1 , . . . , Xn , Y1 , . . . , Ym ZV’en, α ∈ R. Dann gilt teilt mit Dichte
(
1 −x
i) cov(X, Y ) = cov(Y, X)
e y e−y , x, y > 0
f (x, y) = y
0,
sonst.
ii) cov(X, X) = V ar(X)
iii) cov(αX, Y ) = αcov(X, Y )
iv) cov(
n
P
i=1
Xi ,
m
P
Yj ) =
j=1
n P
m
P
cov(Xi , Yj ).
i=1 j=1
Korollar: Seien X1 , . . . , Xn ZV’en mit existierenden
Varianzen. Dann gilt
n
n
X
X
X
V ar(
Xi ) =
V ar(Xi ) +
cov(Xi , Xj )
i=1
i=1
i6=j
für unabhängige X1 , . . . , Xn gilt also
n
n
X
X
V ar(
Xi ) =
V ar(Xi )
i=1
Wir berechnen E(X|Y = y).
Für y > 0 gilt
(
1 −x
y,
x>0
ye
fX|Y (x|y) =
0,
sonst.
Nach der Formel für den Erwartungswert einer exponentialverteilten ZV ist dann
Z∞
1 x
E(X|Y = y) = x e− y dx = y
y
0
Definition: Seien X, Y ZV’en. Dann heißt die ZV
E(X|Y = y)|y=Y = E(X|Y ) bedingte Erwartung von
X gegeben Y .
i=1
Proposition: Seien X, Y ZV’en mit E(|X|) < ∞.
Korrelationskoeffizient: Für X, Y ZV’en mit exis- Dann gilt
E(X) = E(E(X|Y )).
tierenden Varianzen heißt
ρ(X, Y ) = p
cov(X, Y )
V ar(X)V ar(Y )
im diskreten Fall gilt
X
E(X) =
E(X|Y = y)pY (y),
y:pY (y)>0
Korrelationskoeffizient von X und Y . ρ(X, Y ) ist ein
Maß, für die lineare Abhängigkeit von X und Y , sind und im absolutstetigen
sie unabhängig, so gilt ρ(X, Y ) = 0.
Z∞
E(X) =
E(X|Y = y)fY (y)dy.
7.3
Bedingte Erwartungen
Definition: Seien X, Y diskret verteilte ZV’en mit
gemeinsamer Massenfunktion p. Für y ∈ R ist die bedingte Erwartung von X gegeben {Y = y} definiert
als
X
E(X|Y = y) =
xpX|Y (x|y)
z:pX (x)>0
=
X
xP(X = x|Y = y).
z:pX (x)>0
Definition: Seien X, Y gemeinsam absolutstetig verteilte ZV’en mit gemeinsamer Dichte f . Für y ∈ R ist
−∞
Beispiel: Die Zahl der Kunden in einem Kaufhaus
pro Tag ist eine ZV mit Mittelwert 50. Ihre individuellen Ausgaben sind unabhängige ZV’en mit Erwartung 8 Euro, die auch unabhängig sind von der Zahl
der Kunden. Wie hoch sind die erwarteten Einnahmen des Kaufhauses pro Tag?
L: Seien N : Anzahl der Kunden pro Tag, Xi : Ausgaben von Kunde i. Demnach sind die Einnahmen des
Kaufhauses pro Tag gegeben durch
Z=
N
X
i=1
Xi .
16
Lemma Sei X ∼ N (0, 1). Dann gilt
Damit gilt wegen Unabhängigkeit
E(Z)
=
E(E(Z|N )) =
∞
X
1 2
pN (n)E(Z|N = n)
n=1
=
=
∞
X
n=1
∞
X
pN (n)
n
X
Lemma Sei X, Y unabhängig. Dann gilt
E(Xi |N = n)
MX+Y (t) = MX (t)MY (t).
i=1
pN (n)nE(X1 ) = E(N )E(X1 )
n=1
=
8
400Euro.
Proposition (Schwaches Gesetz der grossen Zahlen)
Seien X1 , X2 , ... unabh. und identisch verteilte ZVen
mit
E[Xi ] = µ, V ar(Xi ) = σ 2 .
Dann gilt für alle > 0:
n
n→∞
Aus diesem lemma folgt insbesondere (für µ = 0, σ =
1):
n
t
MSn∗ (t) = M ( √ )
n
wobei M die MEF von Xi bezeichnet (da die Xi identisch verteilt sind, haben diese die gleiche MEF).
Grenzwertsätze
lim P[|
MX (t) = e 2 t .
Das folgende Lemma besagt, dass aus der punktweisen Konvergenz der MEFen die punktweise Konvergenz von Verteilungsfunktionen folgt. Es ist für den
Beweis des ZGWS von zentraler Bedeutung.
Lemma Seinen Z1 , Z2 , ... Sven mit MEFen und Verteilungsfunktionen
MZi ,
1X
Xi − µ| > ] = 0
n i=1
FZi .
Sei Z eine ZV mit MEF und Verteilungsfunktion
Man sagt, dass die Folge der empirischen Mittel in
MZ , FZ .
Wahrscheinlichkeit gegen ihren Erwartungswert konvergiert.
Dann folgt aus
Satz (Zentraler Grenzwertsatz) Seien X1 , X2 , ... unMZi (t) → M (t),
abh. und identisch verteilte ZVen mit
und
Sn∗ :=
die punktweise Konvergenz der zugehörigen Verteilungsfunktionen:
V ar(Xi ) = σ 2
E[Xi ] = µ,
Pn
FZi (t) → F (t)
Xi − nµ
√
.
σ n
i=1
für alle t ∈ R, an denen FZ stetig ist.
Dann gilt für alle a ∈ R:
lim P[Sn∗ ≤ a] = Φ(a)
n→∞
wobei Φ die Verteilungsfunktion
Verteilung bezeichnet.
der
N (0, 1)-
Der Beweis des zentralen Grenzwertsatzes basiert auf
der Methode der momentenerzeugenden Funktionen
(MEF).
Definition Sei X eine ZV. Die MEF von X is gegeben durch
MX (t) := E[etX ]
(t ∈ R).
Der Begriff MEF erklärt sich aus folgender Gleichung
(n)
MX (0) = E[X n ]
∀t
(n ∈ N).
Herunterladen