2 Grundlagen aus der Wahrscheinlichkeitsrechnung

Werbung
2
Grundlagen aus der Wahrscheinlichkeitsrechnung
In diesem Abschnitt sind die wichtigsten Konzepte der Wahrscheinlichkeitsrechnung zusammengestellt, die für die Zwecke unserer Vorlesung wichtig sind. Sie
beschränken sich der Einfachheit halber auf den Fall endlicher und abzählbar
unendlicher Wahrscheinlichkeitsräume.
Eine sehr gute Einführung in die Thematik ndet sich im Buch Probability
and Computing Randomized Algorithms and Probabilistic Analysis von M.
Mitzenmacher und E. Upfal.
2.1 Grundbegrie, Beispiele
Denition 2.1.1 Ein Wahrscheinlichkeitsraum (W-Raum ) ist ein
(Ω, p), wo Ω eine endliche oderPabzählbar unendliche Menge und
p : Ω → [0, 1] eine Funktion ist, mit
p(ω) = 1. Wir schreiben oft pω
Paar
ω∈Ω
statt
p(ω).
Eine solche Funktion
p : Ω → [0, 1]
heiÿt auch Verteilung
oder Wahrscheinlichkeitsverteilung.
Bemerkung 2.1.2 Man weiÿ, dass in der Situation der Denition für jedes
Ω
A⊆
P
pω absolut (d. h. ohne Rücksicht auf die Summationsreihenfolge)
ω∈A
konvergiert, also einen wohldenierten Wert hat.
die Reihe
Ein Wahrscheinlichkeitsraum ist eine mathematisch exakte Formulierung für das
(informale, intuitive) Konzept eines Zufallsexperiments : Es wird zufällig ein
Ω ausgewählt; dabei ist die Wahrscheinlichkeit, gerade ω zu erhalpω gegeben. Man teste diese intuitive Auf fassung an den folgenden
Element aus
ten, durch
Beispielen.
Beispiele 2.1.3 (a) Zur Modellierung des Zufallsexperiments, einen fairen Würfel einmal zu werfen, benutzt man den Wahrscheinlichkeitsraum (Ω, p) mit Ω =
{1, . . . , 6} und p(ω) = 61 für jedes ω ∈ {1, . . . , 6}.
Bei einer fairen Münze wird man (mit 0 für Kopf und 1 für Zahl) den
1
W-Raum Ω = {0, 1} und p(ω) =
verwenden. Ist die Münze gefälscht, könnte
2
man z. B. p(0) = 0,55 und p(1) = 0,45 setzen.
(b) Zur Modellierung des Zufallsexperiments, zwei Würfel zu werfen und die
Summe der Augenzahlen als Resultat zu nehmen, wird man etwa
1
Ω = {2, . . . , 12}
1
2
6
1
, p(3) =
, . . ., p(7) =
, . . ., p(12) =
wählen. Man beachte,
36
36
36
36
dass hier die Wahrscheinlichkeiten unterschiedlich sind.
und
(c)
p(2) =
U 6= ∅
sei eine endliche Menge. Wir modellieren das Zufallsexperiment, ein
U zu wählen, wobei jedes Element die gleichen Chancen haben soll,
Ω = U und pω = |U1 | , für alle ω ∈ Ω. Man spricht von der uniformen
Verteilung auf U . Gewöhnlich ist implizit diese Verteilung gemeint, wenn über
Element aus
wie folgt:
die Wahrscheinlichkeiten der einzelnen Elemente gar nichts gesagt wird oder wenn
die Formulierung wähle zufällig ein Element aus
U
benutzt wird.
(d) Wir wollen wiederholt mit einem Würfel würfeln und warten, bis die erste
5 i−1 1
· 6 als die Wahr6 erscheint. Dazu setzen wir Ω = {1, 2, 3, . . .} und pi = ( )
6
scheinlichkeit, dass beim i-ten Versuch zum ersten Mal eine 6 gewürfelt wird.
Man sieht, mit der Summenformel für geometrische Reihen:
P
i≥1
pi =
1
6
·
5 i−1
i≥1 ( 6 )
P
=
1
6
·
1
1− 56
= 1.
Damit haben wir tatsächlich einen Wahrscheinlichkeitsraum deniert.
(e) Es sei
U 6= ∅
eine endliche Menge und
n ≥ 1.
Der W-Raum
(Ω, p)
mit
Ω = U n = {(a1 , . . . , an ) | a1 , . . . , an ∈ U }
1
, ω ∈ Ω, das ist also die uniforme Verteilung auf
|U |n
Zufallsexperiment, bei dem eine Folge von n Elementen aus
und
pω =
wird, bzw.
n-mal
hintereinander ein Element aus
U
U n , entspricht dem
U zufällig gewählt
zufällig gewählt wird.
U 6= ∅ endlich, 1 ≤ n ≤ |U |. Die Menge Ω = {A ⊆ U | |A| = n} mit der
|U | −1
Verteilung, die durch pω =
für alle ω ∈ Ω gegeben ist, deniert einen Wn
Raum, der das Zufallsexperiment Wähle eine zufällige n-elementige Teilmenge
von U modelliert.
(f ) Es sei
(g) Für die Durchschnittsanalyse von Sortierverfahren, die
angeordneten Universum
n
Schlüssel aus dem
(U, <) sortieren, ist die folgende Verteilung zentral. Für
Sortierverfahren, die auf Schlüsseln nur Vergleiche und keine anderen Operationen durchführen, ist der Ablauf des Verfahrens im wesentlichen durch den Ordn
nungstyp der Eingabe (a1 , . . . , an ) ∈ U bestimmt, das ist die Permutation π von
{1, . . . , n}
mit
aπ(1) < · · · < aπ(n) .
Diese ist eindeutig bestimmt, wenn
a1 , . . . , a n
verschieden sind. Daher betrachten wir
Ω = {π | π
Permutation von
p(π) = 1/|Ω| = 1/n! gegebenen Verteilung. Dieser Raum entspricht
Experiment, für n beliebig vorgegebene Elemente von U die Anordnung
mit der durch
dem
{1, . . . , n}},
zufällig zu wählen.
2
(h) Beim Hashing betrachtet man n Schlüssel x1 , . . . , xn und n Funktionswerte
h(x1 ), . . . , h(xn ) ∈ {0, 1, . . . , m − 1}. Man macht verschiedene Wahrscheinlichkeitsannahmen, die zu verschiedenen Wahrscheinlichkeitsräumen führen. Wenn
man etwa die Uniformitätsannahme für eine Hashfunktion macht, meint man
damit, dass der Hashwert eines jeden Schlüssels unabhängig von den anderen
jeden Wert in
{0, 1, . . . , m − 1}
mit derselben Wahrscheinlichkeit annimmt. Der
zugehörige Wahrscheinlichkeitsraum ist
Ω = {0, 1, . . . , m − 1}n = {(v1 , . . . , vn ) | v1 , . . . , vn ∈ {0, 1, . . . , m − 1}}
mit der durch
p((v1 , . . . , vn )) =
1
mn
denierten Verteilung.
(Dies
ist
derselbe
U = {0, 1, . . . , m − 1}
Wahrscheinlichkeitsraum
wie
der
in
(e),
wenn
man
setzt.)
Denition 2.1.4 Ein Ereignis ist eine Menge
Die Wahrscheinlichkeit (W.) von
A
A ⊆ ΩP
.
:=
pω .
ist Pr(A)
ω∈A
ω ∈Ω
A = {ω ∈ Ω | ϕ(ω)} ein Ereignis. Oft
schreibt man hierfür kurz {ϕ}. Die Wahrscheinlichkeit Pr(A) wird dann als Pr(ϕ)
Notation: Ist
ϕ
eine Eigenschaft oder (synonym) eine Aussage, die für
gelten oder nicht gelten kann, so ist
abgekürzt.
In den folgenden Beispielen sieht man, dass der intuitive Name Ereignis und
die abkürzende Schreibweise für durch Aussagen gegebene Ereignisse und ihre
Wahrscheinlichkeiten recht gut passt. Man beachte, dass in der Notation der WRaum immer unterdrückt wird.
Beispiel 2.1.5 (a) In Beispiel 2.1.3 (b) ist
A = {ω ∈ Ω | ω ≥ 6} = {Augensumme ≥ 6}
ein Ereignis, das die Situation modelliert, dass die Summe der Augen mindestens
26
.
6 beträgt. Man schreibt Pr(Augensumme ≥ 6) für Pr(A). Es gilt Pr(A) =
36
(b) In Beispiel 2.1.3 (h) ist
A = {(v1 , . . . , vn ) | v1 = v2 = v3 }
ein Ereignis, das man auch
Pr(A)
{h(x1 ) = h(x2 ) = h(x3 )}
schreiben kann. Es gilt
= Pr(h(x1 ) = h(x2 ) = h(x3 )) = |A|/mn = mn−2 /mn = 1/m2 .
3
Beachte allgemein :
(Ω, p) die Gleichverteilung (oder uniforme Verteilung )
1/|Ω| für alle ω ∈ Ω, so ist Pr(A) = |A|/|Ω|.
Ist
auf
Ω,
d. h.
pω =
Fakt 2.1.6
(a)
Pr(∅)
(b) Sind
= 0,
Pr(Ω)
A1 , . . . , An
Pr(A1
= 1,
Pr({ω})
= pω ,
Pr(Ω − A)
= 1 − Pr(A).
disjunkte Ereignisse, so ist
∪ · · · ∪ An ) =
X
(Additivität.)
Pr(Ai ).
1≤i≤n
(c) Sind
A1 , . . . , An
beliebige Ereignisse, so ist
Pr(A1
X
∪ · · · ∪ An ) ≤
Pr(Ai ).
1≤i≤n
(Vereinigungs-Schranke oder englisch
(d) Ist
A1 ⊆ A2 ,
so ist
Pr(A1 )
union bound .)
(Monotonie.)
≤ Pr(A2 ).
Formel 2.1.6(d) wird oft folgendermaÿen benutzt: Wenn aus der Aussage
die Aussage
ψ(ω)
folgt, dann gilt Pr(ϕ)
ϕ(ω)
≤ Pr(ψ).
Die Aussagen von Fakt 2.1.6 sind leicht mittels Def. 2.1.4 nachzukontrollieren.
Beispiel 2.1.7 In Beispiel 2.1.3 (h) ist für jedes
Pr(∃i
∈ {1, . . . , n} : h(xi ) = v) ≤
X
1≤i≤n
v ∈ {0, 1, . . . , m − 1}
Pr(h(xi )
= v) = n ·
1
.
m
(Übung : Man mache die hier benutzten Ereignisse explizit und benenne die Regeln, die angewendet werden.)
4
2.2 Zufallvariablen und Erwartungswerte
Denition 2.2.1 Ist
R
R
eine Menge, so heiÿt eine Funktion
eine Zufallsfunktion. Ist
solches
X
R
numerisch (also
eine Zufallsvariable (ZV ), im Fall
X: Ω →
R ⊆ R), so heiÿt ein
R ⊆ Rk für ein k ≥ 1
auch ein Zufallsvektor.
ω ∈Ω
Die Idee dabei ist natürlich, dass man ein
der Verteilung
p : Ω → [0, 1]),
zufällig wählt (gesteuert von
und dass dadurch auch ein zufälliger Wert
X(ω)
festgelegt wird.
0
Zur Schreibweise: Soweit möglich, schreibt man X statt X(ω). Beispiel: Ist R ⊆
R, betrachtet man das Ereignis {X ∈ R0 } = {ω | X(ω) ∈ R0 }, und die Wahr0
scheinlichkeit Pr(X ∈ R ), usw.
Bemerkung 2.2.2 Eine ZV X mit Wertebereich {0, 1} bezeichnet man als Indikator(zufallsvariable). Solche Zufallsvariablen werden werden mit Hilfe einer Aussage
ϕ
wie folgt konstruiert:
(
1,
X(ω) :=
0,
falls
ϕ(ω)
wahr ist
sonst
Um Indikatorzufallsvariablen kompakt zu notieren (und nicht jedes mal die obige Fallunterscheidung angeben zu müssen) hat sich die
währt: Statt
X
schreibt man
[ϕ].
Iversion-Notation be-
Für die Aussage Augensumme
≥ 6
(Beispiel
2.1.5 (a)) könnte man also einen entsprechenden Indikator mit [Augensumme
≥ 6]
angeben.
Beispiel 2.2.3 Betrachte wieder Beispiel 2.1.3 (h). (ω
(a) Für
1≤i≤n
(b) Für
0≤v<m
ist die Funktion
ω 7→ vi = h(xi )
ist die Funktion
= (v1 , . . . , vn ).)
eine Zufallsvariable.
ω 7→ Bv = {i | vi = v} = {i | h(xi ) = v}
eine Zufallsfunktion (der Wert ist eine zufällige Menge oder Zufallsmen-
xi entspricht, die von h auf den Wert v abgebildet
bv : ω 7→ |Bv | der Anzahl dieser Schlüssel ist eine ZV.
ge, die den Schlüsseln
werden); die Funktion
Jede Zufallsvariable
X
induziert einen neuen Wahrscheinlichkeitsraum, wie folgt:
Ω0 := X[Ω] = {X(ω) | ω ∈ Ω}; p0 (α) := Pr(X = α)
5
für
α ∈ Ω0 .
(1)
Die Verteilung
p0
heiÿt die
Verteilung von
X.
Wenn es bequem ist, kann man
auch eine (endliche oder abzählbare) Obermenge von
X[Ω]
als Grundmenge be-
nutzen.
Bemerkung 2.2.4 Für jeden Wahrscheinlichkeitsraum
einer passenden Zufallsvariablen. Man wählt einfach
0
0
auf ω abbildet, und erhält Ω = Ω und p = p.
(Ω, p) ist p Verteilung
X = idΩ , die Identität, die
ω
Beispiel 2.2.5 (a) Beim Werfen von zwei Würfeln ist folgender Wahrscheinlichkeitsraum sehr natürlich:
Ω = {1, . . . , 6}2 ; p((i, j)) =
Die durch
X((i, j)) := i + j
1
36
für
denierte Abbildung
ne Zufallsvariable. Die Verteilung von
X
(i, j) ∈ Ω.
X : Ω → {2, . . . , 12}
ist ei-
ist gerade die Verteilung des in Bei-
spiel 2.1.3(b) beschriebenen Wahrscheinlichkeitsraums.
(b) Beim Spiel Würfeln, bis eine
6
erscheint ist folgender Wahrscheinlichkeits-
raum sehr natürlich:
Ω = {(a1 , . . . , ai ) | i ≥ 1, a1 . . . , ai−1 ∈ {1, . . . , 5}, ai = 6};
1
p((a1 , . . . , ai )) = i .
6
Ein Elementarereignis ist hier eine Folge von Würfen mit ihren Ergebnissen, die
6 erschienen ist. Jede solche Folge hat, intuitiv gesehen,
(1/6)i . Die durch X((a1 , . . . , ai )) = i gegebene Zufallsva-
abbricht, sobald die erste
die Wahrscheinlichkeit
riable zählt die Anzahl dieser Versuche. Ihre Verteilung liefert den Wahrscheinlichkeitsraum aus Beispiel 2.1.3(d).
Beispiel 2.2.6 Wir führen Beispiel 2.2.3 noch etwas weiter. Die Zufallsvariable
b0 = |B0 |
induziert eine Verteilung auf
b0 [Ω] = {0, 1, . . . , n}.
Dabei ist
|{(v1 , . . . , vn ) ∈ Ω | (v1 , . . . , vn ) enthält genau i Nullen}|
.
mn
i n−i
(m − 1)n−i
1
n
n
1
=
·
=
·
· 1−
.
i
i
mn
m
m
p0 (i) =
(Dies ist eine Binomialverteilung.) Natürlich ergibt sich für jedes
von
0
E(X)
:=
X
X(ω) · pω =
ω∈Ω
X
α∈X[Ω]
6
X≥0
(3)
v ∈ [m] anstelle
dieselbe Verteilung.
Denition 2.2.7 Der Erwartungswert einer ZV
(2)
ist
α · Pr(X = α).
Wenn
wert
X
auch negative Werte annehmen kann, betrachten wir den Erwartungs-
E(X) von
X
P
Wert der Summe
X(ω) ·
P
|X(ω)| · pω < ∞. In diesem Fall ist der
ω∈Ω
pω von der Summationsreihenfolge unabhängig.
nur dann, wenn
ω∈Ω
Die zweite Darstellung des Erwartungswertes in Denition 2.2.7 lässt sich leicht
durch Umstellen von Summen bzw. Reihen beweisen, was hier kein Problem ist,
weil alle Reihen absolut konvergieren. Man kann die zweite Darstellung auch
so auf fassen: Man betrachtet die Verteilung von X , die jeder Zahl α ∈ X[Ω]
0
eine Wahrscheinlichkeit p (α) zuordnet, und bildet den Mittelwert dieser Zahlen,
gewichtet mit diesen Wahrscheinlichkeiten.
Fakt 2.2.8 Ist
X: Ω → N
eine Zufallsvariable, so gilt:
E(X)
=
∞
X
Pr(X
≥ i).
i=1
Beweis : Setze
pi = Pr(X = i), qj = Pr(X ≥ j).
Dann gilt:
qj =
X
pi ,
also
i≥j
E(X)
=
X
i · pi =
i≥0
X
i≥1
i · pi =
X X
pi =
i≥1 1≤j≤i
Fakt 2.2.9 Für beliebige Zufallsvariable
XX
pi =
j≥1 i≥j
X
qj .
j≥1
X, Y, X1 , . . . , Xn gilt (unter der
Voraussetzung, dass alle Erwartungswerte deniert sind):
(a)
X≤Y
(d. h.
∀ω ∈ Ω: X(ω) ≤ Y (ω)) ⇒
E(X)
≤ E(Y ).
notonie.)
(b)
E(αX
(c)
E(X1
+ βY ) = αE(X) + β E(Y ).
+ · · · + Xn ) = E(X1 ) + · · · + E(Xn ).
(Linearität des Erwartungswertes.)
(d) Ist
X ∈ {0, 1} (d. h. ∀ω ∈ Ω: X(ω) ∈ {0, 1}),
= Pr(X = 1).
so ist
E(X)
Die Beweise dieser Rechenregeln sind einfache Übungsaufgaben.
7
(Mo-
Bemerkung 2.2.10 Für einen Indikator
[ϕ]
gilt
= 0 · Pr([ϕ] = 0) + 1 · Pr([ϕ] = 1) = Pr(ϕ) (= Pr(ϕ
E([ϕ])
wahr)).
Beispiel 2.2.11 Betrachte Bsp. 2.2.3 (b). Wir berechnen E(|Bv |) mit Hilfe der
Indikatoren
[hi = v],
für
i ∈ {1, 2, . . . , n}.
Klar:
|Bv | = [h1 = v] + · · · + [hn = v].
Also gilt
E(|Bv |)
=
X
E([hi
= v]) =
1≤i≤n
X
Pr(hi
= v) =
1≤i≤n
X 1
n
= .
m
m
1≤i≤n
2.3 Varianz und Ungleichungen von Markov, Chebychev
und Jensen
Fakt 2.3.1 (Marko/Markov-Ungleichung)
Es sei
Z≥0
eine beliebige Zufallsvariable, und
t>0
sei beliebig. Dann
gilt:
Pr(Z
Beweis. Oenbar gilt
t).
Dividieren durch
t
≥ t) ≤
E(Z)
t
.
Z ≥ t·[Z ≥ t], also auch E(Z) ≥ t· E([Z ≥ t]) = tPr(Z ≥
liefert die Behauptung.
Denition 2.3.2 Für eine beliebige Zufallsvariable
denieren wir die Varianz von
Var(X)
X
X
mit E(X
2
)<∞
als
:= E((X − E(X))2 ).
a ∈ R gilt Var(X − a) = Var(X). Insbesondere haben wir
X := X − E(X) die Beziehungen E(X 0 ) = 0 und Var(X 0 ) = Var(X).
Bemerkung : Für jedes
0
für
Man sieht sofort, dass gilt:
Var(X)
= E(X 2 −2X E(X)+E(X)2 ) = E(X 2 )−2E(X)2 +E(X)2 = E(X 2 )−E(X)2 .
Folgerung : Da Var(X) Erwartungswert von
Daraus folgt
8
(X − E(X))2 ≥ 0 ist, ist Var(X) ≥ 0.
E(X)2
für jede Zufallsvariable
X,
≤ E(X 2 )
(4)
deren Varianz existiert.
Wenn wir auf die Zufallsvariable
Z = (X − E(X))2 ≥ 0
die Markov-Ungleichung
anwenden, erhalten wir:
Fakt 2.3.3 (Chebychev/Tschebysche-Ungleichung) Es sei X eine
Zufallsvariable mit
Beweis. Setze
E(X 2 )
< ∞.
Pr(|X
− E(X)| ≥ t) ≤
Z := (X − E(X))2 .
Pr(|X
t > 0:
Dann gilt für jedes
Var(X)
t2
.
Dann gilt nach der Markov-Ungleichung:
− E(X)| ≥ t) = Pr(Z ≥ t2 ) ≤
E(Z)
t2
=
Var(X)
t2
.
Wir können die Markov-Ungleichung verallgemeinern:
X sei eine beliebige Zufallsvariable, D ⊆ R, f : D →
R sei monoton mit D = Def(f ) ⊇ X(Ω), so dass E(f (X)) existiert.
Dann gilt für jedes t ∈ D :
Proposition 2.3.4
+
Pr(X
≥ t) ≤
E(f (X))
f (t)
.
f (X) an,
und verwendet, dass wegen der Monotonie von f die Aussagen X ≥ t und f (X) ≥
f (t) äquivalent sind.
2
Beweis : Man wendet die Markov-Ungleichung auf die Zufallsvariable
Beispiele :
•
Sei
α>0
beliebig. Dann gilt
Pr(X
≥ t) ≤
9
E(|X|α )
tα
.
•
Sei
k≥2
eine gerade ganze Zahl und
Pr(|X
t≥0
− E(X)| ≥ t) ≤
. Dann gilt:
E((X
− E(X))k )
.
tk
Z = |X − E(X)|
(Hier wird 2.3.4 auf die Zufallsvariable
und
f (x) = xk
angewendet.)
•
Sei
X
reellwertig, sei
a > 0,
und sei
Pr(X
E(eaX ) deniert. Dann gilt
≥ t) ≤
E(eaX )
eat
.
Cherno-Schranke . Wir werden sie weiter
(Dies ist die ursprüngliche
unten benutzen, um eine spezialisierte Folgerung, die Hoeding-Schranke,
zu beweisen.)
2
2
Wir haben oben gesehen, dass stets E(X) ≤ E(X ) gilt. Anstelle der Funktion
2
x 7→ x kann man jede beliebige konvexe Funktion benutzen.
Denition 2.3.5
D ⊆ R
sei ein Intervall. Eine Funktion
heiÿt konvex, wenn für alle x, y ∈ D und
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y).
Sie heiÿt konkav, wenn −f konvex ist.
jedes
λ ∈ [0, 1]
f: D → R
gilt:
Grob gesprochen ist eine Funktion konvex, wenn an jeder Stelle der Graph der
Funktion unter jeder Sekante dieses Funktionsgraphen verläuft. Aus der Schule
oder aus der Analysis weiÿ man, dass für die Konvexität hinreichend ist, dass
f 00 (x) in D (bzw. im Inneren von D) existiert und positiv ist.
Beispiele :
(i) Die Funktion
f : x 7→ x2
für jede natürliche Zahl
(ii) Wenn
α ∈ R, α > 1,
ist konvex in
Allgemeiner gilt dies für
x 7→ x2d ,
d > 0.
dann ist die Funktion
α ∈ R, 0 < α < 1,
(iii) Wenn
R.
fα : x 7→ xα
dann ist die Funktion
konvex in
fα : x 7→ xα
[0, ∞).
konkav in
[0, ∞).
−α
dann ist die Funktion gα : x 7→ x
konvex in (0, ∞).
0
α+1
00
α+2
(Dierenziere zweimal: gα (x) = −α/x
, und: gα (x) = −α(−(α+1))/x
.
Dies ist immer positiv.)
(iv) Wenn
α ∈ R, α > 0,
10
(v) Die Funktion
h : x 7→ x ln x ist konvex in [0, ∞).
h0 (x) = ln x + 1, und h00 (x) = x−1 > 0.)
(Dierenziere zweimal:
(vi) Für
t∈R
ist die Funktion
k : x 7→ etx
konvex in
R.
Proposition 2.3.6 (Jensensche Ungleichung, allgemeine Form)
X eine reellwertige Zufallsvariable und f eine Funktion mit
D = Def(f ) ⊇ X(Ω). Wenn E(X) und E(f (X)) deniert sind, dann
Es sei
gilt :
(a) Wenn
f
konvex ist :
f (E(X)) ≤ E(f (X)).
(b) Wenn
f
konkav ist :
f (E(X)) ≥ E(f (X)).
Beispiele : Unter der Voraussetzung, dass jeweils die Erwartungswerte deniert
sind, gilt:
(i)
E(X)2d
(ii) Für
≤ E(X 2d ).
α>1
und
X≥0
X≥0
(iii) Für
0<α<1
und
(iv) Für
α>0
und
X>0
(v) Für
X≥0
gilt
(vi) Für
t∈R
gilt
gilt:
gilt
E(X)α
gilt:
≤ E(X α ).
E(X)α
E(X)−α
E(X) ln(E(X))
≥ E(X α ).
≤ E(X −α ).
≤ E(X ln X).
etE(X) ≤ E(etX ).
Beweis der Jensenschen Ungleichung: Wir beweisen nur (a). ((b) folgt durch Multiplikation der Ungleichung mit
−1.)
Setze
x0 :=
E(X). Dann ist
x0 ∈
Def(f ).
Nach einer Grundeigenschaft von konvexen Funktionen, die man in der Analysis
beweist, hat der Graph von
f
im Punkt
(x0 , f (x0 )) eine untere Stützgerade, das
ist eine Gerade, die durch den Punkt verläuft und stets unterhalb des Funktionsgraphen bleibt. Das heiÿt: Es gibt ein
α∈R
(die Steigung der Stützgeraden)
derart dass
f (x0 ) + α(x − x0 ) ≤ f (x)
(Wenn
f
dierenzierbar ist, wählt man
, für alle
α = f 0 (x0 ).)
x ∈ Def(f )
Daraus folgt, mit der Linea-
rität und der Monotonie des Erwartungswertes:
f (x0 ) + α(E(X) − x0 ) ≤ E(f (X)).
11
.
Nach der Wahl von
x0
2
folgt die behauptete Ungleichung.
Die Jensensche Ungleichung ist eine recht allgemeine Konvexitätsaussage. Um
ihre Kraft zu demonstrieren, beweisen wir kurz die Ungleichung zwischen dem
arithmetischen und dem geometrischen Mittel:
Proposition 2.3.7 (Arithmetisches versus geometrisches Mittel)
Für
a1 , . . . , a n ≥ 0
gilt :
a1 + · · · + an
≥ (a1 · · · an )1/n .
n
Allgemeiner : Wenn zudem
p1 , . . . , pn ≥ 0 sind mit p1 +· · ·+pn = 1, dann
gilt :
p1 a1 + · · · + pn an ≥ ap11 · · · apnn .
ai strikt positiv sind. Dann betrachten wir eine Zufallsvariable X , die die Werte a1 , . . . , an mit Wahrscheinlichkeiten p1 , . . . , pn annimmt, sowie die konkave Funktion f (t) = ln t (mit Def(f ) =
(0, ∞)). Nach Prop. 2.3.6(b) gilt f (E(X)) ≥ E(f (X)). Wenn man dies aus-
Beweis : Wir können o.B.d.A. annehmen, dass alle
schreibt und die Logarithmus-Rechenregeln anwendet, ergibt sich
ln(p1 a1 + · · · + pn an ) ≥ p1 ln(a1 ) + · · · + pn ln(an ) = ln(ap11 · · · apnn ).
2
Die Monotonie der Logarithmusfunktion liefert die Behauptung.
2.4 Bedingte Wahrscheinlichkeiten, bedingte Erwartungswerte
Denition 2.4.1 Ist
A⊆Ω
Pr(B
ein Ereignis mit Pr(A)
| A) :=
Pr(A ∩ B)
Pr(A)
> 0,
,
und nennen dies die bedingte Wahrscheinlichkeit von
Bedingung
A),
für beliebige Ereignisse
Es ist leicht zu sehen, dass
Ω
setzen wir
B
(unter der
B.
mit der durch
Pr( ·
| A)
denierten Verteilung
A
ebenfalls ein Wahrscheinlichkeitsraum ist. (Elementarwahrscheinlichkeiten: pω =
12
pω /Pr(A) für ω ∈ A und pA
/ A.) Auch in diesem Wahrscheinlichkeitsω = 0 für ω ∈
raum lassen sich Erwartungswerte von Zufallsvariablen X bilden (geschrieben
E(X | A)). Man sieht leicht:
Pr(A
| A) = Pr(Ω | A) = 1;
E(X
| A) =
X
1
·
pω X(ω).
Pr(A)
ω∈A
Fakt 2.4.2 Basisformel für bedingte Wahrscheinlichkeiten:
Pr(A ∩ B)
Im Fall
Pr(A)
=0
ist
Pr(B
| A)
= Pr(A)Pr(B | A).
nicht deniert. Solange man bedingte Wahr-
scheinlichkeiten nur über diese Basisformel benutzt, kann man so tun, als ob
Pr(B
| A)
irgendeinen Wert hätte. Die Formel kann man auf den Durchschnitt
mehrerer Ereignisse verallgemeinern:
Pr(A1 ∩· · ·∩An )
= Pr(A1 )Pr(A2 |A1 )Pr(A3 |A1 ∩A2 ) · · · Pr(An |A1 ∩· · ·∩An−1 ).
2.5 Unabhängigkeit bei Ereignissen und Zufallsvariablen
Denition 2.5.1
(a)
Ereignisse
A
und
Pr(A ∩ B) = Pr(A)Pr(B).
(b)
Ereignisse
A1 , . . . , A n
B
heiÿen
unabhängig,
falls
heiÿen unabhängig, falls
!
Pr
\
i∈I
für beliebige
Ai ∩
\
(Ω − Ai )
=
i∈J
Y
Pr(Ai ) ·
i∈I
Y
(1 − Pr(Ai )),
i∈J
I, J ⊆ {1, . . . , n}, I ∩ J = ∅.
In vielen Büchern ndet man auch eine (auf den ersten Blick) andere Form von
Denition 2.5.1(b): Man spricht von Unabhängigkeit, falls
!
Pr
\
Ai
=
i∈I
Y
i∈ I
13
Pr (Ai )
(5)
für beliebige Teilmengen
I
von
{1, 2, . . . , n}
gilt. Diese Denition und Deniti-
on 2.5.1(b) sind jedoch äquivalent. Unsere Denition 2.5.1(b) bietet sogar einen
Vorteil, denn man kann sofort Aussagen machen, bei denen Gegenereignisse
Āi
vorkommen.
Beispiel 2.5.2 (a) In Bsp. 2.1.3 (h) sind die Ereignisse
0
0
unabhängig, für beliebige v1 , . . . , vn
∈ {0, . . . , m − 1}
(b) In Bsp. 2.1.3 (h) sind die Ereignisse
{v1 = v10 }, . . . , {vn = vn0 }
fest.
{v1 6= 0}, . . . , {vn 6= 0}
unabhängig.
Denition 2.5.3 Zufallsfunktionen
Xi : Ω → Ri , 1 ≤ i ≤ n, heiÿen
0
unabhängig, wenn für beliebige Ri ⊆ Ri die Ereignisse
{X1 ∈ R10 }, . . . , {Xn ∈ Rn0 } unabhängig sind. (Dies gilt genau dann, wenn
Pr(Xi
∈ Ri0
für
1 ≤ i ≤ n) =
Y
Pr(Xi
∈ Ri0 )
1≤i≤n
für beliebige
Ri0 ⊆ Ri .)
gi : Ri → Si beliebig,
1 ≤ i ≤ n, dann sind die Zufallsfunktionen g1 ◦ X1 , . . . , gn ◦ Xn unabhän-
Fakt 2.5.4 Sind
X1 , . . . , X n
unabhängig und sind
gig.
(Ωi , pi ), 1 ≤ i ≤ n, W-Räume, so wird durch (Ω, p) mit
Ω := Ω1 × · · · × Ωn , p := p1 × · · · × pn , wo p(ω1 , . . . , ωn ) = p1 (ω1 ) · . . . · pn (ωn ),
für ω = (ω1 , . . . , ωn ) ∈ Ω, ein neuer W-Raum (der Produktraum) deniert. In
Ω sind die n Projektionsfunktionen Xi : ω = (ω1 , . . . , ωn ) 7→ ωi ∈ Ωi unabhängig;
nach Fakt 2.5.4 ist also jede Folge Y1 , . . . , Yn von Zufallsfunktionen, wo Yi = gi ◦Xi
(d. h. Yi hängt nur von der i-ten Komponente ωi ab), unabhängig. (Beispiel : Der
Beispiel 2.5.5 Sind
Wahrscheinlichkeitsraum in Beispiel 2.1.3 (h) ist ein Produktraum.)
14
Fakt 2.5.6 Bei Unabhängigkeit multiplizieren sich Erwartungswerte,
Varianzen addieren sich.
a
X1 , . . . , Xn Q unabhängige
E(X1 · . . . · Xn ) =
E(Xi ).
(a) Sind
Zufallsvariable,
so
gilt
1≤i≤n
X1 , . . . , Xn unabhängige
P Zufallsvariable, so gilt
Var(X1 + · · · + Xn ) =
Var(Xi ). Dies gilt sogar,
(b) Sind
wenn nur
Xi
1≤i≤n
und
Xj
a Additivität
Beweis.
unabhängig sind für
i 6= j
(paarweise Unabhängigkeit ).
von Erwartungswerten gilt immer, siehe Fakt 2.2.9(c).
(a) Wir beweisen die Aussage für zwei Zufallsvariable
X
und
Y.
Die
n Zufallsvariable ergibt sich durch vollständige Induktion.
X
E(X · Y ) =
pω X(ω)Y (ω)
Verallgemeinerung auf
ω∈Ω
=
X
X
αβ · Pr(X = α ∧ Y = β)
α∈X[Ω] β∈Y [Ω]
=
=
X
X
α∈X[Ω]
β∈Y [Ω]
X
αβ · Pr(X = α) · Pr(Y = β)
X
αPr(X = α)
β Pr(Y = β)
α∈(X)[Ω]
=
β∈(Y )[Ω]
E(X)E(Y ).
Xi0 := Xi − E(Xi ), für 1 ≤ i ≤ n, und X 0 = X10 + · · · + Xn0 =
X − E(X). Dann gilt E(Xi0 ) = 0 und Var(Xi0 ) = Var(Xi ), für 1 ≤ i ≤ n, sowie
E(X) = 0 und Var(X 0 ) = Var(X). Das heiÿt, dass wir o. B. d. A. annehmen
2
2
können, dass E(Xi ) = 0 und Var(Xi ) = E(Xi ) und Var(X) = E(X ) gelten.
(b) Deniere
15
Wir haben dann:
Var(X)
=E
X
Xi
2 1≤i≤n
=
E
X
Xi Xj
1≤i,j≤n
=
X
E(Xi Xj )
1≤i,j≤n
=
X
1≤i≤n
=
X
=
E
Xi Xj
1≤i6=j≤n
X
E(Xi ) E(Xj )
1≤i6=j≤n
| {z } | {z }
2
E(Xi ) +
1≤i≤n
X
X
2
E(Xi ) +
=0
=0
Var(Xi ).
1≤i≤n
Bemerkung : Für den Beweis von Teil (b) haben wir nicht die volle Unabhängigkeit
paarweise Unabhängigkeit von
lieferte die Gleichheit E(Xi Xj ) = E(Xi )E(Xj ).
eingesetzt, sondern nur die
X1 , . . . , X n .
Sie
Xi 0-1-wertig ist, ist Xi2 = Xi , also E(Xi2 ) = E(Xi ). Damit
erhält man für X = X1 + · · · + Xn die folgende nützliche Ungleichung:
X
X
X
Var(X) =
Var(Xi ) =
(E(Xi2 ) − E(Xi )2 ) ≤
E(Xi ) = E(X).
Beachte noch: Wenn
1≤i≤n
(Gleichheit gilt nur, wenn alle
1≤i≤n
Xi
1≤i≤n
gleich
0
16
sind.)
2.6 Die Hoeding-Ungleichung
Satz 2.6.1 (Hoeding)
im Intervall
[0, 1].
X1 , . . . , X n
seien unabhängige Zufallsvariable mit Werten
Deniere
X := X1 + · · · + Xn ;
m := E(X) .
Dann gilt:
Pr(X
≥ m + a) ≤
Pr(X
≤ m − b) ≤
m
m+a
m+a m
m−b
m−b n−m
n − (m + a)
n−m
n − (m − b)
n−(m+a)
,
für
0≤a≤n−m;
(6)
n−(m−b)
,
für
0 ≤ b ≤ m.
(7)
Bevor wir diese Ungleichungen beweisen, wollen wir sie ein wenig diskutieren.
Die Hoeding-Ungleichung gehört zu der Familie der tail inequalities, das sind
Ungleichungen, die Schranken dafür liefern, dass Verteilungen weit auseinandergezogen sind, d. h. dafür dass Zufallsvariable Werte weit weg von ihrem Erwartungwert annehmen. Wir werden weiter unten sehen, dass die Hoeding-Schranke
relativ kräftig ist, wenn
m
nicht zu klein ist: Summen von vielen (auf
[0, 1])
beschränkten unabhängigen Zufallsvariablen sind eng um ihren Erwartungwert
konzentriert.
Man beachte, dass über die einzelnen
sie in
[0, 1]
Xi
nichts weiter angenommen ist als dass
eingeschlossen sind. Insbesondere können sie auch ganz verschiedene
Verteilungen haben.
Korollar 2.6.2 In der Situation von Satz 1 gilt:
Pr(X
≥ m + a) ≤
Pr(X
≤ m − b) ≤
m
m+a
m+a
m
m−b
m−b
ea ,
e−b ,
für
für
0 ≤ a ≤ n − m;
0 ≤ b ≤ m.
(8)
(9)
Der Beweis von Korollar 2.6.2 ist sehr einfach, wenn man sich die folgende auch
17
sonst nützliche Ungleichung in Erinnerung ruft (siehe Prop. A.0.2(b) im Anhang):
x
1+
y
y
< ex
für
y>0
und
x ≥ −y .
(10)
Wenn man (10) für den zweiten Faktor
n−m
n − (m + a)
n−(m+a)
in (6) einsetzt, ergibt sich (8) für
=
a
1+
n − (m + a)
n−(m+a)
0 ≤ a < n − m.
m m+a
An dieser Stelle beobachten wir, dass (wieder mit (10)) der Faktor (
)
=
m+a
a
m+a
−a
(1 − m+a )
in (8) immer kleiner als e
ist. Daher ist die rechte Seite in (8)
kleiner als 1 und stellt damit eine echte Schranke für eine Wahrscheinlichkeit dar.
(Dazu später mehr.)
Ganz analog ergibt sich (9) aus (7) mit Hilfe von (10).
2
Korollar 2.6.3 In der Situation des Satzes gilt:
m
eε
Pr(X ≥ (1 + ε)m) ≤
,
(1 + ε)1+ε
m
e−ε
,
Pr(X ≤ (1 − ε)m) ≤
(1 − ε)1−ε
n
m
für
0≤ε≤
für
0 ≤ ε ≤ 1.
− 1;
Korollar 2.6.3 ergibt sich aus Korollar 2.6.2 einfach dadurch, dass man
b
bzw. ε =
setzt.
m
(11)
(12)
ε =
a
m
Korollar 2.6.3 besagt Folgendes: Wenn man eine tolerierbare prozentuale Abwei-
ε = 0.01, was 1 Prozent entspricht) vorgibt, dann ist die WahrscheinX weiter als diese Toleranz von seinem Erwartungswert m = E(X)
abweicht, durch eine in m exponentiell fallende Funktion beschränkt. Je kleiner
ε wird, desto näher an 1 liegt die Basis dieser Exponentialfunktion.
chung (z. B.
lichkeit, dass
Um einen Eindruck zu bekommen, hier eine Skizze des Verlaufs der Funktion
eε
ε 7→ (1+ε)
1+ε :
18
e^x/(1+x)^(1+x)
1
0.8
0.6
0.4
0.2
0
1
2
x
4
3
Wir notieren noch eine weitere nützliche Form der Ungleichungen.
Korollar 2.6.4 In der Situation von Korollar 2.6.3 gilt :
Pr(X
Pr(X
Pr(X
Der Beweis von
(13)
≥ (1 + ε)m) ≤ e−ε
2 m/3
,
für
0 ≤ ε ≤ 1.8;
(13)
−ε2 m/4
,
für
0 ≤ ε ≤ 4.1;
(14)
−ε2 m/2
,
für
0 ≤ ε ≤ 1.
(15)
≥ (1 + ε)m) ≤ e
≤ (1 − ε)m) ≤ e
und
(14)
besteht in einer Diskussion des Verlaufs der Funk-
tionen
2
ε 7→ ln
e−ε /K
eε /(1 + ε)1+ε
!
= −ε2 /K − (ε − (1 + ε) ln(1 + ε)),
K = 3 und K = 4, aus der hervorgeht, dass diese Funktion im Intervall [1, 1.8]
(für K = 3) bzw. [1, 4.1] (für K = 4) nicht negativ ist (s. Abb. 1 und 2).
für
(11). Die dritte Ungleichung (14) folgt
ε 7→ −ε2 /2 − (−ε − (1 − ε) ln(1 − ε)) im
mit (12) (s. Abb. 3).
Damit folgt die Behauptung direkt aus
ähnlich aus der Beobachtung, dass
Intervall
[0, 1]
nicht negativ ist, und
Nun kommen wir endlich zum Beweis von Formel (6) aus Satz 2.6.1.
Der Fall
a = 0 ist trivial, weil auf der linken Seite von (6) eine Wahrscheinlichkeit
1. Den Fall a = n − m behandeln wir am Ende. Es
steht, auf der rechten Seite
19
0,05
0,04
0,03
0,02
0,01
0,00
0,5
K
K
K
1,0
1,5
2,0
e
0,01
0,02
0,03
eps -> -eps^2/3-(eps-(1+eps)ln(1+eps))
Abbildung 1: Funktion
ε 7→ −ε2 /3−(ε−(1+ε) ln(1+ε)): in [1, 1.8] nicht negativ.
0 < a < n−m
beliebig, aber fest. Für jedes beliebige t > 0 erhält man
tX
1
durch Anwenden der Markov-Ungleichung auf die ZV e
Folgendes:
sei also
Pr(X
≥ m + a) =
≤
tX
Pr(e
≥ et(m+a) )
E(etX )
et(m+a)
Y
= e−t(m+a) E(
etXi ).
1≤i≤n
Weil
X1 , . . . , Xn unabhängig sind, sind auch etX1 , . . . , etXn
unabhängig (Fakt 2.5.4)).
Daher (Fakt 2.5.6(a)) multiplizieren sich die Erwartungswerte, und wir erhalten:
Pr(X
≥ m + a) ≤ e−t(m+a) E(
Y
etXi )
1≤i≤n
−t(m+a)
= e
Y
tXi
E(e
).
(16)
1≤i≤n
Was können wir über die Zahlen
Lemma 2.6.5 Sei
t>0
E(etXi ) sagen?
beliebig. Dann gilt :
1 Dies ist die Cherno-Schranke, ein Spezialfall der verallgemeinerten Markov-Ungleichung
(Prop. 2.3.4).
20
0,3
0,2
0,1
0
1
2
3
4
e
K
0,1
eps -> eps^2/4 -(-eps-(1+eps)ln(1+eps))
Abbildung 2: Funktion
(i)
ε 7→ −ε2 /4−(ε−(1+ε) ln(1+ε)): in [1, 4.1] nicht negativ.
etx ≤ 1 + x(et − 1),
für
0 ≤ x ≤ 1.
Y eine Zufallsvariable mit 0 ≤ Y ≤ 1,
E(etY ) ≤ 1 + E(Y )(et − 1).
(ii) Ist
dann gilt
g : x 7→ (et )x ist konvex. Das heiÿt, dass der Graph der
t
Funktion unterhalb der Sekante durch (0, 1) und (1, e ) verläuft, also für 0 ≤ x ≤ 1
Beweis : (i) Die Funktion
gilt:
(et )x ≤ g(0) + x · (g(1) − g(0)) = 1 + x(et − 1).
tY
(ii) Wegen (i) gilt e
tY
riablen e
und 1 + Y
und der Linearität
≤ 1 + Y (et − 1) (als Ungleichung zwischen den Zufallsva(et − 1)). Die Behauptung folgt nun wegen der Monotonie
der Erwartungswerte. 2
Mit Lemma 2.6.5 erhalten wir aus (16):
Pr(X
≥ m + a) ≤ e−t(m+a)
Y
(1 + E(Xi )(et − 1)).
(17)
1≤i≤n
Hier benutzen wir die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel, Proposition 2.3.7. Wenn wir diese Ungleichung in (17) auf die
t
nichtnegativen Zahlen ai = 1 + E(Xi )(e − 1), 1 ≤ i ≤ n, anwenden, und uns
21
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
0,8
1,0
e
eps -> -eps^2/2-(-eps-(1-eps)ln(1-eps))
Abbildung 3: Funktion
erinnern, dass
ε 7→ −ε2 /2−(−ε−(1−ε) ln(1−ε)): in [0, 1] nicht negativ.
X = X1 + · · · + Xn
Pr(X
und
m = E(X)
ist, ergibt sich
!n
1 X
(1 + E(Xi )(et − 1))
n 1≤i≤n
≥ m + a) ≤ e−t(m+a)
n
m(et − 1)
= e
· 1+
n
n
m(et − 1)
−t(m+a)/n
= e
· 1+
n
n
m(z − 1)
−(m+a)/n
,
= z
· 1+
n
−t(m+a)
mit
(18)
(19)
(20)
z = et .
Um aus der Ungleichung (20) optimalen Nutzen zu ziehen, sollten wir den bisher
t
noch freien Parameter t bzw. z = e so festlegen, dass der Kern
z −(m+a)/n · (1 +
m
(z − 1))
n
möglichst klein wird. Wir wählen
z=
m+a
n−m
·
.
m
n − (m + a)
22
(21)
(Dass dieser Wert tatsächlich (20) minimiert, sieht man durch Dierenzieren.)
Man sieht, dass (wegen
sich
z>1
und
t>0
a > 0)
beide Faktoren in (21) gröÿer als
1
sind, so dass
ergibt. Wir setzen (21) in die obere Schranke (18) ein und
erhalten
Pr(X
≥ m + a) ≤
m(n − (m + a))
(m + a)(n − m)
m+a n
m (m + a)(n − m)
+
· 1−
(22)
.
n
n(n − (m + a))
Eine leichte (Bruch-)Rechnung ergibt, dass der zweite Faktor in (22) einfach
n−m
( n−(m+a)
)n ist. Passendes Zusammenfassen ergibt dann
Pr(X
≥ m + a) ≤
m
m+a
m+a ·
n−m
n − (m + a)
n−(m+a)
,
(23)
und das ist (6).
Es fehlt noch der Fall
a = n − m.
Damit die Formel auf der rechten Seite von
(6) überhaupt deniert ist, muss man sich daran erinnern, dass per Konvention
00 = 1 ist. Wir benutzen hier, dass die rechte Seite in (6) für a → n − m (von
links) stetig ist, die linke Seite für
a → n−m
(von links) monoton fällt. Damit
erhält man:
Pr(X
≥ n) ≤
lim
a→(n−m)−
Pr(X
≤
=
lim
a→(n−m)−
m n
n
≥ m + a)
m
m+a
m+a n−m
n − (m + a)
n−(m+a)
.
Um schlieÿlich (7) zu beweisen, könnte man analog vorgehen. Stattdessen führen
wir diesen Fall aber auf (6) zurück, wie folgt. Wir denieren Zufallsvariable
Xi = 1 − Xi , 1 ≤ i ≤ n,
und
X = X1 + · · · + X n ,
m = E(X) = E(n − X) = n − E(X) = n − m. Weiter setzen wir a = b (dann
0 ≤ a < m = n − m). Nun wenden wir (6) an und erhalten:
m+a n−(m+a)
m
n−m
Pr(X ≥ m + a) ≤
·
,
(24)
m+a
n − (m + a)
und
ist
Wenn man diese Ungleichung wieder in die Xi -Notation überführt, ergibt sich
wegen
m + a = n − m + b = n − (m − b) und n − m = m:
n−(m−b) m−b
n−m
m
Pr(X ≤ m − b) ≤
·
,
n − (m − b)
m−b
und das ist gerade (7).
23
(25)
2.7 Weitere Ungleichungen
Die folgende Behauptung ist eine Verallgemeinerung von Ungleichung (4) auf zwei
Zufallsvariable:
Proposition 2.7.1 (Cauchy-Schwarz-Ungleichung) Für Zufallsva-
X
riablen
und
Y,
deren Erwartungswert und Varianz deniert ist, gilt:
p
E(X 2 )E(Y 2 ).
|E(XY )| ≤
Beweis : Wir zeigen: E(XY
)2 ≤ E(X 2 )E(Y 2 ).
Für
λ∈R
betrachte
f (λ) := E((X + λY )2 ) = E(X 2 ) + 2λE(XY ) + λ2 E(Y 2 ).
Wenn
E(Y 2 )
= 0 ist, dann
ist
Pr(Y
6= 0) = 0, und
die Ungleichung gilt trivialer-
f (durch
λ0 = −E(XY )/E(Y 2 ). Der
weise. Sonst sucht man die Minimalstelle der quadratischen Funktion
Dierenzieren und Null-Setzen) und ndet sie bei
Wert
f (λ)
ist als Erwartungswert einer nichtnegativen Zufallsvariablen selbst
nicht negativ, also gilt
0 ≤ f (λ0 ) = E(X 2 )−2E(XY )2 /E(Y 2 )+E(XY )2 /E(Y 2 ) = E(X 2 )−E(XY )2 /E(Y 2 );
daraus folgt
E(XY )2
2
≤ E(X 2 )E(Y 2 ).
Nicht ganz ideal an der Chebychev-Ungleichung (Fakt 2.3.3) ist, dass sie nur
p
t > Var(X) nützliche Information liefert (für kleinere t ist
Var(X)/t2 gröÿer oder gleich 1, also trivial). Oft hilft die folgende
für
die Schranke
Variante.
Proposition 2.7.2 (Chebychev-Cantelli-Ungleichung) Es
eine Zufallsvariable mit E(X
Pr(X
≥ E(X)+t) ≤
2
) < ∞.
Var(X)
Var(X) +
t2
Dann gilt für alle
und Pr(X
sei
X
t ≥ 0:
≤ E(X)−t) ≤
Var(X)
Var(X) + t2
.
Beweis : Die zweite Ungleichung folgt, indem man die erste auf die Zufallsvaria0
ble
X =
E(X)
−X
X . Wir zeigen die
E(X) = 0 ist (sonst
anwendet, die dieselbe Varianz hat wie
erste Ungleichung. Wir können o. B. d. A. annehmen, dass
X 0 = X − E(X)); dann ist Var(X) = E(X 2 ). Man erinnere sich an
betrachte
die Iverson-Notation:
{X ≤ t},
[X ≤ t] ist die charakteristische Funktion des Ereignisses
t ∈ R gilt oenbar: t − X ≤ (t − X) · [X < t], also
usw. Für alle
t = E(t − X) ≤ E((t − X) · [X < t]).
24
Für
t≥0
können wir dann mit der Cauchy-Schwarz-Ungleichung wie folgt wei-
terrechnen:
t2 ≤ E((t − X)2 )E([X < t]2 )
= E((t − X)2 )Pr(X < t)
= (Var(X) + t2 )Pr(X < t).
Umstellen ergibt:
Pr(X
≥ t) = 1 − Pr(X < t) ≤ 1 −
t2
=
Var(X) + t2
Var(X)
Var(X) + t2
,
2
wie gewünscht.
Bemerkung : Wir vergleichen Proposition 2.7.2 mit der Chebychev-Ungleichung
(Fakt 2.3.3). Für die Wahrscheinlichkeit einer beidseitigen Abweichung liefert die
Chebychev-Ungleichung engere Schranken; sie wirkt aber nur für
t>
p
Var(X).
Die Chebychev-Cantelli-Ungleichung ist geeignet, wenn man die Wahrscheinlichkeit der Abweichung nur nach einer Seite begrenzen will; sie wirkt für alle
t > 0.
Pr(X
6= 0)
Wir wollen noch Ungleichung (4) benutzen, um eine Schranke für
herzuleiten, falls
X
eine Zufallsvariable ist, die Werte in den natürlichen Zahlen
annimmt (und nicht konstant
0
ist).
Proposition 2.7.3 Für eine Zufallsvariable
nicht konstant
0
X
mit Werten in
N,
die
ist und deren Erwartungswert und Varianz deniert ist,
gilt:
E(X)2
E(X 2 )
≤ Pr(X 6= 0) ≤ E(X).
Beweis : Die zweite Ungleichung folgt aus der Markov-Ungleichung, da Pr(X
0) = Pr(X ≥ 1). Für die erste Ungleichung wenden
auf {X 6= 0} bedingten Wahrscheinlichkeit an:
E(X
6=
wir Ungleichung (4) mit der
| X 6= 0)2 ≤ E(X 2 | X 6= 0).
Weiter gilt
E(X
| X 6= 0)2 =
E(X)
Pr(X
6= 0)
2
und
E(X
2
| X 6= 0) =
E(X 2 )
Pr(X
6= 0)
.
Kombinieren dieser (Un-)Gleichungen, Kürzen und Umstellen liefert die Behaup-
2
tung.
25
Wenn
X
Summe von 0-1-wertigen Zufallsvariablen ist, kann man alternativ mit
folgender Ungleichung die Wahrscheinlichkeit für
Pr(X
> 0) nach unten abschät-
zen.
Proposition 2.7.4 (Conditional Expectation Inequality) Für beliebige Zufallsvariablen
Pr(X1
X1 , X2 , . . . , Xn
+ · · · + Xn > 0) ≥
mit Werten in
{0, 1}
gilt:
Pr(Xi
= 1)
.
E(X | Xi = 1)
1≤i≤n
X
X = X1 + · · · + Xn . Wir wählen die Zufallsvariable Y so, dass X · Y =
[X > 0]; sei dazu Y (ω) = 1/X(ω), falls X(ω) > 0 und Y (ω) = 0, falls X(ω) = 0.
Beweis : Sei
Dann gilt:
Pr(X
> 0) = E(X · Y )
(Wahl
X
=
E(Xi · Y )
von
Y)
1≤i≤n
(1)
=
X
Pr(Xi
= 1) · E( X1 | Xi = 1)
1≤i≤n
(2)
≥
Pr(Xi
= 1)
.
E(X | Xi = 1)
1≤i≤n
X
Für (1) benutzt man, dass E(Xi · Y | Xi = 1) = E(Y | Xi = 1) und E(Xi · Y |
Xi = 0) = 0 gilt. Für (2) wendet man die Jensensche Ungleichung (Prop. 2.3.6(a))
1
und die Zufallsvariable X mit dem auf
auf die für x > 0 konvexe Funktion x 7→
x
{Xi = 1} bedingten Wahrscheinlichkeitsraum an. Dies liefert E( X1 | Xi = 1) ≥
1/E(X | Xi = 1).
2
A
Ungleichungen aus der Analysis und der Kombinatorik
Proposition A.0.1
Für alle
x ∈ R : 1 + x ≤ ex ,
Beweis : Die Funktion
die zweite Ableitung
mit Gleichheit genau für
x = 0.
f (x) = ex −(1+x) besitzt die Ableitung f 0 (x) = ex −1 und
f 00 (x) = ex > 0. Die Ableitung hat bei x = 0 ihre einzige
26
Nullstelle und ist strikt monoton wachsend. Daraus folgt, dass f an der Stelle
x = 0 ein absolutes Minimum hat, d. h., es gilt ex − (1 + x) ≥ f (0) = 0 für alle
2
x.
Proposition A.0.2
(a) Für alle
x ≥ −1
(b) Für alle
y>0
und alle
und alle
z > 0: (1 + x)z ≤ exz .
x ≥ −y : (1 + x/y)y ≤ ex .
x = −1, ist die linke Seite 0, die rechte ist e−z > 0. Sei nun
x > −1, also 1 + x > 0. Dann folgt aus Prop. A.0.1 mit der Monotonie der
z
z
x z
xz
Funktion u 7→ u die Ungleichung (1 + x) ≤ (e ) = e .
Beweis : (a) Wenn
2
Proposition A.0.3
Für alle
Beweis :
x ∈ R, |x| < 1: ex ≤
(1 − x)ex = (1 − x)
1
, mit Gleichheit genau für
1−x
xi
i≥0 i!
P
≤ (1 − x)
P
i≥0
x = 0.
2
xi = 1.
Proposition A.0.4
Für alle
x > 0: ln x ≤ x − 1,
mit Gleichheit genau für
x = 1.
f (x) = (x − 1) − ln x, für x > 0. Die Ableitungen sind f 0 (x) =
1 − 1/x und f (x) = x−2 > 0. Daher hat f ein globales Minimum an der Stelle
x = 1. Es folgt (x − 1) − ln x ≥ f (1) = 0, wie gewünscht.
2
Beweis : Betrachte
00
27
Proposition A.0.5 Für alle
n, k ∈ N, 0 ≤ k ≤ n:
n
nn
1
≤ k
= α
,
n−k
k (n − k)
(α (1 − α)1−α )n
k
wobei
α=
k
. Weiterhin:
n
n
en k
≤
.
k
k
Beweis : Für
k=0
und
k=n
ist nichts zu zeigen die rechte Seite ist
1.
Sonst
gilt nach der binomischen Formel:
X n
n k
i
n−i
n = (k + (n − k)) =
k (n − k)
≥
k (n − k)n−k ,
i
k
0≤i≤n
n
und daher
n
n
k
≤
nn
. Die zweite Ungleichung folgt, weil
kk (n−k)n−k
n
n−k
n−k
= 1+
k
n−k
n−k
< (ek/(n−k) )n−k = ek ,
2
mit Prop. A.0.2(b).
28
Herunterladen