2 Grundlagen aus der Wahrscheinlichkeitsrechnung

2
Grundlagen aus der Wahrscheinlichkeitsrechnung
In diesem Abschnitt sind die wichtigsten Konzepte der Wahrscheinlichkeitsrechnung zusammengestellt, die für die Zwecke unserer Vorlesung wichtig sind. Sie
beschränken sich der Einfachheit halber auf den Fall endlicher und abzählbar
unendlicher Wahrscheinlichkeitsräume.
Eine sehr gute Einführung in die Thematik findet sich im Buch „Probability
and Computing — Randomized Algorithms and Probabilistic Analysis“ von M.
Mitzenmacher und E. Upfal.
2.1
Grundbegriffe, Beispiele
Definition 2.1.1 Ein Wahrscheinlichkeitsraum (W-Raum) ist ein
Paar (Ω, p), wo Ω eine endliche oderPabzählbar unendliche Menge und
p(ω) = 1. Wir schreiben oft pω
p : Ω → [0, 1] eine Funktion ist, mit
ω∈Ω
statt p(ω). Eine solche Funktion p : Ω → [0, 1] heißt auch „Verteilung“
oder „Wahrscheinlichkeitsverteilung“.
BemerkungP
2.1.2 Man weiß, dass in der Situation der Definition für jedes A ⊆
pω absolut (d. h. ohne Rücksicht auf die Summationsreihenfolge)
Ω die Reihe
ω∈A
konvergiert, also einen wohldefinierten Wert hat.
Ein Wahrscheinlichkeitsraum ist eine mathematisch exakte Formulierung für das
(informale, intuitive) Konzept eines „Zufallsexperiments“: Es wird „zufällig“ ein
Element aus Ω ausgewählt; dabei ist die Wahrscheinlichkeit, gerade ω zu erhalten, durch pω gegeben. Man teste diese intuitive Auffassung an den folgenden
Beispielen.
Beispiele 2.1.3 (a) Zur Modellierung des Zufallsexperiments, einen fairen Würfel einmal zu werfen, benutzt man den Wahrscheinlichkeitsraum (Ω, p) mit Ω =
{1, . . . , 6} und p(ω) = 16 für jedes ω ∈ {1, . . . , 6}.
Bei einer fairen Münze wird man (mit „0“ für „Kopf“ und „1“ für „Zahl“) den
W-Raum Ω = {0, 1} und p(ω) = 12 verwenden. Ist die Münze gefälscht, könnte
man z. B. p(0) = 0,55 und p(1) = 0,45 setzen.
(b) Zur Modellierung des Zufallsexperiments, zwei Würfel zu werfen und die
Summe der Augenzahlen als Resultat zu nehmen, wird man etwa Ω = {2, . . . , 12}
2
6
1
1
, p(3) = 36
, . . ., p(7) = 36
, . . ., p(12) = 36
wählen. Man beachte,
und p(2) = 36
dass hier die Wahrscheinlichkeiten unterschiedlich sind.
(c) U 6= ∅ sei eine endliche Menge. Wir modellieren das Zufallsexperiment, ein
Element aus U zu wählen, wobei jedes Element die gleichen Chancen haben soll,
1
wie folgt: Ω = U und pω = |U1 | , für alle ω ∈ Ω. Man spricht von der „uniformen
Verteilung“ auf U . Gewöhnlich ist implizit diese Verteilung gemeint, wenn über
die Wahrscheinlichkeiten der einzelnen Elemente gar nichts gesagt wird oder wenn
die Formulierung „wähle zufällig ein Element aus U “ benutzt wird.
(d) Wir wollen wiederholt mit einem Würfel würfeln und warten, bis die erste
„6“ erscheint. Dazu setzen wir Ω = {1, 2, 3, . . .} und pi = ( 56 )i−1 · 61 als die Wahrscheinlichkeit, dass beim i-ten Versuch zum ersten Mal eine „6“ gewürfelt wird.
Man sieht, mit der Summenformel für geometrische Reihen:
P
P
1
5 i−1
= 61 · 1−1 5 = 1.
i≥1 pi = 6 ·
i≥1 ( 6 )
6
Damit haben wir tatsächlich einen Wahrscheinlichkeitsraum definiert.
(e) Es sei U 6= ∅ eine endliche Menge und n ≥ 1. Der W-Raum (Ω, p) mit
Ω = U n = {(a1 , . . . , an ) | a1 , . . . , an ∈ U }
und pω = |U1|n , ω ∈ Ω, das ist also die uniforme Verteilung auf U n , entspricht dem
Zufallsexperiment, bei dem eine Folge von n Elementen aus U zufällig gewählt
wird, bzw. n-mal hintereinander ein Element aus U zufällig gewählt wird.
(f) Es sei U 6= ∅ endlich, 1 ≤ n ≤ |U |. Die Menge Ω = {A ⊆ U | |A| = n} mit der
−1
für alle ω ∈ Ω gegeben ist, definiert einen WVerteilung, die durch pω = |Un |
Raum, der das Zufallsexperiment „Wähle eine zufällige n-elementige Teilmenge
von U “ modelliert.
(g) Für die Durchschnittsanalyse von Sortierverfahren, die n Schlüssel aus dem
angeordneten Universum (U, <) sortieren, ist die folgende Verteilung zentral. Für
Sortierverfahren, die auf Schlüsseln nur Vergleiche und keine anderen Operationen durchführen, ist der Ablauf des Verfahrens im wesentlichen durch den „Ordnungstyp“ der Eingabe (a1 , . . . , an ) ∈ U n bestimmt, das ist die Permutation π von
{1, . . . , n} mit aπ(1) < · · · < aπ(n) . Diese ist eindeutig bestimmt, wenn a1 , . . . , an
verschieden sind. Daher betrachten wir
Ω = {π | π Permutation von {1, . . . , n}},
mit der durch p(π) = 1/|Ω| = 1/n! gegebenen Verteilung. Dieser Raum entspricht
dem Experiment, für n beliebig vorgegebene Elemente von U die Anordnung
zufällig zu wählen.
(h) Beim Hashing betrachtet man n Schlüssel x1 , . . . , xn und n Funktionswerte
h(x1 ), . . . , h(xn ) ∈ {0, 1, . . . , m − 1}. Man macht verschiedene Wahrscheinlichkeitsannahmen, die zu verschiedenen Wahrscheinlichkeitsräumen führen. Wenn
man etwa die „Uniformitätsannahme“ für eine Hashfunktion macht, meint man
damit, dass der Hashwert eines jeden Schlüssels unabhängig von den anderen
jeden Wert in {0, 1, . . . , m − 1} mit derselben Wahrscheinlichkeit annimmt. Der
zugehörige Wahrscheinlichkeitsraum ist
Ω = {0, 1, . . . , m − 1}n = {(v1 , . . . , vn ) | v1 , . . . , vn ∈ {0, 1, . . . , m − 1}}
2
mit der durch
p((v1 , . . . , vn )) =
1
mn
definierten Verteilung.
(Dies ist derselbe Wahrscheinlichkeitsraum wie der in (e), wenn man
U = {0, 1, . . . , m − 1} setzt.)
Definition 2.1.4 Ein Ereignis ist eine Menge A ⊆ Ω.
P
pω .
Die Wahrscheinlichkeit (W.) von A ist Pr(A) :=
ω∈A
Notation: Ist ϕ eine Eigenschaft oder (synonym) eine Aussage, die für ω ∈ Ω
gelten oder nicht gelten kann, so ist A = {ω ∈ Ω | ϕ(ω)} ein Ereignis. Oft
schreibt man hierfür kurz {ϕ}. Die Wahrscheinlichkeit Pr(A) wird dann als Pr(ϕ)
abgekürzt.
In den folgenden Beispielen sieht man, dass der intuitive Name „Ereignis“ und
die abkürzende Schreibweise für durch Aussagen gegebene Ereignisse und ihre
Wahrscheinlichkeiten recht gut passt. Man beachte, dass in der Notation der WRaum immer unterdrückt wird.
Beispiel 2.1.5 (a) In Beispiel 2.1.3 (b) ist
A = {ω ∈ Ω | ω ≥ 6} = {Augensumme ≥ 6}
ein Ereignis, das die Situation modelliert, dass die Summe der Augen mindestens
.
6 beträgt. Man schreibt Pr(Augensumme ≥ 6) für Pr(A). Es gilt Pr(A) = 26
36
(b) In Beispiel 2.1.3 (h) ist
A = {(v1 , . . . , vn ) | v1 = v2 = v3 }
ein Ereignis, das man auch {h(x1 ) = h(x2 ) = h(x3 )} schreiben kann. Es gilt
Pr(A) = Pr(h(x1 ) = h(x2 ) = h(x3 )) = |A|/mn = mn−2 /mn = 1/m2 .
Beachte allgemein:
Ist (Ω, p) die Gleichverteilung (oder uniforme Verteilung ) auf Ω, d. h. pω =
1/|Ω| für alle ω ∈ Ω, so ist Pr(A) = |A|/|Ω|.
3
Fakt 2.1.6
(a) Pr(∅) = 0, Pr(Ω) = 1, Pr({ω}) = pω , Pr(Ω − A) = 1 − Pr(A).
(b) Sind A1 , . . . , An disjunkte Ereignisse, so ist
X
Pr(A1 ∪ · · · ∪ An ) =
Pr(Ai ).
1≤i≤n
(c) Sind A1 , . . . , An beliebige Ereignisse, so ist
X
Pr(A1 ∪ · · · ∪ An ) ≤
Pr(Ai ).
1≤i≤n
(Vereinigungs-Schranke oder englisch union bound .)
(d) Ist A1 ⊆ A2 , so ist Pr(A1 ) ≤ Pr(A2 ).
Formel 2.1.6(d) wird oft folgendermaßen benutzt: Wenn aus der Aussage ϕ(ω)
die Aussage ψ(ω) folgt, dann gilt Pr(ϕ) ≤ Pr(ψ).
Die Aussagen von Fakt 2.1.6 sind leicht mittels Def. 2.1.4 nachzukontrollieren.
Beispiel 2.1.7 In Beispiel 2.1.3 (h) ist für jedes v ∈ {0, 1, . . . m − 1}
Pr(∃i ∈ {1, . . . , n} : h(xi ) = v) ≤
X
Pr(h(xi ) = v) = n ·
1≤i≤n
1
.
m
(Übung: Man mache die hier benutzten Ereignisse explizit und benenne die Regeln, die angewendet werden.)
2.2
Zufallvariablen und Erwartungswerte
Definition 2.2.1 Ist R eine Menge, so heißt eine Funktion X : Ω →
R eine Zufallsfunktion. Ist R numerisch (also R ⊆ R), so heißt ein
solches X eine Zufallsvariable (ZV ), im Fall R ⊆ Rk für ein k ≥ 1
auch ein Zufallsvektor.
Die Idee dabei ist natürlich, dass man ein ω ∈ Ω zufällig wählt (gesteuert von
der Verteilung p : Ω → [0, 1]), und dass dadurch auch ein zufälliger Wert X(ω)
festgelegt wird.
4
Zur Schreibweise: Soweit möglich, schreibt man X statt X(ω). Beispiel: Ist R′ ⊆
R, betrachtet man das Ereignis {X ∈ R′ } = {ω | X(ω) ∈ R′ }, und die Wahrscheinlichkeit Pr(X ∈ R′ ), usw.
Beispiel 2.2.2 Betrachte wieder Beispiel 2.1.3 (h). (ω = (v1 , . . . , vn ).)
(a) Für 1 ≤ i ≤ n ist die Funktion ω 7→ vi = h(xi ) eine Zufallsvariable.
(b) Für 0 ≤ v < m ist die Funktion ω 7→ Bv = {i | vi = v} = {i | h(xi ) = v}
eine Zufallsfunktion (der Wert ist eine „zufällige Menge“ oder „Zufallsmenge“, die den Schlüsseln xi entspricht, die von h auf den Wert v abgebildet
werden); die Funktion bv : ω 7→ |Bv | der Anzahl dieser Schlüssel ist eine ZV.
Jede Zufallsvariable X induziert einen neuen Wahrscheinlichkeitsraum, wie folgt:
Ω′ := X[Ω] = {X(ω) | ω ∈ Ω}; p′ (α) := Pr(X = α) für α ∈ Ω′ .
(1)
Die Verteilung p′ heißt die Verteilung von X. Wenn es bequem ist, kann man
auch eine (endliche oder abzählbare) Obermenge von X[Ω] als Grundmenge benutzen.
Bemerkung 2.2.3 Für jeden Wahrscheinlichkeitsraum (Ω, p) ist p Verteilung
einer passenden Zufallsvariablen. Man wählt einfach X = idΩ , die Identität, die
ω auf ω abbildet, und erhält Ω′ = Ω und p′ = p.
Beispiel 2.2.4 (a) Beim Werfen von zwei Würfeln ist folgender Wahrscheinlichkeitsraum sehr natürlich:
Ω = {1, . . . , 6}2 ; p((i, j)) =
1
für (i, j) ∈ Ω.
36
Die durch X((i, j)) := i + j definierte Abbildung X : Ω → {2, . . . , 12} ist eine Zufallsvariable. Die Verteilung von X ist gerade die Verteilung des in Beispiel 2.1.3(b) beschriebenen Wahrscheinlichkeitsraums.
(b) Beim Spiel „Würfeln, bis eine 6 erscheint“ ist folgender Wahrscheinlichkeitsraum sehr natürlich:
Ω = {(a1 , . . . , ai ) | i ≥ 1, a1 . . . , ai−1 ∈ {1, . . . , 5}, ai = 6};
1
p((a1 , . . . , ai )) = i .
6
Ein Elementarereignis ist hier eine Folge von Würfen mit ihren Ergebnissen, die
abbricht, sobald die erste 6 erschienen ist. Jede solche Folge hat, intuitiv gesehen,
die Wahrscheinlichkeit (1/6). Die durch X((a1 , . . . , ai )) = i gegebene Zufallsvariable zählt die Anzahl dieser Versuche. Ihre Verteilung liefert den Wahrscheinlichkeitsraum aus Beispiel 2.1.3(d).
5
Beispiel 2.2.5 Wir führen Beispiel 2.2.2 noch etwas weiter. Die Zufallsvariable
b0 = |B0 | induziert eine Verteilung auf b0 [Ω] = {0, 1, . . . , n}. Dabei ist
|{(v1 , . . . , vn ) ∈ Ω | (v1 , . . . , vn ) enthält genau i Nullen}|
.
mn
n−i
i 1
1
n
(m − 1)n−i
n
·
· 1−
.
=
·
=
mn
m
m
i
i
p′ (i) =
(2)
(3)
(Dies ist eine Binomialverteilung.) Natürlich ergibt sich für jedes v ∈ [m] anstelle
von 0 dieselbe Verteilung.
Definition 2.2.6 Der Erwartungswert einer ZV X ≥ 0 ist
X
X
E(X) :=
X(ω) · pω =
α · Pr(X = α).
ω∈Ω
α∈X[Ω]
Wenn X auch negative Werte annehmen
P kann, betrachten wir den Erwartungs|X(ω)| · pω < ∞. In diesem Fall ist der
wert E(X) von X nur dann, wenn
ω∈Ω
P
X(ω) · pω von der Summationsreihenfolge unabhängig.
Wert der Summe
ω∈Ω
Die zweite Darstellung des Erwartungswertes in Definition 2.2.6 lässt sich leicht
durch Umstellen von Summen bzw. Reihen beweisen, was hier kein Problem ist,
weil alle Reihen absolut konvergieren. Man kann die zweite Darstellung auch
so auffassen: Man betrachtet die Verteilung von X, die jeder Zahl α ∈ X[Ω]
eine Wahrscheinlichkeit p′ (α) zuordnet, und bildet den Mittelwert dieser Zahlen,
gewichtet mit diesen Wahrscheinlichkeiten.
Fakt 2.2.7 Ist X : Ω → N eine Zufallsvariable, so gilt:
E(X) =
∞
X
Pr(X ≥ i).
i=1
Beweis: Setze pi = Pr(X = i), qj = Pr(X ≥ j). Dann gilt: qj =
X
pi , also
i≥j
E(X) =
X
i≥0
i · pi =
X
i≥1
i · pi =
X X
i≥1 1≤j≤i
6
pi =
XX
j≥1 i≥j
pi =
X
j≥1
qj .
Fakt 2.2.8 Für beliebige Zufallsvariable X, Y, X1 , . . . , Xn gilt (unter der
Voraussetzung, dass alle Erwartungswerte definiert sind):
(a) X ≤ Y (d. h. ∀ω ∈ Ω: X(ω) ≤ Y (ω))
⇒
E(X) ≤ E(Y ).
(b) E(αX + βY ) = αE(X) + βE(Y ).
(c) E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ).
(Linearität des Erwartungswertes)
(d) Ist X ∈ {0, 1} (d. h. ∀ω ∈ Ω: X(ω) ∈ {0, 1}), so ist
E(X) = Pr(X = 1).
Die Beweise dieser Rechenregeln sind einfache Übungsaufgaben.
Beispiel 2.2.9 Betrachte Bsp. 2.2.2 (b). Wir berechnen
E(|Bv |). Definiere ZVen
1 falls hi = v
i
Xv :=
0 sonst.
Klar: |Bv | = Xv1 + · · · + Xvn . Also gilt
E(|Bv |) =
X
1≤i≤n
2.3
E(Xvi ) =
X
Pr(Xvi = 1) =
1≤i≤n
X
Pr(hi = v) =
1≤i≤n
X 1
n
= .
m
m
1≤i≤n
Varianz und Ungleichungen von Markov, Chebychev
und Jensen
Fakt 2.3.1 (Markoff/Markov-Ungleichung)
Es sei Z ≥ 0 eine beliebige Zufallsvariable, und t > 0 sei beliebig. Dann
gilt:
E(Z)
.
Pr(Z ≥ t) ≤
t
Beweis. Setze At = {Z ≥ t}. Betrachte die Zufallsvariable
1 falls Z ≥ t
Xt :=
0 sonst.
Offenbar ist dann Z ≥ t · Xt , also
E(Z) ≥ E(t · Xt ) = t · E(Xt ) = tPr(Z ≥ t).
7
Dividieren durch t liefert die Behauptung.
Definition 2.3.2 Für eine beliebige Zufallsvariable X mit E(X 2 ) < ∞
definieren wir die Varianz von X als
Var(X) := E((X − E(X))2 ).
Man sieht sofort, dass gilt:
Var(X) = E(X 2 −2XE(X)+E(X)2 ) = E(X 2 )−2E(X)2 +E(X)2 = E(X 2 )−E(X)2 .
Folgerung: Da Var(X) Erwartungswert von (X −E(X))2 ≥ 0 ist, ist Var(X) ≥ 0.
Daraus folgt
(4)
E(X)2 ≤ E(X 2 )
für jede Zufallsvariable X, deren Varianz existiert.
Wenn wir auf die Zufallsvariable Z = (X − E(X))2 ≥ 0 die Markov-Ungleichung
anwenden, erhalten wir:
Fakt 2.3.3 (Chebychev/Tschebyscheff-Ungleichung) Es sei X eine
Zufallsvariable mit E(X 2 ) < ∞. Dann gilt für jedes t > 0:
Pr(|X − E(X)| ≥ t) ≤
Var(X)
.
t2
Beweis. Setze Z := (X − E(X))2 . Dann gilt nach der Markov-Ungleichung:
Pr(|X − E(X)| ≥ t) = Pr(Z ≥ t2 ) ≤
Var(X)
E(Z)
=
.
t2
t2
Wir können die Markov-Ungleichung verallgemeinern:
Proposition 2.3.4 X sei eine beliebige Zufallsvariable, D ⊆ R, f : D →
R+ sei monoton mit D = Def(f ) ⊇ X(Ω), so dass E(f (X)) existiert.
Dann gilt für jedes t ∈ D:
Pr(X ≥ t) ≤
8
E(f (X))
.
f (t)
Beweis: Man wendet die Markov-Ungleichung auf die Zufallsvariable f (X) an,
und verwendet, dass wegen der Monotonie von f die Aussagen X ≥ t und f (X) ≥
f (t) äquivalent sind.
2
Beispiele:
• Sei α > 0 beliebig. Dann gilt
Pr(X ≥ t) ≤
E(|X|α )
.
tα
• Sei k ≥ 2 eine gerade ganze Zahl und t ≥ 0 . Dann gilt:
Pr(|X − E(X)| ≥ t) ≤
E((X − E(X))k )
.
tk
(Hier wird 2.3.4 auf die Zufallsvariable Z = |X − E(X)| und f (x) = xk
angewendet.)
• Sei X reellwertig, sei a > 0, und sei E(eaX ) definiert. Dann gilt
Pr(X ≥ t) ≤
E(eaX )
.
eat
(Dies ist die ursprüngliche „Chernoff-Schranke“.)
Wir haben oben gesehen, dass stets E(X)2 ≤ E(X 2 ) gilt. Anstelle der Funktion
x 7→ x2 kann man jede beliebige konvexe Funktion benutzen.
Definition 2.3.5 D ⊆ R sei ein Intervall. Eine Funktion f : D → R
heißt konvex, wenn für alle x, y ∈ D und jedes λ ∈ [0, 1] gilt:
f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y).
Sie heißt konkav, wenn −f konvex ist.
Grob gesprochen ist eine Funktion konvex, wenn an jeder Stelle der Graph der
Funktion unter jeder Sekante dieses Funktionsgraphen verläuft. – Aus der Schule
oder aus der Analysis weiß man, dass für die Konvexität hinreichend ist, dass
f ′′ (x) in D (bzw. im Inneren von D) existiert und positiv ist.
Beispiele:
(i) Die Funktion f : x 7→ x2 ist konvex in R. Allgemeiner gilt dies für x 7→ x2d ,
für jede natürliche Zahl d > 0.
(ii) Wenn α ∈ R, α > 1, dann ist die Funktion fα : x 7→ xα konvex in [0, ∞).
(iii) Wenn α ∈ R, 0 < α < 1, dann ist die Funktion fα : x 7→ xα konkav in
[0, ∞).
9
(iv) Wenn α ∈ R, α > 0, dann ist die Funktion gα : x 7→ x−α konvex in (0, ∞).
(Differenziere zweimal: gα′ (x) = −α/xα+1 , und: gα′′ (x) = −α(−(α+1))/xα+2 .
Dies ist immer positiv.)
(v) Die Funktion h : x 7→ x ln x ist konvex in [0, ∞).
(Differenziere zweimal: h′ (x) = ln x + 1, und h′′ (x) = x−1 > 0.)
(vi) Für t ∈ R ist die Funktion k : x 7→ etx konvex in R.
Proposition 2.3.6 (Jensensche Ungleichung, allgemeine Form)
Es sei X eine reellwertige Zufallsvariable und f eine Funktion mit
D = Def(f ) ⊇ X(Ω). Wenn E(X) und E(f (X)) definiert sind, dann
gilt:
(a) Wenn f konvex ist: f (E(X)) ≤ E(f (X)).
(b) Wenn f konkav ist: f (E(X)) ≥ E(f (X)).
Beispiele: Unter der Voraussetzung, dass jeweils die Erwartungswerte definiert
sind, gilt:
(i) E(X)2d ≤ E(X 2d ).
(ii) Für α > 1 und X ≥ 0 gilt: E(X)α ≤ E(X α ).
(iii) Für 0 < α < 1 und X ≥ 0 gilt: E(X)α ≥ E(X α ).
(iv) Für α > 0 und X > 0 gilt E(X)−α ≤ E(X −α ).
(v) Für X ≥ 0 gilt E(X) ln(E(X)) ≤ E(X ln X).
(vi) Für t ∈ R gilt etE(X) ≤ E(etX ).
Beweis der Jensenschen Ungleichung: Wir beweisen nur (a). ((b) folgt durch Multiplikation der Ungleichung mit −1.) Setze x0 := E(X). Dann ist x0 ∈ Def(f ).
Nach einer Grundeigenschaft von konvexen Funktionen, die man in der Analysis
beweist, hat der Graph von f im Punkt (x0 , f (x0 )) eine „untere Stützgerade“, das
ist eine Gerade, die durch den Punkt verläuft und stets unterhalb des Funktionsgraphen bleibt. Das heißt: Es gibt ein α ∈ R (die Steigung der Stützgeraden)
derart dass
f (x0 ) + α(x − x0 ) ≤ f (x) , für alle x ∈ Def(f ) .
(Wenn f differenzierbar ist, wählt man α = f ′ (x0 ).) Daraus folgt, mit der Linearität und der Monotonie des Erwartungswertes:
f (x0 ) + α(E(X) − x0 ) ≤ E(f (X)).
Nach der Wahl von x0 folgt die behauptete Ungleichung.
10
2
Die Jensensche Ungleichung ist eine recht allgemeine Konvexitätsaussage. Um
ihre Kraft zu demonstrieren, beweisen wir kurz die Ungleichung zwischen dem
arithmetischen und dem geometrischen Mittel:
Proposition 2.3.7 (Arithmetisches versus geometrisches Mittel)
Für a1 , . . . , an ≥ 0 gilt:
a1 + · · · + an
≥ (a1 · · · an )1/n .
n
Allgemeiner : Wenn zudem p1 , . . . , pn ≥ 0 sind mit p1 +· · ·+pn = 1, dann
gilt:
p1 a1 + · · · + pn an ≥ ap11 · · · apnn .
Beweis: Wir können o.B.d.A. annehmen, dass alle ai strikt positiv sind. Dann betrachten wir eine Zufallsvariable X, die die Werte a1 , . . . , an mit Wahrscheinlichkeiten p1 , . . . , pn annimmt, sowie die konkave Funktion f (t) = ln t (mit Def(f ) =
(0, ∞)). Nach Prop. 2.3.6(b) gilt f (E(X)) ≥ E(f (X)). Wenn man dies ausschreibt und die Logarithmus-Rechenregeln anwendet, ergibt sich
ln(p1 a1 + · · · + pn an ) ≥ p1 ln(a1 ) + · · · + pn ln(an ) = ln(ap11 · · · apnn ).
Die Monotonie der Logarithmusfunktion liefert die Behauptung.
11
2
2.4
Bedingte Wahrscheinlichkeiten, bedingte Erwartungswerte
Definition 2.4.1 Ist A ⊆ Ω ein Ereignis mit Pr(A) > 0, setzen wir
Pr(B | A) :=
Pr(A ∩ B)
,
Pr(A)
und nennen dies die bedingte Wahrscheinlichkeit von B (unter der
Bedingung A), für beliebige Ereignisse B.
Es ist leicht zu sehen, dass Ω mit der durch Pr( · | A) definierten Verteilung
ebenfalls ein Wahrscheinlichkeitsraum ist. (Elementarwahrscheinlichkeiten: pA
ω =
A
pω /Pr(A) für ω ∈ A und pω = 0 für ω ∈
/ A.) Auch in diesem Wahrscheinlichkeitsraum lassen sich Erwartungswerte von Zufallsvariablen X bilden (geschrieben
E(X | A)). Man sieht leicht:
Pr(A | A) = Pr(Ω | A) = 1;
E(X | A) =
X
1
·
pω X(ω).
Pr(A) ω∈A
Fakt 2.4.2 Basisformel für bedingte Wahrscheinlichkeiten:
Pr(A ∩ B) = Pr(A)Pr(B | A).
Im Fall Pr(A) = 0 ist Pr(B | A) nicht definiert. Solange man bedingte Wahrscheinlichkeiten nur über diese Basisformel benutzt, kann man so tun, als ob
Pr(B | A) irgendeinen Wert hätte. Die Formel kann man auf den Durchschnitt
mehrerer Ereignisse verallgemeinern:
Pr(A1 ∩· · ·∩An ) = Pr(A1 )Pr(A2 |A1 )Pr(A3 |A1 ∩A2 ) · · · Pr(An |A1 ∩· · ·∩An−1 ).
12
2.5
Unabhängigkeit bei Ereignissen und Zufallsvariablen
Definition 2.5.1
(a) Ereignisse
A
und
B
Pr(A ∩ B) = Pr(A)Pr(B).
heißen
unabhängig,
falls
(b) Ereignisse A1 , . . . , An heißen unabhängig, falls
!
\
\
Y
Y
Pr
Ai ∩ (Ω − Ai ) =
Pr(Ai ) · (1 − Pr(Ai )),
i∈I
i∈J
i∈I
i∈J
für beliebige I, J ⊆ {1, . . . , n}, I ∩ J = ∅.
Beispiel 2.5.2 (a) In Bsp. 2.1.3 (h) sind die Ereignisse {v1 = v10 }, . . . , {vn = vn0 }
unabhängig, für beliebige v10 , . . . , vn0 ∈ {0, . . . , m − 1} fest.
(b) In Bsp. 2.1.3 (h) sind die Ereignisse {v1 6= 0}, . . . , {vn 6= 0} unabhängig.
Definition 2.5.3 Zufallsfunktionen Xi : Ω → Ri , 1 ≤ i ≤ n, heißen unabhängig, wenn für beliebige Ri′ ⊆ Ri die Ereignisse {X1 ∈
R1′ }, . . . , {Xn ∈ Rn′ } unabhängig sind. (Dies gilt genau dann, wenn
Y
Pr(Xi ∈ Ri′ für 1 ≤ i ≤ n) =
Pr(Xi ∈ Ri′ )
1≤i≤n
für beliebige Ri′ ⊆ Ri .)
Fakt 2.5.4 Sind X1 , . . . , Xn unabhängig und sind gi : Ri → Si beliebig,
1 ≤ i ≤ n, dann sind die Zufallsfunktionen g1 ◦ X1 , . . . , gn ◦ Xn unabhängig.
Fakt 2.5.5 Sind (Ωi , pi ), 1 ≤ i ≤ n, W-Räume, so wird durch (Ω, p) mit Ω :=
Ω1 × · · · × Ωn , p := p1 × · · · × pn , wo p(ω1 , . . . , ωn ) = p1 (ω1 ) · . . . · pn (ωn ), für
ω = (ω1 , . . . , ωn ) ∈ Ω, ein neuer W-Raum (der „Produktraum“) definiert. In Ω
sind die n Projektionsfunktionen Xi : ω = (ω1 , . . . , ωn ) 7→ ωi ∈ Ωi unabhängig;
nach Fakt 2.5.4 ist also jede Folge Y1 , . . . , Yn von Zufallsfunktionen, wo Yi = gi ◦Xi
(d. h. Yi hängt nur von der i-ten Komponente ωi ab), unabhängig. (Beispiel : Der
Wahrscheinlichkeitsraum in Beispiel 2.1.3 (h) ist ein Produktraum.)
13
Fakt 2.5.6 „Bei Unabhängigkeit multiplizieren sich Erwartungswerte,
Varianzen addieren sich.“ (Erwartungswerte addieren sich immer, siehe
Fakt 2.2.8(c).)
(a) Sind
X1 , . . . , Xn Q unabhängige
E(X1 · . . . · Xn ) =
E(Xi ).
Zufallsvariable,
so
gilt
1≤i≤n
(b) Sind X1 ,P
. . . , Xn unabhängige Zufallsvariable, so gilt Var(X1 +· · ·+
Var(Xi ).
Xn ) =
1≤i≤n
Beweis. (a) Wir beweisen die Aussage für zwei Zufallsvariable X und Y . Die
Verallgemeinerung auf n Zufallsvariable ergibt sich durch vollständige Induktion.
X
E(X · Y ) =
pω X(ω)Y (ω)
ω∈Ω
X
=
X
αβ · Pr(X = α ∧ Y = β)
α∈X[Ω] β∈Y [Ω]
X
=
α∈X[Ω]
αβ · Pr(X = α) · Pr(Y = β)
β∈Y [Ω]
X
=
X
X
αPr(X = α)
βPr(Y = β)
α∈(X)[Ω]
β∈(Y )[Ω]
= E(X)E(Y ).
(b) Definiere X = X1 + · · · + Xn .
Var(X) = E((X − E(X))2 )
X
2 = E
(Xi − E(Xi ))
1≤i≤n
= E
X
(Xi − E(Xi ))(Xj − E(Xj ))
1≤i,j≤n
=
X
E((Xi − E(Xi ))(Xj − E(Xj )))
1≤i,j≤n
=
X
E((Xi − E(Xi ))2 ) +
1≤i≤n
=
X
1≤i6=j≤n
2
E((Xi − E(Xi )) ) +
1≤i≤n
=
X
1≤i≤n
X
X
1≤i6=j≤n
Var(Xi ) +
X
E (Xi − E(Xi ))(Xj − E(Xj ))
E (Xi − E(Xi ))(Xj − E(Xj ))
cov(Xi , Xj ),
1≤i6=j≤n
wobei die Kovarianz cov(Y, Z) von Y und Z als cov(Y, Z) = E((Y −E(Y ))(Z −
E(Z))) definiert ist. Um die behauptete Gleichung zu beweisen, genügt es zu
zeigen, dass cov(Y, Z) = 0 gilt, falls Y und Z unabhängig sind. Wir rechnen,
14
unter Benutzung von Linearität des Erwartungswertes und von Teil (a):
cov(Y, Z) = E(Y Z)−E(Y E(Z))−E(E(Y )Z)+E(E(Y )E(Z)) = E(Y Z)−E(Y )E(Z) = 0.
Damit ist auch Teil (b) bewiesen.
Bemerkung: Für den Beweis von Teil (b) haben wir nicht die volle Unabhängigkeit
eingesetzt, sondern nur die Tatsache, dass Xi , Xj unabhängig sind für i 6= j. Diese
Eigenschaft nennt man paarweise Unabhängigkeit.
Beachte noch: Wenn Xi 0-1-wertig ist, ist Xi2 = Xi , also E(Xi2 ) = E(Xi ). Damit
erhält man für X = X1 + · · · + Xn :
X
X
X
Var(X) =
Var(Xi ) =
(E(Xi2 ) − E(Xi )2 ) ≤
E(Xi ) = E(X).
1≤i≤n
1≤i≤n
1≤i≤n
(Gleichheit gilt nur, wenn alle Xi gleich 0 sind.)
2.6
Die Hoeffding-Ungleichung
Satz 2.6.1 (Hoeffding) X1 , . . . , Xn seien unabhängige Zufallsvariable mit Werten
im Intervall [0, 1]. Definiere
X := X1 + · · · + Xn ;
m := E(X) .
Dann gilt:
Pr(X ≥ m + a) ≤
m
m+a
m+a Pr(X ≤ m − b) ≤
m
m−b
m−b n−m
n − (m + a)
n−m
n − (m − b)
n−(m+a)
n−(m−b)
, für 0≤a≤n−m; (5)
, für 0 ≤ b ≤ m.
(6)
Bevor wir diese Ungleichungen beweisen, wollen wir sie ein wenig diskutieren.
Die Hoeffding-Ungleichung gehört zu der Familie der „tail inequalities“, das sind
Ungleichungen, die Schranken dafür liefern, dass Verteilungen „weit auseinandergezogen“ sind, d. h. dafür dass Zufallsvariable Werte weit weg von ihrem Erwartungwert annehmen. Wir werden weiter unten sehen, dass die Hoeffding-Schranke
relativ kräftig ist, wenn m nicht zu klein ist: Summen von vielen beschränkten
(in [0, 1]) unabhängigen Zufallsvariablen sind eng um ihren Erwartungwert konzentriert.
Man beachte, dass über die einzelnen Xi nichts weiter angenommen ist als dass
sie in [0, 1] eingeschlossen sind. Insbesondere können sie auch ganz verschiedene
Verteilungen haben.
15
Korollar 2.6.2 In der Situation von Satz 1 gilt:
m+a
m
ea , für 0 ≤ a ≤ n − m;
Pr(X ≥ m + a) ≤
m+a
Pr(X ≤ m − b) ≤
m
m−b
m−b
e−b , für 0 ≤ b ≤ m.
(7)
(8)
Der Beweis von Korollar 2.6.2 ist sehr einfach, wenn man sich die folgende auch
sonst nützliche Ungleichung in Erinnerung ruft:
y
x
1+
< ex für y > 0 und x ≥ −y;
(9)
y
für x = 0 sind beide Seiten gleich 1. Dabei folgt (9) aus der Ungleichung 1+z ≤ ez
für jedes z ∈ R, mit Gleichheit genau für z = 0, wenn man z = xy setzt.
Wenn man (9) für den zweiten Faktor
n−m
n − (m + a)
n−(m+a)
= 1+
a
n − (m + a)
n−(m+a)
in (5) einsetzt, ergibt sich (7) für 0 ≤ a < n − m.
m m+a
)
=
An dieser Stelle beobachten wir, dass (wieder mit (9)) der Faktor ( m+a
a
m+a
−a
(1 − m+a )
in (7) immer kleiner als e ist,. Daher ist die rechte Seite in (7)
kleiner als 1 und stellt damit eine echte Schranke für eine Wahrscheinlichkeit dar.
(Dazu später mehr.)
Ganz analog ergibt sich (8) aus (6) mit Hilfe von (9). 2
Korollar 2.6.3 In der Situation des Satzes gilt:
m
eε
n
− 1; (10)
, für 0 ≤ ε ≤ m
Pr(X ≥ (1 + ε)m) ≤
(1 + ε)1+ε
m
e−ε
Pr(X ≤ (1 − ε)m) ≤
, für 0 ≤ ε ≤ 1.
(11)
(1 − ε)1−ε
Korollar 2.6.3 ergibt sich aus Korollar 2.6.2 einfach dadurch, dass man ε =
bzw. ε = mb setzt.
a
m
Korollar 2.6.3 besagt folgendes: Wenn man eine tolerierbare prozentuale Abweichung (z. B. ε = 0,01, was 1 Prozent entspricht) vorgibt, dann ist die Wahrscheinlichkeit, dass X weiter als diese Toleranz von seinem Erwartungswert m = E(X)
abweicht, durch eine in m exponentiell fallende Funktion beschränkt. Je kleiner
ε wird, desto näher an 1 liegt die Basis dieser Exponentialfunktion.
16
Um einen Eindruck zu bekommen, hier eine Skizze des Verlaufs der Funktion
eε
ε 7→ (1+ε)
1+ε :
e^x/(1+x)^(1+x)
1
0.8
0.6
0.4
0.2
0
1
2
x
3
4
Nun beweisen wir Formel (5) aus Satz 2.6.1.
Der Fall a = 0 ist trivial, weil auf der linken Seite von (5) eine Wahrscheinlichkeit
steht, auf der rechten Seite 1. Den Fall a = n − m behandeln wir am Ende. Es
sei also 0 < a < n − m beliebig, aber fest. Für jedes beliebige t > 0 erhält man
durch Anwenden der Markoff-Ungleichung auf die ZV etX folgendes:
Pr(X ≥ m + a) = Pr(etX ≥ et(m+a) )
E(etX )
≤ t(m+a)
e
Y
= e−t(m+a) E(
etXi ).
1≤i≤n
Weil X1 , . . . , Xn unabhängig sind, sind auch etX1 , . . . , etXn unabhängig (Fakt 2.5.4)).
Daher (Fakt 2.5.6(a)) multiplizieren sich die Erwartungswerte, und wir erhalten:
Y
Pr(X ≥ m + a) ≤ e−t(m+a) E(
etXi )
1≤i≤n
= e−t(m+a)
Y
1≤i≤n
Was können wir über die Zahlen E(etXi ) sagen?
Lemma 2.6.4 Sei t > 0 beliebig. Dann gilt:
(i) etx ≤ 1 + x(et − 1), für 0 ≤ x ≤ 1.
17
E(etXi ).
(12)
(ii) Ist Y eine Zufallsvariable mit 0 ≤ Y ≤ 1, dann gilt
E(etY ) ≤ 1 + E(Y )(et − 1).
Beweis: (i) Die Funktion g : u 7→ (et )u ist konvex. Daher gilt für 0 ≤ x ≤ 1:
(et )x ≤ (1 − x) · g(0) + x · g(1) = (1 − x) · (et )0 + x · (et )1 = 1 + x(et − 1).
(ii) Wegen (i) gilt etY ≤ 1 + Y (et − 1) (als Ungleichung zwischen den Zufallsvariablen etY und 1 + Y (et − 1)). Die Behauptung folgt nun wegen der Monotonie
und der Linearität der Erwartungswerte. 2
Mit Lemma 2.6.4 erhalten wir aus (12):
Pr(X ≥ m + a) ≤ e−t(m+a)
Y
(1 + E(Xi )(et − 1)).
(13)
1≤i≤n
Hier benutzen wir die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel, Proposition 2.3.7. Wenn wir diese Ungleichung in (13) auf die
nichtnegativen Zahlen ai = 1 + E(Xi )(et − 1), 1 ≤ i ≤ n, anwenden, und uns
erinnern, dass X = X1 + · · · + Xn und m = E(X) ist, ergibt sich
!n
X
1
Pr(X ≥ m + a) ≤ e−t(m+a)
(1 + E(Xi )(et − 1))
n 1≤i≤n
n
m(et − 1)
= e
· 1+
n
n
m(et − 1)
−t(m+a)/n
= e
· 1+
n
n
m(z − 1)
−(m+a)/n
,
= z
· 1+
n
−t(m+a)
(14)
(15)
(16)
mit z = et .
Um aus der Ungleichung (16) optimalen Nutzen zu ziehen, sollten wir den bisher
noch freien Parameter t bzw. z = et so festlegen, dass der „Kern“
m
z −(m+a)/n · (1 + (z − 1))
n
möglichst klein wird. Wir wählen
z=
n−m
m+a
·
.
m
n − (m + a)
(17)
(Dass dieser Wert tatsächlich (16) minimiert, sieht man durch Differenzieren.)
Man sieht, dass (wegen a > 0) beide Faktoren in (17) größer als 1 sind, so dass
sich z > 1 und t > 0 ergibt. Wir setzen (17) in die obere Schranke (14) ein und
erhalten
m+a n
m(n − (m + a))
m (m + a)(n − m)
Pr(X ≥ m + a) ≤
· 1−
(18)
.
+
(m + a)(n − m)
n
n(n − (m + a))
18
Eine leichte (Bruch-)Rechnung ergibt, dass der zweite Faktor in (18) einfach
n−m
)n ist. Passendes Zusammenfassen ergibt dann
( n−(m+a)
Pr(X ≥ m + a) ≤
m
m+a
m+a ·
n−m
n − (m + a)
n−(m+a)
,
(19)
und das ist (5).
Es fehlt noch der Fall a = n − m. Damit die Formel auf der rechten Seite von
(5) überhaupt definiert ist, muss man sich daran erinnern, dass per Konvention
00 = 1 ist. Wir benutzen hier, dass die rechte Seite in (5) für a → n − m (von
links) stetig ist, die linke Seite für a → n − m (von links) monoton fällt. Damit
erhält man:
Pr(X ≥ n) ≤
≤
=
lim
Pr(X ≥ m + a)
lim
a→(n−m)−
a→(n−m)−
m n
n
m
m+a
m+a n−m
n − (m + a)
n−(m+a)
.
Um schließlich (6) zu beweisen, könnte man „analog“ vorgehen. Stattdessen führen
wir diesen Fall aber auf (5) zurück, wie folgt. Wir definieren Zufallsvariable
Xi = 1 − Xi , 1 ≤ i ≤ n,
und
X = X1 + · · · + Xn ,
und m = E(X) = E(n − X) = n − E(X) = n − m. Weiter setzen wir a = b (dann
ist 0 ≤ a < m = n − m). Nun wenden wir (5) an und erhalten:
Pr(X ≥ m + a) ≤
m
m+a
m+a ·
n−m
n − (m + a)
n−(m+a)
,
(20)
Wenn man diese Ungleichung wieder in die „Xi -Notation“ überführt, ergibt sich
wegen m + a = n − m + b = n − (m − b) und n − m = m:
Pr(X ≤ m − b) ≤
n−m
n − (m − b)
n−(m−b) m−b
m
·
,
m−b
(21)
und das ist gerade (6).
2.7
Weitere Ungleichungen
Die folgende Behauptung ist eine Verallgemeinerung von Ungleichung (4) auf zwei
Zufallsvariable:
19
Proposition 2.7.1 (Cauchy-Schwarz-Ungleichung) Für Zufallsvariablen X und Y , deren Erwartungswert und Varianz definiert ist, gilt:
p
|E(XY )| ≤ E(X 2 )E(Y 2 ).
Beweis: Wir zeigen: E(XY )2 ≤ E(X 2 )E(Y 2 ). — Für λ ∈ R betrachte
f (λ) := E((X + λY )2 ) = E(X 2 ) + 2λE(XY ) + λ2 E(Y 2 ).
Wenn E(Y 2 ) = 0 ist, dann ist Y = 0, und die Ungleichung gilt trivialerweise.
Sonst sucht man die Minimalstelle der quadratischen Funktion f (durch Differenzieren und Null-Setzen) und findet sie bei λ0 = −E(XY )/E(Y 2 ). Der Wert f (λ)
ist als Erwartungswert einer nichtnegativen Zufallsvariablen selbst nicht negativ,
also gilt
0 ≤ f (λ0 ) = E(X 2 )−2E(XY )2 /E(Y 2 )+E(XY )2 /E(Y 2 ) = E(X 2 )−E(XY )2 /E(Y 2 );
daraus folgt E(XY )2 ≤ E(X 2 )E(Y 2 ).
2
Proposition 2.7.2 (Chebychev-Cantelli-Ungleichung) Wenn X
eine Zufallsvariable ist derart dass E(X) und Var(X) existieren, dann
gilt für alle t ≥ 0:
Pr(X ≥ E(X)+t) ≤
Var(X)
Var(X)
und Pr(X ≤ E(X)−t) ≤
.
2
Var(X) + t
Var(X) + t2
Beweis: Die zweite Ungleichung folgt, indem man die erste auf die Zufallsvariable
X ′ = E(X) − X anwendet, die dieselbe Varianz hat wie X. Wir zeigen die erste
Ungleichung. Wir können o.B.d.A. annehmen, dass E(X) = 0 ist (sonst betrachte
X ′ = X − E(X)); dann ist Var(X) = E(X 2 ). Wenn A ⊆ Ω ein Ereignis ist,
schreiben wir cA für die charakteristische Funktion (cA (ω) = 1 für ω ∈ A und
cA (ω) = 0 für ω ∈
/ A). Dann gilt für alle t ∈ R, dass t − X ≤ (t − X) · c{X<t} , also
t = E(t − X) ≤ E((t − X) · c{X<t} ).
Für t ≥ 0 können wir dann mit der Cauchy-Schwarz-Ungleichung wie folgt weiterrechnen:
t2 ≤ E((t − X)2 )E((c{X<t} )2 )
= E((t − X)2 )Pr(X < t)
= (Var(X) + t2 )Pr(X < t).
Umstellen ergibt:
Pr(X ≥ t) = 1 − Pr(X < t) ≤ 1 −
20
t2
Var(X)
=
,
2
Var(X) + t
Var(X) + t2
wie gewünscht.
2
Bemerkung: Wir vergleichen Proposition 2.7.2 mit der Chebychev-Ungleichung
(Fakt 2.3.3). Für die Wahrscheinlichkeit einer beidseitigen Abweichungpliefert die
Chebychev-Ungleichung engere Schranken; sie wirkt aber nur für t > Var(X).
Die Chebychev-Cantelli-Ungleichung ist geeignet, wenn man die Wahrscheinlichkeit der Abweichung nur nach einer Seite begrenzen will; sie wirkt für alle t > 0.
Wir wollen noch Ungleichung (4) benutzen, um eine Schranke für Pr(X 6= 0)
herzuleiten, falls X 6= 0 Werte in den natürlichen Zahlen annimmt.
Proposition 2.7.3 Für eine Zufallsvariable X 6= 0 mit Werten in N,
deren Erwartungswert und Varianz definiert ist, gilt:
E(X)2
≤ Pr(X 6= 0) ≤ E(X).
E(X 2 )
Beweis: Die zweite Ungleichung folgt aus der Markov-Ungleichung, da Pr(X 6=
0) = Pr(X ≥ 1). Für die erste Ungleichung wenden wir Ungleichung (4) mit der
auf {X 6= 0} bedingten Wahrscheinlichkeit an:
E(X | X 6= 0)2 ≤ E(X 2 | X 6= 0).
Weiter gilt
E(X | X 6= 0)2 =
E(X) 2
E(X 2 )
.
und E(X 2 | X 6= 0) =
Pr(X 6= 0)
Pr(X 6= 0)
Kombinieren dieser (Un-)Gleichungen, Kürzen und Umstellen liefert die Behauptung.
2
A
Ungleichungen aus der Analysis und der Kombinatorik
Proposition A.0.4
Für alle x ∈ R: 1 + x ≤ ex , mit Gleichheit genau für x = 0.
21
Proposition A.0.5
(a) Für alle x ≥ −1 und alle z > 0: (1 + x)z ≤ exz .
(b) Für alle y > 0 und alle x ≥ −y: (1 + x/y)y ≤ ex .
Proposition A.0.6
Für alle x ∈ R, |x| < 1: ex ≤
1
,
1−x
mit Gleichheit genau für x = 0.
Proposition A.0.7
Für alle x > 0: ln x ≤ x − 1, mit Gleichheit genau für x = 1.
Proposition A.0.8 Für alle n, k ∈ N, 0 ≤ k ≤ n:
1
nn
n
= α
,
≤ k
n−k
k (n − k)
(α (1 − α)1−α )n
k
wobei α = nk . Weiterhin:
en k
n
≤
.
k
k
Beweis: Für k = 0 und k = n ist nichts zu zeigen – die rechte Seite ist 1. Sonst
definiere α = nk und betrachte
X n n
αi (1 − α)n−i ,
1 = (α + (1 − α)) =
i
0≤i≤n
also 1 ≥ nk αk (1 − α)n−k . Daher ist
zweite Ungleichung folgt, weil
n
n−k
n−k
=
n
k
k
1+
n−k
≤ 1/(αk (1 − α)n−k ) =
n−k
mit Prop. A.0.5(b).
nn
.
kk (n−k)n−k
Die
< (ek/(n−k) )n−k = ek ,
2
22