2 Grundlagen aus der Wahrscheinlichkeitsrechnung In diesem Abschnitt sind die wichtigsten Konzepte der Wahrscheinlichkeitsrechnung zusammengestellt, die für die Zwecke unserer Vorlesung wichtig sind. Sie beschränken sich der Einfachheit halber auf den Fall endlicher und abzählbar unendlicher Wahrscheinlichkeitsräume. Eine sehr gute Einführung in die Thematik ndet sich im Buch Probability and Computing Randomized Algorithms and Probabilistic Analysis von M. Mitzenmacher und E. Upfal. 2.1 Grundbegrie, Beispiele Denition 2.1.1 Ein Wahrscheinlichkeitsraum (W-Raum ) ist ein (Ω, p), wo Ω eine endliche oderPabzählbar unendliche Menge und p : Ω → [0, 1] eine Funktion ist, mit p(ω) = 1. Wir schreiben oft pω Paar ω∈Ω statt p(ω). Eine solche Funktion p : Ω → [0, 1] heiÿt auch Verteilung oder Wahrscheinlichkeitsverteilung. Bemerkung 2.1.2 Man weiÿ, dass in der Situation der Denition für jedes Ω A⊆ P pω absolut (d. h. ohne Rücksicht auf die Summationsreihenfolge) ω∈A konvergiert, also einen wohldenierten Wert hat. die Reihe Ein Wahrscheinlichkeitsraum ist eine mathematisch exakte Formulierung für das (informale, intuitive) Konzept eines Zufallsexperiments : Es wird zufällig ein Ω ausgewählt; dabei ist die Wahrscheinlichkeit, gerade ω zu erhalpω gegeben. Man teste diese intuitive Auf fassung an den folgenden Element aus ten, durch Beispielen. Beispiele 2.1.3 (a) Zur Modellierung des Zufallsexperiments, einen fairen Würfel einmal zu werfen, benutzt man den Wahrscheinlichkeitsraum (Ω, p) mit Ω = {1, . . . , 6} und p(ω) = 61 für jedes ω ∈ {1, . . . , 6}. Bei einer fairen Münze wird man (mit 0 für Kopf und 1 für Zahl) den 1 W-Raum Ω = {0, 1} und p(ω) = verwenden. Ist die Münze gefälscht, könnte 2 man z. B. p(0) = 0,55 und p(1) = 0,45 setzen. (b) Zur Modellierung des Zufallsexperiments, zwei Würfel zu werfen und die Summe der Augenzahlen als Resultat zu nehmen, wird man etwa 1 Ω = {2, . . . , 12} 1 2 6 1 , p(3) = , . . ., p(7) = , . . ., p(12) = wählen. Man beachte, 36 36 36 36 dass hier die Wahrscheinlichkeiten unterschiedlich sind. und (c) p(2) = U 6= ∅ sei eine endliche Menge. Wir modellieren das Zufallsexperiment, ein U zu wählen, wobei jedes Element die gleichen Chancen haben soll, Ω = U und pω = |U1 | , für alle ω ∈ Ω. Man spricht von der uniformen Verteilung auf U . Gewöhnlich ist implizit diese Verteilung gemeint, wenn über Element aus wie folgt: die Wahrscheinlichkeiten der einzelnen Elemente gar nichts gesagt wird oder wenn die Formulierung wähle zufällig ein Element aus U benutzt wird. (d) Wir wollen wiederholt mit einem Würfel würfeln und warten, bis die erste 5 i−1 1 · 6 als die Wahr6 erscheint. Dazu setzen wir Ω = {1, 2, 3, . . .} und pi = ( ) 6 scheinlichkeit, dass beim i-ten Versuch zum ersten Mal eine 6 gewürfelt wird. Man sieht, mit der Summenformel für geometrische Reihen: P i≥1 pi = 1 6 · 5 i−1 i≥1 ( 6 ) P = 1 6 · 1 1− 56 = 1. Damit haben wir tatsächlich einen Wahrscheinlichkeitsraum deniert. (e) Es sei U 6= ∅ eine endliche Menge und n ≥ 1. Der W-Raum (Ω, p) mit Ω = U n = {(a1 , . . . , an ) | a1 , . . . , an ∈ U } 1 , ω ∈ Ω, das ist also die uniforme Verteilung auf |U |n Zufallsexperiment, bei dem eine Folge von n Elementen aus und pω = wird, bzw. n-mal hintereinander ein Element aus U U n , entspricht dem U zufällig gewählt zufällig gewählt wird. U 6= ∅ endlich, 1 ≤ n ≤ |U |. Die Menge Ω = {A ⊆ U | |A| = n} mit der |U | −1 Verteilung, die durch pω = für alle ω ∈ Ω gegeben ist, deniert einen Wn Raum, der das Zufallsexperiment Wähle eine zufällige n-elementige Teilmenge von U modelliert. (f ) Es sei (g) Für die Durchschnittsanalyse von Sortierverfahren, die angeordneten Universum n Schlüssel aus dem (U, <) sortieren, ist die folgende Verteilung zentral. Für Sortierverfahren, die auf Schlüsseln nur Vergleiche und keine anderen Operationen durchführen, ist der Ablauf des Verfahrens im wesentlichen durch den Ordn nungstyp der Eingabe (a1 , . . . , an ) ∈ U bestimmt, das ist die Permutation π von {1, . . . , n} mit aπ(1) < · · · < aπ(n) . Diese ist eindeutig bestimmt, wenn a1 , . . . , a n verschieden sind. Daher betrachten wir Ω = {π | π Permutation von p(π) = 1/|Ω| = 1/n! gegebenen Verteilung. Dieser Raum entspricht Experiment, für n beliebig vorgegebene Elemente von U die Anordnung mit der durch dem {1, . . . , n}}, zufällig zu wählen. 2 (h) Beim Hashing betrachtet man n Schlüssel x1 , . . . , xn und n Funktionswerte h(x1 ), . . . , h(xn ) ∈ {0, 1, . . . , m − 1}. Man macht verschiedene Wahrscheinlichkeitsannahmen, die zu verschiedenen Wahrscheinlichkeitsräumen führen. Wenn man etwa die Uniformitätsannahme für eine Hashfunktion macht, meint man damit, dass der Hashwert eines jeden Schlüssels unabhängig von den anderen jeden Wert in {0, 1, . . . , m − 1} mit derselben Wahrscheinlichkeit annimmt. Der zugehörige Wahrscheinlichkeitsraum ist Ω = {0, 1, . . . , m − 1}n = {(v1 , . . . , vn ) | v1 , . . . , vn ∈ {0, 1, . . . , m − 1}} mit der durch p((v1 , . . . , vn )) = 1 mn denierten Verteilung. (Dies ist derselbe U = {0, 1, . . . , m − 1} Wahrscheinlichkeitsraum wie der in (e), wenn man setzt.) Denition 2.1.4 Ein Ereignis ist eine Menge Die Wahrscheinlichkeit (W.) von A A ⊆ ΩP . := pω . ist Pr(A) ω∈A ω ∈Ω A = {ω ∈ Ω | ϕ(ω)} ein Ereignis. Oft schreibt man hierfür kurz {ϕ}. Die Wahrscheinlichkeit Pr(A) wird dann als Pr(ϕ) Notation: Ist ϕ eine Eigenschaft oder (synonym) eine Aussage, die für gelten oder nicht gelten kann, so ist abgekürzt. In den folgenden Beispielen sieht man, dass der intuitive Name Ereignis und die abkürzende Schreibweise für durch Aussagen gegebene Ereignisse und ihre Wahrscheinlichkeiten recht gut passt. Man beachte, dass in der Notation der WRaum immer unterdrückt wird. Beispiel 2.1.5 (a) In Beispiel 2.1.3 (b) ist A = {ω ∈ Ω | ω ≥ 6} = {Augensumme ≥ 6} ein Ereignis, das die Situation modelliert, dass die Summe der Augen mindestens 26 . 6 beträgt. Man schreibt Pr(Augensumme ≥ 6) für Pr(A). Es gilt Pr(A) = 36 (b) In Beispiel 2.1.3 (h) ist A = {(v1 , . . . , vn ) | v1 = v2 = v3 } ein Ereignis, das man auch Pr(A) {h(x1 ) = h(x2 ) = h(x3 )} schreiben kann. Es gilt = Pr(h(x1 ) = h(x2 ) = h(x3 )) = |A|/mn = mn−2 /mn = 1/m2 . 3 Beachte allgemein : (Ω, p) die Gleichverteilung (oder uniforme Verteilung ) 1/|Ω| für alle ω ∈ Ω, so ist Pr(A) = |A|/|Ω|. Ist auf Ω, d. h. pω = Fakt 2.1.6 (a) Pr(∅) (b) Sind = 0, Pr(Ω) A1 , . . . , An = 1, Pr({ω}) = pω , Pr(Ω − A) = 1 − Pr(A). disjunkte Ereignisse, so ist Pr(A1 X ∪ · · · ∪ An ) = Pr(Ai ). 1≤i≤n (c) Sind A1 , . . . , An beliebige Ereignisse, so ist Pr(A1 X ∪ · · · ∪ An ) ≤ Pr(Ai ). 1≤i≤n (Vereinigungs-Schranke oder englisch (d) Ist A1 ⊆ A2 , so ist Pr(A1 ) union bound .) ≤ Pr(A2 ). Formel 2.1.6(d) wird oft folgendermaÿen benutzt: Wenn aus der Aussage die Aussage ψ(ω) folgt, dann gilt Pr(ϕ) ϕ(ω) ≤ Pr(ψ). Die Aussagen von Fakt 2.1.6 sind leicht mittels Def. 2.1.4 nachzukontrollieren. Beispiel 2.1.7 In Beispiel 2.1.3 (h) ist für jedes Pr(∃i ∈ {1, . . . , n} : h(xi ) = v) ≤ X 1≤i≤n v ∈ {0, 1, . . . m − 1} Pr(h(xi ) = v) = n · 1 . m (Übung : Man mache die hier benutzten Ereignisse explizit und benenne die Regeln, die angewendet werden.) 4 2.2 Zufallvariablen und Erwartungswerte Denition 2.2.1 Ist R R eine Menge, so heiÿt eine Funktion eine Zufallsfunktion. Ist solches X R numerisch (also eine Zufallsvariable (ZV ), im Fall X: Ω → R ⊆ R), so heiÿt ein R ⊆ Rk für ein k ≥ 1 auch ein Zufallsvektor. Die Idee dabei ist natürlich, dass man ein der Verteilung p : Ω → [0, 1]), ω ∈Ω zufällig wählt (gesteuert von und dass dadurch auch ein zufälliger Wert X(ω) festgelegt wird. 0 Zur Schreibweise: Soweit möglich, schreibt man X statt X(ω). Beispiel: Ist R ⊆ R, betrachtet man das Ereignis {X ∈ R0 } = {ω | X(ω) ∈ R0 }, und die Wahr0 scheinlichkeit Pr(X ∈ R ), usw. Beispiel 2.2.2 Betrachte wieder Beispiel 2.1.3 (h). (ω (a) Für 1≤i≤n (b) Für 0≤v<m ist die Funktion ω 7→ vi = h(xi ) ist die Funktion = (v1 , . . . , vn ).) eine Zufallsvariable. ω 7→ Bv = {i | vi = v} = {i | h(xi ) = v} eine Zufallsfunktion (der Wert ist eine zufällige Menge oder Zufallsmen- xi entspricht, die von h auf den Wert v abgebildet werden); die Funktion bv : ω 7→ |Bv | der Anzahl dieser Schlüssel ist eine ZV. ge, die den Schlüsseln Jede Zufallsvariable X induziert einen neuen Wahrscheinlichkeitsraum, wie folgt: Ω0 := X[Ω] = {X(ω) | ω ∈ Ω}; p0 (α) := Pr(X = α) Die Verteilung p0 heiÿt die Verteilung von X. für α ∈ Ω0 . (1) Wenn es bequem ist, kann man auch eine (endliche oder abzählbare) Obermenge von X[Ω] als Grundmenge be- nutzen. Bemerkung 2.2.3 Für jeden Wahrscheinlichkeitsraum einer passenden Zufallsvariablen. Man wählt einfach 0 0 auf ω abbildet, und erhält Ω = Ω und p = p. (Ω, p) ist p Verteilung X = idΩ , die Identität, die ω Beispiel 2.2.4 (a) Beim Werfen von zwei Würfeln ist folgender Wahrscheinlichkeitsraum sehr natürlich: Ω = {1, . . . , 6}2 ; p((i, j)) = 5 1 36 für (i, j) ∈ Ω. Die durch X((i, j)) := i + j denierte Abbildung X ne Zufallsvariable. Die Verteilung von X : Ω → {2, . . . , 12} ist ei- ist gerade die Verteilung des in Bei- spiel 2.1.3(b) beschriebenen Wahrscheinlichkeitsraums. (b) Beim Spiel Würfeln, bis eine 6 erscheint ist folgender Wahrscheinlichkeits- raum sehr natürlich: Ω = {(a1 , . . . , ai ) | i ≥ 1, a1 . . . , ai−1 ∈ {1, . . . , 5}, ai = 6}; 1 p((a1 , . . . , ai )) = i . 6 Ein Elementarereignis ist hier eine Folge von Würfen mit ihren Ergebnissen, die 6 erschienen ist. Jede solche Folge hat, intuitiv gesehen, (1/6). Die durch X((a1 , . . . , ai )) = i gegebene Zufallsva- abbricht, sobald die erste die Wahrscheinlichkeit riable zählt die Anzahl dieser Versuche. Ihre Verteilung liefert den Wahrscheinlichkeitsraum aus Beispiel 2.1.3(d). Beispiel 2.2.5 Wir führen Beispiel 2.2.2 noch etwas weiter. Die Zufallsvariable b0 = |B0 | induziert eine Verteilung auf b0 [Ω] = {0, 1, . . . , n}. Dabei ist |{(v1 , . . . , vn ) ∈ Ω | (v1 , . . . , vn ) enthält genau i Nullen}| . mn i n−i n (m − 1)n−i n 1 1 = · = · · 1− . i i mn m m p0 (i) = (Dies ist eine Binomialverteilung.) Natürlich ergibt sich für jedes von 0 E(X) := X X(ω) · pω = ω∈Ω wert (3) v ∈ [m] anstelle dieselbe Verteilung. Denition 2.2.6 Der Erwartungswert einer ZV Wenn (2) X X X≥0 ist α · Pr(X = α). α∈X[Ω] auch negative Werte annehmen kann, betrachten wir den Erwartungs- E(X) von X Wert der Summe P X(ω) · P |X(ω)| · pω < ∞. In diesem Fall ist der ω∈Ω pω von der Summationsreihenfolge unabhängig. nur dann, wenn ω∈Ω Die zweite Darstellung des Erwartungswertes in Denition 2.2.6 lässt sich leicht durch Umstellen von Summen bzw. Reihen beweisen, was hier kein Problem ist, weil alle Reihen absolut konvergieren. Man kann die zweite Darstellung auch so auf fassen: Man betrachtet die Verteilung von 6 X, die jeder Zahl α ∈ X[Ω] p0 (α) eine Wahrscheinlichkeit zuordnet, und bildet den Mittelwert dieser Zahlen, gewichtet mit diesen Wahrscheinlichkeiten. Fakt 2.2.7 Ist X: Ω → N eine Zufallsvariable, so gilt: E(X) = ∞ X Pr(X ≥ i). i=1 Beweis : Setze pi = Pr(X = i), qj = Pr(X ≥ j). Dann gilt: qj = X pi , also i≥j E(X) = X i · pi = X i≥0 i · pi = i≥1 X X pi = i≥1 1≤j≤i Fakt 2.2.8 Für beliebige Zufallsvariable XX pi = j≥1 i≥j X qj . j≥1 X, Y, X1 , . . . , Xn gilt (unter der Voraussetzung, dass alle Erwartungswerte deniert sind): (a) X≤Y (b) E(αX (c) E(X1 (d. h. ∀ω ∈ Ω: X(ω) ≤ Y (ω)) ⇒ E(X) ≤ E(Y ). + βY ) = αE(X) + β E(Y ). + · · · + Xn ) = E(X1 ) + · · · + E(Xn ). (Linearität des Erwartungswertes ) X ∈ {0, 1} (d. h. ∀ω ∈ Ω: X(ω) ∈ {0, 1}), E(X) = Pr(X = 1). (d) Ist so ist Die Beweise dieser Rechenregeln sind einfache Übungsaufgaben. Beispiel 2.2.9 Betrachte Bsp. 2.2.2 (b). Wir berechnen E(|Bv |). Deniere ZVen Xvi Klar: |Bv | = Xv1 + · · · + Xvn . E(|Bv |) = X 1≤i≤n i E(Xv ) = := 1 0 falls hi = v sonst. Also gilt X i Pr(Xv = 1) = 1≤i≤n X 1≤i≤n 7 Pr(hi = v) = X 1 n = . m m 1≤i≤n 2.3 Varianz und Ungleichungen von Markov, Chebychev und Jensen Fakt 2.3.1 (Marko/Markov-Ungleichung) Es sei Z≥0 eine beliebige Zufallsvariable, und t>0 sei beliebig. Dann gilt: Pr(Z Beweis. Setze At = {Z ≥ t}. Xt := Z ≥ t · Xt , t t . 1 0 falls Z≥t sonst. also ≥ E(t · Xt ) = t · E(Xt ) = tPr(Z ≥ t). E(Z) Dividieren durch E(Z) Betrachte die Zufallsvariable Oenbar ist dann ≥ t) ≤ liefert die Behauptung. Denition 2.3.2 Für eine beliebige Zufallsvariable denieren wir die Varianz von Var(X) X X mit E(X 2 )<∞ als := E((X − E(X))2 ). Man sieht sofort, dass gilt: Var(X) = E(X 2 −2X E(X)+E(X)2 ) = E(X 2 )−2E(X)2 +E(X)2 = E(X 2 )−E(X)2 . Folgerung : Da Var(X) Erwartungswert von (X − E(X))2 ≥ 0 ist, ist Var(X) ≥ 0. Daraus folgt E(X)2 für jede Zufallsvariable X, ≤ E(X 2 ) (4) deren Varianz existiert. Wenn wir auf die Zufallsvariable Z = (X − E(X))2 ≥ 0 anwenden, erhalten wir: 8 die Markov-Ungleichung Fakt 2.3.3 (Chebychev/Tschebysche-Ungleichung) Es sei X eine Zufallsvariable mit Beweis. Setze E(X 2 ) < ∞. Pr(|X − E(X)| ≥ t) ≤ Z := (X − E(X))2 . Pr(|X t > 0: Dann gilt für jedes Var(X) t2 . Dann gilt nach der Markov-Ungleichung: E(Z) − E(X)| ≥ t) = Pr(Z ≥ t2 ) ≤ t2 = Var(X) t2 . Wir können die Markov-Ungleichung verallgemeinern: X sei eine beliebige Zufallsvariable, D ⊆ R, f : D → D = Def(f ) ⊇ X(Ω), so dass E(f (X)) existiert. t ∈ D: Proposition 2.3.4 R+ sei monoton mit Dann gilt für jedes Pr(X ≥ t) ≤ E(f (X)) f (t) . f (X) an, und verwendet, dass wegen der Monotonie von f die Aussagen X ≥ t und f (X) ≥ f (t) äquivalent sind. 2 Beweis : Man wendet die Markov-Ungleichung auf die Zufallsvariable Beispiele : • Sei α>0 beliebig. Dann gilt Pr(X • Sei k≥2 ≥ t) ≤ eine gerade ganze Zahl und Pr(|X (Hier wird 2.3.4 auf die Zufallsvariable 9 tα t≥0 − E(X)| ≥ t) ≤ angewendet.) E(|X|α ) . . Dann gilt: E((X − E(X))k ) . tk Z = |X − E(X)| und f (x) = xk • Sei X reellwertig, sei a > 0, und sei Pr(X (Dies ist die ursprüngliche E(eaX ) deniert. Dann gilt ≥ t) ≤ E(eaX ) eat . Cherno-Schranke .) 2 2 Wir haben oben gesehen, dass stets E(X) ≤ E(X ) gilt. Anstelle der Funktion 2 x 7→ x kann man jede beliebige konvexe Funktion benutzen. Denition 2.3.5 D ⊆ R sei ein Intervall. Eine Funktion heiÿt konvex, wenn für alle x, y ∈ D und f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y). Sie heiÿt konkav, wenn −f konvex ist. jedes λ ∈ [0, 1] f: D → R gilt: Grob gesprochen ist eine Funktion konvex, wenn an jeder Stelle der Graph der Funktion unter jeder Sekante dieses Funktionsgraphen verläuft. Aus der Schule oder aus der Analysis weiÿ man, dass für die Konvexität hinreichend ist, dass f 00 (x) in D (bzw. im Inneren von D) existiert und positiv ist. Beispiele : (i) Die Funktion f : x 7→ x2 für jede natürliche Zahl (ii) Wenn α ∈ R, α > 1, ist konvex in Allgemeiner gilt dies für x 7→ x2d , d > 0. dann ist die Funktion α ∈ R, 0 < α < 1, (iii) Wenn R. fα : x 7→ xα dann ist die Funktion konvex in fα : x 7→ xα [0, ∞). konkav in [0, ∞). −α dann ist die Funktion gα : x 7→ x konvex in (0, ∞). 0 α+1 00 α+2 (Dierenziere zweimal: gα (x) = −α/x , und: gα (x) = −α(−(α+1))/x . Dies ist immer positiv.) (iv) Wenn α ∈ R, α > 0, (v) Die Funktion h : x 7→ x ln x ist konvex in [0, ∞). h0 (x) = ln x + 1, und h00 (x) = x−1 > 0.) (Dierenziere zweimal: (vi) Für t∈R ist die Funktion k : x 7→ etx 10 konvex in R. Proposition 2.3.6 (Jensensche Ungleichung, allgemeine Form) X eine reellwertige Zufallsvariable und f eine Funktion mit D = Def(f ) ⊇ X(Ω). Wenn E(X) und E(f (X)) deniert sind, dann Es sei gilt : (a) Wenn f konvex ist : f (E(X)) ≤ E(f (X)). (b) Wenn f konkav ist : f (E(X)) ≥ E(f (X)). Beispiele : Unter der Voraussetzung, dass jeweils die Erwartungswerte deniert sind, gilt: (i) E(X)2d (ii) Für ≤ E(X 2d ). α>1 und X≥0 X≥0 (iii) Für 0<α<1 und (iv) Für α>0 und X>0 (v) Für X≥0 gilt (vi) Für t∈R gilt gilt: gilt E(X)α gilt: ≤ E(X α ). E(X)α E(X)−α E(X) ln(E(X)) ≥ E(X α ). ≤ E(X −α ). ≤ E(X ln X). etE(X) ≤ E(etX ). Beweis der Jensenschen Ungleichung: Wir beweisen nur (a). ((b) folgt durch Multiplikation der Ungleichung mit −1.) Setze x0 := E(X). Dann ist x0 ∈ Def(f ). Nach einer Grundeigenschaft von konvexen Funktionen, die man in der Analysis beweist, hat der Graph von f im Punkt (x0 , f (x0 )) eine untere Stützgerade, das ist eine Gerade, die durch den Punkt verläuft und stets unterhalb des Funktionsgraphen bleibt. Das heiÿt: Es gibt ein α∈R (die Steigung der Stützgeraden) derart dass f (x0 ) + α(x − x0 ) ≤ f (x) (Wenn f dierenzierbar ist, wählt man , für alle α = f 0 (x0 ).) x ∈ Def(f ) . Daraus folgt, mit der Linea- rität und der Monotonie des Erwartungswertes: f (x0 ) + α(E(X) − x0 ) ≤ E(f (X)). Nach der Wahl von x0 folgt die behauptete Ungleichung. 2 Die Jensensche Ungleichung ist eine recht allgemeine Konvexitätsaussage. Um ihre Kraft zu demonstrieren, beweisen wir kurz die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel: 11 Proposition 2.3.7 (Arithmetisches versus geometrisches Mittel) Für a1 , . . . , a n ≥ 0 gilt : a1 + · · · + an ≥ (a1 · · · an )1/n . n Allgemeiner : Wenn zudem p1 , . . . , pn ≥ 0 sind mit p1 +· · ·+pn = 1, dann gilt : p1 a1 + · · · + pn an ≥ ap11 · · · apnn . ai strikt positiv sind. Dann bea1 , . . . , an mit Wahrscheinlichkeiten p1 , . . . , pn annimmt, sowie die konkave Funktion f (t) = ln t (mit Def(f ) = (0, ∞)). Nach Prop. 2.3.6(b) gilt f (E(X)) ≥ E(f (X)). Wenn man dies aus- Beweis : Wir können o.B.d.A. annehmen, dass alle trachten wir eine Zufallsvariable X, die die Werte schreibt und die Logarithmus-Rechenregeln anwendet, ergibt sich ln(p1 a1 + · · · + pn an ) ≥ p1 ln(a1 ) + · · · + pn ln(an ) = ln(ap11 · · · apnn ). Die Monotonie der Logarithmusfunktion liefert die Behauptung. 12 2 2.4 Bedingte Wahrscheinlichkeiten, bedingte Erwartungswerte Denition 2.4.1 Ist A⊆Ω Pr(B ein Ereignis mit Pr(A) | A) := Pr(A ∩ B) Pr(A) > 0, , und nennen dies die bedingte Wahrscheinlichkeit von Bedingung A), für beliebige Ereignisse Es ist leicht zu sehen, dass Ω setzen wir B (unter der B. mit der durch Pr( · | A) denierten Verteilung A ebenfalls ein Wahrscheinlichkeitsraum ist. (Elementarwahrscheinlichkeiten: pω = / A.) Auch in diesem Wahrscheinlichkeitspω /Pr(A) für ω ∈ A und pA ω = 0 für ω ∈ raum lassen sich Erwartungswerte von Zufallsvariablen E(X | A)). X bilden (geschrieben Man sieht leicht: Pr(A | A) = Pr(Ω | A) = 1; E(X | A) = X 1 pω X(ω). · Pr(A) ω∈A Fakt 2.4.2 Basisformel für bedingte Wahrscheinlichkeiten: Pr(A ∩ B) Im Fall Pr(A) =0 ist Pr(B | A) = Pr(A)Pr(B | A). nicht deniert. Solange man bedingte Wahr- scheinlichkeiten nur über diese Basisformel benutzt, kann man so tun, als ob Pr(B | A) irgendeinen Wert hätte. Die Formel kann man auf den Durchschnitt mehrerer Ereignisse verallgemeinern: Pr(A1 ∩· · ·∩An ) = Pr(A1 )Pr(A2 |A1 )Pr(A3 |A1 ∩A2 ) · · · Pr(An |A1 ∩· · ·∩An−1 ). 13 2.5 Unabhängigkeit bei Ereignissen und Zufallsvariablen Denition 2.5.1 (a) Ereignisse A und Pr(A ∩ B) = Pr(A)Pr(B). (b) Ereignisse A1 , . . . , A n B unabhängig, heiÿen falls heiÿen unabhängig, falls ! Pr \ Ai ∩ i∈I für beliebige \ (Ω − Ai ) = i∈J Y Pr(Ai ) · i∈I Y (1 − Pr(Ai )), i∈J I, J ⊆ {1, . . . , n}, I ∩ J = ∅. Beispiel 2.5.2 (a) In Bsp. 2.1.3 (h) sind die Ereignisse unabhängig, für beliebige v10 , . . . , vn0 ∈ {0, . . . , m − 1} (b) In Bsp. 2.1.3 (h) sind die Ereignisse {v1 = v10 }, . . . , {vn = vn0 } fest. {v1 6= 0}, . . . , {vn 6= 0} Denition 2.5.3 Zufallsfunktionen unabhängig. Xi : Ω → Ri , 1 ≤ i ≤ n, heiRi0 ⊆ Ri die Ereignisse {X1 ∈ ÿen unabhängig, wenn für beliebige R10 }, . . . , {Xn ∈ Rn0 } unabhängig sind. (Dies gilt genau dann, wenn Pr(Xi ∈ Ri0 für 1 ≤ i ≤ n) = Y Pr(Xi ∈ Ri0 ) 1≤i≤n für beliebige Ri0 ⊆ Ri .) gi : Ri → Si beliebig, 1 ≤ i ≤ n, dann sind die Zufallsfunktionen g1 ◦ X1 , . . . , gn ◦ Xn unabhän- Fakt 2.5.4 Sind X1 , . . . , X n unabhängig und sind gig. (Ωi , pi ), 1 ≤ i ≤ n, W-Räume, so wird durch (Ω, p) mit Ω := Ω1 × · · · × Ωn , p := p1 × · · · × pn , wo p(ω1 , . . . , ωn ) = p1 (ω1 ) · . . . · pn (ωn ), für ω = (ω1 , . . . , ωn ) ∈ Ω, ein neuer W-Raum (der Produktraum) deniert. In Ω sind die n Projektionsfunktionen Xi : ω = (ω1 , . . . , ωn ) 7→ ωi ∈ Ωi unabhängig; nach Fakt 2.5.4 ist also jede Folge Y1 , . . . , Yn von Zufallsfunktionen, wo Yi = gi ◦Xi Fakt 2.5.5 Sind 14 (d. h. Yi hängt nur von der i-ten Komponente ωi ab), unabhängig. (Beispiel : Der Wahrscheinlichkeitsraum in Beispiel 2.1.3 (h) ist ein Produktraum.) Fakt 2.5.6 Bei Unabhängigkeit multiplizieren sich Erwartungswerte, Varianzen addieren sich. (Erwartungswerte addieren sich immer, siehe Fakt 2.2.8(c).) (a) Sind E(X1 X1 , . . . , Xn Q unabhängige · . . . · Xn ) = E(Xi ). Zufallsvariable, so gilt 1≤i≤n X1 ,P . . . , Xn unabhängige Xn ) = Var(Xi ). (b) Sind Zufallsvariable, so gilt Var(X1 +· · ·+ 1≤i≤n Beweis. (a) Wir beweisen die Aussage für zwei Zufallsvariable X und Y. Die n Zufallsvariable ergibt sich durch vollständige Induktion. X E(X · Y ) = pω X(ω)Y (ω) Verallgemeinerung auf ω∈Ω = X X αβ · Pr(X = α ∧ Y = β) α∈X[Ω] β∈Y [Ω] = = X X α∈X[Ω] β∈Y [Ω] X αβ · Pr(X = α) · Pr(Y = β) X αPr(X = α) β Pr(Y = β) α∈(X)[Ω] = β∈(Y )[Ω] E(X)E(Y ). 15 X = X1 + · · · + Xn . (b) Deniere = E((X − E(X))2 ) X 2 = E (Xi − E(Xi )) Var(X) 1≤i≤n E = X (Xi − E(Xi ))(Xj − E(Xj )) 1≤i,j≤n X = E((Xi − E(Xi ))(Xj − E(Xj ))) 1≤i,j≤n X = E((Xi 1≤i≤n X = = E((Xi X − E(Xi ))2 ) + (Xi − E(Xi ))(Xj − E(Xj )) E (Xi − E(Xi ))(Xj − E(Xj )) 1≤i6=j≤n X Var(Xi ) + 1≤i≤n wobei die E 1≤i6=j≤n 1≤i≤n X X − E(Xi ))2 ) + cov(Xi , Xj ), 1≤i6=j≤n Kovarianz cov(Y, Z) von Y und Z als cov(Y, Z) = E((Y − E(Y ))(Z − E(Z))) deniert ist. Um die behauptete Gleichung zu beweisen, genügt es zu zeigen, dass cov(Y, Z) = 0 gilt, falls Y und Z unabhängig sind. Wir rechnen, unter Benutzung von Linearität des Erwartungswertes und von Teil (a): cov(Y, Z) = E(Y Z)−E(Y E(Z))−E(E(Y )Z)+E(E(Y )E(Z)) = E(Y Z)−E(Y )E(Z) = 0. Damit ist auch Teil (b) bewiesen. Bemerkung : Für den Beweis von Teil (b) haben wir nicht die volle Unabhängigkeit eingesetzt, sondern nur die Tatsache, dass Eigenschaft nennt man Xi , Xj unabhängig sind für i 6= j . Diese paarweise Unabhängigkeit. Xi 0-1-wertig ist, ist Xi2 = Xi , also E(Xi2 ) = E(Xi ). Damit erhält man für X = X1 + · · · + Xn : X X X Var(X) = Var(Xi ) = (E(Xi2 ) − E(Xi )2 ) ≤ E(Xi ) = E(X). Beachte noch: Wenn 1≤i≤n (Gleichheit gilt nur, wenn alle 1≤i≤n Xi 1≤i≤n gleich 0 16 sind.) 2.6 Die Hoeding-Ungleichung Satz 2.6.1 (Hoeding) im Intervall [0, 1]. X1 , . . . , X n seien unabhängige Zufallsvariable mit Werten Deniere X := X1 + · · · + Xn ; m := E(X) . Dann gilt: Pr(X ≥ m + a) ≤ Pr(X ≤ m − b) ≤ m m+a m+a m m−b m−b n−m n − (m + a) n−m n − (m − b) n−(m+a) , für 0≤a≤n−m; (5) n−(m−b) , für 0 ≤ b ≤ m. (6) Bevor wir diese Ungleichungen beweisen, wollen wir sie ein wenig diskutieren. Die Hoeding-Ungleichung gehört zu der Familie der tail inequalities, das sind Ungleichungen, die Schranken dafür liefern, dass Verteilungen weit auseinandergezogen sind, d. h. dafür dass Zufallsvariable Werte weit weg von ihrem Erwartungwert annehmen. Wir werden weiter unten sehen, dass die Hoeding-Schranke relativ kräftig ist, wenn (in [0, 1]) m nicht zu klein ist: Summen von vielen beschränkten unabhängigen Zufallsvariablen sind eng um ihren Erwartungwert kon- zentriert. Man beachte, dass über die einzelnen sie in [0, 1] Xi nichts weiter angenommen ist als dass eingeschlossen sind. Insbesondere können sie auch ganz verschiedene Verteilungen haben. Korollar 2.6.2 In der Situation von Satz 1 gilt: Pr(X ≥ m + a) ≤ Pr(X ≤ m − b) ≤ m m+a m+a m m−b m−b ea , e−b , für für 0 ≤ a ≤ n − m; 0 ≤ b ≤ m. (7) (8) Der Beweis von Korollar 2.6.2 ist sehr einfach, wenn man sich die folgende auch 17 sonst nützliche Ungleichung in Erinnerung ruft: x 1+ y y < ex für y>0 und x ≥ −y ; (9) x = 0 sind beide Seiten gleich 1. Dabei folgt (9) aus der Ungleichung 1+z ≤ ez x für jedes z ∈ R, mit Gleichheit genau für z = 0, wenn man z = setzt. y für Wenn man (9) für den zweiten Faktor n−m n − (m + a) n−(m+a) in (5) einsetzt, ergibt sich (7) für = a 1+ n − (m + a) n−(m+a) 0 ≤ a < n − m. m m+a An dieser Stelle beobachten wir, dass (wieder mit (9)) der Faktor ( ) = m+a a m+a −a in (7) immer kleiner als e ist,. Daher ist die rechte Seite in (7) (1 − m+a ) kleiner als 1 und stellt damit eine echte Schranke für eine Wahrscheinlichkeit dar. (Dazu später mehr.) Ganz analog ergibt sich (8) aus (6) mit Hilfe von (9). 2 Korollar 2.6.3 In der Situation des Satzes gilt: m eε Pr(X ≥ (1 + ε)m) ≤ , (1 + ε)1+ε m e−ε Pr(X ≤ (1 − ε)m) ≤ , (1 − ε)1−ε n m für 0≤ε≤ für 0 ≤ ε ≤ 1. − 1; Korollar 2.6.3 ergibt sich aus Korollar 2.6.2 einfach dadurch, dass man b bzw. ε = setzt. m (10) (11) ε = a m Korollar 2.6.3 besagt folgendes: Wenn man eine tolerierbare prozentuale Abwei- ε = 0,01, was 1 Prozent entspricht) vorgibt, dann ist die Wahrscheinlichkeit, dass X weiter als diese Toleranz von seinem Erwartungswert m = E(X) abweicht, durch eine in m exponentiell fallende Funktion beschränkt. Je kleiner ε wird, desto näher an 1 liegt die Basis dieser Exponentialfunktion. chung (z. B. Um einen Eindruck zu bekommen, hier eine Skizze des Verlaufs der Funktion eε ε 7→ (1+ε) 1+ε : 18 e^x/(1+x)^(1+x) 1 0.8 0.6 0.4 0.2 0 1 2 x 4 3 Nun beweisen wir Formel (5) aus Satz 2.6.1. a = 0 ist trivial, weil auf der linken Seite von (5) eine Wahrscheinlichkeit steht, auf der rechten Seite 1. Den Fall a = n − m behandeln wir am Ende. Es sei also 0 < a < n − m beliebig, aber fest. Für jedes beliebige t > 0 erhält man tX durch Anwenden der Marko-Ungleichung auf die ZV e folgendes: Der Fall ≥ m + a) = Pr(X Pr(e tX ≥ et(m+a) ) E(etX ) ≤ et(m+a) Y = e−t(m+a) E( etXi ). 1≤i≤n Weil X1 , . . . , Xn unabhängig sind, sind auch etX1 , . . . , etXn unabhängig (Fakt 2.5.4)). Daher (Fakt 2.5.6(a)) multiplizieren sich die Erwartungswerte, und wir erhalten: Pr(X ≥ m + a) ≤ e−t(m+a) E( Y etXi ) 1≤i≤n −t(m+a) = e Y 1≤i≤n Was können wir über die Zahlen Lemma 2.6.4 Sei (i) t>0 etx ≤ 1 + x(et − 1), E(etXi ) sagen? beliebig. Dann gilt : für 0 ≤ x ≤ 1. 19 tXi E(e ). (12) (ii) Ist Y eine Zufallsvariable mit ≤ 1 + E(Y )(et − 1). 0 ≤ Y ≤ 1, dann gilt E(etY ) Beweis : (i) Die Funktion g : u 7→ (et )u ist konvex. Daher gilt für 0 ≤ x ≤ 1: (et )x ≤ (1 − x) · g(0) + x · g(1) = (1 − x) · (et )0 + x · (et )1 = 1 + x(et − 1). tY (ii) Wegen (i) gilt e tY riablen e und 1 + Y und der Linearität ≤ 1 + Y (et − 1) (als Ungleichung zwischen den Zufallsva(et − 1)). Die Behauptung folgt nun wegen der Monotonie der Erwartungswerte. 2 Mit Lemma 2.6.4 erhalten wir aus (12): Pr(X ≥ m + a) ≤ e−t(m+a) Y (1 + E(Xi )(et − 1)). (13) 1≤i≤n Hier benutzen wir die Ungleichung zwischen dem arithmetischen und dem geometrischen Mittel, Proposition 2.3.7. Wenn wir diese Ungleichung in (13) auf die t nichtnegativen Zahlen ai = 1 + E(Xi )(e − 1), 1 ≤ i ≤ n, anwenden, und uns erinnern, dass X = X1 + · · · + Xn Pr(X und m = E(X) ist, ergibt sich !n 1 X (1 + E(Xi )(et − 1)) n 1≤i≤n ≥ m + a) ≤ e−t(m+a) n m(et − 1) = e · 1+ n n m(et − 1) −t(m+a)/n = e · 1+ n n m(z − 1) −(m+a)/n = z · 1+ , n −t(m+a) mit (14) (15) (16) z = et . Um aus der Ungleichung (16) optimalen Nutzen zu ziehen, sollten wir den bisher t noch freien Parameter t bzw. z = e so festlegen, dass der Kern z −(m+a)/n · (1 + m (z − 1)) n möglichst klein wird. Wir wählen z= m+a n−m · . m n − (m + a) (17) (Dass dieser Wert tatsächlich (16) minimiert, sieht man durch Dierenzieren.) Man sieht, dass (wegen a > 0) beide Faktoren in (17) gröÿer als 20 1 sind, so dass sich z>1 und t>0 ergibt. Wir setzen (17) in die obere Schranke (14) ein und erhalten Pr(X ≥ m + a) ≤ m(n − (m + a)) (m + a)(n − m) m+a n m (m + a)(n − m) + · 1− (18) . n n(n − (m + a)) Eine leichte (Bruch-)Rechnung ergibt, dass der zweite Faktor in (18) einfach n−m )n ist. Passendes Zusammenfassen ergibt dann ( n−(m+a) Pr(X ≥ m + a) ≤ m m+a m+a · n−m n − (m + a) n−(m+a) , (19) und das ist (5). Es fehlt noch der Fall a = n − m. Damit die Formel auf der rechten Seite von (5) überhaupt deniert ist, muss man sich daran erinnern, dass per Konvention 00 = 1 ist. Wir benutzen hier, dass die rechte Seite in (5) für a → n − m (von links) stetig ist, die linke Seite für a → n−m (von links) monoton fällt. Damit erhält man: Pr(X ≥ n) ≤ lim a→(n−m)− Pr(X ≤ = lim a→(n−m)− m n n ≥ m + a) m m+a m+a n−m n − (m + a) n−(m+a) . Um schlieÿlich (6) zu beweisen, könnte man analog vorgehen. Stattdessen führen wir diesen Fall aber auf (5) zurück, wie folgt. Wir denieren Zufallsvariable Xi = 1 − Xi , 1 ≤ i ≤ n, und X = X1 + · · · + X n , m = E(X) = E(n − X) = n − E(X) = n − m. Weiter setzen wir a = b (dann 0 ≤ a < m = n − m). Nun wenden wir (5) an und erhalten: m+a n−(m+a) m n−m Pr(X ≥ m + a) ≤ · , (20) m+a n − (m + a) und ist Wenn man diese Ungleichung wieder in die Xi -Notation überführt, ergibt sich wegen m + a = n − m + b = n − (m − b) und n − m = m: n−(m−b) m−b n−m m Pr(X ≤ m − b) ≤ · , n − (m − b) m−b und das ist gerade (6). 21 (21) 2.7 Weitere Ungleichungen Die folgende Behauptung ist eine Verallgemeinerung von Ungleichung (4) auf zwei Zufallsvariable: Proposition 2.7.1 (Cauchy-Schwarz-Ungleichung) Für Zufallsvariablen X und Y, deren Erwartungswert und Varianz deniert ist, gilt: p E(X 2 )E(Y 2 ). |E(XY )| ≤ Beweis : Wir zeigen: E(XY )2 ≤ E(X 2 )E(Y 2 ). Für λ∈R betrachte f (λ) := E((X + λY )2 ) = E(X 2 ) + 2λE(XY ) + λ2 E(Y 2 ). Wenn E(Y 2 ) = 0 ist, dann ist Y = 0, und die Ungleichung gilt trivialerweise. f (durch Dierenλ0 = −E(XY )/E(Y 2 ). Der Wert f (λ) Sonst sucht man die Minimalstelle der quadratischen Funktion zieren und Null-Setzen) und ndet sie bei ist als Erwartungswert einer nichtnegativen Zufallsvariablen selbst nicht negativ, also gilt 0 ≤ f (λ0 ) = E(X 2 )−2E(XY )2 /E(Y 2 )+E(XY )2 /E(Y 2 ) = E(X 2 )−E(XY )2 /E(Y 2 ); daraus folgt E(XY )2 2 ≤ E(X 2 )E(Y 2 ). Proposition 2.7.2 (Chebychev-Cantelli-Ungleichung) Wenn X eine Zufallsvariable ist derart dass E(X) und Var(X) existieren, dann gilt für alle Pr(X t ≥ 0: ≥ E(X)+t) ≤ Var(X) Var(X) + t2 und Pr(X ≤ E(X)−t) ≤ Var(X) Var(X) + t2 . Beweis : Die zweite Ungleichung folgt, indem man die erste auf die Zufallsvariable 0 X = E(X) − X anwendet, die dieselbe Varianz hat wie X. Wir zeigen die erste Ungleichung. Wir können o.B.d.A. annehmen, dass E(X) = 0 ist (sonst betrachte X 0 = X − E(X)); dann ist Var(X) = E(X 2 ). Wenn A ⊆ Ω ein Ereignis ist, cA für die charakteristische Funktion (cA (ω) = 1 für ω ∈ A und cA (ω) = 0 für ω ∈ / A). Dann gilt für alle t ∈ R, dass t − X ≤ (t − X) · c{X<t} , also schreiben wir t = E(t − X) ≤ E((t − X) · c{X<t} ). Für t≥0 können wir dann mit der Cauchy-Schwarz-Ungleichung wie folgt wei- 22 terrechnen: t2 ≤ E((t − X)2 )E((c{X<t} )2 ) = E((t − X)2 )Pr(X < t) = (Var(X) + t2 )Pr(X < t). Umstellen ergibt: Pr(X ≥ t) = 1 − Pr(X < t) ≤ 1 − t2 = Var(X) + t2 Var(X) Var(X) + t2 , 2 wie gewünscht. Bemerkung : Wir vergleichen Proposition 2.7.2 mit der Chebychev-Ungleichung (Fakt 2.3.3). Für die Wahrscheinlichkeit einer beidseitigen Abweichung liefert die Chebychev-Ungleichung engere Schranken; sie wirkt aber nur für t> p Var(X). Die Chebychev-Cantelli-Ungleichung ist geeignet, wenn man die Wahrscheinlichkeit der Abweichung nur nach einer Seite begrenzen will; sie wirkt für alle t > 0. Pr(X 6= 0) Wir wollen noch Ungleichung (4) benutzen, um eine Schranke für herzuleiten, falls X 6= 0 Werte in den natürlichen Zahlen annimmt. Proposition 2.7.3 Für eine Zufallsvariable X 6= 0 mit Werten in N, deren Erwartungswert und Varianz deniert ist, gilt: E(X)2 E(X 2 ) ≤ Pr(X 6= 0) ≤ E(X). Beweis : Die zweite Ungleichung folgt aus der Markov-Ungleichung, da Pr(X 0) = Pr(X ≥ 1). Für die erste Ungleichung wenden auf {X 6= 0} bedingten Wahrscheinlichkeit an: E(X 6= wir Ungleichung (4) mit der | X 6= 0)2 ≤ E(X 2 | X 6= 0). Weiter gilt E(X | X 6= 0)2 = E(X) Pr(X 6= 0) 2 und E(X 2 | X 6= 0) = E(X 2 ) Pr(X 6= 0) . Kombinieren dieser (Un-)Gleichungen, Kürzen und Umstellen liefert die Behaup- 2 tung. 23 A Ungleichungen aus der Analysis und der Kombinatorik Proposition A.0.4 Für alle x ∈ R : 1 + x ≤ ex , mit Gleichheit genau für x = 0. Proposition A.0.5 (a) Für alle x ≥ −1 (b) Für alle y>0 und alle und alle z > 0: (1 + x)z ≤ exz . x ≥ −y : (1 + x/y)y ≤ ex . Proposition A.0.6 Für alle x ∈ R, |x| < 1: ex ≤ 1 , mit Gleichheit genau für 1−x x = 0. Proposition A.0.7 Für alle x > 0: ln x ≤ x − 1, Proposition A.0.8 Für alle mit Gleichheit genau für x = 1. n, k ∈ N, 0 ≤ k ≤ n: n nn 1 ≤ k = , k k (n − k)n−k (αα (1 − α)1−α )n wobei α= k . Weiterhin: n n en k ≤ . k k Beweis : Für k=0 und k=n ist nichts zu zeigen die rechte Seite ist 24 1. Sonst deniere α= k und betrachte n X n 1 = (α + (1 − α)) = αi (1 − α)n−i , i 0≤i≤n n n αk (1 − α)n−k . Daher ist k zweite Ungleichung folgt, weil also 1≥ n n−k n−k = 1+ n k k n−k ≤ 1/(αk (1 − α)n−k ) = n−k nn . Die kk (n−k)n−k < (ek/(n−k) )n−k = ek , 2 mit Prop. A.0.5(b). 25