Auszug aus: Elemente der Diskreten Mathematik Zahlen und zählen, Graphen und Verbände Erschienen bei Walter de Gruyter, 2013 Volker Diekert Manfred Kufleitner Gerhard Rosenberger Nur für den internen Gebrauch als Begleitunterlagen der Vorlesung „Algorithmen und Berechenbarkeit” Inhaltsverzeichnis 1 Diskrete Wahrscheinlichkeitsrechnung 3 1.1 Wahrscheinlichkeitsräume und Erwartungswerte . . . . . . . . . . . . . . 3 1.2 Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Das Geburtstagsparadoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung Viele Abschätzungen deuten zunächst einmal auf das Verhalten im schlechtesten Fall hin. Häufig interessiert man sich jedoch mehr für ein Verhalten im „Normalfall“. Im schlechtesten Fall gewinnt man beim Roulette niemals. Im Mittel gewinnt man wenigstens ab und zu, aber viel zu selten, um den Bestand der Spielbank zu gefährden. Um solches Verhalten präziser beschreiben zu können, entwickeln wir hier einige elementare Begriffe aus der diskreten Wahrscheinlichkeitstheorie, wie wir sie für die Anwendungen später brauchen werden. 1.1 Wahrscheinlichkeitsräume und Erwartungswerte Ein diskreter Wahrscheinlichkeitsraum ist eine endliche oder abzählbare Menge Ω zusammen mit einer Abbildung Pr : Ω → [0, 1] in das reelle 0-1-Intervall, welche die folgende Bedingung erfüllt: X Pr[ω] = 1 ω∈Ω 1 Ist Ω endlich und Pr[ω] ein konstanter Wert, also Pr[ω] = |Ω| für alle ω ∈ Ω, so sprechen wir von einer Gleichverteilung. Ein Ereignis ist eine Teilmenge A ⊆ Ω. Die Wahrscheinlichkeit von A ist X Pr[A] = Pr[ω] ω∈A Wenn Ω endlich ist, dann gilt im Falle eine Gleichverteilung: Pr[A] = „Anzahl der Fälle zum Ereignis“ |A| = |Ω| „Anzahl der möglichen Fälle“ Dies ist eine der Motivationen für das nächste Kapitel, wo wir Techniken lernen wollen, die jeweiligen Anzahlen zu bestimmen. Bei einer Runde des Roulettespiels ist der Wahrscheinlichkeitsraum die Menge {0, . . . , 36} und die Ereignisse rot und schwarz haben die gleiche Wahrscheinlichkeit, nämlich 18/37. Im Prinzip ist es diese Differenz 1 − 36/37 = 1/37, die gegen die Spieler spricht. Eine Zufallsvariable X ist hier stets eine reellwertige Funktion X:Ω→R 4 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung Der Erwartungswert von X wird wie folgt definiert: X E [X] = X(ω)Pr[ω] ω∈Ω Falls die Menge Ω unendlich viele Elemente hat, muss die Reihe absolut konvergieren, ansonsten ist der Erwartungswert nicht definiert. In den meisten betrachteten Fällen ist der Wahrscheinlichkeitsraum endlich, und es kann keine Probleme mit der Konvergenz geben. In den anderen Fällen machen wir implizite Konvergenzvoraussetzungen, die wir häufig gar nicht extra erwähnen. Bei einer Gleichverteilung ist der Erwartungswert der Mittelwert über die Funktionswerte der Zufallsvariablen. Es gilt dann: 1 X E [X] = X(ω) |Ω| ω Der Erwartungswert einer gewürfelten Augenzahl mit einem Würfel ist zum Beispiel 3,5. Man beachte, dass diese Zahl keiner beim Würfeln auftretenden Augenzahl entspricht. Jedes Ereignis A ⊆ Ω kann über die charakteristische Funktion χA : Ω → {0, 1} (mit χA (a) = 1 für a ∈ A und χA (a) = 0 sonst) direkt als eine Zufallsvariable gelesen werden. Die Wahrscheinlichkeit des Ereignisses A ist dann der Erwartungswert der charakteristischen Funktion: Pr[A] = E [χA ]. Ist x ∈ R, so bezeichnet Pr[X = x] die Wahrscheinlichkeit des Ereignisses: { ω ∈ Ω | X(ω) = x } Damit gilt Pr[X = x] = Pr X −1 (x) . Direkt aus der Definition ergibt sich auch die folgende Aussage: X X E [X] = X(ω)Pr[ω] = x Pr[X = x] ω x Nimmt X keine negativen Werte an und ist X(ω) > 0 für ein ω mit Pr[ω] > 0, so gilt offenbar E [X] > 0. Außerdem erhalten wir den folgenden nach Andrei Andrejewitsch Markov (1856–1922) benannten Zusammenhang zwischen Wahrscheinlichkeit und Erwartungswert. Satz 1.1 (Markov-Ungleichung). Sei X eine Zufallsvariable mit X(ω) ≥ 0 für alle ω und E [X] > 0. Dann gilt für alle λ > 0: 1 Pr X ≥ λE [X] ≤ λ Beweis: Es gilt: X X E [X] = X(ω)Pr[ω] ≥ X(ω)Pr[ω] ≥ λ E [X] Pr X ≥ λE [X] ω Dies zeigt die Behauptung. ω∈Ω X(ω)≥λE[X] Abschnitt 1.1 Wahrscheinlichkeitsräume und Erwartungswerte 5 Eine wichtige Eigenschaft ist die Linearität des Erwartungswertes: E[aX + bY ] = aE [X] + bE [Y ] Hierbei sind a, b ∈ R und X, Y : Ω → R Zufallsvariablen. Die Zufallsvariable aX + bY : Ω → R ist definiert durch (aX + bY )(ω) = aX(ω) + bY (ω). Ist X : Ω → R eine Zufallsvariable, so assoziiert man mit X ihre diskrete Dichte fX : R → [0, 1] und ihre Verteilung FX : R → [0, 1]. Diese sind wie folgt definiert: fX : R → [0, 1], fX (x) = Pr[X = x] FX : R → [0, 1], FX (x) = Pr[X ≤ x] Aus der Dichte lässt sich die Verteilung berechnen, und die Verteilung bestimmt die Dichte. Sehr verschiedene Zufallsvariablen können auf die gleiche Verteilung (Dichte) führen. Viele interessante Eigenschaften ergeben sich schon allein aus der Verteilung (oder der Dichte), ohne die konkrete Zufallsvariable genau zu kennen. Daher spielt der konkrete Wahrscheinlichkeitsraum häufig gar keine Rolle. Insbesondere ist: X E [X] = x fX (x) x∈R Um möglichst nahe an einer konkreten Vorstellung zu bleiben, arbeiten wir weiterhin meistens mit diskreten Zufallsvariablen. Wir bemerken jedoch, dass es dieser Ansatz ist, der den Übergang zu kontinuierlichen Zufallsvariablen ermöglicht. Im Wesentlichen ersetzt man Summen durch ein Integral, wobei fX (x) zu einem dx wird. Dabei muss man jedoch gewährleisten, dass Ausdrücke sinnvoll und wohldefiniert bleiben, was einen erheblichen theoretischen Unterbau erfordern würde. Zwei Zufallsvariablen X und Y heißen unabhängig, wenn für alle x, y ∈ R Pr[X = x ∧ Y = y] = Pr[X = x] · Pr[Y = y] gilt. Hierbei steht X = x∧Y = y für den Durchschnitt der Ereignisse X = x und Y = y . Die Intuition ist, dass sich unabhängige Zufallsvariablen nicht gegenseitig beeinflussen. Beispielsweise ist die Wahrscheinlichkeit bei zwei Würfeln für einen Wurf mit zwei Sechsen 1/36, da das Ergebnis von einem Würfel nicht das Ergebnis des anderen Wurfs beeinflusst. Analog gilt, dass die Wahrscheinlichkeit für einen Pasch 1/6 ist, und dass die Wahrscheinlichkeit für einen Kniffel (5 gleiche Augenzahlen) in einem einzigen Wurf mit fünf Würfeln 1/64 = 1/1296 ist. Falls X und Y unabhängig sind, so gilt: E [XY ] = E [X] E [Y ] 6 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung Dies folgt aus der folgenden Betrachtung: X zPr[XY = z] E [XY ] = z = XX xyPr[X = x ∧ Y = y] z xy=z = X X xPr[X = x] · yPr[Y = y] x y = E [X] E [Y ] Betrachtet man die Zufallsvariable X − E [X], so ist deren Erwartungswert 0. Interessanter ist das Quadrat dieser Zufallsvariablen (X − E [X])2 . Der Erwartungswert kann nicht negativ sein. Er ist positiv, sowie er definiert ist und Pr[X 6= E [X]] > 0 gilt. Der Erwartungswert von (X −E [X])2 heißt die Varianz Var[X] von X und misst, wie stark X von E [X] abweicht. Es gilt: Var[X] = E (X − E [X])2 h i = E X 2 − 2E [X] X + E [X]2 = E X 2 − 2E [X] E [X] + E [X]2 = E X 2 − E [X]2 Die erste Gleichung gilt nach Definition. Die dritte folgt aus der Linearität des Erwartungswertes. Der Erwartungswert der Zufallsvariablen X 2 ist also mindestens so groß wie E [X]2 . Die Differenz misst die Varianz. Beispiel 1.1. Bei einem Bernoulli-Experiment (Jacob Bernoulli, 1654–1705) misst man Erfolg oder Misserfolg durch ein 0-1-Ereignis. Typischerweise setzt man Pr[X = 1] = p und Pr[X = 0] = q = 1 − p. Damit ist E [X] = p und Var[X] = p − p2 = pq . 3 Mit σX wird p die Standardabweichung von X bezeichnet, sie ist definiert durch σX = Var[X]. Der Name ergibt sich aus der folgenden Beziehung. Satz 1.2 (Tschebyschev-Ungleichung). Sei λ > 0. Dann gilt: 1 Pr |X − E [X]| ≥ λ σX ≤ 2 λ Beweis: Nach der Markov-Ungleichung und der Definition von σX und Var[X] gilt: 1 Pr |X − E [X]| ≥ λ σX = Pr (X − E [X])2 ≥ λ2 Var[X] ≤ 2 λ 7 Abschnitt 1.2 Die Jensen’sche Ungleichung Die Abschätzung aus Satz 1.2 liefert erst für Abweichungen oberhalb der Standardabweichung (also für λ > 1) eine sinnvolle Aussage. Satz 1.3. Für unabhängige Zufallsvariablen X und Y gilt: Var[X + Y ] = Var[X] + Var[Y ] Beweis: Mit E [XY ] = E [X] E [Y ] erhalten wir: Var[X + Y ] = E (X + Y )2 − E [X + Y ]2 = E X 2 + 2E [XY ] + E Y 2 − E [X]2 − 2E [X] E [Y ] − E [Y ]2 = E X 2 − E [X]2 + E Y 2 − E [Y ]2 = Var[X] + Var[Y ] 1.2 Die Jensen’sche Ungleichung Eine Funktion f : R → R heißt konvex , wenn für alle λ ∈ [0, 1] und x, y ∈ R folgende Ungleichung gilt: f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) Konvexität bedeutet, dass, wenn man in der Ebene R2 die Strecke von dem Punkt (x, f (x)) zum Punkt (y, f (y)) zieht, diese oberhalb des Graphen von f liegt. Das Schaubild einer konvexen Funktion f sieht etwa wie folgt aus: λf (x) + (1 − λ)f (y) x λx + (1 − λ)y y Eine zweimal differenzierbare Funktion f ist genau dann konvex, wenn die zweite Ableitung f 00 nirgends negativ ist. Die Funktionen f (x) = x2 und g(x) = 2x sind jeweils konvex. Die zweiten Ableitungen sind f 00 (x) = 2 und g 00 (x) = (ln 2)2 · 2x und damit nirgends negativ. Die folgende Beziehung ist nach Johan Ludwig William Valdemar Jensen (1859–1925) benannt. 8 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung Satz 1.4 (Jensen’sche Ungleichung). Sei P f : R → R eine konvexe Funktion und k k ≥ 1. Seien λ1 , . . . , λk ∈ [0, 1] ⊆ R mit i=1 λi = 1. Dann gilt: f k X ! λ i xi ≤ i=1 k X λi f (xi ) i=1 Beweis: Ohne Einschränkung gilt λi > 0 für alle 1 ≤ i ≤ k . Wir führen eine Induktion nach k . Für k = 1 ist λ1 = 1, und die Aussage ist erfüllt. Sei also k > 1 und λ1 < 1. Damit gilt jetzt: ! ! k k X X λi xi f λi xi = f λ1 x1 + (1 − λ1 ) 1 − λ1 i=1 i=2 ! k X λi ≤ λ1 f (x1 ) + (1 − λ1 )f xi da f konvex 1 − λ1 IV ≤ λ1 f (x1 ) + (1 − λ1 ) i=2 k X i=2 = k X λi f (xi ) 1 − λ1 λi f (xi ) i=1 Ist X : Ω → R eine Zufallsvariable und f : R → R eine Funktion, so bezeichnet f (X) : Ω → R die Zufallsvariable mit f (X)(ω) = f (X(ω)). Es gilt: X E(f (X)) = y Pr[f (X) = y] y = X x = X y X Pr[X = x] y=f (x) f (x)Pr[X = x] x Dies ermöglicht die Bestimmung des Erwartungswertes von f (X), ohne die Dichte von f (X) explizit zu bestimmen. Wir wenden das folgende Korollar in Abschnitt ?? mit der konvexen Funktion 2x an, um die mittlere Höhe binärer Suchbäume zu berechnen. Korollar 1.5. Sei f : R → R eine konvexe Funktion und X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum. Dann gilt: f (E [X]) ≤ E [f (X)] 9 Abschnitt 1.3 Das Geburtstagsparadoxon Beweis: Es sei X : Ω → R die Zufallsvariable. Wir können annehmen, dass X(Ω) = {x1 , . . . , xk } mit Pr[X = xi ] = λi gilt. Nach der Jensen’schen Ungleichung gilt: ! k k X X f (E [X]) = f λ i xi ≤ λi f (xi ) = E [f (X)] i=1 i=1 Bemerkung 1.6. Die Erfahrung lehrt, dass man sich zwar gut merken kann, dass für konvexe Funktionen f eine Ungleichung zwischen den Werten f (E [X]) und E [f (X)] besteht, aber dass man sich weniger gut die Richtung der Ungleichung merken kann. Gilt f (E [X]) ≤ E [f (X)] oder f (E[X]) ≥ E [f (X)]? Hier hilft die Erinnerung an die Varianz; diese ist durch E X 2 − E [X]2 definiert, sie ist positiv und x 7→ x2 ist eine konvexe Funktion. Also gilt f (E [X]) ≤ E [f (X)]. 1.3 Das Geburtstagsparadoxon Eine Kurvendiskussion der Funktion (1 + x) − ex ergibt, dass (1 + x) ≤ ex für alle x mit Gleichheit nur bei x = 0 gilt (siehe Übungsaufgabe ??). Falls x nahe bei Null ist, erhalten wir eine durchaus brauchbare Abschätzung. Diese wichtige Technik erklärt das Geburtstagsparadoxon: Sind mehr als 23 Personen auf einer Party, so ist die Wahrscheinlichkeit größer als 1/2, dass zwei Gäste am gleichen Tag Geburtstag haben. Das Beiwort Paradoxon kommt daher, dass die Zahl 23 bei maximal 366 möglichen Geburtstagen pro Jahr auf den ersten Blick viel zu klein erscheint, um diese Wahrscheinlichkeit vorherzusagen. Aber schauen wir es uns genauer an. Angenommen, wir haben n mögliche Geburtstage und m Gäste. Stellen wir die Gäste in eine Reihe und jeder nennt seinen Geburtstag, so erhalten wir eine Zufallsfolge (na ja, wenigstens so halbwegs). Die Wahrscheinlichkeit, dass die ersten i + 1 Folgenglieder alle verschieden sind, ist dann: n−i 1 i n n−1 · ··· =1· 1− ··· 1 − n n n n n Die Wahrscheinlichkeit, dass alle m Geburtstage verschieden sind, ist daher: m−1 Y i=0 i 1− n Haben wir bisher einen Fehler gemacht? Nun, die Annahme einer Zufallsfolge bedeutet eine Gleichverteilung, von der die Realität womöglich abweicht. Es 10 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung ist jedoch intuitiv klar, dass wir auf der sicheren Seite sind (wenn sich die Wahrscheinlichkeit bei gewissen Tagen häuft, dann wird es leichter, eine Übereinstimmung zu erreichen). Außerdem werden wir den Ausdruck jetzt noch vergrößern. Im nächsten Schritt verwenden wir die oben erwähnte Ungleichung (1 + x) ≤ ex . Damit ergibt sich für die Wahrscheinlichkeit, dass alle Geburtstage verschieden sind, folgende Abschätzung m−1 Y i=0 i 1− n ≤ m−1 Y i e− n = e− Pm−1 i=0 i n = e− m(m−1) 2n i=0 √ Der Grenzwert 1/2 wird also spätestens im Bereich von m = 2n ln 2 unterschritten. Für n = 365 (oder 366) ist dies 23. Experimente auf Geburtstagsfeiern und in Vorlesungen bestätigen diesen Wert sehr gut. Aufgaben 1.1. Ein Jäger hat die Treffsicherheit 1/2. Wie groß ist die Wahrscheinlichkeit, dass er bei 10 Schüssen mindestens 3 Treffer landet? 1.2. Eine Familie hat vier Kinder. Gehen Sie davon aus, dass die Wahrscheinlichkeit, ein Mädchen zu bekommen bei 0, 5 liegt, und berechnen Sie die Wahrscheinlichkeit, dass (a) (b) (c) (d) die Familie genau ein Mädchen hat, das erste und zweite Kind ein Junge ist, mindestens zwei Kinder männlich sind, alle Kinder weiblich sind. 1.3. Seien m, n ∈ N mit n < m. Alice und Bob denken sich jeweils unabhängig voneinander eine Zahl aus der Menge M = {1, 2, . . . , m} aus. Wie groß ist die Wahrscheinlichkeit, dass sich die beiden Zahlen höchstens um n unterscheiden? Bestimmen Sie hierzu die Mächtigkeit der Menge { (a, b) | a, b ∈ M und |a − b| ≤ n } 1.4. Wir wollen eine Folge von unterschiedlichen Zahlen a = (a1 , . . . , an ) mittels Quicksort sortieren. Hierfür wählen wir ein zufälliges Pivotelement ai und bilden die Teilsequenzen a0 = (ai1 , . . . , aik ) und a00 = (aj1 , . . . , aj` ) mit • ais < ai < ajt für alle 1 ≤ s ≤ k und alle 1 ≤ t ≤ `, • i1 < · · · < ik und j1 < · · · < j` und k + ` + 1 = n. Aufgaben 11 Dies ist mit n − 1 Vergleichen möglich („pivotieren“). Danach werden a0 und a00 rekursiv sortiert zu b0 und b00 . Hieraus ergibt sich durch (b0 , ai , b00 ) die Sortierung von a. Die Rekursion bricht ab, wenn n = 0 gilt. Wieviele Vergleiche benötigt Quicksort im Durchschnitt? 1.5. Sei wieder a = (a1 , . . . , an ) eine Folge unterschiedlicher Zahlen. Wir wollen das k -t größte Element bestimmen, ohne vorher die Folge zu sortieren. Wir gehen dafür ähnlich wie bei Quicksort aus Aufgabe 1.4 vor. Wir wählen zufällig ein Pivotelement p und bilden damit erneut die beiden Teilsequenzen der Elemente, die kleiner bzw. größer als p sind. Wir können gleichzeitig die Anzahl der Elemente in der vorderen Teilsequenz festhalten und dann entscheiden, ob wir das gesuchte Element bereits mit p gefunden haben oder in welcher der beiden Listen das gesuchte Element zu bestimmen ist. Die Prozedur nennt man Quickselect. Zeigen Sie, dass die mittlere Zahl der Vergleiche Q(n) bei Quickselect durch 2(1 + ln 2)n begrenzt werden kann. Hinweis: Nehmen Sie an, dass die Folge a aus den Zahlen 1, . . . , n besteht und dass die Position des Elements k bestimmt werden soll. Bezeichnet π eine Reihenfolge der Pivotelemente, so benutzen Sie die 0-1-wertigen Zufallsvariablen Xij (π) = „i wird mit j verglichen“ . Unterscheiden Sie drei Fälle, je nachdem wie k zu i und j steht. Pn 1 1.6. Sei n ≥ 1 und Hn = k=1 k . Gegeben sei eine Zufallsvariable X : Ω → {1, . . . , n} mit der Zipf-Verteilung Pr[X = k] = (Hn · k)−1 . Sie ist nach George Kingsley Zipf (1902–1950) benannt, der empirisch feststellte, dass in natürlichsprachlichen Texten das k -t häufigste Wort mit einer Wahrscheinlichkeit proportional zu 1/k auftritt. Berechnen Sie die Asymptotik des Erwartungswerts und der Standardabweichung von X . 12 Kapitel 1 Diskrete Wahrscheinlichkeitsrechnung Zusammenfassung Begriffe • • • • • • (diskreter) Wahrscheinlichkeitsraum Ω Gleichverteilung Wahrscheinlichkeit Pr[A] Zufallsvariable X Erwartungswert E [X] diskrete Dichte fX • • • • • • Verteilung FX unabhängige Zufallsvariablen Varianz Var[X] Bernoulli-Experiment Standardabweichung σX konvexe Funktion Methoden und Resultate Ω endlich, gleichverteilt ⇒ Pr[A] = P • E [X] = ω∈Ω X(ω)Pr[ω] • |A| |Ω| • Ω endlich, gleichverteilt ⇒ E [X] = • Markov-Ungleichung: X ≥ 0, E [X] > 0, λ > 0 ⇒ Pr X ≥ λE [X] ≤ P ω X(ω) / |Ω| 1 λ Linearität des Erwartungswertes: E [aX + bY ] = aE [X] + bE [Y ] P P • E [X] = x x fX (x) x x Pr[X = x] = • X, Y unabhängig ⇒ E [XY ] = E [X] E [Y ] 2 • Var[X] = E (X − E [X])2 = E X 2 − E [X] ≥ 0 p • σX = Var[X] • Tschebyschev-Ungleichung: Für λ > 0 gilt Pr |X − E [X]| ≥ λ σX ≤ • 1 λ2 • X, Y unabhängig ⇒ Var[X + Y ] = Var[X] + Var[Y ] • Jensen’sche Ungleichung: f : R → R konvex, λi ∈ [0, 1], Pk Pk f i=1 λi xi ≤ i=1 λi f (xi ) • Ω endlich, f konvex ⇒ f (E [X]) ≤ E [f (X)] • Geburtstagsparadoxon: Für zufällige Folgen von m Ereignissen aus Ω mit p m ≥ 2 |Ω| ln 2 ist Pr[zwei gleiche Folgenglieder] > 1/2. Pk i=1 λi =1 ⇒