112 Algorithmen und Datenstrukturen A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich. Diese werden in diesem Anhang bereitgestellt. A Grundbegriffe der Wahrscheinlichkeitsrechnung TU Bergakademie Freiberg, WS 2005/06 113 Algorithmen und Datenstrukturen A.1 Wahrscheinlichkeit Wahrscheinlichkeit wird definiert bezüglich eines Grundraums Ω, dessen Elemente ω Elementarereignisse genannt werden. Jedes Elementarereignis kann als mögliches Ergebnis eines Zufallsexperiments angesehen werden. Beispiel: Betrachte das Zufallsexperiment, zwei unterscheidbare Münzen zu werfen. Mit K=Kopf und Z=Zahl ist der Grundraum gegeben durch Ω = {KK, ZK, KZ, ZZ}. Ein Ereignis ist eine Teilmenge des Grundraums. Im obigen Beispiel wäre etwa das Ereignis, genau einen Kopf und eine Zahl zu werfen, gegeben durch {KZ, ZK} ⊂ Ω. Die gesamte Menge Ω heißt sicheres Ereignis, das Ereignis ∅ heißt Nullereignis. Zwei Ereignisse A und B sind disjunkt, falls A ∩ B = ∅. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 114 Algorithmen und Datenstrukturen A.1.1 Axiome der Wahrscheinlichkeit Eine Wahrscheinlichkeitsverteilung Pr auf einem Grundraum Ω ist eine Abbildung, welche Ereignissen reelle Zahlen zuordnet, sodass folgende Axiome erfüllt sind: 1. Pr(A) ≥ 0 für alle Ereignisse A. 2. Pr(Ω) = 1. 3. Pr(A ∪ B) = Pr(A) + Pr(B) für zwei disjunkte Ereignisse A, B. Allgemeiner: für jede abzählbare Folge paarweise disjunkter Ereignisse gilt [ X Pr Ai = Pr(Ai ). i i Pr(A) heißt Wahrscheinlichkeit des Ereignisses A. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 115 Algorithmen und Datenstrukturen Folgerungen aus den Axiomen: • Pr(∅) = 0 • A ⊂ B ⇒ Pr(A) ≤ Pr(B). • Mit A := Ω \ A (Komplement von A) gilt Pr(A) = 1 − Pr(A). • Für zwei beliebige Ereignisse A, B gilt Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) ≤ Pr(A) + Pr(B). Im Münzbeispiel: besitzen alle 4 Elementarereignisse dieselbe Wahrscheinlichkeit 1/4, so ist die Wahrscheinlichkeit, mindestens einen Kopf zu werfen Pr({KK, KZ, ZK}) = Pr({KK}) + Pr({KZ}) + Pr({ZK}) = 3/4. Die W. echt weniger als einmal Kopf zu werfen ist Pr({ZZ}) = 1/4, also wirft man mit W. 1 − 1/4 = 3/4 mindestens einmal Kopf. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 116 Algorithmen und Datenstrukturen A.1.2 Diskrete Wahrscheinlichkeitsverteilungen Eine Wahrscheinlichkeitsverteilung heißt diskret, falls sie über einem endlichen oder abzählbaren Grundraum Ω definiert ist. Da Elementarereignisse paarweise disjunkt sind, gilt in diesem Fall für jedes Ereignis A X Pr(A) = Pr(ω). ω∈A Ist Ω endlich und besitzt jedes Elementarereignis dieselbe Wahrscheinlichkeit 1/|Ω|, so spricht man von einer Gleichverteilung. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 117 Algorithmen und Datenstrukturen Beispiel: Wurf einer fairen Münze, d.h. bei welcher Kopf und Zahl je mit Wahrscheinlichkeit 1/2 auftreten. Bei n-maligem Wurf ergibt sich die Gleichverteilung auf dem Grundraum Ω = {K, Z}n bestehend aus allen nTupeln aus {K, Z}, d.h. |Ω| = 2n , und jedes tritt auf mit Wahrscheinlichkeit 1/2n . Für das Ereignis A = {Genau k Mal Kopf und n − k Mal Zahl treten auf} n gilt |A| = k , denn es gibt genau soviele n-Tupel aus {K, Z}n , in denen K k Mal auftritt. Somit gilt Pr(A) = A.1 Wahrscheinlichkeit n k 2n . TU Bergakademie Freiberg, WS 2005/06 118 Algorithmen und Datenstrukturen A.1.3 Kontinuierliche Gleichverteilung Hier ist Ω = [a, b] mit a < b, a, b ∈ R. Die kontinuierliche Gleichverteilung ist ein Beispiel, in dem nicht alle Teilmengen des Grundraums auch Ereignisse sind. Stattdessen geben wir ein Mengensystem an, auf dem Wahrscheinlichkeiten so definiert werden können, dass die Axiome erfüllt sind. Für jedes abgeschlossene Intervall [c, d] mit a ≤ c ≤ d ≤ b ordnet die kontinuierliche Gleichverteilung dem Ereignis [c, d] die Wahrscheinlichkeit Pr([c, d]) = d−c b−a zu. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 Algorithmen und Datenstrukturen 119 Beachte: • Pr([x, x]) = 0 • Pr (c, d) = Pr([c, d]) Allgemein sind alle Ereignisse diejenigen Teilmengen von [a, b], welche als endliche oder abzählbare Vereinigng von offenen oder abgeschlossenen Intervallen dargstellt werden können. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 120 Algorithmen und Datenstrukturen A.1.4 Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit beschreibt Zufallsexperimente, über deren Ausgang bereits Teilinformationen bekannt sind. Beispiel: Beim Wurf zweier fairer Münzen sei bekannt, dass eine der beiden Kopf zeige. Wie groß ist die Wahrscheinlichkeit, dass beide Kopf zeigen ? Die Vorinformation schließt das Ereignis {ZZ} aus. Da die verbleibenden drei Ereignisse gleich wahrscheinlich sind, ist die Antwort 1/3. Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Annahme, dass Ereignis B eingetreten ist, wird definiert als Pr(A|B) := A.1 Wahrscheinlichkeit Pr(A ∩ B) , Pr(B) sofern Pr(B) 6= 0. TU Bergakademie Freiberg, WS 2005/06 121 Algorithmen und Datenstrukturen Im Beispiel: A = {KK}, Pr(A) = 1/4, B = {ZK, KZ, KK}, Pr(B) = 3/4, und somit Pr(A|B) = 1/4 = 1/3. 3/4 Zwei Ereignisse heißen unabhängig, falls Pr(A ∩ B) = Pr(A) · Pr(B), was, falls Pr(B) 6= 0, äquivalent ist mit Pr(A|B) = Pr(A). A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 122 Algorithmen und Datenstrukturen A.1.5 Der Satz von Bayes Nach Definition bedingter Wahrscheinlichkeit gilt Pr(A ∩ B) = Pr(B) Pr(A|B) = Pr(A) Pr(B|A). Auflösen nach Pr(A|B) ergibt den Satz von Bayes, wonach Pr(A|B) = A.1 Wahrscheinlichkeit Pr(A) Pr(B|A) . Pr(B) (A.1) TU Bergakademie Freiberg, WS 2005/06 123 Algorithmen und Datenstrukturen Beispiel: Das Monty-Hall Problem Als Kandidat einer Spielsendunga erhalten Sie die Wahl zwischen drei Türen: hinter einer Tür befindet sich ein wertvoller Preis (etwa ein Auto), hinter den anderen beiden befindet sich jeweils ein weniger wertvoller Preis (etwa eine Ziege). Nachdem Sie ihre Wahl getroffen haben öffnet der Moderator eine der nichtgewählten Türen und bringt eine Ziege zum Vorschein. Sie erhalten nun die Möglichkeit, Ihre Wahl zu revidieren und zur anderen verbleibenden Tür zu wechseln. Erhöht ein Wechsel Ihre Gewinnchancen? a Die Sendung hieß Let’s Make a Deal und Monty Hall war der Moderator. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2005/06 124 Algorithmen und Datenstrukturen Lösung: Wechseln verdoppelt Ihre Gewinnchancen. Bezeichnungen: W ∈ {1, 2, 3} vom Kandidatengewählte Tür P ∈ {1, 2, 3} Tür, hinter welcher Preis liegt T ∈ {1, 2, 3} Tür, die Moderator öffnet O.b.d.A.: W = 1, T = 2. Es gilt: Pr(P = 1) = Pr(P = 2) = Pr(P = 3) = Pr(T = 1) = 0, A.1 Wahrscheinlichkeit 1 , 2 1 Pr(T = 2|P = 1) = , 2 Pr(T = 2) = Pr(T = 3) = Pr(T = 2|P = 3) = 1, Satz von Bayes: 1 , 3 2 , 3 1 Pr(P = 1|T = 2) = . 3 Pr(P = 3|T = 2) = TU Bergakademie Freiberg, WS 2005/06 125 Algorithmen und Datenstrukturen A.2 Diskrete Zufallsvariable Eine (diskrete) Zufallsvariable X ist eine Funktion von einem endlichen oder abzählbaren Grundraum in die reellen Zahlen. Dadurch wird jedem Elementarereignis eine Zahl zugeordnet, und eine Wahrscheinlichkeitsverteilung auf den reellen Zahlen induziert.a Für eine Zufallsvariable X und x ∈ R definieren wir das Ereignis X = x als X −1 ({x}) = {ω ∈ Ω : X(ω) = x}, und somit X Pr(X = x) = Pr({ω}). {ω∈Ω:X(ω)=x} Die Funktion f (x) = Pr(X = x) ist die Wahrscheinlichkeitsdichte der Zufallsvariable X. a Zufallsvariable können auch für überabzahlbare Grundräume definiert werden, was aber gewisse technische Feinheiten beinhaltet die für unsere Belange nicht erforderlich sind. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 126 Algorithmen und Datenstrukturen Aus den Axiomen folgt Pr(X = x) ≥ 0 sowie P x Pr(X = x) = 1. Beispiel: Werfen zweier Würfel Sind diese ungezinkt, so liegt Gleichverteilung vor, d.h. jedes des 36 Elementarereignisse besitzt die Wahrscheinlichkeit 1/36. Die Zufallsvariable X sei definiert als das Maximum der beiden geworfenen Augenzahlen. So ist etwa Pr(X = 3) = 5/36, da X genau den Elementarereignissen (1, 3), (2, 3), (3, 3), (3, 2) und (3, 1) den Funktionswert 3 zuordnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 127 Algorithmen und Datenstrukturen Sind X und Y zwei auf demselben Grundraum definierte Zufallsvariable, so bezeichnet man die auf R2 definierte Funktion f (x, y) = Pr({X = x und Y = y}) als gemeinsame Wahrscheinlichkeitsdichte von X und Y . Für festes y gilt X Pr(Y = y) = Pr({X = x und Y = y}) x und analog für festes x Pr(X = x) = X Pr({X = x und Y = y}) y Nach de Definition der bedingten Wahrscheinlichkeit ist Pr(X = x|Y = y) = A.2 Diskrete Zufallsvariable Pr({X = x und Y = y}) Pr(Y = y) TU Bergakademie Freiberg, WS 2005/06 128 Algorithmen und Datenstrukturen Zwei Zufallsvariablen heißen unabhängig, falls für alle x, y die Ereignisse {X = x} und {Y = y} unabhängig sind, oder äquivalent Pr({X = x und Y = y}) = Pr(X = x) · Pr(Y = y). A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 129 Algorithmen und Datenstrukturen A.2.1 Erwartungswert einer Zufallsvariable Da Wahrscheinlichkeitsverteilungen sehr viel Information enthalten ist es hilfreich, einige Größen zu definieren, welche die wichtigsten Eigenschaften von Zufallsvariablen zusammenfassen. Der Erwartungswert (Mittelwert, Erwartung) einer diskreten Zufallsvariable X ist definiert als X E[X] := x · Pr(X = x) x (sofern die Summe endlich ist bzw. absolut konvergiert). Der Erwartungswert von X wird auch mit µX oder einfach µ bezeichnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 130 Algorithmen und Datenstrukturen Beispiel: Sie werfen zwei faire Münzen und erhalten für jeden Kopf 3 Euro, müssen aber für jede Zahl 2 Euro bezahlen. Der Erwartungswert der Zufallsvariable X, die Ihren Gewinn angibt, ergibt sich zu E[X] = 6 · Pr({KK}) + 1 · Pr({ZK, KZ}) − 4 · Pr({ZZ}) = 6 · 1/4 + 1 · 1/2 − 4 · 1/4 = 1. Eine wichtige Eigenschaft des Erwartungswerts ist die Linearität, d.h. für beliebige Zufallsvariable X gilt E[X + Y ] = E[X] + E[Y ] (selbst wenn X und Y nicht unabhängig sind). A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 131 Algorithmen und Datenstrukturen Ist X eine Zufallsvariable und g eine Funktion einer Veränderlichen, so ist durch Y (ω) := g(X(ω)) eine neue Zufallsvariable definiert. Hierfür ist der Erwartungswert X E[g(X)] = g(x) Pr(X = x), x sofern die Summe existiert. Für die spezielle Funktion g(x) = ax, a eine Konstante, ergibt sich E[aX] = aE[X], d.h. für Zufallsvariablen X, Y und Konstanten a, b gilt stets E[aX + bY ] = aE[X] + bE[Y ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 132 Algorithmen und Datenstrukturen Sind X, Y unabhängige Zufallsvariable, für welche die Erwartung existiert, so gilt XX E[XY ] = xy Pr({X = x und Y = y}) x = y XX x xy Pr(X = x) Pr(Y = y) y ! = X x Pr(X = x) x ! X y Pr(Y = y) y = E[X] E[Y ]. Allgemeiner: sind die Zufallsvariablen X1 , . . . , Xn paarweise unabhängig, so gilt E[X1 X2 · · · Xn ] = E[X1 ]E[X2 ] · · · E[Xn ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 133 Algorithmen und Datenstrukturen A.2.2 Varianz und Standardabweichung Der Erwartungswert einer Zufallsvariable gibt keine Auskunft darüber, wie weit die Werte dieser Zufallsvariablen darum streuen. Gilt etwa für zwei Zufallsvariable X und Y Pr(X = 1/4) = Pr(X = 3/4) = 1/2, sowie Pr(Y = 0) = Pr(Y = 1) = 1/2, so liegen trotz E[X] = E[Y ] = 1/2 die Werte von Y weiter vom Erwartungswert entfernt als die von X. Die Varianz quantifiziert diese Streuung. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 134 Algorithmen und Datenstrukturen Die Varianz einer Zufallsvariablen X mit Erwartungswert E[X] ist definiert durch Var[X] := E[(X − E[X])2 ] = E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X E[X]] + E[X]2 = E[X 2 ] − 2E[X]2 + E[X]2 = E[X 2 ] − E[X]2 . Für skalare Vielfache aX, a konstant, ergibt sich Var[aX] = a2 Var[X]. Für unabhängige Zufallsvariable X, Y gilt Var[X + Y ] = Var[X] + Var[Y ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06 135 Algorithmen und Datenstrukturen Entsprechend gilt für n paarweise unabhängige Zufallsvariablen X1 , . . . , Xn Var[X1 + · · · + Xn ] = Var[X1 ] + · · · + Var[Xn ]. Die Standardabweichung einer Zufallsvariablen X ist die (nichtnegative) Wurzel der Varianz von X, und wird mit σ oder σX bezeichnet. Mit σ 2 wird oft auch die Varianz bezeichnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2005/06