349 Algorithmen und Datenstrukturen A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich. Diese werden in diesem Anhang bereitgestellt. A Grundbegriffe der Wahrscheinlichkeitsrechnung TU Bergakademie Freiberg, WS 2004/05 350 Algorithmen und Datenstrukturen A.1 Wahrscheinlichkeit Wahrscheinlichkeit wird definiert bezüglich eines Grundraums Ω, dessen Elemente ω Elementarereignisse genannt werden. Jedes Elementarereignis kann als mögliches Ergebnis eines Zufallsexperiments angesehen werden. Beispiel: Betrachte das Zufallsexperiment, zwei unterscheidbare Münzen zu werfen. Mit K=Kopf und Z=Zahl ist der Grundraum gegeben durch Ω = {KK, ZK, KZ, ZZ}. Ein Ereignis ist eine Teilmenge des Grundraums. Im obigen Beispiel wäre etwa das Ereignis, genau einen Kopf und eine Zahl zu werfen, gegeben durch {KZ, ZK} ⊂ Ω. Die gesamte Menge Ω heißt sicheres Ereignis, das Ereignis ∅ heißt Nullereignis. Zwei Ereignisse A und B sind disjunkt, falls A ∩ B = ∅. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 351 Algorithmen und Datenstrukturen A.1.1 Axiome der Wahrscheinlichkeit Eine Wahrscheinlichkeitsverteilung Pr auf einem Grundraum Ω ist eine Abbildung, welche Ereignissen reelle Zahlen zuordnet, sodass folgende Axiome erfüllt sind: 1. Pr(A) ≥ 0 für alle Ereignisse A. 2. Pr(Ω) = 1. 3. Pr(A ∪ B) = Pr(A) + Pr(B) für zwei disjunkte Ereignisse A, B. Allgemeiner: für jede abzählbare Folge paarweise disjunkter Ereignisse gilt [ X Pr Ai = Pr(Ai ). i i Pr(A) heißt Wahrscheinlichkeit des Ereignisses A. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 352 Algorithmen und Datenstrukturen Folgerungen aus den Axiomen: • Pr(∅) = 0 • A ⊂ B ⇒ Pr(A) ≤ Pr(B). • Mit A := Ω \ A (Komplement von A) gilt Pr(A) = 1 − Pr(A). • Für zwei beliebige Ereignisse A, B gilt Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) ≤ Pr(A) + Pr(B). Im Münzbeispiel: besitzen alle 4 Elementarereignisse dieselbe Wahrscheinlichkeit 1/4, so ist die W., mindestens einen Kopf zu werfen Pr({KK, KZ, ZK}) = Pr({KK}) + Pr({KZ}) + Pr({ZK}) = 3/4. Die W. echt weniger als einmal Kopf zu werfen ist Pr({ZZ}) = 1/4, also wirft man mit W. 1 − 1/4 = 3/4 mindestens einmal Kopf. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 353 Algorithmen und Datenstrukturen A.1.2 Diskrete Wahrscheinlichkeitsverteilungen Eine Wahrscheinlichkeitsverteilung heißt diskret, falls sie über einem endlichen oder abzählbaren Grundraum Ω definiert ist. Da Elementarereignisse paarweise disjunkt sind, gilt in diesem Fall für jedes Ereignis A X Pr(A) = Pr(ω). ω∈A Ist Ω endlich und besitzt jedes Elementarereignis dieselbe Wahrscheinlichkeit 1/|Ω|, so spricht man von einer Gleichverteilung. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 354 Algorithmen und Datenstrukturen Beispiel: Wurf einer fairen Münze, d.h. bei welcher Kopf und Zahl je mit Wahrscheinlichkeit 12 auftreten. Bei n-maligem Wurf ergibt sich die Gleichverteilung auf dem Grundraum Ω = {K, Z}n bestehend aus allen n-Tupeln aus {K, Z}, d.h. |Ω| = 2n , und jedes tritt auf mit Wahrscheinlichkeit 1/2n . Für das Ereignis A = {Genau k Mal Kopf und n − k Mal Zahl treten auf} n gilt |A| = k , denn es gibt genau soviele n-Tupel aus {K, Z}n , in denen K k Mal auftritt. Somit gilt Pr(A) = A.1 Wahrscheinlichkeit n k 2n . TU Bergakademie Freiberg, WS 2004/05 355 Algorithmen und Datenstrukturen A.1.3 Kontinuierliche Gleichverteilung Hier ist Ω = [a, b] mit a < b, a, b ∈ R. Die kontinuierliche Gleichverteilung ist ein Beispiel, in dem nicht alle Teilmengen des Grundraums auch Ereignisse sind. Stattdessen geben wir ein Mengensystem an, auf dem Wahrscheinlichkeiten so definiert werden können, dass die Axiome erfüllt sind. Für jedes abgeschlossene Intervall [c, d] mit a ≤ c ≤ d ≤ b ordnet die kontinuierliche Gleichverteilung dem Ereignis [c, d] die Wahrscheinlichkeit Pr([c, d]) = d−c b−a zu. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 356 Algorithmen und Datenstrukturen Beachte: • Pr([x, x]) = 0 • Pr (c, d) = Pr([c, d]) Allgemein sind alle Ereignisse diejenigen Teilmengen von [a, b], welche als endliche oder abzählbare Vereinigung von offenen oder abgeschlossenen Intervallen dargstellt werden können. A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 357 Algorithmen und Datenstrukturen A.1.4 Bedingte Wahrscheinlichkeit und Unabhängigkeit Bedingte Wahrscheinlichkeit beschreibt Zufallsexperimente, über deren Ausgang bereits Teilinformationen bekannt sind. Beispiel: Beim Wurf zweier fairer Münzen sei bekannt, dass eine der beiden Kopf zeige. Wie groß ist die Wahrscheinlichkeit, dass beide Kopf zeigen ? Die Vorinformation schließt das Ereignis {ZZ} aus. Da die verbleibenden drei Ereignisse gleich wahrscheinlich sind, ist die Antwort 1/3. Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Annahme, dass Ereignis B eingetreten ist, wird definiert als Pr(A|B) := A.1 Wahrscheinlichkeit Pr(A ∩ B) , Pr(B) sofern Pr(B) 6= 0. TU Bergakademie Freiberg, WS 2004/05 358 Algorithmen und Datenstrukturen Im Beispiel: A = {KK}, Pr(A) = 1/4, B = {ZK, KZ, KK}, Pr(B) = 3/4, und somit Pr(A|B) = 1/4 = 1/3. 3/4 Zwei Ereignisse heißen unabhängig, falls Pr(A ∩ B) = Pr(A) · Pr(B), was, falls Pr(B) 6= 0, äquivalent ist mit Pr(A|B) = Pr(A). A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 359 Algorithmen und Datenstrukturen A.1.5 Der Satz von Bayes Nach Definition bedingter Wahrscheinlichkeit gilt Pr(A ∩ B) = Pr(B) Pr(A|B) = Pr(A) Pr(B|A). Auflösen nach Pr(A|B) ergibt den Satz von Bayes, wonach Pr(A|B) = A.1 Wahrscheinlichkeit Pr(A) Pr(B|A) . Pr(B) (A.1) TU Bergakademie Freiberg, WS 2004/05 360 Algorithmen und Datenstrukturen Wegen B = (B ∩ A) ∪ (B ∩ A) und da die Ereignisse B ∩ A und B ∩ A disjunkt erhalten wir mit Pr(B) = Pr(B ∩ A) + Pr(B ∩ A) = Pr(A) Pr(B|A) + Pr(A) Pr(B|A) die äquivalente Formulierung Pr(A|B) = A.1 Wahrscheinlichkeit Pr(A) Pr(B|A) Pr(A) Pr(B|A) + Pr(A) Pr(B|A) TU Bergakademie Freiberg, WS 2004/05 361 Algorithmen und Datenstrukturen Der Bayessche Satz vereinfacht oft die Berechnung bedingter Wahrscheinlichkeiten. Beispiel: Gegeben seien zwei Münzen, die eine fair, die andere so beschaffen, dass sie stets Kopf liefert. Wir betrachten ein Zufallsexperiment bestehent aus drei unabhängigen Ereignissen 1. Eine der beiden Münzen wird zufällig ausgewählt. 2. Diese Münze wird geworfen. 3. Diese Münze wird ein zweites Mal geworfen. Angenommen die Münze zeigt beide Male Kopf. Wie groß ist die Wahrscheinlichkeit, dass in 1. die nicht-faire Münze ausgewählt wurde ? A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 362 Algorithmen und Datenstrukturen Lösung mit Bayesschem Satz: Wir definieren die Ereignisse A := {Die nicht-faire Münze wurde ausgewählt}, B := {Die geworfene Münze zeigt zweimal Kopf}. Wir wollen Pr(A|B) bestimmen. Es gelten Pr(A) = 21 , Pr(B|A) = 1, Pr(A) = 21 sowie Pr(B|A) = 14 , und somit (1/2) · 1 4 Pr(A|B) = = . (1/2) · 1 + (1/2) · (1/4) 5 A.1 Wahrscheinlichkeit TU Bergakademie Freiberg, WS 2004/05 363 Algorithmen und Datenstrukturen A.2 Diskrete Zufallsvariable Eine (diskrete) Zufallsvariable X ist eine Funktion von einem endlichen oder abzählbaren Grundraum in die reellen Zahlen. Dadurch wird jedem Elementarereignis eine Zahl zugeordnet, und eine Wahrscheinlichkeitsverteilung auf den reellen Zahlen induziert.a Für eine Zufallsvariable X und x ∈ R definieren wir das Ereignis X = x als X −1 ({x}) = {ω ∈ Ω : X(ω) = x}, und somit X Pr(X = x) = Pr({ω}). {ω∈Ω:X(ω)=x} Die Funktion f (x) = Pr(X = x) ist die Wahrscheinlichkeitsdichte der Zufallsvariable X. a Zufallsvariable können auch für überabzählbare Grundräume definiert werden, was aber gewisse technische Feinheiten beinhaltet die für unsere Belange nicht erforderlich sind. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 364 Algorithmen und Datenstrukturen Aus den Axiomen folgt Pr(X = x) ≥ 0 sowie P x Pr(X = x) = 1. Beispiel: Werfen zweier Würfel Sind diese ungezinkt, so liegt Gleichverteilung vor, d.h. jedes des 36 Elementarereignisse besitzt die Wahrscheinlichkeit 1/36. Die Zufallsvariable X sei definiert als das Maximum der beiden geworfenen Augenzahlen. So ist etwa Pr(X = 3) = 5/36, da X genau den Elementarereignissen (1, 3), (2, 3), (3, 3), (3, 2) und (3, 1) den Funktionswert 3 zuordnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 365 Algorithmen und Datenstrukturen Sind X und Y zwei auf demselben Grundraum definierte Zufallsvariable, so bezeichnet man die auf R2 definierte Funktion f (x, y) = Pr({X = x und Y = y}) als gemeinsame Wahrscheinlichkeitsdichte von X und Y . Für festes y gilt X Pr(Y = y) = Pr({X = x und Y = y}) x und analog für festes x Pr(X = x) = X Pr({X = x und Y = y}) y Nach de Definition der bedingten Wahrscheinlichkeit ist Pr(X = x|Y = y) = A.2 Diskrete Zufallsvariable Pr({X = x und Y = y}) Pr(Y = y) TU Bergakademie Freiberg, WS 2004/05 366 Algorithmen und Datenstrukturen Zwei Zufallsvariablen heißen unabhängig, falls für alle x, y die Ereignisse {X = x} und {Y = y} unabhängig sind, oder äquivalent Pr({X = x und Y = y}) = Pr(X = x) · Pr(Y = y). A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 367 Algorithmen und Datenstrukturen A.2.1 Erwartungswert einer Zufallsvariable Da Wahrscheinlichkeitsverteilungen sehr viel Information enthalten ist es hilfreich, einige Größen zu definieren, welche die wichtigsten Eigenschaften von Zufallsvariablen zusammenfassen. Der Erwartungswert (Mittelwert, Erwartung) einer diskreten Zufallsvariable X ist definiert als X E[X] := x · Pr(X = x) x (sofern die Summe endlich ist bzw. absolut konvergiert). Der Erwartungswert von X wird auch mit µX oder einfach µ bezeichnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 368 Algorithmen und Datenstrukturen Beispiel: Sie werfen zwei faire Münzen und erhalten für jeden Kopf 3 Euro, müssen aber für jede Zahl 2 Euro bezahlen. Der Erwartungswert der Zufallsvariable X, die Ihren Gewinn angibt, ergibt sich zu E[X] = 6 · Pr({KK}) + 1 · Pr({ZK, KZ}) − 4 · Pr({ZZ}) = 6 · 1/4 + 1 · 1/2 − 4 · 1/4 = 1. Eine wichtige Eigenschaft des Erwartungswerts ist die Linearität, d.h. für beliebige Zufallsvariable X gilt E[X + Y ] = E[X] + E[Y ] (selbst wenn X und Y nicht unabhängig sind). A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 369 Algorithmen und Datenstrukturen Ist X eine Zufallsvariable und g eine Funktion einer Veränderlichen, so ist durch Y (ω) := g(X(ω)) eine neue Zufallsvariable definiert. Hierfür ist der Erwartungswert X E[g(X)] = g(x) Pr(X = x), x sofern die Summe existiert. Für die spezielle Funktion g(x) = ax, a eine Konstante, ergibt sich E[aX] = aE[X], d.h. für Zufallsvariablen X, Y und Konstanten a, b gilt stets E[aX + bY ] = aE[X] + bE[Y ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 370 Algorithmen und Datenstrukturen Sind X, Y unabhängige Zufallsvariable, für welche die Erwartung existiert, so gilt XX E[XY ] = xy Pr({X = x und Y = y}) x = y XX x xy Pr(X = x) Pr(Y = y) y ! = X x Pr(X = x) x ! X y Pr(Y = y) y = E[X] E[Y ]. Allgemeiner: sind die Zufallsvariablen X1 , . . . , Xn paarweise unabhängig, so gilt E[X1 X2 · · · Xn ] = E[X1 ]E[X2 ] · · · E[Xn ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 371 Algorithmen und Datenstrukturen A.2.2 Varianz und Standardabweichung Der Erwartungswert einer Zufallsvariable gibt keine Auskunft darüber, wie weit die Werte dieser Zufallsvariablen darum streuen. Gilt etwa für zwei Zufallsvariable X und Y Pr(X = 1/4) = Pr(X = 3/4) = 1/2, sowie Pr(Y = 0) = Pr(Y = 1) = 1/2, so liegen trotz E[X] = E[Y ] = 1/2 die Werte von Y weiter vom Erwartungswert entfernt als die von X. Die Varianz quantifiziert diese Streuung. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 372 Algorithmen und Datenstrukturen Die Varianz einer Zufallsvariablen X mit Erwartungswert E[X] ist definiert durch Var[X] := E[(X − E[X])2 ] = E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X E[X]] + E[X]2 = E[X 2 ] − 2E[X]2 + E[X]2 = E[X 2 ] − E[X]2 . Für skalare Vielfache aX, a konstant, ergibt sich Var[aX] = a2 Var[X]. Für unabhängige Zufallsvariable X, Y gilt Var[X + Y ] = Var[X] + Var[Y ]. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05 373 Algorithmen und Datenstrukturen Entsprechend gilt für n paarweise unabhängige Zufallsvariablen X1 , . . . , Xn Var[X1 + · · · + Xn ] = Var[X1 ] + · · · + Var[Xn ]. Die Standardabweichung einer Zufallsvariablen X ist die (nichtnegative) Wurzel der Varianz von X, und wird mit σ oder σX bezeichnet. Mit σ 2 wird oft auch die Varianz bezeichnet. A.2 Diskrete Zufallsvariable TU Bergakademie Freiberg, WS 2004/05