A Grundbegriffe der Wahrscheinlichkeitsrechnung

Werbung
349
Algorithmen und Datenstrukturen
A
Grundbegriffe der
Wahrscheinlichkeitsrechnung
Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus
der Wahrscheinlichkeitsrechnung erforderlich. Diese werden in diesem
Anhang bereitgestellt.
A Grundbegriffe der Wahrscheinlichkeitsrechnung
TU Bergakademie Freiberg, WS 2004/05
350
Algorithmen und Datenstrukturen
A.1 Wahrscheinlichkeit
Wahrscheinlichkeit wird definiert bezüglich eines Grundraums Ω, dessen
Elemente ω Elementarereignisse genannt werden. Jedes
Elementarereignis kann als mögliches Ergebnis eines Zufallsexperiments
angesehen werden.
Beispiel: Betrachte das Zufallsexperiment, zwei unterscheidbare Münzen
zu werfen. Mit K=Kopf und Z=Zahl ist der Grundraum gegeben durch
Ω = {KK, ZK, KZ, ZZ}.
Ein Ereignis ist eine Teilmenge des Grundraums. Im obigen Beispiel wäre
etwa das Ereignis, genau einen Kopf und eine Zahl zu werfen, gegeben
durch {KZ, ZK} ⊂ Ω.
Die gesamte Menge Ω heißt sicheres Ereignis, das Ereignis ∅ heißt
Nullereignis. Zwei Ereignisse A und B sind disjunkt, falls A ∩ B = ∅.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
351
Algorithmen und Datenstrukturen
A.1.1
Axiome der Wahrscheinlichkeit
Eine Wahrscheinlichkeitsverteilung Pr auf einem Grundraum Ω ist eine
Abbildung, welche Ereignissen reelle Zahlen zuordnet, sodass folgende
Axiome erfüllt sind:
1. Pr(A) ≥ 0 für alle Ereignisse A.
2. Pr(Ω) = 1.
3. Pr(A ∪ B) = Pr(A) + Pr(B) für zwei disjunkte Ereignisse A, B.
Allgemeiner: für jede abzählbare Folge paarweise disjunkter
Ereignisse gilt
[ X
Pr
Ai =
Pr(Ai ).
i
i
Pr(A) heißt Wahrscheinlichkeit des Ereignisses A.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
352
Algorithmen und Datenstrukturen
Folgerungen aus den Axiomen:
• Pr(∅) = 0
• A ⊂ B ⇒ Pr(A) ≤ Pr(B).
• Mit A := Ω \ A (Komplement von A) gilt Pr(A) = 1 − Pr(A).
• Für zwei beliebige Ereignisse A, B gilt
Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) ≤ Pr(A) + Pr(B).
Im Münzbeispiel: besitzen alle 4 Elementarereignisse dieselbe
Wahrscheinlichkeit 1/4, so ist die W., mindestens einen Kopf zu werfen
Pr({KK, KZ, ZK}) = Pr({KK}) + Pr({KZ}) + Pr({ZK}) = 3/4.
Die W. echt weniger als einmal Kopf zu werfen ist Pr({ZZ}) = 1/4, also
wirft man mit W. 1 − 1/4 = 3/4 mindestens einmal Kopf.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
353
Algorithmen und Datenstrukturen
A.1.2
Diskrete Wahrscheinlichkeitsverteilungen
Eine Wahrscheinlichkeitsverteilung heißt diskret, falls sie über einem
endlichen oder abzählbaren Grundraum Ω definiert ist. Da
Elementarereignisse paarweise disjunkt sind, gilt in diesem Fall für jedes
Ereignis A
X
Pr(A) =
Pr(ω).
ω∈A
Ist Ω endlich und besitzt jedes Elementarereignis dieselbe
Wahrscheinlichkeit 1/|Ω|, so spricht man von einer Gleichverteilung.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
354
Algorithmen und Datenstrukturen
Beispiel: Wurf einer fairen Münze, d.h. bei welcher Kopf und Zahl je mit
Wahrscheinlichkeit 12 auftreten. Bei n-maligem Wurf ergibt sich die
Gleichverteilung auf dem Grundraum Ω = {K, Z}n bestehend aus allen
n-Tupeln aus {K, Z}, d.h. |Ω| = 2n , und jedes tritt auf mit
Wahrscheinlichkeit 1/2n .
Für das Ereignis
A = {Genau k Mal Kopf und n − k Mal Zahl treten auf}
n
gilt |A| = k , denn es gibt genau soviele n-Tupel aus {K, Z}n , in denen K
k Mal auftritt. Somit gilt
Pr(A) =
A.1 Wahrscheinlichkeit
n
k
2n
.
TU Bergakademie Freiberg, WS 2004/05
355
Algorithmen und Datenstrukturen
A.1.3
Kontinuierliche Gleichverteilung
Hier ist Ω = [a, b] mit a < b, a, b ∈ R.
Die kontinuierliche Gleichverteilung ist ein Beispiel, in dem nicht alle
Teilmengen des Grundraums auch Ereignisse sind. Stattdessen geben wir
ein Mengensystem an, auf dem Wahrscheinlichkeiten so definiert werden
können, dass die Axiome erfüllt sind.
Für jedes abgeschlossene Intervall [c, d] mit a ≤ c ≤ d ≤ b ordnet die
kontinuierliche Gleichverteilung dem Ereignis [c, d] die Wahrscheinlichkeit
Pr([c, d]) =
d−c
b−a
zu.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
356
Algorithmen und Datenstrukturen
Beachte:
• Pr([x, x]) = 0
• Pr (c, d) = Pr([c, d])
Allgemein sind alle Ereignisse diejenigen Teilmengen von [a, b], welche als
endliche oder abzählbare Vereinigung von offenen oder abgeschlossenen
Intervallen dargstellt werden können.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
357
Algorithmen und Datenstrukturen
A.1.4
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Bedingte Wahrscheinlichkeit beschreibt Zufallsexperimente, über deren
Ausgang bereits Teilinformationen bekannt sind.
Beispiel: Beim Wurf zweier fairer Münzen sei bekannt, dass eine der
beiden Kopf zeige. Wie groß ist die Wahrscheinlichkeit, dass beide Kopf
zeigen ?
Die Vorinformation schließt das Ereignis {ZZ} aus. Da die verbleibenden
drei Ereignisse gleich wahrscheinlich sind, ist die Antwort 1/3.
Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Annahme,
dass Ereignis B eingetreten ist, wird definiert als
Pr(A|B) :=
A.1 Wahrscheinlichkeit
Pr(A ∩ B)
,
Pr(B)
sofern Pr(B) 6= 0.
TU Bergakademie Freiberg, WS 2004/05
358
Algorithmen und Datenstrukturen
Im Beispiel:
A = {KK},
Pr(A) = 1/4,
B = {ZK, KZ, KK},
Pr(B) = 3/4,
und somit
Pr(A|B) =
1/4
= 1/3.
3/4
Zwei Ereignisse heißen unabhängig, falls
Pr(A ∩ B) = Pr(A) · Pr(B),
was, falls Pr(B) 6= 0, äquivalent ist mit
Pr(A|B) = Pr(A).
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
359
Algorithmen und Datenstrukturen
A.1.5
Der Satz von Bayes
Nach Definition bedingter Wahrscheinlichkeit gilt
Pr(A ∩ B) = Pr(B) Pr(A|B) = Pr(A) Pr(B|A).
Auflösen nach Pr(A|B) ergibt den Satz von Bayes, wonach
Pr(A|B) =
A.1 Wahrscheinlichkeit
Pr(A) Pr(B|A)
.
Pr(B)
(A.1)
TU Bergakademie Freiberg, WS 2004/05
360
Algorithmen und Datenstrukturen
Wegen B = (B ∩ A) ∪ (B ∩ A) und da die Ereignisse B ∩ A und B ∩ A
disjunkt erhalten wir mit
Pr(B) = Pr(B ∩ A) + Pr(B ∩ A) = Pr(A) Pr(B|A) + Pr(A) Pr(B|A)
die äquivalente Formulierung
Pr(A|B) =
A.1 Wahrscheinlichkeit
Pr(A) Pr(B|A)
Pr(A) Pr(B|A) + Pr(A) Pr(B|A)
TU Bergakademie Freiberg, WS 2004/05
361
Algorithmen und Datenstrukturen
Der Bayessche Satz vereinfacht oft die Berechnung bedingter
Wahrscheinlichkeiten.
Beispiel: Gegeben seien zwei Münzen, die eine fair, die andere so
beschaffen, dass sie stets Kopf liefert. Wir betrachten ein
Zufallsexperiment bestehent aus drei unabhängigen Ereignissen
1. Eine der beiden Münzen wird zufällig ausgewählt.
2. Diese Münze wird geworfen.
3. Diese Münze wird ein zweites Mal geworfen.
Angenommen die Münze zeigt beide Male Kopf. Wie groß ist die
Wahrscheinlichkeit, dass in 1. die nicht-faire Münze ausgewählt wurde ?
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
362
Algorithmen und Datenstrukturen
Lösung mit Bayesschem Satz:
Wir definieren die Ereignisse
A := {Die nicht-faire Münze wurde ausgewählt},
B := {Die geworfene Münze zeigt zweimal Kopf}.
Wir wollen Pr(A|B) bestimmen.
Es gelten Pr(A) = 21 , Pr(B|A) = 1, Pr(A) = 21 sowie Pr(B|A) = 14 , und
somit
(1/2) · 1
4
Pr(A|B) =
= .
(1/2) · 1 + (1/2) · (1/4)
5
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2004/05
363
Algorithmen und Datenstrukturen
A.2 Diskrete Zufallsvariable
Eine (diskrete) Zufallsvariable X ist eine Funktion von einem endlichen
oder abzählbaren Grundraum in die reellen Zahlen. Dadurch wird jedem
Elementarereignis eine Zahl zugeordnet, und eine
Wahrscheinlichkeitsverteilung auf den reellen Zahlen induziert.a
Für eine Zufallsvariable X und x ∈ R definieren wir das Ereignis X = x als
X −1 ({x}) = {ω ∈ Ω : X(ω) = x}, und somit
X
Pr(X = x) =
Pr({ω}).
{ω∈Ω:X(ω)=x}
Die Funktion f (x) = Pr(X = x) ist die Wahrscheinlichkeitsdichte der
Zufallsvariable X.
a Zufallsvariable
können auch für überabzählbare Grundräume definiert werden, was aber
gewisse technische Feinheiten beinhaltet die für unsere Belange nicht erforderlich sind.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
364
Algorithmen und Datenstrukturen
Aus den Axiomen folgt Pr(X = x) ≥ 0 sowie
P
x
Pr(X = x) = 1.
Beispiel: Werfen zweier Würfel
Sind diese ungezinkt, so liegt Gleichverteilung vor, d.h. jedes des 36
Elementarereignisse besitzt die Wahrscheinlichkeit 1/36.
Die Zufallsvariable X sei definiert als das Maximum der beiden
geworfenen Augenzahlen.
So ist etwa Pr(X = 3) = 5/36, da X genau den Elementarereignissen
(1, 3), (2, 3), (3, 3), (3, 2) und (3, 1)
den Funktionswert 3 zuordnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
365
Algorithmen und Datenstrukturen
Sind X und Y zwei auf demselben Grundraum definierte Zufallsvariable,
so bezeichnet man die auf R2 definierte Funktion
f (x, y) = Pr({X = x und Y = y})
als gemeinsame Wahrscheinlichkeitsdichte von X und Y . Für festes y gilt
X
Pr(Y = y) =
Pr({X = x und Y = y})
x
und analog für festes x
Pr(X = x) =
X
Pr({X = x und Y = y})
y
Nach de Definition der bedingten Wahrscheinlichkeit ist
Pr(X = x|Y = y) =
A.2 Diskrete Zufallsvariable
Pr({X = x und Y = y})
Pr(Y = y)
TU Bergakademie Freiberg, WS 2004/05
366
Algorithmen und Datenstrukturen
Zwei Zufallsvariablen heißen unabhängig, falls für alle x, y die Ereignisse
{X = x} und {Y = y} unabhängig sind, oder äquivalent
Pr({X = x und Y = y}) = Pr(X = x) · Pr(Y = y).
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
367
Algorithmen und Datenstrukturen
A.2.1
Erwartungswert einer Zufallsvariable
Da Wahrscheinlichkeitsverteilungen sehr viel Information enthalten ist es
hilfreich, einige Größen zu definieren, welche die wichtigsten
Eigenschaften von Zufallsvariablen zusammenfassen.
Der Erwartungswert (Mittelwert, Erwartung) einer diskreten Zufallsvariable
X ist definiert als
X
E[X] :=
x · Pr(X = x)
x
(sofern die Summe endlich ist bzw. absolut konvergiert).
Der Erwartungswert von X wird auch mit µX oder einfach µ bezeichnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
368
Algorithmen und Datenstrukturen
Beispiel: Sie werfen zwei faire Münzen und erhalten für jeden Kopf 3
Euro, müssen aber für jede Zahl 2 Euro bezahlen. Der Erwartungswert der
Zufallsvariable X, die Ihren Gewinn angibt, ergibt sich zu
E[X] = 6 · Pr({KK}) + 1 · Pr({ZK, KZ}) − 4 · Pr({ZZ})
= 6 · 1/4 + 1 · 1/2 − 4 · 1/4
= 1.
Eine wichtige Eigenschaft des Erwartungswerts ist die Linearität, d.h. für
beliebige Zufallsvariable X gilt
E[X + Y ] = E[X] + E[Y ]
(selbst wenn X und Y nicht unabhängig sind).
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
369
Algorithmen und Datenstrukturen
Ist X eine Zufallsvariable und g eine Funktion einer Veränderlichen, so ist
durch Y (ω) := g(X(ω)) eine neue Zufallsvariable definiert. Hierfür ist der
Erwartungswert
X
E[g(X)] =
g(x) Pr(X = x),
x
sofern die Summe existiert.
Für die spezielle Funktion g(x) = ax, a eine Konstante, ergibt sich
E[aX] = aE[X],
d.h. für Zufallsvariablen X, Y und Konstanten a, b gilt stets
E[aX + bY ] = aE[X] + bE[Y ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
370
Algorithmen und Datenstrukturen
Sind X, Y unabhängige Zufallsvariable, für welche die Erwartung existiert,
so gilt
XX
E[XY ] =
xy Pr({X = x und Y = y})
x
=
y
XX
x
xy Pr(X = x) Pr(Y = y)
y
!
=
X
x Pr(X = x)
x
!
X
y Pr(Y = y)
y
= E[X] E[Y ].
Allgemeiner: sind die Zufallsvariablen X1 , . . . , Xn paarweise unabhängig,
so gilt
E[X1 X2 · · · Xn ] = E[X1 ]E[X2 ] · · · E[Xn ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
371
Algorithmen und Datenstrukturen
A.2.2
Varianz und Standardabweichung
Der Erwartungswert einer Zufallsvariable gibt keine Auskunft darüber, wie
weit die Werte dieser Zufallsvariablen darum streuen.
Gilt etwa für zwei Zufallsvariable X und Y
Pr(X = 1/4) = Pr(X = 3/4) = 1/2,
sowie
Pr(Y = 0) = Pr(Y = 1) = 1/2,
so liegen trotz E[X] = E[Y ] = 1/2 die Werte von Y weiter vom
Erwartungswert entfernt als die von X.
Die Varianz quantifiziert diese Streuung.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
372
Algorithmen und Datenstrukturen
Die Varianz einer Zufallsvariablen X mit Erwartungswert E[X] ist definiert
durch
Var[X] := E[(X − E[X])2 ]
= E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X E[X]] + E[X]2
= E[X 2 ] − 2E[X]2 + E[X]2
= E[X 2 ] − E[X]2 .
Für skalare Vielfache aX, a konstant, ergibt sich
Var[aX] = a2 Var[X].
Für unabhängige Zufallsvariable X, Y gilt
Var[X + Y ] = Var[X] + Var[Y ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
373
Algorithmen und Datenstrukturen
Entsprechend gilt für n paarweise unabhängige Zufallsvariablen
X1 , . . . , Xn
Var[X1 + · · · + Xn ] = Var[X1 ] + · · · + Var[Xn ].
Die Standardabweichung einer Zufallsvariablen X ist die (nichtnegative)
Wurzel der Varianz von X, und wird mit σ oder σX bezeichnet.
Mit σ 2 wird oft auch die Varianz bezeichnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2004/05
Herunterladen