A Grundbegriffe der Wahrscheinlichkeitsrech

Werbung
112
Algorithmen und Datenstrukturen
A
Grundbegriffe der Wahrscheinlichkeitsrechnung
Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus
der Wahrscheinlichkeitsrechnung erforderlich. Diese werden in diesem
Anhang bereitgestellt.
A Grundbegriffe der Wahrscheinlichkeitsrechnung
TU Bergakademie Freiberg, WS 2005/06
113
Algorithmen und Datenstrukturen
A.1 Wahrscheinlichkeit
Wahrscheinlichkeit wird definiert bezüglich eines Grundraums Ω, dessen
Elemente ω Elementarereignisse genannt werden. Jedes Elementarereignis kann als mögliches Ergebnis eines Zufallsexperiments angesehen
werden.
Beispiel: Betrachte das Zufallsexperiment, zwei unterscheidbare Münzen
zu werfen. Mit K=Kopf und Z=Zahl ist der Grundraum gegeben durch
Ω = {KK, ZK, KZ, ZZ}.
Ein Ereignis ist eine Teilmenge des Grundraums. Im obigen Beispiel wäre
etwa das Ereignis, genau einen Kopf und eine Zahl zu werfen, gegeben
durch {KZ, ZK} ⊂ Ω.
Die gesamte Menge Ω heißt sicheres Ereignis, das Ereignis ∅ heißt Nullereignis. Zwei Ereignisse A und B sind disjunkt, falls A ∩ B = ∅.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
114
Algorithmen und Datenstrukturen
A.1.1
Axiome der Wahrscheinlichkeit
Eine Wahrscheinlichkeitsverteilung Pr auf einem Grundraum Ω ist eine
Abbildung, welche Ereignissen reelle Zahlen zuordnet, sodass folgende
Axiome erfüllt sind:
1. Pr(A) ≥ 0 für alle Ereignisse A.
2. Pr(Ω) = 1.
3. Pr(A ∪ B) = Pr(A) + Pr(B) für zwei disjunkte Ereignisse A, B. Allgemeiner: für jede abzählbare Folge paarweise disjunkter Ereignisse
gilt
[ X
Pr
Ai =
Pr(Ai ).
i
i
Pr(A) heißt Wahrscheinlichkeit des Ereignisses A.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
115
Algorithmen und Datenstrukturen
Folgerungen aus den Axiomen:
• Pr(∅) = 0
• A ⊂ B ⇒ Pr(A) ≤ Pr(B).
• Mit A := Ω \ A (Komplement von A) gilt Pr(A) = 1 − Pr(A).
• Für zwei beliebige Ereignisse A, B gilt
Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A ∩ B) ≤ Pr(A) + Pr(B).
Im Münzbeispiel: besitzen alle 4 Elementarereignisse dieselbe Wahrscheinlichkeit 1/4, so ist die Wahrscheinlichkeit, mindestens einen Kopf zu werfen
Pr({KK, KZ, ZK}) = Pr({KK}) + Pr({KZ}) + Pr({ZK}) = 3/4.
Die W. echt weniger als einmal Kopf zu werfen ist Pr({ZZ}) = 1/4, also
wirft man mit W. 1 − 1/4 = 3/4 mindestens einmal Kopf.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
116
Algorithmen und Datenstrukturen
A.1.2
Diskrete Wahrscheinlichkeitsverteilungen
Eine Wahrscheinlichkeitsverteilung heißt diskret, falls sie über einem endlichen oder abzählbaren Grundraum Ω definiert ist. Da Elementarereignisse
paarweise disjunkt sind, gilt in diesem Fall für jedes Ereignis A
X
Pr(A) =
Pr(ω).
ω∈A
Ist Ω endlich und besitzt jedes Elementarereignis dieselbe Wahrscheinlichkeit 1/|Ω|, so spricht man von einer Gleichverteilung.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
117
Algorithmen und Datenstrukturen
Beispiel: Wurf einer fairen Münze, d.h. bei welcher Kopf und Zahl je
mit Wahrscheinlichkeit 1/2 auftreten. Bei n-maligem Wurf ergibt sich die
Gleichverteilung auf dem Grundraum Ω = {K, Z}n bestehend aus allen nTupeln aus {K, Z}, d.h. |Ω| = 2n , und jedes tritt auf mit Wahrscheinlichkeit
1/2n .
Für das Ereignis
A = {Genau k Mal Kopf und n − k Mal Zahl treten auf}
n
gilt |A| = k , denn es gibt genau soviele n-Tupel aus {K, Z}n , in denen K
k Mal auftritt. Somit gilt
Pr(A) =
A.1 Wahrscheinlichkeit
n
k
2n
.
TU Bergakademie Freiberg, WS 2005/06
118
Algorithmen und Datenstrukturen
A.1.3
Kontinuierliche Gleichverteilung
Hier ist Ω = [a, b] mit a < b, a, b ∈ R.
Die kontinuierliche Gleichverteilung ist ein Beispiel, in dem nicht alle Teilmengen des Grundraums auch Ereignisse sind. Stattdessen geben wir
ein Mengensystem an, auf dem Wahrscheinlichkeiten so definiert werden
können, dass die Axiome erfüllt sind.
Für jedes abgeschlossene Intervall [c, d] mit a ≤ c ≤ d ≤ b ordnet die
kontinuierliche Gleichverteilung dem Ereignis [c, d] die Wahrscheinlichkeit
Pr([c, d]) =
d−c
b−a
zu.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
Algorithmen und Datenstrukturen
119
Beachte:
• Pr([x, x]) = 0
• Pr (c, d) = Pr([c, d])
Allgemein sind alle Ereignisse diejenigen Teilmengen von [a, b], welche als
endliche oder abzählbare Vereinigng von offenen oder abgeschlossenen
Intervallen dargstellt werden können.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
120
Algorithmen und Datenstrukturen
A.1.4
Bedingte Wahrscheinlichkeit und Unabhängigkeit
Bedingte Wahrscheinlichkeit beschreibt Zufallsexperimente, über deren
Ausgang bereits Teilinformationen bekannt sind.
Beispiel: Beim Wurf zweier fairer Münzen sei bekannt, dass eine der
beiden Kopf zeige. Wie groß ist die Wahrscheinlichkeit, dass beide Kopf
zeigen ?
Die Vorinformation schließt das Ereignis {ZZ} aus. Da die verbleibenden
drei Ereignisse gleich wahrscheinlich sind, ist die Antwort 1/3.
Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Annahme,
dass Ereignis B eingetreten ist, wird definiert als
Pr(A|B) :=
A.1 Wahrscheinlichkeit
Pr(A ∩ B)
,
Pr(B)
sofern Pr(B) 6= 0.
TU Bergakademie Freiberg, WS 2005/06
121
Algorithmen und Datenstrukturen
Im Beispiel:
A = {KK},
Pr(A) = 1/4,
B = {ZK, KZ, KK},
Pr(B) = 3/4,
und somit
Pr(A|B) =
1/4
= 1/3.
3/4
Zwei Ereignisse heißen unabhängig, falls
Pr(A ∩ B) = Pr(A) · Pr(B),
was, falls Pr(B) 6= 0, äquivalent ist mit
Pr(A|B) = Pr(A).
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
122
Algorithmen und Datenstrukturen
A.1.5
Der Satz von Bayes
Nach Definition bedingter Wahrscheinlichkeit gilt
Pr(A ∩ B) = Pr(B) Pr(A|B) = Pr(A) Pr(B|A).
Auflösen nach Pr(A|B) ergibt den Satz von Bayes, wonach
Pr(A|B) =
A.1 Wahrscheinlichkeit
Pr(A) Pr(B|A)
.
Pr(B)
(A.1)
TU Bergakademie Freiberg, WS 2005/06
123
Algorithmen und Datenstrukturen
Beispiel: Das Monty-Hall Problem
Als Kandidat einer Spielsendunga erhalten Sie die Wahl zwischen drei
Türen: hinter einer Tür befindet sich ein wertvoller Preis (etwa ein Auto),
hinter den anderen beiden befindet sich jeweils ein weniger wertvoller
Preis (etwa eine Ziege). Nachdem Sie ihre Wahl getroffen haben öffnet
der Moderator eine der nichtgewählten Türen und bringt eine Ziege zum
Vorschein. Sie erhalten nun die Möglichkeit, Ihre Wahl zu revidieren und
zur anderen verbleibenden Tür zu wechseln. Erhöht ein Wechsel Ihre
Gewinnchancen?
a Die
Sendung hieß Let’s Make a Deal und Monty Hall war der Moderator.
A.1 Wahrscheinlichkeit
TU Bergakademie Freiberg, WS 2005/06
124
Algorithmen und Datenstrukturen
Lösung: Wechseln verdoppelt Ihre Gewinnchancen.
Bezeichnungen:
W ∈ {1, 2, 3}
vom Kandidatengewählte Tür
P ∈ {1, 2, 3}
Tür, hinter welcher Preis liegt
T ∈ {1, 2, 3}
Tür, die Moderator öffnet
O.b.d.A.: W = 1, T = 2.
Es gilt:
Pr(P = 1) = Pr(P = 2) = Pr(P = 3) =
Pr(T = 1) = 0,
A.1 Wahrscheinlichkeit
1
,
2
1
Pr(T = 2|P = 1) = ,
2
Pr(T = 2) = Pr(T = 3) =
Pr(T = 2|P = 3) = 1,
Satz von Bayes:
1
,
3
2
,
3
1
Pr(P = 1|T = 2) = .
3
Pr(P = 3|T = 2) =
TU Bergakademie Freiberg, WS 2005/06
125
Algorithmen und Datenstrukturen
A.2 Diskrete Zufallsvariable
Eine (diskrete) Zufallsvariable X ist eine Funktion von einem endlichen
oder abzählbaren Grundraum in die reellen Zahlen. Dadurch wird jedem
Elementarereignis eine Zahl zugeordnet, und eine Wahrscheinlichkeitsverteilung auf den reellen Zahlen induziert.a
Für eine Zufallsvariable X und x ∈ R definieren wir das Ereignis X = x als
X −1 ({x}) = {ω ∈ Ω : X(ω) = x}, und somit
X
Pr(X = x) =
Pr({ω}).
{ω∈Ω:X(ω)=x}
Die Funktion f (x) = Pr(X = x) ist die Wahrscheinlichkeitsdichte der
Zufallsvariable X.
a Zufallsvariable
können auch für überabzahlbare Grundräume definiert werden, was aber
gewisse technische Feinheiten beinhaltet die für unsere Belange nicht erforderlich sind.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
126
Algorithmen und Datenstrukturen
Aus den Axiomen folgt Pr(X = x) ≥ 0 sowie
P
x
Pr(X = x) = 1.
Beispiel: Werfen zweier Würfel
Sind diese ungezinkt, so liegt Gleichverteilung vor, d.h. jedes des 36 Elementarereignisse besitzt die Wahrscheinlichkeit 1/36.
Die Zufallsvariable X sei definiert als das Maximum der beiden geworfenen
Augenzahlen.
So ist etwa Pr(X = 3) = 5/36, da X genau den Elementarereignissen
(1, 3), (2, 3), (3, 3), (3, 2) und (3, 1)
den Funktionswert 3 zuordnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
127
Algorithmen und Datenstrukturen
Sind X und Y zwei auf demselben Grundraum definierte Zufallsvariable,
so bezeichnet man die auf R2 definierte Funktion
f (x, y) = Pr({X = x und Y = y})
als gemeinsame Wahrscheinlichkeitsdichte von X und Y . Für festes y gilt
X
Pr(Y = y) =
Pr({X = x und Y = y})
x
und analog für festes x
Pr(X = x) =
X
Pr({X = x und Y = y})
y
Nach de Definition der bedingten Wahrscheinlichkeit ist
Pr(X = x|Y = y) =
A.2 Diskrete Zufallsvariable
Pr({X = x und Y = y})
Pr(Y = y)
TU Bergakademie Freiberg, WS 2005/06
128
Algorithmen und Datenstrukturen
Zwei Zufallsvariablen heißen unabhängig, falls für alle x, y die Ereignisse
{X = x} und {Y = y} unabhängig sind, oder äquivalent
Pr({X = x und Y = y}) = Pr(X = x) · Pr(Y = y).
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
129
Algorithmen und Datenstrukturen
A.2.1
Erwartungswert einer Zufallsvariable
Da Wahrscheinlichkeitsverteilungen sehr viel Information enthalten ist es
hilfreich, einige Größen zu definieren, welche die wichtigsten Eigenschaften
von Zufallsvariablen zusammenfassen.
Der Erwartungswert (Mittelwert, Erwartung) einer diskreten Zufallsvariable
X ist definiert als
X
E[X] :=
x · Pr(X = x)
x
(sofern die Summe endlich ist bzw. absolut konvergiert).
Der Erwartungswert von X wird auch mit µX oder einfach µ bezeichnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
130
Algorithmen und Datenstrukturen
Beispiel: Sie werfen zwei faire Münzen und erhalten für jeden Kopf 3
Euro, müssen aber für jede Zahl 2 Euro bezahlen. Der Erwartungswert der
Zufallsvariable X, die Ihren Gewinn angibt, ergibt sich zu
E[X] = 6 · Pr({KK}) + 1 · Pr({ZK, KZ}) − 4 · Pr({ZZ})
= 6 · 1/4 + 1 · 1/2 − 4 · 1/4
= 1.
Eine wichtige Eigenschaft des Erwartungswerts ist die Linearität, d.h. für
beliebige Zufallsvariable X gilt
E[X + Y ] = E[X] + E[Y ]
(selbst wenn X und Y nicht unabhängig sind).
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
131
Algorithmen und Datenstrukturen
Ist X eine Zufallsvariable und g eine Funktion einer Veränderlichen, so ist
durch Y (ω) := g(X(ω)) eine neue Zufallsvariable definiert. Hierfür ist der
Erwartungswert
X
E[g(X)] =
g(x) Pr(X = x),
x
sofern die Summe existiert.
Für die spezielle Funktion g(x) = ax, a eine Konstante, ergibt sich
E[aX] = aE[X],
d.h. für Zufallsvariablen X, Y und Konstanten a, b gilt stets
E[aX + bY ] = aE[X] + bE[Y ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
132
Algorithmen und Datenstrukturen
Sind X, Y unabhängige Zufallsvariable, für welche die Erwartung existiert,
so gilt
XX
E[XY ] =
xy Pr({X = x und Y = y})
x
=
y
XX
x
xy Pr(X = x) Pr(Y = y)
y
!
=
X
x Pr(X = x)
x
!
X
y Pr(Y = y)
y
= E[X] E[Y ].
Allgemeiner: sind die Zufallsvariablen X1 , . . . , Xn paarweise unabhängig,
so gilt
E[X1 X2 · · · Xn ] = E[X1 ]E[X2 ] · · · E[Xn ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
133
Algorithmen und Datenstrukturen
A.2.2
Varianz und Standardabweichung
Der Erwartungswert einer Zufallsvariable gibt keine Auskunft darüber, wie
weit die Werte dieser Zufallsvariablen darum streuen.
Gilt etwa für zwei Zufallsvariable X und Y
Pr(X = 1/4) = Pr(X = 3/4) = 1/2,
sowie
Pr(Y = 0) = Pr(Y = 1) = 1/2,
so liegen trotz E[X] = E[Y ] = 1/2 die Werte von Y weiter vom Erwartungswert entfernt als die von X.
Die Varianz quantifiziert diese Streuung.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
134
Algorithmen und Datenstrukturen
Die Varianz einer Zufallsvariablen X mit Erwartungswert E[X] ist definiert
durch
Var[X] := E[(X − E[X])2 ]
= E[X 2 − 2XE[X] + E[X]2 ] = E[X 2 ] − 2E[X E[X]] + E[X]2
= E[X 2 ] − 2E[X]2 + E[X]2
= E[X 2 ] − E[X]2 .
Für skalare Vielfache aX, a konstant, ergibt sich
Var[aX] = a2 Var[X].
Für unabhängige Zufallsvariable X, Y gilt
Var[X + Y ] = Var[X] + Var[Y ].
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
135
Algorithmen und Datenstrukturen
Entsprechend gilt für n paarweise unabhängige Zufallsvariablen X1 , . . . , Xn
Var[X1 + · · · + Xn ] = Var[X1 ] + · · · + Var[Xn ].
Die Standardabweichung einer Zufallsvariablen X ist die (nichtnegative)
Wurzel der Varianz von X, und wird mit σ oder σX bezeichnet.
Mit σ 2 wird oft auch die Varianz bezeichnet.
A.2 Diskrete Zufallsvariable
TU Bergakademie Freiberg, WS 2005/06
Herunterladen