A Wahrscheinlichkeitstheoretische Grundlagen In diesem Kapitel sind zur Erinnerung einige Definitionen und Ergebnisse (ohne Beweise) zusammengestellt, die man z. B. in einer Vorlesung über Wahrscheinlichkeitstheorie kennengelernt haben sollte. A.1 Allgemeines A.1 Definition Eine σ-Algebra (Ω, E) über einem Ergebnisraum Ω ist eine Menge E ⊆ 2Ω von Ereignissen E ∈ E mit den Eigenschaften: 1. ∅ ∈ E 2. E ∈ E =⇒ Ē ∈ E 3. (∀i ∈ N : Ei ∈ E) =⇒ S i∈N Ei ∈E Ein Wahrscheinlichkeitsmaß Pr [·] auf einer σ-Algebra ist eine Abbildung Pr : E → R+ mit den Eigenschaften: 1. ∀E ∈ E : 0 6 Pr [E] 6 1 2. Pr [Ω] = 1 3. für alle paarweise disjunkten Ereignisse Ei gilt: Pr [ S i Ei ] = P i Pr [Ei ]. Ein Wahrscheinlichkeitsraum (Ω, E, Pr [·]) ist eine σ-Algebra (Ω, E) mit einem darauf definierten Wahrscheinlichkeitsmaß Pr [·]. Ein Wahrscheinlichkeitsraum heißt diskret, falls Ω höchstens abzählbar ist und für alle ω ∈ Ω gilt: {ω} ∈ E. 3 A.2 In einem diskreten Wahrscheinlichkeitsraum ist stets E = 2Ω . A.3 Beispiel. Für die Vorlesung sind Wahrscheinlichkeitsräume der folgenden Art sehr wichtig: Es sei R ein randomisierter Algorithmus und x eine Eingabe für R. Dann gibt es im allgemeinen mehrere verschiedene konkret mögliche Berechnungen von R für x. Das können wie zum Beispiel beim randomisierten Quicksort (siehe Kapitel 2) endlich viele sein. Es können aber selbst für eine einzelne Eingabe auch abzählbar unendlich viele. Als einfaches Beispiel denke man an den (zugegebenermaßen reichlich langweiligen) randomisierten Algorithmus, der für jede natürliche Zahl x als Eingabe so lange Zufallsbits „würfelt“, bis die x zuletzt produzierten Bits alle gleich 1 waren, und als Ausgabe z. B. die Gesamtzahl der benötigten Bits liefert. A.4 Übung. Man gebe für die beiden eben genannten Beispiele Wahrscheinlichkeitsräume an, die jeweils allen möglichen Berechnungen für eine Eingabe x entsprechen. 123 1. Wahrscheinlichkeitstheoretische Grundlagen 124 A.5 Lemma. (Einschluss-Ausschluss-Prinzip) Sind E1 , . . . , Ek beliebige Ereignisse, dann gilt Pr [E1 ∪ E2 ] = Pr [E1 ] + Pr [E2 ] − Pr [E1 ∩ E2 ] und allgemeiner " # [ X X X Pr Ei = Ei − Pr Ei ∩ Ej + Pr Ei ∩ Ej ∩ Ek − · · · i i i<j +(−1) i<j<k X l+1 " Pr i1 <i2 <···<il l \ # Ei r + · · · r=1 A.6 Definition Die bedingte Wahrscheinlichkeit von E1 unter der Bedingung E2 mit Pr [E2 ] > 0 ist Pr [E1 | E2 ] := Pr [E1 ∩ E2 ] /Pr [E2 ]. Ist Pr [E2 ] = 0, so sei Pr [E1 | E2 ] := 0. 3 A.7 Satz. Ist E1 , . . . , Ek eine Partitionierung von Ω und ist Pr [E] > 0, dann gilt: Pr [E] = k X Pr [E | Ei ] · Pr [Ei ] i=1 A.8 Korollar. (Formel von Bayes) Ist E1 , . . . , Ek eine Partitionierung von Ω und ist Pr [E] > 0, dann gilt: Pr [E | Ei ] Pr [Ei ] Pr [Ei ∩ E] = Pk Pr [Ei | E] = . Pr [E] j=1 Pr E | Ej Pr Ej A.9 Definition Zwei Ereignisse E1 und E2 heißen (stochastisch) unabhängig, falls gilt: Pr [E1 ∩ E2 ] = Pr [E1 ] · Pr [E2 ]. Allgemeiner heißt eine Menge {Ei | i ∈ I} unabhängig, falls für alle S ⊆ I gilt: " # \ Y Pr Ei = Pr [Ei ] . i∈S i∈S Die Ereignisse heißen k-unabhängig, wenn obige Gleichung für alle S einer Größe kleiner gleich k gilt. 3 A.2 Zufallsvariablen A.10 Definition Eine Zufallsvariable X ist eine Abbildung X : Ω → R, so dass für alle Borelmengen B ⊆ R gilt: {ω ∈ Ω | X(ω) ∈ B} ∈ E. Wir schreiben statt Pr [{ω ∈ Ω | X(ω) 6 x}] kurz Pr [X 6 x] und analog Pr [X = x]. Außerdem ist z. B. Pr [X 6 x ∧ Y 6 y] zu verstehen als Pr [{ω ∈ Ω | X(ω) 6 x} ∩ {ω ∈ Ω | Y(ω) 6 y}]. 3 A.11 Wir gehen im folgenden stillschweigend davon aus, dass Pr [X 6 x] und Pr [X = x] stets existieren, sofern es nicht ohnehin klar ist, etwa wenn der Wahrscheinlichkeitsraum (Ω, E) diskret ist. A.12 Beispiel. Das Beispiel für Zufallsvariablen in dieser Vorlesung schlechthin ist der Zeitbedarf eines randomisierten Algorithmus für eine konkrete Eingabe. 22. Oktober 2015 c Th. Worsch 2000-2015 1. Wahrscheinlichkeitstheoretische Grundlagen 125 A.13 Übung. Man präzisiere die eben getroffene Aussage für die Wahrscheinlichkeitsräume aus Beispiel A.3. Im Fall des randomisierten Quicksort mache man sich klar, dass der Erwartungswert für die Laufzeit nur von der Anzahl der Datenelemente, aber nicht von ihrer ursprünglichen Reihenfolge abhängt. Für den „Bit-Würfel-Algorithmus“ versuche man, den Erwartungswert für die Laufzeit in Abhängigkeit von der Anzahl der zu produzierenden 1-Bits zu bestimmen. A.14 Definition Eine Zufallsvariable ist diskret, falls ihr Wertebereich endlich oder abzählbar unendlich ist. Die Indikatorvariable für ein Ereignis E ist die diskrete Zufallsvariable X mit 1 falls ω ∈ E X(ω) = 0 falls ω ∈ /E 3 A.15 Definition Die Verteilungsfunktion FX einer Zufallsvariablen X ist die Abbildung FX : R → [0, 1] : x 7→ Pr [X 6 x] . Die Dichtefunktion pX einer Zufallsvariablen X ist die Abbildung 3 pX : R → [0, 1] : x 7→ Pr [X = x] . A.16 Definition Die gemeinsame Verteilungsfunktion FX,Y zweier Zufallsvariablen X und Y, die auf dem gleichen Ergebnisraum definiert sind, ist die Abbildung FX,Y : R × R → [0, 1] : (x, y) 7→ Pr [X 6 x ∧ Y 6 y] . Die gemeinsame Dichtefunktion pX,Y von X und Y ist die Abbildung pX,Y : R × R → [0, 1] : (x, y) 7→ Pr [X = x ∧ Y = y] . 3 A.17 Definition Zwei Zufallsvariablen X und Y heißen unabhängig, wenn für alle x, y ∈ R gilt: Pr [X = x ∧ Y = y] = Pr [X = x] · Pr [Y = y] . Allgemeiner heißt eine Menge {Xi | i ∈ I} von Zufallsvariablen unabhängig, falls für alle S ⊆ I und alle Mengen {xi ∈ R | i ∈ I} gilt: " # ^ Y Pr Xi = xi = Pr [Xi = xi ] . i∈S i∈S Die Zufallsvariablen heißen k-unabhängig, wenn obige Gleichung für alle S einer Größe kleiner gleich k gilt. 3 A.18 Lemma. Zwei Zufallsvariablen X und Y sind genau dann unabhängig, wenn für alle x, y ∈ R gilt: Pr [X = x | Y = y] = Pr [X = x] . A.19 Definition Der Erwartungswert E [X] einer Zufallsvariablen X ist E [X] := diese Summe absolut konvergiert. 22. Oktober 2015 P x∈R x · pX (x), sofern 3 c Th. Worsch 2000-2015 1. Wahrscheinlichkeitstheoretische Grundlagen 126 P Absolute Konvergenz bedeutet, dass sogar x∈R |x| · pX (x) konvergiert. In diesem Fall ist E [X] P tatsächlich unabhängig von der Reihenfolge der Summanden in x∈R x · pX (x). A.20 Lemma. Für beliebige Zufallsvariablen X1 , . . . , Xk und beliebige lineare Funktionen h gilt: E [h(X1 , . . . , Xk )] = h(E [X1 ] , . . . , E [Xk ]) . A.21 Lemma. Für unabhängige Zufallsvariablen X und Y gilt: E [XY] = E [X] · E [Y] . k A.22 Definition Für k ∈ N sind das kte Moment mk X und das kte zentrale Moment zX definiert als h i k mk X = E X i h k [X]) zk = E (X − E . X Das erste Moment ist der Erwartungswert von X und wird manchmal mit µ bezeichnet. Das zweite zentrale Moment heißt auch Varianz und wird mit var [X] oder σ2X bezeichnet. Die Größe σX heißt auch Standardabweichung. 3 A.23 Lemma. var [X] = m2X − µ2X = E X2 − E [X]2 . 22. Oktober 2015 c Th. Worsch 2000-2015